インターネット環境の普及は、ウェブベースのテストや評価の基盤を作り、広い意味で評価に利用できる情報は膨大な量になっています。今回の研究会では、これらの情報をどのように教育評価につなげていくのか、また、そのような教育評価を組み込んだ新しい教材開発のスタイルはどうなっていくのかについて、議論を進めていきたいと考えています。
長岡技術科学大学は、主に工業高等専門学校(高専)卒業生の大学学士、大学院修士・博士までの一貫したカリキュラムを供給するため設立された。高専卒業生を3年次編入生として受け入れる際に問題となることがある。本来、大学1,2年次に履修しておいて欲しい授業を履修できないこと、多様な高専からの入学を受け入れるため、技術者教育に必要な一貫した4年間のカリキュラムを保証できないこと、高専において大学の教養教育に該当する授業が少ないことが挙げられる。この問題を解決するために、2001年度に高専に対してインターネットによる非同期型eラーニングを配信した。それをきっかけに現在までに、社会人向けの大学院コース、市民講座、大学間・大学院間、海外向けなどのeラーニングの配信を実践してきた。今回は、その実践において行った、様々なデータ解析について紹介する。
教育工学において、データ解析は一つの分野として存在してきたが、今では衰退していまっているように思われる。教育の現場では、テストを行い学生個々人が取った点数を分野別に解析していけば、教育の向上につながると考えられていた。しかし、実際の現場では生徒はせいぜい40人程度で、教育に反映するにはサンプルがあまりにも少ない。むしろ、テスト一枚一枚に目を通して、先生が生徒に個別にアドバイスした方が効果的である。
また、サンプルが少ない場合のデータ解析では、推測統計学というものが用いられる。推測統計学は大変難解であったため、教育工学におけるデータ解析はマニアックな分野となってしまった。ただし、最近ではインターネットを通じたeラーニングに注目が集まっている。eラーニングの受講者数は、通常教室で行う授業の受講者数より多く、様々なログが残るためデータは潤沢である。得られるデータはすでにデジタルデータであるため、解析の方法が決まっていれば、コンピュータ上で即座に結果を得ることができる。
このような状況の下、再びデータ解析が注目されている。過去には、不足データの推測を中心にしていたが、データが大量にある現在では、データの抽出、要約、可視化が課題となっている。
eラーニングで学習を行うと、学習者はあまり問題文を読まなかったり、問題を飛ばしたり、解答を学習者同士で共有したりといった具合に、不正を行うことが多々ある。その不正を見抜くために、「異常時検出」という技術を用いる。具体的には、学習者が問題ごとに解答する時間を計測するものである。ある学習者が問題を解いていく中で、全体と比べて異常に解答時間が短い、または長いといった部分を検出し、そこに学習の異常があったと教育者に知らせる。このような技術は、クレジットカードの不正利用の検出などで一般的なものである。ただし、学習においてはクレジットカードとは違って、問題の難易度によって解答時間が変化してくるため、教育者が難易度を予想して補正する必要がある。
教育の現場では、教育者が学習者の表情を読み取り、その内容を授業にフィードバックすることが考えられる。それをeラーニングで実現しようと試みた。この試みでは、視線や瞳孔径を計測することができる、「アイマークレコーダ」を用いた。アイマークレコーダを用いて学習者の視聴行動を分析すると、18分くらいで飽きてきて瞳孔径が小さくなってきている。また、「興味深い」もしくは「つらい」内容においては瞳孔径が大きくなっていることが確認された。
「トランザクション分析」では、学習者が「どのコンテンツの後にどのコンテンツを見たか」といったことを分析する。「コンテンツAを見た後にコンテンツBを見た人が89%、Aの後にCを見た人が12%…」といった情報を遷移確率行列で視覚的に分析する。ただし、この方法だと、コンテンツが3個や4個の場合は解釈が容易であるが、コンテンツが10個や20個といった量になると、それぞれの確率が10%以下になったりしてデータの解釈が難しくなってくる。
別の視覚化の方法として、「マルコフ解析」があげられる。たとえば学習者同士がディスカッションする掲示板の投稿欄に、その記事を決められたカテゴリの中から選択をして、カテゴライズするように求める。それによって、掲示板での議論について、どのようなカテゴリの話題が、どのような順序で行われたかを視覚化することができる。ただし、それでも最適な系列の圧縮記述を保障していない、予測最大化となる構造を保障しない、アークを引くための明確な基準が存在しないといった問題点が存在する。
そこで、「MDL基準」というものを用いる。詳細な数式についての解説は省略するが、「MDL基準」を用いると、単純すぎて説明ができないモデルや、取得したデータに過度にフィットしすぎるモデルを排除して、単純で得られたデータをよく説明できるモデル抽出することができる。それによって、出現頻度の高い、カテゴリの流れをランキングすることができる。たとえば、一つの話題の中に4個のカテゴリのパターンが認められた場合は、掲示板でのやりとりが盛んだったことを示す。これが2個だった場合は、あまりやりとりがされていたとは言えず、教育者は議論の進め方を考える必要がある。
「テキスト・マイニング」ではまず、形態素解析を行う。形態素解析とは、文章を単語に区切る解析である。その後、マイニングを行うが、キーワード分析の基本には「TF(Term Frequency)法」と「IDF(Inverse Document Frequency)法」がある。
「TF法」は、出現頻度が高いキーワードの重みを大きくして文章においてなにが重要かを判定する方法である。一方「IDF法」は、どの文章にも表れるキーワードの重みを低くして、文章固有のキーワードを抽出して特徴を浮き彫りにする方法である。
これら2つを組み合わせたものが「TF-IDF法」である。これを用いた小論文の自動採点システムが考案されている。回答者が書いた小論文と、模範解答、一般論などと構造を比較することによって採点を行うシステムである。しかし、「TF-IDF法」は単語の出現頻度にのみ着目して、文章間の関係を考慮していない。そこで「対応分析」を行い、ある単語Aが存在することによって他の文章の内容に与える影響を、単語Aの特性値として、その影響の度合いを識別力として算出する。その識別力が高いほど、その単語が重要であると考えることができる。「対応分析」は、頻度ではなく、関係性でキーワードを抽出する方法である。
キーワードの関連性を可視化する技術として、「キーグラフ」と「ベイジアン・ネットワーク」を紹介する。
「キーグラフ」とは、ある単語Aとある単語Bが同時に出現することが多い場合、それらは近くにマッピングされ線で結ばれる。そのアルゴリズムに基づいて多数の単語同士を平面上にマッピングしたものが「キーグラフ」である。
「ベイジアン・ネットワーク」は、基本は「キーグラフ」と似ているが、会話の因果関係を考慮しているところに違いがある。たとえば、単語Aに続いて単語Bが頻出する場合、単語Aから単語Bへ矢印が引かれる。「ベイジアン・ネットワーク」では、このように会話の因果関係を可視化することができる。
学習コンテンツでは得点の分析が一番重要ではあるが、同時にネットワークの特性を生かした分析として、「コンテンツの所要時間の分析」が注目されている。たとえば、ある項目を学習するのに必要な項目を「α」、項目ごとに必要な学習時間を「β」として分析すると、「α-β平面」で、教材の難易度を分類することができる。αもβも高い教材は、多くの項目を時間をかけて学習する必要があるので難しい、αが高くてβが低い場合は、簡単な問題をたくさんこなすことによって学習の効果を期待する教材といった具合に分類することができる。
ここまで出てきたような評価技術を用いると、様々なデータを得ることができる。さらに、これらのデータを利用して学習者を支援する「エージェント」を設計することが考えられる。過去の学習者のパターンと比較することにより、このままいくと落第してしまうからこうしたらよい、この調子で続ければ良い成績で単位を取得できるといったアドバイスを「エージェント」にさせることが可能である。学習者が今後どうしたらよいかは、他の学習者と比較して差が生じた時点を特定し、そこでどのような学習の差があったかを見ることによって、アドバイスのための文章を選択するようにする。
このように、eラーニングにおいては多種多様、大量なデータを得ることができるが、それらを適切に処理してエージェントといった技術に適応すれば、より良い学習の効果が期待できると考えられる。
「GTEC(Global Test of English Communication)」は日本人向けだけではなく、世界各国で英語の能力試験として展開されている。きっかけとなったのは2002年に文部科学省が提唱した「英語が使える日本人育成のための戦略構想」である。この構想の目標は、国際競争の中で負けずにビジネスで英語が使える日本人の育成である。GTECはビジネスで英語が使えることを頂点として、英語コミュニケーション能力の客観的な評価基準となることを目標としている。また、GTEC普及の土壌として、ベネッセコーポレーションが世界展開している英会話スクール「Berlitz」を生かしている。また、GTECは日本国内では、英語能力検定として受検を義務づけている外資系企業、官公庁、国内企業がある。
GTECはインターネットを用いた80分の試験である。従来の英語検定は大きく分けて「リーディング」と「リスニング」を問う問題となっている。これらは「リーディングからライティング能力」、「リスニングからスピーキング能力」を間接的に評価しようと考えられているが、GTECではこれらを直接的に評価することを考えている。「ライティング」と「スピーキング」に関しては人間が採点する。採点はタスクの困難さに左右されない、純粋に能力を評価できるように独自のメソッドを用いて行っている。
項目反応理論とは、100問中50問解けたから50点、という従来の試験の考え方とは違い、問題1問ずつに難易度を設定する。難易度の設定には事前のテストなどが必要になる。このような難易度を設定された試験を受験者が解くわけであるが、たとえば、難易度60の問題は解けなかったけど、難易度50の問題は解けた場合、その受験者の点数は50点と評価される。インターネットをベースにした試験では、問題構成をリアルタイムに変えることができるため、難易度50が解けた受験者に対し、次は難易度60を出題する、難易度60が解けなかったら、また難易度50を出題するといったようなことが可能である。視力検査をイメージするとわかりやすい。そういった意味で、項目反応理論とインターネットをベースにした試験は相性がよい。
GTECは、サーバから配信された問題を、全国にあるBerlitz校の端末で受験をするようになっている。受験者の答えたテキストデータや音声データを、サーバに送り返して採点される。「ライティング」や「スピーキング」の採点は、表現がうまいか、論理的かといったことより、メッセージとして伝わっているかといった、コミュニケーション能力を評価する。文法や論理構造はある程度機械的に採点可能かもしれないが、伝わる・伝わらないといったことを機械的に評価することは難しい。そういった理由で採点を人間が行っている。伝わったか・伝わらないかは1か0で評価される。この情報を項目反応理論を使って点数化する。結果はインターネットを通して、どこからでも閲覧できる。
GTECでは、受験者の英語能力を客観的に評価して、その能力で可能なコミュニケーションを伝える必要がある。客観的な物差しを持つためにはどうしても等価技術を持っている項目反応理論が必要になってくる。GTECは世界に500校あるBerlitzのネットワークを生かして、10言語による出題に対応し、世界的な基準となることを目指している。
GTECでは、技能を4種に分類している。それによって「販売系のマネージャ」、「技術者」といった職種別に各技能がどれだけ必要かを明確にすることが可能になっている。
GTECでは学生向けに「GTEC for Student」というペーパーテストを用意している。問題自体は高校生向けになっているが、項目反応理論を用いて高校生が持っている英語能力と、ビジネスパーソンが持っている英語能力を比較することが可能になっている。このような世代が違っても比較が可能なのが項目反応理論を用いたGTECの特徴でもある。また、GTECではビジネスとして英語が使えるかを評価することができるが、その評価基準をGTEC for Studentに適用することにより、学生が英語の努力目標とすることができる。
CBTとCATのメリットとして考えられるのは、スピーキングといった従来のテストでは不可能だった技能の測定が可能になることである。加えて、受験や採点が場所を問わずどこからでも可能である。ただし、GTECが会社の採用基準などに用いられるようになると、試験の場所や時間を厳密に規定する必要が出てくるため、かえってそれがデメリットになる可能性はある。
また、CBTとCATでは膨大な情報の収集が可能であるが、情報量が2倍になると、問題量が半分ですむため、時間の節約にもつながる。その評価の情報の扱いが容易な点もメリットである。ペーパーテストでは、問題は再利用ができずただ消費されるだけであったが、CBTとCATであれば、蓄積されている問題からその場に応じて出題することにより、問題の再利用が可能である。また、問題は利用されればされるほどデータが増えるので、より出題の精度を高めるための情報として用いることができる。
デメリットはインフラが必要なこと、出題に専門的な知識が必要なため、作問が難しい、作問をしてそれをプレテストするのに膨大な費用がかかることがあげられる。問題に様々な得点を設定することになるが、問題の中のちょっとしたゴミが結果に大きな差をもたらすことがあることも問題である。
項目反応理論は、学年にとらわれない能力評価を実現できる。「i+1の法則」といって、iは現状の能力とそれに少しだけ上位の内容を与えると学習が効果的になるという言葉があるが、これは現状では姿勢を示すものでしかない。しかし、項目反応理論によって、iが客観的に評価でき、+1は具体的にどの程度の内容なのか、ということを導き出すことができれば、より適切な教材を学習者に提供することが可能になる。
また、評価や学習内容をまとめた、学習履歴ポートフォリオを蓄積することにより、小学校と中学校、中学校と高校、高校と大学が連携した教育を提案することができるのではないだろうか。たとえば、中学3年生で数学が苦手、という生徒はさかのぼれば小学3年生の時に算数でつまずいている可能性もある。学年によらず、能力を客観的に評価し、適切な教材を与える必要がある。
GTECで用いられている作問方式を用いれば、誰かが作ったテスト問題をネットワークで共有して利用されることによって多くの評価情報が得られ、より洗練された問題が形成されていくと考えられる。このようなテスト問題のパブリックドメインができると理想的であると考えている。
続いて、前出の2名に加えて、東京工業大学の鈴木氏を迎えてラウンドテーブルが組まれました。まずは山内氏から議論のポイントが提示されました。
項目反応理論を用いた評価の研究は、決して新しいものではないが、必要な情報が膨大であったり、また作問が難しかったりしていまいち普及してこなかった。しかし、現在のインターネットの普及などの情報技術の発展によって、現実となった。項目反応理論を用いた試験は、相対評価ではなく絶対評価である。これはある意味、今までの偏差値教育よりもシビアな世の中になると予想される。客観的な評価が可能になってきたが、その評価を受けた学習者をどのようにケアしていくかの提案はまだなされていない。それに関して、3名のパネラーの方には議論していただきたい。
山下: GTECはBerlitzと共同で行っているので、質問の内容は大きな課題であると考えている。何をどのようなやり方で学べばどう成績が上がるのか、といった相関情報を蓄積することがまずは必要であると考えている。それによって、試験後のケアをしていきたい。またGTECでは精度は落ちるが、前出4項目の評価だけではなく、さらに問題を細かく分類している。その分類に基づいて弱点を克服するためのアドバイスを提供している。
植野: 学習者の評価を直接学習者に送るのではなく、先生に送ると言うことを当初はしていた。学習のモチベーションとして先生からの声かけは非常に重要だからである。しかし、現実にはそれを面倒くさがる先生が多くて難しかった。現在では、学習者に直接システムがメッセージを送ることによって、モチベーションを向上させることをしている。また、難易度が高すぎる問題などは差し替えができる仕組みを用意していたが、なかなか先生がそれをしてくれないという問題がある。
鈴木: 私はエージェントによるインタフェースのデザインを行っている。その立場から意見を述べると、情報を集める際にどのような情報を集めればよいかをまずは考える必要がある。そのためにはどうしたらよいかを考えると、生の学習者の姿を見ることが必要条件であると考える。たとえば、先生から学習者への直接の声かけが重要なのはわかるが、ネガティブな声かけはモチベーションの低下につながりうる。そこで、学習者と同じ立場の学習者エージェントを登場させて、そちらに声かけをしているところを提示する、またはこれまでのこのような学習をしてきた学習者は、成績がこのようになりました、といった客観的なデータを提示するなどの対策が考えられる。直接学習者を見ることで、このような提案がしやすくなるのではないか。
山内: 植野氏と山下氏の評価モデルは、確かに様々なことを説明しているが、学習者の特性が変数として入っていない。もし、学習者に対して評価に基づいたフィードバックをするのであれば、学習者の特性は非常に重要になってくると考えられるが、そのことに関してのどのように考えているか?
植野: 私の評価は確かに個々の学習者の特性を評価はしていない。しかし、集団と言うことである程度特性を把握してそれを利用している。たとえば、携帯電話を持っている学生にはタイミングを見計らってメッセージを送ったりといったことである。eラーニングにおける評価研究の分類で述べたところの学習者の部分は、学習者の特性を生かした評価を行っている。
山下: GTECでは学習者の特性を考慮したフィードバックは現在行っていない。テストの結果、どのような学習をしたらいいかということと、学習者の特性は密接に関係していると考えられる。ただし、学習者はこう評価されるのでこう学習するといったことを現実的には行う。高校の英語学習が大学受験を目的においているのが例である。そのような現実で、学習者が正しい学習をできるような評価を用意しておくことは、フィードバックと並んで重要なことであると考えている。
最後の3名のパネラーの方と山内氏から一言ずつコメントを頂きました。
植野: 研究用の美しいモデルを作っても、実際に使ってもらわなければ意味がない。評価に基づいてコンテンツを変えることよりも、声かけといったことが効果的なのは実感している。しかしながら、ニーズをくみ取りすぎると学問になりにくくもなってくる。どこでバランスを取るかが非常に重要な課題となっている。
山下: 植野先生の話をうかがっていると、企業と研究者の間を取り持つプロデューサーの役割の必要性を感じている。また、eラーニングでは自立的に学習する人をいかに輩出するかが課題となっている。そのためには評価のあり方、学習者にメタ認知を与える方法、そして学習者の特性を考慮したフィードバックの3つを実現する必要があるだろう。
鈴木: テストが学習者の行為を決めていると言うことに関して、同意する。インタフェースデザインでも、インタフェースの作り込みがユーザーの行動を決めている。テストにおいても作り込みが大切である。
山内: 今日のお話は、大量に蓄積されたデータから学習に利用できるデータを見つけ出すといったことがテーマであった。最近、Web 2.0という言葉と共にロングテールという言葉をよく耳にする。蓄積されたデータからモデルを構築し、それを評価とするやり方は、頭の部分の評価であって、残りのしっぽの部分は例外とされてきた。しかし、WikiやblogといったWeb 2.0の技術を用いて、リアルタイムに変化して、ロングテールもカバーできるような評価基準を構築することが可能なのではないだろうか。来年度以降、そのような研究を行いたいと考えている。
今回のセミナーでは、デジタル時代の学習における「評価技術」が紹介されました。そこでは、「大量に蓄積されたデータから学習に利用できるデータを見つけ出す」ということが大きなテーマとなっていました。このような評価技術を利用して得られた情報を、学習者の学習プロセスに有効なものとなるよう、どのようにフィードバックしていくかが課題であると感じました。