投稿者
題名
*内容 入力補助画像・ファイル<IMG>タグが利用可能です。(詳細)
URL
sage

  • [138]
  • 学力の評価と測定をめぐって その1

  • 投稿者:TaKu
  • 投稿日:2018年10月 3日(水)19時59分3秒
  • 返信
 
学力の評価と測定をめぐって
https://www.jstage.jst.go.jp/article/arepj/57/0/57_209/_article/-char/ja
https://www.jstage.jst.go.jp/article/arepj/57/0/57_209/_pdf/-char/ja
P210
討論の趣旨と論点
大塚雄作


調査と選抜試験の違い

 例えば,「思考力・判断力・表現力」を測定する入試問題の参照すべき例として,PISA や全国学力・学習状況調査の問題が取り上げられることが少なくないのであるが,それらはあくまで調査であって,個人の学力のレベルを識別してそれによって選抜しなければならない入学試験とは目的が異なっている。問題が出されてそれに解答するというテストの形式を両者とも同様に採用しているとしても,調査では基本的に集団の統計量によって「集団」の学力レベルを表現するのが目的となるのに対して,選抜試験では「個人」の学力レベルを識別する必要がある。

P211
形成的評価と総括的評価の違い

 しかし,元来,評価・測定の手法は,ある目的の達成のために開発されてきているものであって,例えば,教育実践の文脈の中で指導や学習の改善のために向いている評価手法が,必ずしも,大規模に行われる選抜試験などに有効とは限らない。言い換えれば,教育のプロセスの中で利用される形成的評価 (formative evalua-tion)に有効な評価手法が,必ずしも,選抜をはじめとする総括的評価(summative evaluation)にも同じように有効というわけではないということである。

論述をどのレベルで,どの視点から行うかは,そのような文脈が何も共有されていない場合には非常に多岐にわたるはずのものであって,その多様性のゆえに,採点基準なども一意には定めることが難しいということになりがちである。その点で,多様な受験生を対象とする大規模共通試験には,論述式の問題が必ずしも適当とは言えないことが帰結されるであろう。

P211-212
非認知的能力の評価

 そもそも,「主体的に学習に取り組む態度」などは,とりわけ,大学のレベルではすべての学習領域において要求すべきものでもなく,個人個人,領域固有のことであってよいものである。また,ハイステイクスな選抜試験において評価するということになったときに,どういう波及効果が起こりうるのかということを考えると,受験産業などが準備するであろうハウツーの浸透は当然予想されることであり,「主体性」等を測定するために開発された測定・評価ツールの持つ当初の妥当性は,おそらく年ごとに劣化していってしまうことにもなるであろう。




P212
大規模学力アセスメント―大学入試センター
「共通テスト」への批判的考察
柴山直


P213
「学力の 3 要素」とテスト理論の不在

P213-214
しかし「学力の 3 要素」については学術的な背景なしに,また審議会等での議論もなしに,行政主導で導入されたことによる弊害が生じる可能性に関する指摘がある (南風原,2016)。実際に学校現場でも教科教育の中でそれをどう組み込むのか,あるいは具体的な教授・学習,その結果把握のための測定・評価の際に,いかに 3 つの要素を切り分けて扱うのか,そもそもそれは不可能ではないのかという観点からの戸惑いないし困惑が早くも広がっていると聞く。
> さらに池田 (1970),Arai & Mayekawa(2005)柴山(2008) などによって長年にわたり繰り返し指摘されてきたように,国際水準から見れば「逆さま現象」(前川,2007)とでもいうべき,大規模テストを裏で支えているテスト理論およびそれに基づく学力の測定技術への無理解・誤解ないし無視の傾向が,わが国の教育行政にはある。それが特に著しいのがここ数年行政主導で推し進められている大学入試センター試験の「改革」である。テスト理論の利用を無視して大規模テストを実施しようとしているこのような動きをもって,わが国の「大規模共通テストのガラパゴス化現象」と批判されることもある。これらの問題点が集約的に出現してしまっている例が,昨今マスメディア等でもとみに迷走が指摘される,2020 年度の共通テストに向けた記述式,英語 4 技能の導入の動きと見ることも可能である。


P214
大規模学力調査を設計する際のポイント

 次に,調査目的あるいは選抜なのか指導なのか,それとも診断なのかといった,実施目的にテストの設計仕様を合致させなければならない。たとえば選抜目的なら合否の分割点付近で個人差を識別できる情報が最大となる設計が必要となろう。しかし現実には相反する目的が一つのテストに課せられることはしばしば生じる。

全国学力学習状況調査結果の向上策としていくつかの自治体がすでに実施しているように,分布の左裾のあたりに位置する集団の平均を上げる方がそうでない部分の集団の平均を上げるよりも効率的な対策となる。しかしそのような対策は,いわゆる学力が十分でない児童生徒達には良いかもしれないが,全国学力学習状況調査が目的として掲げている,わが国のすべての児童生徒達の学力向上に資する指導とは言い難い。

P215
大学入試センター共通テストの課題

特に多肢選択形式の項目に対する表面的な批判は頻繁になされる。選択肢の中に正答があるから当てずっぽうでも正答できる上,マークするだけだから深く考えなくてもすむといった批判がその典型である。残念ながらこれらは表面的な見かけにとらわれた批判といわざるをえない。たとえばここに 6 肢選択方式の 5 つの項目があったとしよう。これを当てずっぽうで鉛筆を転がして 5 点中3 点を取れる確率は,すぐに計算できるように 216 分の 1,小数点表示にして約 0.005 でしかない。実際のテストでは項目数は 30 程度は確保されているため,当てずっぽうだけでそれなりの得点をするのはほとんど不可能である。
> さらに,よく吟味して作題された項目セットを準備すれば多肢選択方式であってもかなり高次の学力まで測定できることはこれまでの長年の実証的研究で分かっている (Haladyna et al., 2002)。このほかにも,受験生に考えさせようとするあまり,多肢選択形式において正答を一つにせずいくつかの正答を組み合わせた選択肢を準備し,その中から正しい組み合わせの選択肢を選ばせるような無理な工夫も散見する。しかしこれも難易度を見かけ上高くするだけでそこから獲得できる情報は,一つ一つ分離して問うていくよりも遙かに少なくなってしまう。受験生に無駄な時間を使わせることで難易度を見かけ上高くしてしまう,間違った項
目作成の例としては,資料を大量に与えられた受験生がパズルを解くかのような作業を経たのち,ようやくそのテストが本来測定しようとしている能力が使えるといった構成になっているような場合が典型である。
> わが国においては医学共用試験などでも採用されている多肢選択形式の客観式テストは,そもそも大規模なテストにおいて判定したい能力,測定したい学力をいかに低コストで効率よくまた正確に得るかという実務的な観点から考案され,100 年あまりの年月をかけ,理論的にも技術的にも洗練されてきたものである。そこには大規模な試験にふさわしい項目の作成のノウハウ・基礎基本というものがすでに確立されてある。大規模テストにおける記述式のコストパフォーマンスの低さ(井本・柴山, 2016),および記述式を客観式項目群の中に混在させる実施上の不整合なども含めて,現在進められている大学入試センター試験の「改革」は,本稿執筆時おいては,大規模テストを支える測定技術の点から見ても,その基礎・基本から大きく外れた方向に進んでいるとしか筆者には思えないのである。