Sequential Testing for Educational Evaluation

電子情報通信学会技術研究報告, ET92-88, pp.21-28, 1992-12-12

逐次検定の学習評価への適用について

小林　修

　あらまし　2つの単純仮説に対する逐次検定は，固定標本方式に較べて標本数が半減することが知られている．しかし，連続量である学習水準を評価する場合，無限個の仮説を同時に検定することになり，逐次検定をそのままの形で適用することができない．本稿では，この問題を「学習水準ｐがｐ₀程度か，ｐ₁程度か」と読み代えることにより，学習水準の評価に逐次検定が有効であることを，シミュレーションにより示す．この検定では，被験者の学習水準ｐが，ｐ₀以下のときはＨ₀が，ｐ₁以上のときはＨ₁が，ほとんどの場合に採択され，ｐが両者の中間にあるときは，Ｈ₀またはＨ₁が確率的に採択される．固定標本方式に比した平均標本数は，5～8割程度に削減される．

１．まえがき

　逐次検定は，固定標本方式に較べて，標本数が少なくてすむという利点がある．例えば，硬貨投げの表裏の確率が0.5と0.7のいずれであるかを検定する場合，2種類の過誤をともに0.10とすると，0.7が真の場合，固定標本方式では39試行，途中で打ち切っても平均34試行を要するが，逐次検定では平均21試行で検定が終了する（３．４参照）．
　しかし，一般に逐次検定は，この例のように，2つの単純仮説に対して定式化されているので，このままの形で連続量である学習水準の評価に適用することはできない．学習水準を評価する場合，すべての学習水準に対応した無限個の単純仮説を立てることになるからである．
　本稿では，逐次検定を学習水準の評価に適用する際の考え方，およびその際の逐次検定の振る舞いについて，数値計算およびシミュレーションによって明らかにする．
　なお，米軍の訓練データによる実際的研究の報告が文献⁽⁴⁾に，また項目反応理論に基づいたテスト項目を使用して逐次検定を行なった場合および項目反応理論による能力推定との現実的な比較研究が文献⁽³⁾pp.237-283に報告されている．

２．学習水準とカテゴリ

　本稿では，何らかの測度で測った量に従って，被験者をいくつかのカテゴリに分類することを考えているのだが，被験者の能力をどのようなモデルで記述するかは，難しい問題である．
　ごく一般的に考えれば，所与の課題に取り組むということは，被験者が，既存の内的モデルの総体を組み直し，課題に対応できる内的モデルを再構築する試みであると考えることができる．適切な内的モデルの構築に成功すれば，解答が得られるわけである．内的モデルの再構築は相当に劇的なプロセスと考えられるから，正答率50%等という中間的な学習程度は考えにくい．むしろ，解答できるかできないかの二者択一のように思われる．しかし，一般に学習目標は，特定の問題の解答そのものにあるのではなく，より抽象的なレベル（学習内容の汎化）にあるのが普通であり，再構築される内的モデルも，より一般的なものが期待されている．学習内容の汎化とは，その内的モデルの一般化の程度に他ならない．
　このように考えると，「ある被験者の，あるテスト項目に対する正答率」という概念は余り意味を持たず，「ある学習目標に対応する一群のテスト項目に対して，正答可能なテスト項目の割合」と考える方が妥当であるように思われる．本稿でいう正答率は，このような意味で使われている．
　この意味で，1年次では30%，2年次では60%，3年次では80%，などの年次別の習得目標を設定することができる．本稿でいうカテゴリ分けは，このような状況を想定したものである．

３．逐次検定

　この章では，逐次検定の概要について述べる．この章の議論は，特定点θ_m（３．２参照）における検定力と平均標本数の導出を除き，主として文献^(1)-(2)による．
　記号については，各節の「記号および定義」の項にまとめてあるので，随時参照されたい．

　３．１　逐次検定の概要

　逐次検定では，一般の検定のように標本数をあらかじめ固定することをせず（３．４参照），標本を得るたびに，検定仮説Ｈ₀と対立仮説Ｈ₁の尤度を算出し，その比λが，グレイゾーン（採択限界ｃ₁と棄却限界ｃ₂の間）

　ｃ₁　＜　λ　＜　ｃ₂

にある限り判定を保留し，サンプリングを続ける．上記の範囲を越えたときに検定は終了するが，当然そのときの標本数は一定ではない．検定に要する標本数は，同じ第1種，第2種の過誤α，βをもつ固定標本方式に比べ，概ね半数程度になることが知られている．
　ｃ₁，ｃ₂とα，βの関係式は，それぞれの仮説Ｈ₀，Ｈ₁が正しく判定される確率１－α，１－βを定義に従って劣評価することにより，得られる．詳細は，文献⁽¹⁾を参照されたい．
　また，θの真の値がθ₀とθ₁の間にあるときには，逐次検定がいつまでも終わらない印象を受けるが，検定が終わらない確率は０であることが示されている⁽²⁾．

　記号および定義

　母集団(θ)の確率密度　ｆ(x;θ)

検定仮説Ｈ₀：θ＝θ₀

対立仮説Ｈ₁：θ＝θ₁

検定仮説Ｈ₀の確率密度ｆ₀(x)＝ｆ(x;θ₀)

対立仮説Ｈ₁の確率密度ｆ₁(x)＝ｆ(x;θ₁)

第１種の過誤 α

第２種の過誤 β

尤度比

λ＝ｆ₁(x)

Π

^x:観測値ｆ₀(x)

採択限界

ｃ₁＝ β

１－α

棄却限界

ｃ₂＝１－β

α

　３．２　検定力関数と平均標本数

　この節の検定力関数および平均標本数の導出法は，θ_mにおける値の導出を除いて，すべて文献⁽²⁾pp.232-236によるものである．ただし，記号は，一部異なっている．また，陰関数の微分法や微分積分の交換，可積や極限値の存在の条件などは適当に揃っているものと仮定しておく．
　検定力関数Ｐ(θ)は，母数θに対して，検定仮説Ｈ₀を棄却する確率である．定義により，Ｐ(θ₀)＝α，Ｐ(θ₁)＝１－βである．

　記号および定義

　検定力関数　Ｐ(θ)

平均標本数　Ｅ[n](θ)

ｚ(x)＝log( ｆ₁(x) )

ｆ₀(x)

Ｅ[z](θ) ＝∫ｚ(x)ｆ(x;θ)dx

Ｅ[z²](θ)＝∫z(x)²ｆ(x;θ)dx

θ_mの定義：　Ｅ[ｚ](θ_m)＝0

φ(u;θ)＝∫( ｆ₁(x) )^u ｆ(x;θ)dx

ｆ₀(x)

ｈ(θ)の陰関数定義：　 φ(ｈ(θ);θ)＝１
　但し，ｈ≠０（図１参照）

　３．２．１　検定力関数の導出

　本稿に必要な点のみ，概要を述べる．詳細は，文献⁽²⁾を参照されたい．
　関数ｇ(x;θ)を次のように定めると，

　ｇ(x;θ)＝( ｆ₁(x) )^h(θ)ｆ(x;θ) (1)

ｆ₀(x)

ｈ(θ)の定義により，ｇ(x;θ)を確率密度と考えることができる．すると，所与の逐次検定をｆ(x;θ)とｇ(x;θ)に関する採択限界ｃ₁^ｈ棄却限界ｃ₂^h の逐次検定に読み代えることができ，これから第１種の過誤を逆算して，次の検定力関数を得る．

　Ｐ(θ)＝１－ｃ₁^ｈ (2)

ｃ₂^ｈ－ｃ₁^h

　ここで，この導出法では，ｈ(θ)＝0のときは，(1)式で定義される確率密度ｇ(x;θ)がｆ(x;θ)と一致し，ｆとｇが逐次検定を構成しない，よって，(2)式を直ちに適用することができないことに注意されたい．（このことは，(2)式の分母が0になることからも了解される．）
　さて，φ(u;θ)は，その定義から，次の性質を持つことがわかる．

　φ(0;θ)＝１
　φ′(0;θ)＝Ｅ[ｚ](θ)
　ｕ→±∞ のとき　φ(u;θ)→∞

　図１は，この様子を描いたものである．このことから，

　θ→θ_m のとき　ｈ(θ)→0

であり，(2)式からＰ(θ_m)を求めることができないことがわかる．
　Ｐ(θ_m)は，Ｐ(θ)のθ→θ_mでの極限を取ることにより求められる．

　Ｐ(θ_m)＝－logｃ₁ (3)

logｃ₂－logｃ₁

図１　関数φ(u;θ)の概形とｈ(θ)の定義⁽²⁾

　３．２．２　平均標本数の導出

　平均標本数の導出は長くなるので，結果だけを引用する⁽²⁾．

Ｅ[n](θ)＝	Ｐ(θ)logｃ₂＋(1-Ｐ(θ))logｃ₁	(4)

	Ｅ[ｚ](θ)

　ここで，上式の形から（また，ここでは述べないが，導出の手順からも），Ｅ[ｚ](θ)＝０のとき，即ちθ＝θ_mのとき，上式はそのままでは適用できない．
　Ｅ[n](θ_m)は，再び，Ｅ[n](θ)のθ→θ_mでの極限をとることにより求められるが，この際，(4)式の分母だけでなく，(3)式から分子もまた0になることに注意されたい．逐次検定はθ₀とθ₁の差が大きいほど有利であるという直感は事実と一致するが，母数θが両者の中間（≒θ_m）にあるときに平均標本数Ｅ[n](θ)が発散するという直感は，(4)式によって直ちに裏付けられるわけではないのである．
　実際，長く間違い易い計算を注意深く行なえば，次式が得られる．

Ｅ[n](θ_m)＝	(－logｃ₁)(logｃ₂)	(5)

	Ｅ[ｚ²](θ_m)

上式の分母は，明らかに真正値であり，従ってＥ[n](θ_m)が発散することはない．
　この直感と事実との乖離の解釈については，４．２で再考する．

　３．３　二項分布の場合

　本稿では，二項分布を仮定しているので，前節までの結果のいくつかを，二項分布の形式で，以下にまとめておく．

　記号および定義

	正答率（母数θ）		ｐ
	誤答率		ｑ＝１－ｐ
	母集団の確率密度		ｆ(x;ｐ)＝ｐδ_(正)(x)＋ｑδ_(誤)(x)
	検定仮説		Ｈ₀：ｐ＝ｐ₀
	〃　　の誤答率		ｑ₀＝１－ｐ₀
	対立仮説		Ｈ₁：ｐ＝ｐ₁
	〃　　の誤答率		ｑ₁＝１－ｐ₁
	ｐ_mの定義：Ｅ[ｚ](ｐ_m)＝0

定義により，ｐ_mは次のようになる．

ｐ_m＝	－(logｑ₁－logｑ₀)

	(logｐ₁－logｐ₀)－(logｑ₁－logｑ₀)

　また，(5)式および簡単な計算により，次のＥ[n](ｐ_m)を得る．

Ｅ[n](ｐ_m)＝	(－logｃ₁)(logｃ₂)

	(logｐ₁－logｐ₀)(－logｑ₁＋logｑ₀)

　３．４　固定標本方式

　前節の問題を固定標本方式で検定する場合については，周知のことであろうが，簡単に触れておく．
　ｎ回の試行に対する確率密度をｆ_ｎ(x;ｐ)とすれば（xは正答した回数），

　ｆ_n(x;ｐ)＝ｐ^xｑ^n-x　　　（0 ≦ x ≦ n）

であり，与えられた過誤α，βに対する所要標本数Ｎは，ｐ₀＜ｐ₁とすれば，

　∫_ｃ^∞ｆ_Ｎ(x;ｐ₀)dx＝α
　∫_-∞^ｃｆ_Ｎ(x;ｐ₁)dx＝β

を，Ｎ，ｃについて解き，求めることができる．ここに現れたｃはＨ₀の採択限界を表している．
　例えば，１．で挙げた例と同じα＝β＝0.10，ｐ₀＝0.5，ｐ₁＝0.7とすれば，Ｎ＝39，ｃ＝24となる．即ち，硬貨投げの場合，39回の試行のうち表を24回以上観測したら，Ｈ₀ を棄却し，Ｈ₁を採択することとなる．
　ここで注意したいのは，表を24回観測した時点でＨ₀棄却という検定結果が確定することである．同様に，裏を16回観測すれば，39試行で表が24回以上観測されることはなく，Ｈ₀が採択されることがその時点で確定する．こうして，標本数を削減することができる．１．で示した平均標本数34は，このように扱った場合のシミュレーションによって求めた数値である．なお，以下の本文および図中の「打ち切りあり」は，この扱いを示している．この「打ち切り」については，４．１で，再度考察する．

４．逐次検定の学習評価への適用

　この章では，２．で述べた考え方に従い，被験者をある測度で測った学習水準によって，2つのカテゴリに分類することを考え，これに逐次検定を適用し，固定標本方式と比較する．
　学習水準は，0～1の実数で表され，任意のテスト項目に対する正答率に一致するものとする．ここでは，偶発による正答は考慮しない．
　以下では，α＝β＝0.10とする．また，実際のテスト項目での観察から，2つのカテゴリ間の正答率の差は，0.1～0.2と想定される．従って，以下では，ｐ₀＝0.5，ｐ₁＝0.6とｐ₀＝0.5，ｐ₁＝0.7の2つのケースについて考察する．

　４．１　平均標本数

　平均標本数の理論値およびシミュレーションによる実測値を，表１，図２，図３に掲げる．

　３．２．２で指摘したように，ｐがｐ₀とｐ₁の中間にあっても平均標本数は発散しない．逐次検定が最も不利となるｐ_m付近においてさえ，固定標本方式（打ち切りあり）に比較して，なお8割程度に削減され，有効性を保っている．しかも，｜ｐ₀－ｐ₁｜= 0.1 のときの方が 0.2のときより削減幅は大きくなっている．
　この事実は，逐次検定が有効なのは，一般にいわれているように｜ｐ₀－ｐ₁｜が十分大きいとき，ではないことを示している．
　図２，図３から，固定標本方式でも，打ち切りを行なうと，かなり標本数を削減できるケースがあることがわかる（グラフの両裾）．もし打ち切りをしなかった場合は，39（ｐ₁＝0.7の場合）の標本を要することになるが，その標本からはｐを推定することができる．それに反し，打ち切りを行なった場合は，結果としてｐの推定を放棄し，標本の持つ情報量をＨ₀とＨ₁の二者択一に縮約する．その代わりに，標本数の削減という利益を得ているのである．
　実際，得られた標本からｐを推定する問題を考えてみよう．ｐが0～1のいずれかの値をとる可能性が一様であるとすれば，標本から計算される「標本ｐ（以下ｐ_sと記す）」を生ずる母数ｐの可能性を逆算することができる．図４，図５は，そのｐの可能性（ｐ_s＝0，1/3，1の3つのケース）および（情報量の大きさの指標として）標準偏差を示したものである．図２と対照すれば，前述の解釈を裏付けていることが看取される．（図５の横軸は，ｐではなくｐ_sであることに注意されたい．）　逐次検定の場合は，更に徹底して，ｐの推定はほとんど不可能であり，その分，標本数は，少なくてすむのである．
　以上の考察から，逐次検定は，偏った標本に対してサンプリングを停止することにより平均標本数を削減しているのであり，｜ｐ₀－ｐ₁｜の大きさには直接関係していないことがわかる．｜ｐ₀－ｐ₁｜は，Ｅ[n](ｐ)のグラフの尖度に関係しているのである．従って，ｐがｐ₀，ｐ₁の中間にあるから平均標本数が発散するという直感は成り立たないのである．
　以上から，ｐがｐ₀，ｐ₁に関わりなく分布すると考えねばならない学習水準の評価にも，逐次検定は十分に効果があると結論できる．

ｐ₀=0.5, ｐ₁=0.7,｜ｐ₀－ｐ₁｜= 0.2

	逐次検定		固定標本方式

ｐ	理論(比^*)	シミュレーション	シミュレーション

ｐ₀	20.2(.65)	18.5	31.3
ｐ_m(.603)	28.1(.81)	28.4	34.9
ｐ₁	21.4(.64)	20.5	33.6
全平均^**	12.8(.49)	12.8	26.2

所要標本数Ｎ=39

ｐ₀=0.5, ｐ₁=0.6,｜ｐ₀－ｐ₁｜= 0.1

	逐次検定		固定標本方式

ｐ	理論(比^*)	シミュレーション	シミュレーション

ｐ₀	86.1(.57)	89.5	151.1
ｐ_m(.550)	118.7(.75)	125.3	158.6
ｐ₁	87.3(.58)	82.7	151.6
全平均^**	34.2(.30)	35.2	115.1

所要標本数Ｎ=168

		α＝0.1，β＝0.1
		^*固定標本方式に対する比．
		^**全平均欄は，ｐに関する平均の概数．

表１　平均標本数の主な値

Fig2

図２　平均標本数(p₀=0.5，p₁=0.7)

Fig3

図３　平均標本数(p₀=0.5，p₁=0.6)

Fig4

図４　ｐの推定(p₀=0.5，p₁=0.7)

Fig5

図５　ｐの推定値の情報量(p₀=0.5，p₁=0.7)

　４．２　検定力

　逐次検定と固定標本方式の検定力関数（理論値）を図６に示す．一見して明らかなように両者は極めて近似している．実際，両者の差は最大でも 0.01 程度しかない．この近似の程度は｜ｐ₀－ｐ₁｜= 0.1 のときも同様である．
　これは，ｐ₀とｐ₁を代表値とするカテゴリ分け問題について，逐次検定と固定標本方式は，検定能力の上で，差がないことを意味する．
　また，逐次検定の検定力のシミュレーションによる実測値を図７に示す．理論値と非常によい一致を示している．
　両図中のｐ₀とｐ₁およびｐ_mの位置から観察されるように，この検定によって，被験者は，およそｐ_mを境に２つのカテゴリに分類される．その検定結果は確率的であり，Ｈ₁（上位群）と判定される確率は，定義によりＰ(ｐ)である．
　被験者の学習水準ｐがｐ₀とｐ₁の外側にあるときは，ほとんどの場合，下位群（Ｈ₀）または上位群に分類されるが，両者の間にあるときはどちらにも判定され得る．しかし，両図の検定力関数の形から，この検定が幾度も実施されるなら，その採択率から検定力関数を逆に辿って，ｐが推定できることがわかる．
　この事実は，３．２．２で指摘した疑問に説明を与えるものである．即ち，直感的には，ｐがｐ₀とｐ₁の中央付近にあるときは，標本が平均的に現れて，尤度比が両採択限界の内で振れることになり，逐次検定がいつまでも終了しないと思われるが，これは事実と異なる点である．事実は，４．１で述べたように，ｐがｐ₀とｐ₁の中央付近にあっても検定は終了する．この場合，尤度比がいつまでも振れるのではなく，上述のように，検定結果が振れるのである．例えば，α＝βのときのｐ_mにおける検定力Ｐ(ｐ_m)は 0.5 であるから，尤度比が有限回の振れで収束する代わりに，検定力が最も弱くなっていることが了解できる．

Fig6

図６　検定力の比較(p₀=0.5, p₁=0.7)

Fig7

図７　検定力(p₀=0.5, p₁=0.7)

　４．３　学習評価への適用

　前二節で述べたことから，ｐ₀，ｐ₁の値に関わらず，またｐの全域にわたって，逐次検定は，固定標本方式より，平均標本数に関して有利であり，学習評価への適用が可能であることがわかる．
　次に，カテゴリ分け問題への適用について考える．
　前節で述べた検定力関数の形状は，一般に，“ｐがｐ_m以上か，ｐ_m以下か”という検定問題に逐次検定を適用する際の根拠とされる．例えば，到達度の検定で60%を達成基準とするような場合である．この場合，2つの複合仮説の検定であるから，２つの単純仮説を検定する逐次検定はそのままの形では適用できない（以下，固定標本方式でも同様）．
　これを，未達成の上限ｐ₀と達成の下限ｐ₁を設定し，“ｐ＝ｐ₀か，ｐ＝ｐ₁か”という検定として，逐次検定を適用する．こうすると，前節で述べた検定力関数の形状から，この検定は“ｐがｐ_m以上か，ｐ_m以下か”という検定問題の解答にもなっているのである．
　しかし，この解釈は，ｐ₀，ｐ₁の設定に関する理論的根拠に乏しいことが，弱点となっている．
　これに対し，本稿では，“上位群（基準値ｐ＝ｐ₁），下位群（基準値ｐ＝ｐ₀）という２つのカテゴリへの分類問題”として，この問題を解釈することにする．
　何故なら，検定力関数が階段状である（両側が平坦になっている）ことは，ｐの順序性から生じたもので，逐次検定に固有の性質ではないからである．実際，逐次検定を３つ以上の仮説の検定に拡張することができるが，当然予想されるように，その場合には，検定力関数（各検定仮説の採択率）は階段状になるとは限らないのである⁽⁵⁾．
　図８に，ｐ＝0.15，0.25，0.40，0.60，0.75を基準値とする5つのカテゴリへの分類問題に対する，逐次検定の振る舞いを示す．同図から，逐次検定を母数（ｐ）が連続であるような複合仮説に適用したとき，この検定が，実際に，カテゴリ分けをしている様子がよくわかる．
　この解釈は，２．で述べた学習評価の考え方に適合するものである．

Fig8a

図８　５つのカテゴリへの分類

５．むすび

　以上，逐次検定の有効性および複合仮説への適用について，一般に流布されている解釈（その中には，明白な誤りを含むものがある）とは多少異なる解釈を提示し，これを学習評価に適用する際の留意点および有効性について述べた．
　逐次検定は，“紙と鉛筆の試験”では制約が強すぎ，実現性に乏しいが，コンピュータ支援が可能であれば，出題形式等に制約があるものの，ランダム逐次出題は極めて容易である．この分野への逐次検定の適用は，コンピュータ支援によって初めて実効性が生じたといっても良い．また，多様な困難度を持つテスト項目を用意できれば（これにはコンピュータ支援が必須である），平均標本数のピークをならすことができ，更に有効となる⁽⁵⁾．
　パーソナル・コンピュータが普及している現状に鑑み，適切なるアセスメントの下に，有効活用されることを望むものである．

文献

	(1)	Ｐ．Ｇ．ホーエル：“入門数理統計学”，培風館(1990-9)．
	(2)	河田龍夫，国沢清典：“現代統計学”，廣川書店(1972-9)．
	(3)	Weiss D.J.(ed.):“New horizons in testing : latent trait test theory and computerized adaptive testing”, Academic Press，New York(1983)．
	(4)	Epstein K.I., Knerr C.S.:“Applications of sequential testing procedures to performance testing”, Proceedings of the 1977 Computerized adaptive testing Conference(1978)．
	(5)	小林修：“適応型逐次検定システムの開発”，信学技報，ET92-22，pp.5-12(1992-5)．

Ｐ(θ)＝	１－ｃ₁^ｈ	(2)

	ｃ₂^ｈ－ｃ₁^h

Ｐ(θ_m)＝	－logｃ₁	(3)

	logｃ₂－logｃ₁