Separating Sensitivity From Response Bias: Implications of Comparisons of Yes-No and Forced-Choice Tests for Models and Measures of Recognition Memory.

Kroll, N. E. A., Yonelinas, A. P., Dobbins, I. G., & Frederick, C. M. (2002)
Journal of Experimental Psychology: General, 131, 241-254.


※信号検出理論についてはhttp://www.mars.sphere.ne.jp/tbs-i/psy/tsd/tsd.html 参照のこと.

※本研究における2択問題のd'の計算式は以下の通り

d'=(1/√2)(Zcorrect proportion - Zincorrect proportion)

この場合,親近性の相対的な大きさの違いが,正答率に影響を与えると考える.すなわち,targetとlureの分布から得られる親近性の差が正なら正答・負なら誤答となる.そして,差の分布の平均を標準偏差で割ったものががd'となる.正規分布の差の分布は,分散が2倍になるため,式には√2が入っていると考えればよい.

【問題・目的】
・ 再認テスト課題として(1)yes-no式のテスト(以下YN)と(2)2肢選択型(forced choice; 以下FC)の2つが存在.
・ これらが同じ再認能力を測定しているのなら,2つのテストから導かれる再認能力の値は同じになるはずである⇒ところは現実はそうではない

☆ 2つのテスト形式による成績の違い
・ 直感的には,同じ刺激に対しYNテストよりもFCテストの方が簡単そう.
・ 予備実験(20人の大学生):再認テスト後,インタビューでは被験者の17/20がFCテストの方ができたと回答.しかし,d'では20人全員がYNテストの方ができていた.

・ 2つのテスト形式は想定されている記憶のプロセスが違うという指摘
・ FCテストでは相対的な親近性に基いて判断するが,YNテストでは想起の過程が入る
・ 証拠:想起をすることができない脳損傷患者はYNテストよりFCテストの成績がよい
・ ただし,知見は一貫せず(Aggleton & Shaw, 1996 ⇔Reed, Hamann, Stefanacci, & Squire, 1997). ⇒d'の違いは,記憶過程が違うから起きるのか?

・ 2つのテストで再認能力の意味が違ってくるのなら,先行研究の比較も慎重さが必要
・ 実験心理学(YNテスト多用)⇔神経心理学・動物学習(FCテスト多用).

・ YNテストでのd'とFCテストでのd'は,両方とも同じ数学モデルを仮定しており,比較可能な形になっている:つまり同じ被験者が受けたら同じd'が算出されるはず
・ YNテストとFCテストによって得られる能力の違いを直接検証した研究はほとんどない(e.g. Deffenbacher et al., 1981; Green & Moses, 1966; Khoe et al., 2000; Yonelinas, Hockley, & Murdock, 1992)⇒本研究で検討

☆ 本研究の目的
・ YNテストとFCテストでd'の値が違うことを確認し,d'が再認能力(ability / accuracy)を測定するのには不安定で適していないということを示す(実験1)
・ ROC曲線を用い,再認テストの成績が従来の信号検出理論のモデル(すなわちd' の背後にあるモデル)における仮定を満たしていないことを示す(実験2A,実験2B).
・ 二重過程モデル・非等質分散のモデルという2つのモデルを提示:データをよく説明し,2つのテスト間でd' の予測が可能になる(同じd'の値になる=2つのテストは同じ能力を測定している)ことを示す(実験2A,実験2B).
・ remember/know 手続を用い,上で言われてきたように,2つのテスト間で想起の過程の割合が異なるかどうかを検証する.

【実験1】
≪方法≫
・ 被験者:大学生24人
・ 刺激:560の絵画刺激(写真からマンガの絵まで).140個ずつの4グループに分け,1.FCテストのターゲット,2.FCテストのlure,3.YNテストのターゲット,4.YNテストのlure のどれかに割り当てる.割り当ては被験者間でカウンターバランス.
・ 手続:コンピュータ画面を用いる
・ 学習フェーズ:ターゲット語のみからなる280個の刺激を2秒ずつ学習.
・ テストフェーズ:420のテスト(280のYNテスト,140のFCテスト).低次の順序はquasi-random.
・ テストの最初の90試行(30FC, 30YN-old, 30YN-new)は練習試行として除去:練習試行は学習フェーズの最初の30,最後の30刺激から成立しており,実験結果から学習の初頭効果・親近性効果の可能性を取り除く.

≪結果と考察≫
・ Table1:Hit と False Alarm(FA)率を示す
・ 被験者ごとにd' と C(基準バイアス)を算出.
・ d' のテスト間差:YNテスト(M=1.81, SE=0.12)>FCテスト(M=1.47, SE=0.11), t(23)=2.9
・ 2つのテスト間におけるd' の値をプロット(Figure1):YNテストの優位がみえる.
・ 解釈案1:YNテストではより正確な想起(recollection)の過程に依拠しているため再認能力はYNテストの方が高くなる.
・ 解釈案2:再認能力は両方のテストで変わらないが,その指標のdが不適切である.
⇒解釈案2の傍証として以下の分析を行う

・ 被験者の基準バイアス(反応基準)を横軸に,縦軸に両テストのd'の差をプロット(Figure2):両テストの差は,基準バイアスが大きいほど大きくなる
…より保守的な人(FAを起こさないようにする人)ほど,YNテストでのd'がFCテストより高くなり,逆により基準が甘い人(Hitを上げようとする人)ほど,YNテストでのd'がFCテストのd'よりも低くなる.また,このような基準バイアスがない人は,YNテストとFCテストのd' が一致する.

・ 基準バイアスによってd' の値が変わってくるということは,d' は再認能力(accuracy)の指標として適切ではないといえる.
・ d'の背後にあるモデル:信号検出理論…このモデルの仮定が間違っている可能性.
・ 信号検出理論のモデルが妥当かを確認する手段:ROC曲線(Figure3)
・ ROC曲線が曲線:2つの分布(N, NS)に正規分布を仮定することの妥当性.
・ ROC曲線が左右対称:2つの分布の分散が等しいと仮定することの妥当性.
⇒次の実験ではROC曲線のこの対称性を検証

・ 実験1の結果から,Figure3の3点(○・△・×)のようなプロットが得られる可能性:通常のROC曲線がフィットしない(違うd'の曲線がそれぞれに当てはまる)可能性.
・2つ目の仮定が満たされないなら,他に提唱されているA'などの指標も不適切になる.
・ Figure3のようなプロットが予想されるときに2つの代替モデルの提案
・ 二重過程モデル:親近性による判断(通常の信号検出理論モデル)だけでなく,想起による判断過程も想定.想起時にはFAなしでHitさせることが可能なので,FAが低いときにもある程度Hit率が得られる…Figure4.
・ 非等質分散モデル:old項目に対する親近性の分散が,new項目に対する分散よりも大きいと仮定するモデル.これもFigure4のような曲線を描くことが可能.
・実験2A,2Bで,この両方のモデルがROC曲線にフィットするかを調べる.

【実験2A・2B】
≪目的≫
・ 被験者ごとにROC曲線を書いてみて,それが対称かどうかを調べる
・ 上記の2つのモデルがこのROC曲線にフィットするかを調べる
・ 上記の2つのモデルを用いると,YNテストの結果でFCテストのd'が予測できるかを調べる.
・ 実験2Aと2Bでは課題の難易度を変える:結果の一般化可能性を広げる.

≪方法≫
・ 被験者:実験2A…30人.実験2B…30人.
・ 刺激:実験2A…実験1と同じ.実験2B…刺激は720個.テーマ・ズームなどの意味で類似している2個ずつのペアを作り,それぞれをターゲット・lureとする.
・ 手続き:ROC曲線を書くため,テストフェーズに確信度評定を導入した点以外は同じ.
※ 確信度評定:いずれも6件法.1試行ごとに行う.
・ YNテスト:1(confident new)〜6(confident old)
・ FCテスト:1(very confident left-old)〜6(very confident right-old)

≪結果と考察≫
☆ ROC曲線に関して
・ YNテストのROC曲線(Figure5):左の点が確信度6,次が5以上,,,,をプロット.
・ ROC曲線が非対称であることは,特に実験2Aで明らか.
・ 最小二乗法で信号検出モデルと他の2つのモデルにおける曲線のフィットを比較
〇実験2Aに関して
・ 信号検出モデルのd'は1.60, SSE=0.01.
・ 二重過程モデル:R0(想起する確率)=0.38, d'=1.03, SSE=0.001でフィットし,信号検出モデルよりも有意に当てはまりがよい(F(1, 3)=15.00, p<.01).
・ 非等質分散モデル:V0(old信号の親近性の分散)=3.34, d'=2.15, SSE=0.001でフィットし,信号検出モデルよりも有意に当てはまりがよい(F(1, 3)=15.00, p<.01).

○ 実験2Bに関して
・ 信号検出モデルのd'は0.88, SSE=0.006.
・ 二重過程モデル:R0=0.14, d'=0.89, SSE=0.003でフィットするが信号検出モデルよりも有意に当てはまりがいいわけではない(F(1, 3)=3.00, p>0.05).
・ 非等質分散モデル:V0=1.72, d'=0.97, SSE=0.002でフィットするが信号検出モデルよりも有意に当てはまりがいいわけではない(F(1, 3)=6.00, p>0.05).

・全体的に2つのモデルのほうが当てはまりがよいことを確認.

☆ 確信度ごとのd'について
・ Figure6:全体の得点を使用.破線がFCのd',黒棒が確信度ごとのd',網棒は反応基準.
・ 実験1と同じパターンがこの被験者内のグラフに関しても確認された.
・ d' の不安定性を示唆.
・ Figure7:個人ごとに確信度ごとのd'を求めて平均したもの(上の結果が全体の得点を使用したことによる効果であることを防ぐため).同じ結果が見て取れる.

☆ 2つのモデルからFCテストの正答率の予測.
・ 2つのモデルからのFCテストの正答率の予測式(下式).

(1)

・d2'はoldの分散を1単位とした時の,親近性判断時におけるd' .
・ 二重過程モデルではσold2は0,非等質分散モデルではR0は1.

○実験2Aに関して
・ データから得られたFC正答率:M=0.85, SE=0.01
・ 二重過程モデル:M=0.85, SE=0.01.R-square=.79.実測値との残差の平均=0.006.
・ 非等質分散モデル:M=0.84, SE=0.01.R-square=.75.実測値との残差の平均=0.018.

○実験2 Bに関して
・ データから得られたFC正答率:M=0.72, SE=0.02
・ 二重過程モデル:M=0.73, SE=0.01.R-square=.78.実測値との残差の平均=0.005.
・ 非等質分散モデル:M=0.72, SE=0.01.R-square=.79.実測値との残差の平均=-0.002.

・ どちらの実験でも,予測式は実測値をかなりの精度で予測している.
・ YNテストの結果から,FCテストを予測することが可能:両者に必要な再認能力は同一であると考えることが可能.両者に必要な再認能力は違うという意見を否定可能.

【実験3】
≪目的≫
・ YNテストでは想起過程に依拠しているためd' が高くなるという考えがあったが,この考えをremember-know手続きによって直接的に検討する.
・ YNテストに関しremember-know手続きによってR0を求め,その値とd'を代入することによって,FCテストの正答率を予測する.
・ YNテストのremember-know手続きに関し"remember"を高確信度・"know"を低確信度とする.このデータから実験2と同じようにV0を求め,FCテストの正答率を予測する.

≪方法≫
・ 被験者:30人の大学生.
・ 刺激:実験2Aと同じ.
・ 手続き:YNテスト,FCテストともに,判断後に被験者はremember-knowのいずれであったかを求められる(確信度評定はしない)
remember:学習時の具体的な特徴などを思い出せた場合
know:親近性で反応をした場合

≪結果と考察≫
☆ テスト形式ごとにrememberとknowの頻度は異なるか?
・ remember反応の割合はどちらのテスト形式でも同じ(table2; old項目:t(29)=1.69, p=.10; new項目:t(29)=0.54, p=.59):どちらのテスト形式でも,remember反応の頻度は変わらない.
・ old項目に対するremember反応の割合を被験者ごとにプロット:どちらのテスト形式でもremember反応の頻度が変わらないことが明確に見て取れる(R-square=0.90).
・ YNのd'が高いことを追試:remember-know手続きで結果が歪んではいない.

☆ 二重過程モデルによるFCテストの正答率の予測
・ (1)式に以下の式をデータより求め代入する.

R0=P(R|old)‐P(R|new) Fold=P(F|old)/(1-P(R|old))
Fnew=P(F|new)/(1-(R|new)) d2'…FoldをHit率・FnewをFalse Alarm率として算出

・ Fはknow反応(familiar).Foldはold項目にfamiliarでyes反応する確率.Fnewはnew項目にfamiliarでknow反応する確率.
・ 算出された被験者ごとの予測値の平均(M=0.83, SE=0.02)は,実測値(M=0.841, SE=0.0149)とほぼ同じ値を示す.誤差の平均は-0.01.
・ 算出された被験者ごとの予測値と実測値との相関:R-square=0.66.
・ YNテストとFCテストは同じ能力が関与する記憶過程であることは明らか.

☆ 非等質分散モデルによるFCテストの正答率の予測
・ remember反応を確信度大・know反応を確信度小と考え,d'とV0を算出.
・ 算出された被験者ごとの予測値の誤差の平均は0.026.
・ しかし,算出された被験者ごとの予測値と実測値との相関:R-square=0.01, n.s.

【結論】
・ YNテストとFCテストは必要とされる能力も,被験者が用いる想起と親近性の相対的な重みづけも,それほど違わないことが明らかになった:Kohe, et al.(2000)の結果と整合.
・ 通常のd' は被験者の基準バイアスに左右される:d'は能力の安定した指標ではない.
・ 二重過程モデル・非等質分散モデルを用いるとYNテストとFCテストを同一の能力と考えることが可能になる:このモデルを用いるためには,確信度評定かremember-know手続きが必要となる(情報量を増やさなくてはならない).
・ 結果の一般化可能性のため,他の材料・他の母集団などを調べる必要性.
・ 信号検出モデルが当てはまるかどうかに関しては,被験者の反応基準を変えさせる方法もあるが,実験1のように,2つのテストのd'の差を反応基準で回帰する方法も使える.

☆ 二重過程モデルか非等質分散モデルか?
・ どちらもフィットが高いが,筆者は二重過程モデルを支持したい.以下理由.

≪1つ目≫実験3より,以下の3つの問題点が非等質分散モデルに見られる.
1) 非等質分散モデルでは,「remember反応をしたときにfalse alarmが全く生じない」という多くの被験者のデータを説明できない.
2) 非等質分散モデルではremember反応が何なのかを説明できない:remember反応を基準バイアスが高い状態と考えることもできるが(Donaldson, 1996),この仮定をいれると,非等質分散モデルではFCテストとYNテストのremember反応の確率が違うという予測がなされてしまう.
3) 非等質分散モデルでは,個人レベルの予測がうまくいかない(実験3).

≪2つ目≫これまでの研究結果を説明できない
1) 線形のROC曲線がみられる研究(Rotello, Macmillan, & Van Tassel, 2000など)は二重過程モデルで簡単に説明がつく(R0が大きいと考えればよい) .
2) 実験3でFalse Alarmは,remember反応の頻度とは独立.また,know反応の中でのHit率と相関:親近性の分布だけならば,remember反応=反応基準大とFalse Alarmは相関するはずである.

≪3つ目≫神経生物学の知見
・ 動物の再認過程は機能的に独立した2つのコンポネントよりなっている
・ 人間の再認記憶判断は,想起ベースと親近性ベースがあり,それらは別々の神経に端を発している(Curran, 2000など).

・ 二重過程モデルをとるか非等質分散モデルをとるかに関しては,背後にどのような認知過程を想定するかによっても違う.

質問はこちらまで

Kouのホームページ   HOME