妥当性について

妥当性研究をやや詳細にまとめたレジュメを作成しました. ここをクリックしてください.

妥当性のお話(1)…妥当性の分類と測定

妥当性(validity)のお話に入ります.妥当性の定義ですが,「尺度が測りたい対象を正確に測れているか」という意味になります.信頼性と妥当性について混乱する人もいるみたいですが,ダーツのアナロジー を使えば理解しやすいのではないでしょうか?ダーツの的に人が繰り返しダーツを投げて当てる姿を想像してください.ある人が一貫して同じ所に当てる時,その人は信頼性が高い(妥当性はともかく)という状態です.逆にいくらなげても場所が定まらない人は信頼性が低いという状態です.また,一貫して同じ場所に当てたとしてもそれがずっと的の外である場合,信頼性は高いが妥当性が低い状態だと言えます.そして,一貫して的に当てつづける場合を信頼性,妥当性ともに高い状態だということができます.このアナロジーだと,信頼性が妥当性の必要要件であるということも,帯域幅と忠実度のジレンマも視覚的にうまく表現してくれます.

さて妥当性にはいくつかの種類があります.妥当性確認(測定)のためのいくつかの基準だと言い換えてもいいでしょう.以下妥当性を分類しながらそれぞれについて解説します。

まず、基準連関妥当性というものがあります.これは、何らかの外的基準(基準値という)との相関だと思ってもらえばいいでしょう.たとえば就職適性検査の妥当性を調べる時に,検査の得点と入社後の業績の相関をとるような場合を指します.この基準連関妥当性はさらに併存的妥当性予測的妥当性に分かれます.基準値が心理検査とほぼ同時に得られた場合を前者,後に得られた場合を後者とします.ということは先ほど述べた就職適性検査のお話は予測的妥当性の話に入りますね.この妥当性を測定する場合には選抜や脱落による相関の希薄化について気をつけなければいけませんが,それはまた後述します.

次に,構成概念妥当性というものがあります。これは、なかなか言いにくいのですが、その構成概念から予測されるようなことが実際に起こるか,ということに関する妥当性といえます.一見して先ほどの基準連関妥当性との区別がないように思われるかもしれません.構成概念妥当性の定義は基準連関妥当性を内包していると感じたあなた,それはなかなか鋭いです。実は「すべての妥当性は構成概念妥当性に収斂する」という議論があったりするのです.さて,構成概念妥当性の測定方法ですが,まず同じ構成概念を測定している心理検査との相関をとる、という方法が考えられます.当然相関が高ければ妥当性は高いということになります。このような妥当性を収束的妥当性といいます.また,別の構成概念との相関が低いことが、その検査の妥当性を証明していることもあります.このように、理論的に相関が低いはずの検査との相関をとり,確かめられた妥当性を弁別的妥当性と言います.構成概念妥当性の測定の仕方はさらに様々です.たとえば、明確な集団差があると思われる時にその差を調べることにより確認することも可能です.うつ病測定の質問紙をうつ病患者グループと正常者グループで測定し,集団差を見るような場合です。また、介入実験などにより,その検査が実験の効果などを適切に反映しているかを調べる方法もあります.状態不安測定の質問紙を不安向上操作の前後でとり,効果がちゃんと質問紙の結果に出ているかを調べる方法がこれにあたるでしょう.また,ある理論に基いていくつかの下位尺度からなる質問紙を作成し,実際にデータを取り因子分析をして当初の予測通りの分かれ方をするか調べることは質問紙研究ではよくあることですが、これは因子妥当性といいます.

また,妥当性には内容的妥当性というものがあります。これは専門家などの個人的かつ主観的判断を通してなされる妥当性判断です.身近な例では、都立高校の入試問題などがあげられます.これは専門家がカリキュラムなどから適切に偏りなく選ばれているか判断されて(内容的妥当性が確認されて)初めて正式に試験問題になりますよね.到達度評価などを実施するときには,この内容的妥当性が大きな意味を持ってきます.

以上の3種類が,一般的なテキストに載っているような妥当性の区分です.APAのテスティングスタンダードというものも,基本的にはこの枠組を採用しています.

これまでの妥当性とは少し違うのですが,妥当性ということばがつくものをいくつかあげます.その一つは「交差妥当性」です。これは、たとえば重回帰式などの予測式が,ある標本で成り立っている時,同じ予測式が別の標本で成り立っているか,ということに関する妥当性です.ある標本で得られた重回帰式を別の標本で適用し,誤差が少なければ交差妥当性が高いと言えます.一般には標本を折半して片方の集団で予測式を立て、もう一つの集団でそれを適用するという方法がとられたりするようです.これは概念の妥当性というよりは,モデルの妥当性を検討するための方法です.


また,外的妥当性,内的妥当性という言葉を聞いたことがある人も多いでしょう.これは構成概念を測定できているか、という意味での妥当性ではなく、もっと広い意味においての妥当性となります。CockとCampbellが提唱した概念なのですが(後に4種類に増えます(Cook & Campbell, 1979))、外的妥当性とはいわゆる一般化可能性を、内的妥当性とはいわゆる因果推論の適切さを表すものだと思うといいでしょう。外的妥当性はランダムサンプリングによって保証されることになります。また、内的妥当性はランダムアサインメントによって保証されることになります(アサインメントするケースはランダムサンプリングされていることが前提ですが)。

このように,妥当性のいろいろな種類を挙げると,「あれっ,『妥当性』って,『測りたいものを測れている』ってことじゃなかったっけ?」と思う人もいるかもしれません.実は妥当性の概念は,歴史的にかなり変遷しているのです(例えばMessickは「解釈の適切性」という観点から妥当性を定義しています).そして,そのなかで「測りたいものを測れている」という本来の意味をやや離れたところがあったりするのです.このような妥当性概念の変遷は,妥当性に対する考え方を深めていますが,それが逆に混乱を招いており,もっと原義に立ち返るべきだという主張もあります(Borsboom et al., 2004).

妥当性のお話(2)…妥当性に関する注意点

さて、妥当性に関する注意点です。まず調査者は完璧な妥当性測定方法など存在しないということを意識すべきです。「公的自己意識」のような曖昧な心理的構成概念を完璧にとらえることができる尺度なんて存在しないのは自明でしょう(完全に操作的に定義された概念は別ですが).しかし,だからといってただ他の質問紙との相関をとる程度で妥当性の確認を終りにしてしまうのはあまりにも寂しすぎます。以前の教育心理学のシンポジウムでも、質問紙作成に関して信頼性に比べ妥当性の検討が著しく貧弱であることが指摘されていました。上記のように多々の妥当性測定方法があることを踏まえ、「豊かな」妥当性検討をしていくべきでしょう.

では,どのような検討が「豊かな」妥当性検討なのでしょうか.やはり,上に述べたさまざまな検討方法を包括的に実施することだと思います.特に,心理学の研究においては,類似概念との相関が高かったり,因子分析で同じ因子を得たことのみで「妥当性が確認された」とすることが多すぎるような気がします.心理学のように,類似した構成概念が多く存在する領域では,そのような妥当性よりも,弁別的妥当性の意味ははるかに大きいと思います(個人的な意見です).しかし,この弁別的妥当性をきちんと検証している研究はそれほど多くないように感じます.

また,妥当性の検討はしっかりと「予測を立ててから」行うべきです.どの程度の相関があったら嬉しいのか,それはなぜなのかを事前に計画を立てるようにしましょう.

具体的な妥当性の問題点をあげます。まず、妥当性係数は信頼性係数を超えないこと(正確には幾何平均を超えない)が数理的に照明されています。信頼性の低い研究では高い妥当性は望めないと思っていいでしょう(信頼性の項参照)。また、選抜が行われた後のような等質集団では妥当性係数が低くなる(あくまで「妥当性」ではない点に注意)ことも覚えておく必要があるでしょう。これは相関の希薄化(相関係数の項参照)と大いに関係があります。たとえば先述した職業適性検査と入社後の業績の相関をとったなら、選抜のために妥当性係数は低まって出る可能性が充分あります。また成績の高い集団(等質集団)で動機づけ質問紙の妥当性を検討しても、きっといい結果を導くことはないでしょう。

少し余談かつ数理的な話になりますが、信頼性係数は分散比妥当性係数は相関係数である、ということを意識の片隅にでももぐりこませておけば、信頼性係数、妥当性係数を導出する時の問題点にも気づきやすくなるかもしれません。

心理検査において、妥当性は必ずしも高くなるとは限りませんが、いくつかのテストを組み合わせて妥当性を高めることは可能です。これをテスト・バッテリーと呼びます。

また、妥当性と信頼性(特にα係数)の関連において、重要な議論があります。帯域幅と忠実度のジレンマです。信頼性の項を参照ください。

≪引用文献≫
Borsboom, D., Mellenbergh, G.J., & Heerden, J. van (2004). The concept of validity. Psychological Review, 111, 1061-1071.

Cook, T., & Campbell, D. (1979). Quasi-experimental design. Chicago: Rand McNally.

Kouのホームページ   HOME