心理統計いろいろ


 基本的な概念・分析についてのまとめ
 村山航が大学院生のときに,授業で習ったり本で読んだことをもとに,まとめてみました.間違いもあると思いますので,ご容赦ください。

信頼性について

  1. 信頼性係数のお話…その定義と使用上の注意点
  2. α係数のお話…その定義と使用上の注意点

妥当性について(妥当性研究の展開に関するpptファイルはこちら。教育心理学年報に掲載したレビュー論文はこちら。)

  1. 妥当性のお話(1)…妥当性の分類
  2. 妥当性のお話(2)…妥当性に関する注意点

相関研究について

  1. 相関係数の注意点(1)…散布図を見て分かること
  2. 相関係数の注意点(2)…散布図を見て分からないこと

因子分析について

  1. 因子分析の手順と さまざまなパラメータの意味
  2. 因子分析の注意点

回帰分析について

  1. 回帰・重回帰分析における基本的な注意点
  2. 偏回帰係数の解釈・多重共線性など

分散分析について

  1. 分散分析の前提について
  2. 分散分析で有意な差をえるためには
  3. 交互作用・被験者内計画


 統計手法に関する解説
 いくつかの統計手法について自分なりにまとめたりしたものを載せています。 専門家として書いているわけではないので,間違いがあったらご指摘ください。

 HLM Multilevel Analysis(マルチレベル分析)ともいいます.Power Pointによる概説です.ソフトウェア(HLM, SAS)による分析方法も簡単に載せましたが,あまり詳しくありません.また,少し図表を減らしています.
 Validity 測定の妥当性は,心理学の基本概念ですが,その近年の理論的展開をまとめました。教育心理学年報に書いた論文も参照ください。
 Simplex model Guttman が提唱したシンプレックスモデルの共分散構造をまとめたものです.Joreskog (1970) がベースになっています.Mxのプログラムと,パス図 (Amosなど) による推定方法も記しました.覚書なので,あまり親切には書いていないかもしれません.

 Ipsative factor analysis

イプサティブデータ (ipsative data) に対する確証的因子分析について,Mx や Mplus での解の推定方法を記しました.これも覚書なので,あまり親切には書いていないかもしれません.
 Instrumental variable Cross-sectional のデータでは通常因果関係を推論することができません.しかし,道具的変数 (操作変数; instrumental variable) を導入することで,因果関係の推論が可能になります.この方法についてまとめたものです.補足として双生児データを用いた因果の推論にも簡単に触れました.
 Generalizability Theory Generalizability theory (一般化可能性理論)についてまとめました.また,Performance Assessment (パフォーマンス評価)に一般化可能性理論を適用した研究を概観し,そこで浮かび上がってくる PA の問題点にも簡単に触れました.
 Intraclass correlation 信頼性の指標である級内相関係数 (intraclass correlation) には複数の種類のものがあります。それらを上記の一般化可能性理論の観点から整理しました。
 R で Bayes Jim Albert の Bayesian computation with R という本の 3 章に関して,補足を加えながらまとめました.母数が 1 つの場合のベイズ推論や,ベイズ的仮説検定について R のプログラムとともに載せてあります.事後分布の多変量正規分布による近似などを載せた 5 章のまとめはこちら
 R で階層ベイズ 上記の本の第 7 章に基づいて,ハイパーパラメータにも分布を指定する階層ベイズ法 (hierarchical bayes) を R のプログラムとともに解説しています。
 Model equivalence 共分散構造分析における同値モデル (equivalent model) の識別・作成の方法やそれに伴う注意点をレビューしたものです
 Behavioral genetics analysis 双生児データの行動遺伝学的解析方法についてまとめ,実例を載せました。単変量モデルから多変量モデルまでを全般的に解説しています。
 Mediation analysis 社会心理学で特に使われる mediation analysis (媒介モデルの分析)の方法を詳しく載せました。加えて,mediated moderation や,multilevel mediation analysis (マルチレベル媒介分析)に関して,近年提唱されている分析方法を説明しています。
 Centering 階層線形モデル(マルチレベル分析)における独立変数のセンタリング (grand-mean centering, group-mean centering) による推定値や解釈の違いについてまとめました。
 Prep Prep とは従来の統計的仮説検定に挑むべく提唱された probability of replication の指標です。Psychological Science 誌で使うことが推奨されていますが,オリジナルの論文 (Killeen, 2005) が分かりにくいため,誤用も多く見受けられます。その意味や実際上の計算の仕方をまとめました。
※ 現在確認したら Psychological Science 誌の author note から記述が消えていました・・・。まとめに書いたように,多くの批判を受けたからかもしれません。
 Missing data analysis 欠損値のあるデータの解析方法を書いています。近年の応用研究では完全情報最尤推定 (full-information maximum likelihood method; FIML) や多重代入法 (multiple imputation method) を使うことが徐々にスタンダードになってきました。これらの方法を解説をしています。


 Tips
 私がこれまでお世話になった統計の Tips & ソフトウェアに関するリンク


信号検出理論用の SAS プログラム
Stanislaw, H. & Todorov, N. (1999). Calculation of signal detection theory measures. Behavior Research Methods, Instruments, & Computers, 31,137-149.
論文はここ
よりダウンロード可。

一般化可能性理論の SAS/SPSS マクロ
Mushquash, C. & O'Connor, B. P. (2006). SPSS and SAS programs for generalizability theory analyses. Behavioral Research and Methods, 38 , 542-547.
マクロは
ここよりダウンロード可能.マクロを適用する前に,varcomp などで分散推定値を求めておく

実験で被験者内要因 (within-subject factor) があったときの信頼区間(もしくは標準誤差)の算出方法
Loftus, G. R., & Masson, M. E. J. (1994). Using confidence intervals in within-subject designs. Psychonomic Bulletin & Review, 1, 476-490.
論文はここよりダウンロード可。被験者内要因があったときに群ごとの標準偏差をもとにエラーバーを書くと,有意な効果も有意に見えなくなってしまう。分析にあった誤差項を用いる必要がある。その方法を記した論文。

二重過程信号検出モデル (dual-process signal detection model) における回想 (recollection) と熟知性 (familiarity) パラメタの推定をする Excel シート
Yonelinas, A. P. & Parks, C. M. (2007). Receiver Operating Characteristics (ROCs) in recognition memory: A review. Psychological Bulletin, 133, 800–832.
確信度評定を用いた再認記憶データに適用。ここよりダウンロード可。

Mediation analysis における indirect effect の検定
MacKinnon, D. P., Lockwood, C. M., Hoffman, J. M., West, S. G., & Sheets, V.  (2002). A comparison of methods to test the significance of the mediated effect. Psychological Methods, 7, 83-104.
この論文にはいろいろなものが載っているが,もっとも経験上有意な効果が出やすいのが z prime(シミュレーションをもとに正規分布にしたがう確率変数の積の分布を表にしたもの)。数表は
こちらに。

Multilevel mediation analysis をするための mplus スクリプト
Zhang, Z., Zyphur, M. J., & Preacher, K. P. (2009). Testing multilevel mediation using hierarchical linear models: Problems and solutions. Organizational Research Methods, 12, 695-719.
Preacher, K. J., Zyphur, M. J., \& Zhang, Z. (in press). A general multilevel SEM framework for assessing multilevel mediation. Psychological Methods
こちらに。Multilevel mediation に関して有名な論文はいくつもあるが,その概念的問題点を明確に指摘し,統合的な枠組みを提出したのは上の論文だけ。最初の論文は HLM で,次の論文は multilevel SEM での分析方法が書いてある。リンクしたスクリプトは mplus のもの。

PRODCLIN
MacKinnon, D. P., Fritz, M. S., Williams, J., & Lockwood, C. M. (2007). Distribution of the product confidence limits for the indirect effect: Program PRODCLIN. Behavior Research Methods, 39, 384-389.
ここから入手。媒介モデルの媒介効果の算出には,パス係数の積の分布が必要になるが,その解析的なな信頼区間を計算してくれるソフト。簡単。上記の論文はこちら

階層線形モデルおける相関係数:グループ内相関とグループ間相関の分割の仕方。
Ferrari P, Al-Delaimy, W. K., Slimani, N., Boshuizen, H. C., Roddam, A., Orfanos, P., Skeie, G., Rodriguez-Barranco, M., Thiebaut, A., Johansson, G., Palli, D., Boeing, H., Overvad, K., & Riboli, E. (2005). American Journal of Epidemiology, 162, 591-598.
ここからダウンロード可能。ただし,独立変数と従属変数を入れ替えると,値が変わってしまうので解釈には注意。

階層線形モデルにおける標準化係数
Hox, J. J. (2002). Multilevel Analysis. Techniques and. Applications. Mahwah, NJ: Lawrence Erlbaum Associates.

ここから読める。一応計算方法は載っているが,HLM の標準化係数は解釈がとても難しいので注意。詳しくは Multilevel Model Discussion List 参照のこと。

対数線形モデル
松田紀之 (1988). 質的情報の多変量解析 朝倉書店
ここからがネット上でフリーでダウンロードできる

SEM における Auxiliary variables の使用 
Enders, C. K. (2006). A primer on the use of modern missing-data methods in psychosomatic medicine research. Psychosomatic Medicine, 68, 427-436.
欠損値があって,FIML や Multiple Imputation を使うときに,研究目的とは直接関係ない変数を入れることで推定精度が向上する。これを auxiliary variable というが,この方法を分かりやすく説明。そもそもMARという条件は,モデルに入れている変数との関係で定義されるので注意。ここに それらをまとめたパワーポイントファイル

階層線形モデルにおける ACOV matrix (Asymptotic Covariance Matrix) の出力方法
Preacher, K. J., Curran, P. J., & Bauer, D. J. (2006). Computational tools for probing interaction effects in multiple linear regression, multilevel modeling, and latent curve analysis. Journal of Educational and Behavioral Statistics, 31, 437-448.
ここにHLM で単純主効果の検定を行いたいときに必要になるパラメータの共分散行列の出力方法がいろいろなソフトウェアに対して載っている。この共分散行列は通常の重回帰分析で偏回帰係数の差を検定するときにも必要。リンクをたどると,便利なチュートリアルや計算ソフトウェアもある。

二段抽出モデル用分散共分散行列の計算(エクセルマクロ)
清水裕士・村山綾・大坊郁夫 (2006). 集団コミュニケーションにおける相互依存性の分析(1) コミュニケーションデータへの階層的データ分析の適用 信学技報, 106(146), 1-6.
以下のページにある HADS5 をダウンロード。エクセルのマクロであり,集団内・集団間の分散共分散行列をそのまま AMOS に読み込める形で出力してくれる。二段抽出モデルの簡便法を使いたいときには非常に便利。これをもとに,より正確な Muthen の方法を AMOS で分析する方法も丁寧に書かれている。ただし Muthen の方法は Mplus を持っているならばそちらが便利。

相関行列の順序性の検定
Tracey, T., J., G. (1997). RANDALL: A Microsoft FORTRAN program for the randomization test of hypothesized order relations. Educational and Psychological Measurement, 57, 164-168.
この論文に載っているソフトウェア Randall をここからダウンロード。シンプレックス構造などといった相関行列の順序性のランダマイゼーション検定をしてくれる。通常,上にアップした方法では相関がすべて正の場合にしかシンプレックス構造を検討できないが,この方法だと負の相関を組み込むことができる(そうなるとそれがそもそもシンプレックス構造と呼べるのか疑問だが)。

循環モデル (circumplex model) への適合
Browne, M. W. (1992). Circumplex models for correlation matrices, Psychometrika, 57, 469–497.
上記の論文では Guttman の循環モデル(すべての変数が等間隔)を発展させ,フーリエ関数によって循環モデルの相関行列を定式化。ここでダウンロードできる Circum というソフトウェアを用いると,このモデルに相関行列をフィットできる。RMSEA なども出力できる。

探索的因子分析における因子数の決定
服部環 (2003). 共通因子数の決定とそれを援助するためのコンピュータ・プログラムの開発 応用心理学研究, 28, 135-144.
因子数決定ソフト faccon.exe とそれをエクセルで走らせるプログラム忍者ハットリ君
 (こちらは香川大学の堀啓造先生作) や R で動かすプログラム (奥村泰之さんのサイト)。適合度(これは Mplus でも可能)だけでなく,MAP基準 や Parallel Analysis, scree test なども自動的に計算してくれて非常に便利。R で動かすと,シミュレーションも簡単にできる。上記の堀先生のサイトにある論文も参考になる。

ステップワイズ探索的因子分析
Kano, Y. and Harada, A. (2000). Stepwise variable selection in factor analysis. Psychometrika. 65, 7-22.
SEFA (stepwise exploratory factor analysi) というWeb 上で動くプログラム。項目を加えたり除いたりすることによる適合度の変化をとても分かりやすく表示。相関行列で分析。

探索的因子分析で初期解をデータとして与えて,回転させる SAS プロシジャ
ここに一例が。行動遺伝学分析の independent pathway model などで解を得たとき,それを回転させたい場合などに。

大規模テストデータの二次分析に用いる plausible value について
von Davier, M., Gonzalez, E., & Mislevy, R. J. (2009). What are plausible values and why are they useful? IERI Monograph Series, Volume 2 (pp. 9-36).
ここからダウンロードが。PISA や TIMSS などのデータを二次分析するときに個人の能力値を用いますが,個人の能力値はあくまで点推定値であって,推定の不確定性を考慮に入れていません。plausible value は個人の能力値の事後分布からランダムにサンプルして(つまり不確定性を考慮に入れて)得られた値のことで,正確な集団レベルの特性の推定を可能にします。いろいろな解説がありますが,個人的にもっとも分かりやすかったのがこの論文です。実際の適用のときには,HLM や Mplus の multiple imputation のコマンドを用います。


TOP