因子分析について

細かいことを書いていますが,個人的に一番大切だと思うことは,「2.(0) 何よりもまず押さえておくべきこと」です.ある程度分かっている方は,その部分だけ読んで頂いてもいいと思います.

1.因子分析の手順と様々なパラメータの意味

因子分析。心理学をやっているなら、そして質問紙調査をやるのなら、必ず一回はぶつかる壁でしょう。そのやらんとするところは分かるのだけれども、出力が多すぎて何を見たらいいか分からない。回転って何? 共通性の推定値? よく分からないからこそ、統計ソフトのなすがまま、デフォルトの設定で行っている人も多いでしょう。この章では、そのような因子分析に関し、分析が行われる手順をできるだけ平易に解説しながら、様々な言葉の意味を記述していきたいと思います。


(1)測定変数の相関行列を求める:
因子分析を行う時、最初に行われるのは、測定変数間の相関行列(もしくは共分散行列)を求めることです。統計ソフトではここが出力されることは殆どありませんが、一応変な値がないか確認するクセをつけたほうがいいでしょう。なお、このような相関行列は因子分析だけでなく、構造方程式モデリング(SEM)においても主要なステップです。なお、少し高度な話ですが、2件法や3件法で扱ったデータは間隔尺度としてはあまりよくないので、積率相関係数を使うのではなく、順序尺度として四分位相関係数などを用いるといいようです。


(2)因子数の決定をする:
研究者の最初に持っている仮説で決めます。ただしここで決定しておかなくてもあとで数理的に適切な因子数を選ぶことが可能です(後述)。


(3)共通性の推定:
共通性とは、各項目ごとに持つ値であり、その項目の分散のうち、因子によって占められる分散の割合です。つまり、この値が大きいほどその項目は因子の影響を強く受けているということができ、小さいほど因子とは関係ない項目だということができます。因子分析では最終的に共通性が出力されますが、これは最初に適当に共通性を推測して、そこから繰り返し(場合によっては一回だけ)計算をして本当の値に近づけるような努力を行った結果です。そしてこの共通性の推定とは、最初に適当に放り込む推定値のことです。とりあえず最初全ての項目の共通性の推定値に1を放り込むONE法や、他SMC法MAX法などがあります。正直言って、共通性の推定を繰り返し行う(反復をする)ならば,これらはどのようなものにしても大きな違いがないように感じられます。しかしながら、反復をしない推定の場合は共通性の推定値の精度が重要になってきます。


(4)因子パタン(因子負荷)の推定:
いよいよ因子分析のキモです。因子の各項目にかかる負荷を推定します。これには繰り返しのない主因子法、主因子法、最尤法、最小二乗法、重み付き最小二乗法などがあります。一般的には前2者(そして主成分法←後述)がよく使われますが、後3者のメリットもとても大きなものがあります。
この時、まだ(2)で因子数を決めていなかったならば、決定することになります。因子数決定の基準はいくつかありますが、一つは因子寄与の大きい因子から抽出する時、因子寄与が1を切った時点で因子の抽出を打ち切ることです。また、因子寄与の減少が他に比べて大きくなった時点で因子抽出を打ち切るスクリープロットという方法もあります。これもどれがいいというわけではありませんが、自分の仮説などと照らし合わせながら、ある程度主観的に決めても構わないのではないでしょうか.ここで一度因子数を決定したら,もう一度最初から因子数を確定して再分析することもあります.


(5)因子の回転:
ここが因子分析を理解する時につまる人が多いところですね。(4)で一応答えは出たのですが、それをもう少し理解しやすい値に変換してやると言えばいいでしょうか。たとえば両方の因子に負荷があって、解釈しにくいような状態をできるだけなくそうとする作業と思ってもらってもいいです。回転前の解は,どうしても第一因子の負荷が大きく,無相関の変数も同じ因子に負荷していることも多いです.この状態を解消するために回転を行います.この点に関しては「Q and A心理データ解析」(服部環、海保博之、福村出版)に図解入りで分かりやすく示されているのでご覧下さい.

さて、回転には主に二つ分けて直交回転斜交回転があります。直交回転は因子間の相関が0という仮定をおいてなされる回転です。斜交回転は逆に因子間の相関があるものとして解を出します。前者にはバリマックス回転、後者にはプロマックス回転、直接オブリミン、斜交プロクラステス回転などがあります。バリマックス回転は、直交でできるだけ因子負荷を「単純構造」に近づけるよう回転します。単純構造とは、それぞれの項目の因子負荷が特定の因子だけに大きく、残りの因子に対しては非常に小さいような構造を指します。つまり「この項目はあの因子だけに負荷がある、あっちの項目はこっちの因子だけに負荷がある」といった状態でしょうか。プロマックス回転は斜交でこの単純構造を目指します。因子間が相関していい(余計な制約がない)ため、当然バリママックスより単純構造になりやすくなります。斜交プロクラステスは一般的にあまり知られていませんが、非常に使えるので覚えておくといいでしょう。これは、自分の仮説にあった因子構造にできるだけ近づけるような回転を行います。ある程度仮説を持ちながら因子分析を行うのであるならば、斜交プロクラステス回転が便利でしょう。



(6)因子得点:
因子得点
とは、各被験者が各因子にどれくらい関係があるかを表すスコアです。つまり被験者×因子数 だけ存在します。因子得点は場合によっては求めないことも多いです。


さて、これで一応の因子分析の流れは紹介できました。図示すれば大分わかりやすくなるところを無理に文字で示したため、上手く伝わったか非常に疑問ですが、わからないところがあったら聞いて下さい。最後に因子分析で得られる出力の見方を記します。

最終的に出力には因子負荷行列が書いてあるはずです。これに関しては皆さんも大体の意味はわかると思うので省略します。一ついえることは、この因子負荷行列、論文に乗せる時に低い因子負荷はすべて省略する人がいますが、それはやめましょう。後の反証可能性のためにも、すべての値をきちんと表記すべきです.大体0.4以上だとその因子に対する負荷が高いと解釈されますが,因子負荷自体にも,標本による変動があるので注意が必要です(後述).

次に共通性です。上述した共通性の推定から、最終的に得られた値です。定義は上述のとおりですが、これはある項目が各因子に持っている因子負荷の二乗和(横の二乗和)となります(直交の場合)。共通性はどんな回転をしても変化しません(ベクトル図を書くとよく分かります)。共通性が低い尺度は因子によってあまり説明されていないということなので、除いてもいいでしょう。


そして因子寄与というものがあります。これは因子ごとにでる値で、因子が持っている相対的な影響力の強さと考えるといいでしょう.これが大きいとその因子は各項目への影響力が全体的に大きいといえます.よって因子寄与によって因子数を決定する場合が多いです.因子寄与はある因子に各項目が持っている因子負荷の二乗和(縦の二乗和)となります。但し、これは直交解の場合であり、斜交解の場合は定義が難しいので報告しないことが多いです。また、寄与率というものがあります。これは因子寄与/変数の数 で定義されます。これは項目全体に対してその因子がもつ影響力の割合を表していると考えればいいでしょう。ちなみに、因子寄与とよく混同されるものに「固有値」があります。これは因子寄与というものは「固有値問題」を解くことによって求められることから来ています。結論だけを言ってしまうと、回転前の因子寄与は固有値と一致しますが、回転後の因子寄与は固有値とは関係がありません。


最後に,斜交回転をした場合に因子負荷行列らしきものがいくつか出てきて、解釈に困るという人も多いでしょう。斜交回転ででてくる行列は次の3つです。すなわち因子パタン行列、因子構造行列、基準構造行列です。因子パタンは直交の因子負荷にあたるものと考えてみるといいでしょう。因子構造は因子と変数の相関係数です。基準構造は他の因子の影響を取り除いた場合の因子の変数における負荷です。偏相関の考えがわかりやすい人は,因子パタンは因子とその項目の偏相関係数(他の因子の影響を除いたもの),因子構造は単純相関係数,基準構造は部分相関係数と考えてもいいと思います.どれを扱うかは非常に悩むところです。ですが、基本的に統計ソフトウェアは因子パタンを単純構造化して(これは因子間相関を正にするという意味でもあります)出力してくるので、因子パタンを解釈していればあまり問題はないでしょう。


最尤法などを行った時には、適合度がでていることがあるかもしれません。因子分析を行った論文で適合度を算出しているものは殆どありませんが、これからのスタンダードとして、適合度は積極的に用いるようにしましょう.共分散構造分析などで確証的因子分析を行った場合には,この適合度が基本的に出力されるようになります(共分散構造分析のソフトウェアを用いて,探索的因子分析の適合度を出すことも可能です.ただし,制約の入れ方にコツがあります.詳しくは豊田先生の「共分散構造分析 応用編」を参照ください).



2.因子分析の注意点


さて、前節では駆け足ながら因子分析の流れと、各パラメータの値の意味について述べました。今節では因子分析を扱う上での注意点をいくつか述べたいと思います。

(0)まず何よりも押さえておくべきこと
細かい統計的な議論よりも先に,何よりも押さえておくべきことがあります.それは「因子」というものの意味です.「因子」とは,変数間の相関関係の高いもの同士をまとめている(説明している)仮説的な構成概念にしか過ぎません.因子分析で「因子が抽出された」とした上でその因子にラベルづけをすると,あたかもその因子が実在しているかのような印象を与えますが,決してそのようなことはありません.そこでなされているのは,あくまで変数間の相関関係の縮約です.

そもそも因子分析は回転によって解が変わるのをみれば分かるように、解が一意に定まりません。これを因子分析の解の不定性といいます.このことからも「因子」に実体が存在するわけではないことが見て取れるでしょう.例えばパーソナリティのBig Five説というものがあります.どの集団においても因子分析をしたら,パーソナリティに関して5つの因子が得られたことから,人間の基本的な性格はこの5次元で説明できるとしています.この考え方は決して間違っているとは言い切れません.しかし,その5因子というものが,実はまったく別の因子の複合によって生じている可能性がある訳です.その5因子は「実在」しているわけではなく,実在する他の要因が複合したものによって,あたかも実在しているかのように見えているだけの可能性もあるわけです.実際パーソナリティ研究の中では,これらの因子が,生物学的基盤(遺伝子など)のある他の要因の複合によって生じたのだと主張する人たちがいます(Cloninger説).

また因子というものは,「項目のまとまり」から決定されます.項目のまとまりがある部分ほど,因子が得られやすくなるというわけです.これは,因子分析によって得られる因子というものが,そこで分析にかけられた項目の相対的な関係に依存していることを意味しています.すなわち,因子というものは重要だから得られるのではなく,尺度内でまとまりを持っているから得られるのです.従って,因子分析で因子が得られた=その因子が何らかの認知的活動の基本的次元である,というわけではありません(そのようなことを主張するためには,かなり広範な項目抽出を行った上で,因子分析を実行した時にはじめて説得力を持ちます).その因子に負荷している項目を1つだけ削除すると,項目間の相対的なまとまりが変わり,もうその因子が得られない可能性があるくらいです.逆に,因子分析で除外された項目が,意味のない項目というわけでもありません.その項目は,認知活動では重要な役割を果たしているにも関わらず,他に似た項目がなかったために因子分析で除外された可能性もあるわけです.似たような項目が複数存在すれば,因子分析ではたやすくその因子を抽出してくれます因子分析の結果は,どのような観測変数を用いたかに依存しているのです.

さらに,この「項目のまとまり」は,普通の調査研究では「個人間の相関関係」に基づいて推定されます.従って,このような調査で得られた因子とは,あくまでも個人間変動をもとにしたものです.このような調査で人間の「内的構造」が分かったかのように書く論文がありますが,それは言い過ぎです.このような調査で得られた結果は,「個人間の変動にこのようなまとまりがある」ということを言っているに過ぎないのです(もちろん,そこから内的構造を「推測」することが悪い訳では決してないです),

以上述べたことと重なりますが,要するに因子分析とは(探索的因子分析という名が付いていても)データから構造や実体が『浮かび上がってくる』」ようなボトムアップ的な手法では決してないということです.因子数の決定や回転など,分析者がトップダウン的に決定する箇所がいくつもあります.そもそも最初の項目選択も分析者がトップダウン的に定めるものです.浮かび上がってくるのは実体ではなく,そのような分析者の事前の仮説・考え方に基づいた1つの結果なのです.


(1)直交 vs. 斜交?:
直交と斜交、どちらを選ぶかはなかなかの悩みどころです。しかしながらここでは「まずとりあえずは斜交回転をする」ことをオススメしたいと思います。なぜなら、因子間に相関がないなんていうことは、現実的には非常にまれなことであるからです。また、斜交回転をして因子間相関が小さかったならば、積極的に直交回転を選ぶ根拠になります。それに斜交回転は制約が少ない分、因子パタンにメリハリがつきやすい(単純構造になりやすい)というメリットがあります。また、たとえ直交回転で単純構造に近い値が得られたとしても、斜交をしてみると意外に大きな因子間相関がみられ驚くことも少なくありません。統計ソフトのデフォルトが直交であったり、斜交だと解釈も難しいし、出力も多く出てきて混乱するから直交を選ぶ人も多いでしょうが、斜交解をまず最初に選択することは多くの統計学者の間でコンセンサスが得られていることであるので、頑張って斜交で解釈してみましょう。ただし、最終的な判断を下すのは研究者です。直交で解釈をする必要があるときもあるでしょう。そのような時は、しっかりと理由を明記した上で分析することにしましょう。


(2)主成分分析 vs. 因子分析?:
主成分分析という単語が突然出てきました。これはいままで一度も解説していません。なぜなら、これは結果こそ似ているものの、因子分析とは完全に考え方を別にするものだからです。主成分分析とは、複数の項目がもつ共通の情報を集約して合成変数を作る手法です。すなわち因子分析では 「因子」→「項目」というパスが引けますが、主成分分析では「項目」→「合成得点」というパスになります。つまり主成分分析はデータの記述であり、因子のような潜在変数を想定したモデルではないのです。さて、このように主成分分析はその考え方の時点でもはや因子分析とは別物なのですが、それでも統計ソフトの因子分析デフォルトが主成分分析となっていることもあって、使われることが非常に多い手法です。主成分分析は共通性の推定を1とした繰り返しなしの主因子法と結果が一致するのですが、以下これを主成分分析として他の方法との比較を行います。

主成分分析と他の因子分析法と比較した時に生じる最も大きな違いは、主成分分析では共通性が大きめに推定されることです。これは共通性の推定値が1から始まること、繰り返しが1回しかないこととも関連しますが、とにかく一見したら普通の因子分析よりもいい結果に見えてしまうところに、大きな問題があります。また、主成分分析では尺度不変性というものがありません。詳しいことは省略しますが、たとえば単純構造が得られている質問紙から、ある1因子に関する尺度を丸ごと取り除いて再分析した時、主成分分析では得られていた単純構造が失われてしまう可能性があります。
このように主成分分析は因子分析として用いるためには、あまり適した手法とはいえませんが、あまり大規模ではない主成分分析ならば,主成分分析も主因子法も両者の分析結果は一致するという知見もあるため、計算の簡便化のために主成分分析(主成分分析は計算が速い)を用いることは問題がないようです。


(3)主因子法 vs. 最尤法?:
解の推定方法に関し、反復主因子法にするか最尤法にするか、あまり深く考えていない人も多いでしょう。以下これらの相違点に関して述べてみます。
最尤法は非常に統計的に洗練されたモデルで、これを推奨する統計屋も多いです。しかも適合度が算出されるため(一応主因子法でもだせるのですが、現在はソフトが追いついていません),適合度が高ければ因子分析の妥当性に説得力を加えることでしょう.因子パタンの標準誤差を出力することもできます.しかしながら最尤推定法は多変量正規分布を前提としているので、分布に歪みがある場合はあまり好ましくありません。また最大の問題点は不適解が出やすい点にあります。この場合の不適解はヘイウッドケースといい、計算の途中で共通性の推定値が1を超えてしまうような場合です。これはモデルが不適合である可能性を示しているのですが、困ったことにモデルが完全に正しい母集団からランダムサンプリングしたとしても標本誤差のため不適解を生じる可能性があるらしいです.つまり、モデルが不適格だから不適解が出たのか、モデルが正しいけれども運悪く不適解が出たのかが非常に判別しにくくなっています。このように不適解が出やすいのが最尤法の問題点ですが、逆にいえば不適合なモデルに非常にSensitiveな(つまりは望ましい)推定方法ともいえます.不適解は不適解がでた変数を取り除いてもうまく対処できない場合がある困ったものです。一つの因子には最低3つの項目を負荷させる(3指標条件)、サンプル数を増やす(標本誤差を減らす)などという具体的な方法もありますが、多くの場合は自分で様々に試行錯誤するしかないでしょう。ちなみに統計ソフトによっては不適解がでる直前に計算を止めて、そのままうまくいったかのように出力するものもあります。不自然なくらい高い共通性がないかなど、このような可能性を研究者は意識する必要があると思われます。

主因子法(この場合反復主因子法とします)は、このような不適解が出にくい方法です。また、多変量正規分布を前提としていないということも特徴です(これは最小二乗法でも同じです)。つまり,とりあえずやってみたら何らかの答えがでるのが反復主因子法です。これらはメリットでもありデメリットでもあるといえるでしょう。

つまるところ、まとめてみると、最尤推定法は分布にも適合にもSensitiveな手法であり、反復主因子法はその逆であるといえるでしょう。とりあえずは両手法を併用しながら、最尤法でいい結果が出たならこちらを報告するに越したことはないでしょう(ただし多変量正規分布の前提だけは満たしていることを確認する必要があります)。こちらの方がより「厳しい」推定なのですから。どちらがいいのかは一概に言うことはできませんが、両手法のメリット・デメリットを弁えながら使い分けることが必要でしょう。ちなみに最小二乗法は、両者のうち、主因子法に近い結果を出します。


(4)標本変動の重要性
因子分析において,忘れてはならない視点が「標本変動」です.すなわち,選んでくるサンプルによって,因子負荷などにも大きな変動があるという見方です.これは,因子分析に限らず,すべての統計的分析に共通する見方ですが,因子分析には「検定」や「信頼区間」という考えが,あまり表面には見えてこない分,よく忘れ去られる問題です(例えば相関係数の場合,有意性の検定をすれば,それで標本変動はもう考慮したことになる).

因子分析に標本変動があるということは,どういう意味を持ってくるのでしょうか.それは,因子分析で得られた結果が,必ずしも別のサンプルで得られるとは限らないということです.標本数100程度のサンプルで得られた結果は,思った以上に不安定なものです.そのことを考慮に入れた上で,多くのサンプルを追加しながら,研究は行っていく必要があるでしょう.また,先行研究で得られた因子構造が得られなかった場合に,今回のデータで得られた因子構造をもとに分析をすることも1つの手ですが,標本変動の可能性を考慮して,先行研究と同じ枠組みで分析を行うことも悪くないと思います.なお,このような標本変動を考慮した上で,因子構造が同じか否かを検討する方法として,確証的因子分析(後述)を用いるのも1つの手です.

人間は、どのような結果が生じてもそれなりに解釈できてしまうものなので、推定方法や標本変動による違いを弁えた上で責任をもった論文を書くことが望まれます。


(5)確証的因子分析について
因子分析にはデータ対し探索的に因子を求める探索的因子分析(EFA)と、最初から因子構造を定めてモデルフィットを確認する確証的因子分析(CFA)の2種があります。今回紹介したのは前者の因子分析です(斜交プロクラステス回転も探索的因子分析に入ります)。後者には共分散構造分析(SEM)などがあります.近年は後者が徐々に主流になりつつあります.


以上、これでも充分説明しきれないほど因子分析というものは複雑でかつ注意点が多い分析手法です。しかも多くの分析においてよくその意味を理解されないまま使われています。教育心理学年報での柳井先生の調査では、統計ソフトのデフォルトが変わると、掲載論文の分析方法もそれにつられて変化してしまうという笑える(笑えない?)結果が報告されていましたが、実際よくわからないから適当に分析を行っている人も多いでしょう。しかしながら、やはりそのような中でこそ、手法を理解し自分の分析に適切な方法を選択することが説得力ある論文へと繋がるのではないでしょうか。

Kouのホームページ   HOME