分散分析について


1.分散分析の前提について

分散分析(analysis of variance; ANOVA)は,複数の群間の平均値を比較するための手法です.実験研究で特に多く扱われます.2群間の平均値を比較するのであれば,t検定というものがあります.分散分析は,この分析をさらに複数群間(そして複数要因間)の比較に拡張したものだというイメージを持つと分かりやすいと思います.実際,2群間の平均値差を分散分析にかけると,t検定とまったく同じ結果を生みます.

「群間の比較」というと,「群の違い」→「従属変数の違い」といった説明・因果のイメージを抱きやすいですが,これは正しくありません.例えば調査研究で,成績が高い人と低い人に分けて動機づけ得点の比較をする場合を考えてみましょう.このとき,群間に差があると,「成績が高い人ほど動機づけが高い」という説明をしがちです.この説明は間違っていないのですが,「動機づけが高い人は成績が高い」という説明をしても間違っていないのです.また,「成績が高くなると動機づけが高くなる」といった因果的な解釈をすると誤りになります.分散分析は,つきつめて考えると相関関係の分析です(上の例は,成績と動機づけの相関係数を調べるのと,意味的に等価になります).相関係数には両方向からの説明が可能だったように,分散分析の独立変数と従属変数も,双方向からの説明が可能です.また,因果関係を示すのは,あくまでデータの収集方法であって,分析方法ではありません.分散分析=独立変数から従属変数への因果関係の同定,という誤解が時折見られますが,その点は注意しておく必要があります.分散分析は,片方の変数がカテゴリカルな(質的である)場合の相関関係の分析なのだ,と考えておくといいと思います.

ところで,なぜ「平均値差」をみる分析なのに,「分散」分析なのでしょうか.複数の群間の平均値を比較する場合,平均値差というものがたくさん生じます.これを個別に扱うと面倒くさいので,これらの平均値差をなんらかの1つの指標にまとめる必要が生じます.「分散」はこの複数の群間の平均値差をまとめるのに都合のいい指標なのです.群間の分散が大きいということはすなわち,群の間にばらつきがある=群間の差が大きい,ということになります.もちろん,それだけの理由で分散分析というわけではありません.別の分散も扱っているために,このような名前がついています.それに関しては,下の2.をご参照ください.




複数の群間の差を1つにまとめる,という表現から分かるように,分散分析では「全体として群間に差がある」ということは分かっても,「どの群間に差がある」かを明らかにはしてくれません(2群間の場合は,その2群間に差があると解釈するしかないですが).従って,分散分析によって,「群間に差がある」ことが明らかになった(有意になった)だけでは,通常分析は終了しません.どの群間に差があるかを明らかにするために「多重比較」という手法を用いる必要があります.直感的にはt検定を繰り返し実施して(複数の群から2群を選んできて,その平均値差を検定することを繰り返すこと),どの群間に差があるかを明らかにできるような気がします.しかし,検定を繰り返すことは,第一種の過誤(本当は差がないのに『ある』と結論づけてしまう誤り)の確率を増やすという問題点があり,あまりよくありません(この点に関しては,統計の教科書に詳しく書いてあるので読んでみてください).そこで,多重比較を実施して,第一種の過誤が増えないように調整をするのです.ただし,検定を繰り返しするという観点に立つなら,分散分析で主効果と交互作用の検定を同時に行うことも検定の繰り返しですし,重回帰分析で複数の独立変数の効果を見ることも検定の繰り返しです.共分散構造分析のパスの有意性検定も,複雑なモデルほど多くの検定をしています.その意味で,多群の分散分析にだけ,多重比較の問題がうるさく言われるのは,やや不思議な感もします(これは私見です).

多重比較には,多くの種類のものがあります.LSD法だけは問題が多いとして,今日ではあまり使われていないようです.従って,LSD法は用いない方が無難でしょう.どれがいいというわけではないですが,「どの群間に差があるのか」という明確な仮説を事前に持っているのならば,その仮説に合致した手法を選ぶと,検定力も低くならず,有意な結果が得られる可能性が高くなります.特にシェッフェの方法という多重比較は,事前に持っている仮説をそのまま検討することができる柔軟な多重比較の方法なので,積極的に用いることをオススメします.多重比較と言うと機械的にRyanやTukeyの方法を用いる人を見かけますが,「事前の仮説」という,実験者が事前に持っている情報を積極的に用いて,検出力を高める努力をした方が,意義のある結果が多く得られると思います.仮説を必要としない多重比較の方法では,結局すべての比較対(2群の平均値差)に対して検定を行うので,どうしても検出力が低くなってしまうからです.

先に多重比較について書いてしまいましたが,分散分析では実行するためのいくつかの前提条件があり,それを押さえておく必要があります.それは,「正規性」,「分散の等質性」,そして「観測値の独立性」です.これらは,特に分散分析に固有の前提ではありません.他の分析においても基本となる前提です(分散の等質性は分散分析だけのような気がしますが,例えば回帰分析の検定においても,独立変数の条件つき誤差分散が等質になることが仮定されています).しかし,分散分析において,特に口うるさく言われているような気がします.それは,分散分析を扱うような実験研究では,特に標本数が少なく,これらの前提が満たされないことが多いためだからだと思います.このうち,正規性(各群の観測値の母集団分布が正規分布であること)と分散の等質性(各群の母集団分散が等しいこと)に関しては,ある程度分散分析は頑健であることが知られています.つまり,多少この前提条件が破れても,結果に大きなゆがみは生じないみたいです.一方,観測値の独立性に対しては,分散分析はやや弱いことが指摘されています(栗田, 1999).観測値の独立性が満たされないとは,ある従属変数に関する観測値が,別の観測値に影響を与える場合を示します.例えば,ある学校の2クラスを用いて,片方を実験群,もう片方を統制群とした実験授業(従属変数はテストの成績)を行うことがよくあると思います.この場合,クラス内の凝集性が強いと,ある生徒のテスト成績の高さが,同じクラスの友人である別の生徒の成績の高さに影響を与える(お互いに教え合ったりするため)ということは十分に考えられるでしょう.このような状況を,独立性の仮定が満たされない状況といいます.この状況(級内相関係数が高い状態,といいます)において分散分析を適用すると,第一種の過誤が高くなることが示されています.また,観測値の独立性が満たされないということは,観測値が標本からのランダムサンプリングではないということにもなります.この場合,検定を行ったとしても,その結果を母集団に一般化することができません.この点に関しましては,前のページの参考文献に載せておいた橘敏明先生の本が痛快な批判をしていますので,お読みください.

観測値の独立性は,他の2つの前提条件に比べて大きな影響を持っているにも関わらず,この点を等閑視している研究が多いです.この独立性の問題は,データ収集の際に,少し意識をするだけでもずいぶん改善されるところがあるので,実験計画を考える際には,こういった問題にも目を配っておく必要があるでしょう.なお,この問題を改善する分析方法として,階層線形モデル(Hierarchical Linear Model; HLM)とかマルチレベルモデルとか呼ばれているものがあります.このHPにも少しだけ解説を載せましたのでご参照ください.

2.分散分析で有意な差を得るためには

分散分析を行うことが多いのは,上にも書いたように実験研究です.実験研究では,有意な差を得たいことが多いでしょう.そこで,ここでは,「どのようにしたら分散分析で有意な差が得られやすくなるか」ということについて考えてみたいと思います.そのためには,分散分析で「群間差が有意になる」ということが,どのような場合を示しているのかを明らかにする必要性があります.この分散分析のからくりを知っておくことで,どのような実験研究がよりいい結果を得やすいのかということが浮かび上がってきます.分散分析は,(群間分散)/(郡内分散)が大きくなれば有意になりやすくなります.ここで重要なのは,分散分析の有意性は,2つの要素によって決定されるという点です.すなわち,「群間分散が大きいこと」と「群内分散が小さいこと」です.前者はさきほど説明したように,「群間の平均値差が大きいこと」を示しています.そして,後者は「各群内の分散が小さいこと」を示しています.「有意差がある」というとき,人はどうしても「平均値差が大きい」ということに注意を向けがちですが,それと同時に「群内分散が小さい」ということも意味しているのだということは注意する必要があります.


群間分散を大きくするためには,実験の操作を強めにしたりすることが考えられます.これは多くの人が実験を行う際に気づくものです.一方,群内分散に関してはどうでしょうか.そもそも,群内分散が小さいとはどういうことでしょうか.それは,群内の個人差が小さいということです.では,群内の個人差を小さくするためにはどうすればいいでしょうか.直感的には「等質な」集団を被験者にすることが考えられます(例えばすべての被験者を東大生にする).しかし,この方法では確かに有意な群間差は得られやすくなりますが,結果の一般化可能性という観点からは問題があります.

そこで代替案が考えられます.それは,群内分散を大きくするような個人差変数を予め測定しておき,分散分析を適用する際に,その個人差変数の影響を取り除くのです.例えば,2群間で問題解決能力の比較を行いたいような場合,各群内にもできる人とできない人が分かれると思います.この個人差を規定している要因は何でしょうか.直感的に考えてみても,例えば知能指数(IQ)によって,群内におけるこのできる人とできない人の散らばりを規定していることは容易に想像がつくでしょう.そこで,あらかじめIQを測定しておき,分析の際にこのIQの影響を取り除く(すなわち,IQによって生じている分散を取り除く)と,群内分散がぐっと小さくなり,群間差が検出されやすくなります.この分析を共分散分析(analysis of covariance; ANCOVA)と言います.実験というと無作為配置をして分散分析,というイメージが強いかもしれません.しかし,このように,群内分散に影響を与えていそうな変数を積極的に測定しておき,検出力を高める努力をすることは,とても大切なことだと思います.なお,この個人差変数の影響を取り除く,という考え方を究極的に押し進めたのが,マッチングデザイン,そして被験者内計画(後述)です.

群内分散に関して,もう1つとても大切なのは「誤差(剰余変数)の統制」です.例えば,ときどきうるさい声が聞こえてくる実験室で反応時間を測定する実験を行うことを考えてみましょう.このとき,うるさいこえがたまたま聞こえた人は少し反応時間が長くなったりするのではないでしょうか.この結果,各群内の反応時間の分散がかなり増加することが予想されます(うるさい声はランダムに聞こえてくると仮定するので,この声の聞こえ方がどちらかの群に偏りを生むことはありません).このように,「誤差」が侵入してきやすい実験では,群内の分散が大きくなり,有意な結果が検出しにくくなります.このことは,何も「声」みたいな特殊な事例に限ったことではありません.例えば友人が被験者になってくれた場合には,やや気の緩んだ教示をしてしまい,その教示の違いが誤差となって,群内分散を増大させてしまうこともありえたりします.このように,誤差は,実験計画を厳密に実行できない場合,いたるところで侵入してきます.実験で有意な結果を得たいのであれば,しっかりと実験の教示のマニュアルなどを作成し,事前の綿密な練習を繰り返し,誤差を低減させる努力が必要だと思います.実際,海外の一流紙に載るような実験は,教示にテープレコーダなどを用いて,統制を行っているものも多いです.一方,私がこれまで受けてきた日本の実験を想起する限り,あまり「実験状況の厳密さ」が考慮されていないような気がします.

3.交互作用・被験者内計画

分散分析の1つのポイントは,交互作用(interaction)の分析ができることです(別の項で述べたように,それは重回帰分析でも可能です).交互作用とは,ある要因の効果が,別の要因の水準によって変わってくることを示しています(要因・水準という言葉遣いは,統計の教科書に載っているので,分からない方はそちらを読んでください).例えば,ある教授法を開発し,従来の教授法と比較をしてみた結果,ある教授法はIQが高い群にだけ従来の教授法よりも効果があり,逆にIQが低い群には従来の教授方法の方が効果があったような場合に,教授法という要因とIQの高・低という要因との間に交互作用があるといいます.これは,IQが高い群における2つの教授方法の差と,IQが低い群における2つの教授方法の差に違いがあると言い換えることも出来ます.つまり,交互作用は「差の差の検定」と考えることも可能ですし,そのように覚えておいた方が,分かりやすい状況も多いです(事前-事後デザインの分析など).

交互作用は,得られた知見を非常に豊かにしてくれます.ただし,いくつか留意する点もあります.1つは,交互作用が有意になっただけでは,ある水準において別の要因の効果があるとはいえないことです.上の例でいうならば,例え有意な交互作用が得られたからといって,IQが高い群において,ある教授方法が従来の教授方法よりも有意に効果がある,とは言えません.そのためには単純主効果というものを検討する必要があります.単純主効果は,その求め方が一意に定まるものではなく,従って統計ソフトウェアでも出力してくれないことがあります.この点に関しては「データ解析テクニカルブック」(森敏明・吉田寿夫著)に詳しく書いてありますので,読むとよいでしょう.なお,交互作用が有意になったからといって単純主効果が有意になるとは限りませんし,逆に単純主効果が有意になったからといって,交互作用が有意になるとは限りません.よく「交互作用が有意」→「単純主効果の検定」という流れをみます.このことは別に間違ったものではありません.ただし,上に述べていますように,この2つの検定は必ずしも包括関係にあるものではないので,交互作用が有意でなくても,単純主効果の検定を行うことは,間違ったことではないと思います.また,「交互作用が有意になったのに,単純主効果が有意にならなかった(涙)」という相談を受けることがよくあります.このようなことになっても,決して交互作用に意味がないわけではありません.その研究で何を主張したいかにもよりますが,単純主効果が有意にならなくても「ある要因の効果が別の要因の水準によって違う」「差の差に違いがある」といった解釈をしていれば,それは問題ありません.

交互作用を分析する際に問題になるのは,セルの人数比の問題です.セルの人数比に偏りがあると,交互作用の検定統計量を一意に算出できなくなります.この際,いくつかの種類がある「平方和の分割」のうち,どれか1つを選ぶ必要が出てきます.どれがいいというガイドラインはありませんし,私自身,どのような場合にどのような平方和の分割を選べばいいのかということに関しては,まだ十分に腑に落ちた形で理解できていないので,ここではご容赦していただけると幸いです.1つだけいえることは,いくつかの種類の平方和で同じ結果が得られたなら,それはセルの人数比が不揃いであっても,自信を持ってその結果を報告してもよいということです.

ただここで1つ重要なのは,セルの人数が不揃いであることが,どのような意味を持っているかということです.セルの人数が不揃いであるということは,要因間の交絡を示しています.すなわち,群間に見られた違いというものが,どの要因によるものなのかを分離して考えることができないということです.その上で,あえて何らかの立場を取って(平方和のうち1つを選び取って)検定を行っているのだということを,分析者は意識する必要があると思います.

最後に,被験者内の分散分析(繰り返しのある分散分析)に関して簡単に触れます.被験者内の分散分析は,上に述べたように,「個人そのもの」の要因を統制した分散分析と考えられることが出来ます.このことは群内の分散をぐっと小さくしてくれます.従って,被験者内の分散分析では,検出力が非常に高くなります.ただし,同じ被験者が2つ以上の操作を受けるということですから,そのことによって結果が歪む可能性も否定しきれません.また,被験者内計画では,被験者の負担も大きくなり,その分誤差が増大する可能性もあります.自分の実験計画をしっかり見直した上で,どちらの計画にするかを見極める必要があるでしょう.また,被験者内の分散分析における前提条件として「球面性の仮定」というものがあります.名前はいかめしいですが,これは実は被験者間計画における分散の等質性と同じものです.ただし,ここで問題になるのは,水準ごとの分散の等質性ではありません.球面性の仮定で問題になるのは,水準間の差得点の分散の等質性です.例えば,A,B,Cという3水準の被験者内分散分析を行ったとき問題になるのは,A-B, B-C, C-Aという3つの差得点の分散が等質であるかどうかということです.被験者間計画と被験者内計画の前提条件の違い(実はこれは突き詰めればまったく同じ前提条件なのですが)を,意識しておくといいと思います.

以上,書き始めると長くなってしまいました.実験計画法にまで立ち入ってしまいましたが,もし疑問があれば,ご連絡ください.まだまだ分散分析で注意することはたくさんあると思います.分散分析・実験計画法に関しては,良質の本がたくさんあると思いますので,そちらを読んでみるのもおすすめです.


≪引用文献≫
栗田佳代子 1999 実際のデータを用いたt検定および検定力分析の「観測値の独立性」からの逸脱に対する頑健性の検討 教育心理学研究, 47, 263-272.

Kouのホームページ   HOME