重回帰分析について


1.単回帰・重回帰分析における基本的な注意点


単回帰分析とは,ある従属変数を1つの独立変数で予測するための分析で,独立変数が2つ以上の場合は重回帰分析となります.以下両者を回帰分析と呼びます.具体的にどのような数式で求められるかなどに関しては,ある程度分かっているものとして,この節ではその使用上の実際的な注意点などに触れていきたいと思います.

回帰分析で最も押さえておかなければならないポイントは,変数間の「相関関係」(正確には分散と共分散)によって回帰係数が決定されているという事実ですつまり本質は「相関係数(の関数)」なのです.独立変数,従属変数を標準化した上で算出される回帰係数を標準回帰係数といいますが,単回帰分析の場合,これはまさに独立変数と従属変数の相関係数そのものです.重回帰分析によって算出される(標準)偏回帰係数も,独立変数と従属変数,そして独立変数間の相関係数をいわば縮約した値になっていると考えることができます(後述するように,単なる相関係数でない点は要注意です).よって,相関係数に関する注意点はすべて単回帰分析・重回帰分析における注意点と重なると考えることができます.直線的な関係しか見ることができない点(ただし非線形回帰という手法もあります),グループによる分割が結果を変えてしまう可能性をもっている点,希薄化の問題(ただし共分散構造分析を使うという手もあります)などすべて回帰分析の注意点に当てはまります.そのなかでも特に注意しないといけない点は,回帰分析は決して因果関係を表しているわけではないということです.従属変数を独立変数で「予測」するのが回帰分析というと,いかにも「独立変数⇒従属変数」という矢印つきの因果関係を想定しがちですが,決して因果関係と断定はできません.あくまで回帰係数は相関関係です.例えば単回帰分析の場合,独立変数と従属変数を入れ替えても,標準化された回帰係数は全く変わらず,しかもその値は普通の単相関係数なのです.

さて,重回帰分析には重決定係数(R-square)があります.これは,従属変数の分散のうち何%を独立変数が説明しているかを表している指標です.重回帰分析における予測値と実際の値の相関係数を重相関係数といいますが,それを二乗したものです.一般にこの値が高いほど,重回帰分析の予測の精度が高いと解釈できます.しかし,具体的にR-squareがどの程度なら高い予測力を持つといえるのかは,領域によって大きく異なっているといえるでしょう.また,独立変数を増やせば増やすほどどのような変数を使ってもR-squareは高くなっていきますが(ちなみにこの問題点に対処しているのが「自由度調整済みR-square」です),「従属変数の予測力」と「具体的にどの独立変数が従属変数にどのような形で効いているかを理解できること」ということは別問題です.後述するように,偏回帰係数の解釈は独立変数の数が増えるほど困難になります.社会学のように,とにかく社会事象の予測の精度を目的にする場合では,独立変数を増やしてその予測力を高めることには一定の意味があると思いますが,例えば教育心理学研究のように独立変数と従属変数の具体的な関係を吟味し,そのメカニズムを解明したり独立変数を操作して介入に生かしていこうという場合には,多くの独立変数を投入した重回帰分析は結果の解釈が困難で,実質的に無意味になることが多いです.豊田(1998)では,偏回帰係数の解釈を目的とする場合には,独立変数の数は2つにとどめることが望ましい(ただし独立変数間に相関がある場合)と記述されています.

重回帰分析において,その予測式のよさを表す指標はR-squareだけではありません.例えばAICという情報量基準もありますし,サンプルを半分に分けての交差妥当化(妥当性の節参照)という方法もあります.潜在変数を用いて重回帰分析的なモデルを共分散構造分析で立てるときには適合度も参照できます(潜在変数を用いないと丁度識別になってしまいますが).さまざまな指標を組み合わせてよりよい予測式を立てるのがよいでしょう.

重回帰分析において,ときおり問題になるのが「交互作用」の問題です.通常の重回帰分析ではある独立変数の値が変化しようがしまいが,他の独立変数と従属変数との関係は一定であるということが仮定されています.すなわち独立変数間の交互作用は仮定されていません.この交互作用をモデルに組み込むために,よく用いられるのは交互作用を仮定する独立変数間の積を新たな独立変数として投入することです.この項が有意であれば交互作用があると判断するのですが,注意点が2つあります.1つはここで検出された交互作用の意味です.具体的に式を展開すると分かりますが,独立変数間の積によって表された交互作用というものは,考えうる交互作用の中の1つの形に過ぎません.逆に言うと,他の形態の交互作用は独立変数間の積の項では検出されないということを頭に入れておく必要があります.もう1つは多重共線性の問題です.多重共線性については後述しますが,独立変数間の積の投入は,独立変数と交互作用項の相関を高めてしまうので,多重共線性が生じやすいという問題点があります.これに関しては独立変数間の積ではなく,独立変数の平均偏差間の積を交互作用項として投入するという方法で回避することができます.詳しいことについてはCronbach, L.J., "Statistical Tests for Moderator Variables:Flaws in Analyses Recently Proposed", Psychological Bulletin,pp.414-417, Vol.102,No.3, (1987)をご覧下さい.なお,この交互作用項の投入に関しても上述した「現象の説明力と解釈可能性」の問題が付きまとっている点は注意です.説明力をあげるためにむやみに交互作用項を投入したとしても,解釈ができなくなってしまってはそれは無意味です.

回帰分析は,「ダミー変数(0と1の値だけをとる変数)」という非確率変数を独立変数に持ってくると,群間の差を検定する分散分析を表現することが可能です.すなわち,回帰分析と分散分析は本質的に同じモデル式で表現可能で,それらはまとめて「一般線形モデル(glm)」と呼ばれています.このことを知っておくと,より柔軟な分析を行えるでしょう.


2.偏回帰係数の解釈・多重共線性など


さて,重回帰分析の際,もっとも問題になってくるのは偏回帰係数の解釈でしょう.上述したように,偏回帰係数の解釈というものは,とても難しいのです.逆にちゃんと理解できれば,興味深い解釈をすることが可能になります.

例えば y=a1x1+a2x2+b という重回帰式があった場合(x1, x2が独立変数,y(本当はyハットです)が従属変数),偏回帰係数a1というものは,独立変数x1と従属変数yとの相関係数(単相関)ではないという点が一番重要です.先ほど,偏回帰係数は相関関係と書きましたが,単純な2変数間の相関関係ではないのです.もっと条件つきの相関関係なのです.では,具体的に偏回帰係数はどのような意味をもっているのでしょうか.それは,a1を例にとると,「他の独立変数(この場合x2)の値を一定にしたときのx1の効果」というものです.「他の独立変数の効果を統制(パーシャルアウト)したときのx1の効果」といってもいいでしょう.これはどういうことでしょうか.仮に他の独立変数の値も可変だと考えてみましょう.このとき,x1を動かしてみると,従属変数yも動くことになるでしょう.しかし同時に,x1とx2の間に相関関係がある場合,x2も動いてしまいます.x2もyと関係があるとすると,動いたx2に呼応してyも動いてしまいます.つまり,x1を動かしたときにyには2通りの効果があるということが重要です.x1を動かしたときに直接yに働く効果と,x2というものを通して間接的にに働くyの効果です.このとき,前者のように,他の独立変数を媒介せずに直接働く効果が,偏回帰係数の値なのです.「他の独立変数の値を一定にする(統制する)」というのは,「x1が動くことで,それにともなって他の独立変数(この場合x2)も動くのだけれども,仮にそれがまったくないとした場合」ということなのです.逆に,他の独立変数を媒介した効果もすべて勘定に入れたのが,単相関です.すなわち,「単相関=直接効果(偏回帰係数)+間接効果」というイメージになります(標準化した場合).この式をみると,偏回帰係数が,単相関から間接効果を取り除いたものだと考えられるでしょう(効果には負の値もあるので単相関>直接効果ではありません).もう1度整理します.「x1をとりあえず動かしてみたらy(の予測値)がどう変わるか」ということを示しているのが普通の単相関です.そして,「他の独立変数を一定にした上で,x1を動かしてみたらyがどう変わるか」という,x1からyへの直接的な効果を示しているのが偏回帰係数です.ところで,もうお気づきの方もいると思いますが,独立変数間に相関がないとき(この場合x1とx2の相関がない場合),x1を動かしてもx2は連動しないわけですから,x2を媒介した間接効果というものは存在しないことになります.すなわち,「単相関=偏回帰係数」というイメージになります.実際,独立変数間の相関が0のとき,標準偏回帰係数は相関係数に一致します.逆に言えば,たいていの場合,相関係数と標準偏回帰係数の値は一致しません.たとえばyとx1の単相関が高くても,直接効果a1(偏回帰係数)がとても小さい場合があります.この場合,間接効果が大きいということになりますね.すなわち,x1とyの相関というものは,x2によって生じた擬相関と考えることができます

このように,偏回帰係数の解釈はややこしいですが,上手に解釈できれば上述の擬相関の発見など,興味深い知見を提供してくれることが多いです.ここで重要なのは,偏回帰係数のより深い解釈のためには,独立変数と従属変数,独立変数間の相関係数が必要だということです.重回帰分析を行い,より具体的な解釈を行うためには,論文には必ず偏回帰係数だけではなく変数間の相関行列を載せるようにしましょう.なお,豊田先生の「共分散構造分析・入門編」(朝倉書店)には,独立変数が2つの場合の重回帰分析の解釈例が網羅的に記されており勉強になります.興味のある方はご一読ください.

ここまで偏回帰係数の解釈の話をしてきました.そして,独立変数間の相関が高いときに,偏回帰係数と単相関の値の食い違いが生じ,解釈に慎重さを要する(逆に興味深い解釈も可能)ということがわかりました.ところで,重回帰分析で独立変数間の相関が高い場合,別の困った問題が生じます.それが「多重共線性」です.多重共線性が生じると,偏回帰係数の絶対値がとても高かったり,通常では考えられないほどR-squareが大きいという現象が起きます.このとき,偏回帰係数の標準誤差(一種の安定性)がとても高くなるため,偏回帰係数を解釈すること自体が無意味ということになります(不安定な係数を解釈しても意味がないから).この場合は残念ながら分析を諦めるか,その原因になっている変数を取り除くしかありません.多重共線性は,R-squareや偏回帰係数,標準誤差を自分で見て判断することも可能ですが,多重共線性を判断する指標としてVIF(Variance Inflation Factor)というものがあります.その基準値は定まっていないようですが,これがとても高い場合には,多重共線性が生じていると考えてよいでしょう.なお,多重共線性は独立変数間の相関が高い場合に生じると思われていますが,独立変数が3変数以上の場合,その相関行列の相関係数がどれもそれほど高くなくても場合によっては多重共線性が生じることがあるので注意が必要です.

このように考えると,独立変数間の高い相関は多重共線性を引き起こしやすいので,あまり望ましいことではないと考えられるかもしれませんが,上述のように擬相関の発見など興味深い知見を提出することも多い点にも注意が必要です.そしてその中でも特に興味深いのが「抑制変数」が発見されたときです.抑制変数とは,従属変数との単相関はほぼ0なのに,偏回帰係数が有意になる独立変数や,単相関と偏回帰係数の符号が逆転してしまう独立変数や,偏回帰係数が単相関よりもずっと高くなるような独立変数のことを指します(統計の本では,この中のどれか1つだけを抑制変数といっている場合がありますが,実際はこの3つの場合を総称して指すようです.詳しくはここのページをご参照ください).この具体例・解釈に関しては柳井先生の「複雑さに挑む科学」や,「Q&Aで知る 統計データ解析」のQ52を参照ください(それぞれ別の意味の抑制変数の解釈が載っています).独立変数間の相関が高いときには,多重共線性が生じるか抑制変数という興味深い知見が導かれるか,大げさにいえば運命の分かれ目だと考えられるでしょう.


Kouのホームページ   HOME