回帰モデルの係数の分散分析のまとめ・その1
共分散分析で回帰分析の分散分析が出てきたので、少し整理します。
回帰分析を分散分析する目的
回帰分析の分散分析は、データを意思決定に利用するための方法です。
これを使えば、回帰モデルに用いた異なる要因(説明変数、因子など)が目的変数に与える影響を統計的に評価できます。
一般的な回帰モデルは以下の式で表されます。
$$ y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \ldots + \beta_n x_n + \varepsilon $$
- $y$ : 目的変数
- $x_1, x_2, \ldots, x_n$ : 説明変数、要因
- $\beta_0, \beta_1, \beta_2, \ldots, \beta_n$ : 回帰係数(各説明変数の影響度)
- $\varepsilon$ : 誤差項
この回帰モデルにおいて、異なる説明変数が目的変数に与える影響を評価するために分散分析を利用します。そして、回帰モデルや説明変数により目的変数の総変動(ばらつき)が減少(説明)する量を見ることで、その影響が分かります。
これには、以下の 2 つのアプローチがあります。
- 回帰モデル全体の有意性評価:回帰モデルが目的変数をどれだけ説明できるかを見るために、回帰モデルと単なる平均値(切片だけのモデル)を比較する。
- 特定の説明変数や切片に対する検定:各説明変数や切片が目的変数にどれだけ影響を与えるかを見るために、その係数が 0 であるかどうかを検定する。
評価の流れ
評価は大きく 2 つに分かれます。
- 回帰モデルに対して目的変数の総変動、説明変数の変動(回帰変動)、残差の変動(誤差変動)を使った分散分析
- 回帰係数に対する t 検定で、回帰係数が 0 でないことを統計的に確認する
そして、モデルの適合度、説明力、および各説明変数の重要性を評価します。
評価対象 | |
---|---|
モデルの適合度 | 回帰モデルの予測の信頼性を確認する。適合していれば、正しく予測できる可能性が高い。 |
説明力 | 説明変数が目的変数(応答変数)を説明する程度を評価する。重要な変数の特定に使えて、現象やプロセスの理解が深まる。 |
変数の重要性 | 目的変数に最も影響する変数を選択する(特徴選択:feature selection)。不要な変数を除き、モデルの複雑性を下げて、モデルの解釈性が上げる。 |
モデルの適合度の評価
誤差変動に対する各説明変数の統計的有意差を F 検定して、観測データに対するモデルの適合度を評価します。
説明力の評価
各説明変数の係数($\beta_1, \beta_2, \ldots, \beta_n$)に対して t 検定を行い、説明変数が目的変数に与える影響を評価します。
目的変数に対して有意な影響を持つ説明変数は、この p 値が小さい傾向があります。
変数の重要性の評価
各説明変数の係数の大きさ(絶対値)を評価します。
目的変数に与える影響が大きい説明変数は、係数が大きい傾向があります。
そのため、係数の絶対値が小さい説明変数の除外は、回帰モデルの解釈に有効です。
また、他の様々な情報を使って目的変数の要否を判断することも有効です。
分散分析表について
分散分析表は分散分析の結果の解釈に重要です。
回帰モデルの分散分析は、要因がカテゴリデータから連続値に代わるので、自由度の求め方が変わりますが、それ以外の要因に対しては変わりません。
モデル全体、説明変数、残差について、各要素の平方和(Sum of Squares, SS)、自由度(Degrees of Freedom, DF)、および平均平方(Mean Square, MS)を計算します。
項目 | 意味 | 記号 | 式 |
---|---|---|---|
モデル全体 | データ全体のばらつき | $SS{y}$, $SS{T}$ | $$SS{y} = \sum{i=1}^{n} (y_i - \bar{y})2$$ |
^ | ^ | $df{y}$, $df{T}$ | $$df_{y} = n - 1$$ |
^ | ^ | $MS{y}$, $MS{T}$ | $$MS{y} = \frac{SS{y}}{df_{y}}$$ |
説明変数 | 回帰モデルが説明できる目的変数の変動 | $SS_{R}$ | $$SS{R} = \sum{i=1}^{n} (\hat{y}_i - \bar{y})2$$ |
^ | ^ | $df_{R}$ | $$df_{R} = \text{説明変数の数}$$ |
^ | ^ | $MS_{R}$ | $$MS{R} = \frac{SS{R}}{df_{R}}$$ |
残差 | モデルが説明できなかった目的変数の変動 | $SS_{E}$ | $$SS{E} = SS{y} - SS{R} = \sum{i=1}^{n} (y_i - \hat{y}_i)2$$ |
^ | ^ | $df_{E}$ | $$df{E} = df{y} - df_{R} = n - 1 - \text{説明変数の数}$$ |
^ | ^ | $MS_{E}$ | $$MS{E} = \frac{SS{E}}{df_{E}}$$ |
- $n$: サンプルサイズ
- $Y_i$: 個々の観測値、個々のデータ
- $\bar{Y}$: 目的変数の平均
- $\hat{Y}_i$: 回帰モデルの予測値
回帰係数の検定
分散分析で有意になれば、個々の回帰係数($\beta_i$)を t 検定して、目的変数に与える影響を確認します。
ここでの帰無仮説と対立仮説は、係数が 0 かどうかです。
- $H_0: \beta_j = 0$
- $H_1: \beta_j \neq 0$
そして、t 値は次の式になります。
$$ t_j = \frac{\hat{\beta}j}{\hat{\sigma}{\hat{\beta}_j}} $$
このとき、$\hat{\beta}j$ は $x_j$ の係数の推定値で、$\hat{\sigma}{\hat{\beta}j}$ は $\hat{\beta}j$ の標準誤差です。
そして、t 値は自由度 $n - (\text{説明変数の数}) - 1$ の t 分布に従うので、t 値を棄却域と比較すれば、回帰係数の目的変数に対する影響が分かります。
つまり、仮に単回帰分析で有意水準を $\alpha = 0.05$ にするなら、棄却域は $t_j < -t(0.025, n - 2)$ または $t_j > t(0.025, n - 2)$ です。
このt検定の部分は、別でまとめようと思います。