日々のつれづれ

不惑をむかえ戸惑いを隠せない男性の独り言

平方和のまとめ・その1

2 つの要因による効果とその交互作用を検討する統計手法が二元配置分散分析でした。

この方法は、ある値に対して要因 A と要因 B が紐づいたデータあるとき、要因 A の主効果、要因 B の主効果、要因 A と要因 B の交互作用の 3 つの効果を評価します。

二元配置分散分析の平方和

この評価に偏差平方和を使います。偏差平方和は集団の平均値からの乖離の程度を示しており、この差の大小でバラツキの程度が分かります。

分散分析は、ある値を要因と誤差で説明できると考えており、ある値のバラツキ(総変動, $SS_T$)は要素のバラツキ(要因の変動, $SS_A, SS_B$)と誤差のバラツキ(残差変動, $SS_E$)の合計と考えます。更に二元配置分散分析は、要因が組み合わさった時に生じる変動(交互作用の変動, $SS_{AB}$)も加わります。

$SS_T = SS_A + SS_B + SS_{AB} + SS_E$

これをまとめると次のようになります。

平方和の種類 名称 乖離の程度 数式
全体の平方和 総変動 各値と全体平均値 $$SS_T = \sum{i=1}^a \sum{j=1}^b \sum{k=1}^{n{ij}} (x_{ijk} - \bar{x})2$$
要因 A の平方和 要因 A の変動 要因 A の水準ごとの平均値と全体平均値 $$SS_A = b \sum{i=1}^a (\bar{x}{i\cdot\cdot} - \bar{x})2$$
要因 B の平方和 要因 B の変動 要因 B の水準ごとの平均値と全体平均値 $$SS_B = a \sum{j=1}^b (\bar{x}{\cdot j\cdot} - \bar{x})2$$
交互作用の平方和 交互作用の変動 要因 A と要因 B の水準ごとの組み合わせの平均値と要因 A と要因 B の水準ごとの平均値 $$SS{AB} = n \sum{i=1}^a \sum{j=1}^b (\bar{x}{ij\cdot} - \bar{x}{i\cdot\cdot} - \bar{x}{\cdot j\cdot} + \bar{x})2$$
残差(誤差)の平方和 残差(誤差)変動 各値と水準組み合わせごとの平均値 $$SS_E = \sum{i=1}^a \sum{j=1}^b \sum{k=1}^{n{ij}} (x{ijk} - \bar{x}{ij\cdot})2$$

不揃いデータの場合

ただし、データの偏りや欠損について注意が必要です。

二元配置分散分析に用いるデータは、すべての要因と水準でデータ数が等しい「等例数」、かつ欠損がない「完全配置」が理想的です。しかし、現実には実現できないこともあり、結果に影響を与える可能性が出てきます。

要因・水準の例数が違う場合(不等例数)

種類 方法 利点 欠点
タッカー法 水準の組み合わせ別の平均値を使う 各水準の組み合わせが 1 つのデータになるので、等例数と同じように扱える 各水準組み合わせのばらつき(残差変動)を無視するので、F 比が過大になりやすい
ウェルチ 水準の組み合わせ別の分散で重み付けした平方和を使う 各水準の組み合わせのばらつき(残差変動)を考慮するので、F 比が適切になる 自由度や F 比の計算が複雑になる
ハインツ法 水準の組み合わせ別の標準偏差で標準化した値を使う 各水準の組み合わせのばらつき(残差変動)を均一化するので、F 比が適切になる 標準化により単位や尺度を失うので、解釈が難しくなる

要因・水準が欠損値を持つ場合(欠損配置)

種類 方法 利点 欠点
除外 欠損値が含まれる水準組み合わせを分析から除外する 欠損値の影響を受けないので、F 比が適切になる データ数が減るので、分析の精度や検出力が低下する
補完 欠損値を何らかの方法で推定して補完する データ数が減らないので、分析の精度や検出力が低下しない 補完方法によって分析結果が変わる可能性があり、補完の妥当性や信頼性の評価が必要になる
混合モデル 固定効果とランダム効果を考慮した混合モデルを使う 欠損値のパターンやメカニズムに依存しないので、F 比が適切になる モデルの選択や推定に専門的な知識や技術が必要になる

このように、不均等数や欠損配置には慎重な対応が必要になります。

そして、この場合、平方和の計算方法も重要になります。これは、上にある総変動、要因 A、要因 B、交互作用、残差変動の平方和とは異なる平方和です。

この平方和については、別でまとめます。