データを理解する・その1「偏差、分散、標準偏差」
2020年に書いて放置していたのですが、このままにするのも嫌なので、公開します。
ここから
長い年末休暇を利用して、理解した記録です。
データのばらつきを理解する
とはいえ、ちゃんとした教育を受けていないので、この辺の理解があいまいです。 2021年時点、自分の理解のレベルをまとめておく。
偏差
- 偏差はサンプリングデータ(標本)の各値と基準値(平均値)の差。
- 偏差は標本のずれ(バラツキ)の指標。
- 完全にランダムなら、偏差の和はゼロになる。
のとき、
分散
を考える。
数値だと
分散は偏差の平方和を要素数で割った値。 - 偏差(平均値からのズレ)の大きさを見積もりたい。 - 偏差は正負に別れ、偏差の和の期待値はゼロになる。 - 絶対値の和は正負の条件分けが必要になる。 - 平方にすれば正負の条件分けがなくなる。
図形だと
- $(\bar{x}, \bar{x})$を原点$(0,0)$にした平面を考える。
- 偏差$(x_{i} - \bar{x})$の絶対値を解釈する。
- 偏差平方和は偏差を一辺とする正方形の面積の和。偏差が大きいと面積は大きくなる。
- 分散はこの平均面積に等しい。面積の大きさがばらつきの程度になる。
標本分散と不偏分散
標本の要素を$x_{i}$、数を$n$、平均を$\bar{x}$、分散を$s^{2}$、母集団の平均を$\mu$、母分散を$\sigma^{2}$とする。
- 標本分散は標本の分散を示す。偏差平方和を標本数で割った値。
- 不偏分散は標本から推定した母分散を示す。偏差平方和を(標本数-1)で割った値。
- このとき、母平均と標本平均は異なる。母平均を使う偏差平方和は、標本平均を使う偏差平方和より大きい。
- この式を整理すると、不偏分散を導出できる。