日々のつれづれ

不惑をむかえ戸惑いを隠せない男性の独り言

データを理解する・その1「偏差、分散、標準偏差」

2020年に書いて放置していたのですが、このままにするのも嫌なので、公開します。

ここから

長い年末休暇を利用して、理解した記録です。

データのばらつきを理解する

とはいえ、ちゃんとした教育を受けていないので、この辺の理解があいまいです。 2021年時点、自分の理解のレベルをまとめておく。

偏差

  • 偏差はサンプリングデータ(標本)の各値と基準値(平均値)の差。
  • 偏差は標本のずれ(バラツキ)の指標。
  • 完全にランダムなら、偏差の和はゼロになる。

x = \{x_{1}, x_{2}, \dots x_{n}\}

のとき、


\begin{aligned}
(偏差) &= x_{k} - (平均値)\\
&= x_{k} - \frac{x_{1} + x_{2} + \dots + x_{n}}{n}\\
&= x_{k} - \bar{x}
\end{aligned}
x = \{x_{1}, x_{2}, \dots x_{n}\}

分散


x = \{x_{1}, x_{2}, \dots x_{n}\}

を考える。

数値だと

分散は偏差の平方和を要素数で割った値。 - 偏差(平均値からのズレ)の大きさを見積もりたい。 - 偏差は正負に別れ、偏差の和の期待値はゼロになる。 - 絶対値の和は正負の条件分けが必要になる。 - 平方にすれば正負の条件分けがなくなる。


\begin{aligned}
\sigma^{2} &= \frac{偏差平方和}{要素数}\\
&= \frac{1}{n} \times \sum_{i=1}^{n}(x_{i} - \bar{x})^{2}
\end{aligned}

図形だと

  • $(\bar{x}, \bar{x})$を原点$(0,0)$にした平面を考える。
  • 偏差$(x_{i} - \bar{x})$の絶対値を解釈する。
  • 偏差平方和は偏差を一辺とする正方形の面積の和。偏差が大きいと面積は大きくなる。
  • 分散はこの平均面積に等しい。面積の大きさがばらつきの程度になる。

\begin{aligned}
\sigma^{2} &= \frac{偏差(の絶対値の)平方和}{要素数}\\
&= \frac{1}{n} \times \sum_{i=1}^{n}(|x_{i} - \bar{x}|)^{2}
\end{aligned}

標本分散と不偏分散

標本の要素を$x_{i}$、数を$n$、平均を$\bar{x}$、分散を$s^{2}$、母集団の平均を$\mu$、母分散を$\sigma^{2}$とする。

  • 標本分散は標本の分散を示す。偏差平方和を標本数で割った値。

s^{2} = \frac{1}{n}\sum(x_{i} - \bar{x})^{2}
  • 不偏分散は標本から推定した母分散を示す。偏差平方和を(標本数-1)で割った値。

s^{2} = \frac{1}{n-1}\sum(x_{i} - \bar{x})^{2}
  • このとき、母平均と標本平均は異なる。母平均を使う偏差平方和は、標本平均を使う偏差平方和より大きい。

\sum(x_{i} - \mu)^{2} \geqq \sum(x_{i} - \bar{x})^{2}
  • 標本平均の分散が足りない。標本平均の分散は$N[\mu,\sigma/n]$の正規分布になる。

\sum(x_{i} - \mu)^{2} = \sum(x_{i} - \bar{x})^{2} + \frac{1}{n}\sigma^{2}
  • この式を整理すると、不偏分散を導出できる。

\begin{aligned}
\sigma^{2} &= s^{2} + \frac{1}{n}\sigma^{2}\\
(1-\frac{1}{n})\sigma^{2} &= s^{2}\\
\sigma^{2} &= \frac{n}{n-1}s^{2}\\
&= \frac{n}{n-1} \times \frac{1}{n}\sum(x_{i} - \bar{x})^{2}\\
&= \frac{1}{n-1}\sum(x_{i} - \bar{x})^{2}
\end{aligned}

標準偏差

  • 分散の平方根。分散は偏差(平均値からのズレ)の大きさを見積もる値。
  • 分散は偏差の2乗で、偏差は変量の1乗。分散は変量より次元が1つ大きい。
  • 分散と変量を比較するために、分散の次元を1つ下げた値が標準偏差

\sigma = \sqrt{\frac{1}{n}\sum(x_{i} - \bar{x})^{2}}