日々のつれづれ

不惑をむかえ戸惑いを隠せない男性の独り言

データを理解する・その2「共分散」

これも、2020年にまとめていた記事。 放置していたままも嫌なので、公開します。

ここから

長い年末休暇を利用して、理解した記録です。

データのばらつきを理解する

とはいえ、ちゃんとした教育を受けていないので、この辺の理解があいまいです。 2021年時点、自分の理解のレベルをまとめておく。

共分散


\begin{cases}
x = \{x_{1}, x_{2}, \dots x_{n}\}\\
y = \{y_{1}, y_{2}, \dots y_{n}\}
\end{cases}

のとき、

数値だと

  • 共分散は、2変量の偏差の積を要素数で割った値。
  • 2変量の偏差の符号が同じなら、共分散は正、逆なら負になる。
  • 片方の偏差が小さければ、もう片方の偏差の大小によらず、共分散は小さくなる。
  • 共分散の正負は2変量の偏差の方向の合致、大小は2変量の偏差の大きさを見ている。

\begin{aligned}
\sigma_{xy}=s_{xy}=\mathrm{Cov}(X,Y)
&= \frac{(1つ目の変量の偏差 \times 2つ目の変量の偏差)の和}{要素数}\\
&= \frac{1}{n} \times \sum_{i=1}^{n}(x_{i} - \bar{x})(y_{i} - \bar{y})
\end{aligned}

図形だと

  • $(\bar{x}, \bar{y})$を原点$(0,0)$にした平面を考える。
  • 偏差の積は$|x{i} - \bar{x}|$と$|y{i} - \bar{y}|$をそれぞれ一辺とする長方形の面積。
  • 長方形が第1象限と第4象限なら正、第2象限と第3象限なら負の面積を持つ。
  • 共分散は、正負の面積を持つ長方形の平均面積に等しい。