データを理解する・その2「共分散」
これも、2020年にまとめていた記事。 放置していたままも嫌なので、公開します。
ここから
長い年末休暇を利用して、理解した記録です。
データのばらつきを理解する
とはいえ、ちゃんとした教育を受けていないので、この辺の理解があいまいです。 2021年時点、自分の理解のレベルをまとめておく。
共分散
のとき、
数値だと
- 共分散は、2変量の偏差の積を要素数で割った値。
- 2変量の偏差の符号が同じなら、共分散は正、逆なら負になる。
- 片方の偏差が小さければ、もう片方の偏差の大小によらず、共分散は小さくなる。
- 共分散の正負は2変量の偏差の方向の合致、大小は2変量の偏差の大きさを見ている。
図形だと
- $(\bar{x}, \bar{y})$を原点$(0,0)$にした平面を考える。
- 偏差の積は$|x{i} - \bar{x}|$と$|y{i} - \bar{y}|$をそれぞれ一辺とする長方形の面積。
- 長方形が第1象限と第4象限なら正、第2象限と第3象限なら負の面積を持つ。
- 共分散は、正負の面積を持つ長方形の平均面積に等しい。