【高校数学Ⅰ】分散・共分散・相関係数(Σを使う)

分散

あるデータの集まりが、平均からどのくらい散らばっているかを表す際、とりあえず「平均との差を足したもの」を考えることができます。

各観測値$x_k(k=1,2,\cdots,n)$に対し、平均は次のようになります。 \[\bar{x}=\dfrac{1}{n} \sum_{k=1}^n x_k\]

観測値と平均との差を足すと、 \[\begin{aligned} \sum_{k=1}^n(x_k-\bar{x})=&\sum_{k=1}^n x_k -\sum_{k=1}^n \bar{x}\\ =&n\cdot \dfrac{1}n\sum_{k=1}^nx_k-n \bar{x}\\ =&n\bar{x}-n \bar{x}\\ =&0 \end{aligned}\]となります。

常に$0$なので、複数のデータ群を比べる際、使い物になりません。

差の絶対値の平均

観測値と平均との差の絶対値の平均\[\dfrac{1}{n}\sum_{k=1}^n|x_k-\bar{x}|\]も考えることができます。

しかし、絶対値があると、計算が面倒です。

分散

そのため、差の2乗の平均を取ります。\[\dfrac{1}{n}\sum_{k=1}^n(x_k-\bar{x})^2\]

感覚的には、「2乗することは、絶対値をつけることに似ている」という感じでしょうか。

$\displaystyle \overline{x^2}=\dfrac{1}{n}\sum_{k=1}^n x_k^2$として、計算すると、次のようになります。 \[\begin{aligned} &\dfrac{1}{n}\sum_{k=1}^n(x_k-\bar{x})^2\\ =&\dfrac{1}{n}\sum_{k=1}^n x_k^2 -\dfrac{1}{n}\sum_{k=1}^n 2x_k\bar{x}+\dfrac{1}{n}\sum_{k=1}^n \bar{x}^2\\ =&\overline{x^2}-2\bar{x}\cdot\frac{1}{n}\sum_{k=1}^nx_k +\bar{x}^2\\ =&\overline{x^2}-2\bar{x}\bar{x}+\bar{x}^2\\ =&\overline{x^2}-\bar{x}^2\\ \end{aligned}\]

共分散

観測値$(x_k,y_k)$の共分散を$C_{xy}$とする。

\[\begin{aligned} C_{xy}=&\dfrac{1}{n}\sum_{k=1}^n(x_k-\bar{x})(y_k-\bar{y}) \\ =&\dfrac{1}{n}\sum_{k=1}^n x_ky_k -\dfrac{1}{n}\sum_{k=1}^nx_k\bar{y}-\dfrac{1}{n}\sum_{k=1}^n\bar{x}y_k+\dfrac{1}{n}\sum_{k=1}^n\bar{x}\bar{y}\\ =&\overline{xy}-\bar{y}\cdot\dfrac{1}{n}\sum_{k=1}^nx_k-\bar{x}\cdot\dfrac{1}{n}\sum_{k=1}^n\bar{x}y_k+\bar{x}\bar{y}\\ =&\overline{xy}-\bar{y}\bar{x}-\bar{x}\bar{y}+\bar{x}\bar{y}\\ =&\overline{xy}-\bar{x}\bar{y}\\ \end{aligned}\]

観測値$(x_k,x_k)$の共分散(?)は、$C_{xx}=S_x^2$です。共分散は、普通の分散を拡張したものになっています。

他の式の証明

変換したものの平均

$y_k=ax_k+b$とすると、$\overline{y}=a\overline{x}+b$となる。

\[\begin{aligned} \overline{y}=&\dfrac{1}{n}\sum_{k=1}^n(ax_k+b) \\ =&\dfrac{1}{n}\sum_{k=1}^nax_k+\dfrac{1}{n}\sum_{k=1}^nb\\ =&a\cdot\dfrac{1}{n}\sum_{k=1}^nx_k+\dfrac{1}{n}\cdot nb\\ =&a\overline{x}+b \end{aligned}\]

変換したものの分散

$y_k=ax_k+b$とする。観測値$x_k$の分散を$S_x^2$、$y_k$の分散を$S_y^2$とすると、$S_y^2=a^2S_x^2$となる。

\[\begin{aligned} S_y^2=&\dfrac{1}{n}\sum_{k=1}^n(y_k-\bar{y})^2\\ =&\dfrac{1}{n}\sum_{k=1}^n(ax_k+b-a\bar{x}-b)^2\\ =&\dfrac{1}{n}\sum_{k=1}^n(ax_k-a\bar{x})^2\\ =&a^2\cdot\dfrac{1}{n}\sum_{k=1}^n(x_k-\bar{x})^2\\ =&a^2S_x^2 \end{aligned}\]

$S_x$も$S_y$も負でないので、$S_y=|a|S_x$となる。

平均を0、標準偏差を1にする変換(標準化)

$y=\dfrac{x}{S_x}-\dfrac{\bar{x}}{S_x}$とする。

\[\bar{y}=\dfrac{\bar{x}}{S_x}-\dfrac{\bar{x}}{S_x}=0\] \[S_y=\dfrac{S_x}{S_x}=1\]

平均を50、標準偏差を10にする変換

$y=\dfrac{10(x-\bar{x})}{S_x}+50$とする。

$\bar{y}=50$、$S_y=10$となる。

各$x$に対する$y$の値が「偏差値」になります。

共分散と変換

$z_k=ax_k+b$とする。$x$と$y$、$y$と$z$の共分散をそれぞれ$C_{xy}$、$C_{yz}$とすると、\[C_{yz}=aC_{xy}\]となる。

\[\begin{aligned} C_{yz}=&\dfrac{1}{n}\sum_{k=1}^n(y_k-\bar{y})(z_k-\bar{z})\\ =&\dfrac{1}{n}\sum_{k=1}^n(y_k-\bar{y})(ax_k+b-a\bar{x}-b)\\ =&\dfrac{1}{n}\sum_{k=1}^n(y_k-\bar{y})(ax_k-a\bar{x})\\ =&a\cdot\dfrac{1}{n}\sum_{k=1}^n(y_k-\bar{y})(x_k-\bar{x})\\ =&aC_{xy}\\ \end{aligned}\]

相関係数と変換

$a\neq 0$とし、$z_k=ax_k+b$とする。$x$と$y$、$y$と$z$の相関係数をそれぞれ$r_{xy}$、$r_{yz}$とすると、\[r_{yz}=\dfrac{a}{|a|}r_{xy}\]となる。$\dfrac{a}{|a|}$は、$a$の符号です。

\[\begin{aligned} r_{yz}=&\dfrac{C_{yz}}{S_yS_z}\\ =&\dfrac{aC_{xy}}{S_y\cdot |a|S_x}\\ =&\dfrac{a}{|a|}\dfrac{C_{xy}}{S_yS_x}\\ =&\dfrac{a}{|a|}r_{xy} \end{aligned}\]

相関係数の絶対値が1以下となることの証明

$x$と$y$の相関係数を$r_{xy}$とします。

シュワルツの不等式を利用して、$|r_{xy}|\leqq 1$を証明します。

定義のようなもの

高校数学のベクトルは、数が2つか3つです。ここでは、数がもっとたくさんあるということにします。

また、このページでは、数が縦並びになっています。横並びにすると、スマホではものすごく読みにくくなると思います。手で計算するときには、横並びでも構いません。

$k$は$1\leqq k\leqq n$の整数。任意の$k$に対し、$p_k$、$q_k$、$u_k$は実数。

$p=\begin{pmatrix} p_1\cr p_2\cr \vdots\cr p_n\cr \end{pmatrix},q=\begin{pmatrix} q_1\\ q_2\\ \vdots\\ q_n\\ \end{pmatrix},u=\begin{pmatrix} u_1\\ u_2\\ \vdots\\ u_n\\ \end{pmatrix}$とする。

$t$は普通の実数として、等号、足し算とかけ算を次のように決めておきます。

$p=q$は、「すべての$k$で$p_k=q_k$」という意味。

\[\begin{aligned} &p+q=\begin{pmatrix} p_1+q_1\\ p_2+q_2\\ \vdots\\ p_n+q_n\\ \end{pmatrix}\\ &tp=\begin{pmatrix} tp_1\\ tp_2\\ \vdots\\ tp_n\\ \end{pmatrix}\\ &p\cdot q=\sum_{k=1}^np_kq_k\\ &|p|=\sqrt{p\cdot p}=\sqrt{\sum_{k=1}^np_k^2} \end{aligned}\]

証明1

定義から、次のことが言える。\[p+q=q+p\]\[p\cdot q=q \cdot p\] \[\begin{aligned} (tp)\cdot q=&\sum_{k=1}^n tp_kq_k\\ =&t\sum_{k=1}^n p_kq_k\\ =&t(p\cdot q) \end{aligned}\] \[\begin{aligned} (p+q)\cdot u=&\sum_{k=1}^n (p_k+q_k)u_k\\ =&\sum_{k=1}^n p_ku_k+\sum_{k=1}^n q_ku_k\\ =&p\cdot u + q \cdot u \end{aligned}\]

証明2

\[\begin{aligned} &|tp-q|^2\\ =&(tp-q)\cdot(tp-q)\\ =&tp\cdot(tp-q)-q\cdot(tp-q)\\ =&t^2|p|^2-tp\cdot q-tp\cdot q+|q|^2\\ =&|p|^2t^2-2(p\cdot q)t+|q|^2 \end{aligned}\]

シュワルツの不等式のようなもの

$|p||q|\neq 0$として、次の式が成り立つ。\[\dfrac{|p\cdot q|}{|p||q|} \leqq 1\]

$t$に関する2次方程式\[|p|^2t^2-2(p\cdot q)t+|q|^2=0\]つまり$|tp-q|^2=0$について、実数解の個数は1つ以下である。

判別式について、\[\begin{aligned} &(p\cdot q)^2-|p|^2|q|^2\leqq 0\\ &(p\cdot q)^2\leqq |p|^2|q|^2\\ &|p\cdot q|\leqq |p||q|\\ &\dfrac{|p\cdot q|}{|p||q|} \leqq 1\\ \end{aligned}\]となる。

等号が成立するのは、$|tp-q|^2=0$つまり$tp=q$となる$t$が存在するときに限る。

代入

シュワルツの不等式のようなもの$\dfrac{|p\cdot q|}{|p||q|} \leqq 1$の左辺に次のように代入する。 \[\begin{aligned} p_k=x_k-\bar{x}\\ q_k=y_k-\bar{y}\\ \end{aligned}\]

次のようになる。 \[\dfrac{|p\cdot q|}{|p||q|}=\dfrac{\displaystyle\left|\sum_{k=1}^n(x_k-\bar{x})(y_k-\bar{y})\right|}{\displaystyle\sqrt{\sum_{k=1}^n(x_k-\bar{x})^2}\sqrt{\sum_{k=1}^n(y_k-\bar{y})^2}}=|r_{xy}|\]

よって、$|r_{xy}|\leqq 1$となる。

相関係数が$1$となる必要十分条件

$|r_{xy}|\leqq 1$は、元々、2次方程式$|tp-q|^2=0$の判別式\[(p\cdot q)^2-|p|^2|q|^2\leqq 0\]でした。

等号が成立するのは、実数解が1つ存在するときです。

つまり、ある$t$に対し、$tp=q$となるとき。

さらに言い換えると、任意の$k$で\[t(x_k-\bar{x})=y_k-\bar{y}\]となるとき。

平面上で全ての点$(x_k,y_k)$が点$(\bar{x},\bar{y})$を通る同一直線上にあるとき、$|r_{xy}|=1$となります。

なお、「$(\bar{x},\bar{y})$を通る」は不要です。

全ての$(x_k,y_k)$が同一直線$y=ax+b$上にあるとします。つまり、任意の$k$に対し\[y_k=ax_k+b\]とします。

このとき、 \[\sum_{k=1}^ny_k=\sum_{k=1}^n(ax_k+b)\] \[\dfrac1n\sum_{k=1}^ny_k=\dfrac1n\sum_{k=1}^n(ax_k+b)\] \[\bar{y}=a\bar{x}+b\] となる。

よって、$(\bar{x},\bar{y})$も、その直線上にあります。

結局、平面上で全ての$(x_k,y_k)$が同一直線上にあるときのみ、$|r_{xy}|=1$。