本文を読み飛ばす

最小二乗法 (Ordinary Least Squares) の説明

今日は最小二乗法の考え方を言語化してみた。 可能な限り統計用語を使わず、かつ数学的に厳密な記述にすることで学びを得られればと思ってのこと。 簡単だろうと思っていたのだけれど、残念ながら今の自分には想像を遥かに上回る難しさで。 改めて、数学の才能は無いなぁと思った次第。


\(p\) 個の説明変数 \(X_1, X_2, ..., X_p\) で、目的変数 \(Y\) を説明することを考える。 また、説明変数と目的変数の観測値 \(n\) 組が得られているとし、 それぞれの \(i\) 回目の観測値を \(x_{ij},~y_i~(i \in [1, n], ~ j \in [1, p])\) と書くことにする。

続いて、説明変数と目的変数の関係式:

\[ \tag{Eq.1} Y = \beta_0 + \sum_{j = 1}^{p} \beta_j X_j \]

を満たすような実数 \(\beta_0, \beta_1, ..., \beta_p\) (以下 \(\bm{\beta}\) と略記) が存在する、という仮定を置く。 もし説明変数・目的変数の取りうる値「すべて」を観測できたなら、 \(\bm{\beta}\) は求まるだろう (厳密には、すべての仮定を満たすような 1 組以上の、だが[要確認])。 しかし現実に我々が観測できるのは標本、つまり無作為に取り出された「一部」の値のみだ。 すると得られた観測値から \(\bm{\beta}\) は求められるかもしれないし、 求められないかもしれない。ここで、「観測値から推測できる範囲で一番もっともらしい (後述)\(\beta_0, \beta_1, ..., \beta_p\) に近い値」を \(\hat{\beta_0}, \hat{\beta_1}, ..., \hat{\beta_p}\) としよう (以後 \(\bm{\hat{\beta}}\) と略記)。すると式 \(\text{Eq.1}\) から、 \(\hat{\beta_0} + \sum_{j = 1}^{p} \hat{\beta_j} x_{ij}\) の値は観測値 $y_i$ に一致する…とは限らないが近いと期待される値である、と言える。 これを \(\hat{y_i}\) と置こう。また \(y_i\) と \(\hat{y_i}\) の差を \(u_i\) と置こう。 すると次の式が成り立つ:

\[ \begin{aligned} y_i & = \hat{y_i} + u_i \\ & = \hat{\beta_0} + \sum_{j = 1}^{p} \hat{\beta_j} x_{ij} + u_i \end{aligned} \]

もし \(\bm{\hat{\beta}}\) が \(\bm{\beta}\) と一致していれば \(u_1, u_2, ..., u_n\) (以後 \(\bm{u}\) と略記)はすべて 0 となる。 ということは、「\(\bm{u}\) がすべて 0」という状態に一番「近くなる」ような \(\bm{\hat{\beta}}\) が、前述の「観測値から推測できる範囲で一番もっともらしい \(\beta_0, \beta_1, ..., \beta_p\) に近い値」だと考えられる。

さて、ここでの「近さ」の定義は何だろうか。 これを「誤差 \(\bm{u}\) の平方和」で定義して、それが最小化なる \(\bm{\hat{\beta}}\) を最良(一番 \(\bm{\beta}\) に近い)とするのが最小二乗法 (Ordinary Least Squares) だと理解している。

なお、この最小化問題を数式で表現すると次のようになる。

\[ \begin{aligned} \min_{\hat{\beta_0}, \hat{\beta_1}, ..., \hat{\beta_p}} \sum_{i=1}^{n} u_i^2 &= \min_{\hat{\beta_0}, \hat{\beta_1}, ..., \hat{\beta_p}} \sum_{i=1}^{n} \left\{ y_i - \hat{y_i} \right\} ^2 \\ &= \min_{\hat{\beta_0}, \hat{\beta_1}, ..., \hat{\beta_p}} \sum_{i=1}^{n} \left\{ y_i - \hat{\beta_0} - \sum_{j = 1}^{p} \hat{\beta_j} x_{ij} \right\}^2 \end{aligned} \]

さてはて、どこまで数学的に厳密な記述になっているのかイマイチ自信が無い。 一度、数学に詳しい人に見てもらいたいところだ。