Twierdzenie Gaussa-Markowa

Twierdzenie Gaussa-Markowa – twierdzenie statystyki mówiące, że estymator najmniejszych kwadratów jest (o ile jest on stosowalny) najlepszym (tj. mającym najmniejszą wariancję) estymatorem spośród liniowych, nieobciążonych estymatorów liniowego modelu regresji^[1].

Twierdzenie

Niech dany będzie model regresji liniowej, zapisany w notacji macierzowej:

{\underline {y}}=X{\underline {\beta }}+{\underline {\varepsilon }},\quad ({\underline {y}},{\underline {\varepsilon }}\in \mathbb {R} ^{n},{\underline {\beta }}\in \mathbb {R} ^{K},X\in \mathbb {R} ^{n\times K}),

tj.

y_{i}=\sum _{j=1}^{K}\beta _{j}X_{ij}+\varepsilon _{i}\quad (i=1,2,\dots ,n),

gdzie $\beta _{j}$ są współczynnikami modelu, $X_{ij}$ są zmiennymi objaśniającymi natomiast $\varepsilon _{i}$ są zmiennymi losowymi błędu (nazywanymi czasami szumem). W przypadku modelu regresji ze stałą, wprowadza się dodatkowy współczynnik $\beta _{K+1}$ oraz odpowiadającą mu kolumnę jedynek: $X_{i(K+1)}=1$ dla wszelkich $i.$

Założenia twierdzenia Gaussa-Markowa:

wartość oczekiwana szumu wynosi 0:

{\mathsf {E}}[\varepsilon _{i}]=0

dla wszelkich

i.

homoskedastyczność: wariancje szumu istnieją i są równe:

{\mathsf {Var}}(\varepsilon _{i})=\sigma ^{2}<\infty ,

szumy są parami nieskorelowane:

{\mathsf {Cov}}(\varepsilon _{i},\varepsilon _{j})=0,\quad (i\neq j).

Liniowy estymator $\beta _{j}$ jest po prostu kombinacją liniową $y_{i}{:}$

{\widehat {\beta }}_{j}=c_{1j}y_{1}+\ldots +c_{nj}y_{n},

w której współczynniki $c_{ij}$ nie zależą od $\beta _{j},$ ale mogą zależeć od $X_{ij}.$ Z definicji, estymator ${\widehat {\beta }}_{j}$ jest nieobciążony, gdy

{\mathsf {E}}\left[{\widehat {\beta }}_{j}\right]=\beta _{j}.

Niech

\sum \nolimits _{j=1}^{K}\lambda _{j}\beta _{j}

będzie kombinacją liniową współczynników. Wówczas błąd średniokwadratowy odpowiadający takiemu oszacowaniu wynosi

{\mathsf {E}}\left[\left(\sum _{j=1}^{K}\lambda _{j}\left({\widehat {\beta }}_{j}-\beta _{j}\right)\right)^{2}\right],

Z uwagi na to, że rozważane tu estymatory są nieobciążone, błąd średniokwadratowy jest równy wariancji rzeczonej kombinacji liniowej. Najlepszym nieobciążonym estymatorem (ang. BLUE) jest wektor $\beta$ o parametrach $\beta _{j},$ którego błąd średniokwadratowy jest najmniejszy spośród wszystkich wektorów $\lambda$ będących kombinacjami liniowymi parametrów. Równoważnie, macierz

{\mathsf {Var}}\left({\widetilde {\beta }}\right)-{\mathsf {Var}}\left({\widehat {\beta }}\right)

jest nieujemnie określona dla każdego liniowego, nieobciążonego estymatora ${\widetilde {\beta }}$ (zob. uwagi o dowodzie). Estymator najmniejszych kwadratów (ang. OLS) to funkcja

{\widehat {\beta }}=(X'X)^{-1}X'y

zależna od $y$ oraz $X$ (gdzie $X'$ oznacza transpozycję macierzy $X$ ). Funkcja ta minimalizuje sumę kwadratów błędów przypadkowych, tj.

\sum _{i=1}^{n}\left(y_{i}-{\widehat {y}}_{i}\right)^{2}=\sum _{i=1}^{n}\left(y_{i}-\sum _{j=1}^{K}{\widehat {\beta }}_{j}X_{ij}\right)^{2}.

Twierdzenie Gaussa-Markowa orzeka, że

estymator średniokwadraowy (OLS) jest najlepszym nieobciążonym liniowym estymatorem (BLUE)^[2].

Dowód

Niech ${\tilde {\beta }}=Cy$ będzie dowolnym liniowym etymatorem $\beta ,$ gdzie $C=(X'X)^{-1}X'+D$ a $D$ jest $K\times n$ niezerową macierzą. Zakładając nieobciążoność, najlepszy estymator nieobciążony to estymator o minimalnej wariancji. By zakończyć dowód należy wykazać, że wariancja ${\tilde {\beta }}=Cy$ nie jest mniejsza od wariancji ${\widehat {\beta }},$ tj. estymatora najmniejszych kwadratów.

{\begin{aligned}{\mathsf {E}}\left[{\tilde {\beta }}\right]&={\mathsf {E}}[Cy]\\&={\mathsf {E}}\left[\left((X'X)^{-1}X'+D\right)(X\beta +\varepsilon )\right]\\&=\left((X'X)^{-1}X'+D\right)X\beta +\left((X'X)^{-1}X'+D\right){\mathsf {E}}[\varepsilon ]\\&=\left((X'X)^{-1}X'+D\right)X\beta &&{\mathsf {E}}[\varepsilon ]=0\\&=(X'X)^{-1}X'X\beta +DX\beta \\&=(I_{K}+DX)\beta .\end{aligned}}

Oznacza to, że estymator ${\tilde {\beta }}$ jest nieobciążony wtedy i tylko wtedy, gdy $DX=0.$ W tym wypadku:

{\begin{aligned}{\mathsf {Var}}\left({\tilde {\beta }}\right)&={\mathsf {Var}}(Cy)\\&=C{\mathsf {Var}}(y)C'\\&=\sigma ^{2}CC'\\&=\sigma ^{2}\left((X'X)^{-1}X'+D\right)\left(X(X'X)^{-1}+D'\right)\\&=\sigma ^{2}\left((X'X)^{-1}X'X(X'X)^{-1}+(X'X)^{-1}X'D'+DX(X'X)^{-1}+DD'\right)\\&=\sigma ^{2}(X'X)^{-1}+\sigma ^{2}(X'X)^{-1}(DX)'+\sigma ^{2}DX(X'X)^{-1}+\sigma ^{2}DD'\\&=\sigma ^{2}(X'X)^{-1}+\sigma ^{2}DD'&&DX=0\\&={\mathsf {Var}}\left({\widehat {\beta }}\right)+\sigma ^{2}DD'&&\sigma ^{2}(X'X)^{-1}={\mathsf {Var}}\left({\widehat {\beta }}\right)\end{aligned}}

Macierz DD' jest nieujemnie określona, ${\mathsf {Var}}\left({\tilde {\beta }}\right)$ dominuje zatem ${\mathsf {Var}}\left({\widehat {\beta }}\right)$ poprzez macierz nieujemnie określoną^[3] (zob. uwagi o dowodzie).

Uwaga o dowodzie

Powyższy dowód opiera się na równoważności warunku

{\mathsf {Var}}\left({\tilde {\beta }}\right)-{\mathsf {Var}}\left({\widehat {\beta }}\right)\geqslant 0

z tym, że najlepszym (tj. mającym minimalną wariancję) estymatorem $\ell ^{t}\beta$ jest $\ell ^{t}{\widehat {\beta }}.$ Zależność taka istotnie zachodzi. Niech $\ell ^{t}{\tilde {\beta }}$ będzie dowolnym liniowym, nieobciążonym estymatorem $\ell ^{t}\beta .$ Wówczas

{\begin{aligned}{\mathsf {Var}}\left(\ell ^{t}{\tilde {\beta }}\right)&=\ell ^{t}{\mathsf {Var}}\left({\tilde {\beta }}\right)\ell \\&=\sigma ^{2}\ell ^{t}(X'X)^{-1}\ell +\ell ^{t}DD^{t}\ell \\&={\mathsf {Var}}\left(\ell ^{t}{\widehat {\beta }}\right)+(D^{t}\ell )^{t}(D^{t}\ell )&&\sigma ^{2}\ell ^{t}(X'X)^{-1}\ell ={\mathsf {Var}}\left(\ell ^{t}{\widehat {\beta }}\right)\\&=\operatorname {Var} \left(\ell ^{t}{\widehat {\beta }}\right)+\|D^{t}\ell \|\\&\geqslant {\mathsf {Var}}\left(\ell ^{t}{\widehat {\beta }}\right)\end{aligned}}

W tym wypadku, równość zachodzi wtedy i tylko wtedy, gdy $D^{t}\ell =0.$ Zachodzi wówczas

{\begin{aligned}\ell ^{t}{\tilde {\beta }}&=\ell ^{t}\left(((X'X)^{-1}X'+D)Y\right)&&{\text{ }}\\&=\ell ^{t}(X'X)^{-1}X'Y+\ell ^{t}DY\\&=\ell ^{t}{\widehat {\beta }}+(D^{t}\ell )^{t}Y\\&=\ell ^{t}{\widehat {\beta }}&&D^{t}\ell =0\end{aligned}}

Oznacza to, że równość zachodzi wtedy i tylko wtedy, gdy

\ell ^{t}{\tilde {\beta }}=\ell ^{t}{\widehat {\beta }},

co implikuje jedyność estymatora najmniejszych kwadratów (OLS) jako estymatora BLUE^[4].

Przypisy

Bibliografia

N.H. Bingham, J.M. Fry, Regression: Linear Models in Statistics, Springer Undergraduate Mathematics Series, 2010.
A. Sen, M. Srivastava, Regression Analysis Theory, Methods, and Applications, Springer-Verlag, New York, 1990.

[CITEREFBinghamFry201073-1] Bingham i Fry 2010 ↓, s. 73.

[CITEREFBinghamFry201072-2] Bingham i Fry 2010 ↓, s. 72.

[CITEREFSenSrivastava199041-3] Sen i Srivastava 1990 ↓, s. 41.

[CITEREFSenSrivastava199041–42-4] Sen i Srivastava 1990 ↓, s. 41–42.

[1]