« poprzedni punkt  następny punkt »


3. MODEL ZALEŻNOŚCI LINIOWEJ (MODEL REGRESJI LINIOWEJ)

Obliczywszy wartość współczynnika nachylenia b1 prostej MNK chcielibyśmy na przykład wiedzieć, czy jego istotnie różna od zera wartość pozwala nam wnioskować o liniowej zależności między zmienną objaśnianą i zmienną objaśniającą. Jest to pytanie zasadne, gdyż współczynnik b1 jest losowy i jego wartości będą różne dla różnych próbek. Badanie probabilistycznych własności współczynników prostej regresji jest możliwe w następującym modelu regresji liniowej. Przyjmujemy, że próbka (x1, y1), ..., (xn, yn) jest realizacją próby losowej (x1, Y1), ... , (xn, Yn), gdzie

     

oraz e 1,e 2,...,e n są niezależnymi zmiennymi losowymi o wartości średniej 0 i wariancji s 2, a znane liczby x1,...,xn nie wszystkie są jednakowe.

Prostą y = b 0 + b 1 x nazywamy prostą regresji (teoretyczną prostą regresji).

Współczynnik b0 jest wyrazem wolnym prostej regresji, a współczynnik b1 jej współczynnikiem kierunkowym (nachyleniem).

Zmienne losowe e 1,e 2,...,e n nazywane są często losowymi błędami w modelu, a wariancja s 2 wariancją błędów w modelu.

Zauważmy, że przyjęcie założenia Ee n=0 oznacza, że przyjmujemy, iż nie popełniamy błędów systematycznych dla żadnej wartości zmiennej objaśniającej, a fakt Var(e 1)=Var(e 2)=...= Var(e n) oznacza, że wartość zmiennej objaśniającej nie ma wpływu na rozproszenie błędów.

Własności zmiennej losowej Yi, i=1,...,n.

Przyjmujemy, że:

  1. Obserwujemy wartości zmiennych Y1,...,Yn.
  2. Wartości x1,...,xn są znane.
  3. b 0, b 1, s 2 są nieznanymi parametrami modelu.

Jeśli stwierdzimy, że model (*) adekwatnie opisuje dane będziemy w stanie wyciągać wnioski dotyczące parametrów b 0 i b 1; w szczególności możemy starać się odpowiedzieć na pytanie, czy b 1¹ 0 (istnieje zależność liniowa między x i y).

Naturalne estymatory parametrów b 0, b 1 otrzymujemy metodą najmniejszych kwadratów, wstawiając we wzorach (1), (2) sekcji 13.3 zmienne losowe Yi zamiast ich wartości yi, i=1,...,n. Podobnie jak poprzednio oznaczymy je symbolami b0, b1 odpowiednio.

b0, b1 są estymatorami wielkości b 0, b 1 odpowiednio:

Własności estymatorów b0, b1:

Twierdzenie (własności estymatorów b0, b1 w modelu regresji liniowej)

(i)    E(b0)=b 0, E(b1)=b 1,

        

(iii)   Jeśli e i ~ N(0,s), i = 1,...,n, to b0, b1 mają rozkłady normalne o wartościach średnich i wariancjach określonych w (i) i (ii).

Zajmiemy się teraz problemem estymacji trzeciego nieznanego parametru modelu, jakim jest wariancja błędów s 2. Jego oszacowanie oparte jest na sumie kwadratów rezyduów.

Definicja

Błędem średniokwadratowym S2 nazywamy estymator wariancji s 2 określony następująco

     

Liczbę n- 2 nazywamy liczbą stopni swobody rezyduów. W definicji S2 występuje dzielenie przez n- 2 a nie przez n, aby otrzymać nieobciążony estymator s 2.

Idea estymatora S2 opiera się na fakcie, że

     

a zatem

     

i średnia sumy kwadratów rezyduów powinna być bliska

     

gdzie ostatnia przybliżona równość wynika z prawa wielkich liczb i faktu Ee i=0.

Stwierdzenie

S2 jest nieobciążonym estymatorem wariancji s 2, tzn.

     

Wstawiając S2 zamiast s 2 do wzorów (4) i (5) otrzymamy estymatory wariancji b0 i b1.

Wniosek

  1. Nieobciążonym estymatorem Var(b0) jest

    nazywamy błędem standardowym estymatora b0, gdyż na mocy (4) SE(b0) jest estymatorem

    Jest to zgodne z ogólną terminologią statystyczną, w której oszacowanie nieznanej wartości odchylenia standardowego estymatora nazywa się jego błędem standardowym.

  2. Nieobciążonym estymatorem Var(b1) jest

    nazywamy błędem standardowym estymatora b1, gdyż na mocy (5) SE(b1) jest estymatorem


« poprzedni punkt  następny punkt »