« poprzedni punkt | następny punkt » |
Obliczywszy wartość współczynnika nachylenia b1 prostej MNK chcielibyśmy na przykład wiedzieć, czy jego istotnie różna od zera wartość pozwala nam wnioskować o liniowej zależności między zmienną objaśnianą i zmienną objaśniającą. Jest to pytanie zasadne, gdyż współczynnik b1 jest losowy i jego wartości będą różne dla różnych próbek. Badanie probabilistycznych własności współczynników prostej regresji jest możliwe w następującym modelu regresji liniowej. Przyjmujemy, że próbka (x1, y1), ..., (xn, yn) jest realizacją próby losowej (x1, Y1), ... , (xn, Yn), gdzie
oraz e 1,e 2,...,e n są niezależnymi zmiennymi losowymi o wartości średniej 0 i wariancji s 2, a znane liczby x1,...,xn nie wszystkie są jednakowe.
Prostą y = b 0 + b 1 x nazywamy prostą regresji (teoretyczną prostą regresji).
Współczynnik b0 jest wyrazem wolnym prostej regresji, a współczynnik b1 jej współczynnikiem kierunkowym (nachyleniem).
Zmienne losowe e 1,e 2,...,e n nazywane są często losowymi błędami w modelu, a wariancja s 2 wariancją błędów w modelu.
Zauważmy, że przyjęcie założenia Ee n=0 oznacza, że przyjmujemy, iż nie popełniamy błędów systematycznych dla żadnej wartości zmiennej objaśniającej, a fakt Var(e 1)=Var(e 2)=...= Var(e n) oznacza, że wartość zmiennej objaśniającej nie ma wpływu na rozproszenie błędów.
Własności zmiennej losowej Yi, i=1,...,n.
Przyjmujemy, że:
Jeśli stwierdzimy, że model (*) adekwatnie opisuje dane będziemy w stanie wyciągać wnioski dotyczące parametrów b 0 i b 1; w szczególności możemy starać się odpowiedzieć na pytanie, czy b 1¹ 0 (istnieje zależność liniowa między x i y).
Naturalne estymatory parametrów b 0, b 1 otrzymujemy metodą najmniejszych kwadratów, wstawiając we wzorach (1), (2) sekcji 13.3 zmienne losowe Yi zamiast ich wartości yi, i=1,...,n. Podobnie jak poprzednio oznaczymy je symbolami b0, b1 odpowiednio.
b0, b1 są estymatorami wielkości b 0, b 1 odpowiednio:
Własności estymatorów b0, b1:
Twierdzenie (własności estymatorów b0, b1 w modelu regresji liniowej)
(i) E(b0)=b 0, E(b1)=b 1,
(iii) Jeśli e i ~ N(0,s), i = 1,...,n, to b0, b1 mają rozkłady normalne o wartościach średnich i wariancjach określonych w (i) i (ii).
Zajmiemy się teraz problemem estymacji trzeciego nieznanego parametru modelu, jakim jest wariancja błędów s 2. Jego oszacowanie oparte jest na sumie kwadratów rezyduów.
Definicja
Błędem średniokwadratowym S2 nazywamy estymator wariancji s 2 określony następująco
Liczbę n- 2 nazywamy liczbą stopni swobody rezyduów. W definicji S2 występuje dzielenie przez n- 2 a nie przez n, aby otrzymać nieobciążony estymator s 2.
Idea estymatora S2 opiera się na fakcie, że
a zatem
i średnia sumy kwadratów rezyduów powinna być bliska
gdzie ostatnia przybliżona równość wynika z prawa wielkich liczb i faktu Ee i=0.
Stwierdzenie
S2 jest nieobciążonym estymatorem wariancji s 2, tzn.
Wstawiając S2 zamiast s 2 do wzorów (4) i (5) otrzymamy estymatory wariancji b0 i b1.
Wniosek
Jest to zgodne z ogólną terminologią statystyczną, w której oszacowanie nieznanej wartości odchylenia standardowego estymatora nazywa się jego błędem standardowym.
nazywamy błędem standardowym estymatora b1, gdyż na mocy (5) SE(b1) jest estymatorem
« poprzedni punkt | następny punkt » |