następny punkt » |
Problem przewidywania (prognozy) przyszłej wartości interesującej nas zmiennej losowej (np. przyszłorocznego produktu narodowego brutto lub przyszłorocznej inflacji) jest jednym z najważniejszych zagadnień statystyki. Model regresji liniowej jest użytecznym narzędziem do uzyskania pewnej propozycji prognozy, trzeba pamiętać jednak o następujących ograniczeniach.
Po pierwsze, dopasowanie danych do modelu musi być zadowalające. Stwierdzeniu tego, że tak jest (lub nie) służy tak zwana diagnostyka modelu, którą zajmiemy się pod koniec tego wykładu. Po drugie, nie jesteśmy w stanie przewidywać wartości zmiennej objaśnianej dla nowej wartości x znacznie odbiegającej od uzyskanych dotychczas wartości zmiennej objaśniającej. Adekwatność modelu regresji możemy bowiem jedynie stwierdzić dla takiego obszaru zmiennej x, dla którego dysponujemy danymi go pokrywającymi. W przeciwnym przypadku dokonujemy ekstrapolacji modelu na zakres x, o którym nie mamy informacji. W takim przypadku możemy stwierdzić, np. zmniejszająca się populacja rolników w Polsce będzie w roku 2050 ujemna lub, że prognozowana liczba posiadaczy telefonów komórkowych w tym roku będzie większa od prognozowanej liczby mieszkańców Polski. Na koniec istotne jest uświadomienie sobie, co chcemy prognozować. Możemy chcieć przewidywać faktyczną wartość liczby posiadaczy telefonów komórkowych lub tylko jej wartość średnią. Zajmiemy się po kolei obydwoma zagadnieniami.
Załóżmy, że obserwowane są zmienne Y1, ... , Yn pochodzące z modelu
Nieobserwowana jest "przyszła" wartość Y(x0) zmiennej objaśnianej dla nowej wartości zmiennej objaśniającej równej x0.
gdzie e 1,e 2,...,e n, e 0 są niezależnymi zmiennymi losowymi o rozkładach N(0,s).
Zadania prognozy:
zmiennej objaśnianej w sytuacji, gdy zmienna objaśniająca x jest równa x0.
Rozważmy najpierw zadanie (a). Obliczając wartość średnią obu stron (6) mamy:
Stąd naturalnym oszacowaniem jest
czyli po prostu wartość przewidywana na podstawie prostej MNK policzona dla wartości zmiennej objaśniającej x=x0.
Policzmy wartość oczekiwaną i wariancję takiej prognozy wartości oczekiwanej.
Zatem jest nieobciążonym estymatorem
.
Można pokazać, że są nieskorelowane, stąd zgodnie z wykładem 13
gdyż
W celu zdefiniowania błędu standardowego estymatora zastępujemy w (8) s
2 przez jego estymator S2 i pierwiastkujemy całe wyrażenie.
Twierdzenie
Estymator wartości średniej
zmiennej objaśnianej Y dla wartości zmiennej objaśniającej x0 ma rozkład normalny o wartości średniej i wariancji postaci (7) i (8), odpowiednio. Ponadto,
Wniosek
Przedział ufności na poziomie ufności 1- a dla
ma krańce
Długość przedziału nie jest stała, wynosi
a zatem zależy od x0. Im dalej x0 znajduje się od tym bardziej ocena staje się niedokładna. Im dalej znajdujemy się od centralnej części danych tym większy jest błąd prognozy.
(b) Prognoza (przewidywanie) Y(x0).
Niech będzie oceną (prognozą) Y(x0). Zauważmy, że używamy dokładnie takiej samej prognozy jak do szacowania
! Własności prognozy będą jednak inne, gdyż prognozujemy inną wartość. Zmienne losowe
, Y(x0) są niezależne, gdyż wartość prognozy
oparta jest na zmiennych Y1, ... , Yn niezależnych od Y(x0). Zatem wariancja ich różnicy ma postać:
Stąd naturalnym estymatorem standardowego odchylenia jest błąd standardowy
postaci
Błąd standardowy różni się tylko składnikiem "1" pod pierwiastkiem od błędu standardowego prognozy wartości średniej.
Twierdzenie
Zmienna losowa ma rozkład normalny
, oraz
Wniosek
Przedział ufności na poziomie ufności 1- a dla zmiennej Y(x0) = b 0 + b 1 x0 + e 0 ma krańce
Przykład (kontynuacja przykładu z wykładu 13)
Prosta regresji MNK dla miesięcznego dochodu ze sprzedaży artykułu w zależności od miesięcznego wydatku na reklamę:
y = 0,85 + 0,89x.
Stąd prognozowany dochód przy wydatku na reklamę x0 = 10 ( x 10000 zł) oraz jednocześnie estymowana (przewidywana) wartość średnia dochodu na podstawie miesięcznych wydatków na reklamę x0 = 10 ( x 10000 zł)
Przedział ufności na poziomie ufności 0,90 dla:
Granice 90% przedziału ufności dla :
9,75 - 2,353 ´ 0,9883 = 7,354
9,75 + 2,353 ´ 0,9883 = 12,146
(b) granice 90% przedziału ufności dla prognozy zmiennej :
9,75 - 2,353 ´ 1,3655 = 6,537
9,75 + 2,353 ´ 1,3655 = 12,963
Rys. 14.1. Przedziały ufności dla prognozy wartości średniej dochodu dla x Î [3, 12].
Rysunek 14.1 przedstawia wykres rozproszenia, dopasowaną prostą regresji oraz krzywe ufności dla wartości średniej oraz wartości prognozowanej miesięcznego dochodu ze sprzedaży na podstawie miesięcznych wydatków na reklamę x Î [3, 12] na poziomie ufności 0,9.
Rys. 14.2. Wykres studentyzowanych rezyduów dla zależności dochodu od nakładów na reklamę.
Na rysunku 14.2 przedstawiony jest wykres studentyzowanych rezyduów:
(patrz sekcja 14.2). Wykres sugeruje, że obserwacja odpowiadająca wartości x=7 jest obserwacją odstającą.
następny punkt » |