następny punkt »


1. PROGNOZA PRZYSZŁEJ WARTOŚCI

Problem przewidywania (prognozy) przyszłej wartości interesującej nas zmiennej losowej (np. przyszłorocznego produktu narodowego brutto lub przyszłorocznej inflacji) jest jednym z najważniejszych zagadnień statystyki. Model regresji liniowej jest użytecznym narzędziem do uzyskania pewnej propozycji prognozy, trzeba pamiętać jednak o następujących ograniczeniach.

Po pierwsze, dopasowanie danych do modelu musi być zadowalające. Stwierdzeniu tego, że tak jest (lub nie) służy tak zwana diagnostyka modelu, którą zajmiemy się pod koniec tego wykładu. Po drugie, nie jesteśmy w stanie przewidywać wartości zmiennej objaśnianej dla nowej wartości x znacznie odbiegającej od uzyskanych dotychczas wartości zmiennej objaśniającej. Adekwatność modelu regresji możemy bowiem jedynie stwierdzić dla takiego obszaru zmiennej x, dla którego dysponujemy danymi go pokrywającymi. W przeciwnym przypadku dokonujemy ekstrapolacji modelu na zakres x, o którym nie mamy informacji. W takim przypadku możemy stwierdzić, np. zmniejszająca się populacja rolników w Polsce będzie w roku 2050 ujemna lub, że prognozowana liczba posiadaczy telefonów komórkowych w tym roku będzie większa od prognozowanej liczby mieszkańców Polski. Na koniec istotne jest uświadomienie sobie, co chcemy prognozować. Możemy chcieć przewidywać faktyczną wartość liczby posiadaczy telefonów komórkowych lub tylko jej wartość średnią. Zajmiemy się po kolei obydwoma zagadnieniami.

Załóżmy, że obserwowane są zmienne Y1, ... , Yn pochodzące z modelu

     

Nieobserwowana jest "przyszła" wartość Y(x0) zmiennej objaśnianej dla nowej wartości zmiennej objaśniającej równej x0.

gdzie e 1,e 2,...,e n, e 0 są niezależnymi zmiennymi losowymi o rozkładach N(0,s).

Zadania prognozy:

  1. ocena (estymacja) wartości średniej
  2. zmiennej objaśnianej w sytuacji, gdy zmienna objaśniająca x jest równa x0.

  3. przewidywanie (prognoza) wartości Y(x0).

Rozważmy najpierw zadanie (a). Obliczając wartość średnią obu stron (6) mamy:

Stąd naturalnym oszacowaniem jest

czyli po prostu wartość przewidywana na podstawie prostej MNK policzona dla wartości zmiennej objaśniającej x=x0.

Policzmy wartość oczekiwaną i wariancję takiej prognozy wartości oczekiwanej.

Zatem jest nieobciążonym estymatorem .

Można pokazać, że są nieskorelowane, stąd zgodnie z wykładem 13

gdyż

W celu zdefiniowania błędu standardowego estymatora zastępujemy w (8) s 2 przez jego estymator S2 i pierwiastkujemy całe wyrażenie.

Twierdzenie

Estymator wartości średniej zmiennej objaśnianej Y dla wartości zmiennej objaśniającej x0 ma rozkład normalny o wartości średniej i wariancji postaci (7) i (8), odpowiednio. Ponadto,

     

Wniosek

Przedział ufności na poziomie ufności 1- a dla

ma krańce

Długość przedziału nie jest stała, wynosi

a zatem zależy od x0. Im dalej x0 znajduje się od tym bardziej ocena staje się niedokładna. Im dalej znajdujemy się od centralnej części danych tym większy jest błąd prognozy.

(b) Prognoza (przewidywanie) Y(x0).

Niech będzie oceną (prognozą) Y(x0). Zauważmy, że używamy dokładnie takiej samej prognozy jak do szacowania ! Własności prognozy będą jednak inne, gdyż prognozujemy inną wartość. Zmienne losowe , Y(x0) są niezależne, gdyż wartość prognozy oparta jest na zmiennych Y1, ... , Yn niezależnych od Y(x0). Zatem wariancja ich różnicy ma postać:

Stąd naturalnym estymatorem standardowego odchylenia jest błąd standardowy postaci

Błąd standardowy różni się tylko składnikiem "1" pod pierwiastkiem od błędu standardowego prognozy wartości średniej.

Twierdzenie

Zmienna losowa ma rozkład normalny , oraz

Wniosek

Przedział ufności na poziomie ufności 1- a dla zmiennej Y(x0) = b 0 + b 1 x0 + e 0 ma krańce

Przykład (kontynuacja przykładu z wykładu 13)

Prosta regresji MNK dla miesięcznego dochodu ze sprzedaży artykułu w zależności od miesięcznego wydatku na reklamę:

     y = 0,85 + 0,89x.

Stąd prognozowany dochód przy wydatku na reklamę x0 = 10 ( x 10000 zł) oraz jednocześnie estymowana (przewidywana) wartość średnia dochodu na podstawie miesięcznych wydatków na reklamę x0 = 10 ( x 10000 zł)

     

Przedział ufności na poziomie ufności 0,90 dla:

Granice 90% przedziału ufności dla :

9,75 - 2,353 ´ 0,9883 = 7,354

9,75 + 2,353 ´ 0,9883 = 12,146

(b)     granice 90% przedziału ufności dla prognozy zmiennej :

9,75 - 2,353 ´ 1,3655 = 6,537

9,75 + 2,353 ´ 1,3655 = 12,963

Rys. 14.1. Przedziały ufności dla prognozy wartości średniej dochodu dla x Î [3, 12].

Rysunek 14.1 przedstawia wykres rozproszenia, dopasowaną prostą regresji oraz krzywe ufności dla wartości średniej oraz wartości prognozowanej miesięcznego dochodu ze sprzedaży na podstawie miesięcznych wydatków na reklamę x Î [3, 12] na poziomie ufności 0,9.

Rys. 14.2. Wykres studentyzowanych rezyduów dla zależności dochodu od nakładów na reklamę.

Na rysunku 14.2 przedstawiony jest wykres studentyzowanych rezyduów:

     

(patrz sekcja 14.2). Wykres sugeruje, że obserwacja odpowiadająca wartości x=7 jest obserwacją odstającą.


 następny punkt »