« poprzedni punkt |
Poprawność testów dotyczących parametrów modelu oraz prognozy przyszłych zmiennych zależy istotnie od poprawności przyjętego modelu liniowego:
Yi = b 0 + b 1 xi + e i (9)
Przez poprawność modelu rozumiemy jego adekwatność dla danych, którymi dysponujemy. Gdyby w modelu (9) wszystkie błędy e i = 0, adekwatność oznaczałaby po prostu, że wszystkie punkty (yi, xi) leżą na prostej postaci y = b 0 + b 1 x. Dla modelu (9) z błędami losowymi sprawdzanie adekwatności polega przede wszystkim na analizie zachowania oszacowań tych błędów, czyli rezyduów.
Wartość resztowa (rezyduum):
jest przybliżeniem błędu
Jeśli model (9) jest poprawny, błędy mają rozkład normalny, to rezydua zachowują się w przybliżeniu tak jak ciąg niezależnych zmiennych losowych o rozkładzie normalnym. W szczególności, wykres rezyduów względem numeru porządkowego powinien przedstawiać "chmurę" punktów skupioną wokół osi Ox, bez wyraźnej struktury czy tendencji. Chmura powinna być skupiona wokół osi Ox, gdyż wartość oczekiwana błędu ei jest równa 0 i spodziewamy się, że również Eei » 0.
Stwierdzenie
Wariancja rezyduum ma postać:
Błąd standardowy rezyduum definiujemy jako
Zauważmy, że wariancje rezyduów zależą od tego jak dalece odpowiednia wartość zmiennej objaśniającej różni się od wartości średniej. W celu eliminacji tej zmienności rozpatruje się rezydua studentyzowane.
Studentyzowane rezyduum definiujemy jako
Przy małej liczbie obserwacji i dużym rozproszeniu zmiennej objaśniającej błędy mogą odbiegać znacznie od błędu S.
Badanie odstępstw od modelu
(a Załóżmy, że model liniowy jest prawdziwy (zachodzi związek (9)), ale rozkład błędów różni się znacznie od rozkładu normalnego. Wówczas odkryjemy to analizując histogram oraz wykres kwantylowy rezyduów bądź studentyzowanych rezyduów. W przypadku rozkładu normalnego błędów punkty wykresu kwantylowego będą skupiały się wokół pewnej prostej.
(b) Model regresji liniowej nie jest prawdziwy. Zachodzi związek
ale funkcja regresji f(x) nie jest postaci b 0 + b 1 x. Odstępstwo tego typu często udaje się odczytać z wykresu rezyduów. Rysunki 14.3 i 14.4 sporządzone są dla obserwacji modelu Y = x2 + e, a rysunki 14.5 i 14.6 dla obserwacji modelu Y = x + ex + e. W takiej sytuacji często prawdziwy model zależności jest sprowadzalny do modelu liniowego, np. zależność
sprowadzamy do modelu liniowego wprowadzając nowe zmienne objaśniające: . Jeśli funkcja f zwana funkcją regresji jest liniowa względem współczynników b
0, b
1, to na ogół udaje się znaleźć przekształcenie
lub f(x) = log(x). Metoda ta jest nieskuteczna, jeśli regresja nie jest liniowa względem współczynników b
0 i b
1, jak na przykład w sytuacji, gdy
Rys. 14.3. Wykres rozproszenia i prosta regresji dla modelu y = x2 + e.
Rys. 14.4. Wykres rezyduów dla wykresu rozproszenia z rys. 14.3.
Rys. 14.5. Wykres rozproszenia i prosta regresji dla modelu y = x + ex + e.
Rys. 14.6. Wykres rezyduów dla wykresu rozproszenia z rys. 14.5.
(c) Funkcja regresji jest liniowa (równość (9) spełniona), ale wariancja błędów nie jest stała:
Odczytujemy to również z wykresu rezyduów, na którym ich zmienność powinna zależeć wyraźnie od wartości x. W tym przypadku prosta MNK nie jest dobrym oszacowaniem prawdziwej prostej regresji, gdyż kryterium sumy kwadratów rezyduów jednakowo traktuje wszystkie rezydua, mimo tego, iż w obszarach o większej zmienności rezydua "mają prawo" przyjmować większe wartości. Wówczas modyfikujemy kryterium najmniejszych kwadratów - zamiast minimalizacji sumy kwadratów błędów
minimalizujemy ważoną sumę kwadratów błędów:
Waga wi powinna być tym mniejsza im większa jest wariancja błędu .
Przyjmujemy:
Często za przyjmuje się wartość przewidywaną dla i-tej obserwacji w modelu regresji z tą samą zmienną objaśniającą, gdy za wartości zmiennej objaśnianej przyjmuje się wartości bezwzględne rezyduów.
(d) Model jest nieadekwatny ze względu na występowanie innych lub większej ilości zmiennych objaśniających. Taka sytuacja występuje bardzo często. Jeśli mamy kandydatów na nowe zmienne objaśniające możemy rozważyć tak zwany model regresji wielokrotnej, który dopuszcza istnienie kilku zmiennych objaśniających. Model ten omówiony jest w rozdziale 4 książki J. Koronackiego i J. Mielniczuka.
(e) Większość punktów na wykresie rozproszenia spełnia równanie (9), ale nie wszystkie. Te ostatnie nazywamy obserwacjami odstającymi. Ich identyfikacja jest bardzo istotna - błąd w zapisie jednej odpowiedzi polegający na wprowadzeniu wartości 18 zamiast 1,8 może mieć bardzo duży wpływ na przebieg prostej regresji. Większość obserwacji odstających ma duże wartości rezyduów i ten sposób stosuje się do ich wykrywania. W przypadku dużej zmienności zmiennej objaśniającej lepiej jest sprawdzać duże wartości studentyzowanych rezyduów. Z reguły obserwację, dla której wartość bezwzględna studentyzowanego rezyduum |ri| ³ 2 przyjmuje się jako obserwację odstającą.
« poprzedni punkt |