« poprzedni punkt 


4. WNIOSKOWANIE O PARAMETRACH MODELU REGRESJI LINIOWEJ

Twierdzenie

Jeśli e i ~ N(0,s), i = 1,..,n, to

i stąd

     

ma rozkład Studenta tn- 2 z n- 2 stopniami swobody.

i stąd

     

ma rozkład Studenta tn- 2 z n- 2 stopniami swobody.

Powyższe twierdzenie pozwala nam skonstruować przedziały ufności dla parametrów b 0 i b 1. Przedział ufności dla parametru b 1 bardziej nas interesuje: jeśli nie pokrywa on 0, możemy orzekać, że istnieje zależność liniowa między x i y.

Przedział ufności na poziomie ufności 1- a dla współczynnika b 1:

     

Przedział ufności na poziomie ufności 1- a dla współczynnika b 0:

     

Mamy zatem przy spełnionej hipotezie H0:

     P(b 1 Î I1) = 1 - a i P(b 0 Î I0) = 1 - a.

Uwaga

Podkreślmy, że tu i w dalszych rozważaniach przyjmujemy, że błędy mają rozkład normalny, to jest spełnione są założenia ostatniego twierdzenia.

Testowanie hipotezy o wartości współczynnika b 1

Zaczniemy od istotniejszego, z punktu widzenia badania zależności, testu dotyczącego wartości współczynnika nachylenia b 1.

(A) gdzie b 1,0 jest ustaloną liczbą.

Statystyka testowa:

     

Jeśli H0 prawdziwa, to T ~ tn- 2.

(a)

Zbiór krytyczny

(b)

Zbiór krytyczny

(c)

Zbiór krytyczny

Testowanie hipotezy o wartości współczynnika b 0

(B) gdzie b 0,0 jest ustaloną liczbą.

Statystyka testowa

     

Jeśli H0 jest prawdziwa, to T ~ tn- 2.

(a)

Zbiór krytyczny

(b)

Zbiór krytyczny

(c)

Zbiór krytyczny

Uwaga

Większość pakietów statystycznych podaje również wynik testowania

     

przy użyciu statystyki F = T2 (T jest określona w (A) z b 1,0=0), która przy spełnieniu hipotezy H0 ma tzw. rozkład F Snedecora o 1 i n- 2 stopniach swobody. Test ten jest równoważny testowi dla przypadku (A) w oparciu o statystykę testową T, gdy b 1,0=0.

Przykład

Zanotowano miesięczne wydatki na reklamę (w 10000 zł) pewnego artykułu oraz miesięczne dochody ze sprzedaży artykułu (w 100000 zł):

Miesiąc i : 1 2 3 4 5

Reklama xi : 5 6 7 8 9

Dochód yi : 4,5 6,5 8,4 7,6 8,4

= 7,0 = 7,08 sX = 1,58 sY = 1,64

Współczynnik korelacji próbkowej:

Dopasowana prosta regresji: y = b0 + b1x

Rysunek 13.3 przedstawia wykres rozproszenia, dopasowaną prostą regresji oraz przewidywane dochody ze sprzedaży przy kilku różnych wydatkach na reklamę.

Rys. 13.3. Wykres rozproszenia z dopasowaną prostą regresji.

Przewidywany dochód ze sprzedaży przy wydatku na reklamę x = 10 (x 10000 zł ) wynosi

Współczynnik determinacji R2 = 0,737 = (0,858)2.

Zmienność dochodu w prawie 74% wyjaśniona przez zmienność wydatków na reklamę.

Zmienność wydatków na reklamę w 74% tłumaczy zmienność dochodu.

Założenie: model liniowy zależności dochodu od wydatków na reklamę ma postać

     

Wykres rozproszenia i duża wartość R2 sugeruje, że model jest adekwatny. p-wartość dla testowania hipotezy H0: b 1=0 przeciwko alternatywie H1: b 1¹ 0 wynosi 0,0625. Na poziomie istotności a =0,05 nie odrzucamy hipotezy zerowej o braku zależności liniowej między dochodem a wydatkami na reklamę.

Poniżej podany jest kod w R i wyniki dotyczące tego przykładu.

x <- c(5, 6, 7, 8, 9)
y <- c(4.5, 6.5, 8.4, 7.6, 8.4)
xy.regr <- lm(y~x)
print(summary(xy.regr))
print(anova(xy.regr))

Ostatnia instrukcja wyprowadza na ekran m.in. wartości SSR=7,9210 (pierwszy wiersz) i SSE=2,8270 (drugi wiersz).

Wynik działania programu:

Call:
lm(formula = y ~ x)

Residuals:
    1     2     3     4     5 
-0.80  0.31  1.32 -0.37 -0.46 

Coefficients:
          Estimate Std. Error t value Pr(>|t|) 
(Intercept)  0.850     2.192   0.388   0.7241 
x            0.890     0.307   2.899   0.0625.
---
Signif. codes:  0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 

Residual standard error: 0.9707 on 3 degrees of freedom

Multiple R-Squared: 0.737,      Adjusted R-squared: 0.6493 
F-statistic: 8.406 on 1 and 3 DF,  p-value: 0.06254

Analysis of Variance Table

Response: y

           Df Sum Sq Mean Sq F value  Pr(>F) 

x          1 7.9210  7.9210  8.4057 0.06254 .
Residuals  3 2.8270  0.9423                 
---
Signif. codes:  0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 

Powróćmy jeszcze do naszego przykładu wprowadzającego. Poniżej przedstawione są wyniki analizy zależności zmiennej Volume od odpowiednio zmiennych Girth i Height obliczonych w pakiecie R. Widzimy, że choć pierwszy z tych modeli tłumaczy znacznie większą część zmienności y (R2=0,93 w porównaniu z 0,36 dla drugiego modelu), to w obu przypadkach nachylenie prostej MNK jest istotnie różne od zera. Prowadzi to do (intuicyjnie racjonalnej) konstatacji, że obie z tych zmiennych niosą pewną informację na temat zmiennej objaśniającej. Można pokusić by się zatem o sformułowanie modelu, w którym obie zmienne byłyby brane pod uwagę jako zmienne objaśniające. Problemy tego typu są badane za pomocą metod regresji wielokrotnej. Nie wchodząc w ich istotę, zauważmy tu tylko, że przybliżanie kształtu drzewa poprzez stożek sugeruje zależność Volume» (1/3)´ (Girth)2´ (Height), co po zlogarytmowaniu prowadzi do modelu

     log(Volume) = b 0 + b 1log(Girth) + b 2log(Height) + błąd,

który jest naturalnym rozszerzeniem modelu regresji dla zmiennych

     y = log(Volume)
     x1 = log(Girth)
     x2 = log(Height).

Kod programu w R:

library(MASS)
data(trees)
par(mfrow=c(2,2))
print(summary(fm1 <- lm(Volume ~ Girth, data = trees)))
print(summary(fm2 <- lm(Volume ~ Height, data = trees)))

# Wykresy rozproszenia z naniesioną prostą regresji

plot(Volume ~ Girth, data = trees)
abline(reg=fm1)
plot(Volume ~ Height, data = trees)
abline(reg=fm2)

# Wykresy rezyduów zwykłych

plot(fm1$fitted.values,fm1$residuals, ylim=c(-30,30))
abline(h=0)
plot(fm2$fitted.values,fm2$residuals, ylim=c(-30,30))
abline(h=0)
readline("Nacisnij ENTER.")

# Wykresy rezyduów studentyzowanych (porównaj wykład 14) i wykresy kwantylowe normalne

plot(fm1$fitted.values,studres(fm1))
abline(h=0)
plot(fm2$fitted.values,studres(fm2))
abline(h=0)
qqnorm(studres(fm1))
qqline(studres(fm1))
qqnorm(studres(fm2))
qqline(studres(fm2))

Wyniki numeryczne wyprowadzane w wyniku działania programu:

Call:
lm(formula = Volume ~ Girth, data = trees)

Residuals:
    Min      1Q  Median      3Q     Max 
-8.0654 -3.1067  0.1520  3.4948  9.5868 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept) -36.9435     3.3651  -10.98 7.62e-12 ***
Girth         5.0659     0.2474   20.48  < 2e-16 ***
---
Signif. codes:  0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 

Residual standard error: 4.252 on 29 degrees of freedom
Multiple R-Squared: 0.9353,     Adjusted R-squared: 0.9331 
F-statistic: 419.4 on 1 and 29 DF,  p-value: < 2.2e-16 

Call:
lm(formula = Volume ~ Height, data = trees)

Residuals:
    Min      1Q  Median      3Q     Max 
-21.274  -9.894  -2.894  12.067  29.852

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept) -87.1236    29.2731  -2.976 0.005835 ** 
Height        1.5433     0.3839   4.021 0.000378 ***
---
Signif. codes:  0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 

Residual standard error: 13.4 on 29 degrees of freedom
Multiple R-Squared: 0.3579,     Adjusted R-squared: 0.3358 
F-statistic: 16.16 on 1 and 29 DF,  p-value: 0.0003784 

Rys. 13.4. Wykresy rozproszenia (zmiennej Volume od odpowiednio zmiennych Girth i Height) z naniesioną prostą regresji oraz wykresy rezyduów.


« poprzedni punkt