« poprzedni punkt |
Twierdzenie
Jeśli e i ~ N(0,s), i = 1,..,n, to
i stąd
ma rozkład Studenta tn- 2 z n- 2 stopniami swobody.
i stąd
ma rozkład Studenta tn- 2 z n- 2 stopniami swobody.
Powyższe twierdzenie pozwala nam skonstruować przedziały ufności dla parametrów b 0 i b 1. Przedział ufności dla parametru b 1 bardziej nas interesuje: jeśli nie pokrywa on 0, możemy orzekać, że istnieje zależność liniowa między x i y.
Przedział ufności na poziomie ufności 1- a dla współczynnika b 1:
Przedział ufności na poziomie ufności 1- a dla współczynnika b 0:
Mamy zatem przy spełnionej hipotezie H0:
P(b 1 Î I1) = 1 - a i P(b 0 Î I0) = 1 - a.
Uwaga
Podkreślmy, że tu i w dalszych rozważaniach przyjmujemy, że błędy mają rozkład normalny, to jest spełnione są założenia ostatniego twierdzenia.
Testowanie hipotezy o wartości współczynnika b 1
Zaczniemy od istotniejszego, z punktu widzenia badania zależności, testu dotyczącego wartości współczynnika nachylenia b 1.
(A) gdzie b
1,0 jest ustaloną liczbą.
Statystyka testowa:
Jeśli H0 prawdziwa, to T ~ tn- 2.
(a)
Zbiór krytyczny
(b)
Zbiór krytyczny
(c)
Zbiór krytyczny
Testowanie hipotezy o wartości współczynnika b 0
(B) gdzie b
0,0 jest ustaloną liczbą.
Statystyka testowa
Jeśli H0 jest prawdziwa, to T ~ tn- 2.
(a)
Zbiór krytyczny
(b)
Zbiór krytyczny
(c)
Zbiór krytyczny
Uwaga
Większość pakietów statystycznych podaje również wynik testowania
przy użyciu statystyki F = T2 (T jest określona w (A) z b 1,0=0), która przy spełnieniu hipotezy H0 ma tzw. rozkład F Snedecora o 1 i n- 2 stopniach swobody. Test ten jest równoważny testowi dla przypadku (A) w oparciu o statystykę testową T, gdy b 1,0=0.
Przykład
Zanotowano miesięczne wydatki na reklamę (w 10000 zł) pewnego artykułu oraz miesięczne dochody ze sprzedaży artykułu (w 100000 zł):
Miesiąc i : 1 2 3 4 5
Reklama xi : 5 6 7 8 9
Dochód yi : 4,5 6,5 8,4 7,6 8,4
= 7,0
= 7,08 sX = 1,58 sY = 1,64
Współczynnik korelacji próbkowej:
Dopasowana prosta regresji: y = b0 + b1x
Rysunek 13.3 przedstawia wykres rozproszenia, dopasowaną prostą regresji oraz przewidywane dochody ze sprzedaży przy kilku różnych wydatkach na reklamę.
Rys. 13.3. Wykres rozproszenia z dopasowaną prostą regresji.
Przewidywany dochód ze sprzedaży przy wydatku na reklamę x = 10 (x 10000 zł ) wynosi
Współczynnik determinacji R2 = 0,737 = (0,858)2.
Zmienność dochodu w prawie 74% wyjaśniona przez zmienność wydatków na reklamę.
Zmienność wydatków na reklamę w 74% tłumaczy zmienność dochodu.
Założenie: model liniowy zależności dochodu od wydatków na reklamę ma postać
Wykres rozproszenia i duża wartość R2 sugeruje, że model jest adekwatny. p-wartość dla testowania hipotezy H0: b 1=0 przeciwko alternatywie H1: b 1¹ 0 wynosi 0,0625. Na poziomie istotności a =0,05 nie odrzucamy hipotezy zerowej o braku zależności liniowej między dochodem a wydatkami na reklamę.
Poniżej podany jest kod w R i wyniki dotyczące tego przykładu.
x <- c(5, 6, 7, 8, 9) y <- c(4.5, 6.5, 8.4, 7.6, 8.4) xy.regr <- lm(y~x) print(summary(xy.regr)) print(anova(xy.regr))
Ostatnia instrukcja wyprowadza na ekran m.in. wartości SSR=7,9210 (pierwszy wiersz) i SSE=2,8270 (drugi wiersz).
Wynik działania programu:
Call: lm(formula = y ~ x) Residuals: 1 2 3 4 5 -0.80 0.31 1.32 -0.37 -0.46 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.850 2.192 0.388 0.7241 x 0.890 0.307 2.899 0.0625. --- Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 Residual standard error: 0.9707 on 3 degrees of freedom Multiple R-Squared: 0.737, Adjusted R-squared: 0.6493 F-statistic: 8.406 on 1 and 3 DF, p-value: 0.06254 Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) x 1 7.9210 7.9210 8.4057 0.06254 . Residuals 3 2.8270 0.9423 --- Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1
Powróćmy jeszcze do naszego przykładu wprowadzającego. Poniżej przedstawione są wyniki analizy zależności zmiennej Volume od odpowiednio zmiennych Girth i Height obliczonych w pakiecie R. Widzimy, że choć pierwszy z tych modeli tłumaczy znacznie większą część zmienności y (R2=0,93 w porównaniu z 0,36 dla drugiego modelu), to w obu przypadkach nachylenie prostej MNK jest istotnie różne od zera. Prowadzi to do (intuicyjnie racjonalnej) konstatacji, że obie z tych zmiennych niosą pewną informację na temat zmiennej objaśniającej. Można pokusić by się zatem o sformułowanie modelu, w którym obie zmienne byłyby brane pod uwagę jako zmienne objaśniające. Problemy tego typu są badane za pomocą metod regresji wielokrotnej. Nie wchodząc w ich istotę, zauważmy tu tylko, że przybliżanie kształtu drzewa poprzez stożek sugeruje zależność Volume» (1/3)´ (Girth)2´ (Height), co po zlogarytmowaniu prowadzi do modelu
log(Volume) = b 0 + b 1log(Girth) + b 2log(Height) + błąd,
który jest naturalnym rozszerzeniem modelu regresji dla zmiennych
y = log(Volume)
x1 = log(Girth)
x2 = log(Height).
Kod programu w R:
library(MASS) data(trees) par(mfrow=c(2,2)) print(summary(fm1 <- lm(Volume ~ Girth, data = trees))) print(summary(fm2 <- lm(Volume ~ Height, data = trees))) # Wykresy rozproszenia z naniesioną prostą regresji plot(Volume ~ Girth, data = trees) abline(reg=fm1) plot(Volume ~ Height, data = trees) abline(reg=fm2) # Wykresy rezyduów zwykłych plot(fm1$fitted.values,fm1$residuals, ylim=c(-30,30)) abline(h=0) plot(fm2$fitted.values,fm2$residuals, ylim=c(-30,30)) abline(h=0) readline("Nacisnij ENTER.") # Wykresy rezyduów studentyzowanych (porównaj wykład 14) i wykresy kwantylowe normalne plot(fm1$fitted.values,studres(fm1)) abline(h=0) plot(fm2$fitted.values,studres(fm2)) abline(h=0) qqnorm(studres(fm1)) qqline(studres(fm1)) qqnorm(studres(fm2)) qqline(studres(fm2))
Wyniki numeryczne wyprowadzane w wyniku działania programu:
Call: lm(formula = Volume ~ Girth, data = trees) Residuals: Min 1Q Median 3Q Max -8.0654 -3.1067 0.1520 3.4948 9.5868 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -36.9435 3.3651 -10.98 7.62e-12 *** Girth 5.0659 0.2474 20.48 < 2e-16 *** --- Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 Residual standard error: 4.252 on 29 degrees of freedom Multiple R-Squared: 0.9353, Adjusted R-squared: 0.9331 F-statistic: 419.4 on 1 and 29 DF, p-value: < 2.2e-16 Call: lm(formula = Volume ~ Height, data = trees) Residuals: Min 1Q Median 3Q Max -21.274 -9.894 -2.894 12.067 29.852 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -87.1236 29.2731 -2.976 0.005835 ** Height 1.5433 0.3839 4.021 0.000378 *** --- Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 Residual standard error: 13.4 on 29 degrees of freedom Multiple R-Squared: 0.3579, Adjusted R-squared: 0.3358 F-statistic: 16.16 on 1 and 29 DF, p-value: 0.0003784
Rys. 13.4. Wykresy rozproszenia (zmiennej Volume od odpowiednio zmiennych Girth i Height) z naniesioną prostą regresji oraz wykresy rezyduów.
« poprzedni punkt |