« poprzedni punkt | następny punkt » |
Zastanówmy się teraz, w jaki sposób dopasować prostą do punktów (x1, y1), (x2, y2), ... , (xn, yn), aby je najlepiej reprezentowała. Nie ma jednoznacznej odpowiedzi na to pytanie. Poniżej przedstawimy jedno z możliwych rozwiązań.
Niech y = b0 + b1 x, - ¥ < x < ¥, będzie równaniem prostej dopasowywanej do punktów (xi, yi), i=1,...,n, wykresu rozproszenia. (b1 - współczynnik kierunkowy, b0 - wyraz wolny)
Wówczas jest przybliżeniem wartości yi dla zmiennej niezależnej xi uzyskanym na podstawie zależności liniowej.
Błąd oszacowania nazywamy wartością resztową lub rezyduum. Dla wartości yi leżącej nad dopasowywaną prostą wartość rezyduum jest dodatnia, poniżej prostej jest ujemna.
Miarą dopasowania prostej do próbki (punktów wykresu rozproszenia) jest suma kwadratów błędów (rezyduów):
Prostą, dla której S(b0,b1) osiąga wartość minimalną nazywamy prostą regresji wyznaczoną metodą najmniejszych kwadratów lub krócej prostą MNK. Popularność tej metody wyznaczania prostej przybliżającej wiąże się z faktem, że jesteśmy w stanie prosto wyznaczyć współczynniki b0 i b1.
Współczynniki prostej regresji b0, b1 wyznaczamy z warunku koniecznego minimum funkcji S(b0,b1), tzn. przyrównując do zera obie jej pochodne cząstkowe. Rozwiązując ten układ dwóch równań liniowych otrzymujemy:
gdzie
Druga z równości w (1) wynika z faktu, że
Z równania (2) wynika, że prosta MNK przechodzi przez punkt , gdyż
. Zatem dla wyznaczenia prostej MNK należy wyznaczyć jej nachylenie b1, a następnie spośród prostych o tym nachyleniu wybrać przechodzącą przez punkt
.
Wartość y = b0 + b1 x nazywamy wartością przewidywaną zmiennej objaśnianej (zależnej) przy pomocy prostej regresji na podstawie zmiennej objaśniającej (niezależnej) x.
Prosta MNK dla wykresu rozproszenia średnicy i objętości drzew wynosi
objętość = - 36,9 + 5,1 * średnica,
zatem przewidywana objętość dla średnicy równej 25 (cali) wynosi 90,6.
Określimy teraz współczynnik determinacji będący oceną dobroci dopasowania prostej regresji MNK. Ocenę dobroci dopasowania oprzemy na porównaniu zmienności samych (yi) ocenianej przez
ze zmiennością (yi) po wyeliminowaniu wpływu liniowego zmiennej objaśniającej ocenianą przez
gdyż
Zdefiniujmy jeszcze
Można pokazać:
lub symbolicznie
SST = SSE + SSR.
Definicja
Współczynnik determinacji (współczynnik dobroci dopasowania) definiujemy jako
Uwagi
Im mniejsze SSE tym wykres rozproszenia skupiony jest bardziej wokół prostej regresji.
Współczynnik determinacji jest miarą stopnia dopasowania prostej regresji do wykresu rozproszenia (ocenia jakość tego dopasowania), mianowicie określa stopień, w jakim zależność liniowa między zmienną objaśnianą a objaśniającą wyjaśnia zmienność wykresu rozproszenia.
Wartość współczynnika determinacji jest ściśle związana z wartością współczynnika korelacji próbkowej.
Stwierdzenie
Współczynnik determinacji jest równy kwadratowi wartości współczynnika korelacji próbkowej dla
« poprzedni punkt | następny punkt » |