« poprzedni punkt  następny punkt »


2. PROSTA REGRESJI METODĄ NAJMNIEJSZYCH KWADRATÓW

Zastanówmy się teraz, w jaki sposób dopasować prostą do punktów (x1, y1), (x2, y2), ... , (xn, yn), aby je najlepiej reprezentowała. Nie ma jednoznacznej odpowiedzi na to pytanie. Poniżej przedstawimy jedno z możliwych rozwiązań.

Niech y = b0 + b1 x, - ¥ < x < ¥, będzie równaniem prostej dopasowywanej do punktów (xi, yi), i=1,...,n, wykresu rozproszenia. (b1 - współczynnik kierunkowy, b0 - wyraz wolny)

Wówczas jest przybliżeniem wartości yi dla zmiennej niezależnej xi uzyskanym na podstawie zależności liniowej.

Błąd oszacowania nazywamy wartością resztową lub rezyduum. Dla wartości yi leżącej nad dopasowywaną prostą wartość rezyduum jest dodatnia, poniżej prostej jest ujemna.

Miarą dopasowania prostej do próbki (punktów wykresu rozproszenia) jest suma kwadratów błędów (rezyduów):

Prostą, dla której S(b0,b1) osiąga wartość minimalną nazywamy prostą regresji wyznaczoną metodą najmniejszych kwadratów lub krócej prostą MNK. Popularność tej metody wyznaczania prostej przybliżającej wiąże się z faktem, że jesteśmy w stanie prosto wyznaczyć współczynniki b0 i b1.

Współczynniki prostej regresji b0, b1 wyznaczamy z warunku koniecznego minimum funkcji S(b0,b1), tzn. przyrównując do zera obie jej pochodne cząstkowe. Rozwiązując ten układ dwóch równań liniowych otrzymujemy:

gdzie

Druga z równości w (1) wynika z faktu, że

Z równania (2) wynika, że prosta MNK przechodzi przez punkt , gdyż . Zatem dla wyznaczenia prostej MNK należy wyznaczyć jej nachylenie b1, a następnie spośród prostych o tym nachyleniu wybrać przechodzącą przez punkt .

Wartość y = b0 + b1 x nazywamy wartością przewidywaną zmiennej objaśnianej (zależnej) przy pomocy prostej regresji na podstawie zmiennej objaśniającej (niezależnej) x.

Prosta MNK dla wykresu rozproszenia średnicy i objętości drzew wynosi

     objętość = - 36,9 + 5,1 * średnica,

zatem przewidywana objętość dla średnicy równej 25 (cali) wynosi 90,6.

Określimy teraz współczynnik determinacji będący oceną dobroci dopasowania prostej regresji MNK. Ocenę dobroci dopasowania oprzemy na porównaniu zmienności samych (yi) ocenianej przez

ze zmiennością (yi) po wyeliminowaniu wpływu liniowego zmiennej objaśniającej ocenianą przez

gdyż

Zdefiniujmy jeszcze

Można pokazać:

     

lub symbolicznie

     SST = SSE + SSR.

Definicja

Współczynnik determinacji (współczynnik dobroci dopasowania) definiujemy jako

     

Uwagi

Im mniejsze SSE tym wykres rozproszenia skupiony jest bardziej wokół prostej regresji.

Współczynnik determinacji jest miarą stopnia dopasowania prostej regresji do wykresu rozproszenia (ocenia jakość tego dopasowania), mianowicie określa stopień, w jakim zależność liniowa między zmienną objaśnianą a objaśniającą wyjaśnia zmienność wykresu rozproszenia.

Wartość współczynnika determinacji jest ściśle związana z wartością współczynnika korelacji próbkowej.

Stwierdzenie

Współczynnik determinacji jest równy kwadratowi wartości współczynnika korelacji próbkowej dla (xi, yi), i=1,...,n.

     


« poprzedni punkt  następny punkt »