« poprzedni punkt | następny punkt » |
Przestrzeń zdarzeń elementarnych S, na której określona jest interesująca nas zmienna X nazywana jest w statystyce populacją. Zmienna X interpretowana jest jako cecha populacji będąca przedmiotem badania. Często samą populację utożsamiamy ze związaną z nią badaną cechą. Rozkładem zmiennej X nazywamy rozkład prawdopodobieństwa cechy dla losowo wybranego elementu populacji. Poza szczególnym przypadkiem, gdy jesteśmy w stanie podać wartości X dla wszystkich elementów populacji, z reguły wnioskujemy o rozkładzie X na podstawie jej części tak wybranej, aby otrzymać reprezentatywną próbę możliwych wartości zmiennej. W wybranej części mierzymy wartości cech dla wszystkich jej elementów. Najczęściej rozpatruje się tak zwane proste próby losowe.
Definicja
Prostą próbą losową (lub krócej próbą losową) o liczności n nazywamy ciąg niezależnych zmiennych losowych X1,X2,...,Xn określonych na przestrzeni zdarzeń elementarnych S i takich, że każda ze zmiennych ma taki sam rozkład.
Konkretny ciąg wartości x1,x2,...,xn (prostej) próby losowej X1,X2,...,Xn nazywamy realizacją (prostej) próby losowej lub próbką. Zauważmy, że terminologia jest tu inna niż w teorii sygnału gdzie próbką nazywa się jedną wartość mierzonego (próbkowanego) sygnału. (Zmienna Xi odpowiada potencjalnej wartości cechy dla i-tego wylosowanego elementu).
Zadaniem statystyki jest wnioskowanie o rozkładzie interesującej nas cechy na podstawie informacji zawartej w próbie. Ponieważ próba jest losowa, wnioskowanie takie siłą rzeczy jest obarczone błędem. Dlatego do oceny jakości wnioskowania właściwym aparatem są narzędzia rachunku prawdopodobieństwa. Zauważmy, że wnioskowanie statystyczne jest w pewnym sensie metodologią uwiarygodnienia procesu zgadywania, gdy np. na podstawie informacji o bezrobociu dla pewnej liczby osób staramy się zgadnąć jakie jest średnie bezrobocie wśród zdolnych do pracy Polaków, lub gdy na podstawie dostępnych informacji makroekonomicznych staramy się przewidzieć przyszłoroczną inflację.
Definicja
Statystyką nazywamy każdą zmienną losową będącą ustaloną funkcją próby losowej X1,X2,...,Xn.
Statystyką jest więc, na przykład, najmniejsza, największa wartość w próbie, iloczyn lub suma kwadratów wszystkich wartości. Oczywiście, wybór konkretnej statystyki związany jest z nieznaną wielkością (parametrem) charakteryzującą populację, którą chcemy szacować.
Statystykę
nazywamy średnią z próby losowej X1, X2, ..., Xn.
Wartości statystyk, podobnie jak obserwowany ciąg wartości próby, oznaczamy małymi literami, np. średnia próbkowa jest realizacją statystyki
.
Twierdzenie (prawo wielkich liczb)
Niech X1, X2, ..., Xn będzie prostą próbą losową z rozkładu zmiennej losowej X o wartości średniej m i skończonej wariancji s 2. Wówczas dla dowolnie małej liczby e > 0
Z prawa wielkich liczb wynika, że średnia z prostej próby losowej jest dobrym oszacowaniem średniej teoretycznej (średniej rozkładu cechy populacji) w tym sensie, że dla dużych n rzadko mylimy się o więcej niż o e
przy ocenianiu m
przy pomocy , gdzie e
jest ustaloną z góry, ale dowolną liczbą dodatnią. Tak więc jeśli chcemy szacować średnią m, sensownym postępowaniem wydaje się wybór dużej próby i obliczenie na jej podstawie średniej próbkowej. Poniższe stwierdzenie pozwala ocenić dokładność tego oszacowania w sytuacji, gdy badana cecha ma rozkład normalny.
Stwierdzenie
Niech X1, X2, ..., Xn będzie prostą próbą losową z rozkładu zmiennej losowej X o średniej m
i wariancji
(b) Jeśli X ~ N(m, s), to
Zauważmy, że powyższe stwierdzenie pozwala zrozumieć, dlaczego prawdziwe jest prawo wielkich liczb. Na podstawie twierdzenia Czebyszewa i z faktu, że
otrzymujemy
a stąd
bo e 2 i s 2 są stałymi, a n dąży do nieskończoności.
Przykład
Załóżmy, że waga (w kg) losowo wybranego noworodka jest cechą o rozkładzie normalnym o nieznanej wartości średniej m (kg) i odchyleniu standardowym s = 0,5 (kg). Obliczymy prawdopodobieństwo, że średnia waga obliczona z prostej próby losowej o liczności 100 (średnia waga 100 losowo wybranych noworodków) różni się od prawdziwej wartości m o więcej niż 0,1 (kg).
Wiemy, że
=P(Z > 2) + P(Z < - 2) = 2 F (- 2) = 2 [1 - F (2)] = 2 (1−0,9772) = 0,0456,
gdzie Z ma standardowy rozkład normalny.
Zauważmy, że dla pojedynczej obserwowanej zmiennej mamy
P(|X - m | > 0,1) = 2 P(Z < - 0,2) = 0,8414.
######
######
Rys. 9.1. Gęstość średniej.
« poprzedni punkt | następny punkt » |