« poprzedni punkt | następny punkt » |
Niech X1, X2, ..., Xn będzie prostą próbą losową z rozkładu normalnego N(m,s).
Sytuacja 1.
Załóżmy, że nieznana jest jedynie wartość średniej m, a znana jest wartość odchylenia standardowego s. Będziemy starali się określić na ile dobrze szacuje nieznaną wartość m.
Po standaryzacji
Niech a Î (0, 1) będzie ustaloną małą liczbą dodatnią. Z reguły przyjmuje się a = 0,05 lub a = 0,01.
gdzie za /2 = kwantyl rzędu a /2 rozkładu N(0, 1),
z1- a /2 = kwantyl rzędu 1- a /2 rozkładu N(0, 1), tzn.
Na podstawie symetrii standardowej gęstości normalnej
Stąd równanie (1) można zapisać jako
Zauważmy, że powyższa równość oznacza, że przedział
o losowych, zależących od próby końcach zawiera z prawdopodobieństwem 1- a nieznaną wartość średnią m. Realizacją tego losowego przedziału obliczoną dla próbki jest przedział
zwany przedziałem ufności dla m na poziomie ufności 1- a lub estymatorem przedziałowym dla μ. Zanalizujmy dokładniej jaki jest sens tak skonstruowanego przedziału ufności.
Interpretacja częstościowa (sens praktyczny) przedziału ufności
Niech
oznaczają średnie próbkowe obliczone dla N próbek o n elementach każda:
Próbki są realizacjami niezależnych prostych prób losowych
Dokładniej: wykonujemy N jednakowych niezależnych doświadczeń. k-te (k = 1,2,...,N) doświadczenie polega na zaobserwowaniu realizacji k-tej prostej próby losowej
tzn. k-tej próbki:
Przedział ufności dla m na poziomie ufności 1- a obliczony dla k-tej próbki ma postać
Nieznana nam średnia m nie dla każdej próbki należy do wyznaczonego dla niej przedziału ufności. Oznaczmy przez Nm liczbę tych doświadczeń, dla których tak jest, to znaczy
Wówczas na mocy interpretacji częstościowej prawdopodobieństwa zdarzenia, dla liczby próbek N dążącej do nieskończoności
Zatem spośród wielu próbek w przybliżeniu (1- a )100% jest takich, dla których wyznaczony przedział ufności zawiera nieznaną wartość średnią m. Jeśli zmniejszymy a, czyli zwiększymy nasz poziom ufności (1- a), liczba przedziałów pokrywających m wzrośnie.
Jak duża powinna być liczność próbki n, aby estymator przedziałowy był dostatecznie precyzyjny?
jest stała (nie zależy od próbki a jedynie od jej liczności) i równa
Im większe jest n tym mniejsza jest długość przedziału ufności, tzn. tym lepsze jest oszacowanie przedziałowe m na danym poziomie ufności.
(b) Z wzoru (2) mamy
Niech d > 0 będzie takie, że
lub równoważnie
Wówczas (wykorzystując P(A) £ P(B) dla AÌ B) mamy
skąd
Zatem udowodniliśmy następujące
Stwierdzenie
Jeśli liczność prostej próby losowej z rozkładu normalnego o wartości średniej m i standardowym odchyleniu s spełnia warunek
to
Z prawdopodobieństwem co najmniej 1-
a
błąd bezwzględny oszacowania nieznanej wartości średniej m
poprzez nie przekroczy d, tzn. wśród wielu próbek o liczności n częstość takich, dla których błąd bezwzględny średniej próbkowej nie przekroczy d jest w przybliżeniu nie mniejsza niż 1-
a. Powyższe rozumowanie jest podstawą, na której agencje badania opinii publicznej opierają wybór liczności próby w sondażach.
Zadanie
Stacja paliw sprzedała 16032 litrów benzyny bezołowiowej w ciągu 16 losowo wybranych dni. Załóżmy, że dzienna ilość sprzedawanej benzyny bezołowiowej ma rozkład normalny o standardowym odchyleniu s = 120 (litrów). Skonstruować przedziały ufności dla średniej dziennej sprzedaży benzyny bezołowiowej na poziomach ufności:
(a) 0,98,
(b) 0,80.
Mamy:
skąd
98% przedział ufności dla m :
(b) a =0,20, 1- a /2=0,90, z0,90=1,28.
80% przedział ufności dla m : [963,6, 1040,4].
Uwaga
W praktyce stosuje się przedziały ufności na poziomie 0,95 (dopuszczamy, że 5 na 100 przedziałów nie pokryje nieznanej wartości) lub rzadziej na poziomie 0,99.
Zadanie
Producent chce ocenić średnią zawartość nikotyny w paczkach papierosów pewnego gatunku. Wiadomo, że standardowe odchylenie zawartości nikotyny w losowo wybranej paczce papierosów s
= 2 (mg). Znaleźć liczbę paczek papierosów, w których należy zbadać zawartość nikotyny, aby na poziomie ufności co najmniej 0,95 móc stwierdzić, że obliczona średnia z próbki nie będzie się różniła od prawdziwej średniej zawartości nikotyny m
o więcej niż 0,5 (mg).
Zakładając rozkład normalny zawartości nikotyny w paczce papierosów mamy:
Dla a = 0,05, s = 2, d = 0,5, z1- a /2 = z0,975 = 1,96.
Stąd liczność próbki powinna być n ³ 62.
Sytuacja 2.
Przejdźmy teraz do rozpatrzenia bardziej realistycznej sytuacji, gdy próba pochodzi z rozkładu normalnego, dla którego zarówno parametr m jak i s są nieznane. Naszym celem jest oszacowanie parametru m. W poprzednim modelu wykorzystano zależność, że
ma rozkład N(0, 1). Podstawiając zamiast s jego estymator, tzn.
otrzymujemy zmienną losową
Zmienna losowa T nie ma już rozkładu normalnego, jakkolwiek jej rozkład jest bliski temu rozkładowi, szczególnie dla dużych prób.
Definicja
Rozkład zmiennej T na podstawie prostej próby losowej X1, X2, ..., Xn z rozkładu N(m,s) nazywamy rozkładem t-Studenta z n- 1 stopniami swobody. Liczba k = n- 1 jest parametrem rozkładu Studenta. Piszemy T~ tn- 1 lub ogólnie V~ tk, gdy V jest statystyką mającą rozkład Studenta o k stopniach swobody.
Uwaga
Pseudonimu Student używał statystyk W. Gosset, który wprowadził ten rozkład. Z tego powodu mówimy o rozkładzie t-Studenta a nie t-studenta.
Własności rozkładu tk:
Rozkład tk ma gęstość symetryczną o podobnym kształcie jak gęstość normalna, o średniej 0. Dla k ³ 30 jego gęstość pokrywa się praktycznie z gęstością rozkładu normalnego N(0, 1).
Wiedząc, że zmienna T ma rozkład tn- 1 budujemy przedział ufności dla m analogicznie jak w sytuacji 1:
gdzie t1- a /2, n- 1 jest kwantylem rzędu 1- a /2 rozkładu t Studenta o n- 1 stopniach swobody. Interpretacja powyższego przedziału ufności pozostaje taka sama jak w przypadku, gdy odchylenie s było znane.
Uwaga
Jeśli n ³ 30, to przyjmujemy
Zadanie
Zanotowano czasy obsługi przy okienku kasowym (w minutach) 49 losowo wybranych klientów pewnego banku. Obliczono: średnią z próbki (min.) oraz wariancję z próbki s2=1,44 (min2.). Znaleźć 98% przedział ufności dla średniego czasu obsługi m, jeśli można założyć, że czas obsługi klienta przy okienku kasowym ma rozkład normalny.
Mamy:
98% przedział ufności dla m ma postać
Pytanie kontrolne
W ciągu pięciu losowo wybranych dni zaobserwowano następujące zużycia pewnego odczynnika w laboratorium chemicznym, w dag):
4,8, 5,5, 6,2, 5,0, 6,5.
Wyznacz 90% przedział ufności dla średniego dziennego zużycia odczynnika w tym laboratorium, jeśli można przyjąć rozkład normalny dziennego zużycia odczynnika.
Zobacz odpowiedźPotrzebą praktyczną równie częstą jak konieczność szacowania średniej w pewnej populacji jest sytuacja, gdy chcemy porównać średnie w dwóch populacjach i oszacować ich różnicę. Przeprowadzając badania nad nowym lekiem antycholesterolowym może interesować nas o ile obniża on poziom "złego" cholesterolu LDL w populacji pacjentów w porównaniu z tradycyjnie stosowanym lekiem. Niech m
1 będzie średnim poziomem cholesterolu LDL w populacji pacjentów po miesięcznym okresie używania starego leku, a m
2 będzie analogicznie określonym średnim poziomem w przypadku nowego leku. Sytuacja, gdy różnica m
1 -
m
2 jest odpowiednio duża może być podstawą do wprowadzenia nowego leku na rynek. Oczywiście różnica m
1 -
m
2 będzie szacowana przez różnicę średnich . Zajmiemy się teraz problemem, jak na podstawie różnicy
skonstruować przedział ufności dla m
1 -
m
2. Załóżmy, że obie rozpatrywane populacje mają rozkład normalny.
« poprzedni punkt | następny punkt » |