« poprzedni punkt  następny punkt »


2. PRZEDZIAŁY UFNOŚCI DLA WARTOŚCI ŚREDNIEJ ROZKŁADU NORMALNEGO

Niech X1, X2, ..., Xn będzie prostą próbą losową z rozkładu normalnego N(m,s).

Sytuacja 1.

Załóżmy, że nieznana jest jedynie wartość średniej m, a znana jest wartość odchylenia standardowego s. Będziemy starali się określić na ile dobrze szacuje nieznaną wartość m.

     

Po standaryzacji

     

Niech a Î (0, 1) będzie ustaloną małą liczbą dodatnią. Z reguły przyjmuje się a = 0,05 lub a = 0,01.

gdzie za /2 = kwantyl rzędu a /2 rozkładu N(0, 1),

z1- a /2 = kwantyl rzędu 1- a /2 rozkładu N(0, 1), tzn.

Na podstawie symetrii standardowej gęstości normalnej

     

Stąd równanie (1) można zapisać jako

Zauważmy, że powyższa równość oznacza, że przedział

     

o losowych, zależących od próby końcach zawiera z prawdopodobieństwem 1- a nieznaną wartość średnią m. Realizacją tego losowego przedziału obliczoną dla próbki jest przedział

     

zwany przedziałem ufności dla m na poziomie ufności 1- a lub estymatorem przedziałowym dla μ. Zanalizujmy dokładniej jaki jest sens tak skonstruowanego przedziału ufności.

Interpretacja częstościowa (sens praktyczny) przedziału ufności

Niech

     

oznaczają średnie próbkowe obliczone dla N próbek o n elementach każda:

     

Próbki są realizacjami niezależnych prostych prób losowych

     

Dokładniej: wykonujemy N jednakowych niezależnych doświadczeń. k-te (k = 1,2,...,N) doświadczenie polega na zaobserwowaniu realizacji k-tej prostej próby losowej

     

tzn. k-tej próbki:

     

Przedział ufności dla m na poziomie ufności 1- a obliczony dla k-tej próbki ma postać

     

Nieznana nam średnia m nie dla każdej próbki należy do wyznaczonego dla niej przedziału ufności. Oznaczmy przez Nm liczbę tych doświadczeń, dla których tak jest, to znaczy

     

Wówczas na mocy interpretacji częstościowej prawdopodobieństwa zdarzenia, dla liczby próbek N dążącej do nieskończoności

Zatem spośród wielu próbek w przybliżeniu (1- a )100% jest takich, dla których wyznaczony przedział ufności zawiera nieznaną wartość średnią m. Jeśli zmniejszymy a, czyli zwiększymy nasz poziom ufności (1- a), liczba przedziałów pokrywających m wzrośnie.

Jak duża powinna być liczność próbki n, aby estymator przedziałowy był dostatecznie precyzyjny?

  1. Długość przedziału

     

jest stała (nie zależy od próbki a jedynie od jej liczności) i równa

     

Im większe jest n tym mniejsza jest długość przedziału ufności, tzn. tym lepsze jest oszacowanie przedziałowe m na danym poziomie ufności.

(b) Z wzoru (2) mamy

     

Niech d > 0 będzie takie, że

lub równoważnie

Wówczas (wykorzystując P(A) £ P(B) dla AÌ B) mamy

skąd

     

Zatem udowodniliśmy następujące

Stwierdzenie

Jeśli liczność prostej próby losowej z rozkładu normalnego o wartości średniej m i standardowym odchyleniu s spełnia warunek

     

to

     

Z prawdopodobieństwem co najmniej 1- a błąd bezwzględny oszacowania nieznanej wartości średniej m poprzez nie przekroczy d, tzn. wśród wielu próbek o liczności n częstość takich, dla których błąd bezwzględny średniej próbkowej nie przekroczy d jest w przybliżeniu nie mniejsza niż 1- a. Powyższe rozumowanie jest podstawą, na której agencje badania opinii publicznej opierają wybór liczności próby w sondażach.

Zadanie

Stacja paliw sprzedała 16032 litrów benzyny bezołowiowej w ciągu 16 losowo wybranych dni. Załóżmy, że dzienna ilość sprzedawanej benzyny bezołowiowej ma rozkład normalny o standardowym odchyleniu s = 120 (litrów). Skonstruować przedziały ufności dla średniej dziennej sprzedaży benzyny bezołowiowej na poziomach ufności:

(a) 0,98,

(b) 0,80.

Mamy:

skąd

  1. a =0,02, 1- a /2=0,99, z0,99=2,33.

98% przedział ufności dla m :

(b) a =0,20, 1- a /2=0,90, z0,90=1,28.

80% przedział ufności dla m : [963,6, 1040,4].

Uwaga

W praktyce stosuje się przedziały ufności na poziomie 0,95 (dopuszczamy, że 5 na 100 przedziałów nie pokryje nieznanej wartości) lub rzadziej na poziomie 0,99.

Zadanie

Producent chce ocenić średnią zawartość nikotyny w paczkach papierosów pewnego gatunku. Wiadomo, że standardowe odchylenie zawartości nikotyny w losowo wybranej paczce papierosów s = 2 (mg). Znaleźć liczbę paczek papierosów, w których należy zbadać zawartość nikotyny, aby na poziomie ufności co najmniej 0,95 móc stwierdzić, że obliczona średnia z próbki nie będzie się różniła od prawdziwej średniej zawartości nikotyny m o więcej niż 0,5 (mg).

Zakładając rozkład normalny zawartości nikotyny w paczce papierosów mamy:

Dla a = 0,05, s = 2, d = 0,5, z1- a /2 = z0,975 = 1,96.

Stąd liczność próbki powinna być n ³ 62.

Sytuacja 2.

Przejdźmy teraz do rozpatrzenia bardziej realistycznej sytuacji, gdy próba pochodzi z rozkładu normalnego, dla którego zarówno parametr m jak i s są nieznane. Naszym celem jest oszacowanie parametru m. W poprzednim modelu wykorzystano zależność, że

ma rozkład N(0, 1). Podstawiając zamiast s jego estymator, tzn.

otrzymujemy zmienną losową

Zmienna losowa T nie ma już rozkładu normalnego, jakkolwiek jej rozkład jest bliski temu rozkładowi, szczególnie dla dużych prób.

Definicja

Rozkład zmiennej T na podstawie prostej próby losowej X1, X2, ..., Xn z rozkładu N(m,s) nazywamy rozkładem t-Studenta z n- 1 stopniami swobody. Liczba k = n- 1 jest parametrem rozkładu Studenta. Piszemy T~ tn- 1 lub ogólnie V~ tk, gdy V jest statystyką mającą rozkład Studenta o k stopniach swobody.

Uwaga

Pseudonimu Student używał statystyk W. Gosset, który wprowadził ten rozkład. Z tego powodu mówimy o rozkładzie t-Studenta a nie t-studenta.

Własności rozkładu tk:

Rozkład tk ma gęstość symetryczną o podobnym kształcie jak gęstość normalna, o średniej 0. Dla k ³ 30 jego gęstość pokrywa się praktycznie z gęstością rozkładu normalnego N(0, 1).

Wiedząc, że zmienna T ma rozkład tn- 1 budujemy przedział ufności dla m analogicznie jak w sytuacji 1:

     

gdzie t1- a /2, n- 1 jest kwantylem rzędu 1- a /2 rozkładu t Studenta o n- 1 stopniach swobody. Interpretacja powyższego przedziału ufności pozostaje taka sama jak w przypadku, gdy odchylenie s było znane.

Uwaga

Jeśli n ³ 30, to przyjmujemy

     

Zadanie

Zanotowano czasy obsługi przy okienku kasowym (w minutach) 49 losowo wybranych klientów pewnego banku. Obliczono: średnią z próbki (min.) oraz wariancję z próbki s2=1,44 (min2.). Znaleźć 98% przedział ufności dla średniego czasu obsługi m, jeśli można założyć, że czas obsługi klienta przy okienku kasowym ma rozkład normalny.

Mamy:

98% przedział ufności dla m ma postać

Pytanie kontrolne

W ciągu pięciu losowo wybranych dni zaobserwowano następujące zużycia pewnego odczynnika w laboratorium chemicznym, w dag):

     4,8, 5,5, 6,2, 5,0, 6,5.

Wyznacz 90% przedział ufności dla średniego dziennego zużycia odczynnika w tym laboratorium, jeśli można przyjąć rozkład normalny dziennego zużycia odczynnika.

Zobacz odpowiedź

Potrzebą praktyczną równie częstą jak konieczność szacowania średniej w pewnej populacji jest sytuacja, gdy chcemy porównać średnie w dwóch populacjach i oszacować ich różnicę. Przeprowadzając badania nad nowym lekiem antycholesterolowym może interesować nas o ile obniża on poziom "złego" cholesterolu LDL w populacji pacjentów w porównaniu z tradycyjnie stosowanym lekiem. Niech m 1 będzie średnim poziomem cholesterolu LDL w populacji pacjentów po miesięcznym okresie używania starego leku, a m 2 będzie analogicznie określonym średnim poziomem w przypadku nowego leku. Sytuacja, gdy różnica m 1 - m 2 jest odpowiednio duża może być podstawą do wprowadzenia nowego leku na rynek. Oczywiście różnica m 1 - m 2 będzie szacowana przez różnicę średnich . Zajmiemy się teraz problemem, jak na podstawie różnicy skonstruować przedział ufności dla m 1 - m 2. Załóżmy, że obie rozpatrywane populacje mają rozkład normalny.


« poprzedni punkt  następny punkt »