« poprzedni punkt  następny punkt »


3. ROZKŁAD ŚREDNIEJ Z PRÓBY LOSOWEJ

Zajmiemy się teraz ważnym problemem jak na podstawie prostej próby losowej z pewnego nieznanego rozkładu przybliżyć ten rozkład. Dobrym narzędziem jest tutaj omówiony w wykładzie 1 histogram, ale zależy on od liczby przedziałów k, na które rozbijamy zbiór wartości i jego przechowywanie wymaga zapamiętania wartości histogramu na wszystkich tych przedziałach. Innym możliwym narzędziem jest tzw. Centralne Twierdzenie Graniczne, które mówi, że nawet jeśli rozpatrywany rozkład nie jest normalny, to rozkład średniej na podstawie prostej próby losowej z tego rozkładu będzie coraz bardziej przypominał rozkład normalny.

Twierdzenie (Centralne Twierdzenie Graniczne)

Niech X1, X2, ..., Xn będzie prostą próbą losową z rozkładu o średniej m i wariancji s 2 .

Wówczas dla dużych liczności próby n rozkład prawdopodobieństwa standaryzowanej średniej jest bliski standardowemu rozkładowi normalnemu N(0, 1), dokładniej, dla dowolnych - ¥ £ a < b £ ¥ zachodzi

     

przy n ® ¥. Równoważnie możemy powiedzieć, że rozkład średniej dla dużej liczności próby jest bliski rozkładowi normalnemu

     

Uwaga

Przy założeniach centralnego twierdzenia granicznego rozkład prawdopodobieństwa standaryzowanej sumy Sn = X1 + X2 + ... + Xn jest w przybliżeniu rozkładem normalnym, tzn.

Równoważnie, rozkład Sn jest bliski rozkładowi normalnemu

Dla zrozumienia w jaki sposób uwaga wynika z Centralnego Twierdzenia Granicznego wystarczy zauważyć:

     

Uwaga

Przybliżenie na ogół można stosować gdy n ³ 25.

Wniosek (Twierdzenie Moivre'a-Laplace'a, przybliżenie rozkładu dwumianowego rozkładem normalnym)

Jeśli Sn ~ Bin(n, p), to przy n ® ¥.

Dowód

Sn = X1 + X2 + ... + Xn, gdzie X1,X2,...,Xn jest próbą losową z rozkładu Bernoulli'ego Bin(1, p). Zatem m = p, s 2 = p(1- p). Po podstawieniu do Centralnego Twierdzenia Granicznego (krócej: CTG) otrzymujemy tezę.

Uwaga

Przybliżenie można stosować, gdy

np ³ 5, n(1- p) ³ 5.

Ponieważ p jest nieznane, w powyższym warunku zastępujemy go częstością próbkową. Wtedy mówi on, że liczność sukcesów i liczność porażek powinna wynosić co najmniej 5, aby rozkład dwumianowy można było przybliżać rozkładem normalnym.

Przykład

Załóżmy, że rozkład codziennego dojazdu do pracy jest w przybliżeniu rozkładem jednostajnym na przedziale [0,5 godz., 1 godz.] i że czasy dojazdów w różne dni robocze są niezależne. Obliczyć przybliżone prawdopodobieństwo zdarzenia, że średni dzienny dojazd w ciągu 30 dni przekroczy 0,8 godz.

Niech Xi oznacza czas dojazdu w i-tym dniu, i=1,2,...,30.

gdzie Z ma standardowy rozkład normalny.

Zadanie

Codzienne opóźnienie pociągu (w minutach) z Zalesia Górnego do Warszawy jest zmienną losową ciągłą o gęstości

     

a) Wyznacz stałą C.

b) Wyznacz dystrybuantę F(x), x Î (- ¥, ¥).

c) Oblicz prawdopodobieństwa P(X ³ 5), P(5 £ X £ 7).

d) Oblicz wartość oczekiwaną i wariancję codziennego opóźnienia pociągu.

e) Oblicz przybliżone prawdopodobieństwo, że łączne opóźnienie pociągu na tej trasie w ciągu 90 dni przekroczy 600 minut, jeśli opóźnienia w kolejnych dniach są niezależnymi zmiennymi losowymi.

b)

Zatem

c) P(X ³ 5) = 1 - F(5) = 1 − 25/100 = 0,75.

P(5 £ X £ 7) = F(7) - F(5) = 0,49 - 0,25 = 0,24.

d)

e) Niech S90 = X1 + X2 + ... + X90 oznacza łączny czas opóźnienia w ciągu 90 dni. X1,X2,...,Xn jest prostą próbą losową z rozkładu o gęstości takiej jak gęstość zmiennej X. Xi = opóźnienie i-tego dnia.

     E(S90) = 90 ´ (20/3) = 600.

Var(S90) = 90 ´ (50/9).

Z Centralnego Twierdzenia Granicznego rozkład S90 jest bliski rozkładowi

Zatem

Przykład

Następująca metoda generacji przybliżonego rozkładu normalnego wykorzystuje Centralne Twierdzenie Graniczne. Jeśli Xi ma rozkład jednostajny na przedziale [0, 1], to wartość oczekiwana (średnia) tej zmiennej wynosi 1/2 a wariancja 1/12. Zatem średnia X1 + X2 + ... + X12 - 6 ma w przybliżeniu rozkład normalny N(0, 1) (okazuje się, że w przypadku regularnego rozkładu jakim jest rozkład jednostajny można już stosować CTG dla n=12). W celu wygenerowania np. 100 liczb z przybliżonego rozkładu normalnego generujemy 1200 liczb z rozkładu jednostajnego i dodajemy do siebie kolejne dwunastki, a następnie od wyników odejmujemy 6.

Poprawka w przybliżeniu normalnym

Jeśli zmienne losowe Xi w prostej próbie losowej przyjmują jedynie wartości całkowite, to otrzymamy lepsze przybliżenie rozkładem normalnym stosując Centralne Twierdzenie Graniczne (w szczególności twierdzenie Moivre'a-Laplace'a) z tzw. poprawką uwzględniającą fakt, że rozkład dyskretny sumy zmiennych Xi przybliżamy rozkładem ciągłym. Dokładniej zauważmy, iż dla całkowitych a i b mamy:

     

     

Równoważnie mamy:

Przykład

Załóżmy, że nowa szczepionka będzie testowana na 225 osobach. Producent ocenia jej skuteczność na 80%. Znajdziemy przybliżone prawdopodobieństwo, że

  1. pożądaną odporność uzyska co najwyżej 170 osób spośród 225 zaszczepionych,
  2. wśród 225-ciu zaszczepionych osób szczepionka będzie skuteczna dla więcej niż 170-ciu osób i mniej niż 200-tu osób.

Niech S225 = X1 + X2 + ... + X225 będzie liczbą osób spośród 225 testowanych, które uzyskają odporność, gdzie X1, X2, ..., X225 jest prostą próbą losową z rozkładu Bernoulli'ego Bin(1, 0,8). Stąd m =E(X1)=0,8, s 2 = Var(X1) = 0,8´ 0,2 = 0,16, s = 0,4.

  1. Wstawiając we wzorze (1) a = - ¥, b = 170, n = 100 mamy

     

(b)

≈ P(- 1,58 £ Z £ 3,25) = F (3,25) - F (- 1,58) = F (3,25) - [1 - F (1,58)] =

= 1 - 1 + 0,9429 = 0,9429.


« poprzedni punkt  następny punkt »