« poprzedni punkt | następny punkt » |
Zajmiemy się teraz ważnym problemem jak na podstawie prostej próby losowej z pewnego nieznanego rozkładu przybliżyć ten rozkład. Dobrym narzędziem jest tutaj omówiony w wykładzie 1 histogram, ale zależy on od liczby przedziałów k, na które rozbijamy zbiór wartości i jego przechowywanie wymaga zapamiętania wartości histogramu na wszystkich tych przedziałach. Innym możliwym narzędziem jest tzw. Centralne Twierdzenie Graniczne, które mówi, że nawet jeśli rozpatrywany rozkład nie jest normalny, to rozkład średniej na podstawie prostej próby losowej z tego rozkładu będzie coraz bardziej przypominał rozkład normalny.
Twierdzenie (Centralne Twierdzenie Graniczne)
Niech X1, X2, ..., Xn będzie prostą próbą losową z rozkładu o średniej m i wariancji s 2 .
Wówczas dla dużych liczności próby n rozkład prawdopodobieństwa standaryzowanej średniej jest bliski standardowemu rozkładowi normalnemu N(0, 1), dokładniej, dla dowolnych - ¥ £ a < b £ ¥ zachodzi
przy n ®
¥. Równoważnie możemy powiedzieć, że rozkład średniej dla dużej liczności próby jest bliski rozkładowi normalnemu
Uwaga
Przy założeniach centralnego twierdzenia granicznego rozkład prawdopodobieństwa standaryzowanej sumy Sn = X1 + X2 + ... + Xn jest w przybliżeniu rozkładem normalnym, tzn.
Równoważnie, rozkład Sn jest bliski rozkładowi normalnemu
Dla zrozumienia w jaki sposób uwaga wynika z Centralnego Twierdzenia Granicznego wystarczy zauważyć:
Uwaga
Przybliżenie na ogół można stosować gdy n ³ 25.
Wniosek (Twierdzenie Moivre'a-Laplace'a, przybliżenie rozkładu dwumianowego rozkładem normalnym)
Jeśli Sn ~ Bin(n, p), to przy n ® ¥.
Dowód
Sn = X1 + X2 + ... + Xn, gdzie X1,X2,...,Xn jest próbą losową z rozkładu Bernoulli'ego Bin(1, p). Zatem m
= p,
Uwaga
Przybliżenie można stosować, gdy
np ³ 5, n(1- p) ³ 5.
Ponieważ p jest nieznane, w powyższym warunku zastępujemy go częstością próbkową. Wtedy mówi on, że liczność sukcesów i liczność porażek powinna wynosić co najmniej 5, aby rozkład dwumianowy można było przybliżać rozkładem normalnym.
Przykład
Załóżmy, że rozkład codziennego dojazdu do pracy jest w przybliżeniu rozkładem jednostajnym na przedziale [0,5 godz., 1 godz.] i że czasy dojazdów w różne dni robocze są niezależne. Obliczyć przybliżone prawdopodobieństwo zdarzenia, że średni dzienny dojazd w ciągu 30 dni przekroczy 0,8 godz.
Niech Xi oznacza czas dojazdu w i-tym dniu, i=1,2,...,30.
gdzie Z ma standardowy rozkład normalny.
Zadanie
Codzienne opóźnienie pociągu (w minutach) z Zalesia Górnego do Warszawy jest zmienną losową ciągłą o gęstości
a) Wyznacz stałą C.
b) Wyznacz dystrybuantę F(x), x Î (- ¥, ¥).
c) Oblicz prawdopodobieństwa P(X ³ 5), P(5 £ X £ 7).
d) Oblicz wartość oczekiwaną i wariancję codziennego opóźnienia pociągu.
e) Oblicz przybliżone prawdopodobieństwo, że łączne opóźnienie pociągu na tej trasie w ciągu 90 dni przekroczy 600 minut, jeśli opóźnienia w kolejnych dniach są niezależnymi zmiennymi losowymi.
b)
Zatem
c) P(X ³ 5) = 1 - F(5) = 1 − 25/100 = 0,75.
P(5 £ X £ 7) = F(7) - F(5) = 0,49 - 0,25 = 0,24.
d)
e) Niech S90 = X1 + X2 + ... + X90 oznacza łączny czas opóźnienia w ciągu 90 dni. X1,X2,...,Xn jest prostą próbą losową z rozkładu o gęstości takiej jak gęstość zmiennej X. Xi = opóźnienie i-tego dnia.
E(S90) = 90 ´ (20/3) = 600.
Var(S90) = 90 ´ (50/9).
Z Centralnego Twierdzenia Granicznego rozkład S90 jest bliski rozkładowi
Zatem
Przykład
Następująca metoda generacji przybliżonego rozkładu normalnego wykorzystuje Centralne Twierdzenie Graniczne. Jeśli Xi ma rozkład jednostajny na przedziale [0, 1], to wartość oczekiwana (średnia) tej zmiennej wynosi 1/2 a wariancja 1/12. Zatem średnia X1 + X2 + ... + X12 - 6 ma w przybliżeniu rozkład normalny N(0, 1) (okazuje się, że w przypadku regularnego rozkładu jakim jest rozkład jednostajny można już stosować CTG dla n=12). W celu wygenerowania np. 100 liczb z przybliżonego rozkładu normalnego generujemy 1200 liczb z rozkładu jednostajnego i dodajemy do siebie kolejne dwunastki, a następnie od wyników odejmujemy 6.
Poprawka w przybliżeniu normalnym
Jeśli zmienne losowe Xi w prostej próbie losowej przyjmują jedynie wartości całkowite, to otrzymamy lepsze przybliżenie rozkładem normalnym stosując Centralne Twierdzenie Graniczne (w szczególności twierdzenie Moivre'a-Laplace'a) z tzw. poprawką uwzględniającą fakt, że rozkład dyskretny sumy zmiennych Xi przybliżamy rozkładem ciągłym. Dokładniej zauważmy, iż dla całkowitych a i b mamy:
Równoważnie mamy:
Przykład
Załóżmy, że nowa szczepionka będzie testowana na 225 osobach. Producent ocenia jej skuteczność na 80%. Znajdziemy przybliżone prawdopodobieństwo, że
Niech S225 = X1 + X2 + ... + X225 będzie liczbą osób spośród 225 testowanych, które uzyskają odporność, gdzie X1, X2, ..., X225 jest prostą próbą losową z rozkładu Bernoulli'ego Bin(1, 0,8). Stąd m =E(X1)=0,8, s 2 = Var(X1) = 0,8´ 0,2 = 0,16, s = 0,4.
(b)
≈ P(- 1,58 £ Z £ 3,25) = F (3,25) - F (- 1,58) = F (3,25) - [1 - F (1,58)] =
= 1 - 1 + 0,9429 = 0,9429.
« poprzedni punkt | następny punkt » |