« poprzedni punkt  następny punkt »


4. METODY OPISU DANYCH ILOŚCIOWYCH

Poznamy wykresy, przy pomocy których w zwartej graficznej formie przedstawiane są dane ilościowe skalarne. Są to: diagramy, histogramy i łamane częstości.

Przykład

W stu kolejnych rzutach kostką sześcienną otrzymano wyniki (próbkę cechy dyskretnej o liczności 100):

5 2 2 6 3 2 5 3 1 2 5 3 6 2 5 4 4 6 1 6 4 5 5 2 4 6 1 4 4 3 4 2 4 2 4 4 1 1 4 5 3 1 5 6 5 6 1 5 6 2 4 5 5 2 5 4 5 5 1 1 2 2 5 5 2 6 3 5 5 4 1 4 5 5 1 4 3 2 1 2 6 1 2 1 6 5 1 3 6 1 5 6 6 2 2 3 5 5 2 4

Zwięzły opis próbki stanowi rozkład cechy w próbce, tzn. zapisanie jakie wartości wystąpiły w próbce i ile razy, lub z jaką częstością. W przykładzie rozkład liczby oczek w próbce zapiszemy:

Wartość (liczba oczek)

1

2

3

4

5

6

Liczność (liczba wystąpień)

16

19

9

17

25

14

Częstość

0,16

0,19

0,09

0,17

0,25

0,14

Uwaga

Straconą informacją jest kolejność wystąpień poszczególnych wartości. W przykładzie (przy domyślnym założeniu, że kostka jest regularna, tzn. szansa wyrzucenia każdej liczby oczek wynosi 1/6 oraz, że rzuty są niezależne) jest to informacja nieistotna.

Intuicyjnie przeczuwamy, że dla oceny szans otrzymania poszczególnych wartości istotne są jedynie liczby ich wystąpień. Wymaga to jednak uzasadnienia przy pomocy odpowiedniego modelu probabilistycznego.

Rysunki 1.8 i 1.9 przedstawiają diagramy liczebności i częstości wystąpień poszczególnych liczb oczek - od 1 do 6.

Rys. 1.8. Diagram liczebności.

Rys. 1.9. Diagram częstości.

Definicja (rozkładu cechy ilościowej w próbce)

Niech zaobserwowanymi wartościami cechy ilościowej będą x1, x2, ... , xn a y1 < ... < yk niech oznaczają różne uporządkowane wartości spośród nich. Niech ni oznacza liczbę powtórzeń yi w próbce, i=1,...,k. Rozkładem cechy w próbce ( rozkładem empirycznym) nazywamy ciąg par (y1,n1/n), ... , (yk,nk/n). Ciąg par (y1,n1), ... , (yk,nk) nazywamy rozkładem liczności cechy w próbce.

W naszym przykładzie tabela podaje rozkład liczności i rozkład empiryczny liczby oczek w próbce. W następnym przykładzie poznamy zwięzły sposób opisu danych przy pomocy zgrupowania ich w rozłączne klasy (przedziały). Na podstawie danych zgrupowanych można je przedstawić graficznie w postaci histogramu.

Przykład

Zanotowano wiek 25-ciu osób, które ubezpieczyły się w III filarze emerytalnym w pewnym zakładzie pracy. Otrzymano próbkę:

30, 49, 33, 35, 37, 20, 31, 30, 36, 46, 39, 40, 38, 41, 35, 37, 24, 27, 36, 43, 45, 25, 32, 29, 28.

W próbce jest 21 różnych wartości, stąd też diagram rozkładu lat dla niej nie byłby czytelny. Dokonamy agregacji danych wybierając przedziały wiekowe i grupując zaobserwowane liczby lat w tych przedziałach. Przedziały powinny pokryć wszystkie obserwacje. Najmłodsza osoba ma 20 lat, a najstarsza 49 lat, więc można przyjąć następujące przedziały:

[18,23), [23,28), [28,33), [33,38), [38,43), [43,48), [48,53)

Otrzymany podział próbki:

Przedział
(klasa)

Obserwacje

Liczność

Częstość

[18,23)

20

1

1/25 = 0,04

[23,28)

24, 27, 25

3

3/25 = 0,12

[28,33)

30, 30, 31, 32, 29, 28

6

6/25 = 0,24

[33,38)

33, 35, 37, 36, 35, 37, 36

7

7/25 = 0,28

[38,43)

39, 40, 38, 41

4

4/25 = 0,16

[43,48)

43, 45, 46

3

3/25 = 0,12

[48,53)

49

1

1/25 = 0,04

Na podstawie powyższej tabeli liczności i częstości obserwacji w klasach (w literaturze statystycznej nazywanej często szeregiem rozdzielczym) można sporządzić histogram liczności lub częstości. Rysunek 1.10 przedstawia histogram częstości wyrażonej w procentach.

Rys. 1.10. Histogram częstości wyrażonej w procentach.

Na osiach poziomych zaznaczone są granice klas wiekowych (przedziałów), a wysokości słupków stanowią procentowy udział każdej klasy w próbce, to znaczy

Wysokość słupka = częstość klasy ´ 100%.

Pole słupka = długość przedziału ´ częstość ´ 100

W przypadku histogramu liczebności (częstości) wysokość słupka jest licznością klasy (częstością klasy).

Na podstawie histogramu częstości (lub szeregu rozdzielczego) obliczmy częstość pracowników mających:

Kształt naszego histogramu jest w przybliżeniu symetryczny, posiada jedno maksimum, tzw. modę (przedział, dla którego wysokość słupka jest największa, zatem zawierający najwięcej obserwacji w próbce). Histogram nazywamy jednomodalnym, jeśli ma jedną modę.

Histogram wielomodalny posiada wiele maksimów lokalnych - przedziałów o lokalnych maksimach częstości (liczności), otrzymywany często, gdy obserwacje pochodzą z kilku różnych populacji. Kształt histogramu zależy od wyboru początkowego przedziału i długości przedziałów (na ogół jednakowej).

Przykład

Histogramy na rys. 1.11, 1.12 i 1.13 sporządzono dla próbki o liczności 100 zawierającej ceny pewnego produktu (w zł) w wybranych sklepach.

Niech h0= początek pierwszego przedziału, h1 = koniec ostatniego przedziału. Liczba klas = 8.

Rys. 1.11: h0 = 70 (zł.), h1 = 135 (zł.). Są 2 mody - przedział 6-ty i 1-szy.

Rys. 1.12: h0 = 70 (zł.), h1 = 130 (zł.). Są 3 mody - przedziały 1-szy, 4-ty i 7-my.

Rys. 1.13: h0 = 65 (zł.), h1 = 130 (zł.). Są 3 mody - przedziały 2-gi, 4-ty, 7-my.

Czasem dodatkowa informacja pomaga przy wyborze histogramu - np. gdyby ceny produktu pochodziły ze sklepów w 3 różnych miastach histogram z rys. 1.13 prawdopodobnie "odzwierciedlałby" próbkę "najlepiej" (wskazywałby na 3 podpróbki - cen w różnych miastach kształtujących się w różnych zakresach wartości).

Rys. 1.11. Histogram dla h0 = 70, h1 = 135.

Rys. 1.12. Histogram dla h0 = 70, h1 = 130.

Rys. 1.13. Histogram dla h0 = 65, h1 = 130.

Przykład

Rozważmy dwa histogramy, na rys. 1.14 i 1.15, zbudowane dla próbki stu losowo wybranych liczb z przedziału (0,1).

Rys. 1.14. Histogram o 20 przedziałach o jednakowej długości h=0,05.

Rys. 1.15. Histogram o 6 przedziałach o jednakowej długości h=0,167.


« poprzedni punkt  następny punkt »