następny punkt »


1. WPROWADZENIE

W kolejnych wykładach poznamy podstawy analizy danych obejmujące: statystykę opisową, modelowanie probabilistyczne oraz wnioskowanie statystyczne. Dziedziny te przedstawimy krótko poniżej, a następnie zilustrujemy prostym przykładem.

  1. Statystyka opisowa stanowi zbiór technik wstępnej analizy danych, którymi są różne sposoby prezentacji danych poprzez tabele, wykresy, wskaźniki sumaryczne (parametry liczbowe obliczane dla danych). Celem tych technik jest opis danych w zwięzłej formie, odzwierciedlający pewne ich cechy będące przedmiotem zainteresowania (np. średni dochód, średnie zużycie paliwa, ...), przedstawiający różnego rodzaju regularności (lub nieregularności) ukryte w danych, zależności między podzbiorami danych.

  2. Modelowanie probabilistyczne obejmuje konstrukcję modeli zjawisk losowych, badanie ich własności oraz opis mechanizmów losowych zgodnie z którymi dane mogą być generowane, przy użyciu narzędzi rachunku prawdopodobieństwa.

  3. Wnioskowanie statystyczne obejmuje sposoby wyciągania wniosków na temat interesujących nas cech badanego zjawiska losowego na podstawie danych otrzymanych z obserwacji tego zjawiska i w oparciu o przyjęty model probabilistyczny oraz analizę jego wiarogodności.

Rachunek prawdopodobieństwa i statystyka opisowa tworzą narzędzia dla wnioskowania statystycznego, którego ostatecznym celem w praktyce jest podejmowanie rozsądnych, wiarygodnych decyzji w warunkach niepewności (losowości) zjawisk.

Tradycyjnie, w literaturze terminem statystyka określamy statystykę opisową i wnioskowanie statystyczne.

Reasumując, statystyka jako zbiór metod dla gromadzenia, prezentacji, analizy i interpretacji danych w celu podejmowania decyzji w warunkach niepewności znajduje niezwykle szerokie zastosowania w takich dziedzinach jak: ubezpieczenia, finanse, bankowość, nauki społeczne, medyczne, przyrodnicze, ekonomia, przemysł, usługi, handel, informatyka (bazy danych, wyszukiwanie wiedzy w bazach danych, testowanie systemów informacyjnych i sieci komputerowych, przetwarzanie obrazów).

Przykład

W trzydziestu rzutach kostką sześcienną otrzymano liczby oczek:

3 5 6 1 4 6 2 3 5 6 2 6 5 3 5 6 5 1 2 4 3 6 1 1 2 1 3 3 4 6.

(1) Syntetyczny opis obserwacji w postaci poniższej tabeli i diagramu liczebności uzyskanych liczb oczek należy do zadań statystyki opisowej:

Liczba rzutów

1

2

3

4

5

6

Liczba rzutów o danej liczbie oczek

5

4

6

3

5

7

Diagram liczebności przedstawia rys. 1.1.

Rys. 1.1. Diagram liczebności.

Przykładem parametru liczbowego opisującego dane jest średnia liczba wyrzuconych oczek (jeden ze wskaźników sumarycznych) równa

     (1×5+2×4+3×6+4×3+5×5+6×7) / 30 = 3,67.

(2) Model probabilistyczny przeprowadzonego doświadczenia losowego otrzymamy, jeśli przyjmiemy, że szansa (prawdopodobieństwo) wyrzucenia dowolnej liczby oczek i, i = 1, 2, 3, 4, 5, 6, jest jednakowa i wynosi 1/6 oraz że rzuty są niezależne.

(3) Do zadań wnioskowania statystycznego należą poniższe zagadnienia:

Czy na podstawie danych (liczby wyrzuconych oczek) można podejrzewać, że kostka nie jest regularna? Jeśli tak, to jak ocenić szanse wyrzucenia poszczególnych liczb.

Diagram na rys. 1.2 przedstawia procentowy udział liczby wyrzuconych oczek dla rzutów inną kostką sześcienną. Czy można odrzucić stwierdzenie, że ta kostka jest regularna? Jak porównać obie kostki? Poznamy później odpowiedzi na tego typu pytania. Na razie możemy przypuszczać, że szanse wyrzucenia większej liczby oczek (np. 5, 6) w przypadku drugiej kostki są większe niż mniejszej liczby oczek (np. 1, 2).

Rys. 1.2. Diagram liczebności w procentach.

Podobne pytania występują w zadaniach testowania automatów do gry. Załóżmy, że automat do gry powinien losować z jednakowym prawdopodobieństwem liczby od 1 do 6. Czy na podstawie danych, które przedstawia diagram na rys. 1.2, można stwierdzić, że automat jest rozregulowany? Pytanie to ma duże znaczenie przy testowaniu tzw. maszyn losujących.


 następny punkt »