« poprzedni punkt  następny punkt »


5. KONSTRUKCJA HISTOGRAMU

W literaturze statystycznej można spotkać wiele sposobów czy też sugestii jak konstruować histogramy w zależności od liczby obserwacji (rozmiaru próbki). Podana poniżej metoda konstrukcji histogramów jest "dokładniejsza" (subtelniejsza) od wielu innych, gdyż w znacznej mierze zabezpiecza przed utratą zbyt dużej informacji o charakterze analizowanych danych. Wyróżnimy trzy etapy konstrukcji histogramu:

  1. Początkowy wybór długości przedziałów:

    gdzie n jest licznością (rozmiarem) próbki, a IQR rozstępem międzykwartylowym charakteryzującym rozproszenie 50 % danych "środkowych" otrzymanych po odrzuceniu 25% najmniejszych i 25% największych obserwacji. Sposób obliczenia IQR podajemy w sekcji 1.6. h jest na ogół dobrze wybrane, gdy n ³ 50 oraz kształt histogramu zbliżony jest do "kształtu normalnego", tzn. gdy odcinki łączące górne podstawy słupków tworzą krzywą (tzw. łamaną częstości) zbliżoną do wykresu gęstości normalnej (opisanej w 2.2):

         

    Dla 30 < n < 50, stosujemy 4 - 5 przedziałów.

  2. Obserwujemy wpływ stopniowego zwiększania: a, a 2h, ... lub zmniejszania: a -1h,
    a -2h, ... (a >1, np. a =1,2 lub a = 1,5) długości przedziałów na kształt histogramu.

    Mała długość przedziału może powodować za dużą nieregularność histogramu, natomiast duża długość przedziału może spowodować za duże wygładzenie histogramu.

    Przy ustaleniu kompromisu pomiędzy zbyt dużym wygładzeniem histogramu (zbyt dużą redukcją informacji o danych) a dużą nieregularnością histogramu pomocne są dodatkowe informacje o naturze obserwowanego zjawiska, np. obserwacje z kilku różnych populacji mogą dawać histogramy wielomodalne.

  3. Początek histogramu dla ustalonej długości przedziałów wybieramy tak, żeby najmniejsza obserwacja stanowiła środek pierwszego przedziału. Uśredniając kilka histogramów o nieznacznie przesuniętych początkach można uniezależnić się od wpływu początku histogramu na jego kształt.

    Rozróżniamy cztery typy histogramów:

Uwaga

Pole histogramu unormowanego, czyli suma pól słupków, wynosi 1. Rzeczywiście, przyjmując, że h jest długością przedziału, histogram ma K przedziałów, w każdym i-tym przedziale występuje ni obserwacji, i=1,...,K, pole histogramu unormowanego wynosi

     

Definicja

Łamaną częstości histogramu unormowanego nazywamy krzywą złożoną z linii łączących środki górnych podstaw słupków histogramu.


« poprzedni punkt  następny punkt »