« poprzedni punkt | następny punkt » |
W literaturze statystycznej można spotkać wiele sposobów czy też sugestii jak konstruować histogramy w zależności od liczby obserwacji (rozmiaru próbki). Podana poniżej metoda konstrukcji histogramów jest "dokładniejsza" (subtelniejsza) od wielu innych, gdyż w znacznej mierze zabezpiecza przed utratą zbyt dużej informacji o charakterze analizowanych danych. Wyróżnimy trzy etapy konstrukcji histogramu:
gdzie n jest licznością (rozmiarem) próbki, a IQR rozstępem międzykwartylowym charakteryzującym rozproszenie 50 % danych "środkowych" otrzymanych po odrzuceniu 25% najmniejszych i 25% największych obserwacji. Sposób obliczenia IQR podajemy w sekcji 1.6. h jest na ogół dobrze wybrane, gdy n ³ 50 oraz kształt histogramu zbliżony jest do "kształtu normalnego", tzn. gdy odcinki łączące górne podstawy słupków tworzą krzywą (tzw. łamaną częstości) zbliżoną do wykresu gęstości normalnej (opisanej w 2.2):
Dla 30 < n < 50, stosujemy 4 - 5 przedziałów.
Mała długość przedziału może powodować za dużą nieregularność histogramu, natomiast duża długość przedziału może spowodować za duże wygładzenie histogramu.
Przy ustaleniu kompromisu pomiędzy zbyt dużym wygładzeniem histogramu (zbyt dużą redukcją informacji o danych) a dużą nieregularnością histogramu pomocne są dodatkowe informacje o naturze obserwowanego zjawiska, np. obserwacje z kilku różnych populacji mogą dawać histogramy wielomodalne.
Rozróżniamy cztery typy histogramów:
Uwaga
Pole histogramu unormowanego, czyli suma pól słupków, wynosi 1. Rzeczywiście, przyjmując, że h jest długością przedziału, histogram ma K przedziałów, w każdym i-tym przedziale występuje ni obserwacji, i=1,...,K, pole histogramu unormowanego wynosi
Definicja
Łamaną częstości histogramu unormowanego nazywamy krzywą złożoną z linii łączących środki górnych podstaw słupków histogramu.
« poprzedni punkt | następny punkt » |