Zadanie 1--4 (alternatywa C, 12 punktów)
Zgromadzić artykuły z kilku dziedzin, np. konkretna dyscyplina sportowa, kino, recencje książek. W obrębie każdej kategorii stworzyć histogramy wystąpień poszczególnych słów w artykułach. Stosując własne (rozsądne) kryterium "ważności" słowa, stworzyć jeden słownik słów istotnych dla wybranych kategorii.
Wykorzystując słownik utworzony w ten sposób, na podstawie artykułów stworzyć zbiór uczący postaci:
nrArtykułu liczbaWystąpieńSłowa1zeSłownika liczbaWystąpieńSłowa2zeSłownika ... liczbaWystąpieńSłowaNzeSłownika kategoria
np.:
A19 4 3 ... 2 sport
A20 0 0 ... 7 kino
A21 2 1 ... 4 kino
. . . ... . ........
. . . ... . .....
. . . ... . ...........
Przykładowo w artykule A19 pierwsze słowo pojawiło się 4 razy, drugie zaś 3 a ostatnie 2. Artykuł A19 należał do kategorii "sport".
Dla otworzonego w ten sposób zbioru uczącego, w miarę potrzeby wykonaj dyskretyzację poszczególnych atrybutów i wykorzystując klasyfikator Bayesa spróbuj zaklasyfikować nieznane artykuły.