Popis: |
U ovom istraživanju je empirijski provjeren algoritam spektralnog grupiranja sa i bez određivanja broja grupa na zadatku grupiranja dokumenata prema jeziku. Grupirani su tekstovi na 12 jezika pomoću razdiobe n-grama kao značajki i kosinusne mjere udaljenosti razdioba. Spektralno grupiranje se temelji na grupiranju komponenata vlastitih vektora dobivenih spektralnom dekompozicijom matrice udaljenosti. U radu je predložena promjena uobičajnog algoritma na način da se slijedno koriste komponente jednog po jednog vlastitog vektora, što omogućuje i određivanje broja grupa. U istraživanju bez određivanja broja grupa pokazalo se da spektralno grupiranje omogućava bolje rezultate od hijerarhijskog grupiranja za dani uzorak (F1 = 0.972, nasuprot 0.843 kod hijerarhijskog). Usporedbom predložene metode bimodalnosti komponenata sa standardnom metodom određivanja broja grupa u spektralnom grupiranju – eigengap empirijski je dokazano da metoda bimodalnosti komponenata omogućuje veću točnost ukoliko se uzorak sastoji od većeg broja jezika (više od 6), dok je za manji broj jezika eigengap metoda pokazuje veću preciznost. Kako se za određivanje bimodalnosti koristi Hartiganova metoda, promjenom praga p vrijednosti koja je rezultat te metode možemo poboljšati rezultate za određeni broj grupa. Na kraju je pokazano da i primjena neke srednje p vrijednosti osigurava ukupne rezultate grupiranja koji su daleko bolji od donje granice istraživanja i usporedivi sa nadziranim metodama. |