Popis: |
Na classificação de documentos, são vários os estudos já realizados, sobretudo através da classificação supervisionada. Existem em menor número também alguns que usam classificação não supervisionada. Na classificação supervisionada, tendo cada documento a etiqueta (label) correspondente à classe/tópico a que pertence, está facilitado o processo de classificação, o que permite em geral melhores resultados, em termos de Precisão e Recall, quando comparados com os obtidos pela opção ’não supervisionada’. No entanto, existe uma limitação forte: a classificação de novos elementos está limitada às classes indicadas na fase de treino através da etiqueta, sendo que o sistema não consegue aprender novas classes a não ser por essa indicação explícita. Considerando a alternativa da classificação não supervisionada, onde não existe a indicação explícita da classe, o desafio consiste sobretudo em detetar/minerar que grupos/ classes de tópicos principais estão implícitos nos dados, isto é, nos documentos caracterizados pelos seus atributos (features). Desta forma poder-se-ão aprender de forma dinâmica novas classes, desde que estejam implícitas nos dados, isto é, desde que as features sejam suficientemente caracterizadoras. Um dos objetivos desta dissertação foi a elaboração de um sistema capaz de receber um conjunto de documentos e agrupá-los por tópicos, tendo em conta o seu conteúdo. Um segundo objectivo consistiu em identificar os tópicos/subtópicos principais de cada grupo e também classificar novos documentos de acordo com o que foi aprendido na fase de treino. O trabalho envolveu a selecção e redução de features, a construção dos grupos (clustering) e a classificação propriamente dita. In document classification, there are several studies that have been done, mostly using the supervised classification. There are also some approaches using the unsupervised classification. In supervised classification, with each document having the label corresponding to the class / topic to which it belongs, the classification process is facilitated, which generally allows better results, in terms of Precision and Recall, when compared with those chosen by the option “unsupervised". However, there is a strong limitation: the classification of new elements is limited to the classes indicated in the training phase through the label, and the system is unable to learn new classes except for this explicit indication. Based on the alternative of unsupervised classification, where there is no explicit indication of the class, the challenge consists mainly in detecting/mining which groups/classes of main topics are implicit in the data, in other words, in the documents characterized by their attributes. In this way, new classes can be dynamically learned, as long as they are implicit in the data, in other words, as long as the features are sufficiently characterizing. One of the goals of this dissertation was the development of a system capable of receiving a set of documents and group them by topics, based on their content. Another goal was to identify topics/subtopics of each group and also classify new documents according to what was learned in the training phase. The work involved the selection and reduction of features, the construction of groups (clustering) and a classification itself. |