Klasterisasi Berita Bahasa Indonesia Dengan Menggunakan K-Means Dan Word Embedding
Autor: | Humasak Tommy Argo Simanjuntak, Prince Ephraim Prabowo Silaban, Joshua Koko Sarasi Manurung, Venny Handayani Sormin |
---|---|
Jazyk: | indonéština |
Rok vydání: | 2023 |
Předmět: | |
Zdroj: | Jurnal Teknologi Informasi dan Ilmu Komputer, Vol 10, Iss 3, Pp 641-652 (2023) |
Druh dokumentu: | article |
ISSN: | 2355-7699 2528-6579 |
DOI: | 10.25126/jtiik.20231026468 |
Popis: | Jumlah berita atau dokumen yang sangat melimpah merupakan sumber pengetahuan yang sangat berharga dan dapat digunakan untuk memperoleh wawasan dalam pengambilan keputusan. Namun, pertumbuhan jumlah berita dengan dimensi yang tinggi menjadi sebuah tantangan besar, yang menyebabkan sulitnya informasi pada berita dikategorikan secara efisien dan cepat. Kesulitan ini semakin kompleks dengan tidak adanya kelas atau label pada berita tersebut. Analisis konten dari berita yang belum memiliki kelas atau label dapat dilakukan dengan pendekatan data mining. Salah satu metode data mining yang dapat digunakan untuk mengelompokkan berita tanpa label, jumlah yang besar, dan sulit dilakukan secara manual adalah klastering. Klastering teks adalah salah satu metode penambangan data yang bertujuan untuk mengelompokkan dokumen berdasarkan kesamaan atau kemiripan di antara teks. Penelitian ini memberikan pendekatan baru dalam mengelompokkan berita Bahasa Indonesia dengan metode klastering, dimana ekstraksi fitur dilakukan melalui pendekatan Neural Network (Word Embedding) yang dapat menunjukkan kesamaan antar kata untuk mempertahankan semantik dan konteks dari kata yang ada pada berita. Sumber data yang digunakan adalah berita dari portal berita “Tempo” yang terdiri dari 520863 berita. Hasil penelitian menunjukkan bahwa jumlah klaster k = 4, dengan parameter Word Embedding: min_count=1 dan embedding_size=300 memberikan nilai silhouette coefficient terbaik sebesar 0.73. Hasil klasterisasi berita divisualisasikan dalam bentuk dimensi yang berbeda dan visualisasi World Cloud untuk menganalisis dan mengevaluasi metode yang diusulkan pada penelitian ini. Abstract The enormous amount of news or documents is a precious source of knowledge and can be used to gain insight into decision-making. However, the growth in the number of news stories with high dimensions is a big challenge, making it difficult for information on the news to be categorized efficiently and quickly. This difficulty is further complicated by the absence of classes or labels on the news. Analysis of the content of news that does not yet have a class or label can be done with a data mining approach. The most used data mining method to group a tremendous amount of news without class labels is clustering. Text clustering is a data mining task that aims to group documents based on similarities. This study provides a new approach to classifying Indonesian news with the clustering method, where feature extraction is carried out through a Neural Network (Word Embedding) approach that can show similarities between words to maintain the semantics and context of the words in the news. The data source used is news from the news portal "Tempo," which consists of 5208063 news. The results showed that the number of clusters k = 4, with Word Embedding parameters: min_count=1 and embedding_size=300, produced the best silhouette coefficient value of 0.73. The results of news clustering were visualized in the form of different dimensions and World Cloud visualization to analyze and evaluate the proposed method. |
Databáze: | Directory of Open Access Journals |
Externí odkaz: |