Autor: |
Salsabila Laily Rahma, Umar Taufiq |
Jazyk: |
English<br />Indonesian |
Rok vydání: |
2024 |
Předmět: |
|
Zdroj: |
Journal of Internet and Software Engineering, Vol 5, Iss 1 (2024) |
Druh dokumentu: |
article |
ISSN: |
2797-9016 |
DOI: |
10.22146/jise.v5i1.9073 |
Popis: |
Penggunaan Artificial Intelligence dengan teknik unsupervised learning dapat berguna dalam pendeteksian plagiarisme ide karena dapat mengidentifikasi kemiripan dan perbedaan antara dokumen teks tanpa memerlukan data berlabel atau pelatihan khusus. Plagiarisme ide melibatkan penyisipan ringkasan dari satu dokumen teks ke dalam dokumen teks lainnya, sehingga membuatnya sulit terdeteksi menggunakan metode pendeteksian plagiarisme standar. Metode yang dikembangkan dalam penelitian ini bertujuan untuk mengatasi permasalahan masalah dalam deteksi plagiarisme ide. Penelitian ini mengembangkan metode untuk deteksi plagiarisme ide dan menguji tingkat akurasi level dokumen dari metode yang dikembangkan. Metode yang dikembangkan ini menggunakan pendekatan baru dengan memanfaatkan library Python yang mengimplementasikan AI pada teknik unsupervised learning yaitu metode Yake sebagai algoritma pengekstrak kata kunci dan Sentence Transformer sebagai algoritma untuk menghitung kemiripan teks pada dataset PAN. Plagiarism Analysis, Authorship Identification, and Near-Duplicate Detection (PAN) adalah kumpulan data yang bersifat public dan secara khusus dikembangkan untuk penelitian dalam bidang pendeteksian plagiarisme. Dataset PAN yang digunakan dalam penelitian ini adalah dataset PAN13-14 summary obfuscation dengan sebuah ground truth yang menjadi acuan dalam pengukuran akurasi dari metode yang dikembangkan. Hasil penelitian menunjukkan bahwa metode Sentence Transformer dengan Yake pada threshold 0.1 memiliki akurasi tertinggi untuk kategori Plagiarized dengan nilai F-score pada dataset testing dan dataset training secara berturut-turut adalah 0.3175 dan 0.3217, sementara metode Sentence Transformer dengan threshold 0.6 memiliki akurasi tertinggi untuk kategori Non Plagiarized dengan nilai F-score pada dataset testing dan dataset training secara berturut-turut adalah 0.8905 dan 0.8907. |
Databáze: |
Directory of Open Access Journals |
Externí odkaz: |
|