Implementasi Cosine Similarity untuk Peningkatan Akurasi Pengukuran Kesamaan Dokumen pada Klasifikasi Dokumen Berita dengan K Nearest Neighbour

Firdaus Firdaus, Pasnur Pasnur, Wabdillah Wabdillah

Abstract


Klasifikasi dokumen berita secara otomatis menggunakan komputer diusulkan agar lebih efisien dalam memproses dokumen dalam jumlah banyak. Metode klasifikasi K-Nearest Neighbour yang menggunakan Euclidean Distance sebagai metode pengukuran kesamaan dokumen kurang akurat karena dipengaruhi oleh panjang dokumen. Dokumen yang mirip tetapi memiliki panjang dokumen yang berbeda mungkin memiliki nilai jarak yang tinggi. Tujuan penelitian ini adalah mengimplementasikan Cosine Similarity untuk meningkatkan akurasi pengukuran kesamaan dokumen pada klasifikasi dokumen berita dengan metode K-Nearest Neighbor. Pada penelitian ini diusulkan Cosine Similarity sebagai metode pengukuran kesamaan dokumen berita. Cosine Similarity menghitung kesamaan antar dua buah dokumen berdasarkan besar sudut cosinus. Hasil penelitian menunjukkan bahwa implementasi Cosine Similarity dapat meningkatkan akurasi pengukuran kesamaan dokumen pada klasifikasi dokumen berita dengan metode K-Nearest Neighbour. Rata-rata akurasi metode K-Nearest Neighbour dengan Cosine Similarity adalah 98,12%, sedangkan akurasi metode K-Nearest Neighbour dengan Euclidean Distance  adalah 56,51%.


Keywords


Cosine Similarity; Euclidean Distance; K-Nearest Neighbour; Text Classification

Full Text:

PDF (Indonesian)

References


Apte, C., Damerau, F., Sholom, M., & Weiss. (1994). Automated Learning of Decision Rules for Text Categorization. ACM Transactions on Information Systems (TOIS), 12(3), 233–251.

Chen, R. C., & Hsieh, C. H. (2006). Web Page Classification Based on a Support Vector Machine using a Weighted Vote Schema. Expert Systems with Applications, 31(2), 427–435.

Chouni, Y., Erritali, M., Madani, Y., & Ezzikouri, H. (2019). Information Retrieval System based Semantique and Big Data. Procedia Computer Science, 151, 1108–1113. https://doi.org/10.1016/j.procs.2019.04.157

Frank, E., & Bouckaert, R. (2006). Naive Bayes for Text Classification with Unbalanced Classes. Knowledge Discovery in Databases, 503–510.

Guo, G., Wang, H., & Bell, D. (2004). KNN Model-Based Approach and Its Application in Text Categorization. Computational Linguistics and Intelligent Text Processing, LNCS, 559–570.

Jiang, S., Pang, G., Wu, M., & Kuang, L. (2012). An Improved K-Nearest-Neighbor Algorithm for Text Categorization. Expert Systems with Applications, 39(1), 1503–1509. https://doi.org/10.1016/j.eswa.2011.08.040

Lu, Y., He, H., Zhao, H., Meng, W., & Yu, C. (2013). Annotating Search Results from Web Databases. IEEE Transactions on Knowledge and Data Engineering, 25(3), 514–527. https://doi.org/10.1109/TKDE.2011.175

Nurdiana, O., Jumadi, J., & Nursantika, D. (2016). Perbandingan Metode Cosine Similarity dengan Metode Jaccard Similarity pada Aplikasi Pencarian Terjemah Al-Qur’an dalam Bahasa Indonesia. Jurnal Online Informatika (JOIN), 1(1), 59–63. Retrieved from https://doi.org/10.1177/0194599811409862

Pasnur, P., Santika, P. P., & Syaifuddin, G. N. (2014). Semantic Clustering dan Pemilihan Kalimat Representatif untuk Peringkasan Multi Dokumen. Jurnal Teknologi Informasi Dan Ilmu Komputer, 1(2), 91–97. Retrieved from http://jtiik.ub.ac.id/index.php/jtiik/article/view/117

Ruiz, M., & Srinivasan, P. (2002). Hierarchical Text Categorization using Neural Networks. Information Retrieval, 5(1), 87–118.

Tan, S. (2008). An Improved Centroid Classifier for Text Categorization. Expert Systems with Applications, 35(1), 279–285.

Wahib, A., Pasnur, P., Santika, P. P., & Arifin, A. Z. (2015). Perangkingan Dokumen Berbahasa Arab Menggunakan Latent Semantic Indexing. Jurnal Buana Informatika, 6(2), 83–92. Retrieved from https://ojs.uajy.ac.id/index.php/jbi/article/view/411

Zhang, J., Feng, S., Li, D., Gao, Y., Chen, Z., & Yuan, Y. (2017). Image Retrieval Using The Extended Salient Region. Information Sciences, 399, 1339–1351. https://doi.org/10.1016/j.ins.2017.03.005


DOI http://dx.doi.org/10.35585/inspir.v9i1.2496
Abstract 30 kali dilihat
PDF (Indonesian) 8 kali diunduh

Refbacks

  • There are currently no refbacks.



Lisensi Creative Commons
Ciptaan disebarluaskan di bawah Lisensi Creative Commons Atribusi-NonKomersial-BerbagiSerupa 4.0 Internasional.