Kategorisasi Berita Menggunakan Metode Pembobotan TF.ABS dan TF.CHI
DOI:
https://doi.org/10.21108/INDOJC.2018.3.2.236Abstract
Dengan kemajuan teknologi saat ini, berita dapat ditemukan dengan mudah dan berjumlah sangat banyak dalam bentuk digital yang menyebabkan diperlukannya suatu teknik untuk mengkategorikan berita-berita tersebut ke dalam topik tertentu agar mempermudah pembaca menemukan berita sesuai dengan topik yang diinginkan. Kategorisasi teks merupakan suatu teknik yang dapat mengkategorikan berita ke dalam topik yang telah ditentukan secara otomatis. Salah satu proses yang penting dalam kategorisasi adalah ekstraksi fitur yang mana unigram binary merupakan salah satu ekstraksi fitur yang dasar dibandingkan dengan term weighting yang dalam penelitian ini akan menggunakan metode pembobotan TF.ABS dan TF.CHI untuk memperoleh hasil kategorisasi berita yang optimal. Berdasarkan hasil pengujian, rata-rata akurasi yang didapatkan dari tiga sumber data pada ekstraksi fitur unigram binary sebesar 90.44%. Sedangkan pada metode pembobotan TF.ABS sebesar 95.74% dan TF.CHI sebesar 95.87%. Berdasarkan hasil akurasi tersebut, dapat disimpulkan bahwa term weighting lebih baik dibandingkan dengan unigram binary. Metode pembobotan TF.ABS dan TF.CHI sama-sama baik dalam kategorisasi karena tidak berbeda secara signifikan dalam performansinya. Pada hasil pengujian lainnya menunjukkan bahwa proses stemming tidak memberikan banyak pengaruh terhadap akurasi kategorisasi berita, namun proses ini dapat mengefisiensikan waktu hingga 45%.Downloads
References
A. Basu, C. Watters, and M. Shepherd. Support Vector Machines for Text Categorization. IEEE, 2003.
F. Ismail. Examining Learning Algorithms for Text Classification in Digital Libraries. Department of Alfa-Informatica,
University of Groningen. Netherland, 2004.
T. Christoph and X. Fei. A phrase-based unigram model for statistical machine translation. Association for Computational
Linguistics Stroudsburg, PA, USA, 2003.
E. Putri N Kianiseta. Analisis Perbandingan Metode Pembobotan TF.CHI2 dan TF.RF Terhadap Kategorisasi Teks Berbahasa
Indonesia. Universitas Telkom, 2014.
M. Liliam Ayako and E. Nelson Francisco Favilla. Term Weighting Approaches for Text Categorization Improving. IEEE,
Y. Yiming and L. Xin. An Re-examination of Text Categorization. ACM New York, NY, USA, 1999.
W. Ziqiang, S. Xia, and Z. Dexian. An Optimal Text Categorization Algorithm Based on SVM. IEEE, 2007.
M. Liliam Ayako. An Automated Text Categorization Methodology to Distribute the Bills to the Commettees at the Federal
Distric Legislative Assembly. Dept of Civil Engineering, COPPE/Federal University of Rio de Janeiro, 2007.
A. Thopo Martha. Analisis Perbandingan Metode Pembobotan Kata TF.IDF dan TF.RF Terhadap Performansi Kategorisasi
Teks. Universitas Telkom, 2012.
G. Derek and C. Padraig. Practical Solutions to the Problem of Diagonal Dominance in Kernel Document Clustering. ICML,
Z. Xiang, Z. Junbo, and L. Yann. Character-level Convolutional Networks for Text Classification. NIPS, 2015.
M. Christopher D., R. Prabhakar, and S. Hinrich. Introduction to Information Retrieval. Cambridge University Press, 2008.
N. Nadia. Intelligent Text Categorization and Clustering. Berlin: Springer, 2009.
M. Liliam Ayako and E. Nelson Francisco Favilla. Two Novel Weighting for Text Categorization. WITPress, 2008.
T. Tokunaga and I. Makoto. Text Categorization Based On Weighted Inverse Document Frequency. Tokyo, Japan: Tokyo
Institute of Technology, 1994.
S. Catur and Affandy. Kombinasi Teknik Chi Square dan Singular Value Decomposition Untuk Reduksi Fitur Pada
Pengelompokan Dokumen. Melaka, Malaysia : Universitas Teknikal Malaysia, 2011.
Y. Sanjay and S. Sanyam. Analysis of k-Fold Cross-Validation over Hold-Out Validation on Colossal Datasets for Quality
Classification. IEEE, 2016.
Downloads
Additional Files
Published
How to Cite
Issue
Section
License
- Manuscript submitted to IndoJC has to be an original work of the author(s), contains no element of plagiarism, and has never been published or is not being considered for publication in other journals.Â
- Copyright on any article is retained by the author(s). Regarding copyright transfers please see below.
- Authors grant IndoJC a license to publish the article and identify itself as the original publisher.
- Authors grant IndoJC commercial rights to produce hardcopy volumes of the journal for sale to libraries and individuals.
- Authors grant any third party the right to use the article freely as long as its original authors and citation details are identified.
- The article and any associated published material is distributed under the Creative Commons Attribution 4.0License