Abstract

The human need for technology and the availability of adequate infrastructure is evidence that technology is now a part of basic human needs. The increasing number of journals and scientific papers, it must be more selective in selecting and sorting even though there are already many online service providers and journal portals. Research on search engines and plagiarism and recommendation systems has been carried out with various methods deemed appropriate to improve the performance of the system itself, this paper has the purpose of calculating the similarity between one article with another article by implementing n-gram and tanimoto cosine. The number of articles tested was forty-three titles and abstracts, tested fifty times with randomly selected keywords, by breaking down each title and abstract sentence into n characters (n = 2 to 8) including spaces and punctuation, then counted similarity with the query or keyword used for system testing. The test was conducted using several threshold variations from n = 2 to 8. After observing fifty times the threshold test of 0.15 has the highest accuracy at n = 4 at 0.92, the highest precision at n = 3 at 0.42 and the highest recall at the test n = 2 = 0.44 .

Highlights

  • Perkembangan teknologi memiliki dampak yang sangat signifikan dalam kehidupan sehari-hari, mulai dari kegiatan yang sederhana hingga kegiatan yang membutuhkan tingkat ketelitian yang tinggi

  • appropriate to improve the performance of the system itself, this paper has the purpose of calculating the similarity

  • keyword used for system testing

Read more

Summary

Introduction

Perkembangan teknologi memiliki dampak yang sangat signifikan dalam kehidupan sehari-hari, mulai dari kegiatan yang sederhana hingga kegiatan yang membutuhkan tingkat ketelitian yang tinggi. Kegiatan yang umum dilakukan oleh sebuah instansi adalah kegiatan pengarsipan dokumen, baik dokumen dalam bentuk fisik maupun elektronik. Umumnya kegiatan pengarsipan melibatkan dokumen dengan jumlah yang cukup besar, sehingga diperlukan suatu metode yang praktis dan efisien dalam pengelolaanya. Salah satu metode yang digunakan dalam pengelolaan dokumen adalah pengklasteran atau pengklasifikasian dokumen. Pencarian suatu dokumen dalam kumpulan dokumen yang sesuai dengan kebutuhan bukan hal yang mudah untuk dilakukan. Pengguna harus mencari satu persatu, membaca setiap dokumen, dan menganalisis apakah dokumen tersebut sesuai dengan yang dibutuhkan atau tidak [1]. Untuk melakukan semuanya itu membutuhkan waktu yang lama dan tidak efisien. Information Retrieval merupakan proses pemisahan dokumen dari sekumpulan dokumen untuk menentukan dokumen mana yang harus diambil agar dapat memenuhi kebutuhan user akan informasi[2].

Methods
Results
Conclusion
Full Text
Paper version not known

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

Disclaimer: All third-party content on this website/platform is and will remain the property of their respective owners and is provided on "as is" basis without any warranties, express or implied. Use of third-party content does not indicate any affiliation, sponsorship with or endorsement by them. Any references to third-party content is to identify the corresponding services and shall be considered fair use under The CopyrightLaw.