Abstract

Scientific journals develop very rapidly along with the development of science. Reporting from labs.semanticscholar.org/corpus, the number of scientific journals has reached over 39 million. The large number of scientific journals makes it challenging to grouping scientific journals. Grouping become more difficult because each scientific journal can have more than one topic. Therefore, special methods are needed to group the scientific journals.One of the well-known topic modeling methods is Latent Dirichlet Allocation (LDA). This research is an implementation of the LDA algorithm to do topic modeling in scientific journals. The topic modeling in this study uses the title as a corpus. Various titles are processed into bag of words in the pre-processing process so that they can be used to distribute. The results of the distribution stage are used for sampling with the Gibbs Sampling method. Through the sampling process, testing can also be done to determine the optimal parameters. The testing in this study used perplexity to find the most optimal number of iterations and topics. The result from this research are that LDA Algorithm successfully performs topic modeling in scientific journals by generating a list of keywords for each topic and grouping documents on each topic. The optimal parameters based on the results of perplexity comparison are 3 topics and 500 iterations.

Highlights

  • Saat ini, jumlah jurnal ilmiah meningkat pesat seiring dengan perkembangan ilmu pengetahuan

  • it challenging to grouping scientific journals

  • difficult because each scientific journal can have more than one topic

Read more

Summary

LANDASAN TEORI

Topic Modeling Pemodelan topik adalah teknik yang digunakan untuk menganalisis distribusi kata sehingga membentuk kelompok kata dan daftar dokumen pada topik tertentu [4]. LDA adalah model probabilistik generatif untuk menemukan topik tersembunyi dalam dokumen besar dan salah satu metode pemodelan topik yang paling sederhana [1]. "variabel utama yang menarik dalam model adalah distribusi topik-kata" dan distribusi topik θ untuk setiap dokumen" [8]. Algoritma LDA membutuhkan beberapa parameter seperti alpha yang digunakan dalam distribusi dokumen, betta digunakan dalam distribusi kata, jumlah topik, dan iterasi untuk perhitungan sampling dan perplexity. LDA memiliki berbagai jenis metode untuk melakukan pemodelan topik, dalam penelitian ini menggunakan metode Gibbs Sampling. Alasan lain untuk menggunakan Gibbs Sampling adalah karena sebuah penelitian yang berjudul "Online Inference of Topics with Latent Dirichlet Allocation" yang dilakukan oleh Canini, et al [11], membandingkan tiga metode LDA. Ini dilakukan dengan perulangan untuk menemukan jumlah topik dengan nilai kebingungan terkecil

METODOLOGI PENELITIAN
HASIL DAN PEMBAHASAN
Tahapan Tokenizing
No larg
Average Perplexity
Full Text
Published version (Free)

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call