Perbandingan Pre-trained Word Embedding dan Embedding Layer untuk Named-Entity Recognition Bahasa Indonesia

Meredita Susanty,Sahrul Sukardi

doi:10.33322/petir.v14i2.1164

Abstract

Named-Entity Recognition (NER) is used to extract information from text by identifying entities such as the name of the person, organization, location, time, and other entities. Recently, machine learning approaches, particularly deep-learning, are widely used to recognize patterns of entities in sentences. Embedding, a process to convert text data into a number or vector of numbers, translates high dimensional vectors into relatively low-dimensional space. Embeddings make it easier to do machine learning on large inputs like sparse vectors representing words. The embedding process can be performed using the supervised learning method, which requires a large number of labeled data sets or an unsupervised learning approach. This study compares the two embedding methods; trainable embedding layer (supervised learning) and pre-trained word embedding (unsupervised learning). The trainable embedding layer uses the embedding layer provided by the Keras library while pre-trained word embedding uses word2vec, GloVe, and fastText to build NER using the BiLSTM architecture. The results show that GloVe had better performance than other embedding techniques with a micro average f1 score of 76.48.

Highlights

ABSTRAK Named-Entity Recognition (NER) digunakan untuk mengekstrak informasi dari teks dengan cara mengidentifikasi entitas seperti nama orang, organisasi, lokasi, waktu, dan entitas lainnya
A process to convert text data into a number or vector of numbers, translates high dimensional vectors into relatively low-dimensional space. Embeddings make it easier to do machine learning on large inputs like sparse vectors representing words
The trainable embedding layer uses the embedding layer provided by the Keras library while pre-trained word embedding uses word2vec, GloVe, and fastText to build NER using the BiLSTM architecture

Summary

HASIL DAN PEMBAHASAN

Dari gabungan dua sumber data set yang digunakan diperoleh total 4,892 kalimat, 98,122 kata. Data set yang digunakan sangat tidak seimbang jumlah antar labelnya dimana yang paling banyak adalah token label O dengan 83,35% dari data set. Gambar 4 dan Gambar 5 menjelaskan learning curve proses pelatihan model yang memiliki panjang sequence paling optimal sesuai dengan perolehan nilai f1 score pada Tabel 2. Model yang menggunakan GloVe dan fastText cenderung lebih tahan terhadap overfit dibandingkan dengan trainable dan word2vec embedding. Tabel 2 menunjukkan hasil evaluasi model menggunakan nilai hiper-parameter awal yang sama untuk setiap panjang sequence yang berbeda. Trainable dan word2vec embedding memiliki nilai f1 score tertinggi pada panjang sequence 40 token, sedangkan GloVE dan fastText pada 60 token. Gambar 6 adalah confusion matrix hasil evaluasi menggunakan data uji pada model dengan perolehan nilai f1 score tertinggi. Beberapa kesalahan prediksi terjadi pada entitas dan label yang sama, seperti I-ORGANIZATION diprediksi 13 kali sebagai B-ORGANIZATION, IORGANIZATION diprediksi 13 kali sebagai L-ORGANIZATION, dan U-LOCATION diprediksi 12 kali sebagai U-ORGANIZATION

Score word2vec

Dropout

Findings

KESIMPULAN DAN SARAN

Full Text

Paper version not known

Open DOI Link

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

R Discovery Prime

R Discovery Prime

Perbandingan Pre-trained Word Embedding dan Embedding Layer untuk Named-Entity Recognition Bahasa Indonesia

Abstract

Highlights

Summary

Talk to us

Similar Papers

More From: PETIR

Lead the way for us

Journal: PETIR	Publication Date: Sep 2, 2021
License type: cc-by

Similar Papers

Delayed Combination of Feature Embedding in Bidirectional LSTM CRF for NER
Chirawan Ronran ... Hong Jun Jang
Applied Sciences | VOL. 10
Chirawan Ronran, et. al.Chirawan Ronran ... Hong Jun Jang
27 Oct 2020
Applied Sciences | VOL. 10

Evaluating Language Acquisition Models: A Utility-Based Look at Bayesian Segmentation
Lisa Pearl ... Lawrence Phillips
-
Lisa Pearl, et. al.Lisa Pearl ... Lawrence Phillips
30 Nov 2017
30 Nov 2017

A comprehensive comparison of machine learning approaches with hyper-parameter tuning for smartphone sensor-based human activity recognition
Vasundhara Ghate ... Sweetlin Hemalatha C
Measurement: Sensors | VOL. 30
Vasundhara Ghate, et. al.Vasundhara Ghate ... Sweetlin Hemalatha C
17 Oct 2023
Measurement: Sensors | VOL. 30

Effective cancer subtyping by employing density peaks clustering by using gene expression microarray
Rashid Mehmood ... Yunchuan Sun
Personal and Ubiquitous Computing | VOL. 22
Rashid Mehmood, et. al.Rashid Mehmood ... Yunchuan Sun
12 Feb 2018
Personal and Ubiquitous Computing | VOL. 22

Editage

Paperpal

R Discovery

Mind the Graph

R Discovery Prime

R Discovery Prime

Perbandingan Pre-trained Word Embedding dan Embedding Layer untuk Named-Entity Recognition Bahasa Indonesia

Abstract

Highlights

Summary

Talk to us

Similar Papers

More From: PETIR