Character recognition system for pegon typed manuscript

Yova Ruldeviyani,Heru Suhartanto,Beltsazar Anugrah Sotardodo,Muhammad Hanif Fahreza,Andre Septiano,Muhammad Febrian Rachmadi

doi:10.1016/j.heliyon.2024.e35959

Abstract

The Pegon script is an Arabic-based writing system used for Javanese, Sundanese, Madurese, and Indonesian languages. Due to various reasons, this script is now mainly found among collectors and private Islamic boarding schools (pesantren), creating a need for its preservation. One preservation method is digitization through transcription into machine-encoded text, known as OCR (Optical Character Recognition). No published literature exists on OCR systems for this specific script. This research explores the OCR of Pegon typed manuscripts, introducing novel synthesized and real annotated datasets for this task. These datasets evaluate proposed OCR methods, especially those adapted from existing Arabic OCR systems. Results show that deep learning techniques outperform conventional ones, which fail to detect Pegon text. The proposed system uses YOLOv5 for line segmentation and a CTC-CRNN architecture for line text recognition, achieving an F1-score of 0.94 for segmentation and a CER of 0.03 for recognition.

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

R Discovery Prime

R Discovery Prime

Character recognition system for pegon typed manuscript

Abstract

Talk to us

Similar Papers

More From: Heliyon

Lead the way for us

Similar Papers

Arabic Optical Character Recognition: A Review
Salah Alghyaline
Computer Modeling in Engineering & Sciences | VOL. 135
Salah AlghyalineSalah Alghyaline
01 Jan 2023
Computer Modeling in Engineering & Sciences | VOL. 135

Soft Computing Techniques for Optical Character Recognition Systems
Arindam Chaudhuri ... Pratixa Badelia
-
Arindam Chaudhuri, et. al.Arindam Chaudhuri ... Pratixa Badelia
24 Dec 2016
24 Dec 2016

JPEG for Arabic Handwritten Character Recognition: Add a Dimension of Application
Abdurazzag Ali ... Salem Ali
-
Abdurazzag Ali, et. al.Abdurazzag Ali ... Salem Ali
01 Oct 2008
01 Oct 2008

OmniPage vs. Sakhr: paired model evaluation of two Arabic OCR products
Tapas Kanungo ... Daniel P Lopresti
-
Tapas Kanungo, et. al.Tapas Kanungo ... Daniel P Lopresti
07 Jan 1999
07 Jan 1999

Editage

Paperpal

R Discovery

Mind the Graph

R Discovery Prime

R Discovery Prime

Character recognition system for pegon typed manuscript

Abstract

Talk to us

Similar Papers

More From: Heliyon