A hybrid approach to align sentences and words in English-Hindi parallel corpora

Niraj Aswani,Robert Gaizauskas

doi:10.3115/1654449.1654458

Abstract

In this paper we describe an alignment system that aligns English-Hindi texts at the sentence and word level in parallel corpora. We describe a simple sentence length approach to sentence alignment and a hybrid, multi-feature approach to perform word alignment. We use regression techniques in order to learn parameters which characterise the relationship between the lengths of two sentences in parallel text. We use a multi-feature approach with dictionary lookup as a primary technique and other methods such as local word grouping, transliteration similarity (edit-distance) and a nearest aligned neighbours approach to deal with many-to-many word alignment. Our experiments are based on the EMILLE (Enabling Minority Language Engineering) corpus. We obtained 99.09% accuracy for many-to-many sentence alignment and 77% precision and 67.79% recall for many-to-many word alignment.

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

R Discovery Prime

R Discovery Prime

A hybrid approach to align sentences and words in English-Hindi parallel corpora

Abstract

Talk to us

Similar Papers

Lead the way for us

Similar Papers

Aligning words in English-Hindi parallel corpora
Niraj Aswani ... Robert Gaizauskas
-
Niraj Aswani, et. al.Niraj Aswani ... Robert Gaizauskas
01 Jan 2004
01 Jan 2004

Automatic Word Aligning Algorithm for Hindi-Punjabi Parallel Text
Karuna Jindal ... Vishal Goyal
-
Karuna Jindal, et. al.Karuna Jindal ... Vishal Goyal
01 Jan 2010
01 Jan 2010

Word alignment in English-Hindi parallel corpus using recency-vector approach
Niladri Chatterjee ... Saumya Agrawal
-
Niladri Chatterjee, et. al.Niladri Chatterjee ... Saumya Agrawal
01 Jan 2006
01 Jan 2006

Segmenting Long Sentence Pairs to Improve Word Alignment in English-Hindi Parallel Corpora
Jyoti Srivastava ... Sudip Sanyal
-
Jyoti Srivastava, et. al.Jyoti Srivastava ... Sudip Sanyal
01 Jan 2012
01 Jan 2012

Editage

Paperpal

R Discovery

Mind the Graph

R Discovery Prime

R Discovery Prime

A hybrid approach to align sentences and words in English-Hindi parallel corpora

Abstract

Talk to us

Similar Papers