Lithuanian-Latvian, Latvian-Lithuanian Parallel Corpus (LILA)

Erika Rimkutė,Andrius Utka,Kristīne Levāne-Petrova

doi:10.5755/j01.sal.0.23.4582

Erika Rimkutė, Andrius Utka + Show 1 more

Open Access

https://doi.org/10.5755/j01.sal.0.23.4582

Copy DOI

Abstract

The paper presents a new linguistic resource, LILA, which is the Lithuanian-Latvian-Lithuanian parallel corpus aligned on paragraph and sentence level.The total size of the LILA corpus is 9 m words. So far it is a unique resource for this language pair. The corpus contains metadata with bibliographicalinformation (title, author, year of publishing, etc.). The corpus contains the structural annotation, which includes boundaries of aligned segments,paragraphs, and sentences. The alignment of paragraphs and sentences has been done by the semi-automatic alignment tool Aligner 2.0.6.7. The corpuswas compiled during 2011-2012 by scientists of the Vytautas Magnus University’s Centre of Computational Linguistics (VMU CCL) and the LatvianUniversity’s Mathematical and Informatics Institute’s Laboratory of Artificial Intelligence (LU MII). The paper describes problems and challenges thatneed to be solved, when a parallel corpus for two small languages is created. The limited choice of appropriate parallel material poses the most difficultobstacle, as then it is difficult to compile a corpus of desired size. The paper presents: the conception and structure of the LILA corpus, phases of itscompilation, the alignment tool, the query system, and examples of usage. The corpus is especially useful for teaching and learning languages, forcomparing languages, for compilation of dictionaries, and for developing language technology tools (e. g. statistical machine translation systems). DOI: http://dx.doi.org/10.5755/j01.sal.0.23.4582

Highlights

Latvian-Lithuanian Parallel Corpus (LILA) tekstynas sulygiagretintas pastraipų ir sakinių lygmeniu naudojant Vytauto Didžiojo universiteto Kompiuterinės lingvistikos centro (VDU KLC) sukurtą pusiau automatinį įrankį Aligner 2.0.6.7
Naudojant VDU KLC sukurtą įrankį Aligner 2.0.6.7, sulygiagretintas pastraipų ir sakinių lygmeniu
The paper presents a new linguistic resource, LILA, which is the Lithuanian-Latvian-Lithuanian parallel corpus aligned on paragraph and sentence level

Summary

Rečiau vartojamų kalbų kalbinių resursų sudarymo problemos

Dauguma tekstynų lingvistikos teorinių studijų ir praktinių tyrimų yra pritaikytos anglų kalbai ir dar kelioms dominuojančioms kalboms (pvz., vokiečių). Subalansavimo problemų padvigubėja, nes tada reikia sukaupti ir suderinti ne vienos kalbos, o dviejų kalbų išteklius. Nors kai kurių lietuvių autorių daug kūrinių išversta į anglų kalbą (pvz., Ričardo Gavelio), tačiau, siekiant išvengti šių autorių kalbos dominavimo, autorei teko atsisakyti dalies medžiagos ir apsiriboti tik gana mažu 1,7 mln. Lietuvių ir latvių kalbų pora turi vieną privalumą – tai yra kaimyninių tautų kalbos, priklausančios vienai baltų kalbų šakai ir turinčios panašią istoriją. Toliau vertinant ketvirtos situacijos kalbų poras, galima būtų teigti, kad geografiškai labiau atskirtų dviejų mažų kalbų poroms (pvz., lietuvių ir maltiečių) būtų dar sunkiau ar net neįmanoma rasti pakankamai lygiagrečių tekstų norint sukurti lygiagretųjį tekstyną

Lygiagretusis tekstynas LILA

Spausdinti kalbiniai resursai

Elektroniniai kalbiniai resursai

Tekstų tvarkymas

Lygiagretinimo įrankis

Paieškos galimybės

Lygiagrečiųjų tekstynų panaudojimo galimybės

Apibendrinamosios pastabos

Summary

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

Journal: Studies About Languages	Publication Date: Dec 18, 2013
Citations: 1	License type: cc-by

R Discovery Prime

R Discovery Prime

Lithuanian-Latvian, Latvian-Lithuanian Parallel Corpus (LILA)

Abstract

Highlights

Summary

Talk to us

Similar Papers

More From: Studies About Languages

Lead the way for us

Similar Papers

Template-Based Model for Mongolian-Chinese Machine Translation
Jing Wu ... Feilong Bao
Journal of Advanced Computational Intelligence and Intelligent Informatics | VOL. 20
Jing Wu, et. al.Jing Wu ... Feilong Bao
20 Nov 2016
Journal of Advanced Computational Intelligence and Intelligent Informatics | VOL. 20

Benefits of Morphosyntactic Features on English-Arabic Statistical Machine Translation
Safae Berrichi ... Azzeddine Mazroui
-
Safae Berrichi, et. al.Safae Berrichi ... Azzeddine Mazroui
01 Oct 2018
01 Oct 2018

The Effect of Parallel Corpus Quality vs Size in English - Toturkish SMT
Eray Yildiz ... Banu Diri
-
Eray Yildiz, et. al.Eray Yildiz ... Banu Diri
26 Jul 2014
26 Jul 2014

English-Cebuano Parallel Language Resource for Statistical Machine Translation System
Zarah Lou B Tabaranza ... Lucelle L Bureros
-
Zarah Lou B Tabaranza, et. al.Zarah Lou B Tabaranza ... Lucelle L Bureros
01 Jan 2018
01 Jan 2018

Editage

Paperpal

R Discovery

Mind the Graph

R Discovery Prime

R Discovery Prime

Lithuanian-Latvian, Latvian-Lithuanian Parallel Corpus (LILA)

Abstract

Highlights

Summary

Talk to us

Similar Papers

More From: Studies About Languages