Abstract

The paper presents a new linguistic resource, LILA, which is the Lithuanian-Latvian-Lithuanian parallel corpus aligned on paragraph and sentence level.The total size of the LILA corpus is 9 m words. So far it is a unique resource for this language pair. The corpus contains metadata with bibliographicalinformation (title, author, year of publishing, etc.). The corpus contains the structural annotation, which includes boundaries of aligned segments,paragraphs, and sentences. The alignment of paragraphs and sentences has been done by the semi-automatic alignment tool Aligner 2.0.6.7. The corpuswas compiled during 2011-2012 by scientists of the Vytautas Magnus University’s Centre of Computational Linguistics (VMU CCL) and the LatvianUniversity’s Mathematical and Informatics Institute’s Laboratory of Artificial Intelligence (LU MII). The paper describes problems and challenges thatneed to be solved, when a parallel corpus for two small languages is created. The limited choice of appropriate parallel material poses the most difficultobstacle, as then it is difficult to compile a corpus of desired size. The paper presents: the conception and structure of the LILA corpus, phases of itscompilation, the alignment tool, the query system, and examples of usage. The corpus is especially useful for teaching and learning languages, forcomparing languages, for compilation of dictionaries, and for developing language technology tools (e. g. statistical machine translation systems). DOI: http://dx.doi.org/10.5755/j01.sal.0.23.4582

Highlights

  • Latvian-Lithuanian Parallel Corpus (LILA) tekstynas sulygiagretintas pastraipų ir sakinių lygmeniu naudojant Vytauto Didžiojo universiteto Kompiuterinės lingvistikos centro (VDU KLC) sukurtą pusiau automatinį įrankį Aligner 2.0.6.7

  • Naudojant VDU KLC sukurtą įrankį Aligner 2.0.6.7, sulygiagretintas pastraipų ir sakinių lygmeniu

  • The paper presents a new linguistic resource, LILA, which is the Lithuanian-Latvian-Lithuanian parallel corpus aligned on paragraph and sentence level

Read more

Summary

Rečiau vartojamų kalbų kalbinių resursų sudarymo problemos

Dauguma tekstynų lingvistikos teorinių studijų ir praktinių tyrimų yra pritaikytos anglų kalbai ir dar kelioms dominuojančioms kalboms (pvz., vokiečių). Subalansavimo problemų padvigubėja, nes tada reikia sukaupti ir suderinti ne vienos kalbos, o dviejų kalbų išteklius. Nors kai kurių lietuvių autorių daug kūrinių išversta į anglų kalbą (pvz., Ričardo Gavelio), tačiau, siekiant išvengti šių autorių kalbos dominavimo, autorei teko atsisakyti dalies medžiagos ir apsiriboti tik gana mažu 1,7 mln. Lietuvių ir latvių kalbų pora turi vieną privalumą – tai yra kaimyninių tautų kalbos, priklausančios vienai baltų kalbų šakai ir turinčios panašią istoriją. Toliau vertinant ketvirtos situacijos kalbų poras, galima būtų teigti, kad geografiškai labiau atskirtų dviejų mažų kalbų poroms (pvz., lietuvių ir maltiečių) būtų dar sunkiau ar net neįmanoma rasti pakankamai lygiagrečių tekstų norint sukurti lygiagretųjį tekstyną

Lygiagretusis tekstynas LILA
Spausdinti kalbiniai resursai
Elektroniniai kalbiniai resursai
Tekstų tvarkymas
Lygiagretinimo įrankis
Paieškos galimybės
Lygiagrečiųjų tekstynų panaudojimo galimybės
Apibendrinamosios pastabos
Summary

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

Disclaimer: All third-party content on this website/platform is and will remain the property of their respective owners and is provided on "as is" basis without any warranties, express or implied. Use of third-party content does not indicate any affiliation, sponsorship with or endorsement by them. Any references to third-party content is to identify the corresponding services and shall be considered fair use under The CopyrightLaw.