Abstract

Background. This article describes the Clarin-PL consortium, which represents the Polish contribution to the CLARIN ERIC European research infrastructure. The aims and tasks of both CLARIN ERIC and Clarin-PL are presented.Purpose. Presentation of the achievements of researchers from the Institute of Slavic Studies of the Polish Academy of Sciences in the field of creating and developing multilingual corpora, including tagging and parallelizing texts.Methods. The team of the Institute of Slavic Studies of the Polish Academy of Sciences adopted common assumptions for the construction of multilingual corpora of the Slavic and Baltic languages. Namely, the corpora contains selected modern texts that represent all functional styles to the greatest extent. Mutual translations are preferred.Results. The article presents a description of selected multilingual resources created by Clarin-PL and made available online via the Clarin-PL website, which a team from the Institute of Slavic Studies of the Polish Academy of Sciences (IS PAN) played a key role in creating. These resources are two expanded multilingual corpora of parallel contemporary texts: the Polish-Lithuanian Parallel Corpus 2 and the Polish-Ukrainian Parallel Corpus. Due to the fact that IS PAN played a leading role in the development of the multilingual corpora in the Clarin-PL consortium, it was decided to present an outline of corpus linguistics development in IS PAN.Discussion. The European Clarin-ERIC infrastructure is steadily developing. Scattered resources (previously created and newly emerging) are combined into a coherent whole. The Polish Consortium Clarin-PL primarily creates and develops resources and tools for the Polish language. The aim of these works is to provide the recipient with the highest possible quality of corpora compatible with constantly changing standards, allowing for the versatile use of tools.Manuscript received 02.09.2020

Highlights

  • Теоретичне підґрунтя мовних ресурсів і мовних засобів Clarin-PLМовні ресурси – це бази даних, що формалізовано описують природну мову в різних аспектах, наприклад, це можуть бути багатомовні корпуси та «пам’яті перекладів», а також словники, граматики, стохастичні мовні моделі та інші

  • which represents the Polish contribution to the CLARIN ERIC European research infrastructure

  • the corpora contains selected modern texts that represent all functional styles to the greatest extent

Read more

Summary

Теоретичне підґрунтя мовних ресурсів і мовних засобів Clarin-PL

Мовні ресурси – це бази даних, що формалізовано описують природну мову в різних аспектах, наприклад, це можуть бути багатомовні корпуси та «пам’яті перекладів», а також словники, граматики, стохастичні мовні моделі та інші. – система розвідки літературного тексту (LEM); – додаток для вилучення з корпусу словників та створення словників лексичних одиниць (MeWeX); – мовні засоби та послуги для оброблення мовлення (Mowa); – мовні засоби для перетворення орфографічного запису на фонетичний (Transkrypcja fonetyczna); – токенізація та морфосинтаксичне позначення (Tagger WCRFT2); – пошук і класифікація власних назв (NER); – синтаксичний аналізатор залежностей для польської мови (Parser); – синтаксичний аналізатор (Spejd); – мовні засоби для узагальнення (скороченої форми) текстів (Summarize); – мовні засоби для визначення ключових слів у тексті (Słowa kluczowe – ReSpa); – мовні засоби для виявлення термінів у тексті (TermoPL). Повний список доступний за посиланням: https://drive.google.com/file/ d/1w4znaJgYOH_VAfjgGwT4q19EQRSusVIC/view

Методи та матеріал дослідження
Багатомовні корпуси з центральною мовою польською Clarin-PL
Висновки
Background
Methods
Results
Discussion
Full Text
Published version (Free)

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call