Building Subject-aligned Comparable Corpora and Mining it for Truly Parallel Sentence Pairs

Krzysztof Wołk,Krzysztof Marasek

doi:10.1016/j.protcy.2014.11.024

Abstract

Parallel sentences are a relatively scarce but extremely useful resource for many applications including cross-lingual retrieval and statistical machine translation. This research explores our methodology for mining such data from previously obtained comparable corpora. The task is highly practical since non-parallel multilingual data exist in far greater quantities than parallel corpora, but parallel sentences are a much more useful resource. Here we propose a web crawling method for building subject-aligned comparable corpora from Wikipedia articles. We also introduce a method for extracting truly parallel sentences that are filtered out from noisy or just comparable sentence pairs. We describe our implementation of a specialized tool for this task as well as training and adaption of a machine translation system that supplies our filter with additional information about the similarity of comparable sentence pairs.

Highlights

The corpus PaGeS is a bilingual parallel corpus, that comprises a collection of contemporary Spanish and German texts
Este artículo describe las sucesivas fases en la elaboración del corpus
Zinsmeister, H., «Corpora», in: Carstensen, K.-U. et al (Hg.), Computerlinguistik und Sprachtechnologie: Eine Einführung

Summary

Korpus-Design und Datenbeschaffung

Ein Korpus ist nicht nur eine Sammlung von elektronischen Texten, sondern die Texte müssen nach bestimmten Kriterien gesammelt werden, die gewährleisten sollen, dass das Korpus für das geplante Forschungsziel geeignet ist. Das PaGeS-Korpus ist als zweisprachiges Korpus in Deutsch und Spanisch konzipiert worden, obwohl die Möglichkeit einer weiteren mehrsprachigen Erweiterung des Korpus nicht ausgeschlossen ist. Die einzige Möglichkeit, die Qualität zu gewährleisten, besteht darin, schriftliche Texte von angesehenen Verlagen zu verwenden, bei denen sowohl Originaltexte als auch Übersetzungen einer anspruchsvollen Qualitätskontrolle unterzogen werden. Das Korpus besteht aus nach 1960 erschienenen Büchern, mit besonderem Schwerpunkt auf Werken aus den letzten zwei Jahrzehnten. Fiktionale Texte bilden die große Mehrheit der Sprachdaten (80 %), da sie eher in andere Sprachen übersetzt werden und damit den größten Teil der verfügbaren Ressourcen darstellen. Enthält das Korpus neben Büchern von deutschen und spanischen Schriftstellern auch andere von amerikanischen, österreichischen oder Schweizer Autoren. Den restlichen Anteil von 14 Prozent bilden Werke, die aus einer dritten Sprache ins Deutsche und Spanische übersetzt wurden (Abb. 3: GX und SX).

SPRACHE Originale

Textvorverarbeitung und Metadaten

Segmentierung und Alignierung

Linguistische Annotationen

Zugriff und Visualisierung

Fazit und Ausblick

Findings

Literaturverzeichnis

Full Text

Paper version not known

Open DOI Link

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

Journal: Procedia Technology	Publication Date: Jan 1, 2014
Citations: 30	License type: cc-by

R Discovery Prime

R Discovery Prime

Building Subject-aligned Comparable Corpora and Mining it for Truly Parallel Sentence Pairs

Abstract

Highlights

Summary

Talk to us

Similar Papers

More From: Procedia Technology

Lead the way for us

Similar Papers

Harvesting Comparable Corpora and Mining Them for Equivalent Bilingual Sentences Using Statistical Classification and Analogy-Based Heuristics
Krzysztof Wołk ... Emilia Rejmund
-
Krzysztof Wołk, et. al.Krzysztof Wołk ... Emilia Rejmund
01 Jan 2015
01 Jan 2015

The Effect of Parallel Corpus Quality vs Size in English - Toturkish SMT
Eray Yildiz ... Ahmed Cuneyd Tantug
-
Eray Yildiz, et. al.Eray Yildiz ... Ahmed Cuneyd Tantug
26 Jul 2014
26 Jul 2014

Integrated Parallel Sentence and Fragment Extraction from Comparable Corpora
Chenhui Chu ... Sadao Kurohashi
ACM Transactions on Asian and Low-Resource Language Information Processing | VOL. 15
Chenhui Chu, et. al.Chenhui Chu ... Sadao Kurohashi
11 Dec 2015
ACM Transactions on Asian and Low-Resource Language Information Processing | VOL. 15

Exploiting Non-Parallel Corpora for Statistical Machine Translation
Cuong Hoang ... Phuong Thai Nguyen
-
Cuong Hoang, et. al.Cuong Hoang ... Phuong Thai Nguyen
01 Feb 2012
01 Feb 2012

Editage

Paperpal

R Discovery

Mind the Graph

R Discovery Prime

R Discovery Prime

Building Subject-aligned Comparable Corpora and Mining it for Truly Parallel Sentence Pairs

Abstract

Highlights

Summary

Talk to us

Similar Papers

More From: Procedia Technology