Odkrivanje koreferenčnosti v slovenskem jeziku na označenih besedilih iz coref149

Slavko Žitnik,Marko Bajec

doi:10.4312/slo2.0.2018.1.37-67

Abstract

Odkrivanje koreferenčnosti je ena izmed treh ključnih nalog ekstrakcije informacij iz besedil, kamor spadata še prepoznavanje imenskih entitet in ekstrakcija povezav. Namen odkrivanja koreferenčnosti je prek celotnega besedila ustrezno združiti vse omenitve entitet v skupine, v katerih vsaka skupina predstavlja svojo entiteto. Metode za reševanje te naloge se za nekatere jezike z več govorci razvijajo že dalj časa, medtem ko za slovenski jezik še niso bile izdelane. V prispevku predstavljamo nov, ročno označen korpus za odkrivanje koreferenčnosti v slovenskem jeziku – korpus coref149. Za avtomatsko odkrivanje koreferenčnosti smo prilagodili sistem SkipCor, ki smo ga izdelali za angleški jezik. Sistem SkipCor je na slovenskem gradivu dosegel 76 % ocene CoNLL 2012. Ob tem smo analizirali še vplive posameznih tipov značilk in preverili, katere so pogoste napake. Pri analiziranju besedil smo razvili tudi programsko knjižnico s spletnim vmesnikom, prek katere je možno izvesti vse opisane analize in neposredno primerjati njihovo uspešnost. Rezultati analiz so obetavni in primerljivi z rezultati pri drugih, bolj razširjenih jezikih. S tem smo dokazali, da je avtomatsko odkrivanje koreferenčnosti v slovenskem jeziku lahko uspešno, v prihodnosti pa bi bilo potrebno izdelati še večji in kvalitetnejši korpus, v katerem bodo koreferenčno naslovljene vse posebnosti slovenskega jezika, kar bi omogočilo izgradnjo učinkovitih metod za avtomatsko reševanje koreferenčnih problemov.

Full Text

Published version (

Free)

Open DOI Link

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

Journal: Slovenščina 2.0: empirične, aplikativne in interdisciplinarne raziskave	Publication Date: Jun 4, 2018
Citations: 1	License type: CC BY-SA 4.0

R Discovery Prime

R Discovery Prime

Odkrivanje koreferenčnosti v slovenskem jeziku na označenih besedilih iz coref149

Abstract

Talk to us

Similar Papers

More From: Slovenščina 2.0: empirične, aplikativne in interdisciplinarne raziskave

Lead the way for us

Similar Papers

Coreference resolution: an empirical study based on SemEval-2010 shared Task 1
Lluís Màrquez ... Marta Recasens
Computers and the humanities | VOL. 47
Lluís Màrquez, et. al.Lluís Màrquez ... Marta Recasens
13 Jul 2012
Coreference resolution: an empirical study based on SemEval-2010 shared Task 1
Lluís Màrquez ... Marta Recasens

Coreference Resolution on Blogs and Commented News
Iris Hendrickx ... Veronique Hoste
-
Iris Hendrickx, et. al.Iris Hendrickx ... Veronique Hoste
01 Jan 2009
01 Jan 2009

COREA: Coreference Resolution for Extracting Answers for Dutch
Iris Hendrickx ... Walter Daelemans
-
Iris Hendrickx, et. al.Iris Hendrickx ... Walter Daelemans
11 Nov 2012
11 Nov 2012

Bio-SCoRes: A Smorgasbord Architecture for Coreference Resolution in Biomedical Text.
Halil Kilicoglu ... Tudor Groza
PloS one | VOL. 11
Halil Kilicoglu, et. al.Halil Kilicoglu ... Tudor Groza
02 Mar 2016
PloS one | VOL. 11

Editage

Paperpal

R Discovery

Mind the Graph

R Discovery Prime

R Discovery Prime

Odkrivanje koreferenčnosti v slovenskem jeziku na označenih besedilih iz coref149

Abstract

Talk to us

Similar Papers

More From: Slovenščina 2.0: empirične, aplikativne in interdisciplinarne raziskave