Abstract

V prispevku predstavimo korpusni pristop k samodejnemu luščenju prevodnih ustreznic in lažnih prijateljev med slovenščino in hrvaščino. Pristop izkorišča ortografske podobnosti med jezikoma in temelji na predpostavki distribucijske semantike, ki se glasi, da govorci obeh jezikov besede s podobnim pomenom uporabljamo v podobnih kontekstih. To nam po eni strani omogoča hitro izgradnjo slovensko-hrvaškega dvojezičnega leksikona, za katero razen primerljivih spletnih korpusov ne potrebujemo nobenega drugega vira znanja. Po drugi strani pa lahko na podlagi iste predpostavke s pomočjo korpusnih podatkov prepoznamo tiste sorodnice, ki so si podobne zgolj površinsko, leksikalizirajo pa različne pojme in se zato tudi različno uporabljajo. Predstavljen pristop je jezikovno neodvisen, zaradi česar je privlačen za številna področja računalniške obdelave naravnega jezika, kjer še vedno vlada veliko pomanjkanje leksikalnih virov, njihove ročne izdelave pa si ne moremo privoščiti. Pristop je prav tako zelo koristen v leksikografiji in za poučevanje tujih jezikov, saj nam pomaga osvetliti leksikalne posebnosti za določen jezikovni par oziroma strokovno področje.

Full Text
Published version (Free)

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call