Abstract

A method for resolving the lexical ambiguity of biomedical terms has been proposed. The method is based on a comparison of «word bags» obtained from the context, definitions and information on related terms from the UMLS metathesaurus [1]. Modification of the method using the analysis of word importance using the statistical measure TF-IDF has been proposed. Experimental verification of the method has been performed on the open test MSH WSD data set [2], developed to support research in the field of lexical resolution.

Highlights

  • A method for resolving the lexical ambiguity of biomedical terms has been proposed

  • Недостаточно извлечь термины из научного текста, возникает проблема разрешения лексической многозначности слов во время текстового анализа

  • Результаты эксперимента Метод разрешения лексической неоднозначности Cosine similarity between bags-of-words with words frequency

Read more

Summary

АНАЛИЗ МЕТОДОВ РАЗРЕШЕНИЯ ЛЕКСИЧЕСКОЙ МНОГОЗНАЧНОСТИ В ОБЛАСТИ БИОМЕДИЦИНЫ

Белорусский государственный университет информатики и радиоэлектроники, Республика Беларусь. Предложен метод разрешения лексической многозначности биомедицинских терминов на основе сравнения «мешков слов», полученных из контекста, определений и информации о связанных терминах из метатезауруса UMLS [1], а также модификация метода с использованием оценки важности слов с помощью статистической меры TF-IDF. Проведена экспериментальная проверка метода на открытом тестовом наборе данных MSH WSD [2], разработанном с целью поддержки исследований в области разрешения лексической многозначности. Ключевые слова: машинное обучение, обработка текста естественного языка, разрешение лексической многозначности, извлечение информации

Теоретический анализ
Экспериментальная часть
Архитектура модуля разрешения лексической многозначности
Результаты и их обсуждение
Information about the authors
Full Text
Published version (Free)

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call