Abstract
A method for resolving the lexical ambiguity of biomedical terms has been proposed. The method is based on a comparison of «word bags» obtained from the context, definitions and information on related terms from the UMLS metathesaurus [1]. Modification of the method using the analysis of word importance using the statistical measure TF-IDF has been proposed. Experimental verification of the method has been performed on the open test MSH WSD data set [2], developed to support research in the field of lexical resolution.
Highlights
A method for resolving the lexical ambiguity of biomedical terms has been proposed
Недостаточно извлечь термины из научного текста, возникает проблема разрешения лексической многозначности слов во время текстового анализа
Результаты эксперимента Метод разрешения лексической неоднозначности Cosine similarity between bags-of-words with words frequency
Summary
Белорусский государственный университет информатики и радиоэлектроники, Республика Беларусь. Предложен метод разрешения лексической многозначности биомедицинских терминов на основе сравнения «мешков слов», полученных из контекста, определений и информации о связанных терминах из метатезауруса UMLS [1], а также модификация метода с использованием оценки важности слов с помощью статистической меры TF-IDF. Проведена экспериментальная проверка метода на открытом тестовом наборе данных MSH WSD [2], разработанном с целью поддержки исследований в области разрешения лексической многозначности. Ключевые слова: машинное обучение, обработка текста естественного языка, разрешение лексической многозначности, извлечение информации
Talk to us
Join us for a 30 min session where you can share your feedback and ask us any queries you have