Abstract

A extração ou reconhecimento de termos pesquisa um corpus para prover uma lista de termos específicos de domínio a fim de ser usada em trabalhos mais avançados tais como a construção de terminologias e ontologias. Tanto medidas estatísticas quanto técnicas do Processamento da Linguagem Natural (PLN) têm sido investigadas para melhorar o desempenho na precisão das listas recuperadas. Não obstante, para manter a abrangência alta, as listas contêm falsos positivos. Para validar os candidatos como verdadeiros positivos, os termos têm de ser avaliados quer manualmente, quer automaticamente, por contraste com recursos externos, nomeadamente glossários específicos. Apresentamos uma série de experiências que mostram como uma base de conhecimento lexical pode melhorar o desempenho destes glossários de modo significativo. Partimos de uma lista de 50 candidatos a termos de domínio com precisão de 52%. Por meio da uma base lexical difusa, em que as palavras são agrupadas com um valor de associação semântica, achamos valores de corte para atingir percentagens de 100% tanto na precisão quanto na abrangência sobre a lista de partida, mantendo o valor da medida-F > 80%, com melhor resultado em 90%. Concluímos que, considerando que é necessário mais trabalho na pesquisa de limites e diferentes cenários, uma base lexical difusa pode melhorar o estado da arte das abordagens convencionais da extração automática de termos.

Full Text
Published version (Free)

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call