Método de normalização de sintagmas nominais na indexação automática

Renato Fernandes Corrêa,Victor Galvão Celerino

doi:10.19132/1808-5245251.321-344

Renato Fernandes Corrêa, Victor Galvão Celerino

Open Access

https://doi.org/10.19132/1808-5245251.321-344

Copy DOI

Journal: Em Questão	Publication Date: Jan 1, 2019
Citations: 2	License type: CC BY 4.0

Affiliation: Universidade Federal de Pernambuco

Abstract

Propõe e avalia um método de normalização de sintagmas nominais em termos canônicos, que visa contribuir para a melhora qualitativa da indexação automática, evitando a dispersão terminológica e preservando as palavras-chave dos autores, presentes no interior dos sintagmas nominais. A pesquisa é exploratória e empírica, pautada em pesquisa bibliográfica e realização de um experimento em um corpus de artigos científicos da área de Ciência da Informação. O método proposto é constituído por regras e critérios de normalização que obedecem às restrições de preservação da estrutura válida do sintagma nominal e das palavras-chave. O método proposto é avaliado através da presença de termos do Tesauro Brasileiro em Ciência da Informação (TBCI) nos sintagmas nominais resultantes da aplicação das regras e critérios. O método consiste em duas etapas: a primeira é composta por 85 regras para minimizar os sintagmas nominais extensos; a segunda etapa é composta por sete critérios responsáveis por eliminar dos sintagmas nominais elementos gramaticais desnecessários em sua estrutura. Os resultados da avaliação indicam que o método de normalização permite o alcance de resultados positivos, mesmo com dois critérios da segunda etapa não apresentando resultados para o corpus utilizado. Conclui-se que a aplicação do método de normalização em sistema de indexação automática é viável e traz bons resultados.

Highlights

Ele justifica a substituição das palavras isoladas por Sintagmas Nominais (SNs) como descritores da informação, pois os SNs são portadores de significado, e, para a indexação e recuperação da informação, isso é bastante relevante
Ao analisar os SNs considerados normalizados, ficou evidente que todos os SNs que passaram pelos critérios de normalização expressavam valor descritivo para o documento e, portanto, podem ser utilizados como descritores em bases de dados
Ciência da Informação, Brasília, v. 17, n. 1, p. 43-57, jan./jun. 1988

Summary

Introdução

Atualmente, o crescimento exponencial do volume de informações publicadas tem dificultado a indexação e catalogação de documentos por profissionais da informação. Conforme destacado por Kuramoto (1995), as palavras isoladas, por não possuírem valor semântico e descritivo, não podem ser qualificadas como descritores de documentos. Em 1995, Kuramoto propôs que as palavras isoladas fossem substituídas pelos Sintagmas Nominais (SNs) na indexação automática, pois esses agregam valor semântico à descrição do documento, constituem unidades de discurso e são melhores descritores para os documentos. Independente da classificação dos SNs quanto à relevância, a grande maioria dos SNs precisa passar por um processo de normalização ou canonização para ser utilizada como descritor ou palavra-chave dos documentos. A par disso, o objetivo deste artigo consiste na proposição e avaliação de método de normalização de sintagmas nominais, objetivando que os SNs normalizados, além do valor semântico e discursivo, qualifiquem-se como descritores dos documentos em processos de indexação automática

Indexação automática por sintagmas nominais

A Ciência da Informação

Metodologia

Análise dos resultados

Método de normalização de sintagmas nominais

Análise da aplicação do método proposto

Conclusão