Abstract

O objetivo geral desta pesquisa foi analisar se há uma variação temporal característica da distribuição de valores de termos relevantes ao longo do tempo da produção de textos que possa contribuir como um critério para o processo de sua indexação automática. Foram analisadas as teses de doutorado dos programas de pós-graduação (PPGs) da área de Ciências Sociais Aplicadas da UFMG, considerando-se 7 PPGs distintos, sendo cada um deles um corpus, com um total de 641 teses defendidas período de 12 anos, de 2007 a 2018. Os termos considerados foram todos os sintagmas nominais contidos nos próprios textos das teses. Cada sintagma nominal recebeu um valor associado à sua relevância como descritor de acordo com os critérios de frequência do termo na própria tese (TF - Term Frequency) e com o inverso da frequência de ocorrência do termo no total de teses de cada PPG (IDF - Inverse Document Frequency). As teses foram divididas em 12 grupos em cada PPG para o cálculo da data média de defesa das teses e da média de pontuação consolidada dos termos relevantes nas teses. Como resultados, identificou-se o comportamento característico de cada PPG através de um gráfico de dispersão do nível médio de pontuação de relevância ao longo do tempo. Para cada gráfico de cada um dos 7 PPGs foi adicionada uma linha de tendência, considerando seu respectivo R², e feita sua análise específica. Todos os comportamentos de distribuição temporais foram caracterizados em equações polinomiais e podem ser aplicados como critério para indexação automática.

Highlights

  • With the inverse of the frequency of occurrence of the term in the total of theses of each PPG (IDF – Inverse Document Frequency)

  • The theses were divided into 12 groups in each PPG to calculate the average defense date of the theses and the average consolidated score of the relevant terms in the theses

  • Each PPG's characteristic behavior was identified through a scatter plot of the average level of relevance score over time

Read more

Summary

INTRODUÇÃO

Em 1974 foram publicados 419 artigos relacionados à computação, cujas 3.812 referências em todos eles foram analisadas por Salton & Bergmark (1979), num dos primeiros estudos bibliométricos dessa ciência, para a qual concluíram existir naquele momento três principais áreas: fundamentos teóricos, hardware e software. Para Saracevic (1996, pág.42), Bush (1945), como cientista do MIT e em plena Segunda Guerra Mundial, não só aponta o problema da “explosão informacional” como também sua possível solução com o uso das “tecnologias da informação”, criando o cenário para o surgimento da Ciência da Informação (CI) nos anos 50. Os trabalhos de Kuramoto (1996), Souza (2005), Maia (2008), Corrêa et al (2011), Mesquita et al (2013; 2014) e outros apresentam como tema central a utilização de SNs através da sua extração em PLN de forma semiautomática e automática para a língua portuguesa. Uma delas estaria no uso de sintagmas nominais em sistemas de recuperação da informação, como a indexação automática. O objetivo geral desta pesquisa foi analisar se há uma variação temporal característica da distribuição de valores de termos relevantes ao longo do tempo da produção de textos que contribui como um critério para o processo de sua indexação. Este artigo está organizado em 5 seções: Introdução, Fundamentação Teórica, Metodologia, Resultados e Conclusões

FUNDAMENTAÇÃO TEÓRICA
Sintagmas nominais
Processamento de linguagem natural
Indexação automática
Critérios para pontuação de descritores
Recuperação da Informação Temporal
METODOLOGIA
RESULTADOS
Análise de distribuição temporal por PPG por regressão polinomial
Análise geral de distribuição temporal por PPG
CONSIDERAÇÕES FINAIS
Full Text
Paper version not known

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

Disclaimer: All third-party content on this website/platform is and will remain the property of their respective owners and is provided on "as is" basis without any warranties, express or implied. Use of third-party content does not indicate any affiliation, sponsorship with or endorsement by them. Any references to third-party content is to identify the corresponding services and shall be considered fair use under The CopyrightLaw.