Fluxo temporal de termos relevantes

Luiz Antônio Lopes Mesquita,Renato Rocha Souza,Célia Da Consolação Dias

doi:10.14295/biblos.v34i2.12395

Luiz Antônio Lopes Mesquita, Renato Rocha Souza + Show 1 more

Open Access

https://doi.org/10.14295/biblos.v34i2.12395

Copy DOI

Abstract

O objetivo geral desta pesquisa foi analisar se há uma variação temporal característica da distribuição de valores de termos relevantes ao longo do tempo da produção de textos que possa contribuir como um critério para o processo de sua indexação automática. Foram analisadas as teses de doutorado dos programas de pós-graduação (PPGs) da área de Ciências Sociais Aplicadas da UFMG, considerando-se 7 PPGs distintos, sendo cada um deles um corpus, com um total de 641 teses defendidas período de 12 anos, de 2007 a 2018. Os termos considerados foram todos os sintagmas nominais contidos nos próprios textos das teses. Cada sintagma nominal recebeu um valor associado à sua relevância como descritor de acordo com os critérios de frequência do termo na própria tese (TF - Term Frequency) e com o inverso da frequência de ocorrência do termo no total de teses de cada PPG (IDF - Inverse Document Frequency). As teses foram divididas em 12 grupos em cada PPG para o cálculo da data média de defesa das teses e da média de pontuação consolidada dos termos relevantes nas teses. Como resultados, identificou-se o comportamento característico de cada PPG através de um gráfico de dispersão do nível médio de pontuação de relevância ao longo do tempo. Para cada gráfico de cada um dos 7 PPGs foi adicionada uma linha de tendência, considerando seu respectivo R², e feita sua análise específica. Todos os comportamentos de distribuição temporais foram caracterizados em equações polinomiais e podem ser aplicados como critério para indexação automática.

Highlights

With the inverse of the frequency of occurrence of the term in the total of theses of each PPG (IDF – Inverse Document Frequency)
The theses were divided into 12 groups in each PPG to calculate the average defense date of the theses and the average consolidated score of the relevant terms in the theses
Each PPG's characteristic behavior was identified through a scatter plot of the average level of relevance score over time

Summary

INTRODUÇÃO

Em 1974 foram publicados 419 artigos relacionados à computação, cujas 3.812 referências em todos eles foram analisadas por Salton & Bergmark (1979), num dos primeiros estudos bibliométricos dessa ciência, para a qual concluíram existir naquele momento três principais áreas: fundamentos teóricos, hardware e software. Para Saracevic (1996, pág.42), Bush (1945), como cientista do MIT e em plena Segunda Guerra Mundial, não só aponta o problema da “explosão informacional” como também sua possível solução com o uso das “tecnologias da informação”, criando o cenário para o surgimento da Ciência da Informação (CI) nos anos 50. Os trabalhos de Kuramoto (1996), Souza (2005), Maia (2008), Corrêa et al (2011), Mesquita et al (2013; 2014) e outros apresentam como tema central a utilização de SNs através da sua extração em PLN de forma semiautomática e automática para a língua portuguesa. Uma delas estaria no uso de sintagmas nominais em sistemas de recuperação da informação, como a indexação automática. O objetivo geral desta pesquisa foi analisar se há uma variação temporal característica da distribuição de valores de termos relevantes ao longo do tempo da produção de textos que contribui como um critério para o processo de sua indexação. Este artigo está organizado em 5 seções: Introdução, Fundamentação Teórica, Metodologia, Resultados e Conclusões

FUNDAMENTAÇÃO TEÓRICA

Sintagmas nominais

Processamento de linguagem natural

Indexação automática

Critérios para pontuação de descritores

Recuperação da Informação Temporal

METODOLOGIA

RESULTADOS

Análise de distribuição temporal por PPG por regressão polinomial

Análise geral de distribuição temporal por PPG

CONSIDERAÇÕES FINAIS

Full Text

Paper version not known

Open DOI Link

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

R Discovery Prime

R Discovery Prime

Fluxo temporal de termos relevantes

Abstract

Highlights

Summary

Talk to us

Similar Papers

More From: BIBLOS

Lead the way for us

Journal: BIBLOS	Publication Date: Dec 31, 2020
License type: CC BY 4.0

Similar Papers

Comparative Study among Term Frequency-Inverse Document Frequency and Count Vectorizer towards K Nearest Neighbor and Decision Tree Classifiers for Text Dataset
Tula Kanta Deo ... Gajendra Sharma
Nepal Journal of Multidisciplinary Research | VOL. 7
Tula Kanta Deo, et. al.Tula Kanta Deo ... Gajendra Sharma
30 Jul 2024
Nepal Journal of Multidisciplinary Research | VOL. 7

Noun phrase based weghting scheme for sentence similarity measurement
A.T Mahmood ... R.K Naser
Journal of Fundamental and Applied Sciences | VOL. 9
A.T Mahmood, et. al.A.T Mahmood ... R.K Naser
19 Jan 2018
Journal of Fundamental and Applied Sciences | VOL. 9

L(p) -norm IDF for scalable image retrieval.
Liang Zheng ... Shengjin Wang
IEEE transactions on image processing : a publication of the IEEE Signal Processing Society | VOL. 23
Liang Zheng, et. al. Liang Zheng ... Shengjin Wang
05 Jun 2014
IEEE transactions on image processing : a publication of the IEEE Signal Processing Society | VOL. 23

Term extraction and hierarchy induction method based on islamic dictionary
Ammar Abdulateef Ali ... Saidah Saad
-
Ammar Abdulateef Ali, et. al.Ammar Abdulateef Ali ... Saidah Saad
01 Aug 2016
01 Aug 2016

Editage

Paperpal

R Discovery

Mind the Graph

R Discovery Prime

R Discovery Prime

Fluxo temporal de termos relevantes

Abstract

Highlights

Summary

Talk to us

Similar Papers

More From: BIBLOS