Abstract
Este artigo explora a semântica dos tempos históricos usando Processamento de Linguagem Natural (PLN). Desenvolvemos a família de modelos Woke (Word Embedding and Knowledge Model), utilizando algoritmos de vetorização de palavras como o Word2Vec, treinados em um corpus de teses e dissertações da Universidade Federal de Santa Catarina (2003-2024). Os modelos Woke-HST e Woke-CFH foram treinados especificamente em História e Ciências Humanas. Já os modelos Woke-UFSC foram expostos a 96,25% dos dados nativo digitais disponíveis no repositório de nossa universidade. O desenvolvimento envolveu coleta, pré-processamento, treinamento e validação dos dados, usando aprendizados micro-diacrônico, temporal e incremental para capturar variações semânticas ao longo do tempo. Os resultados preliminares mostram mudanças na estabilidade dos significados de conceitos como “raça”, “gênero” e “classe”. Apresentamos também SKINNER, um componente de IA explicável (XAI) que rastreia contextos linguísticos específicos, contribuindo para a transparência dos resultados. Concluímos que a captura completa de “espaços de experiência” requer modelos mais complexos e um corpus de dados mais amplo. O próximo passo do projeto é escalar os dados e usar modelos baseados na arquitetura Transformer para uma representação mais precisa dos conceitos históricos. Este trabalho é parte de um projeto interdisciplinar que busca contribuir para uma história digital teoricamente orientada que integre abordagens quantitativas e qualitativas, aliando erudição e análise de big data.
Talk to us
Join us for a 30 min session where you can share your feedback and ask us any queries you have
Similar Papers
Disclaimer: All third-party content on this website/platform is and will remain the property of their respective owners and is provided on "as is" basis without any warranties, express or implied. Use of third-party content does not indicate any affiliation, sponsorship with or endorsement by them. Any references to third-party content is to identify the corresponding services and shall be considered fair use under The CopyrightLaw.