Abstract

A filtragem automática de spam em mensagens instantâneas e SMS é um problema desafiador, pois as mensagens são frequentemente curtas e repletas de ruídos, tais como gírias, expressões idiomáticas, símbolos, emoticons e abreviações, o que dificulta a extração de conhecimento e predição. Para enfrentar esse problema, neste artigo é avaliado um método de classificação de texto baseado no princípio da descrição mais simples, que é eficiente, rápido, escalável, multiclasse e possui aprendizado incremental. Experimentos realizados com uma base de dados real e pública, em cenários de aprendizado online e offline, indicam que o método proposto é promissor para a tarefa de detecção de spam em mensagens instantâneas e SMS.

Highlights

  • A popularidade do serviço de mensagens curtas (SMS – Short Message Service) e das mensagens instantâneas compartilhadas por meio de dispositivos móveis tem aumentado cada vez mais

  • Isso tem atraído a atenção dos spammers que passaram a enviar mensagens indiscriminadamente sem o consentimento dos usuários, causando vários problemas

  • Com o intuito de oferecer uma explicação didática das diferenças entre as diversas técnicas de atribuição de pontuação para os termos, a Tabela 3 ilustra a pontuação de 10 termos em um problema de classificação de 4 classes, cada uma com 100 documentos

Read more

Summary

Introdução

A popularidade do serviço de mensagens curtas (SMS – Short Message Service) e das mensagens instantâneas compartilhadas por meio de dispositivos móveis tem aumentado cada vez mais. Eles propuseram um framework para a normalização e enriquecimento de textos curtos, que combina técnicas de normalização léxica e detecção de contexto, com o objetivo de obter melhores atributos e aprimorar o desempenho dos métodos de filtragem de SPIM e SMS spam. É necessário estudar se técnicas de pré-processamento e enriquecimento textual, capazes de diminuir o ruído e aumentar o número de informações disponíveis para serem usadas pelos métodos de classificação, podem ajudar a aumentar a eficiência na detecção de SMS Spam e SPIM. O método proposto obteve melhores resultados na classificação de spam disseminado através de mensagens de texto curtas do que outros métodos considerados o estado-da-arte na solução do problema. Possivelmente, os resultados obtidos por [Silva et al 2016b] poderiam ter sido melhores se outras técnicas de pré-processamento para normalização dos termos das mensagens e enriquecimento textual tivessem sido utilizadas. Na Seção 6, são apresentadas as conclusões e direcionamentos para trabalhos futuros

Seleção de modelos baseada na Navalha de Occam
O método MDLText
Técnicas para calcular a pontuação dos termos
Metodologia experimental
Avaliação
Medidas de desempenho
Métodos de aprendizado online
Experimentos e resultados
Avaliação do MDLText usando diferentes técnicas de pontuação de termos
Comparação do MDLText com outros métodos
Classificação online
Conclusões e trabalhos futuros
Full Text
Published version (Free)

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call