MDLText aplicado na Filtragem Automática de SPIM e SMS Spam

Renato Moraes Silva,Akebo Yamakami,Tiago A Almeida

doi:10.5753/isys.2018.359

Abstract

A filtragem automática de spam em mensagens instantâneas e SMS é um problema desafiador, pois as mensagens são frequentemente curtas e repletas de ruídos, tais como gírias, expressões idiomáticas, símbolos, emoticons e abreviações, o que dificulta a extração de conhecimento e predição. Para enfrentar esse problema, neste artigo é avaliado um método de classificação de texto baseado no princípio da descrição mais simples, que é eficiente, rápido, escalável, multiclasse e possui aprendizado incremental. Experimentos realizados com uma base de dados real e pública, em cenários de aprendizado online e offline, indicam que o método proposto é promissor para a tarefa de detecção de spam em mensagens instantâneas e SMS.

Highlights

A popularidade do serviço de mensagens curtas (SMS – Short Message Service) e das mensagens instantâneas compartilhadas por meio de dispositivos móveis tem aumentado cada vez mais
Isso tem atraído a atenção dos spammers que passaram a enviar mensagens indiscriminadamente sem o consentimento dos usuários, causando vários problemas
Com o intuito de oferecer uma explicação didática das diferenças entre as diversas técnicas de atribuição de pontuação para os termos, a Tabela 3 ilustra a pontuação de 10 termos em um problema de classificação de 4 classes, cada uma com 100 documentos

Summary

Introdução

A popularidade do serviço de mensagens curtas (SMS – Short Message Service) e das mensagens instantâneas compartilhadas por meio de dispositivos móveis tem aumentado cada vez mais. Eles propuseram um framework para a normalização e enriquecimento de textos curtos, que combina técnicas de normalização léxica e detecção de contexto, com o objetivo de obter melhores atributos e aprimorar o desempenho dos métodos de filtragem de SPIM e SMS spam. É necessário estudar se técnicas de pré-processamento e enriquecimento textual, capazes de diminuir o ruído e aumentar o número de informações disponíveis para serem usadas pelos métodos de classificação, podem ajudar a aumentar a eficiência na detecção de SMS Spam e SPIM. O método proposto obteve melhores resultados na classificação de spam disseminado através de mensagens de texto curtas do que outros métodos considerados o estado-da-arte na solução do problema. Possivelmente, os resultados obtidos por [Silva et al 2016b] poderiam ter sido melhores se outras técnicas de pré-processamento para normalização dos termos das mensagens e enriquecimento textual tivessem sido utilizadas. Na Seção 6, são apresentadas as conclusões e direcionamentos para trabalhos futuros

Seleção de modelos baseada na Navalha de Occam

O método MDLText

Técnicas para calcular a pontuação dos termos

Metodologia experimental

Avaliação

Medidas de desempenho

Métodos de aprendizado online

Experimentos e resultados

Avaliação do MDLText usando diferentes técnicas de pontuação de termos

Comparação do MDLText com outros métodos

Classificação online

Conclusões e trabalhos futuros

Full Text

Published version (

Free)

Open DOI Link

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

R Discovery Prime

R Discovery Prime

MDLText aplicado na Filtragem Automática de SPIM e SMS Spam

Abstract

Highlights

Summary

Talk to us

Similar Papers

More From: iSys - Brazilian Journal of Information Systems

Lead the way for us

Journal: iSys - Brazilian Journal of Information Systems	Publication Date: May 21, 2018
License type: cc-by

Similar Papers

Occam’s razor-based spam filter
Tiago A Almeida ... Akebo Yamakami
Journal of Internet Services and Applications | VOL. 3
Tiago A Almeida, et. al.Tiago A Almeida ... Akebo Yamakami
02 Oct 2012
Journal of Internet Services and Applications | VOL. 3

Towards Web Spam Filtering Using a Classifier Based on the Minimum Description Length Principle
Renato M Silva ... Tiago A Almeida
-
Renato M Silva, et. al.Renato M Silva ... Tiago A Almeida
01 Dec 2016
01 Dec 2016

Maintaining regularity and generalization in data using the minimum description length principle and genetic algorithm: Case of grammatical inference
Hari Mohan Pandey ... Ankit Chaudhary
Swarm and Evolutionary Computation | VOL. 31
Hari Mohan Pandey, et. al.Hari Mohan Pandey ... Ankit Chaudhary
17 May 2016
Swarm and Evolutionary Computation | VOL. 31

Minimum description length principle in the field of image analysis and pattern recognition
A S Potapov
Pattern Recognition and Image Analysis | VOL. 21
A S PotapovA S Potapov
01 Jun 2011
Pattern Recognition and Image Analysis | VOL. 21

Editage

Paperpal

R Discovery

Mind the Graph

R Discovery Prime

R Discovery Prime

MDLText aplicado na Filtragem Automática de SPIM e SMS Spam

Abstract

Highlights

Summary

Talk to us

Similar Papers

More From: iSys - Brazilian Journal of Information Systems