Predicting Depression: a comparative study of machine learning approaches based on language usage

Edgardo Ferretti ,Manolis Μaragoudakis ,Maximiliano Sapino ,Luciana Mariñelarena Dondena ,Marcelo Luis Errecalde

doi:10.7714/cnps/11.3.201

Abstract

Abstract Depression is a major public health concern and a leading cause of disability. Globally, more than 332 million people of all ages suffer from depression. Several studies in the literature show that people language usage is indicative of their psychological states. That is why, there is growing interest in the application of natural language processing techniques for predicting depression. In this work, we present a comparative study of different machine learning methods and alternative ways of representing documents to automatically detect social media users who have reported to had been diagnosed with depression. The obtained results have demonstrated that a Deep Learning approach had the superior classification performance, when combined with a Synthetic Minority Oversampling Technique to deal with the problem of class imbalances in the dataset used in our experiments. The F1 score achieved was 82.93% with an accuracy of more than 94%. Keywords: Depression; Machine Learning; Deep Learning; SMOTE (Synthetic Minority Oversampling TEchnique). Resumen La depresion es uno de los mayores problemas de salud publica que constituye a su vez una de las principales causas de incapacidad. A nivel mundial, mas de 332 millones de personas de todas las edades padecen este trastorno. Investigaciones previas demuestran que el lenguaje que utilizan las personas refleja su salud mental. Por tal motivo, existe un creciente interes en la aplicacion de tecnicas de procesamiento del lenguaje natural para predecir la depresion. En este trabajo se presenta un estudio comparativo de diferentes metodos de aprendizaje automatico como asi tambien distintas maneras de representacion de los documentos con el fin de detectar automaticamente a aquellos usuarios de medios sociales que manifestaron haber sido diagnosticados previamente con depresion. Los resultados obtenidos mostraron que la performance del clasificador mejoro considerablemente cuando se aplico un enfoque de Aprendizaje Profundo combinandolo con el algoritmo SMOTE (Synthetic Minority Oversampling TEchnique) que permite hacer frente al problema de las clases desbalanceadas alcanzando asi una medida F1 del 82.93%. En sintesis, este enfoque combinado SMOTE + Aprendizaje Profundo predice la depresion con una exactitud de mas del 94%. Palabras Clave: Depresion; Aprendizaje Automatico; Aprendizaje Profundo; SMOTE (Synthetic Minority Oversampling TEchnique). Resumo A depressao e um dos maiores problemas de saude publica que constitui por sua vez uma das principais causas de incapacidade. A nivel mundial, mais de 332 milhoes de pessoas de todas as idades padecem deste transtorno. Investigacoes previas demonstram que a linguagem que utilizam as pessoas refletem a sua saude mental. Por tal motivo, existe um crescente interesse na aplicacao de tecnicas de processamento da linguagem natural para prognosticar a depressao. Neste trabalho se apresenta um estudo comparativo de diferentes metodos de aprendizagem automatico como assim tambem distintas maneiras de representacao dos documentos com a finalidade de detectar automaticamente aqueles usuarios de meios sociais que manifestaram haver sido diagnosticados previamente com depressao. Os resultados obtidos mostraram que a performance do classificador melhorou consideravelmente quando se aplicou um enfoque de Aprendizagem Profunda combinando com o algoritmo SMOTE (Synthetic Minority Oversampling TEchnique) que permite fazer frente ao problema das classes desbalanceadas alcancando assim uma medida F1 del 82.93%. Em sintese, este enfoque combinado SMOTE + Aprendizagem Profundo prognostica a depressao com uma exatidao de mais de 94%. Palavras-Chave: Depressao; Aprendizagem Automatica; Aprendizagem Profunda; SMOTE (Synthetic Minority Oversampling TEchnique).

Full Text