Lovera, F. A. & Cardinale, Y.
2 Rev. Cient. Sist. Inform. 3(1): e418; (Ene-Jun, 2023). e-ISSN: 2709-992X
1. INTRODUCCIÓN
Los usuarios de Twitter hacen uso de la plataforma para expresar desde opiniones hasta emociones sobre
cualquier tópico. Los modelos de clasificación inteligentes han demostrado su capacidad de predicción de
sentimientos en textos, para determinar la percepción de los usuarios sobre aspectos de la vida cotidiana
(Mostafa, 2013), como pueden ser: compras de productos en el mercado o incluso gustos políticos. La
información extraída por análisis de sentimientos se puede usar como conocimiento para análisis
posteriores. En general, se quiere predecir los resultados de preferencias o tendencias de un tópico
particular a partir del sentimiento (Li et al., 2022).
Surge entonces la pregunta sobre cuál es la mejor técnica de análisis de sentimientos en textos. En este
artículo evaluamos las técnicas usadas más comunes para detectar sentimientos en textos de poca longitud,
específicamente en tuits, cuya longitud es de 280 caracteres. El objetivo es evaluar técnicas tanto de
modelos inteligentes de Machine Learning, como Regresión Logística, Naive Bayes y Support Vector
Machine (SVM), como de Deep Learning, como Convolutional Neural Network (CNN), Long Short Term
Memory (LSTM) y Bidirectional Long Short Term Memory (Bi-LSTM). El conjunto de datos (dataset)
utilizado, para la evaluación de tales técnicas es el de Sentiment140 que contiene 1,600,000 tuits en Ingles
etiquetados como positivo, negativo y neutral, así como metadatos que describen cada Tuit.
Para efectos del análisis de sentimientos, sólo es necesario el contenido del texto del Tuit junto con su
etiqueta (sin embargo, en este trabajo no se considera la etiqueta neutral). Para realizar el análisis de
sentimientos correctamente, es necesario realizar una limpieza del texto, que incluye desde eliminación de
caracteres no alfanuméricos (esto deja a los emoticones de lado, pero no afectara los resultados, ya que la
forma en que fue etiquetado el dataset toma en cuenta los emoticones) hasta corrección de errores
ortográficos. También es importante realizar una exploración de datos, que ayude a visualizar estadísticas
referentes a la distribución del dataset. Dichas estadísticas se utilizan para conocer aspectos relevantes del
dataset (como balance de datos) y poder entrenar adecuadamente los modelos inteligentes. Así,
adicionalmente en este artículo, proponemos un enfoque metodológico que incluye las fases de
preprocesamiento de datos (basado en Natural Language Processing – NLP), construcción de modelos
inteligentes de predicción y evaluación comparativa para identificar cuál de los modelos presenta mayor
precisión para predecir el sentimiento en textos tuits.
2. MATERIALES Y MÉTODOS
Esta sección trata sobre la metodología que fue empleada en nuestro estudio. Planteamos una sección en
la que exponemos una estrategia metodológica general para realizar análisis de sentimientos y luego
realizamos nuestro estudio comparativo basados en esta metodología. Esta sección consta de dos
subsecciones: Estrategia metodológica y Estudio comparativo.
2.1. Estrategia metodológica
Para realizar el estudio comparativo de diferentes técnicas de aprendizaje, proponemos una estrategia
metodológica que abarca desde la fase de extracción del dataset hasta la evaluación comparativa. En la
Figura 1, se muestra el esquema general de nuestra estrategia metodológica, sus fases y las actividades
consideradas en cada una. En las primeras dos fases se utilizan técnicas de NLP para normalizar el texto.
Esta normalización sirve para tener una representación regular del texto, que será una entrada adecuada
a los algoritmos inteligentes para asegurar un proceso de aprendizaje correcto. A continuación, se detalla
cada fase de la estrategia.