Clasificación Automática Multiclase de Tweets y su Representación Gráfica
Abstract
Las redes sociales han protagonizado un importante auge en los últimos años, lo que genera grandes cantidades de información difíciles de procesar de forma manual. Al mismo tiempo, se ha podido avanzar en áreas como Procesamiento de Lenguaje Natural (PLN), análisis y visualización de datos que han permitido un procesamiento cada vez más automático y ventajoso para los fines que se quieran conseguir a partir del gran volumen de datos que se puede recopilar. En particular, en este trabajo, a partir de una iniciativa conjunta de Telefónica I+D y la Universidad Rey Juan Carlos, se investiga la posibilidad de la identificación y clasificación automática multi-clase de temáticas de quejas registradas automáticamente en tweets, y el posterior desarrollo de una Interfaz de Usuario que permita visualizar los temas identificados de forma geo-localizada. Para conseguir este objetivo, se combinan conocimientos y técnicas de áreas como PLN estadístico para el pre-procesado de los tweets, clasificadores supervisados, y técnicas de visualización. El proyecto consta de dos partes diferenciadas: por un lado, el proceso de identificación y clasificación de las quejas para el que se entrenan dos clasificadores multi-clase: SVM con diferentes funciones kernel y el método multi-clase one-versus-one, y Random Forests. Tras realizar un análisis de resultados para cada uno de ellos se determina como método para clasificar las quejas Random Forests con una precisión media del 81.46% y una cobertura media del 59.88%. Por otro lado, la visualización de las quejas clasificadas para la que se desarrolla una Interfaz de Usuario que permite al usuario visualizar las diferentes quejas de forma dinámica en Google Maps mediante un mapa de calor en 2D y en Google Earth descargando el fichero que contiene una representación de las quejas mediante barras con diferentes alturas en 3D. Se pidió a ocho usuarios de edades comprendidas entre 23 y 40 años que interactuasen con la interfaz desarrollada y completasen un cuestionario de satisfacción. Los resultados obtenidos muestran que el 87.5% de los usuarios creen que la clasificación y visualización de los datos es una buena idea, que se ha conseguido con el desarrollo de este proyecto, y que la interfaz es sencilla de utilizar. El 100% de los usuarios considera que la visualización representa con claridad los datos que se quieren mostrar aunque uno de los usuarios opina que podría mejorar y el 87.5% cree que la información representada puede resultar de utilidad a los organismos implicados en la misma.
Description
Trabajo Fin de Máster
Collections
- Trabajos Fin de Máster [112]
Los ítems de digital-BURJC están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario