CARGA, DISEÑO Y ANÁLISIS DE UN DATASET REAL USANDO UNA BASE DE DATOS EN NEO4J

Fecha

2023-07-19

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Rey Juan Carlos

Resumen

Ante el aumento constante del volumen de datos que las organizaciones deben manejar a diario, así como respuesta ante los nuevos desafíos que se nos descubren con el avance de las tecnologías y de Internet, surgieron una serie de limitaciones de las bases de datos hasta entonces utilizadas, llamadas bases de datos relacionales o SQL. Esto desembocó en un nuevo modelo de almacenamiento de datos llamado NoSQL (Not Only SQL) que nos ofrece la oportunidad de manejar y trabajar con grandes volúmenes de datos (lo que se conoce actualmente como Big Data) y afrontar de una mejor manera los retos tecnológicos que se nos plantean en la actualidad. Aunque dentro de las bases de datos NoSQL hay varios tipos como pueden ser las clave-valor, las orientadas a documentos o la de familia de columnas, en este trabajo nos vamos a centrar en las orientadas a grafos. Para ello vamos a utilizar un sistema de gestión de bases de datos denominado Neo4J. Todo esto lo vamos a aplicar trabajando con un dataset real de autores y publicaciones científicas de informática con una gran cantidad de registros conocido como DBLP. Para ello llevaremos a cabo los siguientes pasos: Primero trataremos el dataset para poder importarlo correctamente y le aplicaremos procesos de limpieza de datos. Esto lo haremos mediante varios scritps programados en Python. Una vez hecho esto, realizaremos la importación al sistema de gestión Neo4j mediante un fichero de importación previamente definido, convirtiendo el dataset en una base de datos orientada a grafos. Después, y tras comprobar la correcta importación de los datos, aplicaremos una serie de algoritmos a la base de datos creada con el lenguaje de programación propio de Neo4J conocido como Cypher. Finalmente concluiremos con la presentación de los resultados obtenidos y los problemas encontrados. Este trabajo supondrá por tanto un ejemplo práctico, siguiendo todos los pasos de cómo tratar y convertir un dataset de gran tamaño en una base de datos modelada mediante grafos para la posterior aplicación de algoritmo, todo ello utilizando Neo4J. Como resultado, se obtendrán conclusiones de valor acerca de la base de datos que serán de gran utilidad a la hora de realizar análisis, como pueden ser la detección de comunidades de publicaciones o autores o la identificación de las universidades más relevantes en el campo de la informática según la cantidad de tesis de investigación realizadas. Por último, se realizarán procesos de visualización de estos resultados para su mejor entendimiento.

Descripción

Trabajo Fin de Grado leído en la Universidad Rey Juan Carlos en el curso académico 2022/2023. Directores/as: Belén Vela Sánchez

Citación