Abstract

Material docente en abierto de la asignatura Procesamiento de Lenguaje Natural y Minería de Texto, impartida en el Grado en Ciencia e Ingeniería de Datos de la Universidad Rey Juan Carlos. Su propósito es ofrecer una formación integral que combina fundamentos teóricos del procesamiento de lenguaje natural y la minería de texto con una orientación eminentemente práctica. El contenido se organiza en seis bloques complementarios. La guía de estudio define objetivos, competencias, planificación semanal y recomendaciones. Los apuntes desarrollan el contenido teórico de los conceptos de procesamiento de lenguaje natural y minería de texto abordados, mientras que las diapositivas sintetizan los conceptos clave de cada tema. Los ejercicios plantean actividades para aplicar los conceptos presentados. Los vídeos ofrecen un apoyo guiado para la resolución de los ejercicios propuestos, conectando los conceptos requeridos con su resolución práctica. Finalmente, el repositorio de software en abierto reúne notebooks, datos, modelos y dependencias para reproducir las soluciones de los ejercicios. La asignatura presenta, de forma progresiva, los fundamentos del procesamiento de lenguaje natural y la minería de texto junto con su aplicación práctica. Comienza con una introducción a estos campos, su importancia y su motivación. Continúa describiendo las principales técnicas de preprocesamiento textual, niveles de lenguaje y recursos lingüísticos, avanzando hacia las principales técnicas de representación del texto. Sobre esta base, presenta las principales arquitecturas de redes neuronales aplicadas al lenguaje. Posteriormente, profundiza en modelos de lenguaje basados en Transformers, incluyendo estrategias de fine-tuning y post-training. A continuación, aborda aplicaciones recientes de procesamiento de lenguaje natural, como reconocimiento de entidades nombradas, prompt engineering, generación aumentada por recuperación y arquitecturas agénticas. Finalmente, introduce técnicas de aumento de datos para textos en lenguaje natural. El enfoque docente combina teoría con práctica. Cada bloque teórico se acompaña de ejercicios y notebooks reproducibles con herramientas y librerías de procesamiento de lenguaje natural y minería de texto. De este modo, el estudiante no solo comprende sus fundamentos, sino que también desarrolla la capacidad de resolver problemas reales de análisis y procesamiento de texto. El contenido incluido en este depósito contiene los siguientes materiales: - libro.pdf: documento docente que integra y organiza los materiales de la asignatura. - fuentes.zip: archivos fuente utilizados para la elaboración y edición del documento docente anterior. - software.zip: depósito de software utilizado en la asignatura, distribuido bajo licencia GPLv3 y archivado en Software Heritage. Más información sobre el depósito software se encuentra disponible en el archivo README.md incluido en él. > SWHID: swh:1:dir:a161c34fb0907259bf11ab888d0ff3d9092719ba > Repositorio: https://github.com/madrueno/urjc-gcid-pln-mt
Loading...

Quotes

plumx
0 citations in WOS
0 citations in

Journal Title

Journal ISSN

Volume Title

Publisher

URL external

DOI

Description

Citation

Endorsement

Review

Supplemented By

Referenced By

Statistics

Views
104
Downloads
145

Bibliographic managers

Document viewer

Select a file to preview:
Reload