Estudio y nuevas estrategias en el uso de las Entidades Nombradas en el Clustering Bilingüe de noticias
Archivos
Fecha
2012
Autores
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad Rey Juan Carlos
Resumen
Hoy en día Internet da la posibilidad de acceder a infinidad de recursos en idiomas diferentes,
lo que ha permitido un cambio en la forma en la que las personas se comunican, negocian y
trabajan. A diario se publica una ingente cantidad de información nueva y esta sobrecarga de
información hace necesario el desarrollo y mejora de los métodos de acceso a la información
de los que disponemos. Mantener la información organizada es un factor clave para facilitar el
acceso a la misma.
De toda la cantidad de información nueva disponible cada día en la Red, una buena parte
se corresponde con noticias; éstas constituyen una importante fuente de información, permiten
estar informados en cualquier momento y en cualquier lugar sin fronteras geográficas. Aunque la
información de actualidad que necesitamos pueda estar disponible en la Web, no será información
útil si no somos capaces de acceder a ella o si el esfuerzo humano requerido para localizarla es
importante. Con este objetivo, es cada vez más habitual el uso de técnicas automáticas para
agrupar documentos. Así, una organización automática de las noticias donde éstas se agrupen
por temática resulta muy útil.
En esta tesis el interés se centra en el clustering de noticias, que consiste básicamente en
agrupar las noticias en base a su similitud temática, con independencia de la lengua en la que las
noticias estén escritas. Y para ello como unidad de texto fundamental se estudiarían las Entidades
Nombradas. Una Entidad Nombrada es una unidad de información que puede hacer referencia
a personas, lugares, organizaciones, fechas y datos de tiempo o valores numéricos y porcentajes,
entre otros elementos. Y dado el estilo de redacción de las noticias, que se corresponde con
el género informativo donde lo primordial es informar, y que un porcentaje alto de noticias
describen uno o más sucesos específicos, es habitual que las Entidades Nombradas contengan
información acerca de los protagonistas del suceso o evento que se describe en la noticia y también
cuándo y dónde se produce. Ante una noticia el redactor se plantea una serie de cuestiones
informativas para describir qué sucedió, a quién, cuándo, dónde, etc., conteniendo las Entidades
Nombradas la respuesta a parte de estas preguntas. Por ello, en esta tesis se considera a las
Entidades Nombradas como elementos textuales destacados para el clustering de noticias.
Un proceso de clustering se compone de varias etapas principales y en esta tesis se realizan
estudios y se plantean propuestas sobre cómo utilizar las Entidades Nombradas en cada una de dichas etapas. El objetivo principal de la tesis es aprovechar lo máximos posible las Entidades
Nombradas, de forma que permita mejorar los resultados del clustering de noticias.
La primera etapa se corresponde con la representación de los documentos y juega un papel
fundamental en el clustering de las noticias, donde diferentes aspectos pueden influir en el
resultado final. Se estudia cómo representar las noticias; cómo tratar la información en diferente
lengua, variando la forma en el tratamiento de las Entidades Nombradas; se realizan propuestas
diferentes para la creación del vocabulario de representación y se utilizan algoritmos de clustering
del estado del arte. Las conclusiones que se obtienen se tienen en cuenta en el siguiente estudio,
correspondiente a la segunda etapa del proceso de clustering, donde se plantean nuevas formas
para medir la similitud entre las noticias utilizando únicamente las Entidades Nombradas. En
la etapa final del proceso se proponen diferentes algoritmos de clustering basados también en
las Entidades Nombradas.
Como estudio complementario al problema de la representación de las noticias basada en
Entidades Nombradas se estudia también el problema de la identificación de cognados, que es
uno de los enfoques para el tratamiento de la información de diferente lengua que se utiliza
en la tesis. Se propone un nuevo sistema para esta tarea, basado en lógica borrosa y también
se estudia cómo integrarlo en la tarea de identificación de Entidades Nombradas equivalentes,
proponiendo un nuevo sistema heurístico para dicha tarea.
Para la evaluación y comparación de las diferentes propuestas en las distintas etapas del
proceso de clustering, se han utilizado distintas colecciones de noticias en dos lenguas (español
e inglés) con características diferentes. De la misma forma se han utilizado diferentes conjuntos
de datos en idiomas variados (español, inglés y francés) para comparar la nueva propuesta
de identificación de cognados, y también se han utilizado diferentes conjuntos de datos con
Entidades Nombradas en distintos idiomas (español, inglés, francés e italiano) para comparar las
propuestas para la tarea de encontrar entidades equivalentes. La mayor parte de las colecciones
de noticias, así como el resto de conjuntos de datos se han creado en el seno de esta tesis y están
disponibles para la comunidad científica.
Descripción
Tesis Doctoral leída en la Universidad Rey Juan Carlos de Madrid en 2012. Directores de la Tesis: Raquel Martínez Unanue y Víctor Fresno Fernández