Estudio y nuevas estrategias en el uso de las Entidades Nombradas en el Clustering Bilingüe de noticias
Abstract
Hoy en día Internet da la posibilidad de acceder a infinidad de recursos en idiomas diferentes, lo que ha permitido un cambio en la forma en la que las personas se comunican, negocian y trabajan. A diario se publica una ingente cantidad de información nueva y esta sobrecarga de información hace necesario el desarrollo y mejora de los métodos de acceso a la información de los que disponemos. Mantener la información organizada es un factor clave para facilitar el acceso a la misma. De toda la cantidad de información nueva disponible cada día en la Red, una buena parte se corresponde con noticias; éstas constituyen una importante fuente de información, permiten estar informados en cualquier momento y en cualquier lugar sin fronteras geográficas. Aunque la información de actualidad que necesitamos pueda estar disponible en la Web, no será información útil si no somos capaces de acceder a ella o si el esfuerzo humano requerido para localizarla es importante. Con este objetivo, es cada vez más habitual el uso de técnicas automáticas para agrupar documentos. Así, una organización automática de las noticias donde éstas se agrupen por temática resulta muy útil. En esta tesis el interés se centra en el clustering de noticias, que consiste básicamente en agrupar las noticias en base a su similitud temática, con independencia de la lengua en la que las noticias estén escritas. Y para ello como unidad de texto fundamental se estudiarían las Entidades Nombradas. Una Entidad Nombrada es una unidad de información que puede hacer referencia a personas, lugares, organizaciones, fechas y datos de tiempo o valores numéricos y porcentajes, entre otros elementos. Y dado el estilo de redacción de las noticias, que se corresponde con el género informativo donde lo primordial es informar, y que un porcentaje alto de noticias describen uno o más sucesos específicos, es habitual que las Entidades Nombradas contengan información acerca de los protagonistas del suceso o evento que se describe en la noticia y también cuándo y dónde se produce. Ante una noticia el redactor se plantea una serie de cuestiones informativas para describir qué sucedió, a quién, cuándo, dónde, etc., conteniendo las Entidades Nombradas la respuesta a parte de estas preguntas. Por ello, en esta tesis se considera a las Entidades Nombradas como elementos textuales destacados para el clustering de noticias. Un proceso de clustering se compone de varias etapas principales y en esta tesis se realizan estudios y se plantean propuestas sobre cómo utilizar las Entidades Nombradas en cada una de dichas etapas. El objetivo principal de la tesis es aprovechar lo máximos posible las Entidades Nombradas, de forma que permita mejorar los resultados del clustering de noticias. La primera etapa se corresponde con la representación de los documentos y juega un papel fundamental en el clustering de las noticias, donde diferentes aspectos pueden influir en el resultado final. Se estudia cómo representar las noticias; cómo tratar la información en diferente lengua, variando la forma en el tratamiento de las Entidades Nombradas; se realizan propuestas diferentes para la creación del vocabulario de representación y se utilizan algoritmos de clustering del estado del arte. Las conclusiones que se obtienen se tienen en cuenta en el siguiente estudio, correspondiente a la segunda etapa del proceso de clustering, donde se plantean nuevas formas para medir la similitud entre las noticias utilizando únicamente las Entidades Nombradas. En la etapa final del proceso se proponen diferentes algoritmos de clustering basados también en las Entidades Nombradas. Como estudio complementario al problema de la representación de las noticias basada en Entidades Nombradas se estudia también el problema de la identificación de cognados, que es uno de los enfoques para el tratamiento de la información de diferente lengua que se utiliza en la tesis. Se propone un nuevo sistema para esta tarea, basado en lógica borrosa y también se estudia cómo integrarlo en la tarea de identificación de Entidades Nombradas equivalentes, proponiendo un nuevo sistema heurístico para dicha tarea. Para la evaluación y comparación de las diferentes propuestas en las distintas etapas del proceso de clustering, se han utilizado distintas colecciones de noticias en dos lenguas (español e inglés) con características diferentes. De la misma forma se han utilizado diferentes conjuntos de datos en idiomas variados (español, inglés y francés) para comparar la nueva propuesta de identificación de cognados, y también se han utilizado diferentes conjuntos de datos con Entidades Nombradas en distintos idiomas (español, inglés, francés e italiano) para comparar las propuestas para la tarea de encontrar entidades equivalentes. La mayor parte de las colecciones de noticias, así como el resto de conjuntos de datos se han creado en el seno de esta tesis y están disponibles para la comunidad científica.
Description
Tesis Doctoral leída en la Universidad Rey Juan Carlos de Madrid en 2012. Directores de la Tesis: Raquel Martínez Unanue y Víctor Fresno Fernández
Collections
- Tesis Doctorales [1552]
Los ítems de digital-BURJC están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario