Estudio y nuevas estrategias en el uso de las Entidades Nombradas en el Clustering Bilingüe de noticias

dc.contributor.authorMontalvo Herranz, María del Soto
dc.date.accessioned2014-02-07T09:07:14Z
dc.date.available2014-02-07T09:07:14Z
dc.date.issued2012
dc.descriptionTesis Doctoral leída en la Universidad Rey Juan Carlos de Madrid en 2012. Directores de la Tesis: Raquel Martínez Unanue y Víctor Fresno Fernándezes
dc.description.abstractHoy en día Internet da la posibilidad de acceder a infinidad de recursos en idiomas diferentes, lo que ha permitido un cambio en la forma en la que las personas se comunican, negocian y trabajan. A diario se publica una ingente cantidad de información nueva y esta sobrecarga de información hace necesario el desarrollo y mejora de los métodos de acceso a la información de los que disponemos. Mantener la información organizada es un factor clave para facilitar el acceso a la misma. De toda la cantidad de información nueva disponible cada día en la Red, una buena parte se corresponde con noticias; éstas constituyen una importante fuente de información, permiten estar informados en cualquier momento y en cualquier lugar sin fronteras geográficas. Aunque la información de actualidad que necesitamos pueda estar disponible en la Web, no será información útil si no somos capaces de acceder a ella o si el esfuerzo humano requerido para localizarla es importante. Con este objetivo, es cada vez más habitual el uso de técnicas automáticas para agrupar documentos. Así, una organización automática de las noticias donde éstas se agrupen por temática resulta muy útil. En esta tesis el interés se centra en el clustering de noticias, que consiste básicamente en agrupar las noticias en base a su similitud temática, con independencia de la lengua en la que las noticias estén escritas. Y para ello como unidad de texto fundamental se estudiarían las Entidades Nombradas. Una Entidad Nombrada es una unidad de información que puede hacer referencia a personas, lugares, organizaciones, fechas y datos de tiempo o valores numéricos y porcentajes, entre otros elementos. Y dado el estilo de redacción de las noticias, que se corresponde con el género informativo donde lo primordial es informar, y que un porcentaje alto de noticias describen uno o más sucesos específicos, es habitual que las Entidades Nombradas contengan información acerca de los protagonistas del suceso o evento que se describe en la noticia y también cuándo y dónde se produce. Ante una noticia el redactor se plantea una serie de cuestiones informativas para describir qué sucedió, a quién, cuándo, dónde, etc., conteniendo las Entidades Nombradas la respuesta a parte de estas preguntas. Por ello, en esta tesis se considera a las Entidades Nombradas como elementos textuales destacados para el clustering de noticias. Un proceso de clustering se compone de varias etapas principales y en esta tesis se realizan estudios y se plantean propuestas sobre cómo utilizar las Entidades Nombradas en cada una de dichas etapas. El objetivo principal de la tesis es aprovechar lo máximos posible las Entidades Nombradas, de forma que permita mejorar los resultados del clustering de noticias. La primera etapa se corresponde con la representación de los documentos y juega un papel fundamental en el clustering de las noticias, donde diferentes aspectos pueden influir en el resultado final. Se estudia cómo representar las noticias; cómo tratar la información en diferente lengua, variando la forma en el tratamiento de las Entidades Nombradas; se realizan propuestas diferentes para la creación del vocabulario de representación y se utilizan algoritmos de clustering del estado del arte. Las conclusiones que se obtienen se tienen en cuenta en el siguiente estudio, correspondiente a la segunda etapa del proceso de clustering, donde se plantean nuevas formas para medir la similitud entre las noticias utilizando únicamente las Entidades Nombradas. En la etapa final del proceso se proponen diferentes algoritmos de clustering basados también en las Entidades Nombradas. Como estudio complementario al problema de la representación de las noticias basada en Entidades Nombradas se estudia también el problema de la identificación de cognados, que es uno de los enfoques para el tratamiento de la información de diferente lengua que se utiliza en la tesis. Se propone un nuevo sistema para esta tarea, basado en lógica borrosa y también se estudia cómo integrarlo en la tarea de identificación de Entidades Nombradas equivalentes, proponiendo un nuevo sistema heurístico para dicha tarea. Para la evaluación y comparación de las diferentes propuestas en las distintas etapas del proceso de clustering, se han utilizado distintas colecciones de noticias en dos lenguas (español e inglés) con características diferentes. De la misma forma se han utilizado diferentes conjuntos de datos en idiomas variados (español, inglés y francés) para comparar la nueva propuesta de identificación de cognados, y también se han utilizado diferentes conjuntos de datos con Entidades Nombradas en distintos idiomas (español, inglés, francés e italiano) para comparar las propuestas para la tarea de encontrar entidades equivalentes. La mayor parte de las colecciones de noticias, así como el resto de conjuntos de datos se han creado en el seno de esta tesis y están disponibles para la comunidad científica.es
dc.description.departamentoCiencias de la Computaciónes
dc.identifier.urihttp://hdl.handle.net/10115/12075
dc.language.isospaes
dc.publisherUniversidad Rey Juan Carloses
dc.rights.accessRightsinfo:eu-repo/semantics/openAccesses
dc.subjectInformáticaes
dc.subjectComputaciónes
dc.subject.unesco3307 Tecnología Electrónicaes
dc.titleEstudio y nuevas estrategias en el uso de las Entidades Nombradas en el Clustering Bilingüe de noticiases
dc.typeinfo:eu-repo/semantics/doctoralThesises

Archivos

Bloque original

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
sotoThesis2012.pdf
Tamaño:
8.59 MB
Formato:
Adobe Portable Document Format

Bloque de licencias

Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
3.06 KB
Formato:
Item-specific license agreed upon to submission
Descripción:

Colecciones