CarpeDM: Sistema de Análisis de semejanzas entre ficheros de código fuente
Abstract
El software libre garantiza el acceso al código fuente de los programas. Debido a este acceso público al código fuente, en el software libre es más habitual un porcentaje destacable de código fuente reutilizado o semejante. Esta poco estudiado cuanto código fuente ha sido reutilizado o semejante. Por este motivo, los esfuerzos de este proyecto están orientados en obtener respuestas en torno a esta incógnita. Para ello el proyecto provee herramientas que obtienen información del código fuente del software libre, analizan esa información en busca código fuente semejante y devuelve respuestas sobre ese código, utilizando una aproximación novedosa: el uso de algoritmos de resumen tipo NILSIMSA. Se ha estimado el estudio de una distribución de software libre, Debian 3.1, como un punto de referencia válido. El desarrollo del proyecto ha seguido una línea en espiral hacia la herramienta final. Se ha probado las distintas aproximaciones hacia la herramienta final, y se ha podido estimar la cantidad de código similar o repetido , a nivel de ficheros. Algunos de los resultados obtenidos son que para Debian 3.1 se ha obtenido 8.716 paquetes, compuestos a su vez por 2.403.211 ficheros. Para los 2.403.211 ficheros, se ha obtenido un total de 194.172 códigosMD5 repetidos y 202.177 códigos NILSIMSA repetidos. Estas cifras nos indican que en este sistema de software hay código repetido y durante los próximos capítulos se estudian los detalles de estos datos.
Description
Proyecto Fin de Carrera leído en la Universidad Rey Juan Carlos en el curso académico 2009/2010. Tutor del Proyecto: Jesús M. González Barahona
Collections
- Proyectos Fin de Carrera [439]