CarpeDM: Sistema de Análisis de semejanzas entre ficheros de código fuente
Fecha
2010
Autores
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad Rey Juan Carlos
Enlace externo
Resumen
El software libre garantiza el acceso al código fuente de los programas. Debido a
este acceso público al código fuente, en el software libre es más habitual un porcentaje
destacable de código fuente reutilizado o semejante.
Esta poco estudiado cuanto código fuente ha sido reutilizado o semejante. Por este
motivo, los esfuerzos de este proyecto están orientados en obtener respuestas en torno
a esta incógnita. Para ello el proyecto provee herramientas que obtienen información
del código fuente del software libre, analizan esa información en busca código fuente
semejante y devuelve respuestas sobre ese código, utilizando una aproximación novedosa:
el uso de algoritmos de resumen tipo NILSIMSA.
Se ha estimado el estudio de una distribución de software libre, Debian 3.1, como
un punto de referencia válido. El desarrollo del proyecto ha seguido una línea en espiral
hacia la herramienta final.
Se ha probado las distintas aproximaciones hacia la herramienta final, y se ha podido
estimar la cantidad de código similar o repetido , a nivel de ficheros.
Algunos de los resultados obtenidos son que para Debian 3.1 se ha obtenido 8.716
paquetes, compuestos a su vez por 2.403.211 ficheros.
Para los 2.403.211 ficheros, se ha obtenido un total de 194.172 códigosMD5 repetidos
y 202.177 códigos NILSIMSA repetidos.
Estas cifras nos indican que en este sistema de software hay código repetido y durante
los próximos capítulos se estudian los detalles de estos datos.
Descripción
Proyecto Fin de Carrera leído en la Universidad Rey Juan Carlos en el curso académico 2009/2010. Tutor del Proyecto: Jesús M. González Barahona