Examinando por Autor "Martín de Diego, Isaac"

Mostrando 1 - 20 de 25

A complexity measure for binary classification problems based on lost points
(Springer International Publishing, 2021) Lancho, Carmen; Martín de Diego, Isaac; Cuesta, Marina; Aceña, Víctor; M. Moguerza, Javier
Complexity measures are focused on exploring and capturing the complexity of a data set. In this paper, the Lost points (LP) complexity measure is proposed. It is obtained by applying k-means in a recursive and hierarchical way and it provides both the data set and the instance perspective. On the instance level, the LP measure gives a probability value for each point informing about the dominance of its class in its neighborhood. On the data set level, it estimates the proportion of lost points, referring to those points that are expected to be misclassified since they lie in areas where its class is not dominant. The proposed measure shows easily interpretable results competitive with measures from state-of-art. In addition, it provides probabilistic information useful to highlight the boundary decision on classification problems.
An approach to detect user behaviour anomalies within identity federations
(Elsevier, 2021) Martín, Alejandro G.; Beltrán, Marta; Fernández-Isabel, Alberto; Martín de Diego, Isaac
User and Entity Behaviour Analytics (UEBA) mechanisms rely on statistical techniques and Machine Learning to determine when a significant deviation from patterns or trends established as a standard for users and entities is occurring. These mechanisms are beneficial within cybersecurity contexts because they allow managers and administrators to have early alerts warning about potential security incidents. This paper proposes the utilisation of UEBA to improve the security of Federated Identity Management (FIM) solutions. The proposed UEBA workflow allows Relying Parties within identity federations to build a session fingerprint characterising each user’s behaviour from available information. Furthermore, it enables anomaly detection based on this fingerprint, integrating raised alerts within current identity management specifications. The proposed workflow is validated and evaluated in a real use case based on a web chat application using OpenID Connect for identity management.
Apuntes de la asignatura Aprendizaje Automático I del Grado en Ciencia e Ingeniería de Datos (Curso 24/25)
(2025-02-18) Martín de Diego, Isaac; Lancho Martín, Carmen
Libro de apuntes de la asignatura Aprendizaje Automático I del Grado en Ciencia e Ingeniería de Datos (referente al curso académico 2024/2025). Contiene un pdf con todos los apuntes en formato libro y un zip con el archivo fuente editable (códigos de R).
Combining user behavioural information at the feature level to enhance continuous authentication systems
(Elsevier, 2022) G. Martín, Alejandro; Martín de Diego, Isaac; Fernández-Isabel, Alberto; Beltrán, Marta; R. Fernández, Rubén
The scientific and business communities are proposing new authentication methods more robust than traditional solutions relying on a single security point such as passwords (i.e. ‘‘something you know’’). User and Entity Behavior Analysis (UEBA) has postulated as an excellent solution to improve authentication systems by performing continuous authentication to extend the authentication process over time. UEBA is based on detecting anomalies in the intrinsic behaviour of each user or entity (i.e. it is based on ‘‘something you are/do’’). This paper presents a method for performing continuous authentication using UEBA techniques that allows combining information from multiple sources at the feature level. This combination is achieved through a novel Symbolic Aggregate approximation (SAX) using Random Trees Embeddings for each information source, producing a sequence of symbols. Then, these sequences of symbols are combined into a single sequence using temporal information. The resulting sequence of symbols feeds a density-based clustering model that uses a distance based on DNA sequence alignment techniques to extract behavioural cores. Finally, new samples are compared against these cores to detect anomalies using a risk model that evaluates if a behaviour is anomalous (suspected user impersonation). The model has been extensively tested and evaluated against well-known state-of-the-art datasets.
Diapositivas de la asignatura Aprendizaje Automático I del Grado en Ciencia e Ingeniería de Datos
(2025-02-18) Lancho Martín, Carmen; Martín de Diego, Isaac
Diapositivas del temario de la asignatura Aprendizaje Automático I del Grado en Ciencia e Ingeniería de Datos. Contiene un archivo en pdf con un índice y todas las diapositivas del temario y un zip con el archivo fuente de R usado para generar el material.
Ejercicios de la asignatura Aprendizaje Automático I del Grado en Ciencia e Ingeniería de Datos (Curso 24/25)
(2025-02-18) Lancho Martín, Carmen; Martín de Diego, Isaac
Ejercicios de la asignatura Aprendizaje Automático I del Grado en Ciencia e Ingeniería de Datos referente al curso académico 2024/2025. Contiene un pdf con el total de ejercicios (la mayoría de ellos con solución) y un zip con los archivos fuente editables (generados con código R).
Explanation sets: A general framework for machine learning explainability
(Elsevier, 2022-12) R. Fernández, Rubén; Martín de Diego, Isaac; M. Moguerza, Javier; Herrera, Francisco
Explainable Machine Learning (ML) is an emerging field of Artificial Intelligence that has gained popularity in the last decade. It focuses on explaining ML models and their predictions, enabling people to understand the rationale behind them. Counterfactuals and semifactuals are two instances of Explainable ML techniques that explain model predictions using other observations. These techniques are based on the comparison between the observation to be explained and another one. In counterfactuals, their prediction is different, and in semifactuals, it is the same. Both techniques have been studied in the Social Sciences and Explainable ML communities, and they have different use cases and properties. In this paper, the Explanation Set framework, an approach that unifies counterfactuals and semifactuals, is introduced. Explanation Sets are example-based explanations defined in a neighborhood where most observations satisfy a grouping measure. The neighborhood allows defining and combining restrictions. The grouping measure determines if the explanations are counterfactuals (dissimilarity) or semifactuals (similarity). Besides providing a unified framework, the major strength of the proposal is to extend these explanations to other tasks such as regression by using an appropriate grouping measure. The proposal is validated in a regression and classification task using several neighborhoods and grouping measures.
Face Recognition-based Presentation Attack Detection in a Two-step Segregated Automated Border Control e-Gate Results of a Pilot Experience at Adolfo Suárez Madrid-Barajas Airport
(ScitePress, 2017) Ortega del Campo, David; Serrano Sánchez de León, Ángel; Conde Vilda, Cristina; Martín de Diego, Isaac; Cabello, Enrique
Planteamiento inicial del estudio y objetivos Las últimas tecnologías están dando pie a nuevos tipos de sistemas ABC en los cruces de frontera. Unos de estos tipos son, los sistemas ABC con dos etapas segregadas. Estos sistemas, separan en dos dispositivos los procesos clave del cruce de fronteras, el registro y la validación. La separación de las etapas tiene como ventaja que, los viajeros pueden registrarse con antelación al viaje, agilizando así el cruce de fronteras. Pero también tiene alguna desventaja ya que estos sistemas tienen dos subsistemas biométricos, con dos verificaciones faciales, lo que incrementa su vulnerabilidad. Al requerir dos capturas biométricas hay dos puntos en los que el sistema puede ser atacado mediante ataques de presentación. Este estudio analiza los subsistemas biométricos de los sistemas ABC Segregados, evalúa su rendimiento y propone un sistema PAD adaptado a la topología de estos sistemas. Para analizar en profundidad los sistemas ABC segregados, fue posible acceder a sistemas reales de este tipo durante la implantación de los pilotos del proyecto europeo ABC4EU. Los sistemas ABC4EU son sistemas segregados que se ajustan a las nuevas leyes establecidas para la zona Schengen. Las pruebas con los pilotos ABC4EU se llevaron a cabo en un cruce de fronteras real, en la terminal T4-S (satélite T4) del aeropuerto Adolfo Suárez de Madrid-Barajas. Metodología y herramientas utilizadas Se evalúan las verificaciones faciales en las dos etapas del sistema con dos reconocedores faciales de alto rendimiento, uno open-source (FaceNet) y otro COTS. Además de evaluar las verificaciones con presentaciones bona-fide, se probaron también, presentaciones de ataque con distintos PAI. Se evaluó la detección de ataques en las dos etapas del sistema, considerando dos escenarios de ataque, ataque sólo en la etapa de validación (VPA), y ataque en la etapa de registro y en la de validación (EPA+VPA). El ataque en validación consiste en suplantar a un viajero que se ha registrado previamente, y el ataque en ambas etapas, consiste en suplantar a un viajero al registrarse y continuar suplantando su identidad en el cruce de fronteras.
Framework for scoring the scientific reputation of researchers
(Springer, 2024) Martín de Diego, Isaac; Prieto, Juan Carlos; Fernández-Isabel, Alberto; Gomez, Javier; Alfaro, César
In the scientific community, there is no single, objective, and precise metric for ranking the work of researchers based on their scientific merit. Most existing metrics are based on the number of publications associated with an author along with the number of citations received by those publications. However, there is no standard metric officially used to evaluate the researchers’ careers. In this paper, the Framework for Reputation Estimation of Scientific Authors (FRESA) to address this issue is depicted. It is a system able to estimate the reputation of a researcher focusing on the achieved publications. It calculates two indexes making use of the relevance and the novelty concepts in the scientific domain. The system can depict the scientific trajectories of the researchers through the proposed indexes to illustrate their evolution over time. FRESA uses web information sources and applies similarity measures, text mining techniques, and clustering algorithms to also rank and group the researchers. The presented work is experimental, rendering promising results.
From classification to visualization: a two way trip
(Springer International Publishing, 2021) Cuesta, Marina; Martín de Diego, Isaac; Lancho, Carmen; Aceña, Víctor; M. Moguerza, Javier
High Dimensional Data (HDD) is one of the biggest challenges in Data Science arising from Big Data. The application of dimensionality reduction techniques over HDD allows visualization and, thus, a better problem understanding. In addition, these techniques also can enhance the performance of Machine Learning (ML) algorithms while increasing the explanatory power. This paper presents an automatic method capable of obtaining an adequate representation of the data, given a previously trained ML model. Likewise, an automatic method is introduced to bring a Support Vector Machine (SVM) model based on an adequate representation of the data. Both methods provide an Explanaible Machine Learning procedure. The proposal is tested on several data sets providing promising results. It significantly eases the visualization and understanding task to the data scientist when a ML model has already been trained, as well as the ML selection parameters when a reduced representation of data has been achieved.
Guía de estudio de la asignatura Aprendizaje Automático I del Grado en Ciencia e Ingeniería de Datos
(2025-02-18) Lancho Martín, Carmen; Martín de Diego, Isaac
Guía de estudio para seguir la asignatura de Aprendizaje Automático I del Grado en Ciencia e Ingeniería de Datos. Contiene el archivo final en pdf y el archivo fuente en word.
Health Sufficiency Indicators for Pandemic Monitoring
(MDPI, 2021) M. Moguerza, Javier; Perelló Oliver, Salvador; Martín de Diego, Isaac; Aceña, Víctor; Lancho, Carmen; Cuesta, Marina; González Fernández, César
The outbreak of the COVID-19 disease, spreading all around the world and causing a worldwide pandemic, has lead to the collapse of the health systems of the most affected countries. Due to the ease of transmission, early prevention measures are proved to be fundamental to control the pandemic and, hence, the saturation of the health systems. Given the difficulty of obtaining characteristics of these systems of different countries and regions, it is necessary to define indicators based on basic information that enable the assessment of the evolution of the impact of a disease in a health system along with fair comparisons among different ones. This present paper introduces the Health Sufficiency Indicator (HSI), in its accumulated and daily versions. This indicator measures the additional pressure that a health care system has to deal with due to a pandemic. Hence, it allows to evaluate the capacity of a health system to give response to the corresponding needs arising from a pandemic and to compare the evolution of the disease among different regions. In addition, the Potential Occupancy Ratio (POR) in both its hospital ward bed and ICU bed versions is here introduced to asses the impact of the pandemic in the capacity of hospitals. These indicators and other well-known ones are applied to track the evolution of the impact of the disease on the Spanish health system during the first wave of the pandemic, both on national and regional levels. An international comparison among the most affected countries is also performed.
Minimally overfitted learners: A general framework for ensemble learning
(Elsevier, 2022) Aceña, Víctor; Martín de Diego, Isaac; R. Fernández, Rubén; M. Moguerza, Javier
La combinación de algoritmos de Machine Learning (ML) es una solución para construir predictores más fuertes que los obtenidos con un solo algoritmo. Sin embargo, algunas aproximaciones sugieren que la combinación de algoritmos inestables proporciona mejores resultados que la combinación de algoritmos estables. Por ejemplo, los ensamblajes generativos, basados en técnicas de remuestreo, han demostrado un alto rendimiento al fusionar la información de aprendices base inestables. Random Forest (RF) y Gradient Boosting (GB) son dos ejemplos bien conocidos, ambos combinan árboles de decisión (Decision Tree, DT) y proporcionan mejores predicciones que las obtenidas usando un solo árbol. Sin embargo, no se han logrado resultados tan exitosos ensamblando algoritmos estables. Este artículo introduce la noción de aprendiz limitado y un nuevo marco general de ensamblaje llamado Minimally Overfitted Ensemble (MOE), un enfoque de ensamblaje basado en remuestreo que construye aprendices ligeramente sobreajustados. El marco propuesto funciona bien con algoritmos base estables e inestables, gracias a un muestreo Weighted Random Bootstrap (WRAB) que proporciona la diversidad necesaria para los algoritmos base estables. Se lleva a cabo un análisis de hiperparámetros de la propuesta en datos artificiales. Además, se evalúa su rendimiento en conjuntos de datos reales frente a métodos de ML bien conocidos. Los resultados confirman que el marco MOE funciona con éxito utilizando algoritmos base estables e inestables, mejorando en la mayoría de los casos la capacidad predictiva de modelos de ML individuales y otros métodos de ensamblaje.
Padel two-dimensional tracking extraction from monocular video recordings
(Springer, 2024-11-14) Novillo, Álvaro; Aceña, Víctor; Lancho, Carmen; Cuesta, Marina; Martín de Diego, Isaac
This study introduces a novel framework for the automatic two-dimensional tracking of padel games using monocular recordings. By integrating advanced Computer Vision and Deep Learning techniques, our algorithm detects and tracks players, the court, and the ball. Through homography, we accurately project detected player positions onto a twodimensional court, enabling comprehensive tracking throughout the game. We tested the proposed algorithm using amateur video recordings of padel games found in literature. This approach remains user-friendly, cost-effective, and adaptable to various camera angles and lighting conditions. This makes it accessible to both amateur and professional players and coaches, providing a valuable tool for performance analysis. Additionally, the proposed framework holds potential for adaptation to other sports with minimal modifications, further broadening its applicability.
Random forest explainability using counterfactual sets
(Elsevier, 2020) R. Fernández, Rubén; Martín de Diego, Isaac; Aceña, Víctor; Fernández-Isabel, Alberto; M. Moguerza, Javier
Hoy en día, los modelos de Machine Learning (ML) se están volviendo omnipresentes en la sociedad actual, apoyando a las personas en sus decisiones diarias. En este contexto, el Machine Learning explicable es un campo de la Inteligencia Artificial (AI) que se centra en hacer que los modelos predictivos y sus decisiones sean interpretables por los humanos, permitiendo a las personas confiar en los modelos predictivos y entender los procesos subyacentes. Un contrafáctico es un tipo efectivo de técnica explicable de Machine Learning que explica las predicciones describiendo los cambios necesarios en una muestra para cambiar el resultado de la predicción. En este artículo, presentamos conjuntos contrafácticos, un enfoque explicativo que utiliza un conjunto de contrafácticos para explicar una predicción en lugar de un solo contrafáctico, definiendo una sub-región del espacio de características donde el contrafáctico se mantiene. Se presenta un método para extraer conjuntos contrafácticos de un Random Forest (RF), el RF-OCSE (Random Forest Optimal Counterfactual Set Extractor). El método se basa en una fusión parcial de predictores de árboles de un Random Forest en un solo árbol de decisión (DT) utilizando una modificación del algoritmo CART, y obtiene un conjunto contrafáctico que contiene el contrafáctico óptimo. La propuesta se valida a través de varios experimentos comparados con alternativas existentes en diez conjuntos de datos bien conocidos, comparando el porcentaje de contrafácticos válidos, la distancia a la muestra factual y la calidad de los conjuntos contrafácticos.
Real-time classification of cattle behavior using Wireless Sensor Networks
(Elsevier, 2024) Navarro, Jorge; R. Fernández, Rubén; Aceña, Víctor; Fernández-Isabel, Alberto; Lancho, Carmen; Martín de Diego, Isaac
La detección de patrones de actividad y comportamiento utilizando acelerómetros en humanos ha sido una línea de investigación prolongada. Los avances en este campo se han transferido con éxito al estudio del comportamiento animal gracias a la aparición de nuevas tecnologías del Internet de las Cosas (IoT), como las Redes de Sensores Inalámbricos (WSN), y a la necesidad de información comportamental más compleja. Todos los sistemas propuestos por la comunidad científica han sido evaluados en términos de rendimiento de clasificación. Sin embargo, no muchos estudios consideran la posible pérdida de precisión cuando estos sistemas se implementan en WSN, dada la baja capacidad computacional de sus nodos y la necesidad de un bajo consumo energético. Este artículo propone un sistema de clasificación de patrones de comportamiento para cuatro tipos de comportamiento animal en ganado de pastoreo libre, junto con una configuración óptima y una configuración restringida del mismo. La evaluación de este sistema tiene en cuenta su rendimiento de clasificación y su precisión esperada bajo los recursos limitados que pueden ofrecer las WSN. Los resultados muestran que la configuración óptima mejora el rendimiento de sus alternativas en un promedio del 9% y la configuración restringida en un promedio del 6%. Además, como parte de una WSN, los resultados demuestran una precisión impecable en las configuraciones óptima y restringida para caminar (100% y 100%), casi perfecta para pastar (98.39% y 98.59%), y aceptable para acostarse (79.03% y 69.01%) y estar de pie (75.81% y 70.42%). En conclusión, el sistema propuesto representa una herramienta poderosa para analizar comportamientos complejos en el ganado mediante el uso de WSN.
Recommendation system of scientific articles from discharge summaries
(Elsevier, 2024-10) Alonso Barriuso, Adrián; Fernández-Isabel, Alberto; Martín de Diego, Isaac; Ardoiz, Alfonso; J. Viseu Pinheiro, J.F.
Medical professionals are often overwhelmed by the amount of patients they have to care for, leaving little time available to keep up to date in their respective specialities. They usually find it challenging to keep up with the vast amount of medical literature and identify the most relevant articles for their practice, especially those related to their patient’s specific conditions. Therefore, a system that proactively supports healthcare professionals in selecting relevant articles related to the characteristics of the patients is crucial. This paper presents Medical Expert Linguist for Evaluating Nosology and Diagnosis Information (MELENDI) to tackle this issue. It is a recommendation system that effectively and efficiently recommends pertinent medical articles to healthcare professionals based on their patients’ diagnoses. It combines a semantic similarity model generated using the content of discharge summaries, with a relevance estimator produced by analysing scientific publications. To test the system, abstracts were obtained from PubMed and 10 discharge reports from ’Medical Information Mart for Intensive Care (MIMIC-III) were used. A group of 5 medical specialists has been involved in the system’s evaluation. These evaluations demonstrated good overall performance, supporting the implementation of the system in a real-world environment, such as a hospital information system
Relevance Metric for Counterfactuals Selection in Decision Trees
(Springer International Publishing, 2019) R. Fernández, Rubén; Martín de Diego, Isaac; Aceña, Víctor; M. Moguerza, Javier; Fernández-Isabel, Alberto
El Aprendizaje Automático Explicable es un campo emergente en el dominio del Aprendizaje Automático. Aborda la explicabilidad de los modelos de Aprendizaje Automático y la lógica inherente detrás de las predicciones del modelo. En el caso particular de los métodos de explicación basados en ejemplos, se centran en utilizar instancias particulares, previamente definidas o creadas, para explicar el comportamiento de los modelos o predicciones. La explicación basada en contrafactuales es uno de estos métodos. Un contrafactual es una instancia hipotética similar a un ejemplo cuya explicación es de interés, pero con una clase predicha diferente. Este artículo presenta una métrica de relevancia para la selección de contrafactuales llamada sGower, diseñada para inducir esparsidad en los modelos de Árboles de Decisión. Funciona con características categóricas y continuas, considerando el número de cambios en las características y la distancia entre el contrafactual y el ejemplo. La métrica propuesta se evalúa en comparación con métricas de relevancia anteriores en varios conjuntos de datos categóricos y continuos, obteniendo en promedio mejores resultados que los enfoques anteriores.
Repositorio con todos los códigos de la asignatura Aprendizaje Automático I del Grado en Ciencia e Ingeniería de Datos (Curso 24/25)
(2025-02-19) Lancho Martín, Carmen; Martín de Diego, Isaac
Repositorio que contiene todos los códigos de la asignatura Aprendizaje Automático I del Grado en Ciencia e Ingeniería de Datos referente al curso académico 2024/2025. En particular: * Códigos generadores de los apuntes (tanto en pdf como en html).Los apuntes también están en acceso abierto. > SWHID: {swh:1:dir:e34a98995dbbafffbe440812f58c9484cf801652} > Repositorio: {https://github.com/URJCDSLab/AprendizajeAutomaticoI} * Códigos utilizados para los ejercicios de la asignatura. Existe un script de R por cada ejercicio planteado con solución siguiendo la organización de los apuntes, las diapositivas y los propios ejercicios de la asignatura. Los ejercicios resueltos en pdf también están a la disposición del lector. > SWHID: {swh:1:dir:71224766eab42ab0792063a879e9cce2a3df5a6e} > Repositorio: {https://github.com/URJCDSLab/EjerciciosAprendizajeAutomatico} * Aplicación (y su código generador) que contiene un cuadro de mandos interactivo para que los alumnos pueda aplicar los conocimientos de la asignatura (lectura de datos, limpieza, análisis exploratorio de datos, relaciones entre variables, transformaciones de variables, realización de gráficos, aplicación de modelos y evaluación de los mismos) de forma sencilla e interactiva. > SWHID: {swh:1:dir:d59433c3891ec347f59f2b3991af98cb78b82d51} > Repositorio: {https://github.com/URJCDSLab/DEA_ML}
Support Subsets Estimation for Support Vector Machines Retraining
(Elsevier, 2022) Aceña, Víctor; Martín de Diego, Isaac; R. Fernández, Rubén; M. Moguerza, Javier
La disponibilidad de nuevos datos en modelos previamente entrenados de aprendizaje automático generalmente requiere reentrenamiento y ajuste del modelo. Los máquinas de vectores soporte (SVM, por sus siglas en inglés) son ampliamente utilizadas en el aprendizaje automático debido a sus fuertes fundamentos matemáticos y flexibilidad. Sin embargo, el entrenamiento de SVM es computacionalmente costoso, tanto en tiempo como en memoria. Por lo tanto, la fase de entrenamiento podría ser una limitación en problemas donde el modelo se actualiza regularmente. Como solución, se han propuesto nuevos métodos para entrenar y actualizar SVM en el pasado. En este artículo, introducimos el concepto de Subconjunto de Soporte y una nueva metodología de reentrenamiento para SVM. Un Subconjunto de Soporte es un subconjunto del conjunto de entrenamiento, tal que reentrenar un modelo de aprendizaje automático con este subconjunto y los nuevos datos es equivalente a entrenar con todos los datos. El desempeño de la propuesta se evalúa en una variedad de experimentos con datos simulados y reales en términos de tiempo, calidad de la solución, vectores de soporte resultantes y cantidad de datos empleados. Los resultados prometedores proporcionan una nueva línea de investigación para mejorar la efectividad y adaptabilidad de la técnica propuesta, incluyendo su generalización a otros modelos de aprendizaje automático.