Examinando por Autor "Martín de Diego, Isaac"
Mostrando 1 - 18 de 18
- Resultados por página
- Opciones de ordenación
Ítem A complexity measure for binary classification problems based on lost points(Springer International Publishing, 2021) Lancho, Carmen; Martín de Diego, Isaac; Cuesta, Marina; Aceña, Víctor; M. Moguerza, JavierComplexity measures are focused on exploring and capturing the complexity of a data set. In this paper, the Lost points (LP) complexity measure is proposed. It is obtained by applying k-means in a recursive and hierarchical way and it provides both the data set and the instance perspective. On the instance level, the LP measure gives a probability value for each point informing about the dominance of its class in its neighborhood. On the data set level, it estimates the proportion of lost points, referring to those points that are expected to be misclassified since they lie in areas where its class is not dominant. The proposed measure shows easily interpretable results competitive with measures from state-of-art. In addition, it provides probabilistic information useful to highlight the boundary decision on classification problems.Ítem An approach to detect user behaviour anomalies within identity federations(Elsevier, 2021) Martín, Alejandro G.; Beltrán, Marta; Fernández-Isabel, Alberto; Martín de Diego, IsaacUser and Entity Behaviour Analytics (UEBA) mechanisms rely on statistical techniques and Machine Learning to determine when a significant deviation from patterns or trends established as a standard for users and entities is occurring. These mechanisms are beneficial within cybersecurity contexts because they allow managers and administrators to have early alerts warning about potential security incidents. This paper proposes the utilisation of UEBA to improve the security of Federated Identity Management (FIM) solutions. The proposed UEBA workflow allows Relying Parties within identity federations to build a session fingerprint characterising each user’s behaviour from available information. Furthermore, it enables anomaly detection based on this fingerprint, integrating raised alerts within current identity management specifications. The proposed workflow is validated and evaluated in a real use case based on a web chat application using OpenID Connect for identity management.Ítem Combining user behavioural information at the feature level to enhance continuous authentication systems(Elsevier, 2022) G. Martín, Alejandro; Martín de Diego, Isaac; Fernández-Isabel, Alberto; Beltrán, Marta; R. Fernández, RubénThe scientific and business communities are proposing new authentication methods more robust than traditional solutions relying on a single security point such as passwords (i.e. ‘‘something you know’’). User and Entity Behavior Analysis (UEBA) has postulated as an excellent solution to improve authentication systems by performing continuous authentication to extend the authentication process over time. UEBA is based on detecting anomalies in the intrinsic behaviour of each user or entity (i.e. it is based on ‘‘something you are/do’’). This paper presents a method for performing continuous authentication using UEBA techniques that allows combining information from multiple sources at the feature level. This combination is achieved through a novel Symbolic Aggregate approximation (SAX) using Random Trees Embeddings for each information source, producing a sequence of symbols. Then, these sequences of symbols are combined into a single sequence using temporal information. The resulting sequence of symbols feeds a density-based clustering model that uses a distance based on DNA sequence alignment techniques to extract behavioural cores. Finally, new samples are compared against these cores to detect anomalies using a risk model that evaluates if a behaviour is anomalous (suspected user impersonation). The model has been extensively tested and evaluated against well-known state-of-the-art datasets.Ítem Face Recognition-based Presentation Attack Detection in a Two-step Segregated Automated Border Control e-Gate Results of a Pilot Experience at Adolfo Suárez Madrid-Barajas Airport(ScitePress, 2017) Ortega del Campo, David; Serrano Sánchez de León, Ángel; Conde Vilda, Cristina; Martín de Diego, Isaac; Cabello, EnriquePlanteamiento inicial del estudio y objetivos Las últimas tecnologías están dando pie a nuevos tipos de sistemas ABC en los cruces de frontera. Unos de estos tipos son, los sistemas ABC con dos etapas segregadas. Estos sistemas, separan en dos dispositivos los procesos clave del cruce de fronteras, el registro y la validación. La separación de las etapas tiene como ventaja que, los viajeros pueden registrarse con antelación al viaje, agilizando así el cruce de fronteras. Pero también tiene alguna desventaja ya que estos sistemas tienen dos subsistemas biométricos, con dos verificaciones faciales, lo que incrementa su vulnerabilidad. Al requerir dos capturas biométricas hay dos puntos en los que el sistema puede ser atacado mediante ataques de presentación. Este estudio analiza los subsistemas biométricos de los sistemas ABC Segregados, evalúa su rendimiento y propone un sistema PAD adaptado a la topología de estos sistemas. Para analizar en profundidad los sistemas ABC segregados, fue posible acceder a sistemas reales de este tipo durante la implantación de los pilotos del proyecto europeo ABC4EU. Los sistemas ABC4EU son sistemas segregados que se ajustan a las nuevas leyes establecidas para la zona Schengen. Las pruebas con los pilotos ABC4EU se llevaron a cabo en un cruce de fronteras real, en la terminal T4-S (satélite T4) del aeropuerto Adolfo Suárez de Madrid-Barajas. Metodología y herramientas utilizadas Se evalúan las verificaciones faciales en las dos etapas del sistema con dos reconocedores faciales de alto rendimiento, uno open-source (FaceNet) y otro COTS. Además de evaluar las verificaciones con presentaciones bona-fide, se probaron también, presentaciones de ataque con distintos PAI. Se evaluó la detección de ataques en las dos etapas del sistema, considerando dos escenarios de ataque, ataque sólo en la etapa de validación (VPA), y ataque en la etapa de registro y en la de validación (EPA+VPA). El ataque en validación consiste en suplantar a un viajero que se ha registrado previamente, y el ataque en ambas etapas, consiste en suplantar a un viajero al registrarse y continuar suplantando su identidad en el cruce de fronteras.Ítem Framework for scoring the scientific reputation of researchers(Springer, 2024) Martín de Diego, Isaac; Prieto, Juan Carlos; Fernández-Isabel, Alberto; Gomez, Javier; Alfaro, CésarIn the scientific community, there is no single, objective, and precise metric for ranking the work of researchers based on their scientific merit. Most existing metrics are based on the number of publications associated with an author along with the number of citations received by those publications. However, there is no standard metric officially used to evaluate the researchers’ careers. In this paper, the Framework for Reputation Estimation of Scientific Authors (FRESA) to address this issue is depicted. It is a system able to estimate the reputation of a researcher focusing on the achieved publications. It calculates two indexes making use of the relevance and the novelty concepts in the scientific domain. The system can depict the scientific trajectories of the researchers through the proposed indexes to illustrate their evolution over time. FRESA uses web information sources and applies similarity measures, text mining techniques, and clustering algorithms to also rank and group the researchers. The presented work is experimental, rendering promising results.Ítem From classification to visualization: a two way trip(Springer International Publishing, 2021) Cuesta, Marina; Martín de Diego, Isaac; Lancho, Carmen; Aceña, Víctor; M. Moguerza, JavierHigh Dimensional Data (HDD) is one of the biggest challenges in Data Science arising from Big Data. The application of dimensionality reduction techniques over HDD allows visualization and, thus, a better problem understanding. In addition, these techniques also can enhance the performance of Machine Learning (ML) algorithms while increasing the explanatory power. This paper presents an automatic method capable of obtaining an adequate representation of the data, given a previously trained ML model. Likewise, an automatic method is introduced to bring a Support Vector Machine (SVM) model based on an adequate representation of the data. Both methods provide an Explanaible Machine Learning procedure. The proposal is tested on several data sets providing promising results. It significantly eases the visualization and understanding task to the data scientist when a ML model has already been trained, as well as the ML selection parameters when a reduced representation of data has been achieved.Ítem Health Sufficiency Indicators for Pandemic Monitoring(MDPI, 2021) M. Moguerza, Javier; Perelló Oliver, Salvador; Martín de Diego, Isaac; Aceña, Víctor; Lancho, Carmen; Cuesta, Marina; González Fernández, CésarThe outbreak of the COVID-19 disease, spreading all around the world and causing a worldwide pandemic, has lead to the collapse of the health systems of the most affected countries. Due to the ease of transmission, early prevention measures are proved to be fundamental to control the pandemic and, hence, the saturation of the health systems. Given the difficulty of obtaining characteristics of these systems of different countries and regions, it is necessary to define indicators based on basic information that enable the assessment of the evolution of the impact of a disease in a health system along with fair comparisons among different ones. This present paper introduces the Health Sufficiency Indicator (HSI), in its accumulated and daily versions. This indicator measures the additional pressure that a health care system has to deal with due to a pandemic. Hence, it allows to evaluate the capacity of a health system to give response to the corresponding needs arising from a pandemic and to compare the evolution of the disease among different regions. In addition, the Potential Occupancy Ratio (POR) in both its hospital ward bed and ICU bed versions is here introduced to asses the impact of the pandemic in the capacity of hospitals. These indicators and other well-known ones are applied to track the evolution of the impact of the disease on the Spanish health system during the first wave of the pandemic, both on national and regional levels. An international comparison among the most affected countries is also performed.Ítem Minimally overfitted learners: A general framework for ensemble learning(Elsevier, 2022) Aceña, Víctor; Martín de Diego, Isaac; R. Fernández, Rubén; M. Moguerza, JavierLa combinación de algoritmos de Machine Learning (ML) es una solución para construir predictores más fuertes que los obtenidos con un solo algoritmo. Sin embargo, algunas aproximaciones sugieren que la combinación de algoritmos inestables proporciona mejores resultados que la combinación de algoritmos estables. Por ejemplo, los ensamblajes generativos, basados en técnicas de remuestreo, han demostrado un alto rendimiento al fusionar la información de aprendices base inestables. Random Forest (RF) y Gradient Boosting (GB) son dos ejemplos bien conocidos, ambos combinan árboles de decisión (Decision Tree, DT) y proporcionan mejores predicciones que las obtenidas usando un solo árbol. Sin embargo, no se han logrado resultados tan exitosos ensamblando algoritmos estables. Este artículo introduce la noción de aprendiz limitado y un nuevo marco general de ensamblaje llamado Minimally Overfitted Ensemble (MOE), un enfoque de ensamblaje basado en remuestreo que construye aprendices ligeramente sobreajustados. El marco propuesto funciona bien con algoritmos base estables e inestables, gracias a un muestreo Weighted Random Bootstrap (WRAB) que proporciona la diversidad necesaria para los algoritmos base estables. Se lleva a cabo un análisis de hiperparámetros de la propuesta en datos artificiales. Además, se evalúa su rendimiento en conjuntos de datos reales frente a métodos de ML bien conocidos. Los resultados confirman que el marco MOE funciona con éxito utilizando algoritmos base estables e inestables, mejorando en la mayoría de los casos la capacidad predictiva de modelos de ML individuales y otros métodos de ensamblaje.Ítem Padel two-dimensional tracking extraction from monocular video recordings(Springer, 2024-11-14) Novillo, Álvaro; Aceña, Víctor; Lancho, Carmen; Cuesta, Marina; Martín de Diego, IsaacThis study introduces a novel framework for the automatic two-dimensional tracking of padel games using monocular recordings. By integrating advanced Computer Vision and Deep Learning techniques, our algorithm detects and tracks players, the court, and the ball. Through homography, we accurately project detected player positions onto a twodimensional court, enabling comprehensive tracking throughout the game. We tested the proposed algorithm using amateur video recordings of padel games found in literature. This approach remains user-friendly, cost-effective, and adaptable to various camera angles and lighting conditions. This makes it accessible to both amateur and professional players and coaches, providing a valuable tool for performance analysis. Additionally, the proposed framework holds potential for adaptation to other sports with minimal modifications, further broadening its applicability.Ítem Random forest explainability using counterfactual sets(Elsevier, 2020) R. Fernández, Rubén; Martín de Diego, Isaac; Aceña, Víctor; Fernández-Isabel, Alberto; M. Moguerza, JavierHoy en día, los modelos de Machine Learning (ML) se están volviendo omnipresentes en la sociedad actual, apoyando a las personas en sus decisiones diarias. En este contexto, el Machine Learning explicable es un campo de la Inteligencia Artificial (AI) que se centra en hacer que los modelos predictivos y sus decisiones sean interpretables por los humanos, permitiendo a las personas confiar en los modelos predictivos y entender los procesos subyacentes. Un contrafáctico es un tipo efectivo de técnica explicable de Machine Learning que explica las predicciones describiendo los cambios necesarios en una muestra para cambiar el resultado de la predicción. En este artículo, presentamos conjuntos contrafácticos, un enfoque explicativo que utiliza un conjunto de contrafácticos para explicar una predicción en lugar de un solo contrafáctico, definiendo una sub-región del espacio de características donde el contrafáctico se mantiene. Se presenta un método para extraer conjuntos contrafácticos de un Random Forest (RF), el RF-OCSE (Random Forest Optimal Counterfactual Set Extractor). El método se basa en una fusión parcial de predictores de árboles de un Random Forest en un solo árbol de decisión (DT) utilizando una modificación del algoritmo CART, y obtiene un conjunto contrafáctico que contiene el contrafáctico óptimo. La propuesta se valida a través de varios experimentos comparados con alternativas existentes en diez conjuntos de datos bien conocidos, comparando el porcentaje de contrafácticos válidos, la distancia a la muestra factual y la calidad de los conjuntos contrafácticos.Ítem Real-time classification of cattle behavior using Wireless Sensor Networks(Elsevier, 2024) Navarro, Jorge; R. Fernández, Rubén; Aceña, Víctor; Fernández-Isabel, Alberto; Lancho, Carmen; Martín de Diego, IsaacLa detección de patrones de actividad y comportamiento utilizando acelerómetros en humanos ha sido una línea de investigación prolongada. Los avances en este campo se han transferido con éxito al estudio del comportamiento animal gracias a la aparición de nuevas tecnologías del Internet de las Cosas (IoT), como las Redes de Sensores Inalámbricos (WSN), y a la necesidad de información comportamental más compleja. Todos los sistemas propuestos por la comunidad científica han sido evaluados en términos de rendimiento de clasificación. Sin embargo, no muchos estudios consideran la posible pérdida de precisión cuando estos sistemas se implementan en WSN, dada la baja capacidad computacional de sus nodos y la necesidad de un bajo consumo energético. Este artículo propone un sistema de clasificación de patrones de comportamiento para cuatro tipos de comportamiento animal en ganado de pastoreo libre, junto con una configuración óptima y una configuración restringida del mismo. La evaluación de este sistema tiene en cuenta su rendimiento de clasificación y su precisión esperada bajo los recursos limitados que pueden ofrecer las WSN. Los resultados muestran que la configuración óptima mejora el rendimiento de sus alternativas en un promedio del 9% y la configuración restringida en un promedio del 6%. Además, como parte de una WSN, los resultados demuestran una precisión impecable en las configuraciones óptima y restringida para caminar (100% y 100%), casi perfecta para pastar (98.39% y 98.59%), y aceptable para acostarse (79.03% y 69.01%) y estar de pie (75.81% y 70.42%). En conclusión, el sistema propuesto representa una herramienta poderosa para analizar comportamientos complejos en el ganado mediante el uso de WSN.Ítem Recommendation system of scientific articles from discharge summaries(Elsevier, 2024-10) Alonso Barriuso, Adrián; Fernández-Isabel, Alberto; Martín de Diego, Isaac; Ardoiz, Alfonso; J. Viseu Pinheiro, J.F.Medical professionals are often overwhelmed by the amount of patients they have to care for, leaving little time available to keep up to date in their respective specialities. They usually find it challenging to keep up with the vast amount of medical literature and identify the most relevant articles for their practice, especially those related to their patient’s specific conditions. Therefore, a system that proactively supports healthcare professionals in selecting relevant articles related to the characteristics of the patients is crucial. This paper presents Medical Expert Linguist for Evaluating Nosology and Diagnosis Information (MELENDI) to tackle this issue. It is a recommendation system that effectively and efficiently recommends pertinent medical articles to healthcare professionals based on their patients’ diagnoses. It combines a semantic similarity model generated using the content of discharge summaries, with a relevance estimator produced by analysing scientific publications. To test the system, abstracts were obtained from PubMed and 10 discharge reports from ’Medical Information Mart for Intensive Care (MIMIC-III) were used. A group of 5 medical specialists has been involved in the system’s evaluation. These evaluations demonstrated good overall performance, supporting the implementation of the system in a real-world environment, such as a hospital information systemÍtem Relevance Metric for Counterfactuals Selection in Decision Trees(Springer International Publishing, 2019) R. Fernández, Rubén; Martín de Diego, Isaac; Aceña, Víctor; M. Moguerza, Javier; Fernández-Isabel, AlbertoEl Aprendizaje Automático Explicable es un campo emergente en el dominio del Aprendizaje Automático. Aborda la explicabilidad de los modelos de Aprendizaje Automático y la lógica inherente detrás de las predicciones del modelo. En el caso particular de los métodos de explicación basados en ejemplos, se centran en utilizar instancias particulares, previamente definidas o creadas, para explicar el comportamiento de los modelos o predicciones. La explicación basada en contrafactuales es uno de estos métodos. Un contrafactual es una instancia hipotética similar a un ejemplo cuya explicación es de interés, pero con una clase predicha diferente. Este artículo presenta una métrica de relevancia para la selección de contrafactuales llamada sGower, diseñada para inducir esparsidad en los modelos de Árboles de Decisión. Funciona con características categóricas y continuas, considerando el número de cambios en las características y la distancia entre el contrafactual y el ejemplo. La métrica propuesta se evalúa en comparación con métricas de relevancia anteriores en varios conjuntos de datos categóricos y continuos, obteniendo en promedio mejores resultados que los enfoques anteriores.Ítem Support Subsets Estimation for Support Vector Machines Retraining(Elsevier, 2022) Aceña, Víctor; Martín de Diego, Isaac; R. Fernández, Rubén; M. Moguerza, JavierLa disponibilidad de nuevos datos en modelos previamente entrenados de aprendizaje automático generalmente requiere reentrenamiento y ajuste del modelo. Los máquinas de vectores soporte (SVM, por sus siglas en inglés) son ampliamente utilizadas en el aprendizaje automático debido a sus fuertes fundamentos matemáticos y flexibilidad. Sin embargo, el entrenamiento de SVM es computacionalmente costoso, tanto en tiempo como en memoria. Por lo tanto, la fase de entrenamiento podría ser una limitación en problemas donde el modelo se actualiza regularmente. Como solución, se han propuesto nuevos métodos para entrenar y actualizar SVM en el pasado. En este artículo, introducimos el concepto de Subconjunto de Soporte y una nueva metodología de reentrenamiento para SVM. Un Subconjunto de Soporte es un subconjunto del conjunto de entrenamiento, tal que reentrenar un modelo de aprendizaje automático con este subconjunto y los nuevos datos es equivalente a entrenar con todos los datos. El desempeño de la propuesta se evalúa en una variedad de experimentos con datos simulados y reales en términos de tiempo, calidad de la solución, vectores de soporte resultantes y cantidad de datos empleados. Los resultados prometedores proporcionan una nueva línea de investigación para mejorar la efectividad y adaptabilidad de la técnica propuesta, incluyendo su generalización a otros modelos de aprendizaje automático.Ítem System for evaluating the reliability and novelty of medical scientific papers(Elsevier, 2021) Martín de Diego, Isaac; González-Fernández, César; Fernández-Isabel, Alberto; Fernández, Rubén R.; Cabezas, JavierAs society develops, the number of published research articles raises. Besides, the pressure to publish has been increased because the competitiveness between researchers working on similar topics. Although this increment is desirable, it leads to multiple issues. At a reader level, insurmountable barriers to keep up with the state of the art appear. From a publisher perspective, it is a very demanding task to determine which research articles are worth publishing. Automatizing these tasks appears as a core solution. In the case of readers, a previous evaluation of articles would simplify the filtering process. As for publishers, they could perform preliminary selections or estimate the reviewing effort. This paper presents Medical Evaluator System for Scientific Interoperability (MESSI) system to overcome all these issues. It is able to evaluate the novelty and reliability of health-related texts. The novelty calculation is based on previously acquired knowledge after processing more than 500,000 papers. The reliability estimation is based on the reputations of similar articles calculated based on previously defined metrics. Multiple experiments have been addressed to illustrate the viability of the proposal. The obtained results show a good performance that encourage to continue evolving the system.Ítem Tourist services management through clients scoring using a bio-inspired agent architecture(ComSIS Consortium, 2024) Moreno, Raúl; Fernández-Isabel, Alberto; Aceña, Víctor; Martín de Diego, Isaac; M. Moguerza, JavierTourism has become an economic engine for several countries during the last decades. Each time more and more individuals consider visiting other places during their vacation period. These places cover very different options, from the typical beach and mountain tourism to the less common urban and cultural trips. These travels hoard multiple transport means and facilities in the destination place that have to be correctly managed. Therefore, the rise of automatic systems to address the related operations and processes is a crucial issue nowadays. These systems are usually focused on the final users (the tourists) and make recommendations about their available possibilities. However, it is not easy to find a multi-purpose recommendation system covering all the needs from the perspective of the travel agency. In this paper, a complete framework called Pharaoh able to make recommendations to customers covering the final user perspective, and to provide support to the travel agents, is presented. This assistance filters the best travel, accommodation, and activity options according to the desires of the customers. This novel functionality allows selecting the customer with the best propensity to book a tourist service. This workload is distributed using a bio-inspired Multi-Agent System (MAS). Moreover, Pharaoh considers the feedback from clients after the completion of the tourist opportunity to improve future recommendations. Several experiments in real environments have been addressed to show the viability of the proposal. It can be concluded that the system enhances the quality of the service provided by the travel agency and its profits.Ítem Unconventional application of k-means for distributed approximate similarity search(Elsevier, 2022) Ortega, Felipe; Algar, Maria Jesus; Martín de Diego, Isaac; Martínez Moguerza, JavierSimilarity search based on a distance function in metric spaces is a fundamental problem for many applications. Queries for similar objects lead to the well-known machine learning task of nearest-neighbours identification. Many data indexing strategies, collectively known as Metric Access Methods (MAM), have been proposed to speed up these queries. Moreover, since exact approaches to solving similarity queries can be complex and timeconsuming, alternative options have emerged to reduce query execution time, such as returning approximate results or resorting to distributed computing platforms. In this paper, we introduce MASK (Multilevel Approximate Similarity search with k-means), an unconventional application of the k-means algorithm as the foundation of a multilevel index structure for approximate similarity search suitable for metric spaces. We show that this method leverages inherent properties of k-means for this purpose, like representing high-density data areas with fewer prototypes. An implementation of this new indexing procedure is evaluated using a synthetic dataset and two real-world datasets in highdimensional and high-sparsity spaces. Experimental tests show that MASK performs better than alternative algorithms for approximate similarity search. Results are promising and underpin the applicability of this novel indexing method in multiple domains.Ítem Weighted Nearest Centroid Neighbourhood(Springer, 2019) Aceña, Víctor; M. Moguerza, Javier; Martín de Diego, Isaac; R. Fernández, RubénSe presenta un novedoso clasificador binario basado en vecinos más cercanos al centroide. El método propuesto utiliza la bien conocida idea detrás del algoritmo clásico de k-Vecinos más Cercanos (k-NN): un punto es similar a otros que están cerca de él. La nueva propuesta se basa en una forma alternativa de calcular vecindarios que se adapta mejor a la distribución de los datos, considerando que un vecino más distante debe tener menos influencia que uno más cercano. La importancia relativa de cualquier vecino en un vecindario se estima utilizando la función SoftMax sobre la distancia implícita. Se realizan experimentos con conjuntos de datos simulados y reales. El método propuesto supera a las alternativas, proporcionando una nueva línea de investigación prometedora.