Examinando por Autor "M. Moguerza, Javier"
Mostrando 1 - 10 de 10
- Resultados por página
- Opciones de ordenación
Ítem A complexity measure for binary classification problems based on lost points(Springer International Publishing, 2021) Lancho, Carmen; Martín de Diego, Isaac; Cuesta, Marina; Aceña, Víctor; M. Moguerza, JavierComplexity measures are focused on exploring and capturing the complexity of a data set. In this paper, the Lost points (LP) complexity measure is proposed. It is obtained by applying k-means in a recursive and hierarchical way and it provides both the data set and the instance perspective. On the instance level, the LP measure gives a probability value for each point informing about the dominance of its class in its neighborhood. On the data set level, it estimates the proportion of lost points, referring to those points that are expected to be misclassified since they lie in areas where its class is not dominant. The proposed measure shows easily interpretable results competitive with measures from state-of-art. In addition, it provides probabilistic information useful to highlight the boundary decision on classification problems.Ítem From classification to visualization: a two way trip(Springer International Publishing, 2021) Cuesta, Marina; Martín de Diego, Isaac; Lancho, Carmen; Aceña, Víctor; M. Moguerza, JavierHigh Dimensional Data (HDD) is one of the biggest challenges in Data Science arising from Big Data. The application of dimensionality reduction techniques over HDD allows visualization and, thus, a better problem understanding. In addition, these techniques also can enhance the performance of Machine Learning (ML) algorithms while increasing the explanatory power. This paper presents an automatic method capable of obtaining an adequate representation of the data, given a previously trained ML model. Likewise, an automatic method is introduced to bring a Support Vector Machine (SVM) model based on an adequate representation of the data. Both methods provide an Explanaible Machine Learning procedure. The proposal is tested on several data sets providing promising results. It significantly eases the visualization and understanding task to the data scientist when a ML model has already been trained, as well as the ML selection parameters when a reduced representation of data has been achieved.Ítem Health Sufficiency Indicators for Pandemic Monitoring(MDPI, 2021) M. Moguerza, Javier; Perelló Oliver, Salvador; Martín de Diego, Isaac; Aceña, Víctor; Lancho, Carmen; Cuesta, Marina; González Fernández, CésarThe outbreak of the COVID-19 disease, spreading all around the world and causing a worldwide pandemic, has lead to the collapse of the health systems of the most affected countries. Due to the ease of transmission, early prevention measures are proved to be fundamental to control the pandemic and, hence, the saturation of the health systems. Given the difficulty of obtaining characteristics of these systems of different countries and regions, it is necessary to define indicators based on basic information that enable the assessment of the evolution of the impact of a disease in a health system along with fair comparisons among different ones. This present paper introduces the Health Sufficiency Indicator (HSI), in its accumulated and daily versions. This indicator measures the additional pressure that a health care system has to deal with due to a pandemic. Hence, it allows to evaluate the capacity of a health system to give response to the corresponding needs arising from a pandemic and to compare the evolution of the disease among different regions. In addition, the Potential Occupancy Ratio (POR) in both its hospital ward bed and ICU bed versions is here introduced to asses the impact of the pandemic in the capacity of hospitals. These indicators and other well-known ones are applied to track the evolution of the impact of the disease on the Spanish health system during the first wave of the pandemic, both on national and regional levels. An international comparison among the most affected countries is also performed.Ítem Minimally overfitted learners: A general framework for ensemble learning(Elsevier, 2022) Aceña, Víctor; Martín de Diego, Isaac; R. Fernández, Rubén; M. Moguerza, JavierLa combinación de algoritmos de Machine Learning (ML) es una solución para construir predictores más fuertes que los obtenidos con un solo algoritmo. Sin embargo, algunas aproximaciones sugieren que la combinación de algoritmos inestables proporciona mejores resultados que la combinación de algoritmos estables. Por ejemplo, los ensamblajes generativos, basados en técnicas de remuestreo, han demostrado un alto rendimiento al fusionar la información de aprendices base inestables. Random Forest (RF) y Gradient Boosting (GB) son dos ejemplos bien conocidos, ambos combinan árboles de decisión (Decision Tree, DT) y proporcionan mejores predicciones que las obtenidas usando un solo árbol. Sin embargo, no se han logrado resultados tan exitosos ensamblando algoritmos estables. Este artículo introduce la noción de aprendiz limitado y un nuevo marco general de ensamblaje llamado Minimally Overfitted Ensemble (MOE), un enfoque de ensamblaje basado en remuestreo que construye aprendices ligeramente sobreajustados. El marco propuesto funciona bien con algoritmos base estables e inestables, gracias a un muestreo Weighted Random Bootstrap (WRAB) que proporciona la diversidad necesaria para los algoritmos base estables. Se lleva a cabo un análisis de hiperparámetros de la propuesta en datos artificiales. Además, se evalúa su rendimiento en conjuntos de datos reales frente a métodos de ML bien conocidos. Los resultados confirman que el marco MOE funciona con éxito utilizando algoritmos base estables e inestables, mejorando en la mayoría de los casos la capacidad predictiva de modelos de ML individuales y otros métodos de ensamblaje.Ítem Random forest explainability using counterfactual sets(Elsevier, 2020) R. Fernández, Rubén; Martín de Diego, Isaac; Aceña, Víctor; Fernández-Isabel, Alberto; M. Moguerza, JavierHoy en día, los modelos de Machine Learning (ML) se están volviendo omnipresentes en la sociedad actual, apoyando a las personas en sus decisiones diarias. En este contexto, el Machine Learning explicable es un campo de la Inteligencia Artificial (AI) que se centra en hacer que los modelos predictivos y sus decisiones sean interpretables por los humanos, permitiendo a las personas confiar en los modelos predictivos y entender los procesos subyacentes. Un contrafáctico es un tipo efectivo de técnica explicable de Machine Learning que explica las predicciones describiendo los cambios necesarios en una muestra para cambiar el resultado de la predicción. En este artículo, presentamos conjuntos contrafácticos, un enfoque explicativo que utiliza un conjunto de contrafácticos para explicar una predicción en lugar de un solo contrafáctico, definiendo una sub-región del espacio de características donde el contrafáctico se mantiene. Se presenta un método para extraer conjuntos contrafácticos de un Random Forest (RF), el RF-OCSE (Random Forest Optimal Counterfactual Set Extractor). El método se basa en una fusión parcial de predictores de árboles de un Random Forest en un solo árbol de decisión (DT) utilizando una modificación del algoritmo CART, y obtiene un conjunto contrafáctico que contiene el contrafáctico óptimo. La propuesta se valida a través de varios experimentos comparados con alternativas existentes en diez conjuntos de datos bien conocidos, comparando el porcentaje de contrafácticos válidos, la distancia a la muestra factual y la calidad de los conjuntos contrafácticos.Ítem Relevance Metric for Counterfactuals Selection in Decision Trees(Springer International Publishing, 2019) R. Fernández, Rubén; Martín de Diego, Isaac; Aceña, Víctor; M. Moguerza, Javier; Fernández-Isabel, AlbertoEl Aprendizaje Automático Explicable es un campo emergente en el dominio del Aprendizaje Automático. Aborda la explicabilidad de los modelos de Aprendizaje Automático y la lógica inherente detrás de las predicciones del modelo. En el caso particular de los métodos de explicación basados en ejemplos, se centran en utilizar instancias particulares, previamente definidas o creadas, para explicar el comportamiento de los modelos o predicciones. La explicación basada en contrafactuales es uno de estos métodos. Un contrafactual es una instancia hipotética similar a un ejemplo cuya explicación es de interés, pero con una clase predicha diferente. Este artículo presenta una métrica de relevancia para la selección de contrafactuales llamada sGower, diseñada para inducir esparsidad en los modelos de Árboles de Decisión. Funciona con características categóricas y continuas, considerando el número de cambios en las características y la distancia entre el contrafactual y el ejemplo. La métrica propuesta se evalúa en comparación con métricas de relevancia anteriores en varios conjuntos de datos categóricos y continuos, obteniendo en promedio mejores resultados que los enfoques anteriores.Ítem Support Subsets Estimation for Support Vector Machines Retraining(Elsevier, 2022) Aceña, Víctor; Martín de Diego, Isaac; R. Fernández, Rubén; M. Moguerza, JavierLa disponibilidad de nuevos datos en modelos previamente entrenados de aprendizaje automático generalmente requiere reentrenamiento y ajuste del modelo. Los máquinas de vectores soporte (SVM, por sus siglas en inglés) son ampliamente utilizadas en el aprendizaje automático debido a sus fuertes fundamentos matemáticos y flexibilidad. Sin embargo, el entrenamiento de SVM es computacionalmente costoso, tanto en tiempo como en memoria. Por lo tanto, la fase de entrenamiento podría ser una limitación en problemas donde el modelo se actualiza regularmente. Como solución, se han propuesto nuevos métodos para entrenar y actualizar SVM en el pasado. En este artículo, introducimos el concepto de Subconjunto de Soporte y una nueva metodología de reentrenamiento para SVM. Un Subconjunto de Soporte es un subconjunto del conjunto de entrenamiento, tal que reentrenar un modelo de aprendizaje automático con este subconjunto y los nuevos datos es equivalente a entrenar con todos los datos. El desempeño de la propuesta se evalúa en una variedad de experimentos con datos simulados y reales en términos de tiempo, calidad de la solución, vectores de soporte resultantes y cantidad de datos empleados. Los resultados prometedores proporcionan una nueva línea de investigación para mejorar la efectividad y adaptabilidad de la técnica propuesta, incluyendo su generalización a otros modelos de aprendizaje automático.Ítem Tourist services management through clients scoring using a bio-inspired agent architecture(ComSIS Consortium, 2024) Moreno, Raúl; Fernández-Isabel, Alberto; Aceña, Víctor; Martín de Diego, Isaac; M. Moguerza, JavierTourism has become an economic engine for several countries during the last decades. Each time more and more individuals consider visiting other places during their vacation period. These places cover very different options, from the typical beach and mountain tourism to the less common urban and cultural trips. These travels hoard multiple transport means and facilities in the destination place that have to be correctly managed. Therefore, the rise of automatic systems to address the related operations and processes is a crucial issue nowadays. These systems are usually focused on the final users (the tourists) and make recommendations about their available possibilities. However, it is not easy to find a multi-purpose recommendation system covering all the needs from the perspective of the travel agency. In this paper, a complete framework called Pharaoh able to make recommendations to customers covering the final user perspective, and to provide support to the travel agents, is presented. This assistance filters the best travel, accommodation, and activity options according to the desires of the customers. This novel functionality allows selecting the customer with the best propensity to book a tourist service. This workload is distributed using a bio-inspired Multi-Agent System (MAS). Moreover, Pharaoh considers the feedback from clients after the completion of the tourist opportunity to improve future recommendations. Several experiments in real environments have been addressed to show the viability of the proposal. It can be concluded that the system enhances the quality of the service provided by the travel agency and its profits.Ítem Toward Accelerated Training of Parallel Support Vector Machines Based on Voronoi Diagrams(MDPI, 2021-11-29) Alfaro, Cesar; Gomez, Javier; M. Moguerza, Javier; Castillo, Javier; Martinez, Jose I.Typical applications of wireless sensor networks (WSN), such as in Industry 4.0 and smart cities, involves acquiring and processing large amounts of data in federated systems. Important challenges arise for machine learning algorithms in this scenario, such as reducing energy consumption and minimizing data exchange between devices in different zones. This paper introduces a novel method for accelerated training of parallel Support Vector Machines (pSVMs), based on ensembles, tailored to these kinds of problems. To achieve this, the training set is split into several Voronoi regions. These regions are small enough to permit faster parallel training of SVMs, reducing computational payload. Results from experiments comparing the proposed method with a single SVM and a standard ensemble of SVMs demonstrate that this approach can provide comparable performance while limiting the number of regions required to solve classification tasks. These advantages facilitate the development of energy-efficient policies in WSN.Ítem Weighted Nearest Centroid Neighbourhood(Springer, 2019) Aceña, Víctor; M. Moguerza, Javier; Martín de Diego, Isaac; R. Fernández, RubénSe presenta un novedoso clasificador binario basado en vecinos más cercanos al centroide. El método propuesto utiliza la bien conocida idea detrás del algoritmo clásico de k-Vecinos más Cercanos (k-NN): un punto es similar a otros que están cerca de él. La nueva propuesta se basa en una forma alternativa de calcular vecindarios que se adapta mejor a la distribución de los datos, considerando que un vecino más distante debe tener menos influencia que uno más cercano. La importancia relativa de cualquier vecino en un vecindario se estima utilizando la función SoftMax sobre la distancia implícita. Se realizan experimentos con conjuntos de datos simulados y reales. El método propuesto supera a las alternativas, proporcionando una nueva línea de investigación prometedora.