Lancho, CarmenCuesta, MarinaMartín de Diego, IsaacAceña, VíctorM. Moguerza, Javier2025-09-222025-09-222025-07-02Lancho, C., Cuesta, M., De Diego, I. M., Aceña, V., & Moguerza, J. M. (2025). Selecting sampling ratios in imbalanced datasets through class complexity. Pattern Analysis and Applications, 28(3), 1-17.https://hdl.handle.net/10115/102397Las características de los datos que revelan la complejidad del conjunto de datos, como el solapamiento, la falta de densidad, la presencia de puntos ruidosos, etc., son factores clave para el deterioro de la tarea de clasificación de los conjuntos de datos desequilibrados. El desequilibrio en el tamaño de las clases no es el problema principal, sino su combinación con las características mencionadas anteriormente. A pesar de ello, cuando se aplican métodos de muestreo para el preprocesamiento de este tipo de datos, la proporción de muestreo se selecciona en función del tamaño de las clases. En este artículo, proponemos una metodología para seleccionar la proporción de muestreo buscando un equilibrio en la complejidad de las clases en lugar de en su tamaño. La metodología propuesta, denominada Hostility-Aware Ratio for Sampling (HARS), realiza un seguimiento de cómo cambia la complejidad de las clases cuando se aplica un método de muestreo para diferentes proporciones de instancias minoritarias y mayoritarias, y recomienda la proporción para la que existe un equilibrio entre las complejidades de las clases. La complejidad se mide a través de la medida de hostilidad, una medida de complejidad que estima la probabilidad de clasificar erróneamente una instancia, una clase o todo el conjunto de datos. La propuesta se evalúa en un total de 66 conjuntos de datos reales y se compara con métodos del estado del arte. Los resultados son satisfactorios y validan no solo el uso de la complejidad para elegir la proporción de muestreo, si no también que un equilibrio en la complejidad favorece un proceso de aprendizaje más equilibrado de los clasificadores.enImbalanced dataSampling ratioHostility measureComplexity measuresData complexitySelecting sampling ratios in imbalanced datasets through class complexityArticlehttps://doi.org/10.1007/s10044-025-01511-zinfo:eu-repo/semantics/embargoedAccesshttps://link.springer.com/epdf/10.1007/s10044-025-01511-z?sharing_token=ugNOwv5h7pxtPIwUqzV6y_e4RwlQNchNByi7wbcMAY7KxJ69OufMU6L0KojY0HWQazFtbJLOo2BHDl004nSweU0ACjTvFo6XjtEPeoaN5E1H9fS76BqamROhwLKfafHJxvsqxFkoNnJtkH4auytOUK6ZmgI_HVwqNRIE9mmOedM%3D