Examinando por Autor "L. Cano, Emilio"
Mostrando 1 - 1 de 1
- Resultados por página
- Opciones de ordenación
Ítem CSViz: Class Separability Visualization for High-Dimensional Datasets(Springer, 2023-12-26) Cuesta, Marina; Lancho, Carmen; Fernández-Isabel, Alberto; L. Cano, Emilio; Martín de Diego, CarmenLa visualización de datos es una tarea esencial durante el ciclo de vida de cualquier proyecto de Ciencia de Datos (DS), particularmente durante el Análisis Exploratorio de Datos (EDA) para una correcta preparación y comprensión de los datos. En problemas de clasificación, la visualización de datos es útil para revelar la existencia de patrones de separabilidad de clases dentro del conjunto de datos. Esta información es muy valiosa y puede utilizarse posteriormente durante el proceso de construcción de un modelo de Aprendizaje Automático (Machine Learning, ML). Los Datos de Alta Dimensión (HDD) se presentan como uno de los mayores retos en el DS. Los HDD requieren un tratamiento especial, ya que las técnicas de visualización tradicionales, como la matriz de dispersión (SPLOM), tienen limitaciones a la hora de tratarlos debido a las restricciones de espacio. Otros métodos de visualización implican técnicas de reducción de la dimensionalidad, que pueden llevar a perder información importante y reducir la interpretabilidad de los datos. En este trabajo, se presenta el método de Visualización de Separabilidad de Clases (CSViz) como un nuevo enfoque de Análisis Visual (VA) para abordar el reto de visualizar HDD etiquetados a través de subespacios. El método propuesto permite obtener una visión general de la separabilidad de las clases ofreciendo una serie de visualizaciones de subespacios bidimensionales que contienen subconjuntos exclusivos de puntos de las variables originales que engloban los patrones separables más valiosos y significativos. El método propuesto se pone a prueba en 50 conjuntos de datos con características diferentes y ofrece resultados prometedores. En todos los casos, más del 90% de las observaciones de datos se muestran con tres gráficos o menos. Por lo tanto, el CSViz presentado facilita significativamente el EDA reduciendo el número de gráficos a inspeccionar en un SPLOM y, por lo tanto, la cantidad de tiempo invertido en ello.