Yellowbrick: Visualización de Machine Learning

Yellowbrick amplía la API Scikit-Learn para facilitar la selección de modelos y el ajuste de hiperparámetros. En su núcleo, usa Matplotlib.

Ruta de aprendizaje recomendada

Revisa el Inicio rápido, utiliza el Tutorial de selección de modelos, y también revisa Los «Oneliners».
Use Yellowbrick en su trabajo, haciendo referencia a Visualizers and API para obtener ayuda con visualizadores específicos e información detallada sobre parámetros opcionales y personalización.
Síguenos en GitHub y síguenos en Twitter (@scikit_yb) para que te enteres de los nuevos visualizadores tan pronto se agreguen.

Contribuyendo

¿Interesado en contribuir a Yellowbrick? Yellowbrick es un proyecto acogedor e inclusivo y nos encantaría tenerte. Seguimos el Código de conducta de Python Software Foundation.

No importa tu nivel de habilidad técnica, puedes ayudar. Apreciamos los informes de errores, las pruebas de usuario, las solicitudes de funciones, las correcciones de errores, las mejoras de productos y las mejoras en la documentación.

¡Revisa la guía Contributing!

Considera la posibilidad de unirte al Google Groups Listserv listserve para que puedas responder preguntas.

¡Gracias por tus contribuciones!

Conceptos & API

Visualizadores

El objetivo principal de Yellowbrick es crear una API sensorial similar a Scikit-Learn.

Los visualizadores son los objetos centrales en Yellowbrick. Son similares a los transformadores en Scikit-Learn. Los visualizadores pueden envolver un estimador de modelo, de manera similar a «ModelCV» (e.g. RidgeCV, LassoCV) .

Algunos de nuestros visualizadores más populares incluyen:

Características de las visualizaciones

Rank Features: clasificación por pares de características para detectar relaciones
Parallel Coordinates: visualización horizontal de instancias
Radial Visualization: comparación de instancias alrededor de una gráfica circular
PCA Projection: proyección de instancias basadas en componentes principales
Manifold Visualization: visualización de alta dimensión con aprendizaje de múltiples
Joint Plots: visualización directa de datos con selección de características

Clasificación de las visualizaciones

Class Prediction Error: muestra los errores y ayuda a clasificarlos
Classification Report: representación visual de precisión, recall y F1
ROC/AUC Curves: características del operador receptor y área bajo la curva
Precision-Recall Curves: precisión vs recall para diferentes umbrales de probabilidad
Confusion Matrices: descripción visual de la toma de decisiones de clase
Discrimination Threshold: encuentra el umbral que mejor separa las clases binarias

Visualización en regresión

Prediction Error Plot: encuentra desgloses del modelo a lo largo del dominio del objetivo
Residuals Plot: muestra la diferencia en los residuos de los datos de entrenamiento y prueba
Alpha Selection: muestra cómo la elección del alfa influye en la regularización
Cook’s Distance: mostrar la influencia de las instancias en la regresión lineal

Visualización en agrupación

K-Elbow Plot: selecciona k al usar el método elbow y otras métricas
Silhouette Plot: selecciona k al visualizar los valores del coeficiente de silueta
Intercluster Distance Maps: muestra la distancia relativa y el tamaño/importancia de las agrupaciones

Visualización de selección de modelos

Validation Curve: sintoniza un modelo con respecto a un solo hiperparámetro
Learning Curve: muestra si un modelo se podría beneficiar de más datos o menos complejidad
Feature Importances: clasifica las entidades por importancia o coeficientes lineales para un modelo específico
Recursive Feature Elimination: encuentra el mejor subconjunto de características en función de la importancia

Visualización en objetivos

Balanced Binning Reference: genera un histograma con líneas verticales que muestra el punto de valor recomendado para agrupar los datos en contenedores distribuidos uniformemente
Class Balance: visualiza cómo afecta la distribución de clases al modelo
Feature Correlation: muestra la correlación entre características y variables dependientes

Visualización de texto

Term Frequency: visualiza la distribución de frecuencias de términos en el cuerpo
t-SNE Corpus Visualization: usa la incrustación estocástica de elementos vecinos para proyectar documentos
Dispersion Plot: visualiza cómo se dispersan los términos clave a lo largo de un cuerpo
UMAP Corpus Visualization: traza los documentos similares más juntos para descubrir agrupaciones
PosTag Visualization: traza los recuentos de diferentes partes del habla a lo largo de un cuerpo objetivo

… y más! Los visualizadores se agregan todo el tiempo. Compruebe los ejemplos (o incluso la develop branch). ¡Siéntete libre de contribuir con tus ideas para nuevos visualizadores!

Obtener ayuda

¿Algo no te funciona? Aquí puedes encontrar ayuda.

Los documentos (¡estás aquí!).
Stack Overflow. Si haces una pregunta, etiquétela con «yellowbrick».
The Yellowbrick Google Groups Listserv.
Puedes hacer un tweet o enviarnos mensajes directos en Twitter @scikit_yb.

¿Encontraste un error?

Compruebe si ya hay un issue sobre el tema. Si es necesario, presente un issue.

Código abierto

La licencia de Yellowbrick es una licencia de código abierto Apache 2.0. ¡Yellowbrick disfruta de una comunidad de desarrolladores muy activa; por favor revisa Contributing!

Yellowbrick está alojado en GitHub. Los issues y pull requests son rastreados aquí.