Ejercicio 43: Análisis Visual de Datos con Penguins e Iris
Este ejercicio tiene como objetivo que los estudiantes practiquen la visualización de datos en Python utilizando las bibliotecas Matplotlib y Seaborn. Se trabajará con los datasets penguins
e iris
de Seaborn, explorando diferentes técnicas para representar gráficamente la distribución y relaciones entre variables.
Objetivos
- Cargar y explorar los datasets
penguins
eiris
. - Crear gráficos de dispersión con color por categoría.
- Generar boxplots con swarmplots superpuestos para analizar distribuciones.
- Construir histogramas y representar distribuciones utilizando
pd.cut
.
Entrada de Datos
- Dataset
penguins
: Información sobre tres especies de pingüinos, incluyendo medidas comobill_length_mm
,bill_depth_mm
yflipper_length_mm
. - Dataset
iris
: Información sobre tres especies de flores, incluyendo medidas comosepal_length
,sepal_width
,petal_length
ypetal_width
.
Parte A: Carga y Exploración de Datos
Tareas
- Cargar ambos datasets y visualizar sus primeras filas.
- Verificar valores nulos y realizar un resumen estadístico.
- Identificar qué tipo de variables contiene cada dataset.
Código Base
import seaborn as sns
import pandas as pd
# Cargar datasets
penguins = sns.load_dataset('penguins')
iris = sns.load_dataset('iris')
# TODO: Implementar
Parte B: Gráficos de Dispersión (Scatter Plots)
Tareas
Dataset: Penguins
- Crear un gráfico de dispersión de
bill_length_mm
vs.bill_depth_mm
, coloreando por especie. - Hacer lo mismo con
flipper_length_mm
vs.bill_length_mm
.
- Crear un gráfico de dispersión de
Dataset: Iris
- Generar un gráfico de dispersión de
sepal_length
vs.sepal_width
, coloreando por especie. - Repetir para
petal_length
vs.petal_width
.
- Generar un gráfico de dispersión de
Código Base
import matplotlib.pyplot as plt
# TODO: Implementar
Parte C: Boxplots y Swarmplots
Tareas
Dataset: Penguins
- Crear boxplots para comparar
bill_length_mm
entre especies y superponer un swarmplot. - Hacer lo mismo para
flipper_length_mm
.
- Crear boxplots para comparar
Dataset: Iris
- Crear boxplots para comparar
sepal_length
entre especies con swarmplots superpuestos. - Hacer lo mismo para
petal_length
.
- Crear boxplots para comparar
Código Base
# TODO: Implementar
Parte D: Histogramas y Distribuciones
Tareas
Dataset: Penguins
- Crear histogramas de
bill_length_mm
por especie. - Utilizar
pd.cut
para agruparflipper_length_mm
en categorías y visualizar la cantidad de observaciones por grupo.
- Crear histogramas de
Dataset: Iris
- Crear histogramas de
sepal_length
por especie. - Generar gráficos de densidad (
sns.kdeplot
) para comparar distribuciones entre especies.
- Crear histogramas de
Código Base
# TODO: Implementar
Pruebas
Ejemplo de prueba para verificar la carga de datos:
# Verificar las primeras filas de los datasets
print(penguins.head())
print(iris.head())
# Verificar valores nulos
print(penguins.isnull().sum())
print(iris.isnull().sum())
# Resumen estadístico
print(penguins.describe())
print(iris.describe())
Entrega Esperada
- Código en Python bien estructurado con visualizaciones adecuadas.
- Gráficos de dispersión con diferenciación por categoría.
- Boxplots con swarmplots para comparar distribuciones.
- Histogramas y gráficos de densidad bien interpretados.
- Reflexiones sobre la utilidad de cada tipo de visualización.