Ejercicio 43: Análisis Visual de Datos con Penguins e Iris
Este ejercicio tiene como objetivo que los estudiantes practiquen la visualización de datos en Python utilizando las bibliotecas Matplotlib y Seaborn. Se trabajará con los datasets penguins e iris de Seaborn, explorando diferentes técnicas para representar gráficamente la distribución y relaciones entre variables.
Objetivos
- Cargar y explorar los datasets
penguinseiris. - Crear gráficos de dispersión con color por categoría.
- Generar boxplots con swarmplots superpuestos para analizar distribuciones.
- Construir histogramas y representar distribuciones utilizando
pd.cut.
Entrada de Datos
- Dataset
penguins: Información sobre tres especies de pingüinos, incluyendo medidas comobill_length_mm,bill_depth_mmyflipper_length_mm. - Dataset
iris: Información sobre tres especies de flores, incluyendo medidas comosepal_length,sepal_width,petal_lengthypetal_width.
Parte A: Carga y Exploración de Datos
Tareas
- Cargar ambos datasets y visualizar sus primeras filas.
- Verificar valores nulos y realizar un resumen estadístico.
- Identificar qué tipo de variables contiene cada dataset.
Código Base
import seaborn as sns
import pandas as pd
# Cargar datasets
penguins = sns.load_dataset('penguins')
iris = sns.load_dataset('iris')
# TODO: Implementar
Parte B: Gráficos de Dispersión (Scatter Plots)
Tareas
Dataset: Penguins
- Crear un gráfico de dispersión de
bill_length_mmvs.bill_depth_mm, coloreando por especie. - Hacer lo mismo con
flipper_length_mmvs.bill_length_mm.
- Crear un gráfico de dispersión de
Dataset: Iris
- Generar un gráfico de dispersión de
sepal_lengthvs.sepal_width, coloreando por especie. - Repetir para
petal_lengthvs.petal_width.
- Generar un gráfico de dispersión de
Código Base
import matplotlib.pyplot as plt
# TODO: Implementar
Parte C: Boxplots y Swarmplots
Tareas
Dataset: Penguins
- Crear boxplots para comparar
bill_length_mmentre especies y superponer un swarmplot. - Hacer lo mismo para
flipper_length_mm.
- Crear boxplots para comparar
Dataset: Iris
- Crear boxplots para comparar
sepal_lengthentre especies con swarmplots superpuestos. - Hacer lo mismo para
petal_length.
- Crear boxplots para comparar
Código Base
# TODO: Implementar
Parte D: Histogramas y Distribuciones
Tareas
Dataset: Penguins
- Crear histogramas de
bill_length_mmpor especie. - Utilizar
pd.cutpara agruparflipper_length_mmen categorías y visualizar la cantidad de observaciones por grupo.
- Crear histogramas de
Dataset: Iris
- Crear histogramas de
sepal_lengthpor especie. - Generar gráficos de densidad (
sns.kdeplot) para comparar distribuciones entre especies.
- Crear histogramas de
Código Base
# TODO: Implementar
Pruebas
Ejemplo de prueba para verificar la carga de datos:
# Verificar las primeras filas de los datasets
print(penguins.head())
print(iris.head())
# Verificar valores nulos
print(penguins.isnull().sum())
print(iris.isnull().sum())
# Resumen estadístico
print(penguins.describe())
print(iris.describe())
Entrega Esperada
- Código en Python bien estructurado con visualizaciones adecuadas.
- Gráficos de dispersión con diferenciación por categoría.
- Boxplots con swarmplots para comparar distribuciones.
- Histogramas y gráficos de densidad bien interpretados.
- Reflexiones sobre la utilidad de cada tipo de visualización.