Ejercicio 43: Análisis Visual de Datos con Penguins e Iris

Este ejercicio tiene como objetivo que los estudiantes practiquen la visualización de datos en Python utilizando las bibliotecas Matplotlib y Seaborn. Se trabajará con los datasets penguins e iris de Seaborn, explorando diferentes técnicas para representar gráficamente la distribución y relaciones entre variables.

Objetivos

Cargar y explorar los datasets penguins e iris.
Crear gráficos de dispersión con color por categoría.
Generar boxplots con swarmplots superpuestos para analizar distribuciones.
Construir histogramas y representar distribuciones utilizando pd.cut.

Entrada de Datos

Dataset penguins: Información sobre tres especies de pingüinos, incluyendo medidas como bill_length_mm, bill_depth_mm y flipper_length_mm.
Dataset iris: Información sobre tres especies de flores, incluyendo medidas como sepal_length, sepal_width, petal_length y petal_width.

Parte A: Carga y Exploración de Datos

Tareas

Cargar ambos datasets y visualizar sus primeras filas.
Verificar valores nulos y realizar un resumen estadístico.
Identificar qué tipo de variables contiene cada dataset.

Código Base

import seaborn as sns
import pandas as pd

# Cargar datasets
penguins = sns.load_dataset('penguins')
iris = sns.load_dataset('iris')

# TODO: Implementar

Parte B: Gráficos de Dispersión (Scatter Plots)

Tareas

Dataset: Penguins
- Crear un gráfico de dispersión de bill_length_mm vs. bill_depth_mm, coloreando por especie.
- Hacer lo mismo con flipper_length_mm vs. bill_length_mm.
Dataset: Iris
- Generar un gráfico de dispersión de sepal_length vs. sepal_width, coloreando por especie.
- Repetir para petal_length vs. petal_width.

Código Base

import matplotlib.pyplot as plt

# TODO: Implementar

Parte C: Boxplots y Swarmplots

Tareas

Dataset: Penguins
- Crear boxplots para comparar bill_length_mm entre especies y superponer un swarmplot.
- Hacer lo mismo para flipper_length_mm.
Dataset: Iris
- Crear boxplots para comparar sepal_length entre especies con swarmplots superpuestos.
- Hacer lo mismo para petal_length.

Código Base

# TODO: Implementar

Parte D: Histogramas y Distribuciones

Tareas

Dataset: Penguins
- Crear histogramas de bill_length_mm por especie.
- Utilizar pd.cut para agrupar flipper_length_mm en categorías y visualizar la cantidad de observaciones por grupo.
Dataset: Iris
- Crear histogramas de sepal_length por especie.
- Generar gráficos de densidad (sns.kdeplot) para comparar distribuciones entre especies.

Código Base

# TODO: Implementar

Pruebas

Ejemplo de prueba para verificar la carga de datos:

# Verificar las primeras filas de los datasets
print(penguins.head())
print(iris.head())

# Verificar valores nulos
print(penguins.isnull().sum())
print(iris.isnull().sum())

# Resumen estadístico
print(penguins.describe())
print(iris.describe())

Entrega Esperada

Código en Python bien estructurado con visualizaciones adecuadas.
Gráficos de dispersión con diferenciación por categoría.
Boxplots con swarmplots para comparar distribuciones.
Histogramas y gráficos de densidad bien interpretados.
Reflexiones sobre la utilidad de cada tipo de visualización.