Ejercicio 43: Análisis Visual de Datos con Penguins e Iris

Este ejercicio tiene como objetivo que los estudiantes practiquen la visualización de datos en Python utilizando las bibliotecas Matplotlib y Seaborn. Se trabajará con los datasets penguins e iris de Seaborn, explorando diferentes técnicas para representar gráficamente la distribución y relaciones entre variables.

Objetivos

  • Cargar y explorar los datasets penguins e iris.
  • Crear gráficos de dispersión con color por categoría.
  • Generar boxplots con swarmplots superpuestos para analizar distribuciones.
  • Construir histogramas y representar distribuciones utilizando pd.cut.

Entrada de Datos

  • Dataset penguins: Información sobre tres especies de pingüinos, incluyendo medidas como bill_length_mm, bill_depth_mm y flipper_length_mm.
  • Dataset iris: Información sobre tres especies de flores, incluyendo medidas como sepal_length, sepal_width, petal_length y petal_width.

Parte A: Carga y Exploración de Datos

Tareas

  1. Cargar ambos datasets y visualizar sus primeras filas.
  2. Verificar valores nulos y realizar un resumen estadístico.
  3. Identificar qué tipo de variables contiene cada dataset.

Código Base

import seaborn as sns
import pandas as pd

# Cargar datasets
penguins = sns.load_dataset('penguins')
iris = sns.load_dataset('iris')

# TODO: Implementar

Parte B: Gráficos de Dispersión (Scatter Plots)

Tareas

  1. Dataset: Penguins

    • Crear un gráfico de dispersión de bill_length_mm vs. bill_depth_mm, coloreando por especie.
    • Hacer lo mismo con flipper_length_mm vs. bill_length_mm.
  2. Dataset: Iris

    • Generar un gráfico de dispersión de sepal_length vs. sepal_width, coloreando por especie.
    • Repetir para petal_length vs. petal_width.

Código Base

import matplotlib.pyplot as plt

# TODO: Implementar

Parte C: Boxplots y Swarmplots

Tareas

  1. Dataset: Penguins

    • Crear boxplots para comparar bill_length_mm entre especies y superponer un swarmplot.
    • Hacer lo mismo para flipper_length_mm.
  2. Dataset: Iris

    • Crear boxplots para comparar sepal_length entre especies con swarmplots superpuestos.
    • Hacer lo mismo para petal_length.

Código Base

# TODO: Implementar

Parte D: Histogramas y Distribuciones

Tareas

  1. Dataset: Penguins

    • Crear histogramas de bill_length_mm por especie.
    • Utilizar pd.cut para agrupar flipper_length_mm en categorías y visualizar la cantidad de observaciones por grupo.
  2. Dataset: Iris

    • Crear histogramas de sepal_length por especie.
    • Generar gráficos de densidad (sns.kdeplot) para comparar distribuciones entre especies.

Código Base

# TODO: Implementar

Pruebas

Ejemplo de prueba para verificar la carga de datos:

# Verificar las primeras filas de los datasets
print(penguins.head())
print(iris.head())

# Verificar valores nulos
print(penguins.isnull().sum())
print(iris.isnull().sum())

# Resumen estadístico
print(penguins.describe())
print(iris.describe())

Entrega Esperada

  • Código en Python bien estructurado con visualizaciones adecuadas.
  • Gráficos de dispersión con diferenciación por categoría.
  • Boxplots con swarmplots para comparar distribuciones.
  • Histogramas y gráficos de densidad bien interpretados.
  • Reflexiones sobre la utilidad de cada tipo de visualización.