Ejercicio 19: Limpieza y Análisis Exploratorio de Datos (EDA) en Pandas

Este ejercicio está diseñado para que los estudiantes trabajen con procesamiento de datos en Pandas, enfocándose en la limpieza de datos y el análisis exploratorio (EDA). Se utilizará un dataset de encuestas sobre el transporte utilizado por los estudiantes para llegar a Ciudad Universitaria. El objetivo es procesar respuestas abiertas y eliminar información redundante.

Objetivos

  • Cargar y limpiar datos eliminando información innecesaria.
  • Normalizar respuestas abiertas y estandarizar valores.
  • Realizar un Análisis Exploratorio de Datos (EDA) para identificar patrones.
  • Generar visualizaciones que resuman la distribución del uso de transporte.

Entrada de Datos

  • Dataset de encuestas sobre medios de transporte utilizados por los estudiantes.

Parte A: Carga y Limpieza de Datos

Tareas

  1. Cargar el dataset en un DataFrame de Pandas y explorar su contenido.
  2. Eliminar columnas irrelevantes como Timestamp, Email Address, Ingrese su nombre, e Ingrese su apellido.
  3. Estandarizar las respuestas en la columna de transporte, unificando variantes similares (por ejemplo, “Colectivo-Tren-Colectivo” → “Combinado”).
  4. Limpiar los comentarios, eliminando caracteres extraños, saltos de línea innecesarios y asegurando coherencia en el formato.

Código Base

import pandas as pd

# Cargar el dataset
# TODO: Implementar la carga del dataset en un DataFrame de Pandas

# Eliminar columnas irrelevantes
# TODO: Implementar la eliminación de columnas irrelevantes

# Estandarizar respuestas de transporte
# TODO: Implementar la estandarización de respuestas

# Limpiar comentarios
# TODO: Implementar la limpieza de comentarios

Pregunta de reflexión

¿Por qué es importante la estandarización en los datos abiertos?

Parte B: Análisis Exploratorio de Datos (EDA)

Tareas

  1. Estadísticas descriptivas del dataset

    • Obtener el número total de respuestas.
    • Calcular la distribución de respuestas por tipo de transporte.
    • Identificar valores únicos en cada columna.
  2. Análisis de transporte utilizado

    • Contar la cantidad de estudiantes que usan cada tipo de transporte.
    • Analizar combinaciones de transporte si las hubiera.
    • Detectar respuestas atípicas o inconsistentes.
  3. Análisis de comentarios

    • Contar la cantidad de respuestas con comentarios.
    • Identificar palabras o frases más comunes en los comentarios.
    • Analizar sentimientos o patrones en las respuestas de texto.

Código Base

# Estadísticas descriptivas
# TODO: Implementar estadísticas descriptivas del dataset

# Análisis de transporte utilizado
# TODO: Implementar análisis de transporte

# Análisis de comentarios
# TODO: Implementar análisis de comentarios

Pregunta de reflexión

¿Qué información relevante se puede obtener a partir de los comentarios abiertos?

Pruebas

Ejemplo de prueba para la carga y limpieza de datos:

# Prueba de carga de datos
# TODO: Implementar prueba de carga de datos

# Prueba de eliminación de columnas
# TODO: Implementar prueba de eliminación de columnas

# Prueba de estandarización de transporte
# TODO: Implementar prueba de estandarización de transporte

# Prueba de limpieza de comentarios
# TODO: Implementar prueba de limpieza de comentarios

Este ejercicio requiere que los estudiantes apliquen técnicas de limpieza y análisis de datos utilizando Pandas, desarrollando habilidades críticas para el manejo de datos en ciencia de datos.