Ejercicio 19: Limpieza y Análisis Exploratorio de Datos (EDA) en Pandas
Este ejercicio está diseñado para que los estudiantes trabajen con procesamiento de datos en Pandas, enfocándose en la limpieza de datos y el análisis exploratorio (EDA). Se utilizará un dataset de encuestas sobre el transporte utilizado por los estudiantes para llegar a Ciudad Universitaria. El objetivo es procesar respuestas abiertas y eliminar información redundante.
Objetivos
- Cargar y limpiar datos eliminando información innecesaria.
- Normalizar respuestas abiertas y estandarizar valores.
- Realizar un Análisis Exploratorio de Datos (EDA) para identificar patrones.
- Generar visualizaciones que resuman la distribución del uso de transporte.
Entrada de Datos
- Dataset de encuestas sobre medios de transporte utilizados por los estudiantes.
Parte A: Carga y Limpieza de Datos
Tareas
- Cargar el dataset en un DataFrame de Pandas y explorar su contenido.
- Eliminar columnas irrelevantes como
Timestamp
,Email Address
,Ingrese su nombre
, eIngrese su apellido
. - Estandarizar las respuestas en la columna de transporte, unificando variantes similares (por ejemplo, “Colectivo-Tren-Colectivo” → “Combinado”).
- Limpiar los comentarios, eliminando caracteres extraños, saltos de línea innecesarios y asegurando coherencia en el formato.
Código Base
import pandas as pd
# Cargar el dataset
# TODO: Implementar la carga del dataset en un DataFrame de Pandas
# Eliminar columnas irrelevantes
# TODO: Implementar la eliminación de columnas irrelevantes
# Estandarizar respuestas de transporte
# TODO: Implementar la estandarización de respuestas
# Limpiar comentarios
# TODO: Implementar la limpieza de comentarios
Pregunta de reflexión
¿Por qué es importante la estandarización en los datos abiertos?
Parte B: Análisis Exploratorio de Datos (EDA)
Tareas
Estadísticas descriptivas del dataset
- Obtener el número total de respuestas.
- Calcular la distribución de respuestas por tipo de transporte.
- Identificar valores únicos en cada columna.
Análisis de transporte utilizado
- Contar la cantidad de estudiantes que usan cada tipo de transporte.
- Analizar combinaciones de transporte si las hubiera.
- Detectar respuestas atípicas o inconsistentes.
Análisis de comentarios
- Contar la cantidad de respuestas con comentarios.
- Identificar palabras o frases más comunes en los comentarios.
- Analizar sentimientos o patrones en las respuestas de texto.
Código Base
# Estadísticas descriptivas
# TODO: Implementar estadísticas descriptivas del dataset
# Análisis de transporte utilizado
# TODO: Implementar análisis de transporte
# Análisis de comentarios
# TODO: Implementar análisis de comentarios
Pregunta de reflexión
¿Qué información relevante se puede obtener a partir de los comentarios abiertos?
Pruebas
Ejemplo de prueba para la carga y limpieza de datos:
# Prueba de carga de datos
# TODO: Implementar prueba de carga de datos
# Prueba de eliminación de columnas
# TODO: Implementar prueba de eliminación de columnas
# Prueba de estandarización de transporte
# TODO: Implementar prueba de estandarización de transporte
# Prueba de limpieza de comentarios
# TODO: Implementar prueba de limpieza de comentarios
Este ejercicio requiere que los estudiantes apliquen técnicas de limpieza y análisis de datos utilizando Pandas, desarrollando habilidades críticas para el manejo de datos en ciencia de datos.