Ejercicio 11: Combinación de Datos

En este ejercicio, se busca que el estudiante aprenda a combinar datos provenientes de diferentes fuentes utilizando la biblioteca Pandas en Python. Se trabajará con dos conjuntos de datos relacionados con árboles ubicados en parques y veredas de una ciudad. El objetivo es integrar estos datos en un único DataFrame y analizar las diferencias en las características de los árboles según su entorno.

Objetivos

  1. Cargar y preparar los conjuntos de datos de árboles en parques y veredas.
  2. Unir los datos de ambos conjuntos en un único DataFrame.
  3. Analizar las diferencias en altura y diámetro de los árboles según su entorno.

Entrada de Datos

  1. Dataset de árboles en parques: Contiene información sobre los árboles ubicados en parques.
  2. Dataset de árboles en veredas: Contiene información sobre los árboles ubicados en veredas.

Código Base

import pandas as pd

# Cargar datasets
# TODO: Implementar la carga de los datasets de parques y veredas

# Seleccionar columnas relevantes
# TODO: Implementar la selección de columnas relevantes

# Unir datasets usando merge()
# TODO: Implementar la unión de los datasets

# Agregar columna "tipo_entorno"
# TODO: Implementar la adición de la columna "tipo_entorno"

# Concatenar datasets
# TODO: Implementar la concatenación de los datasets

Pruebas

Ejemplo de prueba para verificar la correcta implementación del ejercicio:

# Prueba de carga de datos
# df_parques = cargar_datos_parques()
# df_veredas = cargar_datos_veredas()
# assert not df_parques.empty, "El DataFrame de parques está vacío"
# assert not df_veredas.empty, "El DataFrame de veredas está vacío"

# Prueba de unión de datos
# df_combinado = unir_datasets(df_parques, df_veredas)
# assert 'tipo_entorno' in df_combinado.columns, "La columna 'tipo_entorno' no está presente en el DataFrame combinado"

# Prueba de concatenación
# df_concatenado = concatenar_datasets(df_parques, df_veredas)
# assert len(df_concatenado) == (len(df_parques) + len(df_veredas)), "La concatenación no se realizó correctamente"

Este ejercicio está diseñado para ser de dificultad intermedia, requiriendo que el estudiante aplique funciones de Pandas para manipular y combinar datos de manera efectiva. El resultado esperado es un DataFrame combinado que permita analizar las diferencias en las características de los árboles según su entorno.