GitHunt

PySpark + Google Colab

Este proyecto contiene notebooks de introducción y práctica con PySpark y Spark SQL, diseñados para ser utilizados en Google Colab.

¿Cómo usar los notebooks?

  • Puedes abrir cualquier notebook directamente en Google Colab pulsando el botón Open in Colab que aparece al principio de cada archivo.
  • Los notebooks están preparados para ejecutarse en el entorno de Colab, incluyendo la instalación de dependencias necesarias.

Estructura del proyecto

  • pyspark_basic_commands.ipynb: Introducción a los comandos básicos de PySpark.
  • sparksql_renfe.ipynb: Ejercicios y ejemplos usando Spark SQL con datos de Renfe.
  • pyspark_renfe.ipynb: Ejercicios prácticos de PySpark con datos de Renfe.

Notebooks "template"

  • Los archivos que comienzan por template_ (por ejemplo, template_pyspark_basic_commands.ipynb) contienen los mismos ejercicios que sus equivalentes sin template_, pero sin la solución. Están pensados para que los estudiantes los resuelvan por su cuenta.

Requisitos

  • No es necesario instalar nada en local. Solo necesitas una cuenta de Google y acceder a Colab.
  • Si prefieres ejecutar los notebooks en local, asegúrate de tener instalado Python 3, PySpark y Jupyter Notebook.

Notas

  • Cada notebook incluye instrucciones y celdas de código listas para ejecutar.
  • Si tienes problemas con la instalación de dependencias en Colab, reinicia el entorno de ejecución y vuelve a ejecutar las celdas iniciales.

Contacto

Si te gusta este contenido, puedes ver más en mi perfil de LinkedIn. Divulgo sobre Data, IA y SaaS! 😄

Languages

Jupyter Notebook100.0%

Contributors

Created October 20, 2024
Updated January 14, 2026
raulcastillabravo/pyspark | GitHunt