PySpark + Google Colab
Este proyecto contiene notebooks de introducción y práctica con PySpark y Spark SQL, diseñados para ser utilizados en Google Colab.
¿Cómo usar los notebooks?
- Puedes abrir cualquier notebook directamente en Google Colab pulsando el botón Open in Colab que aparece al principio de cada archivo.
- Los notebooks están preparados para ejecutarse en el entorno de Colab, incluyendo la instalación de dependencias necesarias.
Estructura del proyecto
- pyspark_basic_commands.ipynb: Introducción a los comandos básicos de PySpark.
- sparksql_renfe.ipynb: Ejercicios y ejemplos usando Spark SQL con datos de Renfe.
- pyspark_renfe.ipynb: Ejercicios prácticos de PySpark con datos de Renfe.
Notebooks "template"
- Los archivos que comienzan por
template_(por ejemplo,template_pyspark_basic_commands.ipynb) contienen los mismos ejercicios que sus equivalentes sintemplate_, pero sin la solución. Están pensados para que los estudiantes los resuelvan por su cuenta.
Requisitos
- No es necesario instalar nada en local. Solo necesitas una cuenta de Google y acceder a Colab.
- Si prefieres ejecutar los notebooks en local, asegúrate de tener instalado Python 3, PySpark y Jupyter Notebook.
Notas
- Cada notebook incluye instrucciones y celdas de código listas para ejecutar.
- Si tienes problemas con la instalación de dependencias en Colab, reinicia el entorno de ejecución y vuelve a ejecutar las celdas iniciales.
Contacto
Si te gusta este contenido, puedes ver más en mi perfil de LinkedIn. Divulgo sobre Data, IA y SaaS! 😄