Ciencia de Datos a través del Big Data
Perfilado de sección
-
Este curso ofrece una inmersión en el mundo del Big Data, desde los conceptos fundamentales hasta las últimas herramientas de análisis. Los participantes explorarán los principios esenciales de Big Data, aprendiendo a gestionar grandes volúmenes de datos. Además, se sumergirán en el ecosistema de Hadoop, dominando el arte del procesamiento y almacenamiento distribuido en el Hadoop Distributed File System (HDFS).
Una vez establecidas las bases, el curso se adentrará en Apache Spark, ofreciendo una visión detallada de esta potente y popular plataforma de procesamiento en memoria y su papel fundamental en el análisis de Big Data. Desde la manipulación de datos hasta aplicaciones reales, los estudiantes adquirirán habilidades prácticas para abordar los desafíos más complejos en el ámbito del análisis de datos.
Agradecimientos
El uso de esta plataforma docente para impartir este curso ha sido financiado por el proyecto TSI-100927-2023-1, financiado por Plan de Recuperación, Transformación y Resiliencia Europeo, de la Unión Europea-Next Generation EU a través del Ministerio para la Transformación Digital y de la Función Pública.

-
-
Abrió: sábado, 4 de enero de 2025, 10:00Cerró: jueves, 20 de febrero de 2025, 23:59
-
-
¿Cómo realizar (y sobrevivir) este curso?
Te recomendamos que veas el video introductorio para conocer la estructura y conocimientos previos que esperamos que tengas para seguir este curso con normalidad.
El curso está pensado para que le dediques un total de 20 horas a lo largo de dos semanas. Los contenidos de los distintos bloques estarán disponibles en la siguientes fechas:
Tema Duración estimada Fecha de comienzo Introducción 2 horas 10 de enero MapReduce 2 horas de teoría
2 horas de prácticas13 de enero Hadoop/HDFS 2 horas 16 de enero Spark 2 horas de teoría
2 horas de prácticas17 de enero SparkSQL 2 horas de teoría
2 horas de prácticas20 de eneroMachine Learning con Spark 2 horas de teoría
2 horas de prácticas22 de eneroMaterial de refuerzo: En caso de que no estés familiarizado con machine learning, te dejamos disponible una breve introducción para que puedas entender mejor el último bloque del curso.
En cada bloque encontrarás:
- Un video corto (blackcoffee) que resume lo que vas a aprender en el bloque.
- Uno o más videos largos de una clase real.
- Transparencias.
- Enlace a Google Colab con los Python Notebooks usados durante la clase.
- Prácticas: Notebooks auto-evaluados con prácticas y ejercicios.
- Evaluación: Cada bloque tendrá un cuestionario asociado que debes de responder antes del 25 de enero de 2025.
Interacción con el profesorado y otros compañeros
Estamos seguros que durante el curso tendrás dudas o preguntas sobre Spark, Hadoop y todos los conceptos que vas a aprender. Te pedimos que no seas tímid@ y uses el foro para preguntarnos tus dudas.
Contacto:
Dr. Diego García (djgarcia@ugr.es)
Dr. Isaac Triguero (isaaktriguero@ugr.es)
---------------------------------------------------------------------------------------------------------------------------------------------
El contenido de este curso está basado en el libro "Large-Scale Data Analytics with Python and Spark, Cambridge: Cambridge University Press.", del cual tomaremos prestadas trasparencias, código y ejercicios prácticos. -
-
Este notebook de Google Colab incluye todo el código que se genera durante el vídeo.
-
Este notebook incluye diferentes ejercicios para que practiques con Spark. Verás la versión en inglés y en español. Te recomendamos que uses la versión en inglés.