Section outline

  • Este curso ofrece una inmersión en el mundo del Big Data, desde los conceptos fundamentales hasta las últimas herramientas de análisis. Los participantes explorarán los principios esenciales de Big Data, aprendiendo a gestionar grandes volúmenes de datos. Además, se sumergirán en el ecosistema de Hadoop, dominando el arte del procesamiento y almacenamiento distribuido en el Hadoop Distributed File System (HDFS).

    Una vez establecidas las bases, el curso se adentrará en Apache Spark, ofreciendo una visión detallada de esta potente y popular plataforma de procesamiento en memoria y su papel fundamental en el análisis de Big Data. Desde la manipulación de datos hasta aplicaciones reales, los estudiantes adquirirán habilidades prácticas para abordar los desafíos más complejos en el ámbito del análisis de datos.

    Agradecimientos

    El uso de esta plataforma docente para impartir este curso ha sido financiado por el proyecto  TSI-100927-2023-1, financiado por Plan de Recuperación, Transformación y Resiliencia Europeo, de la Unión Europea-Next Generation EU a través del Ministerio para la Transformación Digital y de la Función Pública.

    Logos Cátedra

  • Highlighted
    • Opened: Saturday, 4 January 2025, 10:00 AM
      Closed: Thursday, 20 February 2025, 11:59 PM
  • ¿Cómo realizar (y sobrevivir) este curso? 

    Te recomendamos que veas el video introductorio para conocer la estructura y conocimientos previos que esperamos que tengas para seguir este curso con normalidad. 

    El curso está pensado para que le dediques un total de 20 horas a lo largo de dos semanas.  Los contenidos de los distintos bloques estarán disponibles en la siguientes fechas: 

    Tema Duración estimada Fecha de comienzo
    Introducción  2 horas 10 de enero
    MapReduce  2 horas de teoría 
     2 horas de prácticas
     13 de enero
    Hadoop/HDFS  2 horas 16 de enero
    Spark  2 horas de teoría
     2 horas de prácticas
     17 de enero
    SparkSQL  2 horas de teoría
     2 horas de prácticas
     20 de enero
    Machine Learning con Spark    2 horas de teoría
     2 horas de prácticas 
     22 de enero

    Material de refuerzo: En caso de que no estés familiarizado con machine learning, te dejamos disponible una breve introducción para que puedas entender mejor el último bloque del curso.

    En cada bloque encontrarás:

    - Un video corto (blackcoffee) que resume lo que vas a aprender en el bloque.

    - Uno o más videos largos de una clase real.

    - Transparencias.

    - Enlace a Google Colab con los Python Notebooks usados durante la clase.

    - Prácticas: Notebooks auto-evaluados con prácticas y ejercicios.

    Evaluación: Cada bloque tendrá un cuestionario asociado que debes de responder antes del 25 de enero de 2025.

    Interacción con el profesorado y otros compañeros

    Estamos seguros que durante el curso tendrás dudas o preguntas sobre Spark, Hadoop y todos los conceptos que vas a aprender. Te pedimos que no seas tímid@ y uses el foro para preguntarnos tus dudas.

    Contacto:

    Dr. Diego García (djgarcia@ugr.es) 

    Dr. Isaac Triguero (isaaktriguero@ugr.es)

    ---------------------------------------------------------------------------------------------------------------------------------------------
    El contenido de este curso está basado en el libro "Large-Scale Data Analytics with Python and Spark, Cambridge: Cambridge University Press.", del cual tomaremos prestadas trasparencias, código y ejercicios prácticos.

    • Este notebook de Google Colab incluye todo el código que se genera durante el vídeo.

    • Este notebook incluye diferentes ejercicios para que practiques con Spark. Verás la versión en inglés y en español. Te recomendamos que uses la versión en inglés.