Saltar al contenido principal
- -

Big Data: Herramientas para el procesamiento de datos masivos
Course is full

Este curso forma parte del Master Universitario en Investigación en Inteligencia Artificial organizado por la Asociación Española para la Inteligencia Artificial (AEPIA) y la Universidad Internacional Menéndez Pelayo (UIMP). El curso se encuentra dentro del módulo "Aprendizaje y Ciencia de Datos" y es de carácter optativo.

Duración

on-line

Acerca de este curso

Este curso dará a conocer al alumno los problemas que surgen por el actual contexto de Big data, y las herramientas de Ciencia de Datos disponibles para derivar valor de los datos. Se describirán las plataformas y herramientas más importantes disponibles en la actualidad, con ejemplos y casos de uso

Que aprenderé

En este curso aprenderás las principales herramientas disponibles para trabajar con bases de datos masivas. Veremos las diferentes técnicas y algoritmos de analítica de datos, desde el preprocesado a la clasificación, tratamiento de datos en streaming, etc.

Prerrequisitos

Necesitas un conocimiento básico de los algoritmos de aprendizaje computacional

Unidades

  1. Módulo 1: Fundamentos de Big Data. Algunas aplicaciones
  2. Módulo 2: Modelo de programación MapReduce
  3. Módulo 3: Hadoop. Un caso de estudio
  4. Módulo 4: Analítica para Big data. Generalidades y herramientas
  5. Módulo 5: Algoritmos de Preprocesamiento
  6. Módulo 6: Algoritmos de clasificación
  7. Módulo 7: Algoritmos de Asociación
  8. Módulo 8: Data streaming
  9. Módulo 8: Herramientas Big data

Bibliografía

  1. Sean T. Allen, Matthew Jankowski, and Peter Pathirana. Storm Applied. Manning 2015
  2. Holden Karau, Andy Konwinski, Patrick Wendell, Matei Zaharia. Learning Spark. O'Reilly 2015
  3. Sameer B. Wadkar, Hari Rajaram. Flink in Action. Manning 2017
  4. Paul Butcher. Seven concurrency models in seven weeks. The Pragmatic Programmer 2014
  5. Mahmoud Parsian. Data Algorithms: Recipes for Scaling Up with Hadoop and Spark. O'Reilly 2015
  6.  Tom White. Hadoop: The Definitive Guide, 4th Edition. O'Reilly 2015
  7. Thilina Gunarathne. Hadoop MapReduce v2 Cookbook, 2nd Edition. Packt Publishing, 2015.
  8. Holden Karau, Andy Konwinski, Patrick Wendell, Matei Zaharia. Learning Spark Lightning-Fast Big Data Analysis.  O'Reilly Media, 2015
  9. Venkat Ankam. Big Data Analytics. Packt Publishing, 2016.
  10.  Vladimir Bacvanski.Introduction to Big Data An Overview of Fundamental Big Data Concepts, Tools, Techniques and Practices. O'Reilly Media, 2015
  11. Verónica Bolón-Canedo, Noelia Sánchez-Maroño, and Amparo Alonso-Betanzos. Feature selection for high-dimensional data. Springer, 2015.
  12. Salvador García, Julián Luengo, and Francisco Herrera. Data preprocessing in data mining. New York: Springer, 2015.
  13. Isabelle Guyon, Steve Gunn, Masoud Nikravesh, and Lofti Zadeh, Eds. Feature Extraction: Foundations and Applications. Springer, 2006.

Profesores del curso

Amparo Alonso Betanzos

Amparo Alonso Betanzos es Catedrática de Computación e Inteligencia Artificial, y trabaja en el área de la Inteligencia Artificial y sus aplicaciones en el grupo LIDIA (Laboratorio de I+D en Inteligencia Artificial) en la Universidad de A Coruña. Durante los últimos años, parte de su grupo de investigación trabaja en Big data, en concreto en algoritmos de preprocesamiento, y en algoritmos distribuidos

Carlos Eiras Franco

Carlos Eiras Franco obtuvo el título de Ingeniero Superior en Informático en la Universidad Complutense de Madrid en 2008. Tras trabajar durante varios años en el sector privado desarrollando aplicaciones web y móviles, en abril de 2015 comenzó la preparación de su tesis doctoral de título "Nuevos métodos escalables de aprendizaje máquina: Más allá de la clasificación y regresión".

Verónica Bolón Canedo

Verónica Bolón Canedo es Doctora en Informática por la Universidad de A Coruña desde 2014, y trabaja en el área de la Inteligencia Artificial y sus aplicaciones en el grupo LIDIA (Laboratorio de I+D en Inteligencia Artificial) en la misma universidad. Sus principales líneas de investigación están centradas en los algoritmos de selección de características aplicados a Big Data.

David Martínez Rego

David Martínez Rego es Doctor en Informática por la Universidad de A Coruña desde 2013. En la actualidad trabaja como Research Associate en el University College London y como investigador colaborador en el Grupo LIDIA de A Coruña. Ejerce tambien como consultor y arquitecto de sistemas para startups y empresas.

MOOC es el acrónimo en inglés de Massive Online Open Course (que puede traducirse como Curso masivo abierto online).

Las siglas MOOC se utilizan para referirse a una iniciativa que comenzó en 2011 con un curso de Introducción a la Inteligencia artificial de la Universidad de Stanford en el que se inscribieron 160.000 estudiantes de 190 países, y que se ha convertido ya en un movimiento global al que se han incorporado las mejores universidades del mundo con la creación de diversas plataformas MOOC y miles de cursos que comparten un objetivo: proporcionar acceso gratuito a una formación superior de calidad a cualquiera que tenga una conexión a internet.

Los MOOCs están basados en la integración de tecnologías que existen desde hace tiempo en Internet: el vídeo en red, la evaluación automática a distancia y los foros de preguntas y respuestas en la web. Pero es ahora cuando los usuarios se han acostumbrado a usar el vídeo en red y las redes sociales en su día a día en Internet, lo que facilita que se creen comunidades de alumnos situados en cualquier parte del mundo que comparten conocimientos y experiencias y se ayudan en el proceso de aprendizaje, dándole a la formación online un nuevo enfoque colaborativo. Esto, unido a la disponibilidad de acceso a los cursos MOOC en cualquier momento y desde cualquier lugar en donde se tenga acceso a Internet, ha permitido crear una nueva comunidad global de estudiantes.

Los MOOCs de UPV[X] están diseñados para ayudarte a aprender trabajando a tu ritmo de forma independiente y proporcionarte el apoyo de la comunidad de aprendizaje si te hace falta.

Para ello los MOOCs están estructurados en módulos que suelen corresponder a una semana de trabajo (aunque no siempre es así). Los módulos se estructuran en lecciones con un vídeo, que dura normalmente entre 3 y 10 minutos, y una pregunta de refuerzo al final para ayudarte a fijar su contenido. Las lecciones están orientadas a tratar un concepto (o un número reducido de ellos) de forma que sean lo más atómicas que sea posible.

Los cursos MOOC de UPV[X] pueden tener distintos esquemas de evaluación, pero lo habitual es que al terminar cada módulo haya un examen (normalmente tipo test) que te permitirá comprobar tu evolución y fijar los conocimientos, y que cuenta en cierto porcentaje para la evaluación final. Con ello tendrás una realimentación frecuente de tu progreso que te permitirá ir mejorar tu proceso de aprendizaje.

Al acabar el MOOC habrá a un examen final para evaluar si has alcanzado los objetivos de aprendizaje que contará en un porcentaje mayor para la evaluación final.

En los MOOC también hay un foro de debate moderado por el equipo del curso donde los alumnos pueden consultar sus dudas sobre el contenido del curso y comentar aquellas cosas que les parezcan interesantes. El acceso a una comunidad online de internautas con tus mismos intereses y que están aprendiendo a la vez enriquece la experiencia del curso.

Esperamos sinceramente que disfrutes de nuestros MOOCs y aprendas con nosotros