Saltar al contenido principal
- -

Ciencia de Datos y aprendizaje automático
Course is full

Cómo valorizar y extraer conocimiento a partir de los datos, usando técnicas y herramientas de análisis de datos genéricas, y aprendizaje automático en particular.

Duración

Septiembre a Marzo, 4.5 créditos

Acerca de este curso

Este curso es de carácter fundamental y es el primer contacto con el aprendizaje automático en este máster, por tanto, contiene conocimientos que serán profundizados y/o ampliados en otros cursos. Se centra en introducir la disciplina de ciencia de datos y profundiza en los aspectos de evaluación, preprocesamiento y clasificación supervisada.

Que aprenderé

En este curso aprenderás los conceptos básicos del aprendizaje automático y la ciencia de datos, ¿qué es?, ¿qué disciplinas abarca?, ¿qué aplicaciones tiene?, etc. En particular conocerás los algoritmos básicos de clasificación supervisada y las técnicas necesarias para evaluar el rendimiento de los algoritmos y de los modelos obtenidos. Tambien aprenderás como preprocesar los datos para obtener así modelos de mayor calidad (simples, comprensibles, eficientes, etc.). Por último, aprenderás a poner en funcionamiento las técnicas estudiadas mediante dos tipos de ejercicios prácticos: usando una herramienta tipo suite como WEKA y programando tus propios scripts y algoritmos en R.

Prerrequisitos

Para seguir el curso convenientemente se requieren conocimientos matemáticos (álgebra lineal, probabilidad, optimización, ...), un nivel adecuado de programación (Java, R, etc.), conocimientos básicos de informática (instalar aplicaciones, etc) y capacidad para manejarse con bibliografía en inglés.

Unidades

  1. Módulo 1: Introducción a la minería de datos y ciencia de datos.
    • 1.1. Motivación.
    • 1.2. Minería y ciencia de datos, ejemplos.
    • 1.3. El proceso de KDD. CRISP-DM.
    • 1.4. Tareas, técnicas y herramientas.
  2. Módulo 2: Técnicas de validación y evaluación.
    • 2.1. Entrenamiento y validación, hold-out, cross-validation.
    • 2.2. Evaluación con costes y desbalanceo.
    • 2.3. Análisis ROC.
  3. Módulo 3: Algoritmos básicos de aprendizaje supervisado.
    • 3.1. Métodos basados en instancias/vecinos (kNN).
    • 3.2. Árboles de decisión.
    • 3.3. Clasificación probabilística - Naive Bayes.
    • 3.4. Redes neuronales.
  4. Módulo 4: Preprocesamiento de datos.
    • 4.1. Integración, manipulación y visualización.
    • 4.2. Selección de variables.
    • 4.3. Discretización.
    • 4.4. Selección de instancias (prototipos).
    • 4.5. Valores imperfectos, ruido, datos perdidos.
  5. Módulo Práctico: Weka, R y Kaggle.

Profesores del curso

María José del Jesus Díaz

María José es Profesora Titular de Universidad en el Departamento de Informática (DI) de la Universidad de Jaén (UJA). Sus líneas de investigación se centran en el área de la minería de datos, metaheurísticas, sistemas difusos evolutivos y sinergias entre estos campos. Ha publicado más de 40 trabajos en revistas internacionales indexadas en JCR y más de un centenar de comunicaciones en congresos internacionales y nacionales. Ha participado en más de 20 proyectos de invstigación nacionales y autonómicas, siendo investigadora responsable de 6 de ellos. Es directora del grupo de investigación Sistemas inteligentes y minería de datos (SIMIDAT) de la Universidad de Jaén.

José Antonio Gámez Martín

José Antonio es Catedrático de Universidad en el Departamento de Sistemas Informáticos (DSI) de la Universidad de Castilla-La Mancha (UCLM). Sus lineas de investigación se centran en el aprendizaje automático, minería de datos, metaheurísticas y los modelos gráficos probabilísticos y, en especial, en las intersecciones y sinergias entre estas líneas de investigación. Ha sido co-responsable de distintos eventos en estas líneas (PGM'02, CAEPIA'11, MAEB'12, CAEPIA'15 y MAEB'16) y publicado un centenar de artículos en revistas y congresos internacionales.

José Hernández Orallo

José es Profesor Titular de Universidad en el Departamento de Sistemas Informáticos y Computación (DSIIC) de la Universidad Politécnica de Valencia (UPV). Ha trabajado en diferente áreas de la inteligencia artificial, el aprendizaje automático, la minería de datos y los sistemas de información. Ha publicado cuatro libros y más de un centenar de artículos de revistas y conferencias.

Francisco Charte Ojeda

Francisco es profesor del área de Arquitectura y tecnología de computadores en el Departamento de Informática (DI) de la Universidad de Jaén (UJA). Es autor de una veintena de trabajos de investigación (aportaciones a congresos y publicaciones en revistas) y más de un centenar de libros didácticos sobre informática (lenguajes de programación, sistemas operativos, desarrollo web, etc.).

Fernando Martínez Plumed (TA)

Fernando Martínez Plumed es doctor en informática e investigador en inteligencia artificial en el Departamento de Sistemas Informáticos y Computación (DSIC) en la Universidad Politécnica de Valencia (UPV) y profesor del máster de Big Data Analytics en dicha universidad. Sus intereses abarcan varias áreas de la inteligencia artificial, el aprendizaje automático, la programación inductiva, los sistemas cognitivos, la ciencia de datos y la visualización.

Jacinto Arias (TA)

Jacinto Arias es investigador predoctoral en la Universidad de Castilla-La Mancha en el grupo de Sistemas Inteligentes y Minería de Datos. Su trabajo se centra en el estudio de tecnologías de procesamiento de grandes volúmenes de datos orientados a los modelos gráficos probabilísticos. Su interés principal es resolver problemas reales de ciencia de datos con nuevas tecnologías de computación en la nube.

MOOC es el acrónimo en inglés de Massive Online Open Course (que puede traducirse como Curso masivo abierto online).

Las siglas MOOC se utilizan para referirse a una iniciativa que comenzó en 2011 con un curso de Introducción a la Inteligencia artificial de la Universidad de Stanford en el que se inscribieron 160.000 estudiantes de 190 países, y que se ha convertido ya en un movimiento global al que se han incorporado las mejores universidades del mundo con la creación de diversas plataformas MOOC y miles de cursos que comparten un objetivo: proporcionar acceso gratuito a una formación superior de calidad a cualquiera que tenga una conexión a internet.

Los MOOCs están basados en la integración de tecnologías que existen desde hace tiempo en Internet: el vídeo en red, la evaluación automática a distancia y los foros de preguntas y respuestas en la web. Pero es ahora cuando los usuarios se han acostumbrado a usar el vídeo en red y las redes sociales en su día a día en Internet, lo que facilita que se creen comunidades de alumnos situados en cualquier parte del mundo que comparten conocimientos y experiencias y se ayudan en el proceso de aprendizaje, dándole a la formación online un nuevo enfoque colaborativo. Esto, unido a la disponibilidad de acceso a los cursos MOOC en cualquier momento y desde cualquier lugar en donde se tenga acceso a Internet, ha permitido crear una nueva comunidad global de estudiantes.

Los MOOCs de UPV[X] están diseñados para ayudarte a aprender trabajando a tu ritmo de forma independiente y proporcionarte el apoyo de la comunidad de aprendizaje si te hace falta.

Para ello los MOOCs están estructurados en módulos que suelen corresponder a una semana de trabajo (aunque no siempre es así). Los módulos se estructuran en lecciones con un vídeo, que dura normalmente entre 3 y 10 minutos, y una pregunta de refuerzo al final para ayudarte a fijar su contenido. Las lecciones están orientadas a tratar un concepto (o un número reducido de ellos) de forma que sean lo más atómicas que sea posible.

Los cursos MOOC de UPV[X] pueden tener distintos esquemas de evaluación, pero lo habitual es que al terminar cada módulo haya un examen (normalmente tipo test) que te permitirá comprobar tu evolución y fijar los conocimientos, y que cuenta en cierto porcentaje para la evaluación final. Con ello tendrás una realimentación frecuente de tu progreso que te permitirá ir mejorar tu proceso de aprendizaje.

Al acabar el MOOC habrá a un examen final para evaluar si has alcanzado los objetivos de aprendizaje que contará en un porcentaje mayor para la evaluación final.

En los MOOC también hay un foro de debate moderado por el equipo del curso donde los alumnos pueden consultar sus dudas sobre el contenido del curso y comentar aquellas cosas que les parezcan interesantes. El acceso a una comunidad online de internautas con tus mismos intereses y que están aprendiendo a la vez enriquece la experiencia del curso.

Esperamos sinceramente que disfrutes de nuestros MOOCs y aprendas con nosotros