Saltar al contenido principal
- -

Aprendizaje automático y ciencia de datos

5 semanas. 25 horas equivalentes.
Sólo ETSICCP.
Haz click para ver detalles del curso...

Duración

5 semanas

Acerca de este curso

El aprendizaje automático es una habilidad que toma cada vez más relevancia debido al gran número de datos (big data), los cuales deben de ser analizados para tomar decisiones. En este curso en línea aprenderás los conceptos básicos del aprendizaje automático (machine learning) y la ciencia de datos. En particular, aprenderás las técnicas necesarias para evaluar el rendimiento de los algoritmos y de los modelos obtenidos. También aprenderás como preprocesar los datos para obtener así modelos de mayor calidad (simples, comprensibles, eficientes, etc.). Por último, en este curso de análisis de datos aprenderás a poner en funcionamiento las técnicas estudiadas mediante un ejemplo práctico programando tus propios scripts y algoritmos en R.

Que aprenderé

Reconocer el valor de los datos en las organizaciones y las posibilidades de negocio que plantea su explotación para el desarrollo de productos basados en datos (inteligencia de negocios) Utilizar técnicas de aprendizaje automático, entre otras, para extraer modelos descriptivos y predictivos a partir de los datos, así como saber evaluarlos correctamente Conocer y utilizar las herramientas básicas de integración y preparación de datos, incluyendo visualización de datos, para facilitar la comprensión y el análisis de los datos Aprender a utilizar un lenguaje de programación de análisis de datos (lenguaje R) y las librerías básicas de visualización y algunas de las que permiten generar modelos de aprendizaje automático.

Prerrequisitos

El alumno ha de tener unos conocimientos básicos de programación, sin ningún lenguaje de programación en particular. Debe conocer lo que son vectores y matrices, a nivel muy básico. Es conveniente que conozca los indicadores estadísticos básicos (media, desviación típica, mediana, cuantiles, etc.), concepto de muestreo y nociones muy básicas (ofimáticas) con hojas de cálculo y tablas de datos.

Unidades

  1. Presentación
  2. Módulo 1: Introducción a la minería de datos y ciencia de datos
  3. R: Introducción
  4. Módulo 2: Técnicas de validación y evaluación
  5. R: Evaluación
  6. Módulo 3: Algoritmos básicos de aprendizaje automático
  7. Módulo 4: Preprocesamiento de datos
  8. R: Preparación y Visualización
  9. Weka - herramienta de minería de datos
  10. TRABAJO: Kaggle

Profesores del curso

José Hernández-Orallo

José Hernández Orallo es catedrático de universidad en la Universitat Politècnica de València (UPV). Cursó estudios de Informática por la UPV, parcialmente en la École Nationale Supérieure de l'Électronique et de ses Applications (France) y es doctor en lógica por la Universidad de Valencia con premio extraordinario de doctorado, incorporándose al Departamento de Sistemas Informáticos y Computación de la UPV en 1996. Desde el año 2000 es miembro del equipo DMIP (Data Mining, Machine Intelligence and Inductive Programming), con líneas de investigación en aprendizaje automático, inteligencia artificial, minería de datos, programación lógica (y funcional) inductiva y evaluación del aprendizaje.

María José Ramírez Quintana

María José Ramírez Quintana es profesora Titular de Universidad del Área de Lenguajes y Sistemas Informáticos. Cursó los estudios de Licenciatura en Ciencias Físicas en la Universidad de Valencia (1985) y es Doctora en Informática por la Universidad Politécnica de Valencia (1993). Es miembro del grupo de investigación "Extensions of Logic Programming" (ELP) en la UPV desde su creación en 1989. Desde el año 2000 desarrolla su actividad investigadora en el equipo de "Data Mining, Machine Intelligence and Inductive Programming (DMIP)" perteneciente al grupo ELP. Su investigación se centra en la programación lógica y funcional inductiva, la evaluación de modelos como soporte para la toma de decisiones, la clasificación multiclase y jerárquica, la cuantificación para problemas de regresión y clasificación, los métodos basados en distancia, la calibración de modelos, la adaptación de modelos a cambios de contexto y el análisis de propiedades de los modelos (confidencialidad, confianza y comprensibilidad).

Fernando Martínez Plumed

Fernando Martínez Plumed es investigador postdoctoral en el Departamento de Sistemas Informáticos y Computación (DSIC) de la Universidad Politécnica de Valencia (UPV). Posee los títulos de Ingeniero Informático (2009), Máster en Ingeniería de Software, Métodos Formales y Sistemas de Información (2010) y Diploma de postgrado en Dirección de Empresas para Ingenieros (2011) por la UPV. Es Doctor en Informática por la UPV (2016) y su tesis aborda la creación de sistemas de IA de propósito general, así como el análisis y evaluación tanto de su desarrollo como de sus capacidades cognitivas, obteniendo ésta la calificación de sobresaliente Cum Laude.

Enroll

MOOC es el acrónimo en inglés de Massive Online Open Course (que puede traducirse como Curso masivo abierto online).

Las siglas MOOC se utilizan para referirse a una iniciativa que comenzó en 2011 con un curso de Introducción a la Inteligencia artificial de la Universidad de Stanford en el que se inscribieron 160.000 estudiantes de 190 países, y que se ha convertido ya en un movimiento global al que se han incorporado las mejores universidades del mundo con la creación de diversas plataformas MOOC y miles de cursos que comparten un objetivo: proporcionar acceso gratuito a una formación superior de calidad a cualquiera que tenga una conexión a internet.

Los MOOCs están basados en la integración de tecnologías que existen desde hace tiempo en Internet: el vídeo en red, la evaluación automática a distancia y los foros de preguntas y respuestas en la web. Pero es ahora cuando los usuarios se han acostumbrado a usar el vídeo en red y las redes sociales en su día a día en Internet, lo que facilita que se creen comunidades de alumnos situados en cualquier parte del mundo que comparten conocimientos y experiencias y se ayudan en el proceso de aprendizaje, dándole a la formación online un nuevo enfoque colaborativo. Esto, unido a la disponibilidad de acceso a los cursos MOOC en cualquier momento y desde cualquier lugar en donde se tenga acceso a Internet, ha permitido crear una nueva comunidad global de estudiantes.

Los MOOCs de UPV[X] están diseñados para ayudarte a aprender trabajando a tu ritmo de forma independiente y proporcionarte el apoyo de la comunidad de aprendizaje si te hace falta.

Para ello los MOOCs están estructurados en módulos que suelen corresponder a una semana de trabajo (aunque no siempre es así). Los módulos se estructuran en lecciones con un vídeo, que dura normalmente entre 3 y 10 minutos, y una pregunta de refuerzo al final para ayudarte a fijar su contenido. Las lecciones están orientadas a tratar un concepto (o un número reducido de ellos) de forma que sean lo más atómicas que sea posible.

Los cursos MOOC de UPV[X] pueden tener distintos esquemas de evaluación, pero lo habitual es que al terminar cada módulo haya un examen (normalmente tipo test) que te permitirá comprobar tu evolución y fijar los conocimientos, y que cuenta en cierto porcentaje para la evaluación final. Con ello tendrás una realimentación frecuente de tu progreso que te permitirá ir mejorar tu proceso de aprendizaje.

Al acabar el MOOC habrá a un examen final para evaluar si has alcanzado los objetivos de aprendizaje que contará en un porcentaje mayor para la evaluación final.

En los MOOC también hay un foro de debate moderado por el equipo del curso donde los alumnos pueden consultar sus dudas sobre el contenido del curso y comentar aquellas cosas que les parezcan interesantes. El acceso a una comunidad online de internautas con tus mismos intereses y que están aprendiendo a la vez enriquece la experiencia del curso.

Esperamos sinceramente que disfrutes de nuestros MOOCs y aprendas con nosotros