Saltar al contenido principal
- -

Datos temporales y complejos
Course is full

Esta asignatura pertenece al Módulo Aprendizaje y Ciencia de Datos del Máster Oficial en Investigación en Inteligencia Artificial organizado por la Asociación Española para la Inteligencia Artificial (AEPIA) y la Universidad Internacional Menéndez Pelayo (UIMP). Se trata de una asignatura optativa de 4,5 ECTS en la que el estudiante podrá profundizar en todos los métodos de aprendizaje y ciencia de datos estudiados en asignaturas básicas aplicados a datos con una componente temporal y datos complejos.

ACERCA DE ESTE CURSO

Esta asignatura pertenece al Módulo Aprendizaje y Ciencia de Datos del Máster Oficial en Investigación en Inteligencia Artificial organizado por la Asociación Española para la Inteligencia Artificial (AEPIA) y la Universidad Internacional Menéndez Pelayo (UIMP). Se trata de una asignatura optativa de 4,5 ECTS en la que el estudiante podrá profundizar en todos los métodos de aprendizaje y ciencia de datos estudiados en asignaturas básicas aplicados a datos con una componente temporal y datos complejos.

QUE APRENDERÉ

En este curso aprenderás a analizar series temporales con el objeto de predecir su comportamiento futuro. Para ello, se trabajará en aplicaciones reales con series temporales de consumo de energía. Además, estudiarás los flujos de datos, conocidos como data streams, cuya principal característica es que su análisis debe realizarse en tiempo real. También estudiarás la clasificación multi-etiqueta, en la que los datos se clasifican con varias etiquetas diferentes a la vez. Por último, se estudiará la cuantificación para que sepas estimar la distribución de las clases que contiene una muestra.

PRERREQUISITOS

No hay prerrequisitos.

UNIDADES

Módulo 1. Series temporales
Tema 1. Introducción
Tema 2. Predicción de series temporales
Tema 3. Outliers
Módulo 2. Data Streams-Flujos de datos
Tema 1. Introducción
Tema 2. Metodología
Tema 3. Minería de datos sobre data streams
Módulo 3. Clasificación multi-etiquetas
Tema 1. Introducción
Tema 2. Algoritmos
Tema 3. Dependencias entre etiquetas
Módulo 4. Cuantificación
Tema 1. Introducción
Tema 2. Algoritmos

BIBLIOGRAFÍA

Series temporales
1. Ian H. Witten and Eibe Frank. Data Mining: Practical Machine Learning Tools and Techniques Morgan Kaufmann, June 2005.
2. G. Box, G. M. Jenkins, G. Reinsel. Analysis Time Series: Forecasting and Control. John Wiley and Sons, 2008.
3. A. Troncoso Lora et al. Electricity Market Price Forecasting Based on Weighted Nearest Neighbors Techniques. IEEE Transactions on Power Systems, Vol. 22, No. 3, pp. 1294-1301,2007
4. F. Martinez-Alvarez, A. Troncoso et al. Energy time series forecasting based on pattern sequence similarity. IEEE Transactions on Knowledge and Data Engineering, 2011
5. F. Martínez-Álvarez, A. Troncoso, J. C. Riquelme, J. S. Aguilar-Ruíz. Discovery of Motifs for Forecast Outlier Occurrence in Time Series. Pattern Recognition Letters, Vol. 32, pp. 1652–1665, 2011
6. S. Gelper, R. Fried, and C. Croux. Robust forecasting with exponential and holt-winters smoothing. Journal of Forecasting, 29:285–300, 2010.
7. F. Martínez-Álvarez, A. Troncoso, G. Asencio-Cortés, J. C. Riquelme. A Survey on Data Mining Techniques Applied To Electricity-Related Time Series Forecasting. Energies, Vol. 8, no. 11, pp. 13162-13193, 2015
Data Streams-Flujos de datos
1. Charu C. Aggarwal (Ed) Data Streams: Models and Algorithms. Springer, 2007. Enlace web: http://charuaggarwal.net/streambook.pdf
2. Joao Gama. Knowledge Discovery from Data Streams. Chapman and Hall/CRC, 2010. Enlace web: www.liaad.up.pt/area/jgama/DataStreamsCRC.pdf
3. Joao Gama et al. A Survey on Concept Drift Adaptation, ACM Computing Surveys, Vol. 1, No. 1, Article 1, 2013.
4. Joao Gama, A survey on learning from data streams: current and future trends. Progress in Artificial Intelligence, Volume 1, Issue 1, pp 45–55, 2012
5. Jure Leskovec, Anand Rajaraman, Jeff Ullman. Mining of Massive Datasets. Cambridge University Press, 2013. Enlace web: http://www.mmds.org/#ver21
6. Albert Bifet, Geoff Holmes, Richard Kirkby and Bernhard Pfahringer. Data Streams Mining: A Practical Approach, University of Waikato, 2011
7. MOA (Massive Online Analysis) http://moa.cms.waikato.ac.nz/
Multi-etiquetas
1. K. Dembczynski, W. Waegeman, W. Cheng, E. Hüllermeier, On label dependence and loss minimization in multi-label classification, Machine Learning 88, pp. 5–45. 2012
2. K. Dembczynski, W. Cheng, E. Hüllermeier, Bayes Optimal Multilabel Classification via Probabilistic Classifier Chains, in: ICML, 2010, pp. 279–286. 2010.
3. E. Gibaja, S. Ventura, Multilabel learning: a review of the state of the art and on going research,Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, vol. 4, no. 6, pp. 411–444, 2014.
4. F. Herrera, F. Charte, A.J. Rivera, A.J., M.J. del Jesus, Multilabel Classification: Problem Analysis, Metrics and Techniques. Springer. 2016.
5. O. Luaces, J. Díez, J. Barranquero, J. J. del Coz, A. Bahamonde, Binary relevance efficacy for multilabel classification, Progress in Artificial Intelligence 4, pp. 303–313. 2012.
6. G. Madjarov, D. Kocev, D. Gjorgjevikj, S. Dzeroski, An extensive experimental comparison of methods for multi-label learning, Pattern Recognition 45, pp. 3084–3104. 2012.
7. E. Montañés, R. Senge, J. Barranquero, J. R. Quevedo, J. J. del Coz, and E. Hüllermeier, Dependent binary relevance models for multi-label classification, Pattern Recognition, vol. 47, no. 3, pp. 1494 – 1508, 2014.
8. G. Tsoumakas, I. Katakis, I. Vlahavas, Mining multi-label data, in: Data Mining and Knowledge Discovery Handbook, pp. 667-685. Springer US, 2009.
9. G. Tsoumakas, I. Vlahavas, Random k-Labelsets: An Ensemble Method for Multilabel Classification, in: ECML/PKDD’07, LNCS, Springer, 2007, pp. 406–417.
10. J. Read, B. Pfahringer, G. Holmes, E. Frank, Classifier chains for multi-label classification, Machine Learning 85, pp. 333–359. 2011.
Cuantificación
1. J. Barranquero, P. González, J. Díez, J. J. Del Coz, On the study of nearest neighbor algorithms for prevalence estimation in binary problems, Pattern Recognition 46 (2) pp. 472–482. 2013.
2. J. Barranquero, J. Díez, J. J. del Coz, Quantification-oriented learning based on reliable classifiers, Pattern Recognition 48 (2) pp. 591–604. 2015.
3. A. Bella, C. Ferri, J. Hernández-Orallo, M. J. Ramirez-Quintana, Quantification via probability estimators, in: IEEE International Conference on Data Mining (ICDM’10), 737–742, 2010.
4. M.C. Du Plessis, M. Sugiyama, Class prior estimation from positive and unlabeled data. IEICE Transactions on Information and Systems 97, 5 pp. 1358–1362. 2014.
5. Andrea Esuli, Fabrizio Sebastiani. 2015. Optimizing Text Quantifiers for Multivariate Loss Functions. ACM Transactions on Knowledge Discovery Data 9, 4 27:1–27. 2015.
6. G. Forman, Quantifying counts and costs via classification, Data Mining and Knowledge Discovery 17 (2) pp. 164–206. 2008.
7. W. Gao, F. Sebastiani, Tweet Sentiment: From Classification to Quantification, in: Proceedings of the 2015 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining 2015, ACM, 97–104, 2015.
8. V. González-Castro, R. Alaiz-Rodríguez, E. Alegre, Class Distribution Estimation based on the Hellinger Distance, Information Sciences 218 (2013) 146–164.
9. D. J. Hopkins, G. King, A method of automated nonparametric content analysis for social science. American Journal of Political Science 54, 1 pp. 229–247. 2010.
10. L. Milli, A. Monreale, G. Rossetti, F. Giannotti, D. Pedreschi, F. Sebastiani, Quantification trees, in: IEEE International Conference on Data Mining (ICDM’13), 528–536, 2013.
11. J. Moreno-Torres, T. Raeder, R. Alaiz-Rodríguez, N. Chawla, F. Herrera, A unifying view on dataset shift in classification, Pattern Recognition 45 (1) pp. 521–530. 2012.
12. P. Pérez-Gallego, J. R. Quevedo, J.J. del Coz, Using ensembles for problems with characterizable changes in data distribution: A case study on quantification. Information Fusion 34 pp. 87–100. 2017.
13. M. Saerens, P. Latinne, C. Decaestecker, Adjusting the outputs of a classifier to new a priori probabilities: A simple procedure. Neural Computation 14, 1 pp. 21–41. 2002.
14. M. Sugiyama, T. Kanamori, T. Suzuki, M.C. du Plessis, S. Liu, I. Takeuchi, Density-difference estimation. Neural Computation 25, 10 pp. 2734–2775. 2013.
15. G. I. Webb, R. Hyde, H. Cao, H. L. Nguyen, F. Petitjean, Characterizing concept drift. Data Mining and Knowledge Discovery pp. 1–31. 2015.

PROFESORES DEL CURSO

Course Staff Image #1

Alicia Troncoso Lora

Alicia Troncoso Lora es Profesora Titular de Lenguajes y Sistemas Informáticos de la Escuela Politécnica Superior de la Universidad Pablo de Olavide. Es doctora por la Universidad de Sevilla y su tesis recibió el premio Fundación Endesa al mejor trabajo de investigación de las Universidades Andaluzas en el área de conocimiento “Técnicas”. Su formación postdoctoral ha sido completada en Estados Unidos, concretamente, en la Universidad de Columbia en Nueva York, la Universidad de Colorado en Boulder y la Universidad de California en San Diego. Entre sus líneas de investigación caben destacar la Ciencia de Datos y la Inteligencia Artificial aplicadas a la predicción de series temporales y outliers. Actualmente, imparte la asignatura de Inteligencia Artificial en el Grado de Ingeniería Informática y la asignatura Big Data en el Máster de Ingeniería Informática de la Universidad Pablo de Olavide.

Course Staff Image #2

José C. Riquelme Santos

José C. Riquelme es Catedrático de Universidad del área de Lenguajes y Sistemas Informáticos, con más 25 años de docencia en los estudios de informática en la Universidad de Sevilla. Durante este tiempo ha dirigido como investigador principal cinco proyectos de I+D en convocatorias nacionales y dos en convocatorias autonómicas. Ha sido director de una decena de tesis doctorales y es autor de medio centenar de artículos en revistas indexadas y más de un centenar de comunicaciones en conferencias internacionales y nacionales. Su principal línea de trabajo es la Minería de Datos tanto desde el punto de vista de modelado como de aplicación a diversos campos como medio ambiente, mercado eléctrico o bioinformática. Su CV completo (incluyendo OrcidID y ResearchID) se puede obtener en: https://investigacion.us.es/sisius/sis_showpub.php?idpers=3275

Course Staff Image #2

Juan José del Coz Velasco

Juan José del Coz Velasco es doctor Informática, profesor titular de Ciencias de la Computación e Inteligencia Artificial en la Universidad de Oviedo y miembro del Centro de Inteligencia Artificial de Gijón. Durante más de 15 años, ha desarrollado su labor como investigador en el campo del Aprendizaje Automático. En la actualidad, sus líneas de investigación están centradas en problemas de cuantificación, aprendizaje con datos estructurados, clasificación multi-etiqueta y Big Data.

MOOC es el acrónimo en inglés de Massive Online Open Course (que puede traducirse como Curso masivo abierto online).

Las siglas MOOC se utilizan para referirse a una iniciativa que comenzó en 2011 con un curso de Introducción a la Inteligencia artificial de la Universidad de Stanford en el que se inscribieron 160.000 estudiantes de 190 países, y que se ha convertido ya en un movimiento global al que se han incorporado las mejores universidades del mundo con la creación de diversas plataformas MOOC y miles de cursos que comparten un objetivo: proporcionar acceso gratuito a una formación superior de calidad a cualquiera que tenga una conexión a internet.

Los MOOCs están basados en la integración de tecnologías que existen desde hace tiempo en Internet: el vídeo en red, la evaluación automática a distancia y los foros de preguntas y respuestas en la web. Pero es ahora cuando los usuarios se han acostumbrado a usar el vídeo en red y las redes sociales en su día a día en Internet, lo que facilita que se creen comunidades de alumnos situados en cualquier parte del mundo que comparten conocimientos y experiencias y se ayudan en el proceso de aprendizaje, dándole a la formación online un nuevo enfoque colaborativo. Esto, unido a la disponibilidad de acceso a los cursos MOOC en cualquier momento y desde cualquier lugar en donde se tenga acceso a Internet, ha permitido crear una nueva comunidad global de estudiantes.

Los MOOCs de UPV[X] están diseñados para ayudarte a aprender trabajando a tu ritmo de forma independiente y proporcionarte el apoyo de la comunidad de aprendizaje si te hace falta.

Para ello los MOOCs están estructurados en módulos que suelen corresponder a una semana de trabajo (aunque no siempre es así). Los módulos se estructuran en lecciones con un vídeo, que dura normalmente entre 3 y 10 minutos, y una pregunta de refuerzo al final para ayudarte a fijar su contenido. Las lecciones están orientadas a tratar un concepto (o un número reducido de ellos) de forma que sean lo más atómicas que sea posible.

Los cursos MOOC de UPV[X] pueden tener distintos esquemas de evaluación, pero lo habitual es que al terminar cada módulo haya un examen (normalmente tipo test) que te permitirá comprobar tu evolución y fijar los conocimientos, y que cuenta en cierto porcentaje para la evaluación final. Con ello tendrás una realimentación frecuente de tu progreso que te permitirá ir mejorar tu proceso de aprendizaje.

Al acabar el MOOC habrá a un examen final para evaluar si has alcanzado los objetivos de aprendizaje que contará en un porcentaje mayor para la evaluación final.

En los MOOC también hay un foro de debate moderado por el equipo del curso donde los alumnos pueden consultar sus dudas sobre el contenido del curso y comentar aquellas cosas que les parezcan interesantes. El acceso a una comunidad online de internautas con tus mismos intereses y que están aprendiendo a la vez enriquece la experiencia del curso.

Esperamos sinceramente que disfrutes de nuestros MOOCs y aprendas con nosotros