José L Balcázar: "Técnicas, procesos y aplicaciones de la Minería de Datos"

Ponente: José L. Balcázar (LARCA-UPC)

Fecha: 20-24 febrero de 2012

Lugar de celebración: Facultad de Psicología, UNED (mapa)

Resumen

La Minería de Datos es una disciplina en la que se han desarrollado tecnologías que, oportunamente empleadas, permiten a un sistema o a una organización mejorar su rendimiento o sugerir mejoras a procesos  externos, a partir del análisis de datos disponibles y de la identificación de patrones en ellos. Sin embargo, a pesar de las diversas "success stories" disponibles, es imprescindible ser consciente de las limitaciones de estas tecnologías. Cuando se aplican en la práctica programas de Minería de Datos, es frecuente que sea necesario poner en juego conocimientos profundos sobre los detalles de los modelos y algoritmos que se emplean, desde la elección de la herramienta adecuada hasta el ajuste de una miríada de parámetros internos.

La actividad docente se centrará en las principales herramientas "open source" de minería de datos disponibles en la actualidad, y desarrollará el estudio de la explicación científica de sus principales parámetros, de manera que los alumnos sean capaces de identificar la herramienta adecuada para una aplicación y de organizar la tarea a fin de validar las opciones elegidas: se explicará la teoría y el uso práctico de clusterizadores, asociadores y clasificadores de forma que el alumno adquiera criterios para fijar los valores de los muchos parámetros libres de cada uno de estos algoritmos. Se realizará un breve repaso de las herramientas R, Weka y Rapid Miner, y se estudiará en más profundidad la excelente herramienta KNIME. Más específicamente, se planteará la perspectiva de la Minería de Datos entre sus contextos de aplicación ("Business Intelligence"), las tecnologías que la soportan (Bases de Datos, "Data Warehouses"), las disciplinas que contribuyen con conceptos clave (Lógica, Estadística, Aprendizaje, Inteligencia Artificial), los procesos en que se estructuran (procesos  de Data Mining y de Knowledge Discovery, preproceso, recodificación) y la taxonomía de planteamientos de modelización. Para los planteamientos más habituales, explicaremos las técnicas de modelado que se consideran más exitosas en general: clasificadores lineales con núcleos, predictores por combinación ("bagging", "boosting"), segmentadores, selección de características; y se desarrollará un estudio particularmente profundo de los métodos asociadores, incluyendo los avances recientes y las herramientas que, en estos momentos, se están desarrollando en los grupos de investigación en los que el ponente trabaja de manera habitual.

 

Bio

El profesor José Luis Balcázar es Catedrático de Universidad en la UPC desde 1988, con la excepción temporal de 2009 a 2011 en que ha estado en comisión de servicios en la Universidad de Cantabria. Tras algunos años iniciales de su carrera académica en que se interesó principalmente por la Algorítmica y los modelos formales de cálculo, en especial desde la perspectiva de la Complejidad Computacional, desde hace algo más de quince años se interesa principalmente por las herramientas conceptuales de Machine Learning y sus aplicaciones en Minería de Datos, en busca de un equilibrio entre problemas y soluciones que admitan un análisis formal matemáticamente preciso y, siempre que sea posible, actividades de investigación que se reflejen en avances aplicables a la vida extraacadémica. Ha dirigido 9 tesis doctorales y publicado una setentena de trabajos en revistas y congresos internacionales, así como varios libros.

 

Lugar de celebración

Facultad Psicología, UNED
c/ Juan del Rosal, 10
Ciudad Universitaria
28040 Madrid


Horarios y salas

lunes 20, 11h00 - 13h00, Sala de Juntas 1.26 (primera planta), Facultad de Psicología, UNED

martes 21, 11h00 - 13h00, Sala de Juntas 1.26 (primera planta), Facultad de Psicología, UNED

miércoles 22, 11h00 - 13h00, Sala de Juntas 1.26 (primera planta), Facultad de Psicología, UNED

jueves 23, 11h00 - 13h00, Sala de Juntas 1.26 (primera planta), Facultad de Psicología, UNED

viernes 24, 11h00 - 13h00, Sala 6.02 (sexta planta), ETSI Informática, UNED

 

Materiales

Presentación: Minería de Datos.

Presentación, conjuntos de datos y scripts de ejemplo (zip)

 

 
RocketTheme Joomla Templates