DURACIÓN: 30 horas: 12 horas teóricas + 8
prácticas asistidas + 10 de trabajo individual
FECHAS: Chihuahua (Instituto
Tecnológico de
Chihuahua), México, 9-11 de octubre de 2003. Similares
cursos se han impartido en la Universidad de El Salvador y en la UTFSM
de Chile (www.mti.cl).
El objetivo fundamental de este curso es conocer la necesidad y
conceptos generales de la tecnología de almacenes de datos y
OLAP y saber aplicar las
técnicas
de minería de datos apropiadas para problemas concretos de
extracción
de conocimiento útil para el análisis o la toma de
decisiones.
Entre los objetivos más específicos, los alumnos
serán
capaces, al finalizar el curso, de:
Reconocer el potencial y la problemática del
análisis de sistemas de información para la toma de
decisiones.
Conocer las ventajas y casos donde es aconsejable recopilar
información interna y externa en un Almacén de Datos.
Conocer el modelo multidimensional de datos de los almacenes de
datos y los operadores de refinamiento asociados: drill, roll, slice
& dice, pivot.
Conocer la arquitectura y diferentes implementaciones (ROLAP,
MOLAP) de Almacenes de Datos.
Reconocer pautas para el diseño y mantenimiento de ADs.
Reconocer los beneficios de su uso sistemático de
técnicas de extracción de conocimiento para la
obtención de modelos y patrones predictivos o descriptivos.
Conocer las fases del Descubrimiento de Conocimiento de Bases de
Datos y la importancia de las mismas en el éxito del proceso (en
especial las de limpieza y selección de datos).
Conocer las distintas técnicas de aprendizaje
automático y estadísticas utilizadas en minería de
datos, su potencial, su coste computacional y sus limitaciones de
representación y de inteligibilidad.
Elegir, para un problema concreto, qué técnicas de
minería de datos son más apropiadas.
Generar los modelos y patrones elegidos utilizando una
herramienta o paquete de minería de datos.
Evaluar la calidad de un modelo, utilizando técnicas
sencillas de evaluación (validación cruzada).
Utilizar métodos de combinación de técnicas
(p.ej. voting) y de reiteración (p.ej. boosting).
Conocer la problemática especial de la minería
sobre la web (documentos textuales e hipertextuales) y las
técnicas más usuales.
Además, y especialmente dirigido a los asistentes del mundo
académico:
Conocer los problemas abiertos en la investigación de
almacenes de datos y minería de datos.
Conocer los congresos y foros más importantes, así
como las redes, recursos, etc., relacionados con ambas disciplinas.
DESCRIPCIÓN:
En este curso se presentará el problema del análisis de
sistemas de información para la toma de decisiones y las
herramientas genéricas y las tecnologías más
avanzadas para llevarlo a cabo.
En primer lugar, se presentan las técnicas de Almacenes de Datos y OLAP para
facilitar el procesamiento analítico de apoyo a la toma de
decisiones estratégicas.
En segundo lugar, y con más extensión, se presentá
la necesidad del análisis
inteligente
y automático de la información para el descubrimiento de
conocimiento útil.
Para abordarlo, se introducirá el
área
de la Extracción de
Conocimiento a partir de Bases de Datos
(KDD),
sus fases, en especial la de minería
de datos, y se presentarán las técnicas de
aprendizaje
automático
más habituales en minería de datos. Se estudiará
la
idoneidad de cada una para diferentes problemas.
El seminario intercala la presentación de conocimientos
teóricos
con la aplicación práctica de los mismos sobre un paquete
de minería de datos (SPSS
Clementine).
Temario
PARTE I: INTRODUCCIÓN
1.1. Finalidades y Evolución de los Sistemas de
Información.
1.2. Herramientas para la Toma de Decisiones: diferencias e
interrelación.
1.3. Almacenes de Datos, OLAP y Minería de Datos:
definición e interrelación.
PARTE II: ALMACENES DE DATOS
2.1. Introducción a los almacenes de datos: motivación
definición y características.
2.2. Arquitectura de un sistema de almacén de datos.
2.3. Explotación de un almacén de datos: herramientas
OLAP.
2.4. Sistemas ROLAP y MOLAP.
2.5. Carga y Mantenimiento de un Almacén de Datos.
2.6. Diseño de un almacén de datos.
2.7. Líneas de investigación abiertas.
PARTE III: MINERÍA DE DATOS
3.1. Introducción a la Minería de Datos (DM)
3.1.1. Motivación
3.1.2. Problemas tipo y aplicaciones
3.1.3. Relación de DM con otras disciplinas
3.2. El proceso de KDD
3.2.1. Las Fases del KDD
3.2.2. Tipología de Técnicas de Minería de
Datos
3.2.3. Sistemas Comerciales
3.2.4. Visualización
3.3. Técnicas de Minería de Datos
3.3.1. El Problema de la Extracción Automática de
Conocimiento.
3.3.2. Evaluación de Hipótesis
3.3.3. Técnicas no supervisadas y descriptivas.
3.3.4. Técnicas supervisadas y predictivas.
3.4. Web Mining
3.4.1. Los Problemas de la Información No Estructurada.
3.4.2. Extracción de Conocimiento a partir de Documentos
HTML y texto.
3.4.3. Extracción de Información semi-estructurada
(XML).
3.5. Líneas de Investigación Abiertas