Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
2013-2014
El equipo docente ha elegido por el contrario unos contenidos bsicos (que no simples)
que permitan al alumno en el futuro adquirir conocimientos avanzados de cualquier
especialidad del rea de la Minera de Datos con suma facilidad. Lo ms difcil estar
hecho: se tratar nicamente de aplicar los conceptos y destrezas adquiridos a una
metodologa particular. Asimismo, los alumnos interesados en continuar su formacin
de postgrado en el rea de la Minera de Datos estarn igualmente preparados para
profundizar en los diferentes aspectos del campo de investigacin.
La mayor parte de las tareas consisten en la lectura de los apartados (epgrafes) del
libro de texto bsico de la asignatura, y en la realizacin de unas actividades bsicas
no evaluables tras la lectura de cada epgrafe, que le ayudarn a asimilar mejor los
contenidos. Las actividades bsicas no evaluables incluyen aquellas que aparecen al
final de cada epgrafe del libro y pueden ser de auto-evaluacin (ejercicios resueltos) o
de descubrimiento (ejercicios no resueltos).
Es importante que el alumno sepa que las actividades evaluables slo se realizarn y
evaluarn en el cuatrimestre en el que se imparte la asignatura y que, por tanto, en la
convocatoria de Septiembre, se mantendr la nota obtenida en Febrero en dichas
actividades.
La asignatura se ha dividido en 4 bloques temticos. Veamos para cada uno de ellos las
orientaciones adecuadas para su estudio.
Bloque 1. Introduccin
Introduccin
El texto introductorio presenta de manera informal los conceptos ms generales
relativos al rea de aprendizaje automtico por mquinas. El aprendizaje automtico es
una disciplina basada en la Estadstica (en ocasiones se conoce como aprendizaje
estadstico) y est en la base de las tareas de Minera de Datos.
Adems, este ejemplo servir para introducir la notacin matemtica que se utilizar a
lo largo del texto base y que se resume en la seccin pre-ndice 'Notacin Matemtica'.
Aunque la profundidad con la que se tratarn los conceptos sea slo superficial
(especialmente en lo que refiere a los mtodos de mxima verosimilitud o Bayesianos),
es importante que el alumno no sienta por ello frustracin. Ms adelante se explicarn
con mayor detalle y rigurosidad los conceptos.
Resultados de aprendizaje
1. Comprensin por el alumno de los conceptos de conjunto de entrenamiento, fase
de entrenamiento o aprendizaje, modelo, conjunto de test, generalizacin,
preprocesado de caractersticas, aprendizaje supervisado (clasificacin y
regresin) y no supervisado.
2. Familiarizacin con la notacin matemtica.
3. Comprensin del concepto de modelo lineal en los coeficientes.
4. Comprensin del concepto de funcin de error.
5. Comprensin de la tarea de seleccin de modelos
Introduccin
Resultados de aprendizaje
1. Comprensin de los conceptos de probabilidad y probabilidad condicionada.
2. Comprensin de los conceptos de probabilidad conjunta.
3. Adquisicin de familiaridad con las relaciones entre probabilidades conjuntas y
condicionadas (regla del producto) y entre probabilidades conjunta y marginal
(regla de la suma). Adquisicin del concepto de marginalizacin.
4. Comprensin del Teorema de Bayes y de los conceptos de probabilidad a priori,
a posteriori.
5. Comprensin del concepto de independencia de variables.
6. Comprensin del concepto de variables discretas y variables continuas.
7. Comprensin del concepto de densidad de probabilidad.
8. Familiarizacin con el factor de Jacobi o Jacobiano y con el hecho de que el
mximo de una distribucin de probabilidad depende de la eleccin de variable
con la que parametrizamos.
9. Comprensin del concepto de funcin de distribucin acumulativa.
10. Compresin de la generalizacin del concepto de densidad de probabilidad al
caso de distribuciones multivariantes.
11. Comprensin de los conceptos de valor esperado y covarianza.
12. Adquisicin de familiaridad con las dependencias funcionales de los valores
esperados de densidades de probabilidad multivariantes o condicionales.
13. Adquisicin de destreza en la obtencin de varianzas y covarianzas en los casos
de variables aleatorias y vectores de variables aleatorias. En particular, del
lgebra matricial necesaria para el manejo de covarianzas de vectores de
variables aleatorias.
14. Comprensin de la diferencia de entre la interpretacin frecuentista y la
Bayesiana al concepto de probabilidad e inferencia paramtrica.
15. Comprensin del concepto de verosimilitud y del estimador de mxima
verosimilitud.
16. Ilustracin de la interpretacin frecuentista de la inferencia paramtrica
mediante la estimacin bootstrap.
17. Toma de contacto del alumno con la diatriba entre las aproximaciones
frecuentista y Bayesiana.
18. Familiarizacin del alumno con las propiedades de la distribucin gaussiana y de
la estimacin de sus parmetros a partir de una muestra.
19. Toma de contacto del alumno con el concepto de sesgo en relacin con las
estimaciones de mxima verosimilitud. Este concepto est relacionado con el de
sobreajuste.
Introduccin
Resultados de aprendizaje
1. Toma de contacto con el problema de la seleccin de modelos en general y, en
particular, con la seleccin de la complejidad ptima de un modelo.
2. Comprensin de la tcnica de evaluacin conocida como validacin cruzada, de
sus limitaciones y problemas asociados.
3. Primera toma de contacto con criterios basados en teora de la informacin (AIC
y BIC), y toma de conciencia de que existe una solucin completamente
Bayesiana para este problema.
Introduccin
Resultados de aprendizaje
1. Comprensin de la dificultad de obtener conjuntos de entrenamiento
representativos en espacios de alta dimensionalidad, y las consecuencias que implica
para las tareas de Minera de Datos-
2. Toma de contacto con la posibilidad de seleccionar dimensiones intrnsecas en
las que el problema sea de dimensin mucho menor.
Resultados de aprendizaje
1. Toma de contacto con el problema de determinar el objetivo del aprendizaje:
minimizacin de la tasa de error en la clasificacin o del valor esperado del coste.
2. Comprensin de los conceptos de funcin de coste y de utilidad y de la matriz de
costes.
3. La inclusin del rechazo de casos entre las posibles decisiones de un clasificador.
4. Comprensin de las diferencias entre los modelos generativos y los modelos
discriminantes, y la relacin con los modelos no probabilsticos. Muy importante para
aprendizajes posteriores.
5. Primera toma de contacto con el concepto de dato anmalo y su deteccin como
problema de Minera de Datos.
6. Comprensin de las ventajas de los modelos generativos.
7. Comprensin de la generalizacin de los conceptos de la teora de la decisin,
ejemplificados inicialmente para problemas de clasificacin, al caso de regresin.
8. Adquisicin de destrezas correspondientes al clculo variacional (explicados en
el Apndice D) para la minimizacin de la funcin de coste.
9. Comprensin conceptual de las implicaciones de elegir una funcin de coste
cuadrtica y su minimizacin: la prediccin ptima resulta ser la media condicional.
10. Adquisicin de la capacidad de interpretar el coste esperado en trminos del
sesgo y la varianza. Comprensin del significado de ambos trminos.
11. Extensin de los conceptos aprehendidos relativos a los modelos generativos,
discriminantes y no probabilsticos al caso de la regresin.
12. Ampliacin de los recursos del estudiante a la hora de definir funciones de coste
diferentes de la funcin cuadrtica: funciones basadas en la mtrica de Minkowski.
Introduccin
Resultados de aprendizaje
1. Aprehensin del concepto de informacin.
2. Comprensin de la definicin de entropa de una variable aleatoria y de sus
propiedades.
3. El alumno debe saber relacionar la entropa de una variable con la longitud
mnima promedio de un mensaje que comunica el resultado de una medicin de esa
variable aleatoria.
4. El alumno debe saber generalizar el concepto de entropa al caso de variables
continuas.
5. El alumno debe conocer las distribuciones de probabilidad de mxima entropa
para variables discretas y continuas y sus propiedades, y debe ser capaz de llegar a
demostrarlo matemticamente.
6. El alumno debe haber adquirido la destreza suficiente para realizar clculos de
los valores de entropa para una distribucin de probabilidad dada.
Corresponde a los epgrafes 2.1 a 2.3.3 (ambos incluidos) del texto base ms los
epgrafes 2.4.2 a 2.5.2.
Introduccin
Hemos visto anteriormente que una aproximacin rigurosa a los problemas clsicos de
la Minera de Datos requiere la utilizacin de un formalismo basado en la teora de la
probabilidad. Para ello, en muchas ocasiones ser conveniente trabajar con
distribuciones de densidad de probabilidad que estn parametrizadas por unas pocas
variables. En este sub-bloque, veremos algunas de las distribuciones ms importantes
en el rea de la Minera de Datos.
Resultados de aprendizaje
25.El alumno debe conocer las implicaciones de asumir las diversas simplificaciones
de la distribucin Gaussiana (matriz de covarianza diagonal o proporcional a la
matriz identidad) en el anlisis estadstico.
26.El alumno debe entender la definicin de las distribuciones condicionales de
probabilidad y, en particular, la forma de las distribuciones condicionales de una
distribucin Gaussiana.
27.El alumno debe conocer la definicin de la matriz de precisin
28.El alumno debe entender (pero no memorizar) el procedimiento de obtencin de
la media y covarianza de una distribucin condicional de probabilidad Gaussiana
en el caso general multivariante. No es importante que el alumno recuerde ni los
pasos intermedios ni el resultado final, pero s que entienda el procedimiento
conocido como 'completar el cuadrado'.
29.El alumno debe entender el concepto y definicin de probabilidad marginal y
entender (pero no memorizar el desarrollo) la derivacin de los valores de la
media y de la varianza.
30.El alumno debe ser capaz de seguir (entender los pasos pero no memorizar) la
aplicacin de los mtodos de complecin del cuadrado para derivar todos los
factores del Teorema de Bayes para variables Gaussianas multivariantes.
31.El alumno debe entender la derivacin de las estimaciones de mxima
verosimilitud de la media de una distribucin Gaussiana multivariante. Debe ser
capaz de reproducir dicha derivacin y recordar sus resultados y el valor de la
estimacin de mxima verosimilitud de la covarianza (aunque no su derivacin
que no aparece en el texto base).
32.El alumno debe entender el concepto de estimacin sesgada y cmo corregirlo
en el caso de la estimacin de mxima verosimilitud de la matriz de covarianza.
33.El alumno debe ser capaz de derivar la probabilidad a posteriori del parmetro
media de una distribucin univariante gaussiana suponiendo conocida su
varianza.
34.El alumno debe ser capaz de interpretar los resultados obtenidos al aplicar una
estimacin bayesiana del valor de la media de una distribucin Gaussiana dada
su varianza. En particular, debe ser capaz de analizar los valores asintticos de
dicha estimacin cuando el nmero de casos tiende a cero y a infinito. Tambin,
en el caso asinttico en que la varianza de la probabilidad a priori de dicho
parmetro (la media) tiende a infinito.
35.El alumno debe ser capaz de interpretar la inferencia bayesiana con
probabilidades a priori conjugadas como un proceso de actualizacin secuencial
de las estimaciones.
36.El alumno debe conocer la distribucin Gamma y su importancia para el
problema de estimar la precisin de una distribucin Gaussiana de media
conocida (con probabilidades a priori conjugadas).
37.El alumno debe conocer la solucin al problema de inferencia bayesiana de los
(dos) parmetros de una distribucin Gaussiana (con probabilidades a priori
conjugadas), y debe conocer las propiedades de la distribucin Gaussiana-
Gamma.
38.El alumno debe conocer la extensin de las tcnicas de estimacin bayesiana de
los parmetros de una Gaussiana con probabilidades a priori conjugadas al caso
multivariante: las distribuciones de Wishart y Gaussiana-Wishart. No debe
conocer las frmulas ni las constantes de normalizacin de memoria, pero s sus
dependencias funcionales.
Introduccin
Resultados de aprendizaje
1. El alumno debe conocer la expresin matemtica que define una regresin lineal
en los parmetros y en la/las variable(s) de entrada y en los parmetros, y el
caso ms general de modelos que son una combinacin lineal de funciones no
lineales de las variables de entrada.
2. El alumno debe conocer los casos particulares en los que las funciones de la
base son i) potencias de las variables de entrada, ii) funciones normales, iii)
funciones sigmoideas logsticas, iv) trminos de una serie de Fourier.
3. El alumno debe conocer el problema de utilizar una base de funciones (lineales o
no lineales) que son globales para todo el espacio de variables de entrada, y la
solucin mediante funciones locales conocida como funciones de spline.
4. El alumno debe ser capaz de seguir y entender hasta los ltimos detalles la
derivacin de la expresin correspondiente a la estimacin de mxima
verosimilitud de los parmetros de un modelo lineal en el caso de que las
mediciones de la variable dependiente estn afectadas por ruido Gaussiano.
5. El alumno debe entender la relacin entre el mtodo de estimacin por mxima
verosimilitud y la estimacin de mnimos cuadrados y conocer en qu
circunstancias ambas estimaciones son equivalentes.
6. El alumno debe conocer y memorizar la expresin de la estimacin de mxima
verosimilitud de los parmetros de un modelo lineal en el caso de que las
mediciones de la variable dependiente estn afectadas por ruido Gaussiano en
funcin de la matriz de diseo.
Introduccin
Resultados de aprendizaje
Introduccin
Resultados de aprendizaje
1. El estudiante debe ser capaz de formular el problema de estimacin de
parmetros de un modelo lineal en trminos de inferencia bayesiana (es decir,
de escribir las expresiones de la probabilidad a priori, de la verosimilitud y de la
probabilidad a posteriori) para el caso de ruido gaussiano, con probabilidad a
priori conjugada.
2. El estudiante debe ser capaz de deducir las expresiones para la media y matriz
de covarianza de la distribucin a posteriori de los parmetros del modelo lineal.
3. El estudiante debe entender la equivalencia entre la estimacin mximo a
posteriori de este modelo y la de una estimacin de mxima verosimilitud
regularizada con un trmino cuadrtico.
4. El estudiante debe entender y conocer la definicin de distribucin predictiva.
5. El estudiante debe ser capaz de derivar los estadsticos resumen de la
distribucin predictiva (para el caso de ruido Gaussiano y distribuciones a priori
centradas en cero) a partir de los resultados conocidos de la convolucin de dos
Gaussianas.
6. El alumno debe ser capaz de interpretar las dos componentes de la varianza de
la distribucin predictiva y distinguir su dependencia con la variable
independiente. Tambin debe conocer las propiedades asintticas de dicha
varianza en el caso de un conjunto de datos infinito.
7. El estudiante debe conocer el valor asinttico de la varianza de la distribucin
predictiva cuando se evala lejos de los centros de funciones de base localizadas
(extrapolacin).
Introduccin
Como hemos visto con anterioridad, las estimaciones de mxima verosimilitud son
propensas al sobre-ajuste. Hemos visto una tcnica para evitar ese sobre-ajuste
denominada regularizacin, y el problema que plantea la determinacin de los valores
de sus parmetros.
En este sub-bloque vamos a introducir una alternativa de vigencia global en todas las
reas de la Minera de Datos. Por ello, es difcil exagerar su importancia.
Resultados de aprendizaje
1. El estudiante debe conocer los elementos bsicos de los que se parte para
realizar la comparacin bayesiana de modelos: el concepto de modelo, la
probabilidad a posteriori de un modelo dado un conjunto de datos, la
probabilidad a priori de un modelo, y la evidencia de un modelo o su
verosimilitud marginal.
2. El alumno debe saber interpretar el concepto de verosimilitud marginal de un
modelo. Marginal respecto de qu?
3. El estudiante debe conocer el concepto y definicin de factor de Bayes.
4. El alumno debe saber utilizar las probabilidades a posteriori de los modelos para
realizar inferencias utilizando la distribucin predictiva. Qu alternativas hay
para dicha distribucin predictiva?
Introduccin
Resultados de aprendizaje
1. El estudiante debe conocer el fundamento de la tcnica conocida como
aproximacin a la evidencia, Bayes emprico, mxima verosimilitud de nivel 2, o
mxima verosimilitud generalizada.
2. El alumno debe entender pero no memorizar la derivacin de la aproximacin a
la evidencia. S debe recordar las dependencias funcionales de dicha
aproximacin.
3. El alumno debe recordar que la maximizacin de la evidencia implica soluciones
implcitas.
4. El estudiante debe ser capaz de interpretar el valor de como un nmero
efectivo de parmetros. Es muy importante que el alumno reflexione sobre el
concepto de nmero efectivo de parmetros.
A lo largo del bloque veremos que existen al menos tres formas de abordar el
problema. En la primera, el modelo no es probabilista y simplemente asigna a cada
vector del espacio de entrada una clase. El siguiente nivel de complejidad consiste en
emplear modelos probabilistas que estimen para un vector de entrada dado, una
distribucin de probabilidad de pertenencia a cada una de las clases del esquema
empleado. Esta segunda posibilidad (la que denominamos probabilista) se puede llevar
a cabo desde una metodologa discriminante que modele directamente las
probabilidades de pertenencia que deseamos encontrar, o desde una metodologa
generativa que llegue al mismo objetivo pero modelando otras distribuciones de
probabilidad previas cuya combinacin con el teorema de Bayes nos conduzca al
objetivo.
Introduccin
Resultados de aprendizaje
1. El alumno debe entender el concepto de funcin discriminante y de funcin
discriminante lineal.
Introduccin
Resultados de aprendizaje
1. El estudiante debe ser capaz de expresar la probabilidad a posteriori de
pertenencia a una clase para una observacin, en funcin de las verosimilitudes
y de las probabilidades a priori (a partir del teorema de Bayes).
2. El estudiante debe conocer la definicin y las propiedades analticas de la
funcin sigmoide.
3. El estudiante debe ser capaz expresar dicha probabilidad de pertenencia a
posteriori como una funcin logstica sigmoidea. Debe asimismo ser consciente
de que no ha necesitado proporcionar expresiones funcionales de las
verosimilitudes ni de las probabilidades a priori para llegar a dicha expresin.
4. El estudiante debe conocer la propiedad de simetra de la funcin logstica
sigmoidea y la forma funcional de su inversa: la funcin logit o 'log odds'. Esta
funcin log odds representa el logaritmo del cociente entre las probabilidades a
posteriori de pertenencia a dos clases, en un problema de clasificacin
dicotmica.
5. El estudiante debe conocer la extensin (sencilla y directa) de la funcin
logstica sigmoidea al caso de problemas multi-clase: la funcin exponencial
normalizada o softmax.
6. El estudiante debe ser capaz de aplicar el formalismo anterior al caso en que las
verosimilitudes de clase sean funciones Gaussianas multi-variantes, todas ellas
con la misma matriz de covarianza. Debe saber que las hiper-superficies de
separacin inducidas en ese caso son lineales (hiper-planos) y que el efecto de
las probabilidades a priori se limita a desplazar de forma paralela dichos hiper-
planos.
7. Es muy importante que el estudiante reconozca un modelo lineal generalizado
en las probabilidades a posteriori de pertenecia a las clases cuando las
verosimilitudes son gaussianas multivariantes de igual covarianza.
8. El estudiante debe conocer que las propiedades de linealidad de las hiper-
superficies de separacin se mantienen en el caso de problemas multi-clase,
pero no cuando las matrices de covarianza de las clases difieren, en cuyo caso
se trata de cudricas o discriminantes cuadrticos.
9. El estudiante debe saber por qu los hiper-planos de separacin mencionados en
el punto anterior son las fronteras de decision que producen un error de
clasificacin mnimo.
10.El estudiante debe entender que no basta con definir modelos paramtricos para
las verosimilitudes. Una vez definidos, necesitamos encontrar los valores de los
parmetros que minimizan el error.
11.El estudiante debe conocer la definicin de solucin de mxima verosimilitud, es
decir, el procedimiento para llegar a ella, al menos en el caso de dos clases y
matrices de covarianza iguales. No es necesario que memorice la derivacin,
pero s que conozca la solucin: los centros de las gaussianas son las medias de
los casos de entrenamiento, y la matriz de covarianza, la suma ponderada de las
covarianzas de los casos de cada clase respecto a la media de clase.
12.El estudiante debe saber que en el caso de variables de entrada discretas (no
continuas) el modelo resultante de aplicar un modelo nave Bayes es, de nuevo,
una probabilidad a posteriori que es lineal en los parmetros del modelo.
13.El estudiante debe conocer las propiedades que caracterizan a las
probabilidades a posteriori cuando las verosimilitudes pertenecen a la familia
exponencial, en particular la linealidad de las fronteras de decisin.
Introduccin
Resultados de aprendizaje
1. El estudiante debe entender que los modelos discriminantes probabilsticos se
fundamentan en la determinacin directa de los parmetros del modelo lineal
generalizado sin pasar previamente por una definicin de las verosimilitudes de
clase.
2. El estudiante debe recordar el concepto de funciones base: transformaciones no
lineales del espacio de caractersticas. Estas funciones han aparecido en
apartados anteriores como el perceptrn.
3. El estudiante debe ser consciente de que si un modelo lineal de clasificacin
induce fronteras de decisin lineales en el espacio transformado, las fronteras de
decisin en el espacio de caractersticas original sern, en general, no lineales.
4. El estudiante debe ser consciente de que un problema de clases no separables
por hiper-planos puede ser linealmente separable en el espacio transformado
por las funciones de base no lineales.
5. El estudiante debe saber que el solapamiento entre clases en el espacio de
caractersticas original no se reduce en el espacio transformado por las
funciones de base, y puede aumentar.
6. El estudiante debe ser capaz de definir qu se entiende por modelo de regresin
logstica, y entender que se refiere a un problema de clasificacin aunque el
nombre se refiera a la regresin.
7. El estudiante debe reconocer en el modelo de regresin logstica un modelo
lineal generalizado.
8. El estudiante debe ser capaz de explicar cmo podemos determinar los
parmetros del modelo de regresin logstica mediante la mxima verosimilitud,
y reconocer que el nmero de parmetros que necesitamos determinar con la
Introduccin
Resultados de aprendizaje
1. El estudiante debe conocer el procedimiento para aproximar una funcin
multivariante en un mximo, mediante una funcin gaussiana, a travs del
desarrollo de Taylor de orden 2 y de la integracin de las funciones Gaussianas.
2. El estudiante debe conocer las limitaciones de la aproximacin de Laplace.
3. El estudiante debe conocer por qu la aproximacin de Laplace es til para
hacer una comparacin Bayesiana de modelos exhaustivos.
4. El estudiante debe ser capaz de explicar con sus propias palabras los cuatro
trminos que se obtienen al calcular la evidencia de un modelo con la
aproximacin de Laplace para la probabilidad conjunta de datos y parmetros.
5. El estudiante debe conocer cmo se simplifican esos cuatro trminos en el caso
de que la probabilidad a priori sea muy ancha y que la matriz de covarianza de
la aproximacin de Laplace sea no singular. Es muy importante que el
estudiante recuerde el resultado: el criterio BIC tambin conocido como de
Schwartz.
Introduccin
Resultados de aprendizaje
1. El estudiante debe entender el procedimiento general que nos lleva a la
expresin de la probabilidad a posteriori de los parmetros dado el conjunto de
entrenamiento, y qu problemas plantea su uso inferencial.
2. El estudiante debe ser capaz de explicar con sus propias palabras cmo
podemos obtener una aproximacin Gaussiana a dicha probabilidad a posteriori.
3. El estudiante debe ser capaz de explicar en palabras cmo se define la
probabilidad predictiva de clase, bajo la aproximacin Laplaciana de la
probabilidad a posteriori de los parmetros del modelo.
4. Sabiendo que la convolucin del producto de una Gaussiana y una funcin
sigmoidea se puede aproximar por la misma convolucin pero con una funcin
probit, el estudiante debe saber cul es la forma funcional de la probabilidad
predictiva de la clase.
5. En todo lo anterior, no es necesario que el estudiante memorice frmulas, pero
s que entienda el problema general que se trata en este sub-bloque y cmo se
aborda.
Finalmente, el equipo docente permitir que los estudiantes utilicen como material
auxiliar los apndices del texto base fotocopiados y sin anotaciones de ningn tipo.
4.- GLOSARIO
Lo que sigue es una coleccin de enlaces a entradas de la wikipedia que resumen los conceptos
ms bsicos definidos en el primer sub-bloque del texto base y utilizados a lo largo de todo el
curso:
Densidad de Probabilidad
Valor esperado
Matriz de Covarianza
Densidad gaussiana o normal de probabilidad
Teorema de Bayes
Regresin
Clasificacin
Verosimilitud
Modelo lineal