Sei sulla pagina 1di 26

GRADO

GUA DE ESTUDIO DE LA ASIGNATURA


MINERIA DE DATOS

2013-2014

GRADO EN INGENIERA EN TECNOLOGAS DE LA INFORMACIN

UNIVERSIDAD NACIONAL DE EDUCACIN A DISTANCIA


MINERA DE DATOS

1.- PLAN DE TRABAJO

El plan de trabajo de la asignatura aparece descrito en la Tabla 1. En l se puede ver la


secuencia de tareas que el estudiante tendr que realizar a lo largo del curso.

El contenido de la asignatura ha sido diseado no con el objetivo de dar un panorama


completo del rea, sino con el de proporcionar al alumno los conceptos clave que
subyacen a todos los desarrollos del campo. Sera imposible revisar todas las tcnicas
desarrolladas durante las ltimas dcadas con el objetivo de automatizar el
reconocimiento de patrones o el descubrimiento de conocimiento en bases de datos:
modelos grficos probabilistas, modelos basados en reglas, redes neuronales,
mquinas de vectores soporte, procesos gaussianos modelos basados en rboles de
decisin/regresin y un sinnmero de alternativas. De hacerlo, es seguro que el nivel
de comprensin de cada uno de los mtodos sera cuando menos superficial.

El equipo docente ha elegido por el contrario unos contenidos bsicos (que no simples)
que permitan al alumno en el futuro adquirir conocimientos avanzados de cualquier
especialidad del rea de la Minera de Datos con suma facilidad. Lo ms difcil estar
hecho: se tratar nicamente de aplicar los conceptos y destrezas adquiridos a una
metodologa particular. Asimismo, los alumnos interesados en continuar su formacin
de postgrado en el rea de la Minera de Datos estarn igualmente preparados para
profundizar en los diferentes aspectos del campo de investigacin.

El diseo de la gua de estudio alterna bloques de lectura con bloques de ejercicios.


Finalmente, el equipo docente ofrece la posibilidad de realizar una prctica voluntaria y
evaluable basada en la experimentacin con el programa estadstico R. La
experimentacin sugerida est diseada para consolidar los conocimientos adquiridos
desde una perspectiva aplicada.

La mayor parte de las tareas consisten en la lectura de los apartados (epgrafes) del
libro de texto bsico de la asignatura, y en la realizacin de unas actividades bsicas
no evaluables tras la lectura de cada epgrafe, que le ayudarn a asimilar mejor los
contenidos. Las actividades bsicas no evaluables incluyen aquellas que aparecen al
final de cada epgrafe del libro y pueden ser de auto-evaluacin (ejercicios resueltos) o
de descubrimiento (ejercicios no resueltos).

El equipo docente propondr cada ao dos subconjuntos de ejercicios tomados del


texto base. El primero estar compuesto de ejercicios cuya respuesta se encuentra
disponible en el sitio web del libro (auto-evaluacin); el segundo contendr ejercicios
cuya respuesta no est disponible a travs de Internet y de entre los que se
seleccionarn los enunciados del examen (descubrimiento). Nosotros recomendamos
que los estudiantes intenten resolver tanto los unos como los otros, de la misma
manera: a ciegas, sin mirar la respuesta (cuando sta est disponible) hasta despus
de haber resuelto el enunciado y slo como comprobacin.

UNIVERSIDAD NACIONAL DE EDUCACIN A DISTANCIA 2


|Nombre y Apellidos

El 10% de la nota final de la asignatura corresponder a la evaluacin de por parte de


los tutores de un conjunto de 3 ejercicios de descubrimiento elegidos por el estudiante
de entre los propuestos por el equipo docente.

Un ltimo tipo de tarea incluye la realizacin de una prctica de experimentacin


numrica evaluable. Dicha prctica ser evaluada por los tutores, y podr suponer
hasta 2 puntos sobre 10 en la nota final. La nota final se calcular sumando a la nota
del examen la puntuacin de la prctica siempre y cuando sta ltima supere los 4
puntos sobre 10. Si la suma de ambas notas supera los 10 puntos, la nota
evidentemente ser de 10. Su objetivo (el de la prctica evaluable) es facilitar que el
alumno adquiera familiaridad con los casos prcticos de experimentacin numrica a
los que se les aplica todo el bagaje conceptual adquirido durante el curso. El enunciado
de la prctica se har pblico cada ao a comienzo de curso.

Es importante que el alumno sepa que las actividades evaluables slo se realizarn y
evaluarn en el cuatrimestre en el que se imparte la asignatura y que, por tanto, en la
convocatoria de Septiembre, se mantendr la nota obtenida en Febrero en dichas
actividades.

No le proporcionamos un calendario de trabajo por semanas, pues creemos que el


alumno puede construrselo fcilmente a partir de la tabla presentada y que, adems,
depender de cundo el alumno comience a estudiar la asignatura. No obstante,
consideramos que la mejor forma de cumplir con la planificacin marcada en la tabla
es comenzar a estudiar desde el comienzo de curso, pues creemos que la asignatura es
muy fcil si se lleva paso a paso, pero muy difcil si se pretende preparar en pocas
semanas antes del examen.

La tabla se ajusta al nmero de crditos ECTS que corresponden a la asignatura, de


forma que para 6 crditos el nmero de horas ha de ser 25*6=150 horas.

En cualquier caso, la realimentacin que el equipo docente obtenga de los alumnos a lo


largo del curso nos servir para dar una planificacin lo ms realista posible que
consiga los mejores resultados de aprendizaje en cursos futuros.

Tabla 1. Plan de trabajo de la asignatura.

UNIVERSIDAD NACIONAL DE EDUCACIN A DISTANCIA 3


MINERA DE DATOS
Hito Tarea Horas
1 Leer 1.1: Ajustar datos con un polinomio como ejemplo de partida 2
2 Leer 1.2: Teora de la probabilidad 10
3 Leer 1.3: Seleccin de modelos 1
4 Leer 1.4: La maldicin de la dimensionalidad 3
5 Leer 1.5: Teora de la decisin 3
6 Leer 1.6: Teora de la informacin 5
7 Leer 1.7: Distribuciones de probabilidad 24
7 Realizar los ejercicios resueltos (auto-evaluacin) del Tema 1 10
8 Realizar los ejercicios propuestos del Tema1 10
9 Leer 2.1: Modelos basados en funciones de base lineales 5
10 Leer 2.2: La descomposicin sesgo-varianza 3
11 Leer 2.3: Regresin lineal Bayesiana 5
12 Leer 2.4:Comparacin Bayesiana de Modelos 3
13 Leer 2.5:La aproximacin de la evidencia 5
14 Realizar los ejercicios resueltos (auto-evaluacin) del Tema 2 10
15 Realizar los ejercicios propuestos del Tema 2 10
16 Leer 3.1: Funciones discriminantes 8
17 Leer 3.2: Modelos Generativos Probabilsticos 4
18 Leer 3.3: Modelos discriminantes probabilsticos 5
19 Leer 3.4: La aproximacin de Laplace y su utilidad para comparar 2
modelos
20 Leer 3.5: Regresin Logstica Bayesiana 2
21 Realizar los ejercicios resueltos (auto-evaluacin) del Tema 3 10
22 Realizar los ejercicios propuestos del Tema3 10
TOTAL DE HORAS 150

UNIVERSIDAD NACIONAL DE EDUCACIN A DISTANCIA 4


|Nombre y Apellidos

2.- ORIENTACIONES PARA EL ESTUDIO DE LOS CONTENIDOS

La asignatura se ha dividido en 4 bloques temticos. Veamos para cada uno de ellos las
orientaciones adecuadas para su estudio.

Bloque 1. Introduccin

Se ha dividido en seis sub-bloques siguiendo los epgrafes del texto base


correspondientes a los temas 1 y 2. En este primer bloque se introducirn conceptos
bsicos de una manera descriptiva. Estos conceptos bsicos aparecern de forma
recurrente durante el curso en contextos ms especficos y, por lo tanto, ms
complejos.

Sub-bloque 1.1. Ajuste de datos mediante polinomios.

Corresponde al texto introductorio al tema 1 y al epgrafe 1.1 del libro.

Introduccin
El texto introductorio presenta de manera informal los conceptos ms generales
relativos al rea de aprendizaje automtico por mquinas. El aprendizaje automtico es
una disciplina basada en la Estadstica (en ocasiones se conoce como aprendizaje
estadstico) y est en la base de las tareas de Minera de Datos.

En este primer sub-bloque se presenta en detalle un ejemplo de aprendizaje para un


problema de regresin (es decir, se trata de un caso de aprendizaje supervisado en el
que el vector objetivo o target vector no es una clase perteneciente a un esquema de
clasificacin, sino que se trata de una variable numrica continua). Mediante este
ejemplo, se van a ilustrar esos conceptos clave que reaparecern a lo largo del curso y
que sern el lenguaje conceptual que emplearemos para entender las distintas
tcnicas disponibles en el rea de Minera de Datos.

Adems, este ejemplo servir para introducir la notacin matemtica que se utilizar a
lo largo del texto base y que se resume en la seccin pre-ndice 'Notacin Matemtica'.

Aunque la profundidad con la que se tratarn los conceptos sea slo superficial
(especialmente en lo que refiere a los mtodos de mxima verosimilitud o Bayesianos),
es importante que el alumno no sienta por ello frustracin. Ms adelante se explicarn
con mayor detalle y rigurosidad los conceptos.

Resultados de aprendizaje
1. Comprensin por el alumno de los conceptos de conjunto de entrenamiento, fase
de entrenamiento o aprendizaje, modelo, conjunto de test, generalizacin,
preprocesado de caractersticas, aprendizaje supervisado (clasificacin y
regresin) y no supervisado.
2. Familiarizacin con la notacin matemtica.
3. Comprensin del concepto de modelo lineal en los coeficientes.
4. Comprensin del concepto de funcin de error.
5. Comprensin de la tarea de seleccin de modelos

UNIVERSIDAD NACIONAL DE EDUCACIN A DISTANCIA 5


MINERA DE DATOS
6. Comprensin cualitativa del concepto de sobre-ajuste y su relacin con la
complejidad del modelo y el tamao del conjunto de entrenamiento.
7. Comprensin del concepto de regularizacin y de sus efectos. En particular, del
caso de la regresin ridge en la que los coeficientes son cuadrticos.
8. Comprensin del concepto de conjunto de validacin.

subbloque 1.2. Teora de la probabilidad

Corresponde al epgrafe 1.2 del texto base.

Introduccin

Resultados de aprendizaje
1. Comprensin de los conceptos de probabilidad y probabilidad condicionada.
2. Comprensin de los conceptos de probabilidad conjunta.
3. Adquisicin de familiaridad con las relaciones entre probabilidades conjuntas y
condicionadas (regla del producto) y entre probabilidades conjunta y marginal
(regla de la suma). Adquisicin del concepto de marginalizacin.
4. Comprensin del Teorema de Bayes y de los conceptos de probabilidad a priori,
a posteriori.
5. Comprensin del concepto de independencia de variables.
6. Comprensin del concepto de variables discretas y variables continuas.
7. Comprensin del concepto de densidad de probabilidad.
8. Familiarizacin con el factor de Jacobi o Jacobiano y con el hecho de que el
mximo de una distribucin de probabilidad depende de la eleccin de variable
con la que parametrizamos.
9. Comprensin del concepto de funcin de distribucin acumulativa.
10. Compresin de la generalizacin del concepto de densidad de probabilidad al
caso de distribuciones multivariantes.
11. Comprensin de los conceptos de valor esperado y covarianza.
12. Adquisicin de familiaridad con las dependencias funcionales de los valores
esperados de densidades de probabilidad multivariantes o condicionales.
13. Adquisicin de destreza en la obtencin de varianzas y covarianzas en los casos
de variables aleatorias y vectores de variables aleatorias. En particular, del
lgebra matricial necesaria para el manejo de covarianzas de vectores de
variables aleatorias.
14. Comprensin de la diferencia de entre la interpretacin frecuentista y la
Bayesiana al concepto de probabilidad e inferencia paramtrica.
15. Comprensin del concepto de verosimilitud y del estimador de mxima
verosimilitud.
16. Ilustracin de la interpretacin frecuentista de la inferencia paramtrica
mediante la estimacin bootstrap.
17. Toma de contacto del alumno con la diatriba entre las aproximaciones
frecuentista y Bayesiana.
18. Familiarizacin del alumno con las propiedades de la distribucin gaussiana y de
la estimacin de sus parmetros a partir de una muestra.
19. Toma de contacto del alumno con el concepto de sesgo en relacin con las
estimaciones de mxima verosimilitud. Este concepto est relacionado con el de
sobreajuste.

UNIVERSIDAD NACIONAL DE EDUCACIN A DISTANCIA 6


|Nombre y Apellidos

20. Adquisicin de la capacidad de formular un problema de regresin desde la


interpretacin bayesiana de la probabilidad, generalizando el problema del
ajuste de curvas.
21. Comprensin por parte del alumno, de la equivalencia entre la maximizacin de
la verosimilitud y la minimizacin de la funcin del error basado en la suma de
cuadrados en el caso de que los errores estn distribuidos segn una densidad
de probabilidad gaussiana.
22. Comprensin del concepto de hiper-parmetro.
23. Comprensin del concepto de estimador mximo a posteriori (MAP).
24. Comprensin por parte del alumno de la importancia en el contexto de las
tcnicas bayesianas -- de utilizar las distribuciones de densidad de probabilidad
a posteriori completas y no reducirlas a un nico estimador.
25. El alumno debe haber adquirido destrezas algebraicas y de clculo que le
permitan operar con distribuciones de probabilidad: marginalizar, normalizar,
descomponer probabilidades conjuntas, calcular valores esperados, varianzas y
obtener estimadores de mxima verosimilitud.

subbloque 1.3. Seleccin de modelos.

Corresponde al epgrafe del texto base 1.3.

Introduccin

Resultados de aprendizaje
1. Toma de contacto con el problema de la seleccin de modelos en general y, en
particular, con la seleccin de la complejidad ptima de un modelo.
2. Comprensin de la tcnica de evaluacin conocida como validacin cruzada, de
sus limitaciones y problemas asociados.
3. Primera toma de contacto con criterios basados en teora de la informacin (AIC
y BIC), y toma de conciencia de que existe una solucin completamente
Bayesiana para este problema.

subbloque 1.4 La maldicin de la dimensionalidad

Corresponde al epgrafe del texto base 1.4.

Introduccin

Resultados de aprendizaje
1. Comprensin de la dificultad de obtener conjuntos de entrenamiento
representativos en espacios de alta dimensionalidad, y las consecuencias que implica
para las tareas de Minera de Datos-
2. Toma de contacto con la posibilidad de seleccionar dimensiones intrnsecas en
las que el problema sea de dimensin mucho menor.

subbloque 1.5. Teora de la decisin

Corresponde al epgrafe del texto base 1.5.

UNIVERSIDAD NACIONAL DE EDUCACIN A DISTANCIA 7


MINERA DE DATOS
Introduccin

Resultados de aprendizaje
1. Toma de contacto con el problema de determinar el objetivo del aprendizaje:
minimizacin de la tasa de error en la clasificacin o del valor esperado del coste.
2. Comprensin de los conceptos de funcin de coste y de utilidad y de la matriz de
costes.
3. La inclusin del rechazo de casos entre las posibles decisiones de un clasificador.
4. Comprensin de las diferencias entre los modelos generativos y los modelos
discriminantes, y la relacin con los modelos no probabilsticos. Muy importante para
aprendizajes posteriores.
5. Primera toma de contacto con el concepto de dato anmalo y su deteccin como
problema de Minera de Datos.
6. Comprensin de las ventajas de los modelos generativos.
7. Comprensin de la generalizacin de los conceptos de la teora de la decisin,
ejemplificados inicialmente para problemas de clasificacin, al caso de regresin.
8. Adquisicin de destrezas correspondientes al clculo variacional (explicados en
el Apndice D) para la minimizacin de la funcin de coste.
9. Comprensin conceptual de las implicaciones de elegir una funcin de coste
cuadrtica y su minimizacin: la prediccin ptima resulta ser la media condicional.
10. Adquisicin de la capacidad de interpretar el coste esperado en trminos del
sesgo y la varianza. Comprensin del significado de ambos trminos.
11. Extensin de los conceptos aprehendidos relativos a los modelos generativos,
discriminantes y no probabilsticos al caso de la regresin.
12. Ampliacin de los recursos del estudiante a la hora de definir funciones de coste
diferentes de la funcin cuadrtica: funciones basadas en la mtrica de Minkowski.

subbloque 1.6. Teora de la Informacin.

Corresponde al epgrafe del texto base 1.6.

Introduccin

Resultados de aprendizaje
1. Aprehensin del concepto de informacin.
2. Comprensin de la definicin de entropa de una variable aleatoria y de sus
propiedades.
3. El alumno debe saber relacionar la entropa de una variable con la longitud
mnima promedio de un mensaje que comunica el resultado de una medicin de esa
variable aleatoria.
4. El alumno debe saber generalizar el concepto de entropa al caso de variables
continuas.
5. El alumno debe conocer las distribuciones de probabilidad de mxima entropa
para variables discretas y continuas y sus propiedades, y debe ser capaz de llegar a
demostrarlo matemticamente.
6. El alumno debe haber adquirido la destreza suficiente para realizar clculos de
los valores de entropa para una distribucin de probabilidad dada.

UNIVERSIDAD NACIONAL DE EDUCACIN A DISTANCIA 8


|Nombre y Apellidos

7. El alumno debe haber comprendido la diferencia entre la entropa y la entropa


condicional y cmo se relacionan.
8. El alumno debe haber comprendido en qu sentido son importantes las
definiciones de contenido de informacin y entropa para la Minera de Datos.
9. Comprensin del concepto de distancia de Kullback-Leibler entre dos
distribuciones de probabilidad y de su definicin matemtica. El alumno debe conocer
las propiedades de la distancia K-L.
10. El alumno conocer el significado de la informacin mutua, su definicin
matemtica y la relacin con la entropa condicional.
11. El alumno sabr las reglas para operar con estas entidades matemticas
tomadas del mbito de la teora de la informacin.

subbloque 1.7. Distribuciones de probabilidad.

Corresponde a los epgrafes 2.1 a 2.3.3 (ambos incluidos) del texto base ms los
epgrafes 2.4.2 a 2.5.2.

Introduccin

Hemos visto anteriormente que una aproximacin rigurosa a los problemas clsicos de
la Minera de Datos requiere la utilizacin de un formalismo basado en la teora de la
probabilidad. Para ello, en muchas ocasiones ser conveniente trabajar con
distribuciones de densidad de probabilidad que estn parametrizadas por unas pocas
variables. En este sub-bloque, veremos algunas de las distribuciones ms importantes
en el rea de la Minera de Datos.

Resultados de aprendizaje

1. El alumno debe conocer, entender y memorizar la forma matemtica de la


distribucin de probabilidad de Bernouilli para una variable binaria. Asimismo,
debe derivar, conocer y memorizar los valores de media y varianza de dicha
distribucin.
2. El alumno debe entender la importancia de la estimacin de densidades de
probabilidad paramtricas como la distribucin de Bernouilli.
3. El alumno debe conocer el procedimiento frecuentista para la determinacin de
los parmetros de una distribucin de probabilidad paramtrica, en particular
para la distribucin de Bernouilli por el mtodo de mxima verosimilitud
(maximum likelihood). El alumno debe ser capaz de (haber adquirido la destreza
para) derivar la estimacin de mxima verosimilitud del parmetro que describe
la distribucin.
4. El alumno debe entender el concepto de estadstico suficiente.
5. El alumno debe conocer la distribucin de probabilidad binomial y su relacin
con la distribucin de Bernouilli para variables binarias.
6. El alumno debe saber derivar los valores de la media y varianza de la
distribucin binomial, pero no necesariamente memorizarlos.
7. El alumno debe comprender el concepto de probabilidades conjugadas en el
anlisis bayesiano y comprender su utilidad en este contexto.

UNIVERSIDAD NACIONAL DE EDUCACIN A DISTANCIA 9


MINERA DE DATOS
8. El alumno debe entender la necesidad de recurrir a estos mtodos bayesiano
como resultado del sobreajuste que puede aparecer al emplear mtodos
frecuentistas en determinadas situaciones.
9. El alumno debe entender los beneficios que conlleva la utilizacin de la funcin
beta como probabilidad a priori para el parmetro que define la media de la
distribucin de Bernouilli y el concepto de hiper-parmetro.
10.El alumno debe entender el significado intuitivo de los hiper-parmetros que
caracterizan a la distribucin beta, es decir, interpretarlos en trminos de las
observaciones de la variable binaria.
11.El alumno debe conocer la importancia de los mtodos secuenciales para
conjuntos de datos extensos.
12. El alumno debe conocer la propiedad asinttica que relaciona las estimaciones
bayesiana y de mxima verosimilitud de la distribucin predictiva de una
variable.
13. El alumno debe conocer el concepto de variable multinomial y su distribucin de
probabilidad.
14.El alumno debe ser capaz de calcular la funcin de verosimilitud para esa
distribucin y conocer sus estadsticos suficientes.
15.El alumno debe conocer el procedimiento para obtener la estimacin de mxima
verosimilitud para esta distribucin y la necesidad de introducir multiplicadores
de Lagrange para su determinacin (ver apndice E).
16.El alumno debe conocer la forma funcional de la distribucin de probabilidad
multinomial para un conjunto de N observaciones.
17.El alumno debe conocer la extensin del concepto de probabilidad conjugada
utilizado en el caso de las variables binarias al caso de variables multinomiales.
En otras palabras, debe conocer la utilidad y propiedades de la distribucin de
Dirichlet, que es una distribucin de probabilidad a priori conjugada de la
distribucin multinomial.
18.El alumno debe ser capaz de aplicar el mtodo de inferencia bayesiana para
variables multinomiales empleando la probabilidad a priori de Dirichlet y derivar
la probabilidad a posteriori.
19. El alumno debe conocer la importancia que la distribucin normal o Gaussiana
tiene en el contexto de la Minera de Datos.
20.El alumno debe conocer y memorizar la forma funcional de la distribucin
Gaussiana.
21.El alumno debe conocer el concepto de distancia de Mahalanobis y memorizar su
definicin. Asimismo debe conocer la relacin entre la distancia eucldea y la
distancia de Mahalanobis.
22. El alumno debe conocer la forma geomtrica de la distribucin Gaussiana. Debe
saber que la distribucin toma el mismo valor en hiper-superficies elipsoidales.
23.El alumno debe ser consciente de que, para que una distribucin Gaussiana est
bien definida la matriz de covarianza debe ser definida positiva (y conocer lo que
esto significa). El alumno debe conocer el concepto de matriz semi-definida
positiva y lo que implica.
24.El alumno debe ser capaz de derivar y entender que en el espacio de
coordenadas dado por los autovectores de la matriz de covarianza, sta est
alineada con los ejes y por lo tanto se puede representar por un producto de
distribuciones gaussiana univariantes.

UNIVERSIDAD NACIONAL DE EDUCACIN A DISTANCIA 10


|Nombre y Apellidos

25.El alumno debe conocer las implicaciones de asumir las diversas simplificaciones
de la distribucin Gaussiana (matriz de covarianza diagonal o proporcional a la
matriz identidad) en el anlisis estadstico.
26.El alumno debe entender la definicin de las distribuciones condicionales de
probabilidad y, en particular, la forma de las distribuciones condicionales de una
distribucin Gaussiana.
27.El alumno debe conocer la definicin de la matriz de precisin
28.El alumno debe entender (pero no memorizar) el procedimiento de obtencin de
la media y covarianza de una distribucin condicional de probabilidad Gaussiana
en el caso general multivariante. No es importante que el alumno recuerde ni los
pasos intermedios ni el resultado final, pero s que entienda el procedimiento
conocido como 'completar el cuadrado'.
29.El alumno debe entender el concepto y definicin de probabilidad marginal y
entender (pero no memorizar el desarrollo) la derivacin de los valores de la
media y de la varianza.
30.El alumno debe ser capaz de seguir (entender los pasos pero no memorizar) la
aplicacin de los mtodos de complecin del cuadrado para derivar todos los
factores del Teorema de Bayes para variables Gaussianas multivariantes.
31.El alumno debe entender la derivacin de las estimaciones de mxima
verosimilitud de la media de una distribucin Gaussiana multivariante. Debe ser
capaz de reproducir dicha derivacin y recordar sus resultados y el valor de la
estimacin de mxima verosimilitud de la covarianza (aunque no su derivacin
que no aparece en el texto base).
32.El alumno debe entender el concepto de estimacin sesgada y cmo corregirlo
en el caso de la estimacin de mxima verosimilitud de la matriz de covarianza.
33.El alumno debe ser capaz de derivar la probabilidad a posteriori del parmetro
media de una distribucin univariante gaussiana suponiendo conocida su
varianza.
34.El alumno debe ser capaz de interpretar los resultados obtenidos al aplicar una
estimacin bayesiana del valor de la media de una distribucin Gaussiana dada
su varianza. En particular, debe ser capaz de analizar los valores asintticos de
dicha estimacin cuando el nmero de casos tiende a cero y a infinito. Tambin,
en el caso asinttico en que la varianza de la probabilidad a priori de dicho
parmetro (la media) tiende a infinito.
35.El alumno debe ser capaz de interpretar la inferencia bayesiana con
probabilidades a priori conjugadas como un proceso de actualizacin secuencial
de las estimaciones.
36.El alumno debe conocer la distribucin Gamma y su importancia para el
problema de estimar la precisin de una distribucin Gaussiana de media
conocida (con probabilidades a priori conjugadas).
37.El alumno debe conocer la solucin al problema de inferencia bayesiana de los
(dos) parmetros de una distribucin Gaussiana (con probabilidades a priori
conjugadas), y debe conocer las propiedades de la distribucin Gaussiana-
Gamma.
38.El alumno debe conocer la extensin de las tcnicas de estimacin bayesiana de
los parmetros de una Gaussiana con probabilidades a priori conjugadas al caso
multivariante: las distribuciones de Wishart y Gaussiana-Wishart. No debe
conocer las frmulas ni las constantes de normalizacin de memoria, pero s sus
dependencias funcionales.

UNIVERSIDAD NACIONAL DE EDUCACIN A DISTANCIA 11


MINERA DE DATOS
39.El alumno debe conocer y recordar que la probabilidad marginal de una variable
aleatoria que sigue una distribucin Gaussiana integrada sobre una precisin
dada a su vez por una distribucin a priori Gamma, es un distribucin conocida
como la distribucin t de Student.
40.El alumno debe conocer las propiedades asintticas de la distribucin t de
Student.
41.El alumno debe conocer las propiedades de robustez frente a datos atpicos por
comparacin con la distribucin Gaussiana y ser capaz de justificar dichas
propiedades de robustez basndose en las propiedades de ambas distribuciones.
42.El alumno debe ser capaz de definir los conceptos de probabilidad a priori
conjugada, propia e impropia, y conocer las consecuencias de utilizar unas u
otras en las estimacin bayesianas de parmetros.
43.El alumno debe ser capaz de definir matemticamente la propiedad de
invarianza por traslacin de una distribucin de probabilidad.
44.El alumno debe ser capaz de definir matemticamente la propiedad de
invarianza de escala de una distribucin de probabilidad.
45. El alumno debe conocer la solucin al problema de encontrar una distribucin a
priori invariante por traslacin e invariante de escala para los casos simples
descritos en el texto base.
46.El alumno debe conocer la diferencia entre los mtodos de estimacin
paramtricos y no paramtricos, y las respectivas ventajas e inconvenientes.
47.El alumno debe ser consciente de que existen tambin mtodos frecuentistas y
bayesianos para la estimacin no paramtrica.
48.El alumno debe conocer el mtodo de estimacin por histogramas, la
importancia del parmetro de suavizado (anchura de los intervalos del
histograma) y la analoga con el problema de seleccionar la complejidad ptima
de un modelo.
49.El alumno debe conocer la aproximacin a una funcin de densidad de
probabilidad en una regin de volumen V en funcin de la fraccin de puntos de
una muestra incluidos en dicha regin.
50.El alumno debe conocer la definicin de ventana de Parzen y de funcin kernel
(ncleo en espaol). Debe ser capaz de estimar la densidad de probabilidad en
una regin a partir de funciones kernel. Finalmente, debe conocer las
desventajas de los estimadores de Parzen en lo referente a escalabilidad.
51.El alumno debe conocer el problema de la determinacin del tamao del kernel
para estimaciones de densidad. Debe conocer las consecuencias de elegir
tamaos de kernel demasiado pequeos (estimaciones de alta varianza) o
demasiado grandes (estimaciones sesgadas).
52.El alumno debe ser capaz de derivar las frmulas de probabilidad a posteriori de
pertenencia a una clase para un problema de clasificacin, basndose en las
estimaciones de densidad obtenidas a partir de los vecinos ms cercanos.
53.El alumno debe conocer la definicin de clasificador ptimo.
54.El alumno debe conocer la cota superior del error de un clasificador basado en
los k vecinos ms cercanos en el caso asinttico de un conjunto de datos infinito.

Bloque 2. Modelos lineales de regresin

Los problemas de regresin y clasificacin son conceptualmente idnticos, pero los


espacios matemticos sobre los que se definen (los tipos de variable aleatoria que

UNIVERSIDAD NACIONAL DE EDUCACIN A DISTANCIA 12


|Nombre y Apellidos

definen el espacio de llegada) son diferentes. Vamos a utilizar el caso ms general de


la regresin para introducir los conceptos fundamentales sobre los que pivota gran
parte del rea del aprendizaje supervisado. En el tema siguiente profundizaremos en
las particularidades de la clasificacin supervisada a partir de lo aprendido aqu.

Es fundamental entender el concepto de modelo lineal. Se produce frecuentemente la


confusin de definir un modelo lineal en trminos de las variables aleatorias
independientes o de entrada. Lo que define un modelo lineal es su dependencia
respecto de los parmetros que lo definen, de manera que un modelo puede ser lineal
porque lo es su dependencia respecto de stos, aunque dependa de manera no lineal
de las variables independientes o de entrada.

En general, un problema de regresin se define como el problema de predecir el valor


de una variable dependiente (que puede ser multidimensional) a partir de una variable
independiente (que tambin puede ser multidimensional) empleando para ello un
modelo construido a partir de un conjunto de observaciones (es decir, pares
constituidos por las variables independiente y dependiente correspondientes).

Desde una perspectiva probabilista, la informacin completa se halla en la distribucin


de probabilidad de la variable dependiente dada la variable independiente.

Sub-bloque 2.1. Modelos basados en funciones de base lineales

Introduccin

Resultados de aprendizaje
1. El alumno debe conocer la expresin matemtica que define una regresin lineal
en los parmetros y en la/las variable(s) de entrada y en los parmetros, y el
caso ms general de modelos que son una combinacin lineal de funciones no
lineales de las variables de entrada.
2. El alumno debe conocer los casos particulares en los que las funciones de la
base son i) potencias de las variables de entrada, ii) funciones normales, iii)
funciones sigmoideas logsticas, iv) trminos de una serie de Fourier.
3. El alumno debe conocer el problema de utilizar una base de funciones (lineales o
no lineales) que son globales para todo el espacio de variables de entrada, y la
solucin mediante funciones locales conocida como funciones de spline.
4. El alumno debe ser capaz de seguir y entender hasta los ltimos detalles la
derivacin de la expresin correspondiente a la estimacin de mxima
verosimilitud de los parmetros de un modelo lineal en el caso de que las
mediciones de la variable dependiente estn afectadas por ruido Gaussiano.
5. El alumno debe entender la relacin entre el mtodo de estimacin por mxima
verosimilitud y la estimacin de mnimos cuadrados y conocer en qu
circunstancias ambas estimaciones son equivalentes.
6. El alumno debe conocer y memorizar la expresin de la estimacin de mxima
verosimilitud de los parmetros de un modelo lineal en el caso de que las
mediciones de la variable dependiente estn afectadas por ruido Gaussiano en
funcin de la matriz de diseo.

UNIVERSIDAD NACIONAL DE EDUCACIN A DISTANCIA 13


MINERA DE DATOS
7. Debe conocer las ecuaciones normales para la estimacin por mnimos
cuadrados.
8. Debe conocer la extensin del concepto de matriz inversa de una matriz no
cuadrada (la pseudo-inversa de Moore-Penrose).
9. El alumno debe ser capaz de interpretar la estimacin de mxima verosimilitud
de la precisin de la distribucin Gaussiana del ruido en trminos de la varianza
de las medidas respecto al modelo de regresin de mxima verosimilitud.
10.El alumno debe ser capaz de interpretar problemas de minimizacin de una
funcin cuadrtica del error en trminos geomtricos como la distancia mnima
de un punto a un hiper-plano (obtenida mediante una proyeccin ortogonal).
11.El alumno debe conocer la adaptacin del mtodo de mnimos cuadrados a un
aprendizaje secuencial: el mtodo de descenso del gradiente secuencial o
estocstico y el algoritmo least-mean-squares (LMS).
12.El estudiante debe conocer el concepto de regularizacin y el caso particular
conocido como decaimiento de pesos o contraccin de parmetros. Asimismo,
debe conocer la ventaja de clculo que proporciona la forma matemtica del
decaimiento de pesos: la preservacin de la forma cuadrtica de la funcin de
error.
13.El alumno debe ser capaz de derivar la solucin de la ecuacin de minimizacin
del error con regularizacin cuadrtica de manera algebraica.
14.El alumno debe conocer la generalizacin de este tipo de regularizacin a
exponentes diferentes de 2 (regularizacin cuadrtica) y el nombre y
propiedades del caso de exponente 1 (regularizacin lasso).
15.El estudiante debe entender la equivalencia entre minimizar la funcin de error
sin regularizar sujeta a restricciones y la minimizacin de la funcin de error
regularizada.
16.El estudiante debe entender la utilidad de la regularizacin en el caso de
conjuntos de datos de tamao pequeo, para evitar sobreajuste de modelos
mediante la limitacin efectiva de la complejidad del modelo.
17.El alumno debe ser capaz de extender todo lo aprendido en este sub-bloque al
caso de mltiples variables dependientes, y de deducir el desacoplamiento de
los diferentes problemas de regresin que representan cada una de las
variables.

Sub-bloque 2.2. La descomposicin sesgo-varianza

Introduccin

Las tcnicas de ajuste paramtrico vistas con anterioridad y basadas en mxima


verosimilitud o, de manera equivalente, minimizacin del error cuadrtico, presentan
una tendencia al sobreajuste cuando los conjuntos de entrenamiento (en presencia de
ruido) son de tamao insuficiente. Hemos visto que la regularizacin es una alternativa
til, pero que en exceso puede limitar excesivamente la complejidad de los modelos.
En este subbloque vamos a utilizar una perspectiva frecuentista para profundizar en la
comprensin de las fuentes de error en que incurrimos al ajustar modelos de regresin
y su dependencia respecto de la complejidad efectiva de los modelos empleados.

Resultados de aprendizaje

UNIVERSIDAD NACIONAL DE EDUCACIN A DISTANCIA 14


|Nombre y Apellidos

1. El alumno debe ser capaz de escribir el valor esperado de la funcin de prdida


cuadrtica (square loss function) en trminos de la funcin objetivo y de la
funcin resultado de una estimacin (por el mtodo que sea).
2. El estudiante debe entender el experimento mental que conduce a la
descomposicin del valor esperado de la prdida cuadrtica en trminos de
sesgo, varianza y ruido.
3. El alumno debe ser capaz de seguir la derivacin de la frmula que descompone
el valor esperado de la funcin prdida (promediado sobre potenciales conjuntos
de entrenamiento) en trminos del sesgo (bias), de la varianza y del error debido
al ruido.
4. El alumno de saber la expresin que define a cada uno de estos trminos (sesgo,
varianza y ruido).

Sub-bloque 2.3. Regresin lineal Bayesiana

Introduccin

Una solucin alternativa a la regularizacin en el problema de sobreajuste que aparece


en las estimaciones de mxima verosimilitud es la utilizacin de mtodos de
estimacin bayesianos que proporcionan estimaciones ptimas de la complejidad
requerida a partir del conjunto de entrenamiento. En este sub-bloque introducimos los
conceptos bsicos de regresin lineal bayesiana.

Resultados de aprendizaje
1. El estudiante debe ser capaz de formular el problema de estimacin de
parmetros de un modelo lineal en trminos de inferencia bayesiana (es decir,
de escribir las expresiones de la probabilidad a priori, de la verosimilitud y de la
probabilidad a posteriori) para el caso de ruido gaussiano, con probabilidad a
priori conjugada.
2. El estudiante debe ser capaz de deducir las expresiones para la media y matriz
de covarianza de la distribucin a posteriori de los parmetros del modelo lineal.
3. El estudiante debe entender la equivalencia entre la estimacin mximo a
posteriori de este modelo y la de una estimacin de mxima verosimilitud
regularizada con un trmino cuadrtico.
4. El estudiante debe entender y conocer la definicin de distribucin predictiva.
5. El estudiante debe ser capaz de derivar los estadsticos resumen de la
distribucin predictiva (para el caso de ruido Gaussiano y distribuciones a priori
centradas en cero) a partir de los resultados conocidos de la convolucin de dos
Gaussianas.
6. El alumno debe ser capaz de interpretar las dos componentes de la varianza de
la distribucin predictiva y distinguir su dependencia con la variable
independiente. Tambin debe conocer las propiedades asintticas de dicha
varianza en el caso de un conjunto de datos infinito.
7. El estudiante debe conocer el valor asinttico de la varianza de la distribucin
predictiva cuando se evala lejos de los centros de funciones de base localizadas
(extrapolacin).

UNIVERSIDAD NACIONAL DE EDUCACIN A DISTANCIA 15


MINERA DE DATOS
8. El alumno debe conocer la forma de la distribucin predictiva, solucin a este
problema (ver punto anterior) en el caso de que queramos determinar
simultneamente los parmetros del modelo y la varianza del ruido.
9. El alumno debe ser capaz de seguir (entender cada paso de) la derivacin del
valor de la media de la distribucin predictiva.
10.El alumno debe ser capaz de reescribir la expresin de la media de la
distribucin predictiva en trminos de una funcin kernel equivalente o matriz
de suavizado.
11.El alumno debe conocer el concepto de funcin de suavizado lineal.
12.El alumno debe saber y entender que la media de una distribucin predictiva
basada en funciones localizadas como las Gaussianas se puede expresar como
una combinacin lineal de contribuciones de los puntos del conjunto de
entrenamiento en la que cada contribucin est ponderada de manera que el
peso en la combinacin disminuye con la distancia entre el punto de
entrenamiento y el punto donde se evala la prediccin.
13.El alumno debe ser consciente de que, como consecuencia de lo anterior, las
predicciones en puntos prximos estn tanto ms correlacionadas cuanto ms
prximos estn los puntos en los que se evala la prediccin.
14.El alumno debe saber que la suma de la funcin kernel evaluada en todos los
puntos del conjunto de entrenamiento es la unidad.
15.El alumno debe conocer la propiedad de las funciones kernel de poder ser
expresadas como producto escalar o interno de funciones no lineales de las
variables de entrada.

Sub-bloque 2.4. Comparacin Bayesiana de Modelos.

Introduccin

Como hemos visto con anterioridad, las estimaciones de mxima verosimilitud son
propensas al sobre-ajuste. Hemos visto una tcnica para evitar ese sobre-ajuste
denominada regularizacin, y el problema que plantea la determinacin de los valores
de sus parmetros.

En este sub-bloque vamos a introducir una alternativa de vigencia global en todas las
reas de la Minera de Datos. Por ello, es difcil exagerar su importancia.

Resultados de aprendizaje
1. El estudiante debe conocer los elementos bsicos de los que se parte para
realizar la comparacin bayesiana de modelos: el concepto de modelo, la
probabilidad a posteriori de un modelo dado un conjunto de datos, la
probabilidad a priori de un modelo, y la evidencia de un modelo o su
verosimilitud marginal.
2. El alumno debe saber interpretar el concepto de verosimilitud marginal de un
modelo. Marginal respecto de qu?
3. El estudiante debe conocer el concepto y definicin de factor de Bayes.
4. El alumno debe saber utilizar las probabilidades a posteriori de los modelos para
realizar inferencias utilizando la distribucin predictiva. Qu alternativas hay
para dicha distribucin predictiva?

UNIVERSIDAD NACIONAL DE EDUCACIN A DISTANCIA 16


|Nombre y Apellidos

5. El estudiante debe entender el concepto de seleccin de modelo desde esta


perspectiva.
6. El estudiante debe ser capaz de computar la evidencia de un modelo como una
marginalizacin sobre los parmetros.
7. El estudiante debe ser capaz de reproducir la aproximacin a la evidencia
basada en la simplificacin de asumir que tanto la distribucin a posteriori de los
parmetros como el prior son distribuciones constantes de una determinada
anchura. Asimismo debe ser capaz de interpretar dicha aproximacin como una
descomposicin de la evidencia en dos trminos: la bondad del ajuste para los
parmetros ms probables a posteriori y un trmino que mide la anchura
relativa de las distribuciones a posteriori y a priori. El estudiante debe entender
las implicaciones de esta descomposicin en una y varias dimensiones.
8. El estudiante debe entender en qu consiste el concepto de complejidad ptima
de un modelo en el sentido bayesiano y qu relacin tiene con la capacidad
expresiva de un modelo medida por la evidencia.
9. El estudiante debe ser capaz de demostrar que la comparacin bayesiana de
modelos favorecer en promedio (sobre conjuntos de datos) el modelo correcto
si se cumple que el modelo empleado para generar los datos est entre las
alternativas. Para ello, har uso del concepto de distancia de Kullback-Leibler.
10.El alumno debe ser consciente de que la comparacin bayesiana de modelos no
requiere la divisin del conjunto de datos en dos subconjuntos (entrenamiento y
validacin o test) para evitar el sobre-ajuste y que, por tanto, hace uso de todos
los datos disponibles para entrenar.

Sub-bloque 2.5. La aproximacin de la evidencia.

Introduccin

Calcular la evidencia (marginalizar sobre todos los parmetros e hiperparmetros que


hemos visto en sub-bloques anteriores) puede ser intratable desde un punto de vista
analtico. Por lo tanto, la tcnica que hemos visto en el sub-bloque anterior precisa,
para su aplicacin prctica, de alguna aproximacin o simplificacin que la haga
factible en casos generales.

Resultados de aprendizaje
1. El estudiante debe conocer el fundamento de la tcnica conocida como
aproximacin a la evidencia, Bayes emprico, mxima verosimilitud de nivel 2, o
mxima verosimilitud generalizada.
2. El alumno debe entender pero no memorizar la derivacin de la aproximacin a
la evidencia. S debe recordar las dependencias funcionales de dicha
aproximacin.
3. El alumno debe recordar que la maximizacin de la evidencia implica soluciones
implcitas.
4. El estudiante debe ser capaz de interpretar el valor de como un nmero
efectivo de parmetros. Es muy importante que el alumno reflexione sobre el
concepto de nmero efectivo de parmetros.

UNIVERSIDAD NACIONAL DE EDUCACIN A DISTANCIA 17


MINERA DE DATOS
5. El estudiante debe entender la relacin entre el parmetro , , los valores de los
parmetros w y el nmero efectivo de parmetros de un modelo.
6. El alumno debe conocer la relacin entre el tamao del conjunto de datos, el
nmero efectivo de parmetros y las estimaciones de los hiperparmetros y .
Qu ocurre si se dispone de un nmero elevado de observaciones pero
concentradas en un entorno reducido del espacio de variables independientes?
7. El alumno debe ser consciente de las limitaciones de los modelos lineales y
conocer su origen (el de las limitaciones).

Bloque 3. Modelos lineales de clasificacin

En este bloque vamos a extender lo aprendido en el anterior al caso en que la variable


dependiente que queremos predecir es una variable de clase. Este problema es
equivalente a dividir el espacio de entrada (de las variables independientes) en
regiones cada una de las cuales corresponde a una clase. Las fronteras que separan
unas regiones de otras se conocen como fronteras de decisin. En el caso particular
que nos ocupa en este bloque, veremos que las fronteras de decisin inducidas por los
modelos lineales de clasificacin son lneas rectas, planos o hiperplanos en ms de dos
dimensiones.

A lo largo del bloque veremos que existen al menos tres formas de abordar el
problema. En la primera, el modelo no es probabilista y simplemente asigna a cada
vector del espacio de entrada una clase. El siguiente nivel de complejidad consiste en
emplear modelos probabilistas que estimen para un vector de entrada dado, una
distribucin de probabilidad de pertenencia a cada una de las clases del esquema
empleado. Esta segunda posibilidad (la que denominamos probabilista) se puede llevar
a cabo desde una metodologa discriminante que modele directamente las
probabilidades de pertenencia que deseamos encontrar, o desde una metodologa
generativa que llegue al mismo objetivo pero modelando otras distribuciones de
probabilidad previas cuya combinacin con el teorema de Bayes nos conduzca al
objetivo.

Es importante ser conscientes de que el espacio de variables dependientes es


esencialmente diferente al caso general de la regresin y que ello implica i) la
utilizacin de una funcin de activacin y ii) el hecho de que los modelos ya no sean
lineales en los parmetros. Es extraordinariamente importante que el alumno sea
consciente del abuso del lenguaje que representa seguir hablando de modelos lineales,
y de las diferencias entre los modelos lineales de regresin y clasificacin.

Sub-bloque 3.1. Funciones discriminantes

Introduccin

Resultados de aprendizaje
1. El alumno debe entender el concepto de funcin discriminante y de funcin
discriminante lineal.

UNIVERSIDAD NACIONAL DE EDUCACIN A DISTANCIA 18


|Nombre y Apellidos

2. El alumno debe ser capaz de distinguir el concepto de sesgo o bias en sentido


estadstico y sesgo como constante en una funcin lineal.
3. El alumno debe ser capaz de interpretar el sesgo de una funcin lineal como un
umbral de decisin.
4. El alumno debe adquirir la destreza de interpretar geomtricamente un modelo
lineal como un hiperplano frontera que separa dos regiones del espacio de
entrada.
5. El alumno debe entender por qu en el espacio de coordenadas extendidas el
hiperplano de separacin pasa por el origen.
6. El alumno debe conocer la problemtica asociada a las aproximaciones clase
frente al resto y clase frente a clase para la generalizacin de los
clasificadores al caso de ms de dos clases.
7. El alumno debe conocer la solucin de mnimos cuadrados para clasificacin, y
por qu sta no puede ser interpretada como una probabilidad.
8. El estudiante debe conocer los problemas asociados con las soluciones de
mnimos cuadrados para clasificacin, en particular, los ligados a los datos
atpicos.
9. El estudiante debe ser capaz de interpretar la solucin de mnimos cuadrados
como equivalente a una solucin de mxima verosimilitud en la que los errores
asociados a las medidas estn distribuidos segn una funcin gaussiana. Como
consecuencia, debe entender las limitaciones de su aplicacin a problemas de
clasificacin.
10.El estudiante debe conocer la interpretacin de los modelos lineales de
clasificacin como problemas de reduccin de la dimensionalidad, y ser capaz de
explicarla.
11. Debe ser capaz de enunciar los ojetivos deseables de una reduccin de la
dimensionalidad (proyeccin) ptima para un problema de clasificacin.
12.El estudiante debe ser capaz de llegar a la solucin para la proyeccin que
reduce a 1 la dimensionalidad de un problema de clasificacin conocida como
Discriminante Lineal de Fisher, y enunciar las definiciones que la caracterizan.
13.El estudiante debe ser capaz de enunciar al menos una forma de definir el
umbral de decisin en la dimensin proyectada.
14.El estudiante debe ser capaz de explicar la relacin entre el discriminante lineal
de Fisher y la solucin de mnimos cuadrados.
15.El estudiante debe ser capaz de enunciar la definicin de un perceptrn: una
transformacin fija no lineal, seguida de un modelo lineal generalizado. Debe
ser capaz de definir la funcin de activacin y cmo se integra en la definicin
del perceptrn y de explicar en qu consiste la componente de sesgo (bias).
16.El estudiante debe entender en qu consiste el proceso de aprendizaje del
perceptrn y qu alternativas sencillas existen para la definicin del error que
aqul debe minimizar.
17.El estudiante debe saber contestar por qu no es sencillo utilizar el nmero total
de errores en la clasificacin como medida del error que debemos minimizar.
18.El estudiante debe conocer la funcin de error inherente a la definicin del
perceptrn. Por qu soluciona el problema de la eleccin el punto anterior?
19.El alumno debe ser capaz de enunciar la frmula de clculo iterativo del vector
de pesos de un perceptrn en el marco del descenso estocstico del gradiente
(ver seccin 5.2.4 Stochastic Gradient Descent, del texto base, edicin de 2006),
y de dar una explicacin intuitiva de su significado.

UNIVERSIDAD NACIONAL DE EDUCACIN A DISTANCIA 19


MINERA DE DATOS
20.El estudiante debe ser capaz de enunciar las propiedades del algoritmo de
aprendizaje del perceptrn en lo referente a la reduccin del error en cada
paso. Adems, debe ser capaz de enunciar el teorema de convergencia del
perceptrn.
21.El estudiante debe entender que las soluciones obtenidas para los perceptrones
no pueden ser interpretadas probabilsticamente.

Sub-bloque 3.2. Modelos Generativos Probabilsticos

Introduccin

En este sub-bloque vamos a pasar de los modelos discriminantes vistos en el sub-


bloque anterior, a los modelos generativos, y a los modelos generativos probabilsticos
en particular. Para ello, tendremos que modelar explcitamente las probabilidades
condicionadas a la clase (verosimilitudes) y las probabilidades a priori.

Resultados de aprendizaje
1. El estudiante debe ser capaz de expresar la probabilidad a posteriori de
pertenencia a una clase para una observacin, en funcin de las verosimilitudes
y de las probabilidades a priori (a partir del teorema de Bayes).
2. El estudiante debe conocer la definicin y las propiedades analticas de la
funcin sigmoide.
3. El estudiante debe ser capaz expresar dicha probabilidad de pertenencia a
posteriori como una funcin logstica sigmoidea. Debe asimismo ser consciente
de que no ha necesitado proporcionar expresiones funcionales de las
verosimilitudes ni de las probabilidades a priori para llegar a dicha expresin.
4. El estudiante debe conocer la propiedad de simetra de la funcin logstica
sigmoidea y la forma funcional de su inversa: la funcin logit o 'log odds'. Esta
funcin log odds representa el logaritmo del cociente entre las probabilidades a
posteriori de pertenencia a dos clases, en un problema de clasificacin
dicotmica.
5. El estudiante debe conocer la extensin (sencilla y directa) de la funcin
logstica sigmoidea al caso de problemas multi-clase: la funcin exponencial
normalizada o softmax.
6. El estudiante debe ser capaz de aplicar el formalismo anterior al caso en que las
verosimilitudes de clase sean funciones Gaussianas multi-variantes, todas ellas
con la misma matriz de covarianza. Debe saber que las hiper-superficies de
separacin inducidas en ese caso son lineales (hiper-planos) y que el efecto de
las probabilidades a priori se limita a desplazar de forma paralela dichos hiper-
planos.
7. Es muy importante que el estudiante reconozca un modelo lineal generalizado
en las probabilidades a posteriori de pertenecia a las clases cuando las
verosimilitudes son gaussianas multivariantes de igual covarianza.
8. El estudiante debe conocer que las propiedades de linealidad de las hiper-
superficies de separacin se mantienen en el caso de problemas multi-clase,
pero no cuando las matrices de covarianza de las clases difieren, en cuyo caso
se trata de cudricas o discriminantes cuadrticos.
9. El estudiante debe saber por qu los hiper-planos de separacin mencionados en
el punto anterior son las fronteras de decision que producen un error de
clasificacin mnimo.

UNIVERSIDAD NACIONAL DE EDUCACIN A DISTANCIA 20


|Nombre y Apellidos

10.El estudiante debe entender que no basta con definir modelos paramtricos para
las verosimilitudes. Una vez definidos, necesitamos encontrar los valores de los
parmetros que minimizan el error.
11.El estudiante debe conocer la definicin de solucin de mxima verosimilitud, es
decir, el procedimiento para llegar a ella, al menos en el caso de dos clases y
matrices de covarianza iguales. No es necesario que memorice la derivacin,
pero s que conozca la solucin: los centros de las gaussianas son las medias de
los casos de entrenamiento, y la matriz de covarianza, la suma ponderada de las
covarianzas de los casos de cada clase respecto a la media de clase.
12.El estudiante debe saber que en el caso de variables de entrada discretas (no
continuas) el modelo resultante de aplicar un modelo nave Bayes es, de nuevo,
una probabilidad a posteriori que es lineal en los parmetros del modelo.
13.El estudiante debe conocer las propiedades que caracterizan a las
probabilidades a posteriori cuando las verosimilitudes pertenecen a la familia
exponencial, en particular la linealidad de las fronteras de decisin.

Sub-bloque 3.3. Modelos discriminantes probabilsticos

Introduccin

Hasta ahora se han tratado modelos discriminantes no probabilsticos, y modelos


generativos probabilsticos. No se pueden realizar modelos discriminantes
probabilsticos? La respuesta es s. En este bloque nos ocupamos de ello.

Resultados de aprendizaje
1. El estudiante debe entender que los modelos discriminantes probabilsticos se
fundamentan en la determinacin directa de los parmetros del modelo lineal
generalizado sin pasar previamente por una definicin de las verosimilitudes de
clase.
2. El estudiante debe recordar el concepto de funciones base: transformaciones no
lineales del espacio de caractersticas. Estas funciones han aparecido en
apartados anteriores como el perceptrn.
3. El estudiante debe ser consciente de que si un modelo lineal de clasificacin
induce fronteras de decisin lineales en el espacio transformado, las fronteras de
decisin en el espacio de caractersticas original sern, en general, no lineales.
4. El estudiante debe ser consciente de que un problema de clases no separables
por hiper-planos puede ser linealmente separable en el espacio transformado
por las funciones de base no lineales.
5. El estudiante debe saber que el solapamiento entre clases en el espacio de
caractersticas original no se reduce en el espacio transformado por las
funciones de base, y puede aumentar.
6. El estudiante debe ser capaz de definir qu se entiende por modelo de regresin
logstica, y entender que se refiere a un problema de clasificacin aunque el
nombre se refiera a la regresin.
7. El estudiante debe reconocer en el modelo de regresin logstica un modelo
lineal generalizado.
8. El estudiante debe ser capaz de explicar cmo podemos determinar los
parmetros del modelo de regresin logstica mediante la mxima verosimilitud,
y reconocer que el nmero de parmetros que necesitamos determinar con la

UNIVERSIDAD NACIONAL DE EDUCACIN A DISTANCIA 21


MINERA DE DATOS
aproximacin discriminante es mucho menor que en la aproximacin generativa.
Deber entender que la aproximacin de mxima verosimilitud a la determinacin
de parmetros en este caso implica la definicin de la verosimilitud de los
parmetros del modelo discriminante.
9. Como es habitual, en lugar de maximizar la verosimilitud, minimizamos el
logaritmo de la verosimilitud cambiado de signo: el cross-entropy error.
10. El estudiante debe saber (y es muy importante) que las soluciones de mxima
verosimilitud al problema de la regresin logstica pueden sufrir un severo
sobreajuste en problemas separables linealmente, y debe ser capaz de explicar
por qu.
11.El estudiante debe ser capaz de enunciar dos soluciones al problema del
sobreajuste de los modelos de regresin logstica en casos linealmente
separables.
12.El estudiante debe ser capaz de explicar intuitivamente en qu consiste el
mtodo de mnimos cuadrados iterativo y con ponderacin adaptativa. Debe
entender que se basa en el hecho de que, a pesar de que la funcin sigmoidea
imposibilita la obtencin de soluciones analticas al problema de regresin
logstica, la funcin de error todava es cncava y por lo tanto, se puede disear
un algoritmo iterativo para inferir los parmetros que hacen mnimo ese error.

Sub-bloque 3.4. La aproximacin de Laplace y su utilidad para comparar


modelos.

Introduccin

Este sub-bloque es un interludio necesario para abordar el problema de la clasificacin


desde una perspectiva totalmente Bayesiana. Esta perspectiva no se puede seguir de
forma analtica hasta sus ltimas consecuencias, y slo podemos acercarnos de
maneras aproximadas. Aqu veremos una de ellas. De manera adicional, veremos una
aplicacin en un contexto ajeno al tratado en este bloque, pero de una importancia
fundamental: la comparacin de modelos (ya vista con anterioridad) y el criterio de
informacin bayesiano (BIC).

Resultados de aprendizaje
1. El estudiante debe conocer el procedimiento para aproximar una funcin
multivariante en un mximo, mediante una funcin gaussiana, a travs del
desarrollo de Taylor de orden 2 y de la integracin de las funciones Gaussianas.
2. El estudiante debe conocer las limitaciones de la aproximacin de Laplace.
3. El estudiante debe conocer por qu la aproximacin de Laplace es til para
hacer una comparacin Bayesiana de modelos exhaustivos.
4. El estudiante debe ser capaz de explicar con sus propias palabras los cuatro
trminos que se obtienen al calcular la evidencia de un modelo con la
aproximacin de Laplace para la probabilidad conjunta de datos y parmetros.
5. El estudiante debe conocer cmo se simplifican esos cuatro trminos en el caso
de que la probabilidad a priori sea muy ancha y que la matriz de covarianza de
la aproximacin de Laplace sea no singular. Es muy importante que el
estudiante recuerde el resultado: el criterio BIC tambin conocido como de
Schwartz.

UNIVERSIDAD NACIONAL DE EDUCACIN A DISTANCIA 22


|Nombre y Apellidos

Sub-bloque 3.5. Regresin Logstica Bayesiana

Introduccin

En este sub-bloque vamos a ampliar lo estudiado en 3.2 y a aplicar una metodologa


totalmente Bayesiana. Desgraciadamente, no es posible hacerlo de manera analtica
por varios motivos, por lo que tendremos que emplear aproximaciones como la vista en
el bloque anterior.

Resultados de aprendizaje
1. El estudiante debe entender el procedimiento general que nos lleva a la
expresin de la probabilidad a posteriori de los parmetros dado el conjunto de
entrenamiento, y qu problemas plantea su uso inferencial.
2. El estudiante debe ser capaz de explicar con sus propias palabras cmo
podemos obtener una aproximacin Gaussiana a dicha probabilidad a posteriori.
3. El estudiante debe ser capaz de explicar en palabras cmo se define la
probabilidad predictiva de clase, bajo la aproximacin Laplaciana de la
probabilidad a posteriori de los parmetros del modelo.
4. Sabiendo que la convolucin del producto de una Gaussiana y una funcin
sigmoidea se puede aproximar por la misma convolucin pero con una funcin
probit, el estudiante debe saber cul es la forma funcional de la probabilidad
predictiva de la clase.
5. En todo lo anterior, no es necesario que el estudiante memorice frmulas, pero
s que entienda el problema general que se trata en este sub-bloque y cmo se
aborda.

3.- ORIENTACIONES PARA LA REALIZACIN DEL PLAN DE


ACTIVIDADES

El equipo docente recomienda la lectura completa de cada tema antes de empezar a


abordar tanto los ejercicios de auto-evaluacin como los de descubrimiento. Slo en el
caso del primer bloque nos encontramos una correspondencia no unvoca con un tema
del texto base. Este primer bloque, en realidad, se corresponde con los temas 1 y 2 de
dicho texto, por lo que se pueden intercalar los ejercicios correspondientes a los sub-
bloques 1.1-1.6 antes de empezar a estudiar el 1.7.

Como se indica en el apartado 1 de esta parte II de la gua de la asignatura, los


enunciados del examen se correspondern con algunos de los ejercicios de
descubrimiento propuestos a comienzo de curso por el equipo docente. Por lo tanto, no
habr preguntas que exijan la memorizacin de demostraciones. Si es necesario, el
equipo docente proporcionar definiciones complejas que sean necesarias para la
resolucin de los enunciados de examen. Consideramos que lo ms importante no es la
memorizacin de frmulas sino la comprensin de los conceptos clave del rea y la
adquisicin de las destrezas algebraicas necesarias para manipular frmulas.

Finalmente, el equipo docente permitir que los estudiantes utilicen como material
auxiliar los apndices del texto base fotocopiados y sin anotaciones de ningn tipo.

UNIVERSIDAD NACIONAL DE EDUCACIN A DISTANCIA 23


MINERA DE DATOS
Recomendamos pues que los estudiantes aborden la resolucin de todos los ejercicios
de descubrimiento propuestos por el equipo docente como la va ms segura de
preparacin para el examen.

Para la prctica voluntaria, los criterios de evaluacin se recogen en la siguiente tabla:

Indicador Nivel de ejecucin Totales parciales


Claridad yTexto enLo anterior +Todo lo anterior 10,00%

UNIVERSIDAD NACIONAL DE EDUCACIN A DISTANCIA 24


|Nombre y Apellidos

pulcritud en la correcto claridad en la + divisin clara


presentacin de castellano y sin exposicin de los en secciones,
los resultados faltas de objetivos, de la con grficas
ortografa metodologa ilustrativas y
empleada y de claras, y con las
los resultados tablas
obtenidos. necesarias (sin
exagerar) para
clarificar el
texto.
Adecuacin del Cdigo Lo anterior + Todo lo anterior 15,00%
cdigo a las comentado, bien parmetros de + cdigo
normas de estructurado, y ejecucin ledos reutilizable,
Ingeniera del limpio de cdigo de fichero de modular y con
Software basura. configuracin. tests unitarios.
Sin hard-coding.
Eficiente en
trminos de CPU
y uso de
memoria.
Obtencin de los La prctica no La prctica est La prctica 70,00%
objetivos est completa o, bien resuelta proporciona
propuestos en caso de salvo fallos de todos objetivos
estarlo, presenta menor propuestos sin
un nmero importancia errores o fallos
reducido de de ejecucin.
secciones que
contienen
errores graves,
Originalidad de No existe No existe Solucin muy 5,00%
la solucin optimizada o que
se aparta de la
solucin ms
obvia.

Para los enunciados de la prueba presencial:

Indicador Nivel de ejecucin Totales parciales


Claridad y Texto en Lo anterior + Todo lo anterior 30,00%
pulcritud en la correcto claridad en la + divisin clara
presentacin de castellano y sin exposicin de los en secciones,
los resultados faltas de objetivos, de la con grficas
ortografa. metodologa ilustrativas y
Respuesta empleada y de claras, y con las
legible. los resultados tablas
obtenidos. necesarias (sin
exagerar) para

UNIVERSIDAD NACIONAL DE EDUCACIN A DISTANCIA 25


MINERA DE DATOS
clarificar el
texto.
Obtencin de los La respuesta es La respuesta es La respuesta 70,00%
objetivos incompleta, o correcta (obtiene consigue los
propuestos contiene errores los objetivos objetivos de
graves en algn perseguidos) manera clara y
punto pero que pero lo hace de rigurosa, la
no invalidan el manera poco solucin est
desarrollo rigurosa, sin claramente
previo. aclarar pasos de explicada y no
Demuestra un la solucin, o contiene errores
conocimiento cometiendo de ningn tipo.
slido de algunos errores u
de los aspectos omisiones de
que se pretende pequea
evaluar. importancia

4.- GLOSARIO

Lo que sigue es una coleccin de enlaces a entradas de la wikipedia que resumen los conceptos
ms bsicos definidos en el primer sub-bloque del texto base y utilizados a lo largo de todo el
curso:

Densidad de Probabilidad
Valor esperado
Matriz de Covarianza
Densidad gaussiana o normal de probabilidad
Teorema de Bayes
Regresin
Clasificacin
Verosimilitud
Modelo lineal

UNIVERSIDAD NACIONAL DE EDUCACIN A DISTANCIA 26