Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Resolucin Ejercicios
1
1. Considerar un problema de clasificacin binaria con el siguiente conjunto de atributos y
correspondientes valores:
o Acondicionador de aire = {funciona, descompuesto}
o Motor = {bien, mal}
o Kilometraje = {alto, medio, bajo}
o Oxido = {si, no}
1 Introduction to DATA MINING, Pang-Ning Tan. Michael Steinbach, Vipin Kumar. 2006. Pearson Education.
2
b) Decir si el conjunto de reglas es exhaustivo
En este caso que tenemos 4 atributos todas sus combinaciones posibles son:
3
c) Se requiere un orden para este conjunto de reglas?
Si, dado que las reglas no son mutuamente exclusivas y es posible que un registro
permita la aplicacin (active / dispare) de ms de una regla (ver tabla anterior) necesitamos un
ORDEN para estas reglas.
NO, dado que el conjunto de reglas es exhaustivo, todo registro tiene garantizada la
existencia de por lo menos una regla que lo cubra. (Nuevamente ver tabla que antecede).
2. El algoritmo RIPPER es una extensin de un algoritmo anterior llamado IREP. Ambos algoritmos
aplican el mtodo de poda de error reducido para determinar si una regla necesita ser podada.
El mtodo de poda de error reducido usa un conjunto de validacin para estimar el error de
generalizacin de un clasificador. Considere le siguiente par de reglas:
R1: A C
R2: A B C
VRIPPER= (p n) / (p + n)
a) Suponer que R1 es cubierta por 350 ejemplos positivos y 150 ejemplos negativos, mientras que
R2 es cubierta por 300 ejemplos positivos y 50 negativos. Computar la ganancia de informacin
de FOIL para la regla R2 con respecto a R1.
4
1 0
= 1 (2 2 )
1 + 1 0 + 0
Por lo tanto la ganancia de informacin de FOIL para la regla r2 con relacin a r1 es:
300 350
= 300 (2 350 2 500) = 300 (0.222392421336448 +
0.514573172829758) = 300 0.29218075149331 = 87.6542254479931 .
b) Considere un conjunto de validacin que contiene 500 ejemplos positivos y 500 negativos. Para
R1, suponer que el numero de ejemplos positivos cubiertos por la regla es 200 y el nmero de
ejemplos negativos cubiertos es 50. Para R2, suponer que los ejemplos positivos cubiertos es de
100 y el nmero de ejemplos negativos cubiertos es 5. Computar V IREP para ambas reglas. Cules
reglas prefiere IREP?
Para r1, VIREP = (p +(N n)) / (P+N) = (200 + (500 50)) / (500 + 500) = 0.65, mientras que
Para r2, VIREP = (p +(N n)) / (P+N) = (100 + (500 5)) / (500 + 500) = 0.595.
Para r1, VRIPPER= (p n) / (p + n) = (200 50) / (200 + 50) = 0.6, mientras que
5
3. C4.5rules es una implementacin de un mtodo indirecto para generar reglas desde un rbol de
decisin. RIPPER es una implementacin de un mtodo directo para generar reglas directamente
desde los datos.
RIPPER: Es un mtodo directo y su algoritmo tiene una complejidad que escala casi
linealmente con la cantidad de muestras de entrenamiento. Es particularmente adecuado para
construir modelos con conjuntos de datos desbalanceados. Trabaja bien con conjuntos con ruido
dado que emplea un conjunto de validacin para controlar el sobre-ajuste.
RIPPER emplea una estrategia de lo general a lo particular para crecer las reglas y la ganancia
de informacin de FOIL para agregar las mejores conjunciones al antecedente de la regla. Deja de
agregar conjunciones cuando la regla empieza a cubrir ejemplos negativos. La nueva regla es
podada basndose en el conjunto de validacin. Luego de generar una regla, todos los ejemplos
positivos y negativos cubiertos por ella son removidos, la regla se agrega al conjunto de reglas
siempre y cuando no viole las condiciones de parada que se basan en el principio MDL (Minimum
description length).
Si bien hay estudios2 que muestran que RIPPER produce conjuntos de reglas ms precisos,
con menor complejidad y en menor tiempo que C4.5rules, su mecanismo de generacin de reglas
de a una a la vez tiende a sesgarse hacia las clases que se generan primero. Por otro lado, un
problema conocido con RIPPER es el denominado de generalizacin apresurada (hasty
generalization) como mencionan Frank y Witten (Generating Accurate Rule Sets Without Global
Optimization):
La estrategia bsica de construir una sola regla y luego podarla puede llevar a una forma
particularmente problemtica de sobre-poda denominada generalizacin apresurada. Esto ocurre
dado que la poda interacta con la heurstica de cobertura. Se realizan generalizacin antes de que
sus implicancias se conozcan, y la heurstica de cobertura luego previene que el algoritmo de
aprendizaje descubra estas implicaciones.
2Ver por ejemplo: Learning Rules From Data - Olcay Taner Yldz and Ethem Alpaydn - Department of Computer Engineering -
Bogazici University. Turquia.
6
Pueden surgir otros problemas durante la etapa de poda toda vez que el conjunto de reglas ya no
es ms mutuamente exclusivo y exhaustivo.
b) Considere un dataset que tiene una gran diferencia en el tamao de clase. Cul mtodo (entre
C4.5rules y RIPPER) es mejor en trminos de hallar reglas de mayor precisin para las clases
pequeas?
4. Considere un training set que contiene 100 ejemplos positivos y 400 negativos. Para cada una de
las siguientes reglas candidatas,
R1 R2 R3
Precisin 4/5 = 0.80 = 0.75 100/190 = 0.5263
Es decir que la mejor regla candidata de acuerdo con la precisin es R 1, y la peor es R3.
Para poder calcularla necesitamos comparar con otra regla, para esto usamos () +, en la
que tenemos p0 = 100 positivos y n0 = 400 negativos. Usamos nuevamente:
7
1 0
= 1 (2 2 )
1 + 1 0 + 0
R1 R2 R3
Ganancia de 4 100 30 100 100 100
4 (2 2 ) 30 (2 2 ) 100 (2 2 )
Informacin de 5 500 40 500 190 500
FOIL = = . = .
c) El ratio de verosimilitud.
= 2 =1 2 ( )
donde k es el numero de clases, fi es la frecuencia observada de la clase i que estn cubiertos por la
regla, y ei es la frecuencia esperada de la regla que hace una prediccin aleatoria.
Regla R
R1 4 1
2 (4 2 (1) + 2 (4)) = 12
R2 30 10
2 (30 2 ( ) + 102 ( )) = 80.852
8 32
R3 100 90
2 (100 2 ( 38 ) + 2 (152)) = 143.092
8
d) La medida de Laplace.
En este caso:
+ +1
= +
Regla Laplace
R1 4+1 5
= = 0.7143
5+2 7
R2 30 + 1 31
= = 0.7381
40 + 2 42
R3 100 + 1 101
= = 0.526
190 + 2 192
En este caso:
+ ++
= +
Regla m-estimacin
R1 4 + 2 0.2
= 0.62857
5+2
R2 30 + 2 0.2
= 0.72381
40 + 2
R3 100 + 2 0.2
= 0.52292
190 + 2
9
5. Suponer que la fraccin de estudiantes no graduados que fuman es 15% y la fraccin de
estudiantes graduados que fuman es 23%. Si 1/5 de los estudiantes son graduados y el resto son
no graduados, Cul es la probabilidad que un estudiante que fuma sea graduado?
F = {Fuman}
G = {Graduado}
NG = {No Graduado}
( | )() 0.230.2
( | ) = ()
= ()
Ahora bien:
Es decir:
a) Estimar las probabilidades condicionales para P(A|+), P(B|+), P(C|+), P(A|-), P(B|-), P(C|-)
10
Usando la visin frecuentista de la probabilidad (casos favorables / casos posibles),
tenemos:
b) Usar las probabilidades condicionales de a) para predecir el rotulo de clase para una nueva
instancia definida por A = 0, B = 1, C= 0 usando Naive Bayes.
() =
=1 ( |)
( |) =
()
5 2 1 1
(+) (( = 0|+) ( = 1|+) ( = 0|+)) (10)(5)(5)(5)
( + | ) = =
() ()
Mientras que:
5 3 2
() ( ( = 0|) ( = 1|) ( = 0|)) (10)(5)(5)(0)
(|) = =
() ()
=
+
( | ) =
+
11
P(B=1|+) = (1+2)/(5+4) = 0.333
P(C=1|+) = (4+2)/(5+4) = 0.666
P(A=1|-) = (2+2)/(5+4) = 0.444
P(B=1|-) = (2+2)/(5+4) = 0.444
P(C=1|-) = (5+2)/(5+4) = 0.777
5
(+) (( = 0|+) ( = 1|+) ( = 0|+)) (10)(0.444)(0.333)(0.333)
(+|) = =
() ()
0.02469
=
()
Y
5
() (( = 0|) ( = 1|) ( = 0|)) (10)(0.555)(0.444)(0.222)
(|) = =
() ()
0.02738
=
()
Generalmente la aproximacin por m-estimacin provee una forma mas robusta de estimar
las probabilidades cuando el numero de casos de entrenamiento es pequeo. (Tan et. al, pg. 237).
12