Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Joo Gama
Jgama@liacc.up.pt
Sumario
rvores de deciso
Motivao
Construo de uma rvore de deciso
Critrios para seleccionar atributos
Entropia
Podar a rvore
Estimativas de erro
Extenses
rvores multivariadas
2002
Joo Gama
rvores de Deciso
Uma rvore de deciso utiliza uma estratgia de dividirpara-conquistar:
Um problema complexo decomposto em sub-problemas mais
simples.
Recursivamente a mesma estratgia aplicada a cada subproblema.
Crescente interesse
CART (Breiman, Friedman, et.al.)
C4.5 (Quinlan)
Splus, Statistica, SPSS , R
2002
Joo Gama
2002
Joo Gama
Joo Gama
Representao
Uma rvore de deciso representa a disjuno de conjunes
de restries nos valores dos atributos
Cada ramo na rvore uma conjuno de condies
O conjunto de ramos na rvore so disjuntos
DNF (disjuntive normal form)
Joo Gama
+
1
+
6
A ideia base:
1. Escolher um atributo.
2. Estender a rvore adicionando um ramo para cada valor do
atributo.
3. Passar os exemplos para as folhas (tendo em conta o valor do
atributo escolhido)
4. Para cada folha
1. Se todos os exemplos so da mesma classe, associar essa classe folha
2. Seno repetir os passos 1 a 4
2002
Joo Gama
Atributos binrios
1.
And
A B AB
0 0 0
0 1 0
B
0
1
1
1 0 0
1 1 1
1. Exerccios:
1. Representar Or, Xor
2. ( A B ) (C
2002
D)
Joo Gama
Exemplos:
O conjunto de dados original:
Tempo
Temperatu. Humidade
vento
Joga
Sol
85
85
No
No
Sol
80
90
Sim
No
Nublado
83
86
No
Sim
Chuva
70
96
No
Sim
Chuva
68
80
No
Sim
Chuva
65
70
Sim
No
Nublado
64
65
Sim
Sim
Sol
72
95
No
No
Sol
69
70
No
Sim
Chuva
75
80
No
Sim
Sol
75
70
Sim
Sim
Nublado
72
90
Sim
Sim
Nublado
81
75
No
Sim
Chuva
71
91
Sim
No
2002
Selecciona um atributo:
Vento
No
Sim
Joo Gama
10 / 10
5/5
2002
5/5
10 / 0
Joo Gama
0 / 10
10
Medida de independncia
Medida do grau de associao entre os atributos e a classe.
2002
Joo Gama
11
Entropia
Entropia uma medida da aleatoridade de uma varivel.
A entropia de uma varivel nominal X que pode tomar i valores:
entropia ( X ) = p i * log
pi
2002
Joo Gama
12
Ganho de Informao
No contexto das rvores de deciso a entropia usada para estimar a
aleatoridade da varivel a prever: classe.
Dado um conjunto de exemplos, que atributo escolher para teste?
Os valores de um atributo definem parties do conjunto de exemplos.
O ganho de informao mede a reduo da entropia causada pela partio dos
exemplos de acordo com os valores do atributo.
ganho (Exs , Atri ) = entropia ( Exs )
# Exs
v entropia Exs
v
# Exs
2002
Joo Gama
13
Informao da Classe:
p(sim) = 9/14
p(no) = 5/14
Info(joga) =
= - 9/14 log2 9/14 5/14 log2 5/14 = 0.940 bits
Sol
Nublado
Chuva
Sim
No
2002
Joo Gama
14
2002
Joo Gama
15
2002
Joga
64
Sim
65
No
68
Sim
69
Sim
70
Sim
71
No
72
No
72
Sim
75
Sim
75
Sim
80
No
81
Sim
83
Sim
85
No
p(sim | temperatura<70.5)=4/5
p(no | temperatura<70.5)=1/5
p(sim | temperatura>70.5)=5/9
p(no | temperatura>70.5)=4/9
Info(joga | temperatur<70.5) =
-4/5log2 4/5 1/5 log2 1/5 = 0.721 bits
16
Repetir o processo
2002
Joo Gama
17
2002
Joo Gama
18
Critrios de paragem
Quando parar a diviso dos exemplos?
Todos os exemplos pertencem mesma classe.
Todos os exemplos tm os mesmos valores dos atributos (mas
diferentes classes).
O nmero de exemplos inferior a um certo limite.
(?) O mrito de todos os possveis testes de partio dos exemplos
muito baixo.
2002
Joo Gama
19
Dois problemas:
Que atributo seleccionar para teste num n?
Quando parar a diviso dos exemplos ?
Joo Gama
20
10
Sobre-ajustamento
O algoritmo de partio recursiva do conjunto de dados gera
estruturas que podem obter um ajuste aos exemplos de
treino perfeito.
Em domnios sem rudo o nr. de erros no conjunto de treino pode
ser 0.
2002
Joo Gama
22
11
Erro (%)
30
25
Treino
20
Test
15
10
5
0
1
10 20 30 40 50 60 70 80 90 100
Nr. de Nos da Arvore
2002
Joo Gama
23
Sobre-ajustamento (overfitting)
Definio:
Uma arvore de deciso d faz sobre-ajustamento aos dados se
existir uma arvore d tal que:
d tem menor erro que d no conjunto de treino
mas d tem menor erro na populao.
Joo Gama
24
12
Sobre-ajustamento
Occams razor: preferncia pela hiptese mais simples.
Existem menos hipteses simples do que complexas.
Se uma hiptese simples explica os dados pouco provvel que
seja uma coincidncia.
Uma hiptese complexa pode explicar os dados apenas por
coincidncia.
2002
Joo Gama
25
Simplificar a arvore
Duas possibilidades:
Parar o crescimento da arvore mais cedo (pre-pruning).
Crescer uma arvore completa e podar a arvore (pos-pruning).
Growing and pruning is slower but more reliable
Quinlan, 1988
O problema do Xor
Requer olhar em frente mais que um nvel.
2002
Joo Gama
26
13
Critrios
Critrios:
Obter estimativas fiveis do erro a partir do conjunto de treino.
Optimizar o erro num conjunto de validao independente do
utilizado para construir a arvore.
Minimizar:
erro no treino + dimenso da arvore
Cost Complexity pruning (Cart)
2002
Joo Gama
27
Estimativas de Erro
O problema fundamental do algoritmo de poda a estimativa de erro
num determinado n.
O erro estimado a partir do conjunto de treino no um estimador fivel.
Joo Gama
28
14
Joo Gama
29
p[
f p
Erros
>= z ] = c onde f =
N
p (1 p ) / N
p=(f +
2002
z2
+ z
2N
f
f2
z2
z2
+
)
/(
1
+
)
N
N
4N 2
N
Joo Gama
30
15
Um algoritmo de poda
Percorre a rvore em profundidade
Para cada n de deciso calcula:
Uma estimativa pessimista do erro no n
Soma pesada das estimativas pessimistas dos erros nos ns
descendentes
O peso a probabilidade de um exemplo seguir o ramo correspondente.
2002
Joo Gama
31
9+
5--
1+
1--
Estimativa no n: 0.46
Soma pesada das estimativas nas
folhas:
N B
6/14*0.47+2/14*0.72+6/14*0.47=0.51
0.46
0.72
4+
2-0.47
2002
No n B
1+
1--
4+
2--
0.72
0.47
Exerccio:
Qual a deciso para o n A ?
Joo Gama
32
16
Valores Desconhecidos
Pr-Processados
Substituir o valor desconhecido pelo valor mais provvel
Atributos numricos: mdia.
Atributos nominais: mediana.
Na construo do modelo
Assumir que um atributo tem como possvel valor o valor
desconhecido.
Atribuir um peso a cada exemplo.
Nos exemplos em que o atributo de teste toma um valor desconhecido, o
exemplo passado para todos os ns descendentes com um peso
proporcional probabilidade de um exemplo seguir o ramo.
2002
Joo Gama
33
Extenses
17
Algumas Ideias:
rvores com funes nas folhas
NBTree usa Nave Bayes nas Folhas
rvores Incrementais
Hoeffding Trees
Florestas de rvores
.
2002
Joo Gama
35
Arvores Multivariadas
Motivao
Discriminante linear
Superfcies de deciso obliquas em relao aos eixos definidos pelos
atributos.
rvores de Deciso
Partio do espao dos atributos.
Superfcies de deciso: hiper-rectangulos.
rvores multivariadas:
Combinao de superfcies de deciso obliquas com partio do espao dos
atributos:
2002
Joo Gama
36
18
Arvores Multivariadas
Discriminantes Recursivos
QUEST
Em cada n constri um discriminante linear.
Arvores Multivariadas
LMDT
Em cada n constri uma Maquina Linear que usada como teste neste
n.
LTREE
Em cada n constri um discriminante linear
Todos os exemplos neste n so estendidos com novos atributos
Cada novo atributo a probabilidade de o exemplo estar num lado do hiperplano.
Joo Gama
37
Anlise
(em geito de concluso)
19
Joo Gama
39
( a b ) (c d )
Replicao de sub-arvores
2002
Joo Gama
40
20
O espao de Hipteses
O espao de hipteses
completo
Qualquer funo pode ser
representada por uma rvore
de deciso.
No reconsidera opes
tomadas
Mnimos locais
Joo Gama
41
Bibliografia Adicional
Online:
http://www.Recursive-Partitioning.com/
Tom Mitchell
Machine Learning (chap.3)
MacGrawHill, 1997
Quinlan, R.
C4.5 Programs for Machine Learning
Morgan Kaufmann Publishers, 1993
2002
Joo Gama
42
21
Exerccios
Considere um problema de duas classes, definido por 4 atributos
binrios x1,x2,x3,x4.
Represente sob a forma de uma rvore o conceito
(x1 e x2 e x3) ou x4
(x1 e x2) ou (x3 e x4)
Joo Gama
43
22