Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
SO PAULO
2005
da
Faculdade
de
Economia,
SO PAULO
2005
d
Dissertao defendida e aprovada no Departamento de
Administrao da Faculdade de Economia, Administrao e
Contabilidade da Universidade de So Paulo Programa de
Ps-Graduao em Administrao, pela seguinte banca
examinadora:
FICHA CATALOGRFICA
Elaborada pela Seo de Processamento Tcnico do SBD/FEA/USP
658.15
ii
AGRADECIMENTOS
iii
iv
RESUMO
Praticamente todas as grandes instituies brasileiras que trabalham com concesso de crdito
utilizam-se de modelos para avaliar o risco de inadimplncia dos potenciais contratantes de
produtos de crdito. Qualquer avano nas tcnicas, que resulte no aumento da preciso de um
modelo de previso, acarreta ganhos financeiros para a instituio.
Neste trabalho so apresentados, em um primeiro momento, conceitos de crdito e risco.
Posteriormente, a partir de uma amostra de dados, fornecida por uma grande instituio
financeira brasileira, esto desenvolvidos trs modelos, aplicando-se trs tcnicas para a
classificao de clientes: Regresso Logstica, Redes Neurais e Algoritmos Genticos. Em uma
etapa final, so avaliadas e comparadas a qualidade e performance dos modelos desenvolvidos,
onde apontado qual o modelo que melhor se ajusta aos dados.
Os resultados obtidos pelos modelos de regresso logstica e rede neural so satisfatrios e
bastante prximos, sendo o primeiro ligeiramente superior. O modelo embasado por algoritmos
genticos apresenta tambm bons resultados embora num patamar inferior aos dois j citados.
Este trabalho ilustra os procedimentos a serem adotados por uma empresa para identificar o
melhor modelo de concesso de crdito que tenha boa aderncia aos seus dados. A adoo do
melhor modelo detectado permite o direcionamento da estratgia da instituio, podendo
aumentar a eficincia do seu negcio.
Palavras-chave: risco de crdito, modelos de credit scoring, regresso logstica, redes neurais,
algoritmos genticos.
ABSTRACT
Most of the large Brazilian institutions which work with credit concession use credit models to
evaluate the risk of consumer loans. Any improvement in techniques that results in the precision
increase of a prediction model, will provide financial gains to the institution.
The first phase of this study introduces concepts of credit and risk. Subsequently, with a sample
set of applicants from a large Brazilian financial institution, three credit scoring models are built
applying three different techniques: Logistic Regression, Neural Networks and Genetic
Algorithms. Finally, the quality and the performance of these models are evaluated and
compared, and the best one is identified.
The results obtained by the logistic regression model and neural network model are good and
very similar, but the first one is slightly better. The results obtained with the genetic algorithm
model are also good, but a little bit inferior.
This study shows proceedings to be adopted by a financial institution in order to identify the best
credit model to evaluate the risk of consumer loans. The use of the proper model will help the
definition of an adequate business strategy and increase profits.
Keywords: credit risk, credit scoring models, logistic regression, neural networks, genetic
algorithms.
SUMRIO
LISTA DE FIGURAS ................................................................................................................... 3
LISTA DE TABELAS .................................................................................................................. 4
CAPTULO 1-INTRODUO .................................................................................................... 5
1.2 OBJETIVOS DO ESTUDO ................................................................................................... 6
1.2.1 Objetivos Gerais ............................................................................................................. 6
1.2.2 Objetivos Especficos ..................................................................................................... 6
1.3 JUSTIFICATIVA DO TRABALHO ..................................................................................... 7
1.4 DELIMITAO DO TRABALHO....................................................................................... 7
1.5 ORGANIZAO DO ESTUDO ........................................................................................... 8
CAPTULO 2- FUNDAMENTAO TERICA ..................................................................... 9
2.1 CRDITO .............................................................................................................................. 9
2.1.1 Crdito ao Consumidor................................................................................................. 10
2.2 RISCO.................................................................................................................................. 11
2.2.1 Principais Tipos de Risco ............................................................................................. 11
2.2.2 Risco de Mercado ......................................................................................................... 11
2.2.3 Risco Legal ................................................................................................................... 12
2.2.4 Risco Operacional......................................................................................................... 12
2.2.5 Risco de Crdito ........................................................................................................... 13
2.3 AVALIAO DO RISCO DE CRDITO .......................................................................... 15
2.4 MODELOS DE CREDIT SCORING .................................................................................. 17
2.4.1 Histrico ....................................................................................................................... 17
2.4.2 Conceitos ...................................................................................................................... 19
CAPTULO 3- ASPECTOS METODOLGICOS.................................................................. 22
3.1 DESCRIO DO ESTUDO................................................................................................ 22
3.2 O PRODUTO DE CRDITO EM ESTUDO ....................................................................... 22
3.3 OS DADOS.......................................................................................................................... 23
3.4 AS VARIVEIS .................................................................................................................. 24
3.5 DEFINIO DA VARIVEL RESPOSTA ....................................................................... 25
CAPTULO 4- TCNICAS UTILIZADAS .............................................................................. 26
4.1 REGRESSO LOGSTICA ................................................................................................ 26
4.1.1 Histrico ....................................................................................................................... 27
4.1.2 Conceitos ...................................................................................................................... 27
4.1.2.1 Mtodo de escolha das variveis ........................................................................... 28
4.1.3 Pontos Fortes e Fracos da Aplicao de Regresso Logstica...................................... 29
4.2 REDES NEURAIS ARTIFICIAIS ...................................................................................... 30
4.2.1 Histrico ....................................................................................................................... 30
4.2.2 Conceitos ...................................................................................................................... 31
4.2.2.1 Arquitetura............................................................................................................. 33
2
4.2.2.2 Processo de Aprendizado....................................................................................... 37
4.2.2.3 Funes de Ativao.............................................................................................. 38
4.2.3 Pontos Fortes e Fracos das Redes Neurais ................................................................... 38
4.3 ALGORITMOS GENTICOS ............................................................................................ 39
4.3.1 Histrico ....................................................................................................................... 39
4.3.2 Conceitos ...................................................................................................................... 40
4.3.2.1 Fases de um algoritmo gentico ............................................................................ 40
4.3.3 Pontos Fortes e Fracos dos Algoritmos Genticos ....................................................... 42
4.4 CRITRIOS DE AVALIAO DE PERFORMANCE...................................................... 43
4.4.1 Taxa de Acerto.............................................................................................................. 43
4.4.2 Teste de Kolmogorov-Smirnov .................................................................................... 45
CAPTULO 5- APLICAO..................................................................................................... 47
5.1 TRATAMENTO DAS VARIVEIS................................................................................... 47
5.2 REGRESSO LOGSTICA ................................................................................................ 52
5.2.1 Modelo Implementado.................................................................................................. 52
5.2.2 Resultados..................................................................................................................... 54
5.3 REDE NEURAL .................................................................................................................. 60
5.3.1 Modelo Implementado.................................................................................................. 60
5.3.2 Resultados..................................................................................................................... 62
5.4 ALGORITMOS GENTICOS ............................................................................................ 65
5.4.1 Modelo Implementado.................................................................................................. 65
5.4.2 Resultados..................................................................................................................... 68
5.5 AVALIAO DA PERFORMANCE DOS MODELOS.................................................... 70
CAPTULO 6- CONCLUSES E RECOMENDAES ....................................................... 74
BIBLIOGRAFIA......................................................................................................................... 77
APNDICE A
APNDICE B
CLCULO DO KS ......................................................................................... 88
3
LISTA DE FIGURAS
4
LISTA DE TABELAS
5
CAPTULO 1-INTRODUO
1.1 CENRIO
Com a estabilidade da moeda, atingida no Plano Real em 1994, os emprstimos financeiros
passaram a ser um bom negcio para os bancos que j no obtinham os vultuosos lucros que
provinham da desvalorizao da moeda (ROSA, 2000, p. 1). Aps o fim do perodo inflacionrio,
percebeu-se a necessidade de se aumentarem as alternativas de investimento para substituir a
rentabilidade do perodo de inflao. Desde ento as instituies tm se preocupado em aumentar
suas
carteiras
de
crdito.
Entretanto,
emprstimo
no
poderia
ser
oferecido
6
1.2 OBJETIVOS DO ESTUDO
7
Identificar qual modelo apresentou-se como o mais indicado para a discriminao dos
clientes.
Nesse trabalho so construdos modelos de credit scoring baseados numa amostra de 20.000
clientes que obtiveram emprstimo de crdito pessoal em um grande banco de varejo que atua no
mercado brasileiro. A amostra foi coletada em fevereiro de 2004 e refere-se aos emprstimos
concedidos entre agosto de 2002 e fevereiro de 2003; apenas os contratos considerados bons ou
8
maus pela instituio foram selecionados para o trabalho; clientes cuja classificao era
indeterminada no foram focalizados.
Essa dissertao est estruturada em seis captulos. Aps este captulo introdutrio, o Captulo 2
apresenta a fundamentao terica, contendo os conceitos de crdito, risco e modelos de credit
scoring. No Captulo 3 so descritas as particularidades deste estudo, com a explicao do
problema estudado. Na seqncia, o Captulo 4 permite uma viso geral das tcnicas adotadas
neste estudo. O Captulo 5 ilustra uma viso mais detalhada das tcnicas e a forma como elas
foram adotadas; este captulo tambm aborda os resultados obtidos e a comparao entre as
tcnicas. Finalmente, o Captulo 6 traz as concluses advindas deste estudo, bem como
recomendaes para futuros estudos.
9
CAPTULO 2- FUNDAMENTAO TERICA
Nesse captulo sero apresentados conceitos tericos que daro sustentao ao desenvolvimento
do tema deste trabalho, os quais so associados conforme a figura 1, a seguir.
Crdito
Crdito ao
Consumidor
Avaliao
do
Risco
de Crdito
Risco
Risco de Mercado
Modelos
de
Credit Scoring
Histrico
Risco Legal
Conceitos
Risco Operacional
Risco de Crdito
F o n t e :
A u t o r
2.1 CRDITO
Crdito, por definio, todo ato de vontade ou disposio de algum de destacar ou ceder,
temporariamente, parte do seu patrimnio a um terceiro, com a expectativa de que esta parcela
volte a sua posse integralmente, aps decorrido o tempo estipulado (SCHRICKEL, 1995, p. 25).
Patrimnio pode ser entendido como dinheiro no caso de emprstimo monetrio ou bens,
emprstimo para uso ou venda com pagamento parcelado, ou a prazo.
10
Devido ao fato de envolver a expectativa do retorno do patrimnio, deve-se entender que todo
crdito est associado a um certo risco (SCHRICKEL, 1995, p. 24).
Como se trata de um ato de vontade, cabe ao cedente do patrimnio a deciso de ced-lo ou no,
tendo o direito de recusar se achar conveniente.
Apesar de existirem emprstimos a ttulo gratuito, ou seja, no onerosos quele que recebe o
bem, normalmente associa-se a qualquer transao de emprstimo um preo remuneratrio, a ser
pago pelo tomador (SECURATO, 2002, p. 18). Esse preo, conhecido como taxa de juros,
baseia-se na compensao dos riscos assumidos pelo cedente quanto possvel perda ou
deteriorao de seu patrimnio que houvera cedido.
11
2.2 RISCO
Gitman (1997, p. 202) define risco como possibilidade de prejuzo financeiro. Ativos que
possuem maiores possibilidades de prejuzo financeiro so mais arriscados que aqueles com
menores possibilidades. Risco pode ser entendido como incerteza ao referir-se possibilidade de
retornos associada a um dado ativo . Entretanto, Lima (2002, p. 20) aponta que no risco, as
probabilidades de ocorrncia de um dado evento so conhecidas enquanto na incerteza no h
dados para calcularmos estas probabilidades .
12
Risco de taxa de juros: representa a possibilidade de perda financeira em funo de
variaes das taxas de juros - flutuao das taxas de juros sobre as aplicaes e captaes,
no mercado financeiro, em funo das polticas macroeconmicas e turbulncias do
mercado;
Risco de taxa de cmbio: representa a possibilidade de perda financeira em decorrncia de
variaes na taxa de cmbio como descasamento em carteira indexada a alguma moeda
estrangeira;
Risco de liquidez: representa a possibilidade de o banco no ter condies de cumprir
suas obrigaes financeiras, seja por substanciais desencaixes no curto prazo, escassez de
recursos ou, ainda, pela incapacidade de se desfazer, rapidamente, de uma posio, devido
s condies de mercado;
Risco de aes: possibilidade de perdas em funo de mudanas no valor de mercado das
aes componentes de uma carteira.
13
internas e externas deficientes, responsabilidades mal definidas, fraudes, acesso a
informaes internas por parte de concorrentes;
Risco de operaes: est relacionado com problemas como overloads de sistemas
(telefonia, eltrico, computacional etc.), processamento e armazenamento de dados
passveis de fraudes e erros, confirmaes incorretas ou sem verificao criteriosa etc;
Risco de pessoal: est relacionado a problemas como empregados no-qualificados e/ou
pouco motivados, personalidade fraca, falsa ambio etc.
A atividade de concesso de crdito funo bsica dos bancos; portanto, o risco de crdito toma
papel relevante na composio dos riscos de uma instituio e pode ser encontrado tanto em
operaes onde existe liberao de dinheiro para os clientes como naquelas onde h apenas a
14
possibilidade do uso, os limites pr-concedidos. Os principais tipos de operaes de crdito de
um banco so: emprstimos, financiamentos, descontos de ttulos, adiantamento a depositantes,
adiantamento de cmbio, operaes de arrendamento mercantil (leasing), avais e fianas etc.
Nessas operaes, o risco pode se apresentar sob diversas formas; conhec-las conceitualmente
ajuda a direcionar o gerenciamento e a mitigao. Os principais subtipos deste risco so
(FIGUEIREDO, 2001, p. 9):
Risco de inadimplncia: risco do no-pagamento, por parte do tomador, de uma operao
de crdito - emprstimo, financiamento, adiantamentos, operaes de leasing - ou ainda a
possibilidade de uma contraparte de um contrato ou emissor de um ttulo no honrar seu
crdito;
Risco de degradao de garantia: risco de perdas em funo das garantias oferecidas por
um tomador deixarem de cobrir o valor de suas obrigaes junto instituio em funo
de desvalorizao do bem no mercado, dilapidao do patrimnio empenhado pelo
tomador;
Risco de concentrao de crdito: possibilidade de perdas em funo da concentrao de
emprstimos e financiamentos em poucos setores da economia, classes de ativos, ou
emprstimos elevados para um nico cliente ou grupo econmico;
Risco de degradao de crdito: perda pela queda na qualidade creditcia do tomador de
crdito, emissor de um ttulo ou contraparte de uma transao, ocasionando uma
diminuio no valor de suas obrigaes. Este risco pode acontecer em uma transao do
tipo de aquisio de aes ou de ttulos soberanos que podem perder valor;
Risco soberano: risco de perdas envolvendo transaes internacionais - aquisio de
ttulos, operaes de cmbio - quando o tomador de um emprstimo ou emissor de um
ttulo no pode honrar seu compromisso por restries do pas sede.
No universo do crdito ao consumidor, a promessa de pagamento futuro envolve a idia de risco.
Como o futuro no pode ser corretamente predito, todo crdito ao consumidor envolve risco, pois
15
nunca existe a certeza do pagamento (LEWIS, 1992, p. 2). Cabe anlise de crdito estimar o
risco envolvido para a concesso ou no do crdito.
Na anlise de crdito existem dois fatores cruciais a serem analisados:
16
Na avaliao do risco de crdito por meio de julgamento, o analista avalia a solicitao de
emprstimo mediante ficha cadastral e/ou entrevista. Para este tipo de avaliao existem 4 Cs
largamente mencionados na literatura pesquisada que devem ser considerados (SANTI FILHO,
1997; SCHRICKEL, 1995) 1:
Carter: refere-se inteno de pagar. O avaliador deve levar em considerao o cadastro
do cliente, levantando informaes sobre emprstimos anteriores, atuao na praa,
existncia de restries;
Capacidade: refere-se habilidade de pagar. considerado o aspecto mais subjetivo do
risco, pois depende mais da percepo do analista do que da anlise de dados cadastrais;
Capital: refere-se ao potencial de produzir dinheiro. No caso de anlise para pessoa
fsica, o avaliador deve levar em considerao a renda do indivduo e seu patrimnio para
entender se ele possui meios de quitar o emprstimo;
Condies: referem-se ao micro e macrocenrio em que o tomador est inserido. Esse
ltimo aspecto foge do controle do tomador e requer a anlise dos fatores externos que
afetam a economia como planos de ajuste da economia, bolsas de valores em queda (ou
em alta), entre outros.
Na avaliao do risco de crdito por meio de classificao do tomador que so utilizados os
modelos chamados credit scoring, que permitem uma mensurao do risco do tomador de
crdito, auxiliando na tomada de deciso (concesso ou no do crdito).
Alguns autores como Securato (2002) consideram um quinto C : Colateral que diz respeito s garantias que
o devedor deve apresentar para viabilizar a operao de crdito.
17
2.4.1 Histrico
Ao longo dos anos, muitos administradores de crdito buscaram uma forma de reduzir o processo
de anlise de crdito a uma frmula numrica. Entretanto, at o desenvolvimento dos
computadores, poucos avanos foram feitos na anlise de grandes massas de dados.
O pioneiro dos modelos de crdito foi Henry Wells, executivo da Spiegel Inc. que desenvolveu
um modelo de escore para crdito durante a Segunda Guerra Mundial (LEWIS, 1992, p. 19).
Wells necessitava de ferramentas que permitissem aos analistas inexperientes fazer avaliao de
crdito, pois muitos de seus funcionrios experientes foram recrutados para a Guerra.
Nos anos cinqenta, os modelos de escore foram difundidos na indstria bancria americana. Os
primeiros modelos baseavam-se em pesos pr-estabelecidos para certas caractersticas
determinadas, somando-se os pontos e obtendo-se um escore de classificao.
O crescimento do uso de modelos na dcada de 60 transformou os negcios no mercado
americano (THOMAS, 2000, p. 154). A busca por novas tcnicas cresceu cada vez mais e
mtodos estatsticos que auxiliam na tomada de deciso foram introduzidos nas reas estratgicas
das empresas. No somente empresas do segmento financeiro, mas tambm grandes varejistas
comearam a fazer uso de modelos de credit scoring para efetuar vendas a crdito para seus
consumidores. Varejistas como a Wards, Blomingdale s e J.C. Penney aparecem entre as
pioneiras neste segmento.
Nos anos setenta, as maiores empresas de carto de crdito, Visa e Mastercard, introduziram
modelos nos seus negcios. Com isso, conseguiram diminuir suas taxas, aumentar sua carteira de
clientes e tornaram-se mais competitivas. A General Motors tambm iniciou a utilizao desta
ferramenta na mesma poca para o financiamento de veculos. Atualmente, aproximadamente
90% das empresas americanas que oferecem algum tipo de crdito ao consumidor utilizam
modelos de credit scoring.
18
No Brasil, a histria mais curta. As instituies financeiras passaram a utilizar maciamente os
modelos de credit scoring apenas em meados dos anos 90. Em estudo de Matias e Siqueira
(1996) sobre insolvncia de bancos, h o comentrio (p. 19):
Com a efetiva implantao do novo padro monetrio no Brasil, em 1 de julho de 1994, dentro do
rgido controle de emisso monetria, os ndices de inflao nominal apresentaram sensvel queda
da
ordem de 30% ao ms para cerca de 1,5% ao ms. Em decorrncia, os ganhos do sistema bancrio
decorrentes de floating foram reduzidos de U$ 10 bilhes para menos de U$ 500 milhes, obrigando
os bancos a buscarem fontes alternativas de receita. J no segundo semestre de 1994, os bancos
expandiram suas carteiras de emprstimos, principalmente para pessoas fsicas, comrcio e micro e
pequenas empresas. Em um primeiro momento, alguns bancos no conseguiram se adaptar. Outros,
com a maior concesso de crdito efetiva sem adequados padres de crdito, deterioraram seus ativos
com a crise da inadimplncia e insolvncia que sucedeu.
Este texto mostra quo despreparados estavam os bancos da poca para a concesso de crdito. A
estabilidade da moeda e o aumento dos emprstimos ao consumidor proporcionaram condies
favorveis para que modelos de anlise de crdito fossem efetivamente implantados no Brasil.
19
2.4.2 Conceitos
Neste tpico sero explicados os passos para a construo de um modelo de credit scoring. A
figura 2 sintetiza estes passos.
Figura 2: Ciclo de desenvolvimento de um modelo
Classificao dos
clientes e definio
da varivel resposta
Base de
dados
histrica
de clientes
Seleo e
implantao do
melhor modelo
Seleo de
amostra aleatria
representativa
Escolha e
aplicao
das tcnicas
a serem
utilizadas
F o n t e :
Anlise
descritiva e
preparao
dos dados
A u t o r
20
considerao para a modelagem e o resultado do modelo identificar perfis de clientes que sejam
atrativos para a empresa conceder o crdito.
Existem alguns passos a serem seguidos para se construir um modelo de credit scoring, a saber:
21
1.500 clientes maus para serem propiciados resultados robustos. Costuma-se trabalhar com trs
amostras, uma para construo do modelo, outra para validao do modelo e a terceira para teste
do modelo. No captulo 3, seo 3.3, sero detalhadas as funes de cada uma das trs amostras.
22
CAPTULO 3- ASPECTOS METODOLGICOS
23
3.3 OS DADOS
Para a realizao do estudo foram selecionados aleatoriamente, a partir do universo de clientes do
banco em estudo, 10.000 contratos de crdito tidos como bons e 10.000 considerados maus,
realizados no perodo de agosto de 2002 a fevereiro de 2003, sendo que todos estes contratos j
venceram, isto , a amostra foi coletada aps a data de vencimento da ltima parcela de todos os
contratos. Trata-se de uma base de dados histrica com informaes mensais de utilizao do
produto. A partir desta estrutura pode-se acompanhar o andamento do contrato e precisar em que
momento o cliente deixou de pagar uma ou mais parcelas.
No universo da instituio estudada, a proporo de bons contra maus de 85% versus 15%;
neste trabalho, optou-se pela alternativa de uma amostra igualitria, por se acreditar que desta
forma a avaliao da qualidade do ajuste mais precisa, evitando-se o problema de acertos de
classificao a posteriori automticos no grupo majoritrio, independentemente do poder de
aderncia do modelo aos dados. Outra alternativa seria extrair uma amostra aleatria do universo
e posteriormente ponderar os pesos de bons e maus de acordo com sua proporo na amostra;
esta segunda alternativa utilizada em Rosa (2000).
No trabalho a amostra dividida em trs sub-amostras provenientes do mesmo universo de
interesse: uma para construo do modelo, 8.000 dados (sendo 4.000 bons e 4.000 maus); a
segunda para validao do modelo construdo, 6.000 dados (sendo 3.000 bons e 3.000 maus) e a
terceira tambm com 6.000 (com a mesma diviso eqitativa) para testar o modelo obtido.
Cada sub-amostra tem a sua funo especfica (ARMINGER et al, 1997, p. 294). A sub-amostra
de construo do modelo usada para estimao dos parmetros do modelo, a sub-amostra de
teste tem como funo verificar o poder de predio dos modelos construdos, e a sub-amostra de
validao, particularmente numa rede neural, tem a funo de validar os parmetros, evitando o
superajuste (overfitting)2 do modelo. Nos modelos de regresso logstica e algoritmos genticos
Superajuste ou overfitting um fenmeno presente nas redes neurais quando o modelo fica superajustado aos
dados de desenvolvimento; entretanto, o modelo no ser bom em outros dados. A amostra de validao uma
soluo para se evitar o superajuste. Ohtoshi (2003, p. 47) explica: Quando o treinamento progride, o erro no
treinamento naturalmente cai e a funo de erro diminui. De fato, se o erro na amostra de validao pra de cair,
isto indica que a rede est comeando a iniciar um superajuste. Quando o superajuste ocorre na amostra de
treinamento, aconselhvel diminuir o nmero de camadas escondidas ou de unidades da rede .
24
a amostra de validao ter o mesmo papel da amostra de teste, ou seja, avaliar a predio do
modelo.
3.4 AS VARIVEIS
As variveis explanatrias disponveis contm caractersticas que podem ser divididas em dois
grupos: Variveis Cadastrais e Variveis de Utilizao e Restrio. Variveis Cadastrais esto
relacionadas ao cliente, e as Variveis de Utilizao e Restrio so relativas s restries de
crdito e apontamentos sobre outras operaes de crdito do cliente existentes no mercado.
Tanto as Variveis Cadastrais como as de Utilizao e Restrio so coletadas no momento em
que o cliente contrata o produto. A tabela 1 descreve as variveis e suas respectivas escalas.
Tabela 1: Variveis disponibilizadas para este estudo
Varivel
Sexo
Estado Civil
Fone Residencial
Fone Comercial
Tempo no Emprego Atual
Salrio do Cliente
Quantidade de Parcelas a Serem Quitadas
Primeira Aquisio
Tempo na Residncia Atual
Valor da Parcela
Valor Total do Emprstimo
Tipo de Crdito
Idade
CEP Residencial
CEP Comercial
Cdigo de Profisso
Nome da Profisso
Salrio do Cnjuge
Escala
Nominal
Nominal
Nominal
Nominal
Razo
Razo
Razo
Nominal
Razo
Razo
Razo
Nominal
Razo
Nominal
Nominal
Nominal
Nominal
Razo
25
3.5 DEFINIO DA VARIVEL RESPOSTA
Para o desenvolvimento de um modelo de credit scoring preciso definir, num primeiro
momento, o que a instituio financeira considera como um bom e mau pagador. Esta definio,
da Varivel Resposta, tambm denominada de Definio de Performance, est diretamente ligada
poltica de crdito da instituio. Para o produto em estudo, clientes com 60 ou mais dias de
atraso foram considerados Maus (inadimplentes) e clientes com no mximo 20 dias de atraso
como Bons. A mensurao do atraso calculada por meio da parcela paga com maior atraso pelo
cliente; por exemplo, um cliente que atrasou trs parcelas por vinte dias consecutivos ainda assim
considerado um bom cliente, ao passo que um cliente que tenha atrasado uma parcela por
sessenta dias considerado mau.
Os clientes que apresentam atrasos no intervalo entre bons e maus foram definidos como
indeterminados.
Pode-se destacar a existncia de um grupo de clientes que no faz parte do estudo, pois as
informaes relativas a ele no so armazenadas pela instituio. Trata-se do grupo de clientes
recusados pela instituio antes mesmo de terem suas propostas cadastradas.
Vale ressaltar que a Definio de Performance pode variar de uma instituio para outra.
Da Definio de Performance resultam quatro classificaes: bons, maus, indefinidos e
recusados. No entanto, somente duas delas, Bons e Maus, so utilizadas para a construo da
varivel resposta, pois os clientes denominados Indeterminados representam um grupo cujo
comportamento de crdito no suficientemente claro para indic-los como bons ou maus
pagadores. Na prtica, estes clientes que no esto claramente definidos como bons ou maus so
analisados separadamente pelo analista de crdito com base em anlise qualitativa (Captulo 2,
seo 2.3); a deciso de aceitar ou no estes clientes depende da poltica mais ou menos
conservadora adotada pela instituio financeira.
26
CAPTULO 4- TCNICAS UTILIZADAS
F o n t e : A d a p t a d o
p e l o
a u t o r
d e
S H A R M A
( 1 9 9 6 ,
p .
3 2 0 )
27
4.1.1 Histrico
Segundo Lima (2002, p. 77), a funo logstica surgiu em 1845, ligada a problemas de
crescimento demogrfico, problemas em que, at os dias de hoje, essa funo utilizada. Na
dcada de 30, esta metodologia passou a ser aplicada no mbito da biologia, e posteriormente nas
reas relacionadas a problemas econmicos e sociais. Paula (2002, p. 118) aponta que, apesar de
o modelo de regresso logstica ser conhecido desde os anos 50, foi devido a trabalhos do
estatstico David Cox, na dcada de 70, que esta tcnica tornou-se bastante popular entre os
usurios de Estatstica.
Atualmente, a regresso logstica uma das principais ferramentas na modelagem estatstica de
dados, sendo largamente utilizada em diversos tipos de problema. Paula (2002, p. 118) explica:
Mesmo quando a resposta no originalmente binria, alguns pesquisadores tm dicotomizado a
varivel resposta de modo que a probabilidade de sucesso possa ser modelada por intermdio da
regresso logstica. Tudo isso se deve, principalmente, facilidade de interpretao dos parmetros de
um modelo logstico e tambm pela possibilidade do uso deste tipo de metodologia em anlise
discriminante.
4.1.2 Conceitos
Nos modelos de regresso logstica, a varivel dependente , em geral, uma varivel binria3
(nominal ou ordinal) e as variveis independentes podem ser categricas (desde que
dicotomizadas aps transformao) ou contnuas.
Na maioria dos casos apresentados na literatura estudada, a regresso logstica apresentada com varivel resposta
binria. Entretanto, h o caso em que a varivel resposta mltipla, ou seja, com mais de duas categorias (Desai et
al, 1997); inclusive, alguns softwares como o SPSS v.12.0 apresentam a opo de utilizao de varivel resposta
mltipla.
28
Considere o caso em que as observaes podem ser classificadas em uma de duas categorias
mutuamente exclusivas (1 ou 0). Como exemplo, as categorias poderiam representar um
indivduo que pode ser classificado como cliente bom ou mau.
A varivel dependente binria Y pode assumir os valores:
Yi =
0 Se o i-simo indivduo pertence categoria dos maus
E seja X
ln
p( X )
1 p( X )
' (
' X = Z , onde
,...,
p(X)=E(Y=1|X): probabilidade de o indivduo ser classificado como bom, dado o vetor X. Essa
probabilidade expressa por (NETER et al, 1996, p. 580):
p(X)=E(Y) =
e
1 e
'X
'X
eZ
1 eZ
29
variveis ser feita por intermdio do mtodo forward stepwise, que o mais largamente
utilizado em modelos de regresso logstica. No mtodo forward stepwise as variveis so
selecionadas a cada passo, de acordo com critrios que otimizem o modelo, reduzindo a varincia
e evitando problemas de multicolinearidade. Somente as variveis realmente importantes para o
modelo so selecionadas. Para detalhes da metodologia sugere-se a leitura de Canton (1988, p.
28) e Neter et al (1996, p. 348).
30
4.2 REDES NEURAIS ARTIFICIAIS
4.2.1 Histrico
Segundo vrios autores, entre eles, Marks e Schnabl (1997, p. 3); Haykin (1999, p. 63) e Fausett
(1994, p. 22), o primeiro modelo de rede neural surgiu com o trabalho de McCulloch e Pitts.
Warren McCulloch foi um psiquiatra e neuroanatomista que estudava uma representao para o
sistema nervoso. Em 1942, ele se associou com o matemtico Walter Pitts e no ano seguinte eles
publicaram um artigo que propunha um modelo matemtico para uma rede neural, artigo este que
at hoje uma referncia no estudo de redes neurais (HAYKIN, 1999, p. 63). Um segundo
trabalho importante foi publicado por Hebb em 1949, no qual foram propostas as primeiras regras
de aprendizado para redes neurais artificiais; este trabalho tambm inspirou muitos estudiosos em
pesquisas posteriores.
Durante as dcadas de 50 e 60 houve muitas pesquisas e estudos que permitiram avanar muito
no campo das redes neurais. Fausett (1994, p. 23) chama este perodo de anos dourados das
redes neurais . Estudos mostraram que a nova metodologia seria muito promissora; foram
31
propostos novos tipos de rede, novas regras de aprendizado e as redes foram ficando mais
complexas.
Na dcada de 70, contudo, houve uma desacelerao nas pesquisas, conforme apontam Hair et al
(1998, p. 545): (...) no final dos anos 1960, pesquisas demonstraram que as redes neurais
daquela poca eram realmente muito limitadas e a rea em si sofreu um geral retrocesso .
Foi somente nos anos 80 que, com o maior poder computacional, as redes neurais voltaram a ser
largamente estudadas e aplicadas. Fausett (1994, p. 25) destaca o desenvolvimento do algoritmo
backpropagation (retropropagao) como um divisor de guas para a popularidade das redes
neurais. At os dias atuais as redes neurais vm sendo largamente empregadas e estudadas, sendo
utilizadas em diferentes reas de conhecimento como medicina, biologia, economia,
administrao e engenharia.
4.2.2 Conceitos
Um modelo de rede neural artificial processa certas caractersticas e produz respostas
similarmente ao crebro humano. Redes neurais artificiais so desenvolvidas por meio de
modelos matemticos, onde as seguintes suposies so feitas (FAUSETT, 1994, p. 3):
1. O processamento das informaes ocorre dentro dos chamados neurnios;
2. Os estmulos so transmitidos pelos neurnios por meio de conexes;
3. Cada conexo tem associada a si um peso, que, numa rede neural padro, multiplica-se ao
estmulo recebido;
4. Cada neurnio contribui para a funo de ativao (geralmente no linear) para
determinar o estmulo de sada (resposta da rede).
O mencionado modelo pioneiro de McCulloch e Pitts de 1943 (figura 4), para uma unidade de
processamento (neurnio), pode ser resumido em:
Sinais so apresentados entrada;
Cada sinal multiplicado por um peso que indica sua influncia na sada da unidade;
32
feita a soma ponderada dos sinais que produz um nvel de atividade;
Se este nvel excede um limite, a unidade produz uma sada.
F o n t e :
T a t i b a n a
K a e t s u
( S . d . )
Wi X i
i 1
y = 0, se a < k
Na definio de um modelo de redes neurais trs caractersticas devem ser observadas: a forma que
a rede tem, chamada arquitetura; o mtodo para determinao dos pesos, chamado algoritmo de
aprendizado; e a funo de ativao. Os prximos tpicos explicaro estas caractersticas.
33
4.2.2.1 Arquitetura
Como j mencionado, arquitetura refere-se ao formato da rede. Toda rede dividida em camadas,
usualmente classificadas em trs grupos (conforme ilustra a figura 5, a seguir):
Camada de Entrada: onde os padres so apresentados rede;
Camadas Intermedirias ou Ocultas: onde feita a maior parte do processamento, por
meio das conexes ponderadas; podem ser consideradas como extratoras de
caractersticas;
Camada de Sada: onde o resultado final concludo e apresentado.
F o n t e :
C a r v a l h o
( S . d . )
Existem basicamente trs tipos principais de arquitetura (HAYKIN, 1999, p. 46-48): redes
feedforward com uma nica camada, redes feedforward com mltiplas camadas, e redes
recorrentes.
34
1. Redes feedforward com uma nica camada: so o caso mais simples de rede, existindo
apenas uma camada de entrada e uma camada de sada. As redes so alimentadas adiante,
ou seja, apenas a camada de entrada fornece informaes para a camada de sada, como
mostra a figura 6, a seguir. Algumas das redes que utilizam essa arquitetura so: Rede de
Hebb, perceptron, ADALINE, entre outras.
Figura 6: Rede Feedforward com uma nica camada
Camada de Entrada
F o n t e : A d a p t a d o
p e l o
a u t o r
Camada de Sada
d e
F A U S E T T
( 1 9 9 4 ,
p .
1 3 )
35
2. Redes feedforward com mltiplas camadas: so aquelas que possuem uma ou mais
camadas intermedirias. A sada de cada camada utilizada como entrada para a prxima
camada. Da mesma forma que a arquitetura anterior, este tipo de rede caracteriza-se
apenas por alimentao adiante. As redes multilayer perceptron (MLP), MADALINE e de
funo de base radial so algumas das redes que utilizam esta arquitetura. A figura 7, a
seguir, ajuda a entender melhor este conceito.
Figura 7: Rede Feedforward com mltiplas camadas
p e l o
a u t o r
d e
F A U S E T T
Camada de Sada
( 1 9 9 4 ,
p .
1 3 )
36
3. Redes Recorrentes: neste tipo de rede, a camada de sada possui ao menos uma ligao
que realimenta a rede, como mostra a figura 8. As redes chamadas de BAM (Bidirecional
Associative Memory) e ART1 e ART2 (Adaptative Resonance Theory) so redes
recorrentes.
Figura 8: Rede Recorrente
Camada de Entrada
F o n t e : A d a p t a d o
Camada Intermediria
p e l o
a u t o r
d e
Camada de Sada
H A Y K I N
( 1 9 9 9 ,
p .
4 9 )
37
38
Se x < k
Se x
1
1 e(
x)
39
A rede pode convergir para uma soluo inferior: no h garantias de que a rede encontre
a melhor soluo possvel; ela pode convergir para um mximo local4.
4.3.1 Histrico
Bauer (1994, p. 11) assinala que no final dos anos 50 e comeo dos anos 60 muitos bilogos
comearam a experimentar simulaes computacionais de sistemas genticos. Particularmente
importante foi o trabalho de Fraser de 1960 que iniciou o desenvolvimento mais profundo dos
algoritmos genticos.
Entretanto, foi John Holland quem comeou a desenvolver as primeiras pesquisas no tema.
Holland foi gradualmente refinando suas idias e em 1975 publicou o seu livro Adaptation in
Natural and Artificial Systems, hoje considerado a Bblia de algoritmos genticos. Desde ento,
estes algoritmos vm sendo aplicados com sucesso nos mais diversos problemas de otimizao e
Nesta dissertao foi adotada uma amostra de validao para evitar este tipo de problema.
40
aprendizado de mquina. Nos anos 80, a aplicao do modelo de algoritmo gentico de Holland
por Axelrod (1987) ao dilema dos prisioneiros5 popularizou ainda mais o uso desta tcnica.
4.3.2 Conceitos
Segundo Picinini et al (2003, p. 464):
Algoritmos evolutivos so mtodos computacionais que permitem obter solues em problemas para
os quais no existem algoritmos exatos para solucion-los, ou, se existem, a obteno da soluo
requer elevado tempo de processamento. O algoritmo evolutivo mais conhecido o algoritmo gentico
proposto por Holland.
O algoritmo composto por uma populao, que representada por cromossomos, que nada mais
so do que diversas solues possveis para o problema proposto. As solues que so
selecionadas para dar forma a solues novas (a partir de um cruzamento) so selecionadas de
acordo com a aptido (fitness) dos cromossomos pais. Assim, quanto mais apropriado o
cromossomo, maior a possibilidade de ele se reproduzir. Esse processo repetido at que a regra
de parada seja satisfeita, ou seja, encontrar uma soluo muito prxima da desejada.
Incio: primeiramente gerada uma populao formada por um conjunto aleatrio de indivduos
(cromossomos) que podem ser vistos como possveis solues do problema, conforme a figura 9.
O Dilema dos Prisioneiros descreve a situao em que dois prisioneiros esto presos em salas separadas,
aps cometerem um crime em que foram cmplices. Como a polcia no tem provas suficientes para incrimin-los,
feita uma solicitao de confisso para cada um deles. Se ambos confessarem (ou colaborarem com a polcia), cada
um ser condenado a 5 anos de priso. Se nenhum confessar, o julgamento ser dificultado e eles provavelmente
sero condenados a 2 anos de priso. Por outro lado, se um dos prisioneiros confessar o crime, mas o outro no,
aquele que confessou ser condenado a apenas 1 ano de priso, enquanto o outro ser condenado a 10 anos. O dilema
est em confessar ou no.
41
Figura 9: Cromossomos gerados aleatoriamente
F o n t e :
A d a p t a d o
p e l o
a u t o r
d e
L I N G R A S
( 2 0 0 1 ,
p .
2 1 7 )
Funo de Aptido (Fitness): uma funo de aptido definida para avaliar a qualidade de cada
um dos cromossomos.
Seleo: de acordo com os resultados da funo de aptido, uma porcentagem dos mais adaptados
mantida, enquanto os outros so descartados (Darwinismo). A figura 10 ilustra esta fase.
F o n t e :
A d a p t a d o
p e l o
a u t o r
d e
L I N G R A S
( 2 0 0 1 ,
p .
2 1 7 )
executado, a prole uma cpia exata dos pais. A figura 11 corresponde a esta fase.
42
Figura 11: Cruzamento
Pais
Aps Cross-over
F o n t e :
L I N G R A S
( 2 0 0 1 ,
p .
2 1 7 )
L I N G R A S
( 2 0 0 1 ,
p .
2 1 7 )
Verificao do critrio de parada: criada uma nova gerao, verifica-se o critrio de parada prestabelecido e retorna-se para a fase da funo de aptido, caso este critrio no esteja satisfeito.
43
Podem trabalhar com um grande conjunto de dados e variveis (FENSTERSTOCK, 2005,
p. 48).
Algumas das desvantagens apontadas na literatura so:
Ainda so pouco utilizados para problemas de avaliao do risco de crdito
(FENSTERSTOCK, 2005, p. 48);
Necessitam de um grande esforo computacional (BERRY; LINOFF, 1997, p. 358);
Esto disponveis em poucos softwares (BERRY; LINOFF, 1997, p. 358).
Tat=
At
N
44
De forma similar, pode-se quantificar a taxa de acertos dos bons e maus clientes.
Tab=
Ab
Nb
Am
Nm
45
Ia= Tab*Tam
Ia...Indicador de acertos
Tab...Taxa de acertos de clientes bons
Tam...Taxa de acertos de clientes maus
isto , S n1 (X)=
k
, onde
n1
46
e seja S n2 (X) a funo acumulada para a segunda amostra,
isto , S n2 (X)=
k
, onde
n2
Nmero de clientes
Bons
Maus
320
2
1291
4
1768
17
2295
26
2571
36
2714
42
2787
81
2690
115
106
11
F o n t e : A d a p t a d o
p e l o
a u t o r
d e
Freqncia Acumulada
Bons
Maus
Diferena
2%
1%
1%
10%
2%
8%
20%
7%
14%
34%
15%
20%
50%
25%
24%
66%
38%
28%
83%
62%
21%
99%
97%
3%
100%
100%
0%
L E W I S
( 1 9 9 2 ,
p .
1 4 4 )
47
CAPTULO 5- APLICAO
Neste captulo sero abordados os mtodos de tratamento das variveis, a aplicao das trs
tcnicas estudadas e os resultados obtidos por intermdio de cada uma delas, comparando-se o
desempenho destas. Para a anlise descritiva, categorizao dos dados e aplicao de regresso
logstica foi utilizado o software SPSS for Windows v.11.0; para a seleo das amostras e
aplicao da rede neural foi utilizado o software Enterprise Miner v.4.1; para o algoritmo
gentico foi utilizado um programa desenvolvido pelo autor em Visual Basic.
Nesta seo so apresentados mtodos de transformao de variveis a serem utilizados nos trs
modelos. Quando determinada transformao for especfica para alguma tcnica, esta ser
explicitada.
Inicialmente, as variveis quantitativas foram categorizadas. Rosa (2000, p. 14-15) aponta os
ganhos obtidos com a categorizao:
Padronizao dos Resultados: com a categorizao das variveis, os modelos tornam-se
mais fceis de serem implementados e fica mais simples a interpretao dos pesos
relativos s categorias das variveis;
Estabilidade do Modelo: categorizando as variveis quantitativas, o modelo fica menos
suscetvel a outliers (valores discrepantes). Com isso, a estabilidade do modelo
melhorada;
Transformao das Variveis: em estudos estatsticos, a transformao de uma varivel
necessria por duas razes: quando uma varivel independente quantitativa no
apresenta relao linear com a varivel resposta, ou na tentativa de obter a distribuio
normal da varivel (requisito desejvel para a regresso logstica, mas prescindvel,
48
conforme j mencionado no captulo 4, seo 4.1). Na prtica, porm, algumas
transformaes podem ser de difcil compreenso. Por exemplo, torna-se complicado
interpretar a relao entre bom ou mau pagador com a raiz quadrada da idade do cliente
ou o logaritmo do salrio. A categorizao das variveis quantitativas, por outro lado,
uma transformao de fcil compreenso e permite o agrupamento de variveis de
mesmo comportamento frente varivel resposta. Neste trabalho, como nenhuma das
tcnicas requer fortemente a condio da normalidade, no ser utilizada nenhuma
transformao com este intuito, apenas a categorizao.
Para a categorizao das variveis contnuas, inicialmente foram identificados os decis destas
variveis. Partindo-se dos decis, o passo seguinte foi analis-los de acordo com a varivel
resposta (TIPO). Foi calculada a distribuio de bons e maus clientes por decil e em seguida
calculada a razo entre bons e maus, o chamado risco relativo (RR), conforme mostra a tabela 3,
a seguir.
Tabela 3: Exemplo de clculo do risco relativo
Nmero
Varivel de Bons
Decil1
b1
Decil2
b2
Decil3
b3
Decil4
b4
Decil5
b5
Decil6
b6
Decil7
b7
Decil8
b8
Decil9
b9
Decil10
b10
Total
Tb
Nmero
de Maus
r1
r2
r3
r4
r5
r6
r7
r8
r9
r10
Tr
% Bons
b1/Tb
b2/Tb
b3/Tb
b4/Tb
b5/Tb
b6/Tb
b7/Tb
b8/Tb
b9/Tb
b10/Tb
1
% Maus
R1/Tr
R2/Tr
R3/Tr
R4/Tr
R5/Tr
R6/Tr
R7/Tr
R8/Tr
R9/Tr
r10/Tr
1
RR= %Bons /
%Ruins
(b1/Tb)/(r1/Tr)
(b2/Tb)/(r2/Tr)
(b3/Tb)/(r3/Tr)
(b4/Tb)/(r4/Tr)
(b5/Tb)/(r5/Tr)
(b6/Tb)/(r6/Tr)
(b7/Tb)/(r7/Tr)
(b8/Tb)/(r8/Tr)
(b9/Tb)/(r9/Tr)
(b10/Tb)/(r10/Tr)
1
Grupos que apresentaram risco relativo (RR) semelhante foram reagrupados a fim de se diminuir
o nmero de categorias por varivel.
Tambm para as variveis qualitativas foi calculado o risco relativo para se diminuir o nmero de
categorias, quando possvel. Conforme Pereira (2004, p. 49), existem duas razes para se fazer
49
uma nova categorizao das variveis qualitativas. O primeiro evitar categorias com um
nmero muito pequeno de observaes, o que pode levar a estimativas pouco robustas dos
parmetros associados a elas. O segundo a eliminao de parmetros do modelo; se duas
categorias apresentam risco prximo, razovel agrup-las numa nica classe.
O RR, alm de auxiliar no agrupamento das categorias, ajuda a entender se a categoria em
questo est mais ligada a clientes bons ou ruins. Quando o resultado muito acima de 1,
significa que essa caracterstica est mais ligada ao perfil de bom cliente; da mesma forma, para o
resultado menor que 1 interpreta-se que a caracterstica est relacionada aos maus clientes. No
caso de a razo ser exatamente igual a 1, conclui-se que essa caracterstica no discrimina bons e
maus clientes. Esse mtodo de agrupamento de categorias explicado por Hand e Henley (1997,
p. 527).
Ao trabalhar-se com as variveis disponibilizadas, citadas no captulo 3, os seguintes cuidados
foram tomados:
As variveis sexo, primeira aquisio e tipo de crdito no foram recodificadas por j se
tratarem de variveis binrias;
A varivel profisso foi agrupada conforme a similaridade da natureza das ocupaes;
As variveis telefone comercial e telefone residencial foram recodificadas na forma
binria como posse ou no;
As variveis CEP comercial e CEP residencial foram agrupadas inicialmente de acordo
com os trs primeiros dgitos6; em seguida, foi calculado o risco relativo de cada faixa
(conforme tabela 3) e posteriormente houve o reagrupamento de acordo com risco relativo
50
semelhante, procedimento idntico ao adotado por Rosa (2000, p. 17), que explicado
por Hand e Henley (1997, p. 527);
A varivel salrio do cnjuge foi descartada da anlise por conter muitos dados faltantes
(missings);
Foram criadas duas novas variveis, percentual do valor do emprstimo sobre o salrio e
percentual do valor da parcela sobre o salrio. Ambas variveis quantitativas, escala razo
que foram categorizadas em faixas da mesma forma que as demais.
Aps se aplicar esse mtodo, obtiveram-se as categorias apresentadas na tabela 4. O clculo do
RR est apresentado no Apndice A.
51
Tabela 4: Variveis Categorizadas
Varivel
Sexo
Estado Civil
Salrio do Cliente
Quantidade de Parcelas
Primeira Aquisio
Tempo na Residncia Atual
Valor da Parcela
Tipo de Crdito
Idade
Cdigo de Profisso
Tipo de Cliente
Categoria
Masculino
Feminino
Casado
Solteiro
Outros
Sim
No
Sim
No
At 24 meses
De 25 a 72 meses
De 73 a 127 meses
Acima de 127 meses
At 650 reais
Acima de 650 a 950 reais
Acima de 950 a 1575 reais
Acima de 1575 a 2015 reais
Acima de 2015 a 3000 reais
Acima de 3000 reais
At 4
5 ou 6
7a9
10 a 12
Sim
No
At 12 meses
De 13 a 24 meses
De 25 a 120 meses
Acima de 120 meses
At 125 reais
Acima de 125 a 160 reais
Acima de 160 a 260 reais
Acima de 260 reais
At 300 reais
Acima de 300 a 400 reais
Acima de 400 a 500 reais
Acima de 500 a 800 reais
Acima de 800 a 1800 reais
Acima de 1800 reais
Carn
Cheque
At 25 anos
De 26 a 40 anos
De 41 a 58 anos
Acima de 58 anos
Faixa 1
Faixa 2
Faixa 3
Faixa 4
Faixa 5
Faixa 1
Faixa 2
Faixa 3
Faixa 4
Faixa 5
Cdigo 1
Cdigo 2
Cdigo 3
Cdigo 4
Cdigo 5
Cdigo 6
Cdigo 7
At 10%
Acima de 10 a 13,5%
Acima de 13,5 a 16,5%
Acima de 16,5 a 22,5%
Acima de 22,5%
At 28%
Acima de 28 a 47,5%
Acima de 47,5 a 65%
Acima de 65%
Bom=1 Mau=0
Nome da varivel
V_SEXO_M
V_SEXO_F
V_EST_C
V_EST_S
V_EST_O
V_FN_R_S
V_FN_R_N
V_FN_C_S
V_FN_C_N
V_TP_E1
V_TP_E2
V_TP_E3
V_TP_E4
V_SAL_F1
V_SAL_F2
V_SAL_F3
V_SAL_F4
V_SAL_F5
V_SAL_F6
V_Q_PC_1
V_Q_PC_2
V_Q_PC_3
V_Q_PC_4
V_PR_AQ_S
V_PR_AQ_N
V_TP_R1
V_TP_R2
V_TP_R3
V_TP_R4
V_VL_PR1
V_VL_PR2
V_VL_PR3
V_VL_PR4
V_VL_EM1
V_VL_EM2
V_VL_EM3
V_VL_EM4
V_VL_EM5
V_VL_EM6
V_CRE_CN
V_CRE_CH
V_IDADE1
V_IDADE2
V_IDADE3
V_IDADE4
V_CEP_F1
V_CEP_F2
V_CEP_F3
V_CEP_F4
V_CEP_F5
V_CEC_F1
V_CEC_F2
V_CEC_F3
V_CEC_F4
V_CEC_F5
V_COD_P1
V_COD_P2
V_COD_P3
V_COD_P4
V_COD_P7
V_COD_P8
V_COD_P9
V_FX__P1
V_FX__P2
V_FX__P3
V_FX__P4
V_FX__P5
V_FX__E1
V_FX__E2
V_FX__E3
V_FX__E4
TIPO
52
5.2 REGRESSO LOGSTICA
53
menor do que 1, convencionou-se usar a expresso 2LL (-2 multiplicado pelo logaritmo decimal
da probabilidade
de ajuste do modelo estimado aos dados. Quanto menor o valor de -2LL, maior a qualidade do
ajuste.
A tabela 5, com valores hipotticos, ilustra a relao entre L e 2LL.
Tabela 5: Estatstica 2LL
L
1
0,7
0,4
LL = log L
0
-0,155
-0,398
-2LL
0
0,310
0,796
Ambos os mtodos verificam a mudana em 2LL assumida pelos modelos reduzido (s com
uma constante includa) e aquele com a considerao das variveis j incorporadas. O mtodo
COND computacionalmente menos intensivo por no requerer que o modelo seja reestimado
sem cada uma das variveis.
Foram realizadas duas simulaes, uma para cada mtodo. As variveis foram selecionadas em
cada passo, segundo estatsticas de escores. Idnticos resultados foram encontrados apesar de o
modelo LR consumir tempo consideravelmente maior de processamento.
Das 53 variveis independentes disponveis, considerando-se k-1 dummies para cada varivel de
k nveis, foram includas 28 variveis no modelo, a saber: V_Q_PC_1, V_PR_AQ_N,
V_Q_PC_2, V_CRE_CN, V_TP_E1, V_IDADE2, V_VL_EM1, V_SEXO_M, V_IDADE1,
V_Q_PC_3, V_TP_E2, V_CEP_F1, V_IDADE3, V_COD_P3, V_COD_P7, V_FX__E1,
V_EST_S, V_TP_R2, V_VL_EM3, V_VL_EM2, V_TP_R3, V_FX__E3, V_CEC_F2,
V_CEC_F3, V_COD_P1, V_COD_P8, V_VL_PR1, V_CEC_F1.
A probabilidade de o cliente ser bom pagador dada, segundo o modelo logstico, por:
54
eZ
1 eZ
5.2.2 Resultados
A tabela 6 apresenta, por varivel, as estimativas dos coeficientes logsticos, os desvios-padro
das estimativas, as estatsticas de Wald, os graus de liberdade e os nveis descritivos dos testes de
significncia das variveis independentes.
55
V_SEXO_M
V_EST_S
V_TP_E1
V_TP_E2
V_Q_PC_1
V_Q_PC_2
V_Q_PC_3
V_TP_R2
V_TP_R3
V_VL_PR1
V_VL_EM1
V_VL_EM2
V_VL_EM3
V_CRE_CN
V_IDADE1
V_IDADE2
V_IDADE3
V_CEP_F1
V_CEC_F1
V_CEC_F2
V_CEC_F3
V_COD_P1
V_COD_P3
V_COD_P7
V_COD_P8
V_FX__E1
V_FX__E3
V_PR_AQ_N
Constante
Coeficiente Desviologstico
padro
estimado
-0,314
0,053
-0,1707
0,0556
-0,4848
0,0751
-0,2166
0,0608
1,6733
0,1006
0,9658
0,0743
0,3051
0,0679
-0,3363
0,1003
-0,1451
0,0545
-0,2035
0,0878
0,9633
0,1222
0,5915
0,1188
0,4683
0,0889
-1,34
0,0853
-0,7429
0,1371
-0,6435
0,0902
-0,2848
0,0808
-0,3549
0,1159
-0,29
0,1014
-0,2888
0,0642
-0,2662
0,074
0,3033
0,0945
0,5048
0,0889
0,4752
0,1048
0,1899
0,0692
0,2481
0,0824
0,164
0,0664
-0,6513
0,0526
0,5868
0,0903
Wald
Graus de
Nvel
Rliberdade descritivo Correlao
parcial
35,0381
1
0,0000
-0,0546
9,4374
1
0,0021
-0,0259
41,6169
1
0,0000
-0,0598
12,6825
1
0,0004
-0,031
276,6224
1
0,0000
0,1574
169,084
1
0,0000
0,1227
20,2011
1
0,0000
0,0405
11,2356
1
0,0008
-0,0289
7,0946
1
0,0077
-0,0214
5,3672
1
0,0205
-0,0174
62,1252
1
0,0000
0,0736
24,7781
1
0,0000
0,0453
27,7693
1
0,0000
0,0482
246,7614
1
0,0000
-0,1486
29,3706
1
0,0000
-0,0497
50,924
1
0,0000
-0,0664
12,4401
1
0,0004
-0,0307
9,3714
1
0,0022
-0,0258
8,1718
1
0,0043
-0,0236
20,231
1
0,0000
-0,0405
12,9248
1
0,0003
-0,0314
10,3013
1
0,0013
0,0274
32,2381
1
0,0000
0,0522
20,5579
1
0,0000
0,0409
7,534
1
0,0061
0,0223
9,0609
1
0,0026
0,0252
6,0906
1
0,0136
0,0192
153,5677
1
0,0000
-0,1169
42,2047
1
0,0000
Exp(B)
0,7305
0,8431
0,6158
0,8053
5,3296
2,627
1,3568
0,7144
0,865
0,8159
2,6203
1,8067
1,5972
0,2618
0,4757
0,5254
0,7522
0,7012
0,7483
0,7492
0,7663
1,3543
1,6566
1,6084
1,2091
1,2816
1,1782
0,5213
56
consideraes para as demais. A varivel quantidade de parcelas tem 4 nveis. Portanto, devem
ser consideradas 3 variveis dummies. Todas as 3 foram includas no modelo stepwise. A varivel
V_Q_PC_1 representa a primeira faixa da escala ordinal para quantidade de parcelas, com os
cdigos 1 para o nvel mais baixo e 0, caso contrrio. Analogamente, a varivel V_Q_PC_2
corresponde segunda faixa, com os cdigos 1 para o segundo nvel e 0, caso contrrio. A
categoria referncia o nvel mais alto, no caso a quarta faixa. O coeficiente logstico para
V_Q_PC_1 positivo, indicando que, comparada mais alta faixa de nmero de parcelas, a faixa
de valor baixo est associada ao aumento do log das desigualdades dos tipos de clientes. Em
outras palavras, clientes com emprstimo bancrio com menos parcelas (primeira faixa) tm
maior probabilidade de serem bons clientes comparativamente queles com emprstimo a ser
pago com nmero superior de parcelas (quarta faixa). O impacto na desigualdade dado por
Exp(B) = Exp(1,6733) = 5,3296. De fato, fixando-se um valor para todas as variveis includas
no modelo (zero, por exemplo) e variando-se apenas o nmero de parcelas, possvel comparar o
impacto da primeira faixa em relao quarta faixa. A desigualdade para o cliente com maior
nmero de parcelas seria, neste exemplo, igual a 1,79822 e resultaria em 9,58405 para aquele
com menor nmero. Logo, a desigualdade para o nvel mais baixo superior ao quntuplo da
usada como referncia (impacto de 5,3296, aproximadamente). As probabilidades, dadas pela
frmula do modelo logstico, so, para os nveis alto e baixo de parcelas, respectivamente, iguais
a 0,643 e 0,906.
Variveis com coeficiente logstico estimado negativo indicam que a categoria focalizada, em
relao referncia, est associada com diminuio na desigualdade e, por conseguinte,
diminuio na probabilidade de se ter um bom cliente. Por exemplo, para a varivel v_pr_aq, um
cliente na situao de ter o primeiro emprstimo concedido, em comparao a um cliente
experiente na obteno de emprstimos, tem menor probabilidade de se comportar como bom
solicitante de apoio financeiro.
57
estatstica o mesmo do coeficiente logstico e a sua magnitude indica a contribuio da varivel
no modelo preditivo. As variveis que mais afetam positivamente a probabilidade de se ter um
bom cliente so V_Q_PC_1, V_Q_PC_2 E V_VL_EM1. No extremo oposto, as variveis com
maior impacto negativo sobre esta probabilidade so V_CRE_CN, V_PR_AQ E V_IDADE2.
Qui-quadrado
(improvement)
Graus de
liberdade
Nvel descritivo
1825,669
28
0,0000
58
Este teste Qui-quadrado testa a hiptese estatstica de que os coeficientes para todos os termos no
modelo final, exceto a constante, so iguais a zero. Este teste comparvel ao teste F da tcnica
de regresso mltipla. O valor Qui-quadrado a diferena entre os dois valores de 2LL.
Espera-se que a incluso de variveis independentes contribua significantemente para a reduo
da estatstica 2LL.
No modelo de 28 variveis, constatou-se que a reduo na medida 2LL foi estatisticamente
significante.
O teste de Hosmer e Lemeshow considera a hiptese estatstica de que as classificaes em grupo
previstas so iguais s observadas. Portanto, trata-se de um teste do ajuste do modelo aos dados.
A tabela 8 apresenta os resultados deste teste para este trabalho.
Tabela 8: Teste de Hosmer e Lemeshow
Grupo = maus
Grupo = bons
clientes
clientes
Grupos Observado Esperado Observado Esperado
1
690
687,497
110
112,503
2
599
605,544
201
194,456
3
539
549,053
262
251,947
4
502
490,734
298
309,266
5
428
436,455
373
364,545
6
395
381,757
406
419,243
7
327
323,942
473
476,058
8
257
259,166
543
540,834
9
181
178,014
620
622,986
10
82
87,889
714
708,111
Total
800
800
801
800
801
801
800
800
801
796
59
Inicialmente os dados foram classificados em ordem crescente do valor obtido para a
probabilidade prevista pelo modelo, conforme frmula do modelo logstico. No ser exibida esta
ordenao devido grande magnitude da amostra (8000 casos). Foram, ento, formados 10
blocos, sendo que o tamanho de cada bloco deve ser menor ou igual a M, como segue:
M = 0,1. N + 0,5
Nesta frmula, N o nmero de observaes utilizadas, no caso 8000.
Assim, o valor mximo de M 800,5 ou 801. Esta condio foi atendida, conforme revela a
tabela 8. Alm disso, devem ser formados aglomerados de observaes com valores similares das
variveis preditoras e tais aglomerados no podem ser repartidos para alocao dos elementos em
diferentes grupos. Assim que um grupo completado, inicia-se a formao do prximo.
Considerando-se o evento bom cliente, cdigo 1 da varivel binria dependente, , ento,
construda a tabela com a probabilidade mdia de ocorrncia deste evento em cada um dos 10
blocos construdos. Esta probabilidade ser a mdia das probabilidades, segundo a frmula do
modelo logstico, de todas as observaes dentro de cada bloco. A freqncia esperada de
elementos em cada bloco ser o produto desta probabilidade mdia pelo nmero de observaes
pertencentes ao bloco. Esta freqncia esperada , ento, comparada com a freqncia observada
no bloco.
A estatstica Qui-quadrado , ento, calculada pela expresso:
Oi
Ei
Ei
A partir desta frmula foi obtido o resultado 3,4307, referente estatstica Qui-quadrado deste
teste, que conduziu no rejeio da hiptese nula, resultado favorvel para os objetivos deste
estudo.
60
A seo 5.5 apresentar os resultados de classificao obtidos pelo modelo de regresso logstica
e a comparao com os demais modelos.
Neste trabalho, como j foi mencionado anteriormente, ser utilizada uma rede com aprendizado
supervisionado, pois j se conhece previamente se o cliente em questo bom ou mau. Segundo
Potts (1998, p. 44), a estrutura de rede neural mais utilizado para este tipo de problema
multilayer perceptron (MLP), que se trata de uma rede com arquitetura feedforward com
mltiplas camadas. A literatura consultada (ARMINGER et al, 1997; ARRAES et al, 1999;
ZERBINI, 2000; CASTRO JR., 2003; OHTOSHI, 2003) comprova esta afirmao. Neste
trabalho tambm ser adotada uma rede MLP.
As redes MLP podem ser treinadas utilizando-se os seguintes algoritmos: Gradiente Descendente
Conjugado, Levenberg-Marquardt, Back propagation, Quick propagation ou Delta-bar-Delta. O
mais comum (CASTRO JR., 2003, p. 142) o algoritmo Back propagation, que ser detalhado
posteriormente. Para compreenso dos demais, sugere-se a leitura de Fausett (1994) e Haykin
(1999).
61
Neurnio de
Sada
Neurnios
Escondidos
F o n t e :
A R R A E S
e t
a l . ( 2 0 0 1 )
x1
w0
w1 j
x2
x3
Pesos
w2 j
w3 j
Yj
wn j
xn
F o n t e :
Caminho de Sada
Elemento de
Processamento
A R R A E S
e t
a l . ( 2 0 0 1 )
1
1 e(
g)
, onde
62
O treinamento da rede consiste em encontrar o conjunto de pesos Wi que minimiza uma funo
de erro. Neste trabalho, ser utilizado para o treinamento o algoritmo Back propagation. Neste
algoritmo a rede opera em uma seqncia de dois passos. Primeiro, um padro apresentado
camada de entrada da rede. A atividade resultante flui atravs da rede, camada por camada, at
que a resposta seja produzida pela camada de sada. No segundo passo, a sada obtida
comparada sada desejada para esse padro particular. Se esta no estiver correta, o erro
calculado. O erro propagado a partir da camada de sada at a camada de entrada, e os pesos das
conexes das unidades das camadas internas vo sendo modificados, conforme o erro
retropropagado. Esse processo repetido nas sucessivas iteraes at o critrio de parada ser
atingido.
luz do modelo de redes neurais adotado neste estudo foram processados os dados, cujas
anlises so apresentadas a seguir.
5.3.2 Resultados
O erro mdio do conjunto de dados de validao foi o critrio de parada adotado neste modelo.
Esse erro calculado por intermdio do mdulo da diferena entre o valor que a rede localizou e
o esperado; calcula-se a sua mdia para os 8000 casos (amostra de treinamento) ou 6000 casos
(amostra de validao). A figura 15 apresenta a curva de erro com diminuio progressiva at sua
estabilizao. O processamento detectou que a estabilidade do modelo ocorreu aps a
nonagsima quarta iterao, que o ponto marcado pela linha vertical. Na amostra de validao o
erro foi um pouco maior (0,62 x 0,58), o que comum visto que o modelo ajustado com base
na primeira amostra.
63
Figura 15: Curva de erro mdio
Erro Mdio
Validao
Treinamento
Nmero de iteraes
64
Figura 16: Curva de erro de classificao
Percentual de m classificao
Validao
Treinamento
Nmero de iteraes
Na tabela 9, esto algumas das estatsticas da rede adotada. Alm da classificao incorreta e o
erro mdio, so apresentados ainda o erro quadrtico e os graus de liberdade. O erro quadrtico
mdio calcula-se pela mdia dos quadrados das diferenas entre o observado e o obtido pela rede.
O nmero de graus de liberdade do modelo refere-se ao nmero de pesos estimados, conexo de
cada um dos atributos aos neurnios da camada intermediria e s ligaes da camada
intermediria com a sada.
Tabela 9: Estatsticas da Rede Neural adotada
Estatsticas Obtidas
Classificao Incorreta de Casos
Erro Mdio
Erro Quadrtico Mdio
Graus de Liberdade do Modelo
Graus de Liberdade do Erro
Graus de Liberdade Total
Treino Validao
0,306
0,576
0,197
220
7780
8000
0,323
0,619
0,211
65
Na literatura consultada, foram encontradas duas maneiras de lidar com este tipo de problema por
meio de algoritmos genticos. A primeira, adotada por Chen et al (2002) e Fidelis et al (2000),
soluciona o problema por meio de uma seqncia de regras tal qual uma rvore de deciso, ou
seja, uma srie de regras encadeadas que determinam se o cliente bom ou mau, dependendo do
caminho (ou galho da rvore) percorrido.
Na segunda forma, que ser adotada neste trabalho, o algoritmo gentico foi utilizado para
encontrar uma equao discriminante que permita pontuar os clientes e, posteriormente, separar
os bons e maus clientes de acordo com o escore obtido. A equao pontua os clientes e os de
maior pontuao so considerados bons, enquanto maus so aqueles de menor pontuao. Esse
caminho foi adotado por Kishore et al (2000) e Picinini et al (2003).
Sj
wi pij , onde
i 1
66
Para se definir se o cliente bom ou mau foi utilizada a seguinte regra7:
Se S j
Se S j
Assim sendo, o problema que o algoritmo deve solucionar encontrar o vetor W=[ w1 , w2 ,..., w72 ]
que resulte em um critrio de classificao com uma boa taxa de acertos na predio do
desempenho de pagamento do crdito.
Seguindo as fases de um algoritmo gentico, conforme apresentado na seo 4.3.3, tm-se:
Incio: foi gerada uma populao de 200 indivduos, com cada cromossomo contendo 72 genes.
O peso inicial wi de cada um dos genes foi gerado aleatoriamente no intervalo [-1,1] (Picinini et
al, 2003, p. 464).
Funo de Aptido (Fitness): cada cliente foi associado ao clculo de um escore e classificado
como bom ou mau. Comparando-se com a informao j conhecida a priori sobre a natureza do
cliente, pode-se calcular a preciso de cada cromossomo.
apresentado na seo 4.4.1 ser a funo de aptido, ou seja, quanto maior o indicador, melhor
ser o cromossomo.
Seleo: neste trabalho foi utilizado um elitismo de 10%, ou seja, para cada nova gerao, os
vinte melhores cromossomos so mantidos, enquanto os outros cento e oitenta so formados por
meio de cruzamento e mutao.
A escolha do ponto de corte arbitrria, e no tem grande impacto no resultado final. O ponto de corte o
que vai direcionar o clculo dos parmetros; se o ponto de corte for diferente, o algoritmo vai recalcular os
parmetros at atingir o resultado timo. Para facilitar o entendimento do processo e, ao mesmo tempo, torn-lo
similar s outras tcnicas conhecidas, como, por exemplo, a regresso logstica, foi adotado zero como ponto de
corte, da mesma forma que foi feito por Picinini et al (2003, p. 464).
67
Cruzamento (Cross-Over): para a escolha dos pais para o cruzamento, foi utilizado o mtodo
conhecido como roleta (roulette wheel) para seleo dentre os vinte cromossomos que foram
mantidos (CHEN; HUANG, 2003, p. 436-437). Neste mtodo, cada indivduo recebe uma
probabilidade de ser sorteado de acordo com seu valor de funo de aptido, conforme mostra a
tabela 10, a seguir.
Tabela 10: Exemplo de Seleo de Pais via Roleta
Cromossomo Fitness
%
Cromossomo1
14,6%
15
Cromossomo2
13
12,6%
Cromossomo3
24
23,3%
Cromossomo4
18
17,5%
Cromossomo5
17
16,5%
16
15,5%
Cromossomo6
103
100,0%
Total
% Acum.
14,6%
27,2%
50,5%
68,0%
84,5%
100,0%
1
14,6%
6
15,5%
2
12,6%
5
16,5%
3
23,3%
4
17,5%
Neste exemplo, o Cromossomo3 tem 23,3% de chance de ser selecionado como pai. Sua chance
maior, pois o cromossomo com maior valor de fitness (aptido). Inclusive ele pode ser
selecionado duas vezes, o que far com que seu filho seja uma reproduo exata de si mesmo.
Para o processo de troca de material gentico, foi utilizado um mtodo conhecido como
cruzamento uniforme (PAPPA, 2002, p. 22). Neste tipo de cruzamento, cada gene do
cromossomo filho escolhido aleatoriamente entre os genes de um dos pais, enquanto o segundo
filho recebe os genes complementares do segundo pai, conforme mostra a figura 17.
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
Filho 1
Filho 2
1
2
2
1
1
2
1
2
2
1
1
2
2
1
2
1
1
2
1
2
2
1
F o n t e :
P A P P A ( 2 0 0 2 ,
p .
2 3 )
68
valor escalar k neste gene. No experimento descrito, foi sorteado aleatoriamente um valor entre
0,05 e +0,05.
Verificao do critrio de parada: como critrio de parada, foi definido um nmero mximo de
geraes igual a 600. Aps as seiscentas iteraes, o cromossomo com maior aptido ser a
soluo.
Os resultados obtidos para esta configurao de algoritmo so apresentados a seguir.
5.4.2 Resultados
O algoritmo foi executado trs vezes conforme a configurao apontada na seo anterior. Aqui
sero apresentados os resultados do algoritmo que obteve o maior Indicador de acertos (Ia).
Aps a execuo do algoritmo, as variveis com peso muito pequeno foram descartadas. No
trabalho de Picinini et al (2003, p. 464) os autores consideraram que as variveis com peso
inferior a 0,15 ou superior a -0,15 seriam descartadas por possurem um peso no significativo
para o modelo. Neste trabalho, depois de feita uma anlise de sensibilidade, decidiu-se considerar
como significativas para o modelo as variveis com peso superior a 0,10 ou inferior a -0,10. Essa
regra no foi aplicada para a constante, que se mostrou importante para o modelo mesmo com o
valor abaixo do ponto de corte.
O peso das variveis apresentado na tabela 11. Nesta tabela foram separadas as variveis que
obtiveram peso negativo daquelas com peso positivo. O peso negativo indica que a varivel tem
uma relao maior com os clientes considerados maus (pois foi determinado na seo anterior
que clientes com escore total negativo seriam considerados maus). O peso positivo, de forma
inversa, indica relao com os clientes bons.
69
Tabela 11: Pesos finais das variveis
Pesos Negativos
Varivel
Peso (w)
V_FN_C_N
-0,98
V_CRE_CN
-0,98
V_IDADE2
-0,98
V_SAL_F1
-0,95
V_COD_P2
-0,91
V_Q_PC_4
-0,88
V_SAL_F4
-0,87
V_FX__P3
-0,8
V_CEP_F2
-0,79
V_VL_EM5
-0,76
V_Q_PC_3
-0,65
V_SAL_F3
-0,61
V_VL_EM4
-0,59
V_CEC_F2
-0,59
V_COD_P4
-0,56
V_TP_E1
-0,55
V_FN_R_S
-0,54
V_IDADE1
-0,54
V_CEC_F3
-0,5
V_TP_E2
-0,45
V_FX__P2
-0,45
V_CEP_F4
-0,44
V_FX__E1
-0,42
V_FX__E4
-0,39
V_VL_EM6
-0,28
V_CEP_F3
-0,28
V_PR_AQ_S
-0,28
V_CEP_F1
-0,23
V_CEC_F1
-0,22
V_CEC_F5
-0,21
V_TP_R2
-0,14
V_SAL_F2
-0,12
V_COD_P8
-0,12
Constante
-0,08
Pesos Positivos
Varivel
Peso (w)
V_Q_PC_1
1,42
V_SEXO_F
0,97
V_COD_P7
0,95
V_FX__E3
0,95
V_EST_C
0,93
V_IDADE4
0,89
V_Q_PC_2
0,88
V_FX__P5
0,88
V_VL_EM1
0,83
V_CRE_CH
0,81
V_TP_R4
0,75
V_VL_EM2
0,59
V_EST_O
0,58
V_CEP_F5
0,57
V_TP_E4
0,56
V_FX__P1
0,55
V_SAL_F6
0,47
V_COD_P3
0,45
V_VL_PR4
0,41
V_TP_E3
0,39
V_TP_R3
0,39
V_VL_PR2
0,34
V_COD_P9
0,33
V_SEXO_M
0,29
V_VL_EM3
0,25
V_PR_AQ_N
0,24
V_TP_R1
0,19
V_EST_S
0,14
V_CEC_F4
0,13
V_COD_P1
0,13
70
Comparando-se estes resultados com os obtidos pela regresso logstica, nota-se uma
concordncia nas variveis com peso mais alto. Em ambos os modelos, a varivel com maior
peso negativo foi a varivel V_CRE_CN e com maior peso positivo foi V_Q_PC1 (esta foi, em
ambos os modelos, a varivel com maior peso absoluto). Outras variveis como V_TP_E1,
V_IDADE2, V_Q_PC_2, V_VL_EM1, V_VL_EM2 tambm esto entre as variveis com maior
peso nos dois modelos, evidenciando que o resultado do algoritmo foi coerente.
71
Tabela 12: Resultados de classificao
Observado
Treinamento
Predito
% Acerto
Mau
Bom
REGRESSO LOGSTICA
Validao
Predito
% Acerto
Mau
Bom
Observado
% Acerto
Mau
2833
1167
70,8
Mau
2111
889
70,4
Mau
2159
841
72,0
Bom
1294
2706
67,7
Bom
1078
1922
64,1
Bom
1059
1941
64,7
Total
4127
3873
69,2
Total
3189
2811
67,2
Total
3218
2782
68,3
REDE NEURAL
Validao
Predito
Mau
Bom
% Acerto
Treinamento
Predito
Mau
Bom
% Acerto
Teste
Predito
Mau
Bom
% Acerto
Mau
2979
1021
74,5
Mau
2236
764
74,5
Mau
2255
745
75,2
Bom
1430
2570
64,3
Bom
1177
1823
60,8
Bom
1193
1807
60,2
Total
4409
3591
69,4
Total
3413
2587
67,7
Total
3448
2552
67,7
Treinamento
Predito
Mau
Bom
Observado
Teste
Predito
Mau
Bom
% Acerto
ALGORITMO GENTICO
Validao
Predito
% Acerto
Mau
Bom
Teste
Predito
Mau
Bom
% Acerto
Mau
2692
1308
67,3
Mau
1946
1054
64,9
Mau
2063
937
68,8
Bom
1284
2716
67,9
Bom
1043
1957
65,2
Bom
1073
1927
64,2
Total
3976
4024
67,6
Total
2989
3011
65,1
Total
3136
2864
66,5
Todos eles
72
A tabela 13, a seguir, apresenta os resultados dos critrios Ia e KS que foram os escolhidos para
comparar os modelos. Ressalte-se que os ndices Ia so derivados dos resultados da tabela 12,
conforme explanado no captulo 4, seo 4.4.1.
Amostra
Validao
Teste
Regresso Logstica
47,9
45,1
46,6
Rede Neural
47,9
45,3
45,3
Algoritmo Gentico
45,7
42,3
44,2
Treinamento
Amostra
Validao
Teste
Regresso Logstica
38
35
37
Rede Neural
39
35
35
Algoritmo Gentico
34
30
32
KS
financeiro como um dos indicadores de eficincia de modelos de credit scoring, sendo que o
mercado considera um bom modelo quele que apresente um valor de KS igual ou superior a 30 .
Aqui novamente os modelos de regresso logstica e redes neurais apresentam um resultado
muito prximo, superior ao obtido pelo algoritmo gentico.
Na escolha do modelo mais adequado para estes dados, analisando sob o prisma dos indicadores
Ia e KS, foi eleito o modelo construdo por regresso logstica, pois, apesar de ter resultados
73
muito similares aos obtidos por redes neurais, este modelo apresentou melhores resultados na
amostra de teste, sugerindo ser o mais adequado para a aplicao em outras bases de dados.
Contudo, deve ser ressaltado, mais uma vez, que a adoo de qualquer um dos modelos traria
bons resultados instituio financeira.
74
CAPTULO 6- CONCLUSES E RECOMENDAES
O objetivo deste estudo foi desenvolver modelos de predio de credit scoring com base em
dados de uma grande instituio financeira com o uso de Regresso Logstica, Redes Neurais
Artificiais e Algoritmos Genticos.
No desenvolvimento de modelos de avaliao de crdito alguns cuidados devem ser tomados a
fim de se garantir a qualidade do modelo, e a aplicabilidade posterior. Precaues na
amostragem, definio clara nos critrios na classificao de clientes bons e maus e tratamento
das variveis da base de dados antes da aplicao das tcnicas foram cuidados tomados neste
estudo, visando otimizar resultados e minimizar erros.
Os trs modelos apresentaram resultados satisfatrios para a base de dados em questo, que foi
fornecida por um grande banco de varejo que atua no Brasil. O modelo de regresso logstica
apresentou resultados levemente superiores ao modelo construdo por redes neurais e ambos
mostraram-se superiores ao modelo baseado em algoritmos genticos. O modelo proposto por
este estudo para que a instituio pontue seus clientes :
eZ
1 eZ
, onde
75
Tabela 14: Preciso da classificao dos modelos construdos para anlise de crdito
Henley(1995)
Boyle (1992)
Srinivisan(1987)
Yobas (1997)
Desai(1997)
Regresso
Linear
56,6
77,5
87,5
68,4
66,5
F o n t e : T H O M A S
( 2 0 0 0 ,
p .
Redes
Neurais
-
Algoritmos
Genticos
-
62
64
64,5
-
1 5 9 )
A tabela 15, construda a partir da literatura pesquisada, similar tabela anterior e refora a
grande variedade de resultados. Note-se que, ao se analisarem as duas tabelas, os modelos
apresentam uma preciso de classificao que varia de 56,2 a 93,2. Observa-se ainda que,
excetuando-se a programao linear, todos os outros mtodos apresentados, em ao menos um
estudo, apresentaram a maior preciso.
Tabela 15: Preciso da classificao dos modelos construdos (literatura pesquisada) 8
Regresso
Linear
Fritz e Hosemann (2000)
Arraes et al (1999)
Chen et al (2002)
Nanda e Pendharkar (2001)
Ohtoshi (2003)
Picinini et al (2003)
Arminger et al (1997)
Huang et al (2004)
Semolini (2002)
Rosa (2000)
Regresso
Logstica
rvores de Programao
Classificao
Linear
79,5
84,8
83,5
63,5
67,6
77
68,3
70,4
73,9
66,4
66,6
Redes
Neurais
81,6
85,4
91,9
85
64,4
65,2
80
67,4
Algoritmos
Genticos
82,4
Anlise
Discriminante
82,7
92,9
65
62,5
REAL
83,1
67,5
71,4
A metodologia REAL (Real Attribute Learning Algorithm), apresentada na tabela 15 um modelo similar a
uma rvore de classificao proposto por Stern et al (1998); mais detalhes podem ser encontrados em Rosa (2000) e
Ohtoshi (2003).
76
No foi objeto deste estudo uma abordagem mais profunda das tcnicas focalizadas. As redes
neurais e os algoritmos genticos apresentam uma grande gama de estruturas e variaes que
podem (e devem) ser melhor exploradas. Os algoritmos genticos, por serem um mtodo bastante
flexvel e ainda no tanto pesquisado em problemas de concesso de crdito, podem ser aplicados
de formas diversas a fim de otimizar o resultado obtido.
Tcnicas novas neste tipo de problema, como anlise de sobrevivncia, tambm merecem ateno
em estudos futuros.
77
BIBLIOGRAFIA
ABE, S. (1997) Neural Networks and Fuzzy Systems, Boston: Kluwer Academic Publishers.
ALMEIDA, F. C.; DUMONTIER, P. (1996) O Uso de Redes Neurais em Avaliao de Risco de
Inadimplncia, Revista de Administrao, So Paulo, v. 31, n. 1, p. 52-63, So Paulo:
Universidade de So Paulo.
ANDREEVA, G. (2003) European generic scoring models using logistic regression and survival
analysis, Bath:Young OR Conference.
ANDREEVA, G.; ANSELL, J.; CROOK, J. N. (2003) Credit Scoring in the Context of the
European Integration, Edinburgh: Proceedings of Credit Scoring & Credit Control VIII
Conference, September 2003, UEMS.
ARMINGER, G., ENACHE, D., BONNE T. (1997) Analyzing Credit Risk Data: A Comparison
of Logistic Discrimination, Classification Trees and Feedforward Networks. Computational
Statistics, v. 12, n. 2, p. 293-310, Berlim: Springer-Verlag.
ARRAES, D., SEMOLINI R., PICININI, R. (1999) Arquiteturas de Redes Neurais Aplicadas a
Data Mining no Mercado Financeiro. Uma Aplicao para a Gerao de Credit Ratings, So
Jos dos Campos: IV Congresso Brasileiro de Redes Neurais.
AXELROD, R. (1987) The Evolution of Strategies in the Iterated Prisoner s Dilemma, In:
Genetic Algorithms and Simulated Annealing, Londres: Pitman, p. 32-41.
BACK, B., LAITINEN, T., AND SERE, K. (1996) Neural Networks and Genetic Algorithms for
Bankruptcy Predictions. Seul: Proceedings of the 3rd World Conference on Expert Systems, p.
123-130.
BARTH, N. (2004) Anlise Quantitativa de Informaes Para Previso de Inadimplncia, So
Paulo: I Congresso Anual de Tecnologia da Informao.
BAUER, R. J. (1994) Genetic Algorithms and Investment Strategies, New York: John Wiley &
Sons.
BERGAMINI, JR., S. (1997) Classificao de Riscos: O Modelo em Uso no BNDES, Revista do
BNDES, v. 4, n. 8, p. 71-100, Rio de Janeiro: Banco Nacional de Desenvolvimento Econmico e
Social.
BERRY, M.; LINOFF G. (1997) Data Mining Techniques, New York: Wiley.
78
BHATTACHARYYA, S. (2003) Evolutionary computation for database marketing Journal of
Database Management, v. 10, n. 4, p. 343-352, Londres: Henry Stewart Publications.
BUGERA, V., KONNO, H., AND URYASEV. S (2002) Credit cards scoring with quadratic
utility functions, Journal of Multi-Criteria Decision Analysis, v. 11, n. 4-5, p. 197-211, New
York: John Wiley & Sons.
CANO, J. R. (2004) Reduccin de Datos basada en Seleccin Evolutiva de Instancias para
Minera de Datos. Tese de Doutorado. Departamento de Cincia da Computao e Inteligncia
Artificial, Universidade de Granada, Espanha.
CANTON, A. W. P. (1988) Aplicao de modelos estatsticos na avaliao de produtos Tese
(Livre Docncia). Departamento de Administrao Universidade de So Paulo FEA/USP.
CAOUETTE, J.; ALTMANO, E.; NARAYANAN, P. (2000) Gesto do Risco de Crdito, Rio de
Janeiro: Qualitymark.
CARVALHO, A. P. L. F. [S.l., s.d.] Redes Neurais Artificiais,
http://www.icmc.usp.br/~andre/research/neural/ acesso em 04/12/04
disponvel
em
79
DRYE T.; WETHERILL G.; PINNOCK A. (2001) When are customers in the market? Applying
survival analysis to marketing challenges, Journal of Targeting, Measurement and Analysis for
Marketing, v. 10, n. 2, p. 179-188, Londres: Henry Stewart Publications.
DUARTE, JR., A. M.; BASTOS, N. T.; PINHEIRO, F. P.; JORDO, M. R. (1999)
Gerenciamento de Riscos Corporativos: Classificao, Definies e Exemplos, Resenha BM&F,
n. 134, So Paulo: Bolsa de Mercadorias & Futuros
DUARTE, JR., A. M. (1996). Riscos: Definies, Tipos, Medio e Recomendaes para seu
Gerenciamento. Resenha BM&F, n. 114, p. 25-33 So Paulo: Bolsa de Mercadorias & Futuros
EMPRESA BRASILEIRA DE CORREIOS E TELEGRAFOS [S. l., s.d.] Homepage da
Estrutura do CEP disponvel http://www.correios.com.br/servicos/cep/cep_estrutura.cfm acesso em 07/03/05.
FAUSETT, L. (1994) Fundamentals of Neural Networks, Englewood-Cliffs: Prentice-Hall.
FENSTERSTOCK, F. (2005) Credit Scoring and the Next Step. Business Credit, v. 107, n. 3, p.
46-49, New York: National Association of Credit Management.
FIDELIS, M.V.; LOPES, H.S.; FREITAS, A.A. (2000) Discovering comprehensible
classification rules with a genetic algorithm. La Jolla: Proceedings of Congress on Evolutionary
Computation p. 805-810.
FIGUEIREDO, R. P. (2001) Gesto de Riscos Operacionais em Instituies Financeiras Uma
Abordagem Qualitativa, Dissertao de Mestrado. Belm: Universidade da Amaznia UNAMA.
FRANOIS, O.; LAVERGNE C. (2001) Design of evolutionary algorithms-A statistical
perspective. IEEE Transactions on evolutionary Computation v. 5, n. 2, p. 129-148, Birmingham:
IEEE Computational Intelligence Society.
FRITZ, S.; HOSEMANN, D. (2000) Restructuring the Credit Process: Behaviour Scoring for
German Corporates International Journal of Intelligent Systems in Accounting, Finance and
Management, v. 9, n. 1, p. 9-21, Nottingham: John Wiley & Sons.
GITMAN, L. J. (1997) Princpios de Administrao Financeira, So Paulo: Harbra.
GOONATILAKE, S.; TRELEAVEN, P. C. (1995) Intelligent Systems for Finance and Business,
New York: Wiley
HAIR, J. F.; ANDERSON, R. E.; TATHAM, R. L.; BLACK, W. C. (1998) Anlise Multivariada
de Dados, Porto Alegre: Bookman.
HALE, R.H. (1983) Credit Analysis: A Complete Guide, New York: John Wiley & Sons.
80
HALL, L.O.; OZYURT, I.B.; BEZDEK, J.C. (1999) Clustering with a genetically optimized
approach IEEE Transactions on evolutionary Computation, v. 3, n. 2, p. 103-112, Birmingham:
IEEE Computational Intelligence Society.
HAND, D. J.; HENLEY, W. E. (1997) Statistical Classification Methods in Consumer Credit
Scoring: a Review. Journal of Royal Statistical Society: Series A, n. 160, p. 523-541 Londres:
Royal Statistical Society.
HARIK, G. R; LOBO, F. G; GOLDBERG, D. E. (1999) The compact genetic algorithm.
IEEE Transactions on Evolutionary Computation, v. 3, n. 4, p. 287-297, Birmingham: IEEE
Computational Intelligence Society.
HARRISON, T.; ANSELL, J. (2002) Customer retention in the insurance industry: Using
survival analysis to predict cross
selling opportunities. Journal of Financial Services
Marketing, v. 6, n. 3, p. 229-239, Londres: Henry Stewart Publications.
HAYKIN, S. (1999) Redes Neurais Princpios e Prtica, Porto Alegre: Bookman.
HRUSCHKA, E. R. (2001) Algoritmos Genticos de Agrupamento para Extrao de Regras de
Redes Neurais Tese de Doutorado. Departamento de Engenharia Civil Universidade de Federal
do Rio de Janeiro UFRJ.
HUANG, Z.; CHEN, H. HSU, C-J.; CHEN, W.; WU, S. (2004) Credit rating analysis with
support vector machines and neural networks: a market comparative study, Decision Support
Systems, v. 37 n. 4, p. 543-558, St. Louis :Elsevier Science
KIM, C. N. (2003) A Neural Network Approach to Compare Predictive Value of Accounting
Versus Market Data International Journal of Digital Management, v. 3, Seul: Hanyang
University, disponvel em http://ijdm.digital.re.kr/past.html acesso em 29/01/05.
KISHORE, J. K.; PATNAIK, L. M.; MANI, V.; AGRAWAL, V. K. (2000) Application of
genetic programming for multicategory pattern classification. IEEE Transactions on evolutionary
Computation, v. 4, n. 3, p. 242-257, Birmingham: IEEE Computational Intelligence Society.
KNIGHT, K. (1990) Connectionist ideas and Algorithms. Communications of the ACM v. 33, n.
11, p. 59-74, New York: Association for Computing Machinery, Inc.
LEWIS, E. M. (1992) An Introduction to Credit Scoring. San Rafael: Fair Isaac and Co., Inc.
LIMA, J. (2002) A Anlise Econmico-Financeira de Empresas sob a tica da Estatstica
Multivariada Dissertao de Mestrado, Curitiba: Universidade Federal do Paran.
LINGRAS, P. (2001) Unsupervised Rough Set Classification using GAs Journal of Intelligent
Information Systems. v. 16, n. 3; p. 215-228, Boston: Kluwer Academic Publishers.
81
MAGYAR, G.; JOHNSSON M.; NEVALAINEN, O. (2000) An Adaptive Hybrid Genetic
Algorithm for the Three-Matching Problem IEEE Transactions on evolutionary Computation, v.
4, n. 2, p. 135-146, Birmingham: IEEE Computational Intelligence Society.
MARKS, R.E.; AND SCHNABL, H. (1997) Genetic Algorithms and Neural Networks: a
comparison based on the Repeated Prisoner's Dilemma, Computational Techniques for Modelling
Learning in Economics, in the series Advances in Computational Economics, Dordrecht: Kluwer
Academic Publishers, forthcoming. Australian Graduate School of Management Working Paper
97-014.
MARTINELI, E. (1999) Extrao de conhecimento de redes neurais artificiais Dissertao de
Mestrado. Instituto de Cincias Matemticas e de Computao USP So Carlos.
MATIAS, A. B.; SIQUEIRA, J. O. (1996) Risco Bancrio: modelo de previso de insolvncia de
bancos no Brasil. Revista de Administrao, So Paulo v. 31, n. 2, p. 19-28, So Paulo:
Universidade de So Paulo.
NANDA, S.; PENDHARKAR, P. (2001) Linear models for minimizing misclassification costs in
bankruptcy prediction International Journal of Intelligent Systems in Accounting, Finance and
Management, v. 10, n. 3, p. 155-168, Nottingham: John Wiley & Sons.
NETER, J.; KUTNER, M.H.; NACHTSHEIN, C. J.; WASSERMAN, W. (1996) Applied Linear
Statistical Models. Chicago : Irwin
OHTOSHI, C. (2003) Uma Comparao de Regresso Logstica, rvores de Classificao e
Redes Neurais: Analisando Dados de Crdito. Dissertao de Mestrado. Departamento de
Estatstica Universidade de So Paulo IME/USP.
OOGHE, H.; CAMERLYNCK, J.; BALCAEN, S. (2001) The Ooghe-Joos-De Vos Failure
Prediction Models: A Cross-Industry Validation. Working paper, Department of Corporate
Finance, University of Ghent.
OOGHE, H.; CLAUS, H.; SIERENS, N.; CAMERLYNCK, J. (2001) International Comparison
of Failure Prediction Models from Different Countries: An Empirical Analysis. Working paper,
Department of Corporate Finance, University of Ghent.
PAL, S. K.; WANG, P. P. (1996) Genetic Algorithms for Pattern Recognition, Boca Raton: CRC
Press.
PAMPA QUISPE, N. R. (2003) Tcnicas e ferramentas para a extrao inteligente e automtica
de conhecimento em banco de dados Dissertao de Mestrado. Departamento de Engenharia
Eltrica. Universidade Estadual de Campinas FEEC/UNICAMP.
PAPPA, G. L. (2002) Seleo de Atributos Utilizando Algoritmos Genticos Multiobjetivos
Dissertao de Mestrado. Departamento de Informtica. Pontifcia Universidade do Paran.
82
83
SILVA FILHO, D.; CARNEIRO, A.A.F.M. (2004) Dimensionamento evolutivo de usinas
hidroeltricas. SBA Controle & Automao, v. 15, n. 4, p. 437-448, So Jos dos Campos:
Sociedade Brasileira de Automtica.
TATIBANA, C. Y.; KAETSU D. Y. [S. l., s.d.] Homepage de Redes Neurais disponvel em
http://www.din.uem.br/ia/neurais/ acesso em 04/12/04.
THOMAS, L. (2000) A Survey of Credit and Behavioural Scoring: Forecasting Financial Risk of
Lending to Consumers, International Journal of Forecasting, v. 16, n. 2, p. 149-172, Londres:
Elsevier.
TREVISANI, A.T.; GONALVES, E. B.; D EMDIO, M.; HUMES L.L. (2004) Qualidade De
Dados - Desafio Crtico para o Sucesso do Business Intelligence, Itaja: XVIII Congresso Latino
Americano de Estratgia.
VASCONCELLOS, M. S. (2002) Proposta de Mtodo para Anlise de Concesses de Crdito a
Pessoas Fsicas Dissertao de Mestrado. Departamento de Economia Universidade de So
Paulo FEA/USP.
ZERBINI, M. B. A. A. (2000) Trs Ensaios sobre Crdito Tese de Doutorado. Departamento de
Economia Universidade de So Paulo FEA/USP.
84
APNDICE A
SEXO
Masculino
Feminino
Total
Bom
5528
4472
10000
Mau % Bom
5858
0,55
4142
0,45
10000
1
% Mau
0,59
0,41
1
RR
0,94
1,08
ESTADO CIVIL
Casado
Solteiro
Outros
Total
Bom
4817
3461
1722
10000
Mau % Bom
4189
0,48
4284
0,35
1527
0,17
10000
1
% Mau
0,42
0,43
0,15
1
RR
1,15
0,81
1,13
PRIMEIRA AQUISIO
Sim
No
Total
Bom
4471
5529
10000
Mau % Bom
6480
0,45
3520
0,55
10000
1
% Mau
0,65
0,35
1
RR
0,69
1,57
Bom
6980
3020
10000
Mau % Bom
7392
0,70
2608
0,30
10000
1
% Mau
0,74
0,26
1
RR
0,94
1,16
TIPO DE CRDITO
Carn
Cheque
Total
Bom
917
9083
10000
Mau % Bom
2067
0,09
7933
0,91
10000
1
% Mau
0,21
0,79
1
RR
0,44
1,14
% Mau
1,00
0,00
1
RR
1,00
0,49
85
TEMPO DE RESIDNCIA
At 12 meses
De 13 a 24 meses
De 25 a 120 meses
Acima de 120 meses
Total
Bom
659
666
3581
5094
10000
Mau % Bom
850
0,07
851
0,07
3717
0,36
4582
0,51
10000
1
% Mau
0,09
0,09
0,37
0,46
1
RR
0,78
0,78
0,96
1,11
VALOR DO EMPRSTIMO
At 300 reais
Acima de 300 a 400 reais
Acima de 400 a 500 reais
Acima de 500 a 800 reais
Acima de 800 a 1800 reais
Acima de 1800 reais
Total
Bom
2083
975
1521
1826
2650
945
10000
Mau % Bom
1225
0,21
964
0,10
1317
0,15
2354
0,18
3154
0,27
986
0,09
10000
1
% Mau
0,12
0,10
0,13
0,24
0,32
0,10
1
RR
1,70
1,01
1,15
0,78
0,84
0,96
IDADE
At 25 anos
De 26 a 40 anos
De 41 a 58 anos
Acima de 58 anos
Total
Bom
568
3381
4182
1869
10000
Mau % Bom
893
0,06
4215
0,34
3718
0,42
1174
0,19
10000
1
% Mau
0,09
0,42
0,37
0,12
1
RR
0,64
0,80
1,12
1,59
PARCELA
At 125 reais
Acima de 125 a 160 reais
Acima de 160 a 260 reais
Acima de 260 reais
Total
Bom
2803
2172
2765
2260
10000
Mau % Bom
3118
0,28
1909
0,22
3119
0,28
1854
0,23
10000
1
% Mau
0,31
0,19
0,31
0,19
1
RR
0,90
1,14
0,89
1,22
86
TEMPO NO EMPREGO ATUAL
At 24 meses
De 25 a 72 meses
De 73 a 127 meses
Acima de 128 meses
Total
Bom
1525
2926
2080
3469
10000
Mau % Bom
2580
0,15
3170
0,29
1778
0,21
2472
0,35
10000
1
% Mau
0,26
0,32
0,18
0,25
1
RR
0,59
0,92
1,17
1,40
% VALOR DA PARCELA/SALRIO
At 10%
Acima de 10 a 13,5%
Acima de 13,5 a 16,5%
Acima de 16,5 a 22,5%
Acima de 22,5%
Total
Bom
2296
2113
1918
2819
854
10000
Mau % Bom
1667
0,23
2035
0,21
2046
0,19
3629
0,28
623
0,09
10000
1
% Mau
0,17
0,20
0,20
0,36
0,06
1
RR
1,38
1,04
0,94
0,78
1,37
% VALOR DO EMPRSTIMO/SALRIO
At 28%
Acima de 28 a 47,5%
Acima de 47,5 a 65%
Acima de 65%
Total
Bom
1551
2378
1990
4081
10000
Mau % Bom
452
0,16
1645
0,24
2178
0,20
5725
0,41
10000
1
% Mau
0,05
0,16
0,22
0,57
1
RR
3,43
1,45
0,91
0,71
CDIGO DE PROFISSO
Cdigo 1
Cdigo 2
Cdigo 3
Cdigo 4
Cdigo 5
Cdigo 6
Cdigo 7
Total
Bom
976
439
1234
1101
842
2315
3093
10000
Mau % Bom
910
0,10
563
0,04
1037
0,12
1453
0,11
750
0,08
2712
0,23
2575
0,31
10000
1
% Mau
0,09
0,06
0,10
0,15
0,08
0,27
0,26
1
RR
1,07
0,78
1,19
0,76
1,12
0,85
1,20
87
CEP RESIDENCIAL
Faixa 1
Faixa 2
Faixa 3
Faixa 4
Faixa 5
Total
Bom
447
1021
4719
1724
2089
10000
Mau % Bom
718
0,04
1267
0,10
4943
0,47
1542
0,17
1530
0,21
10000
1
% Mau
0,07
0,13
0,49
0,15
0,15
1
RR
0,62
0,81
0,95
1,12
1,37
QUANTIDADE DE PARCELAS
At 4
5 ou 6
7a9
10 a 12
Total
Bom
2726
2794
2280
2200
10000
Mau % Bom
707
0,27
1997
0,28
3841
0,23
3455
0,22
10000
1
% Mau
0,07
0,20
0,38
0,35
1
RR
3,86
1,40
0,59
0,64
CEP COMERCIAL
Faixa 1
Faixa 2
Faixa 3
Faixa 4
Faixa 5
Total
Bom
691
3279
2135
2334
1561
10000
Mau % Bom
1070
0,07
3766
0,33
2041
0,21
1979
0,23
1144
0,16
10000
1
% Mau
0,11
0,38
0,20
0,20
0,11
1
RR
0,65
0,87
1,05
1,18
1,36
SALRIO DO CLIENTE9
At 650 reais
Acima de 650 a 950 reais
Acima de 950 a 1575 reais
Acima de 1575 a 2015 reais
Acima de 2015 a 3000 reais
Acima de 3000 reais
Total
Bom
1740
1939
3033
1032
1093
1162
9999
Mau
2185
2145
2974
955
922
818
9999
% Mau
0,22
0,21
0,30
0,10
0,09
0,08
1
RR
0,80
0,90
1,02
1,08
1,19
1,42
% Bom
0,17
0,19
0,30
0,10
0,11
0,12
1
88
APNDICE B
CLCULO DO KS
89
REGRESSO LOGSTICA - VALIDAO
Nmero de clientes Freqncia Acumulada
Faixa de pontos
Bons
Maus
Bons
Maus Diferena
7
2
0,95 |-- 1,00
0%
0%
0%
77
12
0,90 |-- 0,95
3%
0%
2%
156
32
0,85 |-- 0,90
8%
2%
6%
227
57
0,80 |-- 0,85
16%
3%
12%
271
94
0,75 |-- 0,80
25%
7%
18%
287
115
0,70 |-- 0,75
34%
10%
24%
284
169
0,65 |-- 0,70
44%
16%
28%
293
183
0,60 |-- 0,65
53%
22%
31%
271
202
0,55 |-- 0,60
62%
29%
34%
238
212
0,50 |-- 0,55
70%
36%
34%
35%
203
193
0,45 |-- 0,50
77%
42%
166
217
0,40 |-- 0,45
83%
50%
33%
161
255
0,35 |-- 0,40
88%
58%
30%
115
216
0,30 |-- 0,35
92%
65%
27%
89
217
0,25 |-- 0,30
95%
73%
22%
59
243
0,20 |-- 0,25
97%
81%
16%
58
226
0,15 |-- 0,20
99%
88%
11%
27
202
0,10 |-- 0,15
100%
95%
5%
11
147
0,05 |-- 0,10
100%
100%
0%
6
0,00 |-- 0,05
100%
100%
0%
90
REGRESSO LOGSTICA - TESTE
Nmero de clientes Freqncia Acumulada
Faixa de pontos
Bons
Maus
Bons
Maus Diferena
7
2
0,95 |-- 1,00
0%
0%
0%
91
8
0,90 |-- 0,95
3%
0%
3%
183
34
0,85 |-- 0,90
9%
1%
8%
200
66
0,80 |-- 0,85
16%
4%
12%
278
113
0,75 |-- 0,80
25%
7%
18%
314
109
0,70 |-- 0,75
36%
11%
25%
296
142
0,65 |-- 0,70
46%
16%
30%
266
160
0,60 |-- 0,65
55%
21%
33%
272
216
0,55 |-- 0,60
64%
28%
35%
252
209
0,50 |-- 0,55
72%
35%
37%
37%
239
238
0,45 |-- 0,50
80%
43%
142
233
0,40 |-- 0,45
85%
51%
34%
153
250
0,35 |-- 0,40
90%
59%
30%
92
236
0,30 |-- 0,35
93%
67%
26%
74
215
0,25 |-- 0,30
95%
74%
21%
75
220
0,20 |-- 0,25
98%
82%
16%
39
200
0,15 |-- 0,20
99%
88%
11%
22
210
0,10 |-- 0,15
100%
95%
4%
5
133
0,05 |-- 0,10
100%
100%
0%
6
0,00 |-- 0,05
100%
100%
0%
91
REDE NEURAL - TREINAMENTO
Nmero de clientes Freqncia Acumulada
Faixa de pontos
Bons
Maus
Bons
Maus Diferena
181
7
0,95 |-- 1,00
5%
0%
4%
94
7
0,90 |-- 0,95
7%
0%
7%
62
7
0,85 |-- 0,90
8%
1%
8%
66
17
0,80 |-- 0,85
10%
1%
9%
145
46
0,75 |-- 0,80
14%
2%
12%
746
269
0,70 |-- 0,75
32%
9%
24%
805
382
0,65 |-- 0,70
52%
18%
34%
448
284
0,60 |-- 0,65
64%
25%
38%
39%
233
213
0,55 |-- 0,60
70%
31%
199
198
0,50 |-- 0,55
74%
36%
39%
183
184
0,45 |-- 0,50
79%
40%
39%
148
213
0,40 |-- 0,45
83%
46%
37%
146
220
0,35 |-- 0,40
86%
51%
35%
141
245
0,30 |-- 0,35
90%
57%
33%
115
270
0,25 |-- 0,30
93%
64%
29%
164
514
0,20 |-- 0,25
97%
77%
20%
92
544
0,15 |-- 0,20
99%
91%
9%
24
115
0,10 |-- 0,15
100%
93%
6%
4
92
0,05 |-- 0,10
100%
96%
4%
4
173
0,00 |-- 0,05
100%
100%
0%
92
REDE NEURAL - VALIDAO
Nmero de clientes Freqncia Acumulada
Faixa de pontos
Bons
Maus
Bons
Maus Diferena
117
28
0,95 |-- 1,00
4%
1%
3%
46
19
0,90 |-- 0,95
5%
2%
4%
49
9
0,85 |-- 0,90
7%
2%
5%
73
11
0,80 |-- 0,85
10%
2%
7%
101
32
0,75 |-- 0,80
13%
3%
10%
521
195
0,70 |-- 0,75
30%
10%
20%
628
344
0,65 |-- 0,70
51%
21%
30%
325
233
0,60 |-- 0,65
62%
29%
33%
196
153
0,55 |-- 0,60
69%
34%
34%
35%
180
153
0,50 |-- 0,55
75%
39%
115
161
0,45 |-- 0,50
78%
45%
34%
100
135
0,40 |-- 0,45
82%
49%
33%
118
147
0,35 |-- 0,40
86%
54%
32%
87
184
0,30 |-- 0,35
89%
60%
28%
103
207
0,25 |-- 0,30
92%
67%
25%
129
406
0,20 |-- 0,25
96%
81%
16%
75
368
0,15 |-- 0,20
99%
93%
6%
12
67
0,10 |-- 0,15
99%
95%
4%
15
57
0,05 |-- 0,10
100%
97%
3%
10
91
0,00 |-- 0,05
100%
100%
0%
93
REDE NEURAL - TESTE
Nmero de clientes Freqncia Acumulada
Faixa de pontos
Bons
Maus
Bons
Maus Diferena
112
23
0,95 |-- 1,00
4%
1%
3%
57
18
0,90 |-- 0,95
6%
1%
4%
54
14
0,85 |-- 0,90
7%
2%
6%
69
15
0,80 |-- 0,85
10%
2%
7%
99
26
0,75 |-- 0,80
13%
3%
10%
575
202
0,70 |-- 0,75
32%
10%
22%
623
312
0,65 |-- 0,70
53%
20%
33%
292
237
0,60 |-- 0,65
63%
28%
34%
211
183
0,55 |-- 0,60
70%
34%
35%
163
163
0,50 |-- 0,55
75%
40%
35%
35%
144
153
0,45 |-- 0,50
80%
45%
118
154
0,40 |-- 0,45
84%
50%
34%
98
150
0,35 |-- 0,40
87%
55%
32%
88
166
0,30 |-- 0,35
90%
61%
30%
95
216
0,25 |-- 0,30
93%
68%
26%
134
406
0,20 |-- 0,25
98%
81%
16%
45
348
0,15 |-- 0,20
99%
93%
6%
8
81
0,10 |-- 0,15
100%
96%
4%
11
53
0,05 |-- 0,10
100%
97%
3%
4
80
0,00 |-- 0,05
100%
100%
0%
94
ALGORITMO GENTICO - TREINAMENTO
Nmero de clientes Freqncia Acumulada
Faixa de pontos
Bons
Maus
Bons
Maus Diferena
6
0
0,95 |-- 1,00
0%
0%
0%
21
1
0,90 |-- 0,95
1%
0%
1%
58
4
0,85 |-- 0,90
2%
0%
2%
122
25
0,80 |-- 0,85
5%
1%
4%
216
60
0,75 |-- 0,80
11%
2%
8%
400
108
0,70 |-- 0,75
21%
5%
16%
457
183
0,65 |-- 0,70
32%
10%
22%
535
268
0,60 |-- 0,65
45%
16%
29%
34%
560
352
0,55 |-- 0,60
59%
25%
458
464
0,50 |-- 0,55
71%
37%
34%
400
529
0,45 |-- 0,50
81%
50%
31%
295
497
0,40 |-- 0,45
88%
62%
26%
207
434
0,35 |-- 0,40
93%
73%
20%
141
384
0,30 |-- 0,35
97%
83%
14%
72
275
0,25 |-- 0,30
99%
90%
9%
32
198
0,20 |-- 0,25
100%
95%
5%
14
125
0,15 |-- 0,20
100%
98%
2%
3
57
0,10 |-- 0,15
100%
99%
1%
3
30
0,05 |-- 0,10
100%
100%
0%
0
6
0,00 |-- 0,05
100%
100%
0%
95
ALGORITMO GENTICO - VALIDAO
Nmero de clientes Freqncia Acumulada
Faixa de pontos
Bons
Maus
Bons
Maus Diferena
2
0
0,95 |-- 1,00
0%
0%
0%
4
0
0,90 |-- 0,95
0%
0%
0%
14
0
0,85 |-- 0,90
1%
0%
1%
39
9
0,80 |-- 0,85
2%
0%
2%
86
23
0,75 |-- 0,80
5%
1%
4%
158
52
0,70 |-- 0,75
10%
3%
7%
284
93
0,65 |-- 0,70
20%
6%
14%
367
183
0,60 |-- 0,65
32%
12%
20%
417
253
0,55 |-- 0,60
46%
20%
25%
385
279
0,50 |-- 0,55
59%
30%
29%
30%
381
353
0,45 |-- 0,50
71%
42%
322
394
0,40 |-- 0,45
82%
55%
27%
244
358
0,35 |-- 0,40
90%
67%
24%
128
364
0,30 |-- 0,35
94%
79%
16%
93
269
0,25 |-- 0,30
97%
88%
10%
49
189
0,20 |-- 0,25
99%
94%
5%
21
111
0,15 |-- 0,20
100%
98%
2%
6
50
0,10 |-- 0,15
100%
99%
1%
0
19
0,05 |-- 0,10
100%
100%
0%
0
1
0,00 |-- 0,05
100%
100%
0%
96
ALGORITMO GENTICO - TESTE
Nmero de clientes Freqncia Acumulada
Faixa de pontos
Bons
Maus
Bons
Maus Diferena
3
0
0,95 |-- 1,00
0%
0%
0%
15
3
0,90 |-- 0,95
1%
0%
1%
44
5
0,85 |-- 0,90
2%
0%
2%
80
16
0,80 |-- 0,85
5%
1%
4%
189
59
0,75 |-- 0,80
11%
3%
8%
284
100
0,70 |-- 0,75
21%
6%
14%
348
131
0,65 |-- 0,70
32%
10%
22%
374
205
0,60 |-- 0,65
45%
17%
27%
417
303
0,55 |-- 0,60
58%
27%
31%
32%
377
343
0,50 |-- 0,55
71%
39%
310
380
0,45 |-- 0,50
81%
52%
30%
239
383
0,40 |-- 0,45
89%
64%
25%
139
349
0,35 |-- 0,40
94%
76%
18%
102
262
0,30 |-- 0,35
97%
85%
13%
43
194
0,25 |-- 0,30
99%
91%
8%
23
139
0,20 |-- 0,25
100%
96%
4%
7
77
0,15 |-- 0,20
100%
98%
2%
6
30
0,10 |-- 0,15
100%
99%
1%
0
12
0,05 |-- 0,10
100%
100%
0%
0
9
0,00 |-- 0,05
100%
100%
0%