Sei sulla pagina 1di 5

Avaliao Estatstica sobre o Reconhecimento de Dgitos Manuscritos

Everton B. Lacerda, Jefferson O. A. de Arajo, Roberto H. W. Pinheiro, Silvio S. Bandeira


Centro de Informtica
Universidade Federal de Pernambuco
Recife, Brasil
ebl3@cin.ufpe.br, joaa@cin.ufpe.br, rhwp@cin.ufpe.br, ssb@cin.ufpe.br

Abstract The main goal of this work is to investigate the


recognition of handwritten digits. This task is of capital
importance in many applications and institutions as banks.
Seven classifier configurations are presented and compared
using samples from a known database. The performances of
those configurations are tested using statistical methods to
ensure comparison with mathematical grounding to determine
the best configuration.
Palavras-chave; reconhecimento; dgitos
mquinas de vetores de suporte; teste de hiptese

I.

manuscritos;

INTRODUO

O reconhecimento de caracteres uma atividade de


grande importncia na sociedade. Principalmente, quando se
considera a necessidade crescente de integrao entre
informaes em meio fsico e meio digital. O
reconhecimento de caracteres manuscritos se torna uma
tarefa bastante difcil devido variedade de estilos de escrita
entre pessoas diferentes, e at mesmo da mesma pessoa com
o passar do tempo.
Nesse contexto, o reconhecimento de dgitos manuscritos
se torna crucial em vrias aplicaes como: o processamento
automtico de cheques bancrios [1], onde necessrio obter
o valor correto do cheque, visto que caso contrrio, haver
prejuzos para o banco ou para o cliente; o endereamento
automtico de envelopes postais por meio da leitura do CEP
(Cdigo de Endereamento Postal) [2], data ou dados de
catlogo em documentos histricos, o que permitiria a
indexao automtica do acervo.
Devido aos altos custos envolvidos quando h erros de
reconhecimento, sempre existe a demanda por
classificadores mais precisos, ou de outra forma, com taxas
de acerto mais altas.
Nesse cenrio, foi proposto um classificador que obteve
muito bom desempenho no reconhecimento de dgitos
manuscritos em [3]. O mtodo citado se baseia em um
conjunto de SVMs (Mquinas de Vetores de Suporte) [4] que
analisam cada par de dgitos possvel (0 a 9), no importando
a ordem em que eles aparecem, constituindo assim 45 pares
e, por conseguinte, 45 SVMs.
Este trabalho faz uma investigao sobre a melhor
configurao de parmetros do classificador sob estudo, no
que tange a seus parmetros (funo de kernel e respectivo
parmetro interno). O texto se organiza da seguinte maneira:
a Seo II apresenta os conceitos estatsticos relacionados

comparao entre classificadores. A Seo III descreve os


experimentos, e a Seo IV mostra a anlise exploratria dos
dados. Na Seo V, ilustram-se os resultados obtidos. Por
fim, a Seo VI conclui o trabalho.
II.

COMPARAO ENTRE CLASSIFICADORES

No presente projeto, deseja-se comparar os desempenhos


dos algoritmos de modo a determinar se algum ou alguns
deles so superiores aos demais, com fundamentao
matemtica e no apenas com uma anlise informal ou
emprica. Os testes de hipteses estatsticos so, portanto,
adequados e fundamentais para essa comparao. Pode-se
determinar, baseando-se em um nmero adequado de
amostras, se os desempenhos so diferentes ou equivalentes,
como tambm, quais so os melhores.
III.

ESPECIFICAES DOS EXPERIMENTOS

A. Base de dados
As imagens de dgitos foram extradas da base NIST
SD19 [5], que uma base de formulrios numricos,
disponibilizada pelo NIST (National Institute of Standards
and Technology, dos Estados Unidos da Amrica). Cada
imagem contm variadas quantidades de dgitos, como se
pode ver na Figura 1.

Figura 1: Exemplos da base NIST SD19.

Os dgitos foram isolados por um algoritmo de


segmentao especfico para esse fim, baseado em
componentes conectados [6]. Isso foi feito para separar cada
dgito e armazenar em uma imagem individual. Depois disso,
cada nmero foi rotulado com sua sada desejada, para
possibilitar o uso de aprendizagem supervisionada.
Como os dgitos no tm o mesmo tamanho realizou-se
uma padronizao, fazendo com que cada um fosse uma
imagem 20x25 (Figura 2). Essas dimenses de imagem
foram definidas empiricamente. O prximo passo consiste
em encontrar as coordenadas que delimitam os dgitos
usando projees horizontais e verticais [7].
A base de dgitos isolados usada contm um total de
11.377 dgitos. Cada classe tem em mdia 1.150 dgitos, com
diferenas pequenas entre cada uma delas, o que indica que
os dados so balanceados por classe.

os testes de aderncia para verificao da normalidade dos


dados.
Figura 2: Imagens de dgitos redimensionadas para 20x25.

B. Metodologia dos experimentos


A experimentao se baseia no esquema de holdout
estratificado [8]. O procedimento holdout consiste em
reservar certa quantidade de dados para teste, e o restante
para treinamento. Normalmente, tambm sendo a
configurao utilizada neste trabalho, usa-se 1/3 dos dados
para teste e consequentemente 2/3 para a aprendizagem.
Emprega-se uma amostragem estratificada para manter as
propores entre as classes da base como um todo em cada
conjunto. Isso garante que se tenham exemplos de todas as
classes nos conjuntos de treino e teste, alm de facilitar a
aprendizagem e tambm refletir a distribuio dos dados na
construo da superfcie de deciso.
Costuma-se repetir o holdout um nmero razovel de
vezes, visto que uma nica execuo pode trazer estimativas
de desempenho no confiveis. A ideia que ao analisar o
desempenho geral do mtodo considerando todas as
repeties, ter-se- uma estimativa mais confivel do poder
de generalizao do modelo, ou seja, sua confiabilidade ao
analisar novos exemplos.
Assim, teremos trinta taxas de acerto para cada um dos
sete classificadores analisados. Esses dados correspondem s
entradas para os testes de hiptese.

A. Estatstica descritiva
Calculamos a mdia, desvio padro e mediana dos
algoritmos em estudo (Tabela I). No foi includa a moda nas
medidas pelo fato de os dados serem contnuos. Como pode
se observar na Tabela I, as mdias e medianas so bastante
prximas para cada classificador. Isso indica certa tendncia
normalidade visto que na distribuio normal, a mdia e a
mediana so iguais.
TABELA 1: ESTATSTICA DESCRITIVA DOS ALGORITMOS

Poli1
Poli2
Poli3
RBF8
RBF9
RBF10
RBF11

Mdia
0,9298793
0,9591030
0,9593137
0,9653980
0,9671793
0,9675053
0,9669787

Mediana
0,92923
0,95857
0,959
0,965495
0,96716
0,967405
0,967105

C. Implementaes
As implementaes deste trabalho foram realizadas em
dois softwares/linguagens: o R [9] e o MATLAB [10].
Especificamente, no R se fez toda a parte de anlise dos
dados, e a maior parte dos testes de hiptese (com exceo
do teste de Lilliefors, que foi feito no MATLAB).
D. Variveis estudadas
Basicamente, a varivel a ser estudada e analisada na
pesquisa a taxa de acerto mdia dos classificadores. Isso
ocorre porque se deseja verificar se os desempenhos deles
so equivalentes ou no, e de forma natural, determinar qual
classificador apresenta melhor desempenho. Assim, os testes
de hiptese visam dar suporte determinao da melhor
configurao de parmetros do classificador de dgitos
manuscritos utilizado.
No se fez uma anlise de tempo porque como estamos
estudando vrias configuraes do mesmo algoritmo, os
tempos de treinamento so praticamente os mesmos, no
importando o classificador em questo.
IV.

ANLISE EXPLORATRIA

Nesta seo descrevemos os dados da pesquisa, fazendo


um estudo descritivo atravs das medidas estatsticas
(apresentado na Tabela 1), grficos box-plot das amostras
(Figura 3) e dos histogramas (Figura 4). Alm disso, fazemos

Figura 3: Grficos box-plot das amostras.

A observao visual dos dados apresentados na Figura 3


j mostra uma tendncia normalidade, em especial os
resultados dos algoritmos RBF.
As amostras possuem poucos pontos aberrantes.
Podemos ver na Figura 4 que o algoritmo RBF8 apresentou a
maior quantidade: trs valores, sendo dois inferiores
(0,95753 e 0,95886) e um superior (0,97356). Os algoritmos
RBF9, RBF10 e RBF11 tm cada, apenas um valor
discrepante superior, que so: 0,97587, 0,97696 e 0,97591,
respectivamente.

Figura 4: Histogramas das amostras.

B. Testes de aderncia
A confirmao das amostras seguirem uma distribuio
normal foi obtida realizando os testes de aderncia. Dois
testes foram executados com as amostras padronizadas:
Kolmogorov-Smirnov [11] e Lilliefors [12] (Tabela 2). A
padronizao dos dados foi necessria porque os testes se
baseiam na diferena entre a distribuio normal padro e a
distribuio da amostra. Logo, se as amostras no so
padronizadas, o resultado do teste tende a rejeitar a hiptese
de normalidade, j que provavelmente no se tem amostras
com mdia zero, e varincia um, como a normal padro.
Em todas as tabelas, adotamos a conveno Poli para
os ncleos polinomiais, e o parmetro interno de cada funo
kernel descrito pelo nmero ao lado do nome da funo.

V.

RESULTADOS

A. Formulao das hipteses


Como o objetivo da pesquisa determinar se h
diferena de desempenho entre os algoritmos e, em caso
positivo, qual(is) (so) o(s) melhor(es), precisamos testar
os resultados dos algoritmos aos pares. Essa estratgia
justificada, inclusive, pelo fato de as mesmas 30 amostras
terem sido usadas para todos os algoritmos.

TABELA 2: P-VALUES DOS TESTES DE ADERNCIA

Poli1
Poli2
Poli3
RBF8
RBF9
RBF10
RBF11

P-values
Kolmogorov-Smirnov
0,7350677
0,9120706
0,9595365
0,8051991
0,8966829
0,6535829
0,7211455

Lilliefors
0,2612
0,5000*
0,5000*
0,3613
0,5000*
0,2236
0,2981

Considerando que todos os p-values foram superiores ao


nvel de significncia empregado (5%), a hiptese nula no
rejeitada e, portanto ambos os testes de aderncia indicam
que as amostras se aproximam de uma distribuio normal.

Figura 5: Fluxograma para deciso dos testes de hiptese.

Dessa forma, para cada par de algoritmos, testamos duas


hipteses, nesta ordem: mdias iguais ou diferentes , mdias
iguais ou mdia do primeiro ser maior que a do segundo.
Caso o segundo teste no rejeite a hiptese nula, conclui-se
que a mdia do primeiro algoritmo menor. Os testes foram
realizados utilizando o t-student pareado [11], com nvel de
significncia 5%.
A deciso da comparao dada pelo fluxograma da
Figura 5.
B. Testes de hipteses
O mtodo de Friedman com o ps-teste de Nemenyi foi
utilizado como teste alternativo para comparao entre
classificadores. A distribuio de teste escolhida foi a chiquadrado ao invs de Friedman, pois existem 30 amostras
de 7 classificadores como aponta [13], com = 0,05. Para o
ps-teste de Nemenyi , q0,05 = 2,949.
Com p-value = 2,369791e-31, rejeitamos a hiptese de
que os classificadores eram iguais. Com o valor crtico de
Nemenyi, CD = 1,644874, foi possvel encontrar as
diferenas
crticas entre pares de classificadores isolados,
apresentados na Tabela 3. A Tabela 4 mostra as diferenas
entre os rankings na comparao par a par feita no ps-teste
de Nemenyi. Estes valores so usados para decidir se h
diferena ou no entre os classificadores, comparando a
diferena entre o par com o valor crtico (se for maior ou
igual, h diferena significativa entre os classificadores).
TABELA 3: RESULTADOS DO TESTE DE FRIEDMAN

A comparao dos algoritmos aos pares est resumida na


Tabela 5. Os sinais de menor, maior e equivalente dizem
respeito comparao do algoritmo da linha com o da
coluna. Na Tabela 6 temos um ou dois p-values de acordo
com a quantidade de hipteses testadas para se chegar ao
resultado (vide Figura 5).
Os espaos em branco na diagonal principal da tabela
representam o que seria a comparao de um algoritmo com
ele mesmo. Os demais representam comparaes j
realizadas na parte superior diagonal principal.
Os resultados das comparaes nos levam concluso
que o algoritmo RBF10 obteve o melhor desempenho no
reconhecimento de dgitos manuscritos. Podemos ainda
montar um ranking baseado nos desempenhos dos
algoritmos, como segue:
1. RBF10
2. RBF9, RBF11
3. RBF8
4. Poli3, Poli2
5. Poli1
TABELA 5: RESULTADOS DO TESTE T.

Poli1

Poli2

Poli3

RBF8

RBF9

RBF10

RBF11

<

<

<

<

<

<

<

<

<

<

<

<

<

<

<

<

<

<

Poli2
Poli3

Poli2

Poli3

RBF8

RBF9

RBF10

RBF11

RBF8
Poli1

RBF9
Poli2

RBF10
Poli3
RBF8
RBF9

RBF10

TABELA 6: P-VALUES DO TESTE T.

Poli1
Poli2

TABELA 4: DIFERENAS ENTRE RANKINGS.

>

Poli2

Poli3

RBF8

RBF9

RBF10

RBF11

8,481e-28
1,0000000

4,851e-27
1,0000000

9,382e-29
1,0000000

1,277e-29
1,0000000

2,960e-30
1,0000000

9,105e-30
1,0000000

0,7636

7,367e-11
1,0000000

3,402e-14
1,0000000

5,526e-14
1,0000000

9,580e-13
1,0000000

2,641e-13
1,0000000

1.855e-15
1,0000000

3.343e-16
1,0000000

4.377e-16
1,0000000

4,542e-11
1,0000000

5,073e-09
1,0000000

5,850e-06
0.9999971

0,0372400
0,98138

0,3696756

Poli3

Poli2

Poli3

RBF8

RBF9

RBF10

RBF11

1.50000

1.56667

3.28333

4.91667

5.30000

4.43333

0.06667

1.78333

3.41667

3.80000

2.93333

1.71667

3.35000

3.73333

2.86667

1.63333

2.01667

1.15000

0.383333

0.483333

RBF8
Poli1

RBF9
Poli2

RBF10
Poli3
RBF8
RBF9
RBF10

0.866667

0,000975
0,000487

VI.

CONCLUSES

O reconhecimento de dgitos manuscritos uma tarefa


importante em diversas aplicaes. Dessa forma, o
desempenho de classificadores se torna cada vez mais
crtico. Neste trabalho se investigou o desempenho de um

classificador baseado em um conjunto de SVMs, variando a


funo kernel e seu parmetro interno.
Assim, fez-se a anlise exploratria dos dados relativos
ao desempenho dos classificadores, e construram-se as
hipteses para fazer a avaliao dos mesmos. A partir da
anlise exploratria, e das hipteses formuladas, aplicaramse os testes adequados para determinar qual classificador
obteve melhor desempenho.
Os resultados evidenciaram que a configurao com
kernel RBF e desvio igual a 10 foi superior s demais.
Portanto, pode-se dizer que essa configurao deve ser usada
ao se empregar esse classificador para o reconhecimento de
dgitos manuscritos.

[4]

REFERNCIAS

[11]

[1]
[2]

[3]

C. A. B. Mello et al., An efficient thresholding algorithm for


brazilian bank checks, ICDAR 2007, Brazil, vol. 1, pp. 193-197.
T. Akiyama et al., Handwritten address interpretation system
allowing for non-use of postal codes and omission of address
elements, IWFHR 2004, Japan, pp. 527-532.
Neves et al., A SVM based off-line digit recognizer, SMC 2011,
Anchorage, USA, pp. 510-515.

[5]

[6]
[7]
[8]
[9]
[10]

[12]

[13]

Cortes, C. and Vapnik, V. Support-Vector Networks. Machine


Learning, vol. 20, no. 3, pp. 273-297, 1995.
NIST Special Database 19. Handprinted Forms and Characters
Database. Link: http://www.nist.gov/srd/nistsd19.cfm. Acessado em
junho, 2013.
E. R. Davies, Machine Vision, Morgan Kaufmann, 3rd ed, 2005.
J. R. Parker, Algorithms for Image Processing and Computer Vision,
John Wiley and Sons, 1997.
R. O. Duda, P. E. Hart and, D. G. Stork, Pattern Classification,
John Wiley and Sons, 2nd ed, 2001.
R Project for Statistical Computing. Link: http://www.r-project.org/.
Acessado em junho, 2013.
MATLAB, Mathworks. The language of technical computing. Link:
http://www.mathworks.com/products/matlab/. Acessado em junho,
2013.
D. C. Montgomery and G. C. Runger, Estatstica Aplicada e
Probabilidade para Engenheiros, LTC, 5 ed, 2012.
H. W. Lilliefors, On the Kolmogorov-Smirnov test for normality
with mean and variance unknown., Journal of the American
Statistical Association. vol. 62, pp. 399402, 1967.
J. Demar. Statistical Comparisons of Classifiers over Multiple Data
Sets, J. Mach. Learn. Res., vol. 7, pp. 1-30, 2006.

Potrebbero piacerti anche