Sei sulla pagina 1di 20

UNIVERSIDADE FEDERAL DO AMAZONAS

FACULDADE DE TECNOLOGIA

PROGRAMA DE PS-GRADUAO EM ENGENHARIA ELTRICA

ENDREWS ZNYDER SOUZA DE SILVA

JONILSON ROQUE DOS SANTOS

ROBSON SILVA DE SOUZA

DIAGNSTICOS DE PACIENTES COM SUSPEITA DE CNCER


DE MAMA UTILIZANDO MAQUINA DE VETORES DE
SUPORTE (SVM)

MANAUS

2013
UNIVERSIDADE FEDERAL DO AMAZONAS

FACULDADE DE TECNOLOGIA

PROGRAMA DE PS-GRADUAO EM ENGENHARIA ELTRICA

ENDREWS SZNYDER SOUZA DE SILVA

JONILSON ROQUE DOS SANTOS

ROBSON SILVA DE SOUZA

DIAGNSTICOS DE PACIENTES COM SUSPEITA DE CNCER


DE MAMA UTILIZANDO MAQUINA DE VETORES DE
SUPORTE (SVM)

Trabalho apresentada ao Programa de Ps-Graduao


Strictu Sensu em Engenharia Eltrica da Universidade
Federal do Amazonas, como requisito parcial para
obteno de nota na disciplina Tcnicas
Reconhecimento de Padres ministrada pelo Professor
Dr. Ccero Fernandes Costa Filho.

MANAUS

2013
RESUMO

O diagnstico correto de cncer de mama um dos principais problemas na rea mdica. A


partir disto, diversos trabalhos foram realizados na rea de reconhecimento de padres para o
auxlio a estes profissionais. Neste trabalho ns apresentamos uma das tcnicas de
classificao de padres baseadas em Support Vector Machine (SVM). Para a classificao
dos padres sero treinadas duas mquinas de vetores de suporte, uma com kernel rbf e
outra com kernel polinomial, para o teste do algoritmo ser implementado o banco de dados
Wisconsin Breast Cancer Database (WBCD), neste caso com 10 caractersticas do ncleo das
clulas. A performance desse algoritmo testada usando a acurcia na classificao, anlise
da sensibilidade e especificidade e a matriz de confuso. A acurcia na classificao obtida de
95,4% para o kernel rbf e 91,5% para o kernel polinomial, mostrando-se prxima dos
trabalhos j realizadas por especialistas.

Palavras chave: Cncer de mama, Support Vector Machine, Wisconsin Breast Cancer
Database
LISTA DE TABELAS

Tabela 1-Kernel utilizados........................................................................................................12

Tabela 2- Matrix de confuso para kernel polinomial..............................................................15

Tabela 3- Matrix de confuso para kernel RBF........................................................................16

Tabela 4-Especificidade Sensibilidade e Acurcia para diferentes autores..............................17


SUMRIO

1 INTRODUO.................................................................................................................6

2 MATERIAIS......................................................................................................................8

2.1 BANCO DE DADOS...................................................................................................8

3 METODOLOGIA............................................................................................................11

3.1 COLETA DE DADOS................................................................................................11

3.2 ABORDAGEM PROPOSTA......................................................................................11

3.3 INCIO DO TREINAMENTO...................................................................................13

3.4 MEDIDAS DE AVALIAO DE DESEMPENHO..................................................13

4 RESULTADOS.................................................................................................................15

5 ANLISE DOS RESULTADOS.....................................................................................17

6 CONCLUSO E TRABALHO FUTUROS..................................................................18

REFERNCIAS BIBLIOGRFICAS........................................................................................19
6

1 INTRODUO

Simara V. da Rocha et al (2000) O cncer de mama tem se tornado cada dia mais
frequente entre a populao feminina acima dos 40 anos. Somente para o ano de 2011 foram
estimados, no Brasil, 49 mil novos casos. Uma das maneiras para detectar os tumores no
palpveis que causam cncer de mama realizar uma radiografia (mamografia) das mamas. A
mamografia atualmente a melhor tcnica de deteco precoce de leses no palpveis na
mama com altas chances de ser um cncer curvel. Sabe-se que as chances de cura do cncer
de mama so relativamente altas, se detectado nos estgios inicias.

Para determinar a natureza de alteraes na mama, realizada a puno aspirativa por


agulha fina (PAAF), que consiste na introduo de uma agulha fina, acoplada a uma seringa
em leses palpveis ou no na mama para a retirada de uma amostra de clulas, para exame.
O posicionamento da agulha indicado por ultrassom.

Aps a coleta, o material identificado e enviado para a anlise microscpica, que


realizada por um especialista o patologista -, mdico responsvel pela anlise citopatolgica
e pelo laudo que, na maioria das vezes, define o diagnstico final.

Akay (2009) props o diagnstico de cncer de mama baseado no Mtodo SVM


combinado com seleo de caractersticas. Para a classificao de cncer de mama, em seus
experimentos foi utilizado o banco de dados de Wisconsin contendo nove caractersticas e
somando 683 padres de entrada, 239 malignos e 444 benignos.

Alm do mtodo para a seleo de caractersticas, a escolha do kernel rbf e a


configurao apropriada dos parmetros ajudaram na acurcia da mquina de vetor escolhida
em seu projeto. Os parmetros otimizados foram C, que determina o tradeoff cost entre a
minimizao do erro e complexidade do modelo e , que pertence funo kernel definindo o
mapeamento no linear do espao de entrada para algum espao de caractersticas de alta
dimenso.
7

Ubeyli (2007) props uma viso integrada da implementao de sistemas de


diagnstico automatizados para deteco de cncer de mama. Mostrou a preciso de
classificao de diferentes classificadores, entre eles tem-se: multilayer perceptron neural
network (MLPNN), combined neural network (CNN), probabilistic neural network (PNN),
recurrent neural network (RNN) e support vector machine (SVM). A mquina de vetor de
suporte foi treinada com o banco de dados de Wisconsin contendo 9 caractersticas e somando
683 padres de entrada , 239 malignos e 444 benignos. Assim como no projeto citado
anteriormente o kernel e os parmetros configurados tambm foram o rbf, C e . A mesma
foi treinada com diferentes valores de C at a obteno do melhor resultado.

A partir do exposto, percebemos que existem trabalhos bem sucedidos na rea de


diagnstico automatizado de cncer de mama, e seguiremos a mesma linha dos autores
citados, porm este projeto conter algumas particularidades que sero expostas mais adiante.

A primeira etapa deste projeto consiste na explicao sobre os materiais utilizados, em


especfico o banco de dados que apresenta mais caractersticas do que os que mostramos da
literatura.

A segunda etapa apresenta a metodologia do projeto incluindo a escolha e organizao


do banco de dados, o kernel escolhido, bem como os parmetros a serem configurados,
funo de treinamento para mquinas de vetores de suporte, alm de uma explanao sobre os
mtodos de avaliao de desempenho.

Na etapa final sero apresentados os resultados atravs da matriz de confuso, que nos
mostrar a acurcia de classificao alm de outras anlises como a sensibilidade e a
especificidade, a anlise dos resultados, concluso e trabalhos futuros.
8

2 MATERIAIS

Nesta seo apresenta-se o material utilizado no desenvolvimento do trabalho. O


material listado abaixo.

2.1 BANCO DE DADOS

O banco de dados utilizado para treinamento e teste contm um conjunto de 569

amostras relativo a 10 caractersticas dos ncleos de clulas mamrias sendo calculado: o

valor mdio, erro padro, mdia de trs maiores valores. O mtodo de extrao de

caractersticas pode ser melhor entendido no artigo publicado pelos criadores Wolberg, Street

e Mangasarian,1993.

Do conjunto de dados, 212 so pacientes com tecido mamrio com cncer e 357

pacientes sem cncer. As seguintes caractersticas do ncleo celular, totalizando 10, constam

nesse banco de dados: raio, permetro, rea, compacidade, suavidade, concavidade, pontos

cncavos, simetria, dimenso fractal, textura. A seguir define-se cada uma dessas

caractersticas.

Raio

O raio de um ncleo individual medido a mdia do comprimento dos segmentos de

linhas radiais definida pelo centro de gravidade do contorno e os pontos indivduas do mesmo.

Permetro

a distancia total entre pontos constituintes do contorno nuclear.


9

rea

medida com a contagem do nmero de pixel no interior do contorno, adicionados

com metade dos pixels do permetro.

Compacidade

combinao da rea e permetro para medir a compacidade do ncleo atravs da

formula perimetro2 /area . Este nmero adimensional tem valor mnimo em um disco

circular e aumenta conforme a irregularidade da borda (Wolberg, 1994).

Suavidade

A suavidade de um contorno nuclear medida a parti da diferena entre o


comprimento de uma linha radial e o comprimento mdio das linhas radias vizinhas.

Concavidade

Traa-se cordas entre pontos no adjacentes do contorno do ncleo, e quantifica-se o

quanto o contorno do ncleo cai dentro de cada corda. Este caracterstica afetada pelo

comprimento destas cordas, com cordas menores captura-se melhor as pequenas concavidades

(Wolberg, 1994).

Pontos cncavos

Caraterstica semelhante concavidade, porm medi apenas o nmero de concavidade

do contorno.
10

Simetria

A fim de medir a simetria, encontra-se o eixo principal, em seguida, mede a diferena

de comprimento entre as linhas perpendicular ao eixo maior para o limite nuclear em ambas

as direes.

Dimenso fractal

Medida do permetro nuclear usando rguas de tamanhos crescentes.

Textura

A textura do ncleo celular medida pelo encontro de variao de intensidades da

escala de cinza nos componentes dos pixels.


11

3 METODOLOGIA

O classificador escolhido para realizao do diagnstico do cncer de mama foram as


Mquinas de Vetores de Suporte (SVM). Pois constituem uma das tcnicas de aprendizado de
mquinas de maior sucesso e aplicao pela comunidade Computacional. Tem apresentado
resultados equivalentes e, muitas vezes, superiores aos alcanados por outros algoritmos de
aprendizado, inclusive outros tipos de RNAs (Braga, Ludemir, & de Carvalho 2000).

Em relao aos recursos necessrios para o desenvolvimento deste trabalho, foram


utilizados um computador e um programa computacional, o programa MATLAB. As etapas
propostas para o desenvolvimento deste trabalho so descritas a seguir:

3.1 COLETA DE DADOS

Antes de iniciar o processo de classificao das clulas em benignas ou malignas


foram feitas a separao dos dados coletados em um conjunto de treinamento e um conjunto
de testes. No conjunto de treinamento e teste foram utilizadas quantidades iguais de casos
malignos e benignos (178 benignos e 106 malignos). E foram descartadas informaes
relativas a um paciente, j que o nmero total de pacientes mpar com descrito da seo 2.1.
Portanto, foram escolhidos 50% dos dados para treinamento e 50% para validao.

3.2 ABORDAGEM PROPOSTA

Para um algoritmo linear aprender funes no lineares, necessita-se selecionar um


conjunto de caractersticas no lineares e reescreve-las (mape-las) em outra representao.
Isto equivalente a aplicar um mapeamento no linear e fixo dos dados para um espao de
caractersticas, no qual um algoritmo linear pode ser usado. (CRISTIANINI, 2000).
12

Mas neste trabalho o mapeamento explcito no espao de caractersticas torna-se


invivel. Para resolver esse problema usamos uma funo kernel que implicitamente faz o
mapeamento no espao de caractersticas e depois usa um algoritmo linear para classificar tal
espao.

xi xj
Um Kernel K uma funo que recebe dois pontos e do espao de

xi xj
entradas e computa o produto escalar ( ). ( ) no espao de

caractersticas, como descrito em (HAYKIN, 1999).

xi , x j xi xj
K( ) = ( ). ( )

Ao aplicar Mquinas de Vetores de Suporte aos dados em questo o que procuramos


fazer foi encontrar a configurao de parmetros que melhor generalizasse os dados.
Basicamente esses parmetros so:

C: o peso que o erro exerce na funo objetivo e que tambm limita os


multiplicadores de Lagrange;
Kernel: como foi dito d forma superfcie que melhor separa os dados;
Parmetros do kernel: geralmente um kernel possui parmetros que
influenciam o poder de generalizao da superfcie.

Os Kernels utilizados neste trabalho so os polinomiais e os Gaussianos ou RBF


apresentados na tabela abaixo.

Tabela 1-Kernel utilizados

Tipo de Kernel
Funo K(
x i , x j ) correspondente Comentrios

Polinomial ( x iT . x j +1) p A potncia p deve ser


especificada pelo usurio

Gaussiano 2
1
x ix j A amplitude
Exp( 2 2 ||)
13

especificada pelo usurio


3.3 INCIO DO TREINAMENTO

Depois dos cuidados tomados no dimensionamento e formao da mquina de vetores


de suporte deu-se inicio ao processo de treinamento com a entrada de comandos no
MATLAB, definindo a seguinte estrutura:

SVMStruct = svmtrain(training, group,'showplot',true)

Dados o conjunto de exemplos de treinamento descrito na seo 3.1, cada um marcado


como pertencente a uma de duas categorias, o algoritmo de treinamento do SVM constri um
modelo que atribui novos exemplos a uma categoria ou outra. Os novos exemplos so ento
mapeados no mesmo espao e preditos como pertencentes a uma categoria baseados em qual
o lado do espao eles so colocados.

3.4 MEDIDAS DE AVALIAO DE DESEMPENHO

Com o objetivo de comparar o desempenho do mtodo utilizado neste trabalho com


outros encontrados na literatura, mostraremos algumas medidas para avaliar o mtodo
proposto.

S: Sensibilidade: percentual de classificao correta do paciente doente

VP
S
VP FN

E: Especificidade: percentual de classificao correta do paciente no doente

VN
E
FP VN
14

Ac: Acurcia: percentual total de acerto

VN VP
Ac
VP FP VN FN

onde: VP verdadeiro positivo, pacientes doentes classificados corretamente.

VN verdadeiro negativo, pacientes normais classificados corretamente.

FP falsos positivos, pacientes normais classificados como doentes.

FN falsos negativos, pacientes doentes classificados como no doentes.


15

4 RESULTADOS

O desempenho dos classificadores tanto para kernel RBF como POLINOMIAL


medido utilizando o melhor resultado para a acurcia na fase de teste, ou seja, para a taxa de
classificao correta dos casos malignos e benignos.

POLINOMIAL

Tabela 2 mostra a os resultados obtidos pelo classificador utilizando kernel polinomial


de ordem 2.
16

Tabela 2- Matrix de confuso para kernel polinomial

Confusion Matrix

98 6 94.2%
0
34.5% 2.1% 5.8%
Output Class

8 172 95.6%
1
2.8% 60.6% 4.4%

92.5% 96.6% 95.1%


7.5% 3.4% 4.9%

0 1
Target Class

Analisando a Tabela 2 temos que o classificador possui uma Sensibilidade de 96.6%,


uma Especificidade de 92.5% e uma Acurcia de 95.1%.

RBF

Analisando a Tabela 3 temos que o classificador possui uma Sensibilidade de 98.9%,


uma Especificidade de 89.64% e uma Acurcia de 95.4%.
17

Tabela 3- Matrix de confuso para kernel RBF

Confusion Matrix

95 2 97.9%
0
33.5% 0.7% 2.1%
Output Class

11 176 94.1%
1
3.9% 62.0% 5.9%

89.6% 98.9% 95.4%


10.4% 1.1% 4.6%

0 1
Target Class

5 ANLISE DOS RESULTADOS

Com base na anlise dos resultados podemos ver que o kernel RBF, com taxa de acerto
de 95.4%, mostrou-se levemente superior ao kernel POLINOMIAL, com taxa de acerto de
acerto 95.1%.
18

Uma forma de analisar os resultados obtidos seria comparar nosso estudo com outros
estudos da literatura, referente ao mesmo objetivo, embora os referidos autores tenham usado
outro banco de dados.

Tabela 4-Especificidade Sensibilidade e Acurcia para diferentes autores

Autor Mtodo Especificidade (%) Sensibilidade(% Acurcia(%)


)
Ubeli(2006) SVM 99.64 99.37 99.54
Akay(2009) F-score-SVM 96.64 99.55 98.58
Este estudo SVM 89.64 98.9 95.4

Portanto como mostrado na Tabela 4, a acurcia deste trabalho est prximo do estudo
Ubeli, 2006 ao estudo de Akay, 2009.
19

6 CONCLUSO E TRABALHO FUTUROS

Neste estudo, um classificador baseado em Maquina de Vetores de Suporte (SVM) foi


apresentado para diagnstico de cncer de mama. O estudo mostrou-se ter um bom
desempenho, obtendo como melhor resultado uma acurcia de 95.4%.

Portanto o sistema atendeu seu objetivo inicial, podendo ser utilizado no auxlio do
diagnstico de cncer de mama.

Para futuros trabalhos podemos propor melhoria da preciso da classificao por uso
de tcnicas de seleo de caractersticas e utilizar metodologias de diviso para treinamento-
teste como 70%-30% e 80%-20, uma vez que usamos 50%-50%.
20

REFERNCIAS BIBLIOGRFICAS

COSTA FILHO, C. F. F., Deteco de Contornos de Ventrculo Esquerdo em


Imagens de Medicina Nuclear Utilizando Redes Neurais. Tese de Doutorado, Faculdade de
Engenharia Eltrica, UNICAMP, Novembro 1996.

Dyminski, A. S. (2000). Anlise de Problemas Geotcnicos Atravs de Redes


Neurais.Tese PhD. Pontifcia Universidade Catlica do Rio de Janeiro. Rio de Janeiro, RJ.

HAGAN, M. T.; MENHAJ, M. (1994). Training feedforward networks with the


Marquardt algorithm. IEEE Transactions on Neural Networks, vol. 5, no. 6.

HAYKIN, S. Redes Neurais: princpios e prticas; trad. Paulo Martins Engel. -2.ed.
Porto Alegre: Bookman 2001.

MELO, Davyd Bandeira de. Um sistema de Reconhecimento de comandos de voz


Utilizando a Rede Neural , Universidade Federal do Cear,2011.

ROCHA, Simara Vieira da. Deteco e diagnstico de massas em mamografia.


Cad. Pesq., So Luis, v. 18, n. especial, dez. 2011.

SILVA, F.C., Analise Roc, So Jos dos Campos, Dezembro, 2006.

UBELY, Elif Derya, Implements Automated Diagnostic Systems for breast cancer
detection. Department of Electral and Electronics Engineering, Faculty of Engineering.
TOBB Ekonomi ve Teknoloji Universtesi, 06530, Ankara, Turkey, 2006.

Potrebbero piacerti anche