Artigo para Publicação SBC Revisado

ComparativoEntreAlgoritmosdeClassificaoem
ConjuntosdeDadosTextuaisUsandoWEKA
AdrianoFranciscoKultzak
CursodeTecnologiaemAnliseeDesenvolvimentodeSistemasUniversidade
TecnolgicaFederaldoParan(UTFPR)CampusPontaGrossa
84016210PontaGrossaPRBrasil
adriano_fk@hotmail.com
Abstract. TheimmenseamountoftextavailableontheInternetandstored
todaycanserveasasourceforknowledgeextractionindifferentinformation
areas, benefit that can be increased from the study and development of
knowledge extraction from texts that have as one of its specific areas the
classification of documents for various purposes. Ranking algorithms that
makeuseofmachinelearningarebeingusedtotextclassificationandthis
work search a comparison between some of these algorithms applied to
textualdatasetswithdifferentcharacteristics.
Resumo.Aimensaquantidadedeinformaotextualdisponvelnainternete
armazenada atualmente pode servir como fonte para a extrao de
conhecimentoemdiversasreas,aproveitamentoquepodesermaiorapartir
doestudoedesenvolvimentodaprpriaextraodeconhecimentoemtextos
quetemcomoumadesuasreasespecficasaclassificaodedocumentos
para diversas finalidades. Algoritmos de classificao que fazem uso da
aprendizagemdemquinaestosendoaplicadosnaclassificaodetextose
este trabalho busca um comparativo entre alguns destes algoritmos
implementadosaconjuntosdedadostextuaiscomdiferentescaractersticas.
1.Introduo
A grande quantidade de informao textual disponvel na internet alm de ter o
potencialparaserfontedeconhecimentoemdiversasreascientficasservetambm
comoobjetodeestudoparaaprpriareadadescobertadeconhecimentoemtextosque
tementreseusobjetivosaprimorarastcnicasdeprocessamentodalinguagemnatural
que inclui uso de stop words, seleo de atributos, escolha, desenvolvimento e
aprimoramentodealgoritmosespecficosparatrabalharcomtextos,etc.
Oestudodadescobertadeconhecimentoembancosdedados, segundoRizzi
(2000),podeserutilizadoparadisseminao,quecompreendeoenviodedocumentos
paradeterminadosusuriosdeacordocomasclasses,recuperaodeinformaesque
envolveastarefasdeobtenodedocumentosquepodemserdeinteressedousurioe
para navegao na estrutura de conhecimento atravs da organizao de forma
hierrquica.
Aelaboraodecontedoterico,porexemploaproduodealgoritmosnovos
podeserumatarefadifcilporoutroladoeaatualdisponibilidadetantodeferramentas
completas como o Weka quanto de bases de dados disponveis online tornam a
pesquisaprticanareadadescobertadeconhecimentocadavezmaisinteressanteea
visualizaoderesultadosmotivadora.
2.Classificaodetextos
Aclassificaodetextosatravsdaanlisehumanaocorreacadavezqueselecionamos
oquelemosatravsdocontedo,pormquandoainformaoestpresenteemuma
basededadoscomtamanhoecaractersticasquedificultemaanlisehumana,comoa
basededadosdeumaempresaonderecolhidagrandequantidadedeinformaes,uma
maneira automatizada para classificao de documentos seria fundamental, logo,
construirumaestruturadedadosquepossarepresentarosdocumentos,econstruirum
classificadorquepossaserusadoparapreverascategoriasdeumdocumentocomalta
preciso so os pontoschave para a classificao de textos, BAHARUDIN et al
(2010).
DeacordocomJoachims(1998)oobjetivodaclassificaodetextosseparar
documentosdentrodeumaquantidadeprdefinidadecategorias,podendopertencer
inclusiveamaisdeuma,aapenasumaounenhumacategoriaespecificada.Aoutilizara
aprendizagemdemquinapararealizaratarefadeclassificaodeformaautomticaa
partirdeexemplos,consideramseproblemasdeaprendizagemsupervisionada.
Exemplos prticos da classificao de textos podem ser observados na
identificaodeSpamsporservidoresdeemail,aindexaoautomticadecontedo
preferencialcomonotciaseclassificaodeliteraturaespecficacomoamdica,por
exemplo.
3.Weka
AinterfaceutilizadaparaatarefadeclassificaooWeka(WaikatoEnvironmentfor
KnowledgeAnalysis)umaferramentaparaanlisededadosdesenvolvidaemJavapela
universidadedeWaikatonaNovaZelndia,Bouckaert(2015).
O Weka da suporte a diversas tarefas de minerao de dados, mais
especificamente ao preprocessamento, clusterizao, classificao, regresso,
visualizaoeseleodeatributos,paraaaplicaodastcnicasosdadosdevemestar
disponveisemumnicoarquivooqualpodesercarregadoatravsdevriosformatos.
Oconjuntodedadossercompostoporumnmerofixodeatributosquepodemser
numricos, nominais como no caso deste trabalho, ou outros tipos de atributos
suportadospeloprograma,Arora(2012).
Para aumentar a compatibilidade das bases de dados o Weka oferece a
possibilidade desde trabalhar com um formato prprio que o .arff (Attribute
Relation File Format) at a captao de dados em formato .txt armazenados em
diretrios respectivos as classes que pertencem, Bouckaert (2015). Filtros para
preprocessamentoenovosalgoritmosforamadicionadosaoWekaduranteaevoluode
suas verses e podem tambm ser encontrados em um repositrio no menu de
ferramentas,almdessagrandequantidadederecursosasinterfacesdeusuriofacilitam
oestudoatravs dotratamento separadoentre etapas comoopreprocessamento ea
realizaodaclassificaodeformaindividualcomatelaExploreroucomparativacom
orecursoExperimenter.
4.Metodologia
Tabela1.Detalhesdosconjuntosdedados
Conjuntodedados
Instancias
Atributos
dbworld_bodies
64
4702
dbworld_subjects
64
242
SMSSpamCollection
5574
1833
segment_challenge
1500
20
Composio dos datasets

INTNCIAS
6000
ATRIBUTOS
5000
4000
3000
2000
1000
0
dbworld_bodies
dbworld_subjects
SmsSpam
segment_challenge
Figura1.Grficodevisualizaodarelaoentreinstnciaseatributosdos
conjuntosdedadosestudados.
Oprimeiroconjuntodedadosrepresentaumconjuntode64emailcoletadosde
umnoticirio divididoentre duasclasses announces ofconferenceseeverything
elserepresentadasporbinrio,assimcomoosegundoconjuntoquecompostoapenas
peloassuntodecadaemailporessemotivoseunmerodeatributosmenor,UCI
(2016).
SMSSpamCollection umacoleodemensagensdecelularclassificadasde
forma binaria entre spams e no spams, possui um nmero grande de instncias e
atributoscomparadocomosdemaisconjuntos,UCI(2016).
OconjuntodedadosSegmentChallengeoniconobinriodosapresentados
sendocompostopor7classes,comquantidadedeinstnciasgrandeebaixaquantidade
deatributos,WEISS(2016).
De acordo com Filannino (2011) o conjunto de dados DBWorld email que
possui64instnciasmuitopequenopararealizaodeexperimentoscommtodosde
reamostragem como o Kfold Cross Validation a informao contida em cada
documentomuitoimportanteenecessitasedamaiorquantidadepossvelparaaetapa
detreinamentodoclassificador.Umadasabordagenspossveisnessecasoseriadeixar
apenas umdocumento separadoparatestar eorestante paratreinaroclassificador,
realizandoestaetapaemtodasasamostras,ouseja,umnmerodevezesigualaototal
deamostrasalternandoentretodas.Umaalternativaquandosetempoucosdocumentos
atcnica deBootstrapqueconsisteemaumentar onmerode amostras,gerando
novasatravsdereposio.Damesmaformaafasedetestesaplicadaapenasnos
documentosquenoforamutilizadosnotreinamento,estatcnicasepara63,2%para
treinamento eignorar 36,8%dos documentos originais etorna aestimativa deerro
pessimista, para resolver este problema devemos repetir a medio de preciso do
algoritmoecalcularumamdia,Filannino(2011).
OconjuntodedadosDBWorldemailtevesuaquantidadedeinstnciasdobrada
comautilizaodofiltroResampledoWeka,passandoater128instncias,onmero
derepetiesdaexecuodosalgoritmosfoidefinidocomo10,paraqueosresultados
geradosfossemamdiadasiteraes.
O filtro StringToWordVector foi aplicado ao conjunto de dados SMS Spam
Collectionqueoriginalmentecompostoporstringsefoitransformadoemvetorespara
aclassificao.
Em todos os algoritmos foi aplicado o Filtro de seleo de atributos
InformationGain quecalculaaquantidadedeinformaoquecadaatributorepresenta
para o conjunto, utilizouse o fator de corte 0 assim todos os atributos que no
representamganhodeinformaoforamexcludosdoconjuntodedados.
5.Experimento
As tabelas 2, 3, 4 e 5 apresentam os resultados da aplicao dos algoritmos de
classificao SMO, NaiveBayes, BayesNet, J48, SimpleLogistic e Ibk sobre os
conjuntos de dados. Os resultados apresentados foram obtidos a partir da interface
Experimenter do Weka atravs deCrossValidation com10folds e10iteraes. O
smbolo*indicaqueoWekaidentificoucomosendopiorresultadoeovum
resultadomelhorestatisticamenteemrelaoaoalgoritmousadocomobasequenocaso
oSMO.
Osalgoritmos selecionados representam cincodiferentes abordagens sendoo
SMOumarepresentaodeMquinadevetoresdeSuporte,NaiveBayeseBayesNet
soabordagensBayesiana,oJ48umarvorededeciso,oSimpleLogisticusamodelos
deregressologsticaeoIbkaversodoKNNparaWeka.
Tabela2.ResultadosemDBWorld_bodies
Parmetro
SMO
BayesNet
NaiveBayes
J48
SimpleLogistic
Ibk
Percent_correct
97,21
91,37
88,71
91,84
95,03
89,49
(4.19)
(7.44)*
(8.00)*
(7.64)*
(7.10)
(6.79)*
0,96
0,88
0,85
0,91
0,93
0,85
(0.06)
(0.10)*
(0.10)*
(0.10)
(0.08)
(0.09)*
0,97
0,99
(0.02)
(0.02)
(0.00)
(0.07)
(0.05)
(0.00)
0,98
0,93
0,91
0,93
0,96
0,92
(0.03)
(0.06)*
(0.06)*
(0.06)*
(0.06)
(0.05)*
Precision
Recall
FMeasure
Tabela3.ResultadosemDBWorld_subjects
Parmetro
SMO
BayesNet
NaiveBayes
J48
SimpleLogistic
Ibk
Percent_correct
97,90
96,27
92,16
92,93
95,96
97,73
(4.10)
(5.46)
(5.57)
(7.70)
(5.80)
(4.51)
0,97
0,97
0,97
0,91
0,95
0,99
(0.06)
(0.05)
(0.05)
(0.10)*
(0.08)
(0.03)
0,96
0,96
0,99
0,99
0,97
(0.02)
(0.08)
(0.09)
(0.06)
(0.04)
(0.07)
0,98
0,97
0,96
0,94
0,97
0,98
(0.03)
(0.05)
(0.05)
(0.06)
(0.05)
(0.04)
Precision
Recall
FMeasure
Tabela4.ResultadosemSMSSpamCollection
Parmetro
SMO
BayesNet
NaiveBayes
J48
SimpleLogistic
Ibk
Percent_correct
98,40
98,25
96,88
96,05
98,21
95,27
(0.50)
(0.57)
(0.68)*
(0.82)*
(0.59)
(0.78)*
0,99
0,98
0,98
0,97
0,98
0,95
(0.01)
(0.01)*
(0.01)
(0.01)*
(0.01)
(0.01)*
0,98
0,99
(0.00)
(0.00)
(0.01)*
(0.00)*
(0.00)
(0.00)v
0,99
0,99
0,98
0,98
0,99
0,97
(0.00)
(0.00)
(0.00)*
(0.00)*
(0.00)
(0.00)*
Precision
Recall
FMeasure
Tabela5.ResultadosemSegmentChallenge
Parmetro
SMO
BayesNet
NaiveBayes
J48
SimpleLogistic
Ibk
Percent_correct
91,79
90,52
81,13
95,67
95,21
96,68
(2.07)
(2.18)
(2.36)*
(1.90)v
(1.47)v
(1.20)v
0,96
0,78
0,97
0,98
0,99
(0.01)
(0.04)*
(0.07)*
(0.05)
(0.03)
(0.02)
0,98
0,95
0,96
0,97
0,99
0,99
(0.03)
(0.05)
(0.04)
(0.04)
(0.02)
(0.03)
0,99
0,95
0,86
0,97
0,99
0,99
(0.02)
(0.03)*
(0.05)*
(0.03)
(0.02)
(0.02)
Precision
Recall
FMeasure
Porcentagem de documentos
classificados corretamente
dbworld_bodies
dbworld_subjects
SmsSpam
segment_challenge
120
100
80
60
40
20
0
SMO
BayesNet NaiveBayes
J48
SimpleLogistic
IBK
Figura2.Grficodeporcentagemcorretadasinstnciasclassificadasemcadaconjunto
dedadosdeacordocomosalgoritmos.
6.Concluses
NotaseumcomportamentomaislinearnoconjuntodedadosSMSSpamcommaior
nmero de instncias e segunda maior quantidade de atributos entre os conjuntos
utilizados,obtendomelhorclassificaoemquasetodososalgoritmos.
Asmaioresvariaesocorreramnoconjunto SegmentChallenge quepossuio
menornmerodeatributoscomparadoaosdemais,obtendoopiorresultadorelativoa
percentagemdearquivosclassificadoscorretamentecomoalgoritmo NaiveBayeseo
segundomelhorresultadoparaoalgoritmoIbk.
Quantoaosalgoritmosutilizados,oSimpleLogisticfoioqueteveosresultados
maisprximosentresi,independentementedabasededadosclassificada.Osresultados
maisesparsossoosdoNaiveBayes.
Apesar da quantidade pequena de amostras representar um obstculo
classificao de textos, recursos como o bootstrapping podem ser utilizados para
performaratarefa.Oqueficaevidenciadonosresultadosdostestesqueapesarda
disparidade entre aquantidade de instncias e atributos dos conjuntos dedados, os
resultadoscomoporcentagemcorretaacabamsendoquasetoeficientesparapoucas
instnciasquantoparamuitasquandousadosdeterminadosalgoritmos.
Explorarosrecursosdaaprendizagemdemquinaassociadosdescobertade
conhecimento em conjuntos de dados compostos por textos acaba auxiliando
mutuamenteessasduasreasdeformaprticaqueconstituielementoessencialparaa
motivaodapesquisaapartirdomomentoqueresultadosobservveisaparecem.
6.1TrabalhosFuturos
Otratamentoespecficodeconjuntosdedadostextuaiscomquantidadedeinstncias
reduzidaspodeserfrutodepesquisasmaisavanadas,tantoporestetipodebasede
dadosserdisponvelemgrandequantidade,quantopelofatodenosertorelevante
estatisticamenteapesquisasobreapenasumconjuntoreduzido,necessitandoassimde
mais informao para constatar qual tratamento realmente eficiente durante a
classificaodestetipodebasededados.
Aoseremcomparadosbasesdedadoscomcaractersticas diferentes,podese
observar quais algoritmos no sofrem tanta interferncia relacionada ao nmero de
instnciaseatributos.Ascaractersticasdestesalgoritmospodemserestudadasparaque
possam ser produzidas ferramentas de classificao com menor especificidade que
classifiquemconjuntosvariadoscommaioreficinciaesemdisparidadederesultados.
Referncias
UCI
Machine
Learning
Repository.
http://archive.ics.uci.edu/ml/datasets.html,Maro/2016.
Disponvel:
WEISS,GaryM. Disponvel:http://storm.cis.fordham.edu/~gweiss/datamining/weka
data/segmentchallenge.arff,Maro/2016.
Bouckaert,RemcoR.,etal."WEKAmanualforversion3713."(2015).
Rizzi,C.,Wives,L.K.,Oliveira,J.,&Engel,P.(2000,Novembro).Fazendousoda
categorizaodetextosematividadesempresariais.InInternationalSymposiumon
KnowledgeManagement/DocumentManagement(ISKM/DM2000),III.
BAHARUDIN, B., Lee, L. H., & Khan, K. (2010). A review of machine learning
algorithms for textdocuments classification. Journal of advances in information
technology,1(1),420.
Filannino,Michele."DBWorldemailclassificationusingaverysmallcorpus."The
UniversityofManchester(2011).
Arora,Rohit."Comparativeanalysisofclassificationalgorithmsondifferentdatasets
usingWEKA."InternationalJournalofComputerApplications54.13(2012).
Joachims,Thorsten.Textcategorizationwithsupportvectormachines:Learningwith
manyrelevantfeatures.SpringerBerlinHeidelberg,(1998).

Artigo para Publicação SBC Revisado

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Artigo para Publicação SBC Revisado

Caricato da

Copyright:

Formati disponibili

ComparativoEntreAlgoritmosdeClassificaoem

Composio dos datasets

Potrebbero piacerti anche