Proposta de Um Módulo de Data Mining para Sistema de Scout No Voleibol

CENTRO UNIVERSITRIO FEEVALE
MERSON BUTZEN
PROPOSTA DE UM MDULO DE DATA MINING PARA SISTEMA DE SCOUT NO VOLEIBOL
Novo Hamburgo, novembro de 2008.
MERSON BUTZEN MARQUES
PROPOSTA DE UM MDULO DE DATA MINING PARA SISTEMA DE SCOUT NO VOLEIBOL
Centro Universitrio Feevale Instituto de Cincias Exatas e Tecnolgicas Curso de Sistemas de Informao Trabalho de Concluso de Curso
Professor Orientador: Alexandre de Oliveira Zamberlam
Novo Hamburgo, novembro de 2008.
AGRADECIMENTOS
Gostaria de agradecer a todos os que, de alguma maneira, contriburam para a realizao desse trabalho de concluso, em especial: Meu pai, Jos Jorge Marques da Silveira, que foi quem me ensinou a nunca desistir, minha me, Teresinha Dolores Butzen Marques, pela dedicao aos filhos, meu orientador,
Alexandre de Oliveira Zamberlam, que me auxiliou de maneira nica para a realizao deste projeto, a minha namorada, Mnica Reichert, pelo incentivo a crescer sempre e pacincia em alguns momentos, ao meu amigo Rafael Arnold pela oportunidade que me indicou, aos amigos tricolores (Hoff, Minuzzo e Thiago), aos demais amigos e pessoas que convivem comigo, minha sincera gratido, pelo apoio em todos os perodos do trabalho. Obrigado pela confiana.
RESUMO
Sistemas de Apoio a Deciso, normalmente utilizados em empresas no processo de tomada de deciso, tambm so utilizados em equipes de voleibol e/ou em outros esportes, com a finalidade de gerar melhores resultados. Nesse universo de equipes esportivas, foram elaborados sistemas estatsticos de monitoramento de desempenho de atletas e de equipes, tambm conhecidos como sistemas de scout, permitindo s comisses tcnicas decidirem sobre treinamentos, estratgias de jogo e tticas sobre jogadas. Contudo, a quantia de informaes (precisas e/ou desnecessrias) mesmo assim enorme, deixando o processo de decidir bastante emprico, ou seja, dependente da experincia do tcnico ou de algum integrante da comisso tcnica. A minerao de dados (data mining) entra nesse campo com o intuito de descobrir informaes mais precisas, evitando assim informaes desnecessrias. Dessa forma, o objetivo deste trabalho realizar a anlise e o projeto de um mdulo de data mining para o sistema de scout do projeto de pesquisa A IA entrando na quadra de vlei: Scout Inteligente.
Palavras-chave: Sistemas de Apoio a Deciso. Minerao de Dados. Sistema de Monitoramento de Desempenho. Scout Voleibol.
ABSTRACT
Decision Support Systems, normally used in companies in the making decisions process, also are used in volleyball teams and/or in other sports, with the aim to get better results. In this universe of sport teams, statistics systems of performance tracking of athletes and of teams were prepared, also known like scout (Scout Systems), allowing to the technical committees decide about training, game strategies and tactical moves. However, the amount of information (precise and/or unnecessary) is, anyway, enormous, letting the decision process a lot empirical, in other words, dependent on the couch experience or on any other person of the technical committee. The data mining gets into this field with the purpose of discovering precise information, avoiding unnecessary information. This way, the goal of this study is to perform the analysis and the project of a data mining module to the scout system of the research project The IA getting into the volleyball court: Intelligent Scout.
Key words: Decision Support Systems. Data Mining. Statistics Systems of Performance Tracking of Athletes. Scout Volleyball.
LISTA DE FIGURAS
Figura 1.1 Etapas que precedem a aplicao de tcnicas de Minerao de Dados ............... 17 Figura 1.2 rvore de Deciso de classificao de grau ......................................................... 24 Figura 1.3 Exemplos de diferentes esquemas ........................................................................ 25 Figura 1.4 Aproveitamento de Saque (Atleta/Tempo de Jogo) ............................................. 28 Figura 2.1 Figura da tabela de anlise estatstica dos fundamentos de voleibol. .................. 34 Figura 3.1 Esquema geral do scout inteligente ...................................................................... 40 Figura 3.2 Modelagem do banco de dados do sistema scout................................................. 41 Figura 3.3 Modelagem do banco de dados alterada .............................................................. 42 Figura 3.4 Diagrama de Atividade do sistema scout de Raimann (2008) ............................. 43 Figura 3.5 Mapa Conceitual do Fundamento Saque.............................................................. 44 Figura 3.6 Mapa Conceitual dos Fundamentos Defesa/Passe ............................................... 45 Figura 3.7 Mapa Conceitual dos Fundamentos Levantamento ............................................. 45 Figura 3.8 Mapa Conceitual dos Fundamentos Cortada........................................................ 46 Figura 3.9 Mapa Conceitual dos Fundamentos Bloqueio...................................................... 46 Figura 3.10 Diagrama de Caso de Uso geral ......................................................................... 50 Figura 3.11 Diagrama de Caso de Uso geral do mdulo de Minerao de Dados ................ 51 Figura 3.12 Diagrama de Atividade referente a gerar dados para anlise ............................. 53 Figura 3.13 Diagrama de Atividade referente a selecionar dados gerados para anlise ....... 55 Figura 3.14 Diagrama de Atividade referente a aplicar tcnicas de minerao de dados ..... 57 Figura 3.15 Diagrama de Classes referente a integrao do mdulo MD e o WEKA .......... 59 Figura 3.16 Diagrama de Seqncia referente ao caso de uso UC001 (Gerar Dados para Anlise)..................................................................................................................................... 60 Figura 3.17 Diagrama de Seqncia referente ao caso de uso UC002 (Selecionar Dados Gerados para Anlise) .............................................................................................................. 60
Figura 3.18 Diagrama de Seqncia referente ao caso de uso UC002 (Selecionar Dados Gerados para Anlise) .............................................................................................................. 61 Figura 4.1 Prottipo da tela inicial do mdulo de minerao de dados................................. 65 Figura 4.2 Prottipo da tela de gerao de dados para o mdulo de MD .............................. 65 Figura 4.3 Prottipo da tela de selecionar dados gerados para anlise.................................. 66 Figura 4.4 Prottipo da tela de aplicar tcnicas de minerao de dados ............................... 66 Figura 4.5 Modelagem do Data Mart.................................................................................... 67 Figura 4.6 Figura apresenta o cdigo fonte da classe de integrao ClusteringEM .............. 69 Figura 4.7 Figura apresenta o cdigo fonte da classe de integrao ClusteringFarthestFirst 70 Figura 4.8 Figura apresenta o arquivo ARFF submetido ao algoritmo EM do WEKA ........ 71 Figura 4.9 Figura apresenta o resultado da aplicao do algoritmo EM do WEKA ............. 72 Figura 4.10 Figura do arquivo ARFF submetido ao algoritmo FarthestFirst do WEKA ...... 73 Figura 4.11 Figura mostra o resultado da aplicao do algoritmo FarthestFirst do WEKA . 73 Figura Apndice 1 Funo SQL do PostgreSQL para gerao de dados no DataMart ........ 81 Figura Apndice 2 Funo SQL do PostgreSQL que gera o arquivo para o relatrio de agrupamento de atletas por efeito de fundamento .................................................................... 82 Figura Apndice 3 Funo SQL do PostgreSQL que gera o arquivo para o relatrio de agrupamento de atletas por posio e efeito de fundamento .................................................... 82
LISTA DE TABELAS
Tabela 1.1 Jogos de jogadores e aproveitamento do fundamento bloqueio .......................... 21 Tabela 1.2 Classificao de dados do grau ............................................................................ 23 Tabela 1.3 Simples exemplo de agrupamento de informao ............................................... 24 Tabela 1.4 Aproveitamento de Saque (Atleta/Tempo de Jogo)............................................. 27
LISTA DE QUADROS
Quadro 3.1 Caso de Uso Gerar Dados para Anlise.............................................................. 51 Quadro 3.2 Caso de Uso Selecionar Dados Gerados para Anlise ....................................... 53 Quadro 3.3 Caso de Uso Aplicar Tcnicas de Minerao de Dados ..................................... 55
LISTA DE ABREVIATURAS E SIGLAS
MD DM DCBD KDD OLAP SGBD
Minerao de Dados Data Mining Descoberta de Conhecimento em Base de Dados Knowledge Discovery in Databases On-Line Analytic Processing Sistema de Gerenciamento de Banco de Dados
SUMRIO
INTRODUO ...................................................................................................................... 13 1 MINERAO DE DADOS ................................................................................................ 16 1.1 O processo de minerao de dados ................................................................................ 17 1.1.1 Definio do problema ........................................................................................ 18 1.1.2 Coleta dos dados .................................................................................................. 18 1.1.3 Pr-processamento dos dados .............................................................................. 19 1.1.4 Especificao do possvel mtodo ....................................................................... 20 1.1.5 Interpretao e anlise dos dados produzidos pelo mtodo ................................. 20 1.2 Principais mtodos de minerao de dados ................................................................... 21 1.2.1 Regras de Associao (Association Rules) .......................................................... 21 1.2.2 Classificao (Classification) .............................................................................. 22 1.2.3 Agrupamento (Clustering) ................................................................................... 24 1.2.4 Dados em sries temporais (Time-Series Data)................................................... 26 1.2.5 Padres seqenciais (Sequential Patterns) .......................................................... 29 1.3 Ferramentas de Minerao de Dados ............................................................................ 30 1.3.1 WEKA ................................................................................................................. 30 1.3.2 RapidMiner .......................................................................................................... 31 2 SCOUT .................................................................................................................................. 33 2.1 Trabalho Correlato - Advanced Scout: Data Mining and Knowledge Discovery in NBA Data 36 2.2 Utilizao de tcnicas de KDD em um call center ativo ............................................... 37 3 A PROPOSTA DE MDULO DE MINERAO .......................................................... 39 3.1 Especificao dos requisitos .......................................................................................... 47 3.1.1 Requisitos funcionais ........................................................................................... 47 3.1.2 Requisitos no funcionais .................................................................................... 48 3.2 Casos de Uso ................................................................................................................. 49 3.2.1 Diagrama de Casos de Uso .................................................................................. 50 3.2.2 Casos de Uso Estendidos ..................................................................................... 51 3.3 Diagrama de Classes...................................................................................................... 58 3.4 Diagrama de Seqncia ................................................................................................. 60 4 PROTTIPO DO MDULO DE MINERAO DE DADOS ...................................... 62 4.1 Linguagem de Programao .......................................................................................... 62 4.2 Sistema de Gerenciamento de Banco de Dados ............................................................ 63 4.3 Ferramenta para Administrao do PostgreSQL ........................................................... 64 4.4 Modelagem do Mdulo de Minerao de Dados .......................................................... 64
4.5 4.6 4.7 4.8
Prottipo do Mdulo de Minerao de Dados ............................................................... 64 Preparao dos Dados Minerao de Dados ................................................................. 67 Classes de integrao Mdulo com o WEKA ............................................................... 68 Resultados...................................................................................................................... 70
CONCLUSO......................................................................................................................... 75 REFERNCIAS BIBLIOGRFICAS ................................................................................. 77 APNDICES ........................................................................................................................... 80
INTRODUO
Na atualidade, os sistemas de informao so requisitos bsicos para a tomada de deciso automatizada, pois o processo decisrio apia-se na malha de sistemas de informao de uma organizao (BINDER, 1994). A importncia da informao nas organizaes aumenta de acordo com o crescimento da complexidade da sociedade e das organizaes, ou seja, em todos os nveis organizacionais a informao um recurso fundamental (FREITAS et al, 1997). H muito tempo, existe a preocupao de como a informao processada, pois segundo Martin (1984), h muitas situaes em que os gestores no recebem a informao de que necessitam dos seus diversos sistemas. Binder (1994) alega que em um ambiente propcio, a informtica torna-se til no processo de tomada de deciso, possibilitando obteno de dados com melhor qualidade. Freitas (1997) afirma que a forma com que a informao trabalhada deve ser observada, pois no pode haver risco que um usurio, envolvido em processo decisrio, receba rudos em sua informao. A partir dessas afirmaes, deve-se saber distinguir o que so dados e o que so informaes. De acordo com (DAVIS; OLSON, apud FREITAS, 1997) os dados so a matria prima da informao, so grupos de smbolos no aleatrios que representam quantidades, aes, objetos, etc. Ainda, segundo o mesmo autor, a informao um dado que foi processado de uma forma significativa para o usurio e seu valor real ou percebido no momento, ou em aes prospectivas nas decises. Binder (1994) aponta que a atividade mxima de um lder a tomada de deciso. Esse o momento onde se demonstra toda sua capacidade de direcionar sua equipe e sua razo de ser dentro de uma organizao. A tomada de deciso consiste, basicamente, na
14
escolha de uma opo entre diversas alternativas existentes, seguindo determinados passos previamente estabelecidos e culminando na resoluo ou no de problema. Na gesto de um time de voleibol, a todo o momento, a partir de uma quantidade diversificada de informaes, decises importantes devem ser tomadas. Decidir onde um jogador deve sacar, qual sua posio na quadra oferece maior rendimento, qual jogador substituir e por quem, que tipo de treinamento deve ser realizado para apurar um atleta e/ou a equipe toda (treino de fundamentos de voleibol, posicionamento, jogadas, saque, etc), enfim, qual a melhor estratgia ou quais tticas utilizar so situaes as quais uma comisso tcnica de voleibol deve estar atenta (ZAMBERLAM et al., 2005). Por isso, existem sistemas estatsticos que auxiliam nessa tarefa, conhecidos como scout. So sistemas que capturam e processam informaes estatsticas de desempenho dos atletas da equipe e da equipe adversria. Porm, eles no levam em considerao o histrico do jogador de toda uma temporada (comportamento do atleta em outros jogos) e o contexto de uma partida de vlei, ou seja, o comportamento do atleta nos diferentes nveis da partida. Um set (parte de uma partida) de vlei possui basicamente trs nveis. O terceiro nvel, prximo do final, o de maior tenso em que o fsico e o emocional do atleta devem estar ajustados. Dessa forma, os sistemas atuais, simplesmente, repassam dados para a comisso, que avalia essa gama diversificada referente aos fundamentos bsicos do vlei e/ou jogadas realizadas pela equipe adversria, num tempo extremamente reduzido e toma decises relacionadas com aqueles dados relatados. Decises muitas vezes baseadas mais no conhecimento emprico do tcnico ou da comisso do que no fator racional real daquela situao (ZAMBERLAM et al., 2005). A minerao de dados, ou data mining, entra nesse contexto para oferecer um ambiente propcio e dados confiveis, pois atravs dela, existe o processo de seleo, de explorao e de modelagem de dados em grande escala (GIUDICI, 2003). O projeto de pesquisa A IA entrando na quadra de vlei: Scout Inteligente (ZAMBERLAM et al., 2005) busca mostrar que equipes de voleibol no so diferentes no que diz respeito ao processo de tomada de deciso, em que a comisso tcnica est constantemente monitorando os jogadores e seu desempenho, a fim de decidir a melhor ttica ou estratgia de jogo ou de treinamento. Sua proposta tem como foco descrever como tcnicas de Inteligncia Artificial, que combinam agentes inteligentes e minerao de dados, podem
15
ser utilizadas para auxiliar a comisso tcnica. Esse projeto tem como objetivo final projetar e construir um sistema de observao inteligente para a gesto de equipes de voleibol, a fim de manipular e produzir conhecimentos especficos de forma quantitativa e qualitativa para o processo de deciso, reduzindo assim o fator emprico e o tempo das decises. Surge ento este trabalho, como parte do projeto de pesquisa acima citado. Portanto, atravs da base de dados do sistema de scout, projetado por Raimann (2008), tambm parte desse projeto, foi realizada a aplicao de tcnicas de data mining. Os resultados foram analisados e a tcnica de data mining escolhida foi a de agrupamento. Espera-se, assim, auxiliar professores e profissionais de Educao Fsica no ensino de gesto de equipes, bem como a gesto de jogadores e tipos de treinamentos. O trabalho foi dividido em quatro captulos, sendo que o primeiro trata sobre Minerao de Dados, mostrando as principais tcnicas e aplicaes. O segundo aborda o scout, ou seja, o sistema de avaliao de desempenho de atletas, apresentando o que esse sistema, quais suas finalidades e como utilizado geralmente, tambm foram encontrados alguns trabalhos correlatos nesse captulo. No terceiro captulo, apresenta-se a proposta de mdulo de data mining em um sistema de scout. O quarto captulo apresenta o prottipo do mdulo, e a aplicao da tcnica de agrupamento atravs de dois de seus algoritmos. Finalmente, as consideraes finais e as referncias bibliogrficas.
MINERAO DE DADOS
A grande quantidade de dados armazenados em bancos de dados na atualidade um problema de muitas empresas. Esse problema gera muitas dificuldades para organizaes em geral, desde a aquisio de servidores que suportem a maior demanda de processamento, passando por unidades de armazenamento enormes dificuldade em obter informaes precisas. Dados de um relatrio de 2003 apontam uma populao de 6,3 bilhes de pessoas, e que cada pessoa produz 800 megabytes por ano (CHARLES et al., 2003). Dentro desse panorama existem tecnologias que podem fazer de um grande banco de dados uma fonte de informaes at ento desconhecidas, obtendo assim uma vantagem competitiva. Uma dessas tecnologias a Minerao de Dados (MD), tambm conhecida como Data Mining (DM). De acordo com o dicionrio de Ferreira (1988), minerao significa explorao de minas, a explorao de minas remete ao ato de descobrir preciosidades da Terra, assim a minerao de dados busca essas preciosidades na forma de informao. Para Giudici (2003), a associao de dados com essa palavra sugere uma pesquisa em profundidade para encontrar informaes adicionais que, anteriormente passaram despercebidas na massa de dados disponveis. O mesmo autor aponta que o termo minerao de dados foi formalizado por Usama Fayyad, em 1995, na Primeira Conferncia Internacional de Descoberta de Conhecimento e Minerao de Dados em Montreal. Esse evento considerado uma das principais conferncias sobre o tema. Segundo Feldens et al. apud Wives (2004) a minerao de dados uma etapa do processo de Descoberta do Conhecimento em Banco de Dados (DCBD) mais conhecido por Knowledge Discovery in Databases (KDD). Em (GOEBEL; GRUENWALD, apud WIVES, 2004) tambm observado que muitas vezes o termo minerao de dados utilizado como sinnimo para todo o processo de descoberta de conhecimento, entretanto ela a etapa mais importante, respondendo por 15 a 25 por cento do processo de descoberta. Cabena et al. apud
17
Gonchoroski (2007) aponta que a minerao de dados o processo de extrair informaes vlidas antes desconhecidas, de grandes bases de dados, auxiliando em decises cruciais no mundo dos negcios. Para isso, data mining utiliza-se de tcnicas ou algoritmos de reas como Aprendizado de Mquinas, Estatstica, Redes Neurais, Algoritmos Genricos, etc (ELMASRI; NAVATHE, 2005). O mesmo autor aponta que a minerao de dados apia o conhecimento indutivo, descobrindo novas regras e padres nos dados minerados. Para Kantardzic (2003), os dois primeiros objetivos da minerao de dados so: a predio e a descrio. A predio utiliza algumas variveis ou campos de um conjunto de dados para prever valores desconhecidos ou futuros de outras variveis de interesse. A descrio concentra-se em encontrar padres nos dados que possam ser interpretados por humanos. Como a minerao de dados uma parte do processo de Descoberta do Conhecimento em Banco de Dados, as etapas (Figura 1.1) devem ser realizadas antes de aplicar-se alguma tcnica de data mining. Conforme Bramer (2007), os dados possivelmente vm a partir de muitas fontes, esses dados devem ser integrados e/ou coletados e armazenados em lugar comum. O prximo passo a preparao dos dados, ento aplicada alguma tcnica de minerao de dados, que produz uma sada na forma de regras ou em algum tipo de padro.
Figura 1.1 Etapas que precedem a aplicao de tcnicas de Minerao de Dados

Fonte: Adaptado de BRAMER, 2007
Essas regras ou padres so tambm conhecidos como modos de descoberta, os mais conhecidos so a descoberta de regras de associao, classificao, agrupamento, padres seqenciais e padres em sries temporais.
1.1
O processo de minerao de dados Para Kantardzic (2003) o processo de minerao de dados composto por cinco
fases. So elas: definio do problema; seleo e coleta dos dados; pr-processamento dos
18
dados; especificao de possvel mtodo; interpretao e anlise dos dados produzidos pelo mtodo.
1.1.1 Definio do problema Segundo Giudici (2003), nem sempre fcil de definir o fenmeno que se quer analisar. Os objetivos e o problema da empresa ou equipe que so passados so claros, mas os problemas subjacentes podem ser difceis de traduzir em objetivos a serem analisados. Kantardzic (2003) aponta que a grande maioria das bases de dados existentes especfica para os seus sistemas, o que requer experincia e domnio de um perito. Uma declarao clara do problema e os objetivos a atingir so os pr-requisitos para a criao da anlise correta. Podese utilizar, como exemplo no voleibol, os excessivos erros do fundamento saque, quando realizada a anlise dos dados, pode-se concluir que o destino/alvo do saque tem sido sempre o mesmo, assim a comisso tcnica interage com os jogadores para que mudem o destino/alvo de seu saque. Nesse caso, fica explcito a definio do problema - porque erramos os saques. Sendo assim, os estatsticos e os mineradores de dados (data miners) sabem onde devem atuar - nos dados do fundamento saque, e extrair o mximo de informaes possveis para a comisso tcnica.
1.1.2 Coleta dos dados A principal preocupao dessa etapa a forma como os dados so gerados e/ou coletados. Em geral, d-se de duas maneiras distintas: a primeira quando o processo est sobre o domnio de um perito, em que o mesmo realiza a coleta; a segunda possibilidade quando o perito no pode influenciar o processo de gerao de dados. Essa conhecida como a abordagem observacional, e dados podem ser perdidos (KANTARDZIC, 2003). Um exemplo pode ser visto no prprio voleibol, quando vrios scouters1 utilizam bases independentes em seus laptos. Essas bases devem ser integradas para gerar a informao correta. Nesses casos, a minerao normalmente aplicada aps os jogos.
Responsvel em realizar o scout.
19
1.1.3 Pr-processamento dos dados Giudici (2003) divide essa tarefa em duas etapas. A primeira composta por seleo, organizao e tratamento inicial dos dados. Nessa etapa so identificadas as fontes de dados, em que o ideal que seja um armazm de dados (data warehouse) histrico que no esteja sujeito a mudanas, facilitando a coleta de dados. Nela, tambm necessria uma limpeza preliminar nos dados. A segunda etapa contm a anlise de dados e posterior transformao. Aqui, desenvolvida uma anlise exploratria dos dados semelhante a tcnicas de OLAP, uma anlise inicial da importncia dos dados pode levar a uma transformao das variveis originais para melhor compreender o fenmeno, ou que pode levar a mtodos estatsticos em que satisfaam objetivos especficos iniciais. Giudici (2003) afirma que fundamental essa fase, pois permite ao analista prever mtodos estatsticos que possam ser mais adequados na prxima fase. Utilizando-se do exemplo anterior (voleibol e bases independentes em notebooks), uma base de dados tem vrias entidades: Clube; Cidade; Equipe; Jogador; JogadorPartida; Sets; JogoSetRotacao; Movimento; Evento; Saque; etc, Nesse caso eliminar entidades como Cidade e Clube e dados sobre ex-atletas da entidade Jogador seria interessante. Os demais dados podem ser armazenados em um data warehouse, eliminando-se possveis rudos na informao que ser gerada pela minerao de dados. 1.1.3.1 Armazm de Dados (Data Warehouse) O armazm de dados uma coleo de dados orientada por assunto, integrada, no voltil, variante no tempo, que d apoio s decises. Proporciona acesso aos dados para uma anlise complexa, descoberta de conhecimento e tomada de deciso (ELMASRI; NAVATHE, 2005). Alm do Data Warehouse existe o Data Mart (mercado de dados), que normalmente uma parte extrada do Data Wharehouse. O Data Mart uma base de dados temtica originalmente orientada para o campo do marketing (GIUDICI, 2003). O escopo confinado aos assuntos especficos selecionados (HAN; KAMBER, 2006). Um Data Mart pode ser criado (em algumas situaes com certa dificuldade) mesmo quando no h nenhum sistema de armazm de dados (Data Warehouse) integrado. A criao de estruturas de dados temticos como Data Marts representa o primeiro e movimento fundamental para um ambiente informativo para a atividade da minerao de dados (GIUDICI, 2003).
20
1.1.3.2 Processamento Analtico On-Line (OLAP) De acordo com Barbieri apud Wagner (2008), o termo OLAP (On-line Analytical Processing), traduzido para Processamento Analtico On-line, representa essa caracterstica de se trabalhar os dados, com operadores dimensionais, possibilitando uma forma mltipla e combinada de anlise. Elmasri e Navathe (2005) apontam que OLAP a anlise de dados complexos a partir de um armazm de dados. Han e Kamber (2006) sugerem a utilizao dessas trs tecnologias conjuntas, afirmando que o armazm de dados pode ser empregado para a descoberta do conhecimento e a tomada de deciso usando ferramentas da minerao de dados. Sendo necessrio assim trs tipos de aplicaes do armazm de dados: processamento de informao, processamento analtico (OLAP) e minerao de dados.
1.1.4 Especificao do possvel mtodo A escolha do mtodo depende do problema a ser estudado ou o tipo de dados disponveis. Os mtodos utilizados podem ser classificados de acordo com o objetivo da anlise (GIUDICI, 2003). Esse processo no simples, a aplicao baseada em vrios mtodos. Os principais mtodos ou tcnicas (descritos no captulo 1.2) e a seleo dos melhores uma tarefa adicional (KANTARDZIC, 2003). Um possvel mtodo a ser utilizado num mdulo de Data Mining para scout de Vlei o mtodo de agrupamento (Clustering), aplicado no fundamento saque, em que os dados ficariam agrupados por faixas de aproveitamento.
1.1.5 Interpretao e anlise dos dados produzidos pelo mtodo O objetivo dos dados obtidos pelo mtodo ajudar a tomada de deciso. Empresas ou equipes esportivas possuem peritos que podem analisar se os dados obtidos so ou no interessantes para o tomador de deciso. Dessa maneira, pode-se descartar um determinado mtodo que no gerou dados de relativo interesse. Vale observar que os mtodos de interpretao mais fceis so os mtodos com menor preciso. Finalizada a descrio das fases do processo de minerao de dados, indicadas por Kantardzic (2003), segue uma contextualizao dos principais mtodos de minerao.
21
1.2
Principais mtodos de minerao de dados Os mtodos ou tcnicas so, na verdade, algoritmos computacionais. Cada um desses
algoritmos tem caractersticas particulares, normalmente entradas e sadas especficas (GONCHOROSKI, 2007). A seguir so apresentados os algoritmos mais utilizados.
1.2.1 Regras de Associao (Association Rules) O objetivo encontrar qualquer relao existente entre os valores das variveis (BRAMER, 2007). Para Kantardzic (2003), a tcnica de regras de associao uma das principais tcnicas de minerao de dados. Atravs dela possvel recuperar todos os padres interessantes em uma base de dados. A base de dados uma coleo de transaes, no voleibol possvel elencar caractersticas semelhantes que podem ser identificadas atravs de regras de associao. A Tabela 1.1 mostra os jogadores em quadra e o aproveitamento da equipe no fundamento bloqueio. Tabela 1.1 Jogos de jogadores e aproveitamento do fundamento bloqueio IdJogo (Partida) 1 1 2 2
Fonte: AUTOR, 2008
iNumeroCamisetaJogador (em quadra) 2, 5, 6, 8, 10, 11 1, 4, 5, 6, 8, 10 2, 3, 5, 8, 10, 11 1, 3, 4, 8, 9, 11
Bloqueio (Resultado) Excelente Regular Bom Pssimo
Uma regra de associao da forma X => Y, onde X = {x1, x2,..., xn} e Y = {y1, y2,..., ym} so conjuntos de itens com xi e yi sendo distintos para todo i e todo o j. Essa associao estabelece que quando o jogador X estiver escalado, ele estar propenso a jogar com o Jogador Y. Caso este tambm estiver escalado na mesma equipe ou da equipe adversria, um determinado bloqueador escalado para bloquear especfico atacante. Normalmente essas regras de associao tm a forma LME (lado da mo esquerda) e LMD (lado da mo direita), cada uma formando um conjunto de itens. Quando LME une-se a LMD (LME LMD) tem-se o conjunto-item, que , no exemplo do voleibol, o conjunto de todos os jogadores escalados. Para descobrir interesses nessa regra, ela precisa satisfazer algumas medidas, as mais comuns fornecem suporte e confiana (ELMASRI; NAVATHE, 2005). O suporte para a regra LME => LMD refere-se freqncia que ela ocorre no banco de dados, ou seja, o percentual de transaes que contm todos os itens na prpria relao LME LMD. Se o suporte baixo, implica que no existe evidncia significativa que os
22 itens LME LMD ocorram juntos. A confiana dessa regra calculada como o suporte (LME LMD) / suporte (LMD). Pode-se assim analisar a possibilidade dos jogadores do LMD sejam escalados juntos, dado que os jogadores do LME tambm sejam escalados pelo tcnico (ELMASRI; NAVATHE, 2005). Para exemplificar o suporte e a confiana, considere essas regras: Jogador 10 => Jogador 11 e Jogador 8 => Jogador 11. Observa-se na Tabela 1.1 que existem quatro transaes de duas partidas de vlei: o suporte para {Jogador 10, Jogador 11} de 50%, e o suporte de {Jogador 8, Jogador 11} 75%. J a confiana de Jogador 10 => Jogador 11 de 66,7%, ou seja, das trs vezes em que o jogador 10 escalado, duas tem a companhia do jogador 11, e a confiana do Jogador 8 => Jogador 11 tambm de 66,7%. Pode-se notar que o suporte e a confiana nem sempre so proporcionais. A meta para as regras de associao gerar todas as possveis regras que excedam a especificao do usurio garantindo suporte e confiana acima do limite definido (ELMASRI; NAVATHE, 2005). O principal algoritmo de regras de associao o algoritmo Apriori.
1.2.2 Classificao (Classification) De acordo com Bramer (2007), a classificao uma das aplicaes mais comuns de minerao de dados. Ela corresponde a uma tarefa que ocorre com freqncia na vida diria do ser humano. Por exemplo, um hospital pode querer classificar pacientes mdicos naqueles que esto em elevado, em mdio ou em baixo risco de adquirir uma determinada doena. J uma pesquisa de opinio de votao pode desejar classificar as pessoas entrevistadas naquelas que tendem a votar em um partido poltico ou so indecisos. Pode-se desejar classificar um trabalho de um estudante com a distino, merec-lo, pass-lo ou reprov-lo. Apesar de diferentes todos so exemplos de classificao. Para Elmasri e Navathe (2005), a classificao o processo de encontrar um modelo que descreva classes diferentes de dados. Essas classes so predeterminadas e essa atividade tambm chamada de aprendizado supervisionado. Dado que esse modelo construdo, ele pode ento ser usado para classificar novos dados. A primeira etapa do modelo de aprendizado realizada usando um treinamento com um conjunto de dados que j foi classificado, cada registro de dados desse treinamento possui um atributo, conhecido como rtulo de classe, indicando a que classe o registro pertence.
23
O exemplo a seguir mostra uma situao tpica (Figura 1.2). Tem-se uma srie de dados no formulrio de uma tabela que contm graus estudantes em cinco disciplinas (os valores dos atributos TCI, BDII, INOVTEC, GERPROJ e TOPAVA) e em suas classificaes totais do grau. Procura-se encontrar alguma maneira de predizer a classificao para outros estudantes dados somente sua turma Perfil. Tabela 1.2 Classificao de dados do grau TCI A A B A A B A BDII B B A A A A A INOVTEC A B A A B A B GERPROJ B B B A B B A TOPAVA B B A B A B B TURMA Segunda Segunda Segunda Primeira Primeira Segunda Primeira
Segundo Bramer (2007) existem vrias maneiras para fazer isto, incluindo as seguintes: Vizinho mais prximo de correspondncia (Nearest Neighbour Matching): este mtodo confia em identificar (palavra) os cinco exemplos que so "mais prximos", em algum sentido a um no classificada. Se os cinco "mais prximos vizinhos" tm graus B, A, B, B e B pode-se concluir razoavelmente que a nova instncia dever ser classificada como 'Segunda'. Regras de classificao (Classification Rules): Procura-se as regras que pode-se predizer a classificao de um exemplo despercebido, segue exemplos: SE TCI=A E TOPAVA=A ENTO TURMA=Primeira, SE TCI=A E TOPAVA=B E BDII=B ENTO TURMA=Segunda ou ainda SE TCI=B ENTAO TURMA=Segunda; rvore da classificao (Classification Tree): uma forma de gerao de regras de classificao por intermdio de estrutura chamada rvore de classificao ou de uma deciso rvore, como a seguir:
24
Figura 1.2 rvore de Deciso de classificao de grau

1.2.3 Agrupamento (Clustering) Uma dada populao de eventos ou novos itens podem ser particionados (segmentados) em conjuntos de elementos padres (ELMASRI; NAVATHE, 2005). Bramer (2007) confirma que os algoritmos de agrupamento analisam os dados para encontrar grupos de itens que so semelhantes. Amostras de agrupamento so representadas como um vetor de medies, ou, mais formalmente, como um ponto em um espao multidimensional. As amostras de um agrupamento vlido so mais semelhantes (no necessariamente iguais) entre si do que as amostras que pertencem a um agrupamento diferente (KANTARDZIC, 2003). De acordo com Kantardzic (2003), a tcnica de agrupamento adequada para a explorao de inter-relaes entre as amostras e para fazer uma avaliao preliminar da estrutura da amostra. A Tabela 1.3 tem um simples exemplo de agrupamento de informao. So doze atletas distribudos em trs agrupamentos. As caractersticas que descrevem esses atletas so: o aproveitamento em percentual no fundamento bloqueio e o nmero de bloqueios realizados. Tabela 1.3 Simples exemplo de agrupamento de informao Agrupamentos Agrupamento 1 Aproveitamento 100% 90% 80% 70% 60% 50% 40% 20% 0% Bloqueios Realizados 1 4 1 20 30 30 10 3 5 Atletas Jogador 1 Jogador 3 Jogador 6 Jogador 2, Jogador 9 Jogador 4, Jogador5 Jogador 8 Jogador 7 Jogador11 Jogador 10, Jogador 12
Agrupamento 2
Agrupamento 3
Fonte: AUTOR, 2008
25
Pode-se concluir que o Agrupamento 1 tem o melhor aproveitamento, mas pouqussimos bloqueios foram efetuados por seus atletas. No Agrupamento 2, existe a melhor mdia, pois vrios bloqueios foram efetuados. O Agrupamento 3 apresenta atletas que possivelmente no tenham esse fundamento como principal caracterstica. Para utilizar a tcnica de agrupamento, necessrio um critrio objetivo. Para descrever esse processo preciso dominar os conceitos bsicos e o processo de agrupamento. A entrada para uma anlise de agrupamento pode ser descrita como um par requisitado (X, s), ou (X, d), onde X um jogo (descries das amostras), e s e d so medidas para a similaridade ou a dissimilaridade (distncia) entre amostras, respectivamente. A sada uma diviso = {G1, G2,, GN} onde Gk, k = 1,, N um subconjunto cristalino de X tal que G1 G2 ... GN = X, e Gi Gj = , i j. Assim os membros G1, G2,, GN de so chamados de agrupamentos. Cada um dos agrupamentos descrito com algumas caractersticas. Na descoberta, tanto o agrupamento (um conjunto de pontos distintos em X) quanto suas caractersticas, so gerados como resultado de um procedimento de agrupamento (KANTARDZIC, 2003). Kantardzic (2003) aponta que a representao da descoberta por agrupamento pode se dar por diferentes esquemas (Figura 1.3), os mais conhecidos so: Representar o agrupamento dos pontos em um espao n-dimensional (amostras) por seu centride ou por um conjunto de distantes (fronteira) pontos em um agrupamento; Representar graficamente usando um agrupamento de ns em um agrupamento de rvore; Representar agrupamentos, usando a expresso lgica de amostra de atributos.
Figura 1.3 Exemplos de diferentes esquemas

Fonte: KANTARDZIC, 2003
26
A vasta coleo de algoritmos de agrupamento disponveis na literatura e os diferentes softwares confundem os usurios que tentam selecionar aproximaes mais apropriadas para o seu problema. A maior parte dos algoritmos de agrupamento tem por base as duas seguintes abordagens: agrupamento hierrquico e agrupamento particional iterativo. As tcnicas hierrquicas organizam dados em uma seqncia aninhada dos grupos, que normalmente so indicados atravs de uma estrutura de rvore. J os algoritmos particionais tentam obter essa divisria que minimiza o espalhamento dentro do agrupamento ou maximiza o espalhamento entre os agrupamentos. Esses mtodos no so hierrquicos porque todos os agrupamentos resultantes so grupos das amostras no mesmo nvel da divisria (KANTARDZIC, 2003).
1.2.4 Dados em sries temporais (Time-Series Data) Para Elmasri e Navathe (2005) esses padres podem ser encontrados em posies de uma srie temporal de dados, que uma seqncia de dados capturada a intervalos regulares (segundos, horas, dias, semanas, etc). Han e Kamber (2006) confirmam dizendo que sries temporais consistem em seqncias de valores ou medidas repetidas, excessivamente, em intervalos de tempos. As aplicaes mais populares com base de dados de padres com sries temporais so as de anlise da bolsa de valores, ndices econmicos, observao de fenmenos naturais (tais como a atmosfera, a temperatura, o vento, o terremoto) e experincias cientficas e da engenharia. Com a distribuio crescente de um grande nmero de sensores, de dispositivos da telemetria, e de outras ferramentas de levantamento de dados, a quantidade de dados em sries temporais est aumentando rapidamente, freqentemente na ordem dos gigabytes por dia (como o nmeros de negociaes na bolsa de valores) ou por minuto (como de programas do espao da NASA). A minerao de dados em sries temporais tem o desafio de analisar tais nmeros enormes de dados em sries temporais para encontrar os padres similares ou regulares, tendncias rapidamente ou mesmo responder em tempo real (HAN; KAMBER, 2006). No vlei, pode-se analisar o desempenho de atletas pelo tempo de jogo, e analisar assim qual o tempo de jogo ideal para ele (perodo no set ou no jogo todo). Existem atletas que jogam com um mesmo nvel a partida inteira, outros atletas tm um incio de alto nvel, e no decorrer da partida o nvel cai, mas aps o perodo de estresse, o nvel volta a ser bom.
27
Outros que mantm um bom nvel durante boa parte da partida, mas depois o nvel cai e no retorna mais. H de se considerar, aqui, tambm o aspecto emocional de cada atleta, no apenas os nmeros. Na Tabela 1.4, podem-se ver os dois ltimos tipos de atletas citados e seus desempenhos. Esse um exemplo ilustrativo apenas, j que em uma situao real o volume de dados seria muito maior. Pode-se, tambm, dividir um set em fases (de 0 a 8 pontos, fase um; de 9 a 19, fase dois; e de 20 a 25, fase 3). Nessa diviso possvel perceber os diferentes comportamentos dos atletas (qualidade da jogada, concentrao, obedincia tcnica e ttica) devido ao aumento do estresse emocional do final do set. Tabela 1.4 Aproveitamento de Saque (Atleta/Tempo de Jogo)
Atletas Jogador 01 Jogador 02 5 min. 100 % 60 % 10 min. 80 % 60 % Tempo de Jogo (minutos) 15 min. 20 min. 30 min. 70 % 60 % 40 % 60 % 70 % 70 % 40 min. 50 % 70 % 60 min. 80 % 65 %
Fonte: AUTOR, 2008
Em geral, so dois os objetivos na anlise de sries temporais: modelagem das sries temporais (isto , ganhar uma viso sobre os mecanismos subjacentes ou foras que geram as sries temporais), e previso de sries temporais (isto , predizer os futuros valores do tempo de sries de variveis), as tcnicas mais usadas so a anlise de tendncias e a pesquisa por semelhana (HAN; KAMBER, 2006). No voleibol, a anlise de tendncia parece ser a mais atrativa, j que a partir dos dados histricos possvel traar tendncias de jogadas de equipes adversrias, e analisando os dados da Tabela 1.4, pode-se visualizar a tendncia de aproveitamento dos atletas conforme o tempo de jogo. Segundo Han e Kamber (2006) uma srie temporal que envolve uma varivel Y, representando, por exemplo, o aproveitamento de uma atleta ao final de um set ou partida, pode ser vista em funo do tempo t, isto , Y = F (t). Essa funo ilustrada como um grfico de sries temporais, como mostrado na Figura 1.4, que descreve um ponto em movimento com o passar do tempo.
28
Figura 1.4 Aproveitamento de Saque (Atleta/Tempo de Jogo)

Fonte: AUTOR, 2008
Han e Kamber (2006) apontam que anlise de tendncia consiste nos quatro componentes seguintes ou movimentos para caracterizar dados em uma srie temporal: Tendncia ou movimentos em longo prazo: indicam o sentido geral em que um grfico de srie temporal est se movendo sobre um intervalo longo do tempo. Esse movimento indicado por uma curva da tendncia, ou por uma linha da tendncia. Por exemplo, a curva da tendncia de Figura 1.4 indicada por uma curva tracejada. Os mtodos tpicos para determinar uma curva da tendncia ou uma linha da tendncia incluem o mtodo de mdias mveis e o mtodo dos mnimos quadrados; Movimentos cclicos ou variaes cclicas: consultam as oscilaes em longo prazo sobre uma linha ou uma curva da tendncia, que possam ou no possam ser peridicas. Isto , os ciclos no necessitam necessariamente seguir exatamente testes padres similares aps intervalos iguais do tempo; Movimentos sazonais ou variaes sazonais: so sistemticos ou relacionados ao calendrio. Os exemplos incluem os eventos que retornam anualmente, como o aumento repentino nas vendas dos chocolates e das flores antes do dia de namorados ou aumento observado
29
no consumo da gua no vero devido ao calor. Nesses exemplos, os movimentos sazonais so os testes padres idnticos ou quase idnticos que uma srie de tempo parece seguir durante meses correspondentes de anos sucessivos; Movimentos irregulares ou aleatrios: caracterizam o movimento espordico da srie de tempo devido aleatoriedade, tais como disputas trabalhistas e as inundaes fazem parte desde tipo. Para a anlise no vlei, a utilizao do primeiro movimento j proporciona resultados, pois atravs dos resultados das mdias mveis j se observa a tendncia de desempenho futura.
1.2.5 Padres seqenciais (Sequential Patterns) Elmasri e Navathe (2005) apontam que a tcnica de padres seqenciais a investigao de seqncias de aes ou eventos. Han e Kamber (2006) escrevem que uma tcnica desafiadora, pois pode gerar e/ou testar um nmero combinatrio explosivo de seqncias intermedirias. Para Sumathi e Sivanandam (2006), essa tcnica tem algumas similaridades com a tcnica de regras, a diferena que faz exame da dimenso seqencial dos dados analisados. O problema de minerao de dados em padres seqenciais foi introduzido pela primeira vez por Agrawal e Srikant, em 1995, com base no seu estudo de que cliente compra em seqncia. Segue um exemplo: dada uma relao de seqncias, em que cada seqncia consiste em uma lista dos eventos (ou dos elementos) e cada evento consiste em um conjunto de artigos. E dado um ponto inicial mnimo, especificado pelo usurio, da sustentao do limite mnimo, os achados seqenciais da minerao do teste padro freqentam subseqncias, isto , as subseqncias cuja freqncia da ocorrncia na relao das seqncias no nenhum menos do que limite mnimo (HAN; KAMBER, 2006). Esse problema foi motivado inicialmente por aplicaes na indstria do comrcio e varejo, e de satisfao de cliente. Mas os resultados aplicam-se a muitos domnios cientficos e de negcio. Por exemplo, no domnio mdico, uma seqncia dos dados pode corresponder aos sintomas ou s doenas de um paciente, com uma transao que corresponde aos sintomas exibidos ou s doenas diagnosticadas durante uma visita ao mdico. Os testes padres
30
descobertos usando os dados poderiam ser usados na pesquisa da doena ajudar identificar os sintomas/doenas que precedem determinadas doenas (SUMATHI; SIVANANDAM, 2006). No voleibol, essa tcnica pode ser utilizada para identificar o comportamento padro de ataque ou defesa de equipes adversrias. Existem casos em que equipes tm jogadas prontas, principalmente por caractersticas e/ou limitaes tcnicas de seus atletas. Essas jogadas podem dar resultados positivos sempre que bem efetuadas, mas se a outra equipe identificar esse padro de jogo durante a partida, pode se beneficiar e ganhar a partida, pois estaria anulando a jogada de seu adversrio. Mas muitas vezes no identificada essa seqncia padro de acontecimentos. Para exemplificar uma seqncia de jogada padro: equipe A saca, jogador seis da equipe B recepciona e passa para jogador trs de sua equipe, que levanta para o jogador cinco que efetua a cortada. Na prxima jogada tem-se a recepo do jogador cinco, que passa para o jogador trs e recebe o levantamento para a cortada. Mais uma jogada, mas agora quem recepciona o jogador dois que passa para o jogador trs que levanta para o jogador cinco cortar. J possvel perceber uma seqncia padro nessas jogadas. Toda vez que o jogador trs receber a bola, ele levantar sempre, ou na grande maioria, para o jogador cinco fazer a cortada. Utilizando a tcnica de padres seqncias, esse comportamento padro seria percebido no resultado da minerao. O suporte de confiana ou limite mnino especificado pela comisso tcnica, nesse caso poderia ser: jogador cinco recebe mais de dois levantamentos do mesmo jogador trs.
1.3
Ferramentas de Minerao de Dados Existem vrias ferramentas de Minerao de Dados, as duas ferramentas escolhidas
foram o WEKA e o RapidMiner, nas prximas duas sees so abordados mais detalhes de cada uma dessas ferramentas.
1.3.1 WEKA Desenvolvido na Univesidade de Waikato, o WEKA (Waikato Enviroment Knowledge Analysis) uma coleo de algoritmos da aprendizagem de mquina para tarefas de minerao de dados. Esses algoritmos podem ser aplicados diretamente a uma srie de dados ou serem chamados de seu prprio cdigo Java. O WEKA contm ferramentas para o pr-processamento dos dados, a classificao, a regresso, o agrupamento, as regras da associao e visualizao, tambm bem adequado para o desenvolvimento de novos
31
sistemas de aprendizagem. Atravs da interface grfica chamada Explorer possvel com facilidade utilizar todas as funes atravs de menus de seleo. Por exemplo, possvel rapidamente ler uma srie de dados de dentro um arquivo e construir uma rvore de deciso (decision tree) dessa srie de dados, mas rvore de deciso apenas o comeo: h muitos outros algoritmos disponveis a explorar (WITTEN; FRANK, 2005). Para trabalhar as sries de dados, recomenda-se que converta a srie em arquivos do formato ARFF (Attribute-Relation File Format). Esse formato um arquivo texto composto por trs partes: relao, atributos e dados. Outra caracterstica do WEKA sua portabilidade para outras aplicaes Java atravs de suas classes (SANTOS, 2005). O WEKA tem sido usada em diversos trabalhos. Podem-se citar os trabalhos de Gonchoroski (2007) e Wagner (2008), por ter explorado os principais algoritmos e tcnicas de minerao de dados.
1.3.2 RapidMiner RapidMiner (anteriormente Yale) um ambiente para aprendizagem de mquina e do processo de minerao de dados desenvolvido na Universidade de Dortmund. O RapidMiner introduz novos conceitos de manipulao de dados transparente e modelagem do processo que facilitam a configurao do processo para usurios finais (MIERSWA et al., 2006). Segundo Coelho (2008), sua operao se d por processos, isto significa que, para realizar uma classificao de dados nesta ferramenta, necessrio incluir operadores para cada processo que antecede a tarefa final desejada, sendo que alguns operadores possuem parmetros configurveis. A lista de operadores, sua seqncia de execuo e parmetros so armazenados em um arquivo XML para edio. O RapidMiner conta com diversos operadores para as mais diversas finalidades de minerao de dados. Mierswa et al. (2006) aponta que muito simples alcanar os dados de um SGBD como Oracle, Microsoft SQL Server, PostgreSQL ou MySQL. O RapidMiner suporta uma escala larga desses sistemas sem nenhum esforo adicional. Aps essa breve conceituao e caracterizao da minerao de dados, suas tcnicas e algumas ferramentas, chama a ateno que no existe uma tcnica que seja melhor que outra. atravs da sua aplicao aos problemas que se ter uma avaliao de qual se encaixa
32
melhor ao problema definido. No caso de um sistema de scout, no diferente, devem ser aplicadas tcnicas, a fim de analisar os resultados, para definir a melhor tcnica. No prximo capitulo apresenta-se alguns conceitos e caractersticas dos sistemas scout.
SCOUT
A informtica est presente, cada dia mais, nas vidas das pessoas. Como no podia ser diferente, est presente no esporte, onde existem sistemas de avaliao de desempenho de atletas que so normalmente chamados por scout. Esse tipo de sistema, como apresentado na Introduo, tem como funo capturar e processar informaes estatsticas de desempenho dos atletas da equipe e da adversria, e que, em muitas vezes, no levam em considerao o histrico do jogador em outros jogos e nem o comportamento do atleta nos diferentes nveis/fases da partida. Dessa forma, os sistemas repassam dados para a comisso, que avalia essa gama diversificada referente aos fundamentos bsicos do vlei e/ou jogadas realizadas pela equipe adversria, num tempo reduzido e toma decises muitas vezes baseadas mais no conhecimento emprico do tcnico ou da comisso do que no fator racional real daquela situao (ZAMBERLAM et al., 2005). Bizzocchi apud (RAIMANN, 2008) aponta que nos jogos olmpicos de 1984, os norte-americanos foram os responsveis pela incluso do computador na quadra de voleibol, tornando-se obrigatrio tambm para treinamentos e elaborao de planos tticos e tcnicos. A seleo brasileira de vlei, comandada pelo tcnico Bernardo Rezende (Bernardinho), utiliza-se dos dois scouts: ttico e tcnico. O ttico faz um mapeamento da quantidade, do percentual e do tipo de jogadas do time adversrio; analisa tendncias dos atletas (direes, preferncias e posicionamentos). O scout tcnico analisa o prprio time, como cada atleta se comporta em cada fundamento, qual seu aproveitamento final. Isso possibilita, por exemplo, elaborar quadros evolutivos de saque de um determinado atleta (BERNARDINHO, 2006). A planilha, encontrada na Figura 2.1, foi apresentada pelo tcnico da seleo brasileira, com o objetivo de exemplificar a utilizao da anlise estatstica nos jogos da seleo. Essa planilha apresenta os dados coletados durante os Jogos Olmpicos,
34
realizado na Grcia, na data do dia 29 de agosto de 2004. O jogo em questo foi final dos Jogos Olmpicos, realizado entre Brasil e Itlia.
Figura 2.1 Figura da tabela de anlise estatstica dos fundamentos de voleibol.

Fonte: BERNARDINHO, 2006
Esses dados so coletados durante a partida por um ou mais scouters. Antes da informtica, os scouters coletavam esses dados em planilhas manuais, analisando os jogos gravados em fitas de vdeo (VHS). Atualmente, os sistemas scouts permitem o armazenando desses dados durante a partida, o processo de coleta de dados (ao longo do jogo) difcil, pois a velocidade com que um jogo de vlei transcorre alta, ento normal que contenham erros em seqncias de jogadas. Alguns sistemas scouts possuem regras que no permitem erros primrios, por exemplo, depois de um saque ocorrer um levantamento da equipe adversria sem ocorrer uma recepo. De posse dos dados, os estatsticos das equipes comeam a fazer os estudos para apresentarem para suas comisses tcnicas, emitindo, assim, relatrios estatsticos comisso tcnica, que por sua vez faz uma anlise emprica em cima dos dados que a mesma considera importantes. No calor de uma partida, dados podem ser interpretados de maneira equivocada, proporcionando tomadas de decises equivocadas. Esses estudos so realizados antes, durante e aps a partida (RAIMANN, 2008). Bernardinho (2006) aponta que ao analisar a Figura 2.1, a relao total de saqueserrados / saques-pontos tem um saldo muito positivo, pois a equipe teve 10 saques errados, mas, fez nove aces (pontos obtidos direto do saque). Avaliando a coluna bloqueio (BLOK), possvel distinguir entre bloqueio-ponto (BP) e bloqueio para contra-ataque (BC), ou seja, aqueles que propiciam contra-ataques so bloqueios defensivos extremamente importantes. muito freqente, durante os jogos, ocorrerem um nmero pequeno de BP, mas um nmero
35
elevado de BC. So avaliados ainda os passes, a qualidade de cada ao e a proporo de passes acertos (PA), ditos perfeitos sobre o total de aes, Bernardinho (2006) afirma que as colunas de contra-ataque mostram talvez o ponto menos eficiente do jogo. Do total de contraataques (29), 14 foram convertidos em pontos, ou seja, 48% de aproveitamento. Observa-se tambm a grande atuao do atleta Gustavo, camisa 13, com 100% de aproveitamento. A coluna E aponta erros cometidos sem relao com as aes anteriormente avaliadas: mo na rede, dois toques, etc. J a coluna APV mede o aproveitamento individual de cada jogador: pontos efetuados pontos concedidos. Alm do sistema da seleo brasileira, que foi criado pela estatstica Roberta Giglio, existem outros sistemas scouts. Os mais conhecidos, de acordo com Raimann (2008), so: Scout Graph 1.0: sistema scout proprietrio da empresa SFW Informtica tem como funes armazenar dados de jogos especficos e gerar relatrios para uma anlise mais precisa de cada equipe, atleta ou fundamento, um sistema portvel a outros esportes como futebol, futebol de salo, basquete, voleibol e handebol; SisVolei: sistema scout proprietrio e atravs dele possvel analisar todos os fundamentos do vlei, sendo eles: saque, passe (recepo), levantamento, ataque, bloqueio e defesa, voltado ao voleibol apenas; Data Volley: sistema scout proprietrio desenvolvido pela empresa DataProject permite monitorar todos os fundamentos do voleibol, com uma avaliao completa, que inclui, alm do sentido, o tipo de ataque e as zonas de partida e de chegada, at mesmo, informaes especficas como o nmero de jogadores em bloco e o tipo de erro, alm disso, possui integrao com outros sistemas da empresa como o Data Video 2007 que permite sincronizar, o scout com o filme do jogo, facilitando assim o estudo e entendimento dos atletas, apresentando
posicionamentos em funo das possveis alteraes de jogadores da equipe adversria. A maioria das grandes selees de vlei utiliza esse sistema.
36
Raimann (2008) aponta como clara a importncia dos Sistemas de Monitoramento para auxiliar na tomada de deciso quando aplicada a esportes como o vlei. Por exemplo, jogadas velozes combinadas com boa ttica, posicionamento correto e anlise do adversrio, podem ser decisivos para a vitria do jogo e at mesmo do campeonato. O scout desenvolvido por Raimann (2008) tem as seguintes caractersticas: no um sistema proprietrio, possui cadastro de jogos, cadastro de sets, cadastro de rotao inicial do set, o mdulo de entrada de dados de um jogo, em que os fundamentos so cadastrados na forma de caracteres. Com a finalidade de tornar mais rpida a entrada de dados, foi proposta uma gramtica para anlise de comandos suprindo as necessidades de velocidade no cadastro das jogadas. A gramtica de comandos foi criada de forma a ser mais completa, mas para o sistema scout aborda somente a entrada de dados relativa aos fundamentos do voleibol. Enfim, aps a descrio de um sistema scout, segue a apresentao de um sistema scout (para o basquete) que se utiliza da minerao de dados.
2.1
Trabalho Correlato - Advanced Scout: Data Mining and Knowledge Discovery in NBA Data Em (BHANDARI et al.,1997), apresentado o software Advanced Scout (AS). Esse
sistema procura e descobre padres interessantes em dados de jogos da NBA (liga norteamericana de basquete). Sua primeira utilizao se deu na temporada 1995-1996, onde dezesseis das vinte e nove equipes o receberam para avaliao. As comisses tcnicas o avaliaram positivamente, afirmando ser uma valiosa ferramenta. Esse software trabalha em quatro etapas: coleta de dados, pr-processamento, minerao de dados e interpretao do conhecimento descoberto. A coleta de dados feita por um software especialmente desenhado para o registro de dados de basquete. Esses dados so armazenados em uma base de dados comum a todas as equipes. Posteriormente, as equipes realizam o download dessa base de dados e a manipulam de forma independente e sigilosa. O pr-processamento feito aps o download da base de dados. O AS permite realizar uma srie de consistncias na base de dados, visto que informaes errneas permitiriam interpretaes erradas dos dados, assim os dados errados so corrigidos por meio de regras base ou atravs de algum que tenha domnio do assunto. Aps a consistncia, os
37
dados so transformados e reformatados. Os dados brutos so reformatados na forma de fichas de jogo, que so familiares para as comisses tcnicas que, assim, analisam os eventos discretos (padres) de um jogo. Nessa fase os dados so enriquecidos atravs da verificao das regras ou da entrada de dados adicionais. A minerao de dados no AS ocorre quando um membro da comisso tcnica inicia uma consulta geral. Automaticamente a minerao de dados procura por padres interessantes na equipe da casa ou na visitante, em busca dos arremessos cesta de basquete (um dos fundamentos do basquete, por exemplo), detectando o percentual padro de desempenho (aproveitamento). As anlises posteriores podem incluir consultas mais especficas em torno de atributos (como por exemplo, o jogador, a funo do jogador, lado da quadra, etc.) ou fundamentos particulares (rebote, arremesso, etc.). A tcnica de minerao de dados utilizada no AS conhecida como Attribute Focusing (AF) (BHANDARI, 1995). A interpretao do conhecimento descoberto a forma como o resultado da minerao de dados mostrada. No AS, os resultado so vistos de duas formas: atravs de uma descrio textual ou grfica. O objetivo que os resultados sejam compreendidos facilmente pela comisso tcnica. O processo de interpretao de padres representa a descoberta de conhecimento e exige, normalmente, algum que tenha domnio do assunto. Essa interpretao facilitada pela possibilidade do usurio ter vrias formas de aprofundar a anlise interativamente para obter informaes adicionais ao resultado. A seguir, a descrio de um trabalho, fora do domnio de sistemas de scout, mas que colaborou na realizao deste trabalho.
2.2
Utilizao de tcnicas de KDD em um call center ativo O Trabalho de Concluso de Curso apresentado por Gonchoroski (2007), mostrou
que o fato de Call Center no possuir nenhuma tcnica de minerao de dados pode significar um mau aproveitamento dos dados disponveis. Uma vez que o emprego de minerao confirmou a existncia de informaes importantes que no estavam disponveis na visualizao dos dados, que dizem respeito relao entre as caractersticas dos clientes e o resultado do contato. Como so vrios os fatores que influenciam as vendas, importante a combinao de mais de uma caracterstica do cliente, e isso pode ser fundamental para definir o perfil da pessoa que mais adquire produtos.
38
O foco da aplicao das tcnicas de Descoberta de Conhecimento em Base de Dados (DCBD) ou Knowledge Discovery in Databases (KDD) desse trabalho foi a venda de ttulos de capitalizao, pois grande quantidade de atributos presentes em cada registro de cliente a ser contatado, crescendo a possibilidade de aumentar o grau de qualidade e diversidade das informaes geradas. A tcnica de KDD escolhida foi a de classificao. As rvores de classificao tornaram possvel organizar os atributos e a relao entre eles, para os contatos com venda ou recusa. O software de minerao utilizado foi WEKA verso 3, que possui todas as funcionalidades necessrias para aplicar KDD e dar todo o suporte para que os dados sejam minerados. A aplicao de tcnicas de KDD permitiu conhecer os perfis dos compradores em potencial dos produtos, possibilitando unir o conhecimento adquirido pelos analistas de informaes da empresa de telemarketing e o conhecimento descoberto com a minerao, auxiliando a seleo mais eficiente dos prospectos, aumentando as vendas e reduzindo a quantidade de contatos telefnicos com os clientes. Aps apresentar esses trabalhos correlatos mostrando a influncia da Data Mining sobre os Sistemas de Tomada de Deciso, no prximo captulo apresentada a proposta de um Mdulo de Data Mining para o sistema scout de Raimann (2008).
A PROPOSTA DE MDULO DE MINERAO
Um sistema scout, como j escrito, um sistema estatstico de monitoramento de atletas, auxiliando em decises importantes na gesto de equipes. Entretanto, a quantidade de informaes continua muito grande, deixando o processo de decidir dependente da experincia do tcnico ou de algum integrante da comisso tcnica. Solieman (2006) aponta que h igualmente muitos tipos de estatsticas que so recolhidas para cada atleta. Por exemplo, um jogador de basquetebol ter dados para pontos, rebotes, assistncias, roubadas e bloqueios para cada jogo. Isso pode conduzir sobrecarga de informao para aqueles que tentam derivar o significado das estatsticas. Assim, os esportes so ideais para ferramentas e tcnicas da minerao de dados. A vantagem para equipes esportivas quando utilizam a minerao de dados est no desempenho resultante de suas equipes e respectivos jogadores. Alguns esportes so atualmente mais avanados do que outros, em especial no caso do voleibol e de seu uso atual da anlise estatstica. Por isso, surge a idia deste trabalho - desenvolver um mdulo de minerao de dados para o sistema: Scout: Sistema de Monitoramento em Equipes de Voleibol desenvolvido por Raimann (2008), parte integrante do projeto de pesquisa A IA entrando na quadra de vlei: Scout Inteligente (ZAMBERLAM, 2005). Para facilitar a visualizao, a Figura 3.1 ilustra o que est sendo realizado e como o mdulo de minerao far parte do sistema scout.
40
Figura 3.1 Esquema geral do scout inteligente

Fonte: ZAMBERLAM, 2005
O mdulo de minerao interage com a base de dados, destacado com crculo na Figura 3.1, fornecendo informaes mais precisas comisso tcnica, evitando assim o uso de complicadas planilhas, pois existem grandes dificuldades nas leituras dessas planilhas. Os dados que so inseridos no passam por nenhuma filtragem, no saltam aos olhos os problemas ou as vantagens das equipes na partida. Na Figura 3.2 possvel visualizar parte da estrutura do banco de dados do sistema de scout desenvolvido por Raimann (2008), a fim de ilustrar em quais dados a minerao dever atuar. Para armazenar os dados de maneira mais eficiente, foram feitas algumas alteraes na base de dados original. As alteraes foram a incluso do campo Tempo na tabela de Movimento, para saber em qual momento do jogo ocorreu o movimento; a outra foi a inverso das cardinalidades entre as tabelas Movimento e Evento, onde um movimento ter N eventos at a concluso do ponto. E entre tabelas Evento, Saque, DefesaPasse, Levantamento, Cortada e Bloqueio, onde cada evento representa um fundamento at a concluso do movimento. Essa alterao pode ser vista na Figura 3.3.
41
Figura 3.2 Modelagem do banco de dados do sistema scout

Fonte: RAIMANN, 2008
42
Figura 3.3 Modelagem do banco de dados alterada

Fonte: Autor, 2008
43
Atravs dessa estrutura do banco de dados, possvel perceber a quantidade de dados que uma partida de voleibol pode gerar. Por meio do diagrama de atividade apresentado na Figura 3.4, pode-se visualizar como o sistema de scout se comporta.
Figura 3.4 Diagrama de Atividade do sistema scout de Raimann (2008)

Fonte: Autor, 2008
De forma simplificada, pode-se dizer que o processo de scout de uma partida propriamente dito, inicia a partir do cadastro de jogos, para cada jogo so cadastrados todos os jogadores (duas equipes por partida) que ficaro disponveis para a disputa. O prximo passo
44
cadastrar os sets e quais sero os fundamentos (saque, bloqueio, etc.) que sero analisados. Ao inicializar cada set so informados os jogadores que entram em quadra. Esse o cadastro de rotao inicial, tambm deve ser sinalizado qual o jogador sacador, por meio desses dados que ser controlada a rotao do jogo, que realizada automaticamente pelo sistema. A partir desse ponto, os scouters (pessoas que ficam na quadra cadastrando cada jogada e substituies ocorridas durante a partida) do a entrada de dados do jogo. Conforme Raimann (2008), esses dados so gravados na forma de caracteres, com o objetivo de tornar mais rpida a entrada de dados. Cada fundamento e sua seqencia de caracteres so separados por ponto e vrgula. Abaixo descrito e ilustrado a seqncia de fundamentos executados em uma partida e como os dados devem ser inserido dentro do sistema scout de Raimann (2008). O fundamento saque armazena: nmero da camiseta do jogador, posio em que fez o saque, tipo de saque, direo em que fez o saque, efeito do saque e observaes. Na Figura 3.5 possvel visualizar o Mapa Conceitual desse fundamento.
Figura 3.5 Mapa Conceitual do Fundamento Saque

Os fundamentos defesa e passe armazenam as seguintes informaes: nmero da camiseta do jogador, posio em que fez a defesa, tipo de defesa, efeito da defesa e observaes, Figura 3.6 apresenta seu mapa conceitual.
45
Figura 3.6 Mapa Conceitual dos Fundamentos Defesa/Passe

O fundamento levantamento armazena: nmero da camiseta do jogador, posio em que fez o levantamento, forma de levantamento, qualidade do levantamento, direo do levantamento e observaes, veja seu mapa conceitual (Figura 3.7).
Figura 3.7 Mapa Conceitual dos Fundamentos Levantamento

No fundamento de ataque cortada, os dados so os seguintes: nmero da camiseta do jogador, posio em que fez a cortada, direo da cortada, efeito da cortada, velocidade da cortada e observaes, detalhes dos dados Figura 3.8.
46
Figura 3.8 Mapa Conceitual dos Fundamentos Cortada

Fundamento de defesa bloqueio armazena essas informaes: nmero da camiseta do jogador, posio em que fez o bloqueio, tipo de bloqueio, efeito do bloqueio e observaes, detalhes dos dados Figura 3.9.
Figura 3.9 Mapa Conceitual dos Fundamentos Bloqueio

So essas as informaes que o mdulo de Data Mining vai analisar, pois atravs de dados como o nmero do jogador que ser analisado o desempenho do mesmo em um set ou em uma partida. A posio de cada fundamento essencial para analisar as preferncias dos jogadores e tambm pontos fracos dos mesmos. O efeito a conseqncia do fundamento, que uma numerao de 0 a 3, onde zero erro do fundamento, gerando assim ponto para o
47
adversrio, 1 continuidade negativa, pois possibilita ao adversrio um contra ataque, 2 uma continuidade positiva pois gerou dificuldades ao adversrio e 3 e ponto direto da equipe. Alguns fundamentos tm outras informaes relevantes, como a direo comum a saque, levantamento e cortada. O fundamento de defesa/passe ainda conta com informao sobre o tipo de defesa/passe. No levantamento a forma e a qualidade so informaes imprescindveis. Na cortada a velocidade pode ser um fator relevante e no bloqueio seu tipo a informao mais importante. Essas informaes vo passar por um tratamento, que ser a etapa da preparao de dados que est inserida no captulo 4. Uma vez contextualizado os dados a serem manipulados pelo mdulo proposto, seguem os detalhes da modelagem.
3.1
Especificao dos requisitos De acordo com Guedes (2008); a especificao de requisitos de software contm e
descreve os requisitos, ou seja, define o produto e pode servir como um documento auxiliar no contrato de desenvolvimento do produto. As sees que seguem, referentes modelagem, foram baseadas nas orientaes encontradas em (MEDEIROS, 2004).
3.1.1 Requisitos funcionais Conforme Guedes (2008) os requisitos funcionais so declaraes de funes que o sistema deve fornecer, como o sistema deve reagir a entradas especficas e como deve se comportar em determinadas situaes. REQF1 [Controlar Acesso ao Sistema] Requisito corresponde ao controle de acesso s opes do site: caso o usurio esteja com o status bloqueado ele no ter acesso a nenhuma opo no sistema, herdado do sistema proposto por Raimann (2008). Classificao: Essencial
48 REQF2 [Gerar Dados para Anlise] Requisito que corresponde a gerar dados para anlise para o mdulo de Minerao de Dados. Deve constar: data e hora da gerao dos dados. atravs desse requisito que so executados os primeiros passos da minerao de dados, onde os dados da base de dados original so selecionados e inseridos no Data Mart, esses dados ganham um cdigo e data e hora de gerao para futuras comparaes histricas. Esse procedimento ser realizado atravs de comandos SQL (select, insert) que sero colocados em uma funo do PostgreSQL, essa executada a partir do site da aplicao. Classificao: Essencial REQF3 [Selecionar Dados Gerados para Anlise] Requisito que corresponde a consultar os dados para anlise para o mdulo de Minerao de Dados. Atravs de uma lista de cdigos, data e hora o usurio selecionar a gerao desejada para a minerao de dados. Classificao: Essencial REQF4 [Aplicar Tcnicas de Minerao de Dados] Requisito que corresponde a aplicao das tcnicas de minerao de dados na consulta selecionada no REQF3, esse requisito consiste nos demais passos da minerao de dados, nesse requisito que so gerados os arquivos ARFF para serem submetidos s classes selecionadas do WEKA. Classificao: Essencial
3.1.2 Requisitos no funcionais Guedes (2008) afirma que so restries sobre os servios ou as funes oferecidas pelo sistema. Entre eles, destacam-se restries de tempo, restries sobre o processo de desenvolvimento, padres e outros.
49 REQNF1 [Utilizao de Banco de Dados Relacional] Requisito que corresponde a utilizao de um banco de dados relacional. Vai manterse a utilizao do PostgreSQL. Classificao: Essencial REQNF2 [Base de dados Alimentada] A base de dados do sistema desenvolvido por Raimann (2008) deve estar alimentada com dados de pelo menos cinco jogos envolvendo uma determinada equipe para que os resultados da minerao de dados sejam proveitosos efetivamente. Classificao: Essencial REQNF3 [Links/cones/Botes para Acesso s Principais Funes] Requisito corresponde ao acesso s principais funes por meio de links/cones. Facilitando assim a utilizao do sistema. Classificao: Essencial REQNF4 [Java Virtual Machine] Requisito corresponde execuo do mdulo. Classificao: Essencial
3.2
Casos de Uso Para Guedes (2008) o diagrama mais geral da UML2, utilizado na maioria das
vezes nas fases de levantamento e anlise de requisitos do sistema, tambm utilizado durante todo o processo de modelagem e serve como base para outros diagramas, fornecendo uma compreenso comum entre todos os envolvidos no projeto.
UML: Unified Modeling Language ou simplesmente Linguagem de Modelagem Unificada.
50
3.2.1 Diagrama de Casos de Uso O diagrama apresenta uma macro atividade do sistema, descrevendo/detalhando as opes que o sistema disponibilizar. Tambm busca identificar os atores que executam atividades, bem como outros sistemas que possam interagir com o sistema. Para Medeiros (2004) um Ator pode ser uma pessoa, um sistema ou mesmo uma entidade externa. Na Figura 3.10 apresentado um diagrama geral do sistema scout e onde o mdulo de Minerao de Dados entra. A Figura 3.11 detalha as opes que o mdulo de Minerao, assim como os Atores que tero interao com o mesmo.
Figura 3.10 Diagrama de Caso de Uso geral

Fonte: AUTOR, 2008
51
Figura 3.11 Diagrama de Caso de Uso geral do mdulo de Minerao de Dados

Fonte: AUTOR, 2008
3.2.2 Casos de Uso Estendidos So utilizados para detalhar de forma mais precisa as interaes entre os usurios e o mdulo de minerao de dados. Lembrando que essa estrutura foi baseada em (MEDEIROS, 2004). UC001 Gerar Dados para Anlise Breve Descritivo: Este caso de uso descreve o processo de Gerar Dados para Anlise. Quadro 3.1 Caso de Uso Gerar Dados para Anlise Requisitos Funcionais: Requisitos No Funcionais: REQF1 [Controlar Acesso ao Sistema] REQNF1 [Utilizao de Banco de Dados Relacional] REQNF2 [Base de dados Alimentada] REQNF3 [Links/cones/Botes para Acesso s Principais Funes]
52 REQNF4 [Java Virtual Machine] Atores: Pr-condies: Fluxo Principal: Usurio Administrador. Ser um usurio com permisses de administrador. O administrador acessa o mdulo de minerao de dados e clica na opo gerar dados para anlise. Campo: data e hora da gerao. Subfluxo: 1. Gerar Dados. Subfluxos: 1. Gerar Dados: 1.1 O administrador informa a data e a hora da nova gerao; 1.2 O administrador clica no boto/link Gerar Dados; 1.3 O mdulo verifica os dados e sugere um cdigo para a nova gerao; 1.4 O mdulo executa a funo do PostgreSQL (Figura Apndice 1) que seleciona os dados na base de dados original e os insere no Data Mart, essa etapa no processo de minerao de dados equivale a preparao dos dados; 1.5 O mdulo retorna a mensagem: Dados gerados com sucesso.. Tratamento de Excees: 1.3.1 Verifica se os dados foram preenchidos corretamente. Caso no estejam ele retorna a mensagem de erro Dados para gerao no informados.. 1.3.2 Caso o banco de dados no responda a requisio ele retorna a mensagem de erro Banco indisponvel.. Ps-condies: Fonte: Autor, 2008. O Diagrama de Atividade referente gerar dados para anlise apresentado na Figura 3.12. importante ressaltar que o uso de diagramas de atividades com casos de usos estendidos auxilia na validao dos fluxos, subfluxos e excees descritas nos casos de uso. Os usurios administrador, scouter, restrito estaro aptos a consultar os dados gerados para anlise.
53
Figura 3.12 Diagrama de Atividade referente a gerar dados para anlise

Fonte: AUTOR, 2008
UC002 Selecionar Dados Gerados para Anlise Breve Descritivo: Este caso de uso descreve o processo de Selecionar Dados Gerados para Anlise. Quadro 3.2 Caso de Uso Selecionar Dados Gerados para Anlise Requisitos Funcionais: Requisitos No Funcionais: REQF1 [Controlar Acesso ao Sistema] REQF2 [Gerar Dados para Anlise] REQNF1 [Utilizao de Banco de Dados Relacional]
54 REQNF2 [Base de dados Alimentada] REQNF3 [Links/cones/Botes para Acesso s Principais Funes] REQNF4 [Java Virtual Machine] Atores: Pr-condies: Fluxo Principal: Usurio Administrador, Scouter e Restrito. Ser um usurio cadastrado no sistema. Ter dados gerados para consulta. O usurio acessa o mdulo de minerao de dados e clica na opo selecionar dados gerados para anlise. Campos: Data Incio e Data Fim Subfluxo: 1. Consultar Geraes; 2. Selecionar Gerao. Subfluxos: 1. Consultar Geraes: 1.1 O usurio informa a data e hora de incio e fim da gerao que deseja realizar anlises; 1.2 O usurio clica no boto/link Consultar Geraes; 1.3 O mdulo carrega os dados em uma tabela, listados com o cdigo, data e hora de sua gerao alm da coluna selecionado; 2. Selecionar Gerao: 2.1 O usurio seleciona a gerao desejada clicando sobre o boto de checagem da coluna selecionado; 2.2 O usurio clica Informaes; no boto/link Salvar
2.3 O mdulo grava as informaes no banco de dados; 2.4 O mdulo retorna a mensagem: Dados salvos com sucesso.. Tratamento de Excees: 1.3.1 e 2.3.1 Caso o banco de dados no responda a requisio ele retorna a mensagem de erro Banco indisponvel.. Os usurios estaro aptos a aplicar as tcnicas de MD.
Ps-condies: Fonte: Autor, 2008. estendido.
Figura 3.13 apresenta o diagrama de atividade, a fim de contemplar o caso de uso
55
Figura 3.13 Diagrama de Atividade referente a selecionar dados gerados para anlise
Fonte: AUTOR, 2008
UC003 Aplicar Tcnicas de Minerao de Dados Breve Descritivo: Este caso de uso descreve o processo de Aplicar Tcnicas de Minerao de Dados. Quadro 3.3 Caso de Uso Aplicar Tcnicas de Minerao de Dados Requisitos Funcionais: REQF1 [Controlar Acesso ao Sistema] REQF2 [Gerar Dados para Anlise]
56 REQF3 [Selecionar Dados Gerados para Anlise] Requisitos No Funcionais: REQNF1 [Utilizao de Banco de Dados Relacional] REQNF2 [Base de dados Alimentada] REQNF3 [Links/cones/Botes para Acesso s Principais Funes] REQNF4 [Java Virtual Machine] Atores: Pr-condies: Fluxo Principal: Usurio Administrador, Scouter e Restrito. Ser um usurio cadastrado no sistema. Ter selecionado dados para a anlise. O usurio acessa o mdulo de minerao de dados e clica na opo aplicar tcnicas de minerao de dados. Subfluxo: 1. Relatrio de Agrupamento de Atletas por Efeito de Fundamento; 2. Relatrio de Agrupamento de Atletas por Posio e Efeito de Fundamento. Subfluxos: 1. Relatrio de Agrupamento de Atletas por Efeito de Fundamento: 1.1 Usurio clica no boto/link Agrupamento de Atletas por Efeito de Fundamento; 1.2 O mdulo atravs de uma funo do PostgreSQL (Figura Apndice 2) gera o arquivo ARFF e o grava no disco rgido; 1.3 O mdulo, atravs da classe de integrao ClusteringEM carrega o arquivo ARFF e submete a classe EM do WEKA atravs do mtodo buildClusterer, depois o retorno lido pela classe de integrao atravs do mtodo getNumClusters da classe ClusterEvaluation; 1.4 Esse retorno tratado para que os dados sejam de fcil entendimento da comisso tcnica; 2. Relatrio de Agrupamento de Atletas por Posio e Efeito de Fundamento: 2.1 Usurio clica no boto/link Agrupamento de Atletas por Posio e Efeito de Fundamento; 2.2 O mdulo atravs de uma funo do PostgreSQL (Figura Apndice 3) gera o arquivo ARFF e o grava no disco rgido; 2.3 O mdulo, atravs da classe de integrao ClusteringFarthestFirst carrega o arquivo ARFF e submete a classe FarthestFirst do WEKA
57
atravs do mtodo buildClusterer, depois o retorno lido pela classe de integrao atravs dos mtodos getNumClusters e toString da prpria classe ClusterEvaluation FarthestFirst; 2.4 Esse retorno tratado para que os dados sejam de fcil entendimento da comisso tcnica. Tratamento de Excees: 1.2.1 e 2.2.1 Caso o banco de dados no responda a requisio ele retorna a mensagem de erro Banco indisponvel.. Os usurios administrador, scouter, restrito estaro aptos analisar relatrio das tcnicas aplicadas.
Ps-condies: Fonte: Autor, 2008.
Figura 3.14 apresenta o diagrama de atividade, como forma de validar o caso de uso estendido.
Figura 3.14 Diagrama de Atividade referente a aplicar tcnicas de minerao de dados

Fonte: AUTOR, 2008
58
3.3
Diagrama de Classes Guedes (2008) aponta que o principal objetivo do diagrama de classes apresentar
quais classes vo compor o mdulo com seus respectivos atributos e mtodos, alm de demonstrar como as classes se relacionam. Na seguir (Figura 3.15) apresentado o diagrama de classes do mdulo proposto.
59
Figura 3.15 Diagrama de Classes referente a integrao do mdulo MD e o WEKA

Fonte: AUTOR, 2008
60
3.4
Diagrama de Seqncia Medeiros (2004) afirma que esse diagrama pode ser usado para mostrar a evoluo
de uma dada situao em determinado momento do software, mostrar uma dada colaborao entre as classes e pode, tambm, ser usado para mostrar a traduo do caso de uso. Enfim, atravs desse diagrama que mtodos so definidos e em quais classes eles sero depositados. A seguir (Figuras 3.16, 3.17 e 3.18) so apresentados os diagramas de seqncia dos casos de uso apresentados anteriormente.
Figura 3.16 Diagrama de Seqncia referente ao caso de uso UC001 (Gerar Dados para Anlise)
Fonte: AUTOR, 2008
Figura 3.17 Diagrama de Seqncia referente ao caso de uso UC002 (Selecionar Dados Gerados para Anlise)
Fonte: AUTOR, 2008
61
Figura 3.18 Diagrama de Seqncia referente ao caso de uso UC002 (Selecionar Dados Gerados para Anlise)
Fonte: AUTOR, 2008
Com base nos casos de uso e nos diagramas apresentados possvel iniciar o desenvolvimento do mdulo de minerao de dados, que segue no prximo captulo.
PROTTIPO DO MDULO DE MINERAO DE DADOS
Este trabalho apresenta um projeto de um mdulo de minerao de dados. Essa mais uma etapa concluda do Projeto de Pesquisa A IA Entrando na Quadra de Vlei: Scout Inteligente.
4.1
Linguagem de Programao Para o desenvolvimento do mdulo proposto, recomendada a linguagem de
programao Java 3, pois ela compatvel com os sistemas suporte, pois tanto o sistema scout de Raimann (2008) quanto o WEKA so sistemas desenvolvidos nessa linguagem. De acordo com a Sun, as principais qualidades so a versatilidade, eficincia e portabilidade, permitindo aos desenvolvedores:
Criar um software em uma plataforma e execut-lo em praticamente qualquer outra;
Criar programas para execuo em navegadores e servios da Web; Desenvolver aplicativos no lado do servidor usados tanto em fruns, lojas e pesquisas on-line, como no processamento de formulrios HTML, e muito mais;
Combinar aplicativos ou servios usando a linguagem Java para criar aplicativos ou servios altamente personalizados;
Criar aplicativos potentes e eficazes para telefones celulares, processadores remotos, produtos de consumo de baixo custo e praticamente qualquer outro dispositivo com tecnologia digital.
http://java.sun.com
63
Alm disso, podem-se destacar outras vantagens apresentadas pela linguagem:

Sintaxe similar a Linguagem C/C++; Facilidades de Internacionalizao: Suporta nativamente caracteres Unicode; distribuda com um vasto conjunto de bibliotecas ou APIs; Possui facilidades para criao de programas distribudos e multitarefa; Desalocao de memria automtica por processo de coletor de lixo, Garbage Collector.
O tipo de aplicao, web ou desktop, dever ser definida aps uma melhor anlise do tempo de processamento dos algoritmos de minerao de dados, os ensaios feitos durante esse trabalho tiveram uma quantidade de dados muito pequena. Caso aplicao seja web, dever ser instalado um servidor de aplicao, o mais conhecido o Apache Tomcat4, esse servidor distribudo como software livre e desenvolvido como cdigo aberto dentro do conceituado projeto Apache Jakarta e oficialmente endossado pela Sun como a Implementao de Referncia (RI) para as tecnologias Java Servlet e Java Server Pages (JSP). A ferramenta para o ambiente de desenvolvimento do modulo o Eclipse IDE5 para Java. um ambiente de desenvolvimento integrado de cdigo aberto para a construo de programas de computador. mantida atualmente pela Eclipse Foundation6.
4.2
Sistema de Gerenciamento de Banco de Dados Como Sistema de Gerenciamento de Banco de Dados Objeto-Relacional foi utilizado
o PostgreSQL 8.3.37, pois Open Source. Foi desenvolvido pela PostgreSQL Global Development Group8 e possui a caracterstica de ser multiplataforma. O PostgreSQL possui alguns recursos como:

Consultas complexas; Chaves estrangeiras;
4 5
http://tomcat.apache.org/download-60.cgi#6.0.16 http://www.eclipse.org/ 6 http://www.eclipse.org/org/foundation/ 7 http://www.postgresql.org/docs/ 8 http://www.postgresql.org/
64
Integridade transacional; Controle de concorrncia multi-verso; Suporte ao modelo hbrido objeto-relacional; Trigger; Views; Stored Procedures em vrias linguagens.
4.3
Ferramenta para Administrao do PostgreSQL Como ferramenta de administrao e manipulao de dados, foi utilizado o SQL
Manager for PostgreSQL 4.4.0.69 da EMS10, contudo essa ferramenta no livre, mas permite avaliao por trinta dias. Seu diferencial so os inmeros recursos facilitadores para o desenvolvimento, gerenciamento e manipulao de dados.
4.4
Modelagem do Mdulo de Minerao de Dados Utilizou-se a UML 2.0 como linguagem de modelagem dos aspectos estruturais e
funcionais do modulo proposto. Optou-se por UML pela caracterstica flexvel e por ser uma linguagem grfica. Foi utilizado o JUDE Community 5.3.2811, que uma ferramenta para modelagem, devido a sua caracterstica de software livre.
4.5
Prottipo do Mdulo de Minerao de Dados O prottipo do sistema foi baseado nos requisitos apresentados no captulo 3 item 3.1
e nos casos de uso descritos no item 3.2. A seguir so apresentados os prottipos das telas do mdulo. Esses prottipos foram desenvolvidos utilizando a tecnologia ASP.net da Microsoft por causa de sua fcil manipulao com componentes web. A seguir (Figura 4.1) a tela inicial do mdulo.
http://sqlmanager.net/products/postgresql/manager/ http://sqlmanager.net/en/about 11 http://jude.change-vision.com/jude-web/product/community.html

10
65
Figura 4.1 Prottipo da tela inicial do mdulo de minerao de dados

Fonte: AUTOR, 2008.
Tela de gerao de dados para o mdulo de minerao de dados.
Figura 4.2 Prottipo da tela de gerao de dados para o mdulo de MD

Fonte: AUTOR, 2008.
66
A prxima tela que permite o usurio selecionar os dados desejados para aplicao das tcnicas de minerao de dados e posterior anlise.
Figura 4.3 Prottipo da tela de selecionar dados gerados para anlise

Fonte: AUTOR, 2008.
A seguir a tela referente aplicao das tcnicas de minerao de dados.
Figura 4.4 Prottipo da tela de aplicar tcnicas de minerao de dados

Fonte: AUTOR, 2008.
67
Alm da prototipao das telas, tambm foram desenvolvidas algumas etapas da minerao de dados, parte do processo para que o mdulo seja integrado ao WEKA.
4.6
Preparao dos Dados Minerao de Dados Aps os ajustes feitos na base de dados do sistema scout de Raimann (2008)
ilustrado na Figura 3.3 do captulo 3, foram simulados alguns sets para que houvesse dados para que fossem elaborados os procedimentos de minerao de dados. As informaes armazenadas na base de dados do sistema scout so preparadas e carregadas em um Data Mart. Esse Data Mart estruturado para unir os dados dos fundamentos, possibilitando assim uma melhor viso dos dados que sero submetidos a Minerao de Dados como pode ser visto na Figura 4.5.
Figura 4.5 Modelagem do Data Mart

Fonte: AUTOR, 2008
Aps a criao desse Data Mart e da funo apresentada na Figura Apndice 1, possvel popular com os dados inseridos na base original do sistema scout de Raimann (2008). Alm dessa funo, foram criadas outras duas funes que geram os arquivos ARFF para cada uma das tcnicas selecionadas para os experimentos. Essas funes so apresentadas nas Figuras Apndice 2 e 3. O prximo passo criao das classes de integrao para que o mdulo possa comunicar-se diretamente com o WEKA.
68
4.7
Classes de integrao Mdulo com o WEKA A responsabilidade dessas classes comunicar os arquivos ARFF gerados pelas
funes citadas anteriormente com o WEKA, sem que o usurio tome conhecimento, sendo assim um processo transparente. Aps a aplicao de trs tcnicas de minerao de dados (regras de associao, agrupamento e classificao) no Data Mart, a tcnica escolhida para o mdulo foi a de agrupamento. Essa tcnica possibilitou resultados interessantes, apesar da base de dados ser incipiente. Os dados exibidos por essa tcnica so entendveis a algum que est familiarizado com o voleibol. Outro ponto positivo foi o grande nmero de algoritmos disponveis para essa tcnica, porm foram selecionados os algoritmos EM12 e FarthestFirst13 para o desenvolvimento das classes. A classe apresentada na Figura 4.6 responsvel pela integrao entre o mdulo e o algoritmo EM do WEKA.
12
Algoritmo EM (Expectation Maximization): atribui uma distribuio da probabilidade a cada exemplo, que indica a que agrupamento pertence a cada exemplo. 13 Algoritmo FarthestFirst: maiores informaes leia Hochbaum, D.; Shmoys, D.. A best possible heuristic for the k-center problem. Em Mathematics of Operations Research, 10(2):180-184, 1985.
69
import import import import
weka.core.Instances; weka.clusterers.DensityBasedClusterer; weka.clusterers.EM; weka.clusterers.ClusterEvaluation;
import java.io.BufferedReader; import java.io.FileReader; /** * @author merson Butzen */ public class ClusteringEM { /** * @param filename the name of the ARFF file to run on */ public ClusteringEM(String filename) throws Exception { Instances data; data = new Instances(new BufferedReader(new FileReader(filename))); // normal System.out.println("\n--> normal"); String[] options; options = new String[2]; options[0] = "-t"; options[1] = filename; ClusterEvaluation eval; DensityBasedClusterer cl; cl = new EM(); System.out.println( ClusterEvaluation.evaluateClusterer(cl, options) ); // manual call System.out.println("\n--> manual"); cl.buildClusterer(data); eval = new ClusterEvaluation(); eval.setClusterer(cl); eval.evaluateClusterer(new Instances(data)); System.out.println("# of clusters: " + eval.getNumClusters()); // density based System.out.println("\n--> density (CV)"); cl = new EM(); eval = new ClusterEvaluation(); eval.setClusterer(cl); eval.crossValidateModel(cl, data, 10, data.getRandomNumberGenerator(1)); System.out.println("# of clusters: " + eval.getNumClusters()); } }
Figura 4.6 Figura apresenta o cdigo fonte da classe de integrao ClusteringEM

Fonte: AUTOR, 2008
J a classe apresentada na Figura 4.7 responsvel pela integrao entre o mdulo e o algoritmo FarthestFirst do WEKA.
70
package ModuloDM; import weka.core.Instances; import weka.clusterers.FarthestFirst; import java.io.BufferedReader; import java.io.FileReader; /** * @author */ merson Butzen
public class ClusteringFarthestFirst { /** * @param filename the name of the ARFF file to run on */ public ClusteringFarthestFirst(String filename) throws Exception { Instances data; String[] options; FarthestFirst cl = new FarthestFirst(); data = new Instances(new BufferedReader(new FileReader(filename))); // normal System.out.println("\n--> normal"); options = new String[1]; options[0] = "-N 4"; cl.setOptions(options); cl.buildClusterer(data); System.out.println("# of clusters: " + cl.getNumClusters()); System.out.println(cl.toString()); } }
Figura 4.7 Figura apresenta o cdigo fonte da classe de integrao ClusteringFarthestFirst

Fonte: AUTOR, 2008
Para cada tcnica/algoritmo de minerao de dados foi criada uma classe de integrao, pois cada algoritmo do WEKA tem mtodos diferentes uns dos outros. A seguir so apresentados alguns resultados obtidos nos experimentos.
4.8
Resultados Os resultados apresentados, a seguir, foram produzidos atravs do mdulo proposto.
Para aferir esses resultados, os mesmos arquivos de formato ARFF foram submetidos diretamente ferramenta WEKA, atravs do seu mdulo Explorer, e os resultados permaneceram os mesmos. Para o primeiro algoritmo (EM) da tcnica de agrupamento foi submetido um arquivo ARFF com os atributos fundamento, numerocamisetajogador e efeitofundamento, com um total de 31 registros, todos eles do fundamento bloqueio. O objetivo desse primeiro experimento avaliar o resultado da minerao e qual seria sua aplicao numa equipe de vlei, na Figura 4.8 o arquivo ARFF gerado.
71
@relation fundamentobloqueio @attribute fundamento {BL} @attribute numerocamisetajogador real @attribute efeitofundamento real @data BL,2,3 BL,4,3 BL,2,3 BL,4,3 BL,2,3 BL,4,3 BL,4,3 BL,4,3 BL,2,2 BL,4,3 BL,2,3 BL,4,3 BL,2,3 BL,4,3 BL,2,3 BL,2,3 BL,2,3 BL,2,3 BL,2,3 BL,4,3 BL,4,3 BL,4,3 BL,4,3 BL,2,3 BL,4,3 BL,4,3 BL,2,3 BL,2,3 BL,2,3 BL,4,3 BL,2,3
Figura 4.8 Figura apresenta o arquivo ARFF submetido ao algoritmo EM do WEKA

Fonte: AUTOR, 2008
O resultado da aplicao desse algoritmo apresenta na Figura 4.9, onde visto que foram criados trs agrupamentos, um para cada jogador e seus valores mais representativos. No primeiro agrupamento (cluster 0 da Figura 4.9) pode-se identificar que o atleta da camiseta nmero 2 realizou em torno (Discrete Estimator. Counts) de 14 bloqueios e o efeito desses foi de 3, ou seja, 14 pontos para sua equipe. Mas esses dados podem ser utilizados pela comisso tcnica adversria para orientar seus atletas para que no atacassem sobre esse atleta. O segundo agrupamento apresenta dados semelhantes, porm de outro atleta: atleta camiseta nmero 4. O ltimo agrupamento apresenta dados do mesmo atleta, camiseta nmero 2, onde houve uma mudana no efeito do fundamento. O efeito alcanado foi de 2 para duas ocorrncias, ou seja, continuidade positiva mas no ponto. Conclui-se assim que essa equipe altamente forte no bloqueio e que alternativas devem ser criadas para evit-lo.
72
--> normal EM == Number of clusters selected by cross validation: 3 Cluster: 0 Prior probability: 0.4833 Attribute: fundamento Discrete Estimator. Counts = 14.97 (Total = 14.97) Attribute: numerocamisetajogador Normal Distribution. Mean = 2.0269 StdDev = 0.2303 Attribute: efeitofundamento Normal Distribution. Mean = 3 StdDev = 0.1796 Cluster: 1 Prior probability: 0.4844 Attribute: fundamento Discrete Estimator. Counts = 17.03 (Total = 17.03) Attribute: numerocamisetajogador Normal Distribution. Mean = 3.8485 StdDev = 0.5292 Attribute: efeitofundamento Normal Distribution. Mean = 3 StdDev = 0.1796 Cluster: 2 Prior probability: 0.0323 Attribute: fundamento Discrete Estimator. Counts = 2 (Total = 2) Attribute: numerocamisetajogador Normal Distribution. Mean = 2 StdDev = 1.016 Attribute: efeitofundamento Normal Distribution. Mean = 2 StdDev = 0.1796 === Clustering stats for training data === Clustered 0 15 1 15 2 1 Instances ( 48%) ( 48%) ( 3%)
Log likelihood: 0.06105 --> manual # of clusters: 3 --> density (CV) # of clusters: 0
Figura 4.9 Figura apresenta o resultado da aplicao do algoritmo EM do WEKA

Fonte: AUTOR, 2008
No segundo algoritmo (FarthestFirst) da tcnica de agrupamento, foi submetido um arquivo ARFF com os atributos fundamento, numerocamisetajogador, posicaojogador e efeitofundamento (total de 31 registros) do fundamento bloqueio. A seguir o arquivo ARFF e o resultado da minerao de dados (Figuras 4.10 e 4.11).
73
@relation fundamentobloqueio @attribute fundamento {BL} @attribute numerocamisetajogador real @attribute posicaojogador {P1, P2, P3, P4, P5, P6} @attribute efeitofundamento real @data BL,2,P3,3 BL,4,P5,3 BL,2,P3,3 BL,4,P5,3 BL,2,P3,3 BL,4,P4,3 BL,4,P5,3 BL,4,P5,3 BL,2,P2,2 BL,4,P5,3 BL,2,P3,3 BL,4,P5,3 BL,2,P3,3 BL,4,P5,3 BL,2,P3,3 BL,2,P3,3 BL,2,P3,3 BL,2,P3,3 BL,2,P3,3 BL,4,P5,3 BL,4,P5,3 BL,4,P5,3 BL,4,P5,3 BL,2,P3,3 BL,4,P5,3 BL,4,P5,3 BL,2,P3,3 BL,2,P3,3 BL,2,P3,3 BL,4,P5,3 BL,2,P3,3
Figura 4.10 Figura do arquivo ARFF submetido ao algoritmo FarthestFirst do WEKA

Fonte: AUTOR, 2008
--> normal # of clusters: 2 FarthestFirst ============== Cluster centroids: Cluster 0 BL 4.0 P5 3.0 Cluster 1 BL 2.0 P2 2.0
Figura 4.11 Figura mostra o resultado da aplicao do algoritmo FarthestFirst do WEKA

Fonte: AUTOR, 2008
74
Apesar de parecer simples o resultado desse algoritmo, bastante conclusivo. O atleta de camiseta nmero 2 quando bloqueia na posio dois no tem o mesmo aproveitamento do que nas outras posies. Sendo assim, a comisso tcnica adversria pode orientar seus atacantes que explorem essa condio, aumentando a possibilidade de ponto de sua equipe. Como apresentado nesses dois experimentos, a minerao de dados realmente vlida para a descoberta de informaes antes no conhecidas. Assim, conclui-se o projeto do mdulo de minerao de dados para o sistema scout de Raimann (2008), realizando a integrao entre o sistema scout tradicional com uma ferramenta avanada de minerao de dados, e obtendo informaes que podem realmente influenciar resultados de uma equipe de voleibol.
CONCLUSO
Os sistemas de informao so essenciais no dia-a-dia das organizaes, bem como nas equipes de voleibol, que no tem condies de grandes investimentos nessa rea. Tais sistemas so conhecidos como sistemas scout, que monitoram desempenho de atletas. A cada dia que passa, grandes quantias de informaes so armazenadas nos bancos de dados desses sistemas. Esses dados referem-se a atletas de uma equipe, ou de vrias equipes. Quanto mais rica a base de dados, mais cenrios podem ser considerados no processo de tomada de deciso. Por causa dessa grande quantidade de dados que o processo de deciso tem se tornado cada vez mais difcil. Quanto maior o nmero de cenrios a considerar, mais difcil para que o tomador de deciso encontre um padro e tome a deciso correta. No mundo esportivo, os sistemas so basicamente estatsticos (scout), ou seja, so nmeros e nmeros a serem analisados, aumentando mais a dificuldade no processo de tomada de deciso, alm de no permitem uma visualizao de padres (de jogadas) que podem estar ocorrendo em um jogo. Uma das solues encontradas no mundo dos negcios foi a minerao de dados, sendo que muitos dos sistemas de inteligncia para o negcio aplicam tcnicas de minerao de dados para buscar padres e traar cenrios futuros. A partir desses problemas enfrentados por muitas equipes esportivas, principalmente a nvel amador, que surge este trabalho. Com objetivo projetar um mdulo de minerao de dados que possa ser acoplado ao sistema scout desenvolvido por Raimann (2008). Este trabalho, assim como o de Raimann (2008), fazem parte de do projeto de pesquisa A IA entrando na quadra de vlei: Scout Inteligente, que visa disponibilizar sistemas a equipes amadoras para que possam ter acesso a informaes de suas equipes e equipes adversrias, e assim preparar melhor seus atletas (melhora nos fundamentos) e suas equipes (tticas de jogo).
76
O trabalho realizou um estudo bibliogrfico sobre Minerao de Dados. Este estudo apresentou algumas caractersticas e funcionalidades de sistemas de informao e do processo de tomada de deciso, alm de apresentar principais caractersticas, funcionalidades, utilizaes e tcnicas de minerao de dados. Tambm foram avaliados sistemas que utilizam minerao de dados como soluo para a melhora no processo de tomada de deciso. Sendo que um deles voltado ao esporte e outro ao telemarketing. Atravs da elaborao de duas classes de integrao foi possvel integrar o mdulo proposto com o WEKA e aplicar dois algoritmos de minerao de dados da tcnica de agrupamento. A aplicao dos algoritmos nos dados do Data Mart possibilitou tambm conferir a importncia da minerao de dados para a descoberta de informaes relevantes para a comisso tcnica de uma equipe de voleibol. Este trabalho tambm possibilitou a publicao de um resumo e dois artigos, so eles respectivamente: Proposta de uso da Minerao de Dados em Sistemas de Avaliao de Desempenho de Atletas, apresentado na II Mostra de Pesquisa e de Iniciao Cientfica da Ulbra; Proposta de um Mdulo de Data Mining para um sistema de Scout no Voleibol, apresentado no VII Simpsio de Informtica da Regio Centro do Rio Grande do Sul - SIRC/RS. Projeto de Mdulo de Data Mining para Scout Voleibol, apresentado no VII Seminrio de Informtica - RS SEMINFO RS2008. Algumas limitaes foram encontradas, como por exemplo, o sistema Scout (RAIMANN, 2008) em desenvolvimento e com sua base de dados incipiente alm da ausncia de softwares para comparao com o mdulo desenvolvido Como trabalhos futuros, sugerem-se: a integrao de mais tcnicas de minerao de dados ao mdulo; o tratamento do retorno apresentado das tcnicas de minerao aplicadas neste trabalho, permitindo uma visualizao melhor das informaes. Outro trabalho interessante seria a adaptao deste mdulo para qualquer tipo de base de dados.
REFERNCIAS BIBLIOGRFICAS
BERNARDINHO. Transformando suor em ouro. Rio de Janeiro, RJ: Sextante, 2006. 215 p. BHANDARI, Inderpal Singh. Attribute Focusing: Data mining for the layman (Research Report RC 20136). IBM T.J. Watson Research Center. BHANDARI, Inderpal Singh; COLET, Edward; PARKER, Jennifer; PINES, Zachary; PRATAP, Rajiv; RAMANUJAM, Krishnakumar. Advanced Scout: Data Mining and Knowledge Discovery in NBA Data. Data Mining and Knowledge Discovery, Boston, Massachusetts, EUA: Kluwer Academic Publishers, 1997, Vol. 1, No. 1, p. 121-125. BINDER, Fbio Vincius. Sistemas de apoio deciso. So Paulo, SP: rica, 1994. 98 p. BRAMER, Max. Principles of Data Mining (Undergraduate Topics in Computer Science). Londres, Inglaterra: Springer-Verlag London Ltd, 2007. 344 p. CHARLES, Peter; GOOD, Nathan; JORDAN, Laheem Lamar; PAL, Joyojeet; SWEARINGEN, Kirsten; LYMAN, Peter; VARIAN, Hal R.. How Much Information? 2003. Berkeley, Califrnia, EUA: 2003. School of Information Management and Systems, UC Berkeley, 2003. Disponvel em <http://www.sims.berkeley.edu/research/projects/how-muchinfo-2003/>. Acesso em 03 de junho de 2008. COELHO, Fabrcio Lus. Classificao semi-automtica de monografias. Novo Hamburgo, RS: 2008. 71p. Trabalho de Concluso de Curso (Bacharelado em Cincia da Computao) Instituto de Cincias Exatas e Tecnolgicas, Feevale, 2008. ELMASRI, Ramez; NAVATHE, Shamkant B. Sistemas de banco de dados. 4 ed. So Paulo, SP: Pearson Addison Wesley, 2005. 724 p. FAYYAD, Usama; PIATETSKY-SHAPIRO, Gregory; SMYTH, Padhraic. From Data Mining to Knowledge Discovery in Databases. AI Magazine, American Association for Artificial Intelligence. Menlo Park, California, EUA, 1996, v.17 n.3, p. 37-54. FERREIRA, Aurlio Buarque de Holanda. Mini Dicionrio da Lngua Portuguesa. 2 ed. Rio de Janeiro, RJ: Nova Fronteira, 1988, 536 p. FREITAS, Henrique; BECKER, Joo Luiz; KLADIS, Constantin Metaxa; HOPPEN, Norberto. Informao e deciso: sistemas de apoio e seu impacto. Porto Alegre, RS: Ortiz, 1997. 214 p.
78
GIUDICI, Paolo. Applied Data Mining: Statistical Methods for Business and Industry. Chichester, West Sussex, Inglaterra: John Wiley & Sons Ltd, 2003. 364 p. GONCHOROSKI, Sidinei Pereira. Utilizao de tcnicas de KDD em um call center ativo. Novo Hamburgo, RS: 2007. 73p. Trabalho de Concluso de Curso (Bacharelado em Cincia da Computao) Instituto de Cincias Exatas e Tecnolgicas, Feevale, 2007. GUEDES, Gilleanes T. A. UML Uma abordagem prtica 3 ed. So Paulo: Ed. Novatec, 2008. 336 p. HAN, Jiawei; KAMBER, Micheline, Data Mining Concepts and Techniques. So Francisco, Califrnia, EUA: Morgan Kaufman Publishers, 2006. 772 p. KANTARDZIC, Mehmed. Data Mining: Concepts, Models, Methods, and Algorithms. Hoboken, Nova Jersey, EUA: John Wiley & Sons Inc., 2003. 343 p. MARTIN, James. An information systems manifesto. Englewood Cliffs, Nova Jersey, EUA: Prentice-Hall, c 1984. 300 p. MEDEIROS, Ernani Sales de. Desenvolvendo Software com UML 2.0: Definitivo. So Paulo: Pearson Makron Books, 2004. 264 p. MIERSWA, Ingo; WURST, Michael; KLINKENBERG, Ralf; SCHOLZ, Martin; EULER, Timm. Yale (now: RapidMiner): Rapid Prototyping for Complex Data Mining Tasks. In: Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD 2006), Filadlfia, Pensilvnia, EUA: ACM, 2006. PRODANOV, Cleber. Manual de Metodologia Cientfica. 3 ed. Novo Hamburgo, RS: FEEVALE, 2003. 79 p. RAIMANN, Lus Henrique. Scout: Sistema de monitorao em equipes de voleibol. Novo Hamburgo, RS: 2008. Trabalho de Concluso de Curso (Bacharelado em Sistemas de Informao) Instituto de Cincias Exatas e Tecnolgicas, Feevale, 2008. SANTOS, Rafael. Weka na Munheca: Um guia para uso do Weka em scripts e integrao com aplicaes em Java. Apostila Princpios e Aplicaes de Minerao de Dados. S.l., 2005. 20 p. Disponvel em: < http://www.lac.inpe.br/~rafael.santos/Docs/CAP359/2005/weka.pdf>. Acessado em: 05 set. 2008. SOLIEMAN, Osama K.. Data Mining in Sports: A Research Overview. Tucson: 2006. 76p. MIS Masters Project, University of Arizona, 2006. SUMATHI, S.; SIVANANDAM, S. N. Introduction to data mining and its applications (Studies in Computational Intelligence). Berlim, Alemanha: Springer-Verlag Berlin Heidelberg, 2006. p 828. ZAMBERLAM, Alexandre de Oliveira; WIVES, Leandro Krug; GOULART, Rodrigo Rafael Villarreal; SILVEIRA, Roni Gilberto. A IA entrando na quadra de vlei: scout inteligente. Hfen, Uruguaiana, RS, v.29, n.55/56, p.103-110, I/II semestre 2005.
79
WAGNER, Eduardo Antonio. Utilizando data mining em pesquisa de clima organizacional. Novo Hamburgo, RS: 2008. Trabalho de Concluso de Curso (Bacharelado em Sistemas de Informao) Instituto de Cincias Exatas e Tecnolgicas, Feevale, 2008. WITTEN, Ian H.; FRANK, Eibe. Data Mining: Practical machine learning tools and techniques. 2 ed. So Francisco, Califrnia, EUA: Morgan Kaufman Publishers, 2005. Disponvel em: <http://www.cs.waikato.ac.nz/ml/weka/index.html>. Acesso em: 24 jun. 2008. WIVES, Leandro Krug. Utilizando conceitos como descritores de textos para o processo de identificao conglomerados (clustering) de documentos. Porto Alegre, RS: 2004. 136 fl. Tese (Doutorado em Cincia da Computao) - Universidade Federal do Rio Grande do Sul, 2004.
APNDICES
81
CREATE OR REPLACE FUNCTION "public"."fnPopulaDataMart" () RETURNS boolean AS $body$ insert into public.dmhistorico (DataDm) select now()::"timestamp"; insert into public.dmjogos ( idjogo, idequipe, idjogador, dmhistorico_idhistorico, numerocamisetajogador, funcaopartida ) select vwdatamartdados.idjogo, vwdatamartdados.idequipe, vwdatamartdados.idjogador, max(idhistorico) as "dmhistorico_idhistorico", vwdatamartdados.numerocamisetajogador, vwdatamartdados.funcaopartida from vwdatamartdados, dmhistorico group by vwdatamartdados.idjogo, vwdatamartdados.idequipe, vwdatamartdados.idjogador, vwdatamartdados.numerocamisetajogador, vwdatamartdados.funcaopartida; insert into public.dmsetsrotacaofundamentos ( idset, dmjogos_idjogador, dmjogos_idequipe, dmjogos_idjogo, dmjogos_dmhistorico_idhistorico, idjogosetrotacao, idmovimento, tempomovimento, idevento, posicaojogador, fundamento, posicaofundamento, efeitofundamento, direcaofundamento, tipofundamento, constituicaofundamentobloqueio, velocidadefundamentocortada, formafundamentolevantamento, qualidadefundamentolevantamento, observacoesfundamento ) select vwdatamartdados.idset, vwdatamartdados.idjogador, vwdatamartdados.idequipe, vwdatamartdados.idjogo, max(idhistorico)::integer as dmjogos_dmhistorico_idhistorico, vwdatamartdados.idjogosetrotacao, vwdatamartdados.idmovimento, vwdatamartdados.tempomovimento, vwdatamartdados.idevento, vwdatamartdados.posicaojogador, vwdatamartdados.fundamento, vwdatamartdados.posicaofundamento, vwdatamartdados.efeitofundamento, vwdatamartdados.direcaofundamento, vwdatamartdados.tipofundamento, vwdatamartdados.constituicaofundamentobloqueio, vwdatamartdados.velocidadefundamentocortada, vwdatamartdados.formafundamentolevantamento, vwdatamartdados.qualidadefundamentolevantamento, vwdatamartdados.observacoesfundamento from vwdatamartdados, dmhistorico group by vwdatamartdados.idset, vwdatamartdados.idjogador, vwdatamartdados.idequipe, vwdatamartdados.idjogo, vwdatamartdados.idjogosetrotacao, vwdatamartdados.idmovimento, vwdatamartdados.tempomovimento, vwdatamartdados.idevento, vwdatamartdados.posicaojogador, vwdatamartdados.fundamento, vwdatamartdados.posicaofundamento, vwdatamartdados.efeitofundamento, vwdatamartdados.direcaofundamento, vwdatamartdados.tipofundamento, vwdatamartdados.constituicaofundamentobloqueio, vwdatamartdados.velocidadefundamentocortada, vwdatamartdados.formafundamentolevantamento, vwdatamartdados.qualidadefundamentolevantamento, vwdatamartdados.observacoesfundamento; select true; $body$ LANGUAGE 'sql' VOLATILE RETURNS NULL ON NULL INPUT SECURITY INVOKER COST 100;
Figura Apndice 1 Funo SQL do PostgreSQL para gerao de dados no DataMart

Fonte: AUTOR, 2008.
82
CREATE OR REPLACE FUNCTION "public"."fnGerarRAAEFarff" () RETURNS boolean AS $body$ copy ( SELECT '@relation fundamentobloqueio'::text as Estrutura union all SELECT '@attribute fundamento {BL}'::text as Estrutura union all SELECT '@attribute numerocamisetajogador real'::text as Estrutura union all SELECT '@attribute efeitofundamento real'::text as Estrutura union all SELECT '@data'::text as Estrutura union all select public.dmsetsrotacaofundamentos.fundamento ||','|| public.dmjogos.numerocamisetajogador ||','|| public.dmsetsrotacaofundamentos.efeitofundamento::text as Estrutura FROM public.dmjogos INNER JOIN public.dmsetsrotacaofundamentos ON (public.dmjogos.idjogo = public.dmsetsrotacaofundamentos.dmjogos_idjogo) AND (public.dmjogos.idequipe = public.dmsetsrotacaofundamentos.dmjogos_idequipe) AND (public.dmjogos.idjogador = public.dmsetsrotacaofundamentos.dmjogos_idjogador) AND (public.dmjogos.dmhistorico_idhistorico = public.dmsetsrotacaofundamentos.dmjogos_dmhistorico_idhistorico) where (public.dmjogos.dmhistorico_idhistorico = 5) and (public.dmsetsrotacaofundamentos.fundamento = 'BL') ) to E'D:/My Documents/TCC/TCII/TCII_Modulo/Experimentos/RAAEF.arff'; select true; $body$ LANGUAGE 'sql' VOLATILE RETURNS NULL ON NULL INPUT SECURITY INVOKER COST 100;
Figura Apndice 2 Funo SQL do PostgreSQL que gera o arquivo para o relatrio de agrupamento de atletas por efeito de fundamento
Fonte: AUTOR, 2008.
CREATE OR REPLACE FUNCTION "public"."fnGerarRAAPEFarff" () RETURNS SETOF boolean AS $body$ copy ( SELECT '@relation fundamentobloqueio'::text as Estrutura union all SELECT '@attribute fundamento {BL}'::text as Estrutura union all SELECT '@attribute numerocamisetajogador real'::text as Estrutura union all SELECT '@attribute posicaojogador {P1, P2, P3, P4, P5, P6}'::text as Estrutura union all SELECT '@attribute efeitofundamento real'::text as Estrutura union all SELECT '@data'::text as Estrutura union all select public.dmsetsrotacaofundamentos.fundamento ||','|| public.dmjogos.numerocamisetajogador ||','|| public.dmsetsrotacaofundamentos.posicaojogador ||','|| public.dmsetsrotacaofundamentos.efeitofundamento::text as Estrutura FROM public.dmjogos INNER JOIN public.dmsetsrotacaofundamentos ON (public.dmjogos.idjogo = public.dmsetsrotacaofundamentos.dmjogos_idjogo) AND (public.dmjogos.idequipe = public.dmsetsrotacaofundamentos.dmjogos_idequipe) AND (public.dmjogos.idjogador = public.dmsetsrotacaofundamentos.dmjogos_idjogador) AND (public.dmjogos.dmhistorico_idhistorico = public.dmsetsrotacaofundamentos.dmjogos_dmhistorico_idhistorico) where (public.dmjogos.dmhistorico_idhistorico = 5) and (public.dmsetsrotacaofundamentos.fundamento = 'BL') ) to E'D:/My Documents/TCC/TCII/TCII_Modulo/Experimentos/RAAPEF.arff'; select true; $body$ LANGUAGE 'sql' VOLATILE RETURNS NULL ON NULL INPUT SECURITY INVOKER COST 100 ROWS 1000;
Figura Apndice 3 Funo SQL do PostgreSQL que gera o arquivo para o relatrio de agrupamento de atletas por posio e efeito de fundamento
Fonte: AUTOR, 2008.

Proposta de Um Módulo de Data Mining para Sistema de Scout No Voleibol

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Proposta de Um Módulo de Data Mining para Sistema de Scout No Voleibol

Caricato da

Copyright:

Formati disponibili

CENTRO UNIVERSITRIO FEEVALE

PROPOSTA DE UM MDULO DE DATA MINING PARA SISTEMA DE SCOUT NO VOLEIBOL

Novo Hamburgo, novembro de 2008.

MERSON BUTZEN MARQUES

PROPOSTA DE UM MDULO DE DATA MINING PARA SISTEMA DE SCOUT NO VOLEIBOL

Professor Orientador: Alexandre de Oliveira Zamberlam

Novo Hamburgo, novembro de 2008.

LISTA DE ABREVIATURAS E SIGLAS

MD DM DCBD KDD OLAP SGBD

4.5 4.6 4.7 4.8

Figura 1.1 Etapas que precedem a aplicao de tcnicas de Minerao de Dados

Responsvel em realizar o scout.

iNumeroCamisetaJogador (em quadra) 2, 5, 6, 8, 10, 11 1, 4, 5, 6, 8, 10 2, 3, 5, 8, 10, 11 1, 3, 4, 8, 9, 11

Bloqueio (Resultado) Excelente Regular Bom Pssimo

Fonte: Adaptado de BRAMER, 2007

Figura 1.2 rvore de Deciso de classificao de grau

Figura 1.3 Exemplos de diferentes esquemas

Fonte: AUTOR, 2008

Figura 1.4 Aproveitamento de Saque (Atleta/Tempo de Jogo)

Figura 2.1 Figura da tabela de anlise estatstica dos fundamentos de voleibol.

A PROPOSTA DE MDULO DE MINERAO

Figura 3.1 Esquema geral do scout inteligente

Figura 3.2 Modelagem do banco de dados do sistema scout

Figura 3.3 Modelagem do banco de dados alterada

Figura 3.4 Diagrama de Atividade do sistema scout de Raimann (2008)

Figura 3.5 Mapa Conceitual do Fundamento Saque

Figura 3.6 Mapa Conceitual dos Fundamentos Defesa/Passe

Figura 3.7 Mapa Conceitual dos Fundamentos Levantamento

Figura 3.8 Mapa Conceitual dos Fundamentos Cortada

Figura 3.9 Mapa Conceitual dos Fundamentos Bloqueio

UML: Unified Modeling Language ou simplesmente Linguagem de Modelagem Unificada.

Figura 3.10 Diagrama de Caso de Uso geral

Figura 3.11 Diagrama de Caso de Uso geral do mdulo de Minerao de Dados

Figura 3.12 Diagrama de Atividade referente a gerar dados para anlise

Ps-condies: Fonte: Autor, 2008. estendido.

Figura 3.13 apresenta o diagrama de atividade, a fim de contemplar o caso de uso

Ps-condies: Fonte: Autor, 2008.

Figura 3.14 Diagrama de Atividade referente a aplicar tcnicas de minerao de dados

Figura 3.15 Diagrama de Classes referente a integrao do mdulo MD e o WEKA

PROTTIPO DO MDULO DE MINERAO DE DADOS

Linguagem de Programao Para o desenvolvimento do mdulo proposto, recomendada a linguagem de

Criar um software em uma plataforma e execut-lo em praticamente qualquer outra;

Alm disso, podem-se destacar outras vantagens apresentadas pela linguagem:

Consultas complexas; Chaves estrangeiras;

http://tomcat.apache.org/download-60.cgi#6.0.16 http://www.eclipse.org/ 6 http://www.eclipse.org/org/foundation/ 7 http://www.postgresql.org/docs/ 8 http://www.postgresql.org/

http://sqlmanager.net/products/postgresql/manager/ http://sqlmanager.net/en/about 11 http://jude.change-vision.com/jude-web/product/community.html

Figura 4.1 Prottipo da tela inicial do mdulo de minerao de dados

Tela de gerao de dados para o mdulo de minerao de dados.

Figura 4.2 Prottipo da tela de gerao de dados para o mdulo de MD

Figura 4.3 Prottipo da tela de selecionar dados gerados para anlise

A seguir a tela referente aplicao das tcnicas de minerao de dados.

Figura 4.4 Prottipo da tela de aplicar tcnicas de minerao de dados

Figura 4.5 Modelagem do Data Mart

import import import import

weka.core.Instances; weka.clusterers.DensityBasedClusterer; weka.clusterers.EM; weka.clusterers.ClusterEvaluation;

Figura 4.6 Figura apresenta o cdigo fonte da classe de integrao ClusteringEM

Figura 4.7 Figura apresenta o cdigo fonte da classe de integrao ClusteringFarthestFirst

Resultados Os resultados apresentados, a seguir, foram produzidos atravs do mdulo proposto.

Figura 4.8 Figura apresenta o arquivo ARFF submetido ao algoritmo EM do WEKA

Figura 4.9 Figura apresenta o resultado da aplicao do algoritmo EM do WEKA

Figura 4.10 Figura do arquivo ARFF submetido ao algoritmo FarthestFirst do WEKA

Figura 4.11 Figura mostra o resultado da aplicao do algoritmo FarthestFirst do WEKA

Figura Apndice 1 Funo SQL do PostgreSQL para gerao de dados no DataMart