Aula 12 Mineracao de Dados

Aula 12
Curso: Noções de Informática para PF

Professor: Ramon Souza
Teoria e Questões comentadas
Prof. Ramon Souza
Aula 12 – Noções de mineração de dados: conceituação e

características. Noções de aprendizado de máquina.
ASSUNTOS PÁGINA
1. NOÇÕES DE MINERAÇÃO DE DADOS ....................................................... 3
1.1 Conceitos e características .......................................................................... 3
2. MODELO DE REFERÊNCIA CRISP-DM ....................................................... 9
3. TÉCNICAS PARA PRÉ-PROCESSAMENTO DE DADOS ..................................13
4. TÉCNICAS E TAREFAS DE MINERAÇÃO DE DADOS ....................................18
4.1 Classificação .............................................................................................21
4.2 Regras de associação ................................................................................25
4.3 Análise de agrupamentos (clusterização) .....................................................28
5. DETECÇÃO DE ANOMALIAS ....................................................................31
6. MODELAGEM PREDITIVA .......................................................................32
7. APRENDIZADO DE MÁQUINA .................................................................32
8. MINERAÇÃO DE TEXTO .........................................................................33
9. QUESTÕES COMENTADAS .....................................................................35
10. RISCO EXPONENCIAL............................................................................50
11. LISTAS DE EXERCÍCIOS ........................................................................56
12. GABARITO ...........................................................................................65
13. REFERÊNCIAS ......................................................................................65
Para facilitar sua referência, abaixo listamos as esquematizações desta aula:

Esquema 1 – Mineração de dados. .................................................................................... 4
Esquema 2 – Características da mineração de dados. .......................................................... 5
Esquema 3 – Objetivos da mineração de dados. ................................................................. 8
Esquema 4 – CRISP-DM. ................................................................................................. 12
Esquema 5 – Técnicas de pré-processamento (Navathe). .................................................... 14
Esquema 6 – Técnicas de pré-processamento (CRISP-DM). ................................................. 16
Esquema 7 – Técnicas ou tarefas de mineração. ................................................................ 20
Esquema 8 – Classificação. ............................................................................................. 24
Esquema 9 – Associação. ................................................................................................ 27
Esquema 10 – Agrupamentos (clusterização). ................................................................... 30
Esquema 11 – Mineração de texto. ................................................................................... 34
Prof. Ramon Souza 2 de 65

www.exponencialconcursos.com.br
Prof. Ramon Souza
1. NOÇÕES DE MINERAÇÃO DE DADOS
1.1 Conceitos e características

A grande quantidade de dados gerada pelas organizações requer
mecanismos mais voltados para auxiliar a tomada de decisões. Os gestores
precisam analisar essa grande “massa” de dados e identificar padrões, regras,
tendências e comportamentos excepcionais para que possam tomar decisões e
agir para otimizar os negócios. Dada esta quantidade de dados crescente, o que
torna inviável a análise humana e manual, a mineração de dados (data
mining) é utilizada para auxiliar nessas análises.
A mineração de dados (data mining) refere-se à mineração ou
descoberta de novas informações em termos de padrões ou regras com
base em grandes quantidades de dados. Dito de outro modo, o termo
mineração de dados foi originalmente usado para descrever o processo pelo
qual os padrões anteriormente desconhecidos em dados são
descobertos.
Tecnicamente falando, a mineração de dados é um processo que
utiliza técnicas de estatística, matemática e inteligência artificial para
extrair e identificar informações úteis e subsequentes conhecimentos
(ou padrões) em grandes conjuntos de dados.
Em outro conceito, a mineração de dados é entendida como o
processo não trivial de identificar padrões válidos, novos,
potencialmente úteis e, em última instância, compreensíveis em dados
armazenados em bancos de dados estruturados.
Os termos extração de conhecimento, análise de padrões,
arqueologia de dados, busca de padrões ou dragagem de dados podem
ser usados como sinônimos para mineração de dados.
É importante destacar que a mineração de dados pode ser utilizada
junto com um data warehouse para ajudar com certos tipos de decisões. Porém,
não está restrita a um DW, podendo ser aplicada também a bancos de dados
operacionais com transações individuais. Alguns recursos de mineração são
fornecidos por SGBDs relacionais, mas de forma limitada.
A mineração de dados não é uma nova disciplina, mas sim uma nova
definição para o uso de muitas disciplinas. A mineração de dados está bem
posicionada na interseção de muitas disciplinas, incluindo estatística,
inteligência artificial, aprendizado de máquinas, ciência de gestão,
sistemas de informação e bancos de dados. Usando avanços em todas
essas disciplinas, a mineração de dados se esforça para avançar na extração de
informações e conhecimentos úteis de grandes bancos de dados. É um campo
emergente que atraiu muita atenção em pouco tempo.

Prof. Ramon Souza
A mineração de dados é amplamente utilizada em diversos ramos.

Os dados gerados pela Internet estão aumentando rapidamente em volume e
complexidade. Grandes quantidades de dados genômicos estão sendo
gerados e acumulados em todo o mundo. Disciplinas como a astronomia e a
física nuclear criam enormes quantidades de dados regularmente.
Pesquisadores médicos e farmacêuticos constantemente geram e
armazenam dados que podem ser usados em aplicativos de mineração de dados
para identificar melhores maneiras de diagnosticar e tratar com precisão
doenças e descobrir novos e melhores medicamentos.
Do lado comercial, talvez o uso mais comum da mineração de dados
tenha sido nos setores de finanças, varejo, marketing, manufatura e
saúde. A mineração de dados é usada para detectar e reduzir atividades
fraudulentas; para identificar os padrões de compra dos clientes; para identificar
clientes rentáveis; para segmentar clientes; identificar regras de negociação a
partir de dados históricos; e para auxiliar no aumento da rentabilidade usando
a análise da cesta de mercado.
Uma organização que efetivamente aproveita as ferramentas e
tecnologias de mineração de dados pode adquirir e manter uma vantagem
competitiva estratégica. A mineração de dados oferece às organizações um
ambiente indispensável para melhorar a decisão de forma a explorar novas
oportunidades pela transformação dos dados em uma arma estratégica.
Vamos fixar o apreendido até aqui com um esqueminha!
Processo não trivial de

Descoberta de novas
identificar padrões válidos,
informações em termos de
novos, potencialmente úteis e
padrões ou regras.
compreensíveis.
Mineração de
dados
Não é uma nova disciplina,
(Extração de Utiliza técnicas de estatística, mas uma interseção de muitas
conhecimento, análise matemática e inteligência (estatística, inteligência artificial,
de padrões, artificial. aprendizado de máquinas, ciência de gestão,
arqueologia de dados, sistemas de informação e bancos de dados).
busca de padrões ou
dragagem de dados)
Pesquisas.
Finanças, varejo, marketing,
Amplamente utilizada em
manufatura e saúde.
diversos ramos
Vantagem competitiva
estratégica.
Esquema 1 – Mineração de dados.

Prof. Ramon Souza
As principais características da mineração de dados são:

❖ Os dados são frequentemente dispostos em bancos de dados muito
grandes, que às vezes contêm dados de vários anos. Em muitos
casos, os dados são limpos e consolidados em um data warehouse.
❖ O ambiente de mineração de dados geralmente é uma arquitetura
cliente/servidor ou uma baseada na Web.
❖ Novas ferramentas sofisticadas ajudam a recuperar informações de
arquivos corporativos e registros públicos e podem extrair
dados de bancos não estruturados (ex. bancos do Lotus Notes,
textos e intranets empresariais).
❖ Os usuários podem realizar consultas com o uso de ferramentas
especializadas sem conhecimentos de programação.
❖ Muitas vezes encontram-se resultados inesperados e exige-se
que os usuários finais pensem criativamente ao longo do
processo, incluindo a interpretação das descobertas.
❖ Ferramentas de mineração são facilmente combinadas com
planilhas e outras ferramentas de desenvolvimento de
software.
❖ Às vezes é necessário usar processamento paralelo para suportar
a carga de grandes quantidades de dados e de consultas.
❖ Alguns métodos de mineração são específicos para os tipos de
dados que manipulam. Fornecer-lhes tipos de dados incompatíveis
pode levar a modelos incorretos ou a uma parada do processo de
desenvolvimento do modelo.
De forma esquemática, temos:
Bancos de dados
muito grandes Arquitetura
Requer, por vezes, cliente/servidor ou
processamento uma baseada na
paralelo Web
Características
da mineração de
Fácil combinação dados Ferramentas
com outras sofisticadas para
ferramentas recuperação de
informações
Resultados
inesperados e Consultas sem
exigência de conhecimento de
pensamento criativo programação
Esquema 2 – Características da mineração de dados.

Prof. Ramon Souza
1- (CESPE - 2015 - TCU - Auditor Federal de Controle

Externo - Conhecimentos Gerais) No que concerne a data mining (mineração
de dados) e big data, julgue o seguinte item.
O uso prático de data mining envolve o emprego de processos, ferramentas,
técnicas e métodos oriundos da matemática, da estatística e da computação,
inclusive de inteligência artificial.
Resolução:
A mineração de dados é um processo que utiliza técnicas de estatística,
matemática e inteligência artificial para extrair e identificar
informações úteis e subsequentes conhecimentos (ou padrões) em
grandes conjuntos de dados.
Vale ressaltar que a mineração de dados não é uma nova disciplina, mas
sim uma nova definição para o uso de muitas disciplinas. A mineração de dados
está bem posicionada na interseção de muitas disciplinas, incluindo
estatística, inteligência artificial, aprendizado de máquinas, ciência de
gestão, sistemas de informação e bancos de dados.
Gabarito: Certo.

A finalidade do uso do data mining em uma organização é subsidiar a produção
de afirmações conclusivas acerca do padrão de comportamento exibido por
agentes de interesse dessa organização.
Resolução:
base em grandes quantidades de dados. Os gestores das organizações usam
estes padrões, regras, tendências e comportamentos excepcionais para que
possam tomar decisões e agir para otimizar os negócios.
Gabarito: Certo.

Prof. Ramon Souza

No ambiente organizacional, devido à grande quantidade de dados, não é
recomendado o emprego de data mining para atividades ligadas a marketing.
Resolução:
Uma das características da mineração de dados é justamente a sua aplicação
a grandes bases de dados. Portanto, a assertiva ficaria correta da seguinte
forma: No ambiente organizacional, devido à grande quantidade de dados, não
é recomendado o emprego de data mining para atividades ligadas a marketing.
A mineração de dados é amplamente utilizada em diversos ramos. As
pesquisas genéticas, astronômicas, físicas, médicas e farmacêuticas são
bastante auxiliadas com as técnicas de mineração de dados. No ramo comercial,
a mineração pode ser utilizada em diversos setores, como o financeiro, varejo,
marketing e manufatura.
Gabarito: Errado.

Quem utiliza o data mining tem como objetivo descobrir, explorar ou minerar
relacionamentos, padrões e vínculos significativos presentes em grandes
massas documentais registradas em arquivos físicos (analógicos) e arquivos
lógicos (digitais).
Resolução:
O data mining é utilizado para encontrar padrões em grandes bases de dados.
Novas ferramentas sofisticadas ajudam a recuperar informações de
arquivos corporativos e registros públicos e podem extrair dados de
bancos não estruturados (ex. bancos do Lotus Notes, textos e intranets
empresariais). No entanto, não há de se falar em análise de dados
registrados em arquivos físicos, pois isto não é possível com ferramentas de
data mining. Para realizar análise das informações destes arquivos físicos
através da mineração de dados, estes devem ser primeiramente transformados
em arquivos lógicos por meio de digitalização com reconhecimento de texto e,
então, utilizar-se ferramentas avançadas de mineração de texto para análise.
Gabarito: Errado.

Prof. Ramon Souza
A mineração de dados costuma ser executada com alguns objetivos finais

ou aplicações. Segundo Navathe, de um modo geral, estes objetivos se
encontram nas seguintes classes:
❖ Previsão: a mineração de dados pode mostrar como certos atributos
dos dados se comportarão no futuro. Para realizar a previsão (ou
prognóstico), a lógica de negócios é utilizada em conjunto com a
mineração de dados. Ex.: previsão de compras sob certos descontos.
❖ Identificação: os padrões de dados podem ser usados para identificar
a existência de um item, um evento ou uma atividade. Ex.: intrusos
tentando quebrar um sistema.
❖ Classificação: a mineração de dados pode particionar os dados de
modo que diferentes classes ou categorias possam ser identificadas
com base em combinações de parâmetros. Ex.: segmentação de clientes.
❖ Otimização: um objeto relevante da mineração de dados pode ser
otimizar o uso de recursos limitados, como tempo, espaço, dinheiro
ou materiais e maximizar variáveis de saída como vendas ou lucros sob
determinadas restrições.
Objetivos finais ou aplicações da mineração de dados
Previsão Identificação Classificação Otimização
Esquema 3 – Objetivos da mineração de dados.
5- (CESPE - 2016 - TCE-SC - Auditor Fiscal de Controle

Externo - Informática) Julgue o item subsecutivo, acerca de mineração de
dados.
Para a realização de prognósticos por meio de técnicas de mineração de dados,
parte-se de uma série de valores existentes obtidos de dados históricos bem
como de suposições controladas a respeito das condições futuras, para prever
outros valores e situações que ocorrerão e, assim, planejar e preparar as ações
organizacionais.
Resolução:
O prognóstico ou previsão pode ser realizado com o uso do data mining.
Navathe destaca a previsão como um dos quatro objetivos da mineração de
dados, sendo os outros a identificação, a classificação e a otimização.
Para ser mais assertivo, o prognóstico deve ser realizado com base na lógica
de negócios, baseando-se nos dados históricos para avaliar o comportamento
passado da organização em determinadas situações e realizando suposições de
como a organização irá se comportar em situações futuras semelhantes ou com
variações.
Gabarito: Certo.

Prof. Ramon Souza
2. MODELO DE REFERÊNCIA CRISP-DM

A realização da mineração de dados de forma sistemática geralmente
segue um processo geral. Com base nas melhores práticas, pesquisadores e
profissionais de mineração de dados propuseram vários processos (fluxos de
trabalho ou abordagens simples passo a passo) para maximizar as chances de
sucesso na realização de projetos de mineração de dados.
O modelo de referência CRISP-DM é provavelmente o mais popular e
foi proposto por um consórcio de empresas europeu para servir como
metodologia padrão não proprietária para a mineração de dados. O CRISP-
DM é o processo para condução da mineração de dados de forma
sistemática composto por seis etapas que vão desde uma boa
compreensão do negócio e da necessidade do projeto de mineração até
a implantação da solução para atender a esta necessidade. A figura a
seguir apresenta as seis etapas do modelo CRISP-DM.
Vamos detalhar cada uma das seis etapas do modelo CRISP-DM, mas antes
é importante fazer uma ressalva: embora estas etapas possuam uma
natureza sequencial, geralmente há uma grande quantidade de
retornos às fases anteriores. Como podemos notar na figura, por exemplo,
pode haver um retorno da etapa de construção do modelo para a preparação
dos dados caso seja necessário.
Como a mineração de dados é conduzida com base na experiência e
experimentação, dependendo da situação do problema e do conhecimento ou
experiência do analista, o processo pode ser bastante iterativo e demorado.
Outro importante destaque é que como os últimos passos são construídos sobre
o resultado dos anteriores, deve-se prestar atenção extra às etapas anteriores,
a fim de não colocar todo o estudo em um caminho incorreto desde o início.

Prof. Ramon Souza
Vejamos então cada uma das fases do modelo CRISP-DM:

❖ Entendimento do negócio: o elemento-chave de qualquer iniciativa de
mineração de dados é saber para o que ela serve. Esta fase inicial se
concentra, portanto, na compreensão das necessidades gerenciais e
dos objetivos e requisitos de negócio que devem ser atendidos pela
mineração de dados. Em seguida, um plano de projeto para busca de
conhecimentos é desenvolvido, especificando as pessoas
responsáveis pela coleta dos dados, análise os dados e reporte dos
resultados. Nesta fase inicial, um orçamento para apoiar o estudo
também deve ser estabelecido, pelo menos em alto nível com valores
aproximados.
❖ Entendimento dos dados: etapa que objetiva identificar os dados

relevantes das diferentes fontes de dados. A fase de entendimento
dos dados começa com uma coleta inicial de dados e prossegue com
atividades para se familiarizar com os dados, identificar problemas
de qualidade de dados, descobrir novos insights sobre os dados ou
detectar subconjuntos interessantes para formar hipóteses para
informações ocultas. O analista deve ser claro e conciso sobre a descrição
da tarefa de mineração de dados para que os dados mais relevantes
possam ser identificados e deve construir uma compreensão adequada
das fontes de dados e das variáveis existentes.
❖ Preparação dos dados (ou pré-processamento de dados): tem

como propósito carregar os dados identificados no passo anterior e
prepará-los para análise por métodos de mineração de dados. A fase
de preparação de dados abrange todas as atividades para construir o
conjunto de dados final (dados que serão alimentados na ferramenta
de modelagem) a partir dos dados brutos iniciais. As tarefas incluem
seleção de tabelas, registros e atributos, bem como transformação e
limpeza de dados para inclusão nas ferramentas de modelagem. As
tarefas de preparação de dados provavelmente serão realizadas várias
vezes independentemente de ordem específica. Comparado com os
outros passos no CRISP-DM, a preparação de dados consome mais
tempo e esforço (cerca de 80% do tempo total), pois os dados do
mundo real são geralmente incompletos (falta de valores de atributos,
falta de certos atributos de interesse ou contendo apenas dados
agregados), ruidosos (contendo erros ou valores atípicos) e
inconsistentes (contendo discrepâncias em códigos ou nomes).

Prof. Ramon Souza
❖ Construção do modelo (ou modelagem): nesta etapa, várias

técnicas de modelagem são selecionadas e aplicadas em um
conjunto de dados já preparado para atender às necessidades
específicas do negócio. Dependendo da necessidade do negócio, a tarefa
de mineração de dados pode ser de uma predição (classificação ou
regressão), uma associação ou uma clusterização, cada uma dessas
tarefas podendo usar uma variedade de métodos ou algoritmos. A etapa
de construção de modelo também abrange a avaliação e análise
comparativa dos vários modelos construídos, pois como não existe
um melhor método ou algoritmo universalmente conhecido para uma
tarefa de mineração de dados, deve-se usar uma variedade de tipos de
modelos viáveis, juntamente com uma experimentação bem definida e
estratégia de avaliação para identificar o "melhor" método para um
determinado propósito. Mesmo para um único método ou algoritmo, é
necessário calibrar uma série de parâmetros para obter melhores
resultados. Alguns métodos podem ter requisitos específicos na forma
como os dados devem ser formatados; assim, voltar para o passo de
preparação de dados é muitas vezes necessário.
❖ Teste e avaliação: os modelos desenvolvidos são testados e

avaliados quanto à sua precisão e generalidade. Esta etapa avalia
o grau em que o modelo selecionado (ou modelos) atende aos
objetivos comerciais, podendo inclusive testar o(s) modelo(s)
desenvolvido(s) em um cenário do mundo real se o tempo e as restrições
orçamentárias permitirem. A etapa de teste e avaliação é uma tarefa
crítica e desafiadora, pois nenhum valor é adicionado pela tarefa de
mineração de dados até que o valor comercial obtido a partir de padrões
de conhecimento descobertos seja identificado e reconhecido.
❖ Implantação: etapa em que o conhecimento adquirido com a

exploração dos é organizado e apresentado de forma que o
usuário possa entendê-lo e tirar benefício dele. Dependendo dos
requisitos, a fase de implantação pode ser tão simples como gerar um
relatório ou tão complexo quanto implementar um processo de mineração
de dados repetitivo em toda a empresa. Em muitos casos, é o cliente, e
não o analista de dados, que executa as etapas de implantação. No
entanto, mesmo que o analista não realize o esforço de implantação, é
importante que o cliente compreenda quais ações devem ser realizadas
para realmente fazer uso dos modelos criados. A etapa de implantação
também pode incluir atividades de manutenção para os modelos
implantados, pois o negócio está em constante mudança e os dados que
refletem as atividades comerciais também estão mudando.

Prof. Ramon Souza
Para fixar as etapas do CRISP-DM, vamos utilizar um esquema!!!
❖ Entendimento das necessidades

❖ Identificação dos dados relevantes
gerenciais e das especificações de
das diferentes fontes de dados.
objetivos e requisitos de negócio.
❖ Começa com a coleta inicial de dados e
❖ Desenvolvimento de um plano de
prossegue com atividades para se
projeto para busca de conhecimento
familiarizar com os dados, identificar
para a identificação das pessoas
problemas de qualidade de dados,
responsáveis por coletar, analisar e
descobrir novos insights sobre os
reportar dados. Um orçamento de alto
dados ou detectar subconjuntos
nível pode ser estabelecido.
interessantes para formar hipóteses.
❖ Carga dos dados e preparação

para análise por métodos de
mineração de dados.
❖ Abrange as atividades para

construir o conjunto de dados
final a partir dos dados brutos
iniciais.
❖ Consome mais tempo e esforço

(~ 80% do tempo total).
❖ Seleção e aplicação de técnicas

de modelagem para atender às
necessidades específicas do
negócio.
❖ Também compreende a
avaliação e comparação das
análises realizadas com os
diversos modelos construídos.
❖ Conhecimento adquirido com a ❖ Os modelos desenvolvidos são

exploração dos é organizado e testados e avaliados quanto à sua
apresentado de forma que o precisão e generalidade.
usuário possa entendê-lo e tirar
benefício dele. ❖ Esta etapa avalia o grau em que o
modelo selecionado (ou modelos)
❖ Também pode incluir atividades de atende aos objetivos comerciais.
manutenção para os modelos
implantados. ❖ Tarefa crítica e desafiadora.
Esquema 4 – CRISP-DM.

Prof. Ramon Souza
6- (CESPE - 2017 - TCE-PE - Auditor de Controle

Externo - Auditoria de Contas Públicas) Julgue o seguinte item, que se
refere a CRISP-DM (Cross-Industry Standard Process of Data Mining).
Durante a fase de entendimento do negócio, busca-se descrever claramente o
problema, fazer a identificação dos dados e verificar se as variáveis relevantes
para o projeto não são interdependentes.
Resolução:
Há um equívoco quanto a fase descrita no item. O item descreve a fase de
entendimento dos dados e não a de entendimento do negócio.
A fase de entendimento do negócio objetiva o entendimento das
necessidades gerenciais e das especificações de objetivos de negócio.
Um plano de projeto para busca de conhecimento é desenvolvido de
modo a especificar as pessoas responsáveis por coletar, analisar e reportar
dados. Um orçamento de alto nível pode ser estabelecido.
Na fase de entendimento de dados, busca-se a identificação dos dados
relevantes das diferentes fontes de dados. O analista deve considerar a
tarefa de data mining a ser realizada e construir um conhecimento acerca
das bases de dados e variáveis.
Gabarito: Errado.
3. TÉCNICAS PARA PRÉ-PROCESSAMENTO DE DADOS

Meus caros, neste tópico detalhamentos as atividades que são realizadas
antes de se aplicar de fato as técnicas de mineração de dados.
Os dados disponíveis nas bases de dados existentes são altamente
suscetíveis a ruídos, perdas e inconsistências devido ao grande tamanho dessas
bases e suas origens de múltiplas fontes heterogêneas. Se forem utilizados
dados de baixa qualidade, os resultados da mineração serão de baixa qualidade
e, portanto, estes dados precisam ser preparados ou pré-processados. As
técnicas de pré-processamento buscam melhorar a qualidade dos dados
e, consequentemente, da eficiência e resultados da mineração.
Diversas técnicas de pré-processamento podem ser aplicadas. Veremos
nesta aula, as técnicas discutidas por Navathe e no modelo CRISP-DM. Embora
os autores e modelos apresentem uma lista de técnicas diferentes, tenha em
mente que estas técnicas para pré-processamento estão voltadas para a
preparação dos dados para que estes sejam submetidos à mineração de
dados.

Prof. Ramon Souza
Técnicas de pré-processamento segundo Navathe
Navathe considera que a mineração de dados faz parte de um processo

maior de descoberta de conhecimento nos bancos de dados, abreviado como
KDD (Knowledge Discovery in Databases).
O processo de descoberta de conhecimento compreende seis fases:
seleção de dados, limpeza de dados, enriquecimento, transformação ou
codificação de dados, mineração de dados e o relatório e exibição da informação
descoberta. As quatro primeiras fases são ditas de pré-processamento,
pois ocorrem anteriormente a mineração de dados propriamente dita.
Vejamos o que ocorre em cada uma das quatro fases de pré-
processamento:
❖ Seleção de dados: os dados são selecionados das diferentes bases
de dados de acordo com a necessidade do projeto de mineração.
❖ Limpeza de dados: correção dos dados, por exemplo, por meio da
eliminação de redundâncias ou correção de códigos inválidos.
Se a mineração de dados for baseada em um data warehouse existente,
é possível que a limpeza já tenha sido aplicada por meio de ETL.
❖ Enriquecimento: melhoria dos dados com base em fontes de
informações adicionais.
❖ Transformação de dados e codificação: podem ser feitas para reduzir
a quantidade de dados, por exemplo, por meio de agregações.
Vamos fixar as tarefas de pré-processamento descritas por Navathe com

um esquema.
Tarefas de pré-processamento (Navathe)

Dados selecionados das diferentes basesPr
Seleção de Limpeza de Enriquecimento Transformação

dados dados Melhoria com base de dados e
Dados selecionados Correção dos dados em fontes adicionais codificação
das diferentes bases Redução da
quantidade de dados
Esquema 5 – Técnicas de pré-processamento (Navathe).

Prof. Ramon Souza
Técnicas de pré-processamento segundo o CRISP-DM
O modelo de referência CRISP-DM dispõe da fase de preparação de

dados ou também chamada de pré-processamento. Vamos ver as técnicas
utilizadas nesta etapa em maiores detalhes.
A fase de preparação de dados ou pré-processamento tem como
propósito carregar os dados e prepará-los para análise por métodos de
mineração de dados. Esta fase abrange todas as atividades para construir o
conjunto de dados final a partir dos dados brutos iniciais. Esta fase é
composta pelas seguintes técnicas:
❖ Consolidação de dados: os dados relevantes são coletados das
fontes identificadas, os registros e variáveis necessários são
selecionados e os registros provenientes de múltiplas fontes de
dados são integrados.
❖ Limpeza de dados (ou depuração de dados): os dados são limpos.

Em alguns casos, os valores em falta são uma anomalia no conjunto de
dados, caso em que eles precisam ser inseridos com o valor mais
provável ou ignorados; em outros casos, os valores em falta são uma
parte natural do conjunto de dados. Nesta etapa, o analista também deve
identificar valores ruidosos nos dados (ou seja, os outliers) e
suavizá-los. Além disso, as inconsistências (valores incomuns dentro
de uma variável) nos dados devem ser tratadas usando o
conhecimento do domínio e/ou a opinião de especialistas.
❖ Transformação de dados: os dados são transformados para um

melhor processamento. Em muitos casos, os dados são
normalizados entre um determinado mínimo e máximo para todas
as variáveis, a fim de mitigar o viés potencial de uma variável
dominando outras variáveis com valores menores. Outra transformação
que ocorre é discretização e/ou agregação, em que as variáveis
numéricas são convertidas em valores categóricos e o intervalo de valores
exclusivo de uma variável nominal é reduzido a um conjunto menor
usando hierarquias conceituais para ter um conjunto de dados que seja
mais acessível ao processamento de computadores. Ainda assim, em
outros casos, pode-se optar por criar novas variáveis baseadas nas
existentes para ampliar as informações encontradas em uma
coleção de variáveis no conjunto de dados.

Prof. Ramon Souza
❖ Redução dos dados: embora seja importante possuir todos os dados

relevantes, muitos dados também são um problema. Em alguns casos, o
número de variáveis pode ser bastante grande, e o analista deve reduzir
o número de variáveis para um tamanho gerenciável (chamada
redução dimensional, pois as variáveis são tratadas por dimensões).
Em alguns casos, é necessário reduzir o número de casos
selecionando um subconjunto dos dados para análise, desde que a
amostra selecionada contenha todos os padrões relevantes do conjunto
de dados completo. Além disso, é uma boa prática equilibrar os dados
altamente distorcidos utilizando técnicas de amostragens capazes de
realizar este equilíbrio.
O esquema a seguir sintetiza as técnicas de preparação ou pré-

processamento do modelo CRISP-DM.
Esquema 6 – Técnicas de pré-processamento (CRISP-DM).

Prof. Ramon Souza
7- (ESAF - 2013 - MF - Analista de Finanças e Controle

- Gestão em Infraestrutura de TI) A Mineração de Dados requer uma
adequação prévia dos dados através de técnicas de pré-processamento. Entre
elas estão as seguintes técnicas:
a) Agrupamento. Amostragem. Redução de dimensionalidade. Seleção de
subconjuntos de recursos. Recursos pontuais. Polarização. Redução de
variáveis.
b) Agregação. Classificação. Redução de faixas de valores. Seleção de
subconjuntos de recursos. Redução de recursos. Terceirização e discretização.
Transformação de variáveis.
c) Agrupamento. Classificação. Redução de dimensionalidade. Seleção de
subconjuntos de usuários. Criação de recursos. Binarização e discretização.
Transformação de conjuntos.
d) Agregação. Amostragem. Redução de dimensionalidade. Seleção de
subconjuntos de usuários. Criação de recursos. Polarização. Transformação de
conjuntos.
e) Agregação. Amostragem. Redução de dimensionalidade. Seleção de
subconjuntos de recursos. Criação de recursos. Binarização e discretização.
Resolução:
As técnicas desta questão foram retiradas da proposta do livro Introdução a
Data Mining de Tan e outros autores. A lista é apresentada conforme a ordem
trazida no livro. Porém, podemos resolver esta questão também com base nas
técnicas de pré-processamento definidas no modelo CRISP-DM.
Se verificarmos técnica por técnica, veremos que elas estão presentes em
alguma das fases da preparação do CRISP-DM, quais sejam: (1) consolidação;
(2) limpeza; (3) transformação; e (4) redução.
Na fase de transformação dos dados, as técnicas de agregação e
discretização (ou binarização, quando envolver apenas dois grupos) buscam
categorizar os dados. Nesta fase, ocorre também a criação de atributos (ou
recursos) para ampliar as informações encontradas.
Na fase de redução de dados, a amostragem e a seleção de subconjunto
de dados são utilizadas para que o número de casos de análise seja reduzido.
A transformação de variáveis (ou mais precisamente, a redução do
número de variáveis) visa reduzir o número de variáveis para um tamanho
gerenciável. Como as variáveis são tratadas como dimensões, esta técnica é
também chamada de redução de dimensionalidade.
As técnicas recursos pontuais, polarização, redução de recursos,
terceirização e transformação de conjuntos não estão presentes entre as
técnicas de pré-processamento. Agrupamento e classificação são tarefas de
mineração e não técnicas de pré-processamento.
Gabarito: Letra E.

Prof. Ramon Souza
4. TÉCNICAS E TAREFAS DE MINERAÇÃO DE DADOS

A mineração de dados constrói modelos para identificar padrões entre os
atributos apresentados no conjunto de dados, usando dados existentes e
relevantes. Os modelos são as representações matemáticas (relações entre as
variáveis) que identificam os padrões entre os atributos dos objetos descritos
no conjunto de dados. Alguns desses padrões são explicativos (explicando as
inter-relações e afinidades entre os atributos), e outros são preditivos (prevendo
os valores futuros de certos atributos).
Os padrões ou o conhecimento descoberto durante a mineração de dados
podem ser descritos com base em regras de associação, hierarquias de
classificação, padrões sequenciais, padrões dentro de série temporal e
agrupamento (clusterização).
Estas formas de descrição dos padrões são chamadas de tarefas (ou
técnicas) da mineração de dados. Turban as classifica em três categorias
principais: predição (inclui a classificação e regressão), associação (inclui a
análise de relacionamentos e a análise de sequências) e agrupamento ou
clusterização (inclui a análise de outliers).
Inicialmente, vamos entender cada uma dessas tarefas (ou técnicas) e

depois aprofundar o estudo daquelas previstas expressamente no nosso edital.
❖ Predição (ou previsão): busca descrever a natureza de ocorrências
futuras de certos eventos com base nos acontecimentos
passados. Difere da adivinhação, pois leva em consideração as
experiências, opiniões e outras informações relevantes na condução da
previsão. Dependendo da natureza da predição, podemos falar em
classificação ou regressão.
o Classificação (ou indução supervisionada): tem como objetivo
criar uma hierarquia de classes com base em um conjunto
existente de eventos ou transações. É a tarefa mais comum
de mineração de dados. Gera-se automaticamente um modelo
que pode prever o comportamento futuro partir da análise dos
dados históricos armazenados em um banco de dados. Este modelo
consiste em generalizações sobre os registros, distinguindo-os com
base nas classes pré-definidas. Ex.: uma população pode ser
dividida em cinco faixas de possibilidade de crédito com base em
um histórico de transações anteriores.
o Regressão: é uma aplicação especial da regra de
classificação, que ocorre quando esta regra de classificação é
uma função sobre as variáveis mapeando essas variáveis em
uma variável de classe de destino. Ex.: identificar a probabilidade
de um paciente sobreviver com base em variáveis como grau de
infecção ou idade.

Prof. Ramon Souza
❖ Associação (ou aprendizagem de regras): visa descobrir

relacionamentos entre variáveis em grandes bancos de dados. Dito
de outro modo, as regras de associação correlacionam a presença de um
item com uma faixa de valores para um conjunto de variáveis diverso.
o Análise de ligações: a ligação entre os diversos objetos de
interesse é descoberta automaticamente. Ex.: quando um cliente
do sexo masculino compra fraldas em supermercado, geralmente
ele compra cerveja.
o Padrões sequenciais: uma sequência de ações ou eventos é

buscada. A detecção de padrões sequenciais é equivalente à
detecção de associações entre eventos com certos
relacionamentos temporais. Ex.: se um paciente fuma
excessivamente, provavelmente sofrerá com problemas
pulmonares.
o Padrões dentro de série temporal: as similaridades entre os

dados podem ser detectadas dentro de posições de uma série
temporal, que é uma sequência de dados tomados em
intervalos regulares. Ex.: os casacos de frio são mais baratos
no verão e mais caros no inverno.
❖ Agrupamento (clusterização): partição de uma coleção de coisas,

eventos ou itens em segmentos cujos membros são características
semelhantes. Ao contrário da classificação, no agrupamento, as classes
são previamente desconhecidas. Ex.: uma população inteira de dados
de transação sobre uma doença pode ser dividida em grupos com base
na similaridade dos efeitos colaterais produzidos.
o Análise de outliers: identificação dos dados que não
apresentam o mesmo comportamento padrão da maioria. Ex.:
identificação de pessoa com renda muito superior aos perfis de
renda em determinada organização.
Como destacamos, neste momento apresentamos as definições de cada

uma das tarefas ou técnicas. Boa parte das questões cobra somente o
entendimento da definição de cada uma destas técnicas, então fixe bem o
conceito de cada uma destas tarefas.

Prof. Ramon Souza
Vamos fixar estas tarefas ou técnicas por meio de um esquema!!!
Classes são pré-definidas. Classificação
Hierarquia de classes com

Predição base em um conjunto
existente de eventos ou
Descrever a natureza
transações.
de ocorrências futuras
de certos eventos com
base nos
acontecimentos Regressão
passados.
Regra de classificação que é
uma função sobre variáveis.
Tarefas ou técnicas de mineração de dados
Análise de ligações
A ligação entre os diversos

objetos é descoberta
automaticamente.
Associação
Padrões sequenciais
Descobrir
relacionamentos
entre variáveis em Uma sequência de ações ou
grandes bancos de eventos é buscada.
dados.
Padrões de séries temporais
Classes são
As similaridades entre os
previamente
dados podem ser detectadas
desconhecidas.
dentro de posições de uma
série temporal.
Agrupamento
(clusterização)
Análise de outliers
Partição de uma
coleção de eventos ou Identificação dos dados que
itens em segmentos não apresentam o
cujos membros são comportamento padrão.
características
semelhantes.
Esquema 7 – Técnicas ou tarefas de mineração.

Prof. Ramon Souza
8- (CESPE - 2013 - SERPRO - Programador de

computador) Julgue os itens que se seguem à luz dos conceitos básicos de
datamining e datawarehouse.
Tarefas descritivas têm como objetivo derivar padrões como correlações,
tendências, grupos, trajetórias e anomalias, os quais sumarizam as relações
subjacentes nos dados.
Resolução:
As tarefas ou técnicas de mineração de dados podem ser preditivas ou
descritivas. A questão descreve corretamente o objetivo das tarefas descritivas.
As tarefas descritivas têm como objetivo encontrar padrões que
descrevam os dados, permitindo sua análise. Nestas tarefas, podemos
identificar correlações (por meio da associação e análise de ligações), grupos
(através da clusterização), trajetórias (uso de padrões sequenciais e de série
temporal) e anomalias (pela análise de outliers).
As tarefas preditivas realizam inferências sobre os dados existentes para
predizer o comportamento de novos dados. As principais tarefas preditivas
são a classificação e regressão.
Gabarito: Certo.
4.1 Classificação
A classificação é o processo de aprender um modelo que descreve
diferentes classes de dados. As classes são predefinidas e, portanto, esse
tipo de atividade é também chamado de aprendizado supervisionado.
Quando o modelo é criado, ele pode ser usado para classificar novos dados.
O primeiro passo – aprendizado do modelo – é realizado com um conjunto de
treinamento de dados que já foram classificados. Cada registro nos dados de
treinamento contém um atributo, chamado rótulo de classe, que indica a que
classe o registro pertence.
A classificação é talvez a mais comum de todas as tarefas de
mineração de dados. O objetivo da classificação é analisar os dados
históricos armazenados em um banco de dados e gerar
automaticamente um modelo que pode prever o comportamento futuro.
Esse modelo induzido consiste em generalizações sobre os registros de um
conjunto de dados de treinamento, que ajudam a distinguir as classes
predefinidas. A expectativa é que o modelo possa então ser usado para prever
as classes de outros registros não classificados e, mais importante, prever com
precisão os eventos futuros reais.

Prof. Ramon Souza
EXEMPLO:
Para entender melhor a classificação, imagine-se como um proprietário de um
grande banco com uma infinidade de clientes correntistas. Você quer distribuir
alguns cartões de crédito especiais entre estes clientes, mas quer correr o
.
menor risco possível de crédito. Assim, não seria útil se estes clientes
estivessem separados com base no risco de “calote”.
Dessa forma, os clientes do seu banco podem estar classificados em algumas
categorias pré-definidas:
Baixo risco Risco médio Alto risco
Os clientes podem, então, ser dispostos nessas classes e, assim, você pode
identificar facilmente para quem você irá “distribuir” os cartões especiais.
Perceba que como se trata de classificação, as categorias são definidas
previamente para depois organizar os dados nelas.
As ferramentas (por vezes chamados de algoritmos) comuns de

classificação incluem redes neurais e árvores de decisão (da aprendizagem de
máquina), regressão logística, métodos bayesianos e análise discriminatória
(das estatísticas tradicionais) e ferramentas emergentes, como conjuntos
aproximados, máquinas de vetores de suporte e algoritmos genéticos.
Vamos falar as duas principais: redes neurais e árvores de decisão.
As redes neurais envolvem o desenvolvimento de estruturas
matemáticas (um tanto parecidas com as redes neurais biológicas no cérebro
humano) que têm a capacidade de aprender com experiências passadas
apresentadas sob uma forma bem estruturada dos conjuntos de dados.
Elas tendem a ser mais efetivas quando o número de variáveis envolvidas é
bastante grande e as relações entre elas são complexas e imprecisas.
As redes neurais apresentam como principal desvantagem a dificuldade
de se interpretar as previsões feitas. Além disso, as redes neurais tendem
a necessitar de treinamento considerável, que demanda maior tempo à
medida que aumenta a quantidade de dados.
EXEMPLO:
.
Uma rede neural utiliza uma série

de entradas bem estruturadas para
definir um comportamento ou
realizar uma previsão.

Prof. Ramon Souza
As árvores de decisão classificam os dados em um número finito de

classes com base nos valores das variáveis de entrada. As árvores de
decisão são essencialmente uma hierarquia de declarações se-então e,
portanto, são significativamente mais rápidas do que as redes neurais. Elas são
mais apropriadas para dados categorizados e intervalos de dados. Portanto,
incorporar variáveis contínuas em uma estrutura de árvore de decisão requer
discretização; ou seja, converter variáveis numéricas de valor contínuo em
intervalos e categorias.
A árvore de decisão pode ser entendida também como uma
representação gráfica da descrição de cada classe ou, em outras palavras,
uma representação das regras de classificação.
EXEMPLO:
Visando entender a estrutura de uma árvore de decisão, vejamos o seguinte
exemplo que visa classificar os clientes de um banco quanto ao risco para obter
um cartão de crédito especial.
Neste exemplo, podemos perceber que um conjunto de regras é definido para

categorizar os clientes nas classes “risco fraco”, “risco médio” e “risco bom”.
Note que ao percorrer a estrutura da árvore, saindo de sua raiz até os nós,
forma as regras possíveis para uma classe. Por exemplo, se um cliente for
casado e se o salário for >= 50K, então ele tem um risco bom para um cartão
de crédito especial. Por outro lado, se o cliente for solteiro e o saldo de sua
conta for menor que 5K, o gerente provavelmente não irá disponibilizar um
cartão especial, pois ele possui risco fraco.

Prof. Ramon Souza
Para fixar o entendimento sobre a classificação, temos o seguinte esquema!!!
Processo de aprender
um modelo que Classes pre-
descreve diferentes definidas.
classes de dados.
Classificação
Ferramentas
comuns
Aprendizado
Estatística Emergentes
de máquina
Máquinas
Árvores Análise Conjuntos de Algoritmo
Redes Regressão
de discrimina aproxima vetores s
neurais loigística
decisão tória dos de genéticos
suporte
Esquema 8 – Classificação.
Vejamos uma questão sobre classificação.
9- (CESPE - 2016 - FUNPRESP-JUD - Analista -

Tecnologia da Informação) Julgue o item subsecutivo, referente às
tecnologias de bancos de dados.
Em DataMining, as árvores de decisão podem ser usadas com sistemas de
classificação para atribuir informação de tipo.
Resolução:
As árvores de decisão classificam os dados em um número finito de
classes com base nos valores das variáveis de entrada.
As árvores de decisão são ferramentas que podem ser utilizadas para a
classificação dos dados. Ao percorrer a árvore, a classe ou tipo dos dados será
definido. Por exemplo, um conjunto de regras definido em uma árvore pode
definir os tipos de clientes com base em riscos de crédito por meio das classes
“risco fraco”, “risco médio”, e “risco bom”.
Gabarito: Certo.

Prof. Ramon Souza
4.2 Regras de associação

As regras de associação são uma técnica popular para descobrir
relacionamentos interessantes entre variáveis em grandes bancos de
dados. Graças a tecnologias automatizadas de coleta de dados, o uso de regras
de associação para descobrir os relacionamentos entre os produtos em
transações de larga escala registradas nos sistemas de ponto de venda nos
supermercados tornou-se uma tarefa comum de descoberta de conhecimento
no ramo varejista, em que é chamada de análise de cesta de mercado.
EXEMPLO:
Qual a relação entre fralda e cerveja? Não é pegadinha

e nem charada.
Uma das maiores redes de varejo dos Estados Unidos descobriu, em seu
.
gigantesco armazém de dados, que a venda de fraldas descartáveis estava
associada à de cerveja. Em geral, os compradores eram homens, que saíam à
noite para comprar fraldas e aproveitavam para levar algumas latinhas para
casa. Os produtos foram postos lado a lado. Resultado: a venda de fraldas e
cervejas disparou.
Neste caso, vemos claramente a ideia das regras de associação através do
relacionamento entre duas variáveis de produtos. A descoberta de um padrão
de relacionamento entre dois itens aparentemente não relacionados pode
auxiliar bastante na tomada de decisões.
Duas derivações comuns das regras de associação são a análise de ligações

e os padrões de sequência. Com a análise de ligações, o relacionamento entre
muitos objetos de interesse é descoberto automaticamente, como o link entre
páginas da Web e relacionamentos referenciais entre grupos de autores de
publicação acadêmica. Com os padrões de sequência, as relações são
examinadas em termos de sua ordem de ocorrência para identificar associações
ao longo do tempo.
Uma regra de associação deve satisfazer alguma medida de interesse do
analista de dados. Duas medidas comuns são o suporte e a confiança.
❖ Suporte ou prevalência: frequência que um conjunto de itens
específico ocorre no banco de dados, ou seja, o percentual de
transações que contém todos os itens em um dado conjunto. Ex.: 30%
das compras realizadas em um supermercado contém fraldas e cervejas.
❖ Confiança ou força: probabilidade de que exista relação entre itens.
Ex.: 70% dos clientes que compram fraldas também compram cerveja.

Prof. Ramon Souza
Os algoritmos utilizados na mineração de regras de associação incluem o

popular Apriori (onde itens de itens frequentes são identificados), PP-Growth,
OneR, ZeroR e Eclat. Descreveremos brevemente o Apriori.
O algoritmo Apriori é o algoritmo mais utilizado para descobrir regras de
associação. Dado um conjunto de conjuntos de itens (por exemplo,
conjuntos de transações de varejo com a listagem de itens individuais
adquiridos), o algoritmo tenta encontrar subconjuntos comuns a pelo
menos um número mínimo de conjuntos de itens (isto é, cumpre com um
suporte mínimo). O Apriori usa uma abordagem de baixo para cima, onde os
subconjuntos frequentes são estendidos um item por vez (um método conhecido
como geração de candidatos, pelo qual o tamanho dos subconjuntos frequentes
aumenta de subconjuntos de um item para subconjuntos de dois itens,
subconjuntos de três itens, etc.), e grupos de candidatos em cada nível são
testados em relação aos dados para suporte mínimo. O algoritmo termina
quando nenhuma outra extensão bem-sucedida é encontrada.
EXEMPLO:
Como um exemplo ilustrativo, considere o seguinte: uma pequena loja rastreia
as transações de vendas pela unidade de manutenção de estoque e, portanto,
sabe quais itens normalmente são comprados juntos. Cada unidade de
manutenção de estoque no banco de dados de transações corresponde a um
produto, como "1 = manteiga", "2 = pão", "3 = água" e “4 = café”. O banco de
dados contendo as transações é mostrado em T1.
T1. Dados das T2. Conjuntos de itens T3. Conjunto de itens T4. Conjuntos de
transações individuais duplos itens triplos
Transação Unidade de Unidade de Suporte Unidade Suporte Unidade de Suporte
estoque estoque de estoque estoque
1 1, 2, 3, 4 1 3 1, 2 3 1, 2, 4 3
1 2, 3, 4 2 6 1, 3 2 2, 3, 4 3
1 2, 3 3 4 1, 4 3
1 1, 2, 4 4 5 2, 3 4
1 1, 2, 3, 4 2, 4 5
1 2, 4 3, 4 3
O primeiro passo é contar as frequências (suportes) de cada item
.
individualmente. Neste exemplo simplificado, vamos definir o suporte mínimo
para 3 (ou 50%). Como todos os conjuntos de itens individuais possuem pelo
menos 3 na coluna de suporte, todos eles são considerados conjuntos de itens
frequentes (T2). Se houvesse um conjunto de itens que não fosse frequente,
ele seria descartado da análise e não passaria para a análise de conjuntos
duplos. Usando conjuntos de itens de um item, todos os conjuntos de dois itens
são gerados e o banco de dados de transações é usado para calcular seus
valores de suporte (T3). Como o conjunto de itens de dois itens {1, 3} tem um
suporte menor que 3, ele não deve ser incluído nos conjuntos de itens que serão
usados para gerar os conjuntos de itens do próximo nível (conjuntos de itens
de três itens) (T4). O algoritmo parece simples, mas apenas para pequenos
conjuntos de dados. Em conjuntos de dados muito maiores, especialmente
aqueles com grandes quantidades de itens presentes em pequenas quantidades
e pequenas quantidades de itens presentes em grandes quantidades, a busca e
o cálculo se tornam um processo computacionalmente intensivo.

Prof. Ramon Souza
Vamos esquematizar as regras de associação.
Técnica popular para descobrir Análise de

relacionamentos interessantes cesta de
entre variáveis.
mercado
(ramo varejista)
Regras de associação
Derivações Medidas de Algoritmos

comuns interesse utilizados
PP-
Growth,
Análise de Padrões de Suporte ou Confiança
Apriori OneR,
ligações sequência prevalência ou força
ZeroR e
Eclat.
Esquema 9 – Associação.
Vamos resolver uma questão que trata de associação.
10- (CESPE - 2008 - SERPRO - Analista - Suporte

Técnico) Julgue os itens que se seguem, acerca de data mining e data
warehouse.
A data mining apoia a descoberta de regras e padrões em grandes quantidades
de dados. Em data mining, um possível foco é a descoberta de regras de
associação. Para que uma associação seja de interesse, é necessário avaliar o
seu suporte, que se refere à frequência com a qual a regra ocorre no banco de
dados.
Resolução:
As regras de associação são uma técnica popular para descobrir
relacionamentos interessantes entre variáveis em grandes bancos de
dados. Para que uma regra de associação seja de interesse de um analista de
dados, ela deve obedecer a alguma medida de interesse.
Duas medidas comuns são o suporte e a confiança.
❖ Suporte ou prevalência: frequência que um conjunto de itens
específico ocorre no banco de dados, ou seja, o percentual de
transações que contém todos os itens em um dado conjunto. Ex.: 30%
das compras realizadas em um supermercado contém fraldas e cervejas.
❖ Confiança ou força: probabilidade de que exista relação entre itens.
Ex.: 70% dos clientes que compram fraldas também compram cerveja.
Gabarito: Certo.

Prof. Ramon Souza
4.3 Análise de agrupamentos (clusterização)

A análise de clusters (análise de agrupamentos ou análise de
aglomerações) é um método de mineração de dados essencial para
classificar itens, eventos ou conceitos em agrupamentos comuns
chamados de clusters. O método é comumente usado em biologia, medicina,
genética, análise de redes sociais, antropologia, arqueologia, astronomia,
reconhecimento de caráter e até mesmo no desenvolvimento de sistemas de
gerenciamento de informações. À medida que a mineração de dados aumentou
em popularidade, as técnicas foram aplicadas aos negócios, especialmente ao
marketing. A análise de cluster tem sido amplamente utilizada para detecção de
fraude (fraude de cartão de crédito e de comércio eletrônico) e segmentação de
mercado de clientes em sistemas de CRM contemporâneos.
A análise de cluster é uma ferramenta de análise exploratória de dados
para resolver problemas de classificação. O objetivo é classificar casos (por
exemplo, pessoas, coisas, eventos) em grupos ou clusters, de modo que o
grau de associação seja forte entre os membros do mesmo cluster e
fraco entre os membros de diferentes clusters. Cada cluster descreve a
classe a que seus membros pertencem. No que diz respeito à mineração de
dados, a importância da análise de cluster é que ela pode revelar associações e
estruturas em dados que não eram anteriormente evidentes, mas são sensíveis
e úteis uma vez encontradas.
As classes não são previamente definidas, mas muitas vezes, os
algoritmos de cluster geralmente requerem uma especificação do número
de clusters a serem encontrados. Se este número não é conhecido
previamente, ele deve ser escolhido de alguma forma. Infelizmente, não
há uma maneira ótima de calcular o número de cluster. Portanto, vários
métodos heurísticos diferentes foram propostos como os critérios de informação
bayesianos e akaikos.
EXEMPLO:
Considere um grupo de pacientes de um hospital que tiveram um determinado
medicamento
. receitado. Uma análise de clusters pode estabelecer determinados
grupos de pacientes com reações semelhantes a estes medicamentos.
Perceba, para a análise de clusters não são definidos previamente os grupos
possíveis. A partir da análise é que serão definidos os grupos com base nas
semelhanças e diferenças entre as características dos pacientes.
A clusterização pode se proceder de duas formas gerais:

❖ Divisivo: todos os itens começam em um cluster e são quebrados
em clusters menores.
❖ Aglomerativo: todos os itens começam em clusters individuais e os
clusters são unidos baseando-se em suas semelhanças.

Prof. Ramon Souza
A análise de clusters pode ser baseada em um ou mais dos seguintes

métodos gerais:
❖ Métodos estatísticos: k-means, k-modes, k-medoids, etc.
o K-means (k média): o algoritmo atribui cada ponto de dados
(cliente, evento, objeto, etc.) ao cluster cujo centro (também
chamado centróide) é o mais próximo. O centro é calculado
como a média de todos os pontos no cluster; ou seja, suas
coordenadas são a média aritmética para cada dimensão
separadamente em todos os pontos do cluster.
o K-modes (k moda): estende o paradigma k-means para
clusterizar dados categóricos (nominais) ao trocar a média de
clusters pela moda (elementos que mais se repetem), usando
novas medidas de similaridade para tratar com objetos
categóricos, e usando um método baseado em frequência para
atualizar as modas dos clusters.
o K-medoids (k mediana): ao invés de usar a média para
definir o centro dos clusters, utiliza a mediana (valor mais ao
centro do conjunto de dados). Assim, o elemento que melhor
representa o cluster, é definido de acordo com seus atributos sem
que haja muita influência dos valores próximos aos limites do
cluster.
❖ Redes neurais: estruturas matemáticas que têm a capacidade de

aprender com experiências passadas apresentadas sob uma
forma bem estruturada dos conjuntos de dados.
❖ Lógica difusa: forma de lógica multivalorada na qual os valores

lógicos das variáveis podem ser qualquer número real entre 0
(FALSO) e 1 (VERDADEIRO). A lógica difusa foi estendida para lidar
com o conceito de verdade parcial, onde o valor verdade pode
compreender entre completamente verdadeiro e completamente falso.
❖ Algoritmos genéticos: são implementados como uma simulação de

computador em que uma população de representações abstratas
de solução é selecionada em busca de soluções melhores. A
evolução geralmente se inicia a partir de um conjunto de soluções criado
aleatoriamente e é realizada por meio de gerações. A cada geração, a
adaptação de cada solução na população é avaliada, alguns indivíduos
são selecionados para a próxima geração, e recombinados ou mutados
para formar uma nova população. A nova população então é utilizada
como entrada para a próxima iteração do algoritmo.

Prof. Ramon Souza
E lá vem um esqueminha para memorizar a clusterização!!
Método de mineração de dados essencial para Classes não são

classificar itens, eventos ou conceitos em previamente
agrupamentos comuns chamados de clusters. definidas
Agrupamentos
(clusterização)
Formas gerais Métodos gerais
Redes Lógica Algoritmos

Divisivo Aglomerativo Estatísticos
neurais difusa genéticos
Esquema 10 – Agrupamentos (clusterização).
11- (CESPE - 2017 - TCE-PE - Analista de Controle

Externo - Auditoria de Contas Públicas) Em relação à análise de
agrupamentos (clusterização) em mineração de dados, julgue o item seguinte.
O método de clustering k-means objetiva particionar ‘n’ observações entre ‘k’
grupos; cada observação pertence ao grupo mais próximo da média.
Resolução:
A análise de clusters pode ser baseada em métodos estatísticos como o k-means
(media), k-modes (moda), k-medoids (mediana), etc.
O K-means (k média) é o algoritmo que atribui cada ponto de dados
(cliente, evento, objeto, etc.) ao cluster cujo centro (também chamado
centróide) é o mais próximo. O centro é calculado como a média de todos
os pontos no cluster; ou seja, suas coordenadas são a média aritmética para
cada dimensão separadamente em todos os pontos do cluster.
Gabarito: Certo.

Prof. Ramon Souza
12- (CESPE - 2016 - TCE-SC - Auditor Fiscal de Controle

Externo - Informática) Julgue o item subsecutivo, acerca de mineração de
dados.
As aglomerações, tipos de informação obtidos por meio da mineração de dados,
caracterizam-se por se ligarem a um único e específico evento, em torno do
qual ocorrem várias ações, com produção sistêmica de informações gerenciais
que apoiarão uma nova ocorrência do mesmo tipo de evento.
Resolução:
Os clusters não estão relacionados a um único e específico evento, pois
os dados de um mesmo cluster se relacionam com base em suas semelhanças.
As aglomerações ou clusters descrevem as classes a que os membros de uma
base de dados pertencem. O objetivo da análise de clusters é classificar
casos (por exemplo, pessoas, coisas, eventos) em grupos ou clusters, de
modo que o grau de associação seja forte entre os membros do mesmo
cluster e fraco entre os membros de diferentes clusters.
Gabarito: Errado.
5. DETECÇÃO DE ANOMALIAS
A deteção de anomalias consiste na identificação de padrões em
dados com um comportamento diferente do esperado. Estes padrões são
muitas vezes referidos como anomalias, outliers, exceções, aberrações,
observações discordantes, entre outros, variando de acordo com o contexto.
No contexto da mineração de dados, a análise de outliers é uma técnica
ou tarefa realizada na análise de clusters que consiste na identificação dos
dados que não apresentam o mesmo comportamento padrão da maioria.
Ex.: identificação de pessoa com renda muito superior aos perfis de renda em
determinada organização.
Os resultados produzidos pelos métodos de deteção de anomalias são
de um dos dois tipos seguintes:
❖ Pontuações: os métodos de pontuação atribuem uma pontuação de
anomalia para cada instância no teste de dados, dependendo do grau da
anomalia. O analista pode optar por analisar as anomalias mais
“pontuadas” ou usar um ponto de corte para as selecionar.
❖ Rótulos: os métodos usados atribuem um rótulo (normal ou anormal)
para cada instância de teste.

Prof. Ramon Souza
6. MODELAGEM PREDITIVA
A modelagem preditiva é uma técnica estatística para modelar e
encontrar padrões, que utiliza dados históricos para realizar previsões de
tendências, padrões de comportamento ou eventos futuros.
A modelagem preditiva utiliza de estatísticas e modelos
matemáticos para prever resultados futuros. Basicamente, escolhe-se o
melhor modelo fundamentado na probabilidade de um resultado ocorrer
conforme um conjunto de dados de entrada. Esses modelos utilizam um ou mais
classificadores que avaliam a probabilidade de um conjunto de dados
pertencerem a outro conjunto. Assim, no nosso contexto de mineração de
dados, as tarefas preditivas de classificação e regressão são utilizadas com
esta finalidade.
7. APRENDIZADO DE MÁQUINA
Aprendizado de Máquina (ou machine learning) é um método de
análise de dados que automatiza o desenvolvimento de modelos
analíticos. Usando algoritmos que aprendem interativamente a partir de
dados, o aprendizado de máquinas permite que os computadores encontrem
insights ocultos sem serem explicitamente programados para procurar algo
específico.
As tarefas e técnicas de mineração de dados estão bem relacionadas com
o aprendizado de máquina, pois a mineração de dados descobre padrões e
conhecimento previamente desconhecidos e o aprendizado de máquina
usa esses padrões e conhecimentos adquiridos, aplicando isso a outros
dados, e, em seguida, aplicando automaticamente esses resultados à tomada
de decisões e ações.
O aprendizado de máquina é bastante utilizado para:
❖ Detecção de fraudes.
❖ Resultados de pesquisa na Web.
❖ Anúncios em tempo real em páginas da web e dispositivos móveis.
❖ Análise de sentimento baseada em texto.
❖ Pontuação de crédito e próximas melhores ofertas.
❖ Previsão de falhas em equipamento.
❖ Novos modelos de precificação.
❖ Detecção de invasão na rede.
❖ Reconhecimento de padrões e imagem.
❖ Filtragem de spams no e-mail.

Prof. Ramon Souza
8. MINERAÇÃO DE TEXTO
A mineração de texto (também conhecida como mineração de dados
de texto ou descoberta de conhecimento em bancos de dados textuais)
é o processo semiautomático de extração de padrões (informações úteis
e conhecimento) de grandes quantidades de fontes de dados não
estruturadas. Lembre-se de que a mineração de dados é o processo de
identificação de padrões válidos, novos, potencialmente úteis e, finalmente,
compreensíveis em dados armazenados em bancos de dados estruturados, onde
os dados são organizados em registros estruturados por variáveis categóricas,
ordinais ou contínuas. A mineração de texto é semelhante a mineração de
dados, na medida em que tem o mesmo propósito e usa os mesmos processos;
mas com a mineração de texto, a entrada para o processo é uma coleção
de arquivos de dados não estruturados ou semiestruturados, como
documentos do Word, arquivos PDF, trechos de texto, arquivos XML e assim por
diante.
Em essência, a mineração de texto pode ser pensada como um
processo (com duas etapas principais) que começa com imposição de
uma estrutura para as fontes de dados baseadas em texto, seguindo da
extração de informações e conhecimentos relevantes a partir desses
dados estruturados baseados em texto usando técnicas e ferramentas de
Os benefícios da mineração de texto são evidentes nas áreas em que
grandes quantidades de dados textuais estão sendo gerados, como lei (ordens
judiciais), pesquisa acadêmica (artigos de pesquisa), finanças (relatórios
trimestrais), medicamentos (sumários de alta), biologia (interações
moleculares), tecnologia (arquivos de patentes) e marketing (comentários de
clientes).
EXEMPLO:
Por exemplo, as interações baseadas em texto de forma livre com clientes sob
a forma de queixas (ou elogios) e reivindicações de garantia podem ser usadas
para identificar objetivamente características de produtos e serviços que são
consideradas imperfeitas e podem ser usadas como entrada para melhor
desenvolvimento de produtos e alocações de serviços. Da mesma forma,
.
programas de divulgação de mercado e grupos focais geram grandes
quantidades de dados e, ao não restringir o feedback do produto ou do serviço
à forma codificada, os clientes podem apresentar, em suas próprias palavras, o
que eles pensam dos produtos e serviços de uma empresa. Outra área em que
o processamento automatizado de textos não estruturados teve muito impacto
é em comunicações eletrônicas e e-mail. A mineração de texto não só pode ser
usada para classificar e filtrar o e-mail indesejável, mas também pode ser usada
para priorizar automaticamente o email com base no nível de importância, além
de gerar respostas automáticas.

Prof. Ramon Souza
A mineração de texto pode ser sintetizada com base no seguinte esquema.
Dados semi-
Dados não estruturados
estuturados
Ex.:
Documentos
do Word,
arquivos PDF,
trechos de
texto, arquivos
XML
2ª etapa
Extração de informações e conhecimentos

relevantes a partir desses dados estruturados
baseados em texto usando técnicas e
ferramentas de mineração de dados.
Esquema 11 – Mineração de texto.
Vejamos uma questão do CESPE sobre mineração de texto.
13- (CESPE - 2012 - TRE-RJ - Técnico Judiciário -

Programação de Sistemas) Com referência a conceitos de banco de dados
textual, julgue os itens seguintes.
Text mining é o processo que utiliza métodos para navegar, organizar, encontrar
e descobrir informações em bases textuais escritas em linguagem natural. Com
text mining é possível manipular mais facilmente informações não estruturadas,
tais como notícias, textos em websites, blogs e documentos em geral.
Resolução:
A mineração de texto (também conhecida como mineração de dados de
texto ou descoberta de conhecimento em bancos de dados textuais) é o
processo semiautomático de extração de padrões (informações úteis e
conhecimento) de grandes quantidades de fontes de dados não
estruturadas.
A mineração de texto é semelhante a mineração de dados, na medida em que
tem o mesmo propósito e usa os mesmos processos; mas com a mineração de
texto, a entrada para o processo é uma coleção de arquivos de dados
não estruturados ou semiestruturados, como documentos do Word,
arquivos PDF, trechos de texto, arquivos XML e assim por diante.
Gabarito: Certo.

Prof. Ramon Souza
9. QUESTÕES COMENTADAS
Noções de Mineração de Dados. Conceitos e características
14- (CESPE - 2016 - TCE-PA - Auditor de Controle Externo - Área
Informática - Analista de Sistema) Julgue o item a seguir, em relação a data
warehouse e data mining.
No contexto de data mining, o processo de descoberta de conhecimento em
base de dados consiste na extração não trivial de conhecimento previamente
desconhecido e potencialmente útil.
Resolução:
base em grandes quantidades de dados. Pode ser entendida também como o
processo não trivial de identificar padrões válidos, novos,
potencialmente úteis e, em última instância, compreensíveis em dados
armazenados em bancos de dados estruturados.
Gabarito: Certo.
15- (CESPE - 2015 - DEPEN - Agente Penitenciário Federal - Área 7)

Acerca de datawarehouse e datamining, julgue o item subsequente.
Os objetivos do datamining incluem identificar os tipos de relacionamentos que
se estabelecem entre informações armazenadas em um grande repositório.
Resolução:
Um dos objetivos do datamining é a classificação dos dados que consiste em
particionar os dados de modo que diferentes classes ou categorias
possam ser identificadas com base em combinações de parâmetros.
O conhecimento descoberto com o uso do data mining pode ser descrito por
meio de associação, classificação, agrupamento, padrões sequenciais e padrões
temporais que representam relacionamentos entre as informações com base em
algum critério pré-estabelecido ou definido durante a própria análise.
Gabarito: Certo.
16- (CESPE - 2014 - ANATEL - Analista Administrativo - Suporte e

Infraestrutura de TI) A respeito de banco de dados, julgue os itens que se
seguem.
No processo de Data Mining (mineração de dados), é indispensável o uso de
técnica conhecida como Data Warehousing, uma vez que a mineração de dados
deve ocorrer necessariamente em estruturas não normalizadas (FN0).
Resolução:
A mineração de dados pode ser utilizada junto com um data warehouse para
ajudar com certos tipos de decisões. Porém, não está restrita a um DW,

Prof. Ramon Souza
podendo ser aplicada também a bancos de dados operacionais com transações

individuais. Alguns recursos de mineração são fornecidos por SGBDs
relacionais, mas de forma limitada.
Gabarito: Errado.
17- (CESPE - 2014 - TJ-SE - Analista Judiciário - Análise de Sistemas)

Com relação a sistemas de suporte à decisão, julgue os seguintes itens.
DataMining pode ser considerado uma etapa no processo de descoberta de
conhecimento em base de dados, consistindo em análise de conjuntos de dados
cujo objetivo é descobrir padrões úteis para tomada de decisão.
Resolução:
A descoberta de conhecimento nos bancos de dados (KDD) abrange mais
do que a mineração de dados. O processo de descoberta do conhecimento
compreende seis fases: (1) seleção de dados; (2) limpeza de dados; (3)
enriquecimento; (4) transformação ou codificação de dados; (5) mineração de
dados; e (6) relatório e exibição de informação descoberta.
base em grandes quantidades de dados.
Gabarito: Certo.
18- (CESPE - 2014 - TJ-SE - Técnico Judiciário - Programação de

Sistemas) Acerca de DataMining e de DataWarehouse, julgue o item
subsecutivo.
Os principais processos de DataMining são a identificação de variações
embasado em normas, a detecção e análise de relacionamentos, a paginação
de memória e o controle de periféricos.
Resolução:
A paginação de memória e o controle de periféricos são funções do
sistema operacional e não da mineração de dados.
base em grandes quantidades de dados. Estes padrões podem incluir variações
e relacionamentos.
Gabarito: Errado.
19- (CESPE - 2013 - SERPRO - Programador de computador) Julgue os

itens seguintes, relativos à arquitetura e às tecnologias de sistemas de
informação.

Prof. Ramon Souza
Datamining é a tecnologia por intermédio da qual os processos são

automatizados mediante racionalização e potencialização por meio de dois
componentes: organização e tecnologia.
Resolução:
Data mining ou mineração de dados não objetiva a automatização de
processos. A automatização destes processos fica mais a cargo das
ferramentas de modelagem de processos de negócio.
base em grandes quantidades de dados.
Gabarito: Errado.
20- (CESPE - 2012 - PEFOCE - Perito Criminal - Análise de Sistemas) No

que se refere a banco de dados e sistemas de suporte a decisão, julgue os itens
subsecutivos.
O data mining tem por objetivo a extração de informações úteis para tomadas
de decisão com base nos grandes volumes de dados armazenados nas
organizações. Os dados para o data mining são originados restritamente dos
data warehouses, pois estes são os que aglomeram enorme quantidade de
dados não voláteis e organizados por assunto.
Resolução:
A mineração de dados pode ser utilizada junto com um data warehouse para
ajudar com certos tipos de decisões. Porém, não está restrita a um DW,
podendo ser aplicada também a bancos de dados operacionais com transações
individuais. Alguns recursos de mineração são fornecidos por SGBDs
relacionais, mas de forma limitada.
Gabarito: Errado.
21- (CESPE - 2011 - TJ-ES - Analista Judiciário - Informática) Julgue os

itens a seguir, a respeito de administração de dados e de administração de
banco de dados.
Mineração de dados, em seu conceito pleno, consiste na realização, de forma
manual, de sucessivas consultas ao banco de dados com o objetivo de descobrir
padrões úteis, mas não necessariamente novos, para auxílio à tomada de
decisão.
Resolução:
Aqui nesta questão temos dois erros: primeiro, a mineração de dados ocorre
de forma automatizada ou, ao menos semi-automizada, de consulta para
a descoberta de padrões de dados. Em segundo lugar, os padrões
identificados precisam ser desconhecidos (novos).

Prof. Ramon Souza
A mineração de dados é entendida como o processo não trivial de

identificar padrões válidos, novos, potencialmente úteis e, em última
instância, compreensíveis em dados armazenados em bancos de dados
estruturados.
Gabarito: Errado.
22- (CESPE - 2008 - IPEA - Analista de Sistemas - Suporte de Banco de

Dados) Com relação a BI (business inteligence), indicadores da produção,
administração da produção, monitoração do ambiente operacional, julgue os
próximos itens.
O data mining é um processo utilizado para a extração de dados de grandes
repositórios para tomada de decisão, mas sua limitação é não conseguir analisar
dados de um data warehouse.
Resolução:
base em grandes quantidades de dados. Dito de outro modo, o
termo mineração de dados foi originalmente usado para descrever o processo
pelo qual os padrões anteriormente desconhecidos em dados são
descobertos.
É importante destacar que a mineração de dados pode ser utilizada junto
com um data warehouse para ajudar com certos tipos de decisões.
Porém, não está restrita a um DW, podendo ser aplicada também a bancos
de dados operacionais com transações individuais. Alguns recursos de
mineração são fornecidos por SGBDs relacionais, mas de forma
limitada.
Gabarito: Errado.
Modelo de referência CRISP-DM

Informática - Administrador de Banco de Dados) Julgue o item
subsequente, acerca de segurança da informação de um SGBD e de um BI
(Business Intelligence).
CRISP-DM é uma metodologia proprietária que identifica as fases Business
Understanding e Data Understanding na implantação de um projeto de data
mining.
Resolução:
A questão está errada, pois o CRISP-DM não é uma metodologia
proprietária. Ele foi proposto pelo por um consórcio europeu de empresas para
servir como uma metodologia padrão não-proprietária.

Prof. Ramon Souza
O CRISP-DM é o processo para condução da mineração de dados de

forma sistemática composto por seis etapas: (1) entendimento do negócio
(Business Understanding); (2) entendimento dos dados (Data Understanding);
(3) preparação dos dados (Data Preparation); (4) modelagem (Model Building);
(5) teste e avaliação (Testing and Evaluation); e (6) implantação (Deployment).
Gabarito: Errado.
24- (CESPE - 2015 - TJ-DFT - Técnico Judiciário - Programação de

Sistemas) Julgue o item a seguir, a respeito de datawarehouse e de
datamining.
Em um processo de mineração, durante a etapa de preparação dos dados, são
analisados os requisitos de negócio para consolidar os dados.
Resolução:
Há um equívoco quanto a fase descrita no item. O item descreve a fase de
entendimento do negócio e não a de preparação de dados.
A fase de entendimento do negócio objetiva o entendimento das
necessidades gerenciais e das especificações de objetivos de negócio.
Um plano de projeto para busca de conhecimento é desenvolvido de
modo a especificar as pessoas responsáveis por coletar, analisar e reportar
dados. Um orçamento de alto nível pode ser estabelecido.
Na fase de preparação dos dados, o propósito é carregar os dados
identificados e prepará-los para análise por métodos de mineração de
dados. A fase de preparação de dados abrange todas as atividades para
construir o conjunto de dados final (dados que serão alimentados na
ferramenta de modelagem) a partir dos dados brutos iniciais.
Gabarito: Errado.
Técnicas e tarefas de mineração de dados.

25- (CESPE - 2017 - TRE-BA - Analista Judiciário – Análise de Sistemas)
O agrupamento de dados no processo de data mining procura, em uma massa
de dados que caracterizam uma população de indivíduos, grupos semelhantes
e diferentes. O algoritmo baseado na teoria dos grafos e que dispensa a
definição de protótipos utilizado para segmentar a base de dados em diferentes
grupos é denominado
a) K média.
b) K medoides.
c) Apriori.
d) DBSCAN.
e) Árvore geradora mínima.

Prof. Ramon Souza
Resolução:
Questão que define árvore geradora mínima, portanto o Gabarito é letra E.
Vejamos os conceitos dos demais algoritmos:
a) K média (K-means): o algoritmo atribui cada ponto de dados (cliente,
evento, objeto, etc.) ao cluster cujo centro (também chamado centróide) é o
mais próximo. O centro é calculado como a média de todos os pontos no cluster;
ou seja, suas coordenadas são a média aritmética para cada dimensão
separadamente em todos os pontos do cluster.
b) K medoides (K-medoids): o elemento que melhor representa o cluster, é
definido de acordo com seus atributos sem que haja muita influência dos valores
próximos aos limites do cluster.
c) Apriori: dado um conjunto de itens, o algoritmo tenta encontrar
subconjuntos que são comuns a, pelo menos, um número mínimo de conjuntos.
d) DBSCAN: dado um conjunto de pontos em algum espaço, agrupa pontos que
estão intimamente empacotados (pontos com muitos vizinhos próximos),
marcando como pontos atípicos que ficam sozinhos em regiões de baixa
densidade (cujos vizinhos mais próximos estão muito distantes).
Gabarito: Letra E.
26- (CESPE - 2017 - SEDF - Analista de Gestão Educacional - Tecnologia

da Informação) Com relação a data mining e data warehouse, julgue o item
que se segue.
Agrupar registros em grupos, de modo que os registros em um grupo sejam
semelhantes entre si e diferentes dos registros em outros grupos é uma maneira
de descrever conhecimento descoberto durante processos de mineração de
dados.
Resolução:
Assertiva refere-se a tarefa ou técnica de clusterização ou agrupamento.
A análise de cluster é uma ferramenta de análise exploratória de dados para
resolver problemas de classificação. O objetivo é classificar casos (por
exemplo, pessoas, coisas, eventos) em grupos ou clusters, de modo que o
grau de associação seja forte entre os membros do mesmo cluster e
fraco entre os membros de diferentes clusters.
Gabarito: Certo.
27- (CESPE - 2016 - TRT - 8ª Região (PA e AP) - Analista Judiciário -

Tecnologia da Informação) Acerca de data mining, assinale a opção correta.
a) A fase de preparação para implementação de um projeto de data mining
consiste, entre outras tarefas, em coletar os dados que serão garimpados, que
devem estar exclusivamente em um data warehouse interno da empresa.
b) As redes neurais são um recurso matemático/computacional usado na
aplicação de técnicas estatísticas nos processos de data mining e consistem em

Prof. Ramon Souza
utilizar uma massa de dados para criar e organizar regras de classificação e

decisão em formato de diagrama de árvore, que vão classificar seu
comportamento ou estimar resultados futuros.
c) As aplicações de data mining utilizam diversas técnicas de natureza
estatística, como a análise de conglomerados (cluster analysis), que tem como
objetivo agrupar, em diferentes conjuntos de dados, os elementos identificados
como semelhantes entre si, com base nas características analisadas.
d) As séries temporais correspondem a técnicas estatísticas utilizadas no cálculo
de previsão de um conjunto de informações, analisando-se seus valores ao
longo de determinado período. Nesse caso, para se obter uma previsão mais
precisa, devem ser descartadas eventuais sazonalidades no conjunto de
informações.
e) Os processos de data mining e OLAP têm os mesmos objetivos: trabalhar os
dados existentes no data warehouse e realizar inferências, buscando reconhecer
correlações não explícitas nos dados do data warehouse.
Resolução:
Vamos analisar as assertivas:
a) Incorreto: a fase de preparação de dados consiste em coletar os dados
identificados e prepará-los para análise. É a etapa que consome mais
tempo. No entanto, os dados são coletados de múltiplas fontes e não somente
de um DW interno.
b) Incorreto: item refere-se a árvores de decisão e não a redes
neurais. As redes neurais envolvem o desenvolvimento de estruturas
matemáticas (um tanto parecidas com as redes neurais biológicas no cérebro
humano) que têm a capacidade de aprender com experiências passadas
apresentadas sob a forma de conjuntos de dados bem estruturados. As árvores
de decisão classificam os dados em um número finito de classes com base nos
valores das variáveis de entrada. As árvores de decisão são essencialmente
uma hierarquia de declarações se-então.
c) Correto: gabarito da questão. Data mining é o processo que usa técnicas
estatísticas, matemáticas e de inteligência artificial para extrair e
identificar informações úteis e padrões. A análise de
clusters identifica agrupamentos naturais de coisas baseada em suas
características similares.
d) Incorreto: a análise temporal deve considerar a sazonalidade, pois
podem ser identificados comportamentos que somente ocorrem em
determinados períodos.
e) Incorreto: Data mining e OLAP são diferentes. O OLAP é uma
abordagem para responder rapidamente questões ad hoc através da execução
de consultas analíticas multidimensionais em repositórios de dados
organizacionais (data warehouses, data marts). O Data Mining é usado para
descrever o processo pelo qual são descobertos padrões em dados.
Gabarito: Letra C.

Prof. Ramon Souza
28- (CESPE - 2016 - FUNPRESP-EXE - Especialista - Tecnologia da

Informação) Com relação à forma como os dados são armazenados e
manipulados no desenvolvimento de aplicações, julgue o item a seguir.
Na implementação de mineração de dados (data mining), a utilização da técnica
de padrões sequenciais pode ser útil para a identificação de tendências.
Resolução:
A tarefa de padrões sequenciais busca uma sequência de ações ou
eventos. A detecção de padrões sequenciais é equivalente à detecção de
associações entre eventos com certos relacionamentos temporais. Com
base nas sequências de eventos identificadas é possível avaliar as tendências,
por exemplo, se um paciente fuma excessivamente, provavelmente sofrerá com
problemas pulmonares.
Gabarito: Certo.
29- (CESPE - 2015 - MEC - Administrador de Banco de Dados) Julgue o

item seguinte, referente a data mining.
Selecionar uma amostra e determinar os conjuntos de itens frequentes dessa
amostra para formar a lista de previsão de subconjunto são as principais
características do algoritmo de previsão.
Resolução:
A questão descreve os algoritmos de amostragem utilizados nas regras
de associação e não os algoritmos de previsão. Segundo Navathe, a ideia
principal para o algoritmo de amostragem é selecionar uma amostra pequena
e determinar os conjuntos de dados (itemsets) frequentes com base na
amostra.
Gabarito: Errado.

A predição em algoritmos de data mining objetiva modelar funções sobre
valores para apresentar o comportamento futuro de determinados atributos.
Resolução:
Assertiva conforme o objetivo da predição.
A Predição (ou previsão) busca descrever a natureza de ocorrências
futuras de certos eventos com base nos acontecimentos passados.
Difere da adivinhação, pois leva em consideração as experiências, opiniões e
outras informações relevantes na condução da previsão. Dependendo da
natureza da predição, podemos falar em classificação ou regressão.
Gabarito: Certo.

Prof. Ramon Souza

O conhecimento obtido no processo de data mining pode ser classificado como
uma regra de associação quando, em um conjunto de eventos, há uma
hierarquia de tuplas sequenciais.
Resolução:
Questão misturou a classificação com a associação. Uma hierarquia está
relacionada às tarefas de classificação e não de associação.
A Associação (ou aprendizagem de regras) visa descobrir
relacionamentos entre variáveis em grandes bancos de dados. Dito de outro
modo, as regras de associação correlacionam a presença de um item com uma
faixa de valores para um conjunto de variáveis diverso.
Gabarito: Errado.
32- (CESPE - 2015 - MEC - Administrador de Banco de Dados) Acerca de

data warehouse (DW), Business Intelligence (BI) e data mining, julgue o item
que se segue.
Situação hipotética: Após o período de inscrição para o vestibular de
determinada universidade pública, foram reunidas informações acerca do perfil
dos candidatos, cursos inscritos e concorrências. Ademais, que, por meio das
soluções de BI e DW que integram outros sistemas, foram realizadas análises
para a detecção de relacionamentos sistemáticos entre as informações
registradas.
Assertiva: Nessa situação, tais análises podem ser consideradas como data
mining, pois agregam valor às decisões do MEC e sugerem tendências, como,
por exemplo, o aumento no número de escolas privadas e a escolha de
determinado curso superior.
Resolução:
Item corretíssimo. A mineração de dados (data mining) refere-se à
mineração ou descoberta de novas informações em termos de padrões
ou regras com base em grandes quantidades de dados. Os gestores das
organizações usam estes padrões, regras, tendências e comportamentos
excepcionais para que possam tomar decisões e agir para otimizar os negócios.
Gabarito: Certo.

Algoritmo genético é uma das ferramentas do data mining que utiliza
mecanismos de biologia evolutiva, como hereditariedade, recombinação,
seleção natural e mutação, para solucionar e agrupar problemas.

Prof. Ramon Souza
Resolução:
Os algoritmos genéticos podem ser usados na mineração de dados tanto para
realizar a análise de clusters quanto para a classificação.
Os Algoritmos genéticos são implementados como uma simulação de
computador em que uma população de representações abstratas de
solução é selecionada em busca de soluções melhores. A evolução geralmente
se inicia a partir de um conjunto de soluções criado aleatoriamente e é realizada
por meio de gerações. A cada geração, a adaptação de cada solução na população
é avaliada, alguns indivíduos são selecionados para a próxima geração, e
recombinados ou mutados para formar uma nova população. A nova população
então é utilizada como entrada para a próxima iteração do algoritmo.
Gabarito: Certo.
34- (CESPE - 2014 - ANTAQ - Analista Administrativo - Infraestrutura

de TI) A respeito de Data Warehouse e Data Mining, julgue os itens
subsecutivos.
Em um processo de descoberta do conhecimento, um Data Mining executado
para atingir uma meta pode falhar nas classes de predição, de identificação, de
classificação e de otimização.
Resolução:
A mineração de dados costuma ser executada com alguns objetivos finais ou
aplicações. Segundo Navathe, de um modo geral, estes objetivos se encontram
nas seguintes classes de previsão, identificação, classificação e otimização. É
possível, porém, haver falhas durante a busca destes objetivos por causa de
uma má modelagem ou mesmo de problemas com os dados.
Gabarito: Certo.
35- (CESPE - 2014 - TJ-SE - Analista Judiciário - Banco de Dados) Julgue

os próximos itens, com relação a DataMining e ETL.
O uso de agrupamento (clustering) em DataMining exige que os registros sejam
previamente categorizados, tendo por finalidade aproximar registros similares
para predizer valores de variáveis.
Resolução:
A clusterização difere da classificação justamente porque os grupos são
definidos posteriormente, isto é, não há uma determinação de classes
previamente. Já na classificação, há uma determinação prévia dos grupos para
os dados serem dispostos.
Gabarito: Errado.

Prof. Ramon Souza
36- (CESPE - 2014 - TC-DF - Analista de Administração Pública -

Sistemas de TI) Julgue os itens subsecutivos, com relação a Data Mining,
desempenho de sistemas de bancos de dados e controle de concorrência.
Com o uso da classificação como técnica de Data Mining, busca-se a
identificação de uma classe por meio de múltiplos atributos. Essa técnica
também pode ser usada em conjunto com outras técnicas de mineração de
dados.
Resolução:
Questão que parece ambígua, podendo levar a confusão quando fala em
identificação de uma classe. Pode-se levar a crer que se trataria de identificação
das classes, no entanto, o termo utilizado é “identificação de uma classe”, que
se refere a identificar a que classe determinado objeto pertence com base em
seus atributos. Assim, estas classes já estariam pré-definidas e os objetos serão
atribuídos a elas.
A classificação é o processo de aprender um modelo que descreve
diferentes classes de dados. As classes são predefinidas e, portanto, esse
tipo de atividade é também chamado de aprendizado supervisionado.
Gabarito: Certo.
37- (CESPE - 2013 - MPU - Analista - Suporte e Infraestrutura) Julgue

os próximos itens, acerca de sistemas de suporte à decisão.
Em se tratando de mineração de dados, a técnica de agrupamento (clustering)
permite a descoberta de dados por faixa de valores, por meio do exame de
alguns atributos das entidades envolvidas.
Resolução:
Assertiva correta. A clusterização é a partição de uma coleção de coisas,
eventos ou itens em segmentos cujos membros possuem características
semelhantes. O objetivo é classificar casos (por exemplo, pessoas, coisas,
eventos) em grupos ou clusters, de modo que o grau de associação seja
forte entre os membros do mesmo cluster e fraco entre os membros de
diferentes clusters.
Gabarito: Certo.

itens que se seguem à luz dos conceitos básicos de datamining e
datawarehouse.
Nos métodos de particionamento para k-clusterização e k-medoids, o elemento
que melhor representa o cluster é definido de acordo com seus atributos, sem
que haja muita influência dos valores próximos aos limites do cluster.

Prof. Ramon Souza
Resolução:
Os métodos de clusterização baseados em estatística (k-clusterização) podem
utilizar a média (k-means), a mediana (k-medoids) ou a moda (k-mode) para
definir os elementos centrais dos clusters. No k-medoids ao invés de usar a
média para definir o centro dos clusters, utiliza a mediana (valor mais ao
centro do conjunto de dados). Assim, o elemento que melhor representa o
cluster, é definido de acordo com seus atributos sem que haja muita influência
dos valores próximos aos limites do cluster.
Gabarito: Certo.
39- (CESPE - 2013 - SERPRO - Analista - Negócios em Tecnologia da

Informação) Com relação a datamining, datawarehouse, gerenciamento de
conteúdo, ambientes colaborativos e portais corporativos, julgue os próximos
itens.
Clusterização é a tarefa preditiva relativa à identificação de um conjunto finito
de categorias empregadas para descrever uma informação. Essas categorias
nunca poderão ser mutuamente exclusivas.
Resolução:
Temos algumas incoerências nesta questão:
1. A clusterização não é tarefa preditiva. As tarefas preditivas são a
classificação e a regressão.
2. Na clusterização, as classes não são previamente conhecidas e,
portanto, não há como falar que elas não serão mutuamente exclusivas.
Gabarito: Errado.
40- (CESPE - 2013 - INPI - Analista de Planejamento -

Desenvolvimento e Manutenção de Sistemas) Em relação a Data
Warehouse, Data Mining e banco de dados distribuídos, julgue os itens
subsequentes.
O Data Mining possibilita descobrir padrões úteis de diferentes formas. Uma
delas é por meio de classificação, utilizando-se o algoritmo ID3 que recebe como
entrada um conjunto de tuplas para treinamento chamado exemplos e um
atributo objetivo, que permite criar árvores de decisão.
Resolução:
O Algoritmo ID3 é constrói uma árvore de decisão que é uma das
ferramentas utilizadas para a tarefa de classificação.
As ferramentas (por vezes chamados de algoritmos) comuns de
classificação incluem redes neurais e árvores de decisão (da aprendizagem
de máquina), regressão logística e análise discriminatória (das estatísticas
tradicionais) e ferramentas emergentes, como conjuntos aproximados,

Prof. Ramon Souza
máquinas de vetores de suporte e algoritmos genéticos. Vamos falar as duas

principais: redes neurais e árvores de decisão.
O algoritmo ID3 (Iterative Dichotomiser 3) foi desenvolvido por J. Ross
Quinlan na Universidade de Sidney e publicado em 1975. O ID3 constrói
a árvore de decisão a partir da raiz, selecionando o melhor atributo
classificador dentre todos os atributos do conjunto de dados. O melhor atributo
classificador é selecionado com base numa avaliação estatística de todos os
atributos. Após a escolha, os dados são separados de acordo com as classes do
atributo escolhido, gerando uma subdivisão dos dados para cada descendente
na árvore. O algoritmo é aplicado recursivamente a cada descendente, até que
algum critério de parada seja atingido. Isto gera uma árvore de decisão
aceitável, na qual o algoritmo nunca retrocede para reconsiderar escolhas feitas
anteriormente.
Gabarito: Certo.
41- (CESPE - 2011 - Correios - Analista de Correios - Analista de

Sistemas - Produção) Acerca de datawarehouse (DW) e datamining, julgue
os próximos itens.
Um dos métodos de classificação do datamining é o de análise de agrupamento
(cluster), por meio do qual são determinadas características sequenciais
utilizando-se dados que dependem do tempo, ou seja, extraindo-se e
registrando-se desvios e tendências no tempo.
Resolução:
As características sequenciais são identificadas nos métodos de
associação e não nos métodos de análise de agrupamento.
A associação (ou aprendizagem de regras) visa descobrir
relacionamentos entre variáveis em grandes bancos de dados. Dito de outro
modo, as regras de associação correlacionam a presença de um item com uma
faixa de valores para um conjunto de variáveis diverso.
▪ Análise de ligações: a ligação entre os diversos objetos de
interesse é descoberta automaticamente. Ex.: quando um cliente do sexo
masculino compra fraldas em supermercado, geralmente ele compra
cerveja.
▪ Padrões sequenciais: uma sequência de ações ou eventos é
buscada. A detecção de padrões sequenciais é equivalente à detecção
de associações entre eventos com certos relacionamentos
temporais. Ex.: se um paciente fuma excessivamente, provavelmente
sofrerá com problemas pulmonares.
▪ Padrões dentro de série temporal: as similaridades entre os dados
podem ser detectadas dentro de posições de uma série temporal, que é
uma sequência de dados tomados em intervalos regulares. Ex.: os
casacos de frio são mais baratos no verão e mais caros no inverno.

Prof. Ramon Souza
A análise de clusters (análise de agrupamentos ou análise de

aglomerações) é um método de mineração de dados essencial
para classificar itens, eventos ou conceitos em agrupamentos comuns
chamados de clusters.
Gabarito: Errado.
Mineração de texto.
42- (CESPE - 2011 - STM - Analista Judiciário - Análise de Sistemas) A
respeito de bancos de dados textuais, julgue o item a seguir.
Bancos de dados textuais auxiliam a tomada de decisão nos níveis gerenciais,
uma vez que tratam de dados históricos. Na mineração de dados para um data
warehouse, é necessária a montagem de um banco de dados textual, tal que as
pesquisas possam ser realizadas por meio de dados históricos.
Resolução:
A mineração de dados não exige a montagem de um banco de dados
textual, podendo ser realizada em um Data Warehouse estruturado. Quando
esta mineração ocorre nestes bancos de dados textuais, temos a chamada
mineração de texto (text mining).
A mineração de texto (também conhecida como mineração de dados de
texto ou descoberta de conhecimento em bancos de dados textuais) é
o processo semiautomático de extração de padrões (informações úteis
e conhecimento) de grandes quantidades de fontes de dados não
estruturadas.
Gabarito: Errado.
43- (CESPE - 2010 - Banco da Amazônia - Técnico Científico -

Tecnologia da Informação - Administração de Dados) Os dois métodos
principais de busca por frases em bancos de dados textuais de larga escala,
utilizando indexação de textos, são os arquivos invertidos com contadores de
posição e índices para a próxima palavra.
Resolução:
Um banco de dados textual é uma coleção de documentos, que pode
também ser visto como um largo conjunto de registros, em que cada registro
contém apenas uma lista de palavras de tamanho arbitrário.
Os dois métodos principais de busca por frases em bancos de dados textuais
de larga escala, utilizando indexação de textos, são os arquivos invertidos com
contadores de posição e índices para a próxima palavra.
▪ Um arquivo invertido possui duas partes principais: uma estrutura de
busca, chamada de vocabulário, contendo todos os termos distintos
existentes no texto indexados e, para cada termo, uma lista invertida que
armazena os identificadores dos registros contendo o termo. Consultas são

Prof. Ramon Souza
feitas tomando-se a lista invertida correspondente ao termo procurado. As

consultas booleanas são feitas obtendo-se a conjunção ou disjunção entre
as listas relativas aos termos presentes na consulta. Arquivos invertidos
podem ser utilizados para busca de frases, através da adição de mais
informações a lista invertida. Basicamente, adiciona-se os deslocamentos no
texto em que ocorrem as palavras.
▪ Os índices para a próxima palavra apresentam uma abordagem mais
eficiente do que o uso de arquivos invertidos com contadores de posição.
Nessa abordagem, para cada palavra existente no vocabulário é criado uma
lista com as palavras que ocorrem em uma posição subsequente no texto,
juntamente com apontadores de posição para essas ocorrências.
Gabarito: Certo.
44- (CESPE - 2008 - STJ - Técnico Judiciário - Informática) Julgue os

próximos itens, que se referem a bancos de dados textuais.
Um banco de dados textual pode ser definido como um conjunto de dados inter-
relacionados em um texto.
Resolução:
Item apresenta uma definição possível para o banco de dados textual. Uma
definição alternativa é que um banco de dados textual é uma coleção de
documentos, que pode também ser visto como um largo conjunto de registros,
em que cada registro contém apenas uma lista de palavras de tamanho
arbitrário.
Gabarito: Certo.

Prof. Ramon Souza
10. RISCO EXPONENCIAL

✓ Mineração de dados.
Processo não trivial de

Descoberta de novas
identificar padrões válidos,
informações em termos de
novos, potencialmente úteis e
padrões ou regras.
compreensíveis.
Mineração de
dados
Não é uma nova disciplina,
(Extração de Utiliza técnicas de estatística, mas uma interseção de muitas
conhecimento, análise matemática e inteligência (estatística, inteligência artificial,
de padrões, artificial. aprendizado de máquinas, ciência de gestão,
arqueologia de dados, sistemas de informação e bancos de dados).
busca de padrões ou
dragagem de dados)
Pesquisas.
Finanças, varejo, marketing,
Amplamente utilizada em
manufatura e saúde.
diversos ramos
Vantagem competitiva
estratégica.
✓ Características da mineração de dados.
Bancos de dados
muito grandes
Arquitetura
Requer, por vezes, cliente/servidor ou
processamento uma baseada na
paralelo Web
Características Ferramentas
Fácil combinação
da mineração de sofisticadas para
com outras
dados recuperação de
ferramentas
informações
Resultados
inesperados e Consultas sem
exigência de conhecimento de
pensamento criativo programação
✓ Objetivos da mineração de dados.
Objetivos finais ou aplicações da mineração de dados
Previsão Identificação Classificação Otimização

Prof. Ramon Souza
✓ CRISP-DM.
❖ Entendimento das necessidades

❖ Identificação dos dados relevantes
gerenciais e das especificações de
das diferentes fontes de dados.
objetivos e requisitos de negócio.
❖ Começa com a coleta inicial de dados e
❖ Desenvolvimento de um plano de
prossegue com atividades para se
projeto para busca de conhecimento
familiarizar com os dados, identificar
para a identificação das pessoas
problemas de qualidade de dados,
responsáveis por coletar, analisar e
descobrir novos insights sobre os
reportar dados. Um orçamento de alto
dados ou detectar subconjuntos
nível pode ser estabelecido.
interessantes para formar hipóteses.
❖ Carga dos dados e preparação

para análise por métodos de
❖ Abrange as atividades para

construir o conjunto de dados
final a partir dos dados brutos
iniciais.
❖ Consome mais tempo e esforço

(~ 80% do tempo total).
❖ Seleção e aplicação de técnicas

de modelagem para atender às
necessidades específicas do
negócio.
❖ Também compreende a
avaliação e comparação das
análises realizadas com os
diversos modelos construídos.
❖ Conhecimento adquirido com a ❖ Os modelos desenvolvidos são

exploração dos é organizado e testados e avaliados quanto à sua
apresentado de forma que o precisão e generalidade.
usuário possa entendê-lo e tirar
benefício dele. ❖ Esta etapa avalia o grau em que o
modelo selecionado (ou modelos)
❖ Também pode incluir atividades de atende aos objetivos comerciais.
manutenção para os modelos
implantados. ❖ Tarefa crítica e desafiadora.

Prof. Ramon Souza
✓ Técnicas para pré-processamento (Navathe).
Tarefas de pré-processamento (Navathe)

Dados selecionados das diferentes basesPr
Seleção de Limpeza de Enriquecimento Transformação

dados dados Melhoria com base de dados e
Dados selecionados Correção dos dados em fontes adicionais codificação
das diferentes bases Redução da
quantidade de dados
✓ Técnicas de pré-processamento (CRISP-DM).

Prof. Ramon Souza
✓ Técnicas e tarefas de mineração de dados.
Classes são pré-definidas. Classificação
Hierarquia de classes com

Predição base em um conjunto
existente de eventos ou
Descrever a natureza
transações.
de ocorrências futuras
de certos eventos com
base nos
acontecimentos Regressão
passados.
Regra de classificação que é
uma função sobre variáveis.
Tarefas ou técnicas de mineração de dados
Análise de ligações
A ligação entre os diversos

objetos é descoberta
automaticamente.
Associação
Padrões sequenciais
Descobrir
relacionamentos
entre variáveis em Uma sequência de ações ou
grandes bancos de eventos é buscada.
dados.
Padrões de séries temporais
Classes são
As similaridades entre os
previamente
dados podem ser detectadas
desconhecidas.
dentro de posições de uma
série temporal.
Agrupamento
(clusterização)
Análise de outliers
Partição de uma
coleção de eventos ou Identificação dos dados que
itens em segmentos não apresentam o
cujos membros são comportamento padrão.
características
semelhantes.

Prof. Ramon Souza
✓ Classificação.
Processo de aprender
um modelo que Classes pre-
descreve diferentes definidas.
classes de dados.
Classificação
Ferramentas
comuns
Aprendizado
Estatística Emergentes
de máquina
Máquinas
Árvores Análise Conjuntos de Algoritmo
Redes Regressão
de discrimina aproxima vetores s
neurais loigística
decisão tória dos de genéticos
suporte
✓ Associação.
Técnica popular para descobrir

relacionamentos interessantes
entre variáveis.
Regras de associação
Derivações Medidas de Algoritmos

comuns interesse utilizados
PP-
Growth,
Análise de Padrões de Suporte ou Confiança
Apriori OneR,
ligações sequência prevalência ou força
ZeroR e
Eclat.

Prof. Ramon Souza
✓ Agrupamentos (clusterização).
Método de mineração de dados essencial para Classes não são

classificar itens, eventos ou conceitos em previamente
agrupamentos comuns chamados de clusters. definidas
Agrupamentos
(clusterização)
Formas gerais Métodos gerais
Redes Lógica Algoritmos

Divisivo Aglomerativo Estatísticos
neurais difusa genéticos
✓ Mineração de texto (text mining).
Dados semi-
Dados não estruturados
estuturados
Ex.:
Documentos
do Word,
arquivos PDF,
trechos de
texto, arquivos
XML
2ª etapa
Extração de informações e conhecimentos

relevantes a partir desses dados estruturados
baseados em texto usando técnicas e
ferramentas de mineração de dados.

Prof. Ramon Souza
11. LISTAS DE EXERCÍCIOS

Questões comentadas durante a aula.
1- (CESPE - 2015 - TCU - Auditor Federal de Controle Externo -
Conhecimentos Gerais) No que concerne a data mining (mineração de dados)
e big data, julgue o seguinte item.
O uso prático de data mining envolve o emprego de processos, ferramentas,
técnicas e métodos oriundos da matemática, da estatística e da computação,
inclusive de inteligência artificial.

A finalidade do uso do data mining em uma organização é subsidiar a produção
de afirmações conclusivas acerca do padrão de comportamento exibido por
agentes de interesse dessa organização.

No ambiente organizacional, devido à grande quantidade de dados, não é
recomendado o emprego de data mining para atividades ligadas a marketing.

Quem utiliza o data mining tem como objetivo descobrir, explorar ou minerar
relacionamentos, padrões e vínculos significativos presentes em grandes
massas documentais registradas em arquivos físicos (analógicos) e arquivos
lógicos (digitais).
5- (CESPE - 2016 - TCE-SC - Auditor Fiscal de Controle Externo -

Informática) Julgue o item subsecutivo, acerca de mineração de dados.
Para a realização de prognósticos por meio de técnicas de mineração de dados,
parte-se de uma série de valores existentes obtidos de dados históricos bem
como de suposições controladas a respeito das condições futuras, para prever
outros valores e situações que ocorrerão e, assim, planejar e preparar as ações
organizacionais.

Prof. Ramon Souza
6- (CESPE - 2017 - TCE-PE - Auditor de Controle Externo - Auditoria

de Contas Públicas) Julgue o seguinte item, que se refere a CRISP-DM (Cross-
Industry Standard Process of Data Mining).
Durante a fase de entendimento do negócio, busca-se descrever claramente o
problema, fazer a identificação dos dados e verificar se as variáveis relevantes
para o projeto não são interdependentes.
7- (ESAF - 2013 - MF - Analista de Finanças e Controle - Gestão em

Infraestrutura de TI) A Mineração de Dados requer uma adequação prévia
dos dados através de técnicas de pré-processamento. Entre elas estão as
seguintes técnicas:
a) Agrupamento. Amostragem. Redução de dimensionalidade. Seleção de
subconjuntos de recursos. Recursos pontuais. Polarização. Redução de
variáveis.
b) Agregação. Classificação. Redução de faixas de valores. Seleção de
subconjuntos de recursos. Redução de recursos. Terceirização e discretização.
c) Agrupamento. Classificação. Redução de dimensionalidade. Seleção de
subconjuntos de usuários. Criação de recursos. Binarização e discretização.
Transformação de conjuntos.
d) Agregação. Amostragem. Redução de dimensionalidade. Seleção de
subconjuntos de usuários. Criação de recursos. Polarização. Transformação de
conjuntos.
e) Agregação. Amostragem. Redução de dimensionalidade. Seleção de
subconjuntos de recursos. Criação de recursos. Binarização e discretização.

datawarehouse.
Tarefas descritivas têm como objetivo derivar padrões como correlações,
tendências, grupos, trajetórias e anomalias, os quais sumarizam as relações
subjacentes nos dados.
9- (CESPE - 2016 - FUNPRESP-JUD - Analista - Tecnologia da

Informação) Julgue o item subsecutivo, referente às tecnologias de bancos de
dados.
Em DataMining, as árvores de decisão podem ser usadas com sistemas de
classificação para atribuir informação de tipo.

Prof. Ramon Souza
10- (CESPE - 2008 - SERPRO - Analista - Suporte Técnico) Julgue os itens

que se seguem, acerca de data mining e data warehouse.
A data mining apoia a descoberta de regras e padrões em grandes quantidades
de dados. Em data mining, um possível foco é a descoberta de regras de
associação. Para que uma associação seja de interesse, é necessário avaliar o
seu suporte, que se refere à frequência com a qual a regra ocorre no banco de
dados.
11- (CESPE - 2017 - TCE-PE - Analista de Controle Externo - Auditoria

de Contas Públicas) Em relação à análise de agrupamentos (clusterização)
em mineração de dados, julgue o item seguinte.
O método de clustering k-means objetiva particionar ‘n’ observações entre ‘k’
grupos; cada observação pertence ao grupo mais próximo da média.
12- (CESPE - 2016 - TCE-SC - Auditor Fiscal de Controle Externo -

Informática) Julgue o item subsecutivo, acerca de mineração de dados.
As aglomerações, tipos de informação obtidos por meio da mineração de dados,
caracterizam-se por se ligarem a um único e específico evento, em torno do
qual ocorrem várias ações, com produção sistêmica de informações gerenciais
que apoiarão uma nova ocorrência do mesmo tipo de evento.
13- (CESPE - 2012 - TRE-RJ - Técnico Judiciário - Programação de

Sistemas) Com referência a conceitos de banco de dados textual, julgue os
itens seguintes.
Text mining é o processo que utiliza métodos para navegar, organizar, encontrar
e descobrir informações em bases textuais escritas em linguagem natural. Com
text mining é possível manipular mais facilmente informações não estruturadas,
tais como notícias, textos em websites, blogs e documentos em geral.
Noções de Mineração de Dados. Conceitos e características

Informática - Analista de Sistema) Julgue o item a seguir, em relação a data
warehouse e data mining.
No contexto de data mining, o processo de descoberta de conhecimento em
base de dados consiste na extração não trivial de conhecimento previamente
desconhecido e potencialmente útil.
15- (CESPE - 2015 - DEPEN - Agente Penitenciário Federal - Área 7)

Acerca de datawarehouse e datamining, julgue o item subsequente.
Os objetivos do datamining incluem identificar os tipos de relacionamentos que
se estabelecem entre informações armazenadas em um grande repositório.

Prof. Ramon Souza
16- (CESPE - 2014 - ANATEL - Analista Administrativo - Suporte e

Infraestrutura de TI) A respeito de banco de dados, julgue os itens que se
seguem.
No processo de Data Mining (mineração de dados), é indispensável o uso de
técnica conhecida como Data Warehousing, uma vez que a mineração de dados
deve ocorrer necessariamente em estruturas não normalizadas (FN0).
17- (CESPE - 2014 - TJ-SE - Analista Judiciário - Análise de Sistemas)

Com relação a sistemas de suporte à decisão, julgue os seguintes itens.
DataMining pode ser considerado uma etapa no processo de descoberta de
conhecimento em base de dados, consistindo em análise de conjuntos de dados
cujo objetivo é descobrir padrões úteis para tomada de decisão.
18- (CESPE - 2014 - TJ-SE - Técnico Judiciário - Programação de

Sistemas) Acerca de DataMining e de DataWarehouse, julgue o item
subsecutivo.
Os principais processos de DataMining são a identificação de variações
embasado em normas, a detecção e análise de relacionamentos, a paginação
de memória e o controle de periféricos.

itens seguintes, relativos à arquitetura e às tecnologias de sistemas de
informação.
Datamining é a tecnologia por intermédio da qual os processos são
automatizados mediante racionalização e potencialização por meio de dois
componentes: organização e tecnologia.
20- (CESPE - 2012 - PEFOCE - Perito Criminal - Análise de Sistemas) No

que se refere a banco de dados e sistemas de suporte a decisão, julgue os itens
subsecutivos.
O data mining tem por objetivo a extração de informações úteis para tomadas
de decisão com base nos grandes volumes de dados armazenados nas
organizações. Os dados para o data mining são originados restritamente dos
data warehouses, pois estes são os que aglomeram enorme quantidade de
dados não voláteis e organizados por assunto.
21- (CESPE - 2011 - TJ-ES - Analista Judiciário - Informática) Julgue os

itens a seguir, a respeito de administração de dados e de administração de
banco de dados.
Mineração de dados, em seu conceito pleno, consiste na realização, de forma
manual, de sucessivas consultas ao banco de dados com o objetivo de descobrir
padrões úteis, mas não necessariamente novos, para auxílio à tomada de
decisão.

Prof. Ramon Souza
22- (CESPE - 2008 - IPEA - Analista de Sistemas - Suporte de Banco de

Dados) Com relação a BI (business inteligence), indicadores da produção,
administração da produção, monitoração do ambiente operacional, julgue os
próximos itens.
O data mining é um processo utilizado para a extração de dados de grandes
repositórios para tomada de decisão, mas sua limitação é não conseguir analisar
dados de um data warehouse.
Modelo de referência CRISP-DM

Informática - Administrador de Banco de Dados) Julgue o item
subsequente, acerca de segurança da informação de um SGBD e de um BI
(Business Intelligence).
CRISP-DM é uma metodologia proprietária que identifica as fases Business
Understanding e Data Understanding na implantação de um projeto de data
mining.
24- (CESPE - 2015 - TJ-DFT - Técnico Judiciário - Programação de

Sistemas) Julgue o item a seguir, a respeito de datawarehouse e de
datamining.
Em um processo de mineração, durante a etapa de preparação dos dados, são
analisados os requisitos de negócio para consolidar os dados.
Técnicas e tarefas de mineração de dados.

25- (CESPE - 2017 - TRE-BA - Analista Judiciário – Análise de Sistemas)
O agrupamento de dados no processo de data mining procura, em uma massa
de dados que caracterizam uma população de indivíduos, grupos semelhantes
e diferentes. O algoritmo baseado na teoria dos grafos e que dispensa a
definição de protótipos utilizado para segmentar a base de dados em diferentes
grupos é denominado
a) K média.
b) K medoides.
c) Apriori.
d) DBSCAN.
e) Árvore geradora mínima.
26- (CESPE - 2017 - SEDF - Analista de Gestão Educacional - Tecnologia

da Informação) Com relação a data mining e data warehouse, julgue o item
que se segue.
Agrupar registros em grupos, de modo que os registros em um grupo sejam
semelhantes entre si e diferentes dos registros em outros grupos é uma maneira
de descrever conhecimento descoberto durante processos de mineração de
dados.

Prof. Ramon Souza
27- (CESPE - 2016 - TRT - 8ª Região (PA e AP) - Analista Judiciário -

Tecnologia da Informação) Acerca de data mining, assinale a opção correta.
a) A fase de preparação para implementação de um projeto de data mining
consiste, entre outras tarefas, em coletar os dados que serão garimpados, que
devem estar exclusivamente em um data warehouse interno da empresa.
b) As redes neurais são um recurso matemático/computacional usado na
aplicação de técnicas estatísticas nos processos de data mining e consistem em
utilizar uma massa de dados para criar e organizar regras de classificação e
decisão em formato de diagrama de árvore, que vão classificar seu
comportamento ou estimar resultados futuros.
c) As aplicações de data mining utilizam diversas técnicas de natureza
estatística, como a análise de conglomerados (cluster analysis), que tem como
objetivo agrupar, em diferentes conjuntos de dados, os elementos identificados
como semelhantes entre si, com base nas características analisadas.
d) As séries temporais correspondem a técnicas estatísticas utilizadas no cálculo
de previsão de um conjunto de informações, analisando-se seus valores ao
longo de determinado período. Nesse caso, para se obter uma previsão mais
precisa, devem ser descartadas eventuais sazonalidades no conjunto de
informações.
e) Os processos de data mining e OLAP têm os mesmos objetivos: trabalhar os
dados existentes no data warehouse e realizar inferências, buscando reconhecer
correlações não explícitas nos dados do data warehouse.
28- (CESPE - 2016 - FUNPRESP-EXE - Especialista - Tecnologia da

Informação) Com relação à forma como os dados são armazenados e
manipulados no desenvolvimento de aplicações, julgue o item a seguir.
Na implementação de mineração de dados (data mining), a utilização da técnica
de padrões sequenciais pode ser útil para a identificação de tendências.

Selecionar uma amostra e determinar os conjuntos de itens frequentes dessa
amostra para formar a lista de previsão de subconjunto são as principais
características do algoritmo de previsão.

A predição em algoritmos de data mining objetiva modelar funções sobre
valores para apresentar o comportamento futuro de determinados atributos.


Prof. Ramon Souza
O conhecimento obtido no processo de data mining pode ser classificado como

uma regra de associação quando, em um conjunto de eventos, há uma
hierarquia de tuplas sequenciais.
32- (CESPE - 2015 - MEC - Administrador de Banco de Dados) Acerca de

data warehouse (DW), Business Intelligence (BI) e data mining, julgue.
Situação hipotética: Após o período de inscrição para o vestibular de
determinada universidade pública, foram reunidas informações acerca do perfil
dos candidatos, cursos inscritos e concorrências. Ademais, que, por meio das
soluções de BI e DW que integram outros sistemas, foram realizadas análises
para a detecção de relacionamentos sistemáticos entre as informações
registradas. Assertiva: Nessa situação, tais análises podem ser consideradas
como data mining, pois agregam valor às decisões do MEC e sugerem
tendências, como, por exemplo, o aumento no número de escolas privadas e a
escolha de determinado curso superior.

Algoritmo genético é uma das ferramentas do data mining que utiliza
mecanismos de biologia evolutiva, como hereditariedade, recombinação,
seleção natural e mutação, para solucionar e agrupar problemas.
34- (CESPE - 2014 - ANTAQ - Analista Administrativo - Infraestrutura

de TI) A respeito de Data Warehouse e Data Mining, julgue os itens
subsecutivos.
Em um processo de descoberta do conhecimento, um Data Mining executado
para atingir uma meta pode falhar nas classes de predição, de identificação, de
classificação e de otimização.
35- (CESPE - 2014 - TJ-SE - Analista Judiciário - Banco de Dados) Julgue

os próximos itens, com relação a DataMining e ETL.
O uso de agrupamento (clustering) em DataMining exige que os registros sejam
previamente categorizados, tendo por finalidade aproximar registros similares
para predizer valores de variáveis.
36- (CESPE - 2014 - TC-DF - Analista de Administração Pública -

Sistemas de TI) Julgue os itens subsecutivos, com relação a Data Mining,
desempenho de sistemas de bancos de dados e controle de concorrência.
Com o uso da classificação como técnica de Data Mining, busca-se a identificação
de uma classe por meio de múltiplos atributos. Essa técnica também pode ser usada
em conjunto com outras técnicas de mineração de dados.

Prof. Ramon Souza
37- (CESPE - 2013 - MPU - Analista - Suporte e Infraestrutura) Julgue

os próximos itens, acerca de sistemas de suporte à decisão.
Em se tratando de mineração de dados, a técnica de agrupamento (clustering)
permite a descoberta de dados por faixa de valores, por meio do exame de
alguns atributos das entidades envolvidas.

datawarehouse.
Nos métodos de particionamento para k-clusterização e k-medoids, o elemento
que melhor representa o cluster é definido de acordo com seus atributos, sem
que haja muita influência dos valores próximos aos limites do cluster.
39- (CESPE - 2013 - SERPRO - Analista - Negócios em Tecnologia da

Informação) Com relação a datamining, datawarehouse, gerenciamento de
conteúdo, ambientes colaborativos e portais corporativos, julgue os próximos
itens.
Clusterização é a tarefa preditiva relativa à identificação de um conjunto finito
de categorias empregadas para descrever uma informação. Essas categorias
nunca poderão ser mutuamente exclusivas.
40- (CESPE - 2013 - INPI - Analista de Planejamento -

Desenvolvimento e Manutenção de Sistemas) Em relação a Data
Warehouse, Data Mining e banco de dados distribuídos, julgue os itens
subsequentes.
O Data Mining possibilita descobrir padrões úteis de diferentes formas. Uma
delas é por meio de classificação, utilizando-se o algoritmo ID3 que recebe como
entrada um conjunto de tuplas para treinamento chamado exemplos e um
atributo objetivo, que permite criar árvores de decisão.
41- (CESPE - 2011 - Correios - Analista de Correios - Analista de

Sistemas - Produção) Acerca de datawarehouse (DW) e datamining, julgue
os próximos itens.
Um dos métodos de classificação do datamining é o de análise de agrupamento
(cluster), por meio do qual são determinadas características sequenciais
utilizando-se dados que dependem do tempo, ou seja, extraindo-se e
registrando-se desvios e tendências no tempo.
Mineração de texto.
42- (CESPE - 2011 - STM - Analista Judiciário - Análise de Sistemas) A
respeito de bancos de dados textuais, julgue o item a seguir.
Bancos de dados textuais auxiliam a tomada de decisão nos níveis gerenciais,
uma vez que tratam de dados históricos. Na mineração de dados para um data

Prof. Ramon Souza
warehouse, é necessária a montagem de um banco de dados textual, tal que as

pesquisas possam ser realizadas por meio de dados históricos.
43- (CESPE - 2010 - Banco da Amazônia - Técnico Científico -

Tecnologia da Informação - Administração de Dados) Os dois métodos
principais de busca por frases em bancos de dados textuais de larga escala,
utilizando indexação de textos, são os arquivos invertidos com contadores de
posição e índices para a próxima palavra.
44- (CESPE - 2008 - STJ - Técnico Judiciário - Informática) Julgue os

próximos itens, que se referem a bancos de dados textuais.
Um banco de dados textual pode ser definido como um conjunto de dados inter-
relacionados em um texto.

Prof. Ramon Souza
12. GABARITO
1 Certo 12 Errado 23 Errado 34 Certo
2 Certo 13 Certo 24 Errado 35 Errado
3 Errado 14 Certo 25 E 36 Certo
4 Errado 15 Certo 26 Certo 37 Certo

5 Certo 16 Errado 27 C 38 Certo
6 Errado 17 Certo 28 Certo 39 Errado
7 E 18 Errado 29 Errado 40 Certo

8 Certo 19 Errado 30 Certo 41 Errado
9 Certo 20 Errado 31 Errado 42 Errado
10 Certo 21 Errado 32 Certo 43 Certo

11 Certo 22 Errado 33 Certo 44 Certo
13. REFERÊNCIAS
APRENDIS. Detecção de anomalias. Disponível em <
http://aprendis.gim.med.up.pt/index.php/Detec%C3%A7%C3%A3o_de_anom
alias> . Acesso em: 11 dez. 2017.
CHAPMAN, Pete et al. CRISP-DM 1.0: Step-by-step data mining guide. 2000.
ELMASRI, Ramez; NAVATHE, Shamkant B. Sistema de Banco de Dados. 6ed.
São Paulo: Pearson Addison Wesley, 2011.
HAN, Jiawei; PEI, Jian; KAMBER, Micheline. Data mining: concepts and
techniques. Elsevier, 2011.
IMASTERS. Modelagem preditiva e produtos relacionados aos dados.
Disponível em <https://imasters.com.br/infra/modelagem-preditiva-e-
produtos-relacionados-aos-dados/?trace=1519021197&source=single>.
Acesso em: 11 dez. 2017.
SAS. Machine Learning: O que é e por que é importante? Disponível em
<https://www.sas.com/pt_br/insights/analytics/machine-learning.html>.
Acesso em: 11 dez. 2017.
TAN, Pang-Ning et al. Introduction to data mining. Pearson Education India,
2006.
TURBAN, Efraim et al. Business intelligence: A managerial approach. Upper
Saddle River, NJ: Pearson Prentice Hall, 2008.


Aula 12 Mineracao de Dados

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Aula 12 Mineracao de Dados

Caricato da

Copyright:

Formati disponibili

Aula 12

Curso: Noções de Informática para PF

Aula 12 – Noções de mineração de dados: conceituação e

1. NOÇÕES DE MINERAÇÃO DE DADOS ....................................................... 3

1.1 Conceitos e características .......................................................................... 3

2. MODELO DE REFERÊNCIA CRISP-DM ....................................................... 9

3. TÉCNICAS PARA PRÉ-PROCESSAMENTO DE DADOS ..................................13

4. TÉCNICAS E TAREFAS DE MINERAÇÃO DE DADOS ....................................18

4.1 Classificação .............................................................................................21

4.2 Regras de associação ................................................................................25

4.3 Análise de agrupamentos (clusterização) .....................................................28

5. DETECÇÃO DE ANOMALIAS ....................................................................31

6. MODELAGEM PREDITIVA .......................................................................32

7. APRENDIZADO DE MÁQUINA .................................................................32

8. MINERAÇÃO DE TEXTO .........................................................................33

9. QUESTÕES COMENTADAS .....................................................................35

10. RISCO EXPONENCIAL............................................................................50

11. LISTAS DE EXERCÍCIOS ........................................................................56

12. GABARITO ...........................................................................................65

13. REFERÊNCIAS ......................................................................................65

Para facilitar sua referência, abaixo listamos as esquematizações desta aula:

Prof. Ramon Souza 2 de 65

1. NOÇÕES DE MINERAÇÃO DE DADOS

1.1 Conceitos e características

Prof. Ramon Souza 3 de 65

A mineração de dados é amplamente utilizada em diversos ramos.

Processo não trivial de

Esquema 1 – Mineração de dados.

Prof. Ramon Souza 4 de 65

As principais características da mineração de dados são:

De forma esquemática, temos:

Esquema 2 – Características da mineração de dados.

Prof. Ramon Souza 5 de 65

1- (CESPE - 2015 - TCU - Auditor Federal de Controle

2- (CESPE - 2015 - TCU - Auditor Federal de Controle

Prof. Ramon Souza 6 de 65

3- (CESPE - 2015 - TCU - Auditor Federal de Controle

4- (CESPE - 2015 - TCU - Auditor Federal de Controle

Prof. Ramon Souza 7 de 65

A mineração de dados costuma ser executada com alguns objetivos finais

Objetivos finais ou aplicações da mineração de dados

Previsão Identificação Classificação Otimização

Esquema 3 – Objetivos da mineração de dados.

5- (CESPE - 2016 - TCE-SC - Auditor Fiscal de Controle

Prof. Ramon Souza 8 de 65

2. MODELO DE REFERÊNCIA CRISP-DM

Prof. Ramon Souza 9 de 65

Vejamos então cada uma das fases do modelo CRISP-DM:

❖ Entendimento dos dados: etapa que objetiva identificar os dados

❖ Preparação dos dados (ou pré-processamento de dados): tem

Prof. Ramon Souza 10 de 65

❖ Construção do modelo (ou modelagem): nesta etapa, várias

❖ Teste e avaliação: os modelos desenvolvidos são testados e

❖ Implantação: etapa em que o conhecimento adquirido com a

Prof. Ramon Souza 11 de 65

Para fixar as etapas do CRISP-DM, vamos utilizar um esquema!!!

❖ Entendimento das necessidades

❖ Carga dos dados e preparação

❖ Abrange as atividades para

❖ Consome mais tempo e esforço

❖ Seleção e aplicação de técnicas

❖ Conhecimento adquirido com a ❖ Os modelos desenvolvidos são

Prof. Ramon Souza 12 de 65

6- (CESPE - 2017 - TCE-PE - Auditor de Controle