Sei sulla pagina 1di 60

Big Data Real-Time Analytics com

Python e Spark

www.datascienceacademy.com.br
Apache Spark MLlib

www.datascienceacademy.com.br
www.datascienceacademy.com.br
Spark MLlib

Modelo de
Machine RDD
Learning

www.datascienceacademy.com.br
Spark MLlib

RDD

Funções
MLlib
Algoritmo
Vetor de Modelo
RDD’s
de ML

www.datascienceacademy.com.br
Spark MLlib

www.datascienceacademy.com.br
Spark MLlib

www.datascienceacademy.com.br
Spark MLlib

parallelize()

www.datascienceacademy.com.br
Spark MLlib

www.datascienceacademy.com.br
O que vamos estudar neste capítulo?

• Processo de Analytics
• Regressão Linear
• Decision Tree
• Random Forest
• Naive Bayes
• K-Means
• Sistema de Recomendação (Projeto 3)

www.datascienceacademy.com.br
Obrigado

www.datascienceacademy.com.br
Análise Exploratória x Análise Preditiva

www.datascienceacademy.com.br
Análise Exploratória x Análise Preditiva

www.datascienceacademy.com.br
Analytics

www.datascienceacademy.com.br
Analytics

Datafication

www.datascienceacademy.com.br
Datafication Datafication (ou dataficação em português) é o
processo pelo qual estamos atravessando neste
momento na história da humanidade. Nunca
tivemos tamanha quantidade de dados sendo
gerados e nunca fomos capazes de coletar e
armazenar todos esses dados. Ou seja, temos
dados sobre absolutamente tudo. Isso é
datafication. E quanto mais dados, mais necessário
se faz o processo de Analytics. Temos dados sendo
gerados por bilhões de e-mails pessoais e
corporativos, repositórios digitais de processamento
de transações, atividades monitoradas por cameras,
sensores, cliques em web sites, fotos, vídeos, smart
TVs, redes sociais. Se temos dados sobre tudo,
temos matéria prima em abundância para o
Analytics.

www.datascienceacademy.com.br
Analytics é o processo de coletar dados e gerar insights para
tomadas de decisões baseadas em fatos.

www.datascienceacademy.com.br
Analytics

Big Data + Analytics = Big Data Analytics

Análise em
Tempo Real
+ Analytics = Real-Time Analytics

www.datascienceacademy.com.br
Podemos hoje analisar grandes conjuntos de dados ou
dados gerados em tempo real e coletar insights que
não podiam ser coletados há pouco tempo atrás

www.datascienceacademy.com.br
Tipos de Analytics

Analytics Descrição
Descritiva Compreender o que aconteceu
Exploratória Descobrir porque alguma coisa aconteceu
Inferencial Compreender uma população a partir de uma amostra
Preditiva Prever o que vai acontecer
Causal O que ocorre com uma variável quando outra é alterada
Deep Técnicas avançadas para compreender grandes conjuntos de dados de diversas fontes

www.datascienceacademy.com.br
Tipos de Analytics

Análise Análise
Exploratória Preditiva

www.datascienceacademy.com.br
Análise
Exploratória

www.datascienceacademy.com.br
Objetivos da Análise Exploratória de Dados

Descobrir a
Descobrir
correlação
padrões e
entre as
Compreender tendências
variáveis
variáveis
Detectar
preditoras e
outliers
target no
dataset Encontrar Eliminar
variáveis variáveis
chave irrelevantes
Validar o
processo de Testar
coleta dos hipóteses
dados

www.datascienceacademy.com.br
Ferramentas usadas na Análise Exploratória de Dados

Matriz de Correlação

Histogramas

Scatterplots

Boxplots

Principal Component Analysis

www.datascienceacademy.com.br
Análise
Preditiva

www.datascienceacademy.com.br
Machine Learning

Análise Análise
Dados
Exploratória Exploratória

Feature Selection Modelo


Atributos (Análise Preditiva)
Transformação
Dados

Relacionamentos Correlação

www.datascienceacademy.com.br
Machine Learning – Aprendizagem Supervisionada

• Tenta fazer previsões a partir do treinamento com dados de entrada e dados de saída
• Os modelos são construídos em datasets de treino
• Os modelos são usados para prever o futuro

Pode ser:

• Regressão (dados numéricos e contínuos)


• Classificação (classes)

www.datascienceacademy.com.br
Machine Learning – Dados de Treino/Teste

• Dados históricos contém variáveis preditoras e a variável alvo (target)


• O conjunto de dados é separado em dados de treino e dados de teste
• Dados de treino são usados para treinar o modelo
• Dados de teste são usados para testar e validar o modelo
• Utilizamos medição da acurácia para avaliar o modelo
• Split 70/30
• Seleção aleatória dos dados em ambos os datasets

www.datascienceacademy.com.br
Machine Learning – Aprendizagem Não Supervisionada

• Busca estrutura ou similaridade oculta nos dados


• Grupos observados baseados em similaridade entre as entidades
• Similaridade entre as entidades pode ser: distância entre os valores, presença/ausência de
atributos

Pode ser:

• Clustering
• Regras de Associação
• Filtros Colaborativos (Sistemas de Recomendação)

www.datascienceacademy.com.br
Bias e Variance Tradeoff
(Viés e Variância)

www.datascienceacademy.com.br
Bias e Variance Tradeoff
(Viés e Variância)

www.datascienceacademy.com.br
Bias e Variance Tradeoff
(Viés e Variância)

www.datascienceacademy.com.br
Machine Learning – Erros de Predição

Bias
É a diferença entre o valor esperado da predição do nosso modelo
(média das predições) e o valor real que queremos predizer

www.datascienceacademy.com.br
Machine Learning – Erros de Predição

Variância
É a variabilidade das predições

www.datascienceacademy.com.br
Machine Learning – Erros de Predição

Bias e Variance
(Viés e Variância)

www.datascienceacademy.com.br
Machine Learning – Erros de Predição

O nosso objetivo é reduzir o bias e a variância o


máximo que pudermos, entretanto, nos deparamos
com um trade-off entre underfitting e overfitting.

www.datascienceacademy.com.br
Machine Learning – Erros de Predição

Overfitting

www.datascienceacademy.com.br
Machine Learning – Erros de Predição

Underfitting

www.datascienceacademy.com.br
Machine Learning – Erros de Predição

Bias e Variance
(Viés e Variância)

ideal
www.datascienceacademy.com.br
Machine Learning – Erros de Predição

www.datascienceacademy.com.br
Obrigado

www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
Tipos de Dados

• org.apache.spark.mllib (Java/Scala)
• pyspark.mllib (Python)

www.datascienceacademy.com.br
Tipos de Dados
Tipo de Dado Pacote
Vetor mllib.linalg.Vectors

Vetor Denso
(2.0, 4.0, 8.5)
Vetor Esparso
Original (1.0, 0.0, 0.0, 2.0, 0.0)
Representação (5, (0,3), (1.0, 2.0)

www.datascienceacademy.com.br
Tipos de Dados

Tipo de Dado Pacote


Vetor mllib.linalg.Vectors
LabeledPoint mllib.regression

LabeledPoint(1.0, Vectors.dense(1.0, 0.0, 3.0))

www.datascienceacademy.com.br
Tipos de Dados

Tipo de Dado Pacote


Vetor mllib.linalg.Vectors
LabeledPoint mllib.regression
Rating mllib.recommendation

www.datascienceacademy.com.br
Pipelines

Pipeline consiste de uma série de transformações e ações


que precisam ser realizadas para criar um modelo

www.datascienceacademy.com.br
MLlib – Outras funcionalidades

Funcionalidade (Feature Extraction) Funções (importadas a partir do pacote mllib.feature)


TF-IDF (Term Frequency – Inverse Document Frequency) HashingTF() e IDF ()
Escala StandardScaler()
Normalização Normalizer()
Word2Vec Word2Vec()
Estatística colStats(), corr(), chiSqTest(), mean(), stdev(), sample()

www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
Classificação

www.datascienceacademy.com.br
Decision Tree

www.datascienceacademy.com.br
Clustering

www.datascienceacademy.com.br
Filtros Colaborativos

www.datascienceacademy.com.br
spark.mllib API original construída para trabalhar com RDD’s

spark.ml Nova API construída para funcionar também com


Dataframes e SparkSQL

www.datascienceacademy.com.br
Obrigado

www.datascienceacademy.com.br

Potrebbero piacerti anche