Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Python e Spark
www.datascienceacademy.com.br
Apache Spark MLlib
www.datascienceacademy.com.br
www.datascienceacademy.com.br
Spark MLlib
Modelo de
Machine RDD
Learning
www.datascienceacademy.com.br
Spark MLlib
RDD
Funções
MLlib
Algoritmo
Vetor de Modelo
RDD’s
de ML
www.datascienceacademy.com.br
Spark MLlib
www.datascienceacademy.com.br
Spark MLlib
www.datascienceacademy.com.br
Spark MLlib
parallelize()
www.datascienceacademy.com.br
Spark MLlib
www.datascienceacademy.com.br
O que vamos estudar neste capítulo?
• Processo de Analytics
• Regressão Linear
• Decision Tree
• Random Forest
• Naive Bayes
• K-Means
• Sistema de Recomendação (Projeto 3)
www.datascienceacademy.com.br
Obrigado
www.datascienceacademy.com.br
Análise Exploratória x Análise Preditiva
www.datascienceacademy.com.br
Análise Exploratória x Análise Preditiva
www.datascienceacademy.com.br
Analytics
www.datascienceacademy.com.br
Analytics
Datafication
www.datascienceacademy.com.br
Datafication Datafication (ou dataficação em português) é o
processo pelo qual estamos atravessando neste
momento na história da humanidade. Nunca
tivemos tamanha quantidade de dados sendo
gerados e nunca fomos capazes de coletar e
armazenar todos esses dados. Ou seja, temos
dados sobre absolutamente tudo. Isso é
datafication. E quanto mais dados, mais necessário
se faz o processo de Analytics. Temos dados sendo
gerados por bilhões de e-mails pessoais e
corporativos, repositórios digitais de processamento
de transações, atividades monitoradas por cameras,
sensores, cliques em web sites, fotos, vídeos, smart
TVs, redes sociais. Se temos dados sobre tudo,
temos matéria prima em abundância para o
Analytics.
www.datascienceacademy.com.br
Analytics é o processo de coletar dados e gerar insights para
tomadas de decisões baseadas em fatos.
www.datascienceacademy.com.br
Analytics
Análise em
Tempo Real
+ Analytics = Real-Time Analytics
www.datascienceacademy.com.br
Podemos hoje analisar grandes conjuntos de dados ou
dados gerados em tempo real e coletar insights que
não podiam ser coletados há pouco tempo atrás
www.datascienceacademy.com.br
Tipos de Analytics
Analytics Descrição
Descritiva Compreender o que aconteceu
Exploratória Descobrir porque alguma coisa aconteceu
Inferencial Compreender uma população a partir de uma amostra
Preditiva Prever o que vai acontecer
Causal O que ocorre com uma variável quando outra é alterada
Deep Técnicas avançadas para compreender grandes conjuntos de dados de diversas fontes
www.datascienceacademy.com.br
Tipos de Analytics
Análise Análise
Exploratória Preditiva
www.datascienceacademy.com.br
Análise
Exploratória
www.datascienceacademy.com.br
Objetivos da Análise Exploratória de Dados
Descobrir a
Descobrir
correlação
padrões e
entre as
Compreender tendências
variáveis
variáveis
Detectar
preditoras e
outliers
target no
dataset Encontrar Eliminar
variáveis variáveis
chave irrelevantes
Validar o
processo de Testar
coleta dos hipóteses
dados
www.datascienceacademy.com.br
Ferramentas usadas na Análise Exploratória de Dados
Matriz de Correlação
Histogramas
Scatterplots
Boxplots
www.datascienceacademy.com.br
Análise
Preditiva
www.datascienceacademy.com.br
Machine Learning
Análise Análise
Dados
Exploratória Exploratória
Relacionamentos Correlação
www.datascienceacademy.com.br
Machine Learning – Aprendizagem Supervisionada
• Tenta fazer previsões a partir do treinamento com dados de entrada e dados de saída
• Os modelos são construídos em datasets de treino
• Os modelos são usados para prever o futuro
Pode ser:
www.datascienceacademy.com.br
Machine Learning – Dados de Treino/Teste
www.datascienceacademy.com.br
Machine Learning – Aprendizagem Não Supervisionada
Pode ser:
• Clustering
• Regras de Associação
• Filtros Colaborativos (Sistemas de Recomendação)
www.datascienceacademy.com.br
Bias e Variance Tradeoff
(Viés e Variância)
www.datascienceacademy.com.br
Bias e Variance Tradeoff
(Viés e Variância)
www.datascienceacademy.com.br
Bias e Variance Tradeoff
(Viés e Variância)
www.datascienceacademy.com.br
Machine Learning – Erros de Predição
Bias
É a diferença entre o valor esperado da predição do nosso modelo
(média das predições) e o valor real que queremos predizer
www.datascienceacademy.com.br
Machine Learning – Erros de Predição
Variância
É a variabilidade das predições
www.datascienceacademy.com.br
Machine Learning – Erros de Predição
Bias e Variance
(Viés e Variância)
www.datascienceacademy.com.br
Machine Learning – Erros de Predição
www.datascienceacademy.com.br
Machine Learning – Erros de Predição
Overfitting
www.datascienceacademy.com.br
Machine Learning – Erros de Predição
Underfitting
www.datascienceacademy.com.br
Machine Learning – Erros de Predição
Bias e Variance
(Viés e Variância)
ideal
www.datascienceacademy.com.br
Machine Learning – Erros de Predição
www.datascienceacademy.com.br
Obrigado
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
Tipos de Dados
• org.apache.spark.mllib (Java/Scala)
• pyspark.mllib (Python)
www.datascienceacademy.com.br
Tipos de Dados
Tipo de Dado Pacote
Vetor mllib.linalg.Vectors
Vetor Denso
(2.0, 4.0, 8.5)
Vetor Esparso
Original (1.0, 0.0, 0.0, 2.0, 0.0)
Representação (5, (0,3), (1.0, 2.0)
www.datascienceacademy.com.br
Tipos de Dados
www.datascienceacademy.com.br
Tipos de Dados
www.datascienceacademy.com.br
Pipelines
www.datascienceacademy.com.br
MLlib – Outras funcionalidades
www.datascienceacademy.com.br
www.datascienceacademy.com.br
www.datascienceacademy.com.br
Classificação
www.datascienceacademy.com.br
Decision Tree
www.datascienceacademy.com.br
Clustering
www.datascienceacademy.com.br
Filtros Colaborativos
www.datascienceacademy.com.br
spark.mllib API original construída para trabalhar com RDD’s
www.datascienceacademy.com.br
Obrigado
www.datascienceacademy.com.br