Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Análise de Regressão
Curso de MINITAB – Universidade Federal de Ouro Preto
1 - Introdução
A natureza e o grau de relação entre variáveis podem ser analisados pelas técnicas de Regressão
e Correlação.
A análise de regressão é uma das técnicas estatísticas mais utilizadas para pesquisar e modelar o
relacionamento existente entre duas ou mais variáveis.
Um modelo de regressão linear simples (MRLS) descreve uma relação entre uma variável
independente (explicativa ou regressora) X e uma variável dependente (resposta) Y , nos termos
seguintes:
Y = b + b X +e
0 1
EXEMPLO 1
Proposta:
Avaliar a relação linear entre duas variáveis plotando a reta de regressão.
Problema:
Percebe-se que com o aumento da temperatura ambiente, o consumo de cerveja também
tende a aumentar. Assim sendo, foram coletados dados para entendermos melhor a
relação existente entre a temperatura ambiente e o consumo de cerveja.
Dados coletados:
Os dados foram coletados aleatoriamente em nove localidades com as mesmas
características demográficas e sócio-econômicas.
Ferramentas:
Fitted Line Plot
Arquivo de dados:
ConsumoXTemperatura.mpj
Variável Descrição
Variável Resposta:consumo de cerveja em um dia
Consumo
(em 100 litros)
Temperatura Variável Explicativa: temperatura máxima (em ºC)
4. Clique em OK
INTERPRETANDO OS RESULTADOS
A equação de regressão é:
O “S” é uma estimativa da variabilidade média sobre a linha de regressão. Para um dado
problema, melhor a equação para predizer a resposta será aquela que tiver o “S” mais
baixo.
Modelo de Regressão:
Y = b + b X +e
0 1
H0: b =0
1
H1: b ≠0
1
Analysis of Variance
Source DF SS MS F P
Regression 1 20752,1 20752,1 85,81 0,000
Error 7 1692,8 241,8
Total 8 22444,9
CONCLUSÃO
Considerando um nível de significância de 5% (α = 0,05) rejeitamos a hipótese nula de
que o coeficiente angular da reta de regressão seja igual a zero, ou seja, podemos afirmar
que a temperatura máxima apresenta um efeito significativo no consumo de cerveja.
RESIDUAL PLOTS
1. Selecione Stat > Regression > Fitted Line Plot ou pressione <CTRL + E>
2. Clique em Graphs
3. Complete a caixa de diálogo como mostra a figura a seguir
50 0
-10
10
-20
1
-40 -20 0 20 40 250 300 350 400
Residual Fitted Value
1,5 10
Frequency
Residual
1,0 0
-10
0,5
-20
0,0
-24 -12 0 12 24 1 2 3 4 5 6 7 8 9
Residual Observation Order
Curso de MINITAB – Universidade Federal de Ouro Preto
Baseando-se neste gráfico, é razoável não rejeitarmos a hipótese nula de que os resíduos
provém de uma distribuição Normal.
HISTOGRAMA
Caso a amostra seja razoavelmente grande e se concluirmos que os resíduos provêm de
uma distribuição Normal, o histograma deverá também indicar esta normalidade.
Se observarmos a existência de qualquer padrão não aleatório neste gráfico, é sinal que
algumas das suposições foram violadas.
A tabela abaixo resume padrões típicos:
CONSIDERAÇÕES FINAIS
A Análise de Regressão Linear Simples nos revela que o consumo de cerveja está
associado ao aumento da máxima temperatura ambiente .
Devemos estar alerta durante a verificação das suposições do modelo (Análise Residual).
Curso de MINITAB – Universidade Federal de Ouro Preto
EXEMPLO 2
Proposta:
Avaliar a relação linear entre múltiplas variáveis através da Análise de Regressão.
Problema:
Um engenheiro do departamento de qualidade está tentando identificar a causa do
barulho nas máquinas. As seguintes variáveis foram consideradas:
• Ponto de centelhamento da vela
• Razão ar-combustível
• Temperatura de entrada
• Temperatura de exaustão
Dados coletados:
Foram coletados dados de 13 máquinas selecionadas aleatoriamente, todas funcionando
à gasolina.
Ferramentas:
• Matrix Plot
• Correlation
• Regression
Arquivo de dados:
Barulho do Motor.mpj
Curso de MINITAB – Universidade Federal de Ouro Preto
Variável Descrição
Ponto de centelhamento da vela Variável Causa
Razão ar-combustível Variável Causa
Temperatura de entrada Variável Causa (°C)
Temperatura de exaustão Variável Causa (°C)
Variável Resposta: Medição do
Barulho
barulho do motor
MATRIX PLOT
1. Abra Barulho do Motor.mpj
2. Selecione Graph > Matrix Plot
3. Selecione Matrix of Plots – Simple, então clique em OK
4. Complete a caixa de diálogo como mostra a figura:
INTERPRETANDO OS RESULTADOS
Nota-se que as variáveis Barulho e Ponto de centelhamento da vela parecem ter uma
correlação negativa e a variável Barulho parece ter uma correlação positiva com todas as
demais variáveis preditoras.
Curso de MINITAB – Universidade Federal de Ouro Preto
PRÓXIMO PASSO
Utilizar Correlation para avaliar a intensidade das relações lineares.
1. Selecione Stat > Basic Statistics > Correlation
2. Complete a caixa de diálogo como mostra a figura a seguir:
3. Clique em OK
INTERPRETANDO OS RESULTADOS
Como sugerido na Matriz, existe uma correlação negativa entre as variáveis Barulho e
Ponto de centelhamento da vela (r = -0,699). Também observa-se que existe uma
correlação positiva entre a variável Barulho e todas as demais variáveis preditoras
PRÓXIMO PASSO
Utilizar Regression para analisar o modelo de regressão múltipla com todas as variáveis
preditoras.
Regression
1. Selecione Stat > Regression > Regression
2. Complete a caixa de diálogo como mostra a figura a seguir:
3. Clique em OK
INTERPRETANDO OS RESULTADOS
Usaremos um α de 0,05 em todas as análises.
Equação de Regressão:
Barulho = 23,8 - 0,296 Ponto de centelhamento da vela + 3,19 Razão ar-combustível +
0,359 Temperatura de entrada + 0,0134 Temperatura de exaustão
Curso de MINITAB – Universidade Federal de Ouro Preto
Tabela de Coeficientes
Analysis of Variance
Source DF SS MS F P
Regression 4 170,245 42,561 163,28 0,000
Residual Error 8 2,085 0,261
Total 12 172,331
Source DF Seq SS
Ponto de centelhamento da vela 1 84,250
Razão ar-combustível 1 80,029
Temperatura de entrada 1 4,380
Temperatura de exaustão 1 1,587
Uma boa maneira de se escolher a variável preditora que deve ser mantida em um
modelo de regressão múltipla com multicolinearidade, é construindo todas as
combinações em potencial utilizando a ferramenta comparativa de modelos Best Subsets.
3. Clique em OK
INTERPRETANDO OS RESULTADOS
R2 (R- Sq) e R2 Ajustado (R-Sq (Adj)): em geral, adota-se o modelo com o maior R2.
Mallows C-p: Em geral, adota-se o modelo em que o C-p for menor e apresentar o valor
mais próximo do número de parâmetros do modelo. Lembrando que
é um parâmetro b do modelo.
0
Response is Barulho
Curso de MINITAB – Universidade Federal de Ouro Preto
P T
t T e
o a e m
r m p
c - p
e c d
n o d e
t m e
b e
d u e x
a s n a
t t u
v í r s
e v a t
Mallows l e d ã
Vars R-Sq R-Sq(adj) C-p S a l a o
1 92,3 91,6 42,0 1,0989 X
1 48,9 44,2 328,9 2,8297 X
2 96,4 95,7 16,9 0,78871 X X
2 95,3 94,4 23,9 0,89735 X X
3 98,6 98,2 3,9 0,50862 X X X
3 97,9 97,2 9,1 0,63879 X X X
4 98,8 98,2 5,0 0,51056 X X X X
Conclusão
Baseado nestes critérios, concluímos que o modelo que contêm as variáveis Razão ar-
combustível, Temperatura de entrada e Temperatura de exaustão é o melhor. Isso porque
o modelo que contêm as quatro variáveis possui uma estimativa para o S levemente
maior além de não apresentar nenhum ganho significativo no R2 Ajustado.
3. Clique em OK
INTERPRETANDO OS RESULTADOS
Usaremos um α de 0,05 em todas as análises
R2 (R- Sq) e R2 Ajustado (R-Sq (Adj)): O modelo explica 98,2% da variabilidade total da
variável resposta.
ANOVA
As hipóteses para ANOVA são:
H0: b =0
j
j = 0,1,2,3
H1: b j ≠0
Neste exemplo, o valor P do teste F é de 0,000, ou seja, rejeita-se a hipótese nula de que
todos os coeficientes são iguais a zero. O teste T individual confirma isso.
Analysis of Variance
Source DF SS MS F P
Regression 3 170,003 56,668 219,06 0,000
Residual Error 9 2,328 0,259
Total 12 172,331
Source DF Seq SS
ar-combustível 1 159,048
Temp de entrada 1 7,062
Temp de exaustão 1 3,892
ANÁLISE DE RESÍDUOS
A interpretação da Análise de Resíduos ocorre da mesma forma que na Análise de
Regressão Linear Simples.
Curso de MINITAB – Universidade Federal de Ouro Preto
Residual
Percent
50 0,0
FINAIS
10 -0,4 A
1 -0,8 equação
-1,0 -0,5 0,0 0,5 1,0 85,0 87,5 90,0 92,5 95,0 de
Residual Fitted Value
regressã
Histogram of the Residuals Residuals Versus the Order of the Data oé
3 0,8
0,4
Barulho
= 16,5 +
Frequency
Residual
2
0,0 3,21 ar-
1
-0,4 combust
ível +
-0,8
0
-0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 1 2 3 4 5 6 7 8 9 10 11 12 13
0,386
Residual Observation Order Temp de
entrada
+ 0,0166 Temp de exaustão
Devemos estar alerta durante a verificação das suposições do modelo (Análise Residual).
Curso de MINITAB – Universidade Federal de Ouro Preto
EXERCÍCIO 1
Solução do Exercício
Curso de MINITAB – Universidade Federal de Ouro Preto
10
Analysis of Variance
Source DF SS MS F P
Regression 1 47,5729 47,5729 242,38 0,000
Error 17 3,3367 0,1963
Total 18 50,9096
A Equação de Regressão é:
Como o Valor P é de 0,000, conclui-se ao nível de significância de 5%, que existe uma
relação linear significativa entre o número de clientes e as vendas semanais.
Curso de MINITAB – Universidade Federal de Ouro Preto
Análise Residual:
90 0,4
Residual
Percent
50 0,0
-0,4
10
1 -0,8
-1,0 -0,5 0,0 0,5 1,0 6,0 7,5 9,0 10,5 12,0
Residual Fitted Value
3 0,4
Frequency
Residual
2 0,0
1 -0,4
0 -0,8
-0,8 -0,4 0,0 0,4 0,8 2 4 6 8 10 12 14 16 18
Residual Observation Order