Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Correlação e Regressão
9-1 Aspectos Gerais
9-2 Correlação
9-3 Regressão
9-4 Intervalos de Variação e Predição
9-5 Regressão Múltipla
1
9-1 Aspectos Gerais
Dados Emparelhados
há uma relação?
se há, qual é a equação?
usar a equação para predição
2
9-2
Correlação
3
Definição
Correlação
existe entre duas variáveis
quando uma delas está, de
alguma forma, relacionada com a
outra.
4
Suposições
1. A amostra de dados emparelhados
(x,y) é uma amostra aleatória.
2. Os pares de dados (x,y) tem uma
distribuição normal bivariada.
5
Definição
Diagrama de Dispersão
é um gráfico de dados amostrais
emparelhados (x,y) com o eixo x
horizontal e o eixo y vertical.
Cada par individual (x,y) é
plotado como um ponto.
6
Diagrama de Dispersão
7
Correlação Linear Positiva
y y y
x x x
(b) Positiva (c) Positiva
(a) Positiva Perfeita
Forte
y y y
x x x
(d) Negativa (e) Negativa (f) Negativa
Forte Perfeita
y y
x x
(g) Não há (h) Correlação
Correlação não-linear
- -
Sxx = Σ(x – x) = (Σx ) – n( x )2
2 2
- -
Syy = Σ(y – y) = (Σy ) – n( y )2
2 2
- – y)
Sxy = Σ (x – x)(y - = (Σxy) – n ( x- )( y- )
11
Definição
Coeficiente de Correlação Linear r
mede o grau de relacionamento linear entre os
valores emparelhados x e y em uma amostra
Sxy
r=
(Sxx) (Syy )
Fórmula 9-1
14
TABELA A-6 Valores Críticos do
Coeficiente de Correlação de Pearson r
n α = .05 α = .01
4 ,950 ,999
5 ,878 ,959
6 ,811 ,917
7 ,754 ,875
8 ,707 ,834
9 ,666 ,798
10 ,632 ,765
11 ,602 ,735
12 ,576 ,708
13 ,553 ,684
14 ,532 ,661
15 ,514 ,641
16 ,497 ,623
17 ,482 ,606
18 ,468 ,590
19 ,456 ,575
20 ,444 ,561
25 ,396 ,505
30 ,361 ,463
35 ,335 ,430
40 ,312 ,402
45 ,294 ,378
50 ,279 ,361
60 ,254 ,330
70 ,236 ,305
80 ,220 ,286
90 ,207 ,269
100 ,196 ,256
15
Propriedades do
Coeficiente de Correlação Linear r
1. -1 ≤ r ≤ 1
2. O valor de r não varia se todos os valores de
qualquer uma das variáveis são convertidos
para uma escala diferentes.
3. O valor de r não é afetado pela escolha de x ou
y. Permutando todos os valores de x e y, o valor
de r permanecerá inalterado.
4. r mede a intensidade, ou grau, de um
relacionamento linear.
16
Erros Comuns Envolvendo Correlação
FIGURA 9-2
250
200
Distância
150
(pés)
100
50
0
0 1 2 3 4 5 6 7 8
Tempo (segundos)
Valores Críticos:
Figura 9-4
21
Método 2: Estatística de Teste é r
(exige menos cálculos)
Estatística de teste: r
Valores críticos: Consulte a Tabela A-6
(não há graus de liberdade)
-1 r = - 0,811 0 r = 0,811 1
22
FIGURA 9-3 Início
Correlação Linear
Escolha um
nível de
significância l α
Calcule r com a
Fórmula 9-1
MÉTODO 1 MÉTODO 2
Se o valor absoluto da
estatística de teste excede os
valores críticos, rejeitar H0: ρ = 0
Caso contrário, não rejeitar H0
y Tamanho da 2 3 3 6 4 2 1 5
residência
24
Há correlação linear significativa?
n α = ,05 α = ,01
n=8 α = 0,05 H0: ρ=0 4
5
,950
,878
,999
,959
:ρ ≠ 0
6 ,811 ,917
H1 7 ,754 ,875
8 ,707 ,834
9 ,666 ,798
10 ,632 ,765
11 ,602 ,735
25
Há correlação linear significativa?
0,842 > 0,707, ou seja, a estatística de teste está na região
crítica.
REJEITAMOS, pois, H0: ρ = 0 (ausência de correlação) e
concluímos que há correlação linear significativa entre o
Peso de plástico descartado e o tamanho das residências.
-1 r = - 0,707 0 1
r = 0,707
Dados amostrais:
r = 0,842
26
Justificação para a Fórmula de r
Fórmula 9-1 é desenvolvida de
Σ (x -x) (y -y)
r= (n -1) sx sy
(x, y) centróide dos pontos
da amostra
x=3
y x - x = 7- 3 = 4
(7, 23)
24
•
20
y - y = 23 - 11 = 12
II Quadrante I Quadrante
16
•
12
y = 11
(x, y)
8
•
III Quadrante IV Quadrante
4
••
FIGURA 9-6
0 x
0 1 2 3 4 5 6 7
27
9-3 Regressão
Definição
Equação de Regressão
Dada uma coleção de dados amostrais
emparelhados, a equação de regressão
y^ = b0 + b1x
descreve a relação entre as duas variáveis
Reta de Regressão
(reta de melhor ajuste ou reta de mínimos quadrados)
28
Reta de Regressão em Diagrama de
Dispersão
29
A Equação de Regressão
x é a variável independente
(variável preditora)
^y é a variável dependente
(variável resposta)
y^ = b0 +b1x b0 = y - intercepto
y = mx +b b1 = inclinação
30
Notação para a Equação de
Regressão
Parâmetro Estatística
Populacional Amostral
31
Suposições
1. Estamos investigando apenas relações lineares.
32
Fórmula para b0 e b1
(Sxy)
Fórmula 9-3 b1 = (coeficiente angular
(Sxx)
34
Predições
Ao predizer um valor de y com base em
determinado valor de x ...
1. Se não há uma correlação linear significativa,
o melhor valor predito de y é y.
2. Se há uma correlação linear significativa,
obtém-se o melhor valor predito de y
substituindo-se o valor de x na equação de
regressão.
35
FIGURA 9-7 Predizendo o Valor de uma Variável
Iniciar
Calcular r e
testar a hipótese
que ρ = 0
Há Utilizar a equação
correlação Sim de regressão para fazer
linear predições. Levar o valor
significativa Dado na equação de
? regressão.
Não
Dado um valor arbitrário de
uma variável, o melhor valor
Predito da outra variável é
sua média amostral.
36
Diretrizes para o Uso da
Equação de Regressão
1. Se não há correlação linear significativa, não
use a equação de regressão para fazer
predições.
2. Ao aplicar a equação de regressão para
predições, mantenha-se dentro do âmbito dos
dados amostrais.
3. Uma equação de regressão baseada em dados
passados não é necessariamente válida hoje.
4. Não devemos fazer predições sobre uma
população diferente daquela de onde provêm
os dados amostrais.
37
Qual é a melhor predição do tamanho de uma
residência que descarta 0,227 kg de plástico?
Dados do Projeto Lixo: Análise de plástico descartado
x Plástico (kg) 0,122 0,640 0,993 1,284 0,993 0,821 0,386 1,383
y Tamanho da 2 3 3 6 4 2 1 5
residência
Usando uma calculadora:
b0 = 0,549
b1 = 3,263
y = 0,549 + 3,263 (0,227)
y = 1,29
Uma residência que que descarta 0,227 kg de
plástico tem aproximadamente uma pessoa.
38
Definições
Variação Marginal
a quantia que uma variável varia quando a
outra variável sofre uma variação de
exatamente 1 unidade
Outlier
um ponto que está muito afastado dos
demais pontos.
Pontos de Influência
pontos que afetam fortemente o gráfico da
reta de regressão.
39
Resíduos e Propriedade de
Mínimos Quadrados
Definições
Resíduos
dado um par de dados amostrais (x,y), um resíduo é a
^) entre um valor amostral observado y e
diferença (y - y
o valor y^ predito com base na equação de regressão.
40
Resíduos e a Propriedade dos
Mínimos Quadrados
x 1 2 4 5 ^
y = 5 + 4x
y 4 24 8 32
y
32 • Resíduo = 7
30
28
26
24
22
• Resíduo = 11
20
18
16
14
12
10
8 •
6 Resíduo = -13
4
2
• Resíduo = -5
0 x
FIGURA 9-8 1 2 3 4 5
41
9-4
Intervalo de
Variação e de
Predição
42
Definições
Desvio Total (de um particular ponto (x, y) em relação à média)
é a distância vertical y - y, que é a distância entre o ponto
(x, y) e a reta horizontal que passa pela média amostral y.
Desvio Explicado
^
é a distância vertical y - y, que é a distância entre o valor
predito y e a reta horizontal que passa pela média
amostral y.
Desvio não-explicado
^, que é a distância vertical entre
é a distância vertical y - y
o ponto (x, y) e a reta de regressão. (A distância y - ^ y
também é chamada resíduo, definido na Seção 9-3.)
43
Figura 9-9 Desvios: Não-explicado, Explicado e Total
y
20
(5, 19)
19
18
•
17 Desvio
16 não-explicado
15 Desvio (5, 13) ^)
14 (y - y
total
13
(y - y )
• Desvio
12
11 explicado
(^
10
y - y)
9
8
•
7 (5, 9) y=9
6
5
4 y^ = 3 + 2x
3
2
1
0 x
0 1 2 3 4 5 6 7 8 9
44
(desvio total) = (desvio explicado) + (desvio não-explicado)
(y - y) = ^
(y - y) + ^
(y - y)
2 2 ^ 2
Σ (y - y) = Σ (y^- y) + Σ (y - y)
Fórmula 9-5
45
Definição
Coeficiente de determinação
é o valor da variação de y que é
explicado pela reta de regressão
variação explicada.
R 2
=
variação total
ou
simplesmente o quadrado de r
(determinado pela Fórmula 9-1, seção 9-2)
46
Intervalos de Predição
Definição
Erro-padrão da estimativa
é uma medida das diferenças (ou distâncias)
entre os valores amostrais y observados e os
valores preditos y^ obtidos através da reta de
regressão.
47
Erro-padrão da Estimativa
Σ (y ^
- y)2
s e =
n-2
ou
Σ y - b0 Σ y - b1 Σ xy
2
se =
n-2 Fórmula 9-6
48
Intervalo de Predição para um
determinado y
^ ^
y-E< y < y+E
onde
2
1 (x0 – x )
E = tα/2 se 1+ n +
Sxx
^
y = b0 + b1x1 + b2x2 + . . . + bkxk
50
Notação
^
y = b0 + b1 x1+ b2 x2+ b3 x3 +. . .+ bk xk
(Forma geral da equação de regressão múltipla estimada)
n = tamanho da amostra
k = número de variáveis independentes
y^ = valor predito da variável dependente y
x1, x2, x3 . . . , xk são as variáveis independentes
51
Notação
ß0 = intercepto y, ou valor de y quando todas as
variáveis preditoras são 0.
b0 = estimativa de ß0 baseada nos dados amostrais
ß1, ß2, ß3 . . . , ßk são os coeficientes das variáveis
independentes x1, x2, x3 . . . , xk
b1, b2, b3 . . . , bk são as estimativas amostrais dos
coeficientes ß1, ß2, ß3 . . . , ßk
52
2
R Ajustado
Definições
Coeficiente de determinação múltipla
uma medida do grau de ajustamento da
equação de regressão múltipla aos dados
amostrais
Coeficiente de determinação ajustado
o coeficiente múltiplo de determinação R2
modificado de modo a levar em conta o
número de variáveis e o tamanho da
amostra.
53
R Ajustado
2
2 (n - 1) 2
R Ajustado = 1 - (1 - R )
[n - (k + 1)]
Fórmula 9-7