8-Regressão e Correlação PDF

Regressão e Correlação
Júlio Osório
Regressão & Correlação: generalidades

Em muitas situações de pesquisa científica, dispomos de
uma amostra aleatória de pares de dados (xi, yi),
resultantes da medida concomitante de duas variáveis (X
e Y) – supostamente com distribuição normal.
Dois objectivos podem então interessar:
Averiguar a existência (ou não) de uma associação
entre X e Y , e em caso afirmativo, medir a força dessa
associação ⇒ Análise de Correlação.
Estabelecer um modelo matemático (equação) que
permita descrever, predizer ou controlar Y (variável
dependente ou de resposta) com base em X (variável
independente ou preditora) ⇒ Análise de Regressão.
1
Regressão: Generalidades
Utiliza-se a chamada Análise de Regressão para apreciar a

natureza da relação existente entre duas ou mais variáveis.
Mediante a sua aplicação, uma variável dependente ou de
resposta (Y) é relacionada com uma ou mais variáveis
independentes ou preditoras (X’s).
O grande objectivo é estabelecer um modelo de regressão
relacionando a variável dependente com uma ou mais de uma
variáveis independentes.
O modelo pode depois ser usado para descrever, fazer predições
e controlar uma variável de interesse com base nas variáveis
independentes.
A Análise de Regressão examina a natureza e a intensidade da
associação entre variáveis, mas não pressupõe ou implica a
existência de qualquer relação de causalidade entre elas.
Regressão: Tipos de Modelos
1 Variá
Variável Modelos de 2 ou Mais Variá
Variáveis
Preditora Regressão Preditoras
Simples Múltipla
Não- Não-
Linear Linear
Linear Linear
Estudaremos apenas Modelos de Regressão Linear

(Simples e Múltipla)
2
Regressão Linear Simples: Qual é o desafio?
Como é que se pode traçar uma linha através desta “nuvem”
de pontos?
Como é que se pode achar a linha que melhor se “ajusta aos
dados?
O desafio na regressão é determinar qual a linha que melhor se

ajusta aos dados, isto é, uma linha de tal modo situada na nuvem
de pontos que minimize a distância de todos os pontos à linha.
Regressão Linear Simples: Recordando a Geometria ...
n Qualquer linha recta pode ser descrita mediante uma

equação.
n A qualquer ponto desta linha corresponde um par de
valores (xi,yi).
n yi e xi estão relacionados pela equação yi = a + b.xi,
sendo:
nb o declive da recta;
na a intersecção na origem (valor de Y quando X =
0).
n Declive = variação em Y por variação unitária em X.
n Intersecção no eixo dosY’s = local onde linha cruza o eixo
das ordenadas (quando X = 0).
3
Regressão Linear Simples: Equações Lineares
Y
Y
Y == amX
+ b+ X
b
Variação
Change
m
b ==Declive
Slope em
in YY
Change in
Variação emXX
b
a ==Intersecção
Y-interceptno eixo Y’s
X
Relação Linear Positiva: Y cresce quando X cresce.
Linha de Regressão
Intersecção
a O declive b é positivo
4
Relação Linear Negativa: Y decresce quando X cresce.
Intersecção Linha de Regressão

a
O declive b é negativo
Relação Linear Inexistente: Y não varia quando X cresce.
Linha de Regressão
Intersecção
a
O declive é igual a 0
5
Regressão Linear Simples: O Modelo
Intersecção nos Declive Variável

Y´s Populacional Populacional Independente
(explicativa)
Y = α + β. X + ε
i i i
Variável Erro
Dependente Aleatório
(resposta)
Regressão Linear Simples: O Processo de Estimativa
Modelo de Regressão Dados da amostra:

yi = α + βxi +ει X Y
Equação de Regressão x1 y1
E(y) = α + βxi . .
Parametros Desconhecidos . .
α, β xn yn
Equação de Regressão
a and b Estimada
^
são estimativas de y i = a + b. x
i
α and β Estatísticos da Regressão

a, b
6
Regressão Linear Simples: Critério dos Mínimos Quadrados
n O ‘Melhor Ajustamento’ da recta é atingido quando o

somatório das diferenças entre o valor real de Y ( y )e ^
i
o valor predito pela regressão ( yi )for mínimo.

n Mas como as diferenças positivas contrabalançam as
negativas, consideram-se as diferenças elevadas ao
quadrado: 2
i =n
 ^
 i =n 2
∑  y i − yi  = ∑ ei = SQDerro
i =1
  i =1
n O “Critério dos Mínimos Quadrados” assume que o “Melhor
Ajustamento” é conseguido quando o Somatório dos
Quadrados das Diferenças ente o valor real e o valor predito
(SQDerro) é o mínimo possível:
2

i =n ^
 i =n
min ∑  y i − y i  = min ∑ ei = min SQD
2
erro

i =1
 i =1
Regressão Linear Simples: Critério dos Mínimos Quadrados
n
CMQ minimiza ∑ e = e + e + e + ... + e i
2
1
2
2
2
3
2
n
2
Y y = a + b. x + e
2 2 2
e 4
e 2
e1 e 3 ^
yi = a + b x i
7
Regressão Linear Simples: Cálculo dos Coeficientes
Equação de Predição
^^
yi = a + b x nn
y −
(∑ x )(∑ y )
nn
ii
nn
ii
ii
∑x ii ii
ii==11 ii==11
b=
ii==11
n
22
 ∑n x 
i
nn
∑x −  i=1  22
__ ii
n
a = y − bx
__ ii==11
Intercepção Amostral ˆ ˆ Amostral

Declive
Regressão Linear Simples: Interpretação dos Coeficientes
n Declive (b)
Valor médio da variação ocorrente
na variável de resposta (Y) por cada
variação unitária (=1) em X.
n Intercepção em Y (a)
Valor médio de Y quando X = 0.
8
Regressão Linear Simples: Premissas do Modelo
Premissas que o termo do erro ε deve

satisfazer no Modelo de Regressão:
n O erro ε é uma variável aleatória com
média igual a zero (µε =0).
n A variância de ε , anotada por σε 2, é a
mesma para todos os valores da variável
independente (σε 2 = constante).
n Os valores de ε são independentes.
n O erro ε é uma variável com distribuição
normal.
Regressão Linear Simples: Premissas do Modelo
f(e)
Y
X1
X2
X
9
Regressão Linear Simples: Teste da Significância
n A significância de uma regressão (adequação do
modelo de predição) é estabelecida mediante a
realização de um teste de hipóteses para determinar
se o valor de β é zero:
H :β =0
0
H :β ≠0
1
n Dois tipos de teste podem ser realizados:

n Teste t
nTeste F
n Ambos os testes requerem uma estimativa da
variância do erro no modelo de regressão (σ2ε).
Regressão Linear Simples: Decomposição da Variação Total
Variação Total Observada na

Variável de Resposta (Y)
SQDTOTAL
Variação Explicada
pela Regressão de Y
SQDRegressão
sobre X
Variação Residual,
devida a outros
factores, não explicada SQDErro
pela Regressão
10
Regressão Linear Simples: Decomposição da Variação Total
^
Y Yi SQDErro= Σ (Yi - Yi)2
^
^
y = a + bx i
SQDTotal= Σ (Yi - Y)2 Yi
^
SQDRegressão= Σ (Yi -
Y)2
Y Y
(Xi – X)
X
X Xi
Regressão Linear Simples: Teste da Significância
Cálculo das Somas de Quadrados de Desvios:
Componente Fórmula de Definição Fórmula de Trabalho
SQDTotal
n
( )
∑ y −y i
_ 2
SQD = ∑ y −
n(∑ y )
2
n
i=1
i
2
i=1 y
i=1 n
∑ (y − y )
n ^ _ 2
(SPD )2
SQDRegressão i=1
i
XY
SQD X
SQDErro
n
(
∑ yi − y
i=1
^
i
)
2
SQD Total
− SQD Re gressão
11
Regressão Linear Simples: Teste F (ANOVA)
n Apresenta-se sob a forma de Quadro ANOVA:
Componente SQD GL QM Famostra

(SPD ) 2
SQD Re gressão
QM Re gressão
SQDRegressão XY
SQD 1 1 QM
X Erro
SQDErro SQD Total

− SQD Re gressão n -2
SQD Erro
(n − 2 ) -
SQDTotal SQD y n-1 - -
n Rejeita-se H0: β = 0 se:

F amostra (
> Fα 1 n − 2 )
Regressão Linear Simples: Teste t de Student
n Para se testar a significância com um teste t,

calcula-se:
b QM
t amostra = , onde s = b
Erro
s
b SQD X
n Rejeita-se H0: β = 0 se:

t amostra < − t α (n − 2 ) ou t
2 amostra > t α (n − 2 )
2
12
Regressão Linear Simples: Coeficiente de Determinação
n O coeficiente de determinação (r2) representa a

proporção de variação da variável de resposta (Y) que é
explicada pela sua regressão sobre X:
Variação explicada SQD
r = =
2 Re gressão
Variação total SQD Y
n O coeficiente de determinação é igual ao quadrado do

coeficiente de correlação de Pearson:
(SPD ) XY
2
2
SQD SQD  SPD 
= =   = r
Re gressão X XY 2
SQD Y
SQD  SQD SQD
Y X Y 
n Notar que 0 ≤ r2 ≤ 1.
Regressão Linear Simples: Exemplo Ilustrativo
Numa investigação, mediu-se a quantidade de Cálcio

radioactivo absorvido através da parede de células vegetais
suspendidas por um período variável de tempo numa solução
de Cálcio radioactivo.
Registaram-se os valores das duas variáveis (tempo de

permanência na solução, quantidade de Ca radioactivo
absorvida) em 27 repetições da experiência.
Pretende-se:
estabelecer a equação de predição do Ca absorvido
(Y) a partir do tempo de permanência na solução (X);
testar a significância do modelo (α = 0,05);
averiguar a fracção de variação em Y que é
explicada por X.
13
tempo de suspensão Cálcio
da célula na solução absorvido
(min.) (nmoles/mg).
1 .45 .34170
2 .45 .00438
3 .45 .82531
4 1.30 1.77967
5 1.30 .95384
6 1.30 .64080
7 2.40 1.75136
8 2.40 1.27497
9 2.40 1.17332
10 4.00 3.12273
11 4.00 2.60958
12 4.00 2.57429
13 6.10 3.17881
14 6.10 3.00782
15 6.10 2.67061
16 8.05 3.05959
17 8.05 3.94321
18 8.05 3.43726
19 11.15 4.80735
20 11.15 3.35583
21 11.15 2.78309
22 13.15 5.13825
23 13.15 4.70274
24 13.15 4.25702
25 15.00 3.60407
26 15.00 4.15029
27 15.00 3.42484
 n  n 
Coeficientes:
 ∑ x . ∑ y 
 1   1  = 661,41868 − (184 ,80 ).(72 ,57273 ) = 164 ,69866
n
SPD XY
= ∑
1
x .y −
n 27
b = SPD XY =
164 ,69866
= 0 ,243
2
SQD X
678 ,87667
 n
∑ x 
n
(184 ,80 )2
SQD = ∑ x −  1  = 1943,73000 − = 678 ,87667
2
X
1 n 27 − −
a = y − b x = 2 ,688 − (0 ,243 ).(6 ,844 ) = 1,027
n n
− ∑x i
184 ,80
− ∑y i 72 , 57273
x= i =1
n
=
27
= 6 ,844 y= i =1
n
=
27
= 2 ,688
Equação de predição:
^
yi = 1,027 + 0 ,243. x i
14
 n  n 
SQD’s:
 ∑ x . ∑ y 
n
(184 ,80).(72 ,57273)
SPD XY = ∑1 x.y −  1 n 1  = 661,41868 − 27
= 164 ,69866 (SPD ) 2
(164 ,69866 )2
SQD = XY
= = 39 ,95667
Re gressão
SQD X
678 ,87667
2
 n 
∑ x 
n
(184 ,80 )2
SQD = ∑ x −  1  = 1943,73000 − = 678 ,87667
2
X
1 n 27
SQD Erro
= SQDY − SQDRe gressão = 53 ,18655 − 39 ,95667 = 13 ,22988
2
 n 
∑ y 
n
(72 ,57273)2
SQDY = ∑ y −  1 n  = 248,25326 − 27 = 53,18655
2
Quadro ANOVA:
OV SQD GL QM Famostra Conclusão: Como Famostra

excede F0,05 (1/25) = 4,24,
Regressão 39,95667 1 39,95667 75,50 rejeita-se H0: β = 0, e
conclui-se que o modelo de
Erro 13,22988 25 0,52919
regressão ajustado é
apropriado para fazer
predições.
Total 53,18655 26

n Teste t de Student:
b 0 ,243
t amostra
= = = 8 ,689
QM Erro
0 ,52919
678,87667
SQD X
n Como tamostra se encontra fora do intervalo de rejeição

[-t0,025 (25) = -2,06; + t0,025 (25) = 2,06], rejeitamos H0: β =
0,e concluímos que o modelo é adequado.
n Repare-se que (tamostra)2 = 75,50 ≅ Famostra,o que
mostra a equivalência dos dois processos de teste da
significância da regressão.
15
n Coeficiente de Determinação:
SQD 39 ,95667
= = = 0 ,751
2 Re gressão
r SQD 53 ,18655
Y
n Isto significa que o tempo de permanência na solução

explica tanto como 75% da variação que ocorre na
quantidade de Ca radioactivo absorvido pelas paredes
das células vegetais.

n Interpretação dos coeficientes:
n b = 0,243: “Um acréscimo de 1 minuto no
tempo de permanência na solução provoca, em
média, um acréscimo de 0,243 nmoles/mg na
quantidade de Ca radioactivo absorvido”.
n a = 1,027: “O valor médio da quantidade de Ca
radioactivo presente nas paredes das células
antes de serem introduzidas na solução era da
ordem dos 1,027 nmoles/mg”.
n Realização de predições: “Qual é a quantidade de Ca
radioactivo absorvido predito para um tempo de
permanência de 9 minutos das paredes celulares na
solução?”
^ ^
yi = 1,027 + 0 ,243. x i
⇒ y i = 1,027 + (0 ,243 )(9 ) ≈ 3 ,21 nmoles / mg
16
Correlação: generalidades
Responde à questão “Quão forte é a relação
entre as duas variáveis X e Y?”
Calcula-se o chamado “Coeficiente de
Correlação”, inicialmente proposto por Karl
Pearson:
Anota-se por r a nível da amostra e por ρ a
nível da população.
Toma valores do intervalo entre -1 e +1.
Mede o grau (força) da associação.
17
Se representarmos as duas
variáveis num referencial
cartesiano, a “nuvem de pontos”
(diagrama de dispersão) reflecte a
maior ou menor tendência para os
pontos se disporem
sistemáticamente ao longo de uma
linha recta (descendente ou
ascendente).
Pierre Dagnelie (1973): Theorie et

Méthodes Statistiques, vol.1. Les
Presses Agronomiques de Gembloux.
Correlação Correlação
Negativa Ausência de Positiva
Perfeita Correlação Perfeita
-1.0 -.5 0 +.5 +1.0
ρ negativo: Y tende a ρ positivo: Y tende a

decrescer à medida que X crescer à medida que X
cresce cresce
ρ = 0: não há qualquer relação entre a variação de Y

e a variação de X.
18
Correlação: Cálculo
Para uma amostra de n pares (xi, yi) de observações realizadas
para as variáveis X e Y, o coeficiente de correlação (do momento-
produto, de Pearson) vem dado por:
SPD
Cov ( X , Y ) (n − 1)
XY
r= = = SPD XY
Var ( X ).Var (Y ) SQD SQD . SQD

. SQD
(n − 1) (n − 1)
X Y X Y
r=
( )( )
i=n
∑ X − X .Y − Y
i
_
i
_
∑ (X − X ) .(Y − Y )
i =1
i=n _ 2 _ 2
i i
i =1
Nestas expressões: Cov (X, Y) = covariância de X e Y; Var X, Var

Y = variâncias de X e Y, respectivamente; SQDX, SQDY =
Somatórios dos Quadrados dos Desvios de X e de Y,
respectivamente; SPDXY = Somatório dos Produtos Cruzados de X
e Y.
Correlação: Propriedades
Como tem uma amplitude de variação bem

definida (-1 ≤ ρ ≤ 1), é fácil de interpretar.
É independente do tamanho da amostra.
É independente das unidades de medida de X e
de Y.
É seriamente afectado pela presença de
“outliers” ou valores extremos nos dados.
O coeficiente de correlação não indica que haja
qualquer relação causa ⇒ efeito entre as duas
variáveis.
19
Correlação: Teste da Significância
O teste da significância do coeficiente de correlação envolve duas

hipóteses:
H : ρ = 0 (ausência de correlação )
0
H : ρ ≠ 0 (presença de correlação significat iva)

1
O estatístico t de Student calculado da forma seguinte é o critério

do teste :
n−2
t = r.
1− r
amostra 2
A H0 é rejeitada quando:
t amostra ≥ t α (n − 2)
Correlação: Exemplo Ilustrativo

No decurso de um estudo sobre a qualidade do ar na zona
onde se encontra um lago, fizeram-se medições do pH da
água do lago (variável X), e avaliou-se a qualidade do ar
mediante um índice qualitativo (variável Y). O índice varia de 0
a 100, sendo que valores mais elevados representam níveis
mais graves de poluição.
Pretende-se analisar o grau de associação entre a duas

variáveis (α = 0,05).
pH da água Índice de qualidade do ar

1 4.5 40
2 4.1 50
3 4.8 30
4 4.0 60
5 5.0 20
6 6.0 10
7 3.5 70
8 4.9 30
9 3.2 85
10 6.1 15
20
Correlação: Exemplo Ilustrativo
 n  n 
 ∑ x . ∑ y 
n
(46 ,1).(410)
SPD XY
= ∑ x.y −  1   1  = 1684 , 5 − = −205,6
1 n 10
 n 
2
SPD − 205 ,6
∑ x r= XY
= = −0 ,959
n
(46 ,1)2 SQD . SQD (8,289 ).(5540)
SQD =∑x −  1  = 220 ,81 − = 8,289
2 X Y
X
1 n 10
2
 n 
∑ y
n
(410 )2
−  1  = 22350 −
2
SQD = ∑ y Y n 10
= 5540
1
t amostra
= r.
n−2
1−r
2 = −0 ,959.
10 − 2
(
1 − − 0 ,959 )
2 = −9 ,626
versus t 0 , 05 (8) = 1,860
Decisão e Conclusão: Rejeitar H0: ρ = 0, e concluir que o pH da água do lago

está negativa e significativamente correlacionada com o índice de qualidade do
ar.
21

8-Regressão e Correlação PDF

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

8-Regressão e Correlação PDF

Caricato da

Copyright:

Formati disponibili

Regressão e Correlação

Regressão & Correlação: generalidades

Utiliza-se a chamada Análise de Regressão para apreciar a

Regressão: Tipos de Modelos

Estudaremos apenas Modelos de Regressão Linear

O desafio na regressão é determinar qual a linha que melhor se

Regressão Linear Simples: Recordando a Geometria ...

n Qualquer linha recta pode ser descrita mediante uma

Regressão Linear Simples: Equações Lineares

Relação Linear Positiva: Y cresce quando X cresce.

Relação Linear Negativa: Y decresce quando X cresce.

Intersecção Linha de Regressão

Regressão Linear Simples: Equações Lineares

Relação Linear Inexistente: Y não varia quando X cresce.

Intersecção nos Declive Variável

Regressão Linear Simples: O Processo de Estimativa

Modelo de Regressão Dados da amostra:

α and β Estatísticos da Regressão

n O ‘Melhor Ajustamento’ da recta é atingido quando o

o valor predito pela regressão ( yi )for mínimo.

Regressão Linear Simples: Critério dos Mínimos Quadrados

Intercepção Amostral ˆ ˆ Amostral

Regressão Linear Simples: Interpretação dos Coeficientes

Premissas que o termo do erro ε deve

Regressão Linear Simples: Premissas do Modelo

n Dois tipos de teste podem ser realizados:

Regressão Linear Simples: Decomposição da Variação Total

Variação Total Observada na

Regressão Linear Simples: Teste da Significância

Cálculo das Somas de Quadrados de Desvios:

Componente Fórmula de Definição Fórmula de Trabalho

n Apresenta-se sob a forma de Quadro ANOVA:

Componente SQD GL QM Famostra

SQDErro SQD Total

SQDTotal SQD y n-1 - -

n Rejeita-se H0: β = 0 se:

Regressão Linear Simples: Teste t de Student

n Para se testar a significância com um teste t,

n Rejeita-se H0: β = 0 se:

n O coeficiente de determinação (r2) representa a

Variação total SQD Y

n O coeficiente de determinação é igual ao quadrado do

Regressão Linear Simples: Exemplo Ilustrativo

Numa investigação, mediu-se a quantidade de Cálcio

Registaram-se os valores das duas variáveis (tempo de

Regressão Linear Simples: Exemplo Ilustrativo

OV SQD GL QM Famostra Conclusão: Como Famostra

Regressão Linear Simples: Exemplo Ilustrativo

n Como tamostra se encontra fora do intervalo de rejeição

n Isto significa que o tempo de permanência na solução

Regressão Linear Simples: Exemplo Ilustrativo

Pierre Dagnelie (1973): Theorie et

-1.0 -.5 0 +.5 +1.0

ρ negativo: Y tende a ρ positivo: Y tende a

ρ = 0: não há qualquer relação entre a variação de Y

Var ( X ).Var (Y ) SQD SQD . SQD

Nestas expressões: Cov (X, Y) = covariância de X e Y; Var X, Var

Como tem uma amplitude de variação bem

O teste da significância do coeficiente de correlação envolve duas

H : ρ ≠ 0 (presença de correlação significat iva)

O estatístico t de Student calculado da forma seguinte é o critério

Correlação: Exemplo Ilustrativo

Pretende-se analisar o grau de associação entre a duas