Sei sulla pagina 1di 21

Regressão e Correlação

Júlio Osório

Regressão & Correlação: generalidades


 Em muitas situações de pesquisa científica, dispomos de
uma amostra aleatória de pares de dados (xi, yi),
resultantes da medida concomitante de duas variáveis (X
e Y) – supostamente com distribuição normal.
 Dois objectivos podem então interessar:
 Averiguar a existência (ou não) de uma associação
entre X e Y , e em caso afirmativo, medir a força dessa
associação ⇒ Análise de Correlação.
 Estabelecer um modelo matemático (equação) que
permita descrever, predizer ou controlar Y (variável
dependente ou de resposta) com base em X (variável
independente ou preditora) ⇒ Análise de Regressão.

1
Regressão: Generalidades

 Utiliza-se a chamada Análise de Regressão para apreciar a


natureza da relação existente entre duas ou mais variáveis.
 Mediante a sua aplicação, uma variável dependente ou de
resposta (Y) é relacionada com uma ou mais variáveis
independentes ou preditoras (X’s).
 O grande objectivo é estabelecer um modelo de regressão
relacionando a variável dependente com uma ou mais de uma
variáveis independentes.
 O modelo pode depois ser usado para descrever, fazer predições
e controlar uma variável de interesse com base nas variáveis
independentes.
 A Análise de Regressão examina a natureza e a intensidade da
associação entre variáveis, mas não pressupõe ou implica a
existência de qualquer relação de causalidade entre elas.

Regressão: Tipos de Modelos

1 Variá
Variável Modelos de 2 ou Mais Variá
Variáveis
Preditora Regressão Preditoras

Simples Múltipla

Não- Não-
Linear Linear
Linear Linear

Estudaremos apenas Modelos de Regressão Linear


(Simples e Múltipla)

2
Regressão Linear Simples: Qual é o desafio?
Como é que se pode traçar uma linha através desta “nuvem”
de pontos?
Como é que se pode achar a linha que melhor se “ajusta aos
dados?

O desafio na regressão é determinar qual a linha que melhor se


ajusta aos dados, isto é, uma linha de tal modo situada na nuvem
de pontos que minimize a distância de todos os pontos à linha.

Regressão Linear Simples: Recordando a Geometria ...

n Qualquer linha recta pode ser descrita mediante uma


equação.
n A qualquer ponto desta linha corresponde um par de
valores (xi,yi).
n yi e xi estão relacionados pela equação yi = a + b.xi,
sendo:
nb o declive da recta;
na a intersecção na origem (valor de Y quando X =
0).
n Declive = variação em Y por variação unitária em X.
n Intersecção no eixo dosY’s = local onde linha cruza o eixo
das ordenadas (quando X = 0).

3
Regressão Linear Simples: Equações Lineares

Y
Y
Y == amX
+ b+ X
b
Variação
Change
m
b ==Declive
Slope em
in YY
Change in
Variação emXX
b
a ==Intersecção
Y-interceptno eixo Y’s
X

Regressão Linear Simples: Equações Lineares

Relação Linear Positiva: Y cresce quando X cresce.

Linha de Regressão

Intersecção
a O declive b é positivo

4
Regressão Linear Simples: Equações Lineares

Relação Linear Negativa: Y decresce quando X cresce.

Intersecção Linha de Regressão


a

O declive b é negativo

Regressão Linear Simples: Equações Lineares

Relação Linear Inexistente: Y não varia quando X cresce.

Linha de Regressão
Intersecção
a
O declive é igual a 0

5
Regressão Linear Simples: O Modelo

Intersecção nos Declive Variável


Y´s Populacional Populacional Independente
(explicativa)
Y = α + β. X + ε
i i i

Variável Erro
Dependente Aleatório
(resposta)

Regressão Linear Simples: O Processo de Estimativa

Modelo de Regressão Dados da amostra:


yi = α + βxi +ει X Y
Equação de Regressão x1 y1
E(y) = α + βxi . .
Parametros Desconhecidos . .
α, β xn yn

Equação de Regressão
a and b Estimada
^
são estimativas de y i = a + b. x
i

α and β Estatísticos da Regressão


a, b

6
Regressão Linear Simples: Critério dos Mínimos Quadrados

n O ‘Melhor Ajustamento’ da recta é atingido quando o


somatório das diferenças entre o valor real de Y ( y )e ^
i

o valor predito pela regressão ( yi )for mínimo.


n Mas como as diferenças positivas contrabalançam as
negativas, consideram-se as diferenças elevadas ao
quadrado: 2
i =n
 ^
 i =n 2
∑  y i − yi  = ∑ ei = SQDerro
i =1
  i =1
n O “Critério dos Mínimos Quadrados” assume que o “Melhor
Ajustamento” é conseguido quando o Somatório dos
Quadrados das Diferenças ente o valor real e o valor predito
(SQDerro) é o mínimo possível:
2

i =n ^
 i =n
min ∑  y i − y i  = min ∑ ei = min SQD
2
erro

i =1
 i =1

Regressão Linear Simples: Critério dos Mínimos Quadrados

n
CMQ minimiza ∑ e = e + e + e + ... + e i
2
1
2
2
2
3
2
n
2

Y y = a + b. x + e
2 2 2

e 4
e 2

e1 e 3 ^

yi = a + b x i

7
Regressão Linear Simples: Cálculo dos Coeficientes

Equação de Predição
^^

yi = a + b x nn
y −
(∑ x )(∑ y )
nn

ii
nn

ii
ii
∑x ii ii
ii==11 ii==11

b=
ii==11
n
22
 ∑n x 
i
nn

∑x −  i=1  22
__ ii
n
a = y − bx
__ ii==11

Intercepção Amostral ˆ ˆ Amostral


Declive

Regressão Linear Simples: Interpretação dos Coeficientes

n Declive (b)
 Valor médio da variação ocorrente
na variável de resposta (Y) por cada
variação unitária (=1) em X.
n Intercepção em Y (a)
 Valor médio de Y quando X = 0.

8
Regressão Linear Simples: Premissas do Modelo

Premissas que o termo do erro ε deve


satisfazer no Modelo de Regressão:
n O erro ε é uma variável aleatória com
média igual a zero (µε =0).
n A variância de ε , anotada por σε 2, é a
mesma para todos os valores da variável
independente (σε 2 = constante).
n Os valores de ε são independentes.
n O erro ε é uma variável com distribuição
normal.

Regressão Linear Simples: Premissas do Modelo

f(e)

Y
X1
X2
X

9
Regressão Linear Simples: Teste da Significância
n A significância de uma regressão (adequação do
modelo de predição) é estabelecida mediante a
realização de um teste de hipóteses para determinar
se o valor de β é zero:
H :β =0
0

H :β ≠0
1

n Dois tipos de teste podem ser realizados:


n Teste t
nTeste F
n Ambos os testes requerem uma estimativa da
variância do erro no modelo de regressão (σ2ε).

Regressão Linear Simples: Decomposição da Variação Total

Variação Total Observada na


Variável de Resposta (Y)
SQDTOTAL

Variação Explicada
pela Regressão de Y
SQDRegressão
sobre X

Variação Residual,
devida a outros
factores, não explicada SQDErro
pela Regressão

10
Regressão Linear Simples: Decomposição da Variação Total

^
Y Yi SQDErro= Σ (Yi - Yi)2
^

^
y = a + bx i
SQDTotal= Σ (Yi - Y)2 Yi
^
SQDRegressão= Σ (Yi -
Y)2
Y Y
(Xi – X)
X
X Xi

Regressão Linear Simples: Teste da Significância

 Cálculo das Somas de Quadrados de Desvios:

Componente Fórmula de Definição Fórmula de Trabalho

SQDTotal
n
( )
∑ y −y i
_ 2

SQD = ∑ y −
n(∑ y )
2
n

i=1
i
2

i=1 y
i=1 n

∑ (y − y )
n ^ _ 2
(SPD )2
SQDRegressão i=1
i
XY
SQD X

SQDErro
n
(
∑ yi − y
i=1
^

i
)
2

SQD Total
− SQD Re gressão

11
Regressão Linear Simples: Teste F (ANOVA)

n Apresenta-se sob a forma de Quadro ANOVA:

Componente SQD GL QM Famostra


(SPD ) 2
SQD Re gressão
QM Re gressão
SQDRegressão XY
SQD 1 1 QM
X Erro

SQDErro SQD Total


− SQD Re gressão n -2
SQD Erro
(n − 2 ) -

SQDTotal SQD y n-1 - -

n Rejeita-se H0: β = 0 se:


F amostra (
> Fα 1 n − 2 )

Regressão Linear Simples: Teste t de Student

n Para se testar a significância com um teste t,


calcula-se:
b QM
t amostra = , onde s = b
Erro

s
b SQD X

n Rejeita-se H0: β = 0 se:


t amostra < − t α (n − 2 ) ou t
2 amostra > t α (n − 2 )
2

12
Regressão Linear Simples: Coeficiente de Determinação

n O coeficiente de determinação (r2) representa a


proporção de variação da variável de resposta (Y) que é
explicada pela sua regressão sobre X:
Variação explicada SQD
r = =
2 Re gressão

Variação total SQD Y

n O coeficiente de determinação é igual ao quadrado do


coeficiente de correlação de Pearson:
(SPD ) XY
2
2
SQD SQD  SPD 
= =   = r
Re gressão X XY 2

SQD Y
SQD  SQD SQD
Y X Y 
n Notar que 0 ≤ r2 ≤ 1.

Regressão Linear Simples: Exemplo Ilustrativo

Numa investigação, mediu-se a quantidade de Cálcio


radioactivo absorvido através da parede de células vegetais
suspendidas por um período variável de tempo numa solução
de Cálcio radioactivo.

Registaram-se os valores das duas variáveis (tempo de


permanência na solução, quantidade de Ca radioactivo
absorvida) em 27 repetições da experiência.

Pretende-se:
 estabelecer a equação de predição do Ca absorvido
(Y) a partir do tempo de permanência na solução (X);
 testar a significância do modelo (α = 0,05);
 averiguar a fracção de variação em Y que é
explicada por X.

13
Regressão Linear Simples: Exemplo Ilustrativo
tempo de suspensão Cálcio
da célula na solução absorvido
(min.) (nmoles/mg).
1 .45 .34170
2 .45 .00438
3 .45 .82531
4 1.30 1.77967
5 1.30 .95384
6 1.30 .64080
7 2.40 1.75136
8 2.40 1.27497
9 2.40 1.17332
10 4.00 3.12273
11 4.00 2.60958
12 4.00 2.57429
13 6.10 3.17881
14 6.10 3.00782
15 6.10 2.67061
16 8.05 3.05959
17 8.05 3.94321
18 8.05 3.43726
19 11.15 4.80735
20 11.15 3.35583
21 11.15 2.78309
22 13.15 5.13825
23 13.15 4.70274
24 13.15 4.25702
25 15.00 3.60407
26 15.00 4.15029
27 15.00 3.42484

Regressão Linear Simples: Exemplo Ilustrativo

 n  n 
Coeficientes:
 ∑ x . ∑ y 
 1   1  = 661,41868 − (184 ,80 ).(72 ,57273 ) = 164 ,69866
n

SPD XY
= ∑
1
x .y −
n 27

b = SPD XY =
164 ,69866
= 0 ,243
2
SQD X
678 ,87667
 n
∑ x 
n
(184 ,80 )2
SQD = ∑ x −  1  = 1943,73000 − = 678 ,87667
2
X
1 n 27 − −
a = y − b x = 2 ,688 − (0 ,243 ).(6 ,844 ) = 1,027
n n

− ∑x i
184 ,80
− ∑y i 72 , 57273
x= i =1
n
=
27
= 6 ,844 y= i =1
n
=
27
= 2 ,688

Equação de predição:
^

yi = 1,027 + 0 ,243. x i

14
Regressão Linear Simples: Exemplo Ilustrativo
 n  n 
SQD’s:
 ∑ x . ∑ y 
n
(184 ,80).(72 ,57273)
SPD XY = ∑1 x.y −  1 n 1  = 661,41868 − 27
= 164 ,69866 (SPD ) 2
(164 ,69866 )2
SQD = XY
= = 39 ,95667
Re gressão
SQD X
678 ,87667

2
 n 
∑ x 
n
(184 ,80 )2
SQD = ∑ x −  1  = 1943,73000 − = 678 ,87667
2
X
1 n 27
SQD Erro
= SQDY − SQDRe gressão = 53 ,18655 − 39 ,95667 = 13 ,22988
2
 n 
∑ y 
n
(72 ,57273)2
SQDY = ∑ y −  1 n  = 248,25326 − 27 = 53,18655
2

Quadro ANOVA:

OV SQD GL QM Famostra Conclusão: Como Famostra


excede F0,05 (1/25) = 4,24,
Regressão 39,95667 1 39,95667 75,50 rejeita-se H0: β = 0, e
conclui-se que o modelo de
Erro 13,22988 25 0,52919
regressão ajustado é
apropriado para fazer
predições.
Total 53,18655 26

Regressão Linear Simples: Exemplo Ilustrativo


n Teste t de Student:
b 0 ,243
t amostra
= = = 8 ,689
QM Erro
0 ,52919
678,87667
SQD X

n Como tamostra se encontra fora do intervalo de rejeição


[-t0,025 (25) = -2,06; + t0,025 (25) = 2,06], rejeitamos H0: β =
0,e concluímos que o modelo é adequado.
n Repare-se que (tamostra)2 = 75,50 ≅ Famostra,o que
mostra a equivalência dos dois processos de teste da
significância da regressão.

15
Regressão Linear Simples: Exemplo Ilustrativo

n Coeficiente de Determinação:

SQD 39 ,95667
= = = 0 ,751
2 Re gressão
r SQD 53 ,18655
Y

n Isto significa que o tempo de permanência na solução


explica tanto como 75% da variação que ocorre na
quantidade de Ca radioactivo absorvido pelas paredes
das células vegetais.

Regressão Linear Simples: Exemplo Ilustrativo


n Interpretação dos coeficientes:
n b = 0,243: “Um acréscimo de 1 minuto no
tempo de permanência na solução provoca, em
média, um acréscimo de 0,243 nmoles/mg na
quantidade de Ca radioactivo absorvido”.
n a = 1,027: “O valor médio da quantidade de Ca
radioactivo presente nas paredes das células
antes de serem introduzidas na solução era da
ordem dos 1,027 nmoles/mg”.
n Realização de predições: “Qual é a quantidade de Ca
radioactivo absorvido predito para um tempo de
permanência de 9 minutos das paredes celulares na
solução?”
^ ^

yi = 1,027 + 0 ,243. x i
⇒ y i = 1,027 + (0 ,243 )(9 ) ≈ 3 ,21 nmoles / mg

16
Regressão Linear Simples: Exemplo Ilustrativo

Correlação: generalidades
Responde à questão “Quão forte é a relação
entre as duas variáveis X e Y?”
 Calcula-se o chamado “Coeficiente de
Correlação”, inicialmente proposto por Karl
Pearson:
Anota-se por r a nível da amostra e por ρ a
nível da população.
Toma valores do intervalo entre -1 e +1.
Mede o grau (força) da associação.

17
Correlação: generalidades

 Se representarmos as duas
variáveis num referencial
cartesiano, a “nuvem de pontos”
(diagrama de dispersão) reflecte a
maior ou menor tendência para os
pontos se disporem
sistemáticamente ao longo de uma
linha recta (descendente ou
ascendente).

Pierre Dagnelie (1973): Theorie et


Méthodes Statistiques, vol.1. Les
Presses Agronomiques de Gembloux.

Correlação: generalidades

Correlação Correlação
Negativa Ausência de Positiva
Perfeita Correlação Perfeita

-1.0 -.5 0 +.5 +1.0

ρ negativo: Y tende a ρ positivo: Y tende a


decrescer à medida que X crescer à medida que X
cresce cresce

ρ = 0: não há qualquer relação entre a variação de Y


e a variação de X.

18
Correlação: Cálculo
 Para uma amostra de n pares (xi, yi) de observações realizadas
para as variáveis X e Y, o coeficiente de correlação (do momento-
produto, de Pearson) vem dado por:

SPD
Cov ( X , Y ) (n − 1)
XY

r= = = SPD XY

Var ( X ).Var (Y ) SQD SQD . SQD


. SQD
(n − 1) (n − 1)
X Y X Y

r=
( )( )
i=n

∑ X − X .Y − Y
i
_

i
_

∑ (X − X ) .(Y − Y )
i =1
i=n _ 2 _ 2

i i
i =1

 Nestas expressões: Cov (X, Y) = covariância de X e Y; Var X, Var


Y = variâncias de X e Y, respectivamente; SQDX, SQDY =
Somatórios dos Quadrados dos Desvios de X e de Y,
respectivamente; SPDXY = Somatório dos Produtos Cruzados de X
e Y.

Correlação: Propriedades

 Como tem uma amplitude de variação bem


definida (-1 ≤ ρ ≤ 1), é fácil de interpretar.
 É independente do tamanho da amostra.
 É independente das unidades de medida de X e
de Y.
 É seriamente afectado pela presença de
“outliers” ou valores extremos nos dados.
 O coeficiente de correlação não indica que haja
qualquer relação causa ⇒ efeito entre as duas
variáveis.

19
Correlação: Teste da Significância

 O teste da significância do coeficiente de correlação envolve duas


hipóteses:
H : ρ = 0 (ausência de correlação )
0

H : ρ ≠ 0 (presença de correlação significat iva)


1

 O estatístico t de Student calculado da forma seguinte é o critério


do teste :

n−2
t = r.
1− r
amostra 2

 A H0 é rejeitada quando:

t amostra ≥ t α (n − 2)

Correlação: Exemplo Ilustrativo


No decurso de um estudo sobre a qualidade do ar na zona
onde se encontra um lago, fizeram-se medições do pH da
água do lago (variável X), e avaliou-se a qualidade do ar
mediante um índice qualitativo (variável Y). O índice varia de 0
a 100, sendo que valores mais elevados representam níveis
mais graves de poluição.

Pretende-se analisar o grau de associação entre a duas


variáveis (α = 0,05).

pH da água Índice de qualidade do ar


1 4.5 40
2 4.1 50
3 4.8 30
4 4.0 60
5 5.0 20
6 6.0 10
7 3.5 70
8 4.9 30
9 3.2 85
10 6.1 15

20
Correlação: Exemplo Ilustrativo

 n  n 
 ∑ x . ∑ y 
n
(46 ,1).(410)
SPD XY
= ∑ x.y −  1   1  = 1684 , 5 − = −205,6
1 n 10

 n 
2
SPD − 205 ,6
∑ x r= XY
= = −0 ,959
n
(46 ,1)2 SQD . SQD (8,289 ).(5540)
SQD =∑x −  1  = 220 ,81 − = 8,289
2 X Y
X
1 n 10

2
 n 
∑ y
n
(410 )2
−  1  = 22350 −
2
SQD = ∑ y Y n 10
= 5540
1

t amostra
= r.
n−2
1−r
2 = −0 ,959.
10 − 2
(
1 − − 0 ,959 )
2 = −9 ,626
versus t 0 , 05 (8) = 1,860

Decisão e Conclusão: Rejeitar H0: ρ = 0, e concluir que o pH da água do lago


está negativa e significativamente correlacionada com o índice de qualidade do
ar.

21

Potrebbero piacerti anche