Sei sulla pagina 1di 31

Estatstica

amintas paiva afonso


Correlao e Regresso
Associao &Variveis Quantitativas
Situao 1: Deseja-se realizar uma investigao sobre a
ocorrncia de anemia e infeco em uma comunidade. Seria
interessante poder estimar a concentrao de hemoglobina e a
contagem de eritrcitos e leuccitos no sangue pela medida do
hematcrito. Para verificar a possibilidade de se usar tal
procedimento, conduzido um estudo-piloto a partir dos
resultados da rotina de um laboratrio de hematologia.
Como verificar se essas variveis esto
associadas?
Testes de Hipteses?
Estabelecem se existe associao entre duas
variveis, mas...
No quantificam a fora da associao; e
No permitem representar a relao existente
sob uma forma funcional.
Exame Leuccito Eritrcito Hemoglobina Hematcrito
(103/mm3) (106/mm3) (g/dl) (%)
1 6.8 4.50 14.6 41
2 9.7 5.20 15.6 47
3 4.3 4.55 14.4 41
4 7.9 4.65 14.4 41
5 7.4 4.40 13.8 40
6 7.6 4.40 14.0 40
7 2.8 4.30 13.6 40
8 7.8 4.60 13.8 42
9 5.5 4.90 15.2 44
10 4.6 4.10 13.0 39
11 8.0 5.00 17.0 46
12 7.0 5.17 16.0 47
13 7.1 4.20 11.7 35
... ... ... ... ...
138 10.5 4.50 13.4 39
139 6.9 4.50 14.2 40
140 13.5 4.45 13.6 40
141 8.3 3.70 11.0 33
142 7.0 4.30 12.7 38
143 4.3 4.67 14.0 43
144 2.7 4.40 12.7 39
145 11.2 4.40 13.3 38
147 5.9 4.40 11.9 37
148 12.3 4.24 10.0 31
Associao &Variveis Quantitativas
possvel fazer um
grfico das variveis
de interesse e analisar
a existncia de uma
relao a partir da
anlise desse grfico.
Associao &Variveis Quantitativas
Diagrama de Disperso
Representao grfica que permite a visualizao do
comportamento conjunto das duas variveis.
grfico sobre o qual cada medida individual
representada por um ponto, sendo que a posio de cada
ponto determinada pelos valores observados em um
indivduo, para as duas caractersticas medidas (por
exemplo, hematcrito e hemoglobina). denominado,
tambm, de grfico XY.
Diagrama de Disperso
Anlise
Parece no haver uma
relao entre o valor do
hematcrito e o valor do
leuccito.
Diagrama de Disperso
Anlise
H uma relao crescente entre o
valor do hematcrito e o valor de
hemoglobina.
Esta relao parece ser linear.
Diagrama de Disperso
Anlise
H uma relao crescente entre
o valor do hematcrito e o valor
do eritrcito.
Esta relao parece ser linear.
Diagramas
de Disperso
A anlise no alterada, se
trocamos as variveis X e Y,
ou seja, a existncia ou no
da relao no depende de
qual varivel considerada
independente.
O modelo matemtico,
porm, ser alterado a
depender de quem X.
Associao &Variveis Quantitativas
Coeficiente de correlao linear de Pearson
Valor numrico que mede a intensidade da associao
linear existente entre as duas variveis, medida a partir de
uma srie de observaes.
Karl Pearson
(1857 1936)
Coeficiente de Correlao Linear
Medindo a Fora da Associao
( ) ( )
(
(


(
(


n
y
y
n
x
x
n
y x
xy
r
2
2
2
2
Coeficiente de Correlao Linear
Interpretando o valor de r
r - assume valores entre 1 e + 1 inclusive.
r ~ 1 associao linear negativa;
x | y |
x | y +
r ~ 0 ausncia de associao linear;
r ~ + 1 associao linear positiva;
Coeficiente de Correlao Linear
0
5
10
15
20
0 5 10
r = +1
0
10
20
30
40
50
60
0 5 10
r ~ 0
0
5
10
15
20
0 5 10
r ~ + 0,80
0
5
10
15
20
25
30
0 5 10
r ~ - 0,80
0
5
10
15
20
25
30
0 5 10
r = - 1
Relao
perfeita
Relao
perfeita
Teste de Hipteses sob o Coeficiente
de Correlao Linear
Testamos a hiptese nula: (bicaudal) 0 :
0
= r H
A estatstica do teste dada por:
2
1
2
r
n
r t

=
e sob H
0
, t tem distribuio t-Student com (n - 2) graus
de liberdade.
Coeficiente de Correlao Linear
Teste de Hipteses
Exemplo 1: Vamos calcular o coeficiente de Pearson entre as
variveis hemoglobina e hematcrito.
98 , 21
148 , 88 , 0
=
= ~
t
n r
Para o = 0,05 temos:
2,5% 2,5%
0
1, 96
Rejeita se .
crtico crtico
t t t
H
= >

H correlao
entre hematcrito
e hemoglobina.
Exemplo 2: Vamos calcular o coeficiente de Pearson entre as
variveis leuccito e hematcrito.
3492 , 0
148 , 0289 , 0
=
= ~
t
n r
Para o = 0,05 temos:
2,5% 2,5%
0
1, 96
Aceita se .
crtico crtico
t t t
H
= <

No h correlao entre
hematcrito e leuccito.
Coeficiente de Correlao Linear
Teste de Hipteses
Associao &Variveis
Quantitativas
Modelos de Regresso
Modelo matemtico para a relao linear analisada.
Permite a predio de uma varivel em funo de outra.
Modelos Lineares
Situao 2: Uma vez verificada a existncia de uma relao
entre a quantidade de hemoglobina e o nmero de
hematcritos, desejamos desenvolver um modelo para estimar
a medida de hemoglobina (varivel y) a partir da medida de
hematcrito (varivel x).
Qual a reta que
melhor se ajusta
a estes dados?
4,00
6,00
8,00
10,00
12,00
14,00
200 400 600 800 1000 1200
hematcrito
h
e
m
o
g
l
o
b
i
n
a
Modelos Lineares
Equao da Reta
0
5
10
15
20
25
0 2 4 6
x
y
Inclinao da reta
Intercepto y
a
a e b - parmetros da
reta
bx a y + =
b
Regresso Linear Simples
Mtodo dos Mnimos Quadrados
O objetivo
minimizar a soma
do quadrado dos
erros:
Obtendo os valores
de e que
minimizam a
equao acima.
0
b
1
b
0
2
4
6
8
10
12
0 2 4 6 8 10
x
y
erro
( )
i i
y y
2
^

|
.
|

\
|
= y y SQR
Regresso Linear Simples
Mtodo dos Mnimos Quadrados
bx a y + =

( )
n
x
x
n
y x
xy
b
2
2

=
x b y a =
Podemos utilizar a reta de
regresso para estimar os
valores de . y
Reta de Regresso & Estimativa
Estimativa da Medida de Hemoglobina
Anlise
O valor de homoglobina
mdia estimada, para um
valor observado de
hematcrito igual a 40%,
de 13,97 g/dl.
4,00
6,00
8,00
10,00
12,00
14,00
200 400 600 800 1000 1200
hematcrito
h
e
m
o
g
l
o
b
i
n
a
Ht Hb + = 2434 , 0 2327 , 4
) / ( 97 , 13
% 40 Se
dl g Hb
Ht
=
=
Suponha que desejemos considerar o hematcrito como
varivel dependente. Neste caso, podemos calcular outra reta
de regresso, pelo mtodo dos mnimos quadrados,
considerando a hemoglobina como varivel x (independente) e
o hematcrito como varivel y (dependente).
Reta de Regresso & Estimativa
Estimativa da Medida de Hematcrito
O valor de hematcrito mdio
estimado, para um valor observado de
hemoglobina Hb = 13,97 g/dl, de
40,54%. Note que a reta, para Ht, no
a inversa da obtida para Hb.
Hb Ht + = 9017 , 2 00073 , 0
% 54 , 40
) / ( 97 , 13 Se
=
=
Ht
dl g Hb
Exemplo 1:
Encontre a linha de regresso dos mnimos quadrados para os dados sobre renda e
gasto com alimentao nos sete domiclios apresentados na tabela abaixo. Utilize
renda como uma varivel independente e gasto com alimentao como uma varivel
dependente.
Renda
x
Gasto com Alimentao
y
xy x
2

35 9 315 1225
49 15 735 2401
21 7 147 441
39 11 429 1521
15 5 75 225
28 8 224 784
25 9 225 625
212 64 2150 7222
1429 , 9
7
64
2857 , 30
7
212
7222
2150
64
212
2
= = =
= = =
=
=
=
=

n
y
y
n
x
x
x
xy
y
x
( )( )
( )
2642 , 0
7
212
7222
7
64 212
2150
2
=

=
b
b
1414 , 1 ) 2857 , 30 ).( 2642 , 0 ( 1429 , 9 = = a
x y 2642 , 0 1414 , 1
^
+ =
Qualidade do Ajuste na Regresso
Coeficiente de Determinao
R
2
= proporo da variabilidade de y que
explicada pelo modelo (reta de regresso)
2
0 1 R s s
Se R
2
= 0,90 significa que 90% da variao em y pode ser
explicada pela equao obtida.
Qualidade do Ajuste na Regresso
Coeficiente de Determinao
Quando fazemos uma regresso linear, os valores observados
(x,y) esto espalhados ao redor da reta de regresso. Quanto
menor for este espalhamento, melhor a reta de regresso
representa o conjunto de valores observados. A varincia
amostral total, como estimador do espalhamento, pode ser
decomposta da seguinte forma:
( )
n
y
y
n
y x
xy b
r
2
2
2

|
|
.
|

\
|
-
=
Qualidade do Ajuste na Regresso
Coeficiente de Determinao
Exemplo 2:
Para os dados da tabela do exemplo 1, sobre rendas mensais e gastos mensais
com alimentao de sete domiclios, calcule o coeficiente de determinao.
b=0,2642
SQ
xy
=211,7143
SQ
yy
=60,8571
( )( )
92 , 0
8571 , 60
7143 , 211 2642 , 0
2
= = r
www.matematiques.com.br
amintas paiva afonso