Sei sulla pagina 1di 17

1

UNIDADE 8. CORRELAÇÃO E REGRESSÃO

Nas unidades anteriores (1 a 7), estudamos técnicas para a descrição e a análise dos
valores de uma única variável da população, como base para interpretação do
comportamento de um conjunto de indivíduos, expostos a diferentes condições naturais
ou experimentais.
Muitas vezes é necessário determinar relações existentes entre duas ou mais variáveis
através das quais se possa estabelecer um grau de dependência para fazer previsões
sobre seus comportamentos numéricos.

Exemplos de relações existentes entre duas variáveis na Engenharia de Pesca:


• CPUE / esforço de pesca
Biologia Pesqueira
• taxa de recrutamento / estoque reprodutor
Aqüicultura • taxa de crescimento / taxa de conversão alimentar
Tecnologia Pesqueira • vulnerabilidade / largura da malha da rede
Tecnologia do Pescado • no de bactérias / tempo decorrido após a captura

Essas variáveis são chamadas de:


Variável independente (x) Æ que é a variável explicativa, aquela que o pesquisador
controla ou altera.
Variável dependente (y) Æ que é aquela que o pesquisador mede; aquela que é afetada –
variável resposta.

Há casos em que uma variável dependente está relacionada com mais de uma variável
independente. Nesse caso, estamos lidando com regressão múltipla.
Entretanto, as relações existentes entre uma variável dependente e uma variável
independente são descritas como regressões simples.

As relações existentes entre dois parâmetros de uma população são representadas


fundamentalmente através dos processos de regressão e correlação.

Definida por um coeficiente que


resume o grau de
relacionamento entre as duas
variáveis.
Tem como resultado uma equação matemática que
quantifica o relacionamento entre as duas variáveis.
2

CORRELAÇÃO
• Determina até que ponto os valores de uma variável estão correlacionados com os
valores de outra variável.
• Coeficiente de correlação de Pearson (r de Pearson) mede o grau de aderência.
• Assume-se que as duas variáveis apresentam distribuição aproximadamente normal.

CARACTERÍSTICAS DE r
• –1,0 ≤ r ≤ +1,0.
• r mede apenas a relação linear entre x e y.
• Quanto mais próximo de –1 ou de +1, mais perfeita é a correlação (r = ± 1 Æ ocorrem
apenas quando todos os pontos plotados caem exatamente sobre a reta).
• r = 0 Æ ausência total de correlação.
• Valores positivos Æ a variável independente (x) apresenta uma relação direta
(positiva) com a variável dependente (y).
• Valores negativos Æ a variável independente (x) apresenta uma relação inversa
(negativa) com a variável dependente (y).
• Valor de r independe das unidades de medida.

Para se estudar existência de correlação entre duas variáveis (x e y) é importante traçar


primeiro um diagrama de dispersão.
Para se conhecer a força da correlação em termos quantitativos, é importante calcular o
coeficiente de correlação de Pearson (r).
A existência de correlação é confirmada estatisticamente através do cálculo de r (variação
explicada / variação total), pela equação:

Sxy
r=
Sxx ⋅ Syy

(∑ x )⋅ (∑ y ) (∑ x ) 2
(∑ y )2

Sxy = ∑ xy − Sxx = ∑ x 2
− Syy = ∑ y 2

n n n

Grau de correlação |r|


Perfeito 1,0 1,0 1,0
Forte 0,9 ≤ | r | < 1,0 | r | ≥ 0,8 0,7
Moderado 0,5 < | r | < 0,9 0,5 < | r | < 0,8 0,5
Fraco 0 < | r | ≤ 0,5 | r | ≤ 0,5 0,3
Nenhum 0 0 0
3

Diagramas de dispersão indicativos do grau de correlação existente entre as


variáveis x e y, e respectivos valores do coeficiente de correlação de Pearson (r)

SIGNIFICÂNCIA ESTATÍSTICA DO COEFICIENTE DE CORRELAÇÃO DE PEARSON

1. Enunciar hipóteses:
H0: r = 0 Æ inexistência de correlação Ha: r ≠ 0 Æ existência de correlação
estatisticamente significativa estatisticamente significativa

2. Estabelecer nível de significância (α) e graus de liberdade (GL = n – 2)

3. Calcular r

Sxy
r=
Sxx ⋅ Syy
4

4. Comparar rcalculado com rcrítico

5. Regra de decisão
rcalculado < rcrítico rcalculado > rcrítico
Aceita-se H0 Æ não existe correlação Rejeita-se H0 Æ existe correlação
estatisticamente significativa entre as estatisticamente significativa entre as
variáveis x e y. variáveis x e y.

TESTE t DE STUDENT PARA VERIFICAR A SIGNIFICÂNCIA ESTATÍSTICA DO


COEFICIENTE DE CORRELAÇÃO DE PEARSON (r)

Æ Recomendado quando r for muito pequeno.

1. Enunciar hipóteses:
H0: r = 0 Ha: r ≠ 0

2. Estabelecer nível de significância (α) e graus de liberdade (GL = n – 2)

3. Calcular t

r ⋅ n−2
t=
1−r2

4. Comparar tcalculado com tcrítico

5. Regra de decisão
-tcrítico< tcalculado < tcrítico tcalculado > tcrítico ou < -tcrítico
Aceita-se H0 Æ não existe correlação entre Rejeita-se H0 Æ existe correlação entre as
as variáveis. variáveis.

COEFICIENTE DE DETERMINAÇÃO (R2)

Æ O coeficiente de determinação (R2) é uma medida adimensional para a qualidade do


ajuste de uma reta de regressão, mas não é uma medida da adequação do modelo.
Æ O valor de R2 dá a proporção da variação total explicada pelo modelo e pode ser
interpretado como a proporção de variância em y que está contida em x.
var iação exp licada
R2 =
var iação total
5

Æ Representa a proporção percentual da correlação que é resultado de fatores causais.


Æ O restante (100% - R2) representa % da correlação que é atribuída a fatores aleatórios.

Exemplo

Correlação entre fecundidade média e comprimento: r = 0,9757

400
y = -353,053 + 26,801x
(n = 22 r = 0,9757)
fecundidade média (n ovos x 10 )
3

350

300

250
o

200

150

100

50

0
14 16 18 20 22 24 26
comprimento (cm)

R2 medido para essas variáveis = (0,9757)2 = 0,952 (medida adimensional)

Interpretação

95,2% da variância é explicada pelo modelo, ou seja, 95,2% da correlação entre


fecundidade e comprimento são devidos ao fator causal (tamanho do indivíduo).
100 – 95,2 = 4,8% da variância é aleatória, ou seja, 4,8% da correlação são explicados
por fatores aleatórios, por exemplo, erro amostral, tais como condições físicas da fêmea,
fatores ambientais e/ou tamanho da população.

O coeficiente de correlação de Pearson (r) é mais indicado para medir a força da relação
linear entre as variáveis, e o coeficiente de determinação (R2) é mais apropriado para
medir a explicação da reta de regressão. Dessa maneira, para apreciar o ajuste de uma
reta é melhor utilizar o coeficiente de determinação (R2) que mede o sucesso da
regressão em explicar y.
O coeficiente de correlação de Pearson (r) também pode ser calculado a partir do
coeficiente de determinação (R2). Entretanto, como o coeficiente de determinação (R2) é
sempre positivo, o sinal de r será o mesmo que o sinal do coeficiente b da reta de
regressão.
6

REGRESSÃO

MODELO LINEAR

Quando pares ordenados xy são plotados em um sistema cartesiano, obtém-se um


diagrama de dispersão a partir do qual se avalia a forma da relação entre as variáveis e
sua aderência (grau de proximidade).

A maneira mais simples e funcional de se representar a relação existente entre duas


variáveis de uma população é através da equação da reta:
f (x ) = y = a + bx onde:
x é a variável independente
y é a variável dependente
a é o ponto de intercessão com o eixo y, chamado de coeficiente linear
b é a inclinação da reta, chamado de coeficiente angular
Os parâmetros (constantes) que definem esta relação são os dois coeficientes: linear (a) e
angular (b).
A regressão consiste em se determinar valores únicos de a e b que possam descrever a
função Æ f (x ) = y = a + bx .
7

Se todos os pontos no diagrama caíssem sobre uma linha reta, teríamos uma relação
perfeita (r = ±1). Porém, o que ocorre de fato é uma dispersão variável dos pontos em
torno da linha de melhor ajuste, determinada através da técnica dos mínimos quadrados,
quando o somatório dos desvios (Σd2) entre um valor observado da variável dependente
(y) e seu valor calculado (y’), elevado ao quadrado, for mínimo:

∑d 2
(
= ∑ y − y' )
2
⇒ mínimo

A única maneira de estimar a e b com precisão e exatidão máximas seria, obviamente,


utilizando todos os indivíduos ou elementos da população para as necessárias medições.
Considerando que isto é praticamente inviável de se realizar, esses parâmetros são
estimados a partir de uma amostra de n observações de pares xy.
Assim, a reta de regressão é representada pela equação y = a + bx , sendo y a variável
dependente e x a variável independente. Os coeficientes a e b são os coeficientes de
regressão com o seguinte significado:
O coeficiente b é a declividade da reta e define o aumento ou a diminuição da variável y
por unidade de variação da variável x.
A constante a é o intercepto y, sendo igual ao valor de y para x = 0.

ESTIMAÇÃO DE b

O parâmetro b, que dá a inclinação da reta, é definido como o coeficiente angular da


regressão que permite o melhor ajuste da reta, sendo calculado por:
( x )⋅ ( y )
∑ xy − ∑ n ∑
b=
( x)
∑x − ∑
2
2

n
O valor de b indica a posição da reta e, conseqüentemente, o tipo de relação existente
entre as variáveis x e y de modo que para b > 0 tem-se uma relação direta; para b < 0
tem-se uma relação inversa e para b = 0 tem-se uma reta paralela ao eixo horizontal.

Coeficiente angular indicativo de: (a) correlação direta ou positiva; (b) correlação
inversa ou indireta ou negativa (c) ausência de correlação.

Tendo em vista que um número infinito de retas paralelas pode apresentar o mesmo
coeficiente angular, somente com a determinação de vários pontos com coordenadas
8

(x,y) poder-se-á definir uma única reta com coeficiente angular b que definirá a reta que
melhor representa a regressão.

ESTIMAÇÃO DE a

O valor de a (coeficiente linear) corresponde a ordenada do ponto em que a reta corta o


eixo das ordenadas (interseção), ou seja, o ponto de interseção da reta no eixo y,
portanto onde x = 0, sendo calculado pela equação:
a = y − bx onde:

y e x são as médias de y e x, respectivamente.

Deve-se ressaltar que para um determinado valor de a, existe um número infinito de retas
com diferentes valores de b.

Note que b, sendo uma taxa y/x, tem como unidade, por exemplo, número de ovos/cm, e
que a tem a mesma unidade dos demais valores de y, ou seja, números de ovos (gráfico
página 5).

O gráfico representativo de uma regressão entre duas variáveis deve conter os pontos
correspondentes aos valores observados de x e y aos quais se ajusta a reta de regressão
calculada entre dois pares de valores extremos das variáveis: (x1;y1) e (xn;yn).
Além disso, o gráfico permite visualizar o grau de aderência que é definido como a
qualidade do ajuste aos pontos observados.
9

MODELOS CURVILÍNEOS

Muitas relações encontradas freqüentemente em Engenharia de Pesca não podem ser


bem representadas por uma equação linear.

Solução:
Traçar um diagrama de dispersão.
Verificar o tipo de relação existente entre as variáveis.
Definir, a partir daí, a equação mais adequada para a situação sob análise.

Dois modelos matemáticos não-lineares são muito usados em Estatística Pesqueira:

Modelo Geométrico Modelo Exponencial

y = A.x b y = A.e bx
x Æ base x Æ expoente

Representação gráfica de modelos não-lineares (geométrico e exponencial), com as


respectivas equações de regressão existentes entre as variáveis y e x.
10

Relações curvilíneas (não-lineares) são determinadas por diferenças de simetria entre as


variáveis, caracterizando-se geralmente pela assimetria de uma delas.
Por exemplo:
A relação peso / comprimento (Wt = A.Ltb) não é linear. Enquanto o comprimento é
simétrico, o peso apresenta acentuada assimetria positiva.

Solução para linearizar uma curva Æ é realizar uma transformação logarítmica, com a
conversão das variáveis para lognormais, que passarão a ter a mesma escala,
permitindo o uso de uma equação linear, premissa básica para o uso da regressão.

Para que a regressão linear simples possa ser ajustada aos dados, muitas vezes basta
transformar uma das variáveis. Outras vezes, é preciso transformar ambas as variáveis.

Além da transformação logarítmica, outras transformações também podem ser utilizadas


(angular, raiz quadrada etc).

Em geral, as transformações são empíricas, isto é, dados n pares de valores de x e de y,


é preciso fazer várias tentativas, até encontrar a transformação que permita ajustar uma
regressão linear simples.

Entretanto, existem situações em que o modelo é especificado teoricamente.


CPUE / esforço de pesca Æ exponencial (y = A . e-bx)
CPUE = A . e-b.esforço de pesca

peso / comprimento Æ geométrico (y = A . xb)


Wt = A . Ltb

É preciso lembrar que nem sempre é possível ajustar uma regressão linear simples.
Existem situações que exigem o uso de modelos matemáticos mais complexos, como é o
caso dos dados de crescimento, que apresentados em gráfico, dão origem às curvas de
crescimento.
11

LINEARIZAÇÃO DOS MODELOS GEOMÉTRICOS


Nos modelos geométricos realiza-se uma transformação log-log, isto é, ambas as
variáveis (x e y) serão lognormais. Portanto, considerando-se as equações das curvas
mostradas na figura acima, tem-se:
y = A ⋅ xb
que, logaritmizada, resulta em:

ln y = ln A + b ⋅ ln x y' = a ' + b ⋅ x '

ln y = ln A − b ⋅ ln x y' = a ' − b ⋅ x '

sendo Æ ln y = y’ ln A = a’ ln x = x’.

LINEARIZAÇÃO DOS MODELOS EXPONENCIAIS


Nos modelos exponenciais realiza-se uma transformação semilog, isto é, apenas a
variável dependente (y) será lognormal. Portanto, considerando-se as equações das
curvas mostradas na figura acima, tem-se:
y = A ⋅ ebx
que, logaritmizada, resulta em:

ln y = ln A + bx y' = a ' + bx

ln y = ln A − bx y' = a' − bx

sendo Æ ln y = y’ ln A = a’.
12

COMPARAÇÃO DE DUAS RETAS DE REGRESSÃO

Conjunto 1 Conjunto 2
Macho Fêmea
Área 1 Área 2
Verão Inverno

y = a1 + b1.x y = a2 + b2.x

1o Passo ⇒ TESTAR OS COEFICIENTES ANGULARES (b)

1. Enunciar as hipóteses
H0: b1 = b2 Ha: b1 ≠ b2

2. Estabelecer α e GL [GLp = ΣGLres = Σ(ni – 2)]

3. Calcular a variável

b − b2 (s )
2
yx p (s )
2
yx p
t= 1 s (b1−b 2 ) = +
s (b1 − b2 ) (Sxx )1 (Sxx )2

(∑ x )2
(∑ y ) 2
(∑ x )⋅ (∑ y )
Sxx = ∑ x 2
− Syy = ∑ y 2
− Sxy = ∑ xy −
n n n

(SQres )1 + (SQres )2 (Sxy )2i


(s )
2
=
(GLres )1 + (GLres )2 (SQ res )i = (Syy )i − (GLres )i = ni − 2
(Sxx )i
yx p

4. Comparar tcalculado com tcrítico

5. Regra de decisão
Aceita-se H0 ⇒ b1 = b2 Rejeita-se H0 ⇒ b1 ≠ b2
13

2o Passo ⇒ TESTAR OS COEFICIENTES LINEARES (a)

1. Enunciar as hipóteses
H0: a1 = a2 Ha: a1 ≠ a2

2. Estabelecer α e GL [GLp = ΣGLres = Σ(ni – 2)]

3. Calcular a variável

t=
(y 1 ) (
− y 2 − bp ⋅ x 1 − x 2 )
(s )2
⎛ 1
⋅ ⎜⎜ +
1
+
x1 − x 2 ( ) ⎞


⎝ n1 n2 (Sxx )1 + (Sxx )2
yx c

(Sxy )1 + (Sxy )2
bp =
(Sxx )1 + (Sxx )2 (s )
2
yx c =
SQc
GLc

(∑ Sxy ) 2
GLc = (n1 + n2 ) − 4
SQc = ∑ Syy −
∑ Sxx
a1 = y1 – bp.x1 a2 = y2 – bp.x2

4. Comparar tcalculado com tcrítico

5. Regra de decisão
Aceita-se H0 ⇒ a1 = a2 Rejeita-se H0 ⇒ a1 ≠ a2
Retas coincidentes Retas paralelas
14

COMPARAÇÃO DE TRÊS OU MAIS REGRESSÕES

Conjunto 1 (x1 y1) Conjunto 2 (x2 y2) Conjunto 3 (x3 y3)


y = a1 + b1.x y = a2 + b2.x y = a3 + b3.x

Espécies, áreas, rações, épocas diferentes ⇒ parâmetros da população: comprimento,


peso, relações morfométricas.

Teste usado ⇒ Teste F

1o passo ⇒ TESTAR OS COEFICIENTES ANGULARES (b)

1. Enunciar as hipóteses
H0: b1 = b2 = b3 Ha: pelo menos um dos b difere dos demais

2. Estabelecer α e GL GLentre = k – 1
GLdentro = GLp = ΣGLres = Σ(ni – 2)

3. Calcular a variável

SQc − SQ p
k −1 k = no de equações sob teste
F=
SQ p
GLp

(∑ Sxy ) 2

SQc = ∑ Syy − SQ p = ∑ SQresidual


∑ Sxx

(Sxy )2 GLp = ∑ (ni − 2 )


SQ residual = Syy −
Sxx

4. Comparar Fcalculado com Fcrítico

5. Regra de decisão
Fcal < Ftab ⇒ aceita-se H0 ⇒ b1 = b2 = b3 Fcal ≥ Ftab ⇒ rejeita-se H0 ⇒ pelo menos
um b difere dos demais.
15

Aceitando-se H0 Rejeitando-se H0
b1 = b2 = b3 Pelo menos um b é diferente

2o passo: testar os coeficientes lineares Testar b dois a dois ⇒


(a)
Teste de Newman-Keuls

H0: b1 = b2 / b1 = b3 / b2 = b3
Teste F
Ha: b1 ≠ b2 / b1 ≠ b3 / b2 ≠ b3

H0: a1 = a2 = a3
• Se aceitar H0
Ha: pelo menos um a difere dos demais

Testar a dois a dois ⇒


Teste t de Student

• Se rejeitar H0

Regressões diferentes

Se aceitar H0 Æ deve testar os coeficientes lineares

2o passo ⇒ TESTAR OS COEFICIENTES LINEARES (a)

1. Enunciar as hipóteses:
H0: a1 = a2 = a3 Ha: pelo menos um dos a difere dos demais.

2. Estabelecer α e GL GLentre = k –1
GLdentro = GLp = ΣGLres = Σ(ni – 2)
16

3. Calcular a variável
SQc − SQ p
k = no de equações sob teste.
F= k −1
SQc
GLc

(∑ Sxy ) 2
SQp = ∑ SQresidual GLc = ∑ ni − k − 1
SQc = ∑ Syy −
∑ Sxx

SQresidual = Syy −
(Sxy )
2

Sxx

4. Comparar Fcalculado com Fcrítico.

5. Regra de decisão
Fcal < Fcrítico ⇒ aceita-se H0 ⇒ a1 = a2 = a3. Fcal ≥ Ftab ⇒ rejeita-se H0 ⇒ pelo menos
um a difere dos demais.

Testar a dois a dois ⇒ Teste t de Student.

Se rejeitar H0 Æ deve aplicar o teste de Newman-Keuls

Teste de Newman-Keuls
1. Enunciar as hipóteses
H0: b1 = b2 b1 = b3 b2 = b3
Ha: b1 ≠ b2 b1 ≠ b3 b2 ≠ b3
p=2 p=3 p=2

2. Estabelecer α GL e p
GLp = ΣGLres = Σ(ni – 2)
p = no de médias na amplitude de medidas sob teste
17

3. Calcular a variável

b − b2 (s )
2
⎛ 1 1 ⎞ (s )
2
=
(SQres )1 + (SQres )2
q= 1
yx p
SE = ⋅ ⎜⎜ + ⎟⎟
SE 2 ⎝ (Sxx )1 (Sxx )2 ⎠
yx p
(GLres )1 + (GLres )2

q=
b1 − b3 (s )
2
yx p ⎛ 1 1 ⎞ (s ) = ((SQ
2
yx p
) + (SQ )
res 1

GL ) + (GL )
res 3

SE = ⋅ ⎜⎜ + ⎟⎟
⎝ (Sxx )1 (Sxx )3 ⎠
SE res 1 res 3
2

b − b3 (s )
2 (s ) = ((SQ
2
yx p
) + (SQ )
res 2

GL ) + (GL )
res 3

q= 2 yx p ⎛ 1 1 ⎞
SE = ⋅ ⎜⎜ + ⎟⎟ res 2 res 3

⎝ (Sxx )2 (Sxx )3 ⎠
SE 2

4. Comparar qcalculado com qcrítico

5. Regra de decisão
Rejeita-se H0 ⇒ b ≠ ⇒ regressões ≠ Aceita-se H0 ⇒ b = ⇒ testar os coeficientes
lineares (a), usando o teste t para os a (pág
15).

RR H0 RR H0
RA H0

-q +q

Potrebbero piacerti anche