Sei sulla pagina 1di 11

E

statstica
Autoria: Oderson Dias de Mello
Tema 07
Correlao e Regresso
Tema 07
Correlao e Regresso
Autoria: Oderson Dias de Mello
Como citar esse documento:
MELLO, Oderson Dias de. Estatstica: Correlao e Regresso. Caderno de Atividades. Anhanguera Publicaes: Valinhos, 2014.
ndice
2014 Anhanguera Educacional. Proibida a reproduo fnal ou parcial por qualquer meio de impresso, em forma idntica, resumida ou modifcada em lngua
portuguesa ou qualquer outro idioma.
Pg. 17
Pg. 18 Pg. 19
Pg. 17
Pg. 15 Pg. 14
ACOMPANHENAWEB
Pg. 3
CONVITELEITURA
Pg. 3
PORDENTRODOTEMA
3
Imagine que voc consiga determinar qual a relao entre o nmero de times de futebol e a porcentagem de
pessoas alfabetizadas em determinada populao. Ou se existe conexo entre o tempo que passamos nas redes sociais
e a porcentagem de notas satisfatrias nas to temidas provas. Como podemos determinar se essas relaes realmente
existem ou so apenas falcias? Essas relaes, ou melhor, correlaes que podem ou no existir entre duas variveis
quantitativas (que podem ser medidas em escala quantitativa) podem ser mensuradas e vo nos auxiliar a inferir se
algumas dessas relaes que estudamos e queremos mensurar so signifcantes ou no, se uma varivel resultado
direto ou indireto de outra varivel (ou seja, dependente) ou se a relao que estamos estudando simplesmente
resultado da casualidade ou de situaes que no somos capazes de mensurar.
CONVITELEITURA
PORDENTRODOTEMA
Introduo
Neste tema, vamos introduzir muitos conceitos dentro do campo de estatstica inferencial, como por exemplo,
o conceito de correlao linear, regresso linear e mltipla, variveis independentes e dependentes, medidas de
regresso e intervalos de previso.
Correlao
A correlao, para a estatstica, defnida como a fora e a direo de uma relao linear entre duas variveis
quantitativas, variveis que apresentam apenas contagens e medidas.
4
PORDENTRODOTEMA
Podemos observar a correlao atravs do diagrama de disperso. No diagrama, os pares ordenados (x,y) so
dispostos em um grfco como pontos em um plano coordenado onde X a varivel independente (ou explanatria)
medida pelo eixo horizontal e Y a varivel dependente (resposta) medida pelo eixo vertical. O diagrama nos ajuda a
visualizar se existe uma correlao linear (uma linha reta) entre duas variveis. Podemos ver na Figura 7.1 um exemplo
de um diagrama de disperso.
Figura 7.1: Diagrama de disperso (Fonte: wikicommons).
5
Tentar interpretar a existncia e o grau de correlao utilizando somente o diagrama de disperso extremamente
subjetivo, e ele no consegue fornecer uma boa preciso. Por isso, foi desenvolvida uma maneira mais precisa para se
medir a fora de uma correlao entre duas variveis quantitativas: o coeciente de correIao.
O coefciente de correlao, conhecido formalmente como coefciente de correlao produto-momento de Pearson,
uma medida da fora e direo de uma relao linear entre duas variveis. A varivel r representa o coefciente de
correlao da amostra (amostral) e tem a seguinte frmula:
r = .
O valor do coefciente de correlao amostral varia entre -1 e 1. Se as variveis x e y tm uma correlao linear forte,
o coefciente ter valor muito prximo de -1 (correlao forte negativa) e +1 (correlao forte positiva). Se no houver
correlao linear, o coefciente ter um valor muito mais prximo de zero, porm isso no signifca que no existe
qualquer correlao entre os parmetros, e sim que no h relao linear. Vamos mostrar alguns exemplos.

Figura 7.2: Grfcos de disperso (LARSON; FARBER, 2010).
PORDENTRODOTEMA
6
Agora que conseguimos identifcar uma correlao linear, vamos resolver o seguinte exemplo.
Suponha que um pesquisador da rea de marketing deseja calcular a relao entre os gastos com propaganda e a
porcentagem de novos clientes. Seguindo os dados demonstrados na Tabela 7.1, o que podemos concluir?
Tabela 7.1: Dados.
Gastos com propaganda, Novos clientes
x (1 = 1000) y %
2,4 7
1,6 5
2 8
2,6 10
1,7 3
1,2 5
Primeiramente, podemos identifcar o nmero de pares de dados na tabela e, com isso, sabemos que n = 6. Aps defnir
o nmero de pares, vamos calcular as somas.
= 2,4 + 1,6 + 2,0 + 2,6 + 1,7 + 1,2 = 11,5
= 7 + 5 + 8 + 10 + 3 + 5 = 38
= 16,8 + 8,0 + 16,0 + 26,0 + 5,1 + 6,0 = 77,9
= 5,76 + 2,56 + 4,00 + 6,76 + 2,89 + 1,44 = 23,41
= 49 + 25 + 64 + 100 + 9 + 25 = 272
Com as somas calculadas, podemos aplicar a frmula do coefciente de correlao amostral.
r = = 0,774.
PORDENTRODOTEMA
7
Portanto, podemos concluir que com o coefciente de correlao de 0,774, temos que a correlao linear entre os gastos
com publicidade e a porcentagem de novos clientes positiva e forte.
Uma vez que calculamos o coefciente r, vamos querer descobrir se h evidncia sufciente para determinar se o coefciente
p, coefciente linear populacional, signifcante. Ou seja, com base em poucos dados, calculamos o coefciente de uma
amostra e com ela podemos inferir o coefciente populacional de uma base de dados muito maior.
Mas como estamos usando poucos dados amostrais para tomar uma deciso sobre uma populao, sempre possvel
que a nossa inferncia esteja errada. E somente em poucos casos que vamos afrmar que a correlao signifcativa
quando na verdade ela no . Essa porcentagem chamada de nveI de signicncia.
O nvel de signifcncia d normalmente defnido em 0,01 ou 0,05. Quando igual a 0,01, signifca que voc vai defnir
que o coefciente de correlao signifcante em 99% das vezes e ela realmente no o ser em 1% das vezes.
Para que o coefciente de correlao p seja signifcante, o valor absoluto de r deve ser maior que o valor crtico tabelado
(a tabela varia de acordo com o nmero de pares de dados e o nvel de signifcncia atribudo). Por exemplo, para
determinar que o coefciente de correlao populacional seja signifcante para seis pares de dados e nvel de signifcncia
de 99%, o valor absoluto de r deve ser maior que 0,917 (valor tabelado). Caso o valor de r seja menor, isso signifca que
no h evidncia sufciente para concluir que a correlao signifcante.
Podemos tambm utilizar o teste de hiptese para determinar se o coefciente de correlao amostral fornece uma
evidncia sufciente o bastante para inferir que o coefciente de correlao populacional signifcante.
Para realizar o teste de hiptese para a correlao entre duas variveis, utilizaremos como estatstica do teste, o teste
t. A estatstica tem a seguinte frmula: t = com n 2 graus de liberdade.
Se t estiver na regio de rejeio (com base nos valores crticos tabelados), rejeitaremos a hiptese nula, ou seja, o
coefciente de correlao populacional ser signifcante.
Vamos discutir agora sobre correlao e casualidade. O fato de duas variveis serem fortemente correlacionadas no
implica uma relao de causa e efeito entre elas (LARSON; FARBER, 2010).
PORDENTRODOTEMA
8
Se houver, depois de todos os testes necessrios, uma correlao signifcante entre duas variveis, temos que considerar
alguns fatos importantes. Temos que verifcar se h realmente uma relao direta ou reversa de causa e efeito entre as
variveis, se possvel que a relao entre as variveis possa ser causada por uma terceira varivel ou uma combinao
de diversas outras e, por fm, se a relao estudada pode ser resultado de um simples acaso.
Ou seja, no basta apenas realizar simplesmente a parte matemtica da anlise, precisamos estar atentos aos dados
selecionados e saber como escolher as variveis desejadas, a fm de no cair em nenhum caso de casualidade.
Regresso Linear
Agora que aprendemos a verifcar se duas variveis possuem uma correlao linear que seja signifcante, temos que
determinar a equao da linha que melhor se adqua aos dados selecionados. Essa linha conhecida como linha de regresso
e a sua equao nos fornece os valores de y para um valor de x escolhido. Mas como vamos saber se a linha traada uma
linha de regresso? Para ser de regresso, a reta tem que seguir alguns critrios que sero explicados a seguir.
Considere um diagrama de disperso seguido de uma linha k na Figura 7.3. Para cada ponto que representa um dado
temos um valor d
i
que representa a diferena entre o valor y observado (dado) e o valor y previsto pela linha dado um
valor x. A diferena d
i
entre os valores de y chamada de resduo e seu valor pode ser positivo (acima da linha), negativo
(abaixo da linha) e nulo (em cima da linha).
Figura 7.3: Linha de regresso e resduos (LARSON; FARBER, 2010, p. 409).
PORDENTRODOTEMA
9
Dadas todas as linhas possveis que podemos desenhar no grfco de disperso utilizando um conjunto de dados, a
linha de regresso, ou linha de melhor ajuste, aquela para qual a soma do quadrado de todos os resduos mnima.
Para determinar essa linha, ou melhor, reta de regresso, utilizaremos a seguinte equao, que vai nos permitir fazer
previses para a varivel dependente y utilizando uma varivel x independente.
= mx + b; m = b = m
Agora, vamos trabalhar com essa equao para o seguinte exemplo.
Encontre a equao de uma reta de regresso para a renda familiar em mil reais (x) e a porcentagem gasta com
alimentao (y).
Renda familiar Gasto com Alimentao
x y
2,5 14
1,7 11
1,3 10
2,3 12
2,7 15
1,8 9
Dado que n igual a seis, precisamos agora achar as somas para obter o valor de m e de b.
= 12.3
= 71
= 151
= 26,65
PORDENTRODOTEMA
10
Podemos agora aplicar as frmulas de m e de b.
m = = 3,798 e b = m = 4,048
Portanto,

= 3,798x + 4,048.
Medidas de regresso e intervalos de previso
Vamos aprender agora outras duas medidas usadas nos estudos sobre regresso e correlao. So elas: o
coeciente de determinao e o erro padro de estimativa. Mas antes de introduzir esses conceitos, precisamos
entender os trs tipos de variao e desvio sobre uma reta de regresso: a variao e o desvio total, a variao e o
desvio explcito e a variao e o desvio no explicado.
Desvio total = valor y mdia ;
Desvio explicado = valor previsto mdia ;
Desvio no explicado = valor y - valor previsto ;
Figura 7.4: Linha de regresso e resduos (MORETTN; BUSSAB, 2006).
PORDENTRODOTEMA
11
A variao total sobre uma reta de regresso a soma dos quadrados das diferenas entre o valor y e a mdia de y:

A variao explicada aquela que, como o nome diz, pode ser explicada pela relao de x e y, e a soma dos quadrados
das diferenas entre o valor previsto de y e a mdia de y: .
A variao no explicada sobre uma linha de regresso a soma dos quadrados das diferenas entre o valor y e o valor
previsto de y: .
Por fm, podemos afrmar que a variao total a soma da variao explicada com a variao no explicada.
Dadas as defnies das trs variaes, podemos calcular o coefciente de determinao r que a relao da variao
total e a variao explicada, ou seja: r = .
Mas o que signifca o coefciente de determinao? O r signifca a porcentagem com a qual a variao de y pode ser
explicada pela relao entre a varivel independente x e a varivel dependente y.
Por exemplo, dado que a correlao entre a varivel renda familiar e o gasto com alimentao seja de 0,90, qual ser o
coefciente de determinao?
Como foi dado que r = 0,90, ento r = (0,90) = 0,81.
Ou seja, por volta de 81% da variao no gasto com a alimentao pode ser explicada pela variao na renda familiar.
E 19% da variao (no explicada) devido ao acaso e a outras variveis.
Como observamos ao longo deste caderno, um valor pode ser estimado de um valor y, e essa estimativa possui um
determinado erro que pode ser calculado, o erro padro.
O erro padro da estimativa S
e
tem a seguinte frmula: , onde n o nmero de pares no conjunto de
dados.
Como podemos perceber atravs da frmula do S
e
, o erro padro da estimativa nada mais do que a raiz quadrada da
variao no explcita dividida por n-2. Ou seja, quanto menor for a variao entre o valor dado e o valor previsto, menor
ser o nosso erro padro da estimativa.
PORDENTRODOTEMA
12
Qualquer conjunto de duas variveis pode ter uma distribuio normal bivariada se, dado qualquer valor de x fxo, os
valores da varivel dependente y correspondentes forem normalmente distribudos. Visto que na regresso linear as
variveis x e y respeitam a defnio acima, podemos construir um intervalo, chamado de intervalo de previso, para o
valor real de y.
Para construir um intervalo de previso que possua uma estrutura semelhante ao intervalo de confana visto em outro
tema, utilizaremos uma distribuio t com n 2 graus de liberdade.
A margem de erro tem a seguinte frmula: E =
Onde o valor crtico (tabelado) e um valor especfco de x.
E o intervalo de preciso ser o seguinte: .
Utilizaremos agora o exemplo dado de regresso linear (renda familiar x porcentagem gasta com alimentao), usando
um intervalo de confana de 95%, para demonstrar como construir um intervalo de previso para y quando a renda for
de R$ 2.300.
Como n = 6, teremos 4 graus de liberdade e, com isso, o valor crtico tabelado t
c
ser de 2,776.
Visto que j possumos a equao da reta = 3,798x + 4,048 e que nesse exemplo x tem valor igual a 2,3; podemos
identifcar o valor de e o erro padro.
= (3,798)(2,3) + 4,048 = 12,783.
= (14 13,543) + (11 10,505) + (10 8,985) + (12 12,783) + (15 14,303) + (9 10,884) = 6,132
= 1,238
= (2,5 + 1,7 + 1,3 + 2,3 + 2,7 + 1,8)/6 = 2,05
= (6,25 + 2,89 + 1,69 + 5,29 + 7,29 + 3,24) = 26,65
E = = 2,776 . 1,238 . = 2,776 . 1,238 . 1,100 = 3,781
Portanto, o intervalo de previso ser 12,779 3,781 < y < 12,779 + 3,781. Portanto, 8,998 < y < 16,560.
PORDENTRODOTEMA
13
H 95% de confana que quando a renda familiar de R$ 2.300,00, a porcentagem do gasto com alimentao ser
entre 8,998% e 16,560%.
Regresso Mltipla
Na regresso linear, um modelo de estimativa utilizar uma varivel independente para poder estimar uma varivel
dependente. Mas difcilmente veremos casos reais em que h apenas uma varivel independente. Uma forma mais
coerente e com maior preciso seria utilizar mais de uma varivel independente para estimar uma varivel dependente.
A esse modelo chamamos de regresso mltipla.
A regresso mltipla tem a equao da seguinte forma,
= b + onde so as n variveis independentes, o coefciente de inclinao para cada x, b a
interseco e y a varivel dependente.
Com a equao da linha de regresso mltipla, podemos estimar alguns valores de y sobre uma amostra de dados.
Para estimar precisamos apenas substituir cada varivel independente x por um determinado valor. Vamos demonstrar
com o exemplo a seguir:
Dada a equao de regresso mltipla = 25,547 + , calcule visto que as variveis independentes
tm o valor de 4, 2 e 3 respectivamente.
= 25,547 + = 65,947.
PORDENTRODOTEMA
14
Regresso Linear no Excel
Tutorial passo a passo ensinando a fazer, no Microsoft Excel, um diagrama de disperso,
o clculo da equao da reta de regresso linear, alm de inserir a reta no prprio grfco de
disperso.
Disponvel em: <http://usuariosdoexcel.wordpress.com/2013/07/28/0192-regressao-linear-excel/>. Acesso em:
9 jul. 2014.
CorreIao no mercado nanceiro
Exemplo real sobre a aplicao do mtodo de correlao no mercado fnanceiro brasileiro.
Disponvel em: <http://hcinvestimentos.com/2009/10/09/correlacao-exemplos-praticos/>. Acesso em: 9 jul. 2014.
Aula correlao e regresso linear
Aula com vrios exemplos para complementar o estudo deste caderno.
Disponvel em: <http://www.youtube.com/watch?v=7gWN20iFUFw> . Acesso em: 9 jul. 2014.
Tempo: 37:23
Correlao e regresso linear na calculadora Cassio fx-82MS
Aula sobre como calcular a correlao e aspectos da regresso linear com a calculadora
Cassio fx-82MS.
Disponvel em: <https://www.youtube.com/watch?v=DGau_1at2Oc> . Acesso em: 9 jul. 2014.
Tempo: 06:15
ACOMPANHENAWEB
15
Instrues:
Agora, chegou a sua vez de exercitar seu aprendizado. A seguir, voc encontrar algumas questes de mltipla
escolha e dissertativas. Leia cuidadosamente os enunciados e atente-se para o que est sendo pedido.
AGORAASUAVEZ
Questo 1
O que o intervalo de confana?
Questo 2
Quais so as medidas de regresso que utilizam no seu clculo alguns dos trs tipos de variao (variao total, variao expli-
cada, variao no explicada)?
a) Coefciente de regresso e equao de uma reta de regresso.
b) Nvel de signifcncia e resduo.
c) Coefciente de determinao e intervalo de previso.
d) Coefciente de determinao e erro padro da estimativa.
Questo 3
Selecione a alternativa incorreta:
a) A variao total a soma da variao explicada com a variao no explicada.
b) O intervalo de previso usado para estimar um intervalo que contenha a varivel real y.
c) Resduo a diferena entre a mdia dos valores de y e os valores estimados de y.
d) A regresso pode ter apenas uma varivel independente ou mais do que uma varivel independente.
16
AGORAASUAVEZ
Questo 4
A equao da regresso para os dados sobre o contedo calrico de uma amostra de hambrgueres e o sdio contido (em
miligramas) de 2,318x + 63,824, onde x representa o contedo calrico. Calcule o valor esperado para o sdio contido quan-
do o contedo calrico do hambrguer de 135 calorias.
Questo 5
Um pesquisador decidiu estudar a relao entre a massa muscular e a idade da pessoa e obteve os dados a seguir. Calcule o
coefciente de correlao e o coefciente de determinao. nterprete o resultado.
Idade Massa muscular
X y
74,5 70
87 56
114 42
62 67
94 45
77 78
17
REFERNCIAS
CARVALHO, Henrique. Exemplos Prticos sobre a Correlao entre Ativos. Outubro de 2009. Disponvel em: <http://hcinvestimentos.
com/2009/10/09/correlacao-exemplos-praticos/>. Acesso em: 5 mar. 2014.
GRNGS, Jos Fernando. Correlao e Regresso linear. Junho de 2013. Disponvel em: <https://www.youtube.com/
watch?v=7gWN20iFUFw>. Acesso em: 5 mar. 2014.
KORZENOWSK, Andre. Correlao e Regresso linear na calculadora Casio fx-82MS. Dezembro de 2010. Disponvel em:
<https://www.youtube.com/watch?v=DGau_1at2Oc>. Acesso em: 3 mar. 2014.
LARSON, Ron; FARBER, Betsy. Estatstica Aplicada. 4 ed. So Paulo: Pearson Prentice Hall, 2010.
MORETTN, Luiz Gonzaga; BUSSAB, Wilton O. Estatstica Bsica. 5 ed. So Paulo: Saraiva, 2006.
SOLEDADE, Adilson. Regresso Linear utilizando o Excel. Julho de 2013. Disponvel em: <http://usuariosdoexcel.wordpress.
com/2013/07/28/0192-regressao-linear-excel>. Acesso em: 2 mar. 2014.
Voc aprendeu, neste caderno, o que correlao, como calcul-la e como visualiz-la no diagrama de disperso.
Voc conheceu o conceito de regresso linear, onde uma varivel dependente y pode ser inferida pela varivel independente
x. Tambm viu medidas usadas nos estudos de regresso e de correlao como o coefciente de determinao e o erro
padro da estimativa. Por fm, construmos um intervalo de previso e observamos que a varivel dependente pode ser
inferida por mais de uma varivel independente.
FINALIZANDO
18
GLOSSRIO
Correlao: Relao entre duas variveis quantitativas.
Coeciente de correIao: Indica a fora e a direo linear entre duas variveis aleatrias quantitativas.
Coeciente de determinao: Porcentagem que um modelo de regresso consegue explicar dos valores observados,
ou seja, quanto da varivel dependente explicado pela varivel independente.
Diagrama de disperso: Grfco que apresenta pontos no espao cartesiano X e Y que representam, ao mesmo tempo,
os valores de duas variveis quantitativas.
Erro padro da estimativa: Erro existente ao estimar um valor utilizando uma varivel independente x. Quanto mais
prxima a estimativa est do valor real y, menor o erro.
Intervalo de previso: Dado um nvel de confana, um intervalo de valores (amplitude) de previso que visa conter
o valor real de y.
Linha de regresso: Funo linear resultante dos dados coletados.
NveI de signicncia: a probabilidade de que uma hiptese nula seja verdadeira, porm no improvvel que essa
hiptese seja falsa.
Regresso linear: Mtodo para poder prever um valor condicional y dada uma varivel independente x.
Regresso mltipla: Mtodo para prever um valor condicional y dadas mais de uma varivel independente x.
Resduo: Diferena entre o valor real y e o valor estimado pela linha de regresso .
19
GABARITO
Questo 1
Resposta: ntervalo de confana um intervalo estimado com uma probabilidade varivel (margem de confana) que
contenha um parmetro estatstico, como por exemplo, a mdia de idade de homens que estudam em uma universidade
particular.
Questo 2
Resposta: Alternativa D.
As mdias que utilizam alguns dos trs tipos de varincia so o coefciente de determinao (usa a varincia total e a
varincia explicada) e o erro padro da estimativa (usa a varincia no explicada).
Questo 3
Resposta: Alternativa C.
Resduo a diferena entre o valor de y e o valor previsto de y pela linha de regresso linear.
Questo 4
Resposta: Como j foi fornecida a equao da regresso linear, basta substituir o valor de x,
= 2,318x + 63,824 = 2,318 (135) + 63,824 = 376,754
Ou seja, dado um hambrguer com o contedo calrico de 135 calorias, podemos inferir com a equao da regresso
linear que o sdio contido de 376,754 miligramas.
20
Questo 5
Resposta: Visto que temos 6 pares de dados, vamos realizar as somas:
= 508,5
= 358
= 29265
= 44724,25
= 22398
Com as somas calculadas, podemos aplicar a frmula do coefciente de correlao amostral e do coefciente de
determinao.
r = = - 0,827.
r = (-0,827) = 0,685
Concluindo, temos uma correlao, entre as duas variveis, negativa forte de -0,827 e um coefciente de determinao
de 0,685, o que quer dizer que em 68,5% das vezes a varivel dependente y explicada pela varivel independente x.