Sei sulla pagina 1di 48

REGRESSO E CORRELAO

CORRELAO Definio: uma ferramenta estatstica que permite determinar qualitativamente e quantitativamente o grau de relacionamento entre duas ou mais variveis. Se o estudo envolver apenas duas variveis a correlao ser denominada simples. Se a correlao indicar uma relao do 1grau (reta) a correlao denominada linear

Exemplos de estudos de correlao: A nota obtida em uma prova de contabilidade e o nmero de horas de estudo; O volume de vendas do produto de uma empresa em relao ao investimento em propaganda deste produto;

ndice da bolsa de valores em relao a variao do dlar


Lucros operacionais lquidos ao longo de um perodo de tempo.

DIAGRAMA DE DISPERSO: Grfico resultante do lanamento, no plano cartesiano, dos valores de duas variveis. Permite determinar qualitativamente se duas variveis tem relao linear.

Exemplo: Faz se um estudo para analisar se h relao entre a quantidade de horas de estudo para uma determinada disciplina e a nota de avaliao daquela disciplina

Diagrama de Disperso Exemplo 1: Horas de Estudo x Nota

Estudante

Horas de estudos (X)

20

16

34

23

27

32

18

25

22

Nota (Y)

64

61

92

70

84

88

68

77

75

Variveis com relao aproximadamente linear

90

Grau no Exame (Y)

80

70

60 15 25 35

Horas de Estudo (X)

Exemplo 2 Lucro X Quantidade de Empregados

Lucro (1000 R$) 25 24 31 45 39 49

Quantidade Empregados 15 12 11 15 30 25

Variveis com relao pouco linear


35 30

Qte Empregados

25 20 15 10 5 0 0 10 20 30 Lucros 40 50 60

Coeficiente de Correlao de Pearson (r)

A correlao linear pode ser quantificada pelo coeficiente de correlao de Pearson (r) que apresenta valores variando entre: -1,00 e +1,00.

O sinal de r indica apenas se as variveis so diretamente proporcionais (+) ou inversamente proporcionais (-)
Quanto mais prximo de -1,00 ou +1,00 for o valor de r maior ser a intensidade de relao entre as variveis analisadas. Quanto mais prximo de 0 menor ser essa intensidade.

Coeficiente de Correlao de Pearson (r) Duas hipteses devem ser consideradas:

Tanto x como y so variveis aleatrias contnuas, ou seja, devem variar livremente.

A distribuio de freqncia conjunta (a distribuio dos pares x e y) normal. o que se chama de distribuio normal bi variada.

Caractersticas de r

r = + 1,00

r prximo de + 1,00

correlao perfeita

r prximo de - 1,00

r = - 1,00

correlao perfeita

Um relacionamento prximo a zero indica no h proporcionalidade entre as variveis.

r 0,00 - ausncia
de correlao

Clculo de r

n. x 2 ( x) 2 . n. y 2 ( y ) 2

n. xy x. y

Classificao da Correlao Linear

Exemplo 1: O custo mensal e a quantidades de empregados de cinco empresas do mesmo ramo so apresentados a seguir. Para estes dados determine o coeficiente de correlao, sua classificao e o tipo de proporcionalidade envolvido

x Custo (1000 R$)


38 40 47 52

y Empregados
15 17 20 22

56

25

Exemplo1 : Tabela completa com dados para o clculo de r

x Custo (1000 R$) 38 40 47 52 56 233

y Empregados 15 17 20 22 25 99

x.y

x2

y2

570 680 940 1144 1400 4734

1444 1600 2209 2704 3136 11093

225 289 400 484 625 2023

5.(4734) 233.(99) 5.(11093) (233) 2 5.(2023) (99) 2

603 603 r 0,99 1176. 314 607,67

Correlao linear forte positiva Variveis diretamente proporcionais

Exemplo 2. A

tabela a seguir apresenta a quantidade de peas rejeitadas em funo da experincia do empregado. Determine e classifique o coeficiente de correlao
Trabalhador Semanas de

experincia

Quantidade de rejeitados

Trabalhador

Semanas de experincia

Quantidade de rejeitados

1 2 3 4 5 6 7 8

7 9 6 14 8 12 10 4

26 20 28 16 23 18 24 26

9 10 11 12
64 144

2 11 1 8
529 324

38 22 32 25
184 216

100 16 4

576 676 1444

240 104 7

Exemplo 3: Para determinado ramo do comrcio pretende se verificar a relao entre o lucro lquido mensal e a quantidade de empregados. Toma se uma amostra de nove empresas conforme dados a seguir. Pede se: a) O traado do diagrama de disperso. b) Valor e classificao do coeficiente de correlao
L.L (1000 US$) Empregados

400 440 500 550 600 700 700 750 850

35 31 50 40 64 70 35 60 62

COVARINCIA uma medida de correlao similar ao coeficiente de correlao, sendo que analisa o afastamento conjunto dos valores individuais de duas variveis em relao s suas respectivas mdias. Seu valor no limitado a um intervalo, entretanto o sinal da medida tambm indica se as variveis so diretamente proporcionais (+) ou inversamente proporcionais (-). Sua unidade de medida o produto das unidades das variveis em estudo. Essa medida determina a mdia entre os produtos dos desvios de cada valor da varivel em relao a respectiva mdia. Na prtica menos utilizada que o coeficiente de variao

Frmula para Covarincia

( x xi ).( y yi ) Cov n

Exemplos: 1) Determine a covarincia para os dados abaixo que envolvem as nicas cinco empresas de confeco de um pequeno municpio:

x Custo (1000 R$)


38 40 47 52

y Empregados
15 17 20 22

56

25

x Custo (1000 R$)

y Empregados

x xi

y - yi (x xi). (y yi)

38 40 47 52 56

15 17 20 22 25

8,6 6,6 - 0,4 - 5,4 - 9,4 -

4,8 2,8 - 0,20 - 2,20 - 5,2 -

41,28 18,48 0,08 11,88 48,88 120,60

x 46, 6

y 19,8

Cov = 120,60/5 = 24,12 (R$.empregados)

2) A tabela a seguir apresenta o IBOVESPA e o aumento na cotao do dlar durante 6 dias. Faa a determinao da correlao com base na covarincia. IBOVESPA (%) 1,5 1,3 0,8 -0,7 -0,2 -2,0 Aumento na cotao US$ (%) -0,8 - 0,6 -0,1 0,8 0,5 1,5

3) Pretende se estudar a relao entre as vendas de lojas de departamentos com as respectivas quantidades de clientes. Para tanto seleciona se 7 dessas lojas cujos dados so apresentados a seguir. Determine : a) coeficiente de correlao b) covarincia Clientes (em centenas) Vendas (em U$ 10.000)

9,07
9,26 5,06 7,41

11,20
11,05 6,84 9,21

7,89
8,89 8,74

9,42
10,08 9,45

Relao entre r e covarincia


H uma relao matemtica entre o coeficiente de correlao r e a covarincia, conforme segue

Cov r x . y

4) Com base nos dados do exemplo 3, comprove que h uma relao direta entre Cov e r conforme segue:

Cov r x . y

5) Para os dados abaixo determine: Diagrama de disperso, coeficiente de correlao e covarincia Salrio (Quantidade de SM) 1,5 2,5 4,0 6,0 10,5 Despesa mensal alimentao R$(1000) 0,30 0,30 0,35 0,35 0,60

14,0
16,0 20,5 25,0 30

1,00
0,90 1,50 1,40 1,30

REGRESSO

REGRESSO LINEAR SIMPLES

Estabelece uma equao matemtica linear que descreve a relao entre duas variveis ou seja, de que maneira uma varivel depende de outra.
O mtodo usado para estabelecer essa equao o Mtodo dos Mnimos Quadrados, cujas caractersticas so: 1. A soma dos desvios verticais entre o valor estimado pela equao y e o valor real observado yi, para os diversos valores de xi zero.

2. O somatrio dos desvios ao quadrado deve ser mnimo


2 ( yi y )

bx ya

Com base nessas caractersticas pode - se definir o modelo de regresso


y = a + bx + , onde b o coeficiente angular da reta e a seu intercepto no eixo das ordenadas com base em dados amostrais e o erro que mede a diferena entre o valor y real e o estimado . Como iremos tomar valores amostrais a equao da reta de regresso ser:

bx ya

Os parmetros a e b podem ser determinados por:

n. ( x. y ) x. y n. x 2 ( x) 2

y b. x a n
Obs. Para verificao da eficincia do modelo de regresso devem ser verificadas caractersticas dos resduos, que so a diferena entre o valor real e o estimado pelo modelo

No estudo de regresso importante definir se qual a varivel independente (x) e qual a dependente (y)

A varivel independente aquela cujo valor est pr -determinado e usualmente no depende do analista. A varivel dependente depende das condies do experimento e /ou do contexto do estudo, sendo normalmente a varivel cujo valor se que determinar

Exerccio 1 Determine a equao de regresso linear do exerccio sobre custo e quantidade de empregados e estime o custo quando houver 21 empregados .

Custo (1000 R$) 38 40 47 52 56

Empregados 15 17 20 22 25

xy =4734 x = 99 y = 233 x2 = 2023

b = 5.(4734) (99).233 5.(2023) (99)2 a = 233 1,92(99) 5

= 1,92 = 8,58

= 8,58 + 1,92 x

(21) = 8,58 + 1,92 (21) = 48,90 (milhares de R$) y

Exerccio 2 . Para a comparao abaixo entre taxas de analfabetismo e crescimento populacional, determine, considerando o analfabetismo mais dependente: a) covarincia b) coeficiente de correlao c) a taxa de analfabetismo para uma taxa de crescimento pop. de 2,0 %

Taxa de analfabetismo (%) 15 10

Taxa de crescimento populacional (%) 1,5 1,7

25
30 32 16 15 6,5 5,0 20

3,2
2,8 2,6 1,7 1,9 1,1 1,0 1,2

Exemplo 3 : A experincia de um trabalhador (semanas) e a quantidade de peas que ele produz com defeito apresentam forte correlao. Determine a equao de regresso linear para essas variveis e estime a quantidade de peas defeituosas para um trabalhador com experincia de 5 semanas. Interprete os parmetros da equao de regresso

Experincia

Peas defeituosas

Experincia

Peas defeituosas

7 9 6 14 8 12

26 20 28 16 23 18

2 11 1 8
529

38 22 32 25
184

324

216

10
4

24
26

576

240

676

104

4) Considerando que as variveis apresentadas a seguir tem forte correlao, Pede -se: o preo estimado do produto para um peso de 1800 g e a interpretao dos parmetros a e b.
Preo (R$) 25,00 30,00 45,00 60,00 75,00 110,00 130,00 145,00 Peso do produto (g) 150 200 500 800 1000 1200 1500 2000

5) Os dados a seguir representam o valor de venda de veculos em funo de sua quilometragem. Determine: a) O coeficiente de correlao linear e sua classificao b) A equao de regresso linear c) O preo estimado para um veculo com 38.000 km. d) Interprete o termo constante da equao de regresso

Km (1000)

40

30

30

25

50

60

65

10

15

20

55

40

35

30

Preo (100 US$)

100

150

120

180

80

100

50

300

250

200

80

150

200

200

COEFICIENTE DE DETERMINAO

r2

um determinador da eficincia da equao de regresso quando comparada com a simples estimativa da varivel com base em sua mdia.

Indica o quanto (em proporo) as variaes de uma varivel (y) podem ser explicados por outra varivel (x) . Sreg Pode ser obtido pela relao: r2

Sreg Sres

Variao explicada (Sreg): a variao que ocorre entre os valores estimados de y e seu valor mdio y.

y )2 Sreg ( y

Variao no explicada (Sres): a variao que no pode ser explicada pela equao da reta, isto a variao que ocorre entre os valores estimados e os reais y.

y)2 Sres ( y

Determine para as variveis apresentadas a seguir o coeficiente de determinao e sua interpretao


Custo (1000 R$) 38 40 47 52 56 Empregados 15 17 20 22 25

8,576 + 1,920x (equao de regresso)

Custo (1000 R$)

Empregados y
(y y)2
85,01 28,94 0,144 17,81 99,60 231,50

(y y)2
0,38 1,49 0,0004 1,39

38
40 47 52 56

15
17 20 22 25

37,38 41,22 46,98 50,82

56,58

0,34
3,60

r2 = 231,50/(231,50 +3,60) = 0,9850. Portanto 98,5% das variaes com o custo so explicadas pela quantidade de empregados

Exerccio: Sabe se que 7 empresas investiram em programas de qualidade e posteriormente avaliaram o ndice de defeitos na linha de produo, conforme dados da tabela a seguir, para os quais pede se: a) O coeficiente de correlao linear e sua classificao b) A equao de regresso linear c) O ndice de defeitos para uma empresa que investir R$ 37.000 d) Interprete o parmetro a (constante)da equao da reta e) coeficiente de determinao e sua interpretao

ndice de defeitos (%) 7,5 6,0 4,0

Investimento Qualidade (1000 R$) 25 30 35

3,9
3,7 3,7 2,0

36
38 40 42

Erro Padro da Estimativa (Se)

Definio: uma medida que determina o grau de disperso dos valores de Y ao redor da reta de regresso. similar ao desvio padro .
Se =
2 ( y y )

(n 2)

Exerccio: Determine o erro padro da estimativa para os dados dos exerccios indicados e comente a diferena nos resultados

1) ndice de defeitos x Investimento em Qualidade

(y y)2 = 0,9758 e n = 7
Se = 0,9758/(7-2) = 0,443

2) Custo x Quantidade de empregados

(y y)2 = 3,60 e n = 5
Se = 3,60/(5-2) = 1,10

Assim pode se afirmar que os valores reais y apresentam menor disperso em relao equao da reta no exerccio 1 em comparao com o exerccio 2, pois seu erro padro menor.

Os dados a seguir apresentam os valores salariais de 6 empregados e seu tempo de experincia na empresa. Para esses dados determine: a) O coeficiente de correlao e sua interpretao b) A covarincia c) O salrio estimado para um empregado com 7 anos de experincia d) Interprete o termo a e b da equao da reta e) Determine e interprete o coeficiente de determinao f) Determine o erro padro da estimativa

Salrio (mil R$)


2,6 3,6 5,2 5,2

Experincia (anos)
1 3 4 5

8,5
9,0

8
10