Sei sulla pagina 1di 6

Captulo 7 Regresso e Correlao 7.

1 - Introduo A regresso e a correlao so duas tcnicas estreitamente relacionadas que envolvem uma forma de estimao. A diferena entre essas tcnicas e o tipo de estimao discutido no captulo 6, que aquelas tcnicas anteriores foram utilizadas para estimar um nico parmetro populacional (no caso a mdia), enquanto que as tcnicas apresentadas neste captulo se referem estimao de uma relao que possa existir na populao. Mais especificamente, a anlise da correlao e regresso compreende a anlise de dados amostrais para saber se e como duas ou mais variveis esto relacionadas entre si numa populao. Nosso objetivo ser principalmente o estudo de situaes de duas variveis; a anlise de regresso tem como resultado uma equao matemtica que descreve este relacionamento. A equao pode ser usada para estimar, ou predizer, valores futuros de uma varivel quando se conhecem ou se supem conhecidos valores da outra varivel. A anlise de correlao til em trabalho exploratrio, quando um pesquisador ou analista procura determinar quais variveis so potencialmente importantes e o interesse est basicamente no grau ou fora do relacionamento. Em educao ou psicologia, freqentemente se d maior nfase ao grau ou fora do relacionamento. Em outras reas, como administrao, economia, cincias contbeis, focalizase mais a natureza do relacionamento (isto , a equao de predio), e a anlise de regresso o instrumento principal. Resumindo, a correlao mede a fora, ou grau, de relacionamento entre duas variveis; a regresso d uma equao que descreve o relacionamento em termos matemticos. Os dados para anlise de regresso e correlao provm de observaes de variveis emparelhadas. Para um problema de duas variveis, isto significa que cada observao origina dois valores, um para cada varivel. Por exemplo, um estudo que envolva caractersticas fsicas pode focalizar a idade e a altura de cada indivduo. As duas variveis de interesse idade e altura de cada pessoa so ento emparelhadas. Para um problema de trs variveis, cada observao origina trs valores. Por exemplo, alm da idade e altura de cada pessoa, podemos incluir tambm o peso na anlise. (Texto extrado de Stevenson, W.J. Estatstica Aplicada)

7.2 Regresso Linear Sempre que possvel, procuramos expressar, em termos de uma equao matemtica, as relaes entre grandezas conhecidas e grandezas que devem ser determinadas. Isso ocorre com freqncia nas cincias naturais, nos quais sabemos, por exemplo, que, a uma temperatura constante, a relao entre o volume V e a presso P de um gs dada pela frmula P=k / V (em que k uma constante). Quando utilizamos dados observados para chegarmos a uma expresso matemtica que descreva a relao entre duas variveis, estamos trabalhando com um processo de ajustamentos de curvas. A regresso linear estuda os casos em que a expresso matemtica que melhor representa a relao entre duas variveis se aproxima de uma reta. 7.3 Mtodo dos Mnimos Quadrados Uma vez que tenhamos decidido ajustar uma linha reta a um determinado conjunto de dados, encontramos o seguinte tipo de problema, a saber, determinar a equao da reta que, em certo sentido, constitua o melhor ajuste. Para resolver este problema, utilizaremos um exemplo.

Exemplo: Os dados amostrais mostrados na tabela 7.1 apresenta a relao entre o nmero de anos que os candidatos a certo emprego no exterior estudaram ingls no curso secundrio ou na faculdade, e as notas em um teste de proficincia naquela lngua.
Tabela 7.1 Relao entre a nota dos candidatos a um emprego no exterior e o nmero de anos que os mesmos estudaram ingls no ensino mdio e superior.

Nmero de anos (x) 3 4 4 2 5 3 4 5 3 2

Nota no teste (y) 57 78 72 58 89 63 73 84 75 48

Se os pontos correspondentes a esses dez pares de valores forem plotados em um grfico, obteremos o grfico da Figura 7.1. Embora os pontos no estejam todos sobre uma reta, o padro geral do relacionamento descrito satisfatoriamente pela linha reta. No existe desvio acentuado da linearidade no diagrama dos pontos, e isso nos permite concluir que uma linha reta uma descrio adequada da relao existente.
100
Notas no teste de proficincia

80 60 40 20 0 0 2 4 6 Nmero de anos

Figura 7.1 Dados sobre o nmero de anos de estudo de ingls e notas obtidas.

Agora o prximo passo encontrar a equao da reta que melhor descreve a relao entre as duas variveis. O procedimento mais utilizado o mtodo dos mnimos quadrados que exige que a reta de ajustamento dos dados seja tal que a soma dos quadrados das distncias verticais dos pontos reta seja mnima.

Equaes:

y = na

+ b( x)
2

(x y)= a ( x )+ b ( x )
em que: n = nmero de pares de dados amostrais; a e b = constantes que definiro a equao da reta (y = a + bx)

Na resoluo do exemplo anterior temos que construir a Tabela 7.2.


Tabela 7.2 Relao entre a nota dos candidatos a um emprego no exterior e o nmero de anos que os mesmo estudaram ingls no ensino mdio e superior.

Nmero de anos (x) 3 4 4 2 5 3 4 5 3 2 35

Nota no teste (y) 57 78 72 58 89 63 73 84 75 48 697

x2 9 16 16 4 25 9 16 25 9 4 133

xy 171 312 288 116 445 189 292 420 225 96 2554

Portanto, dos dados obtidos na Tabela 7.2 podemos fazer os clculos utilizando as equaes anteriores: x = 35 ; y = 697 ; x2 = 133 ; xy = 2554 e n = 10. Desta forma as equaes sero: 697 = 10a + 35b 2554 = 35a + 133b Resolvendo o sistema linear de duas equaes e duas variveis, encontraremos os valores de a e b. a = 31,55 e b = 10,90

Portanto a equao da reta que melhor representa a relao entre as duas variveis estudadas ser: y = 31,55 + 10,90x Exerccios: 7.1) A matria-prima usada na fabricao de uma fibra sinttica armazenada em um local onde no h controle de umidade. Durante 12 dias, mediu-se a umidade relativa no local de armazenamento e o contedo de umidade (ambos em porcentagem) de uma amostra da matriaprima, obtendo-se os seguintes resultados. Umidade 49 56 41 45 37 32 63 47 44 51 36 43 Contedo de umidade 15 17 14 16 13 11 18 15 13 18 12 16

Resposta: y = 4,315 + 0,232x

7.2) Os dados a seguir mostram as despesas com propaganda (expressas em porcentagem das despesas totais) e o lucro lquido (expresso em porcentagem do total de vendas) em uma amostra de seis drogarias: Despesas com propaganda 1,5 1,0 2,8 0,4 1,3 2,0 Lucro Operacional lquido 3,6 2,8 5,4 1,9 2,9 4,3

Encontre a reta de regresso que melhor se ajusta utilizando o mtodo dos mnimos quadrados. Resposta: y = 1,259 + 1,483x 7.3) Uma pesquisa de mercado indica que, se um novo brinquedo for vendido a R$8,75 por unidade, dar um lucro de R$80.000,00; se for vendido a R$11,60 por unidade, o lucro ser de R$44.400,00, e se for vendido a R$14,00, o lucro ser de R$32.000,00. Constatando um padro aproximadamente linear, o fabricante do brinquedo quer saber: a) A reta que melhor se ajusta relao; Resposta: y = 158.005,43 - 9.246,47x b) Qual ser o lucro estimado se o brinquedo for vendido a R$5,50; Resposta: $107.149,85 c) Qual o preo a partir do qual o lucro estimado ser zero. Resposta: $17,088

7.4) Para cada conjunto de dados faa o grfico e, se uma reta parecer apropriada, determine os coeficientes a e b com base nos dados abaixo. a) Tamanho do pedido Custo total ($) b) x y 301 325 27 30 30 3000 405 31 25 4500 480 33 45 50 27 68 2300 835 37 75 2500 610 32 65 60 55 35

2000 1800 4000 660 35 700 34 785 37

2100 1950 1900 2600 825 40 550 31 570 29 250 25

Resposta: y = 4340,626 - 35,695x

Resposta: y = 21,592 + 0,019x

7.5) Uma companhia com 15 lojas compilou dados sobre a rea de venda versus lucro mensal. Faa o grfico e, se uma relao linear parecer justificada determine a equao de regresso. Armazm Lucro mensal (em $1000) rea (em m2) A 50 55 B 120 185 C 125 167 D 100 104 E 80 86 F 175 239 G 115 131 H 145 199 I 135 185 J 80 82 K 85 86 L 110 167 M 205 275 N 100 122 O 65 77
Resposta: y = 23,905 + 0616x

7.4 Correlao Linear Uma correlao uma relao entre duas variveis. Os dados podem ser representados por pares ordenados (x,y) em que x a varivel independente ou varivel exploratria e y a varivel dependente ou resposta. Por exemplo, suponha que um inspetor de segurana queira determinar se existe relao entre o nmero de horas de treinamento de um funcionrio e o nmero de acidentes envolvendo esse empregado. Ou ento suponha que um psiclogo queira saber se existe relao entre o nmero de horas de sono e o tempo de reao de uma pessoa. Como possvel ajuda-los a determinar se existe alguma relao?

Tipos de Correlao:
y y

x Correlao Linear Positiva

x Correlao Linear Negativa

x Correlao No Linear

x No h Correlao

Coeficiente de Correlao

O coeficiente de correlao uma medida do grau e da direo de uma relao linear entre duas variveis. O smbolo r representa o coeficiente de correlao amostral. A frmula para r :

r=

n x2 ( x)
2

nxy -

( x ) ( y ) ny ( y)
2

em que n o nmero de pares de dados. O intervalo de variao do coeficiente de correlao vai de 1 a 1. Se x e y tiverem forte correlao linear positiva, r estar prximo de 1. Se x e y tiverem forte correlao linear negativa, r estar prximo de 1. Se no existir correlao linear ou ainda se a correlao linear for fraca, r

estar prximo de zero. Exemplo: Calcule o coeficiente de correlao para os gastos com propaganda e as vendas da companhia relacionados na tabela abaixo. Gasto com Propaganda (em milhares de reais) 2,4 1,6 2,0 2,6 1,4 1,6 2,0 2,2 x = 15,8 Vendas da Companhia (em milhares de reais) 225 184 220 240 180 184 186 215 y = 1634 x2 5,76 2,56 4 6,76 1,96 2,56 4 4,84 x2 = 32,44 y2 50625 33856 48400 57600 32400 33856 34596 46225 y2=33755 8

xy 540 294,4 440 624 252 294,4 372 473 xy = 3289,8

Usando os dados da tabela e n = 8, pode-se calcular o coeficiente de correlao:

r=

n x2 ( x)
2

nxy -

( x ) ( y ) ny ( y)
2

r=

8 (32,44 ) 15,8 2 8 (337558) 1634 2

8 (3289,8) ( 15,8) ( 1634 )

r 0,913
Uma vez que r est prximo de 1, h uma forte correlao linear positiva. medida que aumenta a quantia gasta em propaganda, crescem tambm as vendas da companhia.

7.6) Calcule o coeficiente de correlao para a renda familiar e o percentual de donativos relacionados na tabela abaixo: Renda Familiar (em milhares de reais) x 4,2 4,8 5,0 5,9 6,5 7,2
Resposta: r = - 0,916

Percentual de Donativos - y 9 10 8 5 6 3

Potrebbero piacerti anche