Sei sulla pagina 1di 20
AULA 8 Covariância e Correlação / Análise de Regressão COVARIÂNCIA E CORRELAÇÃO 1. INTRODUÇÃO N
AULA 8 Covariância e Correlação / Análise de Regressão COVARIÂNCIA E CORRELAÇÃO 1. INTRODUÇÃO N

AULA 8

Covariância e Correlação / Análise de Regressão

COVARIÂNCIA E CORRELAÇÃO

1. INTRODUÇÃO

N a fundamentação da Estatística, a preocupação era descrever a distribuição de valores de uma única variável. Com esse objetivo, aprendeu-se a calcular as medidas de tendência central e de variabilidade ou dispersão.

Quando, porém, considera-se a observação de duas ou mais variáveis, surge um novo problema: as relações que podem existir entre as variáveis. Nesse caso, as medidas estudadas até agora não são eficientes.

Assim, quando se considera a relação entre variáveis, tais como:

» peso e altura de um grupo de pessoas;

» tabagismo e incidência do câncer;

» vocabulário e compreensão da leitura;

» propaganda e volume de vendas.

ESTATÍSTICA APLICADA

Procura-se verificar se existe alguma relação entre as variáveis de cada um dos pares e qual o grau dessa relação. Para isso, é necessário o conhecimento de novas medidas.

2. COVARIÂNCIA

2.1 População Infinita

definida como o estudo do inter-relacionamento entre variáveis, podendo ser aplicada para a população ou para uma amostra.

Covariância da população:

É

ou para uma amostra. Covariância da população: É Covariância da amostra: A covariância depende da grandeza

Covariância da amostra:

Covariância da população: É Covariância da amostra: A covariância depende da grandeza das variáveis

A covariância depende da grandeza das variáveis analisadas. Da forma com que é definida pelas equações acima, seu resultado dificulta a interpretação. O comportamento conjunto de duas variáveis pode ser observado através de um gráfico, denominado diagrama de dispersão.

Se, quando uma das variáveis cresce a outra, em média, também cresce, pode-se dizer que entre as duas variáveis existe covariância positiva:

que entre as duas variáveis existe covariância positiva: Se, quando uma das variáveis cresce a outra,

Se, quando uma das variáveis cresce a outra, em média, decresce, pode-se dizer que entre as duas variáveis existe covariância negativa:

138
138

AULA 8 - COVARIÂNCIA E CORRELAÇÃO / ANÁLISE DE REGRESSÃO

Exemplo 1

E CORRELAÇÃO / ANÁLISE DE REGRESSÃO Exemplo 1 O gerente de uma loja de departamentos está

O gerente de uma loja de departamentos está interessado em investigar a relação entre o número de

comerciais sobre informática apresentados em televisão no final de semana e as vendas de computadores

na sua loja durante as semanas seguintes. Para realizar tal investigação, foi observada uma amostra com vendas expressas em centenas de reais, conforme a tabela. Determine a covariância da amostra e interprete os resultados.

A covariância pode ser calculada com o auxílio da tabela:

A covariância pode ser calculada com o auxílio da tabela: Como a covariância resultou em um

Como a covariância resultou em um número positivo, trata-se de uma associação linear positiva, isto é, quando X aumenta, Y também aumenta.

Exemplo 2

Um investidor da Bolsa de Valores levantou os seguintes retornos mensais de duas ações diferentes durante um semestre, conforme mostrado na tabela (dados fictícios):

139
139

ESTATÍSTICA APLICADA

Calculando-se a média, a variância e o desvio-padrão de cada uma das ações no período, obtém-se a tabela:

de cada uma das ações no período, obtém-se a tabela: Considere, agora, que este investidor tenha

Considere, agora, que este investidor tenha optado por construir uma carteira de investimentos em que, a cada início de mês, a carteira fosse rebalanceada para conter exatamente metade de seus recursos em cada ação. A renda mensal dessa carteira seria, como demonstrada no quadro abaixo, a média das rendas mensais das duas ações:

quadro abaixo, a média das rendas mensais das duas ações: Pode-se calcular agora a média, o

Pode-se calcular agora a média, o desvio-padrão e a variância dos retornos mensais da carteira:

e a variância dos retornos mensais da carteira: Note que a média dos retornos da carteira

Note que a média dos retornos da carteira é igual à média dos retornos das duas ações, mas o desvio- padrão e a variância dos retornos da carteira são menores do que o de ambas as ações. Se o desvio- padrão for tomado como uma medida de risco do investimento, podemos afirmar que a carteira é um investimento melhor que qualquer uma das duas ações, pois apresenta o mesmo retorno e expõe o investidor a um menor risco.

Isso acontece porque a covariância entre os retornos das duas ações causa o que, em finanças, se conhece como o “efeito da diversificação”. Para demonstrar esse efeito, deve-se considerar o conjunto de informações como uma população e calcular a covariância entre os retornos das duas ações:

140
140

AULA 8 - COVARIÂNCIA E CORRELAÇÃO / ANÁLISE DE REGRESSÃO

O fato de a covariância ser negativa sugere que quando uma ação tem rentabilidade positiva a outra tende

a ter rentabilidade negativa. Com isso o resultado da carteira sofre influência de duas forças contrárias tornando-se menos volátil e, portanto, com um menor desvio-padrão, conforme mostrado anteriormente.

Exemplo adaptado das notas de aula do curso de Estatística

PEDP- 4ª série, ministrado pela Profa. Rosane Rivera Torres, na FECAP

3. CORRELAÇÃO

Sendo a relação entre duas variáveis de natureza quantitativa, a correlação é utilizada para medir esta relação. Uma vez caracterizada a relação, procuramos descrevê-la através de uma função matemática. A regressão, como será visto na próxima aula, é o instrumento adequado para a determinação dos parâmetros dessa função.

Assim, como já visto para a covariância, esse comportamento conjunto de duas variáveis pode ser observado através do diagrama de dispersão.

Quando uma das variáveis cresce e a outra, em média, também cresce, existe entre elas uma correlação positiva. Por outro lado, se quando uma das variáveis cresce a outra, em média, decresce, entre as duas variáveis existe correlação negativa.

A correlação entre duas variáveis pode ser perfeita, sendo perfeita positiva quando acréscimos constantes em uma das variáveis determinam acréscimos constantes na outra variável, ou perfeita negativa quando acréscimos constantes em uma das varáveis determinam decréscimos constantes na outra variável.

Conforme a distribuição dos valores das variáveis no diagrama de dispersão, pode-se ter uma correlação linear ou não linear. Se os pontos do diagrama de dispersão apresentam-se dispersos, não oferecendo uma imagem definida, concluí-se que não há correlação alguma entre as variáveis em estudo.

141
141

ESTATÍSTICA APLICADA

3.1 Coeficiente de correlação linear

O instrumento empregado para medir a correlação linear é o coeficiente de correlação. Tal coeficiente

indica o grau de intensidade da correlação entre duas variáveis e, também o sentido dessa correlação (se positivo ou negativo).

O coeficiente de CORRELAÇÃO é indicada por “ρ” ou “r“ e pode ser calculado através das fórmulas:

Coeficiente de correlação para dados populacionais:

Coeficiente de correlação para dados populacionais: Coeficiente de correlação para dados amostrais: Esse

Coeficiente de correlação para dados amostrais:

Coeficiente de correlação para dados amostrais: Esse coeficiente varia entre (-1 e +1). Se a correlação

Esse coeficiente varia entre (-1 e +1). Se a correlação for negativa, o sinal do coeficiente é negativo; se a correlação for positiva, o sinal do coeficiente será positivo.

Pode-se analisar qualitativamente a correlação em função dos valores de r, como mostrado na escala abaixo. Esta classificação é subjetiva, e visa apenas dar uma ideia do grau da correlação.

e visa apenas dar uma ideia do grau da correlação. 3.2 Fórmula Alternativa do coeficiente de

3.2 Fórmula Alternativa do coeficiente de correlação “r”

Além das fórmulas citadas acima, para o cálculo do coeficiente de correlação, utilizando o desvio-padrão

e a covariância, pode-se utilizar a fórmula alternativa denominada de

Coeficiente de correlação de Pearson.

denominada de Coeficiente de correlação de Pearson. Nessa equação, “n” é o número de observações. Como

Nessa equação, “n” é o número de observações.

Como será visto mais adiante nos exemplos, para facilitar a aplicação da fórmula de Pearson, recomenda- se inicialmente construir uma tabela para a somatória: das variáveis (X e Y), de seu produto (XY) e de seus quadrados (X2 e Y2).

142
142

AULA 8 - COVARIÂNCIA E CORRELAÇÃO / ANÁLISE DE REGRESSÃO

Exemplo de Aplicação 1

Voltando ao exemplo anterior, do gerente de uma loja de departamentos que está interessado em investigar a relação entre o número de comerciais sobre informática apresentados na televisão no fim de semana e as vendas de computadores na sua loja durante as semanas seguintes, (onde x = número de comerciais e y = volume de vendas):

(onde x = número de comerciais e y = volume de vendas): Pela fórmula alternativa de

Pela fórmula alternativa de Pearson, com n = 10

de vendas): Pela fórmula alternativa de Pearson, com n = 10 É claro que o valor

É claro que o valor do coeficiente de correlação r deve ser o mesmo, independentemente do método escolhido para seu cálculo.

143
143

ESTATÍSTICA APLICADA

ESTATÍSTICA APLICADA Cuidado com a interpretação! Se duas variáveis têm correlação positiva, isto significa apenas

Cuidado com a interpretação!

Se duas variáveis têm correlação positiva, isto significa apenas que as variáveis crescem no mesmo sentido. No entanto, isto não implica ideia de que o crescimento de uma das variáveis determina o cresci- mento da outra. Atente para a correlação entre venda mensal de sorvetes e o número de internações hospitalares por desidratação, demonstrada no diagra- ma de dispersão que se segue, com dados hipotéticos. A figura mostra uma correlação positiva entre o número de sorvetes vendidos e o número de internações por desidratação. Isso não nos permite concluir que o consumo de sorvete cause desidratação. Neste exemplo, o fato é conhecido: um aumento da temperatura deter- mina tanto um aumento no consumo de sorvete como maior incidência de casos de desidratação, e só isso! Nada mais se pode concluir!

de desidratação, e só isso! Nada mais se pode concluir! Exemplo de Aplicação 2 São apresentados
de desidratação, e só isso! Nada mais se pode concluir! Exemplo de Aplicação 2 São apresentados

Exemplo de Aplicação 2

São apresentados na tabela os tempos (em minutos) que dez mecânicos levaram para montar uma máquina de manhã (x) e de tarde (y). Calcule a covariância e o coeficiente de correlação e interprete o resultado.

144
144

AULA 8 - COVARIÂNCIA E CORRELAÇÃO / ANÁLISE DE REGRESSÃO

Solução:

A melhor maneira de se calcular a covariância e o coeficiente de correlação é através de uma tabela, o que facilita os cálculos.

Conforme calculado na tabela, a correlação (-0,06) e covariância (-0,20) são negativas, o que significa que quando uma das variáveis cresce a outra, em média, decresce.

uma das variáveis cresce a outra, em média, decresce. No caso, a correlação, apesar de negativa,

No caso, a correlação, apesar de negativa, mostrou-se extremamente fraca (r = -0,06). Esse fato pode ser observado no diagrama de dispersão. Quase que não há relação entre as variáveis x e y, traduzindo-se num aglomerado de pontos.

145
145

ESTATÍSTICA APLICADA

ANÁLISE DE REGRESSÃO

1. INTRODUÇÃO

S empre que se deseja estudar o comportamento de determinada variável em função de outra, faz-se

uma análise de regressão (será estudada aqui somente a regressão linear simples). Segundo Rego (2008), pode-se dizer que a análise de regressão tem por objetivo descrever, através de um modelo matemático,

a relação entre duas variáveis, partindo de n observações da mesma.

Geralmente a variável sobre a qual se deseja fazer uma estimativa recebe o nome de variável dependente, sendo que a outra variável será a independente. Desse modo, supondo X a variável independente e Y a variável dependente, procura-se determinar o ajustamento de uma reta à relação entre essas variáveis.

2. REGRESSÃO LINEAR (AJUSTAMENTO DE RETAS)

Este método consiste em determinar a função Y = a + b.X, sendo, como já determinado anteriormente, Y a variável dependente e X a variável independente. Essa função nada mais é do que a equação de uma reta, em que “b” é seu coeficiente angular (também conhecido como inclinação da reta) e “a” seu coeficiente linear (distância a partir da origem, em que a reta cruza com o eixo y).

Exemplo: A equação Y = 2 + 3X possui a seguinte representação gráfica:

A equação Y = 2 + 3X possui a seguinte representação gráfica:

Y = 2 + 3X possui a seguinte representação gráfica: 2.1 Método dos mínimos quadrados A

2.1 Método dos mínimos quadrados

A partir de uma tabela de correlação entre duas variáveis, pode-se ajustar uma reta do tipo Y = a + b.X,

utilizando o método dos mínimos quadrados, em que os valores de a e b são calculados do seguinte modo:

146
146

AULA 8 - COVARIÂNCIA E CORRELAÇÃO / ANÁLISE DE REGRESSÃO

» n é o número de observações.

» a média dos valores de x:

» a média dos valores de y:

a média dos valores de x: » a média dos valores de y: Como se utiliza

Como se utiliza uma amostra para obter os valores dos parâmetros, o resultado é uma estimativa da verdadeira equação de regressão. Sendo assim, é correto escrever para a equação da reta:

Sendo assim, é correto escrever para a equação da reta: Exemplo de Aplicação Um produto industrial

Exemplo de Aplicação

Um produto industrial apresentou as vendas dos últimos seis meses conforme a tabela abaixo. Pode-se ajustar uma reta e calcular sua equação e determinar a previsão para os meses de julho, agosto e setembro.

a previsão para os meses de julho, agosto e setembro. Para se realizar a previsão, consideremos

Para se realizar a previsão, consideremos a variável X correspondente aos meses como variável independente e a variável Y correspondente ao consumo real do produto em estudo como variável dependente (o consumo depende dos meses).

A variável independente X (meses) será representada pelos números 1, 2, 3 etc. Deve-se construir uma tabela para facilitar os cálculos e aplicar as fórmulas de regressão linear.

147
147

ESTATÍSTICA APLICADA

ESTATÍSTICA APLICADA Portanto, a equação da reta será: Para ilustrar este estudo, pode-se ainda calcular o

Portanto, a equação da reta será:

ESTATÍSTICA APLICADA Portanto, a equação da reta será: Para ilustrar este estudo, pode-se ainda calcular o

Para ilustrar este estudo, pode-se ainda calcular o coeficiente de correlação (visto na aula anterior). Aplicando-se a fórmula, obtém-se r = 0,998. Pelo valor de r, pode-se considerar que existe uma correlação positiva muito forte entre X e Y e que a equação anterior representa uma reta que se ajusta bem aos pontos da distribuição. Isto pode ser verificado pelo diagrama de dispersão sobreposto à reta de regressão:

diagrama de dispersão sobreposto à reta de regressão: Note que os pontos relativos aos meses de

Note que os pontos relativos aos meses de julho, agosto e setembro pertencem à reta de regressão, por se tratarem das previsões futuras, calculadas com a própria equação desta reta. Para os demais meses, a reta de regressão ajusta os pontos existentes. Como pode se perceber, o r é próximo de 1 porque os pontos geram uma correlação quase perfeita.

148
148

AULA 8 - COVARIÂNCIA E CORRELAÇÃO / ANÁLISE DE REGRESSÃO

2.2 Regressão para séries cronológicas ou temporais

Para séries cronológicas ou temporais, em que a variável dependente é observada no tempo, é comum a mudança da variável t para uma nova variável x. Essa mudança se torna conveniente para evitar cálculos mais complicados.

Geralmente utiliza-se a mediana da série em estudo como referência. Dessa forma, a mudança de variável para o caso de n ímpar utiliza o elemento central e para n par utiliza-se a média dos elementos centrais.

Exemplo de Aplicação

Sendo dada a produção de ferro gusa, em milhares de toneladas, de determinada empresa siderúrgica, ajuste uma reta aos dados e estime a produção para 2009 (dados fictícios).

dados e estime a produção para 2009 (dados fictícios). Solução: Neste caso, n = 5 e

Solução:

Neste caso, n = 5 e Xi = ti – 2006 é uma interessante transformação. Observamos que a variável

dependente é a produção de ferro gusa (Y) e que a variável independente é o tempo (t). O uso dos valores

2004, 2005,

,

não é conveniente, pois acarretaria um cálculo mais complicado.

é o tempo (t). O uso dos valores 2004, 2005, , não é conveniente, pois acarretaria
149
149

ESTATÍSTICA APLICADA

Para a determinação da produção para o ano de 2009:

Para a determinação da produção para o ano de 2009: Então 38,11 será a quantidade estimada

Então 38,11 será a quantidade estimada (ou prevista) para o ano de 2009.

O diagrama de dispersão sobreposto à reta de regressão mostra o ajustamento da reta aos valores de produção.

mostra o ajustamento da reta aos valores de produção. O valor do coeficiente de correlação “r”

O valor do coeficiente de correlação “r” (que pode ser calculado pelas fórmulas dadas na aula anterior) é 0,98 evidenciando uma forte correlação.

O estudo da correlação e da regressão linear pode ser realizado com a utilização do programa Microsoft Office Excel 2007. Para exemplificar seu uso, veja o exemplo: Consideremos uma amostra aleatória, formada por dez cidades onde foram observadas, durante um mês, a renda média da população e o consumo de pizzas. Calcule o coeficiente de correlação e ajuste uma reta de regressão linear.

de correlação e ajuste uma reta de regressão linear. a) Construir no Excel a tabela com

a) Construir no Excel a tabela com as variáveis X (renda) e Y (consumo de pizzas).

b) Selecionar os dados da tabela e marcar a aba INSERIR.

c) Selecionar, na barra de tarefas, o ícone DISPERSÃO, e marcar o primeiro quadro.

150
150

AULA 8 - COVARIÂNCIA E CORRELAÇÃO / ANÁLISE DE REGRESSÃO

AULA 8 - COVARIÂNCIA E CORRELAÇÃO / ANÁLISE DE REGRESSÃO d) Aparecerá um diagrama de dispersão,

d) Aparecerá um diagrama de dispersão, onde pode ser ajustado legenda, escala etc.

de dispersão, onde pode ser ajustado legenda, escala etc. e) Apontar o mouse em um ponto

e) Apontar o mouse em um ponto do diagrama e clicar com o botão direito. Selecionar na caixa de diálogo: ADICIONAR LINHA DE TENDÊNCIA.

f) Abrirá um novo menu onde se deve selecionar: LINEAR, EXIBIR EQUAÇÃO NO GRÁFICO e EXIBIR VALOR DE R-QUADRADO NO GRÁFICO.

151
151

ESTATÍSTICA APLICADA

g) Pronto! Aparecerá a equação de regressão da reta na forma de Y = bX+a, e o valor de R 2 (que é a medida relativa de adequação do ajuste chamada de coeficiente de determinação). Para calcular o

R 2

coeficiente de correlação r, basta extrair a raiz quadrada de R 2 . No exemplo, resulta em r =

=

a raiz quadrada de R 2 . No exemplo, resulta em r = = 0,9489 =
a raiz quadrada de R 2 . No exemplo, resulta em r = = 0,9489 =

0,9489 = 0,9741.

h) Conclusão: com o uso do Excel obtém-se facilmente o coeficiente de correlação linear e a equação da reta de regressão. Para o exemplo das pizzas, tem-se: Y = 23,72 + 2,16X e r = 0,97.

o exemplo das pizzas, tem-se: Y = 23,72 + 2,16X e r = 0,97. 3. OUTRAS
o exemplo das pizzas, tem-se: Y = 23,72 + 2,16X e r = 0,97. 3. OUTRAS

3. OUTRAS REGRESSÕES

A seguir serão apresentados outros tipos de análise de regressão, a título informativo, cujo estudo deverá ser aprofundado em cursos mais avançados de Estatística. O objetivo aqui é apenas o de mostrar a existência de tais ferramentas.

3.1 Regressão Múltipla

Foi estudada até aqui a regressão linear simples, com apenas uma variável independente. Existem casos em que é necessário considerar mais de uma variável independente e, então, a regressão simples não pode ser aplicada.

152
152

AULA 8 - COVARIÂNCIA E CORRELAÇÃO / ANÁLISE DE REGRESSÃO

Considere o estudo dos fatores que influenciam, por exemplo, o preço de venda de um imóvel (PV). É fácil perceber que esse preço sofre influência de mais de um fator. Pode-se considerar Valor contábil (VC), Idade do imóvel (ID), Área construída (AC), Percentual de ocupação do terreno (PO) etc.

Esta relação, que precisaria ser testada, poderia ter o seguinte formato:

PV = a + bVC + cID + dAC + ePO

Os parâmetros “a”, “b”, “c”, “d” e “e” devem ser calculados de forma análoga aos parâmetros “a” e “b” de uma regressão linear simples.

A forma de cálculo dos parâmetros envolvidos (sempre um a mais que o número de variáveis independentes)

é estabelecida por um sistema de equações (ou uma matriz), que acabará por determinar o valor de cada um deles. Existem softwares que conseguem fazer tal cálculo de forma totalmente automática.

3.2 Regressão não linear

Existem casos em que a associação entre as variáveis independentes e a variável dependente pode obedecer a um modelo diferente da equação da reta. Considere, por exemplo, o diagrama de dispersão seguinte. O formato do diagrama sugere uma associação entre os valores representada por um modelo semelhante ao de uma parábola.

representada por um modelo semelhante ao de uma parábola. Se fosse assumido que o modelo pode

Se fosse assumido que o modelo pode ser realmente o de uma parábola, a relação teria a forma:

ser realmente o de uma parábola, a relação teria a forma: Um modo de se tratar

Um modo de se tratar tal problema seria imaginar que existam duas variáveis independentes: a primeira

igual ao próprio valor de “x” e a segunda igual ao valor de “x2”. Se assim considerado, pode-se resolver

o problema como uma regressão linear múltipla.

Outro modelo de regressão poderia ser fornecido pela seguinte relação entre duas variáveis independentes

e a variável dependente:

153
153

ESTATÍSTICA APLICADA

Aplicando logaritmo nos dois lados da expressão, pode-se escrever:

logaritmo nos dois lados da expressão, pode-se escrever: Estabelece-se dessa forma a seguinte correspondência entre

Estabelece-se dessa forma a seguinte correspondência entre as variáveis:

dessa forma a seguinte correspondência entre as variáveis: Substituindo os valores originais das variáveis observadas

Substituindo os valores originais das variáveis observadas pelos seus logaritmos, pode-se proceder ao tratamento da relação transformada como se fosse, novamente, uma regressão linear múltipla.

Na prática, para se tratar de modelos de regressão não linear, procura-se transformar as variáveis independentes e as próprias equações propostas em modelos lineares. A partir daí, pode-se usar os métodos de regressão linear.

Não se pode esquecer que tais tratamentos, por serem complexos, são mais facilmente realizados com o auxílio de softwares estatísticos, tais como o SPSS (Statistical Package for the Social Sciences), MINITAB, Statistica, SAS, entre outros.

154
154

AULA 8 - COVARIÂNCIA E CORRELAÇÃO / ANÁLISE DE REGRESSÃO

BIBLIOGRAFIA

Básica:

MARTINS, Gilberto de Andrade. Estatística Geral e Aplicada. 3ª ed. São Paulo, Atlas, 2006 SPIEGEL, M. R. Estatística. 3ª ed. São Paulo, Makron Books, 2004. TRIOLA, M. F. Introdução à Estatística. 10ª ed. Rio de Janeiro, LTC, 2008.

Complementar:

BUSSAB, W de O; MORETITIN, P. A. Estatística básica. 5ª ed. São Paulo, Saraiva, 2002. LAPPONI, Juan Carlos. Estatística usando Excel. São Paulo, Editora Campus, 2005. MORETTIN, Luiz Gonzaga. Estatística Básica. São Paulo, Makron Books, 2000. STEVENSON, William. Estatística aplicada à administração. São Paulo, Harbra, 1981.

155
155