Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
net/publication/330556342
CITATIONS READS
0 416
1 author:
Filipe Mahaluça
Higher Institute of Accounting and Audit of Mozambique (ISCAM), Mozambique
22 PUBLICATIONS 4 CITATIONS
SEE PROFILE
All content following this page was uploaded by Filipe Mahaluça on 23 January 2019.
Contact:
+258-848407234
mahaluca@gmail.com
Índice
14. Correlação e Regressão Linear...................................................................................... 268
14.1. Introdução .................................................................................................................. 268
14.2. Coeficiente de Correlação de Pearson .................................................................. 268
14.2.1. Teste de significância do coeficiente de correlação de Pearson....................... 270
14.3. Análise de Regressão............................................................................................. 272
14.3.1. Regressão Linear Simples .................................................................................. 272
14.3.2. Método dos Mínimos Quadrados ....................................................................... 273
14.3.3. Estimativa da variância do termo erro............................................................... 275
14.3.4. Desvio padrão dos coeficientes e ........................................................... 276
14.3.5. Adequação do modelo de regressão linear ajustado ....................................... 276
14.3.6. Teste de hipóteses para os coeficientes e .............................................. 279
14.3.7. Intervalos de Confiança ..................................................................................... 280
14.3.8. Premissas básicas do modelo: ............................................................................ 283
14.4. Exercícios Propostos ............................................................................................... 283
14. CORRELAÇÃO E REGRESSÃO LINEAR
14.1. Introdução
Considere a existência de uma variável quantitativa X a qual acreditamos apresentar
alguma relação com uma outra variável quantitativa Y. Por exemplo: consumo de
electricidade e valor da conta de energia eléctrica; idade e tempo de reacção um
estímulo; temperatura e tempo de uma reacção química, dentre outros.
Valor de r (+ ou -) Interpretação
[ ] Correlação muito fraca
[ ] Correlação fraca
[ ] Correlação moderada
[ ] Correlação forte
[ ] Correlação muito forte
Abaixo estão exemplos de diagramas de dispersão de Pearson com seus coeficientes
de correlação correspondentes.
Tempo (meses) 1 2 3 4 5 6 7 8 9 10 11 12
Rendimento (R) 10.7 10.9 10.8 9.3 9.5 10.4 9 9.3 7.6 7.6 7.9 7.7
Resolução
∑ ̅ ̅
√ √[∑ ̅ ] [∑ ̅ ]
√ √
Interpretação: A relação entre essas duas variáveis é inversamente proporcional, uma
vez que o sinal é negativo. Com isso, se o tempo após a regulagem aumenta, o consumo
de combustível irá diminuir e vice-versa. Além disso, considera-se uma relação linear
forte entre as variáveis tempo e rendimento, pois o valor modular de 0.907 é bem
superior a 0,7.
3. Estatística do teste:
√ √
4. Decisão:
Rejeita-se
5. Conclusão:
Se uma relação linear é válida para sumarizar a dependência observada entre duas
variáveis quantitativas, então a equação que descreve esta relação é dada por:
̂ ̂ ̂
Os valores observados não se encontram, contudo, exactamente sobre esta linha recta,
ou seja, existe uma diferença entre o valor observado e o valor fornecido pela
equação.
Esta diferença é denominada erro e é representada por . Este erro é assumido ser um
erro estatístico, isto é, uma variável aleatória que quantifica a falha do modelo em
ajustar-se aos dados exactamente. Tal erro pode ser devido ao efeito, dentre outros, de
∑ ∑( ̂ ̂ )
̂ ̅ ̂ ̅
∑ ̅ ̅
̂
∑ ̅
̂ ̂ ̂ ̅
∑ ̅ ̅
̂
∑ ̅
̂ ̅ ̂ ̅
̂ ̂ ̂
̂
Interpretação do modelo:
= 11.34
Se o tempo após a regulagem (X) for igual a zero, o consumo de combustível será de
11.34. Nota que esta interpretação é apenas estatística e a mesma não tem nenhum
significado económico
= -1.578
A cada unidade adicional na variável tempo (X), a variável rendimento (Y) diminui em
0.325.
Esta recta é o “melhor” ajustamento para estes dados e seria diferente para cada
amostra das variáveis X e Y, retiradas desta mesma população. Esta recta pode ser
considerada uma estimativa da verdadeira linha de regressão onde -0.325 seria uma
estimativa do valor (parâmetro angular) e 11.34 uma estimativa do valor
(parâmetro linear), que são os verdadeiros coeficientes de regressão.
O termo erro, U, é uma variável aleatória, supostamente com média zero e variância
constante. Então, intuitivamente parece plausível usar os resíduos da recta de regressão
pelos método dos mínimos quadrados para se estimar a variância dos termos “erro”.
A variância amostral desses resíduos é igual a:
̂ ∑ ∑ (∑ ) ̂ [ ∑ ∑ ∑ ]
̂
√
será a precisão de ̂ e ̂ .
̅
̂ √
̂ √
̅
̂ √ √
̂ √ √
∑ ̂ ̅ ̂ ̂
∑ ̂ ̂
∑ ̅
Tabela ANOVA
Onde
∑ ̂ ̅ ̂ ̂
∑ ̂ ̂ ̂
∑ ̅
Tabela Anova
Fonte de SQ G. liberdade MQ F
Variação
Regressão 1
Residual
Total
̅
Considerando que a distribuição do coeficiente linear é dada por ( √ )
̂ ̂
̅ ̂
√
̂ ( )
√
Então:
̂ ̂
̂
√
Da mesma forma que foram obtidos intervalos de confiança para a média, variância e
proporção de uma população, pode-se determinar os intervalos de confiança para os
parâmetros da regressão. Ou seja, pode-se determinar um intervalo de confiança para
o coeficiente linear ( ), um intervalo de confiança para o parâmetro angular ( ) e
pode-se ainda determinar um intervalo de confiança para um valor previsto de Y, dado
X. Este intervalo pode ser para o valor médio de Y para um dado X, isto é, E(Y/X) ou,
então, para um valor individual de Y, isto é, ̂ . A estimativa pontual para os dois últimos
casos é a mesma. O que vai mudar é o intervalo de confiança correspondente. Isto se
deve ao fato de que o modelo desenvolvido é associado principalmente à média do
grupo do que a uma informação individual.
̂ ̂
̂ ̂
Para média:
( ̂) ( ̂)
Par a variança
̅
( ̂) ( ̂) * +
̅
* +
Então:
̅
( ̂) ( √ )
̅
̂ √
̅
̂ √
̅
̂ √
̅
̂ √
14.4.1. Para cada uma das situações abaixo, diga o que é mais adequado: a análise
de regressão ou a análise de correlação. Por quê?
a) Uma equipe de pesquisador deseja determinar se o rendimento na
Universidade sugere êxito na profissão escolhida.
b) Deseja-se estimar o número de quilómetros que um pneu radial pode
rodar antes de ser substituído.
c) Deseja-se prever quanto tempo será necessário para executar uma
determinada tarefa por uma pessoa, com base no tempo de treinamento.
d) Deseja-se verificar se o tempo de treinamento é importante para avaliar
o desempenho na execução de uma dada tarefa.
e) Um gerente deseja estimar as vendas semanais com base nas vendas das
segundas e terças-feiras.
Tempo (mês) 1 2 3 4 5 6 7 8 9 10 11 12
Rendimento 10.7 10.9 10.8 9.3 9.5 10.4 9 9.3 7.6 7.6 7.9 7.7
14.4.5. A análise de 20 pares de valores indicou que a resistência á tração (Y) de uma
fibra sintética usada na indústria têxtil guarda uma relação linear com a
percentagem de algodão (X) presente na fibra. A equação obtida foi ̂
(X fornecido em percentagem, equação válida para o intervalo
de X entre 20% e 35%). Conhecidos os valores das Somas Quadradas
:
a) Faça a análise de Variança e conclua a respeito da significância do
modelo;
b) Calcule o valor do coeficiente de determinação e indique qual o seu
significado técnico.
14.4.6. Suponha que uma cadeia de supermercados tenha financiado um estudo sobre
os gastos com mercadorias para famílias de 4 pessoas. O estudo se limitou a
famílias com renda líquida entre 8 e 20 salários mínimos. Obteve-se a seguinte
equação:
̂ onde X é a renda líquida mensal e Y despesa mensal
estimada com mercadorias.
a) Estimar a despesa de uma família com renda mensal líquida de 15 s.m.
b) Um dos directores da empresa ficou intrigado com o fato de que a
equação sugerir que uma família com renda de 3 s.m. líquidos mensais
não gaste nada em mercadorias. Qual a explicação?
c) Explique por que a equação acima não poderia ser utilizada para
estimar:
As despesas com mercadorias de famílias de 5 pessoas.
As despesas com mercadorias de famílias com renda de 20 a 40 s.m.
líquidos mensais.
14.4.7. Para cada uma das situações abaixo, grafe os valores em um diagrama e se
uma equação linear parecer apropriada para explicar os dados, determine os
seus parâmetros.
a)
b)
Vendas em mil 201 225 305 380 560 600 685 735 510 725 450 370 150
Lucro em mil 17 20 21 23 25 24 27 27 22 30 21 19 15
Concent. 0 0 0 2 2 2 4 4 4 6 6 6 8 8 8
Quantid. 13.3 11.5 12.9 14.1 13.3 16.1 14.9 15.9 18.1 17.5 16.51 18.9 20.3 18.5 20.2