Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Supondo que a relao linear entre as variveis Y e X satisfatria, podemos estimar a linha de regresso e resolver alguns problemas de inferncia. O problema de estimar os parmetros e o mesmo que ajustar a melhor reta em um grfico de disperso, como na Figura 1.2.1. O Mtodo dos Mnimos Quadrados uma eficiente estratgia de estimao dos parmetros da regresso e sua aplicao no limitada apenas s relaes lineares.
, que corresponde a distncia vertical do ponto reta arbitrria. O objetivo estimar os parmetros e de modo que os desvios ( ) entre os valores observados e estimados sejam mnimos. Isso equivale a minimizar o comprimento do vetor de erros, . Uma forma de obter essas estimativas o Mtodo de Mnimos Quadrados. Este mtodo consiste em minimizar a soma dos quadrados dos desvios L, como na expresso abaixo
A potncia necessria, pois a soma dos desvios nula, isto , Para encontrarmos estimativas para os parmetros, vamos minimizar (1.2.1.1) em relao aos parmetros e . Para isto, derivamos-a em relao aos parmetros e . Assim,
Substituindo e por e , para indicar valores particulares dos parmetros que minimizam L, e igualando as derivadas parciais a zero, obtemos
Para encontrarmos os valores de e que minimizam L, resolvemos o sistema de equaes dado em (1.2.1.2). Considerando a primeira equao de (1.2.1.2) obtemos que,
ou seja,
em que respectivamente.
so as mdias de x e da varivel Y,
Ento,
Os valores de e assim determinados so chamados Estimadores de Mnimos Quadrados (EMQ). O modelo de regresso linear simples ajustado ento
As quantidades e so as mdias amostrais de x e y. J as quantidades e so as somas dos quadrados dos desvios das mdias e a soma dos produtos cruzados dos desvios de x e y. Desta forma, as estimativas de mnimos quadrados de desta notao so: e , em termos
Exemplo 1.2.1 Voltando "Motivao 1", em que queramos determinar os valores de temperatura em que otimizam a dureza do material, encontramos as estimativas dos parmetros e pelo Mtodo dos Mnimos Quadrados.
clique aqui para efetuar o download dos dados utilizados nesse exemplo
Soluo: As mdias amostrais das variveis temperatura (X) e dureza (Y) so, respectivamente,
Alm disso, na Tabela 1.2.1, apresentamos os valores de x2, y2 e xy para cada observao i, i=1,...,20. Observao 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Soma Mdia Temperatura (x) Dureza (y) 220 137 220 137 220 137 220 136 220 135 225 135 225 133 225 132 225 133 225 133 230 128 230 124 230 126 230 129 230 126 235 122 235 122 235 122 235 119 235 122 4.550 2.588 227,5 129,4 48.400 48.400 48.400 48.400 48.400 50.625 50.625 50.625 50.625 50.625 52.900 52.900 52.900 52.900 52.900 55.225 55.225 55.225 55.225 55.225 1.035.750 18.769 18.769 18.769 18.496 18.225 18.225 17.689 17.424 17.689 17.689 16.384 15.376 15.876 16.641 15.876 14.884 14.884 14.884 14.161 14.884 335.594 30.140 30.140 30.140 29.920 29.700 30.375 29.925 29.700 29.925 29.925 29.440 28.520 28.980 29.670 28.980 28.670 28.670 28.670 27.965 28.670 588.125
so, respectivamente
Portanto, o modelo ajustado dado por Pelos valores das estimativas, temos que a cada aumento da Temperatura, temos um decrscimo de 1,032 na Dureza.
1.2.2 Resduos
A diferena entre o valor observado e o correspondente valor ajustado dado pela expresso (1.2.1.4), chamada de resduo e denotada por ,
Essa medida importante j que por meio dela verificamos o ajuste do modelo. 1.2.2.1 Algumas propriedades do ajuste de mnimos quadrados (i) A soma dos resduos sempre nula.
. De
com
Logo,
(iv) A soma dos resduos ponderado pelo correspondente valor da varivel regressora sempre nula.
(v) A soma dos resduos ponderado pelo correspondente valor ajustado sempre zero.
dado por
em que QME o Quadrado Mdio dos Erros (Resduos). Considerando n pares de valores observados (x 1,y1),...,(xn,yn), podemos escrever
como visto em "Propriedades dos Estimadores", em que e respectivamente pelas expresses (1.2.1.6) e (1.2.1.7). Portanto,
so dados
Daremos mais detalhes para a Soma de Quadrados dos Erros (SQE) e para o Quadrado Mdio dos Erros (QME) em "Anlise de Varincia".
Exemplo 1.2.2
J vimos que
ento
Para avaliarmos a significncia do modelo como um todo utilizamos a anlise de varincia (ANOVA). Para isso, consideremos o "Modelo de Regresso Linear Simples" com a suposio de que os erros tem distribuio Normal. A anlise de varincia baseada na decomposio da soma de quadrados e nos graus de liberdade associados a varivel resposta Y. Em palavras, o desvio de uma observao em relao mdia pode ser decomposto como o desvio da observao em relao ao valor ajustado pela regresso mais o desvio do valor ajustado em relao mdia, isto , podemos escrever como
em que
em que decompomos a Soma de Quadrados Total em Soma de Quadrados da Regresso e Soma de Quadrados dos Erros. Prova:
Notemos que
Desta forma,
e portanto,
A diviso da soma de quadrados pelos respectivos graus de liberdade o quadrado mdio. A relao da decomposio da variabilidade no existe mais nesse caso.
Alm disso,
Desta forma,
e portanto,
Resduo
Total
Tabela: ANOVA
1.5.5 Teste F
Considerando o Modelo de Regresso Linear Simples, a anlise de regresso estabelece um teste para avaliar o parmetro , isto , testar as hipteses
Seja
e consideremos o seguinte teorema: Teorema de Cochran Sejam . Ento variveis aleatrias independentes com distribuio
Se tivermos
independentes.
Uma motivao, baseada nas esperanas dos quadrados mdios sugere que valores grandes de levem a e valores de prximos de 1 levem a . Logo, rejeitamos com um nvel de significncia se . Outra maneira analisar o p_valor. Neste caso, rejeitamos se
Total
Tabela: Anlise de significncia usando ANOVA. Exemplo 1.5.1 Construir a tabela da ANOVA para o exemplo dado na "Motivao 1".
clique aqui para efetuar o download dos dados utilizados nesse exemplo
Soluo:
Assim,
Alm disso,
Portanto, rejeitamos com um nvel de confiana de e conclumos que a varivel explicativa tem correlao com a varivel resposta. Interpretao do P-valor Obtemos um nvel de significncia (ou P-valor) para o teste F, por exemplo, comparando o valor com o quantil da distribuio F, A maioria dos programas computacionais, que ajustam modelos de regresso incluem o clculo do na tabela ANOVA. Quando o p-valor aproximadamente zero significa que, se a hiptese nula for verdadeira, a chance de F exceder o valor observado praticamente nula. Esta uma evidncia muito forte, contra O p-valor uma probabilidade condicional de observar um valor da
sob Um p-valor pequeno fornece evidncias contra Em algumas res de pesquisa, adotado um nvel de significncia fixo para examinar o p-valor. Por exemplo, se fixarmos um nvel de significncia ( ), ento poderemos dizer que uma hiptese nula rejeitada a este nvel, quando o p-valor menor do que esse nvel. A escolha mais comum para 0,05, isto significa que quando verdadeira encontraremos evidncias contra essa hiptese em aproximadamente 5% dos elementos da amostra. Denominamos significncia estatstica a observao de um P-valor suficientemente pequeno, porm essa significncia necessita de outros mtodos para ser determinada, alm do P-valor.