Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Notas de Aula
Universidade de São Paulo
Faculdade de Arquitetura e Urbanismo 2
Estatística Aplicada
Modelos de Regressão
Diagrama de Dispersão
Ao se plotar num gráfico cartesiano os pares de informação referente a cada observação obtemos
uma “nuvem” de pontos definidos pelas coordenadas x e y de cada ponto. Essa nuvem, por sua
vez, definirá um eixo ou direção que caracterizará o padrão de relacionamento entre X e Y. A
regressão será linear se observada uma tendência ou eixo linear na nuvem de pontos cartesianos.
A relação entre as variáveis será direta (ou positiva) quando os valores de Y aumentarem em
decorrência da elevação dos valores de X . Será inversa (ou negativa) quando os valores de Y
variarem inversamente em relação aos de X. A figura 1 mostra o diagrama de dispersão
referente as variáveis X e Y. O diagrama mostra uma relação direta entre as variáveis, ou seja: o
crescimento de Y está diretamente ligado ao crescimento de X.
Universidade de São Paulo
Faculdade de Arquitetura e Urbanismo 3
Estatística Aplicada
Figura 1
x y
____________
30 430
21 335
35 520
42 490
37 470
20 210
8 195
17 270
35 400
25 480
(1) que as variações de Y não são perfeitamente explicadas pelas variações de X ou;
(2) que existem outras variáveis das quais Y depende ou;
(3) que os valores de X e Y são obtidos de uma amostra específica que apresenta distorções em
relação a realidade.
O processo de regressão significa, portanto, que os pontos plotados no gráfico são definidos,
modelados ou regredidos, a uma reta que corresponde à menor distância possível entre cada
ponto plotado e a reta. Em outras palavras, busca-se reduzir ao mínimo possível os somatórios
dos desvios entre Y e Y’. Veja a figura 2 abaixo.
Figura 2
x y x.y x2 Projeção
30 430 12.900 900 409,21
21 335 7.035 441 321,57
35 520 18.200 1.225 457,91
42 490 20.580 1.764 526,07
37 470 17.390 1.369 477,38
20 210 4.200 400 311,83
8 195 1.560 64 194,98
17 270 4.590 289 282,62
35 400 14.000 1.225 457,91
25 480 12.000 625 360,52
Somas 270 3.800 112.455 8.302
b= 9,7381
a= 117,0702 Y = 117,07 + 9,74 x
Universidade de São Paulo
Faculdade de Arquitetura e Urbanismo 5
Estatística Aplicada
É o método de computação matemática pelo qual se define a curva de regressão. Esse método
definirá uma reta que minimizará a soma das distâncias ao quadrado entre os pontos plotados (X,
Y) e a reta (X’,Y’). Pelo método dos mínimos quadrados calculam-se os parâmetros “a“ e “b” da
reta que minimiza estas distâncias ou as diferenças (ou o erro) entre Y e Y’. Esta reta é chamada
de curva de regressão.
(1) Erro = E = (Y- Y’) Diferença entre o valor levantado Y (na amostra) e
o estimado Y’(pela reta de regressão)
(2) E12 + E22 + E32 + ..... + En2 = Mínimo Objetivo do modelo de regressão
Para que a soma dos quadrados dos erros tenha um valor mínimo, devem-se aplicar os conceitos
de cálculo diferencial com derivadas parciais. Como as incógnitas do problema são os
coeficientes "a" e "b" estrutura-se um sistema de duas equações. Assim aplicando os conceitos
acima referidos monta-se o sistema de equações normais que permitirá extrair os valores de a e
b,
∂e
------ = - 2 Σ (Y- a - bX)
∂a
- 2 Σ Y + 2 Σ a + 2 Σ bX
Σ Y = Σ a + Σ bX
ΣY+bΣX
(7) a = ------------------ N – tamanho da amostra
N
N Σ XY - Σ X.Σ Y
(9) b = ---------------------------
a Σ X2 - ﴾ Σ X﴿2
Universidade de São Paulo
Faculdade de Arquitetura e Urbanismo 6
Estatística Aplicada
A reta de regressão que se obtém através do método dos mínimos quadrados é apenas uma
aproximação da realidade, ela é um modo útil para indicar a tendência dos dados. Mas até que
ponto a reta de regressão obtida é útil para avaliar a realidade? Duas medidas podem indicar o
quanto útil ou aproximado da realidade é a reta:
▪ erro padrão da estimativa;
▪ coeficiente de determinação
O erro padrão da estimativa Se mede o desvio médio entre os valores reais de Y e os valores
estimados Y’. Ele informa de modo aproximado a extensão do erro entre os valores obtidos das
estimativas e os valores de Y fornecidos pela amostra. Se é medido na unidade de Y. O que se
busca é conseguir o menor valor possível de Se.
Pode-se interpretar o Se como um desvio padrão dos resíduos, pois assumindo que estes resíduos
são "normalmente distribuídos", pode-se dizer então que 68% dos pontos (plotados) encontram-
se dentro de 1 desvio padrão:
-1 ≤ Se ≥ 1;
-2 ≤ Se ≥ 2.
Σ (Y – Y’)2
Se2 = ----------------------- =
N-2
Σ (Y – Y’)2
Se = N–2
Ao se ajustar a reta se espera que ela explique o conjunto de dados coletados. Se os dados
estivem todos contidos numa reta teremos uma reta de regressão coincidente com os dados
Universidade de São Paulo
Faculdade de Arquitetura e Urbanismo 7
Estatística Aplicada
levantados. Nesse caso a somatória dos desvios ao quadrado será zero e, o ajuste da reta será
completo. A reta de regressão explica perfeitamente a relação entre X e Y.
O erro padrão existirá sempre que o poder de explicação da reta não for completo. O valor do
erro significa então que existem outros fatores que interferem no comportamento de Y além da
variável X.
Coeficiente de Determinação
Ao se analisar a reta de regressão observamos que os pontos (xi, yi) estão distribuídos acima e
abaixo da mesma. Na Figura 3 relacionamos cada ponto (Y), com o seu valor estimado (Y’ - a
reta de regressão) e com o valor médio de Y (Y* -reta paralela ao eixo X). Como podemos
observar a diferença entre o valor de Y e o valor de Y* (valor médio de Y) é o desvio total do
ponto em relação a sua média.
Σ (Y – Y*)2
A diferença entre o valor de um ponto Y (xi, yi) e seu valor estimado Y' (xi’,yi’) isto é a
distancia entre o ponto Y e a reta de regressão, é chamada de Variação Não Explicada pela reta
de regressão. Isto é:
Σ (Y – Y’)2
Σ (Y’ – Y*)2
Figura 3
yi Y
Variação não Explicada
Y’
yi’
Variação Explicada
Y*
y*
Y’= a+ bX’
xi
Conclui-se que:
Variação
x y Projeção Explicada Não explicada Total
30 430 409,21 853,48 432,04 2.500
21 335 321,57 3.413,93 180,33 2.025
35 520 457,91 6.069,21 3.855,77 19.600
42 490 526,07 21.337,07 1.301,20 12.100
37 470 477,38 9.483,14 54,49 8.100
20 210 311,83 4.646,74 10.369,96 28.900
8 195 194,98 34.234,14 0,00 34.225
17 270 282,62 9.483,14 159,23 12.100
35 400 457,91 6.069,21 3.353,01 400
25 480 360,52 379,33 14.274,58 10.000
Média y 380 Soma 95.969,39 33.980,61 129.950
b 9,74
a 117,07 Coeficiente de Determinação 0,7385
F observado 22,5939
Universidade de São Paulo
Faculdade de Arquitetura e Urbanismo 9
Estatística Aplicada
Coeficiente de Correlação
Portanto,
-1 ≥ r ≤ +1
Resumindo:
-1 ≤ r ≤ +1
Cov (X,Y)
rX,Y = onde,
σX • σY
S2b Sb
Sb = S2b = ------------------ = ---------------------
(n-1) x Var (x) (n-1) x Var (x)