Sei sulla pagina 1di 4

Trabalho da Disciplina: Estatística II

Regressão Linear Simples e Múltipla

Aluno: Uilian Lucas de Souza 9803051 - Engenharia Elétrica

INTRODUÇÃO

Muitas vezes a posição dos pontos experimentais no diagrama de dispersão


sugere a existência de uma relação funcional entre duas variáveis. Surge então o
problema de se determinar uma função que exprima essa relação. Esse é o problema da
regressão, conforme a denominação dada por Fisher. Quando o problema envolve
apenas duas variáveis ele é conhecido por regressão simples, e no caso de mais de duas
variáveis por regressão múltipla.
Assim, se os pontos experimentais se apresentarem como no gráfico abaixo,
admitiremos existir um relacionamento funcional entre os valores y e x, responsável pelo
aspecto do diagrama, e que explica grande parte da variação de y com x, ou vice-versa.
Este relacionamento funcional corresponderia à linha existente no gráfico, que seria a
linha de regressão. Uma parcela da variação, entretanto, permanece em geral sem ser
explicada, e será atribuída ao acaso. Na prática, os pontos experimentais terão uma
variação em torno da linha representativa dessa função, devido à existência de uma
variação aleatória adicional, que chamaremos de variação residual.

Evidentemente, tudo se simplificará se a forma da linha de regressão for suposta


conhecida. O problema, então, se reduzirá apenas à estimação de seus parâmetros. É o
caso das leis teóricas que definem matematicamente determinada função. Como exemplo
podemos citar a lei de Hook que afirma que, dentro de certos limites, as deformações dos
corpos metálicos variam linearmente com as tensões aplicadas. Na análise de um
experimento desse tipo, o modelo linear para a linha de regressão pode ser adotado de
início. Pode ocorrer também o caso em que a forma da linha fica evidente da própria
análise do diagrama de dispersão.
Caso a forma da linha de regressão não seja conhecida de antemão, ela deverá
ser inferida juntamente com seus parâmetros. Teremos, então, além do problema de
estimação dos parâmetros do modelo da linha de regressão, a dificuldade adicional de
especificar a forma do modelo.
Se admitirmos inicialmente que a forma da linha de regressão seja uma reta,
teremos um problema de regressão linear simples. No caso da regressão polinomial,
supomos que a forma da função é um polinômio de grau superior a 1. E finalmente, no
caso em que mais de duas variáveis estão envolvidas.

REGRESSÃO LINEAR SIMPLES

A linha de regressão neste caso é suposta com sendo uma reta. Logo a função que
desejamos obter é da forma:

y= ë+ ìx
sendo que a variável y é dita dependente e aleatória, e a variável x é dita independente e
suposta não-aleatória. Estimaremos os parâmetros eda reta teórica através dos
pontos experimentais fornecidos pela amostra, obtendo uma reta estimativa na forma:

yê = a + bx
onde a é a estimativa do parâmetro , e b, também chamado de coeficiente de regressão
linear, é a estimativa do parâmetro . O símbolo ÿ é utilizado para uma conveniente
distinção dos valores dados pela estimativa, das ordenadas dos pontos
experimentalmente obtidos.
Existem diversos métodos para a obtenção da reta desejada. O mais simples de
todos, que podemos chamar de método do ajuste visual, consiste simplesmente em traçar
diretamente a reta, com auxílio de uma régua, no diagrama de dispersão, procurando
fazer, da melhor forma possível, com que essa reta passe por entre os pontos. Esse
procedimento, entretanto, somente será razoável se a correlação linear for muito forte,
caso contrário levará a resultados subjetivos. Acima de tudo, merece a crítica de ser um
procedimento nem um pouco científico.
Outro procedimento é o chamado de procedimento de mínimos quadrados,
segundo o qual a reta a ser adotada deverá ser aquela que torna mínima a soma dos
quadrados das distâncias da reta aos pontos experimentais, medidas no sentido da
variação aleatória (eixo y - direção vertical). A idéia central desse procedimento é
simplesmente a de minimizar a variação residual em torno da reta estimativa. Dessa
forma:
P n
1
(xi à xö)yi Sxy
b= P n=
n =
i= 1
(xi à xö) 2 Sxx

a = yö à bxö

COEFICIENTE DE CORRELAÇÃO LINEAR SIMPLES

O coeficiente de correlação entre duas variáveis expressa a medida dos


afastamentos dos pontos observados (xi,yi) de uma reta de regressão. Permite conceituar
o grau de confiança com que a reta de regressão expressa a interdependência funcional
entre as duas variáveis.
Assim, valores de coeficiente de correlação próximos de 1 expressam maior
concentração dos valores observados em torno da reta de regressão; valores deste
coeficiente próximos de zero indicam forte dispersão.
Por definição, coeficiente de correlação linear de Pearson é o valor rxy, tal que

FUNÇÕES LINEARIZÁVEIS

Certas funções, mediante transformações convenientes, linearizam-se, o que torna


simples a solução do problema de regressão. Assim, por exemplo, se admitirmos que a
função de regressão seja uma função exponencial do tipo

x
y = ë:ì ,

a aplicação de logaritmos promove a linearização da função na forma

log y = log ë + x log ì


Chamando z=logy, A=loge B=log, passamos a ter o problema de estimar os
parâmetros da reta
z = A + Bx
A análise da variância aplicada a regressão linear simples possibilita testar a
existência de regressão linear significativa, ou seja, mostrar que 0.

INTERVALOS DE CONFIANÇA PARA A REGRESSÃO LINEAR SIMPLES

Os intervalos de confiança (1-)100% para uma regressão linear simples são


dados a seguir, onde todos eles envolvem o uso da distribuição t de Student com v=n-2
graus de liberdade.

Intervalo de confiança para 

Intervalo de confiança para 

Intervalo de confiança para y (um valor individual de y dado um valor x)

REGRESSÃO LINEAR MÚLTIPLA

A teoria da regressão linear múltipla objetiva estabelecer a relação funcional entre


uma variável dependente e duas ou mais variáveis independentes.
O modelo estatístico de uma regressão linear múltipla, sendo y a variável
dependente e x1,x2....xk (k>1) variáveis independentes, será dado por

yj = ë + ì 1X 1j + ì 2X 2j + :::: + ì kX j k + " j
com j=1,2,3....n. Essa equação pode ser expressa como:
Pk
yj = ë + ì iX ij + " j
i= 1

Como na regressão linear simples, a existência da regressão linear múltipla pode


ser testada através da aplicação da análise da variância.

COEFICIENTE DE CORRELAÇÃO LINEAR MÚLTIPLA

Como foi visto para a correlação linear simples, temos também um coeficiente de
correlação linear múltipla que possibilita determinar quantitativamente o grau de relação
linear entre as variáveis envolvidas no problema. Esse coeficiente é denotado por R tal
que
q
b1S1y+ ::::::::::bkSky
R= Syy

VARIABILIDADE DOS ERROS DE PREVISÃO

Quando se faz uma previsão com base na equação da linha de regressão, é lógico
que os escores previstos não são precisamente aqueles que se verificarão de fato. O que
a linha de regressão prevê é a média dos escores em y para cada valor de x. Há por isso
uma margem de erro, que não existiria se a correlação fosse perfeita.
A previsão da média dos escores em y partindo dos escores em x é importante
quando se quer prever o êxito em determinado emprego ou em certo curso com base nos
escores conseguidos num teste.

ANÁLISE DE MELHORIA

A análise de melhoria consiste na busca de equação mais elaborada de modo que


o modelo possa ser considerado pelo menos satisfatório para a representação de um
dado fenômeno. O procedimento consiste em primeiramente achar a equação da reta de
regressão. A seguir verificamos se a adoção de uma parábola ao invés de uma reta traz
melhoria de ajuste significativa. Ocorrendo essa melhoria, verificamos se a cúbica de
regressão apresenta melhoria de ajuste em relação à parábola, e assim sucessivamente.
Em geral essa análise deve prosseguir até que duas etapas sucessivas não tenham
produzido melhoria significativa. Outro modo de melhoria é feito pela análise da variância.

Potrebbero piacerti anche