Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Dissertao apresentada
ao
Instituto de Matemtica e Estatstica
da
Universidade de So Paulo
para
obteno do ttulo
de
Mestre em Cincias
Banca examinadora
Profa. Dra. Silvia Lopes de Paula Ferrari (Orientadora) - IME/USP
Profa. Dra. Lucia Pereira Barroso - IME/USP
Profa. Dra. Olga Satomi Yoshida - IPT
Agradecimentos
A Deus, pela vida e pela sade.
minha orientadora, professora Silvia Ferrari, que me conduziu de forma
Profa. Lcia, que enriqueceu este trabalho com suas valiosas sugestes.
A todos os colegas do CMF / IPT - Centro de Metrologia de Fluidos do
Instituto de Pesquisas Tecnolgicas, que fizeram grande parte deste tra-
Resumo
O fator de simultaneidade fundamental no planejamento de redes de distribuio de gs
natural. Trata-se de um multiplicador entre 0 e 1 que ajusta o consumo total terico de um
nmero de aparelhos de utilizao em condies reais. Em 2005 o Instituto de Pesquisas
Tecnolgicas (IPT) e a Companhia de Gs de So Paulo (COMGS) realizaram um estudo
no qual determinou-se o fator de simultaneidade em um conjunto de edificaes residenciais. Um modelo de regresso foi proposto para expressar o fator de simultaneidade em
termos da potncia total instalada. O modelo ajustado pode ser utilizado para predizer o
fator de simultaneidade em novas edificaes. O modelo em questo um modelo de regresso linear normal no qual a varivel resposta o logaritmo do fator de simultaneidade.
Nesta dissertao, o objetivo investigar outras possibilidades de modelos de regresso
adequados aos dados obtidos pelo IPT e pela COMGS. Especial ateno dada ao
modelo de regresso beta proposto por Ferrari e Cribari-Neto (Journal of Applied Statistics, 2004) por possuir vantagens sobre o modelo de regresso linear normal. O modelo de
regresso beta assume que, dadas as covariveis, a varivel resposta possui distribuio
beta, sendo adequado para modelar dados observados no intervalo unitrio. Desta forma,
a transformao na varivel resposta - o fator de simultaneidade - desnecessria.
Alm disso, proposta uma nova abordagem para a predio do fator de simultaneidade, diferente de todas as abordagens pesquisadas na literatura, utilizando a tcnica de
bootstrap.
Palavras-chaves: Modelo de regresso beta; Bootstrap; Propores contnuas; Diagnstico; Redes de distribuio de gs; Predio; Modelos de regresso; Fator de simultaneidade.
ii
Abstract
The simultaneity factor is fundamental in planning gas distribution networks. It is a multiplicator between 0 and 1 that adjusts the theoretical total consumption of a number of
devices to realistic conditions. In 2005, the Instituto de Pesquisas Tecnolgicas (IPT) and
the Companhia de Gs de So Paulo (COMGS) performed a study in which the simultaneity factor of gas consumption in a set of residential buildings have been determined.
A regression model was proposed to express the simultaneity factor in terms of the total
power of installed equipment. The fitted model can be used to predict the simultaneity
factor in new buildings. The model they proposed is a normal linear regression model in
which the response variable is the logarithm of the simultaneity factor.
In the present dissertation, our aim is to investigate other possible regression models suitable to the data obtained by IPT and CONGS. Emphasis is given to the beta
regression model proposed by Ferrari and Cribari-Neto (Journal of Applied Statistics,
2004) which has a number of advantages over normal linear regression models. The beta
regression model assumes that, given the covariates, the response variable has a beta distribution, which is adequate to model data observed in the unit interval. Therefore, no
transformation in the response variable, the simultaneity factor, is needed.
Additionally, we present a new approach for the prediction of the simultaneity factor,
that is different from all the approaches shown in the literature, using the bootstrap technique.
Keywords: Beta regression model; Bootstrap; Continuous Proportions; Diagnostic;
Gas distribution network; Prediction; Regression models; Simultaneity factor.
iii
Sumrio
1 Introduo
1.1
Organizao da dissertao . . . . . . . . . . . . . . . . . . . . . . . . . . .
2 Apresentao do problema
4
5
2.1
2.2
Fator de simultaneidade . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3
Coleta de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.4
Anlise descritiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
15
3.1
3.2
3.3
3.4
Tcnicas de diagnstico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
33
4.1
4.2
MRLN com transformao logito na varivel resposta e transformao logartmica na varivel regressora . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.3
4.4
4.5
4.6
4.7
58
5.1
Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.2
O mtodo bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.3
6 Consideraes finais
64
6.1
Concluses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
6.2
A Dados
67
Captulo 1
Introduo
O autor da presente dissertao foi um dos integrantes da equipe tcnica responsvel pela conduo
1.1
Organizao da dissertao
Captulo 2
Apresentao do problema
2.1
Antes de apresentar o problema, conveniente compreender a terminologia empregada em um sistema predial de gs natural. Estas definies foram estabelecidas pela
Associao Brasileira de Normas Tcnicas (ABNT) e esto publicadas na norma tcnica
NBR 14570.
Rede geral: rede pblica de abastecimento de gs.
Rede de alimentao: trecho de tubulao que conecta a rede pblica rede de
distribuio interna.
Uma instalao predial de gs natural tpica, bem como a sua integrao com a rede
geral, pode ser observada na Figura 2.1.
Figura 2.1: Esquema tpico de um sistema predial de gs natural. Fonte: Ilha (1996)
6
2.2
Fator de simultaneidade
Q=
P
PC
(2.1)
mxima de consumo da edificao. Basta que o sistema esteja preparado para atender
demanda mxima praticada na edificao. usual mensurar a capacidade mxima
de consumo e a demanda mxima praticada em unidades de potncia, e denomin-las,
respectivamente, como potncia computada e potncia adotada.
Os textos normativos estrangeiros e nacionais sugerem que a potncia adotada seja
obtida pelo mtodo do fator de simultaneidade. Segundo a norma NBR 14570, o fator
de simultaneidade uma "relao percentual entre a potncia verificada praticamente,
com que trabalha simultaneamente um grupo de aparelhos, (. . .) e a soma da capacidade
mxima de consumo desses mesmos aparelhos". Portanto, para a obteno da potncia
adotada de um sistema predial de gs, segue-se o seguinte procedimento:
apura-se a potncia computada C a ser instalada em um determinado trecho, somandose as potncias nominais dos aparelhos de utilizao supridos por este trecho;
1 + 0.01016(C 24.37)0.8712
F =
1
1 + 0.7997(C 73.67)0.19931
0.23
se C < 24.43;
se 24.43 C < 670.9;
(2.2)
AB
3.43
BC
2.24
CD
0.65
BB
1.19
CC
1.59
importante ressaltar que a vazo computada corresponde vazo mxima do aparelho. Portanto, se a vazo computada do fogo QF = 1.19 m3 /h, esta s ser observada
se as seis bocas e o forno do fogo forem ligados simultaneamente. O raciocnio anlogo
quando avaliamos, por exemplo, a vazo computada no trecho AB. Neste trecho, a vazo
QAB = 3.43 m3 /h s ser observada se os trs aparelhos forem utilizados, simultaneamente, em suas vazes mximas.
Uma vez definidas as potncias computadas, possvel ento calcular os fatores de
simultaneidade para os trechos em destaque utilizando (2.2). Para tanto, deve-se converter
as potncias computadas de kcal/h para kW (1 kW = 859.845 kcal/h). Finalmente, ao
calcular o fator de simultaneidade, pode-se obter facilmente as potncias adotadas. A
Tabela 2.2 resume os resultados obtidos no procedimento de clculo da potncia adotada.
Tabela 2.2 Fator de simultaneidade nos trechos em destaque da Figura 2.2
Trecho
Vazo
Potncia Computada
3
FS
Potncia
Computada (m /h)
kcal/h
kW
Adotada (kW)
AB
3.43
31658.9
36.82
0.92
33.74
BC
2.24
20675.2
24.05
1.00
24.05
CD
0.65
5999.5
6.98
1.00
6.98
BB
1.19
10983.7
12.77
1.00
12.77
CC
1.59
14675.7
17.07
1.00
17.07
Nota-se que no trecho AB, que o trecho no qual sero conectados todos os aparelhos de
utilizao, a potncia adotada inferior potncia computada. Isso ocorre porque, neste
10
trecho, a soma das potncias computadas suficientemente grande para se supor que ela
no ser atingida. De fato, para atingir esta potncia, os trs aparelhos de utilizao
deveriam ser ligados, simultaneamente, em sua potncia mxima, o que configura uma
situao bastante improvvel. Desta forma, o fator de simultaneidade atua como um fator
redutor da potncia computada, gerando maior economia no dimensionamento da rede
como um todo.
Esta seo teve por objetivo lanar os principais conceitos e definies, e tambm
exemplificar a forma de utilizao da curva do fator de simultaneidade para a obteno
da vazo adotada. No entanto, o foco central deste trabalho re-discutir o atual modelo
utilizado no dimensionamento de sistemas prediais de gs combustvel, bem como propor
outros novos modelos. O amplo trabalho de medio realizado pelo IPT e COMGS foi
fundamental neste sentido, pois subsidiou esta dissertao com dados recentes e coletados
com a tecnologia necessria para garantir a sua confiabilidade.
2.3
Coleta de dados
Conforme mencionado na Seo 2.2, o fator de simultaneidade pode ser definido como
a relao percentual entre a vazo verificada na prtica, devida ao trabalho simultneo
de um grupo de aparelhos servido por um determinado trecho de tubulao, e a vazo
potencial desses mesmos aparelhos. Todo o trabalho de coleta de dados, portanto, foi direcionado com o objetivo principal de observar os dois nmeros desta relao percentual
e, como conseqncia, obter o fator de simultaneidade emprico.
Os sistemas prediais selecionados na amostra foram visitados no segundo semestre de
2004 e representam os sistemas prediais de uso exclusivamente residencial, situados na
cidade de So Paulo e equipados com fogo e aquecedor de gua1 . Por serem equipados
com aquecedor de gua, tomou-se o cuidado de coletar a maior parte dos dados nos meses
de julho e agosto, meses tipicamente frios nos quais o consumo de gs aumenta, e nos
1
Em apenas quatro sistemas prediais a utilizao de gs natural era exclusivamente para aquecimento
de gua.
11
quais a simultaneidade do uso de aparelhos supostamente atinge seu regime mais crtico.
Foram consideradas caractersticas excludentes os sistemas prediais com ndice de ocupao inferior a 50%, presena de atividade comercial e presena de caldeira. A amostra
foi selecionada do cadastro de clientes COMGS referente ao ms de abril de 2004. Como
no constam neste cadastro informaes sobre as caractersticas dos sistemas prediais,
muitas visitas resultaram em no-medio. Do total de 100 sistemas prediais visitados,
42 resultaram em medies vlidas. Dentre os 58 sistemas prediais no monitorados, as
principais causas foram ausncia de aquecedor de gua, presena de caldeira e presena
de atividade comercial.
Para coletar dados dos sistemas prediais foram utilizadas duas ferramentas: questionrios e aparelho de aquisio de dados de vazo, ou data-logger. Os questionrios
foram teis para a obteno de dados referentes s caractersticas dos sistemas prediais, tais como nmero de andares, nmero de apartamentos, nmero de apartamentos
ocupados, nmero de moradores, entre outros, bem como dados referentes aos tipos e
caractersticas dos aparelhos de utilizao presentes nos apartamentos, tais como potncias nominais, marcas e modelos, entre outros. Estas informaes foram teis para calcular
os valores mdios das potncias nominais do aquecedor e do fogo em cada sistema predial.
Estes valores mdios foram ento somados e multiplicados pelo nmero de apartamentos
ocupados, obtendo-se assim a estimativa da potncia computada do sistema predial. Utilizando a relao definida em 2.1, obtm-se a vazo mxima possvel que se pode observar
no sistema predial quando o grupo de aparelhos nele instalado ligado simultaneamente.
Este nmero o denominador da relao percentual que define o fator de simultaneidade.
Alm dos questionrios, os medidores de gs dos 42 sistemas prediais monitorados
foram instrumentados com data-logger s CDL da marca Sensus / Invensys. Estes aparelhos
foram mantidos por, no mnimo, sete dias consecutivos e completos, a fim de detectar
possveis particularidades de consumo nos diferentes dias da semana. A vazo mxima
observada no perodo de medio foi tomada como sendo a vazo verificada na prtica
devida ao trabalho simultneo do grupo de aparelhos instalado no sistema predial. Este
nmero o numerador da relao percentual que define o fator de simultaneidade. A
Figura 2.3 mostra um exemplo das informaes geradas pelo data-logger.
12
(a)
(b)
Figura 2.3: Exemplo de informaes obtidas pelo data-logger : grfico de vazo (a) e
registros peridicos de vazo (b).
Com as estimativas da potncia computada - obtidas via questionrios - e as vazes
mximas possveis, - obtidas via data-logger - foi possvel obter os fatores de simultaneidade empricos dos 42 sistemas prediais residenciais visitados. Os dados obtidos neste
trabalho, que podem ser encontrados no Apndice A, constituem a base de dados a ser
estudada nesta dissertao.
2.4
Anlise descritiva
Para uma anlise inicial, foi traado o grfico de disperso entre o fator de simultaneidade e a potncia computada, com o objetivo de verificar se existe uma relao entre estas
duas variveis e, em caso afirmativo, qual o tipo de relao sugerido. Este grfico, que
pode ser observado na Figura 2.4, evidencia uma clara relao entre estas duas variveis,
e sugere um comportamento no linear. Sob o ponto de vista da esperana do fator de
simultaneidade, o grfico sugere um decaimento exponencial medida que a potncia
aumenta, com valores prximos a 0 para as potncias mais elevadas. Sob o ponto de vista
da varincia do fator de simultaneidade, o grfico sugere maior disperso para potncias
prximas de 0, e decaimento da disperso para valores mais elevados de potncia.
13
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.1
0.2
Fator de Simultaneidade
21
0.0
34
0.0
1.0
2.0
3.0
4.0
5.0
6.0
7.0
8.0
9.0
10.0
Potncia computada(MW)
14
Captulo 3
Descrio dos modelos estatsticos
15
3.1
(3.1)
e
b0
n
X
i=1
n
X
xi =
i=1
xi + b1
n
X
n
X
yi
i=1
x2i
i=1
n
X
xi yi .
i=1
Pn
xi yi nxy
b1 = Pi=1
n
2 .
2
i=1 xi nx
Para fins de inferncia sobre os parmetros do modelo, conveniente obter a distribuio dos estimadores dos parmetros. Utilizando a suposio de normalidade dos
erros e por meio de algumas manipulaes algbricas, pode-se demonstrar que
b0 N 0 ,
b1 N
2
Pn
Pn
x2i
2
i=1 (xi x)
i=1
2
1 , Pn
2
i=1 (xi x)
17
Da teoria das probabilidades (ver, por exemplo, Casella e Berger, 1996), demonstrase ainda que, ao substituir 2 por seu estimador b2 , as estatsticas resultantes tero
b0
t(b0 ) =
b2
s P
n ni=1 (xi x)2
Pn 2
i=1 xi
v
u n
b1 uX
Pn
ybi )2
n2
i=1 (yi
em que ybi o valor predito para a varivel resposta para um xi fixo e conhecido.
Uma segunda abordagem possvel para a obteno dos estimadores dos parmetros
estudo de variveis resposta no intervalo (0,1) carrega dois erros conceituais. Em primeiro
lugar, a varivel resposta no est definida no conjunto dos reais, que o domnio sobre
o qual a distribuio normal definida. Alm disso, o fato da varivel resposta ser
observada em um intervalo limitado implica que a funo de esperana condicional precisa
ser limitada e, portanto, no pode ser linear, e que a varincia condicional precisa ser
uma funo da mdia pois medida que se aproxima de seus limites, a varincia se
aproxima de zero. No MRLN estas duas condies so claramente violadas. Uma forma de
contornar estes problemas conceituais e ao mesmo tempo obter um modelo mais adequado
ao comportamento dos dados de fator de simultaneidade transformar a varivel resposta
de modo que a varivel transformada esteja definida no conjunto dos reais. Na reviso
bibliogrfica realizada por Kieschnick e McCullough (2003), este foi o segundo modelo
mais freqentemente empregado no estudo de variveis resposta em (0,1). Os autores
relatam que, na maioria dos estudos analisados, as suposies feitas sobre a varivel
resposta no-transformada no so claramente definidas. No entanto, pelo fato de todos
os estudos empregarem a transformao logito, pode-se concluir que o modelo que est
por trs destes estudos define-se como
ln
yi
1 yi
= 0 + 1 xi + i , i = 1, . . . , n,
(3.2)
neste trabalho.
Uma considerao pertinente acerca dos modelos de regresso lineares - e particularmente til neste trabalho - diz respeito terminologia linear. Embora a palavra remeta
ao ajuste de uma reta (ou de seus similares em dimenses maiores) entre varivel resposta
e variveis regressoras, esta caracterstica no necessariamente verdadeira. De modo
geral, a literatura estatstica emprega o termo referindo-se suposio que se faz do valor
esperado da varivel resposta ser uma funo linear nos parmetros. Neste contexto, as
variveis regressoras assumem o papel de constantes que podem ser livremente transformadas, aumentando a flexibilidade do modelo. Assim, tal como definido em (3.1), o
modelo
19
yi = 0 + 1 xi + i , i = 1, . . . , n,
em que xi representa o i-simo valor da varivel regressora transformada, tambm um
modelo de regresso linear, independentemente da transformao empregada. Analogamente, tomando-se como base o modelo definido em (3.2), no h restries em definir
ln
yi
1 yi
= 0 + 1 xi + i , i = 1, . . . , n,
(3.3)
3.2
modelos deste tipo, obtm-se um sistema de equaes no-lineares sem soluo analtica,
fazendo-se necessrio o uso de procedimentos de otimizao no-linear, tais como NewtonRaphson e Gauss-Newton e, em algumas situaes, o procedimento pode no convergir
para uma soluo.
Pela anlise da Figura 2.4, pode-se imaginar que o fator de simultaneidade e a potncia
computada relacionam-se segundo uma funo do tipo f (x) = 0 e1 x . Desta forma,
sugere-se o seguinte modelo no-linear.
yi = 0 e1 xi + i , i = 1, . . . , n,
Por fim, pode-se definir yi = ln(yi ), 0 = ln(0 ) e i = ln(i ) para obter o modelo
yi = 0 + 1 xi + i , i = 1, . . . , n,
(3.4)
em que 1 , . . . , n so i.i.d com i N (0, 2 ). Desta forma, pode-se utilizar toda a teoria
21
do modelo de regresso linear normal para estudar a relao entre duas variveis cuja
relao funcional claramente no-linear. O modelo definido em (3.4) o terceiro modelo
a ser considerado neste trabalho.
O quarto modelo considerado neste trabalho o mesmo empregado em IPT (2005).
Analogamente ao desenvolvimento anterior, assume-se que o fator de simultaneidade e a
potncia computada se relacionam segundo uma funo do tipo f (x) = 0 x1 e que o erro
participa de forma multiplicativa no modelo. Desta forma, sugere-se o modelo no-linear
yi = 0 xi 1 i , i = 1, . . . , n,
em que i tal que ln(i ) i.i.d N (0, 2 ). Aplicando-se o logaritmo natural em ambos os
(3.5)
3.3
f (y; p, q) =
(p + q) p1
y (1 y)q1 , 0 < y < 1,
(p)(q)
(3.6)
y a1 ey dy, a > 0.
p
p+q
e Var(y) =
pq
(p +
q)2 (p
+ q + 1)
(3.7)
()
y 1 (1 y)(1)1 , 0 < y < 1,
()((1 ))
(3.8)
V ()
,
1+
(3.9)
23
Assim, sejam yi , i = 1, . . . , n variveis aleatrias independentes tais que cada yi obedece a uma funo densidade de probabilidade como em (3.8), com mdia i e parmetro
de preciso . O modelo de regresso beta define-se ao assumir que
g(i ) =
k
X
xit t = i ,
(3.10)
t=1
i
1 i
Assumindo a funo de ligao logito, suponha que a t-sima varivel regressora sofra um
incremento de c unidades e todas as demais variveis regressoras permaneam constantes.
Seja + a mdia de y obtida com os novos valores das variveis regressoras, enquanto
mdia de y obtida com os valores originais das variveis regressoras. Ento, demonstra-se
que
ect =
+ /(1 + )
,
/(1 )
n
X
i (i , ),
(3.11)
i=1
em que
1
em que X uma matriz nk cuja i-sima linha x
i , T = diag[g (1 ) , . . . , g (n ) ] e os
n
X
ui ,
i=1
em que
ui = i (yi i ) + log(1 yi ) [(1 i )] + ().
tambm conveniente obter a matriz de informao de Fisher, denotada por
25
K = K(, ) =
K K
K K
K = K
= X T c,
funo trigama, e
K = tr(D),
em que D = diag(d1 , . . . , dn ), com di = (i )2i + [(1 i )](1 i )2 ().
Ao contrrio dos modelos lineares generalizados, no modelo de regresso beta os
parmetros e no so ortogonais, ou seja, K no nulo (ver McCullagh e Nelder,
1989, por exemplo).
Ferrari e Cribari-Neto (2004) salientam que, sob condies de regularidade e para uma
amostra suficientemente grande, vale a aproximao
b
b
Nk+1
, K 1
K K
K K
Eles obtiveram
K
1
X T cc T X(X W X)1
1
= (X W X)
Ik +
,
1
(X W X)1 X T c,
e
K = 1 .
27
3.4
Tcnicas de diagnstico
e Welsch (1978) para o caso da regresso linear normal, e consiste em avaliar os valores
da diagonal principal da matriz de projeo H = X(X X)1 X , ou seja,
1
hii = x
i (X X) xi .
Segundo Paula (2003), as observaes nas quais se observa a condio hii 2k/n
o valor ajustado da i-sima observao. Desta forma, pode-se interpretar hii como a
variao em ybi quando se acrescenta um infinitsimo a yi . Wei, Hu e Fung (1998) propem
b
y
,
y
b = (b
onde y = (y1 , . . . , yn ) o vetor de observaes e y
y1 , . . . , ybn ) o vetor de valores
b
ajustados. A medida GL() denomina-se alavanca generalizada e abrange todos os casos
b um
nos quais a varivel resposta contnua. Aqui, um vetor tal que E(y) = () e
b O elemento (t, u) de GL()
b a taxa de variao instanb = ().
estimador de , com y
28
tnea no t-simo valor predito com respeito ao u-simo valor de resposta. Seguindo esta
abordagem, Ferrari e Cribari-Neto (2004) apresentam a frmula da alavanca generalizada
para o modelo de regresso beta, a qual ser utilizada neste trabalho.
Tambm til avaliar resduos na anlise de diagnstico. De modo geral, define-se o
resduo para a i-sima observao como uma funo da forma ri = r(yi ,
i ), i = 1, . . . , n,
a qual tem por objetivo medir a discrepncia entre o valor observado e o correspondente
valor ajustado. A maioria dos resduos propostos na literatura se baseia na diferena entre
o valor observado e o valor ajustado. De fato, a definio mais bsica de um resduo o
resduo ordinrio, que simplesmente a diferena entre estes valores, ou seja,
ri = y i
i , i = 1, . . . , n.
Particularizando para o caso do modelo de regresso linear normal, verifica-se com alguma
lgebra que ri N (0, 2 (1 hii )), i = 1, . . . , n e que, portanto, as quantidades ri s
Para que sejam comparveis, conveniente expressar os resduos ordinrios em sua forma
padronizada, dividindo ri pelo seu respectivo desvio padro estimado, e assim obter o
resduo studentizado, ou seja,
ti =
ri
, i = 1, . . . , n,
s(1 hii )1/2
em que
2
s =
n
X
i=1
ri2
,
nk
(3.12)
ti =
ri
,
s(i) (1 hii )1/2
ao modelo sem a i-sima observao. Mostra-se que ti tem uma distribuio t com
Em seu artigo sobre regresso beta, Ferrari e Cribari-Neto (2004) seguem o preceito
dos resduos se basearem na diferena entre os valores observados e os valores ajustados,
e propem o resduo ordinrio padronizado
yi
bi
ri = q
,
d i)
Var(y
(3.13)
b com
b Aqui,
b e b so os estimadores
d i) =
em que Var(y
bi (1
bi )/(1 + ),
bi = g 1 (x ).
tribuio normal. Alm disso, por meio de exemplos, mostram que o resduo no sensvel
o suficiente para detectar observaes influentes. Com base nestas constataes, propem
dois novos resduos para a classe de modelos de regresso beta que, diferentemente do
conceito utilizado em (3.13), se baseiam na diferena entre o logito da varivel resposta e
seus valores ajustados. O primeiro deles, denominado resduo ponderado padronizado 1,
define-se como
riw =
yi
b
i,
vi
(3.14)
b ((1
b e vi = (b
b + ((1
b
em que yi = log[yi /(1 yi )],
bi = (b
i )
bi ))
i )
bi ))
com () denotando a funo digamma e () denotando a funo trigamma, ou seja,
assemelha-se a riw , diferenciando-se pelo fato de ser ponderado pelo elemento (i, i) da
30
1/2
c 1 X W
c
matriz de projeo H = W1/2 X(X WX)
, em que W = diag(w1 , . . . , wn ) e
riww = p
yi
bi
.
vi (1 hii )
(3.15)
31
hii 1
,
1 hii k
hii
,
1 hii
32
Captulo 4
Anlise dos dados
Este captulo contm a aplicao da base terica apresentada nos captulos anteriores.
A parte computacional que envolve os ajustes dos modelos e a gerao de grficos foram
desenvolvidas na plataforma computacional R, verso 2.3.1. Este programa pode ser gratuitamente adquirido por download no stio http://www.r-project.org.
Nas seis primeiras sees so apresentados os resultados obtidos com os ajustes dos
modelos descritos no Captulo 3, por meio das estimativas dos parmetros dos modelos e
retas ajustadas sobrepostas ao grfico de disperso dos dados. Alm disso, tambm so
apresentados, por meio de grficos, os resultados obtidos com as tcnicas de diagnstico
descritas na Seo 3.4. O objetivo aqui encontrar subsdios que favoream ou descartem
a utilizao dos modelos propostos. Paula (2003) lista alguns grficos tradicionais que
auxiliam na anlise de diagnstico: para a deteco de pontos aberrantes, grfico de resduos contra os ndices das observaes; para deteco de ausncia de termo extra, grfico
de resduos contra varivel regressora; para deteco de pontos influentes, grfico da distncia de Cook contra os ndices das observaes e grfico de pontos de alavanca contra
os ndices das observaes; para deteco de heteroscedasticidade, grfico dos resduos
contra o valor ajustado; e para deteco de afastamento da suposio da distribuio,
grfico de resduos com envelope simulado.
Cada seo contm uma anlise dos resultados gerados pelos grficos supracitados.
33
4.1
yi
1 yi
= 0 + 1 xi + i , i = 1, . . . , n,
Seo 3.1 em (3.2). A Tabela 4.1 mostra o resultado do ajuste do modelo e indica que o
logito da potncia estatisticamente importante para explicar o fator de simultaneidade.
Tabela 4.1 Ajuste do MRLN com transformao logito na varivel resposta.
Parmetro
Estimativa
Erro Padro
p-valor
-1.47353
0.14655
-10.055
0.0000
-0.34312
0.04496
-7.631
0.0000
0.2276
1.0
12
0.8
0.7
0.6
0.5
0.4
21
0.3
Fator de simultaneidade
16
29
12
16
29
0.1
0.2
logito(Fator de simultaneidade)
0.9
21
4
0
34
31
0.0
34
31
10
0.0
1.0
2.0
3.0
4.0
5.0
6.0
7.0
8.0
9.0
10.0
Potncia computada(MW)
(a)
(b)
Figura 4.1: Grficos de disperso e reta ajustada do MRLN com transformao logito na
varivel resposta.
corrobora a Figura 4.1.a, ao evidenciar que o suave decaimento da reta ajustada transformada acaba por no acomodar as observaes 12, 16, 21 e 29.
A Figura 4.2.a mostra que os resduos no formam nenhuma tendncia no grfico
de disperso contra os ndices das observaes e pe em destaque a observao 21,
caracterizando-a como observao aberrante. Tambm no se observa tendncia claramente definida na Figura 4.2.b, sugerindo que no existe ausncia de termo extra. H
indcios de que as observaes 21, 31 e 34 sejam as mais influentes, conforme a Figura
4.2.c; as observaes 31 e 34 tambm destacam-se como possveis pontos de alavanca, conforme Figura 4.2.d, enquanto a observao 21 parece tambm contribuir para a violao
da suposio de homoscedasticidade, conforme Figura 4.2.e. O teste de Breusch-Pagan,
aplicado aos resduos deste modelo, resulta em um nvel descritivo no limiar da rejeio
da hiptese nula a um nvel de significncia de 10% (p-valor = 0.099). Por fim, a Figura
4.2.f indica que os pontos encontram-se bem distribudos dentro dos limites do grfico de
envelope, com exceo da observao 21. O teste de normalidade de Anderson-Darling
aplicado sobre os resduos padronizados deste modelo no encontra evidncias estatsticas
para rejeitar a hiptese de normalidade (p-valor = 0.508).
35
21
3
2
1
34
Resduo studentizado
1
0
1
Resduo studentizado
21
10
11
31
15
20
25
30
35
40
ndice da observao
hii
0.3
34
0.2
Distncia de Cook
0.4
21
0.0
0.1
31
10
15
20
(b)
25
30
35
(a)
Varivel regressora
40
34
31
21
4.5
4.0
3.5
ndice da observao
3.0
2.5
2.0
1.5
Valor ajustado
(c)
(d)
1
0
1
Residuo Studentizado
34
Resduo studentizado
21
31
4.5
4.0
3.5
3.0
2.5
2.0
1.5
2.0
Valor ajustado
1.5
1.0
0.5
0.0
0.5
1.0
1.5
2.0
(e)
(f)
4.2
MRLN com transformao logito na varivel resposta e transformao logartmica na varivel regressora
yi
1 yi
= 0 + 1 xi + i , i = 1, . . . , n,
Estimativa
Erro Padro
p-valor
-1.75537
0.09684
-18.126
0.0000
-0.82832
0.08768
-9.447
0.0000
0.1730
1.0
0.9
0.8
0.7
0.6
0.5
0.4
21
0.2
0.3
Fator de simultaneidade
1
3
33
34
33
34
31
0.0
31
0.1
logito(Fator de simultaneidade)
21
0.0
ln(Potncia computada)
1.0
2.0
3.0
4.0
5.0
6.0
7.0
8.0
9.0
10.0
(a)
(b)
Figura 4.3: Grficos de disperso e reta ajustada do MRLN com transformao logito na
varivel resposta e transformao logartmica na varivel regressora.
estarem pouco alm do intervalo (-2,2). Tambm no se observa tendncia claramente
definida na Figura 4.4.b, sugerindo que no existe ausncia de termo extra. Segundo o
critrio da distncia de Cook, existem indcios de que a observao 31 seja a mais influente,
conforme indica a Figura 4.4.c, enquanto a observao 21 destaca-se como possvel ponto
de alavanca, conforme Figura 4.4.d. No existem indcios de violao da suposio de
homoscedasticidade, conforme Figura 4.4.e. De fato, o teste de Breusch-Pagan, aplicado
aos resduos deste modelo, no encontra evidncias estatsticas para rejeitar a hiptese
de homoscedasticidade dos resduos (p-valor = 0.70). Por fim, a Figura 4.4.f indica que
as observaes no esto bem distribudas dentro dos limites do grfico de envelope, com
algumas observaes extrapolando estes limites. O teste de normalidade de AndersonDarling aplicado sobre os resduos padronizados deste modelo corrobora os indcios do
grfico de envelope, apresentando, para um nvel de significncia de 5%, um nvel descritivo no limiar da rejeio da hiptese de normalidade (p-valor = 0.0545).
38
33
10
15
20
25
30
2
5
Resduo studentizado
31
0
21
1
0
1
2
Resduo studentizado
33
35
31
40
ndice da observao
hii
0.10
0.05
0.00
Distncia de Cook
0.15
31
10
15
20
(b)
25
30
35
(a)
Varivel regressora
40
21
34
3.5
3.0
2.5
ndice da observao
2.0
1.5
1.0
0.5
Valor ajustado
(d)
(c)
1
0
1
3
Residuo Studentizado
1
1
21
Resduo studentizado
33
31
3.5
3.0
2.5
2.0
1.5
1.0
0.5
2.0
1.5
1.0
Valor ajustado
0.5
0.0
0.5
1.0
1.5
2.0
(e)
(f)
4.3
resultado do ajuste deste modelo e indica que a potncia, como varivel regressora, contribui significativamente para explicar o fator de simultaneidade.
Tabela 4.3 Ajuste do MRLN com transformao logartmica na varivel resposta.
Parmetro
Estimativa
Erro Padro
p-valor
-1.6823
0.1255
-13.408
0.0000
-0.3071
0.0385
-7.976
0.0000
0.1668
1.0
0.9
0.8
0.7
0.6
0.5
0.4
21
0.3
Fator de simultaneidade
1
2
3
12
16
29
0.1
0.2
34
31
log(Fator de simultaneidade)
21
34
0.0
31
10
0.0
1.0
2.0
3.0
4.0
5.0
6.0
7.0
8.0
9.0
10.0
(a)
(b)
Figura 4.5: Grficos de disperso e reta ajustada do MRLN com transformao logartmica
na varivel resposta.
indcios de que as observaes 21, 31 e 34 sejam as mais influentes, conforme indica a
Figura 4.6.c, na qual se observa a distncia de Cook contra os ndices das observaes.
Alm disso, analisando a medida hii , h evidncias de que a observao 34 seja tambm um
ponto de alavanca, conforme indica a Figura 4.6.d. A observao 21 destaca-se na Figura
4.6.e, na qual est o grfico de disperso entre resduo studentizado e valor ajustado, mas
no determina um padro a ponto de suspeitar heteroscedasticidade dos resduos. De fato,
o teste de Breusch-Pagan, aplicado aos resduos deste modelo, no encontra evidncia
estatstica para rejeitar a hiptese de homoscedasticidade (p-valor = 0.24). Por fim, a
Figura 4.6.f mostra o grfico de envelope simulado e indica que os pontos encontramse todos distribudos dentro dos limites do grfico de envelope, sugerindo aderncia
suposio de distribuio do modelo. De fato, o teste de normalidade de AndersonDarling aplicado sobre os resduos padronizados deste modelo no encontra evidncias
estatsticas para rejeitar a hiptese de normalidade (p-valor = 0.81).
41
34
Resduo studentizado
1
0
1
Resduo studentizado
21
21
11
0
10
15
20
25
30
35
40
11
0
ndice da observao
21
0.20
hii
0.15
0.10
0.00
0.05
Distncia de Cook
0.25
34
31
10
(b)
20
30
0.30
(a)
Varivel regressora
34
31
21
40
4.0
3.5
ndice da observao
3.0
2.5
2.0
Valor ajustado
(d)
(c)
1
0
1
Residuo Studentizado
34
Resduo studentizado
21
3
11
4.0
3.5
3.0
2.5
2.0
2.0
Valor ajustado
1.5
1.0
0.5
0.0
0.5
1.0
1.5
2.0
(e)
(f)
4.4
em IPT (2005). A Tabela 4.4 mostra o resultado do ajuste deste modelo e indica que
o logaritmo natural da potncia, como varivel regressora, estatisticamente importante
para explicar o fator de simultaneidade.
Tabela 4.4 Ajuste do MRLN com transformao logartmica nas variveis resposta e regressora.
Parmetro
Estimativa
Erro Padro
p-valor
-1.9575
0.0889
-22.018
0.0000
-0.7136
0.0805
-8.865
0.0000
0.1458
1.0
0.9
0.8
0.7
0.6
0.5
0.4
21
0.1
0.2
0.3
Fator de simultaneidade
1
2
3
34
31
log(Fator de Simultaneidade)
21
34
0.0
31
0.0
log(Potncia computada)
1.0
2.0
3.0
4.0
5.0
6.0
7.0
8.0
9.0
10.0
(a)
(b)
Figura 4.7: Grficos de disperso e reta ajustada do MRLN com transformao logartmica
nas variveis resposta e regressora.
31 e 33 por estarem pouco alm do intervalo (-2,2). Tambm no se observa tendncia
claramente definida na Figura 4.8.b, sugerindo que no existe ausncia de termo extra.
Segundo o critrio da distncia de Cook, h indcios de que as observaes 31 e 34 sejam
as mais influentes, conforme indica a Figura 4.8.c, enquanto a observao 21 destacase como possvel ponto de alavanca segundo o critrio da medida hii , conforme Figura
4.8.d. No existem indcios de violao da suposio de homoscedasticidade, conforme
Figura 4.8.e, que mostra o grfico de disperso entre os resduos studentizados e os valores ajustados. De fato, o teste de Breusch-Pagan, aplicado aos resduos deste modelo,
no encontra evidncias estatsticas para rejeitar a hiptese de homoscedasticidade dos
resduos (p-valor = 0.31). Por fim, a Figura 4.8.f indica que as observaes esto dentro
dos limites do grfico de envelope, com algumas no limiar destes limites, sugerindo uma
leve falta de qualidade de ajuste do modelo. O teste de normalidade de Anderson-Darling
aplicado sobre os resduos padronizados deste modelo rejeita a hiptese de normalidade a
um nvel de 5 % de significncia (p-valor = 0.0462).
44
33
2
1
0
21
Resduo studentizado
1
0
1
2
Resduo studentizado
33
31
0
10
15
20
25
30
31
35
40
ndice da observao
hii
0.00
20
30
0.10
34
0.05
Distncia de Cook
0.15
31
10
(b)
0.20
(a)
Varivel regressora
40
21
34
3.5
3.0
2.5
ndice da observao
2.0
1.5
1.0
Valor ajustado
(d)
(c)
1
0
1
2
Residuo Studentizado
1
0
1
21
Resduo studentizado
33
3.5
31
3.0
2.5
2.0
1.5
1.0
2.0
Valor ajustado
1.5
1.0
0.5
0.0
0.5
1.0
1.5
2.0
(e)
(f)
Figura 4.8: Grficos de diagnstico do MRLN com transformao logartmica nas variveis
resposta e regressora.
45
4.5
Nesta seo considerado o modelo de regresso beta definido na Seo 3.3. Admite-se
que y1 , . . . , yn so variveis aleatrias independentes tal que yi tem distribuio beta de
mdia i e parmetro de disperso , e ainda,
ln
i
1 i
= 0 + 1 xi , i = 1, . . . , n,
foi escolhida por ser particularmente til em termos de interpretao de resultados, uma
vez que possibilita a interpretao do parmetro 1 em termos de razo de chances. A
Tabela 4.5, que mostra o resultado do ajuste do modelo, indica que a potncia contribui
significativamente para explicar o fator de simultaneidade.
Tabela 4.5 Ajuste do modelo de regresso beta.
Parmetro
Estimativa
Erro Padro
p-valor
-1.30368
0.1408
-9.26
0.0000
-0.36479
0.0536
-6.80
0.0000
45.391
10.027
46
1.0
0.9
0.8
0.7
0.6
0.5
0.4
21
0.2
0.3
Fator de Simultaneidade
0
1
2
3
34
31
0.1
logito(Fator de Simultaneidade)
21
34
0.0
31
10
0.0
1.0
2.0
3.0
4.0
5.0
6.0
7.0
8.0
9.0
10.0
Potncia (MW)
(a)
(b)
47
21
3
2
1
34
31
Resduo ponderado
2
1
0
1
Resduo ponderado
21
10
11
15
20
25
30
35
40
ndice da observao
(b)
0.10
(a)
21
0.06
31
0.04
Alavanca generalizada
0.08
21
34
0.00
0.02
Distncia de Cook
Varivel Regressora
10
15
20
25
30
35
40
0.05
0.10
ndice da observao
0.15
0.20
Valor ajustado
(d)
(c)
1
0
2
Residuo Ponderado 2
2
1
0
1
2
Resduo ponderado
21
0.05
0.10
0.15
0.20
2.0
Valor ajustado
1.5
1.0
0.5
0.0
0.5
1.0
(e)
(f)
1.5
2.0
4.6
Nesta seo considerado o modelo de regresso beta definido na Seo 3.3. Admite-se
que y1 , . . . , yn so variveis aleatrias independentes tal que yi tem distribuio beta de
mdia i e parmetro de disperso , e ainda,
ln
i
1 i
= 0 + 1 xi , i = 1, . . . , n,
que mostra o resultado do ajuste do modelo, indica que o logaritmo natural da potncia
computada estatisticamente importante para explicar o fator de simultaneidade.
Tabela 4.6 Ajuste do modelo de regresso beta com transformao logartmica na varivel
regressora.
Parmetro
Estimativa
Erro Padro
p-valor
-1.71223
0.06720
-25.5
0.0000
-0.79352
0.06654
-11.9
0.0000
79.34491
17.40425
1.0
0.9
0.8
0.7
0.6
0.5
0.4
21
0.2
0.3
Fator de Simultaneidade
1
2
3
34
31
0.1
logito(Fator de Simultaneidade)
21
34
0.0
31
0.0
1.0
log(Potncia computada)
2.0
3.0
4.0
5.0
6.0
7.0
8.0
9.0
10.0
Potncia computada(MW)
(a)
(b)
Figura 4.11: Grficos de disperso e reta ajustada do modelo de regresso beta com
transformao logartmica na varivel regressora.
termo extra. A observao 21 apresenta o maior valor residual do ajuste deste modelo.
As observaes 16, 33 e 35 apresentam valores de resduo altos, mas esto relativamente
prximas da massa de dados. Segundo o critrio da distncia de Cook, a observao 21
destaca-se como uma possvel observao influente, conforme mostra a Figura 4.12.c. A
observao 21 tambm destaque como ponto de alavanca, juntamente com a observao
15, conforme indica a Figura 4.12.d. A Figura 4.12.e no sugere nenhum comportamento
heteroscedtico dos resduos. Tambm no se observam desvios relevantes em relao
suposio de distribuio do modelo, conforme Figura 4.12.f, uma vez que as observaes
esto todas distribudas dentro dos envelopes ou bem prximos de seus limites.
4.7
A proposta desta seo escolher, entre os seis modelos ajustados nas sees anteriores, o modelo mais adequado aos dados. Em uma anlise inicial, sero descartados
os modelos que apresentaram algum desvio evidente em relao s suas suposies. Em
50
21
21
16
16
2
1
1
2
35
0
10
15
20
25
30
35
35
40
ndice da observao
0.5
(b)
21
21
0.3
0.2
15
3431
0.0
50
0.1
100
150
Alavanca generalizada
200
0.4
250
Varivel Regressora
(a)
Distncia de Cook
33
Resduo ponderado
1
0
2
Resduo ponderado
33
10
15
20
25
30
35
40
0.1
0.2
ndice da observao
0.3
0.4
Valor ajustado
(c)
(d)
21
2
1
1 0
Residuo Ponderado
1
0
2
Resduo ponderado
16
33
35
0.1
0.2
0.3
0.4
2.0
Valor ajustado
1.5
1.0
0.5
0.0
0.5
1.0
1.5
2.0
(e)
(f)
seguida, para os modelos remanescentes, ser avaliado o impacto da retirada de observaes possivelmente influentes que, segundo os grficos de diagnstico apresentados nas
sees anteriores, esto presentes em todos os modelos. Ao fim desta anlise, ser escolhido
um nico modelo que ser trabalhado de modo a fornecer uma banda de predio, cujo
limite superior ser tomado como a proposta da curva do fator de simultaneidade.
Para o MRLN com transformao logito na varivel resposta, cujos resultados so
apresentados na Seo 4.1, nota-se que a observao 21 extrapola os limites do grfico de
envelope simulado, sugerindo uma leve falta de qualidade de ajuste. Alm disso, fazendo
uma anlise conservadora deste modelo, a suposio de homoscedasticidade violada (pvalor = 0.099 no teste de Breusch-Pagan), sendo tambm a observao 21 a responsvel
por este resultado. Desta forma, o modelo em questo caracteriza-se por no acomodar
de forma satisfatria a observao 21.
Para o MRLN com transformao logito na varivel resposta e transformao logartmica nas varivel regressora, cujos resultados so apresentados na Seo 4.2, o principal desvio fica por conta do teste de Anderson-Darling, que gerou um nvel descritivo no
limiar da rejeio da hiptese de normalidade a um nvel de significncia de 5% (p-valor
= 0.0545). Desta forma, o modelo em questo caracteriza-se por violar a suposio de
normalidade, comprometendo assim os resultados inferenciais.
Para o MRLN com transformao logartmica na varivel resposta, cujos resultados
so apresentados na Seo 4.3, no h nenhuma evidncia de desvio em relao s suposies do modelo. Desta forma, o modelo em questo constitui uma alternativa a ser
considerada.
Similarmente ao modelo apresentado na Seo 4.2, para o MRLN com transformao
logartmica nas variveis resposta e regressora, cujos resultados so apresentados na Seo
4.4, o principal desvio tambm fica por conta do teste de Anderson-Darling, que rejeita
a hiptese de normalidade a um nvel de significncia de 5% (p-valor = 0.0462). Desta
forma, o modelo em questo caraceriza-se por violar a suposio de normalidade, comprometendo assim os resultados inferenciais.
52
53
1.0
0.7
0.6
0.5
0.4
0.1
0.1
0.2
16
29
21
0.3
Fator de Simultaneidade
0.8
0.9
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
12
0.2
Fator de simultaneidade
21
34
34
31
0.0
0.0
31
0.0
1.0
2.0
3.0
4.0
5.0
6.0
7.0
8.0
9.0
10.0
0.0
1.0
2.0
3.0
4.0
5.0
6.0
7.0
8.0
9.0
10.0
Potncia computada(MW)
(a)
(b)
Figura 4.13: Grficos de disperso e reta ajustada do MRLN com transformao logartmica na varivel resposta (a) e do modelo de regresso beta com transformao logartmica
na varivel regressora (b).
fator de simultaneidade no intervalo que vai de 0 a 0.5 M W .
A primeira evidncia de que a transformao logartmica a mais adequada aos dados
vem da anlise das observaes que esto no intervalo (0.5 M W , 1 M W ) de potncia
computada. Estas observaes so melhores acomodadas pelo modelo de regresso beta,
cuja tendncia de decaimento mais acentuada nesta regio. A observao 21 insere-se
nesta interpretao como uma continuao natural desta tendncia. A segunda evidncia vem dos diversos outros estudos ligados ao fator de simultaneidade que evidenciam
que, medida que os valores de potncia computada se aproximam de 0, o valor do fator de simultaneidade tende a aumentar, e que para valores muito baixos de potncia
computada, bastante provvel que o fator de simultaneidade tenda ao valor 1 (ver por
exemplo, Ilha, 1996 e Kawabe, Ogassavara e Dias, 1989). Esta situao claramente
contemplada no modelo de regresso beta, mas no no MRLN. Portanto, embora no
existam razes estatsticas para descartar os modelos apresentados nas Sees 4.3 e 4.6, a
literatura evidencia que o MRLN com transformao logartmica na varivel resposta no
esteja retratando o verdadeiro comportamento do fator de simultaneidade devido a um
54
55
Sem 21
-1.7122
-1.7641
3.0
p-valor
0.0000
0.0000
-0.7935
-0.7305
-7.9
p-valor
0.0000
0.0000
79.3449
78.7392
-0.8
1.0
Parmetro
0.8
0.7
0.6
0.5
0.4
21
0.2
0.3
Fator de Simultaneidade
0
1
2
3
5
0.0
0.1
logito(Fator de Simultaneidade)
Todas
Sem 21
0.9
Todas
Sem 21
21
0.0
ln(Potncia computada)
1.0
2.0
3.0
4.0
5.0
6.0
7.0
8.0
9.0
10.0
(a)
(b)
Figura 4.14: Efeito da retirada da observao 21 no modelo de regresso beta com transformao logartmica na varivel resposta.
56
b
1
b
= 1.71 0.79 x
temos que
e(1.710.79 x )
b=
.
1 + e(1.710.79 x )
Como usual em modelos que levam em conta a funo logito como funo de ligao, poder-se-ia interpretar o modelo ajustado em termos de razo de chances por meio
b
Nota-se, porm, que e(0.11 ) = e(0.10.79) 1.08, o que significa que, a cada re-
57
Captulo 5
Predio do fator de simultaneidade
5.1
Introduo
ser utilizado o mtodo de bootstrap, o qual ser escrito nas sees seguintes.
5.2
O mtodo bootstrap
b
base na distribuio emprica de b pode-se ento estimar a funo de distribuio de .
A forma de obteno das amostras bootstrap definem duas verses para o mtodo:
no-paramtrica e paramtrica. No bootstrap no-paramtrico, a amostra original y assume status de populao, sobre a qual so extradas, aleatoriamente e com reposio,
as amostras bootstrap y . Formalizando este procedimento em termos estatsticos, as
amostras bootstrap so obtidas de uma estimativa no-paramtrica de F, que empiricamente estimada por
b = #{yi t} , t R,
F(t)
n
(5.1)
5.3
parmetros do modelo, obtidos com base no conjunto de dados original. Alm da predio
que a mdia + e a distribuio de R(y, ) sejam conhecidas e que q seja o -simo quan-
til desta distribuio. Logo, os limites de predio para um intervalo com nvel nominal
1 so os valores y+,/2 e y+,1/2 que satisfazem, respectivamente, R(y, + ) = q(/2)
de reamostragem, tal como o mtodo bootstrap, por exemplo. Desta forma, por meio do
mtodo bootstrap possvel obter uma aproximao da distribuio de R(y+ ,
b), e assim obter os quantis empricos utilizados na obteno dos limites de predio. A funo
lizar para o processo de reamostragem uma verso padronizada da funo R(y, ), cuja
que o resduo padronizado 2 tal como definido em 3.15. Para desenvolver o mtodo bootstrap para a obteno de limites de predio empricos para o modelo de regresso beta,
Ospina (2007) baseou-se no mtodo proposto por Davison e Hinkley (1997) para modelos
lineares generalizados. Em sua tese, a autora detalha o algoritmo para a obteno dos
limites de predio empricos, mostra um exemplo de aplicao e conclui que o intervalo
de predio bootstrap tem, em geral, bom desempenho, mas tende a falhar quando usado
para prever casos que seriam considerados influentes se estivessem presentes no conjunto
de dados observados.
O mtodo proposto por Ospina (2007) foi a ferramenta utilizada para a obteno do
intervalo de predio do modelo ajustado na Seo 4.6. Implementada na plataforma
computacional Ox, a sada do mtodo computacional so os valores referentes ao intervalo de predio bootstrap. Dentro do intervalo (0, 10] (em kW), a cada incremento de 1W
no valor da potncia computada, foi empregado o mtodo bootstrap, gerando assim 10000
valores preditos do fator de simultaneidade com seus respectivos limites inferiores e superiores de intervalo de predio bootstrap. Aqui, foram considerados limites de predio
com coeficiente de confiana nominal igual a 95%.
Os resultados gerados pelos limites inferiores do intervalo de predio no tm utilidade
prtica neste trabalho. O maior interesse est no limite superior do intervalo de predio,
cujos valores formam o grfico exibido na Figura 5.1.a.
Aparentemente, a curva exibida na Figura 5.1.a contnua e monotonicamente decrescente. Na verdade, esta figura formada pela sucesso de pontos bem prximos
que carregam a variao natural existente em uma tcnica de bootstrap, e que pode ser
observada por alguns pontos que se distanciam da curva principal. A fim de eliminar
61
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.0
0.1
0.2
0.3
Fator de Simultaneidade
0.7
0.6
0.5
0.4
0.3
0.0
0.1
0.2
Fator de Simultaneidade
0.8
0.9
1.0
0.0
1.0
2.0
3.0
4.0
5.0
6.0
7.0
8.0
9.0
10.0
0.0
1.0
Potncia (MW)
2.0
3.0
4.0
5.0
6.0
7.0
8.0
9.0
10.0
Potncia (MW)
(a)
(b)
Figura 5.1: Limite superior do intervalo de predio bootstrap: dados brutos (a) e sob
efeito da tcnica LOWESS de suavizao de curvas (b).
A utilizao da tcnica do LOWESS o passo final para a obteno de uma nova
curva de predio para o fator de simultaneidade com base na potncia computada. No
entanto, diferentemente das abordagens da norma tcnica NBR 14570 e de IPT(2005),
a abordagem desta dissertao no apresenta como resultado final uma frmula fechada
para o fator de simultaneidade. O resultado final deste trabalho uma tabela que relaciona o fator de simultaneidade com a potncia computada, cujos valores constituram o
grfico da Figura 5.1.b. Estes valores podem ser observados na Tabela 5.1.
62
F.S.
MW
F.S.
MW
F.S.
MW
F.S.
MW
F.S.
MW
F.S.
0.00
0.842
0.34
0.417
0.68
0.304
1.02
0.251
1.36
0.219
3.50
0.143
0.01
0.823
0.35
0.412
0.69
0.302
1.03
0.250
1.37
0.218
3.60
0.142
0.02
0.803
0.36
0.407
0.70
0.299
1.04
0.249
1.38
0.218
3.70
0.140
0.03
0.784
0.37
0.402
0.71
0.298
1.05
0.248
1.39
0.217
3.80
0.138
0.04
0.764
0.38
0.397
0.72
0.296
1.06
0.247
1.40
0.216
3.90
0.137
0.05
0.745
0.39
0.391
0.73
0.294
1.07
0.245
1.41
0.215
4.00
0.136
0.06
0.726
0.40
0.387
0.74
0.292
1.08
0.244
1.42
0.215
4.10
0.134
0.07
0.706
0.41
0.383
0.75
0.290
1.09
0.243
1.43
0.214
4.20
0.133
0.08
0.687
0.42
0.379
0.76
0.289
1.10
0.242
1.44
0.213
4.30
0.132
0.09
0.667
0.43
0.375
0.77
0.287
1.11
0.241
1.45
0.213
4.40
0.131
0.10
0.648
0.44
0.372
0.78
0.285
1.12
0.240
1.46
0.212
4.50
0.130
0.11
0.635
0.45
0.368
0.79
0.283
1.13
0.239
1.47
0.211
4.60
0.128
0.12
0.621
0.46
0.364
0.80
0.281
1.14
0.238
1.48
0.210
4.70
0.128
0.13
0.607
0.47
0.361
0.81
0.280
1.15
0.237
1.49
0.210
4.80
0.127
0.14
0.594
0.48
0.357
0.82
0.278
1.16
0.236
1.50
0.209
4.90
0.125
0.15
0.580
0.49
0.353
0.83
0.277
1.17
0.235
1.60
0.203
5.00
0.125
0.16
0.567
0.50
0.350
0.84
0.275
1.18
0.234
1.70
0.197
5.25
0.122
0.17
0.553
0.51
0.347
0.85
0.273
1.19
0.233
1.80
0.192
5.50
0.120
0.18
0.540
0.52
0.344
0.86
0.272
1.20
0.233
1.90
0.187
5.75
0.119
0.19
0.526
0.53
0.341
0.87
0.270
1.21
0.232
2.00
0.183
6.00
0.117
0.20
0.513
0.54
0.339
0.88
0.269
1.22
0.231
2.10
0.179
6.25
0.115
0.21
0.505
0.55
0.336
0.89
0.267
1.23
0.230
2.20
0.175
6.50
0.114
0.22
0.498
0.56
0.333
0.90
0.266
1.24
0.229
2.30
0.172
6.75
0.112
0.23
0.490
0.57
0.330
0.91
0.264
1.25
0.228
2.40
0.169
7.00
0.111
0.24
0.482
0.58
0.327
0.92
0.263
1.26
0.227
2.50
0.166
7.25
0.109
0.25
0.475
0.59
0.325
0.93
0.262
1.27
0.226
2.60
0.163
7.50
0.109
0.26
0.467
0.60
0.322
0.94
0.261
1.28
0.225
2.70
0.160
7.75
0.107
0.27
0.460
0.61
0.320
0.95
0.259
1.29
0.225
2.80
0.157
8.00
0.107
0.28
0.452
0.62
0.317
0.96
0.258
1.30
0.224
2.90
0.155
8.25
0.106
0.29
0.445
0.63
0.315
0.97
0.257
1.31
0.223
3.00
0.153
8.50
0.105
0.30
0.437
0.64
0.313
0.98
0.256
1.32
0.222
3.10
0.151
8.75
0.104
0.31
0.432
0.65
0.311
0.99
0.254
1.33
0.221
3.20
0.149
9.00
0.103
0.32
0.427
0.66
0.308
1.00
0.253
1.34
0.221
3.30
0.147
9.50
0.102
0.33
0.422
0.67
0.306
1.01
0.252
1.35
0.220
3.40
0.145
10.00
0.101
63
Captulo 6
Consideraes finais
6.1
Concluses
Neste trabalho, foram apresentadas diversas abordagens possveis para a predio do fator de simultaneidade por meio de modelos de regresso para propores contnuas. O
objetivo foi identificar quais destas abordagens melhor se adapta ao conjunto de dados
utilizado e, assim, propor uma curva do fator de simultaneidade.
De modo geral, pode-se dividir os modelos utilizados neste trabalho em trs classes:
modelos de regresso lineares normais, modelos de regresso lineares normais motivados
por modelos de regresso no-lineares normais, e modelos de regresso beta. As duas
primeiras classes de modelos so alternativas largamente empregadas na literatura cientfica, conforme mostram Kieschnick e McCullough (2003). A comparao entre os modelos
ocorreu por meio das diversas tcnicas de diagnsticos apresentadas na Seo 3.4, que
ajudaram a identificar desvios nas suposies dos modelos e observaes influentes. Por
razes j apresentadas na Seo 4.7, o modelo mais adequado aos dados deste trabalho
foi o modelo de regresso beta com transformao logartmica na varivel regressora, concluso esta que vai ao encontro das expectativas iniciais do trabalho.
A simples escolha de um modelo que se ajustou melhor aos dados no fornece uma
soluo ao problema de predio do fator de simultaneidade, uma vez que um modelo
bem ajustado forneceria apenas uma boa estimativa do fator de simultaneidade mdio
64
6.2
A partir dos resultados obtidos neste trabalho, surgem duas novas perspectivas de trabalho
futuro, uma focada no aspecto prtico dos problemas envolvendo o fator de simultaneidade e outra privilegiando o aspecto terico dos modelos estatsticos a serem utilizados.
Sob o ponto de vista prtico, a oportunidade surge quando se constata o escopo restrito
do modelo obtido. Os dados levantados referem-se a sistemas prediais exclusivamente
residenciais, situados na cidade de So Paulo e equipados com fogo e aquecedor de gua.
Portanto, os resultados obtidos no devem ser extrapolados para sistemas prediais com
outras caractersticas. A incluso de sistemas prediais com outras caractersticas pode
65
melhorar a predio do fator de simultaneidade e aumentar a sua abrangncia. Em termos estatsticos, a sugesto considerar outras variveis regressoras que levem em conta
a diversidade dos sistemas prediais, tais como regio (fria ou quente, rica ou pobre), fins
de utilizao do gs (cocco e aquecimento, somente cocco, somente aquecimento),
atividade (somente residencial, somente comercial, residencial e comercial), entre outras.
Sob o ponto de vista terico, existem vrios outros modelos que podem ser utilizados
para modelar o fator de simultaneidade. Alm dos j citados aqui, Kieschnick e McCullough (2003) citam o modelo de regresso normal censurado (Tobit), o modelo simplex e
os modelos de quase-verossimilhana. Smithson e Verkuilen (2006) apresentam uma variao do modelo de regresso beta que considera a modelagem do parmetro de disperso.
Deve-se ressaltar, no entanto, que o problema no se restringe ao ajuste do modelo aos
dados. Deve-se tambm buscar uma soluo para a obteno de intervalos de predio,
que o passo no qual efetivamente se obtm a predio do fator de simultaneidade para
novas edificaes.
66
Apndice A
Dados
ID
Potncia(MW)
FS Observado
ID
Potncia(kW)
FS Observado
4.210
0.064
22
1.202
0.112
1.499
0.092
23
1.666
0.125
3.268
0.031
24
2.379
0.076
3.268
0.079
25
3.453
0.086
1.955
0.099
26
2.962
0.116
3.167
0.062
27
4.896
0.029
2.135
0.114
28
3.546
0.063
2.690
0.068
29
0.812
0.222
1.387
0.070
30
2.837
0.067
10
1.304
0.069
31
5.949
0.016
11
2.130
0.041
32
1.148
0.124
12
0.635
0.249
33
3.124
0.147
13
3.066
0.089
34
8.786
0.018
14
2.593
0.047
35
0.918
0.088
15
0.591
0.148
36
2.682
0.066
16
0.823
0.276
37
3.206
0.066
17
4.989
0.060
38
2.947
0.059
18
1.957
0.123
39
4.495
0.047
19
3.081
0.062
40
3.975
0.058
20
3.524
0.070
41
4.863
0.061
21
0.169
0.464
42
4.078
0.069
67
Referncias Bibliogrficas
[1] ABNT - Associao Brasileira de Normas Tcnicas. (2002) NBR 14570 - Instalaes
Internas para Uso Alternativo dos Gases GN e GLP - Produto e Execuo. Rio de
Janeiro, ABNT.
[2] Anderson, T. W., Darling, D. A. (1954). A test of goodness of fit. Journal of the
American Statistical Association, 49, 765 - 769.
[4] Breusch, T. S., Pagan, A.R. (1979). A simple test for heteroscedasticity and random
coefficient variation. Econometrica, 47, 1287 - 1294.
[5] Bussab, W. O., Morettin, P. A. (2002). Estatstica Bsica. 5a ed., So Paulo, Saraiva.
[7] Casella, G., Berger, R. L. (1996). Statistical Inference. California, Duxbury Press.
68
[8] Cleveland, W. S. (1979). Robust locally weighted regression and smoothing scatterplots. Journal of the American Statistical Association, 74, 829 - 836.
[12] Cook, R.D., Pea, D., Weisberg, S. (1988). The likelihood displacement: A unifying
principle for influence measures. Communications in Statistics, Theory and Methods,
17, 623 - 640.
[13] Cook, R.D., Weisberg, S. (1982). Residuals and Influence in Regressions. London,
Chapman and Hall.
[14] Cordeiro, G.M., Paula, G.A. (1992). Estimation, large-sample parametric tests
and diagnostics for non-exponential family nonlinear models. Communications in
Statistics, Simulation and Computation, 21, 149 - 172.
[15] Davison, A. C., Hinkley, D. V. (1997). Bootstrap Methods and their Applications.
New York, Cambridge University Press.
[16] Draper, N. R., Smith, H. (1981). Applied Regression Analysis. New York, Wiley.
69
[17] Efron, B. (1979). Bootstrap methods: another look at the jackknife. Annals of
Statistics, 7, 1-26.
[19] Everitt, B., S. (1994). A Handbook os Statistical Analysis using S-Plus. Chaaman
and Hall, London.
[20] Ferrari, S. L. P., Cribari-Neto, F. (2004). Beta regression for modelling rates and
proportions. Journal of Applied Statistics, 31, 799 - 815.
[21] Hoaglin, D. C., Welsch, R. E. (1978). The hat matrix in regression and ANOVA.
The American Statistician, 32, 17-22.
[24] Kawabe, L., Ogassavara, G., Dias, R. P. (1989) Fator de simultaneidade. In:
Simpsio Brasileiro de Medio de Vazo, 1., So Paulo, 1989. Anais. So Paulo,
IPT, 117 - 123.
70
[26] Mittlbck, M., Schemper, M. (1996). Explained variation for logistic regression.
Statistics in Medicine, 15, 1987 - 1997.
[28] Neter, J., Kutner, M. H., Nachtsheim, C. J., Wasserman, W. (1996). Applied Linear
Statistical Models. Chicago, Irwin.
[29] Nocedal, J., Wright, S. J. (1999). Numerical Optimization. New York, SpringerVerlag.
[31] Ospina, P. L. E. (2007). Regresso Beta. So Paulo, 2007. Tese (Doutorado) - IME,
Universidade de So Paulo.
[33] Pregibon, D. (1981). Logistic regression diagnostics. Annals of Statistics, 9, 705 - 724.
[34] Rao, C. R. (1973). Linear Statistical Inference and Its Applications. New York, Wiley.
71
[36] Wei, B. C., Hu, Y. Q., Fung, W. K. (1998). Generalized leverage and its applications.
Scandinavian Journal os Statistics, 25, 25 - 37.
72