Sei sulla pagina 1di 79

.

Predio de fator de simultaneidade

atravs de modelos de regresso


para propores contnuas

Luiz Fernando Molinari Zerbinatti

Dissertao apresentada
ao
Instituto de Matemtica e Estatstica
da
Universidade de So Paulo
para
obteno do ttulo
de
Mestre em Cincias

rea de concentrao: Estatstica


Orientadora: Profa . Dra . Silvia Lopes de Paula Ferrari

So Paulo, 29 de Fevereiro de 2008


.

Predio de fator de simultaneidade

atravs de modelos de regresso


para propores contnuas

Este exemplar corresponde redao

final da dissertao devidamente corrigida

e defendida por Luiz Fernando Molinari Zerbinatti

e aprovada pela comisso julgadora.

So Paulo, 29 de fevereiro de 2008

Banca examinadora

Profa. Dra. Silvia Lopes de Paula Ferrari (Orientadora) - IME/USP

Profa. Dra. Lucia Pereira Barroso - IME/USP

Profa. Dra. Olga Satomi Yoshida - IPT


.

Agradecimentos
A Deus, pela vida e pela sade.

minha orientadora, professora Silvia Ferrari, que me conduziu de forma


segura e acreditou neste trabalho. Na minha curta experincia acadmica,
foram poucas as vezes que encontrei tanto entusiasmo, dedicao e humil-
dade em um professor.

Olga, que acreditou na minha capacidade, concedendo a oportunidade de


conviver durante 18 meses com profissionais de elevadssimo nvel tcnico,
alm de sugerir e viabilizar esta dissertao.

Profa. Lcia, que enriqueceu este trabalho com suas valiosas sugestes.

A todos os colegas do CMF / IPT - Centro de Metrologia de Fluidos do


Instituto de Pesquisas Tecnolgicas, que fizeram grande parte deste tra-
balho acontecer - Carlos Eduardo, Elaine, Marcelo, Nilson, Terahata, aos
profissionais da COMGS envolvidos neste projeto.

Aos meus pais. Este trabalho fruto do amor e da confiana incondicionais


que eles sempre depositaram em mim.

Julcilei que, sua maneira, contribuiu para este trabalho.

Ao teacher Renato, pelo help no abstract.

Aos colegas da Unicamp e da USP, que sempre me ajudaram no dia a dia do


mundo acadmico. Um agradecimento especial Patrcia Espinheira, que
contribuiu decisivamente para a concluso deste trabalho.

Aos funcionrios da Unicamp e da USP, principalmente a todos os meus pro-


fessores, sempre excepcionais na nobre misso de ensinar, contribuindo de
forma imensurvel com a minha formao. Um agradecimento especial ao
professor Filidor, que me iniciou na pesquisa acadmica.

i
.

Resumo

O fator de simultaneidade fundamental no planejamento de redes de distribuio de gs


natural. Trata-se de um multiplicador entre 0 e 1 que ajusta o consumo total terico de um
nmero de aparelhos de utilizao em condies reais. Em 2005 o Instituto de Pesquisas
Tecnolgicas (IPT) e a Companhia de Gs de So Paulo (COMGS) realizaram um estudo
no qual determinou-se o fator de simultaneidade em um conjunto de edificaes residen-
ciais. Um modelo de regresso foi proposto para expressar o fator de simultaneidade em
termos da potncia total instalada. O modelo ajustado pode ser utilizado para predizer o
fator de simultaneidade em novas edificaes. O modelo em questo um modelo de re-
gresso linear normal no qual a varivel resposta o logaritmo do fator de simultaneidade.

Nesta dissertao, o objetivo investigar outras possibilidades de modelos de regresso


adequados aos dados obtidos pelo IPT e pela COMGS. Especial ateno dada ao
modelo de regresso beta proposto por Ferrari e Cribari-Neto (Journal of Applied Statis-
tics, 2004) por possuir vantagens sobre o modelo de regresso linear normal. O modelo de
regresso beta assume que, dadas as covariveis, a varivel resposta possui distribuio
beta, sendo adequado para modelar dados observados no intervalo unitrio. Desta forma,
a transformao na varivel resposta - o fator de simultaneidade - desnecessria.

Alm disso, proposta uma nova abordagem para a predio do fator de simultanei-
dade, diferente de todas as abordagens pesquisadas na literatura, utilizando a tcnica de
bootstrap.

Palavras-chaves: Modelo de regresso beta; Bootstrap; Propores contnuas; Diag-


nstico; Redes de distribuio de gs; Predio; Modelos de regresso; Fator de simul-
taneidade.

ii
.

Abstract

The simultaneity factor is fundamental in planning gas distribution networks. It is a mul-


tiplicator between 0 and 1 that adjusts the theoretical total consumption of a number of
devices to realistic conditions. In 2005, the Instituto de Pesquisas Tecnolgicas (IPT) and
the Companhia de Gs de So Paulo (COMGS) performed a study in which the simul-
taneity factor of gas consumption in a set of residential buildings have been determined.
A regression model was proposed to express the simultaneity factor in terms of the total
power of installed equipment. The fitted model can be used to predict the simultaneity
factor in new buildings. The model they proposed is a normal linear regression model in
which the response variable is the logarithm of the simultaneity factor.

In the present dissertation, our aim is to investigate other possible regression mod-
els suitable to the data obtained by IPT and CONGS. Emphasis is given to the beta
regression model proposed by Ferrari and Cribari-Neto (Journal of Applied Statistics,
2004) which has a number of advantages over normal linear regression models. The beta
regression model assumes that, given the covariates, the response variable has a beta dis-
tribution, which is adequate to model data observed in the unit interval. Therefore, no
transformation in the response variable, the simultaneity factor, is needed.

Additionally, we present a new approach for the prediction of the simultaneity factor,
that is different from all the approaches shown in the literature, using the bootstrap tech-
nique.

Keywords: Beta regression model; Bootstrap; Continuous Proportions; Diagnostic;


Gas distribution network; Prediction; Regression models; Simultaneity factor.

iii
Sumrio

1 Introduo 1
1.1 Organizao da dissertao . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2 Apresentao do problema 5
2.1 O sistema predial de gs natural . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Fator de simultaneidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3 Coleta de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.4 Anlise descritiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3 Descrio dos modelos estatsticos 15


3.1 Modelo de regresso linear normal . . . . . . . . . . . . . . . . . . . . . . . 16
3.2 Modelo de regresso no-linear normal . . . . . . . . . . . . . . . . . . . . 20
3.3 Modelo de regresso beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.4 Tcnicas de diagnstico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

4 Anlise dos dados 33


4.1 MRLN com transformao logito na varivel resposta . . . . . . . . . . . . 34
4.2 MRLN com transformao logito na varivel resposta e transformao log-
artmica na varivel regressora . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.3 MRLN com transformao logartmica na varivel resposta . . . . . . . . . 40
4.4 MRLN com transformao logartmica nas variveis resposta e regressora . 43
4.5 Modelo de regresso beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.6 Modelo de regresso beta com transformao logartmica na varivel re-
gressora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.7 Comparao entre os modelos . . . . . . . . . . . . . . . . . . . . . . . . . 50

iv
5 Predio do fator de simultaneidade 58
5.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.2 O mtodo bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.3 Intervalos de predio bootstrap . . . . . . . . . . . . . . . . . . . . . . . . 60

6 Consideraes finais 64
6.1 Concluses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
6.2 Sugestes para trabalhos futuros . . . . . . . . . . . . . . . . . . . . . . . . 65

A Dados 67

v
Captulo 1

Introduo

As primeiras reservas brasileiras de gs natural comearam a ser exploradas na Bahia,


na dcada de 40. Inicialmente restrito a aplicaes industriais, observou-se no decorrer da
dcada uma tmida expanso do uso do gs em estados vizinhos bem como uma pequena
diversificao de suas aplicaes, passando a ser utilizado tambm como combustvel para
refinarias e plos petroqumicos. Apenas 40 anos depois, na dcada de 80, assistiu-se
ao primeiro marco importante na histria do gs natural no Brasil, com a descoberta
da bacia de Campos. Finalmente o combustvel atingiu participao sigificativa na ma-
triz energtica brasileira. Mas a bacia de Campos no foi suficiente para impulsionar a
popularizao do combustvel pas afora.

A forte expanso do uso do gs natural que se observa hoje no Brasil devida


conjuno de fatos bastante recentes da histria da Amrica do Sul. De um lado, a
descoberta de amplas reservas de gs natural na regio - incluindo-se a a bacia de Santos
- e a concluso do gasoduto Brasil-Bolvia elevaram consideravelmente a disponibilidade
do combustvel no pas. Do outro, a demanda pelo combustvel tambm vem crescendo.
Consumidores industriais, comerciais e residenciais esto percebendo que, alm do preo
competitivo, o gs natural oferece vantagens logsticas e ambientais. O recente colapso na
rede eltrica do pas e as incertezas sobre a disponibilidade futura deste tipo de energia
tambm elevaram a demanda do combustvel, que se apresentou como a alternativa de me-
lhor custo-benefcio no mdio prazo. Por estas razes, hoje os governantes atribuem peso

1
elevado ao gs natural na poltica energtica nacional. Aliado aos interesses comerciais
das empresas concessionrias, o Estado vem promovendo uma forte poltica de expanso
do gs natural no pas. No por acaso, as companhias de gs buscam formas de reduzir os
custos de instalao para o gs natural ao mesmo tempo em que se assiste expanso do
uso deste combustvel. Esta uma necessidade criada pela recente poltica de massificao
do gs natural no pas, que transformou o custo de instalao em uma varivel de peso nas
contas das companhias, e fez com que as oportunidades de melhoria no dimensionamento
da rede recebessem ateno especial dentro destas empresas.

O fator de simultaneidade insere-se no contexto de oportunidades de melhoria no di-


mensionamento da rede. Os textos normativos referentes s instalaes prediais de gs
natural definem o fator de simultaneidade como sendo "a relao percentual entre a potn-
cia verificada praticamente, com que trabalha simultaneamente um grupo de aparelhos,
servidos por um determinado trecho de tubulao, e a soma da capacidade mxima de
consumo desses mesmos aparelhos". Este nmero possui vital importncia para o dimen-
sionamento das redes de distribuio de gs, pois a partir dele que se obtm a vazo de
projeto, ou seja, a vazo mxima que provavelmente se pratica em um trecho da tubulao.
Para obter a vazo de projeto em um trecho da tubulao, o fator de simultaneidade
aplicado sobre a vazo mxima possvel deste mesmo trecho, de modo que

Qp = F Qmax ,

onde Qp a vazo de projeto, F o fator de simultaneidade e Qmax a vazo mxima


possvel. Como o fator de simultaneidade um nmero adimensional situado no inter-
valo (0,1), pode-se interpretar a vazo de projeto como um percentual da vazo mxima
possvel. Em outras palavras, o fator de simultaneidade representa o percentual da vazo
mxima possvel que provavelmente se pratica naquele trecho de tubulao.

Ilha (1996) explica o impacto de superestimar o fator de simultaneidade. A superes-


timativa do fator de simultaneidade implica no somente no superdimensionamento das
tubulaes internas, dos reguladores de presso e dos medidores utilizados em um edifcio
residencial, - a chamada rede de distribuio interna - mas tambm nas estimativas de

2
demanda de gs natural e, conseqentemente, na rede pblica de abastecimento como um
todo. Superestimar o fator de simultaneidade gerar custos desnecessrios s companhias
de gs. E exatamente neste ponto em que se encontra uma fonte potencial de economia
no desenvolvimento de projetos de instalao predial. Kawabe, Ogassavara e Dias (1989)
mostraram indcios de que o fator de simultaneidade estava sendo superestimado com a
antiga curva utilizada pela Companhia de Gs de So Paulo (COMGS) e publicada em
Comgs (1977). Posteriormente a COMGS reformulou os seus procedimentos para o
clculo de vazes de projeto, que culminou em uma nova curva proposta por Carvalho
(1995), e hoje publicada tambm na norma tcnica NBR 14570.

A metodologia empregada no desenvolvimento da curva apresentada por Carvalho


(1995) representou significativa reduo nas estimativas do fator de simultaneidade, mas
ainda sobraram margens para novas melhorias. Trabalhando neste sentido, o Instituto
de Pesquisas Tecnolgicas (IPT) e a COMGS desenvolveram um novo trabalho com
uma extensa campanha de medio com o objetivo de levantar fatores de simultaneidade
empricos, relacion-los com suas respectivas vazes mximas possveis e, assim, propor
um novo modelo estatstico que relacionasse fator de simultaneidade com vazo mxima
possvel 1 . De fato, foi verificado que o fator de simultaneidade podia ser otimizado, con-
forme publicado em IPT (2005). Parte dos dados deste trabalho foi disponibilizado pela
COMGS para o desenvolvimento desta dissertao de mestrado.

O objetivo central desta dissertao consiste em analisar o problema de predio do


fator de simultaneidade luz de diversos modelos estatsticos. Particularmente, dentre
os modelos considerados, especial ateno dada ao modelo de regresso beta proposto
por Ferrari e Cribari-Neto (2004) que, teoricamente, se adequa melhor natureza dos
dados coletados. Alm disso, uma vez determinado o modelo mais adequado aos dados,
pretende-se propor uma nova abordagem para a predio do fator de simultaneidade a
partir da demanda mxima possvel, diferente de todas as abordagens pesquisadas na
literatura, utilizando a tcnica de bootstrap.

1
O autor da presente dissertao foi um dos integrantes da equipe tcnica responsvel pela conduo
do trabalho de campo e pelo desenvolvimento dos modelos estatsticos deste projeto.

3
1.1 Organizao da dissertao

Esta dissertao est organizada em seis captulos. No Captulo 2 encontra-se a


apresentao do problema. Nele esto contidos os principais conceitos tcnicos utiliza-
dos nesta dissertao, a descrio detalhada do problema e a descrio do trabalho de
coleta de dados realizado pelo IPT.

No Captulo 3 so apresentados os fundamentos tericos dos modelos estatsticos con-


siderados neste trabalho. Conforme ser visto, s h interesse em modelos que, de alguma
forma, so empregados com sucesso na modelagem de variveis resposta cujos valores es-
to situados no intervalo (0,1). As bases tericas das tcnicas de diagnstico tambm so
apresentadas neste captulo. As tcnicas de diagnstico so um conjunto de ferramentas
utilizado na avaliao da qualidade do ajuste de modelos estatsticos, e tiveram papel
fundamental nesta dissertao.

O Captulo 4 apresenta a aplicao da teoria apresentada no captulo anterior. Cada


seo mostra os resultados do ajuste do modelo, bem como uma anlise de diagnstico
deste ajuste. Na ltima seo, apresenta-se uma comparao entre os resultados obtidos,
subsidiando assim a escolha do modelo mais adequado aos dados.

No Captulo 5 prope-se uma curva do fator de simultaneidade. A proposta desta


nova curva feita com base no modelo escolhido no Captulo 4, empregando a tcnica do
bootstrap, uma abordagem diferente de todas aquelas encontradas na literatura.

Finalmente, no Captulo 6, so apresentadas as concluses e recomendaes deste


trabalho, bem como sugestes de trabalhos futuros.

4
Captulo 2

Apresentao do problema

2.1 O sistema predial de gs natural

Antes de apresentar o problema, conveniente compreender a terminologia empre-


gada em um sistema predial de gs natural. Estas definies foram estabelecidas pela
Associao Brasileira de Normas Tcnicas (ABNT) e esto publicadas na norma tcnica
NBR 14570.

Rede geral: rede pblica de abastecimento de gs.

Rede de alimentao: trecho de tubulao que conecta a rede pblica rede de


distribuio interna.

Rede de distribuio interna: conjunto de tubulao e acessrios situado dentro dos


limites da propriedade dos consumidores, aps os estgios de regulagem de presso.

Regulador de presso de primeiro estgio: equipamento utilizado para reduzir a


presso do gs antes de sua entrada na rede primria. Dependendo da presso da
rede de alimentao, pode ser desnecessrio.

Regulador de presso de segundo estgio ou estgio nico: equipamento utilizado


para reduzir a presso do gs antes de sua entrada na rede secundria a nveis
adequados ao funcionamento dos aparelhos de utilizao.

5
Rede primria: trecho de tubulao compreendido entre os reguladores de primeiro
e segundo estgio.

Rede secundria: trecho de tubulao compreendido entre o regulador de segundo


estgio e os pontos de utilizao.

Ponto de utilizao: extremidade da tubulao qual se conecta um aparelho de


utilizao a gs.

Medidor: equipamento empregado na medio de consumo do gs natural, instalado


ao longo da rede secundria.

Uma instalao predial de gs natural tpica, bem como a sua integrao com a rede
geral, pode ser observada na Figura 2.1.

Figura 2.1: Esquema tpico de um sistema predial de gs natural. Fonte: Ilha (1996)

6
O projeto e a execuo das instalaes da rede de distribuio interna de gs devem
obedecer s normas conforme a NBR 14570. Nesta norma esto contidas as determi-
naes sobre instalao, abrigo de medidores e reguladores, tubos e conexes, segurana
e dimensionamento das tubulaes, entre outras. Esta norma no se aplica somente s
instalaes prediais de gs abastecidas por canalizao de rua (gs natural) mas tambm
quelas abastecidas por uma central de gs (gs liquefeito).

2.2 Fator de simultaneidade

Antes de definir o conceito do fator de simultaneidade, conveniente entender algumas


relaes existentes entre as unidades de grandeza de potncia e vazo. Quando se fala
em gs combustvel, vazo e potncia se inter-relacionam por meio do poder calorfico.
O poder calorfico uma propriedade fsica inerente a qualquer combustvel e definido
como a quantidade de energia que se desprende na combusto completa de uma unidade
de volume ou massa. No caso dos gases, o poder calorfico usualmente expresso em
kcal/m3 . A potncia, por sua vez, definida como a energia produzida ou consumida por
unidade de tempo. Pode-se convenientemente expressar a potncia como kcal/h, e assim
verificar facilmente a relao

P
Q= (2.1)
PC

em que Q a vazo nominal de um aparelho (m3 /h), P a potncia nominal de um


aparelho (kcal/h) e P C o poder calorfico do gs (kcal/m3 ). Esta relao ser til nos
clculos de projeto de um sistema predial de gs combustvel, conforme se ver a seguir.

Uma vez esclarecida a relao entre potncia e vazo, pode-se compreender melhor o
conceito e a definio do fator de simultaneidade. consenso entre os projetistas que no
necessrio projetar o sistema predial de gs combustvel de modo a atender a capacidade

7
mxima de consumo da edificao. Basta que o sistema esteja preparado para atender
demanda mxima praticada na edificao. usual mensurar a capacidade mxima
de consumo e a demanda mxima praticada em unidades de potncia, e denomin-las,
respectivamente, como potncia computada e potncia adotada.

Os textos normativos estrangeiros e nacionais sugerem que a potncia adotada seja


obtida pelo mtodo do fator de simultaneidade. Segundo a norma NBR 14570, o fator
de simultaneidade uma "relao percentual entre a potncia verificada praticamente,
com que trabalha simultaneamente um grupo de aparelhos, (. . .) e a soma da capacidade
mxima de consumo desses mesmos aparelhos". Portanto, para a obteno da potncia
adotada de um sistema predial de gs, segue-se o seguinte procedimento:

apura-se a potncia computada C a ser instalada em um determinado trecho, somando-


se as potncias nominais dos aparelhos de utilizao supridos por este trecho;

determina-se o fator de simultaneidade F em funo da potncia computada. Se


a unidade de potncia empregada nos clculos de C for o kilowatt (kW), a relao
entre F e C proposta na norma NBR 14570



1 se C < 24.43;



1

se 24.43 C < 670.9;
F = 1 + 0.01016(C 24.37)0.8712 (2.2)
1

se 670.9 C < 1396;

1 + 0.7997(C 73.67)0.19931


0.23 se C > 1396;

calcula-se a potncia adotada A fazendo A = F C.

Utilizando a relao mostrada em (2.1), pode-se redefinir o fator de simultaneidade


em termos de vazo. Em outras palavras, o fator de simultaneidade a relao per-
centual entre a vazo verificada na prtica devida ao trabalho simultneo de um grupo
de aparelhos servido por um determinado trecho de tubulao (vazo adotada) e a vazo
mxima desses mesmos aparelhos (vazo computada).

8
Para exemplificar o uso do fator de simultaneidade, consideremos um caso hipottico.
O esquema da Figura 2.2 representa parte de um sistema predial de gs combustvel refe-
rente s instalaes prediais de um apartamento. Para dimensionar esta rede secundria,
o projetista precisa determinar as vazes de projeto em vrios trechos da tubulao.

Figura 2.2: Esquema de instalao predial de gs tpica de um apartamento

Sabe-se de antemo, por meio da empreiteira responsvel, que os apartamentos deste


prdio disponibilizaro aos seus fututros proprietrios trs pontos de utilizao para os
seguintes aparelhos: um fogo de 6 bocas, um aquecedor de gua e uma secadora de
roupas. As potncias nominais destes aparelhos so, respectivamente, PF = 11000 kcal/h,
PA = 14700 kcal/h e PS = 6000 kcal/h. Estes valores, que podem ser obtidos facilmente
por meio das especificaes tcnicas contidas nos manuais dos aparelhos, representam a
potncia computada de cada aparelho. A norma NBR 14570 assume que o poder calorfico
do gs natural 9230 kcal/m3 . Portanto, com base em (2.1), conclui-se que as vazes
computadas do fogo, do aquecedor e da secadora so, respectivamente, QF = 1.19 m3 /h,
QA = 1.59 m3 /h e QS = 0.65 m3 /h.

Os pontos em destaque na Figura 2.2 determinam ainda trechos da instalao predial


com vazes computadas diferentes. Por exemplo, no trecho AB, a vazo computada a
vazo devida ao uso simultneo dos trs aparelhos, que igual a QAB = QF + QA + QS
= 3.43 m3 /h. De forma anloga, no trecho BB pode-se observar uma vazo computada
igual vazo devida ao fogo, ou seja, QBB = QF = 1.19 m3 /h. A Tabela 2.1 mostra as
vazes computadas nos trechos em destaque.

9
Tabela 2.1 Vazes computadas nos trechos em destaque da Figura 2.2

Trecho Vazo Computada (m3 /h)


AB 3.43
BC 2.24
CD 0.65
BB 1.19
CC 1.59

importante ressaltar que a vazo computada corresponde vazo mxima do apare-


lho. Portanto, se a vazo computada do fogo QF = 1.19 m3 /h, esta s ser observada
se as seis bocas e o forno do fogo forem ligados simultaneamente. O raciocnio anlogo
quando avaliamos, por exemplo, a vazo computada no trecho AB. Neste trecho, a vazo
QAB = 3.43 m3 /h s ser observada se os trs aparelhos forem utilizados, simultanea-
mente, em suas vazes mximas.

Uma vez definidas as potncias computadas, possvel ento calcular os fatores de


simultaneidade para os trechos em destaque utilizando (2.2). Para tanto, deve-se converter
as potncias computadas de kcal/h para kW (1 kW = 859.845 kcal/h). Finalmente, ao
calcular o fator de simultaneidade, pode-se obter facilmente as potncias adotadas. A
Tabela 2.2 resume os resultados obtidos no procedimento de clculo da potncia adotada.

Tabela 2.2 Fator de simultaneidade nos trechos em destaque da Figura 2.2

Trecho Vazo Potncia Computada FS Potncia


3
Computada (m /h) kcal/h kW Adotada (kW)
AB 3.43 31658.9 36.82 0.92 33.74
BC 2.24 20675.2 24.05 1.00 24.05
CD 0.65 5999.5 6.98 1.00 6.98
BB 1.19 10983.7 12.77 1.00 12.77
CC 1.59 14675.7 17.07 1.00 17.07

Nota-se que no trecho AB, que o trecho no qual sero conectados todos os aparelhos de
utilizao, a potncia adotada inferior potncia computada. Isso ocorre porque, neste

10
trecho, a soma das potncias computadas suficientemente grande para se supor que ela
no ser atingida. De fato, para atingir esta potncia, os trs aparelhos de utilizao
deveriam ser ligados, simultaneamente, em sua potncia mxima, o que configura uma
situao bastante improvvel. Desta forma, o fator de simultaneidade atua como um fator
redutor da potncia computada, gerando maior economia no dimensionamento da rede
como um todo.

Esta seo teve por objetivo lanar os principais conceitos e definies, e tambm
exemplificar a forma de utilizao da curva do fator de simultaneidade para a obteno
da vazo adotada. No entanto, o foco central deste trabalho re-discutir o atual modelo
utilizado no dimensionamento de sistemas prediais de gs combustvel, bem como propor
outros novos modelos. O amplo trabalho de medio realizado pelo IPT e COMGS foi
fundamental neste sentido, pois subsidiou esta dissertao com dados recentes e coletados
com a tecnologia necessria para garantir a sua confiabilidade.

2.3 Coleta de dados


Conforme mencionado na Seo 2.2, o fator de simultaneidade pode ser definido como
a relao percentual entre a vazo verificada na prtica, devida ao trabalho simultneo
de um grupo de aparelhos servido por um determinado trecho de tubulao, e a vazo
potencial desses mesmos aparelhos. Todo o trabalho de coleta de dados, portanto, foi di-
recionado com o objetivo principal de observar os dois nmeros desta relao percentual
e, como conseqncia, obter o fator de simultaneidade emprico.

Os sistemas prediais selecionados na amostra foram visitados no segundo semestre de


2004 e representam os sistemas prediais de uso exclusivamente residencial, situados na
cidade de So Paulo e equipados com fogo e aquecedor de gua1 . Por serem equipados
com aquecedor de gua, tomou-se o cuidado de coletar a maior parte dos dados nos meses
de julho e agosto, meses tipicamente frios nos quais o consumo de gs aumenta, e nos
1
Em apenas quatro sistemas prediais a utilizao de gs natural era exclusivamente para aquecimento
de gua.

11
quais a simultaneidade do uso de aparelhos supostamente atinge seu regime mais crtico.
Foram consideradas caractersticas excludentes os sistemas prediais com ndice de ocu-
pao inferior a 50%, presena de atividade comercial e presena de caldeira. A amostra
foi selecionada do cadastro de clientes COMGS referente ao ms de abril de 2004. Como
no constam neste cadastro informaes sobre as caractersticas dos sistemas prediais,
muitas visitas resultaram em no-medio. Do total de 100 sistemas prediais visitados,
42 resultaram em medies vlidas. Dentre os 58 sistemas prediais no monitorados, as
principais causas foram ausncia de aquecedor de gua, presena de caldeira e presena
de atividade comercial.

Para coletar dados dos sistemas prediais foram utilizadas duas ferramentas: ques-
tionrios e aparelho de aquisio de dados de vazo, ou data-logger. Os questionrios
foram teis para a obteno de dados referentes s caractersticas dos sistemas predi-
ais, tais como nmero de andares, nmero de apartamentos, nmero de apartamentos
ocupados, nmero de moradores, entre outros, bem como dados referentes aos tipos e
caractersticas dos aparelhos de utilizao presentes nos apartamentos, tais como potn-
cias nominais, marcas e modelos, entre outros. Estas informaes foram teis para calcular
os valores mdios das potncias nominais do aquecedor e do fogo em cada sistema predial.
Estes valores mdios foram ento somados e multiplicados pelo nmero de apartamentos
ocupados, obtendo-se assim a estimativa da potncia computada do sistema predial. Uti-
lizando a relao definida em 2.1, obtm-se a vazo mxima possvel que se pode observar
no sistema predial quando o grupo de aparelhos nele instalado ligado simultaneamente.
Este nmero o denominador da relao percentual que define o fator de simultaneidade.

Alm dos questionrios, os medidores de gs dos 42 sistemas prediais monitorados


foram instrumentados com data-logger s CDL da marca Sensus / Invensys. Estes aparelhos
foram mantidos por, no mnimo, sete dias consecutivos e completos, a fim de detectar
possveis particularidades de consumo nos diferentes dias da semana. A vazo mxima
observada no perodo de medio foi tomada como sendo a vazo verificada na prtica
devida ao trabalho simultneo do grupo de aparelhos instalado no sistema predial. Este
nmero o numerador da relao percentual que define o fator de simultaneidade. A
Figura 2.3 mostra um exemplo das informaes geradas pelo data-logger.

12
(a) (b)

Figura 2.3: Exemplo de informaes obtidas pelo data-logger : grfico de vazo (a) e
registros peridicos de vazo (b).

Com as estimativas da potncia computada - obtidas via questionrios - e as vazes


mximas possveis, - obtidas via data-logger - foi possvel obter os fatores de simultanei-
dade empricos dos 42 sistemas prediais residenciais visitados. Os dados obtidos neste
trabalho, que podem ser encontrados no Apndice A, constituem a base de dados a ser
estudada nesta dissertao.

2.4 Anlise descritiva


Para uma anlise inicial, foi traado o grfico de disperso entre o fator de simultanei-
dade e a potncia computada, com o objetivo de verificar se existe uma relao entre estas
duas variveis e, em caso afirmativo, qual o tipo de relao sugerido. Este grfico, que
pode ser observado na Figura 2.4, evidencia uma clara relao entre estas duas variveis,
e sugere um comportamento no linear. Sob o ponto de vista da esperana do fator de
simultaneidade, o grfico sugere um decaimento exponencial medida que a potncia
aumenta, com valores prximos a 0 para as potncias mais elevadas. Sob o ponto de vista
da varincia do fator de simultaneidade, o grfico sugere maior disperso para potncias
prximas de 0, e decaimento da disperso para valores mais elevados de potncia.

13
1.0
0.9
0.8
Fator de Simultaneidade

0.7
0.6
0.5

21
0.4
0.3
0.2
0.1

34
0.0

0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0

Potncia computada(MW)

Figura 2.4: Fator de Simultaneidade x Potncia Computada

A Figura 2.4 acusa tambm a existncia de duas observaes isoladas da massa de


dados. Na busca por uma explicao para este comportamento, analisaram-se as carac-
tersticas dos edifcios que geraram tais observaes. Constatou-se que as observaes em
destaque apresentam perfis bastante diferentes em relao ao perfil tpico. Dos sistemas
prediais visitados, o edifcio tpico corresponde a uma edificao de 16 andares com 4
apartamentos cada, totalizando assim 64 apartamentos. A observao 21 refere-se ao um
edifcio de 4 andares com 6 apartamentos cada, totalizando 24 apartamentos, configurando
o menor sistema predial visitado. A observao 34 est no outro extremo, e representa
o maior edifcio visitado, com 208 apartamentos espalhados em 26 andares. No foram
encontrados erros de digitao ou clculo, e as edificaes no apresentaram nenhuma
caracterstica que as colocassem fora do escopo do trabalho. Embora se destaquem da
massa de dados, nota-se que as observaes obedecem tendncia dos dados, e no devem
constituir um problema no ajuste dos modelos.

14
Captulo 3

Descrio dos modelos estatsticos

Em termos estatsticos, o objetivo da pesquisa apresentada nesta dissertao resume-se


em modelar o comportamento do fator de simultaneidade em funo da potncia com-
putada, ressaltando que a varivel resposta um nmero situado no intervalo (0,1).

Existem diversas alternativas para modelar uma varivel resposta observada no inte-
valo (0,1). Kieschnick e McCullough (2003), por exemplo, fizeram uma reviso bibliogrfica
com o propsito de apontar os modelos mais freqentemente empregados em proble-
mas desta natureza. Concluram que o modelo de regresso linear normal (MRLN)
foi o modelo mais utilizado, ainda que nem sempre explicitamente invocado. A sua
utilizao fica evidente quando se constata a aplicao dos testes t ou F , indicando
que o pesquisador implicitamente assumiu a normalidade da distribuio condicional.
Kieschnick e McCullough (2003) tambm observaram que o uso destes testes geralmente
est associado suposio de uma funo linear para a esperana condicional, o que
caracteriza completamente a aplicao do MRLN. Ainda segundo os autores, um outro
modelo freqentemente empregado no estudo de variveis respostas observadas no in-
tervalo (0,1) o modelo de regresso linear normal com varivel resposta transformada.
Dentre os estudos que se valeram deste modelo, todos empregaram a transformao logito,
uma transformao particularmente conveniente para a interpretao dos resultados. Ao
mesmo tempo em que esta alternativa ajusta a varivel resposta ao domnio do MRLN,
ela possibilita usufruir dos resultados j estabelecidos para este modelo.

15
Ainda buscando solues para a modelagem de dados no intervalo (0,1), Ferrari e
Cribari-Neto (2004) propuseram um modelo de regresso no qual assumem que a varivel
resposta distribui-se segundo a distribuio beta. A distribuio beta caracteriza-se por
ser extremamente flexvel, podendo assumir diferentes formas de acordo com a combi-
nao de seus dois parmetros. Diferentemente das parametrizaes usuais de distribuio
beta, definidas por dois parmetros de forma, Ferrari e Cribari-Neto (2004) conveniente-
mente utilizaram uma parametrizao da funo de distribuio beta de modo que seus
parmetros representassem a mdia e a preciso, sendo este um importante passo para a
interpretabilidade do modelo. Os procedimentos de modelagem e inferncia considerados
por Ferrari e Cribari-Neto (2004) assemelham-se queles propostos por McCullagh e
Nelder (1989) para os modelos lineares generalizados, ou seja, uma funo da mdia
da varivel resposta explicada por uma estrutura linear envolvendo variveis regressoras.
Conforme se ver a seguir, a varincia da varivel resposta uma funo da mdia e,
conseqentemente, das variveis regressoras. Desta forma, o modelo possibilita acomodar
naturalmente dados de natureza heteroscedstica.

3.1 Modelo de regresso linear normal


Sejam x1 , . . . , xn valores fixos e conhecidos, e y1 , . . . , yn observaes de variveis aleatrias
independentes. O modelo de regresso linear normal simples (MRLN) definido como

yi = 0 + 1 xi + i , i = 1, . . . , n, (3.1)

em que 0 e 1 so parmetros desconhecidos, x1 , . . . , xn so observaes fixas e conhecidas


de uma varivel regressora e 1 , . . . , n so os erros aleatrios independentes e identica-
mente distribudos (i.i.d.), tais que i N (0, 2 ).

Os estimadores dos parmetros do modelo sero obtidos pelo mtodo dos mnimos
quadrados, ou seja, deseja-se obter uma relao linear que minimize a soma dos erros ao
P P
quadrado, dada por ni=1 e2i = ni=1 [yi (0 + 1 xi )]2 . Para obter a soluo que minimiza

16
esta soma, calculam-se as derivadas parciais em relao a 0 e 1 e iguala-se o resultado
a 0, obtendo assim o sistema de equaes normais cujas solues b0 e b1 satisfazem

n
X n
X
nb0 + b1 xi = yi
i=1 i=1
e

n
X n
X n
X
b0 xi + b1 x2i = xi yi .
i=1 i=1 i=1

Desta forma, os estimadores de mnimos quadrados de 0 e 1 so dados, respectiva-


mente, por

b0 = y b1 x

e
Pn
xi yi nxy
b1 = Pi=1
n 2 2 .
i=1 xi nx

Para fins de inferncia sobre os parmetros do modelo, conveniente obter a dis-


tribuio dos estimadores dos parmetros. Utilizando a suposio de normalidade dos
erros e por meio de algumas manipulaes algbricas, pode-se demonstrar que

 Pn 
2 x2i
b0 N 0 , Pn i=1
2
n i=1 (xi x)
e
 
2
b1 N 1 , Pn 2
.
i=1 (xi x)

17
Da teoria das probabilidades (ver, por exemplo, Casella e Berger, 1996), demonstra-
se ainda que, ao substituir 2 por seu estimador b2 , as estatsticas resultantes tero
distribuio t de Student, com (n k) graus de liberdade, em que k o nmero de
parmetros do modelo de regresso. Logo, as estatsticas para testar as hipteses H0 :
0 = 0 e H0 : 1 = 0 dadas, respectivamente, por
s P
b0 n ni=1 (xi x)2
t(b0 ) = Pn 2
b2 i=1 xi

e v
u n
b1 uX
t(b1 ) = t (xi x)2
b2 i=1

tm uma distribuio t de Student com (n k) graus de liberdade. Aqui, um estimador


no-viesado do parmetro 2 dado por
Pn
ybi )2
i=1 (yi
b2 =
n2

em que ybi o valor predito para a varivel resposta para um xi fixo e conhecido.

Uma segunda abordagem possvel para a obteno dos estimadores dos parmetros
de regresso utilizando o mtodo de mxima verossimilhana. Os estimadores obtidos
por este mtodo so exatamente iguais aos obtidos pelo mtodo dos mnimos quadrados.
Alm disso, pode-se demonstrar que estes estimadores so o melhores estimadores no-
viesados, no sentido de possurem a menor varincia dentre todos os outros estimadores
lineares no viciados. Para uma introduo mais detalhada sobre o modelo de regresso
linear, ver Casella e Berger (1990) ou Bussab e Morettin (2002). Para um estudo mais
aprofundado, consultar, por exemplo, Draper e Smith (1981), Neter, Wasserman e Kutner
(1996) ou Montgomery, Peck e Vining (2001).

O modelo definido em (3.1) resulta no ajuste de uma reta, o que evidentemente


inadequado para os dados em questo, conforme se observa na Figura 2.4. Ainda que
fosse adequado, Kieschnick e McCullough (2003) mencionam que o uso do MRLN para o

18
estudo de variveis resposta no intervalo (0,1) carrega dois erros conceituais. Em primeiro
lugar, a varivel resposta no est definida no conjunto dos reais, que o domnio sobre
o qual a distribuio normal definida. Alm disso, o fato da varivel resposta ser
observada em um intervalo limitado implica que a funo de esperana condicional precisa
ser limitada e, portanto, no pode ser linear, e que a varincia condicional precisa ser
uma funo da mdia pois medida que se aproxima de seus limites, a varincia se
aproxima de zero. No MRLN estas duas condies so claramente violadas. Uma forma de
contornar estes problemas conceituais e ao mesmo tempo obter um modelo mais adequado
ao comportamento dos dados de fator de simultaneidade transformar a varivel resposta
de modo que a varivel transformada esteja definida no conjunto dos reais. Na reviso
bibliogrfica realizada por Kieschnick e McCullough (2003), este foi o segundo modelo
mais freqentemente empregado no estudo de variveis resposta em (0,1). Os autores
relatam que, na maioria dos estudos analisados, as suposies feitas sobre a varivel
resposta no-transformada no so claramente definidas. No entanto, pelo fato de todos
os estudos empregarem a transformao logito, pode-se concluir que o modelo que est
por trs destes estudos define-se como
 
yi
ln = 0 + 1 xi + i , i = 1, . . . , n, (3.2)
1 yi

em que 0 e 1 so os parmetros do modelo e 1 , . . . , n so os erros aleatrios i.i.d., tais


que i N (0, 2 ). O modelo definido em (3.2) o primeiro modelo a ser considerado
neste trabalho.

Uma considerao pertinente acerca dos modelos de regresso lineares - e particular-


mente til neste trabalho - diz respeito terminologia linear. Embora a palavra remeta
ao ajuste de uma reta (ou de seus similares em dimenses maiores) entre varivel resposta
e variveis regressoras, esta caracterstica no necessariamente verdadeira. De modo
geral, a literatura estatstica emprega o termo referindo-se suposio que se faz do valor
esperado da varivel resposta ser uma funo linear nos parmetros. Neste contexto, as
variveis regressoras assumem o papel de constantes que podem ser livremente trans-
formadas, aumentando a flexibilidade do modelo. Assim, tal como definido em (3.1), o
modelo

19
yi = 0 + 1 xi + i , i = 1, . . . , n,

em que xi representa o i-simo valor da varivel regressora transformada, tambm um


modelo de regresso linear, independentemente da transformao empregada. Analoga-
mente, tomando-se como base o modelo definido em (3.2), no h restries em definir
 
yi
ln = 0 + 1 xi + i , i = 1, . . . , n, (3.3)
1 yi

em que i o erro aleatrio, tal que i i.i.d N (0, 2 ).

Em geral, o comportamento da varivel resposta em funo das variveis regressoras


orienta as transformaes das variveis regressoras. Neste trabalho, por exemplo, foram
consideradas diversas transformaes da varivel regressora levando-se em conta o compor-
tamento do fator de simultaneidade em funo da potncia computada, cujo decaimento
aparentemente exponencial. Dentre as diversas transformaes testadas, pode-se men-
cionar as transformaes inversa, exponencial e logartmica, entre outras. Ao fim deste
trabalho, observou-se que o logaritmo natural da varivel regressora foi a transformao
que apresentou os melhores resultados, e definiu-se que o modelo apresentado em (3.3)
com a transformao xi = ln(xi ) seria o segundo modelo a ser considerado neste trabalho.

3.2 Modelo de regresso no-linear normal


Kieschnick e McCullough (2003) citam a classe de modelos de regresso no-lineares
como sendo uma alternativa aos problemas de regresso com varivel resposta em (0,1). A
vantagem do MRNLN sobre o MRLN o fato de permitir a utilizao de uma funo que
limite a esperana condicional ao intervalo (0,1). Por outro lado, assim como o MRLN, o
MRNLN tambm supe homoscedasticidade dos dados. Conforme j mencionado na seo
anterior, na modelagem de dados observados no intervalo (0,1), desejvel que o modelo
suponha a varincia como funo da mdia. Uma outra ressalva em relao ao MRNLN
que, ao empregar o mtodo de mnimos quadrados para a estimar os parmetros de

20
modelos deste tipo, obtm-se um sistema de equaes no-lineares sem soluo analtica,
fazendo-se necessrio o uso de procedimentos de otimizao no-linear, tais como Newton-
Raphson e Gauss-Newton e, em algumas situaes, o procedimento pode no convergir
para uma soluo.

Pela anlise da Figura 2.4, pode-se imaginar que o fator de simultaneidade e a potncia
computada relacionam-se segundo uma funo do tipo f (x) = 0 e1 x . Desta forma,
sugere-se o seguinte modelo no-linear.

yi = 0 e1 xi + i , i = 1, . . . , n,

em que 1 , . . . , n so os erros aleatrios i.i.d., tais que i N (0, 2 ).

A utilizao de um modelo de regresso no-linear pode se tornar mais simples quando


uma transformao nas variveis de estudo permite recair em um modelo de regresso
linear normal. Neste caso, uma alterao na suposio dos erros do modelo torna esta
abordagem possvel. Ao invs de assumir que os erros participam de forma aditiva no
modelo, suponhamos que eles participem de forma multiplicativa, ou seja,

yi = 0 e1 xi i , i = 1, . . . , n,

em que 1 , . . . , n so os erros aleatrios i.i.d., tais que ln(i ) N (0, 2 ). Aplicando-se o


logaritmo natural em ambos os lados, tem-se que

ln(yi ) = ln(0 ) + 1 xi + ln(i ), i = 1, . . . , n.

Por fim, pode-se definir yi = ln(yi ), 0 = ln(0 ) e i = ln(i ) para obter o modelo

yi = 0 + 1 xi + i , i = 1, . . . , n, (3.4)

em que 1 , . . . , n so i.i.d com i N (0, 2 ). Desta forma, pode-se utilizar toda a teoria

21
do modelo de regresso linear normal para estudar a relao entre duas variveis cuja
relao funcional claramente no-linear. O modelo definido em (3.4) o terceiro modelo
a ser considerado neste trabalho.

O quarto modelo considerado neste trabalho o mesmo empregado em IPT (2005).


Analogamente ao desenvolvimento anterior, assume-se que o fator de simultaneidade e a
potncia computada se relacionam segundo uma funo do tipo f (x) = 0 x1 e que o erro
participa de forma multiplicativa no modelo. Desta forma, sugere-se o modelo no-linear

yi = 0 xi 1 i , i = 1, . . . , n,

em que i tal que ln(i ) i.i.d N (0, 2 ). Aplicando-se o logaritmo natural em ambos os
lados, tem-se que

ln(yi ) = ln(0 ) + 1 ln(xi ) + ln(i ), i = 1, . . . , n.

Por fim, sejam yi = ln(yi ), xi = ln(xi ), 0 = ln(0 ) e i = ln(i ), e obtm-se o modelo

yi = 0 + 1 xi + i , i = 1, . . . , n. (3.5)

Os modelos apresentados nas Sees 3.1 e 3.2 apresentam o inconveniente de utilizar a


varivel resposta transformada. Desta forma, a interpretao do modelo pode ficar com-
prometida uma vez que os resultados obtidos referem-se varivel resposta transformada,
e no variavel resposta original. O modelo de regresso proposto a seguir, por sua vez,
no apresenta este inconveniente, e constitui uma terceira alternativa para a modelagem
dos dados aqui apresentados.

3.3 Modelo de regresso beta


A famlia de distribuies beta composta pelas distribuies cujas funes densidade
de probabilidade tm a forma

22
(p + q) p1
f (y; p, q) = y (1 y)q1 , 0 < y < 1, (3.6)
(p)(q)

em que p > 0, q > 0 e () a funo gama definida como


Z
(a) = y a1 ey dy, a > 0.
0

A mdia e a varincia de y so dadas, respectivamente, por

p pq
E(y) = e Var(y) = . (3.7)
p+q (p + q)2 (p + q + 1)

Ferrari e Cribari-Neto (2004) ressaltam a convenincia de reparametrizar (3.6) de modo


que os parmetros representem a mdia e a preciso da varivel resposta. Para obter esta
estrutura, consideram a transformao = p/(p + q) e = p + q, implicando em p = e
q = (1 ). Assim, obtm-se uma nova forma para a funo densidade de probabilidade
para a famlia de distribuies beta dada por

()
f (y; , ) = y 1 (1 y)(1)1 , 0 < y < 1, (3.8)
()((1 ))

em que 0 < < 1 e > 0. Alm disso, de (3.7), tem-se que

V ()
E(y) = e Var(y) = , (3.9)
1+

em que V () = (1). Desta forma, o parmetro que representa a mdia da varivel


resposta, enquanto pode ser interpretado como um parmetro de preciso, uma vez que,
para fixado, quanto maior o valor de menor a varincia de y.

23
Assim, sejam yi , i = 1, . . . , n variveis aleatrias independentes tais que cada yi obe-
dece a uma funo densidade de probabilidade como em (3.8), com mdia i e parmetro
de preciso . O modelo de regresso beta define-se ao assumir que

k
X
g(i ) = xit t = i , (3.10)
t=1

em que = (1 , . . . , k ) um vetor de parmetros desconhecidos ( Rk ), xi1 , . . . , xik


so observaes, fixas e conhecidas, em k variveis regressoras, k < n, e g() uma funo
de ligao, estritamente montona e duas vezes diferencivel, que leva valores em (0, 1)
para a reta real. Desta forma, tem-se que i = g 1 (i ) e Var(yi ) = V (i )/(1 + ). Como
a varincia da resposta depende de , fcil concluir por estas expresses que as varin-
cias no so constantes, ainda que o parmetro de disperso seja constante. Portanto,
variveis respostas com varincias no constantes podem ser naturalmente acomodadas
pelo modelo.

Existem diversas possveis escolhas para a funo de ligao g(). Atkinson (1985) e
McCullagh e Nelder (1989) comparam diversas funes de ligao, tais como as funes
logito, probito, log-log, entre outras. Uma funo de ligao particularmente til em
termos de interpretao de parmetros a funo logito, definida como
 
i
g(i ) = ln .
1 i

Assumindo a funo de ligao logito, suponha que a t-sima varivel regressora sofra um
incremento de c unidades e todas as demais variveis regressoras permaneam constantes.
Seja + a mdia de y obtida com os novos valores das variveis regressoras, enquanto
mdia de y obtida com os valores originais das variveis regressoras. Ento, demonstra-se
que

+ /(1 + )
ect = ,
/(1 )

ou seja, ao assumir a funo de ligao logito, pode-se interpretar os parmetros do modelo

24
em termos de razo de chances. No contexto deste trabalho, esta interpretao permite
obter o aumento da chance de utilizao simultnea mdia dos aparelhos de utilizao de
um sistema predial a cada incremento de c unidades na potncia computada.

Com base em (3.8), define-se o logaritmo da funo de verossimilhana como

n
X
(, ) = i (i , ), (3.11)
i=1

em que

i (i , ) = log () log (i ) log [(1 i )] +


+(i 1) log yi + [(1 i ) 1] log(1 yi ).

A funo escore, obtida diferenciando-se a funo de mxima verossimilhana em


funo dos parmetros do modelo, dada por (U (, ) , U (, )) . Aqui,

U (, ) = X T (y ),

em que X uma matriz nk cuja i-sima linha x


i , T = diag[g (1 ) , . . . , g (n ) ] e os
1 1

i-simos elementos de y e dados por yi = log[yi /(1 yi )] e i = (i ) [(1 i )],


em que () a funo digama, definida como (z) = d log (z)/dz, z > 0, e

n
X
U (, ) = ui ,
i=1

em que

ui = i (yi i ) + log(1 yi ) [(1 i )] + ().

tambm conveniente obter a matriz de informao de Fisher, denotada por

25
!
K K
K = K(, ) = .
K K

Ferrari e Cribari-Neto (2004) obtiveram

K = X W X,

com W = diag(w1 , . . . , wn ), com wi = vi (1/g (i )2 ) e vi = (i ) + [(1 i )],


K = K = X T c,

em que c = (c1 , . . . , cn ) com ci = [ (i )i ((1 i ))(1 i )], sendo () a


funo trigama, e

K = tr(D),

em que D = diag(d1 , . . . , dn ), com di = (i )2i + [(1 i )](1 i )2 ().

Ao contrrio dos modelos lineares generalizados, no modelo de regresso beta os


parmetros e no so ortogonais, ou seja, K no nulo (ver McCullagh e Nelder,
1989, por exemplo).

Ferrari e Cribari-Neto (2004) salientam que, sob condies de regularidade e para uma
amostra suficientemente grande, vale a aproximao
! ! !
b
Nk+1 , K 1 .
b

Aqui, b e b representam, respectivamente, os estimadores de mxima verossimilhana de


e . Como no existe uma forma fechada para estes estimadores, necessrio obt-los
numericamente, maximizando a funo de log-verossimilhana (3.11) por meio de um al-
goritmo de otimizao no-linear, tais como os algoritmos de Newton ou quase-Newton.

26
Para maiores detalhes, ver por exemplo Nocedal e Wright (1999).

Baseados em Rao (1973), Ferrari e Cribari-Neto (2004) utilizam expresses padres


para a inversa de matrizes particionadas para obter K 1 , denotada por
!
K K
K 1 = K 1 (, ) = .
K K

Eles obtiveram
 
1 1 X T cc T X(X W X)1
K = (X W X) Ik + ,

com = tr(D) 1 c T X(X W X)1 X T c e Ik a matriz identidade de ordem k,

1
K = (K ) = (X W X)1 X T c,

K = 1 .

A inversa da matriz informao de Fisher til na obteno de erros padro assintticos


para os estimadores de mxima verossimilhana dos parmetros do modelo de regresso
beta.

O modelo definido em (3.10) com funo de ligao logito o quinto modelo a ser
considerado neste trabalho. Analogamente ao MRLN, aqui tambm pode ser considerada
uma transformao na varivel regressora. Aps vrias tentativas de transformao - in-
versa, exponencial, logartmica, entre outras - chegou-se concluso que o sexto e ltimo
modelo a ser considerado neste trabalho levaria em conta uma transformao logartmica
na varivel regressora, ou seja, xi = ln(xi ).

27
3.4 Tcnicas de diagnstico
Um passo importante no processo de ajuste de modelos estatsticos a anlise de
diagnstico. De modo geral, as tcnicas empregadas na anlise de diagnstico tm por
objetivo validar as suposies do modelo, bem como avaliar se o modelo utilizado se ajusta
bem aos dados. por meio desta anlise que so constatados desvios das suposies do
modelo, sejam eles referentes s suposies da parte sistemtica ou aleatria. tambm
por meio das tcnicas de diagnstico que so detectadas observaes influentes, ou seja,
observaes que causam impacto desproporcional nos resultados do ajuste.

Na anlise de diagnstico, relevante detectar pontos de alavanca. Uma observao


yi caracterizada como ponto de alavanca quando a sua influncia sobre o seu prprio
valor ajustado ybi muito grande. Uma medida desta influncia foi proposta por Hoaglin
e Welsch (1978) para o caso da regresso linear normal, e consiste em avaliar os valores
da diagonal principal da matriz de projeo H = X(X X)1 X , ou seja,


hii = x 1
i (X X) xi .

Segundo Paula (2003), as observaes nas quais se observa a condio hii 2k/n
so elegveis a pontos de alavanca, e geralmente esto localizadas em regies remotas no
subespao gerado pelas colunas da matriz X. Ainda para o caso do modelo de regresso
linear normal, mostra-se que os valores hii coincidem com a medida ybi /yi , em que ybi
o valor ajustado da i-sima observao. Desta forma, pode-se interpretar hii como a
variao em ybi quando se acrescenta um infinitsimo a yi . Wei, Hu e Fung (1998) propem
uma forma geral de determinar pontos de alavanca baseando-se na medida

b = y
b
GL() ,
y

onde y = (y1 , . . . , yn ) o vetor de observaes e y y1 , . . . , ybn ) o vetor de valores


b = (b
b
ajustados. A medida GL() denomina-se alavanca generalizada e abrange todos os casos
b um
nos quais a varivel resposta contnua. Aqui, um vetor tal que E(y) = () e
estimador de , com y b O elemento (t, u) de GL()
b = (). b a taxa de variao instan-

28
tnea no t-simo valor predito com respeito ao u-simo valor de resposta. Seguindo esta
abordagem, Ferrari e Cribari-Neto (2004) apresentam a frmula da alavanca generalizada
para o modelo de regresso beta, a qual ser utilizada neste trabalho.

Tambm til avaliar resduos na anlise de diagnstico. De modo geral, define-se o


resduo para a i-sima observao como uma funo da forma ri = r(yi , i ), i = 1, . . . , n,
a qual tem por objetivo medir a discrepncia entre o valor observado e o correspondente
valor ajustado. A maioria dos resduos propostos na literatura se baseia na diferena entre
o valor observado e o valor ajustado. De fato, a definio mais bsica de um resduo o
resduo ordinrio, que simplesmente a diferena entre estes valores, ou seja,

ri = yi i , i = 1, . . . , n.

Particularizando para o caso do modelo de regresso linear normal, verifica-se com alguma
lgebra que ri N (0, 2 (1 hii )), i = 1, . . . , n e que, portanto, as quantidades ri s
possuem varincias diferentes. Alm disso, mostra-se que Cov(ri , rj ) = 2 hij , i 6= j,
com i = 1, . . . , n e j = 1, . . . , n, ou seja, as quantidades ri s no so independentes.
Para que sejam comparveis, conveniente expressar os resduos ordinrios em sua forma
padronizada, dividindo ri pelo seu respectivo desvio padro estimado, e assim obter o
resduo studentizado, ou seja,

ri
ti = , i = 1, . . . , n,
s(1 hii )1/2

em que

n
X
2 ri2
s = , (3.12)
i=1
nk

sendo k o nmero de parmetros do modelo. Ao contrrio do que sugere o nome deste


resduo, ti no segue uma distribuio t-Student pois ri e s2 no so independentes. Para
contornar este problema, Paula (2003) sugere utilizar o resduo studentizado sem a i-sima
observao, o qual define como

29
ri
ti = ,
s(i) (1 hii )1/2

em que s(i) = s2 (n k t2i )/(n k 1) o quadrado mdio residual correspondente


ao modelo sem a i-sima observao. Mostra-se que ti tem uma distribuio t com
(n k 1) graus de liberdade. As anlises de diagnstico referentes a modelos de re-
gresso normal contidas nesta dissertao levam em conta o estudo de ti .

Em seu artigo sobre regresso beta, Ferrari e Cribari-Neto (2004) seguem o preceito
dos resduos se basearem na diferena entre os valores observados e os valores ajustados,
e propem o resduo ordinrio padronizado

yi
bi
ri = q , (3.13)
d i)
Var(y

d i) =
em que Var(y bi (1 b com
bi )/(1 + ), b Aqui,
bi = g 1 (x ). b e b so os estimadores
de mxima verossimilhana de e , respectivamente. No entanto, Espinheira, Ferrari e
Cribari-Neto (2008) mostram, por meio de simulao de Monte Carlo, que para determina-
dos valores de e os resduos apresentados em (3.13) no so bem aproximados pela dis-
tribuio normal. Alm disso, por meio de exemplos, mostram que o resduo no sensvel
o suficiente para detectar observaes influentes. Com base nestas constataes, propem
dois novos resduos para a classe de modelos de regresso beta que, diferentemente do
conceito utilizado em (3.13), se baseiam na diferena entre o logito da varivel resposta e
seus valores ajustados. O primeiro deles, denominado resduo ponderado padronizado 1,
define-se como

yi
b
riw = i, (3.14)
vi

em que yi = log[yi /(1 yi )],


bi = (b b ((1
i ) b e vi = (b
bi )) b + ((1
i ) b
bi ))
com () denotando a funo digamma e () denotando a funo trigamma, ou seja,
(a) = d log (a)/da e (a) = d(a)/da, a > 0. O resduo ponderado padronizado 2
assemelha-se a riw , diferenciando-se pelo fato de ser ponderado pelo elemento (i, i) da

30
1/2
c 1 X W
matriz de projeo H = W1/2 X(X WX) c , em que W = diag(w1 , . . . , wn ) e
wi = vi [1/g (i )2 ], e define-se como

yi bi
riww = p . (3.15)
vi (1 hii )

Os resultados obtidos por Espinheira, Ferrari e Cribari-Neto (2008) favorecem os resduos


ponderados padronizados, especialmente o resduo riww , por serem mais eficientes na iden-
tificao de observaes com grande influncia nas estimativas dos parmetros do modelo
na mdia. Por esta razo, as anlises de diagnstico referentes a modelos de regresso
beta contidas nesta dissertao levam em conta o estudo de riww .

Como a distribuio dos resduos no conhecida, o grfico de envelopes simulados


proposto por Atkinson (1985) apresenta-se como uma boa alternativa para tcnica de
diagnstico. A idia consiste em construir, por meio de simulaes, uma banda de confi-
ana que possa ser utilizada para decidir se os resduos observados so consistentes com
o modelo ajustado. De modo geral, o algoritmo que permite gerar os limites do grfico
de envelope pode ser descrito assim:

1. ajustar o modelo;

2. simular uma amostra de n observaes independentes, tomando o modelo ajustado


como se fosse o modelo correto, e armazen-la em y = (y1 , . . . , yn );

3. ajustar y contra as variveis regressoras X e armazenar os resduos em e(n1) =


(e1 , . . . , en );

4. repetir m vezes os passos 1 e 2, armazenando os resultados na matriz e(nm) ;

5. ordenar os m grupos de n resduos;

6. ordenar os elementos da linha i = 1 em ordem crescente;

7. selecionar, por exemplo, o 5o percentil da linha i = 1 e armazen-lo em einf ;

8. selecionar, por exemplo, o 95o percentil da linha i = 1 e armazen-lo em esup ;

31
9. repetir os passos 5 a 7 para i = 2, . . . , n.

Ao fim do procedimento, einf e esup armazenam, respectivamente, os pontos que com-


pem os limites inferior e superior do envelope. Atkinson(1985) sugere m = 19, o que im-
plica em uma probabilidade aproximada de 1/20 do maior resduo de um envelope particu-
lar exceder o limite superior. Paula (2003) adapta um programa escrito em Everitt (1994)
para gerar envelopes de um modelo de regresso linear normal considerando m = 100.

Uma das medidas de influncia mais utilizadas em modelos de regresso a distncia


de Cook (Cook, 1977), que tem por princpio avaliar o impacto da excluso de uma ob-
servao nas estimativas dos coeficientes da regresso. Originalmente desenvolvida para
modelos lineares normais, diversos estudos tm sido feitos para outras classes de modelos,
conforme mostram Pregibon (1981), Cook e Weisberg (1982), Atkinson (1985), Cook,
Pea e Weisberg (1988), Cordeiro e Paula (1992), entre outros.

Para o modelo de regresso linear normal, quando a isima observao retirada, a


distncia de Cook expressa por

hii 1
Di = t2i ,
1 hii k

em que ti o resduo studentizado, hii o i-simo elemento da matriz de projeo H


e k o nmero de parmetros do modelo. De modo anlogo, Ospina (2007) mostra o
desenvolvimento da medida para o modelo de regresso beta. Neste caso, a distncia de
Cook expressa na forma

hii
Di = (riww )2 ,
1 hii

em que riww o resduo ponderado padronizado 2 e hii o i-simo elemento da matriz


de projeo H . Em ambos os casos, nota-se que a medida Di tem valores maiores para
observaes que possuem resduo grande ou um hii prximo de 1.

32
Captulo 4

Anlise dos dados

Este captulo contm a aplicao da base terica apresentada nos captulos anteriores.
A parte computacional que envolve os ajustes dos modelos e a gerao de grficos foram
desenvolvidas na plataforma computacional R, verso 2.3.1. Este programa pode ser gra-
tuitamente adquirido por download no stio http://www.r-project.org.

Nas seis primeiras sees so apresentados os resultados obtidos com os ajustes dos
modelos descritos no Captulo 3, por meio das estimativas dos parmetros dos modelos e
retas ajustadas sobrepostas ao grfico de disperso dos dados. Alm disso, tambm so
apresentados, por meio de grficos, os resultados obtidos com as tcnicas de diagnstico
descritas na Seo 3.4. O objetivo aqui encontrar subsdios que favoream ou descartem
a utilizao dos modelos propostos. Paula (2003) lista alguns grficos tradicionais que
auxiliam na anlise de diagnstico: para a deteco de pontos aberrantes, grfico de res-
duos contra os ndices das observaes; para deteco de ausncia de termo extra, grfico
de resduos contra varivel regressora; para deteco de pontos influentes, grfico da dis-
tncia de Cook contra os ndices das observaes e grfico de pontos de alavanca contra
os ndices das observaes; para deteco de heteroscedasticidade, grfico dos resduos
contra o valor ajustado; e para deteco de afastamento da suposio da distribuio,
grfico de resduos com envelope simulado.

Cada seo contm uma anlise dos resultados gerados pelos grficos supracitados.

33
Adicionalmente, para os modelos normais, os testes de Breusch-Pagan (Breusch e Pagan,
1979) e de Anderson-Darling (Anderson e Darling, 1954) so utilizados para reforar as
concluses sobre, respectivamente, as suposies de homoscedasticidade e normalidade.
Na ltima seo, conclui-se a anlise dos ajustes com a escolha do modelo mais adequado
aos dados desta dissertao.

4.1 MRLN com transformao logito na varivel res-


posta

Nesta seo considerado o modelo


 
yi
ln = 0 + 1 xi + i , i = 1, . . . , n,
1 yi

em que 1 , . . . , n so os erros aleatrios i.i.d. tais que i N (0, 2 ), conforme definido na


Seo 3.1 em (3.2). A Tabela 4.1 mostra o resultado do ajuste do modelo e indica que o
logito da potncia estatisticamente importante para explicar o fator de simultaneidade.

Tabela 4.1 Ajuste do MRLN com transformao logito na varivel resposta.

Parmetro Estimativa Erro Padro t p-valor


0 -1.47353 0.14655 -10.055 0.0000
1 -0.34312 0.04496 -7.631 0.0000
2 0.2276 - - -

A Figura 4.1.a exibe o grfico de disperso entre a potncia e o logito do fator de


simultaneidade, bem como a reta ajustada, e indica que alguns pontos no so bem aco-
modados pelo modelo, como o caso das observaes 12, 16, 29 e, principalmente, a 21.
Tambm destacam-se as observaes 31 e 34, mas estas por estarem localizadas em uma
regio remota no eixo da varivel regressora. A Figura 4.1.b exibe o grfico de disperso
entre a potncia e o fator de simultaneidade, bem como a reta ajustada transformada, e

34
1.0
21
0

0.9
0.8
logito(Fator de simultaneidade)

16
1

12

Fator de simultaneidade

0.7
29

0.6
0.5
2

21

0.4
0.3
16
3

12
29

0.2
0.1
34 31 34
31

0.0
4

0 1 2 3 4 5 6 7 8 9 10 0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0

Potncia computada (MW) Potncia computada(MW)

(a) (b)
Figura 4.1: Grficos de disperso e reta ajustada do MRLN com transformao logito na
varivel resposta.

corrobora a Figura 4.1.a, ao evidenciar que o suave decaimento da reta ajustada trans-
formada acaba por no acomodar as observaes 12, 16, 21 e 29.

A Figura 4.2.a mostra que os resduos no formam nenhuma tendncia no grfico


de disperso contra os ndices das observaes e pe em destaque a observao 21,
caracterizando-a como observao aberrante. Tambm no se observa tendncia clara-
mente definida na Figura 4.2.b, sugerindo que no existe ausncia de termo extra. H
indcios de que as observaes 21, 31 e 34 sejam as mais influentes, conforme a Figura
4.2.c; as observaes 31 e 34 tambm destacam-se como possveis pontos de alavanca, con-
forme Figura 4.2.d, enquanto a observao 21 parece tambm contribuir para a violao
da suposio de homoscedasticidade, conforme Figura 4.2.e. O teste de Breusch-Pagan,
aplicado aos resduos deste modelo, resulta em um nvel descritivo no limiar da rejeio
da hiptese nula a um nvel de significncia de 10% (p-valor = 0.099). Por fim, a Figura
4.2.f indica que os pontos encontram-se bem distribudos dentro dos limites do grfico de
envelope, com exceo da observao 21. O teste de normalidade de Anderson-Darling
aplicado sobre os resduos padronizados deste modelo no encontra evidncias estatsticas
para rejeitar a hiptese de normalidade (p-valor = 0.508).

35
21 21
3

3
2

2
Resduo studentizado

Resduo studentizado
34
1

1
0

0
1

1
31

11
2

2
0 5 10 15 20 25 30 35 40 0 2 4 6 8

ndice da observao Varivel regressora

(a) (b)

0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40


21
0.4

34 34
0.3
Distncia de Cook

hii
0.2

31 31
21
0.1
0.0

0 5 10 15 20 25 30 35 40 4.5 4.0 3.5 3.0 2.5 2.0 1.5

ndice da observao Valor ajustado

(c) (d)

21
3
3

2
2

Residuo Studentizado
Resduo studentizado

34
1
1

0
0

1
1

31
3
2

4.5 4.0 3.5 3.0 2.5 2.0 1.5 2.0 1.5 1.0 0.5 0.0 0.5 1.0 1.5 2.0

Valor ajustado Percentis da Normal Padro

(e) (f)

Figura 4.2: Grficos de diagnstico do MRLN com transformao logito na varivel


resposta.
36
4.2 MRLN com transformao logito na varivel res-
posta e transformao logartmica na varivel re-
gressora

Nesta seo considerado o modelo


 
yi
ln = 0 + 1 xi + i , i = 1, . . . , n,
1 yi

em que xi = ln(xi ) e 1 , . . . , n so os erros aleatrios i.i.d. tais que i N (0, 2 ), conforme


definido na Seo 3.1 em (3.3). A Tabela 4.2 mostra o resultado do ajuste do modelo e
indica que o logaritmo da potncia estatisticamente importante para explicar o fator de
simultaneidade.

Tabela 4.2 Ajuste do MRLN com transformao logito na varivel resposta e transfor-
mao logartmica na varivel regressora.

Parmetro Estimativa Erro Padro t p-valor


0 -1.75537 0.09684 -18.126 0.0000
1 -0.82832 0.08768 -9.447 0.0000
2 0.1730 - - -

A Figura 4.3.a exibe o grfico de disperso entre o logaritmo natural da potncia e


o logito do fator de simultaneidade, bem como a reta ajustada, e destaca as observaes
21, 31 e 34 por apresentarem valores extremos na varivel regressora transformada, no
parecendo haver grandes desvios em relao ao modelo de regresso ajustado. A Figura
4.3.b exibe o grfico de disperso entre a potncia e o fator de simultaneidade, bem como
a reta ajustada transformada. O forte decaimento da reta ajustada transformada, prin-
cipalmente para valores pequenos da potncia computada, acaba por acomodar bem as
observaes 12, 16, 29 e, principalmente, a 21.

A Figura 4.4.a mostra que os resduos no formam nenhuma tendncia no grfico de


disperso contra os ndices das observaes e pe em destaque as observaes 31 e 33 por

37
1.0
1

0.9
21
0

0.8
logito(Fator de simultaneidade)

Fator de simultaneidade

0.7
1

0.6
33

0.5
2

21

0.4
3

0.3
0.2
33
4

34

0.1
31
31 34

0.0
5

2 1 0 1 2 3 0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0

ln(Potncia computada) Potncia computada (MW)

(a) (b)
Figura 4.3: Grficos de disperso e reta ajustada do MRLN com transformao logito na
varivel resposta e transformao logartmica na varivel regressora.

estarem pouco alm do intervalo (-2,2). Tambm no se observa tendncia claramente


definida na Figura 4.4.b, sugerindo que no existe ausncia de termo extra. Segundo o
critrio da distncia de Cook, existem indcios de que a observao 31 seja a mais influente,
conforme indica a Figura 4.4.c, enquanto a observao 21 destaca-se como possvel ponto
de alavanca, conforme Figura 4.4.d. No existem indcios de violao da suposio de
homoscedasticidade, conforme Figura 4.4.e. De fato, o teste de Breusch-Pagan, aplicado
aos resduos deste modelo, no encontra evidncias estatsticas para rejeitar a hiptese
de homoscedasticidade dos resduos (p-valor = 0.70). Por fim, a Figura 4.4.f indica que
as observaes no esto bem distribudas dentro dos limites do grfico de envelope, com
algumas observaes extrapolando estes limites. O teste de normalidade de Anderson-
Darling aplicado sobre os resduos padronizados deste modelo corrobora os indcios do
grfico de envelope, apresentando, para um nvel de significncia de 5%, um nvel des-
critivo no limiar da rejeio da hiptese de normalidade (p-valor = 0.0545).

38
33 33
2

2
Resduo studentizado

Resduo studentizado
1

1
21
0

0
1

1
2

2
31 31

0 5 10 15 20 25 30 35 40 1 0 1 2

ndice da observao Varivel regressora

(a) (b)

0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40


31
0.15

21
Distncia de Cook

0.10

hii
0.05

34
0.00

0 5 10 15 20 25 30 35 40 3.5 3.0 2.5 2.0 1.5 1.0 0.5

ndice da observao Valor ajustado

(c) (d)
3

33
2

2
Residuo Studentizado
Resduo studentizado

21
0
0

1
1

2
3
2

31

3.5 3.0 2.5 2.0 1.5 1.0 0.5 2.0 1.5 1.0 0.5 0.0 0.5 1.0 1.5 2.0

Valor ajustado Percentis da Normal Padro

(e) (f)

Figura 4.4: Grficos de diagnstico do MRLN com transformao logito na varivel


resposta e transformao logartmica na varivel regressora.

39
4.3 MRLN com transformao logartmica na varivel
resposta

Nesta seo considerado o modelo

yi = 0 + 1 xi + i , i = 1, . . . , n,

em que yi = ln(yi ), 0 = ln(0 ) e 1 , . . . , n so os erros aleatrios i.i.d. tais que


i N (0, 2 ), conforme definido na Seo 3.2 em (3.4). A Tabela 4.3 que mostra o
resultado do ajuste deste modelo e indica que a potncia, como varivel regressora, con-
tribui significativamente para explicar o fator de simultaneidade.

Tabela 4.3 Ajuste do MRLN com transformao logartmica na varivel resposta.

Parmetro Estimativa Erro Padro t p-valor


0 -1.6823 0.1255 -13.408 0.0000
1 -0.3071 0.0385 -7.976 0.0000
2 0.1668 - - -

A Figura 4.5.a exibe o grfico de disperso entre a potncia e o logaritmo natural do


fator de simultaneidade, bem como a reta ajustada, e destaca as observaes 31, 34 e 21
por situarem-se em uma regio remota no eixo da varivel regressora. A observao 21,
por sua vez, destaca-se tanto no eixo da varivel regressora quanto no eixo da varivel
resposta. A Figura 4.5.b exibe o grfico de disperso entre a potncia e o fator de simul-
taneidade, bem como a reta ajustada transformada, e indica que as observaes 12, 16,
29, e principalmente a 21 no so bem acomodadas pelo modelo.

A Figura 4.6.a, que mostra o grfico de disperso entre os resduos studentizados


e os ndices das observaes, no revela nenhuma tendncia, mas pe em destaque a
observao 21, caracterizando-a como observao aberrante. Tambm no se observa
tendncia claramente definida na Figura 4.6.b, que mostra a disperso entre os resduos
studentizados e a varivel regressora, sugerindo no haver ausncia de termo extra. H

40
1.0
0

0.9
21

0.8
1
log(Fator de simultaneidade)

Fator de simultaneidade

0.7
0.6
2

0.5
21

0.4
3

0.3
16
34 12
31 29

0.2
4

0.1
31 34

0.0
5

0 1 2 3 4 5 6 7 8 9 10 0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0

Potncia computada (MW) Potncia computada (MW)

(a) (b)
Figura 4.5: Grficos de disperso e reta ajustada do MRLN com transformao logartmica
na varivel resposta.

indcios de que as observaes 21, 31 e 34 sejam as mais influentes, conforme indica a


Figura 4.6.c, na qual se observa a distncia de Cook contra os ndices das observaes.
Alm disso, analisando a medida hii , h evidncias de que a observao 34 seja tambm um
ponto de alavanca, conforme indica a Figura 4.6.d. A observao 21 destaca-se na Figura
4.6.e, na qual est o grfico de disperso entre resduo studentizado e valor ajustado, mas
no determina um padro a ponto de suspeitar heteroscedasticidade dos resduos. De fato,
o teste de Breusch-Pagan, aplicado aos resduos deste modelo, no encontra evidncia
estatstica para rejeitar a hiptese de homoscedasticidade (p-valor = 0.24). Por fim, a
Figura 4.6.f mostra o grfico de envelope simulado e indica que os pontos encontram-
se todos distribudos dentro dos limites do grfico de envelope, sugerindo aderncia
suposio de distribuio do modelo. De fato, o teste de normalidade de Anderson-
Darling aplicado sobre os resduos padronizados deste modelo no encontra evidncias
estatsticas para rejeitar a hiptese de normalidade (p-valor = 0.81).

41
21 21
2

2
34
Resduo studentizado

Resduo studentizado
1

1
0

0
1

1
3 3
2

2
11 11

0 5 10 15 20 25 30 35 40 0 2 4 6 8

ndice da observao Varivel regressora

(a) (b)

0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40


0.30

21 34
34
0.25
0.20
Distncia de Cook

31
0.15

hii
0.10

31
21
0.05
0.00

0 10 20 30 40 4.0 3.5 3.0 2.5 2.0

ndice da observao Valor ajustado

(c) (d)
3

21
2

34
Residuo Studentizado
Resduo studentizado

1
1

0
0

1
1

3
2

11

4.0 3.5 3.0 2.5 2.0 2.0 1.5 1.0 0.5 0.0 0.5 1.0 1.5 2.0

Valor ajustado Percentis da Normal Padro

(e) (f)

Figura 4.6: Grficos de diagnstico do MRLN com transformao logartmica na varivel


resposta.
42
4.4 MRLN com transformao logartmica nas variveis
resposta e regressora

Nesta seo considerado o modelo

yi = 0 + 1 xi + i , i = 1, . . . , n,

em que yi = ln(yi ), xi = ln(xi ), 0 = ln(0 ) e 1 , . . . , n so os erros aleatrios i.i.d. tais


que i N (0, 2 ). Este modelo, j definido na Seo 3.2 em (3.5), foi tambm considerado
em IPT (2005). A Tabela 4.4 mostra o resultado do ajuste deste modelo e indica que
o logaritmo natural da potncia, como varivel regressora, estatisticamente importante
para explicar o fator de simultaneidade.

Tabela 4.4 Ajuste do MRLN com transformao logartmica nas variveis resposta e re-
gressora.

Parmetro Estimativa Erro Padro t p-valor


0 -1.9575 0.0889 -22.018 0.0000
1 -0.7136 0.0805 -8.865 0.0000
2 0.1458 - - -

A Figura 4.7.a exibe o grfico de disperso entre o logaritmo natural da potncia e


o logaritmo natural do fator de simultaneidade, bem como a reta ajustada, e destaca as
observaes 21, 31 e 34 apenas por apresentarem valores extremos na varivel regressora
transformada, no parecendo haver grandes desvios em relao ao modelo de regresso
ajustado. O mesmo pode-se dizer em relao Figura 4.8.b., que exibe o grfico de disper-
so entre a potncia e o fator de simultaneidade, bem como a reta ajustada transformada.
Nota-se que, por conta do forte decaimento da reta ajustada transformada, observaes
com baixos valores de potncia computada so bem acomodadas pelo modelo, em especial
a 21.

A Figura 4.8.a mostra que os resduos studentizados no formam nenhuma tendncia


no grfico de disperso contra a ordem de observao e pe em destaque as observaes

43
1.0
0

0.9
21

0.8
1
log(Fator de Simultaneidade)

Fator de simultaneidade

0.7
0.6
2

0.5
21

0.4
3

0.3
34
31

0.2
4

0.1
31 34

0.0
5

2 1 0 1 2 0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0

log(Potncia computada) Potncia computada (MW)

(a) (b)
Figura 4.7: Grficos de disperso e reta ajustada do MRLN com transformao logartmica
nas variveis resposta e regressora.

31 e 33 por estarem pouco alm do intervalo (-2,2). Tambm no se observa tendncia


claramente definida na Figura 4.8.b, sugerindo que no existe ausncia de termo extra.
Segundo o critrio da distncia de Cook, h indcios de que as observaes 31 e 34 sejam
as mais influentes, conforme indica a Figura 4.8.c, enquanto a observao 21 destaca-
se como possvel ponto de alavanca segundo o critrio da medida hii , conforme Figura
4.8.d. No existem indcios de violao da suposio de homoscedasticidade, conforme
Figura 4.8.e, que mostra o grfico de disperso entre os resduos studentizados e os val-
ores ajustados. De fato, o teste de Breusch-Pagan, aplicado aos resduos deste modelo,
no encontra evidncias estatsticas para rejeitar a hiptese de homoscedasticidade dos
resduos (p-valor = 0.31). Por fim, a Figura 4.8.f indica que as observaes esto dentro
dos limites do grfico de envelope, com algumas no limiar destes limites, sugerindo uma
leve falta de qualidade de ajuste do modelo. O teste de normalidade de Anderson-Darling
aplicado sobre os resduos padronizados deste modelo rejeita a hiptese de normalidade a
um nvel de 5 % de significncia (p-valor = 0.0462).

44
33 33
2

2
1

1
Resduo studentizado

Resduo studentizado
0

0
21
1

1
2

2
31 31

0 5 10 15 20 25 30 35 40 1 0 1 2

ndice da observao Varivel regressora

(a) (b)

0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40


0.20

31

21
0.15
Distncia de Cook

34
0.10

hii

34
0.05
0.00

0 10 20 30 40 3.5 3.0 2.5 2.0 1.5 1.0

ndice da observao Valor ajustado

(c) (d)
3

33
2

2
1

Residuo Studentizado
Resduo studentizado

1
0

21
0
1
1

2
2

31
3

3.5 3.0 2.5 2.0 1.5 1.0 2.0 1.5 1.0 0.5 0.0 0.5 1.0 1.5 2.0

Valor ajustado Percentis da Normal Padro

(e) (f)

Figura 4.8: Grficos de diagnstico do MRLN com transformao logartmica nas variveis
resposta e regressora.
45
4.5 Modelo de regresso beta

Nesta seo considerado o modelo de regresso beta definido na Seo 3.3. Admite-se
que y1 , . . . , yn so variveis aleatrias independentes tal que yi tem distribuio beta de
mdia i e parmetro de disperso , e ainda,
 
i
ln = 0 + 1 xi , i = 1, . . . , n,
1 i

em que 0 e 1 so parmetros desconhecidos do modelo. Note que aqui utilizada a


funo de ligao g(i ) = ln(i /(1 i )), ou seja a funo logito. Esta funo de ligao
foi escolhida por ser particularmente til em termos de interpretao de resultados, uma
vez que possibilita a interpretao do parmetro 1 em termos de razo de chances. A
Tabela 4.5, que mostra o resultado do ajuste do modelo, indica que a potncia contribui
significativamente para explicar o fator de simultaneidade.

Tabela 4.5 Ajuste do modelo de regresso beta.

Parmetro Estimativa Erro Padro t p-valor


0 -1.30368 0.1408 -9.26 0.0000
1 -0.36479 0.0536 -6.80 0.0000
45.391 10.027 - -

A Figura 4.9.a exibe o grfico de disperso entre a potncia e o logito do fator de


simultaneidade, bem como a reta ajustada, e destaca as observaes 21, 31 e 34. As ob-
servaes 31 e 34 destacam-se por situarem-se em uma regio remota no eixo da varivel
regressora. A observao 21, por sua vez, destaca-se tanto no eixo da varivel regressora
quanto no eixo da varivel resposta. Tal comportamento sugere que esta observao no
bem acomodada pelo modelo. A Figura 4.9.b exibe o grfico de disperso entre a potn-
cia o fator de simultaneidade, bem como a reta ajustada transformada, e sugere que, de
modo geral, as observaes esto bem acomodadas pela reta ajustada, exceo feita
observao 21.

46
1.0
1

0.9
21
0

0.8
logito(Fator de Simultaneidade)

Fator de Simultaneidade

0.7
1

0.6
0.5
2

21

0.4
3

0.3
0.2
31 34
4

0.1
31 34

0.0
5

0 2 4 6 8 10 0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0

Potncia computada (MW) Potncia (MW)

(a) (b)

Figura 4.9: Grficos de disperso e reta ajustada do modelo de regresso beta.

A Figura 4.10.a evidencia que os resduos riww definidos em (3.15) no formam nenhuma
tendncia no grfico de disperso contra os ndices das observaes e pe em destaque a
observao 21, caracterizando-a como observao aberrante. Na Figura 4.10.b, na qual
traado o grfico de disperso entre os resduos riww e os valores da varivel regres-
sora, observa-se uma tendncia de afunilamento nos resduos, sugerindo a possibilidade
de melhora do ajuste do modelo caso seja adicionado um termo extra, possivelmente para
permitir que o parmetro de disperso dependa da potncia. Seguindo o critrio da dis-
tncia de Cook, h indcios de que a observao 21 seja a mais influente, conforme indica
a Figura 4.10.c. Por outro lado, utilizando o critrio dos valores de alavanca generalizada,
a Figura 4.10.d sugere a inexistncia de pontos de alavanca. A Figura 4.10.e., que mostra
o grfico de disperso entre riww e os respectivos valores ajustados, sugere um compor-
tamento heteroscedstico, na medida em que os resduos parecem se dispersar mais para
valores ajustados maiores. Por fim, a Figura 4.10.f indica que os resduos no esto bem
distribudos dentro do grfico de envelope simulado, com algumas delas extrapolando os
seus limites, sugerindo portanto desvio em relao s suposies do modelo.

47
4

4
21 21
3

3
Resduo ponderado

Resduo ponderado
2

2
34
1

1
31
0

0
1

1
11
2

2
0 5 10 15 20 25 30 35 40 0 2 4 6 8

ndice da observao Varivel Regressora

(a) (b)

0.10
21
21
0.08
6

Alavanca generalizada
Distncia de Cook

0.06

31
4

0.04

34
2

0.02
0.00
0

0 5 10 15 20 25 30 35 40 0.05 0.10 0.15 0.20

ndice da observao Valor ajustado

(c) (d)
4
4

21
3
3

2
Residuo Ponderado 2
Resduo ponderado

1
1

0
1
0

2
1

3
2

0.05 0.10 0.15 0.20 2.0 1.5 1.0 0.5 0.0 0.5 1.0 1.5 2.0

Valor ajustado Percentis da Normal Padro

(e) (f)

Figura 4.10: Grficos de diagnstico do modelo de regresso beta.

48
4.6 Modelo de regresso beta com transformao loga-
rtmica na varivel regressora

Nesta seo considerado o modelo de regresso beta definido na Seo 3.3. Admite-se
que y1 , . . . , yn so variveis aleatrias independentes tal que yi tem distribuio beta de
mdia i e parmetro de disperso , e ainda,
 
i
ln = 0 + 1 xi , i = 1, . . . , n,
1 i

em que 0 e 1 so parmetros desconhecidos do modelo, g(i ) = ln(i /(1 i )) a


funo de ligao logito e xi = ln(xi ), conforme definido na Seo 3.3. A Tabela 4.6,
que mostra o resultado do ajuste do modelo, indica que o logaritmo natural da potncia
computada estatisticamente importante para explicar o fator de simultaneidade.

Tabela 4.6 Ajuste do modelo de regresso beta com transformao logartmica na varivel
regressora.

Parmetro Estimativa Erro Padro t p-valor


0 -1.71223 0.06720 -25.5 0.0000
1 -0.79352 0.06654 -11.9 0.0000
79.34491 17.40425 - -

A Figura 4.11.a exibe o grfico de disperso entre o logaritmo da potncia e o logito


da varivel resposta, bem como a reta ajustada, enquanto a Figura 4.11.b exibe o grfico
de disperso entre a potncia e o fator de simultaneidade, bem como a reta ajustada
transformada. Ambas as figuras destacam as observaes 21, 31 e 34 por apresentarem
valores extremos na varivel regressora transformada, no apresentando grandes desvios
em relao ao modelo ajustado.

A Figura 4.12.a mostra que os resduos no formam nenhuma tendncia claramente


definida no grfico de disperso contra a ordem de observao. Tambm no se observa
nenhuma tendncia no grfico da Figura 4.12.b, sugerindo que no existe ausncia de

49
1.0
1

0.9
21
0

0.8
logito(Fator de Simultaneidade)

Fator de Simultaneidade

0.7
1

0.6
0.5
2

21

0.4
3

0.3
0.2
31 34
4

0.1
31 34

0.0
5

2 1 0 1 2 3 0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0

log(Potncia computada) Potncia computada(MW)

(a) (b)
Figura 4.11: Grficos de disperso e reta ajustada do modelo de regresso beta com
transformao logartmica na varivel regressora.

termo extra. A observao 21 apresenta o maior valor residual do ajuste deste modelo.
As observaes 16, 33 e 35 apresentam valores de resduo altos, mas esto relativamente
prximas da massa de dados. Segundo o critrio da distncia de Cook, a observao 21
destaca-se como uma possvel observao influente, conforme mostra a Figura 4.12.c. A
observao 21 tambm destaque como ponto de alavanca, juntamente com a observao
15, conforme indica a Figura 4.12.d. A Figura 4.12.e no sugere nenhum comportamento
heteroscedtico dos resduos. Tambm no se observam desvios relevantes em relao
suposio de distribuio do modelo, conforme Figura 4.12.f, uma vez que as observaes
esto todas distribudas dentro dos envelopes ou bem prximos de seus limites.

4.7 Comparao entre os modelos

A proposta desta seo escolher, entre os seis modelos ajustados nas sees ante-
riores, o modelo mais adequado aos dados. Em uma anlise inicial, sero descartados
os modelos que apresentaram algum desvio evidente em relao s suas suposies. Em

50
21 21
3

3
16 33 16 33
2

2
Resduo ponderado

Resduo ponderado
1

1
0

0
1

1
2

2
35 35

0 5 10 15 20 25 30 35 40 1 0 1 2

ndice da observao Varivel Regressora

(a) (b)

0.5
21 21
250

0.4
200

Alavanca generalizada
Distncia de Cook

0.3
150

0.2
100

15
0.1
50

3431
0.0
0

0 5 10 15 20 25 30 35 40 0.1 0.2 0.3 0.4

ndice da observao Valor ajustado

(c) (d)

21
5
3

33 16
3
2

2
Residuo Ponderado
Resduo ponderado

1
1

1 0
0

3
1

5
2

35

0.1 0.2 0.3 0.4 2.0 1.5 1.0 0.5 0.0 0.5 1.0 1.5 2.0

Valor ajustado Percentis da Normal Padro

(e) (f)

Figura 4.12: Grficos de diagnstico do modelo de regresso beta com transformao


logartmica na varivel regressora.
51
seguida, para os modelos remanescentes, ser avaliado o impacto da retirada de obser-
vaes possivelmente influentes que, segundo os grficos de diagnstico apresentados nas
sees anteriores, esto presentes em todos os modelos. Ao fim desta anlise, ser escolhido
um nico modelo que ser trabalhado de modo a fornecer uma banda de predio, cujo
limite superior ser tomado como a proposta da curva do fator de simultaneidade.

Para o MRLN com transformao logito na varivel resposta, cujos resultados so


apresentados na Seo 4.1, nota-se que a observao 21 extrapola os limites do grfico de
envelope simulado, sugerindo uma leve falta de qualidade de ajuste. Alm disso, fazendo
uma anlise conservadora deste modelo, a suposio de homoscedasticidade violada (p-
valor = 0.099 no teste de Breusch-Pagan), sendo tambm a observao 21 a responsvel
por este resultado. Desta forma, o modelo em questo caracteriza-se por no acomodar
de forma satisfatria a observao 21.

Para o MRLN com transformao logito na varivel resposta e transformao loga-


rtmica nas varivel regressora, cujos resultados so apresentados na Seo 4.2, o princi-
pal desvio fica por conta do teste de Anderson-Darling, que gerou um nvel descritivo no
limiar da rejeio da hiptese de normalidade a um nvel de significncia de 5% (p-valor
= 0.0545). Desta forma, o modelo em questo caracteriza-se por violar a suposio de
normalidade, comprometendo assim os resultados inferenciais.

Para o MRLN com transformao logartmica na varivel resposta, cujos resultados


so apresentados na Seo 4.3, no h nenhuma evidncia de desvio em relao s su-
posies do modelo. Desta forma, o modelo em questo constitui uma alternativa a ser
considerada.

Similarmente ao modelo apresentado na Seo 4.2, para o MRLN com transformao


logartmica nas variveis resposta e regressora, cujos resultados so apresentados na Seo
4.4, o principal desvio tambm fica por conta do teste de Anderson-Darling, que rejeita
a hiptese de normalidade a um nvel de significncia de 5% (p-valor = 0.0462). Desta
forma, o modelo em questo caraceriza-se por violar a suposio de normalidade, com-
prometendo assim os resultados inferenciais.

52
Para o modelo de regresso beta, cujos resultados so apresentados na Seo 4.5,
foram encontrados diversos desvios. Foram encontrados indcios de ausncia de termo ex-
tra, disperso varivel e desvio na suposio da distribuio do modelo, configurando-se,
portanto, uma situao na qual o modelo inadequado para os dados considerados.

Finalmente, para o modelo de regresso beta com transformao logartmica na varivel


regressora, cujos resultados so apresentados na Seo 4.6, no h nenhuma evidncia de
desvio em relao s suposies do modelo. Desta forma, o modelo em questo constitui
uma alternativa a ser considerada.

Portanto, as tcnicas de diagnstico utilizadas neste trabalho no evidenciaram razes


para descartar dois dos seis modelos testados nesta dissertao: o MRLN com transfor-
mao logartmica na varivel resposta e o modelo de regresso beta com transformao
logartmica na varivel regressora.

Uma grande diferena entre estes dois modelos pode ser observada na Figura 4.13,
que contrape as duas curvas ajustadas transformadas. A queda acentuada da curva
do modelo de regresso beta, observada na Figura 4.13.b, devida transformao loga-
rtmica da varivel regressora. Comportamento similar foi observado em todos os modelos
que consideraram esta transformao. A pergunta a ser respondida agora : qual destas
duas curvas melhor se aproxima do verdadeiro comportamento do fator de simultaneidade?

Nota-se que, entre as duas curvas, quase no h diferena em estimar o fator de si-
multaneidade mdio para potncias computadas superiores a 1 M W . A maior diferena
entre as duas curvas, portanto, envolve a estimativa de fatores de simultaneidade inferi-
ores a 1 M W . Como o escopo deste trabalho apenas sistemas prediais cuja utilizao
de gs natural para o aquecimento de gua e coco, as chances de observar potncias
computadas com valores baixos ficou bastante reduzida. De fato, nota-se que os valores
observados de potncia computada so superiores a 0.5 M W , com exceo da observao
21, cujo valor de potncia computada foi 0.17 M W . Portanto, este trabalho no levantou
massa de dados que possa evidenciar, com algum grau de certeza, o comportamento do

53
1.0

1.0
0.9

0.9
0.8

0.8
Fator de Simultaneidade
Fator de simultaneidade

0.7

0.7
0.6

0.6
0.5

0.5
21 21
0.4

0.4
0.3

0.3
16
12
29
0.2

0.2
0.1

0.1
31 34 31 34
0.0

0.0
0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0 0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0

Potncia computada (MW) Potncia computada(MW)

(a) (b)
Figura 4.13: Grficos de disperso e reta ajustada do MRLN com transformao logart-
mica na varivel resposta (a) e do modelo de regresso beta com transformao logartmica
na varivel regressora (b).

fator de simultaneidade no intervalo que vai de 0 a 0.5 M W .

A primeira evidncia de que a transformao logartmica a mais adequada aos dados


vem da anlise das observaes que esto no intervalo (0.5 M W , 1 M W ) de potncia
computada. Estas observaes so melhores acomodadas pelo modelo de regresso beta,
cuja tendncia de decaimento mais acentuada nesta regio. A observao 21 insere-se
nesta interpretao como uma continuao natural desta tendncia. A segunda evidn-
cia vem dos diversos outros estudos ligados ao fator de simultaneidade que evidenciam
que, medida que os valores de potncia computada se aproximam de 0, o valor do fa-
tor de simultaneidade tende a aumentar, e que para valores muito baixos de potncia
computada, bastante provvel que o fator de simultaneidade tenda ao valor 1 (ver por
exemplo, Ilha, 1996 e Kawabe, Ogassavara e Dias, 1989). Esta situao claramente
contemplada no modelo de regresso beta, mas no no MRLN. Portanto, embora no
existam razes estatsticas para descartar os modelos apresentados nas Sees 4.3 e 4.6, a
literatura evidencia que o MRLN com transformao logartmica na varivel resposta no
esteja retratando o verdadeiro comportamento do fator de simultaneidade devido a um

54
problema de falta de informao em um intervalo de valores da potncia. Desta forma, o
modelo de regresso beta com transformao logartmica na varivel regressora apresenta-
se como o modelo mais adequado neste trabalho.

H ainda de se retomar a discusso sobre as premissas que tornam o modelo de re-


gresso beta teoricamente mais adequado a dados medidos de forma contnua e limitados
ao intervalo (0, 1), conforme j mencionado no Captulo 3. O MRLN apresenta duas in-
consistncias conceituais quando aplicados em dados compreendidos no intervalo (0,1).
Primeiro, a varivel resposta no est definida no domnio sobre o qual a distribuio
normal definida. Segundo, dados deste tipo no admitem que a funo de esperana
condicional seja linear e a funo de varincia condicional seja independente da mdia. A
transformao da varivel resposta busca contornar estes erros conceituais, mas ao mesmo
tempo adicionam dificuldades na interpretabilidade do modelo, uma vez que os resultados
obtidos referem-se varivel resposta transformada, e no varivel resposta original.
O modelo de regresso beta, por sua vez, apresenta uma srie de vantagens em relao
aos dados compreendidos entre (0, 1), conforme tambm mencionado no Captulo 3. Em
primeiro lugar, todas as suposies do modelo so referentes varivel resposta original, e
no varivel resposta transformada, facilitando a interpretao dos parmetros do mod-
elo. A utilizao da ligao logito restringe a esperana condicional ao intervalo (0,1). Por
fim, variveis respostas com varincias no-constantes, situao muito comum em dados
compreendidos no intervalo (0, 1), podem ser naturalmente acomodadas pelo modelo de
regresso beta. Desta forma, as adequaes quase que naturais da regresso beta a dados
compreendidos no intervalo (0, 1) e a facilidade de interpretao dos resultados tambm
so fatores que favorecem a escolha do modelo apresentado na Seo 4.6.

Uma vez definido o modelo a ser considerado nesta dissertao, importante avaliar o
impacto de observaes possivelmente influentes sobre as estimativas do modelo, conforme
apontado pelos grficos de diagnstico da Seo 4.6. A Tabela 4.7 mostra a variao das
estimativas mediante a retirada das observaes possivelmente influentes. Sob o efeito da
retirada da observao 21, no h grandes impactos sobre as estimativas de 0 e 1 . A
variao observada no parmetro 1 inferior a 8% e as concluses sobre a importncia
da potncia para explicar o fator de simultaneidade permanece inalterada. Em relao ao

55
parmetro de dispeso , a variao observada com a retirada da observao inferior a
1%. A Figura 4.14 mostra as curvas ajustadas com e sem a observao 21 evidenciando
que, de fato, quase no h impacto no ajuste das curvas mediante retirada da observao
21.

Tabela 4.7 Estimativas do modelo de regresso beta com transformao logartmica na


varivel resposta.

Parmetro Todas Sem 21 %


0 -1.7122 -1.7641 3.0
p-valor 0.0000 0.0000
1 -0.7935 -0.7305 -7.9
p-valor 0.0000 0.0000 -
79.3449 78.7392 -0.8
1.0
1

Todas Todas
0.9

Sem 21 Sem 21
21
0

0.8
logito(Fator de Simultaneidade)

Fator de Simultaneidade

0.7
1

0.6
0.5
2

21
0.4
3

0.3
0.2
4

0.1
0.0
5

2 1 0 1 2 3 0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0

ln(Potncia computada) Potncia computada (MW)

(a) (b)
Figura 4.14: Efeito da retirada da observao 21 no modelo de regresso beta com trans-
formao logartmica na varivel resposta.

56
Outro passo importante consiste na interpretao do modelo ajustado, ou seja,
 
b

ln = 1.71 0.79 x
1b

em que x = ln(x), com x representando a potncia computada (em MW). Isolando


b,
temos que

e(1.710.79 x )
b=
.
1 + e(1.710.79 x )

Como usual em modelos que levam em conta a funo logito como funo de li-
gao, poder-se-ia interpretar o modelo ajustado em termos de razo de chances por meio
b
da medida e(c1 ) , em que c um incremento na varivel regressora. No entanto, como
a varivel resposta aqui estudada no representa uma probabilidade, no conveniente
interpret-la como tal.

b
Nota-se, porm, que e(0.11 ) = e(0.10.79) 1.08, o que significa que, a cada re-
duo de 0.1 no logaritmo natural da potncia (aproximadamente 1M W na potncia
computada), a utilizao simultnea mdia dos aparelhos de utilizao de um sistema
predial aumenta em 8%.

57
Captulo 5

Predio do fator de simultaneidade

5.1 Introduo
O modelo de regresso beta com transformao logartmica na varivel resposta foi o
modelo que melhor se ajustou aos dados de fator de simultaneidade, conforme Seo 4.7.
As tcnicas de diagnstico apresentadas na Seo 3.4 contriburam para concluir que este
modelo definiu a curva mdia que melhor acomodou as observaes no grfico de disperso
entre fator de simultaneidade e potncia computada.

No entanto, na prtica, no se pode utilizar a estimativa da esperana condicional


do fator de simultaneidade para dimensionar as instalaes de um sistema predial de gs
natural. Se fosse adotado o modelo da Seo 4.6 para definir os fatores de simultaneidade
dos novos projetos de sistema predial de gs natural, seria observado um grande nmero
de sistemas prediais com fator de simultaneidade subestimado, como mostra a Figura
4.11.b. Conforme j mencionado no Captulo 1, subestimar o fator de simultaneidade
compromete a qualidade do servio de fornecimento de gs natural e a segurana dos
usurios.

necessrio, portanto, que na escolha do fator de simultaneidade, assegure-se, com


algum grau de confiana, que o novo sistema predial a ser projetado no tenha seu fator
de simultaneidade subestimado. Estatisticamente, este desafio traduz-se em obter um in-
tervalo de predio para o fator de simultaneidade de novas edificaes. Nesta dissertao

58
ser utilizado o mtodo de bootstrap, o qual ser escrito nas sees seguintes.

5.2 O mtodo bootstrap


O bootstrap um mtodo computacional de inferncia estatstica proposto por Efron
(1979) que vem se mostrando til em responder a questes prticas sem a necessidade
de clculos analticos complexos ou inviveis. A fim de descrever as suas premissas bsi-
cas, consideremos uma amostra y = (y1 , . . . , yn ) de uma varivel aleatria populacional
Y , cujo comportamento probabilstico completamente descrito por sua funo de dis-
tribuio acumulada F. Consideremos ainda que = t(F) um parmetro de interesse e
que b = S(x) seu estimador. Supondo ser invivel a obteno das propriedades da dis-
tribuio de b por meio da teoria assinttica, pode-se considerar a utilizao do bootstrap.

A aplicao do bootstrap consiste basicamente em, a partir de y, obter um grande


nmero de amostras e um igual nmero de estimativas bootstrap de b = S(x ). Com
base na distribuio emprica de b pode-se ento estimar a funo de distribuio de .
b

A forma de obteno das amostras bootstrap definem duas verses para o mtodo:
no-paramtrica e paramtrica. No bootstrap no-paramtrico, a amostra original y as-
sume status de populao, sobre a qual so extradas, aleatoriamente e com reposio,
as amostras bootstrap y . Formalizando este procedimento em termos estatsticos, as
amostras bootstrap so obtidas de uma estimativa no-paramtrica de F, que empirica-
mente estimada por

b = #{yi t} , t R,
F(t) (5.1)
n

que atribui probabilidade 1/n para cada elemento yi , i = 1, . . . , n. A verso paramtrica


do bootstrap pode ser utilizada quando a distribuio F pertence a uma famlia paramtrica
finita e conhecida de distribuies F( ). Neste caso, na possibilidade de obter b, uma
estimativa consistente para , pode-se definir a estimativa paramtrica de F, F(b
). Neste
trabalho ser utilizada a verso no-paramtrica do mtodo de bootstrap.

59
5.3 Intervalos de predio bootstrap
Na prtica, a curva do fator de simultaneidade utilizada para a determinao do fator
em novas edificaes. Em termos estatsticos, deseja-se predizer o fator de simultaneidade
de uma nova edificao utilizando um modelo de regresso previamente ajustado com
base em um conjunto de n pares de dados ((x1 , y1 ), . . . , (xn , yn )). Sejam x+ a potncia
computada de uma nova edificao, pertencente ou no ao conjunto de dados original, e
y+ o respectivo fator de simultaneidade no observado. A predio pontual deste novo
b+ = g 1 (b0 +x+ b1 ), em que g 1 () a funo
valor do fator de simultaneidade dada por
inversa da funo de ligao e b0 e b1 so os estimadores de mxima verossimilhana dos
parmetros do modelo, obtidos com base no conjunto de dados original. Alm da predio
pontual, tambm conveniente estabelecer os limites de predio. Estes limites formam
um intervalo de predio baseado em nveis de confiana, e so construdos com base na
distribuio aproximada do erro de predio.

Seja R(y, ) uma funo montona crescente em y com varincia constante. Suponha
que a mdia + e a distribuio de R(y, ) sejam conhecidas e que q seja o -simo quan-
til desta distribuio. Logo, os limites de predio para um intervalo com nvel nominal
1 so os valores y+,/2 e y+,1/2 que satisfazem, respectivamente, R(y, + ) = q(/2)
e R(y, + ) = q(1/2) . Se estimado por
b independentemente de y+ e se R(y+ ,
b)
tem quantis conhecidos, o mesmo mtodo se aplica. Se a distribuio de R(y+ ,
b)
desconhecida, a mesma pode ser aproximada por mtodos assintticos ou por mtodos
de reamostragem, tal como o mtodo bootstrap, por exemplo. Desta forma, por meio do
mtodo bootstrap possvel obter uma aproximao da distribuio de R(y+ ,
b), e as-
sim obter os quantis empricos utilizados na obteno dos limites de predio. A funo
R(y, ) corresponde a alguma definio de resduo do modelo. O algoritmo bootstrap uti-
lizar para o processo de reamostragem uma verso padronizada da funo R(y, ), cuja
distribuio tenha varincia aproximadamente constante.

Para o modelo de regresso beta, Ospina (2007) prope que

yi
bi
R(y,
b) = ,
vi

60
ou seja, o resduo padronizado 1 tal como definido em (3.14). No processo de reamostragem,
prope-se utilizar a padronizao do resduo padronizado 1, ou seja,

y bi
riww = p i ,
vi (1 hii )

que o resduo padronizado 2 tal como definido em 3.15. Para desenvolver o mtodo boot-
strap para a obteno de limites de predio empricos para o modelo de regresso beta,
Ospina (2007) baseou-se no mtodo proposto por Davison e Hinkley (1997) para modelos
lineares generalizados. Em sua tese, a autora detalha o algoritmo para a obteno dos
limites de predio empricos, mostra um exemplo de aplicao e conclui que o intervalo
de predio bootstrap tem, em geral, bom desempenho, mas tende a falhar quando usado
para prever casos que seriam considerados influentes se estivessem presentes no conjunto
de dados observados.

O mtodo proposto por Ospina (2007) foi a ferramenta utilizada para a obteno do
intervalo de predio do modelo ajustado na Seo 4.6. Implementada na plataforma
computacional Ox, a sada do mtodo computacional so os valores referentes ao inter-
valo de predio bootstrap. Dentro do intervalo (0, 10] (em kW), a cada incremento de 1W
no valor da potncia computada, foi empregado o mtodo bootstrap, gerando assim 10000
valores preditos do fator de simultaneidade com seus respectivos limites inferiores e su-
periores de intervalo de predio bootstrap. Aqui, foram considerados limites de predio
com coeficiente de confiana nominal igual a 95%.

Os resultados gerados pelos limites inferiores do intervalo de predio no tm utilidade


prtica neste trabalho. O maior interesse est no limite superior do intervalo de predio,
cujos valores formam o grfico exibido na Figura 5.1.a.

Aparentemente, a curva exibida na Figura 5.1.a contnua e monotonicamente de-


crescente. Na verdade, esta figura formada pela sucesso de pontos bem prximos
que carregam a variao natural existente em uma tcnica de bootstrap, e que pode ser
observada por alguns pontos que se distanciam da curva principal. A fim de eliminar

61
esta variao, foi empregada a tcnica de suavizao de grficos de disperso descrita
em Cleveland (1979) e Cleveland (1981). Esta tcnica, conhecida como LOWESS (das
iniciais de Locally Weighted Robust Scatterplot Smoothing), utiliza modelos de regresso
ponderados robustos para gerar, com base nos pontos de um grfico de disperso, uma
curva suavizada. Aqui, foram tomados os pares formados pelos valores das potncias
utilizadas no mtodo bootstrap e os respectivos valores obtidos para o limite superior do
intervalo de predio, totalizando assim 10000 pontos. O resultado deste procedimento
pode ser observado na Figura 5.1.b.
1.0

1.0
0.9

0.9
0.8

0.8
Fator de Simultaneidade

Fator de Simultaneidade
0.7

0.7
0.6

0.6
0.5

0.5
0.4

0.4
0.3

0.3
0.2

0.2
0.1

0.1
0.0

0.0

0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0 0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0

Potncia (MW) Potncia (MW)

(a) (b)
Figura 5.1: Limite superior do intervalo de predio bootstrap: dados brutos (a) e sob
efeito da tcnica LOWESS de suavizao de curvas (b).

A utilizao da tcnica do LOWESS o passo final para a obteno de uma nova


curva de predio para o fator de simultaneidade com base na potncia computada. No
entanto, diferentemente das abordagens da norma tcnica NBR 14570 e de IPT(2005),
a abordagem desta dissertao no apresenta como resultado final uma frmula fechada
para o fator de simultaneidade. O resultado final deste trabalho uma tabela que rela-
ciona o fator de simultaneidade com a potncia computada, cujos valores constituram o
grfico da Figura 5.1.b. Estes valores podem ser observados na Tabela 5.1.

62
Tabela 5.1 Potncias computadas (kW) e seus respectivos fatores de simultaneidade

MW F.S. MW F.S. MW F.S. MW F.S. MW F.S. MW F.S.


0.00 0.842 0.34 0.417 0.68 0.304 1.02 0.251 1.36 0.219 3.50 0.143
0.01 0.823 0.35 0.412 0.69 0.302 1.03 0.250 1.37 0.218 3.60 0.142
0.02 0.803 0.36 0.407 0.70 0.299 1.04 0.249 1.38 0.218 3.70 0.140
0.03 0.784 0.37 0.402 0.71 0.298 1.05 0.248 1.39 0.217 3.80 0.138
0.04 0.764 0.38 0.397 0.72 0.296 1.06 0.247 1.40 0.216 3.90 0.137
0.05 0.745 0.39 0.391 0.73 0.294 1.07 0.245 1.41 0.215 4.00 0.136
0.06 0.726 0.40 0.387 0.74 0.292 1.08 0.244 1.42 0.215 4.10 0.134
0.07 0.706 0.41 0.383 0.75 0.290 1.09 0.243 1.43 0.214 4.20 0.133
0.08 0.687 0.42 0.379 0.76 0.289 1.10 0.242 1.44 0.213 4.30 0.132
0.09 0.667 0.43 0.375 0.77 0.287 1.11 0.241 1.45 0.213 4.40 0.131
0.10 0.648 0.44 0.372 0.78 0.285 1.12 0.240 1.46 0.212 4.50 0.130
0.11 0.635 0.45 0.368 0.79 0.283 1.13 0.239 1.47 0.211 4.60 0.128
0.12 0.621 0.46 0.364 0.80 0.281 1.14 0.238 1.48 0.210 4.70 0.128
0.13 0.607 0.47 0.361 0.81 0.280 1.15 0.237 1.49 0.210 4.80 0.127
0.14 0.594 0.48 0.357 0.82 0.278 1.16 0.236 1.50 0.209 4.90 0.125
0.15 0.580 0.49 0.353 0.83 0.277 1.17 0.235 1.60 0.203 5.00 0.125
0.16 0.567 0.50 0.350 0.84 0.275 1.18 0.234 1.70 0.197 5.25 0.122
0.17 0.553 0.51 0.347 0.85 0.273 1.19 0.233 1.80 0.192 5.50 0.120
0.18 0.540 0.52 0.344 0.86 0.272 1.20 0.233 1.90 0.187 5.75 0.119
0.19 0.526 0.53 0.341 0.87 0.270 1.21 0.232 2.00 0.183 6.00 0.117
0.20 0.513 0.54 0.339 0.88 0.269 1.22 0.231 2.10 0.179 6.25 0.115
0.21 0.505 0.55 0.336 0.89 0.267 1.23 0.230 2.20 0.175 6.50 0.114
0.22 0.498 0.56 0.333 0.90 0.266 1.24 0.229 2.30 0.172 6.75 0.112
0.23 0.490 0.57 0.330 0.91 0.264 1.25 0.228 2.40 0.169 7.00 0.111
0.24 0.482 0.58 0.327 0.92 0.263 1.26 0.227 2.50 0.166 7.25 0.109
0.25 0.475 0.59 0.325 0.93 0.262 1.27 0.226 2.60 0.163 7.50 0.109
0.26 0.467 0.60 0.322 0.94 0.261 1.28 0.225 2.70 0.160 7.75 0.107
0.27 0.460 0.61 0.320 0.95 0.259 1.29 0.225 2.80 0.157 8.00 0.107
0.28 0.452 0.62 0.317 0.96 0.258 1.30 0.224 2.90 0.155 8.25 0.106
0.29 0.445 0.63 0.315 0.97 0.257 1.31 0.223 3.00 0.153 8.50 0.105
0.30 0.437 0.64 0.313 0.98 0.256 1.32 0.222 3.10 0.151 8.75 0.104
0.31 0.432 0.65 0.311 0.99 0.254 1.33 0.221 3.20 0.149 9.00 0.103
0.32 0.427 0.66 0.308 1.00 0.253 1.34 0.221 3.30 0.147 9.50 0.102
0.33 0.422 0.67 0.306 1.01 0.252 1.35 0.220 3.40 0.145 10.00 0.101

63
Captulo 6

Consideraes finais

6.1 Concluses
Neste trabalho, foram apresentadas diversas abordagens possveis para a predio do fa-
tor de simultaneidade por meio de modelos de regresso para propores contnuas. O
objetivo foi identificar quais destas abordagens melhor se adapta ao conjunto de dados
utilizado e, assim, propor uma curva do fator de simultaneidade.

De modo geral, pode-se dividir os modelos utilizados neste trabalho em trs classes:
modelos de regresso lineares normais, modelos de regresso lineares normais motivados
por modelos de regresso no-lineares normais, e modelos de regresso beta. As duas
primeiras classes de modelos so alternativas largamente empregadas na literatura cient-
fica, conforme mostram Kieschnick e McCullough (2003). A comparao entre os modelos
ocorreu por meio das diversas tcnicas de diagnsticos apresentadas na Seo 3.4, que
ajudaram a identificar desvios nas suposies dos modelos e observaes influentes. Por
razes j apresentadas na Seo 4.7, o modelo mais adequado aos dados deste trabalho
foi o modelo de regresso beta com transformao logartmica na varivel regressora, con-
cluso esta que vai ao encontro das expectativas iniciais do trabalho.

A simples escolha de um modelo que se ajustou melhor aos dados no fornece uma
soluo ao problema de predio do fator de simultaneidade, uma vez que um modelo
bem ajustado forneceria apenas uma boa estimativa do fator de simultaneidade mdio

64
para um dado valor de potncia. Na prtica, necessrio que, ao se determinar o fator de
simultaneidade para uma nova edificao, assegure-se com algum grau de confiana, que
o fator de simultaneidade no seja subestimado. Em termos estatsticos, foi necessrio
obter um intervalo de predio para o fator de simultaneidade baseado no modelo de re-
gresso beta. Para tanto, foi aplicada a teoria apresentada na Seo 5.1 - e desenvolvida
em detalhes por Ospina (2007) - que trata do desenvolvimento da tcnica de bootstrap
para predio em modelos de regresso beta. A utilizao do bootstrap em conjunto com
a tcnica de suavizao LOWESS forneceu o resultado final deste trabalho, apresentado
na Figura 5.1 e na Tabela 5.1.

Por fim, pode-se afirmar que a curva boostrap obtida neste trabalho est alinhada aos
estudos similares realizados recentemente, nos quais se alimenta a expectativa de que o
fator de simultaneidade possa ser cada vez menor. Este trabalho est entre aqueles que
vem comprovando esta expectativa, e que s foi possvel ser realizado principalmente por
dois fatores. Em primeiro lugar, atualmente existe maior facilidade de acesso aos dados de
comportamento de consumo de gs natural graas expanso da rede de distribuio. Em
segundo lugar, o desenvolvimento computacional tem possibilitado a aplicao de diver-
sas tcnicas estatsticas que dependem de procedimentos computacionalmente intensivos,
como o caso do bootstrap.

6.2 Sugestes para trabalhos futuros


A partir dos resultados obtidos neste trabalho, surgem duas novas perspectivas de trabalho
futuro, uma focada no aspecto prtico dos problemas envolvendo o fator de simultanei-
dade e outra privilegiando o aspecto terico dos modelos estatsticos a serem utilizados.

Sob o ponto de vista prtico, a oportunidade surge quando se constata o escopo restrito
do modelo obtido. Os dados levantados referem-se a sistemas prediais exclusivamente
residenciais, situados na cidade de So Paulo e equipados com fogo e aquecedor de gua.
Portanto, os resultados obtidos no devem ser extrapolados para sistemas prediais com
outras caractersticas. A incluso de sistemas prediais com outras caractersticas pode

65
melhorar a predio do fator de simultaneidade e aumentar a sua abrangncia. Em ter-
mos estatsticos, a sugesto considerar outras variveis regressoras que levem em conta
a diversidade dos sistemas prediais, tais como regio (fria ou quente, rica ou pobre), fins
de utilizao do gs (cocco e aquecimento, somente cocco, somente aquecimento),
atividade (somente residencial, somente comercial, residencial e comercial), entre outras.

Sob o ponto de vista terico, existem vrios outros modelos que podem ser utilizados
para modelar o fator de simultaneidade. Alm dos j citados aqui, Kieschnick e McCul-
lough (2003) citam o modelo de regresso normal censurado (Tobit), o modelo simplex e
os modelos de quase-verossimilhana. Smithson e Verkuilen (2006) apresentam uma vari-
ao do modelo de regresso beta que considera a modelagem do parmetro de disperso.
Deve-se ressaltar, no entanto, que o problema no se restringe ao ajuste do modelo aos
dados. Deve-se tambm buscar uma soluo para a obteno de intervalos de predio,
que o passo no qual efetivamente se obtm a predio do fator de simultaneidade para
novas edificaes.

66
Apndice A

Dados

ID Potncia(MW) FS Observado ID Potncia(kW) FS Observado


1 4.210 0.064 22 1.202 0.112
2 1.499 0.092 23 1.666 0.125
3 3.268 0.031 24 2.379 0.076
4 3.268 0.079 25 3.453 0.086
5 1.955 0.099 26 2.962 0.116
6 3.167 0.062 27 4.896 0.029
7 2.135 0.114 28 3.546 0.063
8 2.690 0.068 29 0.812 0.222
9 1.387 0.070 30 2.837 0.067
10 1.304 0.069 31 5.949 0.016
11 2.130 0.041 32 1.148 0.124
12 0.635 0.249 33 3.124 0.147
13 3.066 0.089 34 8.786 0.018
14 2.593 0.047 35 0.918 0.088
15 0.591 0.148 36 2.682 0.066
16 0.823 0.276 37 3.206 0.066
17 4.989 0.060 38 2.947 0.059
18 1.957 0.123 39 4.495 0.047
19 3.081 0.062 40 3.975 0.058
20 3.524 0.070 41 4.863 0.061
21 0.169 0.464 42 4.078 0.069

67
Referncias Bibliogrficas

[1] ABNT - Associao Brasileira de Normas Tcnicas. (2002) NBR 14570 - Instalaes
Internas para Uso Alternativo dos Gases GN e GLP - Produto e Execuo. Rio de
Janeiro, ABNT.

[2] Anderson, T. W., Darling, D. A. (1954). A test of goodness of fit. Journal of the
American Statistical Association, 49, 765 - 769.

[3] Atkinson, A. C. (1985). Plots, Transformations and Regression: An introduction to


Graphical Methods of Diagnostic Regression Analysis. New York, Oxford University
Press.

[4] Breusch, T. S., Pagan, A.R. (1979). A simple test for heteroscedasticity and random
coefficient variation. Econometrica, 47, 1287 - 1294.

[5] Bussab, W. O., Morettin, P. A. (2002). Estatstica Bsica. 5a ed., So Paulo, Saraiva.

[6] Carvalho, H. C. (1995). Instalaes Prediais de Gs: Manual de Dimensionamento.


Rio de Janeiro, Fundao Biblioteca Nacional, 1995.

[7] Casella, G., Berger, R. L. (1996). Statistical Inference. California, Duxbury Press.

68
[8] Cleveland, W. S. (1979). Robust locally weighted regression and smoothing scatter-
plots. Journal of the American Statistical Association, 74, 829 - 836.

[9] Cleveland, W. S. (1981). LOWESS: A program for smoothing scatterplots by robust


locally weighted regression. The American Statistician, 35, 54.

[10] Comgs - Companhia de Gs de So Paulo. (1977). Normas Tcnicas para Utilizao


de Gs Combustvel nos Edifcios e Construes em Geral. So Paulo.

[11] Cook, R. D. (1977). Detection of influential observations in linear regressions.


Technometrics, 19, 15 - 18.

[12] Cook, R.D., Pea, D., Weisberg, S. (1988). The likelihood displacement: A unifying
principle for influence measures. Communications in Statistics, Theory and Methods,
17, 623 - 640.

[13] Cook, R.D., Weisberg, S. (1982). Residuals and Influence in Regressions. London,
Chapman and Hall.

[14] Cordeiro, G.M., Paula, G.A. (1992). Estimation, large-sample parametric tests
and diagnostics for non-exponential family nonlinear models. Communications in
Statistics, Simulation and Computation, 21, 149 - 172.

[15] Davison, A. C., Hinkley, D. V. (1997). Bootstrap Methods and their Applications.
New York, Cambridge University Press.

[16] Draper, N. R., Smith, H. (1981). Applied Regression Analysis. New York, Wiley.

69
[17] Efron, B. (1979). Bootstrap methods: another look at the jackknife. Annals of
Statistics, 7, 1-26.

[18] Espinheira, P. L., Ferrari, S. L. P., Cribari-Neto, F. (2008). On beta regression


residuals. Journal of Applied Statistical. A aparecer.

[19] Everitt, B., S. (1994). A Handbook os Statistical Analysis using S-Plus. Chaaman
and Hall, London.

[20] Ferrari, S. L. P., Cribari-Neto, F. (2004). Beta regression for modelling rates and
proportions. Journal of Applied Statistics, 31, 799 - 815.

[21] Hoaglin, D. C., Welsch, R. E. (1978). The hat matrix in regression and ANOVA.
The American Statistician, 32, 17-22.

[22] Ilha, M. S. O. (1996). Formulao de modelos para determinao da demanda


e consumo de gs combustvel em edifcios residenciais. So Paulo, 1996. Tese
(Doutorado) - Escola Politcnica, USP.

[23] IPT - Instituto de Pesquisas Tecnolgicas. (2005). Determinao do fator de


simultaneidade em edificaes residenciais multi-familiares. Relatrio Tcnico, So
Paulo, 2005.

[24] Kawabe, L., Ogassavara, G., Dias, R. P. (1989) Fator de simultaneidade. In:
Simpsio Brasileiro de Medio de Vazo, 1., So Paulo, 1989. Anais. So Paulo,
IPT, 117 - 123.

70
[25] Kieschnick, R., McCullough, B. D. (2003). Regression analysis of variates observed
on (0,1): percentages, poportions and fractions. Statistical Modelling, 3, 193 - 213.

[26] Mittlbck, M., Schemper, M. (1996). Explained variation for logistic regression.
Statistics in Medicine, 15, 1987 - 1997.

[27] Montgomery, D. C., Peck, E. A., Vining, G. G (2001). Introduction to Linear


Regression Analysis. New York, Wiley.

[28] Neter, J., Kutner, M. H., Nachtsheim, C. J., Wasserman, W. (1996). Applied Linear
Statistical Models. Chicago, Irwin.

[29] Nocedal, J., Wright, S. J. (1999). Numerical Optimization. New York, Springer-
Verlag.

[30] Oliveira, M., S. (2004). Um Modelo de Regresso Beta: Teoria e Aplicaes. So


Paulo, 2004. Dissertao (Mestrado) - IME, Universidade de So Paulo.

[31] Ospina, P. L. E. (2007). Regresso Beta. So Paulo, 2007. Tese (Doutorado) - IME,
Universidade de So Paulo.

[32] Paula, G. A. (2003). Modelos de Regresso com Apoio Computacional. So Paulo,


IME/USP. Disponvel em http://www.ime.usp.br/giapaula.

[33] Pregibon, D. (1981). Logistic regression diagnostics. Annals of Statistics, 9, 705 - 724.

[34] Rao, C. R. (1973). Linear Statistical Inference and Its Applications. New York, Wiley.

71
[35] Smithson, M., Verkuilen, J. (2006). A better lemon-squeezer? Maximum likelihood
regression with beta-distribuited dependent variables. Psychological Methods, 11,
54-71.

[36] Wei, B. C., Hu, Y. Q., Fung, W. K. (1998). Generalized leverage and its applications.
Scandinavian Journal os Statistics, 25, 25 - 37.

72