Sei sulla pagina 1di 79

.

Predio de fator de simultaneidade


atravs de modelos de regresso
para propores contnuas
Luiz Fernando Molinari Zerbinatti

Dissertao apresentada
ao
Instituto de Matemtica e Estatstica
da
Universidade de So Paulo
para
obteno do ttulo
de
Mestre em Cincias

rea de concentrao: Estatstica


Orientadora: Profa . Dra . Silvia Lopes de Paula Ferrari

So Paulo, 29 de Fevereiro de 2008

Predio de fator de simultaneidade


atravs de modelos de regresso
para propores contnuas

Este exemplar corresponde redao


final da dissertao devidamente corrigida
e defendida por Luiz Fernando Molinari Zerbinatti
e aprovada pela comisso julgadora.

So Paulo, 29 de fevereiro de 2008

Banca examinadora
Profa. Dra. Silvia Lopes de Paula Ferrari (Orientadora) - IME/USP
Profa. Dra. Lucia Pereira Barroso - IME/USP
Profa. Dra. Olga Satomi Yoshida - IPT

Agradecimentos
A Deus, pela vida e pela sade.
minha orientadora, professora Silvia Ferrari, que me conduziu de forma

segura e acreditou neste trabalho. Na minha curta experincia acadmica,


foram poucas as vezes que encontrei tanto entusiasmo, dedicao e humildade em um professor.

Olga, que acreditou na minha capacidade, concedendo a oportunidade de


conviver durante 18 meses com profissionais de elevadssimo nvel tcnico,
alm de sugerir e viabilizar esta dissertao.

Profa. Lcia, que enriqueceu este trabalho com suas valiosas sugestes.
A todos os colegas do CMF / IPT - Centro de Metrologia de Fluidos do
Instituto de Pesquisas Tecnolgicas, que fizeram grande parte deste tra-

balho acontecer - Carlos Eduardo, Elaine, Marcelo, Nilson, Terahata, aos


profissionais da COMGS envolvidos neste projeto.

Aos meus pais. Este trabalho fruto do amor e da confiana incondicionais


que eles sempre depositaram em mim.

Julcilei que, sua maneira, contribuiu para este trabalho.


Ao teacher Renato, pelo help no abstract.
Aos colegas da Unicamp e da USP, que sempre me ajudaram no dia a dia do
mundo acadmico. Um agradecimento especial Patrcia Espinheira, que
contribuiu decisivamente para a concluso deste trabalho.

Aos funcionrios da Unicamp e da USP, principalmente a todos os meus pro-

fessores, sempre excepcionais na nobre misso de ensinar, contribuindo de


forma imensurvel com a minha formao. Um agradecimento especial ao
professor Filidor, que me iniciou na pesquisa acadmica.

Resumo
O fator de simultaneidade fundamental no planejamento de redes de distribuio de gs
natural. Trata-se de um multiplicador entre 0 e 1 que ajusta o consumo total terico de um
nmero de aparelhos de utilizao em condies reais. Em 2005 o Instituto de Pesquisas
Tecnolgicas (IPT) e a Companhia de Gs de So Paulo (COMGS) realizaram um estudo
no qual determinou-se o fator de simultaneidade em um conjunto de edificaes residenciais. Um modelo de regresso foi proposto para expressar o fator de simultaneidade em
termos da potncia total instalada. O modelo ajustado pode ser utilizado para predizer o
fator de simultaneidade em novas edificaes. O modelo em questo um modelo de regresso linear normal no qual a varivel resposta o logaritmo do fator de simultaneidade.
Nesta dissertao, o objetivo investigar outras possibilidades de modelos de regresso
adequados aos dados obtidos pelo IPT e pela COMGS. Especial ateno dada ao
modelo de regresso beta proposto por Ferrari e Cribari-Neto (Journal of Applied Statistics, 2004) por possuir vantagens sobre o modelo de regresso linear normal. O modelo de
regresso beta assume que, dadas as covariveis, a varivel resposta possui distribuio
beta, sendo adequado para modelar dados observados no intervalo unitrio. Desta forma,
a transformao na varivel resposta - o fator de simultaneidade - desnecessria.
Alm disso, proposta uma nova abordagem para a predio do fator de simultaneidade, diferente de todas as abordagens pesquisadas na literatura, utilizando a tcnica de
bootstrap.
Palavras-chaves: Modelo de regresso beta; Bootstrap; Propores contnuas; Diagnstico; Redes de distribuio de gs; Predio; Modelos de regresso; Fator de simultaneidade.

ii

Abstract
The simultaneity factor is fundamental in planning gas distribution networks. It is a multiplicator between 0 and 1 that adjusts the theoretical total consumption of a number of
devices to realistic conditions. In 2005, the Instituto de Pesquisas Tecnolgicas (IPT) and
the Companhia de Gs de So Paulo (COMGS) performed a study in which the simultaneity factor of gas consumption in a set of residential buildings have been determined.
A regression model was proposed to express the simultaneity factor in terms of the total
power of installed equipment. The fitted model can be used to predict the simultaneity
factor in new buildings. The model they proposed is a normal linear regression model in
which the response variable is the logarithm of the simultaneity factor.
In the present dissertation, our aim is to investigate other possible regression models suitable to the data obtained by IPT and CONGS. Emphasis is given to the beta
regression model proposed by Ferrari and Cribari-Neto (Journal of Applied Statistics,
2004) which has a number of advantages over normal linear regression models. The beta
regression model assumes that, given the covariates, the response variable has a beta distribution, which is adequate to model data observed in the unit interval. Therefore, no
transformation in the response variable, the simultaneity factor, is needed.
Additionally, we present a new approach for the prediction of the simultaneity factor,
that is different from all the approaches shown in the literature, using the bootstrap technique.
Keywords: Beta regression model; Bootstrap; Continuous Proportions; Diagnostic;
Gas distribution network; Prediction; Regression models; Simultaneity factor.

iii

Sumrio
1 Introduo
1.1

Organizao da dissertao . . . . . . . . . . . . . . . . . . . . . . . . . . .

2 Apresentao do problema

4
5

2.1

O sistema predial de gs natural . . . . . . . . . . . . . . . . . . . . . . . .

2.2

Fator de simultaneidade . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.3

Coleta de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.4

Anlise descritiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3 Descrio dos modelos estatsticos

15

3.1

Modelo de regresso linear normal . . . . . . . . . . . . . . . . . . . . . . . 16

3.2

Modelo de regresso no-linear normal . . . . . . . . . . . . . . . . . . . . 20

3.3

Modelo de regresso beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3.4

Tcnicas de diagnstico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

4 Anlise dos dados

33

4.1

MRLN com transformao logito na varivel resposta . . . . . . . . . . . . 34

4.2

MRLN com transformao logito na varivel resposta e transformao logartmica na varivel regressora . . . . . . . . . . . . . . . . . . . . . . . . . 37

4.3

MRLN com transformao logartmica na varivel resposta . . . . . . . . . 40

4.4

MRLN com transformao logartmica nas variveis resposta e regressora . 43

4.5

Modelo de regresso beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

4.6

Modelo de regresso beta com transformao logartmica na varivel regressora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

4.7

Comparao entre os modelos . . . . . . . . . . . . . . . . . . . . . . . . . 50


iv

5 Predio do fator de simultaneidade

58

5.1

Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

5.2

O mtodo bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

5.3

Intervalos de predio bootstrap . . . . . . . . . . . . . . . . . . . . . . . . 60

6 Consideraes finais

64

6.1

Concluses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

6.2

Sugestes para trabalhos futuros . . . . . . . . . . . . . . . . . . . . . . . . 65

A Dados

67

Captulo 1
Introduo

As primeiras reservas brasileiras de gs natural comearam a ser exploradas na Bahia,


na dcada de 40. Inicialmente restrito a aplicaes industriais, observou-se no decorrer da
dcada uma tmida expanso do uso do gs em estados vizinhos bem como uma pequena
diversificao de suas aplicaes, passando a ser utilizado tambm como combustvel para
refinarias e plos petroqumicos. Apenas 40 anos depois, na dcada de 80, assistiu-se
ao primeiro marco importante na histria do gs natural no Brasil, com a descoberta
da bacia de Campos. Finalmente o combustvel atingiu participao sigificativa na matriz energtica brasileira. Mas a bacia de Campos no foi suficiente para impulsionar a
popularizao do combustvel pas afora.
A forte expanso do uso do gs natural que se observa hoje no Brasil devida
conjuno de fatos bastante recentes da histria da Amrica do Sul. De um lado, a
descoberta de amplas reservas de gs natural na regio - incluindo-se a a bacia de Santos
- e a concluso do gasoduto Brasil-Bolvia elevaram consideravelmente a disponibilidade
do combustvel no pas. Do outro, a demanda pelo combustvel tambm vem crescendo.
Consumidores industriais, comerciais e residenciais esto percebendo que, alm do preo
competitivo, o gs natural oferece vantagens logsticas e ambientais. O recente colapso na
rede eltrica do pas e as incertezas sobre a disponibilidade futura deste tipo de energia
tambm elevaram a demanda do combustvel, que se apresentou como a alternativa de melhor custo-benefcio no mdio prazo. Por estas razes, hoje os governantes atribuem peso

elevado ao gs natural na poltica energtica nacional. Aliado aos interesses comerciais


das empresas concessionrias, o Estado vem promovendo uma forte poltica de expanso
do gs natural no pas. No por acaso, as companhias de gs buscam formas de reduzir os
custos de instalao para o gs natural ao mesmo tempo em que se assiste expanso do
uso deste combustvel. Esta uma necessidade criada pela recente poltica de massificao
do gs natural no pas, que transformou o custo de instalao em uma varivel de peso nas
contas das companhias, e fez com que as oportunidades de melhoria no dimensionamento
da rede recebessem ateno especial dentro destas empresas.
O fator de simultaneidade insere-se no contexto de oportunidades de melhoria no dimensionamento da rede. Os textos normativos referentes s instalaes prediais de gs
natural definem o fator de simultaneidade como sendo "a relao percentual entre a potncia verificada praticamente, com que trabalha simultaneamente um grupo de aparelhos,
servidos por um determinado trecho de tubulao, e a soma da capacidade mxima de
consumo desses mesmos aparelhos". Este nmero possui vital importncia para o dimensionamento das redes de distribuio de gs, pois a partir dele que se obtm a vazo de
projeto, ou seja, a vazo mxima que provavelmente se pratica em um trecho da tubulao.
Para obter a vazo de projeto em um trecho da tubulao, o fator de simultaneidade
aplicado sobre a vazo mxima possvel deste mesmo trecho, de modo que
Qp = F Qmax ,
onde Qp a vazo de projeto, F o fator de simultaneidade e Qmax a vazo mxima
possvel. Como o fator de simultaneidade um nmero adimensional situado no intervalo (0,1), pode-se interpretar a vazo de projeto como um percentual da vazo mxima
possvel. Em outras palavras, o fator de simultaneidade representa o percentual da vazo
mxima possvel que provavelmente se pratica naquele trecho de tubulao.
Ilha (1996) explica o impacto de superestimar o fator de simultaneidade. A superestimativa do fator de simultaneidade implica no somente no superdimensionamento das
tubulaes internas, dos reguladores de presso e dos medidores utilizados em um edifcio
residencial, - a chamada rede de distribuio interna - mas tambm nas estimativas de
2

demanda de gs natural e, conseqentemente, na rede pblica de abastecimento como um


todo. Superestimar o fator de simultaneidade gerar custos desnecessrios s companhias
de gs. E exatamente neste ponto em que se encontra uma fonte potencial de economia
no desenvolvimento de projetos de instalao predial. Kawabe, Ogassavara e Dias (1989)
mostraram indcios de que o fator de simultaneidade estava sendo superestimado com a
antiga curva utilizada pela Companhia de Gs de So Paulo (COMGS) e publicada em
Comgs (1977). Posteriormente a COMGS reformulou os seus procedimentos para o
clculo de vazes de projeto, que culminou em uma nova curva proposta por Carvalho
(1995), e hoje publicada tambm na norma tcnica NBR 14570.
A metodologia empregada no desenvolvimento da curva apresentada por Carvalho
(1995) representou significativa reduo nas estimativas do fator de simultaneidade, mas
ainda sobraram margens para novas melhorias. Trabalhando neste sentido, o Instituto
de Pesquisas Tecnolgicas (IPT) e a COMGS desenvolveram um novo trabalho com
uma extensa campanha de medio com o objetivo de levantar fatores de simultaneidade
empricos, relacion-los com suas respectivas vazes mximas possveis e, assim, propor
um novo modelo estatstico que relacionasse fator de simultaneidade com vazo mxima
possvel 1 . De fato, foi verificado que o fator de simultaneidade podia ser otimizado, conforme publicado em IPT (2005). Parte dos dados deste trabalho foi disponibilizado pela
COMGS para o desenvolvimento desta dissertao de mestrado.
O objetivo central desta dissertao consiste em analisar o problema de predio do
fator de simultaneidade luz de diversos modelos estatsticos. Particularmente, dentre
os modelos considerados, especial ateno dada ao modelo de regresso beta proposto
por Ferrari e Cribari-Neto (2004) que, teoricamente, se adequa melhor natureza dos
dados coletados. Alm disso, uma vez determinado o modelo mais adequado aos dados,
pretende-se propor uma nova abordagem para a predio do fator de simultaneidade a
partir da demanda mxima possvel, diferente de todas as abordagens pesquisadas na
literatura, utilizando a tcnica de bootstrap.
1

O autor da presente dissertao foi um dos integrantes da equipe tcnica responsvel pela conduo

do trabalho de campo e pelo desenvolvimento dos modelos estatsticos deste projeto.

1.1

Organizao da dissertao

Esta dissertao est organizada em seis captulos. No Captulo 2 encontra-se a


apresentao do problema. Nele esto contidos os principais conceitos tcnicos utilizados nesta dissertao, a descrio detalhada do problema e a descrio do trabalho de
coleta de dados realizado pelo IPT.
No Captulo 3 so apresentados os fundamentos tericos dos modelos estatsticos considerados neste trabalho. Conforme ser visto, s h interesse em modelos que, de alguma
forma, so empregados com sucesso na modelagem de variveis resposta cujos valores esto situados no intervalo (0,1). As bases tericas das tcnicas de diagnstico tambm so
apresentadas neste captulo. As tcnicas de diagnstico so um conjunto de ferramentas
utilizado na avaliao da qualidade do ajuste de modelos estatsticos, e tiveram papel
fundamental nesta dissertao.
O Captulo 4 apresenta a aplicao da teoria apresentada no captulo anterior. Cada
seo mostra os resultados do ajuste do modelo, bem como uma anlise de diagnstico
deste ajuste. Na ltima seo, apresenta-se uma comparao entre os resultados obtidos,
subsidiando assim a escolha do modelo mais adequado aos dados.
No Captulo 5 prope-se uma curva do fator de simultaneidade. A proposta desta
nova curva feita com base no modelo escolhido no Captulo 4, empregando a tcnica do
bootstrap, uma abordagem diferente de todas aquelas encontradas na literatura.
Finalmente, no Captulo 6, so apresentadas as concluses e recomendaes deste
trabalho, bem como sugestes de trabalhos futuros.

Captulo 2
Apresentao do problema
2.1

O sistema predial de gs natural

Antes de apresentar o problema, conveniente compreender a terminologia empregada em um sistema predial de gs natural. Estas definies foram estabelecidas pela
Associao Brasileira de Normas Tcnicas (ABNT) e esto publicadas na norma tcnica
NBR 14570.
Rede geral: rede pblica de abastecimento de gs.
Rede de alimentao: trecho de tubulao que conecta a rede pblica rede de
distribuio interna.

Rede de distribuio interna: conjunto de tubulao e acessrios situado dentro dos


limites da propriedade dos consumidores, aps os estgios de regulagem de presso.

Regulador de presso de primeiro estgio: equipamento utilizado para reduzir a


presso do gs antes de sua entrada na rede primria. Dependendo da presso da
rede de alimentao, pode ser desnecessrio.
Regulador de presso de segundo estgio ou estgio nico: equipamento utilizado

para reduzir a presso do gs antes de sua entrada na rede secundria a nveis


adequados ao funcionamento dos aparelhos de utilizao.

Rede primria: trecho de tubulao compreendido entre os reguladores de primeiro


e segundo estgio.

Rede secundria: trecho de tubulao compreendido entre o regulador de segundo


estgio e os pontos de utilizao.

Ponto de utilizao: extremidade da tubulao qual se conecta um aparelho de


utilizao a gs.

Medidor: equipamento empregado na medio de consumo do gs natural, instalado


ao longo da rede secundria.

Uma instalao predial de gs natural tpica, bem como a sua integrao com a rede
geral, pode ser observada na Figura 2.1.

Figura 2.1: Esquema tpico de um sistema predial de gs natural. Fonte: Ilha (1996)
6

O projeto e a execuo das instalaes da rede de distribuio interna de gs devem


obedecer s normas conforme a NBR 14570. Nesta norma esto contidas as determinaes sobre instalao, abrigo de medidores e reguladores, tubos e conexes, segurana
e dimensionamento das tubulaes, entre outras. Esta norma no se aplica somente s
instalaes prediais de gs abastecidas por canalizao de rua (gs natural) mas tambm
quelas abastecidas por uma central de gs (gs liquefeito).

2.2

Fator de simultaneidade

Antes de definir o conceito do fator de simultaneidade, conveniente entender algumas


relaes existentes entre as unidades de grandeza de potncia e vazo. Quando se fala
em gs combustvel, vazo e potncia se inter-relacionam por meio do poder calorfico.
O poder calorfico uma propriedade fsica inerente a qualquer combustvel e definido
como a quantidade de energia que se desprende na combusto completa de uma unidade
de volume ou massa. No caso dos gases, o poder calorfico usualmente expresso em
kcal/m3 . A potncia, por sua vez, definida como a energia produzida ou consumida por
unidade de tempo. Pode-se convenientemente expressar a potncia como kcal/h, e assim
verificar facilmente a relao

Q=

P
PC

(2.1)

em que Q a vazo nominal de um aparelho (m3 /h), P a potncia nominal de um


aparelho (kcal/h) e P C o poder calorfico do gs (kcal/m3 ). Esta relao ser til nos
clculos de projeto de um sistema predial de gs combustvel, conforme se ver a seguir.
Uma vez esclarecida a relao entre potncia e vazo, pode-se compreender melhor o
conceito e a definio do fator de simultaneidade. consenso entre os projetistas que no
necessrio projetar o sistema predial de gs combustvel de modo a atender a capacidade
7

mxima de consumo da edificao. Basta que o sistema esteja preparado para atender
demanda mxima praticada na edificao. usual mensurar a capacidade mxima
de consumo e a demanda mxima praticada em unidades de potncia, e denomin-las,
respectivamente, como potncia computada e potncia adotada.
Os textos normativos estrangeiros e nacionais sugerem que a potncia adotada seja
obtida pelo mtodo do fator de simultaneidade. Segundo a norma NBR 14570, o fator
de simultaneidade uma "relao percentual entre a potncia verificada praticamente,
com que trabalha simultaneamente um grupo de aparelhos, (. . .) e a soma da capacidade
mxima de consumo desses mesmos aparelhos". Portanto, para a obteno da potncia
adotada de um sistema predial de gs, segue-se o seguinte procedimento:
apura-se a potncia computada C a ser instalada em um determinado trecho, somandose as potncias nominais dos aparelhos de utilizao supridos por este trecho;

determina-se o fator de simultaneidade F em funo da potncia computada. Se

a unidade de potncia empregada nos clculos de C for o kilowatt (kW), a relao


entre F e C proposta na norma NBR 14570

1 + 0.01016(C 24.37)0.8712
F =
1

1 + 0.7997(C 73.67)0.19931

0.23

se C < 24.43;
se 24.43 C < 670.9;

(2.2)

se 670.9 C < 1396;


se C > 1396;

calcula-se a potncia adotada A fazendo A = F C.


Utilizando a relao mostrada em (2.1), pode-se redefinir o fator de simultaneidade
em termos de vazo. Em outras palavras, o fator de simultaneidade a relao percentual entre a vazo verificada na prtica devida ao trabalho simultneo de um grupo
de aparelhos servido por um determinado trecho de tubulao (vazo adotada) e a vazo
mxima desses mesmos aparelhos (vazo computada).

Para exemplificar o uso do fator de simultaneidade, consideremos um caso hipottico.


O esquema da Figura 2.2 representa parte de um sistema predial de gs combustvel referente s instalaes prediais de um apartamento. Para dimensionar esta rede secundria,
o projetista precisa determinar as vazes de projeto em vrios trechos da tubulao.

Figura 2.2: Esquema de instalao predial de gs tpica de um apartamento


Sabe-se de antemo, por meio da empreiteira responsvel, que os apartamentos deste
prdio disponibilizaro aos seus fututros proprietrios trs pontos de utilizao para os
seguintes aparelhos: um fogo de 6 bocas, um aquecedor de gua e uma secadora de
roupas. As potncias nominais destes aparelhos so, respectivamente, PF = 11000 kcal/h,
PA = 14700 kcal/h e PS = 6000 kcal/h. Estes valores, que podem ser obtidos facilmente
por meio das especificaes tcnicas contidas nos manuais dos aparelhos, representam a
potncia computada de cada aparelho. A norma NBR 14570 assume que o poder calorfico
do gs natural 9230 kcal/m3 . Portanto, com base em (2.1), conclui-se que as vazes
computadas do fogo, do aquecedor e da secadora so, respectivamente, QF = 1.19 m3 /h,
QA = 1.59 m3 /h e QS = 0.65 m3 /h.
Os pontos em destaque na Figura 2.2 determinam ainda trechos da instalao predial
com vazes computadas diferentes. Por exemplo, no trecho AB, a vazo computada a
vazo devida ao uso simultneo dos trs aparelhos, que igual a QAB = QF + QA + QS
= 3.43 m3 /h. De forma anloga, no trecho BB pode-se observar uma vazo computada
igual vazo devida ao fogo, ou seja, QBB = QF = 1.19 m3 /h. A Tabela 2.1 mostra as
vazes computadas nos trechos em destaque.

Tabela 2.1 Vazes computadas nos trechos em destaque da Figura 2.2


Trecho

Vazo Computada (m3 /h)

AB

3.43

BC

2.24

CD

0.65

BB

1.19

CC

1.59

importante ressaltar que a vazo computada corresponde vazo mxima do aparelho. Portanto, se a vazo computada do fogo QF = 1.19 m3 /h, esta s ser observada
se as seis bocas e o forno do fogo forem ligados simultaneamente. O raciocnio anlogo
quando avaliamos, por exemplo, a vazo computada no trecho AB. Neste trecho, a vazo
QAB = 3.43 m3 /h s ser observada se os trs aparelhos forem utilizados, simultaneamente, em suas vazes mximas.
Uma vez definidas as potncias computadas, possvel ento calcular os fatores de
simultaneidade para os trechos em destaque utilizando (2.2). Para tanto, deve-se converter
as potncias computadas de kcal/h para kW (1 kW = 859.845 kcal/h). Finalmente, ao
calcular o fator de simultaneidade, pode-se obter facilmente as potncias adotadas. A
Tabela 2.2 resume os resultados obtidos no procedimento de clculo da potncia adotada.
Tabela 2.2 Fator de simultaneidade nos trechos em destaque da Figura 2.2
Trecho

Vazo

Potncia Computada
3

FS

Potncia

Computada (m /h)

kcal/h

kW

Adotada (kW)

AB

3.43

31658.9

36.82

0.92

33.74

BC

2.24

20675.2

24.05

1.00

24.05

CD

0.65

5999.5

6.98

1.00

6.98

BB

1.19

10983.7

12.77

1.00

12.77

CC

1.59

14675.7

17.07

1.00

17.07

Nota-se que no trecho AB, que o trecho no qual sero conectados todos os aparelhos de
utilizao, a potncia adotada inferior potncia computada. Isso ocorre porque, neste
10

trecho, a soma das potncias computadas suficientemente grande para se supor que ela
no ser atingida. De fato, para atingir esta potncia, os trs aparelhos de utilizao
deveriam ser ligados, simultaneamente, em sua potncia mxima, o que configura uma
situao bastante improvvel. Desta forma, o fator de simultaneidade atua como um fator
redutor da potncia computada, gerando maior economia no dimensionamento da rede
como um todo.
Esta seo teve por objetivo lanar os principais conceitos e definies, e tambm
exemplificar a forma de utilizao da curva do fator de simultaneidade para a obteno
da vazo adotada. No entanto, o foco central deste trabalho re-discutir o atual modelo
utilizado no dimensionamento de sistemas prediais de gs combustvel, bem como propor
outros novos modelos. O amplo trabalho de medio realizado pelo IPT e COMGS foi
fundamental neste sentido, pois subsidiou esta dissertao com dados recentes e coletados
com a tecnologia necessria para garantir a sua confiabilidade.

2.3

Coleta de dados

Conforme mencionado na Seo 2.2, o fator de simultaneidade pode ser definido como
a relao percentual entre a vazo verificada na prtica, devida ao trabalho simultneo
de um grupo de aparelhos servido por um determinado trecho de tubulao, e a vazo
potencial desses mesmos aparelhos. Todo o trabalho de coleta de dados, portanto, foi direcionado com o objetivo principal de observar os dois nmeros desta relao percentual
e, como conseqncia, obter o fator de simultaneidade emprico.
Os sistemas prediais selecionados na amostra foram visitados no segundo semestre de
2004 e representam os sistemas prediais de uso exclusivamente residencial, situados na
cidade de So Paulo e equipados com fogo e aquecedor de gua1 . Por serem equipados
com aquecedor de gua, tomou-se o cuidado de coletar a maior parte dos dados nos meses
de julho e agosto, meses tipicamente frios nos quais o consumo de gs aumenta, e nos
1

Em apenas quatro sistemas prediais a utilizao de gs natural era exclusivamente para aquecimento

de gua.

11

quais a simultaneidade do uso de aparelhos supostamente atinge seu regime mais crtico.
Foram consideradas caractersticas excludentes os sistemas prediais com ndice de ocupao inferior a 50%, presena de atividade comercial e presena de caldeira. A amostra
foi selecionada do cadastro de clientes COMGS referente ao ms de abril de 2004. Como
no constam neste cadastro informaes sobre as caractersticas dos sistemas prediais,
muitas visitas resultaram em no-medio. Do total de 100 sistemas prediais visitados,
42 resultaram em medies vlidas. Dentre os 58 sistemas prediais no monitorados, as
principais causas foram ausncia de aquecedor de gua, presena de caldeira e presena
de atividade comercial.
Para coletar dados dos sistemas prediais foram utilizadas duas ferramentas: questionrios e aparelho de aquisio de dados de vazo, ou data-logger. Os questionrios
foram teis para a obteno de dados referentes s caractersticas dos sistemas prediais, tais como nmero de andares, nmero de apartamentos, nmero de apartamentos
ocupados, nmero de moradores, entre outros, bem como dados referentes aos tipos e
caractersticas dos aparelhos de utilizao presentes nos apartamentos, tais como potncias nominais, marcas e modelos, entre outros. Estas informaes foram teis para calcular
os valores mdios das potncias nominais do aquecedor e do fogo em cada sistema predial.
Estes valores mdios foram ento somados e multiplicados pelo nmero de apartamentos
ocupados, obtendo-se assim a estimativa da potncia computada do sistema predial. Utilizando a relao definida em 2.1, obtm-se a vazo mxima possvel que se pode observar
no sistema predial quando o grupo de aparelhos nele instalado ligado simultaneamente.
Este nmero o denominador da relao percentual que define o fator de simultaneidade.
Alm dos questionrios, os medidores de gs dos 42 sistemas prediais monitorados
foram instrumentados com data-logger s CDL da marca Sensus / Invensys. Estes aparelhos
foram mantidos por, no mnimo, sete dias consecutivos e completos, a fim de detectar
possveis particularidades de consumo nos diferentes dias da semana. A vazo mxima
observada no perodo de medio foi tomada como sendo a vazo verificada na prtica
devida ao trabalho simultneo do grupo de aparelhos instalado no sistema predial. Este
nmero o numerador da relao percentual que define o fator de simultaneidade. A
Figura 2.3 mostra um exemplo das informaes geradas pelo data-logger.

12

(a)

(b)

Figura 2.3: Exemplo de informaes obtidas pelo data-logger : grfico de vazo (a) e
registros peridicos de vazo (b).
Com as estimativas da potncia computada - obtidas via questionrios - e as vazes
mximas possveis, - obtidas via data-logger - foi possvel obter os fatores de simultaneidade empricos dos 42 sistemas prediais residenciais visitados. Os dados obtidos neste
trabalho, que podem ser encontrados no Apndice A, constituem a base de dados a ser
estudada nesta dissertao.

2.4

Anlise descritiva

Para uma anlise inicial, foi traado o grfico de disperso entre o fator de simultaneidade e a potncia computada, com o objetivo de verificar se existe uma relao entre estas
duas variveis e, em caso afirmativo, qual o tipo de relao sugerido. Este grfico, que
pode ser observado na Figura 2.4, evidencia uma clara relao entre estas duas variveis,
e sugere um comportamento no linear. Sob o ponto de vista da esperana do fator de
simultaneidade, o grfico sugere um decaimento exponencial medida que a potncia
aumenta, com valores prximos a 0 para as potncias mais elevadas. Sob o ponto de vista
da varincia do fator de simultaneidade, o grfico sugere maior disperso para potncias
prximas de 0, e decaimento da disperso para valores mais elevados de potncia.
13

1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.1

0.2

Fator de Simultaneidade

21

0.0

34

0.0

1.0

2.0

3.0

4.0

5.0

6.0

7.0

8.0

9.0

10.0

Potncia computada(MW)

Figura 2.4: Fator de Simultaneidade x Potncia Computada


A Figura 2.4 acusa tambm a existncia de duas observaes isoladas da massa de
dados. Na busca por uma explicao para este comportamento, analisaram-se as caractersticas dos edifcios que geraram tais observaes. Constatou-se que as observaes em
destaque apresentam perfis bastante diferentes em relao ao perfil tpico. Dos sistemas
prediais visitados, o edifcio tpico corresponde a uma edificao de 16 andares com 4
apartamentos cada, totalizando assim 64 apartamentos. A observao 21 refere-se ao um
edifcio de 4 andares com 6 apartamentos cada, totalizando 24 apartamentos, configurando
o menor sistema predial visitado. A observao 34 est no outro extremo, e representa
o maior edifcio visitado, com 208 apartamentos espalhados em 26 andares. No foram
encontrados erros de digitao ou clculo, e as edificaes no apresentaram nenhuma
caracterstica que as colocassem fora do escopo do trabalho. Embora se destaquem da
massa de dados, nota-se que as observaes obedecem tendncia dos dados, e no devem
constituir um problema no ajuste dos modelos.

14

Captulo 3
Descrio dos modelos estatsticos

Em termos estatsticos, o objetivo da pesquisa apresentada nesta dissertao resume-se


em modelar o comportamento do fator de simultaneidade em funo da potncia computada, ressaltando que a varivel resposta um nmero situado no intervalo (0,1).
Existem diversas alternativas para modelar uma varivel resposta observada no intevalo (0,1). Kieschnick e McCullough (2003), por exemplo, fizeram uma reviso bibliogrfica
com o propsito de apontar os modelos mais freqentemente empregados em problemas desta natureza. Concluram que o modelo de regresso linear normal (MRLN)
foi o modelo mais utilizado, ainda que nem sempre explicitamente invocado. A sua
utilizao fica evidente quando se constata a aplicao dos testes t ou F , indicando
que o pesquisador implicitamente assumiu a normalidade da distribuio condicional.
Kieschnick e McCullough (2003) tambm observaram que o uso destes testes geralmente
est associado suposio de uma funo linear para a esperana condicional, o que
caracteriza completamente a aplicao do MRLN. Ainda segundo os autores, um outro
modelo freqentemente empregado no estudo de variveis respostas observadas no intervalo (0,1) o modelo de regresso linear normal com varivel resposta transformada.
Dentre os estudos que se valeram deste modelo, todos empregaram a transformao logito,
uma transformao particularmente conveniente para a interpretao dos resultados. Ao
mesmo tempo em que esta alternativa ajusta a varivel resposta ao domnio do MRLN,
ela possibilita usufruir dos resultados j estabelecidos para este modelo.

15

Ainda buscando solues para a modelagem de dados no intervalo (0,1), Ferrari e


Cribari-Neto (2004) propuseram um modelo de regresso no qual assumem que a varivel
resposta distribui-se segundo a distribuio beta. A distribuio beta caracteriza-se por
ser extremamente flexvel, podendo assumir diferentes formas de acordo com a combinao de seus dois parmetros. Diferentemente das parametrizaes usuais de distribuio
beta, definidas por dois parmetros de forma, Ferrari e Cribari-Neto (2004) convenientemente utilizaram uma parametrizao da funo de distribuio beta de modo que seus
parmetros representassem a mdia e a preciso, sendo este um importante passo para a
interpretabilidade do modelo. Os procedimentos de modelagem e inferncia considerados
por Ferrari e Cribari-Neto (2004) assemelham-se queles propostos por McCullagh e
Nelder (1989) para os modelos lineares generalizados, ou seja, uma funo da mdia
da varivel resposta explicada por uma estrutura linear envolvendo variveis regressoras.
Conforme se ver a seguir, a varincia da varivel resposta uma funo da mdia e,
conseqentemente, das variveis regressoras. Desta forma, o modelo possibilita acomodar
naturalmente dados de natureza heteroscedstica.

3.1

Modelo de regresso linear normal

Sejam x1 , . . . , xn valores fixos e conhecidos, e y1 , . . . , yn observaes de variveis aleatrias


independentes. O modelo de regresso linear normal simples (MRLN) definido como
yi = 0 + 1 xi + i , i = 1, . . . , n,

(3.1)

em que 0 e 1 so parmetros desconhecidos, x1 , . . . , xn so observaes fixas e conhecidas


de uma varivel regressora e 1 , . . . , n so os erros aleatrios independentes e identicamente distribudos (i.i.d.), tais que i N (0, 2 ).
Os estimadores dos parmetros do modelo sero obtidos pelo mtodo dos mnimos
quadrados, ou seja, deseja-se obter uma relao linear que minimize a soma dos erros ao
P
P
quadrado, dada por ni=1 e2i = ni=1 [yi (0 + 1 xi )]2 . Para obter a soluo que minimiza
16

esta soma, calculam-se as derivadas parciais em relao a 0 e 1 e iguala-se o resultado


a 0, obtendo assim o sistema de equaes normais cujas solues b0 e b1 satisfazem
nb0 + b1

e
b0

n
X
i=1

n
X

xi =

i=1

xi + b1

n
X

n
X

yi

i=1

x2i

i=1

n
X

xi yi .

i=1

Desta forma, os estimadores de mnimos quadrados de 0 e 1 so dados, respectivamente, por


b0 = y b1 x

Pn
xi yi nxy
b1 = Pi=1
n
2 .
2
i=1 xi nx
Para fins de inferncia sobre os parmetros do modelo, conveniente obter a distribuio dos estimadores dos parmetros. Utilizando a suposio de normalidade dos
erros e por meio de algumas manipulaes algbricas, pode-se demonstrar que


b0 N 0 ,
b1 N

2
Pn

Pn

x2i
2
i=1 (xi x)
i=1

2
1 , Pn
2
i=1 (xi x)

17

Da teoria das probabilidades (ver, por exemplo, Casella e Berger, 1996), demonstrase ainda que, ao substituir 2 por seu estimador b2 , as estatsticas resultantes tero

distribuio t de Student, com (n k) graus de liberdade, em que k o nmero de

parmetros do modelo de regresso. Logo, as estatsticas para testar as hipteses H0 :


0 = 0 e H0 : 1 = 0 dadas, respectivamente, por

b0
t(b0 ) =
b2

s P
n ni=1 (xi x)2
Pn 2
i=1 xi

v
u n
b1 uX

t(b1 ) = t (xi x)2


b2 i=1

tm uma distribuio t de Student com (n k) graus de liberdade. Aqui, um estimador

no-viesado do parmetro 2 dado por


b2 =

Pn

ybi )2
n2

i=1 (yi

em que ybi o valor predito para a varivel resposta para um xi fixo e conhecido.

Uma segunda abordagem possvel para a obteno dos estimadores dos parmetros

de regresso utilizando o mtodo de mxima verossimilhana. Os estimadores obtidos


por este mtodo so exatamente iguais aos obtidos pelo mtodo dos mnimos quadrados.
Alm disso, pode-se demonstrar que estes estimadores so o melhores estimadores noviesados, no sentido de possurem a menor varincia dentre todos os outros estimadores
lineares no viciados. Para uma introduo mais detalhada sobre o modelo de regresso
linear, ver Casella e Berger (1990) ou Bussab e Morettin (2002). Para um estudo mais
aprofundado, consultar, por exemplo, Draper e Smith (1981), Neter, Wasserman e Kutner
(1996) ou Montgomery, Peck e Vining (2001).
O modelo definido em (3.1) resulta no ajuste de uma reta, o que evidentemente
inadequado para os dados em questo, conforme se observa na Figura 2.4. Ainda que
fosse adequado, Kieschnick e McCullough (2003) mencionam que o uso do MRLN para o
18

estudo de variveis resposta no intervalo (0,1) carrega dois erros conceituais. Em primeiro
lugar, a varivel resposta no est definida no conjunto dos reais, que o domnio sobre
o qual a distribuio normal definida. Alm disso, o fato da varivel resposta ser
observada em um intervalo limitado implica que a funo de esperana condicional precisa
ser limitada e, portanto, no pode ser linear, e que a varincia condicional precisa ser
uma funo da mdia pois medida que se aproxima de seus limites, a varincia se
aproxima de zero. No MRLN estas duas condies so claramente violadas. Uma forma de
contornar estes problemas conceituais e ao mesmo tempo obter um modelo mais adequado
ao comportamento dos dados de fator de simultaneidade transformar a varivel resposta
de modo que a varivel transformada esteja definida no conjunto dos reais. Na reviso
bibliogrfica realizada por Kieschnick e McCullough (2003), este foi o segundo modelo
mais freqentemente empregado no estudo de variveis resposta em (0,1). Os autores
relatam que, na maioria dos estudos analisados, as suposies feitas sobre a varivel
resposta no-transformada no so claramente definidas. No entanto, pelo fato de todos
os estudos empregarem a transformao logito, pode-se concluir que o modelo que est
por trs destes estudos define-se como
ln

yi
1 yi

= 0 + 1 xi + i , i = 1, . . . , n,

(3.2)

em que 0 e 1 so os parmetros do modelo e 1 , . . . , n so os erros aleatrios i.i.d., tais


que i N (0, 2 ). O modelo definido em (3.2) o primeiro modelo a ser considerado

neste trabalho.

Uma considerao pertinente acerca dos modelos de regresso lineares - e particularmente til neste trabalho - diz respeito terminologia linear. Embora a palavra remeta
ao ajuste de uma reta (ou de seus similares em dimenses maiores) entre varivel resposta
e variveis regressoras, esta caracterstica no necessariamente verdadeira. De modo
geral, a literatura estatstica emprega o termo referindo-se suposio que se faz do valor
esperado da varivel resposta ser uma funo linear nos parmetros. Neste contexto, as
variveis regressoras assumem o papel de constantes que podem ser livremente transformadas, aumentando a flexibilidade do modelo. Assim, tal como definido em (3.1), o
modelo
19

yi = 0 + 1 xi + i , i = 1, . . . , n,
em que xi representa o i-simo valor da varivel regressora transformada, tambm um
modelo de regresso linear, independentemente da transformao empregada. Analogamente, tomando-se como base o modelo definido em (3.2), no h restries em definir
ln

yi
1 yi

= 0 + 1 xi + i , i = 1, . . . , n,

(3.3)

em que i o erro aleatrio, tal que i i.i.d N (0, 2 ).


Em geral, o comportamento da varivel resposta em funo das variveis regressoras
orienta as transformaes das variveis regressoras. Neste trabalho, por exemplo, foram
consideradas diversas transformaes da varivel regressora levando-se em conta o comportamento do fator de simultaneidade em funo da potncia computada, cujo decaimento
aparentemente exponencial. Dentre as diversas transformaes testadas, pode-se mencionar as transformaes inversa, exponencial e logartmica, entre outras. Ao fim deste
trabalho, observou-se que o logaritmo natural da varivel regressora foi a transformao
que apresentou os melhores resultados, e definiu-se que o modelo apresentado em (3.3)
com a transformao xi = ln(xi ) seria o segundo modelo a ser considerado neste trabalho.

3.2

Modelo de regresso no-linear normal

Kieschnick e McCullough (2003) citam a classe de modelos de regresso no-lineares


como sendo uma alternativa aos problemas de regresso com varivel resposta em (0,1). A
vantagem do MRNLN sobre o MRLN o fato de permitir a utilizao de uma funo que
limite a esperana condicional ao intervalo (0,1). Por outro lado, assim como o MRLN, o
MRNLN tambm supe homoscedasticidade dos dados. Conforme j mencionado na seo
anterior, na modelagem de dados observados no intervalo (0,1), desejvel que o modelo
suponha a varincia como funo da mdia. Uma outra ressalva em relao ao MRNLN
que, ao empregar o mtodo de mnimos quadrados para a estimar os parmetros de
20

modelos deste tipo, obtm-se um sistema de equaes no-lineares sem soluo analtica,
fazendo-se necessrio o uso de procedimentos de otimizao no-linear, tais como NewtonRaphson e Gauss-Newton e, em algumas situaes, o procedimento pode no convergir
para uma soluo.
Pela anlise da Figura 2.4, pode-se imaginar que o fator de simultaneidade e a potncia
computada relacionam-se segundo uma funo do tipo f (x) = 0 e1 x . Desta forma,
sugere-se o seguinte modelo no-linear.
yi = 0 e1 xi + i , i = 1, . . . , n,

em que 1 , . . . , n so os erros aleatrios i.i.d., tais que i N (0, 2 ).


A utilizao de um modelo de regresso no-linear pode se tornar mais simples quando
uma transformao nas variveis de estudo permite recair em um modelo de regresso
linear normal. Neste caso, uma alterao na suposio dos erros do modelo torna esta
abordagem possvel. Ao invs de assumir que os erros participam de forma aditiva no
modelo, suponhamos que eles participem de forma multiplicativa, ou seja,
yi = 0 e1 xi i , i = 1, . . . , n,

em que 1 , . . . , n so os erros aleatrios i.i.d., tais que ln(i ) N (0, 2 ). Aplicando-se o

logaritmo natural em ambos os lados, tem-se que

ln(yi ) = ln(0 ) + 1 xi + ln(i ), i = 1, . . . , n.

Por fim, pode-se definir yi = ln(yi ), 0 = ln(0 ) e i = ln(i ) para obter o modelo
yi = 0 + 1 xi + i , i = 1, . . . , n,

(3.4)

em que 1 , . . . , n so i.i.d com i N (0, 2 ). Desta forma, pode-se utilizar toda a teoria
21

do modelo de regresso linear normal para estudar a relao entre duas variveis cuja
relao funcional claramente no-linear. O modelo definido em (3.4) o terceiro modelo
a ser considerado neste trabalho.
O quarto modelo considerado neste trabalho o mesmo empregado em IPT (2005).
Analogamente ao desenvolvimento anterior, assume-se que o fator de simultaneidade e a
potncia computada se relacionam segundo uma funo do tipo f (x) = 0 x1 e que o erro
participa de forma multiplicativa no modelo. Desta forma, sugere-se o modelo no-linear
yi = 0 xi 1 i , i = 1, . . . , n,
em que i tal que ln(i ) i.i.d N (0, 2 ). Aplicando-se o logaritmo natural em ambos os

lados, tem-se que

ln(yi ) = ln(0 ) + 1 ln(xi ) + ln(i ), i = 1, . . . , n.


Por fim, sejam yi = ln(yi ), xi = ln(xi ), 0 = ln(0 ) e i = ln(i ), e obtm-se o modelo
yi = 0 + 1 xi + i , i = 1, . . . , n.

(3.5)

Os modelos apresentados nas Sees 3.1 e 3.2 apresentam o inconveniente de utilizar a


varivel resposta transformada. Desta forma, a interpretao do modelo pode ficar comprometida uma vez que os resultados obtidos referem-se varivel resposta transformada,
e no variavel resposta original. O modelo de regresso proposto a seguir, por sua vez,
no apresenta este inconveniente, e constitui uma terceira alternativa para a modelagem
dos dados aqui apresentados.

3.3

Modelo de regresso beta

A famlia de distribuies beta composta pelas distribuies cujas funes densidade


de probabilidade tm a forma
22

f (y; p, q) =

(p + q) p1
y (1 y)q1 , 0 < y < 1,
(p)(q)

(3.6)

em que p > 0, q > 0 e () a funo gama definida como


(a) =

y a1 ey dy, a > 0.

A mdia e a varincia de y so dadas, respectivamente, por


E(y) =

p
p+q

e Var(y) =

pq
(p +

q)2 (p

+ q + 1)

(3.7)

Ferrari e Cribari-Neto (2004) ressaltam a convenincia de reparametrizar (3.6) de modo


que os parmetros representem a mdia e a preciso da varivel resposta. Para obter esta
estrutura, consideram a transformao = p/(p + q) e = p + q, implicando em p = e
q = (1 ). Assim, obtm-se uma nova forma para a funo densidade de probabilidade

para a famlia de distribuies beta dada por


f (y; , ) =

()
y 1 (1 y)(1)1 , 0 < y < 1,
()((1 ))

(3.8)

em que 0 < < 1 e > 0. Alm disso, de (3.7), tem-se que


E(y) = e Var(y) =

V ()
,
1+

(3.9)

em que V () = (1). Desta forma, o parmetro que representa a mdia da varivel


resposta, enquanto pode ser interpretado como um parmetro de preciso, uma vez que,
para fixado, quanto maior o valor de menor a varincia de y.

23

Assim, sejam yi , i = 1, . . . , n variveis aleatrias independentes tais que cada yi obedece a uma funo densidade de probabilidade como em (3.8), com mdia i e parmetro
de preciso . O modelo de regresso beta define-se ao assumir que
g(i ) =

k
X

xit t = i ,

(3.10)

t=1

em que = (1 , . . . , k ) um vetor de parmetros desconhecidos ( Rk ), xi1 , . . . , xik

so observaes, fixas e conhecidas, em k variveis regressoras, k < n, e g() uma funo


de ligao, estritamente montona e duas vezes diferencivel, que leva valores em (0, 1)
para a reta real. Desta forma, tem-se que i = g 1 (i ) e Var(yi ) = V (i )/(1 + ). Como
a varincia da resposta depende de , fcil concluir por estas expresses que as varincias no so constantes, ainda que o parmetro de disperso seja constante. Portanto,
variveis respostas com varincias no constantes podem ser naturalmente acomodadas
pelo modelo.
Existem diversas possveis escolhas para a funo de ligao g(). Atkinson (1985) e
McCullagh e Nelder (1989) comparam diversas funes de ligao, tais como as funes
logito, probito, log-log, entre outras. Uma funo de ligao particularmente til em
termos de interpretao de parmetros a funo logito, definida como
g(i ) = ln

i
1 i

Assumindo a funo de ligao logito, suponha que a t-sima varivel regressora sofra um
incremento de c unidades e todas as demais variveis regressoras permaneam constantes.
Seja + a mdia de y obtida com os novos valores das variveis regressoras, enquanto
mdia de y obtida com os valores originais das variveis regressoras. Ento, demonstra-se
que
ect =

+ /(1 + )
,
/(1 )

ou seja, ao assumir a funo de ligao logito, pode-se interpretar os parmetros do modelo


24

em termos de razo de chances. No contexto deste trabalho, esta interpretao permite


obter o aumento da chance de utilizao simultnea mdia dos aparelhos de utilizao de
um sistema predial a cada incremento de c unidades na potncia computada.
Com base em (3.8), define-se o logaritmo da funo de verossimilhana como
(, ) =

n
X

i (i , ),

(3.11)

i=1

em que

i (i , ) = log () log (i ) log [(1 i )] +


+(i 1) log yi + [(1 i ) 1] log(1 yi ).

A funo escore, obtida diferenciando-se a funo de mxima verossimilhana em


funo dos parmetros do modelo, dada por (U (, ) , U (, )) . Aqui,
U (, ) = X T (y ),

1
em que X uma matriz nk cuja i-sima linha x
i , T = diag[g (1 ) , . . . , g (n ) ] e os

i-simos elementos de y e dados por yi = log[yi /(1 yi )] e i = (i ) [(1 i )],

em que () a funo digama, definida como (z) = d log (z)/dz, z > 0, e


U (, ) =

n
X

ui ,

i=1

em que
ui = i (yi i ) + log(1 yi ) [(1 i )] + ().
tambm conveniente obter a matriz de informao de Fisher, denotada por
25

K = K(, ) =

K K
K K

Ferrari e Cribari-Neto (2004) obtiveram


K = X W X,
com W = diag(w1 , . . . , wn ), com wi = vi (1/g (i )2 ) e vi = (i ) + [(1 i )],

K = K
= X T c,

em que c = (c1 , . . . , cn ) com ci = [ (i )i ((1 i ))(1 i )], sendo () a

funo trigama, e

K = tr(D),
em que D = diag(d1 , . . . , dn ), com di = (i )2i + [(1 i )](1 i )2 ().
Ao contrrio dos modelos lineares generalizados, no modelo de regresso beta os
parmetros e no so ortogonais, ou seja, K no nulo (ver McCullagh e Nelder,
1989, por exemplo).
Ferrari e Cribari-Neto (2004) salientam que, sob condies de regularidade e para uma
amostra suficientemente grande, vale a aproximao
b
b

Nk+1

, K 1

Aqui, b e b representam, respectivamente, os estimadores de mxima verossimilhana de


e . Como no existe uma forma fechada para estes estimadores, necessrio obt-los

numericamente, maximizando a funo de log-verossimilhana (3.11) por meio de um al-

goritmo de otimizao no-linear, tais como os algoritmos de Newton ou quase-Newton.


26

Para maiores detalhes, ver por exemplo Nocedal e Wright (1999).


Baseados em Rao (1973), Ferrari e Cribari-Neto (2004) utilizam expresses padres
para a inversa de matrizes particionadas para obter K 1 , denotada por
K 1 = K 1 (, ) =

K K
K K

Eles obtiveram
K



1
X T cc T X(X W X)1
1
= (X W X)
Ik +
,

com = tr(D) 1 c T X(X W X)1 X T c e Ik a matriz identidade de ordem k,


K = (K ) =

1
(X W X)1 X T c,

e
K = 1 .

A inversa da matriz informao de Fisher til na obteno de erros padro assintticos


para os estimadores de mxima verossimilhana dos parmetros do modelo de regresso
beta.
O modelo definido em (3.10) com funo de ligao logito o quinto modelo a ser
considerado neste trabalho. Analogamente ao MRLN, aqui tambm pode ser considerada
uma transformao na varivel regressora. Aps vrias tentativas de transformao - inversa, exponencial, logartmica, entre outras - chegou-se concluso que o sexto e ltimo
modelo a ser considerado neste trabalho levaria em conta uma transformao logartmica
na varivel regressora, ou seja, xi = ln(xi ).

27

3.4

Tcnicas de diagnstico

Um passo importante no processo de ajuste de modelos estatsticos a anlise de


diagnstico. De modo geral, as tcnicas empregadas na anlise de diagnstico tm por
objetivo validar as suposies do modelo, bem como avaliar se o modelo utilizado se ajusta
bem aos dados. por meio desta anlise que so constatados desvios das suposies do
modelo, sejam eles referentes s suposies da parte sistemtica ou aleatria. tambm
por meio das tcnicas de diagnstico que so detectadas observaes influentes, ou seja,
observaes que causam impacto desproporcional nos resultados do ajuste.
Na anlise de diagnstico, relevante detectar pontos de alavanca. Uma observao
yi caracterizada como ponto de alavanca quando a sua influncia sobre o seu prprio
valor ajustado ybi muito grande. Uma medida desta influncia foi proposta por Hoaglin

e Welsch (1978) para o caso da regresso linear normal, e consiste em avaliar os valores
da diagonal principal da matriz de projeo H = X(X X)1 X , ou seja,

1
hii = x
i (X X) xi .

Segundo Paula (2003), as observaes nas quais se observa a condio hii 2k/n

so elegveis a pontos de alavanca, e geralmente esto localizadas em regies remotas no


subespao gerado pelas colunas da matriz X. Ainda para o caso do modelo de regresso
linear normal, mostra-se que os valores hii coincidem com a medida ybi /yi , em que ybi

o valor ajustado da i-sima observao. Desta forma, pode-se interpretar hii como a
variao em ybi quando se acrescenta um infinitsimo a yi . Wei, Hu e Fung (1998) propem

uma forma geral de determinar pontos de alavanca baseando-se na medida


b =
GL()

b
y
,
y

b = (b
onde y = (y1 , . . . , yn ) o vetor de observaes e y
y1 , . . . , ybn ) o vetor de valores
b
ajustados. A medida GL() denomina-se alavanca generalizada e abrange todos os casos

b um
nos quais a varivel resposta contnua. Aqui, um vetor tal que E(y) = () e
b O elemento (t, u) de GL()
b a taxa de variao instanb = ().
estimador de , com y
28

tnea no t-simo valor predito com respeito ao u-simo valor de resposta. Seguindo esta
abordagem, Ferrari e Cribari-Neto (2004) apresentam a frmula da alavanca generalizada
para o modelo de regresso beta, a qual ser utilizada neste trabalho.
Tambm til avaliar resduos na anlise de diagnstico. De modo geral, define-se o
resduo para a i-sima observao como uma funo da forma ri = r(yi ,
i ), i = 1, . . . , n,
a qual tem por objetivo medir a discrepncia entre o valor observado e o correspondente
valor ajustado. A maioria dos resduos propostos na literatura se baseia na diferena entre
o valor observado e o valor ajustado. De fato, a definio mais bsica de um resduo o
resduo ordinrio, que simplesmente a diferena entre estes valores, ou seja,
ri = y i
i , i = 1, . . . , n.
Particularizando para o caso do modelo de regresso linear normal, verifica-se com alguma
lgebra que ri N (0, 2 (1 hii )), i = 1, . . . , n e que, portanto, as quantidades ri s

possuem varincias diferentes. Alm disso, mostra-se que Cov(ri , rj ) = 2 hij , i 6= j,

com i = 1, . . . , n e j = 1, . . . , n, ou seja, as quantidades ri s no so independentes.

Para que sejam comparveis, conveniente expressar os resduos ordinrios em sua forma
padronizada, dividindo ri pelo seu respectivo desvio padro estimado, e assim obter o
resduo studentizado, ou seja,
ti =

ri
, i = 1, . . . , n,
s(1 hii )1/2

em que
2

s =

n
X
i=1

ri2
,
nk

(3.12)

sendo k o nmero de parmetros do modelo. Ao contrrio do que sugere o nome deste


resduo, ti no segue uma distribuio t-Student pois ri e s2 no so independentes. Para
contornar este problema, Paula (2003) sugere utilizar o resduo studentizado sem a i-sima
observao, o qual define como
29

ti =

ri
,
s(i) (1 hii )1/2

em que s(i) = s2 (n k t2i )/(n k 1) o quadrado mdio residual correspondente

ao modelo sem a i-sima observao. Mostra-se que ti tem uma distribuio t com

(n k 1) graus de liberdade. As anlises de diagnstico referentes a modelos de re-

gresso normal contidas nesta dissertao levam em conta o estudo de ti .

Em seu artigo sobre regresso beta, Ferrari e Cribari-Neto (2004) seguem o preceito
dos resduos se basearem na diferena entre os valores observados e os valores ajustados,
e propem o resduo ordinrio padronizado
yi
bi
ri = q
,
d i)
Var(y

(3.13)

b com
b Aqui,
b e b so os estimadores
d i) =
em que Var(y
bi (1
bi )/(1 + ),
bi = g 1 (x ).

de mxima verossimilhana de e , respectivamente. No entanto, Espinheira, Ferrari e


Cribari-Neto (2008) mostram, por meio de simulao de Monte Carlo, que para determinados valores de e os resduos apresentados em (3.13) no so bem aproximados pela dis-

tribuio normal. Alm disso, por meio de exemplos, mostram que o resduo no sensvel
o suficiente para detectar observaes influentes. Com base nestas constataes, propem
dois novos resduos para a classe de modelos de regresso beta que, diferentemente do
conceito utilizado em (3.13), se baseiam na diferena entre o logito da varivel resposta e
seus valores ajustados. O primeiro deles, denominado resduo ponderado padronizado 1,
define-se como
riw =

yi
b
i,
vi

(3.14)

b ((1
b e vi = (b
b + ((1
b
em que yi = log[yi /(1 yi )],
bi = (b
i )
bi ))
i )
bi ))
com () denotando a funo digamma e () denotando a funo trigamma, ou seja,

(a) = d log (a)/da e (a) = d(a)/da, a > 0. O resduo ponderado padronizado 2

assemelha-se a riw , diferenciando-se pelo fato de ser ponderado pelo elemento (i, i) da
30

1/2

c 1 X W
c
matriz de projeo H = W1/2 X(X WX)

, em que W = diag(w1 , . . . , wn ) e

wi = vi [1/g (i )2 ], e define-se como

riww = p

yi
bi
.
vi (1 hii )

(3.15)

Os resultados obtidos por Espinheira, Ferrari e Cribari-Neto (2008) favorecem os resduos


ponderados padronizados, especialmente o resduo riww , por serem mais eficientes na identificao de observaes com grande influncia nas estimativas dos parmetros do modelo
na mdia. Por esta razo, as anlises de diagnstico referentes a modelos de regresso
beta contidas nesta dissertao levam em conta o estudo de riww .
Como a distribuio dos resduos no conhecida, o grfico de envelopes simulados
proposto por Atkinson (1985) apresenta-se como uma boa alternativa para tcnica de
diagnstico. A idia consiste em construir, por meio de simulaes, uma banda de confiana que possa ser utilizada para decidir se os resduos observados so consistentes com
o modelo ajustado. De modo geral, o algoritmo que permite gerar os limites do grfico
de envelope pode ser descrito assim:
1. ajustar o modelo;
2. simular uma amostra de n observaes independentes, tomando o modelo ajustado
como se fosse o modelo correto, e armazen-la em y = (y1 , . . . , yn );
3. ajustar y contra as variveis regressoras X e armazenar os resduos em e(n1) =
(e1 , . . . , en );
4. repetir m vezes os passos 1 e 2, armazenando os resultados na matriz e(nm) ;
5. ordenar os m grupos de n resduos;
6. ordenar os elementos da linha i = 1 em ordem crescente;
7. selecionar, por exemplo, o 5o percentil da linha i = 1 e armazen-lo em einf ;
8. selecionar, por exemplo, o 95o percentil da linha i = 1 e armazen-lo em esup ;

31

9. repetir os passos 5 a 7 para i = 2, . . . , n.


Ao fim do procedimento, einf e esup armazenam, respectivamente, os pontos que compem os limites inferior e superior do envelope. Atkinson(1985) sugere m = 19, o que implica em uma probabilidade aproximada de 1/20 do maior resduo de um envelope particular exceder o limite superior. Paula (2003) adapta um programa escrito em Everitt (1994)
para gerar envelopes de um modelo de regresso linear normal considerando m = 100.
Uma das medidas de influncia mais utilizadas em modelos de regresso a distncia
de Cook (Cook, 1977), que tem por princpio avaliar o impacto da excluso de uma observao nas estimativas dos coeficientes da regresso. Originalmente desenvolvida para
modelos lineares normais, diversos estudos tm sido feitos para outras classes de modelos,
conforme mostram Pregibon (1981), Cook e Weisberg (1982), Atkinson (1985), Cook,
Pea e Weisberg (1988), Cordeiro e Paula (1992), entre outros.
Para o modelo de regresso linear normal, quando a isima observao retirada, a
distncia de Cook expressa por
Di = t2i

hii 1
,
1 hii k

em que ti o resduo studentizado, hii o i-simo elemento da matriz de projeo H


e k o nmero de parmetros do modelo. De modo anlogo, Ospina (2007) mostra o
desenvolvimento da medida para o modelo de regresso beta. Neste caso, a distncia de
Cook expressa na forma
Di = (riww )2

hii
,
1 hii

em que riww o resduo ponderado padronizado 2 e hii o i-simo elemento da matriz


de projeo H . Em ambos os casos, nota-se que a medida Di tem valores maiores para
observaes que possuem resduo grande ou um hii prximo de 1.

32

Captulo 4
Anlise dos dados

Este captulo contm a aplicao da base terica apresentada nos captulos anteriores.
A parte computacional que envolve os ajustes dos modelos e a gerao de grficos foram
desenvolvidas na plataforma computacional R, verso 2.3.1. Este programa pode ser gratuitamente adquirido por download no stio http://www.r-project.org.
Nas seis primeiras sees so apresentados os resultados obtidos com os ajustes dos
modelos descritos no Captulo 3, por meio das estimativas dos parmetros dos modelos e
retas ajustadas sobrepostas ao grfico de disperso dos dados. Alm disso, tambm so
apresentados, por meio de grficos, os resultados obtidos com as tcnicas de diagnstico
descritas na Seo 3.4. O objetivo aqui encontrar subsdios que favoream ou descartem
a utilizao dos modelos propostos. Paula (2003) lista alguns grficos tradicionais que
auxiliam na anlise de diagnstico: para a deteco de pontos aberrantes, grfico de resduos contra os ndices das observaes; para deteco de ausncia de termo extra, grfico
de resduos contra varivel regressora; para deteco de pontos influentes, grfico da distncia de Cook contra os ndices das observaes e grfico de pontos de alavanca contra
os ndices das observaes; para deteco de heteroscedasticidade, grfico dos resduos
contra o valor ajustado; e para deteco de afastamento da suposio da distribuio,
grfico de resduos com envelope simulado.
Cada seo contm uma anlise dos resultados gerados pelos grficos supracitados.

33

Adicionalmente, para os modelos normais, os testes de Breusch-Pagan (Breusch e Pagan,


1979) e de Anderson-Darling (Anderson e Darling, 1954) so utilizados para reforar as
concluses sobre, respectivamente, as suposies de homoscedasticidade e normalidade.
Na ltima seo, conclui-se a anlise dos ajustes com a escolha do modelo mais adequado
aos dados desta dissertao.

4.1

MRLN com transformao logito na varivel resposta

Nesta seo considerado o modelo


ln

yi
1 yi

= 0 + 1 xi + i , i = 1, . . . , n,

em que 1 , . . . , n so os erros aleatrios i.i.d. tais que i N (0, 2 ), conforme definido na

Seo 3.1 em (3.2). A Tabela 4.1 mostra o resultado do ajuste do modelo e indica que o
logito da potncia estatisticamente importante para explicar o fator de simultaneidade.
Tabela 4.1 Ajuste do MRLN com transformao logito na varivel resposta.
Parmetro

Estimativa

Erro Padro

p-valor

-1.47353

0.14655

-10.055

0.0000

-0.34312

0.04496

-7.631

0.0000

0.2276

A Figura 4.1.a exibe o grfico de disperso entre a potncia e o logito do fator de


simultaneidade, bem como a reta ajustada, e indica que alguns pontos no so bem acomodados pelo modelo, como o caso das observaes 12, 16, 29 e, principalmente, a 21.
Tambm destacam-se as observaes 31 e 34, mas estas por estarem localizadas em uma
regio remota no eixo da varivel regressora. A Figura 4.1.b exibe o grfico de disperso
entre a potncia e o fator de simultaneidade, bem como a reta ajustada transformada, e
34

1.0

12

0.8
0.7
0.6
0.5
0.4

21

0.3

Fator de simultaneidade

16
29

12

16
29

0.1

0.2

logito(Fator de simultaneidade)

0.9

21

4
0

34

31

0.0

34

31

10

0.0

1.0

2.0

Potncia computada (MW)

3.0

4.0

5.0

6.0

7.0

8.0

9.0

10.0

Potncia computada(MW)

(a)

(b)

Figura 4.1: Grficos de disperso e reta ajustada do MRLN com transformao logito na
varivel resposta.
corrobora a Figura 4.1.a, ao evidenciar que o suave decaimento da reta ajustada transformada acaba por no acomodar as observaes 12, 16, 21 e 29.
A Figura 4.2.a mostra que os resduos no formam nenhuma tendncia no grfico
de disperso contra os ndices das observaes e pe em destaque a observao 21,
caracterizando-a como observao aberrante. Tambm no se observa tendncia claramente definida na Figura 4.2.b, sugerindo que no existe ausncia de termo extra. H
indcios de que as observaes 21, 31 e 34 sejam as mais influentes, conforme a Figura
4.2.c; as observaes 31 e 34 tambm destacam-se como possveis pontos de alavanca, conforme Figura 4.2.d, enquanto a observao 21 parece tambm contribuir para a violao
da suposio de homoscedasticidade, conforme Figura 4.2.e. O teste de Breusch-Pagan,
aplicado aos resduos deste modelo, resulta em um nvel descritivo no limiar da rejeio
da hiptese nula a um nvel de significncia de 10% (p-valor = 0.099). Por fim, a Figura
4.2.f indica que os pontos encontram-se bem distribudos dentro dos limites do grfico de
envelope, com exceo da observao 21. O teste de normalidade de Anderson-Darling
aplicado sobre os resduos padronizados deste modelo no encontra evidncias estatsticas
para rejeitar a hiptese de normalidade (p-valor = 0.508).

35

21

3
2
1

34

Resduo studentizado

1
0
1

Resduo studentizado

21

10

11

31

15

20

25

30

35

40

ndice da observao

hii

0.3

34

0.2

Distncia de Cook

0.4

21

0.0

0.1

31

10

15

20

(b)

25

30

35

0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40

(a)

Varivel regressora

40

34

31
21

4.5

4.0

3.5

ndice da observao

3.0

2.5

2.0

1.5

Valor ajustado

(c)

(d)

1
0
1

Residuo Studentizado

34

Resduo studentizado

21

31

4.5

4.0

3.5

3.0

2.5

2.0

1.5

2.0

Valor ajustado

1.5

1.0

0.5

0.0

0.5

1.0

1.5

2.0

Percentis da Normal Padro

(e)

(f)

Figura 4.2: Grficos de diagnstico do MRLN com transformao logito na varivel


resposta.
36

4.2

MRLN com transformao logito na varivel resposta e transformao logartmica na varivel regressora

Nesta seo considerado o modelo


ln

yi
1 yi

= 0 + 1 xi + i , i = 1, . . . , n,

em que xi = ln(xi ) e 1 , . . . , n so os erros aleatrios i.i.d. tais que i N (0, 2 ), conforme


definido na Seo 3.1 em (3.3). A Tabela 4.2 mostra o resultado do ajuste do modelo e

indica que o logaritmo da potncia estatisticamente importante para explicar o fator de


simultaneidade.
Tabela 4.2 Ajuste do MRLN com transformao logito na varivel resposta e transformao logartmica na varivel regressora.
Parmetro

Estimativa

Erro Padro

p-valor

-1.75537

0.09684

-18.126

0.0000

-0.82832

0.08768

-9.447

0.0000

0.1730

A Figura 4.3.a exibe o grfico de disperso entre o logaritmo natural da potncia e


o logito do fator de simultaneidade, bem como a reta ajustada, e destaca as observaes
21, 31 e 34 por apresentarem valores extremos na varivel regressora transformada, no
parecendo haver grandes desvios em relao ao modelo de regresso ajustado. A Figura
4.3.b exibe o grfico de disperso entre a potncia e o fator de simultaneidade, bem como
a reta ajustada transformada. O forte decaimento da reta ajustada transformada, principalmente para valores pequenos da potncia computada, acaba por acomodar bem as
observaes 12, 16, 29 e, principalmente, a 21.
A Figura 4.4.a mostra que os resduos no formam nenhuma tendncia no grfico de
disperso contra os ndices das observaes e pe em destaque as observaes 31 e 33 por
37

1.0
0.9

0.8
0.7
0.6
0.5
0.4

21

0.2

0.3

Fator de simultaneidade

1
3

33

34

33
34

31

0.0

31

0.1

logito(Fator de simultaneidade)

21

0.0

ln(Potncia computada)

1.0

2.0

3.0

4.0

5.0

6.0

7.0

8.0

9.0

10.0

Potncia computada (MW)

(a)

(b)

Figura 4.3: Grficos de disperso e reta ajustada do MRLN com transformao logito na
varivel resposta e transformao logartmica na varivel regressora.
estarem pouco alm do intervalo (-2,2). Tambm no se observa tendncia claramente
definida na Figura 4.4.b, sugerindo que no existe ausncia de termo extra. Segundo o
critrio da distncia de Cook, existem indcios de que a observao 31 seja a mais influente,
conforme indica a Figura 4.4.c, enquanto a observao 21 destaca-se como possvel ponto
de alavanca, conforme Figura 4.4.d. No existem indcios de violao da suposio de
homoscedasticidade, conforme Figura 4.4.e. De fato, o teste de Breusch-Pagan, aplicado
aos resduos deste modelo, no encontra evidncias estatsticas para rejeitar a hiptese
de homoscedasticidade dos resduos (p-valor = 0.70). Por fim, a Figura 4.4.f indica que
as observaes no esto bem distribudas dentro dos limites do grfico de envelope, com
algumas observaes extrapolando estes limites. O teste de normalidade de AndersonDarling aplicado sobre os resduos padronizados deste modelo corrobora os indcios do
grfico de envelope, apresentando, para um nvel de significncia de 5%, um nvel descritivo no limiar da rejeio da hiptese de normalidade (p-valor = 0.0545).

38

33

10

15

20

25

30

2
5

Resduo studentizado

31
0

21

1
0
1
2

Resduo studentizado

33

35

31

40

ndice da observao

hii

0.10
0.05
0.00

Distncia de Cook

0.15

31

10

15

20

(b)

25

30

35

0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40

(a)

Varivel regressora

40

21

34

3.5

3.0

2.5

ndice da observao

2.0

1.5

1.0

0.5

Valor ajustado

(d)

(c)

1
0
1
3

Residuo Studentizado

1
1

21

Resduo studentizado

33

31
3.5

3.0

2.5

2.0

1.5

1.0

0.5

2.0

1.5

1.0

Valor ajustado

0.5

0.0

0.5

1.0

1.5

2.0

Percentis da Normal Padro

(e)

(f)

Figura 4.4: Grficos de diagnstico do MRLN com transformao logito na varivel


resposta e transformao logartmica na varivel regressora.
39

4.3

MRLN com transformao logartmica na varivel


resposta

Nesta seo considerado o modelo


yi = 0 + 1 xi + i , i = 1, . . . , n,
em que yi = ln(yi ), 0 = ln(0 ) e 1 , . . . , n so os erros aleatrios i.i.d. tais que
i N (0, 2 ), conforme definido na Seo 3.2 em (3.4). A Tabela 4.3 que mostra o

resultado do ajuste deste modelo e indica que a potncia, como varivel regressora, contribui significativamente para explicar o fator de simultaneidade.
Tabela 4.3 Ajuste do MRLN com transformao logartmica na varivel resposta.
Parmetro

Estimativa

Erro Padro

p-valor

-1.6823

0.1255

-13.408

0.0000

-0.3071

0.0385

-7.976

0.0000

0.1668

A Figura 4.5.a exibe o grfico de disperso entre a potncia e o logaritmo natural do


fator de simultaneidade, bem como a reta ajustada, e destaca as observaes 31, 34 e 21
por situarem-se em uma regio remota no eixo da varivel regressora. A observao 21,
por sua vez, destaca-se tanto no eixo da varivel regressora quanto no eixo da varivel
resposta. A Figura 4.5.b exibe o grfico de disperso entre a potncia e o fator de simultaneidade, bem como a reta ajustada transformada, e indica que as observaes 12, 16,
29, e principalmente a 21 no so bem acomodadas pelo modelo.
A Figura 4.6.a, que mostra o grfico de disperso entre os resduos studentizados
e os ndices das observaes, no revela nenhuma tendncia, mas pe em destaque a
observao 21, caracterizando-a como observao aberrante. Tambm no se observa
tendncia claramente definida na Figura 4.6.b, que mostra a disperso entre os resduos
studentizados e a varivel regressora, sugerindo no haver ausncia de termo extra. H
40

1.0
0.9

0.8
0.7
0.6
0.5
0.4

21

0.3

Fator de simultaneidade

1
2
3

12

16
29

0.1

0.2

34

31

log(Fator de simultaneidade)

21

34

0.0

31

10

0.0

Potncia computada (MW)

1.0

2.0

3.0

4.0

5.0

6.0

7.0

8.0

9.0

10.0

Potncia computada (MW)

(a)

(b)

Figura 4.5: Grficos de disperso e reta ajustada do MRLN com transformao logartmica
na varivel resposta.
indcios de que as observaes 21, 31 e 34 sejam as mais influentes, conforme indica a
Figura 4.6.c, na qual se observa a distncia de Cook contra os ndices das observaes.
Alm disso, analisando a medida hii , h evidncias de que a observao 34 seja tambm um
ponto de alavanca, conforme indica a Figura 4.6.d. A observao 21 destaca-se na Figura
4.6.e, na qual est o grfico de disperso entre resduo studentizado e valor ajustado, mas
no determina um padro a ponto de suspeitar heteroscedasticidade dos resduos. De fato,
o teste de Breusch-Pagan, aplicado aos resduos deste modelo, no encontra evidncia
estatstica para rejeitar a hiptese de homoscedasticidade (p-valor = 0.24). Por fim, a
Figura 4.6.f mostra o grfico de envelope simulado e indica que os pontos encontramse todos distribudos dentro dos limites do grfico de envelope, sugerindo aderncia
suposio de distribuio do modelo. De fato, o teste de normalidade de AndersonDarling aplicado sobre os resduos padronizados deste modelo no encontra evidncias
estatsticas para rejeitar a hiptese de normalidade (p-valor = 0.81).

41

34

Resduo studentizado

1
0
1

Resduo studentizado

21

21

11
0

10

15

20

25

30

35

40

11
0

ndice da observao

21

0.20

hii

0.15
0.10
0.00

0.05

Distncia de Cook

0.25

34

31

10

(b)

20

30

0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40

0.30

(a)

Varivel regressora

34

31
21

40

4.0

3.5

ndice da observao

3.0

2.5

2.0

Valor ajustado

(d)

(c)

1
0
1

Residuo Studentizado

34

Resduo studentizado

21

3
11
4.0

3.5

3.0

2.5

2.0

2.0

Valor ajustado

1.5

1.0

0.5

0.0

0.5

1.0

1.5

2.0

Percentis da Normal Padro

(e)

(f)

Figura 4.6: Grficos de diagnstico do MRLN com transformao logartmica na varivel


resposta.
42

4.4

MRLN com transformao logartmica nas variveis


resposta e regressora

Nesta seo considerado o modelo


yi = 0 + 1 xi + i , i = 1, . . . , n,
em que yi = ln(yi ), xi = ln(xi ), 0 = ln(0 ) e 1 , . . . , n so os erros aleatrios i.i.d. tais
que i N (0, 2 ). Este modelo, j definido na Seo 3.2 em (3.5), foi tambm considerado

em IPT (2005). A Tabela 4.4 mostra o resultado do ajuste deste modelo e indica que
o logaritmo natural da potncia, como varivel regressora, estatisticamente importante
para explicar o fator de simultaneidade.
Tabela 4.4 Ajuste do MRLN com transformao logartmica nas variveis resposta e regressora.
Parmetro

Estimativa

Erro Padro

p-valor

-1.9575

0.0889

-22.018

0.0000

-0.7136

0.0805

-8.865

0.0000

0.1458

A Figura 4.7.a exibe o grfico de disperso entre o logaritmo natural da potncia e


o logaritmo natural do fator de simultaneidade, bem como a reta ajustada, e destaca as
observaes 21, 31 e 34 apenas por apresentarem valores extremos na varivel regressora
transformada, no parecendo haver grandes desvios em relao ao modelo de regresso
ajustado. O mesmo pode-se dizer em relao Figura 4.8.b., que exibe o grfico de disperso entre a potncia e o fator de simultaneidade, bem como a reta ajustada transformada.
Nota-se que, por conta do forte decaimento da reta ajustada transformada, observaes
com baixos valores de potncia computada so bem acomodadas pelo modelo, em especial
a 21.
A Figura 4.8.a mostra que os resduos studentizados no formam nenhuma tendncia
no grfico de disperso contra a ordem de observao e pe em destaque as observaes
43

1.0
0.9

0.8
0.7
0.6
0.5
0.4

21

0.1

0.2

0.3

Fator de simultaneidade

1
2
3

34

31

log(Fator de Simultaneidade)

21

34

0.0

31

0.0

log(Potncia computada)

1.0

2.0

3.0

4.0

5.0

6.0

7.0

8.0

9.0

10.0

Potncia computada (MW)

(a)

(b)

Figura 4.7: Grficos de disperso e reta ajustada do MRLN com transformao logartmica
nas variveis resposta e regressora.
31 e 33 por estarem pouco alm do intervalo (-2,2). Tambm no se observa tendncia
claramente definida na Figura 4.8.b, sugerindo que no existe ausncia de termo extra.
Segundo o critrio da distncia de Cook, h indcios de que as observaes 31 e 34 sejam
as mais influentes, conforme indica a Figura 4.8.c, enquanto a observao 21 destacase como possvel ponto de alavanca segundo o critrio da medida hii , conforme Figura
4.8.d. No existem indcios de violao da suposio de homoscedasticidade, conforme
Figura 4.8.e, que mostra o grfico de disperso entre os resduos studentizados e os valores ajustados. De fato, o teste de Breusch-Pagan, aplicado aos resduos deste modelo,
no encontra evidncias estatsticas para rejeitar a hiptese de homoscedasticidade dos
resduos (p-valor = 0.31). Por fim, a Figura 4.8.f indica que as observaes esto dentro
dos limites do grfico de envelope, com algumas no limiar destes limites, sugerindo uma
leve falta de qualidade de ajuste do modelo. O teste de normalidade de Anderson-Darling
aplicado sobre os resduos padronizados deste modelo rejeita a hiptese de normalidade a
um nvel de 5 % de significncia (p-valor = 0.0462).

44

33

2
1
0

21

Resduo studentizado

1
0
1
2

Resduo studentizado

33

31
0

10

15

20

25

30

31
35

40

ndice da observao

hii

0.00

20

30

0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40

0.10

34

0.05

Distncia de Cook

0.15

31

10

(b)

0.20

(a)

Varivel regressora

40

21

34

3.5

3.0

2.5

ndice da observao

2.0

1.5

1.0

Valor ajustado

(d)

(c)

1
0
1
2

Residuo Studentizado

1
0
1

21

Resduo studentizado

33

3.5

31
3.0

2.5

2.0

1.5

1.0

2.0

Valor ajustado

1.5

1.0

0.5

0.0

0.5

1.0

1.5

2.0

Percentis da Normal Padro

(e)

(f)

Figura 4.8: Grficos de diagnstico do MRLN com transformao logartmica nas variveis
resposta e regressora.
45

4.5

Modelo de regresso beta

Nesta seo considerado o modelo de regresso beta definido na Seo 3.3. Admite-se
que y1 , . . . , yn so variveis aleatrias independentes tal que yi tem distribuio beta de
mdia i e parmetro de disperso , e ainda,
ln

i
1 i

= 0 + 1 xi , i = 1, . . . , n,

em que 0 e 1 so parmetros desconhecidos do modelo. Note que aqui utilizada a


funo de ligao g(i ) = ln(i /(1 i )), ou seja a funo logito. Esta funo de ligao

foi escolhida por ser particularmente til em termos de interpretao de resultados, uma
vez que possibilita a interpretao do parmetro 1 em termos de razo de chances. A
Tabela 4.5, que mostra o resultado do ajuste do modelo, indica que a potncia contribui
significativamente para explicar o fator de simultaneidade.
Tabela 4.5 Ajuste do modelo de regresso beta.
Parmetro

Estimativa

Erro Padro

p-valor

-1.30368

0.1408

-9.26

0.0000

-0.36479

0.0536

-6.80

0.0000

45.391

10.027

A Figura 4.9.a exibe o grfico de disperso entre a potncia e o logito do fator de


simultaneidade, bem como a reta ajustada, e destaca as observaes 21, 31 e 34. As observaes 31 e 34 destacam-se por situarem-se em uma regio remota no eixo da varivel
regressora. A observao 21, por sua vez, destaca-se tanto no eixo da varivel regressora
quanto no eixo da varivel resposta. Tal comportamento sugere que esta observao no
bem acomodada pelo modelo. A Figura 4.9.b exibe o grfico de disperso entre a potncia o fator de simultaneidade, bem como a reta ajustada transformada, e sugere que, de
modo geral, as observaes esto bem acomodadas pela reta ajustada, exceo feita
observao 21.

46

1.0
0.9

0.8
0.7
0.6
0.5
0.4

21

0.2

0.3

Fator de Simultaneidade

0
1
2
3

34

31

0.1

logito(Fator de Simultaneidade)

21

34

0.0

31

10

0.0

Potncia computada (MW)

1.0

2.0

3.0

4.0

5.0

6.0

7.0

8.0

9.0

10.0

Potncia (MW)

(a)

(b)

Figura 4.9: Grficos de disperso e reta ajustada do modelo de regresso beta.


A Figura 4.10.a evidencia que os resduos riww definidos em (3.15) no formam nenhuma
tendncia no grfico de disperso contra os ndices das observaes e pe em destaque a
observao 21, caracterizando-a como observao aberrante. Na Figura 4.10.b, na qual
traado o grfico de disperso entre os resduos riww e os valores da varivel regressora, observa-se uma tendncia de afunilamento nos resduos, sugerindo a possibilidade
de melhora do ajuste do modelo caso seja adicionado um termo extra, possivelmente para
permitir que o parmetro de disperso dependa da potncia. Seguindo o critrio da distncia de Cook, h indcios de que a observao 21 seja a mais influente, conforme indica
a Figura 4.10.c. Por outro lado, utilizando o critrio dos valores de alavanca generalizada,
a Figura 4.10.d sugere a inexistncia de pontos de alavanca. A Figura 4.10.e., que mostra
o grfico de disperso entre riww e os respectivos valores ajustados, sugere um comportamento heteroscedstico, na medida em que os resduos parecem se dispersar mais para
valores ajustados maiores. Por fim, a Figura 4.10.f indica que os resduos no esto bem
distribudos dentro do grfico de envelope simulado, com algumas delas extrapolando os
seus limites, sugerindo portanto desvio em relao s suposies do modelo.

47

21

3
2
1

34

31

Resduo ponderado

2
1
0
1

Resduo ponderado

21

10

11
15

20

25

30

35

40

ndice da observao

(b)

0.10

(a)

21

0.06

31

0.04

Alavanca generalizada

0.08

21

34

0.00

0.02

Distncia de Cook

Varivel Regressora

10

15

20

25

30

35

40

0.05

0.10

ndice da observao

0.15

0.20

Valor ajustado

(d)

(c)

1
0
2

Residuo Ponderado 2

2
1
0

1
2

Resduo ponderado

21

0.05

0.10

0.15

0.20

2.0

Valor ajustado

1.5

1.0

0.5

0.0

0.5

1.0

Percentis da Normal Padro

(e)

(f)

Figura 4.10: Grficos de diagnstico do modelo de regresso beta.


48

1.5

2.0

4.6

Modelo de regresso beta com transformao logartmica na varivel regressora

Nesta seo considerado o modelo de regresso beta definido na Seo 3.3. Admite-se
que y1 , . . . , yn so variveis aleatrias independentes tal que yi tem distribuio beta de
mdia i e parmetro de disperso , e ainda,
ln

i
1 i

= 0 + 1 xi , i = 1, . . . , n,

em que 0 e 1 so parmetros desconhecidos do modelo, g(i ) = ln(i /(1 i )) a


funo de ligao logito e xi = ln(xi ), conforme definido na Seo 3.3. A Tabela 4.6,

que mostra o resultado do ajuste do modelo, indica que o logaritmo natural da potncia
computada estatisticamente importante para explicar o fator de simultaneidade.
Tabela 4.6 Ajuste do modelo de regresso beta com transformao logartmica na varivel
regressora.
Parmetro

Estimativa

Erro Padro

p-valor

-1.71223

0.06720

-25.5

0.0000

-0.79352

0.06654

-11.9

0.0000

79.34491

17.40425

A Figura 4.11.a exibe o grfico de disperso entre o logaritmo da potncia e o logito


da varivel resposta, bem como a reta ajustada, enquanto a Figura 4.11.b exibe o grfico
de disperso entre a potncia e o fator de simultaneidade, bem como a reta ajustada
transformada. Ambas as figuras destacam as observaes 21, 31 e 34 por apresentarem
valores extremos na varivel regressora transformada, no apresentando grandes desvios
em relao ao modelo ajustado.
A Figura 4.12.a mostra que os resduos no formam nenhuma tendncia claramente
definida no grfico de disperso contra a ordem de observao. Tambm no se observa
nenhuma tendncia no grfico da Figura 4.12.b, sugerindo que no existe ausncia de
49

1.0
0.9

0.8
0.7
0.6
0.5
0.4

21

0.2

0.3

Fator de Simultaneidade

1
2
3

34

31

0.1

logito(Fator de Simultaneidade)

21

34

0.0

31

0.0

1.0

log(Potncia computada)

2.0

3.0

4.0

5.0

6.0

7.0

8.0

9.0

10.0

Potncia computada(MW)

(a)

(b)

Figura 4.11: Grficos de disperso e reta ajustada do modelo de regresso beta com
transformao logartmica na varivel regressora.
termo extra. A observao 21 apresenta o maior valor residual do ajuste deste modelo.
As observaes 16, 33 e 35 apresentam valores de resduo altos, mas esto relativamente
prximas da massa de dados. Segundo o critrio da distncia de Cook, a observao 21
destaca-se como uma possvel observao influente, conforme mostra a Figura 4.12.c. A
observao 21 tambm destaque como ponto de alavanca, juntamente com a observao
15, conforme indica a Figura 4.12.d. A Figura 4.12.e no sugere nenhum comportamento
heteroscedtico dos resduos. Tambm no se observam desvios relevantes em relao
suposio de distribuio do modelo, conforme Figura 4.12.f, uma vez que as observaes
esto todas distribudas dentro dos envelopes ou bem prximos de seus limites.

4.7

Comparao entre os modelos

A proposta desta seo escolher, entre os seis modelos ajustados nas sees anteriores, o modelo mais adequado aos dados. Em uma anlise inicial, sero descartados
os modelos que apresentaram algum desvio evidente em relao s suas suposies. Em
50

21

21
16

16

2
1
1
2

35
0

10

15

20

25

30

35

35

40

ndice da observao

0.5

(b)

21

21

0.3
0.2

15

3431

0.0

50

0.1

100

150

Alavanca generalizada

200

0.4

250

Varivel Regressora

(a)

Distncia de Cook

33

Resduo ponderado

1
0
2

Resduo ponderado

33

10

15

20

25

30

35

40

0.1

0.2

ndice da observao

0.3

0.4

Valor ajustado

(c)

(d)

21

2
1
1 0

Residuo Ponderado

1
0
2

Resduo ponderado

16

33

35
0.1

0.2

0.3

0.4

2.0

Valor ajustado

1.5

1.0

0.5

0.0

0.5

1.0

1.5

2.0

Percentis da Normal Padro

(e)

(f)

Figura 4.12: Grficos de diagnstico do modelo de regresso beta com transformao


logartmica na varivel regressora.
51

seguida, para os modelos remanescentes, ser avaliado o impacto da retirada de observaes possivelmente influentes que, segundo os grficos de diagnstico apresentados nas
sees anteriores, esto presentes em todos os modelos. Ao fim desta anlise, ser escolhido
um nico modelo que ser trabalhado de modo a fornecer uma banda de predio, cujo
limite superior ser tomado como a proposta da curva do fator de simultaneidade.
Para o MRLN com transformao logito na varivel resposta, cujos resultados so
apresentados na Seo 4.1, nota-se que a observao 21 extrapola os limites do grfico de
envelope simulado, sugerindo uma leve falta de qualidade de ajuste. Alm disso, fazendo
uma anlise conservadora deste modelo, a suposio de homoscedasticidade violada (pvalor = 0.099 no teste de Breusch-Pagan), sendo tambm a observao 21 a responsvel
por este resultado. Desta forma, o modelo em questo caracteriza-se por no acomodar
de forma satisfatria a observao 21.
Para o MRLN com transformao logito na varivel resposta e transformao logartmica nas varivel regressora, cujos resultados so apresentados na Seo 4.2, o principal desvio fica por conta do teste de Anderson-Darling, que gerou um nvel descritivo no
limiar da rejeio da hiptese de normalidade a um nvel de significncia de 5% (p-valor
= 0.0545). Desta forma, o modelo em questo caracteriza-se por violar a suposio de
normalidade, comprometendo assim os resultados inferenciais.
Para o MRLN com transformao logartmica na varivel resposta, cujos resultados
so apresentados na Seo 4.3, no h nenhuma evidncia de desvio em relao s suposies do modelo. Desta forma, o modelo em questo constitui uma alternativa a ser
considerada.
Similarmente ao modelo apresentado na Seo 4.2, para o MRLN com transformao
logartmica nas variveis resposta e regressora, cujos resultados so apresentados na Seo
4.4, o principal desvio tambm fica por conta do teste de Anderson-Darling, que rejeita
a hiptese de normalidade a um nvel de significncia de 5% (p-valor = 0.0462). Desta
forma, o modelo em questo caraceriza-se por violar a suposio de normalidade, comprometendo assim os resultados inferenciais.

52

Para o modelo de regresso beta, cujos resultados so apresentados na Seo 4.5,


foram encontrados diversos desvios. Foram encontrados indcios de ausncia de termo extra, disperso varivel e desvio na suposio da distribuio do modelo, configurando-se,
portanto, uma situao na qual o modelo inadequado para os dados considerados.
Finalmente, para o modelo de regresso beta com transformao logartmica na varivel
regressora, cujos resultados so apresentados na Seo 4.6, no h nenhuma evidncia de
desvio em relao s suposies do modelo. Desta forma, o modelo em questo constitui
uma alternativa a ser considerada.
Portanto, as tcnicas de diagnstico utilizadas neste trabalho no evidenciaram razes
para descartar dois dos seis modelos testados nesta dissertao: o MRLN com transformao logartmica na varivel resposta e o modelo de regresso beta com transformao
logartmica na varivel regressora.
Uma grande diferena entre estes dois modelos pode ser observada na Figura 4.13,
que contrape as duas curvas ajustadas transformadas. A queda acentuada da curva
do modelo de regresso beta, observada na Figura 4.13.b, devida transformao logartmica da varivel regressora. Comportamento similar foi observado em todos os modelos
que consideraram esta transformao. A pergunta a ser respondida agora : qual destas
duas curvas melhor se aproxima do verdadeiro comportamento do fator de simultaneidade?
Nota-se que, entre as duas curvas, quase no h diferena em estimar o fator de simultaneidade mdio para potncias computadas superiores a 1 M W . A maior diferena
entre as duas curvas, portanto, envolve a estimativa de fatores de simultaneidade inferiores a 1 M W . Como o escopo deste trabalho apenas sistemas prediais cuja utilizao
de gs natural para o aquecimento de gua e coco, as chances de observar potncias
computadas com valores baixos ficou bastante reduzida. De fato, nota-se que os valores
observados de potncia computada so superiores a 0.5 M W , com exceo da observao
21, cujo valor de potncia computada foi 0.17 M W . Portanto, este trabalho no levantou
massa de dados que possa evidenciar, com algum grau de certeza, o comportamento do

53

1.0
0.7
0.6
0.5
0.4
0.1

0.1

0.2

16
29

21

0.3

Fator de Simultaneidade

0.8

0.9

1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3

12
0.2

Fator de simultaneidade

21

34

34

31

0.0

0.0

31

0.0

1.0

2.0

3.0

4.0

5.0

6.0

7.0

8.0

9.0

10.0

0.0

1.0

2.0

3.0

Potncia computada (MW)

4.0

5.0

6.0

7.0

8.0

9.0

10.0

Potncia computada(MW)

(a)

(b)

Figura 4.13: Grficos de disperso e reta ajustada do MRLN com transformao logartmica na varivel resposta (a) e do modelo de regresso beta com transformao logartmica
na varivel regressora (b).
fator de simultaneidade no intervalo que vai de 0 a 0.5 M W .
A primeira evidncia de que a transformao logartmica a mais adequada aos dados
vem da anlise das observaes que esto no intervalo (0.5 M W , 1 M W ) de potncia
computada. Estas observaes so melhores acomodadas pelo modelo de regresso beta,
cuja tendncia de decaimento mais acentuada nesta regio. A observao 21 insere-se
nesta interpretao como uma continuao natural desta tendncia. A segunda evidncia vem dos diversos outros estudos ligados ao fator de simultaneidade que evidenciam
que, medida que os valores de potncia computada se aproximam de 0, o valor do fator de simultaneidade tende a aumentar, e que para valores muito baixos de potncia
computada, bastante provvel que o fator de simultaneidade tenda ao valor 1 (ver por
exemplo, Ilha, 1996 e Kawabe, Ogassavara e Dias, 1989). Esta situao claramente
contemplada no modelo de regresso beta, mas no no MRLN. Portanto, embora no
existam razes estatsticas para descartar os modelos apresentados nas Sees 4.3 e 4.6, a
literatura evidencia que o MRLN com transformao logartmica na varivel resposta no
esteja retratando o verdadeiro comportamento do fator de simultaneidade devido a um
54

problema de falta de informao em um intervalo de valores da potncia. Desta forma, o


modelo de regresso beta com transformao logartmica na varivel regressora apresentase como o modelo mais adequado neste trabalho.
H ainda de se retomar a discusso sobre as premissas que tornam o modelo de regresso beta teoricamente mais adequado a dados medidos de forma contnua e limitados
ao intervalo (0, 1), conforme j mencionado no Captulo 3. O MRLN apresenta duas inconsistncias conceituais quando aplicados em dados compreendidos no intervalo (0,1).
Primeiro, a varivel resposta no est definida no domnio sobre o qual a distribuio
normal definida. Segundo, dados deste tipo no admitem que a funo de esperana
condicional seja linear e a funo de varincia condicional seja independente da mdia. A
transformao da varivel resposta busca contornar estes erros conceituais, mas ao mesmo
tempo adicionam dificuldades na interpretabilidade do modelo, uma vez que os resultados
obtidos referem-se varivel resposta transformada, e no varivel resposta original.
O modelo de regresso beta, por sua vez, apresenta uma srie de vantagens em relao
aos dados compreendidos entre (0, 1), conforme tambm mencionado no Captulo 3. Em
primeiro lugar, todas as suposies do modelo so referentes varivel resposta original, e
no varivel resposta transformada, facilitando a interpretao dos parmetros do modelo. A utilizao da ligao logito restringe a esperana condicional ao intervalo (0,1). Por
fim, variveis respostas com varincias no-constantes, situao muito comum em dados
compreendidos no intervalo (0, 1), podem ser naturalmente acomodadas pelo modelo de
regresso beta. Desta forma, as adequaes quase que naturais da regresso beta a dados
compreendidos no intervalo (0, 1) e a facilidade de interpretao dos resultados tambm
so fatores que favorecem a escolha do modelo apresentado na Seo 4.6.
Uma vez definido o modelo a ser considerado nesta dissertao, importante avaliar o
impacto de observaes possivelmente influentes sobre as estimativas do modelo, conforme
apontado pelos grficos de diagnstico da Seo 4.6. A Tabela 4.7 mostra a variao das
estimativas mediante a retirada das observaes possivelmente influentes. Sob o efeito da
retirada da observao 21, no h grandes impactos sobre as estimativas de 0 e 1 . A
variao observada no parmetro 1 inferior a 8% e as concluses sobre a importncia
da potncia para explicar o fator de simultaneidade permanece inalterada. Em relao ao

55

parmetro de dispeso , a variao observada com a retirada da observao inferior a


1%. A Figura 4.14 mostra as curvas ajustadas com e sem a observao 21 evidenciando
que, de fato, quase no h impacto no ajuste das curvas mediante retirada da observao
21.
Tabela 4.7 Estimativas do modelo de regresso beta com transformao logartmica na
varivel resposta.
Todas

Sem 21

-1.7122

-1.7641

3.0

p-valor

0.0000

0.0000

-0.7935

-0.7305

-7.9

p-valor

0.0000

0.0000

79.3449

78.7392

-0.8

1.0

Parmetro

0.8
0.7
0.6
0.5
0.4

21

0.2

0.3

Fator de Simultaneidade

0
1
2
3
5

0.0

0.1

logito(Fator de Simultaneidade)

Todas
Sem 21

0.9

Todas
Sem 21

21

0.0

ln(Potncia computada)

1.0

2.0

3.0

4.0

5.0

6.0

7.0

8.0

9.0

10.0

Potncia computada (MW)

(a)

(b)

Figura 4.14: Efeito da retirada da observao 21 no modelo de regresso beta com transformao logartmica na varivel resposta.

56

Outro passo importante consiste na interpretao do modelo ajustado, ou seja,


ln

b
1
b

= 1.71 0.79 x

em que x = ln(x), com x representando a potncia computada (em MW). Isolando


b,

temos que

e(1.710.79 x )

b=
.
1 + e(1.710.79 x )

Como usual em modelos que levam em conta a funo logito como funo de ligao, poder-se-ia interpretar o modelo ajustado em termos de razo de chances por meio
b

da medida e(c1 ) , em que c um incremento na varivel regressora. No entanto, como


a varivel resposta aqui estudada no representa uma probabilidade, no conveniente
interpret-la como tal.
b

Nota-se, porm, que e(0.11 ) = e(0.10.79) 1.08, o que significa que, a cada re-

duo de 0.1 no logaritmo natural da potncia (aproximadamente 1M W na potncia


computada), a utilizao simultnea mdia dos aparelhos de utilizao de um sistema
predial aumenta em 8%.

57

Captulo 5
Predio do fator de simultaneidade
5.1

Introduo

O modelo de regresso beta com transformao logartmica na varivel resposta foi o


modelo que melhor se ajustou aos dados de fator de simultaneidade, conforme Seo 4.7.
As tcnicas de diagnstico apresentadas na Seo 3.4 contriburam para concluir que este
modelo definiu a curva mdia que melhor acomodou as observaes no grfico de disperso
entre fator de simultaneidade e potncia computada.
No entanto, na prtica, no se pode utilizar a estimativa da esperana condicional
do fator de simultaneidade para dimensionar as instalaes de um sistema predial de gs
natural. Se fosse adotado o modelo da Seo 4.6 para definir os fatores de simultaneidade
dos novos projetos de sistema predial de gs natural, seria observado um grande nmero
de sistemas prediais com fator de simultaneidade subestimado, como mostra a Figura
4.11.b. Conforme j mencionado no Captulo 1, subestimar o fator de simultaneidade
compromete a qualidade do servio de fornecimento de gs natural e a segurana dos
usurios.
necessrio, portanto, que na escolha do fator de simultaneidade, assegure-se, com
algum grau de confiana, que o novo sistema predial a ser projetado no tenha seu fator
de simultaneidade subestimado. Estatisticamente, este desafio traduz-se em obter um intervalo de predio para o fator de simultaneidade de novas edificaes. Nesta dissertao
58

ser utilizado o mtodo de bootstrap, o qual ser escrito nas sees seguintes.

5.2

O mtodo bootstrap

O bootstrap um mtodo computacional de inferncia estatstica proposto por Efron


(1979) que vem se mostrando til em responder a questes prticas sem a necessidade
de clculos analticos complexos ou inviveis. A fim de descrever as suas premissas bsicas, consideremos uma amostra y = (y1 , . . . , yn ) de uma varivel aleatria populacional
Y , cujo comportamento probabilstico completamente descrito por sua funo de distribuio acumulada F. Consideremos ainda que = t(F) um parmetro de interesse e
que b = S(x) seu estimador. Supondo ser invivel a obteno das propriedades da distribuio de b por meio da teoria assinttica, pode-se considerar a utilizao do bootstrap.
A aplicao do bootstrap consiste basicamente em, a partir de y, obter um grande
nmero de amostras e um igual nmero de estimativas bootstrap de b = S(x ). Com

b
base na distribuio emprica de b pode-se ento estimar a funo de distribuio de .

A forma de obteno das amostras bootstrap definem duas verses para o mtodo:

no-paramtrica e paramtrica. No bootstrap no-paramtrico, a amostra original y assume status de populao, sobre a qual so extradas, aleatoriamente e com reposio,
as amostras bootstrap y . Formalizando este procedimento em termos estatsticos, as
amostras bootstrap so obtidas de uma estimativa no-paramtrica de F, que empiricamente estimada por
b = #{yi t} , t R,
F(t)
n

(5.1)

que atribui probabilidade 1/n para cada elemento yi , i = 1, . . . , n. A verso paramtrica


do bootstrap pode ser utilizada quando a distribuio F pertence a uma famlia paramtrica
finita e conhecida de distribuies F( ). Neste caso, na possibilidade de obter b, uma

estimativa consistente para , pode-se definir a estimativa paramtrica de F, F(b


). Neste
trabalho ser utilizada a verso no-paramtrica do mtodo de bootstrap.
59

5.3

Intervalos de predio bootstrap

Na prtica, a curva do fator de simultaneidade utilizada para a determinao do fator


em novas edificaes. Em termos estatsticos, deseja-se predizer o fator de simultaneidade
de uma nova edificao utilizando um modelo de regresso previamente ajustado com
base em um conjunto de n pares de dados ((x1 , y1 ), . . . , (xn , yn )). Sejam x+ a potncia
computada de uma nova edificao, pertencente ou no ao conjunto de dados original, e
y+ o respectivo fator de simultaneidade no observado. A predio pontual deste novo
valor do fator de simultaneidade dada por
b+ = g 1 (b0 +x+ b1 ), em que g 1 () a funo
inversa da funo de ligao e b0 e b1 so os estimadores de mxima verossimilhana dos

parmetros do modelo, obtidos com base no conjunto de dados original. Alm da predio

pontual, tambm conveniente estabelecer os limites de predio. Estes limites formam


um intervalo de predio baseado em nveis de confiana, e so construdos com base na
distribuio aproximada do erro de predio.
Seja R(y, ) uma funo montona crescente em y com varincia constante. Suponha

que a mdia + e a distribuio de R(y, ) sejam conhecidas e que q seja o -simo quan-

til desta distribuio. Logo, os limites de predio para um intervalo com nvel nominal
1 so os valores y+,/2 e y+,1/2 que satisfazem, respectivamente, R(y, + ) = q(/2)

e R(y, + ) = q(1/2) . Se estimado por


b independentemente de y+ e se R(y+ ,
b)
tem quantis conhecidos, o mesmo mtodo se aplica. Se a distribuio de R(y+ ,
b)
desconhecida, a mesma pode ser aproximada por mtodos assintticos ou por mtodos

de reamostragem, tal como o mtodo bootstrap, por exemplo. Desta forma, por meio do
mtodo bootstrap possvel obter uma aproximao da distribuio de R(y+ ,
b), e assim obter os quantis empricos utilizados na obteno dos limites de predio. A funo

R(y, ) corresponde a alguma definio de resduo do modelo. O algoritmo bootstrap uti-

lizar para o processo de reamostragem uma verso padronizada da funo R(y, ), cuja

distribuio tenha varincia aproximadamente constante.

Para o modelo de regresso beta, Ospina (2007) prope que


yi
bi
R(y,
b) =
,
vi
60

ou seja, o resduo padronizado 1 tal como definido em (3.14). No processo de reamostragem,


prope-se utilizar a padronizao do resduo padronizado 1, ou seja,
y
bi
riww = p i
,
vi (1 hii )

que o resduo padronizado 2 tal como definido em 3.15. Para desenvolver o mtodo bootstrap para a obteno de limites de predio empricos para o modelo de regresso beta,
Ospina (2007) baseou-se no mtodo proposto por Davison e Hinkley (1997) para modelos
lineares generalizados. Em sua tese, a autora detalha o algoritmo para a obteno dos
limites de predio empricos, mostra um exemplo de aplicao e conclui que o intervalo
de predio bootstrap tem, em geral, bom desempenho, mas tende a falhar quando usado
para prever casos que seriam considerados influentes se estivessem presentes no conjunto
de dados observados.
O mtodo proposto por Ospina (2007) foi a ferramenta utilizada para a obteno do
intervalo de predio do modelo ajustado na Seo 4.6. Implementada na plataforma
computacional Ox, a sada do mtodo computacional so os valores referentes ao intervalo de predio bootstrap. Dentro do intervalo (0, 10] (em kW), a cada incremento de 1W
no valor da potncia computada, foi empregado o mtodo bootstrap, gerando assim 10000
valores preditos do fator de simultaneidade com seus respectivos limites inferiores e superiores de intervalo de predio bootstrap. Aqui, foram considerados limites de predio
com coeficiente de confiana nominal igual a 95%.
Os resultados gerados pelos limites inferiores do intervalo de predio no tm utilidade
prtica neste trabalho. O maior interesse est no limite superior do intervalo de predio,
cujos valores formam o grfico exibido na Figura 5.1.a.
Aparentemente, a curva exibida na Figura 5.1.a contnua e monotonicamente decrescente. Na verdade, esta figura formada pela sucesso de pontos bem prximos
que carregam a variao natural existente em uma tcnica de bootstrap, e que pode ser
observada por alguns pontos que se distanciam da curva principal. A fim de eliminar
61

esta variao, foi empregada a tcnica de suavizao de grficos de disperso descrita


em Cleveland (1979) e Cleveland (1981). Esta tcnica, conhecida como LOWESS (das
iniciais de Locally Weighted Robust Scatterplot Smoothing), utiliza modelos de regresso
ponderados robustos para gerar, com base nos pontos de um grfico de disperso, uma
curva suavizada. Aqui, foram tomados os pares formados pelos valores das potncias
utilizadas no mtodo bootstrap e os respectivos valores obtidos para o limite superior do
intervalo de predio, totalizando assim 10000 pontos. O resultado deste procedimento

1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.0

0.1

0.2

0.3

Fator de Simultaneidade

0.7
0.6
0.5
0.4
0.3
0.0

0.1

0.2

Fator de Simultaneidade

0.8

0.9

1.0

pode ser observado na Figura 5.1.b.

0.0

1.0

2.0

3.0

4.0

5.0

6.0

7.0

8.0

9.0

10.0

0.0

1.0

Potncia (MW)

2.0

3.0

4.0

5.0

6.0

7.0

8.0

9.0

10.0

Potncia (MW)

(a)

(b)

Figura 5.1: Limite superior do intervalo de predio bootstrap: dados brutos (a) e sob
efeito da tcnica LOWESS de suavizao de curvas (b).
A utilizao da tcnica do LOWESS o passo final para a obteno de uma nova
curva de predio para o fator de simultaneidade com base na potncia computada. No
entanto, diferentemente das abordagens da norma tcnica NBR 14570 e de IPT(2005),
a abordagem desta dissertao no apresenta como resultado final uma frmula fechada
para o fator de simultaneidade. O resultado final deste trabalho uma tabela que relaciona o fator de simultaneidade com a potncia computada, cujos valores constituram o
grfico da Figura 5.1.b. Estes valores podem ser observados na Tabela 5.1.

62

Tabela 5.1 Potncias computadas (kW) e seus respectivos fatores de simultaneidade


MW

F.S.

MW

F.S.

MW

F.S.

MW

F.S.

MW

F.S.

MW

F.S.

0.00

0.842

0.34

0.417

0.68

0.304

1.02

0.251

1.36

0.219

3.50

0.143

0.01

0.823

0.35

0.412

0.69

0.302

1.03

0.250

1.37

0.218

3.60

0.142

0.02

0.803

0.36

0.407

0.70

0.299

1.04

0.249

1.38

0.218

3.70

0.140

0.03

0.784

0.37

0.402

0.71

0.298

1.05

0.248

1.39

0.217

3.80

0.138

0.04

0.764

0.38

0.397

0.72

0.296

1.06

0.247

1.40

0.216

3.90

0.137

0.05

0.745

0.39

0.391

0.73

0.294

1.07

0.245

1.41

0.215

4.00

0.136

0.06

0.726

0.40

0.387

0.74

0.292

1.08

0.244

1.42

0.215

4.10

0.134

0.07

0.706

0.41

0.383

0.75

0.290

1.09

0.243

1.43

0.214

4.20

0.133

0.08

0.687

0.42

0.379

0.76

0.289

1.10

0.242

1.44

0.213

4.30

0.132

0.09

0.667

0.43

0.375

0.77

0.287

1.11

0.241

1.45

0.213

4.40

0.131

0.10

0.648

0.44

0.372

0.78

0.285

1.12

0.240

1.46

0.212

4.50

0.130

0.11

0.635

0.45

0.368

0.79

0.283

1.13

0.239

1.47

0.211

4.60

0.128

0.12

0.621

0.46

0.364

0.80

0.281

1.14

0.238

1.48

0.210

4.70

0.128

0.13

0.607

0.47

0.361

0.81

0.280

1.15

0.237

1.49

0.210

4.80

0.127

0.14

0.594

0.48

0.357

0.82

0.278

1.16

0.236

1.50

0.209

4.90

0.125

0.15

0.580

0.49

0.353

0.83

0.277

1.17

0.235

1.60

0.203

5.00

0.125

0.16

0.567

0.50

0.350

0.84

0.275

1.18

0.234

1.70

0.197

5.25

0.122

0.17

0.553

0.51

0.347

0.85

0.273

1.19

0.233

1.80

0.192

5.50

0.120

0.18

0.540

0.52

0.344

0.86

0.272

1.20

0.233

1.90

0.187

5.75

0.119

0.19

0.526

0.53

0.341

0.87

0.270

1.21

0.232

2.00

0.183

6.00

0.117

0.20

0.513

0.54

0.339

0.88

0.269

1.22

0.231

2.10

0.179

6.25

0.115

0.21

0.505

0.55

0.336

0.89

0.267

1.23

0.230

2.20

0.175

6.50

0.114

0.22

0.498

0.56

0.333

0.90

0.266

1.24

0.229

2.30

0.172

6.75

0.112

0.23

0.490

0.57

0.330

0.91

0.264

1.25

0.228

2.40

0.169

7.00

0.111

0.24

0.482

0.58

0.327

0.92

0.263

1.26

0.227

2.50

0.166

7.25

0.109

0.25

0.475

0.59

0.325

0.93

0.262

1.27

0.226

2.60

0.163

7.50

0.109

0.26

0.467

0.60

0.322

0.94

0.261

1.28

0.225

2.70

0.160

7.75

0.107

0.27

0.460

0.61

0.320

0.95

0.259

1.29

0.225

2.80

0.157

8.00

0.107

0.28

0.452

0.62

0.317

0.96

0.258

1.30

0.224

2.90

0.155

8.25

0.106

0.29

0.445

0.63

0.315

0.97

0.257

1.31

0.223

3.00

0.153

8.50

0.105

0.30

0.437

0.64

0.313

0.98

0.256

1.32

0.222

3.10

0.151

8.75

0.104

0.31

0.432

0.65

0.311

0.99

0.254

1.33

0.221

3.20

0.149

9.00

0.103

0.32

0.427

0.66

0.308

1.00

0.253

1.34

0.221

3.30

0.147

9.50

0.102

0.33

0.422

0.67

0.306

1.01

0.252

1.35

0.220

3.40

0.145

10.00

0.101

63

Captulo 6
Consideraes finais
6.1

Concluses

Neste trabalho, foram apresentadas diversas abordagens possveis para a predio do fator de simultaneidade por meio de modelos de regresso para propores contnuas. O
objetivo foi identificar quais destas abordagens melhor se adapta ao conjunto de dados
utilizado e, assim, propor uma curva do fator de simultaneidade.
De modo geral, pode-se dividir os modelos utilizados neste trabalho em trs classes:
modelos de regresso lineares normais, modelos de regresso lineares normais motivados
por modelos de regresso no-lineares normais, e modelos de regresso beta. As duas
primeiras classes de modelos so alternativas largamente empregadas na literatura cientfica, conforme mostram Kieschnick e McCullough (2003). A comparao entre os modelos
ocorreu por meio das diversas tcnicas de diagnsticos apresentadas na Seo 3.4, que
ajudaram a identificar desvios nas suposies dos modelos e observaes influentes. Por
razes j apresentadas na Seo 4.7, o modelo mais adequado aos dados deste trabalho
foi o modelo de regresso beta com transformao logartmica na varivel regressora, concluso esta que vai ao encontro das expectativas iniciais do trabalho.
A simples escolha de um modelo que se ajustou melhor aos dados no fornece uma
soluo ao problema de predio do fator de simultaneidade, uma vez que um modelo
bem ajustado forneceria apenas uma boa estimativa do fator de simultaneidade mdio
64

para um dado valor de potncia. Na prtica, necessrio que, ao se determinar o fator de


simultaneidade para uma nova edificao, assegure-se com algum grau de confiana, que
o fator de simultaneidade no seja subestimado. Em termos estatsticos, foi necessrio
obter um intervalo de predio para o fator de simultaneidade baseado no modelo de regresso beta. Para tanto, foi aplicada a teoria apresentada na Seo 5.1 - e desenvolvida
em detalhes por Ospina (2007) - que trata do desenvolvimento da tcnica de bootstrap
para predio em modelos de regresso beta. A utilizao do bootstrap em conjunto com
a tcnica de suavizao LOWESS forneceu o resultado final deste trabalho, apresentado
na Figura 5.1 e na Tabela 5.1.
Por fim, pode-se afirmar que a curva boostrap obtida neste trabalho est alinhada aos
estudos similares realizados recentemente, nos quais se alimenta a expectativa de que o
fator de simultaneidade possa ser cada vez menor. Este trabalho est entre aqueles que
vem comprovando esta expectativa, e que s foi possvel ser realizado principalmente por
dois fatores. Em primeiro lugar, atualmente existe maior facilidade de acesso aos dados de
comportamento de consumo de gs natural graas expanso da rede de distribuio. Em
segundo lugar, o desenvolvimento computacional tem possibilitado a aplicao de diversas tcnicas estatsticas que dependem de procedimentos computacionalmente intensivos,
como o caso do bootstrap.

6.2

Sugestes para trabalhos futuros

A partir dos resultados obtidos neste trabalho, surgem duas novas perspectivas de trabalho
futuro, uma focada no aspecto prtico dos problemas envolvendo o fator de simultaneidade e outra privilegiando o aspecto terico dos modelos estatsticos a serem utilizados.
Sob o ponto de vista prtico, a oportunidade surge quando se constata o escopo restrito
do modelo obtido. Os dados levantados referem-se a sistemas prediais exclusivamente
residenciais, situados na cidade de So Paulo e equipados com fogo e aquecedor de gua.
Portanto, os resultados obtidos no devem ser extrapolados para sistemas prediais com
outras caractersticas. A incluso de sistemas prediais com outras caractersticas pode

65

melhorar a predio do fator de simultaneidade e aumentar a sua abrangncia. Em termos estatsticos, a sugesto considerar outras variveis regressoras que levem em conta
a diversidade dos sistemas prediais, tais como regio (fria ou quente, rica ou pobre), fins
de utilizao do gs (cocco e aquecimento, somente cocco, somente aquecimento),
atividade (somente residencial, somente comercial, residencial e comercial), entre outras.
Sob o ponto de vista terico, existem vrios outros modelos que podem ser utilizados
para modelar o fator de simultaneidade. Alm dos j citados aqui, Kieschnick e McCullough (2003) citam o modelo de regresso normal censurado (Tobit), o modelo simplex e
os modelos de quase-verossimilhana. Smithson e Verkuilen (2006) apresentam uma variao do modelo de regresso beta que considera a modelagem do parmetro de disperso.
Deve-se ressaltar, no entanto, que o problema no se restringe ao ajuste do modelo aos
dados. Deve-se tambm buscar uma soluo para a obteno de intervalos de predio,
que o passo no qual efetivamente se obtm a predio do fator de simultaneidade para
novas edificaes.

66

Apndice A
Dados
ID

Potncia(MW)

FS Observado

ID

Potncia(kW)

FS Observado

4.210

0.064

22

1.202

0.112

1.499

0.092

23

1.666

0.125

3.268

0.031

24

2.379

0.076

3.268

0.079

25

3.453

0.086

1.955

0.099

26

2.962

0.116

3.167

0.062

27

4.896

0.029

2.135

0.114

28

3.546

0.063

2.690

0.068

29

0.812

0.222

1.387

0.070

30

2.837

0.067

10

1.304

0.069

31

5.949

0.016

11

2.130

0.041

32

1.148

0.124

12

0.635

0.249

33

3.124

0.147

13

3.066

0.089

34

8.786

0.018

14

2.593

0.047

35

0.918

0.088

15

0.591

0.148

36

2.682

0.066

16

0.823

0.276

37

3.206

0.066

17

4.989

0.060

38

2.947

0.059

18

1.957

0.123

39

4.495

0.047

19

3.081

0.062

40

3.975

0.058

20

3.524

0.070

41

4.863

0.061

21

0.169

0.464

42

4.078

0.069

67

Referncias Bibliogrficas
[1] ABNT - Associao Brasileira de Normas Tcnicas. (2002) NBR 14570 - Instalaes
Internas para Uso Alternativo dos Gases GN e GLP - Produto e Execuo. Rio de
Janeiro, ABNT.

[2] Anderson, T. W., Darling, D. A. (1954). A test of goodness of fit. Journal of the
American Statistical Association, 49, 765 - 769.

[3] Atkinson, A. C. (1985). Plots, Transformations and Regression: An introduction to


Graphical Methods of Diagnostic Regression Analysis. New York, Oxford University
Press.

[4] Breusch, T. S., Pagan, A.R. (1979). A simple test for heteroscedasticity and random
coefficient variation. Econometrica, 47, 1287 - 1294.

[5] Bussab, W. O., Morettin, P. A. (2002). Estatstica Bsica. 5a ed., So Paulo, Saraiva.

[6] Carvalho, H. C. (1995). Instalaes Prediais de Gs: Manual de Dimensionamento.


Rio de Janeiro, Fundao Biblioteca Nacional, 1995.

[7] Casella, G., Berger, R. L. (1996). Statistical Inference. California, Duxbury Press.

68

[8] Cleveland, W. S. (1979). Robust locally weighted regression and smoothing scatterplots. Journal of the American Statistical Association, 74, 829 - 836.

[9] Cleveland, W. S. (1981). LOWESS: A program for smoothing scatterplots by robust


locally weighted regression. The American Statistician, 35, 54.

[10] Comgs - Companhia de Gs de So Paulo. (1977). Normas Tcnicas para Utilizao


de Gs Combustvel nos Edifcios e Construes em Geral. So Paulo.

[11] Cook, R. D. (1977). Detection of influential observations in linear regressions.


Technometrics, 19, 15 - 18.

[12] Cook, R.D., Pea, D., Weisberg, S. (1988). The likelihood displacement: A unifying
principle for influence measures. Communications in Statistics, Theory and Methods,
17, 623 - 640.

[13] Cook, R.D., Weisberg, S. (1982). Residuals and Influence in Regressions. London,
Chapman and Hall.

[14] Cordeiro, G.M., Paula, G.A. (1992). Estimation, large-sample parametric tests
and diagnostics for non-exponential family nonlinear models. Communications in
Statistics, Simulation and Computation, 21, 149 - 172.

[15] Davison, A. C., Hinkley, D. V. (1997). Bootstrap Methods and their Applications.
New York, Cambridge University Press.

[16] Draper, N. R., Smith, H. (1981). Applied Regression Analysis. New York, Wiley.

69

[17] Efron, B. (1979). Bootstrap methods: another look at the jackknife. Annals of
Statistics, 7, 1-26.

[18] Espinheira, P. L., Ferrari, S. L. P., Cribari-Neto, F. (2008). On beta regression


residuals. Journal of Applied Statistical. A aparecer.

[19] Everitt, B., S. (1994). A Handbook os Statistical Analysis using S-Plus. Chaaman
and Hall, London.

[20] Ferrari, S. L. P., Cribari-Neto, F. (2004). Beta regression for modelling rates and
proportions. Journal of Applied Statistics, 31, 799 - 815.

[21] Hoaglin, D. C., Welsch, R. E. (1978). The hat matrix in regression and ANOVA.
The American Statistician, 32, 17-22.

[22] Ilha, M. S. O. (1996). Formulao de modelos para determinao da demanda


e consumo de gs combustvel em edifcios residenciais. So Paulo, 1996. Tese
(Doutorado) - Escola Politcnica, USP.

[23] IPT - Instituto de Pesquisas Tecnolgicas. (2005). Determinao do fator de


simultaneidade em edificaes residenciais multi-familiares. Relatrio Tcnico, So
Paulo, 2005.

[24] Kawabe, L., Ogassavara, G., Dias, R. P. (1989) Fator de simultaneidade. In:
Simpsio Brasileiro de Medio de Vazo, 1., So Paulo, 1989. Anais. So Paulo,
IPT, 117 - 123.

70

[25] Kieschnick, R., McCullough, B. D. (2003). Regression analysis of variates observed


on (0,1): percentages, poportions and fractions. Statistical Modelling, 3, 193 - 213.

[26] Mittlbck, M., Schemper, M. (1996). Explained variation for logistic regression.
Statistics in Medicine, 15, 1987 - 1997.

[27] Montgomery, D. C., Peck, E. A., Vining, G. G (2001). Introduction to Linear


Regression Analysis. New York, Wiley.

[28] Neter, J., Kutner, M. H., Nachtsheim, C. J., Wasserman, W. (1996). Applied Linear
Statistical Models. Chicago, Irwin.

[29] Nocedal, J., Wright, S. J. (1999). Numerical Optimization. New York, SpringerVerlag.

[30] Oliveira, M., S. (2004). Um Modelo de Regresso Beta: Teoria e Aplicaes. So


Paulo, 2004. Dissertao (Mestrado) - IME, Universidade de So Paulo.

[31] Ospina, P. L. E. (2007). Regresso Beta. So Paulo, 2007. Tese (Doutorado) - IME,
Universidade de So Paulo.

[32] Paula, G. A. (2003). Modelos de Regresso com Apoio Computacional. So Paulo,


IME/USP. Disponvel em http://www.ime.usp.br/giapaula.

[33] Pregibon, D. (1981). Logistic regression diagnostics. Annals of Statistics, 9, 705 - 724.

[34] Rao, C. R. (1973). Linear Statistical Inference and Its Applications. New York, Wiley.

71

[35] Smithson, M., Verkuilen, J. (2006). A better lemon-squeezer? Maximum likelihood


regression with beta-distribuited dependent variables. Psychological Methods, 11,
54-71.

[36] Wei, B. C., Hu, Y. Q., Fung, W. K. (1998). Generalized leverage and its applications.
Scandinavian Journal os Statistics, 25, 25 - 37.

72

Potrebbero piacerti anche