Sei sulla pagina 1di 32

1 s

6 W

R il
s
o
el n
J

at o
s

r S
i

o q
u
e
d i
r

e a

Ex V
i

tr n
i
c
a i
u

o s
O
li
d v
e

e i
r
a
M d
e

e S
o
u
di z
a

d
as
e
A
n SUMRIO

is
SUMRIO...................................................................................1
1. Introduo.............................................................................................2
2. Ferramentas Utilizadas..............................................................................2

e
3. Parte I..................................................................................................2
4. Anlise Exploratria de Dados do Dataset Bellcore...........................................4
5. CDF (Funo de Distribuio de Probabilidade)...............................................8

d
6. CDF (Funo de Distribuio de Probabilidade) Complementar.........................10
7. Q-Q Plot.............................................................................................11
8. ACF(Funo de Autocorrelao)................................................................13

e
9. Skewness............................................................................................15
10. Curtose.............................................................................................15
11. Definio da Distribuio do Dataset Bellcore (bps)......................................15

D
12. Parte II.............................................................................................18
13. Anlise Exploratria de Dados do Dataset LAN...........................................19
14. Anexo I Lista de Comandos e Comentrios do Dataset BC-pOct89.................25
15. Anexo I Lista de Comandos e Comentrios do Dataset LAN.........................27

at
as
et
s

atr

nte
la

udo
bre
MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO
did
Pgina 1

liza
s
tase
BC-
ct8

ellco
e
N 1. Introduo
ellco
Este relatrio refere-se disciplina de Modelagem de Sistemas de Computao e
ra a Comunicao da UNIRIO, como sendo uma das etapas de avaliao, cujo assunto abordado
vida refere-se Extrao de Medidas e Anlise de Datasets.
act O objetivo o de analisar informaes para o devido entendimento do comportamento do
za trfego de dados ethernet do dataset BC-pOct89.TL, bem como a anlise do dataset LAN.txt.

ats A Parte I refere-se realizao de medidas e estudos sobre o dataset BC-pOct89 e a Parte
dos II estuda o dataset LAN.txt, ambos recuperados da base de dados da Bellcore Morristown
dos Research and Engineering Facility.
eta
s e 2. Ferramentas Utilizadas
alisa
s Abaixo, encontram-se as configuraes de ambiente que foram utilizadas para a gerao
m a das medidas de avaliao:
ram
2.1 Hardware
ta R.
Notebook Dell Vostro 14-5470; 8GB de memria RAM; SDD de 120GB e Processador
Intel Core i5-4210U de 4 gerao com 1.70 GHz.

2.2 Software

a. Sistema Operacional Linux Kubuntu 15.10 de 64bits; Kernel 4.2.0-36-generic;

b. R: A Language and Environment for Statistical Computing; Software R Studio


verso 0.99.902;

c. Microsoft Word 2016

3. Parte I

O trace Bellcore (BC-pOct89) consiste de um arquivo texto contendo duas colunas, onde
na primeira coluna tem-se o timestamp do envio de um pacote e na segunda o tamanho do
respectivo pacote em bytes, cujas medidas foram obtidas em 1989 a partir de uma interface
Ethernet da rede Bellcore (Bellcore Morristown Research and Engineering Facility).

A taxa agrupada em bps do pacote corresponde a 1760 observaes dos dados agrupados
por segundos, o que em bpm representa 30 minutos de observaes. Mais adiante sero

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 2
apresentados os resultados do mtodo summary do R para ilustrar estatsticas do trace de Bellcore
considerando as taxas em bps e bpm.

Antes do incio da plotagem grfica e da anlise das medidas estatsticas, foram


necessrios ajustes nos dados, tendo em vista que a primeira coluna do dataset BC-pOct89
encontrava-se no formato de timestamp, sendo, pois, imprescindvel a customizao do R para
que fosse possvel a utilizao de 7 casas decimais, convertendo-se a varivel timestamp para o
formato POSIXlt, passando como argumento o formato adequado.

Alm das alteraes acima, converteu-se a unidade de tamanho dos pacotes de bytes
para bits para a devida conformidade com o que fora solicitado na demanda do trabalho. Como as
medidas solicitadas esto relacionadas aos dados agrupados respectivamente em bits/s(a) e
bits/min a cada segundo(b), foi necessrio tambm agrupar os dados nessas unidades de tempo.

Nos dados em bits/min, foi necessrio ainda a diviso por 60, visto que a prescrio do
exerccio exige que a srie esteja em bits/min a cada segundo.

Para a realizao dos ajustes relatados, foram executados os seguintes comandos no R:

#Lendo o Arquivo
traceBC <- read.table(file = '/home/marcio/Documentos/trabalho_estatistica/belcore.TL',
header=TRUE)

#Habilitando 7 Casas Decimais


options(digits.secs = 7)

#Criando os Nomes das Colunas


names(traceBC)<- c("tempo","tamanho")

#Formatando o Tempo de Timestamp para POSIXlt


traceBC$tempo <- as.POSIXlt(traceBC$tempo, origin = "1989-10-05 11:00:00")

#Convertendo o Tamanho dos Pacotes de Bytes para Bits


traceBC$tamanho<- traceBC$tamanho*8

#Somando o Tamanho dos Pacotes (bits) a cada segundo, resultando na taxa em bps
taxabps1seg<- aggregate(list(tamanho= traceBC$tamanho), list(segundos =
cut(traceBC$tempo, "1 sec")), sum)

#Somando o tamanho dos pacotes (bits) a cada minuto, resultando na taxa em bpm
bits1min <- aggregate(list(tamanho=traceBC$tamanho), list(minutos =
cut(traceBC$tempo, "1 min")), sum)

#Divide a taxa em bits/min por 60 para conseguir a taxa em bps a cada minuto
taxabps1min <- data.frame(minutos = bits1min$minutos, tamanho=
bits1min$tamanho/60)

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 3
Aps a realizao dessas mudanas e, consequentemente, tendo sido ajustadas as
unidades, iniciou-se a fase de plotagem dos grficos para a coleta das mtricas.

4. Anlise Exploratria de Dados do Dataset Bellcore

A anlise exploratria de dados EDA (Exploratory Data Analysis) uma tcnica


estatstica para a investigao inicial de dados, cujo objetivo o de conhecer o dataset de
trabalho, ilustrando determinadas medidas estatsticas, bem como mostrando uma rpida
visualizao grfica das informaes as quais podero ser acompanhadas nos subitens a
seguir.

Abaixo, mostrada a Tabela 1 com a captura dos principais dados estatsticos da srie
temporal, quais sejam: a menor taxa, primeiro quartil, mediana, mdia, terceiro quartil e a
maior taxa em bps e bpm.

Tabela 1: Estatsticas Descritivas das Taxas (bps)

Min 1stQu. Median Mean 3rdQu. Max


bps 232500 2001000 2666000 2901000 3837000 7712000
bpm 1465000 2209000 2485000 2837000 3837000 4855000

4.1 Sries Temporais


Para que fosse possvel investigar o comportamento da srie e realizar a plotagem dos
histogramas, bem como verificar a funo de auto-correlao dos dados foi necessrio
antes transformar os dados por segundo(a) e dados por minuto(b) em sries temporais para
que o R trate adequadamente o dataset como um objeto da classe srie temporal. Esse tipo
de objeto criado atravs dos comandos:

#Transformando as Taxas Encontradas em Sries Temporais


taxabps1segts <- ts(taxabps1seg$tamanho, frequency = 1)
taxabps1mints <- ts(taxabps1min$tamanho, frequency = 1)
ts.plot(taxabps1segts, ylab='bits/s', main= Srie em Bits/s a cada segundo,xlab =
Tempo)
ts.plot(taxabps1mints,ylab='bits/min', main= Srie em Bits/s a cada minuto))

O que resultou no seguinte grfico de sries temporais, obtido com a penltima linha
de comando acima:

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 4
Figura 1

O que se observa na srie temporal da Figura uma grande variao na taxa (bits/s),
bem como uma queda na taxa prximo ao milsimo segundo, seguida por uma tendncia de
deslocamento no nvel da srie (subida na srie).

No caso da srie temporal, a cada minuto, obviamente, verifica-se o mesmo


comportamento da srie em segundos, porm com uma curva mais suavizada dada a
mudana de escala como pode ser visto na Figura , obtida pela ltima linha de comando
acima

FIGURA 2

Seguem tambm os dados da srie em minutos:


MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 5
Tabela 2 Estatsticas Descritivas das Taxas (bpm)
Valor Min 1 Quartil Mediana Mdia 3 Quartil Valor Max
1465000 2209000 2485000 2837000 3869000 4855000

Contudo, tais curvas no so suficientes para ajudar na identificao da distribuio de


probabilidade que poder ser usada para modelar as duas sries temporais (a) e (b).

Os resumos de cada srie foram obtidos atravs do comando summary() como pode
ser observado a seguir:

#Extrair as informaes das sries com o comando summary


summary(taxabps1segts)
summary(taxabps1mints)

Por meio dessas estatsticas iniciais procura-se obter um rpido resumo dos valores
mnimos, mximos, medianos e mdios das sries. Temos ainda o segundo e terceiros
quartis que deixam 25% e 75% dos valores abaixo daqueles indicados nas tabelas 1 e 2.
Com o fim de buscar a melhor caracterizao estatstica, recorremos visualizao grfica
dos dados.
4.2 Histogramas
Por meio do histograma possvel ter ideia da assimetria dos dados e, ainda, se h
algum modelo terico de probabilidade aderente com os dados levantados. Observando a
Figura 3, a taxa em bits/s indica assimetria esquerda, com uma cauda mais longa no
sentido positivo do eixo das abscissas.

Para que fosse possvel realizar a plotagem dos histogramas, foram executados os
seguintes comandos:

#Histogramas
hist(taxabps1segts, breaks = 100,prob=TRUE, main = "Histograma da Taxa do Trace
da Bellcore (bits/s)",xlab="bits/s",ylim=c(0,5e-07), col="lightblue")
lines(density(taxabps1segts),lwd=2,col="red")

hist(taxabps1mints, breaks = 30, prob=TRUE, main = "histograma da Taxa do Trace


da Bellcore", col="lightblue", xlab = Taxa bits/s)
lines(density(taxabps1mints),lwd=2,col="red")

O parmetro breaks indica o nmero de barras desejadas para o histograma. Para


minutos, ficou bem adequado, visto que para 30min de medies foram inseridos
breaks=30; o main permite a insero de um ttulo para cada um dos histogramas e
prob=true permite ajustar uma curva de densidade estimada aos dados pelo comando
lines( ) com os parmetros adequados.

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 6
FIGURA 3

Observam-se tambm valores isolados com taxas prximas 8Mb/s (8e+06),


chamando a ateno para possveis outliers, valores discrepantes da srie como um todo No
entanto, no h como confirmar esse dado, com base no histograma acima, j que com as
velocidades de Ethernet (10/100/1000), tais taxas podem ser tranquilamente obtidas.

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 7
FIGURA 4

O histograma da srie em minutos(b) na Error: Reference source not found


surpreendeu bastante, dado o grande espao no centro, assinalando a hiptese de um
histograma com comportamento bimodal com duas janelas de tempo distintas. Essa mudana
no comportamento da srie ficou mais evidenciada no histograma acima.
5. Q-Q Plot

Para a caracterizao estatstica uma ferramenta comumente empregada o grfico


que plota os quantis da normal padro no eixo dos x com os quantis convenientemente
transformados da varivel em estudo. Esse grfico, conhecido como QQ-plot dever
apresentar uma linha reta se a distribuio dos dados forem ajustadas ao modelo de
distribuio da normal.
As linhas, no RStudio, para gerao dos grficos Q-Q plot foram as seguintes:

# Q-Q plot com a reta normal


qqnorm(taxabps1segts)
MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 8
qqline(taxabps1segts)

Segue abaixo a realizao do Q-Q Plot (Quantil-Quantil) onde so comparados os


quantis entre a distribuio normal e as sries: a cada segundo(a) e a cada minuto(b).

FIGURA 5

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 9
FIGURA 6

Analisando o Q-Q Plot da normal na Error: Reference source not found podemos ter
bons indcios de que a srie no est aderente distribuio normal, visto que os dados se
comportam completamente distintos dos quantis da normal.

Ambos os Q-Q Plots apresentam bons indcios de que as sries no esto aderentes
distribuio normal. Pelos QQ-plot da normal posvel verificar que o dataset se afasta da
distribuio normal de probabilidade, principalmente nas caldas. Se esses dados seguissem
uma distribuio normal eles estariam perfeitamente alinhados com a linha dos quantis da
normal. Os QQ-plot tambm demonstram a presena de outliers nos dados.

6. CDF (Funo de Distribuio Cumulativa Emprica)

Aps anlise dos histogramas, seguiu-se para a verificao do comportamento das


Funes de Distribuio Acumuladas Emprica (CDF) de cada uma das sries por
segundo(a) e por minuto(b). Esse grficos podem indicar a presena de caldas pesadas
(heavy tail).

Os grficos das CDF`s foram obtidos partir das seguintes linhas no RStudio:
taxasec<-as.vector(taxabps1segts)
taxamin<-as.vector(taxabps1mints)

f<-ecdf(taxabps1segts)
plot(ecdf(taxabps1segts),main="CDF (1/bps)",xlab="bps")
MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 10
plot(sort(taxabps1segts),1-f(sort(taxabps1segts)),type="s",ylab="1-F(x)",main="CDF
Compl (bps)",xlab = "bps")

#Minutos
f<-ecdf(taxabps1mints)
plot(ecdf(taxabps1mints),main="CDF (bpm)",xlab="bpm")
plot(sort(taxabps1mints),1-f(sort(taxabps1mints)),type="s",ylab="1-F(x)",main="CDF
Compl (bpm)",xlab = "1/bps")

Uma observao importante que para plotar essas funes grficas, devemos
transformar os dados originais em objeto vetor para o adequado tratamento pelo R. Esse
procedimento foi feito nas primeiras linhas com o comando as.vector(). Tambm foi
necessrio usar um artifcio para obter a CDF complementar ordenando os valores
ordenados por 1-f que representa a complementao para os dados acumulados.

FIGURA 4

Na CDF da Figura , verifica-se, visualmente, que o valor da mediana est entre 2 e


3Mb/s e que apesar de ser de difcil percepo, novamente percebe-se indcios de cauda
longa, visto que os valores em torno de 8Mb/s quase tangenciam o valor 1.

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 11
FIGURA 5

J na CDF da Figura , possvel perceber o comportamento parecido com o


evidenciado no histograma da Error: Reference source not found, ou seja, dois
comportamentos distintos separados por um perodo no qual a probabilidade no muda,
pois no h valor nenhum nesse intervalo.

7. CDF (Funo de Distribuio de Probabilidade) Complementar


As CDFs complementares foram obtidas atravs das seguintes linhas no RStudio:

#Segundos
plot(sort(taxabps1segts),1-f(sort(taxabps1segts)),type="s",ylab="1-F(x)",main="CDF
Compl (bps)",xlab = "bps")

#Minutos
plot(sort(taxabps1mints),1-f(sort(taxabps1mints)),type="s",ylab="1-F(x)",main="CDF
Compl (bpm)",xlab = "1/bps")

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 12
FIGURA 6

A CDF complementar da Figura mostra uma evidncia de cauda longa na srie por
segundos(a), o que ajuda a concluir, somada com as anlises anteriores, que esta srie
possui de fato cauda longa. Isso fica bem claro observando a cauda esquerda que
demonstra probabilidades pequenas para eventos de magnitudes elevadas, como as taxas
acima de 6e+06.

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 13
FIGURA 7

Na CDF complementar da Figura , percebe-se que no h mudanas por um


determinado perodo na distribuio de probabilidades. Esse mesmo comportamento
distinto ao longo grfico acima j havia sido notado na Error: Reference source not found.

At o momento, no foi possvel identificar as caractersticas, de forma marcante, de


um modelo conhecido de distribuio de probabilidades para duas sries analisadas. Pode-
se contudo, entender, para o caso da srie temporal em segundos(a), que no h
caractersticas de uma distribuio normal. Observou-se tambm a possibilidade de cauda
longa (ou cauda pesada) nesta mesma anlise.

Quanto a srie em minutos(b), foi observado no histograma a aparncia de


distribuio bimodal, marcando a possibilidade de ser modelada por mais de uma
distribuio. Ou seja, uma distribuio para cada um dos dois grupos de dados. Entretanto
como a amostra pequena, apenas 30 observaes, no prudente inferir qualquer
distribuio para a pequena quantidade de dados.

Verificando ainda as CDFs complementar, de acordo com Leboudec [1], os dados


parecem ter caudas pesadas, pois existem altas probabilidades de valores muito grandes de
taxas.

8. ACF(Funo de Autocorrelao)

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 14
Os comandos do RStudio para as funes de aucorrelao foram os seguintes:

Os grdficos das ACF de cada uma das sries seguem abaixo:

acf(taxabps1segts, lag.max = 100)


acf(taxabps1segts, lag.max = 1000)

FIGURA 8

O correlograma da srie medida a cada segundo(a) mostra claramente uma


dependncia de longa durao, visto que h correlaes em lags muito distantes,
diminuindo de forma muito lenta ao longo do tempo na Figura .

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 15
FIGURA 9

A Figura mostra outra funo de autocorrelao da taxa em bps. Observa-se um


decaimento muito longo da taxa at o lag um pouco maior que 400. Essa uma evidncia
emprica de um processo de memria longa. Na figura 14 vemos analisar a srie por
minuto.

FIGURA 10

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 16
Quanto ao correlograma da srie a cada minuto, verifica-se que no h dependncia de
longa durao, pois j no 4o lag a correlao est na faixa azul correspondente ao rudo
branco. Tambm no h evidncia de cauda pesada na srie por minutos, dado o pequeno
tamanho da amostra da srie (apenas 30 observaes) qualquer concluso ou anlise mais
pormenorizada foi prejudicada, em vista de uma amostra muito pequena, o que
compromete as anlises estatsticas.

9. Skewness
O Skewness mostra a simetria dos dados da distribuio com relao a normal. Se
normal o Skewness igual ao de uma distribuio normal, todavia, verificou-se que ao
analisar os dados do dataset Belcore foi identificado um deslocamento de dados para a
esquerda (Skewness > 0) e uma cauda positiva longa (cauda para a direita) em ambas as
series (a) e (b) conforme a sada do R abaixo:

Assimetria (skewness) Curtose (kurtosis)

Bits/s 0,40146 2,70924

Bits/min 0,51684 1,91904

De fato, ao se calcular o skewness, obtem-se como resultado o valor de 0.40146,


comprovando a assimetria positiva ou assimetria direita da Figura .

Para se executar o comando skewness do Rstudio foi necessrio importar o pacote


moments.

#Comandos
require(moments)
skewness(taxabps1segts)
skewness(taxabps1mints)
10. Curtose
A Curtose permite verificar o grau de pico ou de achatamento de uma curva. Se o valor
for igual a 3, tem-se uma distribuio normalizada.

#Comandos
kurtosis(taxabps1segts)
kurtosis(taxabps1mints)

Ao executar os comandos para Curtose, observaram-se os seguintes valores:

A curtose acima apresentou o resultado igual a 2.709243, indicando excesso de curtose


em relao distribuio normal.

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 17
Como em ambos os casos os valores da Curtose foram menores de 3 ento ambas as
funes so mais achatadas que a normal e so chamadas platicrticas.

Conclui-se, portanto, que pelos resultados do skewness e da curtose, mostrado que


realmente a taxa em bpm foge do comportamento da distribuio normal e com essas
ltimas anlise h mais evidncias de que no se poder utilizar uma distribuio normal
para modelar as sries apresentadas.

11. Definio da Distribuio do Dataset Bellcore (bps)

Pelas constataes acima no foi possvel identificar uma distribuio terica que
melhor se adeque ao dados da taxa em bps. Dada a grande variabilidade das taxa, sobretudo
pela mudana de nvel da srie, sendo assim, possvel experimentar uma transformao
de Box-Cox [3] a fim de estabilizar a varincia dos dados ou ainda buscar uma distribuio
normal ou outra distribuio que seja adequada aos dados.

Em geral as transformaes de Box-Cox so da forma:

As transformaes mais comuns so: logartmica, inversa e raiz quadrada dos dados
originais.

Na Figura abaixo mostramos os resultados experimentados para a taxa em bits/min.


Observa-se que, mesmo modificando as escalas dos eixos, no houve mudanas no
comportamento da taxa em bits/min. Este resultado nos leva a concluso de que no
possvel ajustar uma distribuio de probabilidade entre aquelas comumente conhecidas
como as da famlia, exponencial, qui-quadrado e a normal.

#Comandos para os grficos das transformaes ena taxa em bits/min


par(mfrow=c(2,2))
hist(taxabps1mints, prob=TRUE,breaks = 30,col="lightblue",main="Taxa (bpm)")
lines(density(taxabps1mints),lwd=2,col="red")

hist(1/taxabps1mints, prob=TRUE,breaks = 30,col="lightblue",main="1/bpm")


lines(density(1/taxabps1mints),lwd=2,col="red")

hist(sqrt(taxabps1mints), prob=TRUE,breaks = 30,col="lightblue",main="Raiz da taxa


bpm")
lines(density(sqrt(taxabps1mints)),lwd=2,col="red")

hist(log(taxabps1mints), prob=TRUE,breaks = 30,col="lightblue",main="Log da


taxa")
lines(density(log(taxabps1mints)),lwd=2,col="red")
MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 18
FIGURA 11

Aps experimentar essas transformaes para a taxa em bits/s, apresentamos abaixo,


na Figura , os resultados grficos para a transformao inversa.

#Transformando a taxa bps

par(mfrow=c(2,2))

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 19
hist(1/taxabps1segts, breaks = 100,prob=TRUE,main= " Histograma do Inverso da
taxa",xlab="1/bps", col = "lightblue")
lines(density(1/taxabps1segts),lwd=2,col="red")
qqnorm(1/taxabps1segts,main="Normal Q-Q Plot")
qqline(1/taxabps1segts)

#CALCULANDO A DISTRIBUIO EXPONENCIAL


#Parmetro da Exponencial
parametro<-mean(1/taxabps1segts)
lambda=1/parametro

require(MASS)
dist<-fitdistr(1/taxasec, "exponential")

x <- rexp(10000, rate = lambda)


par(mfrow=c(2,1))
hist(1/taxabps1segts, breaks = 100,prob=TRUE,main= "Inverso da taxa",xlab="1/bps",
col = "lightblue")
lines(density(1/taxabps1segts),lwd=2,col="red")
hist(x, breaks = 100,prob=TRUE,main= "Exponencial",xlab="1/bps", col =
"lightblue")
lines(density(x),lwd=2,col="red")

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 20
FIGURA 12

Mais uma vez possvel ver que o dataset padro foge da distribuio normal. Essa
concluso indicada tanto pelo histograma que se afasta do formato de sino como pelo
QQ-plot da normal que mostra que os dados no se alinharam com os quantis da normal.

Pela CDF complementar, fica evidenciado que eventos muito raros acontecem com
uma frequncia significativa, uma vez que h um decaimento lento na frequncia dos dados
na cauda da distribuio. Veja que o histograma tambm indica uma cauda pesada, pois
eventos com o inverso da taxa acima de 2e - 06 tem probabilidade no nula.

A ltima etapa do exerccio para o dataset padro consiste em verifica qual melhor
distribuio se adequa srie. Por meio dos histogramas abaixo, percebe-se que uma
distribuio exponencial para a taxa em bps poderia ser adequada.

Ao utilizar o pacote MASS do R, simulou-se uma distribuio exponencial com


parmetro correspondente ao inverso da mdia dos dados transformados. Esse parmetro

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 21
equivale ao estimador de mxima verossimilhana para a distribuio exponencial. O
resultado obtido ilustrado no grfico a seguir da Figura .

#Transformando a taxa bps

par(mfrow=c(2,2))
hist(1/taxabps1segts, breaks = 100,prob=TRUE,main= " Histograma do
Inverso da taxa",xlab="1/bps", col = "lightblue")
lines(density(1/taxabps1segts),lwd=2,col="red")
qqnorm(1/taxabps1segts,main="Normal Q-Q Plot")
qqline(1/taxabps1segts)

#CALCULANDO A DISTRIBUIO EXPONENCIAL


#Parmetro da Exponencial
parametro<-mean(1/taxabps1segts)
lambda=1/parametro

require(MASS)
dist<-fitdistr(1/taxasec, "exponential")

x <- rexp(10000, rate = lambda)


par(mfrow=c(2,1))
hist(1/taxabps1segts, breaks = 100,prob=TRUE,main= "Inverso da
taxa",xlab="1/bps", col = "lightblue")
lines(density(1/taxabps1segts),lwd=2,col="red")
hist(x, breaks = 100,prob=TRUE,main= "Exponencial",xlab="1/bps", col
= "lightblue")
lines(density(x),lwd=2,col="red")

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 22
FIGURA 13

Exceto por uma varincia um pouco maior na amostra da distribuio exponencial,


possvel notar visualmente que as distribuies se mostram bem semelhantes, concluindo,
assim que a melhor distribuio para o inverso das taxas do dataset padro uma
distribuio exponencial com = 2244050. No era de se esperar que os histogramas
fossem exatamente iguais tendo em vista que os dados amostrados so obtidos por
simulao.

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 23
12. Parte II

O arquivo LAN.txt trata da observao de pacotes de dados (em bits), observados em


4000 intervalos consecutivos de 10ms numa Ethernet. Tais dados foram coletados nas
instalaes do Bellcore Morristown Research Engeneering.

Este dataset foi o segundo dataset a ser escolhido para o trabalho de MSCC, o qual se
encontra disponvel no arquivo que est disponibilizado na seguinte URL: O arquivo
LAN.txt trata da observao de pacotes de dados (em bits), observados em 4000 intervalos
consecutivos de 10ms numa Ethernet. Tais dados foram coletados nas instalaes do
Bellcore Morristown Research Engeneering.

Este dataset foi o segundo dataset a ser escolhido para o trabalho de MSCC, o qual se
encontra disponvel no arquivo que est disponibilizado na seguinte URL: .

13. Anlise Exploratria de Dados do Dataset LAN


Para se obter as estatsticas descritivas da srie mostrada, o mtodo summary do R foi
utilizado sobre o contedo do arquivo LAN.txt, sobre o qual pde ser observado um
mnimo de 0 bits de dados e um mximo registrado de 12380 bits.

O valor mdio do envio de pacotes nos intervalos considerados ficou em torno de 980
bits e a mediana resultou em 336 bits, indicando que 50% dos tamanhos recepcionados est
abaixo desse valor. Essas informaes esto constadas na Tabela .

Tabela 3
Min 1stQu. Median Mean 3rdQu. Max
0 114 336 980 618,5 12380

O grfico da Figura mostra a srie para 4000 observaes em intervalos de 10 ms,


sendo possvel identificar que h alta frequncia de 0 bits na chegada dos pacotes.

www="http://staff.elena.aut.ac.nz/Paul-Cowpertwait/ts/LAN.txt"
lan <- read.table(www, head=T)
attach(lan)
bit<-lan$bits
#mtodo summary
summary(bit)

#Grafico da srie Primeiro transforma em srie temporal


bitserie<-as.ts(bit,frequency=1)
ts.plot(bitserie,ylab="bits")

#Calculando skewness e curtose

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 24
Require(moments)
skewness(bit)
kurtosis(bit)

O skewness e a curtose medidos so de 2,8884 e 11,27845 respectivamente,


mostrando, ento, que a srie se afasta muito de uma distribuio normal.

FIGURA 14

No histograma da Figura , possvel identificar tambm uma alta taxa de incidncia de


intervalos sem a chegada de pacotes.
#histograma
hist(bit, prob=TRUE,col="lightblue",main="LAN",ylim=c(0,1.4e-03),breaks=20)
lines(density(bit),lwd=2,col="red")
MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 25
FIGURA 15

A funo de autocorrelao da Figura evidencia a caracterstica de longa durao da


srie devido ao decaimento lento no correlograma (processo de memria longa) em que
somente prximo ao lag 400 surge o comportamento de rudo branco.

#Fac
acf(bit, main ="Correlograma", lag.max = 500)

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 26
FIGURA 16

Uma anlise alternativa a utilizao de uma transformao de Box-Cox na srie


original. Para evitar o problema de zeros presentes nos dados, experimentou-se um
agrupamento de 20 ms da transformao log(1 + Zt) aplicada srie.

Analisando a Figura , verifica-se, por meio da transformao mencionada, que h uma


frequncia alta de intervalos que no receberam pacote de dados. Isso fica bem claro ao
observar o QQ-plot, que mostra muitos valores concentrados em 0, ocorrendo o mesmo
fenmeno ao analisar o histograma. O grfico da funo de autocorrelao mostra uma
caracterstica de memria longa.

#Transforma??o de box-cox: logaritmo


lan2 <- read.table(file="lan2.txt", head=F)
names(lan2)<-c("bits2")
lan20<-ts(bits2,frequency = 1)
length(lan20)
#Box-cox
logbit20 <- log(1+lan20)

par(mfrow=c(2,2))
plot(logbit20,main="Srie Logbit")
hist(logbit20, prob=TRUE,breaks = 30,col="lightblue",main="Taxa
transformada 20 ms")

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 27
lines(density(logbit20),lwd=2,col="red")
qqnorm(logbit20)
qqline(logbit20)
acf(logbit20)

FIGURA 17

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 28
A transformao logartmica dos dados em 40ms apresentou os resultados da Figura .
lan3 <- read.table(file="lan3.txt", head=F)
head(lan3)
names(lan3)<-c("bit40")

lan40<-ts(bit40,frequency = 1)
logbit40 <- log(1+lan40)
head(logbit40)

par(mfrow=c(2,2))
plot(logbit40,main="Srie Logbit")
hist(logbit40, prob=TRUE,breaks = 30,col="lightblue",main="Taxa
transformada 40 ms")
lines(density(logbit40),lwd=2,col="red")
qqnorm(logbit40)
qqline(logbit40)
acf(logbit40, lag.max = 100)

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 29
FIGURA 18

Apesar das investigaes acima no foi possvel verificar um modelo probabilstico para os dados do
segundo dataset. Apenas com as ferramentas grficas no foi possvel afirmar que os dados so
aderentes com alguma distribuio terica.

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 30
[1] LE BOUDEC, J-Y. - Performance Evaluation of Computer and
Communication Systems - "free book" - disponvel em:
http://perfeval.epfl.ch/, 2010.

[3] Anlise de Sries Temporais. Pedro A. Morettin, Clelia M.C. Toloi. 2da.
Edio, Editora Blucher, 2006

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 31