Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Tpicos
Distribuies do tipo Power law: caractesticas
estatsticas
Fitting
Dados para os projetos do curso
Expectativa: que ns tenhamos uns 4 ou 5 bons papers
p
para
submissao em conferencias internacionais Qualis
A, como resultado do projeto.
Datasets
AS graphs.
Web subgraphs: There are many such datasets available for download
download. One set is
maintained by Panayiotis Tsaparas; the experiments that used this data are described
in his Ph.D. thesis, and in other papers linked from his home page
P. Tsaparas, Link Analysis Ranking, Ph.D. Thesis, Department of Computer
Science, University of Toronto, 2004.
Semantic networks: Free association datasets for words have been collected by
cognitive scientists; these are constructed by compiling the free responses of test
subjects when presented with cue words. (For example, a test subject presented with
the cue word `ice' might react with the word `cold,' `cream,' or `water.')
University of South Florida Free Association Norms.
Porcentag
gem
Distribuio prxima
De simtrica em torno
Da mdia
Altura de homens
Distribuio Power-law
E
Escala
l linear
li
Populao de cidades
E
Escala
l log-log
l l
Moby Dick
bestsellers 1895-1965
California 1910-1992
Moon
Solar flares
wars (1816-1980)
US cities 2003
p ( x) = cx
ln(
l ( p ( x)) = c ln(
l ( x)
p ( x) = Cx
Constante
C
t t de
d
normalizao
(probabidades para
todos x devem
de em somar
1)
Estimativa de Expoentes
p
()
( )p
para Algumas
g
Distribuies
Influncia do Expoente
Qual o significado
do valor de na
distribuio dos
valores da populao?
Eixos Logaritmicos
Potncias de um nmero sero uniformemente
espaadas
10
20
30
100
200
20=1,
1 21=2,
2 22=4,
4 23=8,
8 24=16,
16 25=32,
32 26=64,.
64
f
frequncia
i
ln(# de vezes
x ocorreu)
ln(x) logaritmo
natural de x,
Pode-se usar qq
base,
log10(x) = ln(x)/ln(10)
ln(x)
X ppode representar
p
vrias qquantidades,, o indegree
g
de um nodo de uma rede,, a
densidade de sensores em vrias reas geogrficas, a frequncia de palavras num
texto, etc.
x 10
x 10
4.5
4.5
4
3.5
frequencyy
freque
ency
3.5
3
3
2.5
2
1.5
25
2.5
1
0.5
1.5
1000
2000
3000
4000
5000
6000
7000
8000
9000 10000
integer value
Intervalo integral
0.5
0
10
12
integer value
14
16
18
20
Os primeiros bins
Escala Log-log
Mesmo bins, mas plotados em uma escala log-log
6
10
10
frequenccy
10
10
10
10
10
0
10
10
10
integer value
10
10
Na verdade no se v todos
Valores 0 pois log(0) =
10
fitted
t
true
10
10
fre
equency
10
10
10
10
0
10
10
10
integer value
10
10
= 2.5
10
0
data
Tem poucos
Bins aqui
10
= 1.6 fit
10
10
10
10
10
0
10
10
10
10
10
= 2.5
25
10
data
= 2.41 fit
Pontos de
dados
espaados
igualmente
10
10
Menos ruido
na cauda da
distribuio
10
-2
10
-4
10
10
10
10
10
10
ocorrncia de x
cx
-1
c ( 1)
=
x
1
P ( X > x ) = k = x P ( k ) = k = x c k
Cx
( 1)
Fitting
g via regresso
g
para
p
probabilidade
p
acumulada
Expoente fitted (2.43) bem prximo do real (2.5)
6
10
data
-1 = 1.43 fit
10
10
10
10
10
10
0
10
10
10
10
10
Exemplo
Distribuio das citaes a artigos
p
power law est evidente somente na cauda ((xmin > 100
citaes)
xmin
Estimativa de Expoentes
p
()
( )p
para Algumas
g
Distribuies
n
xi
= 1 + n ln
l
i =1 xmin
xi so todos po
pontos
tos de dados, e voce
oce te
tem n po
pontos!
tos
Para o dataset exemplo = 2.503 bem prximo!
= 2.5
25
expoente
(in/out degree)
Redes de email
R d d
Redes
de contatos
t t sexuais
i
WWW
Internet
peer-to-peer
1.5/2.0
32
3.2
2.3/2.7
2.5
2.1
10
-5
ends up as an exponential
p(x)
10
-10
10
-15
10
10
10
10
10
y ~ r - , com
prximo de 1.
Expoentes e Mdias
Em geral, distribuies power law no tem valor mdio se < 2
(mas amostras tem!)
Isso
I
porque a mdia
di d
dada
d por (para
(
valores
l
iinteiros
t i
d
de k)
k (k ) = kk
kp
k = k min
k = k min
k = k min
1
k
1 1 1
1+ + + +K
2 3 4
Regra 80/20
A frao
W da riqueza
q
nas mos os P mais ricos da
processos.
Web e Internet.
Internet