Sei sulla pagina 1di 12

1 Estatstica e Probabilidades

Inferncia Estatstica consiste na generalizao das informaes a respeito de uma


amostra, para a sua populao.
A Probabilidade considera modelos para estimar informaes sobre instncias.
um processo de deduo lgica.
A Estatstica considera informaes sobre instncias pra gerar um modelo para toda
a populao. um processo de raciocnio indutivo.
1.1 Exemplo da diferena da mdia da populao para a mdia
amostral.
Considere um dado de seis lados. Qual a mdia esperada para jogadas desse dado?
1 + 2 + 3 + 4 + 5 + 6
6
=
21
6
= 3, 5
Suponha que joguei o dado 5 vezes e obtive: 2, 3, 3, 6, 1. O que plenamente
possvel.
A mdia amostral dada por
2 + 3 + 3 + 6 + 1
5
= 3, 0
Assim, = 3, 5 e x = 3, 0
2 Probabilidade
Probabilidade caracteriza um fenmeno aleatrio e um modelo para a freqncia que
ocorre um evento quando se tende a um nmero innito de experimentos, jogadas,
amostras.
Seja A um evento, ento:
1. P(A) 0
2. Se A B = , ento P(A B) = P(A) +P(B).
3. Seja S o espao amostral, ento P(S) = 1.
Outras propriedades:
P() = 0.


A complemento de A, ento P(A) = 1 P(

A).
E claro que P(A B) = P(A) +P(B) P(A B).
Quando A B = dizemos que os eventos A e B so mutuamente exclusivos.
1
2.1 Probabilidade e varivel aleatria
Denimos a distribuio de probabilidades ou funo de densidade de probabilidade
(pdf - probability density function) sobre pontos da reta de Borel.
No caso de variveis discretas, o valor da funo de densidade de probabilidade
corresponde freqncia relativa de que o resultado de um experimento seja igual ao
argumento da funo.
P(X = 5) = f(5)
No caso de variveis contnuas, o valor da densidade de probabilidade tal que a
integral da funo sobre um intervalo corresponda freqncia relativa do resultado de
um experimento caia dentro do intervalo.
P(a X b) =
_
b
a
f(x)dx
2.2 Varivel Aleatria de Bernoulli
Varivel aleatria de Bernoulli apresenta como possveis valores 0 ou 1. Isto , o espao
amostral binrio = {0, 1}.
Distribuio de Bernoulli
Bern(x; ) =
_
_
_
1 se x = 0
se x = 1
0 caso contrrio
Em geral utilizamos p = e q = 1 .
Exemplo: Quantos compradores levam monitores de CRT?
P(1) = 0, 2
P(0) = 0, 8
(soma deve ser 1)
P(x) = Bern(x; 0, 2)
uma parmetro, isto , uma quantidade que dene a distribuio dentre uma
famlia de distribuies.
Exemplo: (Devore) Quantos nascimentos at nascer um menino?
P(B) = p
P(G) = 1 p
p(1) = P(B) = p
p(2) = P(G) P(B) = (1 p)p
p(3) = P(G)P(G)P(B) = (1 p)
2
p
p(x) =
_
(1 p)
x1
p x = 1, 2, 3, . . .
0 caso contrrio
2
3 Funo de densidade acumulada
A funo de densidade acumulada (cdf - cumulative density function) denida para
variveis discretas como
F(x) = P(X x) =

y:yx
p(y)
No caso contnuo, a denio a seguinte:
F(x) = P(X x) =
_
x

p(y)dy
Assim, a probabilidade de um intervalo pode ser obtida por:
P(a < X < b) = F(b) F(a)
Os casos contnuos e discretos podem ser unicados utilizando ou funes impulso
de Dirac ou denio da integral de Lebesgue sobre espaos mensurveis (incluindo
-lgebras).
Propriedades
F() = 0
F(+) = 1
A cdf sempre crescente.
A cdf diferencivel direita
3.1 Amostras aleatrias sintticas
Para ns de simulao, se possumos um gerador de nmeros pseudo-aleatrios entre 0
e 1 (exclusive) e com distribuio uniforme, podemos utilizar a cdf para obter nmeros
aleatrios sorteados de acordo com uma determinada distribuio de probabilidades.
Se F a cdf da distribuio de que queremos obter amostras, ento a probabilidade
de obtermos um valor no intervalo (a, b) F(b) F(a). Como F varia de 0 a 1, assim
como o nosso gerador de nmeros aleatrios, e crescente, ento se obtivermos um
valor sorteado uniformemente entre F(a) e F(b) podemos considerar como um valor
no intervalo (a, b) sorteado de acordo com a distribuio almejada.
Assim, basta sortear uniformemente um valor x entre 0 e 1 e aplicar a inversa da
cdf y = F
1
(x).
Mostrar que a varivel aleatria y tem cdf F se x for varivel aleatria uniforme.
3.2 Mediana e quantis dada a densidade acumulada
A mediana de uma distribuio corresponde ao valor que separa 50% da probabilidade,
assim:
x = F
1
(50%)
Da mesma forma qualquer quantil (quartis ou percentis) podem ser obtidos.
3
3.3 Obtendo a pdf a partir da cdf
Lembrar que
f(x) = F

(x)
4 Esperana
Esperana o valor mdio esperado de uma varivel aleatria.
E(x) =

xD
x p(x)
No caso contnuo,
E(x) =
_
+

x p(x)dx
Exemplo (Devore)
Crianas so distribudas na escala Apgar de 0 a 10.
Apgar 0 1 2 3 4 5 6 7 8 9 10
% 0,002 0,001 0,002 0,005 0,02 0,04 0,18 0,37 0,25 0,12 0,01
E(x) = = 0 0, 002 + 1 0, 001 +. . . + 10 0, 01 = 7, 15
Exemplo (Devore)
X o nmero de entrevistas pelas quais um estudante passa antes de conseguir um
emprego.
p(x) =
_
k
x
2
x = 1, 2, 3, . . .
0 caso contrrio
k tal que

x=1
k
x
2
= 1 e no precisa ser calculado (basta ver que nito).
E(x) =
1 k
1
+. . . +
x k
x
2
+. . . =

x=1
k
x

Trata-se do somatrio da srie harmnica que no converge. Dessa forma, a mdia
no uma boa medida para caracterizar esse tipo de distribuio.
4.1 Esperana de uma funo
E[f(x)] =
_
xD
f(x)p(x)dx
Propriedade de operador linear:
E[aX +b] = aE[X] +b
4
4.2 Varincia da distribuio
Seja o valor mdio esperado dado por
= E(x)
A varincia o valor esperado para o quadrado dos desvios
V ar(x) = E[(x )
2
]
Outras frmulas que podem ser utilizadas para obter a varincia:
V ar(x) =
_
xD
(x )
2
p(x)dx = E[x
2
] E[x]
2
4.3 Momentos estatsticos
Alm da mdia e varincia, possvel denir descritores de ordem mais alta da dis-
tribuio. O momento de ordem n denido como a esperana de x
n
.
m
0
= E(x
0
) = E(1) =
_
p(x)dx = 1
m
1
= E(x) =
m
2
= E(x
2
)
m
3
= E(x
3
)
A partir dos momentos de ordem 2, podem-se utilizar momentos baseados nos
desvios em relao mdia. Esses so momentos centrais.

2
= E[(x )
2
] =
2

3
= E[(x )
3
]
Duas medidas importantes para caracterizar uma distribuio no-normal so os co-
ecientes de skewness e de kurtosis. No caso do skewness, coeciente prximo de zero
signica simetria, caso contrrio, uma tendncia esquerda para nmeros negativos e,
direita para nmeros positivos.
skewness =

3

3
2
2
A kurtosis mede a concentrao prxima a mdia (ou pico). No caso da normali-
dade, o valor 3. Menos que 3, a distribuio mais achatada chamada platykurtic.
Maior que 3, o pico mais acentuado e a distribuio chamada leptokurtic.
kurtosis =

4

2
2
ou
kurtosis =

4

2
2
3
5
4.4 Desigualdades interessantes sobre momentos
Desigualdade de Chebyshev se aplica a qualquer distribuio.
P(|X | a)

2
a
2
Uma interpretao pode ser obtida para a = k
P(|X | )
1
k
2
A probabilidade do valor de X cair numa distncia maior ou igual a k desvios-padro
da mdia de no mximo
1
k
2
. Isso para qualquer tipo de distribuio. Para 3 sigmas,
a probabilidade menor ou igual a 1/9. Para 6 sigmas, a probabilidade no mximo
1/36 ou 2,7%.
Desigualdade de Markov se aplica a variveis no-negativas.
P(X a)

a
Em ambos os casos, a > 0.
4.5 Entropia
A entropia uma medida da aleatoriedade de uma distribuio, denida como
H(X) = E
_
ln
1
P(X)
_
=
_
xD
p(x) lnp(x)dx
Se o logaritmo for na base 2, a unidade de medida o bit. (Para ln, diz-se que o
nit).
Vericar que lim
x0
xlnx = 0.
Considere uma varivel aleatria de Bernoulli com probabilidade p de sucesso.
Pela denio de entropia (vamos utilizar log na base 2),
H(p) = p lg p (1 p) lg(1 p)
Pelos limites, temos que
H(0) = H(1) = 0
Interpretao: total determinismo se 100% de chance de ser 1 ou de ser 0.
Exemplo (Mitzenmacher e Upfal): Entropia de duas moedas viciadas, uma com 3/4
de probabilidade de ser coroa e outra com 7/8.
H(
3
4
) =
3
4
lg
3
4

1
4
lg
1
4
0, 8113
H(
7
8
) =
7
8
lg
7
8

1
8
lg
1
8
0, 5436
A primeira moeda aquela que apresenta distribuio com maior entropia. Logo,
menos se pode dizer sobre o resultado obtido antes de observ-lo.
6
Agora, queremos determinar p para que a entropia seja mxima.
H(p)
p
= lg p + lg (1 p) = lg
1 p
p
Assim, lg p = lg (1 p) que acontece quando p vale 1/2 e H(1/2) = 1 bit.
O lanamento de uma moeda no-viciada tem a aleatoriedade de um bit.
Suponha uma roleta de 8 posies de probabilidade uniforme. Calcular a entropia:
H = 8
_

1
8
lg
1
8
_
= 3
So necessrios 3 bits para codicar o resultado da roleta.
4.6 Distribuio de mxima entropia
Encontrar a distribuio de mxima entropia consiste em determinar a pdf p(x) que
maximiza H sob as restries que regram as pdfs. Assim, procura-se maximizar
H =
_
D
p(x) lnp(x)dx
sujeito
_
D
p(x)dx = 1
Vamos procurar a pdf de mxima entropia, dado que conhecemos a mdia e a
varincia
2
. As restries so:
=
_
+

xp(x)dx,
2
=
_
+

(x )
2
p(x)dx
Formulando com multiplicadores de Lagrange, o novo funcional a minimizar
F =

_
+

p(x) lnp(x)dx+

1
_
_
+

p(x)dx 1
_
+

2
_
_
+

xp(x)dx
_
+

3
_
_
+

(x )
2
p(x)dx
2
_
Derivando em funo de p e igualando a zero, obtemos que
p(x) = e
1+1+2x+3(x)
2
Substituindo p(x) nas restries, determinamos os multiplicadores .
p(x) =
1

2
2
e

(x)
2
2
2
7
5 A Distribuio Gaussiana (ou Normal)
Para mdia e varincia
2
, a distribuio normal denida pela expresso:
N(x; ,
2
) =
1

2
2
e

(x)
2
2
2
5.1 A Distribuio normal padro
Para mdia zero e varincia unitria (e desvio-padro), denimos a distribuio normal
padro:
p(z) = N(z; 0, 1) =
1

2
exp
z
2
2
A funo cumulativa de densidade da normal padro baseada na funo de erro:
(z) =
_
z

N(y; 0, 1)dy
Qualquer distribuio normal pode ser padronizada utilizando a transformao lin-
ear:
Z =
X

5.2 Propriedade dos desvio-padro da distribuio normal


A probabilidade de uma amostra ser obtida dentro de 1 desvio-padro da mdia dada
por
(1) (1)
Vamos tabelar para alguns desvios-padro de distncia
k dentro de k fora Chebyshev 1/k
2
1 0,6826 0,3173 1
2 0,9545 0,0455 0,25
3 0,9973 0,0027 0,1111
6 0,9999 0,2e-8 0,0278
6 A Distribuio Binomial
6.1 Bernoulli trials
Experimentos de Bernoulli (jogadas, rodadas, tentativas)
n experimentos chamados tentativas;
resultado de cada experimento sucesso S ou falha F;
tentativas so independentes;
probabilidade de sucesso (p) constante de uma tentativa para outra.
8
Repetimos um experimento binomial de Bernoulli n vezes.
Quantas vezes foi obtido "sucesso", isto , resposta 1?
Resultados possveis e igualmente provveis de 3 tentativas:
SSS SSF SFS SFF FSS FSF FFS FFF
Agrupar por nmero de sucessos
3 SSS
2 SSF SFS FSS
1 SFF FSF FFS
0 FFF
A distribuio binomial denida por
P(x) = Bin(x; n, p) =
_
_
_
_
n
x
_
p
x
(1 p)
nx
, x = 0, 1, 2, . . . , n
0, caso contrrio
Lembrando nmeros binomiais:
_
n
x
_
=
n!
(n x)!x!
A esperana e a varincia de uma distribuio binomial so dadas por:
E(x) = n p
V ar(x) = np(1 p)
A distribuio binomial pode aproximar uma normal com mdia np e varincia
np(1 p).
7 Distribuio uniforme
Na distribuio uniforme discreta, cada elemento do espao amostral igualmente
provvel.
No caso contnuo, a probabilidade proporcional ao tamanho do intervalo (desde
que dentro do intervalo em que a distribuio denida). Para um intervalo [A, B]
utilizamos a denio:
f(x; A, B) =
_
1
BA
, A x B
0, caso contrrio
8 Caso multivariado
Denimos a funo de densidade de probabilidade conjunta no caso de mais de uma
varivel:
p(x, y) = P(X = x Y = y)
9
Caso discreto:
P[(X, Y ) A] =

A
p(x, y)
Caso contnuo:
P[(X, Y ) A] =
_ _
A
p(x, y)dxdy
Probabilidade de ocorrer uma instncia dentro de um (hiper-)retngulo
P(a
1
X
1
b
1
, . . . , a
l
X
l
b
l
) =
_
b1
a1
. . .
_
b
l
a
l
p(x
1
, . . . , x
l
)dx
1
. . . dx
l
8.1 Probabilidade marginal
Corresponde soma de todas probabilidades conjuntas para um dado eixo
p
x
(x) =

y
p(x, y)
p
y
(y) =

x
p(x, y)
As funes p
x
e p
y
so funes de densidade de probabilidade marginal.
9 Independncia estatstica
Duas variveis aleatrias so independentes se e s se
p(x, y) = p
x
(x) p
y
(y), (x, y)
10 Distribuio multinomial
No caso binomial, denimos uma distribuio para o nmero de elementos obtidos para
uma classe dentre duas. No caso multinomial, para M classes, temos a quantidade x
i
correspondente ao nmero de elementos obtidos na classe i de um total de n elementos.
Primeiro notar que
M

i=1
x
i
= n
E que cada x
i
> 0.
Aps analisar n objetos (com reposio), a probabilidade de se obter x
1
amostras
na classe C
1
, x
2
na classe C
2
... e x
M
na classe C
M
dada por
p(x
1
, x
2
, . . . , x
M
) =
_
n!
x1!x2!...x
M
!
p
1
x1
p
2
x2
. . . p
M
x
M
, x
i
= 0 . . . n
0, caso contrrio
onde p
i
a probabilidade do resultado de uma amostra estar na classe C
i
.
10
11 Covarincia e Correlao
Valor esperado no caso conjunto:
E[h(x, y)] =
_ _

h(x, y)p(x, y)dxdy


Covarincia
Cov(x, y) = E[(x
x
) (y
y
)]
Cov(x, y) =
_ _

(x
x
)(y
y
)p(x, y)dxdy
Cov(x, y) = E[x y]
x

y
Coeciente de correlao
Corr(x, y) =
x,y
=
Cov(x, y)

x

y
Propriedade
Corr(aX +b, cY +d) = Corr(X, Y )
Se X e Y so independentes, = 0.
12 Matriz de covarincia
Seja
x
y = Cov(x, y).
Notar que
x
y =
y
x e que
x
x = Cov(x, x) = E[(x
x
)
2
] =
2
x
A matriz de covarincia denida como
=
_
_
_
_
_

2
1

12
. . .
1n

12

2
2
. . .
2n
.
.
.
.
.
.
.
.
.
.
.
.

1n

2n
. . .
2
n
_
_
_
_
_
Para um vetor coluna de variveis aleatrias x com vetor mdia
= E
x
[(x )(x )
T
]
13 Gaussianas multivariadas
p(x) =
1
(2)
2
2

1
2
exp
_

1
2
(x )
T

1
(x )
_
11
14 Amostragem
X
1
. . . X
n
formam uma amostra aleatria de tamanho n se
1. X
i
so todos independentes entre si;
2. Todo X
i
possui a mesma distribuio de probabilidades.
A amostra chamada i.i.d. ou independentes e identicamente distribudos.
14.1 Distribuio da mdia amostral
X
1
. . . X
n
elementos amostrados de uma distribuio qualquer com mdia e desvio-
padro . Para a mdia

X da amostra, temos que
E(

X) =
V ar(

X) =

2
n
14.2 Teorema do Limite Central
X
1
. . . X
n
elementos amostrados de uma distribuio qualquer com mdia e desvio-
padro .
Se n sucientemente grande,

X tem aproximadamente uma distribuio normal
com
X
= e
2

X
=

2
n
.
Quanto maior n, melhor a aproximao.
Conseqncia: a Gaussiana boa (em mdia) para aproximar rudo.
12

Potrebbero piacerti anche