Sei sulla pagina 1di 12

Universidade Federal de Pernambuco

CCEN - Departamento de Fsica


Fsica Experimental L1
Instrumentacao para o ensino 1
2o semestre de 2014

Apostila 3 - Distribuicoes estatsticas

Sumario
1 Um perfil para a aleatoriedade 1

2 Histogramas 3
2.1 Confeccao de histogramas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2 Leitura de histogramas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

3 Distribuicao Normal 7
3.1 Teorema central do limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

4 Funcao Gaussiana 7

5 Dicas para confeccao de graficos e histogramas 9

6 Observacoes finais 11
Fsica experimental L1
Intrumentacao para o ensino 1 Apostila 3 - Distribuicoes estatsticas

1 Um perfil para a aleatoriedade


Ate agora estamos trabalhando com medidas experimentais cujo valor numerico flutua em
torno de uma media com uma certa dispersao (ou desvio padrao) que pode ser mensurada.
No entanto, podemos realmente dizer que estes erros tem origem aleatoria? Quer dizer, o que
acontece com algo que e aleatorio?
Tome uma moeda e a jogue numa superfcie qualquer. Que lado esta para cima: cara ou
coroa? Certo. Se voce lancar esta moeda novamente, dara cara ou coroa? Quais as chances de
dar cara? e de dar coroa? Bem, vemos que naturalmente abordamos a ideia de probabilidade
quando lidamos com algo aleatorio. A cada jogada, esperamos que o resultado nao dependa do
resultado anterior. Isto significa que, se a moeda nao estiver viciada, esperamos que as chances
de dar cara e de dar coroa sejam iguais, logo 50% cada.
Bem, isto e verdade. Podemos inclusive fazer o experimento. Jogando 50 vezes a moeda na
mesa, obteve-se 22 lances com cara (que damos o valor -1) e 28 lances com coroa (que damos
o valor +1). Assim, 44% dos experimentos deram cara e 56% deram coroa. Esta correto isto?
Tente fazer o experimento, foi igual o numero de vezes que deu cara e que deu coroa? Uma
maneira de representar o resultado e atraves de um grafico, chamado histograma, mostrado na
figura 1 da esquerda. Numa segunda serie de jogadas, foi construdo o histograma da direita.

Figura 1: Histogramas para lances de moeda.

Se nos basearmos no histograma da direita, e mais provavel dar cara do que coroa, mas
se nos basearmos no histograma da esquerda, e mais facil dar coroa. Bem, esta e a ideia da
estatstica, as probabilidades sao sim 50-50, mas so poderemos visualizar isto quando o numero
de eventos e muito grande. Em cada histograma temos 50 eventos. Note que se somarmos,
como se tudo fosse apenas um experimento, teramos 100 eventos onde 49% deu cara e 51%
deu coroa, valores bem mais proximos dos valores teoricos.
A moral da historia aqui e que apenas conseguiremos visualizar o resultado quando o numero
de medicoes for grande. Se a moeda mostrar um comportamento do tipo 50-50, entao ela foi

1
Fsica experimental L1
Intrumentacao para o ensino 1 Apostila 3 - Distribuicoes estatsticas

lancada independentemente e nao esta viciada. Caso alguma diferenca persista, depois de
muitos eventos a tendencia podera ser reconhecida.
Agora podemos colocar outro problema na mesa: as grandezas fsicas nao possuem apenas
dois valores, cara ou coroa; elas possuem valores contnuos e dificilmente repetem com a mesma
frequencia um dado valor como no caso discreto. Como reconhecer a aleatoriedade quando a
variavel e contnua? Bem, antes de responder a esta pergunta, vamos primeiro continuar com
variaveis discretas e vamos faze-las simular o que aconteceria se fossem contnuas.
Suponha que agora voce lance duas moedas na
mesa, quais os eventos possveis? (i) cara e cara, (ii)
cara e coroa e (iii) coroa e coroa, certo? Depois de
muitas medidas, qual a probabilidade de cada evento
desse? Existe apenas uma maneira de dar cara e cara
e coroa e coroa, mas existem duas maneiras de dar co-
roa e cara, alternando as moedas, da a probabilidade
do evento ii e maior. O histograma seria como mos-
trado na figura ao lado. Note que estamos usando a mesma convencao anterior: cara (+1) e
coroa (-1) da a soma da zero. Eventos entre -2 e zero e cara e cara, eventos entre zero e 2
e cara e coroa e eventos entre 2 e 4 e coroa e coroa (note que no histograma cada caixa
conta o limite da esquerda, mas nao o da direita).
Bem, como isto nos ajudou? Criamos um novo evento: o evento cara e coroa, que nao existia
antes. Como queremos analisar a estatstica de grandezas contnuas, queremos o maximo
numero de eventos possvel (teoricamente, infinitos). Isto pode ser alcancado aumentado o
numero de moedas lancadas na mesa. Para cinco moedas, por exemplo, o numero de eventos
diferentes e 6, veja na proxima figura, onde tambem inclumos um histograma para o lancamento
de 20 moedas (21 eventos).

Figura 2: Histogramas para lances de 5 moedas (esquerda) e 20 moedas (direita).

2
Fsica experimental L1
Intrumentacao para o ensino 1 Apostila 3 - Distribuicoes estatsticas

O histograma escrito com probabilidades, isto e, dividindo a frequencia absoluta pelo numero
total de eventos, e conhecido como distribuicao de propabilidades. No caso dos exemplos com
n moedas, tem-se a distribuicao binomial, por que a frequencia obdece a regra dos binomios de
Newton. Ja que, se a moeda tem uma probabilidade p de sair cara e (1 p) de sair coroa, a
probabilidade de termos m caras e n coroas seria pm (1 p)n .

2 Histogramas

2.1 Confeccao de histogramas

O grafico em histograma a uma forma de representar a frequencia de medidas com valores


similares a fim de extrair signficado estatstico do conjunto. O histograma e uma ferramenta
de visualizacao. Seu objetivo e desvendar o perfil da distribuicao aleatoria de valores medidos.
Nesse tipo de grafico, representamos no eixo x intervalos compatveis com valores do conjunto
de medidas, e no eixo y a frequencia com que aparecem. O procedimento para a confeccao de
um histograma segue os seguintes passos:

Escolhemos um intervalo do eixo x capaz de conter todos os valores medidos e o dividimos


em n intervalos menores de igual tamanho, chamados caixas (ou celulas ).

O numero n e tipicamente escolhido como algumas vezes menor que o numero N de


medidas no conjunto. A ideia e que cada caixa contenha um numero apreciavel de me-
didas, evitando a ocorrencia de caixas vazias no meio do intervalo (sim, imagine se os
histogramas da figura 1 fossem desenhados com precisao de 0,5 em 0,5, haveriam espacos
vazios, entre as barras do +1 e do -1).

Organizamos o conjunto de dados contabilizando quantos eventos do conjunto se enqua-


dram em cada caixa. Esse numero f e a chamada frequencia absoluta de ocorrencia
associada a cada intervalo, denotada no eixo y do histograma.

Assim, o histograma e um grafico composto por retangulos justapostos em que a base de


cada um corresponde a caixa e a altura, a frequIncia. O histograma e um importante indicador
da distribuicao de dados.

Exemplo 1 Consideremos uma classe com N = 21 estudantes da qual se queira inferir algo
sobre o nvel de entendimento da turma sobre a materia dada, e que uma prova com nota
maxima igual a 3 seja aplicada para medir isso.

3
Fsica experimental L1
Intrumentacao para o ensino 1 Apostila 3 - Distribuicoes estatsticas

Suponhamos que muitas variaveis fora de nosso controle afetem o desempenho dessa turma
totalmente hipotetica, e que portanto o medidor de compreensao da classe possua grande dis-
persao. Ao final da prova, o conjunto de notas da tabela 1 e obtido.

2,65 2,55 1,70 1,70 1,75 1,45 0,45 2,30 1,08 1,39 2,30
1,70 1,38 2,13 1,73 1,23 2,00 2,13 1,53 1,40 1,70

Tabela 1: Conjunto de notas dos 21 estudantes da turma.

Podemos esperar uma distribuicao de notas com varios estudantes concentrados em torno
de uma nota tpica e alguns poucos sobressaindo-se (tanto no sentido negativo quanto positivo).
Para representar essa distribuicao em forma de histograma, buscamos discretizar intervalos
com o objetivo de tornar bem evidente o formato global da distribuicao. Isso certamente nao
sera verdade se escolhermos caixas muito pequenas, caso em que havera apenas uma nota por
caixa; o mesmo vale para caixas muito grandes, pois entao todos os estudantes pertencerao a
mesma caixa.
Para encontrar o melhor tamanho de caixa, consideremos primeiramente tanto a maior
quanto a menor nota do conjunto, e escolhamos valores nessas proximidades. Por exemplo,
tomemos xmin = 0,45 e xmax = 2,851 como intervalo total de existencia do histograma.
O passo mais delicado consiste na escolha do tamanho de cada caixa ou, equivalentemente,
do numero n de caixas. Tomemos como base o numero total de dados N = 21, que nos fornece
grosseiramente um limite superior para o numero de caixas, para escolher o numero medio de
entradas por caixa em torno da unidade. Escolhendo o numero de caixas como n = 8, de forma
a termos algo como 2 entradas por caixa em media. Nesse caso, o intervalo x ocupado por
cada caixa deve ser x = (xmax xmin )/n = 0,4.
Obs.: E interessante escolher x como um numero de facil memorizacao, para facilitar
a compreensao visual do histograma: ele e uma ferramenta voltada a humanos!
A tabela 2 mostra em sua primeira coluna os intervalos resultantes dessas escolhas. O
primeiro intervalo, por exemplo, e [0,05; 0,45[, em que a notacao indica ser o intervalo fechado
a esquerda e aberto a direita (i.e. medida com valor no extremo inferior e contada dentro do
intervalo, enquanto no valor extremo superior, nao).
A contagem do numero de entradas da tabela 1 dentro de cada intervalo nos fornece as
frequencias absolutas fj (j = 1, 2, . . . , n) denotadas na tabela 2. O histograma resultante e
mostrado na figura 3. Vemos que o intervalo de notas com maior frequencia, entre 1,65 e 2,05,
1
Note que este valor nao pertence ao conjunto!

4
Fsica experimental L1
Intrumentacao para o ensino 1 Apostila 3 - Distribuicoes estatsticas

Intervalo Valor mediano xj Frequencia absoluta fj Probabilidade pj = fj /N

[0,05; 0,45[ 0,25 0 0,00


[0,45; 0,85[ 0,65 1 0,05
[0,85; 1,25[ 1,05 2 0,10
[1,25; 1,65[ 1,45 5 0,24
[1,65; 2,05[ 1,85 7 0,33
[2,05; 2,45[ 2,25 4 0,19
[2,45; 2,85[ 2,65 2 0,10
[2,85; 3,25[ 3,05 0 0,00

Tabela 2: Notas da tabela 1 organizadas para construcao do histograma da figura 3.

contem 7 estudantes. Alem disso, apenas 2 estudantes obtiveram nota entre 2,45 e 2,85, e
nenhum obteve nota superior a 2,85.

Figura 3: Histograma de notas construdo a partir do conjunto da tabela 1.

Acrescentamos, na figura 3, o valor medio das notas, 1,73, e o intervalo para mais e
para menos o valor do desvio padrao amostral, 0,52. Note que a media divide a distribuicao
ao meio, isto e, a quantidade de pontos a esquerda e igual a quantidade de pontos a direita.
Para distribuicoes normais, a porcentagem de pontos no intervalo que contem a media mais ou
menos o desvio padrao e bem conhecido.

A representacao grafica em histograma nos permite visualizar propriedades es-


tatsticas gerais do conjunto de medidas, como media e dispersao, e tambem ana-
lisar seu perfil, se compatvel ou nao com uma distribuicao normal.

5
Fsica experimental L1
Intrumentacao para o ensino 1 Apostila 3 - Distribuicoes estatsticas

2.2 Leitura de histogramas

Podemos utilizar os valores do histograma tambem para facilitar calculos de media e variancia
de forma ponderada. Definimos para isso a fracao de medidas que recai em cada intervalo, isto
e, a frequencia relativa ou probabilidade pj = fj /N . Note que 0 pj 1. Os valores pj
do exemplo acima aparecem na ultima coluna da tabela 2. Dentro da precisao permitida pelo
P
numero de pontos, j pj = 1 (como esperado a probabilidade total e 1).
Para representar o valor aproximado de cada intervalo em calculos estatsticos, utilizamos
o valor mediano xj , representado na segunda coluna da tabela. Realizamos por fim os calculos
utilizando pj como pesos para ponderacao.
A media ponderada calculada da forma como voce deve conhecer:
n
f 1 x 1 + f 2 x2 + + f n xn 1 X
x= = f j xj . (1)
N N j=1

tambem pode ser calculada diretamente pelas probabilidades:


n
X
x = p 1 x1 + p 2 x2 + + p n xn = p j xj . (2)
j=1

O calculo da variancia segue a mesma logica. Utilizando a equacao 2, porem com x2j no
lugar de xj , uma vez que queremos determinar x2 , obtemos
n n n
1 X 2
X fj 2 X
x2 = fj x j = xj = pj x2j . (3)
N j=1 j=1
N j=1
p
O desvio padrao e calculado como = x2 x2 .
Para a media de qualquer funcao f (x), as expressoes acima se generalizam como
n
X
f (x) = p1 f (x1 ) + p2 f (x2 ) + + pn f (xn ) = pj f (xj ). (4)
j=1

Para o calculo de x, tomamos f (x) = x; para o calculo de 2 , f (x) = (x x)2 , e assim por
diante.

Exemplo 2 Podemos calcular a media e o desvio padrao apenas olhando para o histograma da
figura 3. A altura nos da o peso de cada caixa na contagem da media.

1
x= (0.25 0 + 0.65 1 + 1.05 2 + 1.45 5 + 1.85 7 + 2.25 4 + 2.65 2 + 3.05 0) ,
21

o que nos fornece x = 1, 77. Para o valor das notas ao quadrado:

1
0.252 0 + 0.652 1 + 1.052 2 + 1.452 5 + 1.852 7 + 2.252 4 + 2.652 2 + 3.052 0 ,

x2 =
21

6
Fsica experimental L1
Intrumentacao para o ensino 1 Apostila 3 - Distribuicoes estatsticas

o que da x2 = 3, 40. Logo o desvio padrao e m = 0,50. Compare o resultado com os valores
originais para a media e o desvio padrao do conjunto de pontos. As discrepancias se originam
da escolha do centro e da largura de cada celula, no entanto, o resultado e bastante bom dentro
das incertezas estatsticas.

3 Distribuicao Normal

3.1 Teorema central do limite

O objetivo de tomar um conjunto de medidas e obter uma boa aproximacao discreta (his-
tograma) do resultado do experimento, para dela extrair informacao sobre as grandezas fsicas
de interesse. Voce deve ter notado que, a medida que aumentamos o numero de realizacoes no
lancamento das moedas descrito na secao 1, o histograma vai se aproximando cada vez mais de
uma funcao com um formato de sino. Isso se deve a um importante teorema matematico, cha-
mado teorema central do limite, que nos garante que, para processos totalmente aleatorios e
independentes, com media e variancia finitas , a funcao densidade de probabilidade do processo
tendera sempre a uma distribuicao conhecida como distribuicao gaussiana para um numero
de realizacoes N muito grande, N .

4 Funcao Gaussiana
A funcao normal ou gaussiana aparece em inumeros contextos da fsica ou da matematica,
permeando tambem outros ramos da Ciencia devido a sua relacao com o Teorema do Limite
Central. No contexto de uma distribuicao de probabilidade, sua expressao e

(x x)2
 
1
G(x) = exp . (5)
2 2 2 2

Nesse caso, G(x)dx fornece a probabilidade de se obter como resultado de uma medida um
valor entre x e x + dx. Seu perfil e mostrado na figura 4
O nome densidade de probabilidade advem do fato de que a probabilidade de se obter
um valor entre x e x + dx se escreve como dP (x) = G(x)dx. A probabilidade de se obter um
valor no intervalo [x1 , x2 ], e obtida entao somando as probabilidades de se obter valores nos
intervalos [x1 , x1 + dx], [x1 + dx, x1 + 2dx], ..., [x2 dx, x2 ], que e representado pela integral,

Z x2 Z x2
P (x1 , x2 ) = dP (x) = G(x) dx, (6)
x1 x1

7
Fsica experimental L1
Intrumentacao para o ensino 1 Apostila 3 - Distribuicoes estatsticas

Figura 4: Distribuicao gaussiana G(x), com areas abarcadas por multiplos de .

Uma caracterstica fundamental das probabilidades, e que se calcularmos a probabilidade


de qualquer resultado, ou seja, uma cara ou uma coroa no lancamento de uma moeda, ou
obtermos 1 ou 2, ou 3,..., ou 6, no lancamento de um dado, que e a soma da probabilidade de
todos os resultados possveis e igual a 1. Por isso, dizemos que uma distribuicao de probabilidade
deve obedecer a condicao, Z
G(x)dx = 1. (7)

A normalizacao escolhida na equacao 5 garante a validade dessa expressao. Se voce ja se sente


confortavel com as tecnicas para resolver integrais, pode verificar este resultado. Alem da
normalizacao correta, a forma da equacao 5 contem apenas dois parametros, x e 2 , que sao a
media e a variancia da distribuicao.
Para ver isso, generalizamos primeiro o calculo de medias, dado pela equacao 4, para distri-
buicoes contnuas. No lugar dos pesos pj do caso discreto, utilizamos agora as probabilidades
dP (x) como peso para cada valor x possvel de medida. Assim, a media de qualquer f (x)
ponderada pelo peso dP (x) fica,
Z Z
f (x) = f (x) dP (x) = f (x) G(x) dx. (8)

Com isso, podemos mostrar usando a expressao 5 as relacoes

Z Z
2
x= xG(x) dx = (x x)2 G(x) dx. (9)

Como os parametros x e sao os unicos necessarios para determinar a distribuicao gaussiana,


medias de mais alta ordem (por exemplo x4 ), podem ser escritos como uma funcoes de x e .

8
Fsica experimental L1
Intrumentacao para o ensino 1 Apostila 3 - Distribuicoes estatsticas

O desvio padrao da gaussiana determina a regiao no entorno da media na qual 68% da


area da gaussiana se encontra. Isso significa que a probabilidade de uma medida fornecer valor
no intervalo de 1 em torno da media e 68%. De forma matematica, isso se expressa como
Z x+
P (x , x + ) = G(x)dx 0,68. (10)
x

Para o intervalo de 2 em torno da media, a probabilidade aumenta para 95%. Ja para 3,


a chance de estar no interior da regiao e de 99,7%. Assim, para conjuntos pequenos (N 100)
espera-se a totalidade das medidas dentro de 3.
Essa nomenclatura em termos de distancias e muito utilizada no contexto de fsica
experimental de partculas e altas energias. A descoberta de uma nova partcula num acelerador
de partculas so ocorre se a incerteza estatstica no resultado ultrapassar a marca de 5, isto
e, a probabilidade de ser um evento real deve ser maior do que 99,99994% (ou 0,00006% de
chance de ser um evento ao acaso).
Outro contexto em que ela e utilizada e no controle de qualidade de componentes industriais.
Por exemplo, chips eletronicos vitais para a seguranca de um automovel precisam ser confiaveis
dentro de 6, i.e. funcionar perfeitamente em mais do que 99,9999998% das vezes; assim, a
tolerancia maxima de falha e de 1 em 500 milhoes de componentes.
A funcao gaussiana e, portanto, bem localizada em torno de seu valor medio. O motivo disso
e seu decrescimo de forma exponencial a partir desse valor. Outra caracterstica importante da
gaussiana e o fato de que seu valor medio coincide com seu valor mais provavel: o maximo de
G(x) ocorre no ponto xmax = x.

5 Dicas para confeccao de graficos e histogramas


O objetivo do grafico e transmitir informacao de forma simples e direta, tambem para outras
pessoas, auxiliando a analise do conjunto de dados. Seguem abaixo algumas regras basicas para
aumentar a clareza de graficos experimentais.

Em um espaco livre, na parte superior da folha, escreva o ttulo do grafico.

No eixo horizontal e lancada a variavel independente, isto e, a variavel cujos valores sao
escolhidos pelo experimentador; no eixo vertical e lancada a variavel dependente, isto e,
aquela obtida em funcao da primeira.

Escreva o nome ou letra a denotar a grandeza em cada eixo. Coloque entre parenteses
a unidade correspondente.

9
Fsica experimental L1
Intrumentacao para o ensino 1 Apostila 3 - Distribuicoes estatsticas

Deve-se tentar distribuir bem os pontos experimentais dentro do espaco disponvel


para o grafico, mediante escolha de uma escala adequada. Evite amontoar todos os pontos
num espaco pequeno de difcil leitura.

A escala deve ser simples e de facil leitura. Procure adotar multiplos de numeros
inteiros que sejam bons divisores. Exemplos de escalas desejaveis sao 0,1; 0,2; 0,5; 1; 2;
5; 10 ; 20 ; 50 etc. Evite a utilizacao de numeros primos como 3, 7, 11 etc.

Ao trabalhar com numeros muito grandes ou pequenos, use notacao cientfica. Denote
potencias de 10 juntamente com as unidades entre parenteses.

O intervalo dos eixos pode ser escolhido tambem por razoes teoricas. Por exemplo, se
os dados experimentais precisam ser comparados com um modelo que preve um valor de
grande importancia (por exemplo, o ponto triplo da agua), o grafico deve apresentar esse
ponto mesmo que os dados experimentais nao cubram essa regiao.

Os pontos experimentais devem ser marcados no grafico usando smbolos de facil vi-
sualizacao.

Apos a colocacao dos pontos no grafico, nao escreva nos eixos os valores relativos a
cada ponto. Isso afeta a clareza do grafico ao tumultuar sua leitura.

Para ajustar visualmente uma curva aos pontos experimentais, tente faze-la de forma
suave e contnua. A curva de ajuste nao precisa tocar nenhum ponto experimental es-
pecfico, bastando ajustar bem o conjunto inteiro.

Nao una pontos do grafico por linhas sem significado! Cada detalhe do que se
apresenta num grafico deve possuir significado claro ao leitor.

Geralmente, uma folha de papel milimetrado tem tamanho de 280 mm por 180 mm,
sendo que podemos usa-la na posicao retrato ou paisagem. A escolha deve ter como
objetivo otimizar a visualizacao do grafico.

Para quaisquer duvidas que possam surgir na apresentacao do grafico, lembre-se do ob-
jetivo do grafico: servir como sntese visual dos resultados experimentais.

10
Fsica experimental L1
Intrumentacao para o ensino 1 Apostila 3 - Distribuicoes estatsticas

Figura 5: Um exemplo de distribuicao assimetrica: a lognormal.

6 Observacoes finais
A distribuicao de probabilidade pode ser assimetrica, isto e, nao possuir um eixo de simetria.
Um exemplo e mostrado na figura 6, no caso uma ditribuicao lognormal. Em distribuicoes
assimetricas, a media, a moda e a mediana da distribuicao podem nao coincidir. No entanto,
em nosso curso, devemos lidar apenas com a distribuicao normal, que e simetrica em relacao a
sua media.
Alguns termos nesta apostila foram deixados no ar sem nenhuma explicacao, isto foi feito
propositalmente. O curso visa dar uma ideia geral de certos conceitos que serao melhor explo-
rados em um curso de estatstica. Portanto, nao deixe de pesquisar os termos que lhe deixaram
em duvidas neste roteiro em qualquer material de apoio, seja em livro ou internet.

11

Potrebbero piacerti anche