Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
de Probabilidades
Objetivos
Assunto
A aplicação da Probabilística na Estatística é baseada em distribuições de
frequências prováveis, que podem ser estimadas a partir de amostras. A
partir desta aula, vamos entender como os teoremas fundamentais das pro-
babilidades são aplicados nas pesquisas que usam a Estatística como instru-
mento para estimar parâmetros populacionais, em todas as áreas do conhe-
cimento que possuam características mensuráveis.
Introdução
A Curva Normal
Também chamada de Curva de Gauss, a curva normal é a representação teó-
rica da distribuição das probabilidades de uma variável em uma determinada
população. Vamos ver, novamente, a curva normal do exemplo da última
aula: distância em metros entre as casas de uma região e um oleoduto (fig.
1).
Resumindo, a maior parte dos testes estatísticos que são realizados em amos-
tras aleatórias supõe que a população da qual foi retirada uma amostra apre-
senta uma distribuição normal das frequências em questão e que 99,7% dos
dados estarão contidos em um intervalo de µ ± 3 ou, assumindo-se que a
amostra seja representativa da população, ± 3s.
Tipos de curva
A curva de Gauss é a curva normal, totalmente, simétrica. Nela, média e
mediana têm o mesmo valor, ou valores muito próximos. Há distribuições,
no entanto, que não são totalmente simétricas. Na distribuição assimétrica
à direita, a mediana é mais alta que a média e a curva tem uma “cauda”
mais longa à direita do gráfico (fig. 3).
Ao criar uma tabela de frequências, já temos uma ideia de que tipo é a distri-
buição. Vimos que a distribuição de frequências de ocorrência dos valores de
dois dados se parece muito com uma curva normal. Apesar de essa variável
ser discreta, ela tem uma distribuição binomial do tipo (a+b)2 = a2 + 2ab + b2.
Assim, sempre que se percebe que os dados não são, normalmente, distribu-
ídos, deve-se dar preferência à aplicação de testes estatísticos não-paramé-
tricos. Programas de computador, no entanto, frequentemente, apresentam
ferramentas em que podemos “avisar” se a distribuição é bimodal ou assi-
métrica e os cálculos são ajustados automaticamente.
A Maturidade da Estatística
A Estatística transformou-se com a compreensão da distribuição normal. A
ideia de “normalidade” foi, primeiramente, sugerida por Abraham de Moi-
vre (1667-1754) em um artigo de 1733. Nele, o autor percebeu como a
forma de distribuições binomiais se parecia quando a amostra era muito
grande. Pierre-Simon, Marquês de Laplace (1749-1827, fig. 9), expandiu o
conceito, fazendo em seu livro “A Teoria Analítica das Probabilidades”, no
qual descreveu a aproximação normal de uma distribuição binomial. O teo-
rema descrito, hoje é conhecido como Teorema de Moivre-Laplace.
Figura 10: Johann Carl Friedrich Gauss (1777-1855). Fonte: Wikimedia Commons.
Nesta sessão, vamos entender como podemos calcular quão próximas dos
parâmetros populacionais são as estatísticas que obtemos de uma amostra
dessa população.
Vamos imaginar que uma arqueóloga está descrevendo, pela primeira vez,
um tipo de vaso cerâmico de 10.000 anos de idade, usado para depositar
objetos sagrados nas sepulturas de uma civilização. Esse tipo de vaso, único,
foi achado em apenas uma sepultura dentre centenas que foram escavadas
por sua equipe. Ela descreveu a decoração, a função e a forma do vaso, e
mediu a altura, que era de 10 cm.
Podemos ver que é possível fazer muitas inferências sobre populações, com-
pletamente, desconhecidas com pouquíssima informação, mas essas inferên-
cias devem ser modificadas à medida que acrescentamos mais informação. É
lógico que, para nossa colega saber com certeza os valores dos parâmetros
para a altura desse tipo de vaso, ela teria que medir todos os vasos já feitos
com essa forma, decoração e função por aquela civilização; nesse caso, ela
não estaria estimando, ou fazendo uma inferência e sim, estaria descreven-
do um conjunto de dados enorme.
Nos dias seguintes, fizemos o mesmo procedimento, pedindo para dez pes-
soas entre cem que passaram à nossa frente para que se deixassem medir.
Mas digamos que, no segundo dia, havia uma convenção de jogadores de
basquete dos times dos bairros, justamente, naquela praça e terminamos
com uma altura média de 1,77 m. Há uma diferença de 10 cm entre as mé-
dias do primeiro e do segundo dia.
Com as dez amostras, vimos que não apenas há uma variação nos dados
dentro de cada amostra, mas também entre amostras: a média de altura do
segundo dia é 20 cm maior que a média do terceiro. Não apenas a média
varia entre amostras, mas outras estatísticas também. A isto chamamos va-
riação amostral, ou seja, a variação dos valores das estatísticas de amostras
diferentes tiradas de uma mesma população.
Tal distribuição de médias amostrais vai, por sua vez, ter uma média também.
Se coletarmos um número, suficientemente, grande de amostras, a curva de
distribuição das médias amostrais vai ter sua tendência central em torno da
tendência central da população, ou seja, o valor das médias amostrais vai
ser a média da população da qual essas amostras foram tiradas.
Agora, não importa se cada uma das amostras tem uma distribuição normal.
A distribuição das médias amostrais, no entanto, vai sempre ser normal,
pois a probabilidade de coletarmos uma amostra que se afaste muito da
média da população diminui conforme cresce a diferença. Quanto maiores
as amostras, mais simétrica será a curva de distribuição de médias amostrais.
O gráfico abaixo (fig. 11) representa uma dessas curvas. Podemos notar
a forma simétrica e as freqüências de ocorrência decrescentes de médias
amostrais que se afastam muito da média populacional.
Vemos na distribuição das médias amostrais que, quanto maior for a dife-
rença entre a média amostral e a média populacional, menor é a chance de
coletarmos uma amostra com essa média. Em outras palavras, quanto maior
nosso erro, menor a chance de ocorrer.
Mas a média é uma medida de tendência central e nos diz onde está a
maioria dos dados. Nessa distribuição de médias amostrais, como em qual-
quer outra distribuição, há outras medidas importantes para que possamos
entendê-la: as medidas de dispersão.
Vimos em aulas passadas que, numa distribuição normal, 68% dos dados
encontram-se a um desvio padrão para mais ou para menos da média, ou
seja, estão dentro de ± s. Já que a distribuição de médias amostrais tam-
bém é uma curva normal, 68% dos dados (as médias amostrais) estarão um
erro padrão para mais ou para menos da média populacional (µ ± SE, fig.
12).
Devemos sempre lembrar que a área sob uma curva normal equivale a 1, ou
100% da distribuição. Da média para cima, estão 50% dos dados; da média
para baixo, os outros 50%. Digamos que queremos saber qual a probabili-
dade de nossa amostra ter uma média maior que m+SE.
A lógica é simples. Se 68% dos dados estão um erro padrão longe da média,
a área coberta por +SE = 34% e por –SE = 34%, pois 34%+34% = 68%. A
área correspondente às médias amostrais menores que µ+SE vai ser a soma
de toda a área abaixo da média (50%) somada à área do erro padrão po-
sitivo (34%), ou seja, 50%+34% = 84%. Assim, a probabilidade de nossa
amostra ter média maior que µ+SE é igual a 100% - 84% = 16%. Podemos
usar o mesmo método para saber a probabilidade de nossa amostra ter mé-
dia menor que µ-SE, ou outras combinações.
Se, por exemplo, temos amostra de 100 notas de provas com uma média de
50 pontos e desvio padrão de 15 pontos, podemos esperar que as médias de
todas as amostras desse tipo tenham um erro padrão de:
pontos.
pontos.
Podemos dizer, agora, que µ±SE contém 68% de todas as médias amostrais
da população de que coletamos nossa amostra. Também diremos que há
uma probabilidade de 68% de que a média da população estará dentro
da amplitude da média de nossa amostra, mais ou menos o erro padrão.
Os valores resultantes são os limites de nosso intervalo de confiança, no
caso, um intervalo de confiança de 68%, pois estamos 68% confiantes que
a média populacional vai estar entre esses valores.
Vejamos o gráfico abaixo (fig. 13): nele temos as médias de quatro amos-
tras ( 1, 2, 3 e 4) e uma barra de erro padrão, que mostra a amplitude
coberta por ±SE. Para as amostras 2 e 3, a média populacional está dentro
desse intervalo.
Alguns experimentos precisam ser feitos com tamanhos amostrais muito pe-
quenos, como testes de remédios e outros envolvendo animais de laborató-
rio. Nesses casos, devem-se tomar cuidados especiais para validar a amostra.
Mas é possível conseguir resultados relevantes com amostras de até quatro
medições, desde que certas precauções sejam tomadas e que a interpreta-
ção dos resultados seja comedida.
Resumo
A análise de amostras retiradas de uma população pode servir de base para
a estimação de parâmetros populacionais através das estatísticas amostrais.
Muitas variáveis não apresentam uma distribuição normal, mas podem ser
bimodais ou assimétricas. Os métodos para se trabalhar na estimação de pa-
Referências
CHATFIELD, C.: Problem Solving – A Statistician’s Guide. London: CHAPMAN & HALL.
1991.
LEME, R. A. DA S.: Curso de Estatística – Elementos. Rio de Janeiro: AO LIVRO TÉCNICO.
1967.
LEVIN, J.: Estatística Aplicada às Ciências Humanas. São Paulo: HARPER & ROW DO
BRASIL. 1978.
SPIEGEL, M. R.: Estatística. MAKRON. 1994.
VIEIRA, S. M.: Introdução à Bioestatística. 3ª edição. São Paulo: EDITORA CAMPUS. 1998.