Estatística - Parte 6

Aula 5 - Distribuições
de Probabilidades
Objetivos
• Compreender a aplicação dos teoremas fundamentais da proba-

bilística na Estatística;
• Conhecer os diversos tipos possíveis de distribuições amostrais;
• Compreender como são estimados e com que acurácia, os parâ-

metros populacionais a partir de estatísticas amostrais.
Assunto
A aplicação da Probabilística na Estatística é baseada em distribuições de
frequências prováveis, que podem ser estimadas a partir de amostras. A
partir desta aula, vamos entender como os teoremas fundamentais das pro-
babilidades são aplicados nas pesquisas que usam a Estatística como instru-
mento para estimar parâmetros populacionais, em todas as áreas do conhe-
cimento que possuam características mensuráveis.
Introdução
Amostra e distribuição de amostras

Na última aula, vimos como a distribuição de frequências de uma variável
aleatória contínua de uma amostra pode ser limitada por uma curva de pro-
babilidades teórica, a curva normal, representando as frequências em uma
população. Esse tipo de distribuição é chamado distribuição normal e sua
curva representativa tem uma forma simétrica, mais alta nos valores centrais
(mais frequentes) e que desce, simetricamente, para os valores extremos
Estatística 103 UAB

(mais raros). Muitos fenômenos naturais ou antrópicos têm este padrão de
distribuição. Por isso, vamos nos deter, um pouco, conhecendo mais esse
tipo de distribuição.
A Curva Normal
Também chamada de Curva de Gauss, a curva normal é a representação teó-
rica da distribuição das probabilidades de uma variável em uma determinada
população. Vamos ver, novamente, a curva normal do exemplo da última
aula: distância em metros entre as casas de uma região e um oleoduto (fig.
1).
Figura 1: Curva normal de distribuição da distância entre 319 domicílios e um oleo-

duto.
Podemos notar que a curva é simétrica, apresentando frequências maiores

no centro, onde estaria a média, as quais vão caindo em direção aos extre-
mos. Além dessas características óbvias, a curva normal também apresenta
certas particularidades.
Notem que as “caudas” da curva normal, em direção aos extremos, nunca

toca o eixo de x: mesmo nos extremos, não há uma frequência de zero.
Isso ocorre por que, como vimos, exceto por eventos impossíveis, todos os
eventos têm uma probabilidade maior que zero. No caso, sempre há a pro-
babilidade que haja uma casa mais distante ou mais perto do oleoduto do
que aquelas que o pesquisador contou em sua amostra.
UAB 104 Licenciatura em Matemática

Outra característica dessa curva é que ela é, absolutamente, simétrica. Essa
particularidade faz com que, numa curva normal, todas as medidas de ten-
dência central caiam no mesmo ponto, ou estejam muito próximas. Nesse
caso, a distância média entre as casas e o oleoduto é de 262,43 metros; a
mediana, 264 metros.
A área sob a curva é a soma de todas as probabilidades de todas as distân-

cias possíveis. Sendo, por isso, igual a 1 (ou 100%). Tal noção nos servirá
para calcular estatísticas mais tarde.
Uma curva normal representa a distribuição em uma população, como já

vimos. Nela, podemos traçar uma linha, mostrando nossa medida de ten-
dência central, que a dividirá exatamente ao meio. Por se tratar da repre-
sentação de uma população e não de uma amostra, a média, em uma curva
normal, é representada por m e o desvio padrão é representado por s.
Se somarmos ou subtrairmos o desvio padrão do valor da média, em uma

curva normal, cobriremos 68,26% dos dados ali representados. Isso se dá
por causa da padronização da distribuição normal, que a torna totalmente
simétrica. Se somarmos ou diminuirmos duas vezes o desvio padrão do valor
da média, 95,44% dos valores estarão nesse intervalo (fig. 2). Uma popu-
lação normal tem 99,74% dos seus valores a uma distância de três desvios
padrão da média.
Figura 2: Proporção de dados, em uma distribuição normal, inseridos nos intervalos

µ± eµ±2 .

As proporções das áreas dentro de uma curva normal servem de base para
o cálculo de um valor estatístico fundamental para o teste de hipóteses,
chamado z.
No final de todo livro de Estatística, há uma tabela, mostrando os valores de

z e t, que vão dar a significância dos testes de hipóteses. A proporção das
áreas cobertas pelos parâmetros µ e , referentes a uma população, dá a
forma da curva normal e serve de base para testar a significância de testes
estatísticos.
No entanto, as estatísticas que usam o valor z assumem que parâmetros

como µ e são conhecidos. Isso não é verdade para as amostras: nela temos
os valores de e s. Com base nas duas estatísticas, são criadas as tabelas de
valores t, também usadas como base de testes de significância, usando áreas
proporcionais da curva de distribuição como alicerce matemático.
Resumindo, a maior parte dos testes estatísticos que são realizados em amos-
tras aleatórias supõe que a população da qual foi retirada uma amostra apre-
senta uma distribuição normal das frequências em questão e que 99,7% dos
dados estarão contidos em um intervalo de µ ± 3 ou, assumindo-se que a
amostra seja representativa da população, ± 3s.
Nem toda distribuição amostral, no entanto, é do tipo normal, mesmo que

se tenha uma amostra grande. Algumas variáveis podem apresentar distri-
buições de outros tipos, especialmente, nas Ciências Biológicas e Sociais.
Tipos de curva
A curva de Gauss é a curva normal, totalmente, simétrica. Nela, média e
mediana têm o mesmo valor, ou valores muito próximos. Há distribuições,
no entanto, que não são totalmente simétricas. Na distribuição assimétrica
à direita, a mediana é mais alta que a média e a curva tem uma “cauda”
mais longa à direita do gráfico (fig. 3).

Figura 3: Curva de distribuição de probabilidades assimétrica à direita, com as posi-
ções da média e da mediana.
Já na curva assimétrica à esquerda, a mediana é mais baixa que a média e

a curva apresenta uma “cauda” mais longa à esquerda (fig.4).
Figura 4: Curva de distribuição de probabilidades assimétrica à esquerda, com as

posições da mediana e da média.
Quando descobrimos, durante a análise descritiva, que há essa diferença en-

tre mediana e média, devemos ter cuidado extra quando passamos à analise
inferencial desses dados: às vezes, a diferença impede que utilizemos certos
testes estatísticos.
O tamanho das “caudas” de uma distribuição de probabilidades é chamado

de curtose, sendo a segunda característica de importância na descrição da

forma de uma distribuição normal. Se as caudas forem longas, afastando-se
da média, chamamos essa curva de leptocúrtica (fig. 5).
Figura 5: Curva de distribuição de probabilidades do tipo leptocúrtica.
Nesse tipo de distribuição, a amplitude total é grande, mas valores extremos

são mais raros. Quase todos os dados estão em ± s.
Quando as caudas de uma distribuição são curtas, temos uma distribuição

platicúrtica (fig. 6).
Figura 6: Curva de distribuição de probabilidades do tipo platicúrtica.
Aqui, a maioria dos dados está além de ± s (podendo estar em ± 2s ou

± 3s). Só os valores realmente extremos são raros.

A forma das distribuições normais tem implicações para a validação dos da-
dos e para o uso de testes estatísticos.
Outros Tipos de Distribuição

Às vezes, encontramos um tipo de distribuição de frequências amostrais que
possui não um, mas dois “picos” de frequência. É chamado de bimodal,
por possuir duas modas, e geralmente, envolve variáveis aleatórias discretas
(apesar de haver variáveis contínuas que se comportam dessa forma). No
exemplo da figura 7, vemos a frequência do número de sementes em uma
espécie de leguminosa. Devido às características genéticas da espécie, as
vagens do vegetal possuem, geralmente, duas ou dezesseis sementes, mas
podem, raramente, apresentar qualquer valor par entre esses dois extremos.
Um histograma das frequências dos números de sementes nessa espécie de
leguminosa apresentaria dois “picos” de frequência e duas “modas”. Esse é
um caso bem particular e impede que usemos as suposições sobre distribui-
ções normais ao se trabalhar com esse tipo de dado.
Figura 7: Histograma de frequências absolutas do número de sementes em 25 vagens

de uma planta leguminosa.
Outro tipo de distribuição encontrado, comumente, em amostras nas Ci-

ências Biológicas e Sociais, é a distribuição assimétrica, que pode envolver
tanto variáveis aleatórias discretas como contínuas.
Nela, os valores mais frequentes não estão no meio da distribuição e não

podemos usar, novamente, as suposições sobre a curva normal para calcular
as estatísticas de uma amostra com esse tipo de distribuição.

Um exemplo de distribuição assimétrica é o tamanho da ninhada de cães da
raça Dálmata. Apesar de ser uma raça conhecida por produzir, raramente, as
maiores ninhadas entre todas as raças de cães, a grande maioria tem apenas
três filhotes (fig. 8).
Figura 8: Histograma de frequências absolutas do número de filhotes em 25 ninha-

das de cães da raça Dálmata.
Aplicação dos Conceitos de Distribuição

Não podemos menosprezar o papel do tipo de distribuição na aplicação da
Estatística. De fato, ele é tão importante que, antes de realizarmos um teste
de hipótese com uma variável, devemos descobrir de que tipo é a distribui-
ção das frequências.
Ao criar uma tabela de frequências, já temos uma ideia de que tipo é a distri-
buição. Vimos que a distribuição de frequências de ocorrência dos valores de
dois dados se parece muito com uma curva normal. Apesar de essa variável
ser discreta, ela tem uma distribuição binomial do tipo (a+b)2 = a2 + 2ab + b2.
Porém, o cálculo estatístico é muito mais complexo que o binômio de

Newton aqui representado, mas o resultado é simétrico e as frequências di-
minuem, simetricamente, em direção aos limites de valores. Podemos dizer
que a distribuição das frequências de valores de dois dados de jogar segue
um padrão normal.
Se criarmos uma tabela de frequências e, posteriormente, um gráfico de bar-

ras com os dados do histograma acima, logo veremos que a distribuição dos
dados não segue um padrão normal, mas assimétrico. Então, ao criar um

gráfico de barras, ou um histograma, já temos uma ideia se a distribuição
dos dados da variável pode ser considerada normal ou não.
Para o uso de testes de significância, no entanto, o mais correto é testar a

variável para saber se ela tem uma distribuição normal. Há vários testes de
normalidade oferecidos por programas de computador que podem checar
se os dados de uma amostra têm uma distribuição normal ou não. Os mais
comuns são o Anderson-Darling, o Ryan-Joiner e o Kolmogorov-Smir-
nov. Esses cálculos testam a hipótese de que a distribuição de um grupo de
dados não difere de uma distribuição normal e sua aplicação garante que
poderemos ter certeza do tipo de distribuição de nossos dados.
Esses conceitos de probabilidades e distribuição são, primariamente, usados

para testar hipóteses sobre uma população, usando dados coletados em
uma amostra.
Apesar da maioria dos testes de hipóteses ser baseada na suposição de que

os dados testados têm uma distribuição normal, na abordagem estatística
chamada de paramétrica, há uma gama de testes que não calculam pro-
babilidades com base em uma distribuição normal, a estatística não-para-
métrica.
Assim, sempre que se percebe que os dados não são, normalmente, distribu-
ídos, deve-se dar preferência à aplicação de testes estatísticos não-paramé-
tricos. Programas de computador, no entanto, frequentemente, apresentam
ferramentas em que podemos “avisar” se a distribuição é bimodal ou assi-
métrica e os cálculos são ajustados automaticamente.
A Maturidade da Estatística
A Estatística transformou-se com a compreensão da distribuição normal. A
ideia de “normalidade” foi, primeiramente, sugerida por Abraham de Moi-
vre (1667-1754) em um artigo de 1733. Nele, o autor percebeu como a
forma de distribuições binomiais se parecia quando a amostra era muito
grande. Pierre-Simon, Marquês de Laplace (1749-1827, fig. 9), expandiu o
conceito, fazendo em seu livro “A Teoria Analítica das Probabilidades”, no
qual descreveu a aproximação normal de uma distribuição binomial. O teo-
rema descrito, hoje é conhecido como Teorema de Moivre-Laplace.

Figura 9: Marquês de Laplace (1749-1827). Fonte: Wikimedia Commons.
Em 1805, Adrien-Marie Legendre (1752-1833), matemático francês, intro-

duziu o “método dos Mínimos Quadrados”, que até hoje é usado no cálculo
de análises de regressões. No entanto, o matemático alemão Johann Gauss
(1777-1855, fig. 10) afirmou que já usava esse método desde 1794 e provou
sua tese que propunha a distribuição normal de erros em 1809. Hoje em dia,
às vezes, chamamos uma distribuição normal de “Gaussiana”, apesar de
Gauss não ter sido o primeiro a descrever tal tipo de distribuição.
Esse é um exemplo da chamada “Lei de Stigler”, que diz que as grandes

descobertas científicas não são chamadas pelo nome de seus descobridores,
mas pelo nome daquele que difunde a ideia.
Figura 10: Johann Carl Friedrich Gauss (1777-1855). Fonte: Wikimedia Commons.

Estimação de Parâmetros Populacionais
Nas aulas anteriores, nós aprendemos a calcular a média e o desvio padrão
de uma amostra, e vimos como, ao conhecer essas estatísticas, podemos ter
uma ideia geral da forma da distribuição desses dados. Usando esses valo-
res, podemos dar um palpite “educado” sobre a amostra, mesmo que não
tenhamos acesso aos valores brutos que um pesquisador usou.
Mas nem sempre é na forma da distribuição amostral que estamos inte-

ressados. Para um pesquisador, o importante é saber o quanto podemos
generalizar, a partir desses dados, sobre o que ocorre com a população.
Se, por exemplo, coletamos uma amostra sobre a produção dos detritos de
tecelagens e conseguimos uma média de 58 toneladas por ano, será que
conseguiremos o mesmo valor se coletarmos os dados de todas as tecela-
gens do Brasil?
A resposta mais simples é não, pois, como vimos, se coletarmos amostras

diferentes de uma população, suas medidas de tendência central e disper-
são vão variar, e serão diferentes das medidas da população em geral. Mas,
se a amostra for aleatória, coletada de forma não enviesada, as médias da
amostra e da população (assim como suas medidas de dispersão) deverão
ter valores próximos.
Nesta sessão, vamos entender como podemos calcular quão próximas dos
parâmetros populacionais são as estatísticas que obtemos de uma amostra
dessa população.
Média Amostral e Distribuição de Médias

Quando coletamos uma amostra aleatória, temos uma probabilidade maior
de conseguirmos dados que cubram quase toda a distribuição de uma popu-
lação do que dados que estejam próximos dos extremos dessa distribuição.
Mas podem ocorrer erros que não percebemos, e por isso devemos tomar
cuidados ao estimar parâmetros através de estatísticas amostrais.
Vamos imaginar que uma arqueóloga está descrevendo, pela primeira vez,
um tipo de vaso cerâmico de 10.000 anos de idade, usado para depositar
objetos sagrados nas sepulturas de uma civilização. Esse tipo de vaso, único,
foi achado em apenas uma sepultura dentre centenas que foram escavadas
por sua equipe. Ela descreveu a decoração, a função e a forma do vaso, e
mediu a altura, que era de 10 cm.

Todavia, nossa colega está na desconfortável situação de ter uma amostra
com apenas um dado. Não há como saber se o vaso é, particularmente,
grande ou pequeno, pois não há como compará-lo com outros da mesma
escavação.
Mas, se fosse obrigada a “chutar” um valor, a arqueóloga não teria outra

opção a não ser dizer que esse tipo de vaso tem cerca de 10 cm de altura e
não teria condições de dizer o tamanho da dispersão desses valores, ou se
10 cm está mais perto da média ou dos extremos da distribuição das alturas
desse tipo de artefato.
Escavando outro sítio arqueológico da mesma civilização antiga, no entan-

to, a cientista foi feliz e encontrou outros quatro exemplares de vasos com
a mesma forma, decoração e função, medindo 9,2 cm, 9,6 cm, 10,3 cm e
10,5 cm. Junto com o primeiro vaso, ela agora tem uma amostra de cinco
artefatos, que fornecem a média de 9,9 cm de altura e o desvio padrão de
apenas 0,5 cm. A partir dessa pequena amostra, nossa arqueóloga já infere
– ou estima - que a dispersão da distribuição da variável (altura do vaso) é,
relativamente, pequena: poucos vasos seriam menores que a média menos
três vezes o desvio padrão (o que dá 8,5 cm) ou maiores que a média mais
três vezes o desvio padrão (11,5 cm). Assim, as estatísticas são estimativas
dos valores dos parâmetros, e não, os parâmetros verdadeiros.
Podemos ver que é possível fazer muitas inferências sobre populações, com-
pletamente, desconhecidas com pouquíssima informação, mas essas inferên-
cias devem ser modificadas à medida que acrescentamos mais informação. É
lógico que, para nossa colega saber com certeza os valores dos parâmetros
para a altura desse tipo de vaso, ela teria que medir todos os vasos já feitos
com essa forma, decoração e função por aquela civilização; nesse caso, ela
não estaria estimando, ou fazendo uma inferência e sim, estaria descreven-
do um conjunto de dados enorme.
Mas como medir toda a população de artefatos arqueológicos, ou coletar

toda a informação sobre uma variável em uma população é, virtualmente,
impossível. O melhor que nós podemos fazer é dizer que a “verdadeira” mé-
dia populacional, ou o “verdadeiro” desvio padrão da população, ou qual-
quer que seja o parâmetro, tem alguma probabilidade de estar dentro de
certa amplitude de valores possíveis.

Toda inferência é passível de erro, como vimos. Não é possível eliminar o erro
nem com todos os cálculos estatísticos existentes, então devemos torná-lo
explícito.
Vamos entender a lógica da amostragem, pesquisando a média de altura

dos habitantes de uma cidade. Fomos a uma praça do centro da cidade
e tiramos uma amostra aleatória, pedindo a uma pessoa de cada dez que
passassem a nossa frente para que se deixasse medir. Terminamos com uma
amostra de dez pessoas e uma média de altura de 1,67 m.
Nos dias seguintes, fizemos o mesmo procedimento, pedindo para dez pes-
soas entre cem que passaram à nossa frente para que se deixassem medir.
Mas digamos que, no segundo dia, havia uma convenção de jogadores de
basquete dos times dos bairros, justamente, naquela praça e terminamos
com uma altura média de 1,77 m. Há uma diferença de 10 cm entre as mé-
dias do primeiro e do segundo dia.
No terceiro dia, sem que soubéssemos, o sindicato dos jóqueis de cavalos

estava fazendo uma reunião próxima à praça e nós terminamos o dia com
uma amostra que forneceu a média de altura de 1,57 m. Novamente, há 10
cm de diferença entre a média da amostra do primeiro dia e a do terceiro.
Nos outros dias, conseguimos médias de 1,66, 1,68, 1,67, 1,67, 1,68, 1,65
e 1,68 m.
Com as dez amostras, vimos que não apenas há uma variação nos dados
dentro de cada amostra, mas também entre amostras: a média de altura do
segundo dia é 20 cm maior que a média do terceiro. Não apenas a média
varia entre amostras, mas outras estatísticas também. A isto chamamos va-
riação amostral, ou seja, a variação dos valores das estatísticas de amostras
diferentes tiradas de uma mesma população.
Se agruparmos nossos resultados, teremos uma amostra total de 100 pesso-

as e uma altura média de 1,67 m, que é a média das dez médias amostrais.
Mas se tirarmos outra amostra de 100 habitantes da cidade, encontraríamos
outra média e se nossas amostras diárias fossem maiores (50 pessoas em vez
de dez), a variação da média entre as amostras seria menor, pois teríamos
uma menor probabilidade de incluir uma proporção grande de jogadores de
basquete ou jóqueis em nossos dados. Mesmo assim, essa variação amostral
nunca há de desaparecer totalmente. Como lidar com isso?

A lógica é simples. Imaginem que continuamos nossa pesquisa sobre a al-
tura dos habitantes por mais 100 dias. Depois, ao invés de usar a altura dos
1100 habitantes como base para nossas análises, nós usamos as 110 médias
amostrais como uma variável e construímos, com isso, uma distribuição de
frequências. Essa será uma distribuição de médias amostrais.
Tal distribuição de médias amostrais vai, por sua vez, ter uma média também.
Se coletarmos um número, suficientemente, grande de amostras, a curva de
distribuição das médias amostrais vai ter sua tendência central em torno da
tendência central da população, ou seja, o valor das médias amostrais vai
ser a média da população da qual essas amostras foram tiradas.
Uma curva de distribuição de médias amostrais vai ser semelhante a uma

curva normal. Como vimos em nosso exemplo, as amostras que mais se
afastam da média das médias amostrais (que calculamos em 1,67 m) foram
aquelas que, sem querer, incluíram pessoas muito altas – os jogadores de
basquete – e pessoas muito baixas – os jóqueis.
Já as outras amostras apresentavam valores bem próximos da média das

médias amostrais. Isso por que valores extremos são mais raros que valores
próximos à média de uma população, então temos maior chance de encon-
trar pessoas de estatura mediana do que as muito altas ou muito baixas.
Agora, não importa se cada uma das amostras tem uma distribuição normal.
A distribuição das médias amostrais, no entanto, vai sempre ser normal,
pois a probabilidade de coletarmos uma amostra que se afaste muito da
média da população diminui conforme cresce a diferença. Quanto maiores
as amostras, mais simétrica será a curva de distribuição de médias amostrais.
O gráfico abaixo (fig. 11) representa uma dessas curvas. Podemos notar
a forma simétrica e as freqüências de ocorrência decrescentes de médias
amostrais que se afastam muito da média populacional.

Figura 11: Curva de distribuição de frequências de médias amostrais.
Na vida real, no entanto, nunca encontramos uma distribuição de médias

amostrais para estimar a média da população. Geralmente, temos que es-
timá-la com base em uma única amostra. Com certeza, teremos um erro
ao avaliar a média populacional por essa única amostra e a pergunta que
devemos fazer é: qual o tamanho do erro, ou seja, quão distante da média
populacional nossa média amostral estará?
Vamos olhar novamente para o gráfico acima. Qual probabilidade é maior: a

de coletarmos uma amostra que tenha a média um pouco diferente da mé-
dia populacional ou a de coletarmos uma amostra que tenha a média muito
diferente da média populacional?
Vemos na distribuição das médias amostrais que, quanto maior for a dife-
rença entre a média amostral e a média populacional, menor é a chance de
coletarmos uma amostra com essa média. Em outras palavras, quanto maior
nosso erro, menor a chance de ocorrer.
Mas a média é uma medida de tendência central e nos diz onde está a
maioria dos dados. Nessa distribuição de médias amostrais, como em qual-
quer outra distribuição, há outras medidas importantes para que possamos
entendê-la: as medidas de dispersão.

Assim, no gráfico acima, temos a média das médias amostrais, e também
temos um desvio padrão da mesma que vai ser menor que o desvio padrão
da média de uma população. Isso se dá por que numa distribuição de médias
amostrais, estamos lidando com estatísticas e não, com dados brutos.
Logo, a amplitude, ou seja, a dispersão dos dados em uma população real

vai ser bem maior do que um desvio padrão calculado apenas através de
médias de várias amostras.
Por exemplo, se usarmos, novamente, nosso exemplo da altura dos habitan-

tes de uma cidade, a média amostral mais baixa nunca vai ser igual à altura
do habitante mais baixo, pois a pessoa não foi medida sozinha. O mesmo
vale para o habitante mais alto. Digamos que, naquelas dez amostras que
coletamos, a pessoa mais baixa (um jóquei) medisse 1,42 m e a mais alta
(um jogador de basquete) 1,98 m. Mas a média amostral mais baixa foi
de 1,57 m e a mais alta, de 1,77 m. Sendo assim, a distribuição de médias
amostrais sempre vai ser menos dispersa que a distribuição dos dados bru-
tos de uma população.
O Erro Padrão e a Estimativa da Média

da População
Como vimos, a distribuição de uma estatística amostral vai ter uma média
e um desvio padrão próprios. A média dessa distribuição de estatísticas, no
caso, de médias amostrais, vai ser a média populacional. Mas o desvio pa-
drão da distribuição de estatísticas vai ser menor do que o desvio padrão da
população.
Para evitar confusão, chamamos o desvio padrão de uma distribuição de

estatísticas de erro padrão (representado por SE, do inglês standard error)
e usamos o termo “desvio padrão” apenas para distribuições amostrais. A
ideia do erro padrão é nos permitir saber as chances de que uma particular
média amostral seja muito maior ou muito menor que a média populacional.
Vimos em aulas passadas que, numa distribuição normal, 68% dos dados
encontram-se a um desvio padrão para mais ou para menos da média, ou
seja, estão dentro de ± s. Já que a distribuição de médias amostrais tam-
bém é uma curva normal, 68% dos dados (as médias amostrais) estarão um
erro padrão para mais ou para menos da média populacional (µ ± SE, fig.
12).

Figura 12: Área em uma curva de distribuição de médias amostrais coberta pela mé-
dia, mais ou menos um erro padrão.
Devemos sempre lembrar que a área sob uma curva normal equivale a 1, ou
100% da distribuição. Da média para cima, estão 50% dos dados; da média
para baixo, os outros 50%. Digamos que queremos saber qual a probabili-
dade de nossa amostra ter uma média maior que m+SE.
A lógica é simples. Se 68% dos dados estão um erro padrão longe da média,
a área coberta por +SE = 34% e por –SE = 34%, pois 34%+34% = 68%. A
área correspondente às médias amostrais menores que µ+SE vai ser a soma
de toda a área abaixo da média (50%) somada à área do erro padrão po-
sitivo (34%), ou seja, 50%+34% = 84%. Assim, a probabilidade de nossa
amostra ter média maior que µ+SE é igual a 100% - 84% = 16%. Podemos
usar o mesmo método para saber a probabilidade de nossa amostra ter mé-
dia menor que µ-SE, ou outras combinações.
O erro padrão depende de dois valores: o desvio padrão da amostra que

coletamos (que, teoricamente, é uma das várias amostras possíveis dentro
de uma distribuição de estatísticas amostrais) e o tamanho da amostra. O
erro padrão é menor que o desvio padrão, como vimos antes, pois a variação
dentro da amostra é maior que entre as médias amostrais.
Então, o tamanho da amostra é, extremamente, importante, pois quanto

maior a amostra, mais nos aproximamos dos valores da população. Para

calcular o erro padrão, usamos o desvio padrão da amostra dividido pela
raiz quadrada do tamanho da amostra. Isso ocorre por que não sabemos se
erramos para mais ou para menos, quando usamos uma estatística amostral
para estimar um parâmetro. A fórmula do erro padrão é bem simples:
Se, por exemplo, temos amostra de 100 notas de provas com uma média de
50 pontos e desvio padrão de 15 pontos, podemos esperar que as médias de
todas as amostras desse tipo tenham um erro padrão de:
pontos.
Por causa da raiz quadrada no denominador dessa fração, se quisermos di-

minuir o erro pela metade, teremos que quadruplicar o tamanho da amostra:
pontos.
Podemos dizer, agora, que µ±SE contém 68% de todas as médias amostrais
da população de que coletamos nossa amostra. Também diremos que há
uma probabilidade de 68% de que a média da população estará dentro
da amplitude da média de nossa amostra, mais ou menos o erro padrão.
Os valores resultantes são os limites de nosso intervalo de confiança, no
caso, um intervalo de confiança de 68%, pois estamos 68% confiantes que
a média populacional vai estar entre esses valores.
Vejamos o gráfico abaixo (fig. 13): nele temos as médias de quatro amos-
tras ( 1, 2, 3 e 4) e uma barra de erro padrão, que mostra a amplitude
coberta por ±SE. Para as amostras 2 e 3, a média populacional está dentro
desse intervalo.

Figura 13: Posição das médias de quatro amostras em relação ao intervalo de con-
fiança de 68%, em uma curva de distribuição de médias amostrais.
Vemos então que, com um intervalo de confiança de 68%, há uma proba-

bilidade ainda alta (34%, mais do que uma chance em três) de nossa média
amostral, mais ou menos o erro padrão, não conter a média populacional.
As amostras 1 e 4 estão fora dos limites entre a média populacional e o erro
padrão. Um intervalo de confiança de 68%, portanto, não é muito confiável
para uma estimativa.
Se quisermos ficar ainda mais confiantes de nossa estimativa para a média

da população, devemos ampliar esse intervalo de confiança, para torná-lo
mais abrangente. Fazemos isso, aumentando o número de erros padrão que
fazem os limites de nosso intervalo.
Por exemplo, usando os dados da amostra de 100 notas de provas, nosso

intervalo de confiança de 68% diz que a média da população está entre
±SE, ou seja, entre 50 - 1,5 = 48,5 ( -SE) e 50 +1,5 = 51,5 ( +SE) pontos.
Se quisermos aumentar nossa confiança de “pegar” a média populacional,

podemos usar ±2SE; nesse caso, o intervalo vai de 50 – 3,0 = 47 até 50 +
3 = 53 pontos, subindo para 95,4%. Assim, a probabilidade da média popu-
lacional estar fora desse intervalo é de 4,6%.
Podemos ainda usar um intervalo de confiança de 99,7%: ±3SE. Nele,

podemos afirmar que a média populacional das notas dos alunos estaria
entre 50 – 4,5 = 45,5 e 50 + 4,5 = 54,5 pontos. A probabilidade aqui de
não termos a média populacional dentro desse intervalo é de apenas 0,3%.

Pode parecer pouco, mas uma probabilidade de 0,3% de algo acontecer sig-
nifica que o evento tem três chances em mil de acontecer. Nunca podemos
ter certeza absoluta de que temos a média populacional em um intervalo de
confiança, mas podemos estimar esse valor com uma probabilidade muito
pequena de estar completamente errados.
Em análises estatísticas, geralmente, usamos intervalos de confiança de 95%

ou 99%, o que é o suficiente para que tenhamos uma boa ideia dos parâ-
metros populacionais.
Outros parâmetros de uma população podem ser estimados de forma muito

semelhante à que usamos para estimar a média populacional. Um que pode
ser usado em muitas situações diferentes é a proporção, que é o valor que
usado, quando estamos estudando uma variável categórica.
Por exemplo, digamos que queremos saber a proporção de indústrias com

programas de reciclagem em vários municípios. Essa proporção vai variar de
um município para outros – 0,19 em um, 0,23 em outro, 0,21 em um tercei-
ro e assim por diante. Mas a distribuição de todas as proporções vai seguir
o teorema do limite central e vai estar distribuída em torno da verdadeira
proporção de todas as indústrias em todos os municípios que possuem pro-
gramas de reciclagem. Ainda, podemos usar o erro padrão da proporção
para calcular nosso intervalo de confiança, se acharmos que a proporção é
verdadeira.
Como não há variabilidade em uma amostra de um valor proporcional, não

podemos calcular o erro padrão, usando o desvio padrão da amostra, o
qual é calculado através da multiplicação da proporção de interesse pela
proporção restante, dividindo o resultado pelo número de casos da amostra
e tomando a raiz quadrada.
Por exemplo, se uma amostra aleatória de 100 indústrias mostrou que 20

têm programas de reciclagem e 80 não têm, o erro padrão da proporção
será:

Se quisermos ter 99% de confiança sobre a proporção real de programas
de reciclagem na indústria, dizemos que a proporção está no intervalo de
0,2±2,5 (0,04) = 0,10 a 0,30, ou de 10 a 30%.
Tamanho das Amostras

O tamanho das amostras, como vimos, é fundamental para termos uma boa
ideia da população que estudamos. Há vários métodos para calcular o ta-
manho de uma amostra em relação à população estimada total, mas, regra
geral, quanto maior a amostra, maior a precisão das estimativas.
Alguns testes estatísticos requerem um tamanho amostral mínimo de 30

medições. Amostras menores devem cumprir outras regras (como uma dis-
tribuição normal) para poder ser testadas.
Quando o tamanho total da população é conhecido, o ideal é que a amostra

corresponda ao menos a 5% da população total.
Alguns experimentos precisam ser feitos com tamanhos amostrais muito pe-
quenos, como testes de remédios e outros envolvendo animais de laborató-
rio. Nesses casos, devem-se tomar cuidados especiais para validar a amostra.
Mas é possível conseguir resultados relevantes com amostras de até quatro
medições, desde que certas precauções sejam tomadas e que a interpreta-
ção dos resultados seja comedida.
Resumo
A análise de amostras retiradas de uma população pode servir de base para
a estimação de parâmetros populacionais através das estatísticas amostrais.
O tamanho da amostra é fundamental para que seja válida na estimação dos

parâmetros com base nas estatísticas.
A Estatística se baseia na Probabilística para assumir que muitas variáveis

vão ter um padrão de distribuição normal, simétrico, que pode ser descrito,
usando-se a média e o desvio padrão.
Os pressupostos matemáticos sobre a distribuição normal permitem o cálcu-

lo da significância de testes de hipóteses.
Muitas variáveis não apresentam uma distribuição normal, mas podem ser
bimodais ou assimétricas. Os métodos para se trabalhar na estimação de pa-

râmetros populacionais com base em amostras não normais são diferentes
dos usados em distribuições normais.
Parâmetros populacionais são estimados com base nas distribuições estima-

das de médias amostrais, que usa o erro padrão, em vez do desvio padrão,
como medida de dispersão.
Referências
CHATFIELD, C.: Problem Solving – A Statistician’s Guide. London: CHAPMAN & HALL.
1991.
LEME, R. A. DA S.: Curso de Estatística – Elementos. Rio de Janeiro: AO LIVRO TÉCNICO.
1967.
LEVIN, J.: Estatística Aplicada às Ciências Humanas. São Paulo: HARPER & ROW DO
BRASIL. 1978.
SPIEGEL, M. R.: Estatística. MAKRON. 1994.
VIEIRA, S. M.: Introdução à Bioestatística. 3ª edição. São Paulo: EDITORA CAMPUS. 1998.


Estatística - Parte 6

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Estatística - Parte 6

Caricato da

Copyright:

Formati disponibili

Aula 5 - Distribuições

• Compreender a aplicação dos teoremas fundamentais da proba-

• Conhecer os diversos tipos possíveis de distribuições amostrais;

• Compreender como são estimados e com que acurácia, os parâ-

Amostra e distribuição de amostras

Estatística 103 UAB

Figura 1: Curva normal de distribuição da distância entre 319 domicílios e um oleo-

Podemos notar que a curva é simétrica, apresentando frequências maiores

Notem que as “caudas” da curva normal, em direção aos extremos, nunca

UAB 104 Licenciatura em Matemática

A área sob a curva é a soma de todas as probabilidades de todas as distân-

Uma curva normal representa a distribuição em uma população, como já

Se somarmos ou subtrairmos o desvio padrão do valor da média, em uma

Figura 2: Proporção de dados, em uma distribuição normal, inseridos nos intervalos

Estatística 105 UAB

No final de todo livro de Estatística, há uma tabela, mostrando os valores de

No entanto, as estatísticas que usam o valor z assumem que parâmetros

Nem toda distribuição amostral, no entanto, é do tipo normal, mesmo que

UAB 106 Licenciatura em Matemática

Já na curva assimétrica à esquerda, a mediana é mais baixa que a média e

Figura 4: Curva de distribuição de probabilidades assimétrica à esquerda, com as

Quando descobrimos, durante a análise descritiva, que há essa diferença en-

O tamanho das “caudas” de uma distribuição de probabilidades é chamado

Estatística 107 UAB

Figura 5: Curva de distribuição de probabilidades do tipo leptocúrtica.

Nesse tipo de distribuição, a amplitude total é grande, mas valores extremos

Quando as caudas de uma distribuição são curtas, temos uma distribuição

Figura 6: Curva de distribuição de probabilidades do tipo platicúrtica.

Aqui, a maioria dos dados está além de ± s (podendo estar em ± 2s ou

UAB 108 Licenciatura em Matemática

Outros Tipos de Distribuição

Figura 7: Histograma de frequências absolutas do número de sementes em 25 vagens

Outro tipo de distribuição encontrado, comumente, em amostras nas Ci-

Nela, os valores mais frequentes não estão no meio da distribuição e não

Estatística 109 UAB

Figura 8: Histograma de frequências absolutas do número de filhotes em 25 ninha-

Aplicação dos Conceitos de Distribuição

Porém, o cálculo estatístico é muito mais complexo que o binômio de

Se criarmos uma tabela de frequências e, posteriormente, um gráfico de bar-

UAB 110 Licenciatura em Matemática

Para o uso de testes de significância, no entanto, o mais correto é testar a

Esses conceitos de probabilidades e distribuição são, primariamente, usados

Apesar da maioria dos testes de hipóteses ser baseada na suposição de que

Estatística 111 UAB

Em 1805, Adrien-Marie Legendre (1752-1833), matemático francês, intro-

Esse é um exemplo da chamada “Lei de Stigler”, que diz que as grandes

UAB 112 Licenciatura em Matemática

Mas nem sempre é na forma da distribuição amostral que estamos inte-

A resposta mais simples é não, pois, como vimos, se coletarmos amostras

Média Amostral e Distribuição de Médias

Estatística 113 UAB

Mas, se fosse obrigada a “chutar” um valor, a arqueóloga não teria outra

Escavando outro sítio arqueológico da mesma civilização antiga, no entan-

Mas como medir toda a população de artefatos arqueológicos, ou coletar

UAB 114 Licenciatura em Matemática

Vamos entender a lógica da amostragem, pesquisando a média de altura

No terceiro dia, sem que soubéssemos, o sindicato dos jóqueis de cavalos

Se agruparmos nossos resultados, teremos uma amostra total de 100 pesso-

Estatística 115 UAB

Uma curva de distribuição de médias amostrais vai ser semelhante a uma

Já as outras amostras apresentavam valores bem próximos da média das

UAB 116 Licenciatura em Matemática

Na vida real, no entanto, nunca encontramos uma distribuição de médias

Vamos olhar novamente para o gráfico acima. Qual probabilidade é maior: a