Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
MEDIDAS DE POSIÇÃO
CONCEITO São medidas denominadas de estatísticas, que dão uma idéia condensada
de todo o conjunto de dados. Também são conhecidas como medidas de
localização, e em conjunto com as medidas de dispersão formam as
medidas resumo.
Média
Medidas de Tendência Central:
Mediana assim chamadas porque estão no
valor central de um conjunto de
Moda dados ordenado, ou o mais próximo
dele.
• Quartil
Separatrizes: assim chamadas porque
• Decil separam, dividem um conjunto de dados
ordenado em partes percentuais iguais.
• Percentil
Medidas de Tendência Central para Dados Isolados (dados que não estão em intervalos ou faixas)
1. Média
É o valor que pode substituir todos os valores da variável, isto é, é o valor que a variável teria se em vez
de variável ela fosse constante. A média torna todos os valores de um conjunto de dados iguais a um
único valor, que é resultante da operação de cálculo.
Existem vários tipos de médias: aritmética, geométrica e harmônica. Estudaremos a média aritmética
simples.
Média Aritmética: é o resultado da soma de todos os valores dos dados dividido pelo número de dados.
É a mais utilizada e geralmente quando se menciona o termo média, refere-se à aritmética.
∑x i
n
Onde,
5 6 4 5 7 8
A amostra tem 6 elementos (seis macacos), então n=6. Significa que i= macaco 1, 2, 3, 4, 5 e 6 ou seja,
x= peso em Kg de macacos adultos é a variável a ser conhecida, será representada individualmente pelo
peso de cada macaco da amostra (x1 x2 x3 x4 x5 e x6). Desse modo,
5 6 4 5 7 8
x1 x2 x3 x4 x5 x6
∑x i
Colocando os valores no modelo de cálculo da média temos x =
i =1
6
x1 + x2 + x3 + x4 + x5 + x6 5 + 6 + 4 + 5 + 7 + 8 35
x= = = = 5,83Kg
6 6 6
Significa que o grupo de macacos da APA pesam em média 5,83Kg. Todos os macacos terão esse valor
para representar o seu peso.
Verifique que, ao ordenar os dados de forma crescente, o valor da média encontrada estará no centro dos
valores do conjunto de dados. Por esse motivo a média é uma medida chamada de tendência central:
4 5 5 5,83 6 7 8
Centro
Mas é preciso ter cuidado ao utilizar a média em pesquisas, pois é uma medida que sofre a influência de
valores muito pequenos ou muito grandes presentes em um conjunto de dados. Isso faz com que haja
uma distorção nos resultados. Falaremos desse assunto após conhecermos as outras medidas de
tendência central.
2. Mediana
É o valor central dos valores ordenados (de forma crescente ou decrescente), que estabelece um limite
que separa os dados em metade superior (50%) e metade inferior a ele (50%). É simbolizado pela sigla
Me ou por ~ x.
50% dos valores do conjunto de dados estão abaixo do valor da Me 50% dos valores do conjunto de dados estão acima do valor da Me
Exemplo: 3 4 5 6 7
↑é o valor mediano desse conjunto de dados, observe que está no centro.
Por isso é uma medida de tendência central.
Para encontrar a posição do elemento mediano em um conjunto de dados com número ímpar de
elementos usamos o seguinte modelo matemático:
n +1
PEMe = Onde PEMe = Posição do Elemento Mediano
2
n= número de elementos que compõem o conjunto de dados (população ou amostra)
Exemplo: suponha que a amostra do grupo de macacos pesquisado na APA, fosse de 5 elementos. O
elemento que será o peso mediano é:
n +1 5+1 6
PEMe = = = = 3 a posição ,
2 2 2
Portanto, o peso mediano desse grupo de maçados é de 5Kg. Significa que 50% dos macacos do grupo
possuem peso igual ou abaixo de 5Kg, e 50% dos macacos do grupo possuem peso acima de 5Kg.
Se não fosse utilizado o fator de correção +1, a posição do elemento seria: 5/2= 2,5aposição. Observe
que para esta posição o valor do elemento estaria deslocado do centro do conjunto de dados, não iria
representar uma divisão exatamente ao meio com 50% para cada lado em relação ao valor.
Observe que o cálculo feito apenas encontra a posição do elemento mediano, e não o seu valor. O valor
é encontrado por meio da visualização do conjunto ordenado, onde identificamos qual é o valor que está
na posição encontrada no cálculo. Cuidado para não confundir a posição com o valor do dado mediano.
Para encontrar a posição do elemento mediano em um conjunto de dados com número par de
elementos usamos o mesmo modelo matemático. Assim, considerando a amostra do peso de seis
macacos:
n +1 6+1 7
PEMe = = = = 3,5 a posição. O valor do peso mediano está entre a 3ª e a 4ª posição
2 2 2
O valor da mediana corresponderá à média aritmética entre os valores encontrados nas posições:
5 + 6 11
Me = = = 5,5 Kg .
2 2
3. Moda
É o valor que apresenta a maior frequência no fenômeno estudado. É a única medida de tendência
central que pode ser aplicada a todos os níveis de medida (nominal, ordinal, intervalar e racional). É
r
simbolizado pela sigla Mo ou por x .
O peso modal é 5Kg, porque é o peso que aparece com maior freqüência (2 vezes). O conjunto de dados
com uma única moda é chamado de UNIMODAL.
A moda (para dados isolados) é estimada pela simples inspeção dos dados, observando-se qual o valor
onde há maior número de freqüência. Não há cálculo.
Observe que o valor modal tende a ser um número central ou o mais próximo do centro do conjunto de
dados, por isso a moda também é uma medida de tendência central.
Voltemos a falar sobre o cuidado ao utilizar a média em pesquisas, pois é uma medida que sofre a
influência de valores muito pequenos ou muito grandes presentes em um conjunto de dados. Isso faz
com que haja uma distorção nos resultados.
Para ilustrar, suponha um estudo realizado em três regiões geográficas diferentes, para estimar o número
de uma espécie de pássaro. Em cada região foram selecionadas cinco áreas, onde o número de pássaros
foi contado, obtendo-se os seguintes resultados:
B 1 2 2 3 4 2,4 2 2
C 1 2 3 3 31 8 3 3
Observe que o valor da média de pássaros da região C ( x = 8) foi muito influenciada pelo valor da
contagem da área 5 (n=31), que é bem maior que os demais valores do conjunto de dados dessa região.
A idéia que esse resultado passa é que em toda a região C o número de pássaros é maior que nas demais
regiões, o que não é verdade porque apenas uma área da região C apresentou alta contagem de número
de pássaros.
Quando em uma amostra ou dado da pesquisa encontramos um valor muito elevado ou muito pequeno
em relação aos demais valores do conjunto de dados estudados, dizemos que é um valor discrepante,
também chamado de valor extremo ou outlier. É o que ilustra bem o valor n=31 da área 5 em relação
aos demais valores de contagens de pássaro das outras áreas da região C. E para todo o conjunto das
regiões, este valor também é valor extremo.
Sobre cuidados ao utilizar e interpretar as medidas de tendência central (média, mediana e moda), leia a
crítica de Ubaldo Ribeiro no texto complementar da p.54.
SEPARATRIZES
Existem diversas situações nas quais o interesse principal é a posição relativa de um elemento no grupo,
e não o desempenho do grupo como um todo. A interpretação de um resultado isoladamente é
impossível, sendo necessário indicar a posição específica que um determinado resultado ocupa no grupo
através de medidas que possibilita interpretar o seu significado.
Essas medidas são denominadas de separatrizes, pois separam a distribuição em partes percentualmente
iguais. As mais utilizadas são:
Quartil: divide o conjunto de dados ordenados em 4 partes iguais, de 25% cada parte . Os valores são
identificados por Q1 (25% dos dados estão abaixo do valor do 1ºquartil); Q2 (50% dos dados estão
abaixo do valor do 2ºquartil, observe que o Q2 é a mediana) e Q3 (75% dos dados estão abaixo do valor
do 3ºquartil). Não existe Q4.
Q1 Q2 Q3
25% 25% 25% 25%
i×n
Para o cálculo da posição do Quartil: PEQ i = Onde, i = quartil que se deseja obter (i=1,2,3)
4
n = quantidade de elementos observados, ou
tamanho da amostra
Decil: divide o conjunto de dados ordenados em 10 partes iguais, cada parte com 10% dos valores do
conjunto de dados. Os valores são identificados por D1, D2, D3,..., D9. Não existe D10.
D1 D2 D3 D4 D5 D6 D7 D8 D9
10% 10% 10% 10% 10% 10% 10% 10% 10% 10%
i ⋅n
Para a posição do Decil: PEDi = Onde, i = decil que se deseja obter (i=1,2,3,...,9)
10
Centil ou Percentil: divide o conjunto de dados ordenados em 100 partes iguais, cada parte com 1%
dos valores do conjunto de dados. Os valores são identificados por P1, P2, P3,..., P99.
i ⋅n
Para a posição do percentil: PEPi = Onde, i = centil que se deseja obter (i=1,2,3,...,99)
100
Exemplo de uso das separatrizes: suponha que um entomologista selecionou 50 exemplares de uma
espécie de inseto, de mesma ninhada e período de eclosão dos ovos. Submeteu os insetos às mesmas
condições ambientais e nutricionais, para estimar o tempo de vida (longevidade) da espécie. Ao final do
experimento, o pesquisador obteve os seguintes dados de longevidade (em dias de sobrevivência para
cada exemplar).
16 17 18 18 18 20 20 21 21 21
22 23 23 24 24 25 25 26 26 27
27 27 28 29 30 31 31 33 33 34
36 36 37 38 38 41 42 42 43 45
45 46 47 50 52 53 59 61 65 70
Determinando-se o 1º e 3º quartis:
1 x 50
PEQ 1 = = 12,5ª posição , o valor está entre os valores da 12ª e 13ª posição dos elementos
4
ordenados de forma crescente (23 e 23 respectivamente). Assim, Q1= 23 dias.
Significa que 25% dos insetos tiveram um tempo de vida igual ou menor que 23 dias, e 75% período de
vida igual ou maior que 23 dias.
3 x 50
PEQ 3 = = 37,5ª posição , o valor está entre os valores da 37ª e 38ª posição dos elementos
4
ordenados de forma crescente (42 e 42 respectivamente). Assim, Q3= 42 dias.
Significa que 75% dos insetos tiveram um tempo de vida igual ou menor que 42 dias, e 25% período de
vida igual ou maior que 23 dias.
Entre 23 e 42 dias é o período de tempo que viveram 50% dos insetos, excluindo-se 25% dos menores
períodos e 25% dos maiores períodos de longevidade.
Exemplo 1
É muito comum o uso das separatrizes na área da Economia, principalmente em estudos de séries de
tempo, pois o fracionamento percentual dos dados facilita observar se houve mobilidade ou
permanência de valores de um fenômeno econômico.
Rendimento Real Trimestral Máximo e Mínimo dos Ocupados e dos Assalariados no Trabalho Principal (1)
Região Metropolitana de Salvador
2010
Jan-2010 314 492 677 1.256 2.161 492 534 785 1.323 2.390
Fev 312 528 680 1.177 2.123 492 534 780 1.270 2.329
Mar 311 529 680 1.244 2.223 529 534 777 1.258 2.420
Abr 310 525 676 1.210 2.274 525 530 743 1.248 2.409
Mai 309 523 694 1.230 2.384 523 528 747 1.253 2.395
Jun 308 522 699 1.230 2.370 522 525 771 1.302 2.389
Jul 308 523 718 1.237 2.389 523 526 783 1.345 2.563
Ago 309 526 718 1.237 2.268 524 526 809 1.363 2.466
Set 308 525 719 1.238 2.272 525 526 805 1.358 2.479
Out 308 523 703 1.237 2.160 523 525 801 1.340 2.377
Nov 305 519 712 1.231 2.257 519 526 814 1.334 2.383
Dez 304 518 711 1.231 2.298 517 528 812 1.339 2.441
Fonte: PED-RMS – Convênio SEI, Setre, Dieese, Seade, MTE/FAT.
(1) Inflator utilizado: IPC - SEI; valores em reais de janeiro de 2011.
(2) Excluem os assalariados e os empregados domésticos assalariados que não tiveram remuneração no mês, os trabalhadores familiares sem
remuneração salarial e os trabalhadores que ganharam exclusivamente em espécie ou benefício.
(3) Excluem os assalariados que não tiveram remuneração no mês.
Observe que houve pouca mobilidade econômica para os trabalhadores. A melhoria salarial não é
significativa, pois a tendência revela decrescimento, ou seja perda de rendimentos.
Exemplo 2
A decisão sobre qual medida empregar envolve a consideração de uma série de fatores:
• estabilidade da medida;
• manipulação subseqüente (se os resultados servirão para outros cálculos e para inferência);
• objetivo da pesquisa (apurar os resultados de forma mais sofisticada ou comunicá-los de forma mais
simples).
A mediana é mais apropriada quando a assimetria é acentuada; os valores (limites) extremos da primeira
e última classes não são definidos, e quando o nível de mensuração é ordinal.
A moda é empregada em situações em que uma estimativa rápida e grosseira da medida central é
suficiente; os dados atingem apenas o nível nominal ou o caso típico é desejado.
Além dessas regras, deve-se examinar cada distribuição de dados e o objetivo específico do estudo. O
ideal não é optar entre as medidas, mas usá-las todas, quando o nível de mensuração permite, pois cada
uma fornece uma visão parcial dos dados e elas se complementam umas às outras.
BIBLIOGRAFIA CONSULTADA:
AKAMINE, Carlos e YAMAMOTO, Roberto. Estatística descritiva. São Paulo: Érica, 1998, p.139-80.
BUNCHAFT, Guenia. Estatística sem mistério. Petropólis, RJ: Vozes, 1998, p.107-53.
PEREIRA, Wilson e TANAKA, Oswaldo. Estatística. São Paulo: Mc-Graw Hill do Brasil, 1990, p.73-
120.
Texto complementar
"Às vezes fico meio sem jeito para tratar de certos assuntos aqui, achando que vou chover no
molhado ou repetir coisas que todo mundo sabe. Mas, em outras ocasiões, me bate sensação oposta, a de
que a maioria não sabe. Hoje, por exemplo. Fico lendo os jornais, ouvindo comentários e sendo alvejado
por declarações pomposas não contestadas por ninguém e penso que de fato conseguiram fazer um
Brasil virtual, distinto do real. Aí corro o risco de provocar tédio nos que de fato já sabem como somos
tapeados, e pouca serventia virá a ter a coluna de hoje. Mas faz parte, vamos lá.
Fala-se muito mal da Estatística. De um lado, constitui grande injustiça para com uma ciência
sem a qual hoje talvez nem sobrevivêssemos direito. De outro, trata-se da compreensível reação contra a
maneira pela qual a Estatística é usada e abusada para "provar" o duvidoso e manipular a chamada
realidade objetiva. Compreendo o sujeito que disse, como já lembrei aqui antes, que a Estatística é a arte
de mentir com precisão, porque de fato o seu uso inescrupuloso e falsário equivale a isso.
Começo lembrando a famosa média. Em grande parte dos casos em que ela é empregada em
indicadores sociais e econômicos, não quer dizer nada, ou melhor, quer dizer muito pouco. Se Bill Gates
passasse a ser residente da cidade de Itaparica, teríamos talvez a renda per capita mais alta do planeta
ou com certeza uma das mais altas, sem que um itaparicano sequer passasse a ganhar mais um centavo.
Isso porque a renda per capita é uma média aritmética e, por conseguinte, sensível em excesso aos
valores extremos. Então, numa população em que um ganha por mês um milhão de borodongas e os
outros cinco borodongas cada, falar em renda per capita é ridículo.
Precisamos, portanto, saber da mediana. Talvez por às vezes revelar-se incomodativa, não é
muito mencionada, notadamente em estatísticas oficiais. A mediana dá mais peso e significado à média.
É o valor que se encontra exatamente no meio dessa coletividade. Ou seja, não é bastante saber que a
renda média é 1.000. É preciso saber também (estou simplificando e peço desculpas a estatísticos e
matemáticos em geral) o valor que divide esses indivíduos pela metade, ou seja, o ponto em relação ao
qual exatamente a metade ganha menos e a metade ganha mais. Quando a média é próxima da mediana,
isso significa que a distribuição é mais ou menos simétrica. Quando não, a distribuição é tortinha. Logo,
a mediana pode, por exemplo, desmoralizar a renda per capita, se demonstrar que metade da população
ganha muito abaixo desta e a outra metade muito acima. Mas ninguém fala na mediana.
Também tem, desculpem, a moda. Não a moda fora da qual estou, mas a moda estatística
mesmo, ou seja, o valor mais freqüente, o que mais ocorre numa população determinada. Assim, se a
renda média dos habitantes da próspera comunidade de Lulalápolis, é R$ 1.000 por mês, mas a mediana
é 100 e/ou a moda é oitentinha, já vemos bem como podemos (e somos) ser engabelados. É por isso que
até a Bethânia, que não é de sair por aí falando ou fazendo manifestações, se revelou na imprensa um
pouco irritada com esse país maravilhoso (virtual, estatisticamente siliconado, digo eu) a que ela não
consegue chegar.
Também convivemos acriticamente com uma porção de chutes que desonram e desmerecem a
Estatística, tais como a conversão de coexistência numa relação de causa e efeito. É como o torcedor do
Flamengo achar que a causa da vitória do time dele foi ter entrado um urubu em campo, logo antes do
jogo. Não vamos discutir com torcedor, tudo bem. Mas coisas boas que acontecem são vinculadas a
outras de maneira absolutamente arbitrária e aí, em propaganda comercial por exemplo, para esquecer
um pouco a política, acabamos acreditando em afirmações que não passam de reformulações de
vigarices como "todos os que morreram de enfarte do miocárdio no ano passado faziam uso de água".
Verdade, mas claro que não prova que tomar banho faz mal ao coração. Com espertas artes, porém, nos
enrolam muito nessa linha.
E as categorias? O sujeito enche a boca e diz: "Depois de tantos anos de meu governo, o número
de ricos cresceu em 20% e o de pobres diminuiu em 32%." Além dos probleminhas de média, mediana e
moda, que sempre estão rondando, é muito fácil (e é isso que se faz) dizer que rico é quem ganha mais
de R$2.000 por mês. Fico até admirado por não haverem proposto R$ 1.500, porque o número de ricos
ia bombar. Até a felicidade é quantificada e lemos a sério, como parvos, que o povo tal tem o maior
índice de felicidade do mundo ou semelhantes despautérios.
E a coleta dos dados? Desde antes da definição das categorias e das perguntas, desde o início do
planejamento, um dos maiores problemas que o estatístico sério encontra é a feitura de uma coleta de
dados "neutra", que não influencie as respostas. Em rigor, impossível, porque até condições
meteorológicas podem influir nas respostas. As próprias perguntas podem induzir a determinado tipo de
resposta. A roupa, o sexo, a idade, o sotaque, o local, a época, a hora, as palavras e expressões usadas, a
ordem das perguntas, o tamanho do questionário, e centenas de outros fatores podem, mesmo nas
pesquisas mais honestas e cientificamente orientadas, levar à distorção de resultados. Há até, em
confusão com esses e outros fatores, o perigo de o entrevistado querer responder o que acredita que se
espera dele e não o que de fato pensa.
Há muito mais, um dia desses falo mais. Enche mesmo o saco nos tratarem como a uma tropa de
burros, que não somos. Somos, sim, otários, comodistas, coniventes e subservientes, mas isso já é outro
problema."■
Em nosso estudo sobre as medidas de posição observamos que é preciso tomar cuidado com o
uso da média e sua interpretação, pois como é influenciada por valores extremos esconderá muitos
aspectos métricos sobre o conjunto de dados. Observemos mais um exemplo, para entendermos porque
a média necessita de outras medidas estatísticas que auxiliem em seu uso e interpretação.
Suponha que em duas regiões geográficas diferentes subdivididas em cinco áreas, o número de
uma espécie de planta encontrada por área foi:
Se considerarmos apenas o número médio de plantas encontradas, diríamos que as duas regiões
são iguais em relação à ocorrência do número dessa planta. Contudo, pela contagem individual em cada
área verificamos que há diferenças de dispersão e concentração do número de plantas em cada área das
duas regiões. Por esse motivo precisamos medir o padrão de dispersão do conjunto de contagem de cada
região.
É o que faz as medidas de dispersão, também como forma de resumir as informações presentes
em um conjunto de dados. As medidas de dispersão de uma distribuição são os valores que indicam o
grau de afastamento dos valores da variável em relação à média do conjunto de dados.
1. variância
2. desvio padrão
3. coeficiente de variação
1. Variância:
é o desvio quadrático médio dos dados em relação à média. Expressa a variabilidade dos dados como
uma grandeza elevada ao quadrado (exemplo: altura2). Por esse motivo é uma medida de difícil
interpretação universal.
n
∑ (xi − x )
2
Onde:
s2 = símbolo da variância amostral
Σ = somatório dos valores da diferença entre os valores individuais e a média amostral
xi = valor de cada elemento da amostra
x = símbolo da média amostral
n -1= graus de liberdade, que é uma correção para o valor do cálculo na amostra
Região A Região B
( xi − x ) ( xi − x ) 2 ( xi − x ) ( xi − x ) 2
4 – 6 = -2 4 2 – 6 = -4 16
5 – 6 = -1 1 4 – 6 = -2 4
6–6=0 0 6–6=0 0
7–6=1 1 8–6=2 4
8–6=2 4 10 – 6 = 4 16
Σ 10 Σ 40
s2 = i =1
s2 = i 1=
n −1 n −1
10 40
s2 = = 2 ,5 plantas 2
s2 = = 10 plantas 2
5 −1 5 −1
2. Desvio Padrão: de todas as medidas de dispersão esta é a mais utilizada, e é definida como a raiz
quadrada da variância. Ela exprime o resultado na mesma medida da variável em estudo, ao contrário da
variância. Por esse motivo é mais utilizada, permite uma interpretação universal do resultado.
n
∑ (x i − x)
2
Para o nosso exemplo do número de uma espécie de plantas por região temos os seguintes desvios
padrão por região:
n n
∑(x i − x )2 ∑ (x i − x )
2
s = i =1
s= i 1
=
n −1 n −1
10 40
s = = 1,58 plantas s = = 3,16 plantas
5 −1 5 −1
Estes resultados indicam que em torno do número médio da espécie de planta existente na região A a
variabilidade de plantas é de 1,58 plantas; já em torno da média da região B é de 3,16plantas. A região B
tem maior dispersão de número de plantas, é o dobro da dispersão encontrada na região A.
Esses resultados são expressos na forma de um intervalo de valores em torno da média, pois a dispersão
pelo desvio padrão indicará quantos elementos estão abaixo e acima da média encontrada. Assim,
s
Modelo para o cálculo do: CV = × 100
x
Para o nosso exemplo do número de uma espécie de plantas por região, a dispersão do número de
plantas em torno da média por região, em termos percentuais é de:
sA 1,58
Região A: CV A = × 100 = × 100 = 26,33%
xA 6
sB 3,16
Região B: CVB = × 100 = × 100 = 52,67%
xB 6
Observação: tratamos a comparação entre médias e medidas de variabilidade de modo bem simples.
Porém, estatisticamente, é preciso fazer testes mais apurados para comparar e detectar as diferenças, o
que é feito por meio dos testes de hipóteses de médias (que serão vistos no capítulo de probabilidade), e
teste de variância por ANOVA.
Este é um gráfico mais elaborado do que o dot-plot, usando algumas medidas obtidas dos dados, a saber:
mediana, 1°quartil, 3°quartil, valor máximo e valor mínimo. Colocamos sobre a reta essas cinco
medidas e traçamos um retângulo com extremos em Q1 e Q3, marcondo dentro dele o lugar
correspondente à mediana. Em seguida marcamos sobre a reta dos valores (Q1 – 1,5(Q3-Q1)) e
(Q1 + 1,5 (Q3-Q1)). Os valores dos dados que estiverem acima ou abaixo desses dois valores calculados
serão considerados como valores extremos (outliers).
100
Sobrevivência em dias da Coytiera pertusa
11
80
60
40
20
0
N= 8 8 8 8
1 2 3 4
Fonte: Terra e Sousa, 2004. Sobrevivência de Coytiera pertusa e de Percolapsis ornata segundo a ontogênese das folhas de
cacau (Theobroma cacao) e de ingá (Inga ebulis) usadas na alimentação em cativeiro.
BIBLIOGRAFIA CONSULTADA:
AKAMINE, Carlos e YAMAMOTO, Roberto. Estatística descritiva. São Paulo: Érica, 1998.
PEREIRA, Wilson e TANAKA, Oswaldo. Estatística. São Paulo: Mc-Graw Hill do Brasil, 1990.
PROVA, OBSERVAÇÃO
OU EXPERIMENTO É todo fenômeno ou ação que geralmente pode ser repetido, cujo resultado
é casual ou aleatório, por exemplo: o lançamento de um dado. Se
estabelecermos todos os possíveis resultados de um experimento teremos
um espaço amostral.
ESPAÇO AMOSTRAL É o conjunto universo denotado por (Ω), (U) ou (S), ou seja, é o conjunto
de todos os resultados possíveis de acontecer em uma observação.
Ex.: O espaço amostral do lançamento de um dado é (U)={1,2,3,4,5,6}
1. Para todo o evento A, a probabilidade de sua ocorrência será sempre um valor compreendido
entre 0 e 1: 0<P(A)<1 . Significa que o resultado do cálculo de uma probabilidade não pode
ser negativo, e pode ser escrito de modo percentual como de 0% a 100% de ocorrer.
5. P(S) = 1 (todo o espaço amostral tem soma igual a 1). Ex.: no lance de uma moeda o espaço
amostral S= {Cara;Coroa}, como a probabilidade de ocorrer cara ou coroa é de ½, então:
P(S)= P(Cara) + P(Coroa) = ½ + ½ = 1.
A∩B
P( A ∩ B)
9.Probabilidade condicional: P(AB) =
P( B)
Exemplo: considere três pares de cromossomos homólogos com seus centrômeros identificados por
A/a, B/b e C/c. Quantos tipos diferentes de produtos meióticos este indivíduo pode produzir?
Pela restrição da diferença de produtos (os produtos meióticos devem ser diferentes) N=2
B C ABC
c Abc
A
b C AbC
c Abc
B C aBC
a c aBc
b C abC
c abc
VARIÁVEIS ALEATÓRIAS
Em nossas aulas introdutórias, vimos que os resultados de uma característica, que se tem o
interesse em pesquisar, podem ser classificados segundo duas categorias: qualitativa e
quantitativamente. Vimos também que, como essa característica de interesse fornece resultados variados
de elemento para elemento do conjunto pesquisado, ela é denominada de variável. E esboçamos o
seguinte esquema de classificação e exemplificação:
Variável Qualitativa: ordinal e nominal;
Variável Quantitativa: discreta e contínua.
Definição 1: variável aleatória (v.a.) é uma função numérica X, que associa a cada elemento do espaço
amostral (ω ∈ Ω) um número real X(ω).
Exemplo 1- No lance de uma moeda temos:
Ω = {Cara, Coroa}
X(ω) sejam os valores: 0 se for cara, e 1 se for coroa
Então, o domínio de X(ω)= {Cara, Coroa} e o contradomínio {0,1}, ou seja, X(ω)=xi ⇒ xi=0,1.
O termo aleatório indica que a cada possível valor da variável atribui-se uma probabilidade de
ocorrência, por isso também é chamada de variável estocástica. Podemos nos referir à v.a. também
como uma função aleatória ou função estocástica.
Denota-se uma variável aleatória por uma letra latina maiúscula, como X, Y, Z, W,... . O mais
usual é a utilização da letra X.
Através da definição 1 trabalharemos o conceito de variável aprendido nas noções de estatística,
reelaborando o conceito de variável quantitativa discreta e contínua à luz dessa definição.
Definição 2: uma v.a.d. real X, em um espaço de probabilidade (Ω, A, P), é uma função real X(ω) cujo
domínio é Ω e cujo contradomínio é um subconjunto finito ou infinito enumerável {x1, x2, x3,...} dos
números reais ℝ , tal que {ω:X(ω) = xi} é um evento para todo i. Diz-se que os eventos da v.a.d. são
Definição 3: uma v.a.c. real X, em um espaço de probabilidade (Ω, A, P), é uma função real X(ω), ω ∈
Ω, tal que {ωX(ω) ≤ x} é um evento para -∞<x<∞.
Em outras palavras, uma v.a.c. é aquela que toma um número infinito (não-enumerável) de valores. O
contradomínio de X é um intervalo, ou uma coleção de intervalos.
Definição 4: a função que atribui a cada valor (x1, x2, x3,...) da v.a.d. sua probabilidade é denominada de
função de probabilidade (f.p.). É denotada por:
P(X= xi ) = p (xi ), i = 1,2,3,…
ou P(X= xi ) = f (x)
Como é uma função, p(⋅), deve satisfazer às seguintes propriedades:
i) 0≤ p(xi ) ≤1, para todo xi
ii) ∑ p( x ) = 1
x
i
Definição 5: a soma das probabilidades dos valores xi menores ou iguais a x, em um ponto x, é a função
acumulada de probabilidades ou função de distribuição acumulada (f.d.a. ou f.d.). É denotada por:
FX ( x ) = P( X ≤ x )
FX ( x ) = ∑ p ( xi )
xi ≤ x
Em fenômenos da realidade algumas v.a.’s são muito notórias, sendo explicadas através de seus
modelos de distribuição.
Diante disso, as distribuições de probabilidade são úteis para investigação, pesquisa e observação
de problemas com variáveis aleatórias discretas ou contínuas, facilitando a análise e interpretação dos
dados para conclusão por dedução. Ou seja, servem para explicar fenômenos aleatórios de observação
clínica, econômica, biológica, etc., através de modelo matemático probabilístico.
Muitos são os modelos que descrevem o comportamento das variáveis aleatórias discretas, entre
eles:
• Binomial
• Poisson
Também são muitos os modelos que descrevem o comportamento das variáveis aleatórias
contínuas, o principal é a distribuição Normal.
Distribuição binomial
É constituída pelo número de vezes que ocorre determinado evento, quando a probabilidade desse
evento for constante em cada prova.
n!
∗ O número de possibilidades favoráveis ao evento é: C x=
x! (n − x )!
n
n!
A fórmula para a distribuição binomial é: P ( X = x) = ⋅ p x ⋅ q n− x
x! (n − x )!
Média µ=n·p
Variância σ2= n · p · q
Os tipos de sangue M-N dos seres humanos estão sob o controle genético de um par de alelos
codominantes. Numa família com seis filhos, onde ambos os pais são do tipo MN, qual é a
probabilidade de encontrarmos três crianças do tipo M? considere que a ocorrência do tipo M é ¼.
n = 6 filhos
x = 3 filhos
n!
P ( X = x) = ⋅ p x ⋅ q n− x
x! (n − x )!
6!
P( X = 3) = ⋅ (0,25) 3 ⋅ (0,75) 6−3 = 20 × 0,0156 × 0,4219 = 0,1318
3!(6 − 3)!
A probabilidade de em uma família com seis filhos, onde ambos os pais possuem sangue do tipo MN,
encontrarmos três crianças do tipo M é de 13,18%.
Distribuição de Poisson
Ou seja, trabalha com a variável discreta inserida em um espaço contínuo (tempo, área, volume).
(λ t ) x − ( λt )
∗ A fórmula da distribuição de Poisson é dada por: P ( X = x) = ⋅e
x!
Onde,
P(X=x)= probabilidade de ocorrer o evento desejado
λ = taxa média de ocorrências dos eventos por unidade de medida
(letra grega “lambda”)
t = espaço de medidas ou número de intervalos
x = número de ocorrências
e = base dos logaritmos neperianos (é um número infinito, e=2,71828...)
Média µ=λ
Variância σ² = λ
Desvio padrão σ = λ
Suponha que apenas um em cada mil indivíduos, em uma população, seja albino. Se uma amostra de
100 indivíduos é retirada ao acaso desta população, qual é a probabilidade de se encontrar dois
indivíduos albinos?
t = 100 indivíduos
x = 2 albinos
A probabilidade de se encontrar dois indivíduos albinos nessa população, é 0,45% isto é, é menor do
que 1% de chance.
Uma observação importante é que não se pode associar uma probabilidade pontual a cada valor da
variável contínua, pois ao se aplicar a fórmula matemática de probabilidade:
n( A) n( A)
P ( A) = como n(U) = ∞ ⇒ P ( A) = =0
n(U ) ∞
Assim a distribuição de probabilidade das variáveis contínuas são dadas para intervalos de valores da
variável: P(a≤ X≤b).
A principal dentre os vários tipos de distribuição contínua e a mais utilizada é a Distribuição Normal.
Distribuição Normal: O estudo da variável contínua na distribuição normal é feita com o auxílio da
curva normal padrão (denominada de curva de Gauss ou do Sino), através da Variável Aleatória
Padronizada (VAP), denominada de Z cujos valores são lidos em uma tabela.
A variável aleatória X tem distribuição normal com média µ e variância σ2 , representada por:
X~N(µ ; σ2). Para a variável transformada Z representamos Z~N(0;1) sendo,
x−µ
Z=
σ
∗ O modelo matemático da Distribuição Normal é:
x1 − µ x2 − µ
P ( x1 ≤ X ≤ x 2 ) = P ( z1 ≤ Z ≤ z 2 ) = ≤Z≤
σ σ
Onde,
x= valor da média da variável observada
µ= valor da média populacional
σ= valor do desvio padrão populacional
Os resultados obtidos (área de z1 e de z2)são lidos na tabela normal padrão (em anexo).
Como a área associada a um ponto é igual a zero, para o cálculo de probabilidades sob uma curva
normal torna-se indiferente o uso dos sinais < ou ≤ bem como > ou ≥.
A distribuição normal é a mais importante para os estudos da estatística, pois é através dela que se
baseia toda a conclusão estatística por meio da Inferência, fazendo a ligação entre a Estatística
Descritiva e a Probabilidade, dando sustentação ao caráter afirmativo de confiança nos estudos e testes
realizados.
Para o estudo da variável aleatória X com distribuição normal valem as seguintes propriedades:
a) A curva é simétrica, centrada na média;
b) A distância de µ aos pontos onde a curvatura da distribuição muda de sentido é igual a σ ;
c) A moda e a mediana de X são iguais à média;
d) A área sob a curva Normal e acima do eixo horizontal é igual a 1;
e) É assintótica em relação ao eixo das abscissas.
Exemplo de distribuição Normal: em um estudo com a mosca das frutas, observou-se que o tempo
decorrido entre a ovoposição e a emergência do adulto, na sequência ovo-larva-pulpa-adulto, é de
273horas em média, com desvio padrão de 20horas (Nascimento, 1992). Qual é a probabilidade de
ocorrer um tempo entre a ovoposição e a emergência, entre 260 e 280horas?
Pelo desenho da curva, a ocorrência deseja representa a seguinte área hachurada:
no modelo de cálculo temos:
x1 − µ x2 − µ
P( x1 ≤ X ≤ x2 ) = P( z1 ≤ Z ≤ z 2 ) = ≤Z≤
σ σ
260 − 273 280 − 273
P(260 ≤ X ≤ 280) = ≤Z≤
20 20
P(260 ≤ X ≤ 280) = −0,65 ≤ Z ≤ +0,35
P(260 ≤ X ≤ 280) = 0,2422 + 0,1368
P(260 ≤ X ≤ 280) = 0,3790
Logo, a probabilidade de ocorrer ovoposição emergência adulto em
260h 273h 280h período de tempo entre 260-280horas é de 37,90%.
Pelo enunciado do exemplo, sabemos Esses valores (-0,65 e +0,35) serão lidos na tabela da distribuição
que: normal da p.71. Como a curva é simétrica (lado esquerdo e direito
ao eixo da média são iguais) os valores são lidos como módulo,
a média é µ=273 não se considera o sinal. Observe pela tabela que o valor para -
o desvio padrão é σ=20 0,65 é 0,2422 e para +0,35 é 0,1368. Deixei marcado com um
limite inferior do intervalo é z1=260 retângulo para facilitar sua compreensão. Como a área desejada
limite superior do intervalo é z2=280 está em torno da média, a operação feita é de soma desses dois
valores encontrados para z1 e z2.
TESTES DE HIPÓTESES
CONCEITO É uma regra de decisão para aceitar ou rejeitar uma hipótese com base nas
diferenças observadas entre os valores alegados e aqueles fornecidos pelas
estatísticas amostrais.
Hipótese estatística é uma suposição quanto ao valor de um parâmetro
populacional, ou quanto à natureza da distribuição de probabilidade de
uma variável populacional.
Teste Bilateral: utiliza toda a área da curva normal (as duas caudas para
os valores críticos), considerando os níveis: 90% 95% e 99%.
são denominadas de hipóteses compostas, sendo as mais comumente utilizadas, definindo-se se o teste é
uni ou bilateral, de acordo com o interesse do estudo. Por conveniência técnica, a hipótese nula sempre
fica com o sinal de igualdade.
A situação ideal é aquela em que ambas as probabilidades estão próximas de zero. Entretanto, à medida
que diminui o erro alfa, a probabilidade de beta aumenta. Portanto, deve-se construir as hipóteses de
maneira que o erro mais importante seja evitado, que é o erro tipo alfa.
• De modo geral, como o erro beta depende do valor de µ, é conveniente obter uma função que ajude a
caracterizar o desempenho do teste: Função de Poder do Teste, dada por:
g (µ ) = 1 − β (µ )
Para um mesmo nível de significância α, quanto maior o poder melhor o teste.
Como não se pode diminuir os dois erros simultaneamente, uma alternativa é aumentar o tamanho da
amostra, pois quanto maior for n, melhor é a precisão do estimador utilizado e maior é o poder do teste.
A função β é também chamada Curva Característica de Operação CCO, que são gráficos que indicam
as probabilidades de erros do tipo II, sob várias hipóteses. Elas proporcionam indicações de como testes
bem aplicados podem possibilitar a redução ao mínimo de erros do tipo I e II, i.é., indicam o poder do
teste, para evitar que sejam tomadas decisões erradas. São úteis no planejamento de experiências, por
mostrarem, por exemplo, que tamanhos de amostras devem ser usados.
• Os testes de hipóteses para a média apresentados pressupõem variância conhecida. Se a variância for
desconhecida, deve-se utilizar a estatística t-Student, valendo-se do estimador da variância
populacional, que é a variância amostral s2.
• Se a variável de interesse, além de ter variância desconhecida, não tiver densidade Normal, é
necessário utilizar técnicas não-paramétricas para a realização do teste da média.
A idéia consiste em calcular, supondo que a hipótese nula seja verdadeira, a probabilidade de se
obter estimativas mais desfavoráveis ou extremas (à luz da H1) do que a que está sendo fornecida pela
amostra.
Esta probabilidade será o nível descritivo, denotado por α∗ (ou p-valor). Valores pequenos de
∗
α indicam que a hipótese nula é falsa pois, sendo a amostra a ferramenta de inferência sobre a
população, ela fornece uma estimativa que teria probabilidade muito pequena de acontecer, se H0 fosse
verdadeira. O conceito do que é pequeno fica a cargo do usuário, que assim decide qual alfa utilizar para
comparar com o valor α∗ obtido.
Observações importantes:
• Para comparação de médias de mais do que duas populações, o método utilizado é o teste ANOVA
(Análise de Variância).
• Para a comparação de várias variâncias deve-se utilizar o teste de Cochran (para amostras de mesmo
tamanho), e o teste de Bartlett ( para amostras de tamanhos diferentes).
Teste Bilateral:
Região de
Região de Rejeição
Rejeição α/2
α/2
Região de
Aceitação H0 : θ = x (Hipótese Nula)
para Ho H1 : θ≠
x (Hipótese Alternativa)
1-α
-z +z
Região de
Rejeição
α
Região de
Aceitação
para Ho Teste Unilateral à Esquerda:
1-α
H0 : θ = x (Hipótese Nula)
-z H1 : θ < x (Hipótese Alternativa)
Região de
Rejeição
α
Região de
Aceitação Teste Unilateral à Direita:
para Ho
1-α H0 : θ = x (Hipótese Nula)
H1 : θ > x (Hipótese Alternativa)
z
α = 10% α = 5% α = 1%
Para
Teste 1,64 1,96 2,58
Bilateral
Teste
1,28 1,64 2,33
Unilateral
Distribuição t-Student: é utilizada para amostras com número de elementos menor do que 30, que têm
a variável aleatória contínua X com uma distribuição normal. O estudo de X é feito através da variável
t, chamada de variável estudentizada representada como t≈N(0;1) com valores também lidos em tabela.
Os valores de t dependem do número de elementos da amostra em estudo, por isso a dependência dos
graus de liberdade.
x −μ
t=
s
n
Onde,
x = valor da média da variável observada
µ = valor da média populacional
s = valor do desvio padrão amostral
n = tamanho da amostra
A leituras dos valores da área de t levam em consideração o nível de confiança (probabilidade) e o grau
de liberdade (n-1). Também tem seus valores lidos em tabela (ver p.78).
A distribuição T-Student tem a curva semelhante à curva Normal, todavia é mais achatada e com
probabilidades mais densas nas caudas, conforme mostra a figura 5.3 a seguir:
Exemplo de teste de hipóteses: estudos anteriores mostravam que a alcalinidade média do rio Caí era
de 19,6mg de CaCo3/L (Vargas, 1992). Entretanto, estudo recente com 16 observações, a média de
CaCo3/L encontrada foi de 16,2mg e desvio padrão de 7,7mg. Esse novo valor estará indicando que a
alcalinidade no rio se modificou? ou será que a diferença de 3,4mg é devida a um erro aleatório?
Como o que se deseja é apenas verificar se a alcalinidade se modificou, e não se é menor que 19,6mg, o
teste é bilateral.
Adotaremos nível de significância (ou seja, admitiremos erro máximo nesse teste de hipótese em relação
ao verdadeiro valor da concentração de CaCo3/L no rio Caí) de α/2=5%/2=2,5%. Isso quer dizer que
vamos comparar o valor de t-calculado com o valor de t-tabelado sob os seguintes critérios:
Teste Bilateral:
Região de H0 : µx=19,90mg/L (Hipótese Nula)
Região de Rejeição
Rejeição α/2=0,025
α/2=0,025
α/2=0,025 H1 : µx≠19,90mg/L (Hipótese Alternativa)
Região de
Aceitação
para Ho
1-α
-t=-2,131 +t=+2,131
Se o valor de t-calculado estiver dentro de uma das áreas de α/2=0,025, rejeitamos a hipótese de que o
valor da alcalinidade é de 19,9mg/L. Então vamos ao cálculo:
Então, como (t-calculado = -1,766) é maior que (t-tabelado = -2,131), isto é, pertence à área de aceitação
da hipótese nula, podemos dizer que estatisticamente ao nível de confiança de 95% a alcalinidade do rio
Caí não se modificou.
Como o teste qui quadrado é feito com dados representados por uma, tabela o graus de liberdade (g.l.)
vai considerar o número de de linhas (r) e o número de colunas (c), do seguinte modo:
g.l. = (r-1) x (c-1)
k
(oi − ei ) 2
O modelo de cálculo do teste é: Q = ∑ 2
i =1 ei
Onde,
Σ = somatório
oi = freqüência observada na i-ésima casela da tabela
ei = freqüência esperada na i-ésima casela da tabela
i = i-ésima casela, ou seja, casela 1, 2, 3,... de uma tabela.
Exemplo do teste qui quadrado: em uma universidade foi apurada o número de estudantes dos cursos
da área de ciências humanas e de ciências exatas. Uma amostra de 170 estudantes apontou os seguintes
resultados, segundo o sexo:
Ciências Ciências
Total
humanas exatas
Masculino 48 52 100
Feminino 45 25 70
Total 93 77 170
3,841
Como (χ2-calculado = 4,79) é maior que ( χ2-tabelado = 3,841), ou seja, está na área de rejeição da
hipótese nula, pode-se dizer que estatisticamente ao nível de confiança de 95% do teste há influência do
sexo na escolha da área de estudo.
BIBLIOGRAFIA CONSULTADA
BOTTER, Denise Aparecida. Noções de estatística. São Paulo, EDUSP, 1996, pg. 45-76.
HOEL, P. G.; PORT, S. C.; STONE, C.J. Introdução à teoria da probabilidade. Rio de Janeiro:
Interciência, 1978.
MILONE, G.; ANGELINI, F. Estatística Geral. São Paulo: Ed. Atlas, 1993.