Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
2009
Estatistica - Volume I
Teoria e exercicios passo-a-passo
Margarida Pocinho
01-01-2009
1
Estatistica - Volume I
2009
ndice Geral
I - INTRODUO ...............................................................................................................5
1. NOES GERAIS...........................................................................................................9
2
Estatistica - Volume I
2009
ndice de Ilustraes
3
Estatistica - Volume I
2009
ndice de tabelas
4
Estatistica - Volume I
2009
I - INTRODUO
Desde sculos o homem tem, muitas vezes, tomado notas de coisas e de pessoas, no com o nico fim
de acumular nmeros, mas com a esperana de utilizar os dados do passado para a resoluo de
problemas do presente assim como para a previso de acontecimentos futuros. No entanto, o sucesso
quanto a este objectivo s foi possvel em data muito recente: s no final do sculo XIX e, sobretudo,
no princpio do sculo XX que, com a aplicao de probabilidades aos problemas sobre a
interpretao dos dados recolhidos, foi possvel resolver alguns deles.
O jogo foi o motor de arranque e o primeiro beneficiado com as probabilidades. De facto, por volta de
1200 a.C. existiam dados com forma cbica feitos a partir de ossos. No entanto, o jogo atingiu uma
grande popularidade com os gregos e os romanos. Na Idade Mdia, a igreja catlica era contra o jogo
dos dados, no pelo jogo em si, mas pelo vcio de beber e dizer palavres que acompanhavam os
jogos. Os jogadores inveterados do sculo XVI procuravam cientistas de renome para que estes lhes
dessem frmulas mgicas para garantir ganhos substanciais nas mesas de jogo.
O contributo decisivo para o incio da teoria das probabilidades foi dada pela correspondncia trocada
entre os matemticos franceses Blaise Pascal e seu amigo Pierre de Fermat, em que ambos, por
diferentes caminhos, chegaram soluo correcta do clebre problema da diviso das apostas em
1654.
Quis o acaso que o austero Pascal conhecesse Mr, jogador mais ou menos profissional, que lhe
contava as suas disputas com os adversrios em problemas de resoluo controversa sobre dados e
apostas. Um desses problemas veio a interessar Pascal 1. Depois de reflectir sobre ele, trocou uma
interessante correspondncia sobre o assunto com o matemtico Fermat, seu amigo. Essas cartas
histricas, que contm as reflexes conjugadas de ambos, so os documentos fundadores da Teoria
das Probabilidades.
1
Em meados do sculo XVII, o jogador francs, o Chevalier de Mr, que vinha calmamente ganhando a vida apostando o seu bom
dinheiro em jogos de dados, decidiu oferecer a mesma quantia para uma aposta diferente. Vinha garantindo, de incio, um seis em
quatro jogadas de um s dado; passou, ento, a apostar que conseguiria pelo menos um duplo seis em vinte e quatro jogadas de dois
dados. Mas, percebeu que os seus lucros comearam a diminuir e sobre isso procurou aconselhar-se com o seu amigo Pascal. Este
explicou a Mr que ele no estava a ser vtima de uma crise de m sorte mas, apenas, da aco imutvel das probabilidades:
enquanto a possibilidade de conseguir um 6 uma em 3*8 jogadas de um s dado, a possibilidade para um duplo 6 de uma em
24*61 jogadas de dois dados
5
Estatistica - Volume I
2009
Mais tarde, a Teoria das Probabilidades desenvolveu-se e atravs dos trabalhos de Jacques Bernoulli
(1654-1705), Moivre (1667.1759) e Thomas Bayes(1702-1761). A Bernoulli deveu-se a publicao
do livro Ars Conjectandi que foi publicado em 1713 e foi o primeiro a ser tratado inteiramente s
teorias das probabilidades. Nesta obra inclui diversas combinaes e das permutaes, os teoremas
binomial e polinomial e a lei dos grandes nmeros (hoje chamado Teorema de Bernoulli). A lei dos
grandes nmeros pode enunciar-se do seguinte modo:
Moivre introduziu e demostrou a lei normal. A Bayes deve-se o clculo das chamadas probabilidades
e das causas. Ou seja, este clculo consistiu em determinar a probabilidade de acontecimentos perante
certas condies iniciais.
Na segunda metade do sculo XVIII e na primeira metade do sculo XIX(1749-1827) elaborou uma
posio concisa e sistemtica dos acontecimentos probabilsticos e demonstrou uma das formas do
Teorema das Probabilidades.
Laplace escreveu: A teoria das probabilidades, no fundo, no mais do que o bom senso traduzido
em clculo, permite calcular com exactido aquilo que as pessoas sentem por uma espcie de
instinto. natural como tal cincia, que comeou com estudos sobre jogos de azar, tenha alcanado os
mais altos nveis do conhecimento humano.
Em 1812, Laplace publicou uma importante obra de Teoria Analtica das Probabilidades, onde
sistematizou os conhecimentos da poca e onde se encontra definida a Lei de Laplace..
Surge a clebre escola de S. Petersburgo. Desta escola resultaram grandes nomes, tais como:
Tchbychev 81821-1894), Markov (1856-1922) e Liapounav (1857-1918).
A Histria regista censos, para fins de alistamento militar e de colheita de impostos, realizados h
mais de 4000 mil anos, como o caso do censo do imperador Yao na China, em 2200 A.C.. Nesta
altura a estatstica era simplesmente um trabalho de exibio e sntese dos dados referentes colhidos
pelos censos. Esta estatstica no envolvia nenhum trabalho probabilstico, pois todos os objectos do
universo envolvido (a populao) eram observados ou medidos.
6
Estatistica - Volume I
2009
Adolph Quletet em 1850 foi o primeiro a utilizar uma amostra no seu estudo, e, a partir da anlise
probabilstica, estender os resultados da amostra a toda a populao.
A partir dele, rapidamente surgiu a ideia de dar um embasamento mais rigoroso para o mtodo
cientfico, a partir de uma fundamentao probabilista para as etapas da colecta e a da anlise indutiva
de dados cientficos. Hoje esta concepo essencial no trabalho cientfico, contudo s atingiu um
nvel prtico no incio do sec XX desenvolvendo-se em 3 grandes frentes:
Trata das precaues que o cientista deve tomar, antes de iniciar as suas observaes ou medidas, de
modo a que se possa dar uma boa probabilidade de que os objectivos pretendidos sejam atingidos o
delineamento das experimentaes cientficas. O pai desta tcnica R.A. Fisher que ao trabalhar na
seleco gentica de plantas agrcolas, desenvolveu uma imensa quantidade de resultados bsicos
sobre o delineamento de experimentaes, divulgando-os em dois livros histricos: Statistical
Methods for Research Wakers, 1925, e The Design of Experiments, publicado em 1935.
Suponhamos que um cientista faz simultaneamente a medida de duas ou mais variveis: uma poderia
ser a altura e a outra o peso de pessoas de uma populao. Se ambas as variveis (peso e altura)
tendem a crescer ou decrescer simultaneamente, dizemos que so positivamente correlacionados.
Dizemos que so negativamente correlacionados se uma varivel tende a crescer e a outra a decrescer.
O cientista ao afirmar que duas ou mais variveis so correlacionadas, pode utilizar uma srie de
tcnicas (chamadas anlise de regresso) para achar frmulas expressando os valores de uma dessas
variveis em termos da outra, ou outras. Tudo isto dentro de uma margem de erro que o cientista
poder estimar probabilisticamente.
O pai da ideia da correlao entre variveis foi Francis Galton, o qual no final do sculo passado a
usou numa srie de estudos de hereditariedade motivados pela teoria da evoluo de Darwin e com
objectivos decididamente eugnicos , contudo, a base matemtica de Galton era precria, cabendo a
Karl Pearson dar uma fundamentao mais matemtica para a correlao.
A teoria das probabilidades, que comeou com um jogo, transformou-se, hoje em dia, num dos ramos
da matemtica com mais aplicaes nas outras cincias: exactas, naturais, sociais.
A Estatstica conquistou, hoje, o seu lugar entre as cincias. O poder do seu mtodo , sobretudo,
afirmado nas ltimas dcadas e aplica-se, agora, nos domnios mais variados. At aqui, s um
7
Estatistica - Volume I
2009
pequeno nmero de pessoas se preocupou com estudos estatsticos, quer pela natureza das suas
investigaes, quer por causa da sua utilidade para as diferentes profisses. O valor e a importncia do
mtodo estatstico residem no esforo para melhor compreender o nosso mundo, to
maravilhosamente complexo, tanto no ponto de vista fsico como social, levam-nos a sonhar que ele
se torne objecto de um conhecimento como as outras cincias. A vida corrente leva-nos a decises
para passar do conhecido ao desconhecido, da experincia previso.
Este manual tem por fim fornecer conhecimentos estatsticos (sem ter muitos conhecimentos
matemticos) e ajudar a interpretar os resultados que podem ser obtidos quer atravs do calculo
manual, quer atravs de programas de computador.
8
Estatistica - Volume I
2009
1. NOES GERAIS
Para algumas pessoas, a Estatstica no seno um quadro de colunas mais ou menos longas de
nmeros que dizem respeito populao, indstria ou ao comrcio, como se v frequentemente em
revistas; para outras, ela d grficos mostrando a variao no tempo de um facto econmico ou social,
a produo ou os nmeros relativos aos negcios de uma empresa, assim como se encontra nos
escritrios de empresas privadas.
A Estatstica tem como finalidade elaborar de uma sntese numrica que evidencie o que de mais
generalizado e significativo exista num conjunto numeroso de observaes.
O grande nmero de observaes de que se parte reflecte uma diversidade tal que se torna ininteligvel
a sua interpretao. Para que, a partir dessa diversidade se possa comear a entender logo, torna-se
necessrio reduzir sucessivamente as observaes, ganhando-se em generalidade o que se vai
perdendo em individualidade.
A sntese implica, assim, que nos desprendamos do que particular e individual para nos atermos ao
que existe de mais geral no conjunto das observaes; medida que a sntese progride, vai-se
perdendo o contacto com as particularidades imediatas.
Deste modo, a Estatstica no se ocupa do que excepcional, mas apenas do que geral: no se
interessa pelo indivduo, mas por grupos de indivduos; no se ocupa, em suma, de uma s medio,
mas de um conjunto de medies.
Acrescente-se, ainda, que a sntese numrica. Quer isto dizer que se prescinde inteiramente das
palavras e dos recursos literrios de mais ou menos efeito que elas possibilitam. Alcana-se a sntese
pelo recurso exclusivo dos nmeros.
Estatstica, deriva de status que em latim significa Estado, e que s por si demonstra a ligao que
sempre existiu entre ambos;
9
Estatistica - Volume I
2009
O primeiro levantamento estatstico remonta a 3050 a.C., no Egipto, tendo como objectivo informar o
estado sobre recursos humanos e econmicos.
No sc. XVII d.C., a disciplina de Estatstica era j leccionada nas universidades alems, continuando
com a finalidade de descrever as populaes e as riquezas do Estado.
Ainda no sc. XVII, d-se a expanso dos seus campos de investigao a reas como a Sade pblica;
a Indstria; o Comrcio e os Estudos Demogrficos.
Os mtodos de inferncia estatstica surgem com Jonh Graunt (1620-1674), um modesto comerciante,
que tira concluses vlidas sobre uma populao desconhecida por ele.
Fermat (1601-1665) e Pascal (1623-1662) permitem que o estudo do acaso tome uma expresso
matemtica, introduzindo o Clculo das Probabilidades.
No sc. XVIII Lambert Quetelet (1796-1874) introduziu a Estatstica nas anlises da Meteorologia;
da Antropometria; das Cincias Sociais; da Economia e da Biologia.
Em 1943, d-se uma grande reviravolta, uma vez que o tratamento de dados deixa de ser feito
manualmente e passa a ser numa primeira fase apoiado por calculadoras potentes para mais Tarde ser
feito quase exclusivamente de forma computadorizada.
10
Estatistica - Volume I
2009
2. POPULAO E AMOSTRA
Populao: somatrio dos indivduos ou elementos, com qualquer caracterstica comum e que esto
sujeitos a uma anlise estatstica, por terem interesse para o estudo. Quanto sua origem pode ser: um
conjunto de pessoas; um conjunto de objectos ou um conjunto de acontecimentos. Quanto sua
natureza pode ser: Existente ou real; Hipottica ou parcialmente existente. Pode ainda ser: um
conjunto finito ou um conjunto infinito.
Populao
Populao-alvo
Amostra
O Plano de Amostragem serve para descrever a estratgia a utilizar para seleccionar a amostra. Este
plano fornece os detalhes sobre a forma de proceder relativamente utilizao de um mtodo de
amostragem para determinado estudo.
Logo que o investigador delimite a populao potencial para o estudo, ele deve precisar os critrios de
seleco dos seus elementos, que podem ser de incluso ou de excluso dos sujeitos que faro parte do
estudo:
11
Estatistica - Volume I
2009
Um investigador interessado pela readaptao aps cirurgia de revascularizao, pode concentrar-se
somente nos sujeitos que tiveram uma nica experincia deste tipo e exclurem os outros.
Como se ignora se todas as caractersticas da populao esto presentes numa amostra dado que estas
so muitas vezes desconhecidas, admite-se que existe sempre um grau de erro.
ERRO DE AMOSTRAGEM: a diferena que existe entre os resultados obtidos numa amostra e os
que teriam sido obtidos na populao-alvo.
1. Retirar de forma aleatria e um nmero suficiente de sujeitos que faro parte da amostra.
2. Procurar reproduzir o mais fielmente possvel a populao pela tomada em conta das caractersticas
conhecidas desta.
3. MTODOS DE AMOSTRAGEM
Os mtodos de amostragem probabilstica servem para assegurar uma certa preciso na estimao dos
parmetros da populao, reduzindo o erro amostral.
A principal caracterstica dos mtodos de amostragem probabilstica reside no facto de que cada
elemento da populao tem uma probabilidade conhecida e diferente de zero, de ser escolhida,
aquando da tiragem ao acaso para fazer parte da amostra.
12
Estatistica - Volume I
2009
O objectivo desta abordagem obter a melhor representatividade possvel.
Tipos de Amostragem:
A Amostragem em Cachos;
A Amostragem Sistemtica.
A Amostragem aleatria simples uma tcnica segundo a qual cada um dos elementos (sujeitos) que
compe a populao alvo tem igual probabilidade de ser escolhido para fazer parte de uma amostra. A
amostragem aleatria simples consiste em elaborar uma lista numrica de elementos de onde se tira,
com a ajuda de uma tabela de nmeros aleatrios, uma srie de nmeros para constituir a amostra.
A Amostragem aleatria estratificada uma variante da amostra aleatria simples. Esta tcnica
consiste em dividir a populao alvo em subgrupos homogneos chamados estratos e a seguir tirar
de forma aleatria uma amostra de cada estrato. A Amostragem aleatria estratificada utilizada
quando a populao inteira reconhecida por certas caractersticas precisas, tais como a idade, o sexo,
a incidncia de uma condio de sade, tudo isto para assegurar a melhor representatividade possvel.
13
Estatistica - Volume I
2009
Populao-Alvo
Classificao
Estratificao Proporcional
Escolha Aleatria
Estratificao No-Proporcional
Amostra = 200
Escolha Aleatria de 10% em cada Estrato
AMOSTRAGEM EM CACHOS
Consiste em retirar de forma aleatria os elementos por cachos em vez de unidades. til quando os
elementos da populao esto naturalmente por cachos e por isso devem ser tratados como grupos ou
quando no possvel obter uma listagem de todos os elementos da populao-alvo.
AMOSTRAGEM SISTEMTICA
Consiste quando existe uma lista ordenada de elementos da populao. Esta tcnica consiste K
elementos dessa lista sendo o primeiro elemento da amostra retirado ao acaso.
Exemplo: Se pretender uma amostra de 100 indivduos e a populao for de 1000 o sistema ser
1000:100=10 (dez em dez o sistema), isto , ser includo um elemento da lista de 10 em 10
indivduos a partir do 1. n. sorteado.
14
Estatistica - Volume I
2009
Importante
Este tipo de amostragem tem o risco de ser menos representativa que a probabilstica no entanto
muitas vezes o nico meio de construir amostras em certas disciplinas profissionais nomeadamente na
rea da sade.
formada por sujeitos facilmente acessveis, que esto presentes num determinado local e momento
preciso.
Exemplo: pessoas hospitalizadas. Um investigador pode ter acesso a uma unidade hospitalar para
constituir uma amostra de pacientes hospitalizados.
Neste tipo de amostra tem a vantagem de ser simples em organizar e pouco onerosa, todavia este tipo
de amostra provoca enviesamentos, pois nada indica que as primeiras 30 a 40 pessoas sejam
representativas da populao-alvo. So utilizadas em estudos que no tm como finalidade a
generalizao dos resultados.
Idntica amostragem aleatria estratificada diferindo desta apenas pelo facto dos sujeitos no serem
escolhidos aleatoriamente no interior de cada estrato ou de cada grupo.
15
Estatistica - Volume I
2009
Tem por base o julgamento do investigador para constituir uma amostra de sujeitos em funo do seu
carcter tpico.
Por exemplo: o estudo de casos extremos ou desviantes como uma patologia rara ou uma instituio.
Consiste em escolher sujeitos que seriam difceis de encontrar de outra forma. Toma-se por base,
redes sociais amizades e conhecimentos.
Quando o investigador encontra sujeitos que satisfazem os critrios escolhidos pede-lhes que
indiquem outras pessoas de caractersticas similares.
Os tamanhos das amostras so relativos, isto , depende do tamanho da populao. Para determinar as
amostras existem vrias frmulas, consoante o parmetro em critrio. As mais utilizadas na sade so
as que se baseiam na percentagem do fenmeno:
1. Extenso do universo;
2. Do Nvel de Confiana;
3. Do Erro Mximo permitido;
4. Da percentagem com que o fenmeno se verifica.
Formula
16
Estatistica - Volume I
2009
n= Tamanho da amostra
q = % complementar (100-p)
Se desejarmos um nvel de confiana bastante alto superior a 99% aplica-se a frmula dos trs
desvios.
Exemplo: Se for possvel admitir que o nmero de captaes de gua em profundidade se situam por
volta dos 50%, no ultrapassando esta %, ento p=50 e, consequentemente, q=100-50 ou seja 50.
Assim, tem-se a equao
17
Estatistica - Volume I
2009
os clculos.
Convm lembrar que sempre que no seja possvel estimar uma percentagem do fenmeno, deve
utilizar-se sempre p=50
Frmula
Onde:
18
Estatistica - Volume I
2009
Exemplo: Verificar quantos dos 100 empregados de uma cantina cumprem correctamente as normas
de higiene e segurana do trabalho.
Presume-se que esse n. no seja superior a 30% do total; deseja-se um nvel de confiana de 95% (2
desvios) e tolera-se um erro at 3%.
Mas, se a populao fosse de 10.000 empregados, com os mesmos critrios anteriormente referidos,
ento:
O tamanho "ptimo" de uma amostra, no depende tanto do tamanho da populao mas sim de dois
parmetros estatsticos: a margem de erro e o nvel de confiana
Margem de erro Uma amostra representa aproximadamente (e nunca exactamente) uma populao.
A medida deste "aproximadamente" a chamada margem de erro, e lido assim:
se uma pesquisa tem uma margem de erro de 2% e a Doena Cardaca teve 25% de prevalncia na
amostra recolhida, podemos dizer que, naquele instante, na populao, ela ter uma prevalncia entre
23% e 27% (25% menos 2% e 25% mais 2%).
Estes 95% querem dizer o seguinte: se realizarmos uma outra pesquisa, com uma amostra do mesmo
tamanho, nas mesmas datas e locais e com o mesmo instrumento de recolha de dados, h uma
probabilidade de 95% de que os resultados sejam os mesmos (e uma probabilidade de 5%, claro, de
que tudo difira).
19
Estatistica - Volume I
2009
Quando j se efectivou uma pesquisa e se deseja conhecer a margem de erro utilizada aplica-se a
frmula:
Onde:
n = Tamanho da amostra
p = percentagem do fenmeno
q = percentagem complementar
Exemplo: Numa pesquisa efectuada com 1000 adultos, verificou-se que 30% bebem caf pelo menos
uma vez por dia. Qual a probabilidade de que tal resultado seja verdadeiro para todo o universo.
Como o valor encontrado (margem de erro) corresponde a um desvio, ento para dois desvios
(95,5%), temos 1,45 *2=2,90.
Isto significa que, por exemplo, para um nvel de confiana de 95% (2 desvios) o resultado da
pesquisa apresentar como margem de erro 2,90 para mais ou menos.
provvel, portanto, que o n. de consumidores de caf esteja entre 27,10% (30%-2,90) e 32,90%
(30%+2,90).
20
Estatistica - Volume I
2009
Frmula
Em que:
p= fenmeno]
= erro
{Se IC (intervalo de confiana)=95%, =5% (0,05)} Ento /2 = 0,05/2 =0,025
Z (/2) = Z(0,025)= 1,96
d=nmero de desvios
Assim para um fenmeno que tenha uma prevalncia de 25%, os resultados seriam:
Em termos estatsticos consideramos que uma amostra : Pequena se n < 30 que o valor para a qual
comea a tender normalidade.
21
Estatistica - Volume I
2009
O estudo Estatstico recai sobre a amostra, no entanto este feito de modo pormenorizado a cada um
dos elementos da amostra, que so designados por Indivduo ou Unidade Estatstica.
Unidade Estatstica: o factor elementar, o objecto de anlise, que independentemente da sua natureza
tem que possuir uma definio precisa.
No estudo de cada unidade Estatstica, surgem resultados individuais com os quais so feitas as
inferncias sobre a populao. Estes resultados tm o nome de Dado Estatstico.
Dado Estatstico: o resultado do estudo efectuado a cada unidade Estatstica tendo em conta a sua
individualidade, sendo este depois tratado de modo a permitir inferir sobre a colectividade que a
integra (populao).
3.4 VARIVEIS
Propriedade em relao qual os indivduos de uma amostra variam. Note-se que as propriedades que
no variam no so de interesse estatstico. H muitos modos de dividir os diferentes tipos de
variveis.
Ao ser efectuada uma anlise Estatstica a uma populao, os aspectos (caractersticas) que se tm em
conta, um ou vrios, so denominados por Varivel Estatstica.
Variveis nominais: quando o seu significado s se entende em funo do nome e o nmero ou cdigo
que se lhe atribua no nos d nenhuma informao (sexo, cor de olhos, grau de parentesco, tipo de
patologia, presena/ausncia de factores de risco, etc.).
Variveis ordinais: quando existe uma ordenao possivel (gravidade de uma leso, classe social, grau
de escolaridade, etc.).
22
Estatistica - Volume I
2009
Quantitativa: se a sua intensidade que varia de elemento para elemento, tornando-a mensurvel ou
referencivel.
Variveis discretas: assume valores isolados, normalmente inteiros (n. de filhos, n. de factores de
risco, n. de dependentes, n. de respostas, etc)
Variveis contnuas: em que possvel qualquer operao aritmtica, podendo assumir qualquer valor
real (altura, peso, IMC, distncia, etc).
Tendo em conta o nmero de atributos (caractersticas) que esto a ser estudadas, as variveis podem
ser:
Modalidade: toda a manifestao possvel de uma varivel, isto , as vrias hipteses de resposta,
podendo elas ser duas ou mais.
A escolha das modalidades deve ser feita de acordo com as informaes possudas. No entanto,
surgem situaes em que h necessidade de se aumentar uma modalidade suplementar.
23
Estatistica - Volume I
2009
Assumindo que demonstramos que o esquema de mnemnica produz algum efeito, lembrar-se- que a
questo seguinte levantada pelo cptico tinha a ver com o facto dos alunos com menos dificuldades
com os clculos serem aqueles que beneficiariam mais do esquema do que aqueles que tinham
maiores dificuldades com a estatstica.
Uma forma de investigar esta possibilidade seria a de transformar a facilidade em fazer operaes
matemticas em varivel independente.
O investigador apresentaria ento a todos os alunos um teste que avaliasse aquele facto, e
seleccionaria de seguida dois grupos de estudantes, um grupo com facilidade em efectuar operaes
matemticas e outro com dificuldades.
Se a ambos os grupos fosse apresentado o esquema de mnemnica, seria ento possvel avaliar o
efeito da varivel independente facilidade em efectuar operaes matemticas na outra varivel
resultados do teste. Por outras palavras, seria o grupo de bons estatsticos ou o grupo de maus
estatsticos que apresentava maiores progressos nos resultados do teste?
Um dos aspectos de que j se deve ter dado conta de que no possvel manipular a varivel
independente facilidade em fazer operaes matemticas da mesma forma como manipulamos
anteriormente varivel dependente com ou sem esquema de mnemnica. Neste ltimo caso da
inteira responsabilidade do experimentador decidir quais os alunos a quem d o esquema de
mnemnica e a quem no d.
A H1 poder ser: Apenas os alunos que tm maior facilidade em fazer operaes matemticas
apresentam resultados superiores em estatstica.
O esquema de mnemnica deixou de ser varivel e passou a situao constante, j que neste caso
todos usufruram do mesmo. Por outras palavras, o investigador previra uma diferena entre os
resultados do teste dos dois grupos de alunos aps ter sido apresentado a ambos o esquema de
mnemnica.
Uma outra varivel independente do mesmo tipo o sexo. At mesmo o experimentador mais
omnipotente no pode transformar um homem numa mulher e vice-versa. at bastante comum
formar grupos de homens e mulheres para se investigarem as diferenas de performance nas mais
diversas tarefas, que possam ser devidas a esse factor.
Mas quando estamos perante um estudo cientifico, nem sempre possvel estabelecer relaes de
dependncia e, existem mesmo alguns tipos de estudos em que esta denominao contra-indicada,
24
Estatistica - Volume I
2009
por conterem apenas questes de investigao e serem, por isso, exploratrios (nvel I), descritivos e
em alguns casos descritivo-correlacionais (nvel II). Nestes casos podemos definir as variveis como
primrias, secundrias e complementares, embora no seja obrigatrio.
As variveis primrias so as consideradas como principais no nosso estudo e as nicas que tm peso
no momento da concluso (variveis includas nas hipteses). Por exemplo, na pesquisa cuja pergunta
qual a qualidade de vida dos cuidadores de idosos acamados? A varivel primria a qualidade de
vida.
Em cada uma das variveis dever ser apresentado: a definio da varivel, como, quem e quando ser
mensurada
A varivel primria ser a prevalncia de obesidade; as variveis secundrias sero a estatura, o peso,
a circunferncia abdominal e a qualidade de vida.
Os dados complementares sero a idade, sexo, curso de graduao, ano do curso de graduao.
As variveis derivadas (ou variveis secundrias) so novas variveis que podem ser criadas a partir
de operaes lgicas e/ou matemticas sobre variveis existentes nas bases de dados (variveis
primrias)
25
Estatistica - Volume I
2009
VARIVEIS E RESPECTIVOS TIPOS DE ESCALAS DE MEDIDA
As variveis diferem em "quo bem" elas podem ser medidas, ou seja, em quanta informao seu
nvel de mensurao pode gerar. Operacionalmente, muitas vezes pode-se estudar algo de diferentes
maneiras.
Exemplificando, supondo que pretende estudar os hbitos tabgicos. Qual seria a escala? Haveria
apenas 2 grupos: fumadores e no fumadores? Ou seria contado o nmero de cigarros consumidos
durante determinado perodo? Utilizaria a Unidade Masso Ano (UMA)? Como seria definido o
fumador? Quem fuma 1 cigarro por dia ser considerado o qu? E que, fuma 1 mao de cigarros por
dia? Pertencem mesma categoria?
Assim, de acordo com sua escala de medio, as variveis podem ser classificadas em 3 tipos:
ESCALA NOMINAL
Exemplos: sexo, estado civil, presena/ ausncia de doena, patologia, causa de morte, etc.
ESCALA ORDINAL
Exemplos: estgio da doena (inicial, intermdio, terminal); escolaridade (1. CEB, 2. CEB, 3. CEB,
Lic. MSC, PHD); peso, quando medido em 3 nveis (leve, mdio, pesado); nvel socioeconmico de
26
Estatistica - Volume I
2009
famlias residentes numa localidade (pobre, classe mdia, Alta); classificao no teste (muito bom,
bom, satisfaz, medocre, mau), , grau de estenose (ligeira, moderada, severa), etc.
As anlises estatsticas mais comuns so o estudo de propores, medianas, quartis, moda. Testes:
Qui-quadrado, Kruskal-Wallis, regresso logstica e outros testes no paramtricos.
A escala intervalar estabelecem-se intervalos iguais a partir de uma origem arbitrria, enquanto que na
de razo existe um ponto zero a partir do qual se estabelecem intervalos iguais. Ambas so
quantitativas e os seus dados so expressos por nmeros. Permitem no apenas ordenar os itens que
esto sendo medidos, mas tambm possibilitam quantificar e comparar o tamanho das diferenas entre
eles. Os seus valores so medidos em uma escala mtrica e por isso no so diferenciadas em alguns
softwares estatsticos, como exemplo o SPSS, em que so denominadas de SCALE.
Exemplos: Temperatura em C; Idade, em anos; Peso corporal em quilos, classificao no teste: (0,...,
20), comprimento do segmento de recta desenhado etc.
evidente que as variveis quantitativas incluem mais informao, portanto permitem que sejam
aplicadas provas estatsticas mais potentes.
4. ESTATSTICA DESCRITIVA
A Estatstica Descritiva recolhe, organiza e analisa os dados de uma amostra, sem tirar qualquer
concluso sobre um grupo maior, enquanto que a Estatstica Indutiva ou inferencial recolhe, organiza,
analisa e estabelece relaes entre os dados para fazer inferncias sobre a populao. Com base nos
resultados obtidos sobre a amostra podemos inferir concluses vlidas sobre a populao (este ramo
da Estatstica j exige a utilizao de recursos matemticos especiais, nomeadamente a Teoria das
Probabilidades).
Assim, a Estatstica Indutiva permite-nos fazer inferncias sobre a populao e chegar a leis e a teorias
e a descritiva d um apoio a esta tarefa.
27
Estatistica - Volume I
2009
4.1 PARMETRO E DADO ESTATSTICO
O parmetro toda a funo definida a partir dos dados numricos de uma populao.
O dado estatstico toda a funo definida a partir dos dados numricos de uma amostra.
Depois de termos definido algumas noes bsicas de estatstica, tratar-se-, a seguir, da segunda fase
de um estudo estatstico. Como j referimos, os dados numricos recolhidos registam-se em sries
estatsticas e, para serem analisados, devem ser ordenados e representados em quadros e em grficos.
Quando trabalhamos com uma varivel discreta ou descontnua falamos em seriao e quando
trabalhamos com uma varivel contnua falamos em classificao.
Como j referimos anteriormente, uma seriao implica que a varivel seja discreta (exemplo: nmero
de filhos de um casal, nmero de divises de uma casa, etc.).
DISTRIBUIO DE FREQUNCIAS
o arranjo dos valores e suas respectivas freqncias. Assim, a distribuio de freqncias para o
exemplo ser:
28
Estatistica - Volume I
2009
o nmero de elementos for muito grande ou pouco repetidos, podemos separar o conjunto em classes,
que so intervalos numricos a I b ou a x b.
A diferena b a chama-se amplitude das classes (h) e utilizada a mesma amplitude para todas as
classes com intervalos fechados esquerda.
A frequncia relativa, para cada valor assumido por uma varivel, definida como a razo entre a
frequncia absoluta (Fi) e o nmero total de dados (N). Para calcularmos a percentagem de cada valor,
basta multiplicar por 100 a frequncia relativa.
Exerccios
Em uma pesquisa socioeconmica sobre itens de conforto, perguntou-se a cada um dos 800
entrevistados: Quantos aparelhos de TV h em sua casa? Os resultados aparecem na tabela:
Complete a tabela.
29
Estatistica - Volume I
2009
CLASSIFICAO DE UMA AMOSTRA
Como j referimos anteriormente, uma classificao implica que a varivel seja contnua (exemplo: a
temperatura de um corpo, a altura de uma pessoa, a durao de certo fenmeno, etc. - variveis
relacionadas com o espao, o tempo ou a massa).
Na primeira coluna temos as classes. Por conveno, as classes so abertas superiormente, com
excepo da ltima classe, naturalmente.
Na segunda coluna temos as marcas da classe. Esta coluna pode ser tambm designada por x'i. A
marca de uma classe o ponto mdio dessa classe, ou seja, o ponto equidistante dos extremos de
uma classe.
Na quarta coluna apresentamos as frequncias acumuladas, isto , a soma das frequncias absolutas
correspondentes a valores inferiores a um determinado valor. Esta coluna pode ser tambm
denominada por N(i).
Na quinta coluna temos as frequncias relativas simples. Esta coluna pode ser tambm denominada
por fi, em que fi = ni/n e, de tal modo, que fi =1.
Na sexta coluna apresentamos as frequncias relativas acumuladas, isto , a soma das frequncias
relativas correspondentes a valores inferiores a um determinado valor. Esta coluna pode ser tambm
denominada por F(i).
Numa classificao habitual representarmos por K o nmero de classes (em geral K varia entre 5 e
20, inclusive) e por A a amplitude (em que A=x mximo - x mnimo).
Ento,
- Se K dado = A/K
30
Estatistica - Volume I
2009
ni 2 5 7 10 4 2
[26-28] 7 14
[29-31] 10 24
[32-34] 4 28
[35-38] 2 30
=3 ni = 30 fi = 1 n = 30
Por outro lado, por simples aproximao das curvas de frequncias absolutas ou relativas de duas ou
mais variveis, podemos fazer uma primeira comparao entre elas.
Feita a representao dos dados estatsticos por meio de quadros e/ou de grficos, importa fazer sobre
os mesmos um estudo no sentido de se poder chegar a concluses.
31
Estatistica - Volume I
2009
Para tal, impe-se um trabalho de simplificao que consiste em proceder a snteses, em reduzir
grandes quantidades de dados a nmeros simples que permitam uma anlise rpida e uma fcil
comparao com outras sries da mesma natureza ou de natureza diferente.
Sob esta designao agrupam-se os parmetros que, ou nos indicam algo de associvel ao ncleo ou
centro da distribuio, ou nos permitem compartiment-la. Vamos considerar as seguintes medidas de
tendncia central ou de posio: mdia, mediana, moda e quantis.
MDIA
A mdia o ponto de equilbrio dos dados, isto , tendo um conjunto de n valores x1, x2, ..., xn de
uma varivel X o quociente entre a soma desses valores e o nmero deles.
A mdia aritmtica simples (dados no agrupados) pode ser representada pela seguinte frmula
matemtica: n
x i
X= i =1
n
Simplificando:x = xi / n
Numa amostra seriada os valores x1, x2, ..., xk ocorrem n1, n2, ..., nk vezes, respectivamente, a mdia
aritmtica ser x = nixi / n = fixi
32
Estatistica - Volume I
2009
Exercicio: Para distribuio de frequncia por varivel discreta: Para os dados Populacionais calcule a
Mdia, sabendo que
xi 4 6 7 8 10
ni 2 4 5 3 2
xi ni nixi
4 2 8
6 4 24
7 5 35
8 3 24
10 2 20
=16 =111
Numa amostra classificada a frmula definidora da mdia no se pode aplicar directamente porque
no conhecemos os valores exactos da varivel estatstica, mas apenas o nmero de observaes
dentro de cada classe, isto , quando os dados esto agrupados em classes, para o clculo da mdia
simples, devemos considerar o ponto mdio de cada classe (marca) como representativo de todos os
valores nela includos, pelo que aquela pode ser representada pela frmula matemtica seguinte:
x = nix'i / n = fix'i
33
Estatistica - Volume I
2009
ni 2 4 5 3 2
[3-5[ 2 3,5 7
[5-7] 4 5,5 22
[11-13] 2 12 24
=16 =119
Temos de salientar que quando usamos a marca da classe estamos a colocar um certo erro de
agrupamento, pelo que devemos considerar a Correco de Sheppard, de tal modo que:
x semelhante a x
Mdia Aritmtica Pesada ou Ponderada: a mdia aritmtica afectada por pesos (varivel discreta e
varivel contnua).
34
Estatistica - Volume I
2009
Por outras palavras, associa-se a x1, x2, ..., xk certos factores de ponderao ou pesos p1, p2, ..., pk
que dependem do significado ou importncia atribuda s observaes. Assim, a frmula matemtica
da mdia ser:x p = pixi / pi
Exemplo : Um professor de matemtica quer saber a mdia poderada das suas avaliaes nas quatro
turmas em que lecciona, sabendo que o teste tinha uma ponderao de 30% e o trabalho uma
ponderao de 70%:
xi pi pixi
65 30 1950
60 30 1800
40 30 1200
80 30 2400
78 70 5460
70 70 4900
28 70 1960
75 70 5250
400 24920
x p = pixi / pi=24920/400=62,3
Exercicio: Seja uma Amostra dos pesos de seis alunos de Administrao. Encontre a mdia para: xi =
68, 56, 47, 66, 93, 56
35
Estatistica - Volume I
2009
Para alm da mdia aritmtica e da mdia aritmtica ponderada, temos tambm a mdia geomtrica, a
mdia harmnica e a mdia quadrtrica (a estes trs tipos de mdias no iremos dar relevancia).
MEDIANA
MEDIANA (Md) um valor que ocupa a posio central em uma srie, logo, precisamos encontrar a
posio mdia entre os dados.
A mediana de uma srie de n observaes x1, x2, ..., xn de uma varivel X o valor que ocupa a
posio central quando as observaes esto ordenadas por ordem crescente ou decrescente, isto , a
mediana de uma varivel estatstica o valor dessa varivel tal que a frequncia dos valores que lhe
so inferiores a mesma que a frequncia dos valores que lhe so superiores. Representa-se,
habitualmente, por Md.
Para o clculo da mediana, temos de considerar duas situaes: o caso em que N mpar e o caso em
que N par.
N mpar:
A mediana um valor observado, de tal modo que o lugar que ocupa dado pela frmula
Md = (N +1) / 2
5 9 8 7 6
Como N mpar, ento Md=(N+1) / 2 = (5+1) / 2 = 6/2 = 3 ento a mediana ocupa a terceira
posio ou terceiro termo, o seu valor 7.
Interpretao: Podemos dizer que 50 % dos valores da srie so menores ou iguais a __________ e
que 50 % dos valores so maiores ou iguais a ____________.
36
Estatistica - Volume I
2009
N par:
A mediana no coincide com nenhum valor observado ficando compreendida entre dois valores
centrais - classe mediana; convencionou-se tomar para mediana a mdia destes dois valores. A
posio que a mediana ocupa dada pela frmula
5 6 12 9 8 7
Como N par, ento N/2 = 6/2 = 3; ( N/2 + 1) = 3+1 = 4 Assim, a classe mediana ocupada pelas
posies 3 e 4, ou seja, pelos valores 7 e 8, pelo que a Md = (7+8) / 2 = 15/2 = 7,5
Exercicio: Determinar a Mediana para a Amostra X = 7, 21, 13, 15, 10, 8, 9, 13.
Logo, a Md =
Interpretao: Podemos dizer que 50 % dos valores da srie so menores ou iguais a __________ e
que 50 % dos valores so maiores ou iguais a ___________.
MODA
A moda (ou valor modal) de uma srie de n valores x1, x2, ..., xn de uma varivel X o valor onde a
frequncia atinge o mximo (relativo). Representa-se, habitualmente, por Mo.
A moda o valor da varivel com maior efectivo, isto , se uma varivel discreta, a(s) moda(s)
(so) o(s) valor(es) da varivel estatstica que se observa(m) com maior frequncia.
xi 4 6 8 10 2
ni 1 3 5 4 2
A moda 8.
Exercicio: Seja uma Amostra aleatria dos pesos de seis alunos de Administrao. Encontre a moda.
se xi = 68, 56, 47, 66, 93, 56.
37
Estatistica - Volume I
2009
QUANTIS
Quartis:
Os quartis dividem a srie ordenada em 4 partes iguais, contendo cada uma delas 1/4 ou 25% das
observaes.
Assim, Q1 o valor da varivel estatstica que deixa atrs de si 25% das observaes; Q2 o valor da
varivel estatstica que deixa atrs de si 50% das observaes e Q3 o valor da varivel estatstica que
deixa atrs de si 75% das observaes. A (Q1- Q3) chama-se intervalo interquartil e o intervalo ao
qual pertencem 50% das observaes, deixando 25% para a direita e 25% para a esquerda.
de notar que dizer que os quartis dividem a srie em 4 partes iguais no significa que, por exemplo,
os intervalos (Q1, Q2) e (Q2, Q3) tm a mesma amplitude, mas sim que contm o mesmo nmero de
observaes.
Decis:
Os decis dividem a srie ordenada em 10 partes iguais, contendo cada uma delas 1/10 ou 10% das
observaes.
38
Estatistica - Volume I
2009
Centis:
Os centis dividem a srie ordenada em 100 partes iguais, contendo cada uma delas 1/100 ou 1% das
observaes.
Q1=C25
Q2=Md=D5=C50
Q3=C75
D1=C10
D2=C20
Figura 5: Quartis
MEDIDAS DE DISPERSO
Uma medida de tendncia central no nos d, s por si, uma informao exaustiva da distribuio
considerada; pelo contrrio, a capacidade que se lhe atribui de representar os elementos de uma
distribuio depende do modo como estes se concentram ou dispersam em torno dela. Assim,
podemos dizer que os parmetros de tendncia central no so suficientes para caracterizar uma srie
estatstica, apesar de a mediana e os quantis darem j uma ideia sumria do modo como esto
distribudas as observaes.
A 2 3 10 16 19
B 8 9 10 11 12
39
Estatistica - Volume I
2009
A mdia e a mediana 10 e, contudo, estas distribuies so muito diferentes. Com efeito, enquanto
no grupo A as notas apresentam desvios muito grandes, na distribuio B todos os valores se
aproximam de 10. A disperso ou variabilidade da primeira srie mais acentuada do que na segunda.
Quer dizer: distribuies com a mesma tendncia central podem apresentar aspectos bastante
diferentes no que concerne disperso ou variabilidade, e medida que esta disperso aumenta,
menos significativas da distribuio vo sendo as medidas de tendncia central.
Assim, para melhor caracterizarmos uma distribuio, temos de considerar, alm das medidas de
tendncia central, uma outra medida que exprima o grau de disperso ou variabilidade dos dados.
Vamos considerar as seguintes medidas de disperso: amplitude total, amplitude interquartis, desvio
mdio, varincia, desvio padro e coeficiente de disperso ou de variao.
AMPLITUDE
A amplitude total a diferena entre o maior valor e o menor valor, isto , a amplitude total de uma
varivel estatstica a diferena entre o valor mximo e o valor mnimo dos valores observados. a
forma mais simples de avaliar a disperso dos dados, de tal modo que quanto maior for a amplitude
total maior a disperso dos dados.
A amplitude total pode ser tambm denominada de intervalo total ou campo de variao; representa-
se, habitualmente, por A e apenas usa valores extremos.
A = xmximo - xmnimo
Embora seja fcil de calcular, a amplitude total depende somente dos valores extremos, que so,
geralmente, os menos frequentes e os menos significativos de uma distribuio, desprezando-se os
valores intermdios que so os mais frequentes. Alm disso, os valores extremos so vulgarmente
40
Estatistica - Volume I
2009
anmalos e muito variveis, consoante a amostra que se retire de uma populao, de tal modo que
duas distribuies podem ter a mesma amplitude total, mas disperses muito diferentes.
G= 2 3 10 16 19
Como o 1 e o 3 quartis representam valores abaixo dos quais esto, grosso modo, respectivamente,
25% e 75% das observaes, entre eles existiro, assim, 50% das observaes centrais.
Consequentemente, quanto mais aproximados estiverem estes quartis, maior ser a concentrao das
observaes em torno da mediana.
A amplitude interquartis pode ser definida como a diferena entre o Quartil 3 e o Quartil 1. Esta
medida de disperso pode ser tambm denominada de intervalo interquartis ou intervalo quartlico.
Como podemos observar na figura, quanto mais achatada a curva maior a amplitude e quanto
maior a amplitude interquartlica mais dispersa a distribuio.
41
Estatistica - Volume I
2009
Q = (Q3-Q1) / 2
Estas medidas so mais completas do que a amplitude total, porque usam dois valores menos extremos
(Q1 e Q3). No entanto, tm ainda a limitao de no entrarem em linha de conta com a disposio das
frequncias nos intervalos definidos pelos valores separados - exemplo: a amplitude interquartis ser a
mesma, quer as 50% das observaes se acumulem num s ponto, quer estejam uniformemente
distribudas por esse intervalo interquartis.
As medidas de disperso que passaremos a descrever no tm esta limitao, porquanto o seu clculo
depende de todos os valores da srie.
42
Estatistica - Volume I
2009
DESVIO
Dados n valores x1, x2, ..., xn de uma varivel X, chama-se desvio de cada valor xi em relao
constante c, a diferena de xi para c, isto , xi - c
Note-se que os desvios da varivel X em relao a c, isto , (x1-c), (x2-c), ..., (xn-c) constituem os n
valores da varivel X-c.
DESVIO MDIO
Falamos em desvio mdio quando consideramos os desvios de cada valor xi em relao mdia
aritmtica, isto :
xi-x
O simples total destes desvios no pode ser utilizado como medida de disperso, por ser identicamente
nulo. De facto, para n valores singulares, ter-se-:
(xi-x)=0
No entanto, o quociente entre a soma dos mdulos destes desvios e o nmero deles, j pode ser
considerado como medida de disperso
D.M.= |xi-x | / n
xi xi-x |xi-x |
4 4-4=0 0
5 5-4=1 1
3 3-4=-1 1
=12 3-4=-1 =2
x = xi / n =12/3=4
Observao: tambm se utiliza o desvio mdio em relao a qualquer outra medida de posio central.
43
Estatistica - Volume I
2009
Numa amostra seriada temos:
Se os valores da varivel estiverem tabelados de modo que cada valor xi corresponda a frequncia
absoluta ni, o desvio mdio igual soma dos produtos das frequncias pelos valores absolutos dos
respectivos desvios em relao mdia, dividida pelo efectivo da distribuio.
Numa amostra classificada, os desvios em relao mdia aritmtica so calculados a partir dos
pontos mdios de cada classe, ou seja,
ni 1 2
O desvio mdio apresenta a seguinte desvantagem: Embora dependa de todos os valores observados,
o desvio mdio tem a desvantagem de considerar os valores absolutos dos desvios, o que impede o seu
tratamento algbrico.
VARINCIA
Outra maneira de eliminarmos os sinais dos desvios, consiste em elev-los ao quadrado. Por isso, em
vez da mdia dos valores absolutos dos desvios considera-se a mdia dos quadrados dos desvios.
Obtm-se, assim, uma outra medida de disperso bastante usada - a varincia. n
(x x)
2
i
S2 = i =1
n 1
44
Estatistica - Volume I
2009
Dados n valores x1, x2, ..., xn de uma varivel X, chama-se varincia e representa-se, habitualmente,
por s2 ou s2x a mdia aritmtica dos quadrados dos desvios em relao mdia dessas valores, isto ,
S2 = (xi-x)2 / n-1
Resoluo:
Ento, a varincia
xi (xi-x) (xi-x)2
17 17-19=-2 4
18 18-19=-1 1
19 19-19=0 0
20 20-19=1 1
21 21-19=2 4
N=5 =10
Se x1, x2, ..., xn ocorrem n1, n2, ..., nk vezes, respectivamente, temos
S2 = ni (xi-x)2 / n-1
ni 12 25 38 85 93 16 9
45
Estatistica - Volume I
2009
Ento, a varincia
Multiplicando ou dividindo todos os valores observados por uma constante diferente de zero, a
varincia resultante vir multiplicada ou dividida, respectivamente, pelo quadrado dessa constante.
Correco de Sheppard:
s2x = s2x' - a2/12 assim, no nosso exemplo anterior, a variancia corrigida era s2x =43,91 - (52/12)
s2x =41,827
46
Estatistica - Volume I
2009
DESVIO PADRO
O desvio padro pode ser definido como a raiz quadrada da varincia, representando-se,
habitualmente, por sx, isto ,
Ainda que a varincia nos d uma boa informao sobre a distribuio ou variabilidade dos valores
observados em relao sua mdia, apresenta, no entanto, a desvantagem de no se exprimir na
mesma unidade a que esto referidos os dados iniciais. Contudo, esta desvantagem poder ser
eliminada se extrairmos a raiz quadrada da varincia. A nova medida chama-se desvio padro ou
desvio quadrtico.
Exemplo: Calcule o desvio padro, sabendo que a varincia de uma amostra seriada 2.
sx = s2x = 2 = 1,414
Exemplo: Calcule o desvio padro, sabendo que a varincia corrigida de uma amostra classificada
4327,16.
Amplitude total
Utiliza-se quando:
Os dados forem muito raros ou demasiado dispersos para se justificar o clculo de uma medida mais
precisa de disperso;
47
Estatistica - Volume I
2009
Desejamos um ndice muito rpido de disperso.
Amplitude interquartlica
Utiliza-se quando:
Existirem resultados extremos que poderiam afectar o desvio padro de uma maneira
desproporcionada;
A distribuio truncada;
Desvio mdio
Utiliza-se quando:
Desejamos ponderar todos os desvios em relao mdia de acordo com a sua grandeza;
Utilizam-se quando:
Se se trata somente de descrever uma distribuio prefere-se o desvio padro varincia. A varincia
intervm sobretudo na anlise estatstica.
As medidas de disperso a que anteriormente nos referimos so medidas que se exprimem na mesma
unidade dos dados e, sendo assim, torna-se impossvel comparar entre si as disperses de duas
distribuies cujos valores no se refiram mesma unidade.
Qual a distribuio mais dispersa? Se compararmos os desvios padres a B, porque tem maior
desvio padro. Mas a variao de 20 para 600 muito maior do que 10 para 30. Assim, em vez de
48
Estatistica - Volume I
2009
compararmos os desvios padres, aplicamos outra medida de disperso relativa que o coeficiente de
variao ou de disperso, que pode ser definido pela frmula.
S
CV
= 100%
X
Exemplo 26: A distribuio dos pesos e das alturas de um grupo de estudantes de determinada
Universidade conduziu aos seguintes resultados:
Determine o coeficiente de disperso para cada uma das distribuies e, depois, indique em qual delas
a disperso relativa maior.
Assim, podemos dizer que a disperso relativa mais acentuada na distribuio dos pesos (X).
Se pretendermos estabelecer comparaes entre disperses absolutas, devemos usar o desvio padro,
de tal modo que quanto maior for o desvio padro maior ser a disperso.
A distribuio normal simtrica e apresenta uma curva em forma de sino, como mostra a figura. A
sua principal caracterstica a de as trs medidas de tendncia central - mdia, mediana e moda - Se
encontrarem todas no mesmo ponto da curva, ou seja, todas terem o mesmo valor ou, pelo menos,
valores muito prximos. Se os elementos que constituem uma distribuio esto muito prximos ou
muito dispersos, encontraremos assimetrias positvas ou negativas, consoante a media seja inferior
mediana e moda (negativa) ou superior s mesmas (positiva).
49
Estatistica - Volume I
2009
A maior parte dos dados recolhidos com organismos vivos tm este padro. Podemos observar que,
devido forma da curva, h poucos resultados muito baixos e poucos resultados muito eleva. dos (a
curva cai nos extremos esquerdo e direito, o que se deve s baixas frequncias encontradas),
enquanto a maioria dos resultados se encontram junto mdia. Vamos debruar-nos sobre o padro de
resultados muito em breve, mas nesta fase referiremos outra caracterstica muito importante da
distribuio normal. Tericamente, a curva nunca toca o eixo horizontal, mas aproxima-se dele
infinitamente. Esta uma propriedade matemtica da distri' buio que no se reflecte na recolha de
dados real. No nos cruzamos com seres humanos com dimenses gigantescas ou micros' cspicas!
1) simtrica;
50
Estatistica - Volume I
2009
Podemos perguntar-nos quo rgida a distribuio normal relativamente aos elementos. Por outras
palavras, quanto pode uma curva desviar-se da forma de sino e continuar a ser considerada normal?
Geralmente, usamos duas abordagens para tomarmos este tipo de deciso; na verdade, este problema
mais importante do que o leitor pode pensar, pois existem testes estatsticos, descritos mais frente,
que s podem realizar-se se os elementos forem normalmente distribudos. Uma das abordagens
baseia-se na observao dos dados por averiguao, para lhe darmos um nome mais respeitvel. Se
o conjunto de nmeros for extenso, tornar-se- mais fcil desenhar uma distribuio de frequncias. A
outra abordagem reside em seguir um dos procedimentos matemticos para determinar se um conjunto
de resultados normalmente distribudo. A verso do teste do quiquadrado que inclumos neste
manual um desses procedimentos. Na verdade, improvvel que nesta fase da sua carreira estatstica
necessite de saber com grande preciso se uma distribuio considerada normal ou no, pelo que o
teste grfico deve bastar. No entanto, deve ser sensvel ao problema.
Suponhamos que temos um conjunto de nmeros cuja mdia 50 e cujo desvio padro 5.
Chamamos a este valor (centmetros, segundos, pontos numa escala, ou outra coisa qualquer) um
desvio padro. Dez centmetros, segundos, etc., seriam dois desvios padro e quinze centmetros,
segundos, etc., trs desvios padro ... sempre com referncia ao conjunto atravs do qual obtivemos o
valor 5. como se pudssemos tirar o desvio padro e transform-lo numa unidade de medida de uma
escala; como se dissssemos que uma polegada so 2,54 cm. Nunca misturaramos polegadas e
centmetros nos mesmos clculos, mas poderamos converter uma unidade na outra. Do mesmo modo,
no misturamos resultados de desvios padro com resultados reais, mas convertemos uma escala na
outra.
51
Estatistica - Volume I
2009
encontram nos outros dois lados. Mais uma vez, a simetria da curva significa que, para esta proporo,
metade de 31,74 %, ou seja, 15,87 %, encontra-se de cada um dos lados da distribuio. Por outras
palavras, cerca de 16 % de todos os nmeros neste conjunto sero menores do que 45, sendo a mesma
quantidade maior do que 55.
Exemplo: Suponhamos que o professor obtm os resultados de um teste de leitura feito a 200 crianas.
Os resultados so normalmente distribudos com uma mdia de 60 e um desvio-padro de 8. A partir
das propriedades da distribuio normal, sabemos que cerca de dois teros dos resultados, isto ,
aqueles que foram obtidos com cerca de 136 crianas, encontrar-se-o entre os 52 e os 68 pontos.
Cerca de 32 crianas (16 %) tero resultados abaixo de 52 e cerca de 32 tero resultados acima de 68.
J os referimos todos. Suponhamos ento que os pais de uma criana que obteve 68 gostariam de
saber algo acerca do progresso do seu filho. Quando souberam que o resultado da criana estava
acima da mdia, ficaram contentes, mas gostariam de saber, posteriormente, quo acima da mdia
se encontra, relativamente aos outros 50 % de crianas que tambm obtiveram resultados acima da
mdia. Por outras palavras, os pais pretendem saber qual a posio relativa do desempenho do filho.
Se os resultados estivessem todos muito perto da mdia, sendo a nota mxima 68, os pais
continuariam encantados. Ficariam, porm, menos satisfeitos se soubessem que a nota mxima tinha
sido 90, com um grande conjunto de notas altas, acima de 70. No entanto, o professor sabe que o
desvio-padro das notas foi 8 e, por isso, um tero de todos os resultados estava entre 60 e 68.
Sabendo que 50 % dos resultados obtidos estavam abaixo da mdia, podemos perceber que a
posio desta criana est ao nvel de 84 % dos resultados, na parte superior de todos os resultados.
Afinal, os pais tm razes para estarem contentes! Se a criana tivesse obtido 76, os pais teriam muito
mais razes para estarem orgulhosos, pois saberiam que o seu filho estava acima de 98 % das outras
crianas (nota 76 e dois desvios-padro acima da mdia); uma nota 84 colocaria o menino na posio
invejvel de estar acima de 99,87 % das outras crianas - por outras palavras, num grupo de 200
crianas, estaria, muito provavelmente, no topo. Os desvios-padro cortam propores fixas da
distribuio normal, a partir da mdia e at ao infinito (pelo menos teoricamente), nas duas direces.
Deve certificar-se de que percebeu como se obtm a posio relativa da nota 76 (isto , 50 % + 33 %
+ 15 %) e como se calcula que neste grupo de crianas existem outras quatro com notas acima de 76.
Veja se consegue calcular a nota que colocaria a criana na posio, menos invejvel, de estar apenas
a quatro lugares do fim.
A resposta 44. Para obtermos esta nota necessitamos de saber que nota representa dois desvios-
padro abaixo da mdia ou que nota corresponde a 2 %. Partindo de 60, a mdia, se lhe subtrairmos o
valor de dois desvios-padro - 16, duas vezes o valor de 8, que um desvio-padro - obteremos 44.
Devemos ter cuidado e no misturar os valores dos desvios-padro com os resultados reais. Neste
exemplo no subtramos o valor 2 da mdia de 60, apesar de querermos o resultado que estava dois
52
Estatistica - Volume I
2009
desvios-padro abaixo dele. Subtramos 16 pontos, pois este o nmero que corresponde a dois
desvios-padro para este conjunto de re sultados.
A posio da criana exactamente a meio entre os pontos 60 e 68. Significar isto que a sua posio
no grupo o ponto central entre a mdia de 50 % e 84 % da nota 68? Isto , encontrar-se- a criana
acima de 67 % dos colegas? Olhemos cuidadosamente para as duas pores da curva que est dividida
pela linha ao nvel da nota 64. Sero simtricas? No - e aqui temos um problema que torna o clculo
de uma posio relativa muito mais complicado e cansativo do que gostaramos. Quanto mais nos
afastamos da mdia, menos resultados correspondem s diferentes propores. Assim, se tivermos
duas pores entre 60 e 64 e entre 64 e 68, haver menos resultados neste ltimo intervalo. Haver
ainda menos no intervalo sguinte, entre as notas 68 e 72, e assim sucessivamente. Isto tambm
verdadeiro para os resultados abaixo da mdia, mas, neste caso, so os resultados mais elevados, e no
os mais baixos, que se encontram mais perto da mdia. H muito menos resultados entre 44 e 48 do
que entre 48 e 52, apesar de, em ambos os casos, a variao de notas ser de 4 pontos, ou seja, meio
desvio-padro. Quando olhamos para a forma de uma distribuio normal, o tamanho diferente das
propores que cada desvio-padro compreende parece bvio. No entanto, o problema de decidir a
posio relativa de uma nota 64, quando comparada com os resultados, no desapareceu. Como
podemos determin-la? A resposta dada atravs de resultados z. Os resultados z correspondem a
desvios-padro e, na verdade, so virtualmente a mesma coisa, excepto no facto de um resultado z se
referir sempre posio de um ponto em relao a mdia. Isto vai tornar-se claro em breve. Para j,
pensemos que um resultado z de 1 a mesma coisa que um desvio-padro de 1, que um resultado z de
2 e um dp 2, e assim por diante. Como no h, virtualmente, nada numa distribuio normal depois do
terceiro desvio-padro ou resultado z - em qualquer das direces -, r,aro que os desvios-padro ou
os resultados z incluam o valor 4. E comum referirmo-nos aos resultados z como mais ou menos; aos
desvios-padro descrevemo-los como situando-se acima ou abaixo da mdia, em vez de mais ou
menos. Um desvio-padro tem um valor definido no varivel, enquanto um resultado z se refere a
uma posio relativa na curva e referido em funo da mdia. Como, at agora, um resultado z tem o
mesmo significado que um desvio-padro acima da mdia, podemos considerar que os resultados z e
os desvios-padro so iguais. No entanto, um desvio-padro pode referir-se a um conjunto de
resultados que distem um desvio-padro de qualquer ponto da curva, enquanto os resultados z tm
53
Estatistica - Volume I
2009
posies fixas. Um resultado z de + 1 corresponde exactamente a um desvio-padro acima da mdia, e
no a qualquer conjunto de resultados que constituam um desvio-padro. Voltemos ao problema do
resultado de 64 e sua posio relativa. Sabemos que a sua posio exactamente metade de um
desvio-padro acima da mdia, pelo que lhe damos um resultado z de + 0,5.
H tabelas que nos permitem ver muito facilmente onde os resultados z se situam na curva normal.
Procure uma tabela estatstica da distrbuio normal vejamos como utiliz-las. Utilizaremos o nosso
exemplo de 64, cujo valor z + 0,5.
Lemos o valor na primeira coluna da esquerda, encabeada por z, at chegarmos ao valor 0,5.
Olhamos para a coluna direita e vemos o nmero 19,15. Temos de somar 50 %, de modo a obtermos
o valor 69,15. Sabemos ento que h 69,15 % dos resultados abaixo de 64 e 30,85 % acima. Devemos
arredondar os valores para 69 % e 31 %, respectivamente. Consideremos outro exemplo, desta vez
com o valor 65. Este valor est 5 pontos acima da mdia e o desvio-padro para o conjunto de 8. Um
resultado de 5 pontos acima da mdia 5/8 de desvio-padro acima da mdia. Se fizermos as contas,
sabemos que z + 0,63. Como se encontra acima da mdia, o seu valor positivo. Voltemos tabela.
Como z tem, desta vez, duas casas decimais, os procedimentos vo ser um pouco diferentes. O valor
imediatamente direita (22,7) a percentagem correcta para um resultado z de 0,6. No entanto, o
nosso resultado 0,63, pelo que temos de andar trs colunas da tabela at ao valor 0,03, no topo. Este
valor, somado ao valor 0,6, d-nos o z de 0,63 - ou seja, 23,57. Como o nosso z positivo, devemos
somar-lhe 50 % para obtermos o valor final de 73,57. Assim, a nota 65 est frente de 74 % da escala.
Podemos ver pela tabela que 49 % de todas as notas em cada um dos lados da curva esto includas
num z de 2,33 ou um bocadinho mais abaixo, para sermos mais precisos). Notemos que,
matematicamente, as caudas da curva nunca tocam o eixo horizontal, nem incluem todos os resultados
possveis.
Reparemos agora na posio relativa de uma pessoa que obtenha um resultado abaixo da mdia,
digamos uma nota 41 na amostra original. Esta nota est 19 pontos abaixo da mdia, apenas um pouco
menos do que dois desvios-padro. Para sermos precisos, est 19/8 ou 2,375 abaixo. O seu z ser -
2,375. Na tabela SI iem anexo vemos que um z de + 2,3 inclui 48,93 % dos resultados, mas o nosso
resultado z o valor um pouco superior de 2,375. A nossa tabela s pode ser usada com duas casas
decimais, pelo que vamos arredondar este valor para 2,38. Paramos, desta vez, junto da coluna de 0,08
e obtemos o valor 49,13. Assim, um z de + 2,38 inclui 50 % + 49,13 % = 99,13 % de todos os
resultados. At agora tudo bem, mas o problema que o nosso valor era negativo. Basta virarmos a
nossa curva ao contrrio e trabalharmos com a sua imagem ao espelho. Assim, com o nosso valor -
2,38 sabemos que 99,13 % de todas as notas da distribuio esto acima dele e apenas 0,87 % abaixo.
Se considerarmos esta pequena proporo de 1 %, devemos esperar que, na nossa amostra de 200
indivduos, 1 %, ou seja, dois indivduos tenham notas inferiores a 41. No outro extremo das notas,
54
Estatistica - Volume I
2009
devemos esperar que apenas dois alunos tenham notas de 19 ou mais pontos acima da mdia, ou seja,
notas que excedam os 79 %.
desvio-padro
Se o desvio em relao mdia tiver um sinal positivo ou negativo, se estiver acima ou abaixo da
mdia, respectivamente, z ficar com o sinal correcto.
Nota: : tenha cuidado quando trabalhar com z e dp, de modo a us-los sempre que os dados atravs
dos quais foram obtidos sigam uma distribuio normal Ou aproximadamente normal. De outro modo,
arranjar confuses
6. TESTES ESTATISTICOS
Quando se pretende empregar um teste t de Student ou uma anlise da varincia para fazer
comparaes entre amostras (testes paramtricos), existe uma lista de requisitos que inclui, entre
outros:
que a caracterstica estudada (varivel) tenha distribuio normal numa dada populao.
55
Estatistica - Volume I
2009
Podem ser utilizados, mesmo quando os seus dados s podem ser medidos num nvel ordinal, isto ,
quando for apenas possvel orden-los por ordem de grandeza) podem ser utilizados mesmo quando os
seus dados so apenas nominais, i.e., quando os sujeitos podem apenas ser classificados em
categorias.
Poder de um teste
Os testes mais poderosos (os que tm maior probabilidade) de rejeio de H0, so testes que possuem
pr-requisitos mais difceis de satisfazer (testes paramtricos como t e F).
Em consequncia
Ao rejeitar-se a H0 sem preencher as exigncias mnimas dos testes paramtricos, mais provvel que
essa rejeio seja falsa (se rejeitar a H0 quando ela verdadeira comete um erro de tipo I; se aceitar a
H0 quando ela falsa comete um erro de tipo II). Quando os requisitos de um teste paramtrico so
violados, torna-se impossvel conhecer o seu poder e a sua dimenso ()
obvio que os investigadores querem, a todo o custo, rejeitar a H0 quando ela mesmo falsa,
evitando um erro de tipo I.
O teste ideal seria aquele que =0 e =1, o que implicaria que o teste conduziria sempre deciso
correcta, contudo este teste ideal raramente existe.
A probabilidade do erro de 1 espcie deve ser reduzida, fixando terico em 0,1; 0,05 ou 0,01. o
valor fixado para depende da importncia que se d ao facto de rejeitar a H0 quando esta
verdadeira.
Uma ilustrao deste ponto de vista pode ser feita com o seguinte exemplo:
56
Estatistica - Volume I
2009
Erro II: A pessoa absolvida mas culpada
Naturalmente a justia procura reduzir a possibilidade de ocorrer o erro de 1 espcie, pois entende-se
que mais grave condenar inocentes que absolver criminosos.
Para certos sistemas judiciais um = 0,1 demasiado elevado, optando por =0,01; noutros sistemas
judiciais pode admitir que = 0,05 um valor razovel.
ASSIM
Fixada a probabilidade do erro de tipo I (dimenso do teste), o teste mais potente aquele em que a
escolha da regio critica minimiza a probabilidade do erro de 2 espcie. Diz-se tambm que esta
regio critica a mais potente.
Facilmente se conclui que o teste mais potente aquele que, uma vez fixada a probabilidade de
rejeitar a H0, quando ela verdadeira, maximiza a potncia ou a capacidade para rejeitar a mesma
hiptese quando esta falsa.
Pressupostos
Para saber se uma varivel simtrica dividimos o coeficiente assimetria (Skewness) pelo erro padro
e se o resultado estiver entre 2 e -2 a distribuio simtrica.
Para saber se uma varivel mesocurtica dividimos o coeficiente de achatamento (Kurtosis) pelo erro
padro e se o resultado estiver entre 2 e -2 a distribuio mesocurtica.
Mas se os resultados de um teste paramtrico, no cumpriram com os requisitos (no mnimo dados
intervalares; distribuio simtrica, mesocurtica e normal), ento no tm interpretao significativa.
Quando acontecem estes factos, a maioria dos investigadores opta por testes de significncia no-
paramtricos.
57
Estatistica - Volume I
2009
este tipo de design utilizado quando um indivduo ou objecto avaliado apenas uma vez. A
comparao efectuado entre os grupos de sujeitos/ objectos cujos resultados so no-relacionados.
Desvantagem: conjunto das diferenas individuais na forma como os sujeitos reagem ou respondem
tarefa.
A importncia destes designs a eliminao de quaisquer particularidades individuais, uma vez que
ficam igualizadas em todas as situaes.
Amostras emparelhadas
Igualizam-se sujeitos diferentes mas emparelhados, em termos de idade, sexo, profisso e outras
caractersticas gerais que parecem importantes para cada pesquisa em particular.
estes tipos de designs podem ser considerados de designs relacionados, uma vez que controlado nas
suas caractersticas relevantes.
A maioria dos investigadores principiantes enfrenta srias dificuldades quando tem de usar a anlise
estatstica. apontado como provveis causas o ensino de Estatstica que, frequentemente, tem um
enfoque matemtico ou de receita que no conduzem ao aproveitamento desta ferramenta e o
consequente despoletar de uma ansiedade matemtica, que pode levar os estudantes a evitar o seu
uso. Essa situao conduz, no raras vezes, dependncia de outros para seleccionar a estatstica
adequada ao seu projecto. O objetivo desta lio ajudar a ter uma idia da potencialidade da
estatstica apropriada a sua pesquisa.
Primeiro examine seu estudo, identifique o que quer com sua anlise estatstica, devendo, para isso,
especificar claramente as vrias questes a que quer que sua anlise estatstica responda (conhecer a
58
Estatistica - Volume I
2009
associao ou verificar as diferenas). Comece por escrever as suas questes de pesquisa e hipteses.
Depois identifique a varivel dependente e independente bem como os seus nveis de mensurao.
Apos estar na posse dessa informao consulte a figura que se segue e vai ver que tudo comea a ficar
mais fcil.
Como segundo passo na escolha da estatstica apropriada, verifique se sua varivel dependente
adequada para a estatstica paramtrica. A estatstica paramtrica envolve pelo menos dois
pressupostos iniciais: o primeiro se a varivel dependente segue uma distribuio normal e, o
segundo, se os dados entre diferentes sujeitos so independentes ou emparelhados/relacionados.
59
Estatistica - Volume I
2009
Portanto, uma varivel dependente qualitativa ou categrica no se enquadra neste tipo de estatstica,
devendo usar o enfoque da estatstica no paramtrica.
Examine cada varivel dependente uma por uma nesse processo. Nem todas tero as mesmas
caractersticas. Um erro comum, por exemplo, assumir que pode usar sempre o mesmo teste
estatstico se os grupos experimentais so equivalente em idade, gnero, anos de estudos e outras
variveis demogrficas. Idade e anos de estudo so duas variveis geralmente analisadas com
estatstica paramtrica. O gnero e a etnia so variveis nominais e por isto devem ser analisadas com
Estatstica no paramtrica.
Definir quais as estratgias estatsticas a utilizar exige o conhecimento das lies anteriores. As mais
robustas estratgias estatsticas exigem que as variveis apresentem propriedades intervalares para que
sejam obtidos resultados fidedignos. Contudo na investigao com seres humanos nem sempre
possvel termos variveis quantitativas, por isso para cada teste estatstico paramtrico existe um
equivalente no paramtrico mas destes ltimos existem vrios que no tem equivalente paramtrico.
Por exemplo se tanto a nossa varivel dependente (VD) quanto a independente (VI) forem nominais e
quisermos conhecer a associao entre elas podemos recorrer ao qui-quadrado (x2) da independncia;
se ambas forem ordinais podemos recorrer ao rho de spearman mas se forem quantitativas e
cumprirem com os restantes pr-requisitos da estatistica paramtrica (simtricas, mesocurticas e
distribuio normal) podemos utilizar o teste r de Pearson.
60
Estatistica - Volume I
2009
Se a figura anterior no o deixou muito esclarecido experimente consultar o quadro que se segue.
Otestes estatsticos paramtricos esto assinados com um asterisco (*)
NIVEIS DE MENSURAO
Nominal Ordinal Quantitativa
Testes para uma
-TESTE DE KOLMOROGOV-
amostra
TESTE DE QUI-QUADRADO DA ADERNCIA TESTE DE KOLMOROGOV-SMIRNOV SMIRNOV
-TESTE T PARA UMA AMOSTRA
*
Variveis Independentes
Qualitativas Quantitativa
Nominal/ dicotomica Ordinal/ Grupo
TESTE DE QUI-QUADRADO DA INDEPENDENCIA
Nominal KAPPA DE COHEN TESTE DE QUI-QUADRADO DA
MACNEMAR INDEPENDENCIA
Q DE COCHRAN
TESTE DE QUI-QUADRADO DA INDEPENDENCIA RHO DE SPEARMAN
Variveis Dependentes
Supondo que suas variveis dependentes tivessem uma distribuio normal ou que sua amostra fosse
suficientemente grande, deve verificar todas as possibilidades de anlise: univariada , bivariada,
mltipla e multivariada, se for o caso. A anlise univariada quando a varivel analisada per se,
anlise bivariada quando uma varivel dependente relacionada com uma nica varivel
independente, anlise mltipla quando se analisa uma varivel dependente em funo de vrias
variveis independentes, e anlise multivariada, quando se analisa vrias variveis dependentes
contnuas em funo de variveis independentes categricas ou quando se analisa a estrutura das
variveis, visando a reduo do nmero de variveis.
O quadro anterior no esgota as analises estatsticas, alis existem outras tantas quantas as que
apresentamos aqui, contudo mostra as mais utilizadas nas anlises univariadas e bivariadas.
61
Estatistica - Volume I
2009
Utiliza-se para designs experimentais com duas situaes testando uma varivel independente,
quando nessas situaes se encontram sujeitos diferentes - designs no relacionados. O teste t no
relacionado o equivalente paramtrico do teste no paramtrico U de Mann-Whitney; ambos
comparam diferenas entre dois grupos.
O objectivo deste teste comparar a quantidade da variabilidade devida s diferenas previstas nos
resultados entre dois grupos com a variabilidade total nos resultados dos sujeitos. As diferenas
previstas so calculadas como uma diferena entre os resultados mdios entre os dois grupos.
A estatstica t representa o tamanho da diferena entre as mdias para os dois grupos, tomando em
considerao a varincia total.
Para que o valor observado de t seja significativo ter de ser igual ou superior aos valores
crticos de t apresentados na tabela.
62
Estatistica - Volume I
2009
Instrues passo-a-passo
em que
1 = mdia do grupo 1
2 = mdia do grupo 2
x12 = soma dos quadrados para o grupo 1
x22 = soma dos quadrados para o grupo 2
( x1)2 = resultados totais do grupo 1 ao quadrado
( x2)2 = resultados totais do grupo 2 ao quadrado
n1 = nmero de sujeitos do grupo 1
n2 = nmero de sujeitos do grupo 2
(n1 - 1) + (n2 - 1) = graus de liberdade (gl)
63
Estatistica - Volume I
2009
Exemplo: para verificar se duas dietes para emagrecer so igualmente eficazes, um mdico separou ao acaso
um conjunto de pacientes em dois grupos. Cada paciente seguiu a dieta designada para o seu grupo durante 4
meses. O mdico registou a perda de peso em kg de cada paciente por grupo. Os dados esto apresentados no
quadro que se segue:
10 100 2 4
5 25 1 1
6 36 7 49
3 9 4 16
9 81 4 16
8 64 5 25
7 49 2 4
5 25 5 25
6 36 3 9
5 25 4 16
Calcule o valor de t observado 2 e verifique se igual, superior ou inferior ao valor crtico e intrepete o
resultado.
2
Soluo:tObs=3,1 tcrit(18)=2,9
64
Estatistica - Volume I
2009
Utiliza-se para designs experimentais com duas situaes testando uma varivel independente, quando
os mesmos sujeitos (ou emparelhados) se encontram em ambas as situaes - design relacionado. O
teste t relacionado equivalente ao teste no paramtrico de Wilcoxon.
O objectivo comparar as diferenas entre as duas situaes experimentais com a variabilidade total
nos resultados. Quando os mesmos sujeitos so usados em ambas as situaes podem comparar-se
pares de resultados obtidos por cada indivduo quando sujeito a ambas as situaes.
A estatstica t apresenta o tamanho das diferenas entre os resultados dos sujeitos para as duas
situaes. Para que seja significativo o valor de t ter de ser igual ou superior aos valores crticos da
tabela
Instrues passo-a-passo
65
Estatistica - Volume I
2009
em que
N = nmero de sujeitos
N 1= gl
66
Estatistica - Volume I
2009
Exemplo: Para verificar se a eficcia de uma dieta era influenciada pelo ministrar de um frmaco, um
mdico decidiu administrar, a um grupo de individuos que o tinham procurado para perder peso, um placebo
em conjunto com uma dieta que j havia administrado um ms antes aos mesmos sujeitos. Referiu aos seus
casos que aquele medicamento servia para perder apetite e ajudava a queimar gorduras.
Registou a perda de peso que tinha ocorrido nos 30 dias antecedentes tomada de placebo e trinta dias aps
o placebo. Os resultados esto no quadro que se segue
Situao A Situao B d
Sujeito d2
(com placebo) (s com dieta) (A-B)
1 10 2 8 64
2 5 1 4 16
3 6 7 -1 1
4 3 4 -1 1
5 9 4 5 25
6 8 5 3 9
7 7 2 5 25
8 5 5 0 0
9 6 3 3 9
10 5 4 1 1
Total 64 37 d = 27 d2 = 151
Resoluo 50:
Instrues Passo-a-Passo:
1. construir tabela
2. calcular as mdias
3. d = 27
4. d2 = 151
5. ( d)2 = 27 x 27 = 729
6. proceder aos calculos
7. g.l. = N - 1 = 10 - 1 = 9
67
Estatistica - Volume I
2009
calcule o valor observado 3 de t e verifique se superior, igual ou inferior ao valor crtico de e
interprete os resultados.
Quando estudamos um grupo relativamente a dois caracteres vemos, como j dissemos, que pode
existir uma relao entre eles.
Se medirmos os raios de vrias circunferncias e tambm os seus permetros verificamos que existe
uma relao entre eles que constante; neste caso temos "dependncia funcional". Isto quer dizer que
existe uma frmula exprimindo a medida do segundo em funo da do primeiro: P=2r.
Suponhamos agora que registamos, durante todos os dias de um certo perodo de tempo, o numero de
alunos que frequentam a biblioteca do Instituto Superior Miguel Torga e o nmero de passageiros dos
SMTUC da linha 6 (CHC-HUC). V-se bem que entre as duas estatsticas assim obtidas no
esperada nenhuma relao. Diremos que os dois caracteres so "independentes". Mas espera-se que
exista uma dependncia estatstica entre as pessoas que tentam o suicdio e a depresso. Diremos que
estes caracteres esto correlacionados.
Desde que os dois caracteres sejam tais que as suas variaes sejam sempre no mesmo sentido, ou em
sentidos contrrios, pressentimos que os caracteres estejam ligados entre si: dizemos, ento, que existe
uma correlao entre eles.
Estes mtodos de correlao foram criados por Sir Francis Galton, que trabalhou juntamente com
Pearson, nos fins do sculo XIX. A correlao e a regresso so dois aspectos que andam sempre
muito ligados, pertencendo Estatstica correlacional. Assim, importa fazermos a distino entre eles:
A correlao pode ser definida como o grau de semelhana no sentido das variaes entre os valores
correspondentes dos dois caracteres, isto , a correlao preocupa-se quer com a descrio da relao
entre variveis quer com a sua direco (directa ou inversamente proporcional, positiva ou negativa).
J a regresso usada quando queremos conhecer as variveis preditoras de uma outra conhecida.
3
tobs=2,90; tcrit(0,010)=2,821
68
Estatistica - Volume I
2009
- Coeficiente de correlao Rho de Spearman-Rank, cujo smbolo "", e que uma tcnica de
estatstica no paramtrica.
Devemos salientar que, para o clculo das correlaes, necessrio termos sempre duas medidas para
cada sujeito.
REPRESENTAO GRFICA
69
Estatistica - Volume I
2009
A anlise de r deve vir acompanhada do diagrama de disperso, pois a associao pode no
ser linear.
140 160
r=0 r 0,90
0 0
0 20 0 14
Suponhamos que temos duas sries estatsticas formadas pelos valores xi e yi de dois caracteres.
Podemos fazer uma representao grfica dos dados representando todos os pontos (xi, yi) e obtendo a
nuvem de pontos.
Por exemplo os pontos podem distribuir-se na semelhana de uma linha recta ou de uma curva: isto
sugere a existncia de uma relao funcional entre X e Y.
Os pontos podem ser dispersos e colocados ao acaso no plano; pode acontecer que os pontos cubram
uma poro do plano da qual se pode definir o contorno; esta forma sugere que as duas variveis esto
ligadas. Limitemo-nos ao caso mais simples em que a nuvem tem uma forma alongada lembrando
uma elipse e suponhamos que a sua orientao tal que desde que X cresa, a varivel Y tambm
cresce. A forma desta nuvem sugere a possibilidade da existncia de uma recta tal que os valores
estimados por esta recta, a partir dos valores de xi, sejam boas aproximaes dos valores de yi. Ns
podemos determinar pelo mtodo dos mnimos quadrados uma recta tal que a soma dos quadrados dos
desvios seja mnima. Esta recta chamada recta de regresso de Y em X ou recta de estimao de Y
em X.
Mas, poderamos, de um modo semelhante, procurar uma recta tal que os valores de x estimados ao
longo desta recta, a partir de yi, constituam igualmente boas aproximaes de xi. Esta recta chamada
recta de regresso de X em Y ou recta de estimao de X em Y.
Normalmente, estas rectas so distintas uma da outra. Elas sero confundidas quando existe ligao
funcional linear e so perpendiculares ao eixos quando h independncia. Compreendemos, assim,
que a correlao entre os caracteres tanto maior quanto maior as rectas de regresso estejam mais
prximas uma da outra.
70
Estatistica - Volume I
2009
CARACTERISTICAS E REQUISITOS DE UTILIZAO DO TESTE R
Frmula
Ento -1 r 1
Interpretao:
Para Cardoso:
Para Borg:
0,20 < r 0,35 Ligeira relao entre as variveis, embora j possam ser
estatisticamente significativas
71
Estatistica - Volume I
2009
0,65 < r 0,85 Correlaes que tornam possveis predies do grupo de que so dignas
A intensidade ou fora que dada pelo valor que varia entre -1 e 1. Se a correlao for zero no existe
correlao entre as variveis (exemplo: cor dos olhos e inteligncia).
Exemplo: Considere as classificaes (numa escala de 0 a 100) obtidas por 10 alunos nas disciplinas
Estatistica I (STAT I), Estatistica II (STAT II),Portugues (PORT) e Franes (FRA):
72
Estatistica - Volume I
2009
1. Com base dos dados que se seguem calcule o coeficiente de correlao 4 entre X e Y
Sabe-se que:
s2x= 90 s2y= 90
4
a)=1 b)=-1
73
Estatistica - Volume I
2009
O ponto 6.1.1 explica como comparar mdias de duas populaes, com base em amostras dessas
populaes. Mas s vezes preciso comparar mdias de mais de duas populaes. Por exemplo, para
verificar se pessoas com diferentes nveis socioeconmicos, isto , alto, mdio e baixo tm, em mdia,
o mesmo peso corporal, preciso comparar mdias de trs populaes.
Para comparar mdias de mais de duas populaes aplica-se a ANOVA (o teste F), na forma que a
seguir se descreve, desde que a varivel em estudo tenha distribuio normal ou aproximadamente
normal. Mas antes de mostrar como se faz esse teste, convm apresentar um exemplo.
Se a varivel em estudo tem distribuio normal ou aproximadamente normal, para comparar mais de
duas mdias aplica-se o teste F.
Primeiro, preciso estudar as causas de variao. Por que os dados variam? Uma explicao o
facto de as amostras provirem de populaes diferentes. Outra explicao o acaso, porque at
mesmo os dados provenientes de uma mesma populao variam.
O teste F feito atravs de uma anlise de varincia, que separa a variabilidade devido aos
"tratamentos" (no exemplo, devido s amostras terem provindo de populaes diferentes) da
variabilidade residual, isto , devido ao acaso. Para aplicar o teste F preciso fazer uma srie de
clculos, que exigem conhecimento da notao.
1. Graus de liberdade
gl dos grupos: k 1
gl do total: n-1
74
Estatistica - Volume I
2009
2. calcular o valor de Correco (C) que dado pelo total geral ao quadrado e dividido pelo
nmero de dados.
75
Estatistica - Volume I
2009
para interpretar os resultados necessitamos de comparar o F calculado com o valor dado na tabela de
F, ao nivel de significncia estabelecido, observando os k-1 graus de liberdade no numerador e os n-k
graus de liberdade no denominador (coluna da esquerda).
Exemplo: Um profissional de sade recm contratado para acompanhar um conjunto de atletas de alta
competio, verificou, pelos registos clnicos deixados pelo seu antecessor, que alguns atletas com o mesmo
tipo de leso (em grau e extenso) tinham mais recidivas que outros, apesar das condies de treino e o
tempo de recuperao ser o mesmo. Colocou a hiptese de que tal acontecimento se podia dever s diferentes
teraputicas que eram utilizadas para tratar as mesmas leses. Os resultados podem ser observados no quadro
que se segue:
8 5 7 4
5 2 3 2
8 5 3 0
8 5 7 0
40 25 25 10
8 5 5 2
1. passo:
calcular o valor de Correco (C) que dado pelo total geral ao quadrado e dividido pelo nmero de
dados.
76
Estatistica - Volume I
2009
77
Estatistica - Volume I
2009
calcular o valor de F
Finalmente ir tabela F para um nvel de significncia (p) de 5% (0,05) e observar qual o F terico
para 3 e 16 graus de liberdade.
Como o valor calculado (7,06) maior que o da tabela (3,24), conclumos que as mdias das recidivas
diferem em funo do tratamento, para um nvel de significncia de 0,05.
A acompanhar este comentrio, os valores calculados devem ser apresentados num quadro, da
seguinte forma:
Causas de variao gl SQ QM F p
Tratamentos 3 90 30 <0,05
7,06
Resduo 16 68 4,25
Total 19 158
Mas, como se pode observar, apesar da tabela mostrar que existem diferenas significativas, no nos
informa, que tratamentos que produzem diferenas e quais so semelhantes. Sempre que as
diferenas so significativas, e s nesse caso, temos que proceder s comparaes posteriori (Post-
Hoc). Podemo-nos socorrer de diversos testes (LSD; Bonferroni; Sidak; Scheffe; SNK; Tukey; etc.), a
grande diferena entre eles reside no tipo de distribuio em que assentam e no tipo de ajustamento).
78
Estatistica - Volume I
2009
Apresentaremos de seguida apenas o teste de Tukey, por ser dos mais utilizados e o mais simples de
calcular, quando recorremos ao clculo manual.
O teste Tukey permite estabelecer a diferena mnima significante, ou seja, a menor diferena entre as
mdias que deve ser tomada como significativa em determinado nvel de significncia. Essa diferena
(dms) dada por:
r o nmero de repeties
assim, se consultarmos a tabela verificamos que o q para comparar quatro tratamentos com 16 gl no
residuo de 4,05. como QMR=4,25 e r=5, temos:
De acordo com o teste de Tukey, duas mdias so estatisticamente diferentes sempre que o valor
absoluto da diferena entre elas for igual ou superior ao valor da dms.
A-B (8-5) 3 ns
A-C (8-5) 3 ns
A-D (8-2) 6 <0,05
3,73
B-C (5-5) 0 ns
B-D (5-2) 3 ns
C-D (5-2) 3 ns
79
Estatistica - Volume I
2009
fcil de observar que s existem diferenas entre a mdia dos tratamentos A e a mdia dos
tratamentos D, em que o tratamento D aquele com que se obtm, significativamente, menos
recidivas
O pesquisador, nem sempre tem amostras do mesmo tamanho, mesmo assim possivel conduzir uma
anlise da varincia (ANOVA). Alis todos os clculos, com excepo SQTr, so feitos da mesma
forma em ambas as situaes.
Utiliza:
15 23 19
10 16 15
13 19 21
18 18 14
15 16
13
84 76 85
80
Estatistica - Volume I
2009
No se esquea que as diferenas foram significativas por isso tem de proceder s comparaes
posteriori (Post-Hoc) e tambm aqui a frmula mudou, por isso vamos ver como se calcula o teste de
Tukey quando temos tamanhos diderentes:
O teste Tukey para amostras com tamanhos diferentes dada pela seguinte frmula:
6 4 2
e de B com a mdia de C.
81
Estatistica - Volume I
2009
De acordo com o teste de Tukey, duas mdias so estatisticamente diferentes sempre que o valor
absoluto da diferena entre elas for igual ou superior ao valor da dms.
82