Sei sulla pagina 1di 17

Mdulo III.

II Bioestatstica
Filipe Gomes FML 2008/2009
Apontamentos de Bioestatstica
Parte I

I. Estatstica Descritiva e Indutiva

Definies de Estatstica:

Instrumento de leitura da informao e da sua transformao em
conhecimento;
Cincia que se ocupa de estratgias e deciso num contexto de variabilidade
e incerteza.

reas da Estatstica:

Estatstica Descritiva: recolha, organizao, sumarizao e anlise de dados.
Estatstica Indutiva: elaborao de concluses sobre um corpo de dados
(populao) quando apenas uma parte dos dados (amostra) conhecida.

II. Conceitos de Estatstica

A Estatstica tem um vocabulrio prprio, tal como as outras reas do
conhecimento. Alguns conceitos fundamentais da Estatstica apresentam-se de
seguida:

Dados:
- Matria-prima da Estatstica;
- Nmeros com contexto, que contm informao (a Estatstica tenta
determinar a natureza desta informao);
- So obtidos por medio ou por contagem.
Fontes de dados:
- Os dados podem ser obtidos a partir de vrias fontes, quando so
necessrios para responder a uma questo ou problema que exige a
aplicao de mtodos estatsticos:
Registos (registos escritos de transaces e actividades de
empresas, como os hospitais);
Inquritos;
Experincias;
Fontes externas (bases de dados, publicaes, ).
Bioestatstica:
- Aplicao de mtodos e conceitos estatsticos a dados das cincias
biolgicas e da medicina.
Varivel:
- Caracterstica que toma valores diferentes em diferentes
indivduos, locais, objectos ou situaes;
- Exemplos: temperatura, presso arterial, idade, sexo,
Varivel aleatria:
Mdulo III.II Bioestatstica
Filipe Gomes FML 2008/2009
- Varivel que toma valores numricos determinados pela realizao
de uma experincia aleatria ou observao de um fenmeno
aleatrio;
- uma varivel cujo valor no pode ser determinado ou previsto
antecipadamente;
- Exemplos: altura, tenso intra-ocular,
Unidade estatstica:
- Qualquer elemento que pode ser observado, qualquer que seja a
sua natureza;
- Tambm se pode chamar indivduo;
- Exemplos: pessoas, animais, objectos,
Populao:
- Maior coleco de entidades (unidades estatsticas) nas quais
temos um interesse numa determinada altura;
- Quando se obtm um conjunto de valores de uma varivel para cada
elemento de uma populao, tem-se uma populao de valores
dessa varivel;
- Uma populao de valores a maior coleco de valores de uma
varivel na qual temos um interesse numa determinada altura;
- A populao pode ser finita ou infinita.
Amostra:
- Uma parte/subconjunto de uma populao;
- Amostra de valores: conjunto de valores de uma varivel
recolhidos de um subconjunto de uma populao;
- A amostra estuda-se com o objectivo de retirar concluses para a
populao (Estatstica indutiva).
Amostra aleatria:
- Amostra em que, no processo de seleco dos seus elementos
(amostragem), qualquer elemento da populao tinha a mesma
probabilidade de ser includo na amostra.

III. Tipos de Variveis

As variveis podem ser classificadas de diversas formas. Os principais tipos
de variveis so:

Varivel quantitativa:
o Varivel medida no sentido convencional, qual se atribui um valor
numrico;
o Uma medio de uma varivel quantitativa transmite uma
informao de quantidade;
o Podem ser discretas ou contnuas;
o Exemplos: idade, peso, temperatura,
Varivel qualitativa:
o Varivel que diz respeito a uma informao que no susceptvel
de medida, mas sim de classificao ou categorizao;
o A obteno de valores para variveis qualitativas transmite uma
informao relacionada com um atributo;
o Exemplos: sexo, etnia,
Mdulo III.II Bioestatstica
Filipe Gomes FML 2008/2009
o Nota: as variveis qualitativas podem ser representadas por
nmeros (podemos, na varivel sexo, representar o sexo masculino
por 1 e o sexo feminino por 2, mas a varivel no deixa de ser
qualitativa).
Varivel discreta:
o caracterizada por interrupes no conjunto de valores que pode
assumir;
o Exemplos: nmero de pacientes, nmero de altas num hospital num
dia,
Varivel contnua:
o No possui interrupes no conjunto de valores que pode tomar;
o Pode tomar todos os valores, inteiros ou no, do intervalo de
valores assumido pela varivel;
o Exemplos: altura, peso,
Varivel nominal:
o Uma varivel nominal assume valores que se enquadram em
categorias ou grupos exclusivos, sem que haja uma ordem entre
as categorias consideradas;
o uma varivel qualitativa;
o Exemplos: sexo (masculino, feminino), grupo etrio (criana,
adolescente, adulto, idoso),
Varivel ordinal:
o Uma varivel ordinal implica, como uma varivel nominal, a
categorizao em grupos, mas as categorias consideradas
possuem uma ordem;
o As diversas categorias, apesar de serem ordenveis, no possuem
uma escala de magnitude coerente, ou seja, a diferena entre dois
quaisquer termos da escala no necessariamente igual diferena
entre outros dois;
o uma varivel qualitativa;
o Exemplos: grau de satisfao num inqurito (nada satisfeito, pouco
satisfeito, satisfeito, muito satisfeito), inteligncia (abaixo da mdia,
mdia, acima da mdia),
Varivel mtrica:
o Varivel em que existe no s uma ordenao dos valores, como
tambm uma escala de magnitude, ou seja, a distncia entre dois
termos consecutivos da escala conhecida e constante, pois existe
uma unidade definida ou convencionada;
o uma varivel quantitativa;
o Pode ser uma varivel de intervalo ou de razo.
Varivel de intervalo:
o Varivel mtrica em que o valor zero na escala convencionado
arbitrariamente, no sendo absoluto, ou seja, o valor zero no
implica ausncia da caracterstica;
o Exemplos: temperatura em graus Celsius ou Farenheit (uma
temperatura de 0 graus no significa ausncia de calor),
Varivel de razo:
o Varivel mtrica em que existe um zero absoluto, ou seja, o valor
0 implica ausncia da caracterstica;
Mdulo III.II Bioestatstica
Filipe Gomes FML 2008/2009
o Exemplos: temperatura em Kelvin, peso, altura,

IV. Organizao de um problema estatstico

A organizao de um problema estatstico pode ser feita em quatro etapas
consecutivas:

Indique: Qual a questo prtica, no contexto da vida real?
Formule: Quais so as tcnicas estatsticas que permitem responder
questo?
Resolva: Faa os grficos e os clculos necessrios para resolver este
problema.
Conclua: D a sua concluso no contexto do problema da vida real.



Bibliografia:

- DANIEL, Wayne W. (2005) Biostatistics: A Foundation for Analysis in the Health
Sciences, 8. edio, Wiley
- Slides das aulas tericas de Bioestatstica

Filipe Gomes
FML 2008/2009
Mdulo III.II Bioestatstica
Filipe Gomes 1 FML 2008/2009
Apontamentos de Bioestatstica
Parte II

I. Amostragem Aleatria Simples

A elaborao de amostras a partir de uma populao necessria quando
impossvel ou pouco prtico estudar uma populao inteira:

Quando a populao infinita;
Quando o estudo da populao demasiado dispendioso ou moroso;
Quando se realizam testes destrutivos nos indivduos que constituem a
populao (testes que destroem ou inutilizam os indivduos da populao);
()

A inferncia estatstica o procedimento a partir do qual se chega a uma
concluso sobre uma populao com base na informao contida numa amostra
retirada dessa populao.
De modo a que as concluses tiradas a partir da amostra sejam vlidas, o
processo de elaborao da amostra (amostragem) deve ser realizado
cuidadosamente, para que a amostra seja adequada. Um dos processos mais
simples para elaborao de uma amostra a amostragem aleatria simples, que
permite obter uma amostra aleatria simples.

Nota: Usa-se a letra N para representar o tamanho de uma populao e a
letra n para representar o tamanho de uma amostra retirada dessa populao.

Amostra aleatria simples:
Se uma amostra de tamanho n retirada de uma populao de tamanho N
de tal forma que qualquer amostra possvel de tamanho n tenha a mesma
probabilidade de ser seleccionada, a amostra chamada amostra aleatria
simples.

Uma amostragem aleatria simples pode realizar-se de vrias formas:
realizando um sorteio, utilizando uma tabela de nmeros aleatrios,

II. Ordenamento e Agrupamento de Dados

De forma a facilitar a anlise e interpretao de dados, especialmente dados
quantitativos discretos ou contnuos obtidos a partir de observaes/medies,
til colocar estes dados num arranjo ordenado, ou seja, list-los de acordo com a
sua ordem de magnitude, do menor para o maior.
Um arranjo deste gnero permite identificar facilmente o menor e o
maior valor, bem como outras informaes que podero ser teis. No entanto,
com um grande conjunto de dados, um simples arranjo ordenado dos mesmos no
suficiente, pois um aglomerado extenso de dados pode tornar-se confuso.
Assim, possvel reduzir ainda mais os dados, sejam eles discretos ou
contnuos, construindo classes de dados. O agrupamento em classes uma forma
Mdulo III.II Bioestatstica
Filipe Gomes 2 FML 2008/2009
de sumarizao dos dados que torna mais fcil determinar a natureza da
informao contida nos dados.
Para agrupar em classes um conjunto de observaes deve seleccionar-se
um conjunto de intervalos contguos e no sobrepostos, de modo que cada
observao possa ser colocada num desses intervalos.
Existem dois problemas a ter em conta quando se agrupam dados em
classes:

Decidir o nmero de intervalos a considerar;
Decidir o tamanho, ou largura, de cada intervalo.

Quanto ao nmero de intervalos, devem ter-se em conta os seguintes
aspectos:

Um nmero muito pequeno de intervalos implica uma sumarizao
excessiva dos dados e consequente perda de informao;
Um nmero muito grande de intervalos implica que o objectivo de
sumarizar os dados no seja cumprido adequadamente;
Deve considerar-se um nmero intermdio de intervalos: uma regra
comum no usar menos do que seis intervalos e no mais do que quinze
1
.

Relativamente largura dos intervalos, estes devem ser todos do mesmo
tamanho. A largura do intervalo pode ser determinada pela frmula:

=



Nesta frmula, w a largura de cada intervalo, R a amplitude da
amostra (obtida subtraindo o valor mais pequeno da amostra ao valor maior) e k
o nmero de intervalos considerados.
Existem outras regras comuns para decidir a largura dos intervalos:
Larguras de intervalos de 5 unidade, 10 unidades, ou mltiplos de 10
tendem a tornar a sumarizao mais compreensvel;
conveniente, ao usar larguras de 5 unidades, 10 unidades, ou mltiplos,
que o limite inferior de cada intervalo termine em 5 ou 0;
Usualmente o primeiro intervalo contm os valores mais pequenos e o
ltimo contm os valores maiores: neste caso o limite inferior do
primeiro intervalo deve ser igual ou inferior ao valor mais pequeno da
amostra e o limite superior do ltimo intervalo deve ser superior ou
igual ao maior valor da amostra.


1
Uma alternativa a utilizao da frmula de Sturges:

= + , (o
10
n)

Nesta frmula, k representa o nmero de intervalos e n o nmero de elementos da amostra
considerada.
Mdulo III.II Bioestatstica
Filipe Gomes 3 FML 2008/2009
Quando decidimos o nmero de intervalos ou o respectivo tamanho, o nosso
conhecimento dos dados e o nosso juzo relativamente aos mesmos deve ser tido
em conta, em vez de se utilizar de forma rigorosa regras ou frmulas.

III. Frequncias Absolutas, Relativas, Cumulativas e Tabelas de
Frequncias

As tabelas de frequncias so ferramentas estatsticas muito teis,
podendo ser utilizadas para diversos tipos de dados ou variveis:

Dados qualitativos nominais ou ordinais: estes dados so organizados
em categorias ou grupos;
Dados quantitativos discretos: estes dados podem ser considerados em
categorias ou grupos individuais, sendo cada uma correspondente a um
valor da varivel, ou em classes (agrupamentos de dados);
Dados qualitativos contnuos: estes dados so normalmente agrupados
em classes.

Cada uma das categorias ou classes apresenta uma frequncia absoluta, ou
simplesmente frequncia, que corresponde ao nmero de elementos pertencentes
a uma determinada categoria/classe. As frequncias absolutas podem ser
registadas numa tabela de frequncias ou distribuio de frequncias.
Numa tabela de frequncias podem tambm registar-se as frequncias
relativas de cada categoria de dados. A frequncia relativa corresponde a uma
proporo de valores numa determinada categoria ou classe relativamente ao
nmero total de valores.
A frequncia relativa calcula-se da seguinte forma:

Fiequncia ielativa =
Fiequncia absoluta
Bimenso ua amostia


Nota: A frequncia relativa pode apresentar-se sob a forma decimal ou de
percentagem, caso em que a razo indicada na frmula anterior se deve
multiplicar por 100.

Outro tipo de frequncia a frequncia acumulada, que corresponde
soma das frequncias absolutas de todas as categorias/classes iguais ou
inferiores
2
a uma determinada categoria/classe (frequncia absoluta
acumulada) ou soma das frequncias relativas de todas as categorias/classes
iguais ou inferiores a uma determinada categoria/classe (frequncia relativa
acumulada).


2
No faz sentido falar em categorias iguais ou inferiores no caso de estas serem correspondentes a
variveis nominais; neste caso, a frequncia cumulativa no geralmente calculada, na medida em
que dependeria da ordem (arbitrria) na qual fossem colocadas as categorias na tabela de
frequncias. A frequncia cumulativa, assim, s faz sentido para dados qualitativos ordinais ou
dados quantitativos.
Mdulo III.II Bioestatstica
Filipe Gomes 4 FML 2008/2009
A tabela seguinte ilustra um exemplo de uma tabela de frequncias que
inclui todos os tipos de frequncias at agora referidos (as classes representam,
por exemplo, idades):

Categoria/Classe
Frequncia
absoluta
Frequncia
absoluta
acumulada
Frequncia
relativa
Frequncia
relativa
acumulada
30 39 11 11 0,0582 0,0582
40 49 46 57 0,2434 0,3016
50 59 70 127 0,3704 0,6720
60 69 45 172 0,2381 0,9101
70 79 16 188 0,0847 0,9948
80 89 1 189 0,0053 1,0001
Total 189 1,0001
3

TABELA 1

IV. Histogramas e Polgonos de Frequncias

Um histograma uma representao grfica de uma tabela ou distribuio
de frequncias (ou frequncias relativas).
Na construo de um histograma devem ser tidos em conta os seguintes
aspectos:

O eixo horizontal apresenta os valores da varivel em estudo, enquanto
que o eixo vertical apresenta as frequncias absolutas ou relativas;
Por cima de cada intervalo de valores no eixo horizontal constri-se uma
barra vertical cuja altura corresponde, no eixo vertical, frequncia da
classe;
As barras devem ter larguras iguais (correspondentes s larguras dos
intervalos) e devem ser contguas, de forma a que no haja interrupes
entre elas.

O nvel de preciso dos dados recolhidos indica uma determinada ordem
de arredondamento e reflecte-se nos valores para os limites dos intervalos.
Sabemos, por exemplo, que alguns dos valores do segundo intervalo da tabela 1
seriam provavelmente um pouco inferiores a 40 e outros um pouco superiores a
49. Nestas circunstncias, torna-se conveniente considerar os limites reais deste
intervalo como sendo 39,5 e 49,5, pois podemos assumir que os valores contidos
neste intervalo foram arredondados ao nmero inteiro mais prximo.

A tabela seguinte mostra as frequncias absolutas e relativas das classes da
tabela 1, considerando os limites reais dos intervalos:




3
Na realidade, a soma das frequncias relativas (bem como a ltima frequncia relativa acumulada)
deveria ser igual a 1,000; isto no acontece em certos casos devido a arredondamentos nas
frequncias relativas.
Mdulo III.II Bioestatstica
Filipe Gomes 5 FML 2008/2009

Categoria/Classe
Frequncia
absoluta
29,5 39,5 11
39,5 49,5 46
49,5 59,5 70
59,5 69,5 45
69,5 79,5 16
79,5 89,5 1
Total 189
TABELA 2

Se construirmos um histograma com base na tabela 2, iremos obter o
seguinte
4
:



FIGURA 1

O espao compreendido entre as fronteiras do histograma a rea do
histograma. Uma vez que existem 189 elementos na amostra, a rea de 189
unidades, sendo que cada barra tem uma rea com um nmero de unidades
equivalente sua frequncia. Assim, a rea de cada barra (considerando a base
da barra como tendo 1 unidade de comprimento) corresponde frequncia
absoluta da categoria ou classe, enquanto que a proporo da rea de cada
barra relativamente rea total corresponde sua frequncia relativa.

Nota: Podemos considerar que a base de cada barra tem um comprimento
igual largura do intervalo (neste caso 10). Assim sendo, a rea de cada coluna
no igual frequncia absoluta, mas sim proporcional, sendo a constante de

4
No eixo horizontal encontram-se marcados os pontos mdios de cada intervalo em vez dos
respectivos limites.
Mdulo III.II Bioestatstica
Filipe Gomes 6 FML 2008/2009
proporcionalidade a largura do intervalo. Quanto ao que foi dito para a frequncia
relativa, essa observao mantm-se, pois a proporo no se altera.

Outra forma de representar graficamente uma distribuio de frequncias
atravs de um polgono de frequncias. Para construir este grfico, procede-se da
seguinte forma:

Marcam-se pontos num grfico de forma a que se encontrem por cima dos
pontos mdios dos intervalos considerados;
A altura de cada ponto corresponde frequncia da classe
correspondente;
Ligam-se os pontos por meio de linhas rectas, de modo a construir um
polgono;
Adicionam-se duas classes aos intervalos considerados, uma antes da
primeira classe e outra depois da ltima, com a mesma largura, e marcam-
se os pontos por cima do ponto mdio de cada uma de forma a que a
frequncia dessas classes seja zero (isto permite que o polgono de
frequncias seja uma figura fechada).

A rea total limitada pelo polgono de frequncias igual rea do
histograma correspondente.
As figuras seguintes mostram um polgono de frequncias para os dados
anteriores e a sobreposio do polgono de frequncias e do histograma, o que
permite comparar as duas representaes:


V. Diagrama de Caule-e-Folhas

Outra forma grfica de representar dados quantitativos o diagrama de
caule-e-folhas; este diagrama muito semelhante ao histograma e tem a mesma
funo. Um diagrama de caule-e-folhas:

Fornece informao sobre a amplitude do conjunto de dados;
FIGURA 2 FIGURA 3
Mdulo III.II Bioestatstica
Filipe Gomes 7 FML 2008/2009
Mostra a localizao da maior concentrao de medidas;
Revela a presena ou ausncia de simetria na distribuio de
frequncias;
Preserva a informao contida nas medies individuais (ao contrrio do
histograma, em que esta informao perdida com a atribuio de classes
aos dados).

Para construir um diagrama de caule-e-folhas, procede-se da seguinte
forma:

Dividem-se as medidas/observaes em duas partes:
- O caule, que consiste no algarismo ou algarismos iniciais de cada
dado;
- A folha, que consiste nos algarismos restantes.
Os caules formam uma coluna com os caules menores no topo e os
maiores em baixo;
Em frente de cada caule, registam-se as folhas que lhe correspondem;
Quando as folhas tm mais do que um algarismo, o ltimo ou ltimos
podem eliminar-se (casas decimais so tambm omitidas);
Os caules so separados das folhas por uma linha vertical.

Os diagramas de caule e folhas so mais teis em conjuntos relativamente
pequenos de dados e no so geralmente apropriados para publicaes destinadas
ao pblico em geral (para esse efeito elaboram-se histogramas). O diagrama
seguinte o exemplo de um caule-e-folhas, respeitante aos dados anteriores:

3 04577888899
4 0022333333444444455566666677777788888889999999
5 000000001111222222333333333333333334444444444455566666677777
6 000011111111111222222233444444556666667888999
7 0111111123567888
8 2
DIAGRAMA 1

No diagrama de caule-e-folhas anterior, a terceira linha est incompleta.
Para encurtar as linhas de um caule-e-folhas, podem fazer-se mais caules,
reduzindo a largura das classes, como se pode ver no diagrama seguinte:

3 04
3 577888899
4 00223333334444444
4 55566666677777788888889999999
5 0000000011112222223333333333333333344444444444
5 555666666777777788999999
6 000011111111111222222233444444
6 556666667888999
7 0111111123
7 567888
8 2
DIAGRAMA 2
Mdulo III.II Bioestatstica
Filipe Gomes 8 FML 2008/2009
Um diagrama de caule-e-folhas pode igualmente ser construdo na vertical,
em vez de ser construdo na horizontal.

VI. Medidas de Tendncia Central

As distribuies de frequncias so teis, mas existem circunstncias que
exigem uma maior sumarizao dos dados. Neste casos, os dados so sumarizados
por meio de um nico valor, denominado medida descritiva. As medidas
descritivas podem ser obtidas a partir de uma amostra ou de uma populao:

Usa-se a palavra estatstica para designar uma medida descritiva obtida a
partir dos dados de uma amostra;
Usa-se a palavra parmetro para designar uma medida descritiva obtida a
partir dos dados de uma populao.

Existem dois tipos fundamentais de medidas descritivas: medidas de
tendncia central (ou medidas de localizao) e medidas de disperso.
As medidas de tendncia central tm como objectivo localizar valores
centrais da amostra em estudo, fornecendo informao relativamente a valores
mdios dessa mesma amostra. As trs medidas de tendncia central mais comuns
so:

Mdia;
Mediana;
Moda.

A mdia uma das medidas de localizao mais utilizadas; existem vrios
tipos de mdias, sendo a mais comum a mdia aritmtica. Para calcular a mdia
aritmtica, somam-se todos os valores da amostra ou populao e divide-se essa
soma pelo nmero de elementos dessa amostra ou populao.
Consideremos uma varivel aleatria X
5
; a cada valor da varivel,
representado por x, atribui-se um ndice inferior, que indica o nmero de ordem
do valor da varivel (primeiro valor, segundo, terceiro, ). Assim, a varivel pode
tomar os valores:

1
,
2
,
3
, .,
n


Um valor genrico da varivel aleatria X ser representado por xi e o
ltimo valor ser representado por xn (numa amostra) ou xN (numa populao).
Uma frmula geral para a mdia calculada numa amostra ser
6
:


5
Utilizam-se normalmente letras maisculas para representar variveis aleatrias e letras
minsculas para representar os valores que elas tomam (exemplo: X = altura, x = 1,5 m).
6
Quando os dados se encontram agrupados em classes, a frmula de clculo para a mdia :

=
_ n

k
=1
n


Nesta frmula, k o nmero de classes, ni a frequncia absoluta da classe i, yi o ponto mdio da
classe i e n o nmero de elementos da amostra.
Mdulo III.II Bioestatstica
Filipe Gomes 9 FML 2008/2009
=
_

n
=1
n


O smbolo _

n
=1
indica que se devem somar todos os valores de xi, com i
entre 1 e n. Para uma populao, o smbolo que representa a mdia diferente e a
frmula para o seu clculo escreve-se:

p =
_

N
=1



A mdia aritmtica possui determinadas propriedades; as mais
significativas so:

Unicidade: para um conjunto de dados existe apenas uma mdia;
Simplicidade: a mdia facilmente compreensvel e calculvel;
A mdia afectada por valores extremos ou aberrantes (outliers): estes
valores so valores muito maiores ou muito menores que qualquer um dos
restantes valores da amostra e fazem com que, respectivamente, a mdia
seja aumentada ou diminuda, perdendo a sua representatividade do
conjunto de dados em estudo.

A mediana de um conjunto finito de valores a medida que divide esse
conjunto em duas partes iguais de forma que o nmero de valores menor ou
igual mediana igual ao nmero de valores maior ou igual mediana.
Caso o nmero total de valores da amostra/populao seja mpar, a
mediana o valor do meio, quando todos os valores esto dispostos por ordem
crescente de magnitude. Caso o nmero total de valores seja par, existem dois
valores do meio e a mediana corresponde mdia dos dois.
Para determinar o nmero de ordem do valor que corresponde mediana,
usa-se a expresso:

n +



Na expresso, n representa o nmero de valores total da amostra
considerada. Quando a amostra tem 13 valores, por exemplo, a expresso igual a
( + ) = , e, portanto, a mediana o stimo valor da amostra; quando a
amostra tem 12 valores, por exemplo, a expresso igual a ( + ) = ,, pelo
que a mediana a mdia entre o sexto e o stimo valor da amostra ordenada.
Algumas propriedades da mediana so:

Unicidade: tal como a mdia, s existe uma mediana num determinado
conjunto de dados;
Simplicidade: fcil de calcular, tal como a mdia;
No afectada por valores extremos, ou outliers, ao contrrio da mdia.

A moda de um conjunto de valores o valor que ocorre mais
frequentemente (ou seja, tem a frequncia absoluta mais elevada).
Mdulo III.II Bioestatstica
Filipe Gomes 10 FML 2008/2009
Se todos os valores da amostra forem diferentes no existe moda; um
conjunto de valores pode, por sua vez, ter mais do que uma moda, quando dois
valores partilham a frequncia absoluta mxima.
A moda til quando se pretende caracterizar dados qualitativos, na
medida em que aplicvel a este tipo de dados.

VII. Medidas de Disperso

A disperso de um conjunto de observaes diz respeito sua
variabilidade. Assim, uma medida de disperso comunica informao relativa ao
grau de variabilidade presente num conjunto de dados. Se todos os dados forem
iguais, no h disperso; se no forem todos iguais, ento existe disperso na
amostra.
Algumas medidas de disperso comuns so:

Amplitude;
Varincia;
Desvio-padro;
Coeficiente de variao.

A amplitude a diferena entre o maior e o menor valor num conjunto
de dados. Sendo R a amplitude, xL o valor maior e xs o valor menor, a amplitude
dada por:

=
L
-
s


Nota: A utilidade da amplitude muito limitada, na medida em que apenas
utiliza dois valores da amostra; a principal vantagem da amplitude a sua
simplicidade.

Quando os valores de um conjunto de observaes se encontram perto da
mdia, ento existe uma menor disperso do que quando se encontram mais
afastados. A varincia a medida que permite calcular a disperso dos valores
de uma amostra relativamente mdia.
A varincia de uma amostra calcula-se somando os quadrados das
diferenas entre cada valor da amostra e a mdia, dividindo essa soma pelo
nmero de elementos da amostra menos um, ou seja
7
:

s
2
=
_ (

- )
n
=1
n -


Nesta expresso devem ter-se em conta os seguintes aspectos:


7
Para a varincia de uma populao, a expresso e simbologia so:

o
2
=
_ (

- )
N
=1
-

Mdulo III.II Bioestatstica
Filipe Gomes 11 FML 2008/2009
Poder-se-ia pensar que a varincia podia ser calculada somando os
desvios de cada valor em vez de somar os seus quadrados;
Na realidade, prova-se que a soma dos desvios de cada valor
relativamente mdia igual a zero: os desvios positivos (valores
superiores mdia) anulam os desvios negativos (valores inferiores
mdia);
A utilizao dos quadrados permite que todos os termos da soma sejam
positivos, pois um quadrado sempre positivo (poder-se-iam usar
mdulos, mas os quadrados tm uma utilizao mais simples): assim, a
soma dos quadrados dos desvios nunca poder ser igual a zero;
Divide-se por n - e no por n devido propriedade de a soma dos desvios
dos valores relativamente mdia ser igual a 0: aparentemente existem n
desvios independentes, mas na realidade s existem - 1, pois sabendo
todos menos um, podemos calcular o ltimo (sabemos que a soma zero)
8
.

A varincia eleva ao quadrado as unidades dos valores da amostra; por
esse motivo, as unidades da varincia no so as mesmas que as unidade dos
valores. Para obter uma medida de disperso com a mesma unidade que os valores
da amostra, calculamos a raiz quadrada da varincia, obtendo assim uma medida
designada desvio-padro.
O desvio-padro de uma amostra calcula-se da seguinte forma
9
:

s =

s
2
=
_
_ (

- )
n
=1
n -


O desvio-padro uma medida til para avaliar a variao de um
determinado conjunto de dados. No entanto, quando se deseja comparar a
disperso de dois conjuntos de dados diferentes, a comparao dos respectivos
desvios-padro pode levar a concluses erradas:

Quando dois conjuntos de valores surgem em unidades diferentes, a
comparao dos respectivos desvios-padro no adequada;
Quando dois conjuntos de valores tm mdias muito diferentes, a
comparao dos desvios-padro tambm pode ser falaciosa.

Nestas situaes necessrio que existe uma medida de variao relativa
e no uma medida de variao absoluta: esta medida o coeficiente de variao.
O coeficiente de variao calcula-se exprimindo o desvio-padro como
uma percentagem da mdia, ou seja:

. . =
s




8
Diz-se que existem n - graus de liberdade.
9
Uma vez, mais, para uma populao, o desvio padro :

o = o
2
=
_
_ (

- )
N
=1
-

Mdulo III.II Bioestatstica
Filipe Gomes 12 FML 2008/2009
Como a mdia e o desvio padro so expressos na mesma unidade de
medida (a unidade de medida em que se encontram os dados), o quociente entre
os dois elimina as unidades, o que torna o coeficiente de variao numa grandeza
adimensional, independente da unidade de medida dos valores da amostra.

VIII. Percentis, Quartis, Amplitude Inter-Quartis e Diagrama de Caixa
de Bigodes

Para alm do parmetro de localizao designado mediana, existem outros
que permitem localizar determinados locais do conjunto de dados considerado,
como os percentis e os quartis.
Um percentil de ordem p, representado por P, o valor de uma varivel
que divide um conjunto de observaes de forma a que:

Uma percentagem p dos valores da varivel menor que P;
Uma percentagem 1 - dos valores da varivel maior que P.

O percentil de ordem 10, por exemplo, P10, divide o conjunto de observaes
de modo a que 10% dos valores so menores que P10 e 90% dos valores so
maiores que P10.
Existem percentis especiais numa amostra que devem ser analisados com
mais cuidado:

O percentil de ordem 25, P25, corresponde ao primeiro quartil (Q1);
O percentil de ordem 50, P50, corresponde mediana, ou segundo
quartil (Q2);
O percentil de ordem 75, P75, corresponde ao terceiro quartil (Q3).

Para calcular o nmero de ordem dos quartis, utilizam-se frmulas anlogas
utilizada para calcular a mediana
10
:

n. ue oiuem ue
1
=
n +



n. ue oiuem ue
2
=
(n + )

=
n +



n. ue oiuem ue
3
=
(n + )



Uma medida de disperso semelhante amplitude a medida designada
por amplitude inter-quartis, que calculada subtraindo o primeiro quartil ao
terceiro:

I =
3
-
1



10
Caso o nmero de ordem seja decimal, procede-se da mesma forma que para a mediana
(exemplo: n. de ordem = 5,5, o quartil a mdia entre o 5. e o 6. valor).
Mdulo III.II Bioestatstica
Filipe Gomes 13 FML 2008/2009
Nesta frmula, IQR a amplitude inter-quartis (interquartile range). Esta
medida permite calcular o grau de disperso dos dados localizados numa zona
central que corresponde a 50% dos dados.
Uma ferramenta grfica muito til para representar um conjunto de dados
em termos dos seus extremos e quartis um diagrama conhecido por caixa de
bigodes (box-and-whisker plot).
Para construir um digrama deste gnero, efectuam-se os seguintes passos:

Representa-se a varivel num eixo horizontal;
Desenha-se uma caixa no espao acima do eixo horizontal de forma a que
o extremo esquerdo da caixa esteja alinhado com o primeiro quartil e o
extremo direito alinhado com o terceiro quartil;
Divide-se a caixa em duas partes com uma linha vertical alinhada com a
mediana (segundo quartil);
Desenha-se uma linha horizontal (bigode) desde o extremo esquerdo da
caixa at ao ponto que est alinhado com o valor mais pequeno do
conjunto de dados;
Desenha-se outra linha horizontal desde o extremo direito da caixa at ao
ponto que est alinhado com o maior valor do conjunto de dados.

A anlise de um diagrama de caixa de bigodes permite obter informao
acerca do grau de variao, simetria e concentrao dos dados.
A figura seguinte mostra um diagrama de caixa de bigodes:


FIGURA 4
Tanto os diagramas de caixa de bigodes como os diagramas,
anteriormente referidos, de caule-e-folhas so exemplos daquilo a que se chama
anlise exploratria de dados. Estas tcnicas permitem a um investigador:

Examinar dados de forma a revelar tendncias e relaes;
Identificar caractersticas nicas de conjuntos de dados;
Facilitar a descrio e sumarizao dos dados.



Bibliografia:

- DANIEL, Wayne W. (2005) Biostatistics: A Foundation for Analysis in the Health
Sciences, 8. edio, Wiley
- Informao do site http://alea-estp.ine.pt/

Filipe Gomes
FML 2008/2009

Potrebbero piacerti anche