Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Amigos estudantes!
Bem-vindos disciplina de Estatstica aplicada Sade Pblica, que trata especialmente
os conceitos de Bioestatstica e suas aplicaes, visando reforar as noes de estatstica bsica,
sendo, portanto, essa retomada essencial para compreenso dos contedos da disciplina como
um todo.
Neste sentido, o material que voc est adquirindo apresenta um breve histrico da
Estatstica, suas subdivises e como podemos utiliz-la no Curso de Gesto em Sade Pblica.
Abordaremos tambm as diversas fases do mtodo estatstico e a distino das tcnicas de
amostragem para a escolha de elementos que comporo as amostras dos objetos de estudo
escolhidos por cada um de ns.
Para que nosso estudo se torne proveitoso e prazeroso, o tema desta disciplina foi
organizado em tpicos, por sua vez, divididos em algumas sees, visando atender aos objetivos
do processo de ensino-aprendizagem.
Esperamos que, at o final da disciplina possamos:
- Ampliar a compreenso sobre os conceitos fundamentais da estatstica;
- Identificar as caractersticas que podem ser observadas em uma populao ou em uma amostra,
classificando as variveis quantitativas e qualitativas;
- Estabelecer critrios para fazer uma coleta de dados, bem como transformar dados em
informaes e poder fazer inferncias sobre a populao;
- Realizar anlise grfica de conjunto de dados, elaborar hipteses e realizar testes de hipteses,
reconhecendo em quais situaes utilizar os testes de hipteses;
- Identificar situaes onde se pode utilizar anlise de varincia, anlise de regresso e
aplicaes das leis de probabilidade.
Importa lembrar que, em meio a tantos desafios que a vida moderna nos apresenta, voc
fez a melhor das escolhas, portanto seja disciplinado e persistente, afinal o bom xito depender
tambm da dedicao de cada um.
Certos do seu sucesso, bons estudos!
INTRODUO
Nas diversas reas de estudo, ao se conduzir uma pesquisa, objetivando realizar uma
avaliao com concluses precisas necessitamos utilizar as tcnicas do mtodo cientifico e lanar
mo de algumas bases estatsticas. Como por exemplo, para a determinao da eficcia de um
agente ou procedimento de natureza preventiva e/ou curativa ou ainda na realizao de um
diagnstico, o estudo ir requer a comparao entre dois ou mais grupos ou amostras (grupo
tratado e grupo controle, que no submetido interveno). A comparao entre tais grupos
possibilitar avaliar a eficcia significativa do tratamento, no entanto, o pesquisador deve observar
a existncia de variveis interferentes nos resultados, como, variaes amostrais, diferenas
existentes entre os grupos, alm de outras.
A Estatstica uma ferramenta indispensvel para qualquer profissional que precisa
analisar informaes, tomar decises no trabalho ou mesmo na vida pessoal. Muitas vezes, essas
decises e anlises devem ser rpidas, seguras e precisas.
A estatstica pode ser utilizada simplesmente para descrever conjuntos de dados,
mostrando sua distribuio, mdia, disperses, etc. Mas, pode ir alm, pode estar presente nas
diversas etapas de uma pesquisa, desde o seu planejamento, at na interpretao de seus
resultados, podendo ainda, influenciar na conduo do processo da pesquisa.
O desenvolvimento tecnolgico (computadores, linguagens de programao e softwares)
ajudaram e muito o crescimento, divulgao e a aplicao da Estatstica.
1. Definio:
Estatstica: um conjunto de conceitos e mtodos cientficos para a coleta, a organizao, a
descrio, a anlise e a interpretao de dados experimentais, que permitem concluses
vlidas e tomadas de decises razoveis.
2. Classificao: Usualmente, a estatstica dividida em trs grandes reas que atuam em
conjunto.
- Planejamentos de Experimentos e Amostragem;
- Estatstica Descritiva e,
- Estatstica Inferencial.
Estatstica Descritiva: aquela que se preocupa com a coleta, organizao, classificao,
apresentao, interpretao e anlise de dados referentes ao fenmeno atravs de grficos e
tabelas alm de calcular medidas que permita descrever o fenmeno.
Estatstica Indutiva (Amostral ou Inferencial): a aquela que partindo de uma amostra,
estabelece hipteses, tira concluses sobre a populao de origem e que formula previses
2
cuida
da
Ex: a dor de um ferimento pode ser classificada como leve, moderada ou severa, podendo ser
designado um valor numrico a cada categoria. Deve ser notado que estas escalas so
subjetivas.
- Arredondamento de dados
Quando o primeiro algarismo aps aquele que vai ser arredondado for 0, 1, 2, 3 e 4
despreza-se este algarismo e conserva-se o anterior.
Ex.1: 5,733958 = 5,73.
Ex.2: 78,846970 = 78,8.
Quando o primeiro algarismo aps aquele que vai ser arredondado for 5, 6, 7, 8 e 9
aumentamos uma unidade no algarismo anterior.
Ex.1: 5,735958 = 5,74.
Ex.2: 78,886970 = 78,9.
9. Variveis
So caractersticas possveis de observar atravs dos dados estudados, como por
exemplo: mortalidade infantil, eficincia de medicamentos, incidncia de doenas, causas de
mortes, etc.
Apresentam-se em trs tipos: qualitativas, ordinais e quantitativas.
9.1 Varivel qualitativa:
Os dados podem ser distribudos em categorias mutuamente exclusivas.
Exemplo: Sexo - permite distinguir duas categorias, masculina e feminina.
Outros exemplos: cor, causa de morte, grupo sanguneo.
9.2 Varivel ordinal:
Os dados podem ser distribudos em categorias mutuamente exclusivas que tm
ordenao natural.
Exemplo: grau
de instruo (as pessoas podem ser distribudas em categorias
mutuamente
exclusivas, na seguinte ordem: ensino fundamental, ensino mdio e
superior), aparncia, status social, estgio da doena.
9.3 Varivel quantitativa ou contnua: os dados so expressos por nmeros.
Exemplo: idade, estatura, peso corporal.
906
32,12
2008 (1)
929
32,93
Total
2.821
100
Fonte: SINASC. Situao da base de dados nacional em: 14/12/2009. (1): RN < 500g no foram includos. Nota:
dados de 2008 so preliminares.
- Tabelas de
contingncia ou tabelas de dupla entrada: estas tabelas referem-se a
elementos da amostra ou da populao que so classificados de acordo com dois fatores; nestas
tabelas, cada entrada relativa a um dos fatores.
Veja o exemplo:
TABELA 2: Gestantes sem pr-natal / Gestantes com pr-natal e mortalidade perinatal.
Fator
Mortalidade Perinatal Total
Sim
No
Gestante sem pr-natal
55
883
938
Gestantes com pr-natal
156
6.720
6.876
Como estudaremos mais adiante, as tabelas de dupla entrada possibilitam o clculo de riscos, ou
seja, clculos de frequncia (incidncia) entre expostos e no expostos a um determinado fator.
No exemplo que estamos estudando, a incidncia de morte perinatal em gestante sem
pr-natal (que um fator de risco) : 55 / 938 = 5,86% e nas gestantes com pr-natal, a
incidncia de morte perinatal 156 / 6.876 = 2,3%.
Assim, dizemos que o risco relativo de morte perinatal nas gestantes que no fizeram o
pr-natal maior (na verdade 2,3 vezes mais: 5,86 / 2,3 = 2,3) em relao s gestantes que
fizeram o pr-natal.
10.1 Tabelas de distribuio de frequncia
- Frequncia absoluta: o nmero de vezes que uma determinada caracterstica ou valor
numrico observada.
- Frequncia relativa: a proporo, do total, em que observada uma determinada
caracterstica. Sob determinadas condies, as frequncias relativas podem ser usadas para
estimar quantidades importantes.
Ex.1: Em epidemiologia, a prevalncia, incidncia, coeficientes de mortalidade e natalidade;
Ex.2: Em testes clnicos de diagnstico se tem sensibilidade, especificidade, valor preditivo
positivo e valor preditivo negativo.
- Frequncia acumulada: para um determinado valor numrico ou dado ordinal, a soma das
frequncias dos valores menores ou iguais ao referido valor.
Ex: Distribuio de mulheres idosas segundo a altura.
7
3,200
3,720
2,800
2,900
2,950
2,480
3,800
2,500
3,550
3,000
4,100
3,200
3,450
3,100
3,150
2,800
2,900
1,900
3,600
3,200
3,300
2,900
2,500
3,600
2,500
2,300
2,950
3,000
3,750
3,150
3,200
2,500
2,900
3,200
4,100
2,400
2,700
2,450
3,400
2,400
3,120
3,400
3,200
2,700
3,150
2,800
2,700
3,300
3,200
3,200
2,800
4,600
1,720
2,750
4,200
2,100
4,450
2,900
2,920
2,720
2,900
2,00
2,720
2,480
3,900
2,500
2,480
2,450
3,400
3,400
1,570
3,800
2,700
2,900
3,700
2,120
3,150
2,400
3,450
3,120
2,120
2,450
2,700
-
Definir
inferior (valor 1,5Kg), mas no pertencem classe os valores iguais ao extremo superior (valor
2,0Kg).
Na tabela a seguir dada a distribuio das frequncias:
CLASSE
1,5 /------ 2,0
FREQUNCIA
3
16
31
34
11
Ponto mdio:
dado pela soma dos extremos da classe, dividida por 2. Para a classe de 1,5/---- 2,0 o
ponto mdio 1,5 + 2,0 = 1,75
2
Ponto mdio
1,75
2,25
2,75
3,25
3,75
4,25
4,75
Frequncia
3
16
31
34
11
4
1
Categoria
Baixo peso
Normal
Sobrepeso
Obeso
Idade
6
7
8
9
10
Fr
11
105
25
4
145
f
11
27
16
19
26
99
0,08
0,72
0,17
0,03
1,00
Fr
0,11
0,27
0,16
0,19
0,27
1,00
F
11
38
54
73
99
Fr
0,11
0,38
0,54
0,73
1,00
usado para apresentar variveis qualitativas ou variveis ordinais. Num dos eixos
coordenados so representadas as frequncias e no outro os valores das variveis.
Obs: No existe diferena entre o grfico de barras e o de colunas a no ser pela troca
de variveis nos eixos coordenados.
Figura 1. Casos de Leishmaniose Visceral por faixa etria, segundo sexo Piau, 2009.
11
Fonte: SINAN/SVS/SM.
12
Observaes:
1- Todos os grficos que tm o formato retangular devem manter a proporcionalidade da altura ser
um valor entre 60% a 80% do valor escolhido para a base.
2- Os grficos necessitam tambm ter ttulo.
3- O mais importante para os pesquisadores que tomam decises fazer uso adequado dos
grficos estatsticos, conseguindo interpretar a realidade mostrada por este recurso da estatstica
e a partir dessa leitura, posicionar-se sobre a realidade.
11.3 Grficos de disperso
So utilizados para representar as relaes existentes entre duas variveis numricas e para
tal utiliza-se um grfico em que cada eixo representa uma varivel. Um exemplo pode ser visto no
grfico da figura 3, onde para cada par de dados de um indivduo gera um ponto no grfico, de
forma que, ao observar a nuvem de pontos gerados, tem-se uma ideia da relao entre as
variveis representadas.
13
Altura (m)
1.70
Linear (Altura
(m))
1.60
1.50
1.40
40 50 60 70 80 90 100
11.4Histograma
Os dados apresentados em tabelas de distribuio de frequncia so apresentados
graficamente em histogramas. Na tabela 3, estudada anteriormente no tpico 10.2, apresentamse dados sobre o peso de recm-nascidos vivos em Teresina. A seguir estes dados so
representados na forma de um histograma.
Histograma
1.
Peso
ao
nascer
de
40
35
30
25
20
15
10
5
0
1
Frequncia
14
nascidos
vivos,
em
Kg,
Teresina/PI.
Peso ao nascer
Se os intervalos de classe so diferentes, ao se construir um histograma, deve-se calcular
as densidades de frequncia relativa (quociente da frequncia relativa e o intervalo de classe) que
determinam as alturas. Observe a tabela 6, onde os intervalos de classe so diferentes e o
histograma, referente a esta tabela representando os dados. As densidades de classes esto
apresentadas na tabela.
Tabela 6. Mulheres com 30 anos de idade segundo a presso sangunea sistlica, em milmetros
de mercrio.
Classes
Frequncia
Frequncia
Densidade
Relativa
90/ ------100
6
6
0,6
100/ ---- 105
11
11
2,2
105/ ---- 110
12
12
2,4
110/ ---- 115
17
17
3,4
115/ ---- 120
18
18
3,6
120/ ---- 125
11
11
2,2
125/ ---- 130
9
9
1,8
130/ ---- 135
6
6
1,2
135/ ---- 140
140/ ---- 150
150/ ---- 160
160 e mais
4
4
1
1
4
4
1
1
0,8
0,4
0,1
0,1
15
11.5Polgono de frequncia:
Os dados apresentados em tabela de distribuio de frequncias tambm podem ser
apresentados em grficos denominados polgonos de frequncia. Aps serem marcados os
pontos na abscissa (pontos mdios das classes) e na ordenada (frequncia relativas), fechar o
polgono unindo os extremos nos pontos de abscissas iguais aos pontos mdios de uma classe
imediatamente inferior a primeira e de uma classe imediatamente superior ltima. Veja o
Polgono a seguir construdo para apresentar os dados da tabela 3 (tpico 10.2).
MEDIDAS ESTATSTICAS
As medidas estatsticas tm por objetivo descrever um conjunto de dados de forma
organizada e compacta que possibilita a visualizao do conjunto estudado por meio de suas
medidas estatsticas.
Estudaremos dois tipos fundamentais de medidas estatsticas: medidas de tendncia
central e medidas de disperso.
I) As medidas de tendncia central mostram o valor representativo em torno do qual os dados
tendem a agrupar-se, com maior ou menor frequncia. So utilizadas para sintetizar em um nico
nmero o conjunto de dados observados.
16
II)
As
observados
x .f
f
i
Salrios
semanais
140 |-- 160
160 |-- 180
180 |-- 200
200 |-- 220
220 |-- 240
240 |-- 260
xi
xi.fi
fi
7
20
33
25
11
4
100
18
2) Mediana
A mediana um valor central de um rol, ou seja, a mediana de um conjunto de valores
ordenados (crescente ou decrescente) a medida que divide este conjunto em duas partes
iguais.
Exemplo: Calcule a mediana dos conjuntos abaixo:
X = {3, 7, 4, 12, 15, 10, 18, 14}
Y = {29, 33, 42, 38, 31, 34, 45, 51, 95}
Z = {29, 33, 42, 38, 31, 34, 45, 120, 95}
3) Moda
Seja X um conjunto de dados estatsticos. Define-se Moda de X, denotada por Mo como
sendo o elemento mais frequente no conjunto.
Um conjunto de dados pode ter:
- Nenhuma moda (amodal);
- Uma moda (unimodal);
- Duas ou mais modas (multimodal).
Ex: Calcule a moda para os conjuntos abaixo:
X = {2, 3, 4, 3, 7, 8, 9, 14}.
Y = {2, 4, 6, 2, 8, 4, 10}.
Z = {32, 56, 76, 4, 8, 97}.
OBS:
1. No h regra para se dizer qual a melhor medida de tendncia central.
2. Em cada situao especfica o problema deve ser analisado pelo estatstico, que concluir pela
medida mais adequada a situao. Assim que:
A MA a medida mais adequada quando no h valores errticos ou aberrantes.
A mediana deve ser usada sempre que possvel como medida representativa de distribuies com
valores dispersos, como distribuio de rendas, folhas de pagamentos, etc.
2,0
1,0
1,5
3,0
1,5
2,5
4,0
-
Ponto Mdio
Frequncia
1,75
2,25
16
2,75
31
3,25
34
3,75
11
4,25
4,75
X
A mdia
dos pesos ao nascer dos nascidos vivos da amostra calculada multiplicandose o ponto mdio de cada classe pela respectiva frequncia, somando-se a seguir os
produtos e dividindo a soma por n:
X
Varincia
Os dados se distribuem em torno da mdia; medindo os desvios em relao
mdia (diferena entre cada dado e a mdia) estamos avaliando o grau de disperso de
um conjunto de dados. No h mdia dos desvios, porque a soma sempre igual a zero.
Exemplo: 0,4,6,8,7
- Mdia: X = 0 + 4+ 6 + 8 + 7 = 25 = 5
5
5
- Desvio em relao mdia: (X X):
05=-5
4 5 = -1
6-5= 1
85= 3
75= 2
- A soma dos desvios igual a zero: - 5 1 +1 3 + 2 + - 6 + 6 = 0
Desvios
(x x)
0
4
6
8
-5
-1
1
3
25
1
1
9
x=5
(x x) = 0
(x x) 2 = 40
Grupo II
(x - x)
- 10
zero
10
(x x) 2
100
Zero
100
Zero
200
X
60
60
70
70
80
80
(x - x)
- 10
- 10
zero
zero
10
10
zero
(x x) 2
100
100
zero
zero
100
100
400
Assim, para medir a disperso dos dados em relao mdia, usamos a Varincia
(S ), que leva em considerao o tamanho da amostra.
2
- Desvio padro
a raiz quadrada positiva da mdia aritmtica dos quadrados das diferenas entre cada
(x
x) 2
(x x)
f
i
fi
Exemplo 1:
Salrios semanais para 100 operrios no especializados.
x
x
Salrios
fi
xi
(xi- )2
(xi- )2fi
semanais
140 |-- 160
7
160 |-- 180
20
180 |-- 200
33
200 |-- 220
25
220 |-- 240
11
240 |-- 260
4
100
CV = s x 100
X
Para melhor entender. Observe o ex: dados dois grupos de pessoas com idades:
No 1o grupo, o CV :
2/3 x100 = 66,67%
No 2o grupo, o CV :
2/55 x 100 = 3,64% .
Vejam que no 1o grupo (grupo A), a disperso os dados em relao mdia
grande, ou seja, a disperso relativa alta.
Na tabela a seguir, o peso de 10 RN. Calcular mdia e o desvio padro dos dados
Peso ao nascer de recm- nascidos vivos
2,5
2,0
3,0
1,0
3,5
1,5
3,0
1,5
2,5
4,0
Para calcular:
X (mdia)
X
os desvios em relao mdia: X
a soma de quadrados dos desvios
a s2 (varincia): soma de quadrados de desvio
n1
2
o desvio padro (s) = s
coeficiente de variao CV = s x 100
X
Teste de Hipteses
Na maioria das vezes, o pesquisador toma deciso para toda populao, tendo
examinado apenas parte desta populao (amostra). Este processo chama-se de
inferncia. Na pesquisa cientfica, a inferncia feita com a ajuda de testes estatsticos.
Para a compreenso de um teste estatstico preciso que entendamos o que vem a
ser Hiptese Nula (H0) e Hiptese Alternativa (H1).
Hiptese uma conjectura, uma resposta presumida e provisria que, de acordo
com certos critrios, ser ou no rejeitada.
Hiptese Nula (H0): aquela que simplesmente afirma que no h diferena entre os
grupos estudados; trata-se de uma hiptese que atribui ao acaso a ocorrncia do
fenmeno ou resultado observado.
Hiptese Alternativa ou experimental (H 1): aquela que afirma que h diferena
entre os grupos estudados.
O principal objetivo de testar uma hiptese responder seguinte questo: dadas
duas amostras so elas realmente diferentes ou pertencem a uma mesma populao, ou
em outras palavras, as diferenas encontradas entre duas ou mais amostras so
verdadeiras ou podem ser explicadas pelo acaso.
O processo de testar hiptese consiste em seis etapas:
1.
2.
3.
4.
5.
nvel de significncia representado pela letra grega (l-se alfa). O nvel de significncia
o nome com que se designa a probabilidade .
Vejamos o exemplo:
Feito um experimento com duas drogas (A, B), o pesquisador pergunta se a droga A
cura tanto quanto a droga B.
O estatstico v a pergunta do pesquisador como duas hipteses:
H0: a proporo de pacientes curados com a droga A igual proporo de pacientes
curados com a droga B
b) H1: a proporo de pacientes curados com a droga A diferente da proporo
de pacientes curados com a droga B.
Feitas as hipteses, o estatstico estabelece o nvel de significncia do teste. O nvel
de significncia seria a probabilidade (p) de afirmar que uma das drogas determina maior
proporo de curas, quando na verdade, a proporo de pacientes curados a mesma,
seja a droga A ou B. usual manter o nvel de significncia de 1% e 5% um de 5%
significa que cometemos um erro (tipo I) de 5% em rejeitar a H0 (sendo verdadeiro) e
aceitar H1 (1 em cada 20 se comete o Erro tipo I ao rejeitar a H 0). Um de 1% (0,01),
significa que ao rejeitar a H 0 e aceitar a H1, o risco de estarmos errando, ou seja,
cometendo um erro tipo I de 1%. O nvel de significncia representa a mxima
probabilidade de tolerar um erro tipo I. Assim:
erro I e erro II
erro I e erro II
Erro tipo I: amostras pequenas (h uma maior chance de serem diferentes quanto
menores forem; numa amostra maior, estas diferenas se diluiriam).
Erro tipo II: amostras pequenas grande quantidade de amostras.
Algum erro sempre ocorre, sendo til admitir que para o Erro tipo I ou alfa,
considera-se que 5% aceitvel e para o tipo II ou beta, aceita-se geralmente 10 - 20%.
- Tamanho da Amostra
Para determinar o tamanho da amostra preciso estabelecer qual a diferena deve
ser considerada significativa. Esta uma deciso arbitrria do pesquisador, baseada na
experincia, na literatura e/ou na relevncia clnica.
Para determinar o tamanho da amostra, deve-se considerar o nvel de significncia
adequado: quanto de probabilidade aceitvel para que H 0 seja verdadeira. Geralmente
considera-se uma probabilidade menor ou igual a 5% como adequada (p 0,05). Deve-se
tambm definir um erro beta (erro tipo II) aceitvel: se aceitamos um erro beta de 0,1
estamos aceitando uma chance de 10% de deixar de reconhecer uma diferena que
realmente existe. Para fins prticos:
-
Amostras grande:
n > 100
Amostras mdias:
n > 30
Amostras pequenas:
n < 30
Amostras muito pequenas: n < 12
Lembrar que: 1) Quanto menor a diferena a ser detectada, maior dever ser o tamanho da
amostra. 2) Quando menor o nvel de significncia (p), maior deve ser o tamanho da
amostra.
A etapa seguinte consiste na coleta de dados, lembrando que maus dados levam
igualmente a ms concluses.
Uma vez obtidos os dados, faz-se a anlise estatstica aplicando-se testes
escolhidos em funo do tipo de dados disponveis.
Reao
Enzima
Total
Presente
Ausente
Total
A probabilidade igual ao produto dos fatoriais dos totais marginais pelo fatorial do
total geral multiplicado pelo inverso dos produtos dos fatoriais dos valores observados em
cada classe.
P = (a + b !) x (c + d !) x (a + c !)x (b + d !)
n ! x 1 / a! b! c! d!
Aplicando a frmula temos:
P = [ (6! 3! 5! 4!)/ 9!] x [ 1/(5! 1! 0! 3!)] ...(consulte no final a tabela A-10 de fatoriais de 0 - 20).
P= [ (720 x 6 x 120 x 24)/ 362880] x [ 1/(120 x 1x 1x 6)]
! : fatorial; 0!: fatorial de 0 = 1
Resolvendo, temos: p = 0,046 = 4,76%.
Como este valor menor que 5%, a hiptese das caractersticas serem
independentes rejeitada dizendo-se que a sua associao no casual, ou seja, as
pessoas submetidas a uma reao sorolgica apresentam significativamente uma
determinada enzima (afastamos a H0).
b) se no houver clula com valor zero na matriz de deciso. Para isto devemos fazer:
1. calcular a probabilidade idntica ao escrito acima.
2. construir outra tabela 2 x 2, subtraindo-se uma unidade dos valores da diagonal. que
contenha o menor nmero de casos e adicionando esta unidade aos valores da outra
diagonal.
3. Calcular novamente a probabilidade.
4. Este processo continuar at que se atinja o valor 0.
5. Somar todas as probabilidades calculadas.
Exemplo: supondo que os valores obtidos sejam:
Reao
+
Total
Enzima
Presente
5
2
7
Total
Ausente
3
5
8
8
7
15
Calcularamos:
1 - Total
5 3
8
P = (8! 7! 7! 8!/15)
(1/5! 3! 2! 5!)
2 5 7
P = 0,1828
7
8
15
2 - Total
6 2
8Total P = (8! 7! 7! 8!/15)
(1/6! 2! 1! 6!)
1 6 7
P = 0,0305
7 8 15
3 - Total
7 1 8
P = (8! 7! 7! 8!/15)
(1/0! 7! 1! 7!)
0 7 7
P = 0,0012
7 8 15
Total
F=
Vejamos um exemplo:
1. Trs grupos de crianas (ao acaso) receberam diferentes nveis de motivao para
aritmtica. Depois se fez um exame. H diferenas significativas entre os 3 nveis de
motivao (baixa, mdia e alta)?
Vejamos:
Grupo 1
4
5
4
3
6
10
1
8
4
16
25
16
9
36
100
1
64
25
X1 X12
X1 = 5,11
Grupo 2
12
8
10
5
7
9
14
81
4
144
64
100
25
49
81
1 96
981
16
X2 X22
X2= 8,67
Grupo
1 1
3 9
4 16
6 36
8 64
5 5 25
3 9
2 4
2 4
X : Mdia
X3 X32
X3 = 3,78
Graus de liberdade
(SQ)
(GL)
Entre
K -1
Dentro
NK
Total
N1
N1
N2
N3
(b): X2 - (X)2
N
c=b-a
K = nmero de grupos (no exemplo K =
3).
Realizando os clculos:
- Clculo de (a): entre os grupos:
a = (46)2 + (78) 2 + (34) 2 + (158) 2 = 235,11 + 676 + 128,49 + 924,60
9
9
27
(a) = 114,96.
- Clculo de (b): total dos grupos
(b) = 292 + 756 + 168 - (46+78+34)2 = 1216 - 924,6
27
(b) = 291,4.
14,96 = 57,48
3-1
Quanto maior for o valor do F observado, maior ser a variao entre os grupos em
relao variao dentro dos grupos e, consequentemente, maior probabilidade de rejeitar a
hiptese nula e aceitar a hiptese experimental.
A ANOVA informa somente se h ou no diferena estatisticamente significativa entre dois
ou mais grupos, mas no informa quais os grupos envolvidos. Para identificar os grupos, devese realizar uma comparao entre os pares - pair wise comparision test - que ir comparar cada
grupo com cada um dos outros. Entre os testes capazes de realizar esta anlise, vamos
comentar sobre o Teste de Tukey:
O Teste de Tukey (1953) permite estabelecer a diferena mnima significante, ou seja, a
menor diferena de mdias de amostras que deve ser tomada como estatisticamente
significante, em determinado nvel. Esta diferena (d.m.s) dado pela frmula:
d.m.s = q x
qK1, N K,
- No nosso exemplo: q3, 24,0,05
d.m.s = 3,53x
7,35 = 3,19
9
- Interpretao:
Como vimos, aplicando a ANOVA, as mdias dos 3 grupos no so estatisticamente
iguais. Mas qual ou quais so as mdias diferentes entre si?
De acordo com o Teste de Tukey, duas mdias so estatisticamente diferentes toda vez
que o valor absoluto da diferena entre eles for igual ou superior ao valor da d. m. s.
No nosso exemplo, o valor da d.m.s 3,19 e os valores absolutos das diferenas entre as
mdias so:
X1 - X2 = 5,11 - 8,67 = 3,56.
X2 - X3 = 8,67 - 3,78 = 4,89.
X1 - X3 = 5,11 - 3,78 =1,33.
X
X
X
versus 2 e 2 versus 3 so maiores que 3,19. Assim, vemos que as diferenas entre as
mdias dos grupos 1 e 2 e dos grupos 2 e 3 so estatisticamente significativas ao nvel de
1
X
1
X
3
menor
Outros autores chamam esta diferena mnima significativa como prova da diferena
honestamente significativa (DHS).
ESCOLHA DO TESTE ESTATSTICO
Estabelecendo o nvel de significncia, o estatstico escolhe o teste apropriado. Existe
hoje grande variedade de testes disposio dos interessados. Todos tm indicao precisa e
todos tm vantagens e desvantagens. A escolha do teste exige conhecimento de estatstica.
A escolha de um teste de significncia depende de caractersticas dos dados coletados:
-
O teste a ser aplicado varia em funo do tipo de dados, sendo ento a primeira etapa na
escolha do teste, caracterizar o tipo de dados. A deciso a seguir consiste em determinar
quantos grupos sero comparados. Quando se trata de dois grupos de dados, o teste de
significncia determina a probabilidade de eles se originarem ou no da mesma populao.
Quando se deseja comparar mais de dois grupos, s vezes 5 ,10 ou mais, deve-se usar anlise
de varincia.
Testes estatsticos no-paramtricos
Os estatsticos imaginaram testes quando a distribuio da populao altamente
assimtrica.
Quando em dvida, os estatsticos escolhem um teste paramtrico (a maioria dos testes
de hipteses vistos anteriormente) quando no esto seguros de que a distribuio normal foi
violada e testes no paramtricos porque no esto seguros de que a distribuio normal foi
encontrada (estes ltimos no so to eficientes quanto aos paramtricos para detectar
diferenas na populao).
Teste do Sinal - Sign Test: variveis qualitativas ou nominais. Este teste recebe este nome
porque a diferena em cada par convertida nos sinais de (+), de (-) ou (zero) - quando no
houver diferena.
H0: 1/2 dos sinais so (+) e 1/2 dos sinais so (-)
H1: a proporo de vezes (p) em que aparece o sinal (+) ou (-), seja igual a 0,5; valendo-se
disto, possvel gerar um escore Z, utilizando a frmula:
Z = 2 (p - 0,5)
n: nmero de
p,: a frequncia de sinais (+) ou negativos (-).
Este teste constitui uma alternativa no-paramtrica (menos poderosa) do teste t, para
amostras emparelhadas. Seja o exemplo:
Considere a populao em que se deseja escolher dois equipamentos de laboratrio, A e B
capazes de realizar 12 anlises diferentes e que a rapidez da execuo seja um ponto a ser
considerado. Foi feita uma aferio dos tempos gastos para executar cada tarefa, com a
finalidade de verificar se os equipamentos diferiam entre si.
Tarefa
1
2
3
4
5
6
7
8
9
10
11
12
Tempo A
40
22
22
45
68
33
48
75
41
44
47
31
Tempo B
29
16
29
41
61
24
54
68
36
36
42
25
Diferenas (A - B)
+
+
+
+
+
+
+
+
+
+
Droga
890
800
1104
1002
1101
858
988
875
1000
Droga
890
800
1104
1002
1101
858
988
875
1000
Diferena
- 272
- 295
- 316
- 359
0
-141
-345
-360
0
Classificao da diferena
-2
-3
-4
-6
-1 (a menor)
-5
-7 (a maior)
-
Vemos que as diferenas foram todas negativas ou nulas; a soma dos postos, rank, das
diferenas negativas (-28) (T=28) e a soma das classificaes das diferenas positivas zero
(no houve nenhuma). O n = (8 - 1) = 7 (foi excludo 1 par em que no houve diferena).
Consultando a Tabela A-8, obtm-se um valor de T = 2 (Tcrtico), considerado significativo, ou
seja, a droga provavelmente altera a contagem da clula sangunea estudada.
(Tobservado > Tcrtico).
Teste U de Mann-Whitney
Constitui a alternativa mais comumente usada para o teste t para amostras
independentes; um teste para provar se os dois grupos independentes tm sido tomados da
mesma populao. Todos os clculos tambm so feitos como postos (ranks) e no com os
valores reais.
Exemplo: aferiu-se a presso arterial de dois grupos de estudantes (A e B). Deseja-se saber se
h diferena estatisticamente significativa entre as medianas dos grupos A e B.
Resultado das presses arteriais para os grupos A e B com os respectivos postos.
Presses do Grupo A
Postos de A
110
5,5
90
2
100
4
85
1
95
3
Presses do Grupo B
Postos de B
110
5,5
150
10
125
9
120
8
115
7
Ao classificar os dados atribuindo postos aos mesmo, havendo valores iguais, atribui-se
aos valores empatados um posto igual mdia dos postos que seriam ocupados se no
houvesse empate.
A seguir, somam-se os postos dos dois grupos e assim obtm-se:
Grupo A: 5,5 + 2 + 4 + 1 + 3 = 15,5.
Grupo B: 5,5 + 10+ 9 + 8 + 7 = 39,5.
Para testar a diferena entre as somas dos postos, calcula-se o estatstico U para ambos
os grupos, utilizando as seguintes frmulas:
U1 = n1 n2 + n (n+ 1) R1
2
U2= n1 n2 + n2(n2+ 1) - R2
2
REFERNCIAS BIBLIOGRFICAS
AYRES, M.; AYRES, M. J. R.; AYRES, D. L.; SANTOS, A. S. BioEstat 2.0: aplicaes
estatsticas nas reas das cincias biolgicas e mdicas. Belm: Sociedade Civil Mamirau;
Braslia: CNPq, 2000. (Programa de computador: software).
BARRETO, J. O. M.; SOUZA, N. M. Avanando no uso de polticas e prticas de sade
informadas por evidncias: a experincia de Piripiri-Piau. Cincia & Sade Coletiva, 18(1):2534, 2013.
CRESPO, A. A. Estatstica Fcil. 17 ed. So Paulo: Saraiva, 2002.
FERREIRA, D. F. Estatstica Bsica. UFLA, 2005.
GAUVREAU, K.; PAGANO, M. Princpios de Bioestatstica. ed. Pioneira, So Paulo, 2003.
JEKEL, J. F.; KATZ, D. L.; ELMORE, J. G. Epidemiologia, Bioestatstica e Medicina
Preventiva. 2 ed. Porto Alegre: Artmed, 2004.
LOPES, F. J. B.; DIAZ, F. Bioestatstica. Ed. Pioneira. So Paulo, 2006.
SABROZA. P. C. Os estudos epidemiolgicos e a natureza multidimensional dos problemas de
sade da populao brasileira. Epidemiol. Serv. Sade, Braslia , v. 14, n. 1, mar. 2005.
Disponvel em <http://scielo.iec.pa.gov.br/scielo.php?script=sci_arttext&pid=S167949742005000100001&lng=pt&nrm=iso>. acesso em 04 mar. 2016.
http://dx.doi.org/10.5123/S1679-49742005000100001.
ZAROS, L. G. Bioestatstica: EDUFRN Natal, 2011. 240p.