Sei sulla pagina 1di 88

Bioestatística

Aula 2: Medidas de posição e


dispersão
Prof. Daniel Negreiros (negreiros.eco@gmail.com)
Atenção:

conteúdo de aula destinado unicamente a


servir de material de apoio para os alunos;

Não deve ser repassado a terceiros em


hipótese alguma, pois contém trechos de aulas
de outros professores (material disponível na
internet ou dos meus colegas) além de
informações não publicadas.
Notas da apresentação no Expouna 2016-2
(de 160 grupos; 1011 alunos)
Conseguem perceber algum padrão olhando esta planilha?
9.5 8.5 9 9.5 8.5 9.75 10 9 10 9.7
9.5 8.95 8.1 9.8 8.5 10 9.5 9.3 10 9.2
8 8.5 6.6 8.8 9.5 9.5 9.5 10 9.5 9.5
9 10 9.3 9 9 10 9.7 9 10 9.5
9.5 8.5 5 9 8.9 9.2 10 9 9 10
9 9.5 9.3 9.5 9.5 9.75 9.5 8.5 8.5 10
7 10 9.5 7 10 9 9 9 9 10
8 9.8 10 9.5 9 9.5 10 9.5 9.75 10
9.5 8.5 10 7 9.5 9.5 9.5 9 9 10
8 9 9.5 10 9 10 8.5 8 9 10
10 8.9 8 10 7 9.75 8 9 8.5 9
10 9.5 8 10 8 10 10 9.5 9.5 9
7.5 9 8.5 10 9 8.5 9.3 9.5 10 8.8
8.5 8.5 10 10 8 10 6 9.5 9 9.5
6.5 8 9.5 10 9.2 6 8.8 9.5 10 8.5
9.5 9 9 9.3 9.5 9 9 9 10 8.5
Notas da apresentação no Expouna 2016-2
(de 160 grupos; 1011 alunos)

4 5 6 7 8 9 10 11
Nota (valor: 10 pontos)
Notas da apresentação no Expouna 2016-2
(de 160 grupos; 1011 alunos)
50

40
Frequência

30

20

10

0
4 5 6 7 8 9 10 11
nota (valor: 10 pontos)
Exemplo: Ingestão diária de calorias
média aritmética

Pessoa calorias
A 1574

0
00

00

00

00

00

00

00
70

80

90
B 1280

10

11

12

13

14

15

16
C 946 Consumo diário (cal)
D 1296 Soma = 11619 cal
E 1201 n = 10 indivíduos
F 1163
G 790 Soma
Média = = 1161,9 cal
H 835 n
I 1189 tamanho
J 1345
amostral
Exemplo: Ingestão diária de calorias

Pessoa calorias
A 1574
B 1280
C 946
D 1296
E 1201
F 1163
G 790
H 835
I 1189
J 1345
Quando temos uma tabela de distribuição de frequências,
para calcular a média precisamos seguir alguns passos...

Por exemplo: Para calcular a média do número de filhos em idade escolar


que têm os funcionários de uma empresa, a psicóloga que trabalha em
Recursos Humanos obteve uma amostra de 20 funcionários.

Se os dados fossem Soma = 24


fornecidos assim, seria fácil: N = 20
Média = 1,2
Mas é muito comum os dados virem dessa maneira:

Então é preciso multiplicar cada valor pela sua frequência...


soma 24
Média = = = 1,2
N 20
Em certos casos - principalmente quando a amostra é grande - são
apresentadas apenas as tabelas de distribuição de frequências
(os dados brutos não são fornecidos).

Para calcular a média de dados agrupados em classes,


é preciso calcular o valor médio de cada classe.
soma 300
Média = = =3
N 100
nessa amostra a média do peso ao nascer é 3,00 kg.
Média geométrica:
antilog da média dos dados logaritmizados
Mais apropriada para descrever processos multiplicativos,
como as taxas de crescimento populacional.

Média harmônica:
inverso (1/Y) da média dos dados invertidos
Aparece em geral em cálculos usados por geneticistas de
populações e biólogos da conservação

Em geral:
Média aritmética > Média geométrica > Média harmônica
MEDIANA: valor central de um conjunto de
números ordenados do menor para o maior
Para um número ímpar de observações, a
mediana é o valor central
42 48 61 69 76
MEDIANA: valor central de um conjunto de
números ordenados do menor para o maior
Para um número ímpar de observações, a
mediana é o valor central
42 48 61 69 76

Para um número par de observações ordenadas, a


mediana é o valor médio dos dois valores centrais
42 48 61 69 76 99

(61+69)/2 = 65
Exemplo: Ingestão diária de calorias
mediana

em ordem
crescente
Pessoa calorias
G 790

0
00

00

00

00

00

00

00
70

80

90
H 835

10

11

12

13

14

15

16
C 946 Consumo diário (cal)
F 1163
5º I 1189
6º E 1201 Mediana = valor central de um
B 1280
conjunto de números
D 1296
J 1345 ordenados do menor
A 1574 para o maior
Pessoa calorias
#1
#2
1224
1240
Consumo diário de
#3
#4
1272
1304
calorias (30 pessoas)
#5 1400
#6 1408 12 Moda: valor que ocorre
#7 1440
#8
#9
1512
1528
com maior frequência
#10 1560
#11 1568
Frequência
#12 1584 8
#13
#14
1672
1760
média = 2091
#15
#16
1848
1910
mediana = 1879
#17
#18
1912
1912 4
moda = ~1600
#19 1976
#20 2064
#21 2256
#22 2288
#23 2360
#24 2464 0
#25 2640
#26 2848 1000 2000 3000 4000 5000
#27 3216
#28 3960 Consumo diário (cal)
#29 4128
#30 4464
Moda deve ser usada apenas para grandes conjuntos de dados (> 30)
Um conjunto de dados pode não ter moda
porque nenhum valor se repete:
Ex: 0 2 4 6 8 10

ou ter duas ou mais modas.


Ex: 1 2 2 3 4 4 5 6 7 tem duas
modas: 2 e 4.
Quando uma tabela de distribuição de frequências apresenta
grande quantidade de dados, é importante destacar a classe de
maior frequência, a chamada classe modal.

A classe modal
é "de 10 a 19
anos", porque
é a classe com
maior
frequência.

No ano 2000, a
moda era ter de
10 até 19 anos
A moda também pode ser usada para
descrever dados qualitativos (não numéricos)

Pessoa Gênero
#1 Fem.
#2 Fem.
#3 Masc.
#4 Fem. A categoria que mais se
#5 Masc. repete é “Feminino”
#6 Fem.
#7 Fem.
#8 Fem.

a moda é a categoria que ocorre com maior frequência


De acordo com os dados apresentados na
Tabela abaixo, qual é a moda?

A moda nessa amostra é


sangue tipo O.
Exemplo de um conjunto de dados
com distribuição normal

Frequência

Variável exemplo
Exemplo de dados com
distribuição normal

Frequência

Variável exemplo
Quanto mais próxima da distribuição normal,
maior a semelhança entre a mediana e a média
8

6 mediana
= 5,18 média = 5,17
frequência

0
3 4 5 6 7
Altura (log;
Variável mm)
exemplo
Exemplo: Ingestão diária de calorias

média mediana
em ordem
crescente

Pessoa calorias

0
00

00

00

00

00

00
comum 790
70

80

90
10

11

12

13

14

15
Consumo diário (cal)
comum 1163
comum 1201
soma = 5979
comum 1345 média = 1196
mediana = 1201
comum 1480
Exemplo: Ingestão diária de calorias

mediana
média
em ordem
crescente

Pessoa calorias

00

00

00

00

00

00
comum 790

10

20

30

40

50

60
Consumo diário (cal)
comum 1163
comum 1201
soma = 9499
comum 1345 média = 1900
mediana = 1201
atleta 5000

A mediana NÃO é afetada pela presença de valores extremos


Quando usar média ou mediana?
Distribuição Distribuição
15 8
assimétrica simétrica
6
10
frequência

frequência
4

5
2

0 0
0 200 400 600 800 1000 1200 3 4 5 6 7
Alturaexemplo
Variável (mm) Altura (log;
Variável mm)
exemplo

Mediana é melhor Média é muito sensível


descritora da posição central a observações extremas
em dados com distribuição (outliers), mas é
assimétrica ou com adequada em dados com
observações extremas. distribuição normal.
Quando usar média ou mediana?
Existem casos, porém, em que o uso da média é
mais razoável do que a mediana, mesmo que haja
um valor discrepante.

Como exemplo, considere que você jogou três vezes na


loteria e ganhou:
• na primeira vez, = R$ 0,00;
• na segunda vez, = R$ 0,00;
• na terceira vez, = R$1.000.000,00.
A mediana é zero
mas a média é 1/3 de 1 milhão.
Qual medida melhor descreve o seu ganho?
Medidas de dispersão

Não basta declarar a média (ou outra medida de posição).


Como há variação na natureza, também é preciso
quantificar a dispersão (ou variabilidade) de nossas
observações.

1000 2000 3000 4000 5000


Consumo diário (cal)
Os dois locais possuem a mesma média,
mas dispersão do local 2 é muito maior:
Ruído (em decibéis) em dois locais:
Segunda Terça Quarta Quinta Sexta Sábado MÉDIA
Local 1 49 52 51 48 51 52 50.5
Local 2 39 32 35 37 72 88 50.5

Local 1
30 50 70 90
ruído (dB)
Local 2
30 50 70 90
ruído (dB)
Medidas de dispersão

A maneira mais simples de se quantificar a dispersão


é reportar o mínimo, máximo e amplitude

1000 2000 3000 4000 5000


Consumo diário (cal)
Mínimo = 1224
Máximo = 4464
Amplitude = (MÁX. – MÍN.) = 3240
Medidas de dispersão
A ‘variância’ é uma medida que indica
o quanto as observações diferem da média.
Erro-padrão:
divisão do desvio-padrão
pela raiz quadrada do n
Erro padrão (tamanho amostral)

Desvio-padrão:
Desvio padrão raiz quadrada da
variância

3 4 5 6 7
Altura (log;
Consumo diáriomm)
(kcal)
Medidas de dispersão

Erro padrão

Desvio-padrão descreve
Desvio padrão com mais precisão a
variabilidade dos dados

3 4 5 6 7
Altura (log; mm)

3 4 5 6 7
Altura (log;
Consumo diário mm)
(kcal)
Consumo diário (kcal)
Altura (log; mm)

44
66
77

3
D
es
vi
o
pa
dr
ão

Er
ro
pa
dr
ão
Medidas de dispersão
Quando usar o Desvio Padrão ou Erro Padrão?

Use o Desvio Padrão Use o Erro Padrão


quando os grupos quando os grupos
tiverem N (tamanho amostral) tiverem N (tamanho amostral)
DESIGUAL, IDÊNTICO

taxa de glicose
taxa de glicose
Para calcular a variância (s2), é necessário saber o
desvio de cada amostra:
Para calcular a variância:
• calcule os desvios, de cada observação em relação à média;
• eleve cada desvio ao quadrado;
• some os quadrados;
• divida o resultado por n-1 (n é o número de observações).

Note que a unidade da variância é sempre ao quadrado,


por exemplo, minutos2; dB2; cal2; hora2, reais2...
Desvio padrão (s) é a raiz quadrada da variância
O Desvio Padrão é uma
medida de variabilidade
muito usada, porque mede s n
bem a dispersão dos dados.

decibéis

Erro Padrão (EP) é o Desvio Padrão dividido


pela raiz de N
Desvio Padrão

EP
Tamanho amostral
Ruído (em decibéis) em 3 locais:

Jardim tranquilo 30
Sala de aula 80
Rock in Rio 130

Nota: estes valores de ruído (db) estão relativamente precisos


http://guiadoscuriosos.uol.com.br/categorias/1855/1/os-niveis-de-ruidos.html
Ruído (em decibéis) em 3 locais:

Desvio amostral
Desvio Amostral elevado ao quadrado
(observ. – média) (Desvios)2

Jardim tranquilo 30 30-80 = -50 -502 = 2500


Sala de aula 80 80-80 = 0 02 = 0
Rock in Rio 130 130-80 = 50 502 = 2500
Média = 80 Soma = 5000

Variância = somatória dos (Desvios)2 /(N-1)


Variância = 5000/(3-1) = 2500 decibéis2
Desvio Padrão = √variância = √2500 = 50 decibéis
Praticando
um pouco...

Alimentos Proteína (g / 100 g) Desvio amostral (Desvio amostral)2


Carne de frango 32,8 7,16 51.27
Carne de vaca 26,4 0,76 0.58
Queijo 26,0 0,36 0.13
Salmão grelhado 23,8 -1,84 3.39
Pescada 19,2 -6,44 41.47
Média = 25,64

Variância = soma quad. Desv/(N-1) = 96,83/4 = 24,208

Desvio padrão = raiz quadrada da variância = √ 24,208 = 4,92

Erro padrão = desvio padrão/(raiz quadrada de N) = 4,92/√5 = 2,20


O coeficiente de variação (CV) é a razão
entre o desvio padrão e a média.
O resultado é multiplicado por 100, para que o
coeficiente de variação seja dado em porcentagem.

o coeficiente de variação mede a


dispersão dos dados em relação à média
Para entender como se interpreta o coeficiente de variação,
imagine dois grupos de pessoas:
Grupo 1: pessoas com idades de 1, 3 e 5 anos (média = 3 anos)
Grupo 2: pessoas com idades de 53, 55 e 57 anos (média = 55)
Em ambos os grupos a dispersão dos dados
é a mesma: desvio padrão (s) = 2 anos
Mas as diferenças de 2 anos são muito mais importantes
no primeiro grupo do que no segundo grupo

No primeiro grupo, o No segundo grupo, o


coeficiente de variação é: coeficiente de variação é:
Separatrizes:

A mediana é um tipo de separatriz:


divide um conjunto de dados em duas metades.

1ª metade 2ª metade
25 29 29 37 38 40 57 57 62 62 66 73 74 75 80 86 89 91 96 99
Separatrizes:
Os QUARTIS dividem um conjunto de dados
em quatro partes iguais.

1o 2o 3o
25 29 29 37 38 40 57 57 62 62 66 73 74 75 80 86 89 91 96 99
Separatrizes:

Os DECIS dividem um conjunto de dados


em 10 partes iguais.

1o 2o 3o 4o 5o 6o 7o 8o 9o 10o
25 29 29 37 38 40 57 57 62 62 66 73 74 75 80 86 89 91 96 99

Por exemplo, o 5º Decil


separou os dados em
duas metades
Medidas de dispersão (boxplot)
Outra forma de ilustrar a dispersão de uma distribuição é
reportar os percentis
Mediana
(50º percentil)

3 4 5 6 7
Altura (log; mm)
3 4 5 6 7
Altura (log;
Consumo diáriomm)
(kcal)
Medidas de dispersão (boxplot)
Outra forma de ilustrar a dispersão de uma distribuição é
reportar os percentis

50% dos dados

3 4 5 6 7
Altura (log; mm)
3 4 5 6 7
Altura (log;
Consumo diáriomm)
(kcal)
Medidas de dispersão (boxplot)
Outra forma de ilustrar a dispersão de uma distribuição é
reportar os percentis
outlier
25% 25% 25% 25%

3 4 5 6 7
Altura (log; mm)
3 4 5 6 7
Altura (log;
Consumo diáriomm)
(kcal)
Pressão arterial em relação ao
hábito de fumar
http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0066-782X2009000900007
# ovos por cápsula

Taxa metabólica
Medidas de dispersão (boxplot)
valores extremos (outliers)
15 8

0 200 400 600 800 1000 1200 3 4 5 6 7


6
Altura (log; mm) Altura (log; mm)
10
frequência

frequência
4

5
2

0 0
0 200 400 600 800 1000 1200 3 4 5 6 7
Altura
Variável (mm) 1
exemplo Altura (log;
Variável mm) 2
exemplo
Medidas de dispersão

Intervalo de confiança de 95%:


Para variáveis com distribuição normal, 95% dos dados
ocorrem dentro de ± 2 desvios-padrão da média

Desvio padrão
Intervalo de
confiança de 95%

3 4 5 6 7
Altura (log;
Consumo mm)
diário (kcal)
software livre
“PAST” versão 2.17

Link para download:


https://folk.uio.no/ohammer/past/past217.zip

Manual em português!
http://priede.bf.lu.lv/ftp/pub/TIS/datu_analiize/PAST/2.17c
/pastmanual_portug.pdf
Link para download:
https://folk.uio.no/ohammer/past/
Passo a passo para usar o PAST:
1- Copie os dados do Excel (arquivo enviado no email e ILANG,
chamado “Arquivo exemplo -Casos Dengue MG.xlsx”)
2- abra o PAST, clique em “Edit labels”, posicione o cursor na
coluna “A”, cole os dados, clique novamente em “Edit labels”
2- abra o PAST, clique em “Edit labels”, posicione o cursor na
coluna “A”, cole os dados, clique novamente em “Edit labels”
Selecione as colunas de interesse:
Clique no título da 1ª coluna; pressione tecla SHIFT,
e clique no título da 2ª coluna
Para calcular estatísticas descritivas (média, erro,
desvio, etc, etc):
Clique em STATISTICS > UNIVARIATE
média
Erro padrão
variância

Desvio
padrão
Para plotar um gráfico de barras, ou boxplot:
Clique em PLOT > Barchart/Boxplot
Clique em cima da figura para escrever a legenda
dos eixos, alterar a fonte, salvar a figura, etc...
Para fazer um histograma:
Clique em APENAS no título de uma coluna.
Clique em PLOT > HISTOGRAM
FIM
Calcule a média aritmética de cada uma das
variáveis dos casos apresentados a seguir.
Teste realizado por um fisioterapeuta para analisar a capacidade física de
idosos. O teste consiste em colocar o idoso em uma cadeira apoiada na parede,
com os braços apoiados nos ombros, sendo que ele deve levantar e sentar da
cadeira o máximo que puder durante 30 segundos. Os dados a seguir indicam
as quantidades de vezes coletadas para homens e mulheres

HOMENS:
14, 18, 17, 12, 20, 16, 15

MULHERES:
12, 19, 21, 10, 11, 14, 13

Qual é a média das quantidades


observadas para homens?
E para mulheres?
Média Aritmética das tabelas de frequências

Distribuição de frequências das idades dos 50 alunos do


primeiro ano da faculdade de Biomedicina em 2017.
Xi (idade em anos) fi (Quantidade de alunos) Xi . fi
17 3 51
18 20 360
19 15 285
20 8 160
21 4 84

como calcular a média aritmética


nessa tabela de frequências ?
Média Aritmética das tabelas de frequências
Xi (idade em anos) fi (Quantidade de alunos) Xi . fi
17 3 51
18 20 360
19 15 285
20 8 160
21 4 84

precisamos multiplicar os valores de cada linha...


E registrar esses valores em uma nova coluna da
tabela que vamos simbolizar por Xi . fi. X
Por último, somar essa última coluna e
também a coluna das frequências f
A tabela a seguir foi construída por uma enfermeira partindo do
número de crianças vacinadas por dia em uma clínica pública.
xi (crianças) fi (dias) Xi . fi
12 20
15 21
20 32
25 5
30 2

Qual é a quantidade média de


crianças vacinadas por dia?
A tabela a seguir foi construída por uma enfermeira partindo do
número de crianças vacinadas por dia em uma clínica pública.
xi (crianças) fi (dias) Xi . fi
12 20 240
15 21 315
20 32 640
25 5 125
30 2 60
Soma (fi) = 80 Soma (Xi.fi) = 1380

Qual é a quantidade média de


crianças vacinadas por dia? X = 1380 / 80 = 17,25
Os salários mensais dos
fisioterapeutas de uma clínica
particular são apresentados na
tabela a seguir.

1500 3000
1700 10200
1900 19000
2100 10500
2300 4600
Soma (fi) = 25 Soma (Xi.fi) = 47300
Quanto recebe por mês em
média um fisioterapeuta
dessa clínica? X = 47300 / 25 = 1892
Calcule a MEDIANA de cada uma das
variáveis dos casos apresentados a seguir.
Teste realizado por um fisioterapeuta para analisar a capacidade física de
idosos. O teste consiste em colocar o idoso em uma cadeira apoiada na parede,
com os braços apoiados nos ombros, sendo que ele deve levantar e sentar da
cadeira o máximo que puder durante 30 segundos. Os dados a seguir indicam
as quantidades de vezes coletadas para homens e mulheres

HOMENS:
14, 18, 17, 12, 20, 16, 15

MULHERES:
12, 19, 21, 10, 11, 14, 13

Qual é a MEDIANA das


quantidades observadas para
homens? E para mulheres?
Calcule a MEDIANA de cada uma das
variáveis dos casos apresentados a seguir.
Teste realizado por um fisioterapeuta para analisar a capacidade física de
idosos. O teste consiste em colocar o idoso em uma cadeira apoiada na parede,
com os braços apoiados nos ombros, sendo que ele deve levantar e sentar da
cadeira o máximo que puder durante 30 segundos. Os dados a seguir indicam
as quantidades de vezes coletadas para homens e mulheres

HOMENS:
12 14 15 16 17 18 20
MULHERES:
10 11 12 13 14 19 21

Qual é a MEDIANA das


quantidades observadas para
homens? E para mulheres?
MODA em tabelas de frequências

Distribuição de frequências das idades dos 50 alunos do


primeiro ano da faculdade de Biomedicina em 2017.
Xi (idade em anos) fi (Quantidade de alunos) Xi . fi
17 3 51
18 20 360
19 15 285
20 8 160
21 4 84

Qual a MODA nessa


tabela de frequências ?
A tabela a seguir foi construída por uma enfermeira partindo do
número de crianças vacinadas por dia em uma clínica pública.
Xi (crianças) fi (dias)
12 20
15 21
20 32
25 5
30 2

Qual é a MODA da
quantidade de crianças
vacinadas por dia?
Ruído (em decibéis) em 3 locais:

Passarinho 12
Bar do João 90
Vuvuzela 135
Ruído (em decibéis) em 3 locais:

Desvio amostral
Desvio Amostral elevado ao quadrado
(observ. – média) (Desvios)2

Passarinho 12 12-79 = -67 -672 = 4489


Bar do João 90 90-79 = 11 112 = 121
Vuvuzela 135 135-79 = 56 562 = 3136
Média = 79 Soma = 7746

Variância = somatória dos (Desvios)2 /(N-1)


Variância = 7746/(3-1) = 3873 decibéis2
Desvio Padrão = √variância = √3873 = 62,2 decibéis
Distribuição dos casos de Dengue
em uma cidade, entre 1994 e 2003

Ano Casos
1994 4
1995 205
1996 251
1997 133
1998 101
1999 319 Qual é a VARIÂNCIA
2000 208 dos casos de dengue
2001 3186 neste período?
2002 347
2003 799
Qual é a VARIÂNCIA
Distribuição dos casos de Dengue dos casos de dengue
em uma cidade, entre 1994 e 2003 neste período?

Ano Casos Desvio amostral Quadrado do desvio


1994 4 -551,3 303932
1995 205 -350,3 122710
1996 251 -304,3 92598
1997 133 -422,3 178337
1998 101 -454,3 206388
1999 319 -236,3 55838
2000 208 -347,3 120617
2001 3186 2630,7 6920582
2002 347 -208,3 43389
2003 799 243,7 59390
Média = 555,3 Soma = 8103782,1
Variância = soma dos quadrados dos desvios / (N-1) = 8103782,1 / 9 = 900420,2
A variância é de 900420,2 (casos de dengue)2 por ano
Qual é o Desvio
Distribuição dos casos de Dengue padrão dos casos de
em uma cidade, entre 1994 e 2003 dengue neste período?

Ano Casos Desvio amostral Quadrado do desvio


1994 4 -551,3 303932
1995 205 -350,3 122710
1996 251 -304,3 92598
1997 133 -422,3 178337
1998 101 -454,3 206388
1999 319 -236,3 55838
2000 208 -347,3 120617
2001 3186 2630,7 6920582
2002 347 -208,3 43389
2003 799 243,7 59390
Média = 555,3 Soma = 8103782,1
Variância = 900420,2
Desvio Padrão = raiz quadrada da variância = 948,9 casos de dengue por ano

Potrebbero piacerti anche