Sei sulla pagina 1di 37

Bases Computacionais da Cincia

Estatstica Descritiva
Yossi Zana

Roteiro da Aula
Variveis  Representao Grfica  Estatstica Descritiva


Medidas de tendncia central Medidas de disperso Funo de distribuio

O que uma varivel?




o que est sendo mensurado ou determinado pelo pesquisador e que caracteriza o fenmeno em estudo. altura, sexo, cor do cabelo, cor dos olhos, idade, peso, expectativa de vida, partido poltico, tempo, resistncia.

 Exemplos:

Tipos de variveis


Independente:
Valores manipulados ou selecionados pelo pesquisador (meio, idade, ms). Podem ser ou no a causa da varivel dependente.

Dependente:
Valores observados, contados, medidos, que no estejam sob controle direto do pesquisador (velocidade, taxa de cmbio). Podem ser causadas ou no pela varivel independente.

Tipos de variveis

Taxa de cmbio R$/US$

Ms

Varivel independente

Varivel dependente

Variveis Discretas e Contnuas


 

Variveis quantitativas: expressadas em valores numricos ( qualitativas) Discretas: Conjunto enumervel de valores  Nominais = categricas: sem ordem natural de valores  {presente, ausente}, {homem, mulher}, estado de origem (UF), base DNA A/C/T/G.  Ordinais: com ordem natural de valores  Classe scio-econmica (A-E ou baixa, mdia, alta), avaliao em escala Likert (nota 1-5), {PP, P, M, G, GG}, nmero de acidentes. Contnuas: Conjunto no-enumervel, valores reais  Grandezas fsicas ou qumicas: velocidade, fora, probabilidade, concentrao, acidez, taxa de cmbio.

Exerccio de classe
 Determine

possveis variveis dependentes e independentes de seu projeto e seus nveis de mensurao (contnua, ordinal, etc).

Qual a relao entre o ms e a taxa de cmbio?


Alternativa 2: Grfico ela Alternativa 1: Ta Taxa de cmbio
$
Jan09 ez08 Nov08 2.30 2.40 2.15 2.30 1.65 1.55 1.60 1.65

R$/US$

O t08 Set08 Ago08 J l08 J n08

Ms e Ano

aio08 1.70

Estrutura de um grfico
fafafa Ordenada (eixo-Y) QI var dependente Efeito do Estudo sobre o QI 4 3 Escala 2 1 0 Origem 1 4 2 3 Abscissa (eixo-X) Horas de Leitura var independente Srie Srie 1 QI

Qual a relao entre o ms e a taxa de cmbio?


Alternativa 2: Grfico

Taxa de cmbio

R$/US$

Ms

Tipos de grficos
Tipo apropriado de grfico depende dos tipos de variveis e o que se quer enfati ar:


Categrica X Contnua: Colunas


 

Teste de memria: tentar lembrar uma lista de palavras. Jogar Tetris ou no entre fase de aprendizagem e teste.
Interferncia em Memria Interferncia em Memria

8 7 68 5 No de Palavras 6 4 Lembradas No de Palavras 34 Lembradas 2 var. dependente: 12 contnua 0

fafafa

etris

etris

Fazer nada Atividade


Atividade

Fazer nada

var. independente: categrica

Tipos de grficos
Tipo apropriado de grfico depende dos tipos de variveis e o que se quer enfati ar :


ordinal X contnua:

grfico de colunas ou linhas

dependente: contnua

Destaca nveis absolutos

independente: ordinal

Tipos de grficos
Tipo apropriado de grfico depende dos tipos de e o que se quer enfati ar:


ordinal X contnua:
08 06 04 02

grfico de colunas ou linhas

Variao da temperatura (C.) Dependente: contnua

a a (C)

0 1880 -0 2 -0 4 -0 6

1900

1920

1940

1960

1980

2000

Destaca evoluo

Ano Independente: ordinal

Tipos de grficos
Tipo apropriado de grfico depende dos tipos de variveis e o que se quer enfati ar :

histograma Pergunta: Qual o dimetro dos nanotubos?




Discreti ado X contagem:

Contagem ou freqncia

fafafa

Dependente: Contnua ou discreta

Dimetro nm de nanotubo de carbono Independente: contnua discretizada ordinal

Tipos de grficos
Tipo apropriado de grfico depende dos tipos de variveis e o que se quer enfati ar:


Contnua X Contnua:
Pergunta: Ansiedade bom?

grfico de disperso
fafafa

Ansiedade vs. Dsempenho

7 Desempenho 5

Ansiedade

Destaque para variabilidade

Indivduo

Presso Sistlica mmHg

Presso diastlica mmHg 78 54 81 68 66 83 71 72 85 71 65 87 77 81 82 76 80 75 81 44 65 64 58 70 66 82 79 69 64 79 72 74 81 84 77 77 83 68 75 65

Exerccio em Sala


Considere a seguinte tabela de dados de presso sangunea obtida para um grupo de 40 pessoas: Construa um grfico de disperso relacionando pessoas com presso sistlica. Construa um grfico de colunas relacionando sexo com presso diastlica e sistlica. Construa um histograma relacionando idade com presso sistlica.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40

125 107 126 110 110 107 113 126 137 110 109 153 112 119 113 125 131 121 132 112 121 116 95 110 110 125 124 131 109 112 127 132 116 125 112 125 120 118 115 115

Idade

Altur a

Peso

Taxa Pulsa o bat/min

Press o Sistli c a mmHg

Presso diastli ca mmHg

Colester ol

IMC

Estatstica
  

(anos)

(m)

(Kg)

mg

58 22 32 31 28 46 41 56 20 54 17 73 52 25 29 17 41 52 32 20 20

1,8 1,68 1,82 1,74 1,72 1,76 1,69 1,71 1,73 1,67 1,6 1,73 1,86 1,72 1,73 1,8 1,56 1,94 1,68 1,77 1,66

76,1 64,9 80,7 79,1 68,7 75,1 60,8 90,7 78,8 62,6 70,3 84 86 68,1 94,2 106,7 79,5 99,3 74,7 61,8 73,9

68 64 88 72 64 72 60 88 76 60 96 72 56 64 60 64 84 76 84 88 72

125 107 126 110 110 107 113 126 137 110 109 153 112 119 113 125 131 121 132 112 121

78 54 81 68 66 83 71 72 85 71 65 87 77 81 82 76 80 75 81 44 65

522 127 740 49 230 316 590 466 121 578 78 265 250 265 273 272 972 75 138 139 638

23,5 23 24,3 26 23,3 24,3 21,3 31,1 26,2 22,5 27,5 27,9 24,9 23,1 31,6 32,8 32,8 26,5 26,4 19,7 26,8

Qual a altura da turma? Qual o desempenho da turma em BCC? Qual a taxa de aprovao no vestibular de uma determinada escola? Qual a maior torcida presente nesta sala?

Estatstica Descritiva
Descrio de propriedades de populaes ou amostras. Inclui grficos, tabelas e medidas de tendncia e disperso.

Populao e Amostras
Alternativa 2: Grfico

Taxa de cmbio

R$/US$

Ms

Medidas de Tendncia Central


Valor mdio (de meio), tpico ou esperado de um conjunto de dados.


Mdia aritmtica: Pode ser aplicada exclusivamente em variveis em escala de intervalo. Mediana: Pode ser aplicada tambm em variveis ordinais. Moda: Pode ser aplicada tambm em variveis nominais.

Mdia Aritmtica
o centro de gravidade (ou de massa) da varivel. A soma dos valores de um conjunto de amostras dividida pelo nmero de amostras:
Alunos
N

Notas 3,0 5,0 6,0 4,0 5,0 8,0 9,0 6,0 2,0 5,0 53

X
X !
i !1

1 2 3 4 5 6 7 8 9 10 Total

N
i

o nmero total de amostras um valor das amostras

Funo no Excel ou BrOffice: MDIA

Mdia

5,3

Mediana:
   

O valor que menor exatamente da metade das amostras. : Notao: Mediana = X Posio da mediana =>
N 1 i! 2

Notas

Freqncia Simples

Freqncia Acumulada

No caso de um nmero par de sujeitos a mediana a mdia entre os dois valores centrais.

2 3 4 5 6

1 1 1 3 2 1

1 2 3 6 8 9 10 11

  

Dadas as alturas: 62 54 82 49 75 64 8 1 Ordene: 49 54 62 64 75 82 9 1 Med = 62+64 = 63 2 Funo no Excel ou BrOffice: MED

Moda
 

Funo no Excel ou BrOffice: MODO


Nota 2 3 4 5 6 7 8 9 Aluno 1 1 1 3 2 1 1 1 Nota 2 3 4 5 7 8 9 Aluno s 1 3 1 1 3 1 1

o valor mais freqente. Exemplos: 1,1,3,3, , , , ,11,13 moda 3, , , ,6,6, , , ,11,12 mais de uma moda: , (bimodal). 3, ,8,11,13,18 mais de uma moda
Distribuio Unimodal 4 3 2 1 0 2 3 4 5 6 7 8 9
Nota

Di tribui 4 3 2 1 0 2 3 4

o Bi oda

Freqncia

Freqncia

5
Nota

Exerccio

Descobre as Tendncias Centrais

 

onlinestatbook.com/stat_sim/descriptive Qual o efeito de novas amostras de valores prximos a mdia ou muito abaixo ou em cima da mdia?

Relacao entre as Medidas de Tendncia Central


Mdia influencia de cada amostra depende de seu valor. Mediana influencia de cada amostra depende de sua posio. Moda influencia de cada amostra depende de sua freqncia.
Mediana

160000 140000 120000 100000

Moda

Frequncia

80000 60000 40000 20000 0 100 A baix o de 100 00 300 00 900

Mdia

Mediana e Moda so menos influenciadas por valores extremos.

3000 1000

ac ima de 000

000

Renda Mdia Mens al (R$)

Medidas de Disperso
 

O quanto os dados dispersam se em torno de um valor (mdia). Varincia: Mdia dos quadrados dos desvios, onde desvio a diferena entre cada dado e a mdia do conjunto.
s2 !

Funo no Excel ou BrOffice: VAR

(x 
N 1

)2

! 40 / 4 ! 10

Dados
(X )

Desvios
(X  X )

Quadrados dos Desvios


(X  X )2

0 4 6 8 7
X !5

-5 -1 1 3 2

25 1 1 9 4
0

(X

X)

(X

X ) 2 ! 40

Medidas de Disperso
 

Desvio Padro O quanto os dados dispersam se da mdia Raiz quadrada da varincia

s!

(x 
N 1

)2

! 10 ! 3,16

Funo no Excel ou BrOffice: DESVPAD

Erro Padro da Mdia


A variabilidade das mdias.
Alunos Notas 3,0 5,0 6,0 4,0 5,0 8,0 9,0 6,0 2,0 5,0 53

Ou seja, o conjunto de mdias a populao amostrada. Quanto maior o nmero de amostras, menor o erro padro da mdia.

1 2 3 4 5 6 7 8 9 10 Total

s WX ! N

Mdia DVP EPM

5,3 2,11 0,7

Erro Padro da Mdia


No existe uma Funo direta no Excel ou BrOffice para clculo do EPM. Portanto, calcula se a partir do desvio padro EPM = DESVPAD()/RAIZ(CONT.NM())
Alunos 1 2 3 4 5 6 7 8 9 10 Mdia DVP
Tur Tur

Turma A 5 5 5 5 5 6 4 6 5 5 5,1 0,57 0,18

Turma B 8 9 7 7 2 5 2 0 2 10 5,2 3,49 1,1

s WX ! N

EPM

Distribuio Normal


A distribuio normal (distribuio Gaussiana, em homenagem a Carl Friedrich Gauss) um importante modelo de distribuio, observado frequentemente em fenmenos relacionados a reas diversas, como as biologias, fsicas e econmicas. Exemplo Um instituto de pesquisas realiza uma amostragem com .000 pessoas para obter uma estimativa da altura do brasileiro adulto. Os resultados foram categorizados por faixas de altura:

Distribuio Normal

Mdia: ,

Desvio Padro: ,

Esta distribuio hipottica e em muitos casos necessria tomada de decises em estatstica. Muitos dos testes estatsticos s tm validade se seus dados so amostras de uma distribuio normal.

Descobre a Distribuio Normal




www stat.stanford.edu/~naras/jsm/NormalDensi ty/NormalDensity.html www.shodor.org/interactivate/activities/No rmalDistribution

Caractersticas da Distribuio Normal




Ela determinada por dois parmetros: Mdia Desvio padro A distribuio simtrica e unimodal em relao mdia. A mdia, moda e mediana possuem o mesmo valor. Metade da rea sob a curva esta esquerda do valor da mdia.

reas sob a Curva Normal




 

A rea sob a curva de uma distribuio normal fundamental na soluo de problemas. Ela corresponde a 100% dos dados. Uma rea de 34,13 % da totalidade dos dados delimitada entre a mdia e 1 desvio padro da mdia. Quando o desvio padro da mdia 2 a rea aumenta para 4 ,8 % Quando 3 a rea aumenta para 49,8 %. Estas propores so constantes em uma distribuio normal.

Tipos de Distribuio


Distribuio Unimodal e Simtrica:


req cia

D is tr i
5 4 3 2 1 0 2 3 4
Moda

As s im tr ic a

Mdia, Mediana e Moda so iguais.




Mediana

Distribuio assimtrica:
A moda est no pico A mdia est mais prxima da cauda A mediana est entre a moda e mediana

Mdia

ta

10

Qual para usar? Depe de

que se quer sa er.

Re da de famlias: Quanto ganha uma famlia brasileira em mdia? Qual o ganho mximo de metade das famlias no Brasil? Qual faixa de ganho familiar a mais comum no Brasil?

Exerccio para Casa


 

Escolha e compre caf OU ch de duas marcas diferentes, de faixas de preo diferente. Ao longo de 4 dias prepare e sirva as duas bebida para 4 pessoas no mesmo intervalo de tempo (sempre as mesmas pessoas). Cada pessoa dar uma nota de 0 a 10 (numero inteiro) para a qualidade da bebida. Tome o cuidado de no revelar a marca (use as mesmas xcaras, etc.). Alterne a ordem das bebidas, explique para os avaliadores a no fazerem comentrios ou expresses que revelem sua avaliao e a nota deve ser dada por escrito individualmente. Organize os dados em uma tabela e calcule as medidas de tendncia central e disperso aprendidas na aula. Apresente os dados em grficos apropriados (ex. freqncia X Intervalo de Nota). Descreva a metodologia utilizada em detalhes (procedimento experimental e estatstico). Interprete os resultados no sentido da diferena entre as bebidas e Constancia da avaliao por pessoa.

Potrebbero piacerti anche