Sei sulla pagina 1di 45

1

AULAS 04 E 05 Estatsticas Descritivas


Ernesto F. L. Amaral

19 e 28 de agosto de 2010 Metodologia de Pesquisa (DCP 854B)

Fonte: Triola, Mario F. 2008. Introduo estatstica. 10 ed. Rio de Janeiro: LTC. Captulo 3 (pp.60-109).

ESQUEMA DA AULA Medidas de centro. Medidas de variao. Medidas de posio relativa. Anlise exploratria de dados (AED).

ESTATSTICA DESCRITIVA E INFERNCIA ESTATSTICA Triola afirma que estatstica descritiva e inferncia estatstica so as duas divises gerais do objeto da estatstica. King, Keohane e Verba falam em inferncia descritiva e inferncia causal. Neste momento, estamos trabalhando com mtodos de estatstica descritiva, j que objetivo de resumir ou descrever as caractersticas importantes de um conjunto de dados. Posteriormente, usaremos mtodos de inferncia estatstica (nos termos de Triola), com objetivo de fazer generalizaes sobre uma populao, utilizando dados amostrais. Ou seja, a inferncia estatstica visa realizar anlises que vo alm dos dados conhecidos.

MEDIDAS DE CENTRO

MEDIDAS DE CENTRO Medida de centro um valor no centro ou meio do conjunto de dados. Desejamos obter um nmero que represente o valor central de um conjunto de dados. Os conceitos e mtodos para encontrar mdia e mediana devem ser bem entendidos. O valor da mdia pode ser muito afetado pela presena de um valor discrepante (outlier), mas a mediana no to sensvel a um outlier.

MDIA Mdia aritmtica calculada pela adio dos valores de uma varivel e diviso deste total pelo nmero de valores. Essa medida muito utilizada na descrio de dados.

Estatsticas amostrais so usualmente representadas por letras do alfabeto latino e minsculas:

Parmetros populacionais so representados por letras gregas e maisculas:

MEDIANA Mediana o valor do meio quando os dados originais esto organizados em ordem crescente (ou decrescente) de magnitude . Para encontrar a mediana: 1) Ordene os valores de uma varivel. 2) Se o nmero de valores for mpar, a mediana ser o nmero localizado no meio exato da lista. ou

2) Se o nmero de valores for par, a mediana ser encontrada pelo clculo da mdia dos dois nmeros do meio.
A mdia afetada por valores extremos, ao contrrio da mediana. Por isso, quando temos outliers, mediana pode ser mais apropriada.

MODA A moda de um conjunto de dados o valor que ocorre com maior frequncia. Conjunto de dados bimodal: quando dois valores ocorrem com maior frequncia, cada um uma moda. Conjunto de dados multimodal: quando mais de dois valores ocorrem com maior frequncia. Quando nenhum valor se repete, no h moda. Moda no muito usada com dados numricos.

Dentre as medidas de centro consideradas, a nica que pode ser usada com dados no nvel nominal de mensurao (nomes, rtulos e categorias). No faz muito sentido realizar clculos numricos (mdia e mediana) com dados categricos.

PONTO MDIO Ponto mdio a medida de centro que exatamente o valor a meio caminho entre o maior valor e o menor valor no conjunto original de dados. encontrado pela soma do maior valor e o menor valor dos dados, dividindo-se a soma por 2:

raramente utilizado, j que muito sensvel a valores extremos.


Vantagens: (1) fcil de calcular; e (2) evidencia que h diferentes maneiras de definir centro dos dados. No deve ser confundido com mediana.

10

REGRA DE ARREDONDAMENTO Use uma casa decimal a mais do que apresentado no conjunto original de valores: A mdia de 80,4 e 80,6 igual a 80,50. Quando valores originais so nmeros inteiros, arredondamos para o dcimo mais prximo: A mdia de 2, 3, 5 igual a 3,3.

Arredonde apenas a resposta final e no os valores intermedirios que surgirem durante os clculos.

11

MDIA DE UMA DISTRIBUIO DE FREQUNCIA A mdia de uma populao no necessariamente igual mdia das mdias de diferentes subconjuntos da populao. Quando usamos dados resumidos em uma distribuio de frequncia, devemos considerar o ponto mdio de cada classe, pois no temos os valores de cada observao. Por exemplo, o intervalo de classe de 21-30 (anos) assumir o valor de 25,5 (ponto mdio da classe). Procedimento: 1) Multiplique cada frequncia pelo ponto mdio da classe e adicione os produtos: (f * x) 2) Adicione as frequncias: f

3) Divida 1 por 2: (f * x) / f

12

EXEMPLO
Frequncia (f) 28 30 12 Ponto mdio da classe ( x) 25,5 35,5 45,5

Idade da atriz 21-30 31-40 41-50

f*x 714 1.065 546

51-60
61-70 71-80

2
2 2

55,5
65,5 75,5

111
131 151

Total

76

---

2.718

13

MDIA PONDERADA Mdia ponderada dos valores de x uma mdia calculada com os diferentes valores, associados a diferentes pesos (representados por w).

Por exemplo, nesta disciplina, teremos trs exerccios, valendo 30%, 30% e 40% da nota final.

Suponha que um aluno recebeu as notas: 70, 85, 80.


A nota final ser:

14

RESUMO DE MEDIDAS DE CENTRO

15

ASSIMETRIA Uma distribuio de dados assimtrica quando se estende mais para um lado do que para o outro. A distribuio simtrica se a metade esquerda de seu histograma praticamente igual sua metade direita.

Distribuies assimtricas direita so mais comuns do que assimtricas esquerda.

16

MEDIDAS DE VARIAO

17

MEDIDAS DE VARIAO Tempo mdio de espera igual nestas distribuies (6 min):

18

AMPLITUDE A amplitude de um conjunto de dados a diferena entre o maior valor e o menor valor: amplitude = (valor mximo) (valor mnimo)

Essa uma medida fcil de ser calculada.


Porm, ao usar apenas os valores mximo e mnimo, no to til quanto as outras medidas de variao que usam todos valores.

19

DESVIO PADRO AMOSTRAL O desvio padro de um conjunto de valores amostrais uma medida de variao dos valores em torno da mdia. Indica o desvio mdio dos valores em relao mdia. Frmula do desvio padro amostral:

Frmula que simplifica clculos aritmticos:

20

PROPRIEDADES DO DESVIO PADRO O desvio padro uma medida da variao de todos valores a partir da mdia. O valor do desvio padro (s): usualmente positivo. Igual a zero quando todos valores dos dados so iguais.

Nunca negativo.
Maiores valores de s indicam maior variao. Valor de s pode crescer muito com a incluso de um ou mais outliers. As unidades de s so as mesmas unidades dos dados originais.

21

CALCULANDO O DESVIO PADRO Calcule a mdia .

Subtraia a mdia de cada valor individual para obter uma lista de desvios . Eleve ao quadrado cada uma das diferenas obtidas no passo anterior . Some todos quadrados obtidos no passo acima Divida o total do passo anterior pelo total de valores presentes menos uma unidade (n 1). Calcule a raiz quadrada do passo anterior. .

22

DESVIO PADRO POPULACIONAL O desvio padro da populao () utiliza o tamanho da populao (N) no denominador:

23

VARINCIA Varincia de um conjunto de valores uma medida da variao (disperso) igual ao quadrado do desvio padro. A varincia amostral (s2) o quadrado do desvio padro amostral (s). A varincia populacional (2) o quadrado do desvio padro populacional (). A varincia amostral considerada um estimador noviesado da varincia populacional: Ao realizar vrias vezes amostras aleatrias de uma populao, os diferentes valores de s2 tendem a se concentrar em torno do valor de 2 (sem superestimao ou subestimao). Unidades da varincia so diferentes das unidades originais.

24

NOTAO E REGRA DE ARREDONDAMENTO s = desvio padro amostral s2 = varincia amostral = desvio padro populacional 2 = varincia populacional SD = DP = desvio padro (standard deviation) VAR = varincia Como regra de arredondamento, use uma casa decimal a mais do que apresentado no conjunto original de dados.

25

REGRA EMPRICA DA AMPLITUDE Desvio padro mede a variao entre valores: Valores muito prximos >>> desvios padro pequenos.

Valores mais espalhados >>> desvios padro maiores.


A regra emprica da amplitude indica que para muitos conjuntos de dados, a grande maioria (95%) dos valores amostrais se localiza a 2 desvios padres da mdia. Isso varia com tamanho amostral e natureza da distribuio.

Desvio padro (grosseiro) de dados amostrais:


s amplitude / 4 [(valor mximo) (valor mnimo)] / 4 Valor amostral mnimo (usual) = mdia (2 * desvio padro) Valor amostral mximo (usual) = mdia + (2 * desvio padro)

REGRA EMPRICA PARA DADOS COM FORMA APROXIMADA DE SINO (DISTRIBUIO NORMAL)

26

27

TEOREMA DE CHEBYSHEV A regra emprica anterior se aplica somente a conjuntos de dados com distribuio em forma de sino.

O teorema de Chebyshev se aplica a quaisquer conjuntos de dados, mas seus resultados so muito aproximados.
A proporo (frao) de qualquer conjunto de dados que se situa a K desvios padres da mdia sempre, no mnimo, 11/K2, onde K qualquer nmero positivo maior do que 1. Para K=2: (11/22)=3/4 >>> pelo menos 75% de todos valores se localizam a 2 desvios padres da mdia. Para K=3: (11/32)=8/9 >>> pelo menos 89% de todos valores se localizam a 3 desvios padres da mdia. Na regra emprica, esses valores so de 95% e 99,7%.

28

POR QUE NO USAR DESVIO MDIO ABSOLUTO? Poderamos calcular o desvio mdio absoluto (DMA), que tambm evita que a soma das diferenas seja igual a zero:

Clculo de valores absolutos requer operao no algbrica (que so: adio, multiplicao, razes, potncias). Valores absolutos criam dificuldades algbricas nas inferncias estatsticas (regresso e anlise da varincia). Vis: desvios mdios absolutos de amostras no tendem ao valor do desvio mdio absoluto da populao.

Por isso, usamos o desvio padro que transforma variaes em valores no-negativos pela elevao ao quadrado.

29

POR QUE DIVIDIR POR n 1? Dividimos o desvio padro amostral por n 1, porque h apenas n 1 valores independentes.

Ou seja, dada uma mdia, apenas n 1 valores podem ser associados a qualquer nmero, antes que o ltimo valor seja determinado. Alm disso, se s2 fosse definido como a diviso por n, ele sistematicamente subestimaria o valor de 2, o que compensado pela diminuio do denominador. Vejam exerccio 38 (pp. 88-89).

30

POR QUE EXTRAIR A RAIZ QUADRADA? Ao final do clculo do desvio padro, extramos a raiz quadrada.

Isso realizado para compensar os quadrados que so estimados anteriormente.


Ao calcular a raiz quadrada, o desvio padro tem as mesmas unidades de medida dos dados originais.

31

COEFICIENTE DE VARIAO Por ter as mesmas unidades dos dados originais, o desvio padro mais fcil de entender do que a varincia.

Porm, com o desvio padro, difcil comparar a disperso para valores de diferentes variveis (ex.: peso e altura).
Coeficiente de variao (CV) supera essa desvantagem, por no ter unidade especfica, permitindo comparao das variaes. O CV para um conjunto de dados amostrais ou populacionais no-negativos expresso como um percentual e descreve o desvio padro em relao mdia: Amostra: Populao:

32

MEDIDAS DE POSIO RELATIVA

33

MEDIDAS DE POSIO RELATIVA As medidas de posio relativa permitem a comparao de valores de conjuntos de dados diferentes ou de valores dentro de um mesmo conjunto de dados.

Os escores z permitem a comparao de valores de diferentes conjuntos de dados.

Os quartis e percentis permitem a comparao de valores dentro do mesmo conjunto de dados, assim como entre diferentes conjuntos de dados.

34

ESCORES z Um escore z obtido pela converso de um valor para uma escala padronizada.

O escore padronizado o nmero de desvios padres a que se situa determinado valor de x, acima ou abaixo da mdia:

Amostra:

Populao:

35

ESCORES z E VALORES NO-USUAIS Valores no-usuais so aqueles com escores z menores do que 2,00 ou maiores do que +2,00.

Valores comuns: 2 <= escore z <= 2


Valores no-usuais: escore z < 2 ou escore z > 2 Sempre que um valor menor do que a mdia, seu escore z correspondente negativo. Escores z so medidas de posio, j que descrevem a localizao de um valor (em termos de desvios padres) em relao mdia: z=2: valor est 2 desvios padres acima da mdia.

z=3: valor est 3 desvios padres abaixo da mdia.

36

QUARTIS A mediana divide os dados ordenados em 2 partes iguais: 50% dos valores de um conjunto de dados so iguais ou menores do que a mediana, e 50% so iguais ou maiores. Os quartis (Q1, Q2 e Q3) dividem os valores ordenados em 4 partes iguais:

Q1 (primeiro quartil): separa os 25% inferiores dos 75% superiores.


Q2 (segundo quartil): mesmo que a mediana; separa os 50% inferiores dos 50% superiores. Q2 (terceiro quartil): separa os 75% inferiores dos 25% superiores.

37

PERCENTIS H 99 percentis (P1, P2, ..., P99) que dividem os dados ordenados em 100 grupos com cerca de 1% dos valores em cada um. Os quartis e percentis so exemplos de quantis, os quais dividem os dados em grupos com aproximadamente o mesmo nmero de valores. Utilize a seguinte frmula, arredondando o resultado para o nmero inteiro mais prximo:

Note que: Q1 = P25 ; Q2 = P50 ; Q3 = P75

CONVERTENDO PERCENTIS EM VALOR DE DADOS

38

Sendo: n: nmero total de valores no conjunto de dados. k: percentil em uso (ex.: para o 25 percentil, k=25). L: localizador que d a posio de um valor (ex.: para o 12 valor na lista ordenada, L=12). Pk: k-simo percentil (ex.: P25 o 25 percentil).

39

ESTATSTICAS DEFINIDAS POR QUARTIS E PERCENTIS Intervalo interquartil (IIQ) = Q3 Q1

Intervalo semi-interquartil = (Q3 Q1) / 2


Ponto mdio dos quartis = (Q3 + Q1) / 2 Intervalo percentlico 1090 = P90 P10

40

ANLISE EXPLORATRIA DE DADOS (AED)

41

ANLISE EXPLORATRIA DE DADOS (AED) Anlise exploratria de dados o processo de uso das ferramentas estatsticas (grficos, medidas de centro, medidas de variao...) para investigao de conjuntos de dados com objetivo de se compreenderem suas caractersticas importantes.

Podemos explorar caractersticas dos dados: centro (mdia, mediana); variao (desvio padro, amplitude), distribuio (histogramas); outliers; mudana no tempo.

Aqui sero discutidos os valores discrepantes (outliers) e o diagrama de caixa (boxplot).

42

VALORES DISCREPANTES (OUTLIERS) Valor outlier (valor extremo) aquele que se localiza muito afastado de quase todos os demais valores.

Estes valores podem ter efeito dramtico sobre:


A mdia. O desvio padro. A escala do histograma, de modo que a verdadeira natureza da distribuio pode ser totalmente obscurecida.

Outliers podem ser erros: devem ser corrigidos ou ignorados


Outliers podem ser corretos: devemos estudar seus efeitos, construindo grficos e calculando estatsticas, com e sem outliers, buscando revelar importantes informaes.

43

DIAGRAMAS DE CAIXA (BOXPLOTS) Para um conjunto de dados, o resumo dos cinco nmeros consiste no valor mnimo, primeiro quartil (Q1), mediana (Q2), terceiro quartil (Q3) e no valor mximo. Diagrama de caixa (diagrama de caixa e bigode) um grfico de um conjunto de dados que consiste em: (1) uma linha que se estende do valor mnimo ao valor mximo; (2) uma caixa com linhas traadas no primeiro quartil (Q1), na mediana (Q2) e no terceiro quartil (Q3).

Os diagramas de caixa so teis para revelar centro, disperso, distribuio e outliers.

44

UTILIDADE DOS DIAGRAMAS DE CAIXA Diagramas de caixa no apresentam informao to detalhada como histogramas e digramas de ramo e folhas.

Porm, so teis na comparao de dois ou mais conjuntos de dados, quando desenhados na mesma escala.
Boxplots para idades dos melhores atores e atrizes: Atrizes

Atores

45

DIAGRAMAS DE CAIXA MODIFICADOS Diagramas de caixa modificados representam outliers com smbolos especiais (asteriscos).

Lembrando que IIQ=Q3Q1, um valor outlier se est:


Acima de Q3 por uma quantidade maior do que 1,5 x IIQ. ou Abaixo de Q1 por uma quantidade maior do que 1,5 x IIQ. A linha slida horizontal se estende apenas at o menor valor dos dados que no so outliers e at o maior valor dos dados que no so outliers.

Potrebbero piacerti anche