Sei sulla pagina 1di 72

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O.

Gonsalez CDIGO: 503559

Introduo

Modelo Cientfico:

uma representao lgica, um conjunto de mecanismos virtuais que permite a representao de um fenmeno.

Modelo mecanstico:

So aqueles construdos a partir do conhecimento fsico bsico em que relaciona as variveis. Exemplos: corrente eltrica atravs de um fio de cobre (I = E/R) Corrente = voltagem/resistncia Movimento linear: um veculo se movimentando em linha reta a velocidade constante (V= d/t)

Modelo emprico:

So aqueles que resultam da aplicao da experimentao e no do conhecimento cientfico terico do fenmeno. Exemplos: determinao da massa molecular mdia Mn = f (V, C, T) Srie de Taylor: Mn = 0 + 1 V + 2C + 3T +
1

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

s parmetros desconhecidos

o termo adicionado ao modelo para considerar que os dados observados no seguem


exatamente o modelo mecanicista.

O que Mtodo Cientfico? o conjunto de etapas ordenadamente dispostas a serem executadas na investigao de um fenmeno. Etapas: 1) Observao / Experimentao Observao das rbitas dos planetas / Experimentao fsica com corpos 2) Anlise 3) Hipteses Existe uma fora regular e calculvel de atrao entre duas massas 4) Teste Experimental 5) Modelo Lei da Gravitao F = g.m.n/d 6) Generalizao (lei) Dois corpos se atraem em proporo direta s suas massas e inversa ao quadrado da distncia entre si.

Estatstica

um conjunto de tcnicas metdicas atravs das quais se pode uniformizar a coleta, organizao, resumo, apresentao, descrio e anlise de observaes (dados), possibilitando concluses vlidas para a tomada de decises. O termo tambm usado para designar os prprios dados ou resultados deles derivados, tais como mdias. Exemplo: estatstica de empregos, de acidentes.

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

O termo tratamento surgiu com a experimentao agrcola e servia para designar o que estava em comparao: fertilizantes, defensivos, variedades, etc. Hoje tem significado mais geral. A estatstica pode ser dividida em duas classes: 1) Estatstica descritiva So os procedimentos que visam coleta, tabulao e descrio de conjuntos de observaes que podem ser quantitativos ou qualitativos. 2) Estatstica indutiva ou inferencial Constituem-se nos mtodos de anlise de observaes que visam testar hipteses experimentais e estimar caractersticas populacionais com base em uma amostra. Tipos:

Estatsticas paramtricas e no-paramtricas

Paramtricas: So aquelas que atendem a certos pressupostos como normalidade da distribuio e homogeneidade de varincia dos dados.

No-Paramtricas: Tambm chamada de livre de distribuio e que no atende as tcnicas paramtricas de anlise. A principal desvantagem do procedimento no-paramtrico diz respeito ao menor poder das estatsticas comparado ao paramtrico. O poder de um teste representa a capacidade de rejeitar uma hiptese nula quando ela falsa.

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

Populao e amostra Populao ou universo: o grupo completo de unidades elementares em estudo, por exemplo, objetos, indivduos, etc... A populao pode ser finita ou infinita. Finita: quantidade de indivduos de uma cidade. Infinita: todos os resultados (cara ou coroa) em sucessivos lances de uma moeda. Amostra: um subgrupo de unidades elementares selecionados numa populao, isto , uma pequena parte da populao em anlise. Uma amostra representativa tem as mesmas caractersticas da populao de onde foi retirada. Amostra aleatria: quando uma amostra de tamanho n retirada de uma populao uma das possveis e igualmente provveis combinaes de n unidades elementares que podem ser retiradas de uma populao.

Formao de amostras aleatrias

Consiste em atribuir um nmero a cada elemento da populao, escrever esses nmeros em pedaos de papel, coloc-los em uma urna e, aps retir-los dali, misturando-os bem antes de cada extrao.

Amostras com e sem reposio

Quando o nmero extrado reposto para novo sorteio ele pode ser mais de uma vez escolhido denomina-se amostragem com reposio e quando s pode aparecer uma vez chama-se amostragem sem reposio.

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

Outro processo o uso de tabelas de nmeros aleatrios, especialmente construdos para essa finalidade. Quando usar amostragem: - Economia - Tempo - Confiabilidade dos dados - Operacionalidade Quando no interessante usar amostragem: - Populao pequena - Caracterstica de fcil mensurao - Necessidade alta preciso - Exerccios 1) Exerccio: Estimar n palavras do texto. 2) Exerccio: Uso da tabela de n aleatrios: altura dos alunos. A tabela confeccionada por sucessivos sorteios. No h uma forma especfica para extrao dos nmeros da tabela. 1) Extrair uma amostra de tamanho cinco (n=5); 2) Tomar cinco n aleatrios do conjunto de {01,02,03,04.....35} Os alunos associados a esses nmeros formaro a amostra. Usa-se a primeira linha, por exemplo, excluindose os valores fora do conjunto e os que se repetirem.

Tamanho de uma Amostra Aleatria Simples

a) Desconhecendo N: no = 1/(Eo)2 N = tamanho da populao n = tamanho da amostra


5

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

no = primeira aproximao para o tamanho da amostra Eo = erro amostral tolervel b) Conhecendo N: n = N x no/N + no Exemplos: 1) Em uma empresa que produz-se 4000 peas/dia. Deseja-se controlar a qualidade por inspeo visual. Quantas peas devem ser avaliadas com um erro amostral de 2,5 %? Resoluo: no = 1/(0,025)2= 1.600 peas n = 4000 x 1600/4000 + 1600 = 1.143 2) Se a empresa reduzir a amostragem para 500 peas. Qual o tamanho do erro amostral? Resoluo: 500 = 4000 x no /4000 + no 2000000 + 500 no = 4000 no 2000000 = 4000 no -500 no 2000000 = 3500 no no =571,43 571,43= 1/(E0)2= 1.600 peas E0 = 0,042 ou 4,2%

Fontes de erros: - Populao acessvel diferente da populao alvo. - Erros de mensurao. - Falta de resposta.
6

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

Variveis

Uma varivel um smbolo (A, X, x,) que pode representar uma propriedade ou atributo, assumindo um conjunto de valores chamado de domnio da varivel. uma caracterstica da unidade elementar que pode ter valores diferentes entre as unidades medidas.

Classificao das Variveis

No caso da varivel assumir apenas um valor ela chamada de constante.

1) Quantitativas (numrica): So aquelas medidas numa escala numrica. Podem ser: a) Varivel discreta: aquela que tem valor dentro de uma faixa finita (ou infinita contvel). Exemplos: n de toques no teclado, n de peas defeituosas, quantidade de pessoas no planeta. b) Varivel contnua: aquela que pode assumir qualquer valor finito ou infinito entre dois dados. Exemplos: Temperatura, presso, comprimento, peso, densidade, altura.

2) Qualitativas (categrica): So aquelas no numricas.

a)

Nominais: No possuem ordenamento nem hierarquia. Exemplo: tipo de processo, tipo de material.

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

b)

Ordinais: So semelhantes as nominais, porm incluem uma hierarquia. Exemplo: Grau melhor, excelente ou intensidade Muito, forte, etc...

3) Sequncia temporal: So aquelas em que considerado o fator tempo.

a)

Sries temporais: Quando considerada a sequncia temporal. Exemplo: n de peas injetadas no dia, gasto de energia no ms.

b)

Variveis cruzadas: Quando no considerada a srie temporal. Exemplo: Mdia de peas produzidas no ms por injetora.

Varivel aleatria: uma funo que atribui um nmero real para cada resultado no espao amostral de um experimento aleatrio. Modelo Y = f.X Y =Varivel Dependente X =Varivel Independente f =Funo = Parmetros + Relacionamentos Internos do Modelo Cientfico

Variveis Independentes:

So aquelas que se introduz intencionalmente para verificar-se a relao entre suas variaes e o comportamento de outras variveis, isto , correspondem quilo em funo do qual se deseja conseguir realizar previses e/ou obter resultados. So provocadas por aes do pesquisador quando da realizao do experimento.
8

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

Variveis Resposta ou Dependentes:

So aquelas cujo comportamento se quer verificar em funo das oscilaes das variveis independentes, ou seja, correspondem quilo que se deseja prever e/ou obter como resultado. Ocorrem em funo da realizao do experimento, sendo o resultado do mesmo.

Variveis Esprias ou de Controle:

So variveis que no so diretamente objeto de estudo, porm tambm interferem na relao entre as variveis independentes e as dependentes. So resultado de fenmenos ocasionais no previstos e interferem no resultado do experimento. Devem ser controladas (temperatura ambiente, umidade etc..).

Variveis Intervenientes:

o fator ou propriedade que, teoricamente, afeta o fenmeno observado. Esse fator, no entanto, ao contrrio das outras variveis, no pode ser manipulado ou medido. um fator hipottico, terico, no concreto. (KCHE, 2000)

Escala de medio das variveis

a) Nominal: a escala mais elementar de medida. As observaes (dados) so agrupadas em categorias ou classes, sendo que os

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

valores para representar so arbitrrios, no tendo significado numrico (apenas um rtulo). Exemplos: Varivel Processo Pea Membro do grupo Gnero 1,2, etc... 1 ou A, etc... 1 = experimental, 2 = placebo e 3 = rotina 1 = masculino, 2 = feminino Valores

b) Ordinal: As informaes so codificadas conforme a posio que ocupam no conjunto de dados (postos) e os valores no so arbitrrios e devem respeitar a hierarquia existente entre as categorias. A distncia entre as categorias desconhecida. Exemplos: Varivel Matria-prima Processo Posio scio-econmica Escala de atitudes Valores A = melhor, B = regular, C = ruim 1 = alto desempenho, 2 = baixo desempenho 1 = baixo, 2 = mdio e 3 = alto 1 = concorda plenamente, 2 = concorda, 3 = discorda, 4 = discorda completamente

Obs.: No se pode estabelecer relaes do tipo adio, por exemplo.

c) Intervalar: O valor zero arbitrrio e no representa a ausncia da caracterstica mensurada. A diferena entre duas medidas permite a

10

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

comparao, isto , quanto uma medida avaliada maior ou menor do que a outra. Podem ser continuas ou discretas. Exemplo: Medida de temperatura na escala Celsius.

d) Razo: a escala mais completa de mensurao porque possibilita todas as operaes matemticas na anlise de dados. semelhante a intervalar, porm o zero representa a caracterstica avaliada. Exemplo: Escala de temperatura Kelvin, peso, presso sangunea. A escolha da escala determina os procedimentos matemticos e o tipo de estatstica a ser utilizada. Na escala nominal calcular o valor mdio no tem significado algum sobre o conjunto de dados. Dependendo do nmero de variveis simultaneamente analisadas podese ter os seguintes tipos de anlises:

1) Anlise univariada

A varivel tratada isoladamente atravs da explorao detalhada das observaes que visa, por exemplo, testar a normalidade da distribuio dos dados ou identificar valores discrepantes em relao ao conjunto observado.

2) Anlise bivariada

A anlise visa observar a relao entre duas variveis. Logo, antecedida pela anlise univariada. Exemplo: resistncia a flexo entre uma pea moldada por injeo ou por compresso.
11

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

3) Anlise multivariada

Visa estabelecer relaes simultneas entre mais de duas variveis. Exemplo: Avaliao da resistncia a flexo entre peas moldadas por processos diferentes e com alteraes nos parmetros.

Arredondamento de dados

Considera-se o seguinte procedimento para o arredondamento de dados: a) Quando o algarismo direita do ltimo dgito que se quer arredondar for inferior a 5, 50, 500..., apenas desprezam-se os demais dgitos direita. Exemplos: 1) 72,43 = 72,4 2) 72,8146 = 72,81

b) Quando o algarismo direita do ltimo dgito for maior que 5, 50, 500..., adiciona-se uma unidade ao ltimo dgito representado e desprezam-se os demais dgitos direita. Exemplos: 1) 83,579 = 83,58 2) 4,18676 = 4,187

c) Quando o algarismo direita do ltimo dgito for 5, 50, 500...:

- Adiciona-se uma unidade ao ltimo dgito representado e desprezam-se os demais dgitos direita, se esse dgito for originalmente mpar.

12

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

Exemplos: 1) 14,15 = 14,2 2) 317,135 = 317,14

- Quando o ltimo dgito for originalmente par ou zero desprezam-se os demais dgitos direita. Exemplos: 1) 18,25 = 18,2 2) 317,005 = 317,00 3) 116.500.000 = 116.000.000

Notao Cientfica ou Notao Exponencial

empregada a potncia de 10 (dez) para facilitar a escrita de nmeros com muitos zeros, antes ou depois da vrgula. Exemplo: 1) 100 = 1 2) 101 = 10 3) 102 = 100 (10 x10) 4) 103 = 1000 (10 x10 x 10) 5) 10-1 = 0,1 6) 10-2 = 0,01 7) 10-6 = 0,000001 8) 31416 = 3,1416 x 104 9) 0,00000000000425 = 4,25 x 10-12

13

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

Algarismos significativos

todo conjunto de dgitos necessrios para expressar uma medida de acordo com a preciso desejada. Exemplo: 1) 4,55 = 3 algarismos significativos 2) 4,5500 = 5 algarismos significativos 3) 0,00015 = 1,5 x 10-4 = 2 algarismos significativos 4) 0,0001500 = 1,500 x 10-4 = 4 algarismos significativos Os nmeros que resultam de enumeraes ou de contagens, ao contrrio das medies, so exatos, logo tem uma quantidade ilimitada de algarismos significativos.

EXATIDO (ACURCIA) DE MEDIO: Grau de concordncia entre o resultado de uma medio e um valor verdadeiro do mensurando. PRECISO DE MEDIO: Grau de concordncia entre resultados de medio obtidos sob as mesmas condies (repetitividade). O termo no est sendo mais usado em metrologia. Ambos os termos so um conceito qualitativo. Preciso instrumental: representa o nmero de dgitos aps a vrgula. Exemplo: 8 1 mL (proveta graduada grande) 8,0 0,1 mL (proveta graduada pequena) 8,00 0,01 mL (bureta) Nos textos comum escrever simplesmente: 8 ml; 8,0 mL; 8,00 mL, pois fica implcito que h uma incerteza de uma unidade no ltimo dgito (1 mL; 0,1 mL; 0,01 mL).

14

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

O mtodo pelo qual indicado o grau de confiana numa medida freqentemente descrito em termos de algarismos significativos. Logo, em 8,00 mL h trs algarismos significativos. Cada um dos trs dgitos em 8,00 tem significado experimental. Assim h dois algarismos significativos em 8,0 mL e um algarismo significativo em 8 mL.

Como se determina os algarismos significativos: 1) Todos os dgitos diferentes de zero so significativos. H trs algarismos significativos em 5,37cm e quatro em 4,293 cm. 2) Zeros entre dgitos diferentes de zero so significativos. H trs algarismos significativos em 106 g ou em 1,02 g. 3) Zeros alm da vrgula decimal no final de um nmero so significativos. Como indicado acima, h dois algarismos significativos em 8,0 mL e trs em 8,00 mL. 4) Zeros que precedem o primeiro dgito diferente de zero em um nmero no so significativos. Numa medida de massa de 0,002 g h apenas um algarismo significativo - o "2" no final. Os zeros servem apenas para fixar a posio da vrgula decimal, ficando evidenciado quando expressamos a massa com notao exponencial (cientfica), ento tem-se: 0,002 g como 2 x 10-3 g. 5) Outros zeros a direita sero significativos dependendo do histrico do nmero.

Clculos para propagao da incerteza:

A incerteza relativa do resultado no pode ser menor que a menor incerteza relativa dos dados. a) Adio ou subtrao Exemplo: 5,852 + 45,3587 = 51,2107=51,211
15

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

b) Diviso e multiplicao Exemplo: Qual a molaridade de 25,0 mL de HCl 0,0887 molar, quando for diludo em um balo de 100mL, classe A. M1 V1 = M2 V2 M2 = 25 mL x 0,0887 mmol.mL-1 / 100,00mL M2 = 0,022175 Clculo da incerteza relativa: IR = IA / VA, onde: IR = Incerteza relativa IA = Incerteza absoluta VA = Valor absoluto IR (25,0) = 0,1/ 25,0 = 0,004 x 10-3 = 4ppt (partes por mil) IR (0,0887) = 0,0001/ 0,0887 = 1,12ppt IR (100,00) = 0,01/ 100,00 = 0,1ppt Qual o valor para expressar resultado: M2 = 0,02 M2 = 0,02217 M2 = 0,0222 M2 = 0,022175 IR (0,02) = 500ppt IR (0,02217) = 0,45ppt IR (0,0222) = 4,5ppt IR (0,022175) = 0,045ppt esta incerteza no pode

ser dada porque ela no pode ser inferior a certeza do balo.

Coleta de dados (Tipos de Pesquisa) Mtodos de coletas de dados: 1) Estudo observacional Pesquisa de levantamento de dados (Survey) Os dados so coletados medida que vo sendo observados ou por meio da anlise dos registros histricos disponveis.
16

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

2) Delineamento de experimento O experimento planejado para observao dos fenmenos estudados, onde as variveis de entrada so controlveis e os dados de sada so medidos para avaliao e concluses sobre as relaes de causa e efeito.

Coleta de dados

- Definir populao ou amostra - Dados primrios coletados diretamente. - Dados secundrios buscar fontes, referncias. - Definir as variveis 1) Quantitativa: exemplo n peas produzidas 2) Qualitativa: exemplo aprovada ou rejeitada - Organizar (codificar) - Apresentao dos dados a) Organizar cada varivel isoladamente (anlise univariada) Facilita identificar a variabilidade dos dados, descrever a amostra e verificar suposies, previamente. b) Distribuio de frequncias (escalas nominais e ordinais) c) Representao tabular e grfica Grfica Dados categorizados: Grfico de barras Grfico de setores Grfico de barras mltiplas Dados quantitativos: Diagrama de pontos Histogramas Polgonos de frequncias Ramo e folhas

17

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

- Listar as categorias - Listar a freqncia para cada categoria - Percentagens Distribuio de freqncias 1. Acumulada A frequncia total de todos os valores inferiores ao limite superior de um dado intervalo de classe chamada de frequncia acumulada, incluindo o prprio intervalo. Exemplo: Altura (cm) 151 158 159 166 167 174 175 182 183 190 N de alunos 5 18 42 27 8

A frequncia acumulada do intervalo de alunos com altura de 167 a 174 : 5 + 18 + 42 = 65 Significando que 65 estudantes tm alturas inferiores a 174,5 cm. 2. Relativa A frequncia relativa de uma classe a frequncia da classe dividida pelo total de todas as classes, geralmente expressa em percentagem. No exemplo acima 42 %. Tipos de curvas de freqncia a) Simtrica (forma de sino) So aquelas em que as observaes equidistantes do ponto central mximo tem a mesma frequncia.
18

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

b) Assimtrica ou desviada A cauda da curva de um lado da ordenada mxima mais longa que do outro. Se for do lado direito chama-se desviada a direita ou assimetria positiva, caso contrrio assimetria negativa. c) Curva em formato J ou J invertido O ponto da ordenada mxima ocorre em uma das extremidades. d) Curva em formato U Tem ordenadas mximas em ambas as extremidades. e) Curva bimodal A curva possui dois mximos. f) Multimodal A curva possui mais de dois mximos.

19

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

Exemplo: peas com defeito (dados categorizados) Cdigo: 1 Sem defeito 2 Tolervel 3 Defeituosa Resultados: 33223133322122323333 33322313233231113333

- Representao tabular e grfica Tabular Categoria 1 Sem defeito 2 Tolervel 3 Defeituosa Total Frequncia 6 11 23 40 Percentagem 15,0 27,5 57,5 100,0

Grfico de barras

Representam-se os valores da varivel no eixo das abscissas e suas as freqncias ou % no eixo das ordenadas. Pode ser para as variveis qualitativas ordinais ou quantitativas discretas.

Diagrama Circular (pizza ou setores)

Este tipo de grfico adapta-se muito bem para as variveis qualitativas nominais.

20

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

Grfico de barras

Categoria

12

15

18

21

24

27

Frequncia

Grfico de setores

1 2 23 11 3

21

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

Histograma

Constitui-se de retngulos contguos baseado nas faixas de valores da varivel e com rea igual freqncia relativa da respectiva faixa. Assim, a altura de cada retngulo chamada de densidade de freqncia ou simplesmente densidade. Polgono de freqncias Semelhante ao histograma, mas construdo a partir dos pontos mdios das classes. Distribuio de frequncias (escalas intervalares ou razes): Exemplo: N de pessoas residentes no domiclio considerando uma amostra de 40 residncias do bairro A. Dados: 4 4 4 5 4 1 2 3 6 4 6 4 4 6 3 5 3 4 4 4 55548453455252683553 Tabular N de Pessoas Frequncia de Residncias 1 2 3 4 5 6 7 8 Total 1 3 6 13 11 4 0 2 40 2,5 7,5 15,0 32,5 27,5 10,0 0,0 5,0 100,0
22

Percentagem

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

Histograma
14 Frequncia de residncias 12 10 8 Srie1 6 4 2 0 1 2 3 4 5 6 7 8 No. de pessoas residentes

Polgono de freqncias

14 12 10 F re q u n c i a 8 6 4 2 0 1 2 3 4 5 6 7 8 No. pessoas
23

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

Ramos e folhas utilizado para pequena quantidade de dados (<100), fornecendo a distribuio de frequncia e preservando a magnitude dos valores. Os dados so colocados em ordem crescente. Exemplo: Taxa de rejeito por mquina (injetora) Dados 32,3; 62,2; 10,3; 22,0; 13,1; 9,9; 11,9; 20,0; 36,4; 23,5; 18,0; 22,6; 20,3; 38,3; 19,6; 27,2; 28,9; 18,4; 27,3; 21,7; 23,7; 13,9; 36,3; 32,9; 29,7; 25,4; 23,8; 15,7; 17,0; 39,2; 22,7; 29,9; 18,3; 33,0 Reescrevendo com os algarismos mais relevantes. 32; 62; 10; 22; 13; 9; 11; 20; 36; 23; 18; 22; 20; 38; 19; 27; 28; 18; 27; 21; 23; 13; 36; 32; 29; 25; 23; 15; 17; 39; 22; 29; 18; 33

1) O 1. algarismo colocado do lado esquerdo do trao, formando ramos. 2) O 2. algarismo colocado do lado direito do trao, formando as folhas.

24

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

0-9 10318983578 2203207871395329 32686293 4562

0-9 10133578889 2001222333577899 32236689 456-2 Unidade = 1 0 9 representa 9 62 discrepante Retirando os valores discrepantes e duplicando n de ramos. 0 -9 1* 0 1 3 3 1** - 5 7 8 8 8 9 2* 0 0 1 2 2 2 3 3 3 2 ** 5 7 7 8 9 9 3* 2 2 3 3 ** 6 6 8 9
25
.

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

MEDIDAS DA TENDNCIA CENTRAL

A mdia um valor caracterstico ou representativo de um conjunto de dados. Como esse valor (mdia) tende a se localizar num ponto central, dentro do conjunto de dados, ordenados por ordem de grandeza, so chamados de medidas de tendncia central. Mdia aritmtica:

Logo:

Exemplo: 10, 15, 20, 42 X = 21,75 Mediana: A mediana de um conjunto de valores, ordenados em ordem de grandeza, o valor mdio ou a mdia aritmtica dos dois valores centrais.

Exemplo 1: 3,4,4,5,6,8,8,8,10 Mediana = 6 Exemplo 2: 5,5,7,9,11,12,15,18 Mediana = 9+11=20/2=10

26

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

Moda: A moda de um conjunto de valores aquele que ocorre com maior freqncia (o valor mais comum). A moda pode no existir e se houver pode no nica. Exemplo1: 2,2,5,7,9,9,9,10,10,11,12,18 Moda = 9 (unimodal) Exemplo2: 4,6,10,15,20 Moda = no h Exemplo 3: 2,3,5,5,5,5,5,9,10,11,11,11,11,23,28 Moda = 5 e 11 (nesse caso se chama bimodal)

MEDIDAS DE DISPERSO

Disperso ou variao o grau em que os dados tendem a dispersar-se em torno de um valor mdio. Amplitude total: a diferena entre o maior e o menor valor do conjunto de dados. Exemplo: 10, 25, 30, 30, 45, 25, 10, 12 Amplitude total: 10 45 Desvio mdio: num conjunto de N nmeros X1+ X2 + X3 + ...+ XN definido por:

Mdia = 10 + 25 + 30 +30+45 +25 +10 +12/8 = 23,375 D.M = (10-23,375) + (2523,375)+(30-23,375)+(30-23,375)+(45 23,375)+(25-23,375)+(1023,375)+(12 23,375)
27

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

Considere em mdulo: D.M. = |13,375|+|1,625|+|6,625|+ |6,625|+ |21,625|+ |1,625|+ |-13,375|+ |11,375| / 8 = 76,25/8=9,53 Varincia: a mdia aritmtica dos desvios quadrticos.

S2 = 130,98 Desvio padro: No conjunto de dados X1+ X2 + X3 + ...+ XN dado por S (populao) e calculado por:

Exemplo: S=11,44 Varincia da amostra:

Desvio padro da amostra:

28

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

Exemplo: Notas dos alunos: 4 5 5 6 6 7 7 8 Mdia: 6 Desvios em relao a mdia: -2 -1 -1 0 0 1 1 2 Desvios quadrticos: 4 1 1 0 0 1 1 4 S2 = (4+1+1+0+0+1+1+4)/(8-1)=1,71 S = 1,31 Coeficiente de Variao (CV)

definido como o quociente entre o desvio padro e a mdia. Geralmente expresso em percentual.

O CV uma medida adimensional e possibilita comparar resultados com unidades de medidas diferentes. Quando a mdia prxima a zero a comparao fica prejudicada. Exemplo: Experimento 1: mdia= 5,15 e s= 0,08 Experimento 2: mdia= 13,8 e s= 1,5 Qual o mais preciso? CV= 1,55 CV= 10,87 PROBABILIDADE:

Conceito: o estudo da aleatoriedade e da incerteza. Espao Amostral (S ou )

O espao amostral S associado a um dado experimento o conjunto de dados das possveis ocorrncias de um experimento aleatrio.
29

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

Experimento aleatrio: um experimento que pode fornecer resultados diferentes, mesmo que repetido toda vez da mesma maneira.

PROBABILIDADE

o estudo da aleatoriedade e da incerteza.

Espao Amostral (S ou

O espao amostral S associado a um dado experimento o conjunto de dados das possveis ocorrncias de um experimento aleatrio.

Experimento aleatrio: um experimento que pode fornecer resultados diferentes, mesmo que repetido toda vez da mesma maneira. Evento todo e qualquer subconjunto de um espao amostral finito (experimento aleatrio). Evento simples: Constitui-se de um nico resultado. Evento composto: Consiste em mais de um resultado. Exemplo: Jogo de dados S = {1,2,3,4,5,6} A = {2,4,6} face par B = {1,3,5} face mpar C = {1} pode ocorrer s D = {7} ou {} evento impossvel

30

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

Teoria dos conjuntos

a)

Unio de dois eventos A e B A U B lida A unio B o

evento que se constitui em todos os resultados que esto no evento A ou B ou em ambos, isto , todos os resultados esto em pelo menos um dos eventos. b) Interseco dos dois eventos A e B AB lida A

interseco B o evento que se constitui de todos os resultados em ambos A e B. c) Complemento de um evento A, representado por A, o

conjunto de todos os resultados do espao amostral que no esto contidos em A. Exemplo: A = {0,1,2,3,4}, B = {3,4,5,6} e C= {1,3,5} AUB = {0,1,2,3,4,5,6} AB = {3,4} AUC = {0,1,2,3,4,5} AC = {1,3} A = {5,6} {AUC} = {6} Definio: A probabilidade de um evento (E) ocorrer (sucesso) de h maneiras diferentes, num total de n modos possveis dada por: p = Pr {E} = h/n h = n de ocorrncias favorveis ao evento para os quais pode ocorrer n = n de possveis ocorrncias do evento A no ocorrncia (insucesso) do evento dada por: q = Pr {no E} = (n-h)/n = 1 h/n = 1 = 1-Pr {E} Logo: p + q = 1 ou Pr {E}+ Pr {no E}= 1 O evento no E pode ser representado , ou ou ~E. 0 Pr {E}1
31

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

Exemplo: Num lance de dados pode ocorrer o n 3 ou 4. As possibilidades so 6: S = {1,2,3,4,5,6} No havendo vcio (dado honesto) podem existir 6 maneiras igualmente provveis. Logo: p = 2/6 = 1/3 ento: q = 1- p, assim q = 1- 1/3 = 2/3 Quando todos os elementos do espao amostral tem a mesma chance de acontecer, o espao amostral chamado de conjunto equiprovvel. Exemplos: 1) No lanamento de uma moeda qual a probabilidade de obter cara em um evento A ? S = {ca, co} = 2 A = {ca} = 1 P (A) = 1/2 = 0,5 = 50% 2) No lanamento de um dado qual a probabilidade de obter um nmero par em um evento A ? S = { 1, 2, 3, 4, 5, 6 } = 6 A = { 2, 4, 6 } = 3 P(A) = 3/6 = 0,5 = 50% Eventos independentes So considerados eventos independentes quando a ocorrncia de um deles no altera a probabilidade do outro. A probabilidade de dois eventos independentes ocorrerem simultaneamente o produto das probabilidades individuais.

Eventos Mutuamente Excludentes Dois ou mais eventos so mutuamente excludentes quando a realizao de um exclui a realizao do(s) outro(s). Exemplo: O evento "tirar cara" e o evento "tirar coroa".
32

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

Se dois eventos so mutuamente excludentes, a probabilidade de que um ou outro se realize igual soma das probabilidades de que cada um deles se realize: P(1 U 2) = P(1 ou 2) = P(1) + P(2)

Probabilidade condicional

Se um evento E1 e E2 so dois eventos, a probabilidade de E2 acontecer, depois de E1 ter acontecido, dada por Pr { E2\E1}, chama-se de probabilidade condicional de E2, aps E1 ter acontecido. Quando E1 afetar a probabilidade da ocorrncia de E2 chama-se de eventos dependentes. P (E2\ E1) = P(E1 E2)/ P(E1), sendo P(E1) 0 Exemplo: Em um cesto contendo 4 bolas brancas e 6 bolas vermelhas qual a probabilidade de: a) Em sorteios sucessivos com reposio de retirarmos uma bola branca

no primeiro sorteio? b) Em sorteios sucessivos com reposio de retirarmos uma bola branca

no segundo sorteio? c) Em sorteio simultneo sem reposio de retirarmos uma bola branca

no primeiro sorteio? d) Em sorteio simultneo sem reposio de retirarmos uma bola branca

no segundo sorteio? 3) Duas cartas de baralho, bem embaralhado, de 52 cartas. Qual a probabilidade de ambas serem ases, se a primeira for: a) Recolocada b) No recolocada

33

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

Resumo Axiomas da probabilidade: 1) P (E) = 1 2) P () = 0 3) P ( ) = 1 P (E) 4) P (E1 U E2) = P (E1) + P (E2) - P (E1 E2) se pelo menos um. 5) P (E1 E2) = P (E1) x P (E2) eventos independentes.

Distribuio de probabilidade discreta

Se uma varivel X pode assumir um conjunto discreto de valores X1, X2,..., Xk, com probabilidades p1, p2,..., pk, respectivamente, sendo p1 + p2 + ...+ pk=1, dizse que est definida uma distribuio de probabilidade discreta de X. A funo p(X) que assume os valores p1 + p2 + ...+ pk para X1, X2,..., Xk chama-se de funo de probabilidades ou freqncia de X. Como X pode assumir certos valores com dadas probabilidades denomina-se de varivel aleatria discreta ou casual ou estocstica. As distribuies de probabilidade podem ser consideradas uma forma terica ou de limite ideal de distribuies de frequncias relativas, quando o nmero de observaes elevado. Assim, pode-se considerar que as distribuies de probabilidade se referem a populaes, enquanto as distribuies de frequncias relativas representam amostras delas extradas.

34

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

Distribuio de probabilidade continuas

A varivel X analisada para a distribuio de probabilidade discreta pode assumir um conjunto de valores contnuos, logo o polgono de frequncias relativas de uma amostra torna-se, no caso terico ou limite de uma populao, uma curva contnua. A equao da curva: Y = p (X). A rea total limitada por essa curva e pelos eixos dos X igual a 1, sendo que a rea compreendida entre as verticais X = a e X = b d a probabilidade de X estar no intervalo a e b assim formulado: P {a < X < b} A funo p (X) chama-se de funo de densidade de probabilidade. Representao: representada por uma funo, no negativa com a rea formada entre os eixos das abscissas e a curva dessa funo igual a 1.

35

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

Exemplo 1: Medidas de ngulos.

Considere-se o crculo trigonomtrico, medidas dos ngulos em graus, a partir de uma data origem. Se o deslocamento se der no sentido anti-horrio. Sendo X a varivel que indica o ponto em que ponteiro pra ( aleatria continua, porque existem infinitos pontos entre 0 e 360). Qual a probabilidade de X assumir um valor entre 0 e 90? 0 X < 90

P (0 X < 90) =

36

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

Exemplo 2: Faixas de estaturas. razovel supor que todas as pessoas tenham a mesma altura numa curva de distribuio? Ou seja, a curva uma constante? - 190 a 200 cm - 165 a 175 cm mais provvel

Qual o modelo para essa situao? Distribuio normal de probabilidade.

Qual a probabilidade de uma pessoa ter mais de 180 cm?

Definio: Seja x uma varivel aleatria continua definida no conjunto dos nmeros reais. Se a varivel apresentar uma f.d.p. dada por:

37

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559
2

Ento x tem distribuio normal com parmetros = mdia e = varincia A rea da curva :

Curva normal reduzida

Para facilitar a obteno da rea sob a curva normal transforma-se a varivel com mdia zero e desvio padro 1. Z = (x - )/ Z um valor padronizado.

Para a estatura x = 180 cm Com = 170 e = 10 Z= 180 -170/10 =1 ento P (x > 180) = P (z > 1) = 0,1587 ou 15,87%

38

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

39

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

TESTES ESTATSTICOS

O teste estatstico d ao pesquisador condies de fazer inferncias. Assim pode-se afirmar com base no teste, que a mdia de um experimento A diferente de um experimento B para a amostra. Ento, pode-se concluir que resultados similares ao da amostra provavelmente sero os mesmos da populao, em determinado nvel de significncia. O que significncia? Em estatstica significncia sinnimo de muito provvel que um resultado similar ao que foi obtido na amostra possa ser verificado para toda a populao se essa tivesse sido avaliada. Porm, muito provvel no significa certamente. Logo, todo teste estatstico est associado h algum tipo de erro. A probabilidade da ocorrncia de erro o nvel de significncia. Os testes estatsticos servem para testar hipteses no que diz respeito populao. Hiptese estatstica: uma suposio, alegao ou afirmao sobre o valor de um nico parmetro (caracterstica de uma populao ou caracterstica de uma distribuio de probabilidade) sobre os valores de vrios parmetros ou sobre a forma de uma distribuio de probabilidade inteira. Exemplo: Uma matria-prima nova B analisada para determinao do teor de umidade, sendo que das vrias amostras calculada a mdia que comparada com outra j aprovada e em uso A pela mesma metodologia. O tcnico pode fazer duas suposies: a primeira de que a mdia do teor de umidade da matria-prima B igual a da A, no s da amostra. Esta hiptese denomina-se de hiptese de nulidade e indica-se por H0. H0 = as mdias so iguais.

40

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

A segunda suposio de que as mdias das matrias-primas A e B, no s das amostras, diferente. A essa hiptese denominamos de hiptese alternativa e indica-se por H1. H1 = as mdias so diferentes. Para decidir por uma das hipteses o tcnico submete seus dados a um teste estatstico. Se escolher por uma das hipteses pode estar cometendo um erro. Porm, ele no sabe, quando est tomando a deciso se est ou no cometendo erro. A isso a estatstica chama de nvel de significncia do teste e indicado pela letra grega , logo o nvel significncia a probabilidade de rejeitar H0, quando H0 verdadeira. A escolha de arbitrria. Resumindo: H0 Hiptese de trabalho de nulidade - descrita em termo de parmetros populacionais. - uma negao daquilo que se quer provar. - Apresentada em termos de igualdade de parmetros populacionais. H1 Hiptese alternativa - aquilo que o pesquisador que provar. - a prpria hiptese da pesquisa. - Apresentada em termos de desigualdades de parmetros populacionais. Quando os dados mostrarem evidncia suficiente de que a hiptese H0 falsa, o teste a rejeita, aceitando em seu lugar a chamada hiptese alternativa, H1. Assim, o teste de hiptese um mtodo que usa os dados da amostra para decidir se a hiptese de nulidade deve ser descartada.

41

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

Probabilidade de significncia ou valor p

a probabilidade da estatstica de um teste acusar um resultado tanto ou mais distante do esperado. O valor p demonstra o quanto estranho o resultado observado na amostra comparado a H0. Assim quanto menor o valor de p maior a evidncia para rejeitar H0. O p tambm indica o risco de se tomar a deciso errada, caso se rejeite H0. Regra geral para deciso de um teste estatstico: p > aceita H0 p rejeita H0

Erros do tipo I e II

Se uma hiptese for rejeitada quando deveria ser aceita (H0 verdadeira), temos erro do tipo I, portanto conclui-se que existe algum tipo de efeito quando, na verdade, no existe. Porm, se for aceita uma hiptese que deveria rejeitada (H0 falsa) temos um erro do tipo II, logo se conclui que no h efeito quando na verdade existe. Sumarizando: o valor p ou nvel de significncia observado o menor nvel de significncia em que H0 seria rejeitada.

Teoria das Pequenas Amostras

Quando o tamanho da amostra maior que 30 (n>30) denominamos-se de grandes amostras. As distribuies amostrais de diversas estatsticas so aproximadamente normais, no entanto quanto maior o n melhor a aproximao. Logo, para n<30, denominadas de pequenas amostras, aproximao a normal fica prejudicada.

42

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

Assim, para distribuies amostrais menores do que 30 aplica-se a chamada teoria das pequenas amostras ou teoria exata da amostragem, porque os resultados so vlidos tanto para as pequenas, quanto para as grandes amostras. Quando n pequeno, S provavelmente no est prximo de , sendo que a variabilidade na distribuio Z se deve a aleatoriedade do numerador e do denominador, ento a probabilidade de:

ser mais dispersa que a distribuio normal padronizada. Se uma varivel aleatria X, normalmente distribuda em uma populao, sendo o desvio padro desconhecido () pode-se comparar a mdia amostral X com a mdia da populao (), empregando s no lugar de por meio da estatstica t. A famlia de distribuies de probabilidade resultante chamada de distribuio t com n-1 graus de liberdade (gl).

Distribuio de Student t

A estatstica definida por:

43

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

GRAUS DE LIBERDADE Graus de liberdade (gl) um parmetro da distribuio t que pode ser qualquer nmero real maior que zero. Determinando-se o gl define-se uma condio particular da famlia de distribuies t. Uma distribuio t com um gl menor tem mais rea nas caudas da distribuio que uma distribuio com um gl maior. Quanto menor o nmero de gl, mais aplainada (platicrtica) a forma da distribuio, resultando em maior rea nas caudas da distribuio.

Tabela dos valores de Zc

Limite de confiana Zc

99,73

99

98

96

95,45

95

90

80

68,27

50

3,00

2,58 2,33 2,05

2,00

1,96 1,645 1,28

1,00

0,6745

44

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

Resumo das propriedades das distribuies t:

- Cada curva t possui forma de sino com mdia zero; - Toda curva t tem maior disperso que a curva normal padronizada Z; - Na medida em que aumenta a disperso da curva t correspondente diminui e - Na medida em que t a sequncia das curvas t se aproxima da curva normal padronizada, isto , pode-se chamar a curva Z de curva t com gl = .

Valor crtico (t, ):

o nmero no eixo da abscissa para o qual a rea sob a curva t com gl direita de t, . Exemplo: Seja t0,05, 15, verifica-se a coluna = 0,05 e procura-se a linha = 15, onde encontra-se o valor correspondente de 1,753.

Erro ou variabilidade amostral a diferena entre a estimativa da estatstica (amostra) e o parmetro (populao). Efeito do azar: Na noo de amostra deve-se ter presente que pode-se perder algo da populao da qual foi retirada, logo pode no representar a populao. Para minimizar o efeito do azar as estimativas so sempre feitas em termos de um certo nvel de confiana ().
45

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

Intervalo de confiana O intervalo de confiana de 100 (1 - ) % para :

Tabela resumo para avaliao da mdia de uma populao Anexo I.

Exemplo 1: Desejando verificar a eficcia de um programa de preveno de acidentes de trabalho o ministrio do trabalho implementou o programa em 10 empresas, randomicamente. Os dados de reduo de acidentes so os seguintes:

Empresa

Reduo de acidentes (%)

A B C D E F G H I J Mdia (x) SD (s)

20 15 23 11 29 5 20 22 18 17 18 6,65
46

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

Qual o objetivo da pesquisa? Estimar parmetro, isto , extrapolar os dados da amostra (empresas analisadas) para a populao (todas as empresas). Resoluo: Erro padro da mdia:

Sx = 6,65/10 = 2,10 t (tabelado com = 0,05) = 2,262 = 18 2,262 x 2,10 = 4,75 4,8 = 18 4,8 %

47

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

DELINEAMENTOS DE EXPERIMENTOS

Para planejar um experimento necessrio definir a unidade experimental e a varivel a ser analisada. Tambm importante definir o tipo de tratamento em
48

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

comparao e a maneira de designar os tratamentos. Em determinadas situaes no interessante o tratamento por processo aleatrio.

Experimentos inteiramente ao acaso

S podem ser efetuados quando as unidades estudadas so similares. Similares implica dizer que necessariamente no precisam ser iguais. Devem ter caractersticas comuns que os enquadrem no mesmo grupo. Exemplo: Avaliao das propriedades mecnicas de uma pea injetada. Elas podero ter cores diferentes, porm devero ter sado na mesma mquina, com o mesmo material e com as mesmas condies de processamento, porm alterando-se um parmetro a cada vez. Outro exemplo um remdio sendo ministrado a um grupo de pessoas de mesmo sexo, peso e que no incio do teste tenham uma variao bastante baixa. O tratamento nesse tipo de experimento comum o mesmo nmero de repeties.

49

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

Experimentos inteiramente ao acaso com nmero diferente de repeties

Pode-se adotar dois tipos de procedimento: a) Dividir a amostra em grupos de tamanho iguais e descartar as amostras que excedem, quando so nmeros mpares. b) Utilizar um grupo de controle de tamanho maior, porque dependendo do estudo precisa-se fazer mais repeties.

Experimentos Fatoriais

So empregados quando se deseja analisar os efeitos de dois ou mais tipos de tratamentos no mesmo experimento. Os tratamentos so denominados de fatores e o experimento chama-se de fatorial. Exemplo: O efeito da temperatura e da concentrao de certa substncia na velocidade de uma reao qumica. Os fatores so temperatura e concentrao. Pode-se ter diferentes categorias para um fator, que se chama de nveis. No exemplo pode-se ter temperaturas de 20 e 25C e duas concentraes 30 e 40 ppm. Os experimentos fatoriais facilitam o estudo das interaes entre fatores. Tipos de experimentos fatoriais: 2 x 2, 3 x 3.
50

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

Dentro das etapas da pesquisa: 1) Formula-se uma pergunta ou hiptese da pesquisa. 2) Planeja-se a coleta dos dados e um teste paramtrico. Testes estatsticos: - Dados quantitativos: as hipteses so apresentadas em termos de mdias. - Dados qualitativos: as hipteses so apresentadas em termos de propores ou probabilidade de eventos. Quadro dos testes estatsticos para dados contnuos
Amostra nica Teste t (para uma amostra) Teste dos sinais Teste t para dados pareados Dados pareados Teste dos sinais Teste dos sinais de Wilcoxon Teste t para amostras independentes Dados independentes (2 grupos) Teste U de Mann-Whitney Teste de Wilcoxon para soma de postos Anlise de varincia (ANOVA) Teste de post-hoc Dados independentes (mais de 2 grupos) Variao entre grupos Variao no grupo Teste de Kruskall-Wallis Idem Idem Idem No paramtrico No paramtricos Idem Paramtrico Paramtrico No paramtricos Idem Paramtricos Paramtrico

51

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

Anlise de varincia One Way (ANOVA)

A anlise da varincia ou ANOVA um teste de hipteses de mdias de duas ou mais populaes numricas (distribuies) ou dados de experimentos em que se emprega mais de dois tratamentos. um procedimento muito til para comparar. A comparao entre mais de dois grupos pode ser feita com sucessivas comparaes pelo teste t independente, contudo aumenta a possibilidade do erro do tipo II.

52

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

O objetivo da anlise varincia verificar se as amostras foram retiradas de populaes com o mesmo valor de mdia. Se as mdias forem diferentes entre si deve-se perguntar: por qu as mdias da amostras so diferentes? Pode-se dividir a variabilidade total em dois grupos ou fontes de variabilidade: a) O primeiro grupo de variabilidade se deve as populaes ser

realmente diferentes e se chama variabilidade entre grupos. Quanto maior a variabilidade entre grupos maior a evidncia de que haja diferenas entre as populaes das quais originaram as amostras. b) O segundo grupo de variabilidade resultado das diferenas

dentro de cada amostra e se chama variabilidade dentro do grupo. Quanto maior a variabilidade dentro do grupo maior a dificuldade para concluir que as populaes sejam diferentes. Premissas da anlise da varincia: - As populaes tm a mesma varincia. - As amostras so retiradas de populaes com distribuio normal. - As amostras so aleatrias e independentes.

O teste de hiptese o seguinte: - A hiptese de nulidade H0 afirma que as k populaes tem a mesma mdia. - A hiptese alternativa H1 diz que nem todas as mdias das k populaes so iguais, pelo menos duas mdias so diferentes. O poder do teste reflete a probabilidade de rejeitar a hiptese de nulidade, quando esta falsa, sendo geralmente expresso em percentagem.

53

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

Fatores que influem no poder do teste: - Tamanho da amostra O poder do teste aumento com o tamanho da amostra. - Variabilidade das observaes O poder do teste aumenta quanto menor a disperso das observaes. - Nvel de significncia O poder do teste aumenta, quando o nvel de significncia maior. Por exemplo, a possibilidade de se detectar um efeito real aumenta, quando se adota um nvel de significncia em 5%, em comparao a um nvel de 1%. Do ponto de vista prtico, na medida em que aumenta o tamanho da amostra possvel adotar nvel de significncia menor para observar o mesmo efeito desejado.Ver grfico abaixo:

54

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

A questo da normalidade

Para avaliar se os dados coletados tm distribuio normal com mdia zero o pesquisador deve fazer uma anlise do que se chama de anlise dos resduos (erros). Calcular os resduos: e = x x e representar os resduos em um grfico. Este procedimento tem o inconveniente de ser grfico, no possibilita associar a um nvel de probabilidade de que a distribuio dos erros no normal. A pressuposio de normalidade pode ser transformada em hiptese e pode ser testada. Os testes desse tipo chamam-se de testes de aderncia, sendo os mais conhecidos os de 2, Kolmogorov-Smirnov, e o de Shapiro-Wilks. Quando a anlise dos resduos revela uma distribuio muito diferente da normal, deve-se investigar a causa dos valores discrepantes. Muitas vezes, so devido a erros na coleta das informaes. Na disciplina ser abordado o teste F que bastante robusto, isto , pequenas transgresses a pressuposio de normalidade de que os erros tm distribuio normal so comuns e no afetam de modo significativo, os resultados.

55

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

Distribuio F

F0 = Fator observado S2b = Varincia entre S2w = Varincia dentro Exemplo:

Para comparar a produtividade de quatro variedades de milho, um engenheiro agrnomo selecionou vinte mudas similares e plantou a variedade A em cinco canteiros, a variedade B em outros cinco canteiros e assim sucessivamente at completar as vinte mudas. A seleo das variedades das mudas foi por sorteio. O experimento foi feito com 5 repeties. A produo de cada muda para as diversas variedades est representada abaixo:
56

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

Produo de milho em kg/100m2 Variedades A 25 26 20 23 21 Mdia 23 B 31 25 28 27 24 27 C 22 26 28 25 29 26 D 33 29 31 34 28 31

Variveis: - A produo pode ser diferente na mesma variedade devido a fatores no controlados: qualidade da semente, posio da semente no solo, exposio ao vento, etc... - Entre variedades diferentes pode ser atribuda tanto a fatores aleatrios como a resultado mesmo de variao de produtividade diferente em funo da variedade. A questo : qual a diferena entre as mdias de produo ser suficientemente grande para evidenciar que essas variedades tem produtividades estatisticamente diferentes? Anlise de varincia

A comparao ser entre a variao devido aos tratamentos (variedades) com a variao devido ao acaso (erro ou tambm chamado de resduo).

57

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

Clculos

Notao convencionada: T = Somatrio total dos totais de cada tratamento (x) k Tratamento r repeties Graus de liberdade: de tratamento: k -1 do total: n-1, com n = kr do resduo: (n-1) - (k-1) = n-k O valor C (correo) a soma do total das observaes elevada ao quadrado e dividido pelo nmero de observaes. C = (x)2/ n A soma de quadrados total: SQT = x2 - C A soma de quadrados de tratamentos: SQTr = (T2 / r) - C A soma de quadrados de resduo: SQR = SQT - SQTr O quadrado mdio de tratamentos: QMTr = SQTr / k-1 Quadrado mdio de resduo: QMR = SQR / n-k O valor de F: F = QMTr / QMR

58

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

Ver apndice I: teste de normalidade. Ver apndice II: Teste Post Hoc de Scheff para a produtividade

59

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

60

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

Uso do Excel (exemplo das variedades)


61

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

Passo a passo para o clculo da ANOVA fator nico - Abrir planilha Excel; - Ferramentas; - Suplementos; - Na janela aberta marcar: ferramentas de anlise; - Depois de instalado o pacote de ferramentas de anlise; - Volte no cone ferramentas; - Abra "anlise de dados"; - Na janela selecione: ANOVA fator nico; - Na janela aberta: clique em "intervalo de entrada"; - Com o mouse selecione o intervalo de dados (agrupado por colunas); - Escolha o alfa desejado (0,05); - No cone opes de sada escolha uma das opes; - Clique em "OK";

Concluso: Quando o Fo (observado/calculado) menor ou igual ao Fc (crtico/tabelado) a hiptese Ho verdadeira. Quando o Fo (observado/calculado) maior ao Fc (crtico/tabelado) a hiptese Ho recusada, adotando a hiptese alternativa H1.

Relao entre variveis

A correlao uma medida estatstica, a qual indica o grau de associao entre duas sries de dados, isto , determina medida que, conhecendo-se uma varivel, se possam fazer previses a respeito de outra.

62

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

Ver tabela para escolha do tipo de coeficiente em funo da escala de medida Anexo II. O coeficiente por meio do qual se pode determinar a intensidade e o sentido da relao chamado de correlao linear simples ou correlao de Pearson, representado geralmente por r. O valor de r adimensional, somente indica o grau de proximidade entre os pares de observao. O intervalo vai de -1 (correlao perfeitamente negativa) a +1 (correlao perfeitamente positiva). O sinal expressa o sentido da relao, ou seja, o que ocorre com uma varivel, quando a outra sofre variao. Quando o r zero assume-se que no h relao entre as variveis.

importante destacar que o valor r vlido somente para a amplitude de variao de x e y, observada na amostra, portanto no se pode extrapolar o valor da correlao para outra amostra, visto que a amplitude de x e y poder ser diferente.
63

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

Outro aspecto de que rno reflete uma relao de causa e efeito, mostra apenas a existncia de uma relao linear entre o par bivariado.

Coeficiente de correlao linear simples (correlao de Pearson)

Quando que r no a medida de correlao adequada? - A relao entre as variveis no linear. - Existem possveis valores discrepantes no conjunto de dados sob anlise. - Os dados abrangem mais de uma observao da mesma varivel em cada amostra (medidas repetidas). - Os dados compreendem subgrupos.

64

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

Exemplo:
Caso 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 x 96,00 98,00 84,50 82,00 70,50 76,00 81,00 70,10 74,50 79,50 77,00 91,00 81,90 76,50 63,50 81,40 88,50 76,50 87,00 85,50 y 81,00 72,00 65,50 62,00 53,00 57,30 62,50 55,00 54,00 63,00 52,00 69,00 65,00 55,00 49,00 62,00 75,00 60,00 69,00 68,00

Considerando-se a hiptese de que o valor de r igual a zero, isto , no h relao entre as variveis. Calcular o valor de r? Se a mostra for grande (n>200) transforma-se o valor r em t de acordo com a equao: t = (n-2) / (1-r2), onde n o grau de liberdade. Como a amostra tem n < 200 usa-se a tabela de coeficiente de correlao de valores crticos numa prova bi-caudal com nvel de significncia = 0,05. r = 1.258,83 / 1.401,99 x 1.320,27 = 0,92

65

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

Uso do Excel

Passo a passo para o clculo da Correlao linear simples - Abrir planilha Excel; - Abra "anlise de dados"; - Na janela selecione: Correlao; - Na janela aberta: clique em "intervalo de entrada"; - Com o mouse selecione o intervalo de dados (agrupado por colunas); - No cone opes de sada escolha uma das opes; - Clique em "OK";

De acordo com a tabela de valores crticos no nvel de significncia 0,05, temos r = 0,4438 para o GL = 18. Assim, o r crtico inferior ao calculado, portanto h evidncia suficiente para rejeitar a hiptese de nulidade, concluindo-se que h relao entre as duas variveis. Regresso linear simples

O coeficiente de correlao no tem capacidade de explicar o comportamento de uma varivel em relao outra. Apenas informa sobre a magnitude e o sentido da relao entre elas. Na regresso linear simples assume-se que a maior parte das mudanas que podem correr com a varivel y depende das mudanas que acontecem em outra varivel x. O comportamento de dependncia de y em relao x pode ser representado e definido por uma linha entre essas variveis. A linha que representa a regresso de y sobre x chama-se de linha de regresso.

66

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

A regresso entre x e y mais elementar que se pode analisar a que h somente uma varivel dependente e outra independente por isso denomina-se regresso linear simples. Reta de regresso

representada pela equao: y = a + bx, onde y a varivel dependente (resposta ou resultado), x a varivel independente (preditora ou explanatria), a o valor de y, quando x = 0, sendo chamada a linha estimada de interceptao entre as variveis e b representa a inclinao da linha de interceptao, isto , indica quanto muda em y, quando varia os valores x. No modelo matemtico de reta ajustada se observa que: - Para um nico valor de x podem ocorrer um ou mais valores de y. - Existe apenas um y mdio calculado para cada de x, contudo h observaes que no so pontos da reta. - Para cada valor de x h uma diferena entre o valor observado e o valor mdio calculado para y. A essa diferena denominamos desvio ou resduo.

67

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

Alm do conceito de resduo temos como pressupostos: a) As variveis devem ser quantitativas em escala intervalar ou razo. b) As variveis x e y devem ter relao linear. c) Deve haver apenas um par de observaes para cada amostra. d) Os valores residuais devem ter a mesma variabilidade (varincia constante) para todos os valores ajustados de y. e) A varivel x deve ser determinada (mensurada) sem erro. Determinao dos coeficientes a e b:

68

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

Exemplo:
Caso 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 x 100,00 101,00 104,00 103,00 96,00 98,50 100,50 93,80 96,10 99,10 94,20 98,90 105,90 91,70 89,50 99,00 108,90 92,10 98,00 105,00 y 81,00 72,00 65,50 62,00 53,00 57,30 62,50 55,00 54,00 63,00 52,00 69,00 65,00 55,00 49,00 62,00 75,00 60,00 69,00 68,00

Uso do Excel Passo a passo para o clculo da Regresso - Abrir planilha Excel; - Abra "anlise de dados"; - Na janela selecione: Regresso; - Na janela aberta: clique em "intervalo y de entrada"; - Na janela aberta: clique em "intervalo x de entrada"; - Nvel de confiana alfa desejado (95%); - No cone opes de sada escolha uma das opes; - Nos cones sobre a anlise de resduos, clique naqueles de interesse; - Clique em "OK";
69

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

Anlise de Varincia e regresso

A Anova permite identificar proporo de variabilidade de y que pode ser explicada ou atribuda a regresso, assim como a variabilidade remanescente que se chama de erro residual ou variabilidade no esclarecida pela regresso. Quanto menor a variabilidade residual maior ser a proporo da variabilidade em y que explicada pela regresso, isto , mais prximos sero os pontos no diagrama de disperso em relao linha de regresso. Se a inclinao da linha de regresso zero, assume que no h relao linear entre x e y, ou seja, a variao em x no provoca efeito em y. Logo, a hiptese estatstica de nulidade, na regresso linear, se baseia em que a linha de regresso linear igual a zero (o valor b=0 na equao y= a +bx). Pode-se utilizar, basicamente, duas formas de testar essa hiptese: analisar o valor da estatstica F ou a distribuio t. Ser utilizado exemplo da tabela acima para o clculo do valor de F. Hipteses: H0 = inclinao da linha de regresso igual a zero (b=0). H1 = inclinao da linha de regresso diferente de zero (b0).

Concluso: y = -51,25+1,15x Fo = 17,34 Ftabelado = 0,0005 Como o Fo maior que o Ftabelado a evidncia suficiente para rejeitar a hiptese de nulidade que a inclinao da linha de regresso zero
70

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

ANEXO I

ANEXO II Tabela para escolha do tipo de coeficiente em funo da escala de medida

71

UNIVERSIDADE LUTERANA DO BRASIL REA DE TECNOLOGIA E COMPUTAO DISCIPLINA: Tratamento de Dados PROFESSOR: Wanderlei O. Gonsalez CDIGO: 503559

APNDICE I

APNDICE II Teste Post Hoc de Scheff para a produtividade Comparaes mltiplas Varivel dependente: Variedade x produtividade
Produtividade Variedade A B C D B A C D C A B D D A B C Probabilidade de Significncia 0,17 0,39 0,00 0,17 0,95 0,17 0,39 0,95 0,06 0,00 0,17 0,06

72

Potrebbero piacerti anche