Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
ESTATSTICA
RJ
Zentgraf, Roberto Z56f 2011. 132p.; 20x26 cm Inclui bibliograa 1. Aplicaes da Estatstica 2. Medidas Descritivas para uma Varivel 3. Probabilidades 4. Relao entre Variveis 5. Inferncia: intervalos de Conana I. Zentgraf, Roberto II. Ibmec Online III. Ttulo CDD: 311.2 Estatstica/ Roberto Zentgraf So Paulo: Grupo Ibmec Educacional,
RJ
Sumrio
ABERTURA DO CURSO ....................................................................... Carta ao aluno ......................................................................................... Currculo resumido do professor-autor .................................................... Introduo................................................................................................ Objetivos.................................................................................................. Diretrizes Pedaggicas............................................................................ MDULO 1: Aplicaes da Estatstica Unidade 1 - Conceitos Iniciais ................................................................. Unidade 2 - Utilizao de Dados ............................................................. Unidade 3 - Utilizao de Grcos .......................................................... Unidade 4 Utilizao de Ferramentas do Excel ................................... Resumo ................................................................................................... MDULO 2: Medidas Descritivas para Uma Varivel Unidade 1 - Tipos de Medidas Descritivas .............................................. Unidade 2 Varincia e Desvio-Padro ................................................. Unidade 3 Informaes Discrepantes .................................................. Unidade 4 Clculo de Indicadores para dados Agrupados .................. Unidade 5 Utilizao das Ferramentas do Excel .................................. Resumo ................................................................................................... MDULO 3: Probabilidades Unidade 1 - Denio e Abordagens....................................................... Unidade 2 - Combinao de Eventos ...................................................... Unidade 3 Variveis Aleatrias e Distribuies de Probabilidade .................................................................. Unidade 4 Valores Esperados, Varincias e Desvios-Padres ............
Copyright Ibmec
05 05 06 07 07 07
12 15 20 23 24
28 37 43 45 49 50
55 59 64 67
Unidade 5 - Modelos de Distribuio de Probabilidade..................... 69 Unidade 6 - Utilizao das Ferramentas do Excel ............................ 75 Resumo ............................................................................................. 76 MDULO 4: Relao Entre Variveis Unidade 1 - Coleta de Dados ............................................................ 81 Unidade 2 - Clculo de Covarincia .................................................. 83 Unidade 3 - Clculo do coeciente de correlao ............................. 87 Unidade 4 - Combinao de Variveis .............................................. 90 Unidade 5 - Clculo dos Parmetros da Regresso ......................... 92 Unidade 6 -Utilizao das Ferramentas do Excel ............................ 98 Resumo ............................................................................................. 99 MDULO 5: Inferncia: intervalos de Conana Unidade 1 - Conceitos Iniciais de Seleo de Amostras ................... 105 Unidade 2 - Distribuio Amostral ..................................................... 107 Unidade 3 - Construo do Intervalo de Conana .......................... 112 Unidade 4 - Outros Intervalos de Conana ..................................... 121 Unidade 5 - Utilizao das Ferramentas do Excel ............................ 126 Resumo ............................................................................................. 127 REFERNCIAS BIBLIOGRFICAS .................................................. 129
Copyright Ibmec
Abertura do Curso
Carta ao Aluno
Caro(a) aluno(a), O presente estudo apresentar de forma gradual e objetiva os principais fundamentos da Estatstica com exemplos prticos e atuais. o resultado de minha experincia em sala de aula de mais de 16 anos, em cursos de graduao e ps-graduao. Espero que voc, ao longo dos diversos mdulos, com o acompanhamento do seu professor online, ganhe conhecimento e segurana para lidar com as questes estatsticas do seu dia a dia, pessoal e prossional.
Copyright Ibmec
Copyright Ibmec
Introduo
O curso apresentar, de forma gradual e objetiva, os principais fundamentos da Estatstica e suas principais funes existentes, com exemplos prticos e atuais, resolvidos por meio de frmulas e por planilha Excel. Bem vindo ao curso de Estatstica!
Objetivos
Aps concluir o curso Estatstica, voc ser capaz de: Aplicar os principais fundamentos da Estatstica. Utilizar as funes estatsticas existentes no software EXCEL. Compreender a base terica para contedos mais avanados, como Inferncia Estatstica, Econometria, Pesquisa de Mercado, Anlise Multivariada etc. Avaliar situaes reais e casos prticos atravs do uso da Estatstica no processo de tomada de decises.
Diretrizes pedaggicas
Tenha sempre em mente que voc o principal agente de sua aprendizagem! Para um estudo ecaz, siga estas dicas: Organize o seu tempo e escolha o melhor horrio do dia para estudar. Consulte a bibliograa e o material de apoio caso tenha alguma dvida. Releia o contedo sempre que achar necessrio.
Copyright Ibmec
Introduo ao Mdulo
Este mdulo aborda a denio da estatstica, sua importncia e principais campos de atuao. Sero apresentadas idias bsicas para a compreenso e aplicao da estatstica no seu cotidiano.
Objetivos
Denir Estatstica, sua importncia e principais campos de atuao; Diferenciar uma populao de uma amostra; Diferenciar entre a Estatstica Descritiva e a Inferencial; Identicar os tipos de dados e seus nveis de informao; Trabalhar com conjunto de dados e deles extrair grande quantidade de informaes, atravs de sua classicao e/ou montagem de Distribuies de Frequncias; Identicar os principais tipos de grcos utilizados pela Estatstica; Filtrar informaes incorretamente veiculadas atravs de grcos; Resolver problemas utilizando o EXCEL.
Estrutura do Mdulo
Unidade 1 - Conceitos iniciais Unidade 2 - Utilizao de dados Unidade 3 - Utilizao de grcos Unidade 4 - Utilizao de ferramentas do EXCEL
Copyright Ibmec
11
Pesquisas de opinio: No jornal de hoje, uma pesquisa do IBOPE revela que, no horrio nobre, 60% dos televisores estiveram sintonizados na Rede Globo (...) ndices comparativos: Um estudo revela que, enquanto nas naes desenvolvidas o ndice de desperdcio na construo civil de cerca de 5%, no Brasil desperdia-se 20% aproximadamente (...) Anlises de mercado: Revista especializada em Finanas revela que, nos ltimos 6 meses, as aes que mais se valorizaram foram as de empresas ligadas gerao e distribuio de energia eltrica e de telecomunicaes (...)
12
Copyright Ibmec
Poltica: As pesquisas realizadas antes das eleies permitem aos candidatos a reviso de suas estratgias na campanha. Anlise de Investimentos: Antes de comprar e/ou vender uma ao, o administrador de um Fundo de Penso analisa parmetros estatsticos como resultados anteriores, mdias, projees, desvios-padres, correlao com o mercado etc.
Nas situaes descritas, as decises tomadas com base nos insumos estatsticos sero consideradas duvidosas, j que no necessariamente essas previses se concretizaro. Um dos objetivos da Estatstica mensurar tal incerteza, reduzindo as possibilidades de erro e, consequentemente, estabelecendo parmetros de conabilidade.
Populao e Amostra
Nos estudos estatsticos, uma populao, tambm chamada de Universo, pode ser denida como o grupo ou conjunto de indivduos no qual ser realizada a coleta, apresentao e anlise de dados. J a amostra denida como uma parte ou subconjunto da populao. Veja os exemplos na tabela abaixo.
POPULAO A Os brasileiros que votaram nas ltimas A1 eleies. A2 As peas produzidas em determinado setor B1 de uma indstria na semana passada. B2 Os gastos efetuados pelos consumidores em uma lanchonete no perodo de um ano. C1 C2 AMOSTRA Os eleitores maiores de 40 anos. 1000 eleitores selecionados aleatoriamente. As peas produzidas na 6 feira. 20 peas escolhidas aleatoriamente. As despesas feitas por estudantes do ensino mdio. As despesas feitas por consumidores selecionados aleatoriamente.
Na prtica, os conceitos de populao ou amostra sero relativos, isto , dependero do tipo de trabalho que ser realizado com os dados coletados.
Copyright Ibmec
13
Estatstica Descritiva
A estatstica descritiva o conjunto de tcnicas e procedimentos destinados organizao e ao sumrio dos dados. Suas tcnicas podem ser aplicadas nos dados coletados a partir de populaes (censo) ou a partir de amostras (amostragem). Nesta fase da pesquisa, necessrio descrever os dados! A partir dos preos dos imveis publicados nos classicados dos jornais, a estatstica descritiva possibilitar: Ordenar os valores obtidos em forma crescente/decrescente. Agrupar os valores obtidos em classes. Representar gracamente os valores. Determinar os valores mdios, os valores mais frequentes. Determinar a disperso dos valores obtidos.
Estatstica Inferencial
A estatstica inferencial abrange as tcnicas e procedimentos destinados descoberta de algum dado acerca de uma populao. Os dados coletados podem ser extrados de uma ou mais amostras.
Antes de uma eleio, os institutos de pesquisa entrevistam 2000 pessoas e, com base em suas respostas, conseguem antecipar o resultado da eleio. Em uma sorveteria experimentamos determinado sabor para decidirmos se levaremos ou no a embalagem de dois litros. Observe que nos exemplos apresentados, concluses foram baseadas de acordo com o resultado coletado em pequenas amostras: os 2000 eleitores e a prova do sorvete. Em outras palavras, foram realizadas inferncias acerca das respectivas populaes.
14
Copyright Ibmec
Numrico
Intervalar
Numrico
Racional
Coleta de Dados
Apesar de ser muitas vezes negligenciada, atravs da coleta de dados que se obtm as informaes necessrias para a montagem e conrmao dos modelos formulados. A partir dessa etapa, possvel denir os recursos (tempo, computadores, capital, mo-de-obra) que sero utilizados no estudo estatstico.
Copyright Ibmec
15
Exemplo prtico Com a proximidade do vero, uma agncia de viagens decidiu intensicar sua propaganda e para aprimorar seus esforos enviou um questionrio a seus potenciais clientes. Uma das perguntas foi: Quanto voc gastou em suas ltimas frias? O resultado obtido entre 60 clientes encontra-se na tabela abaixo.
DADOS BRUTOS Gastos efetuados nas ltimas frias 950 1.200 2.000 900 870 1.050 670 1.250 1.200 1.100 750 800 800 1.250 1.100 1.150 950 1.700 1.350 2.000 1.600 1.400 1.500
1.280 1.500 1.800 1.700 1.800 1.300 450 1.900 1.350 1.390 870
1.550 1.300
A tabela, apesar de completa, demonstra algumas inconsistncias. Os dados listados so apresentados em sua forma bruta (rol, raw data). A anlise das informaes torna-se mais trabalhosa visto que demanda esforos adicionais do observador. Por exemplo, no possvel identicar qual o maior gasto, o menor, e assim sucessivamente.
16
Copyright Ibmec
Exemplo prtico Os dados apresentados anteriormente na tabela Gastos efetuados nas ltimas frias foram ordenados para facilitar a observao das informaes como: o menor/maior gasto e mdia de gastos. Veja a tabela abaixo.
DADOS ORDENADOS Gastos efetuados nas ltimas frias 450 670 700 750 800 800 870 870 900 900 900 950 950 1.000 1.050 1.050 1.100 1.100 1.100 1.150 1.200 1.200 1.200 1.200 1.250 1.250 1.250 1.280 1.280 1.300 1.300 1.500 1.750 1.300 1.500 1.750 1.350 1.500 1.800 1.350 1.380 1.550 1.800 1.550 1.900
1.390 1.600 2.000 1.400 1.420 1.450 1.450 1.650 2.000 1.700 2.000 1.700 1.700 2.100 2.150
Alterar a ordem dos dados originais nem sempre desejvel. Suponha que exista uma listagem com os nomes ordenados alfabeticamente na primeira coluna e o gasto em frias na segunda. Caso seja necessrio no perder a ordem alfabtica, uma alternativa ser inserir uma terceira coluna na qual acrescentaremos a posio, ou o ranking, que o valor correspondente ao gasto ocupa em relao aos demais. Chamamos este tipo de classicao de ordenao por postos.
Distribuio de Frequncias
Uma outra forma de apresentar dados quantitativos e/ou qualitativos atravs da Distribio de Frequncias (DF). Esse procedimento denido como o agrupamento dos dados em uma tabela contendo classes (ou categorias) e o nmero de ocorrncias (ou freqncia) em cada categoria.
Copyright Ibmec
17
Verique abaixo as sugestes para a montagem de uma DF. 1. Encontre o maior e o menor valor dentre os dados observados. 2. Determine a amplitude total, diminuindo o menor do maior valor encontrado em (1). 3. Determine o nmero de classes desejadas. 4. Calcule a amplitude, intervalo, de classe (AC) dividindo a amplitude total determinada em (2) pelo nmero de classes estabelecido em (3). Arredonde o resultado para cima. 5. Escolha um valor ligeiramente superior ao menor valor encontrado em (1). Este ser o limite inferior da primeira classe (LI1). 6. Encontre os limites inferiores de cada uma das demais classes. Some a amplitude de classe ao limite inferior da classe precedente (LI2=LI1+AC; LI3=LI2+AC etc.). Observe que o limite superior (LS) de cada classe ser igual ao limite inferior da classe seguinte (LS1=LI2; LS2=LI3 etc.). 7. Conte as ocorrncias em cada classe e preencha a DF. Ateno! Supondo uma varivel X qualquer, usual que em uma classe C a contagem obedea ao critrio: LIC < X LSC. 8. Totalize o nmero de ocorrncias contadas. 9. Se necessrio, calcule o percentual de ocorrncias de cada classe em relao ao total.
Sempre que possvel, utilize classes de mesma amplitude, exceto os casos onde o critrio levar as classes vazias (sem nenhuma ocorrncia). Utilize um nmero de classes que permita a obteno de mais informaes sobre os dados em estudo. Evite um nmero muito alto ou muito baixo de classes.
18
Copyright Ibmec
Algumas Observaes
Com base no exemplo da tabela Gastos efetuados nas ltimas frias elaboramos a distribuio de frequncias no cumulativas listadas a seguir.
DISTRIBUIO DE FREQUNCIAS Classes $400 < Gastos $600 $600 < Gastos $800 $800 < Gastos $1.000 $1.000 < Gastos $1.200 $1.200 < Gastos $1.400 $1.400 < Gastos $1.600 $1.600 < Gastos $1.800 $1.800 < Gastos $2.000 $2.000 < Gastos $2.200 Totais N de Observaes 1 5 8 10 13 9 8 4 2 60 Percentual (%) 1,67 8,33 13,33 16,67 21,67 15,00 13,33 6,67 3,33 100,00
Observaes: Os valores constantes na ltima coluna da tabela sero obtidos atravs da diviso da frequncia existente em cada uma das classes pelo total de observaes. As DFs que relacionam apenas os percentuais so denominadas Distribuies de Frequncia Relativas. J as DFs que relacionam apenas os resultados da contagem dos valores so denominadas de Distribuies de Frequncia Absolutas. Um valor que ir desempenhar importante papel nos clculos envolvendo as Distribuies de Frequncia ser o PONTO MDIO DE CLASSE, equidistante dos limites extremos de cada classe. Na tabela, o ponto mdio da 2 classe ser de $700 [=(600+800) 2].
Copyright Ibmec
19
20
Copyright Ibmec
Nos histogramas envolvendo variveis quantitativas, o eixo horizontal dever estar em escala. Consequentemente, se uma classe tiver amplitude diferente das demais, a altura do retngulo dever ser ajustada, de forma a reetir a proporcionalidade existente entre a frequncia e a rea do retngulo. A maioria dos softwares utilizados para gerar histogramas considera os valores da escala horizontal como texto. medida que os segmentos de reta de um grco polgono de frequncia tornam-se mais suaves, o polgono traado tende a formar uma curva, denominada curva de frequncia.
Grcos Ogiva
Os grcos ogiva (ou polgonos de frequncias acumuladas) so apropriados para a representao das distribuies de frequncias cumulativas. No exemplo ao lado, o eixo horizontal representa a varivel em estudo e o eixo vertical a frequncia cumulativa observada.
Copyright Ibmec
21
Diagramas de Disperso
Diagramas de Disperso ilustram o formato do relacionamento entre duas variveis. O grco abaixo ilustra o diagrama para as variaes mensais nas vendas de um produto (eixo vertical) contra as variaes mensais nos gastos em publicidade (eixo horizontal).
Uso indevido de grcos Geralmente, as informaes dispostas gracamente causam maior impacto visual para o leitor. Por conta disso, recomenda-se que o analista das informaes grcas esteja sempre atento para identicar possveis distores geradas por guras mal construdas, prevenindo-se de decises incorretas.
22
Copyright Ibmec
Admitindo que os dados estejam dispostos em uma faixa da planilha denominada lista-num e sendo num o valor para o qual se deseja saber a posio, selecione uma nova clula em outra regio. Digite =ORDEM (num;lista-num;ord) para o clculo. Se ord=0 ou omitido, a lista estar em ordem decrescente. Caso contrrio, estar em ordem crescente. Tenha cuidado com o endereamento relativo ao replicar a frmula para as clulas seguintes. Lembre-se que lista-num dever estar xa.
Copyright Ibmec
23
Resumo
Neste mdulo, conhecemos os conceitos iniciais da Estatstica. Vericamos a importncia de lidar com grande quantidade de dados, classicaes e anlises. Vimos tambm que uma populao refere-se a todo conjunto de observaes em estudo. J a amostra, considera apenas parte deste conjunto. Alm disso, a maioria das concluses estatsticas baseia-se em dados amostrais, e no populacionais. A Estatstica est dividida em dois grandes grupos de estudo: a estatstica descritiva, preocupada apenas em descrever o conjunto de dados coletados, e a estatstica inferencial, que ao reunir informaes coletadas em amostras, permite concluses das caractersticas populacionais. Diferentes tipos de dados podero ser classicados em funo dos nveis de informao que eles oferecem: nominal, ordinal, intervalar e racional. Por m, apresentamos algumas funes bsicas do Excel que lhe ajudaro a solucionar exerccios dos prximos mdulos.
24
Copyright Ibmec
25
Introduo ao Mdulo
As medidas descritivas so tcnicas que possibilitam a extrao de informaes a partir de um conjunto de dados. Essas tcnicas nos foram a trabalhar com um nmero excessivo de ocorrncias. A estatstica descritiva fornece medidas capazes de caracterizar corretamente o conjunto de dados estudado e ser o tema deste mdulo!
Objetivos
Listar os tipos de medidas descritivas denidas pela Estatstica e sua utilidade; Listar, calcular e interpretar as principais medidas de posio e as de tendncia central, mostrando suas principais caractersticas e limitaes e analisando-as comparativamente; Listar, calcular e interpretar os principais indicadores de disperso, mostrando como aplic-los em conjunto com as medidas de posio em questes prticas, como por exemplo a anlise de risco; Detectar observaes suspeitas ou discrepantes (outliers) em um conjunto de dados; Resolver problemas utilizando o EXCEL.
Estrutura do Mdulo
Unidade 1 - Tipos de medidas descritivas Unidade 2 - Varincia e desvio-padro Unidade 3 - Informaes discrepantes Unidade 4 - Clculo de indicadores para dados agrupados Unidade 5 - Utilizao das ferramentas do Excel
Copyright Ibmec
27
Considerando uma base de dados contendo os gastos em frias para clientes de uma agncia de viagens, as medidas de posio sero teis para respondermos s seguintes questes: Qual o maior gasto? Qual o menor? Quanto o cliente gasta em mdia? Qual o gasto tpico? Os 25% de clientes que gastam pertencem a que faixa etria?
28
Copyright Ibmec
Mdia Aritmtica
Para um conjunto formado por n dados Xi no agrupados em distribuies de frequncia, determinaremos sua mdia aritmtica a partir da expresso ao lado: Nos ltimos 5 meses, a venda de automveis fabricados no Brasil foi respectivamente de 5.000, 3.800, 7.000, 4.500 e 6.100 unidades (dados hipotticos). Calcule a venda mdia.
Todo intervalo fechado possui uma mdia aritmtica. Todos os valores so utilizados no clculo da mdia. Quando existir, ser nica. A soma dos desvios de cada observao em relao sua mdia aritmtica, ser sempre zero:
afetada por valores extremos (ver exemplo a seguir). No pode ser calculada para intervalos (ou classes) abertas.
Exemplo: Na Empresa ABC os salrios anuais de seus diretores so respectivamente de $60.000, $61.000, $59.000, $65.000 e $1.200.000. Qual a mdia salarial para estes dados? Calculando a mdia chegaremos ao valor de $289.000, certamente um valor muito pouco representativo dos salrios dos diretores da empresa ABC!
Copyright Ibmec
29
Mediana
Para um conjunto ordenado de dados, a MEDIANA corresponder medida que ocupa a posio central da lista formada. Dividindo-a em dois grupos, 50% dos valores sero menores e 50% sero maiores que o valor mediano.
Pela denio anterior, conclui-se que para um conjunto de dados no agrupados em distribuies de freqncia, a mediana ser igual: Ao valor que ocupar a posio (n+1)/2 no caso dos conjuntos com nmeros mpares de dados. mdia aritmtica dos valores que ocuparem as posies n/2 e (n+2)/2, no caso de conjuntos com nmeros pares de dados centrais.
Ainda sobre a Empresa ABC, qual seria o salrio mediano dos diretores que ganham $60.000, $61.000, $59.000, $65.000 e $1.200.000? Como n=5, aps ordenarmos os dados, o valor mediano ser aquele que ocupar a 3 posio [=(5+1)/2], ou seja $61.000. Observe que este valor mais representativo do que a mdia calculada anteriormente.
30
Copyright Ibmec
Algumas Propriedades da Mediana Para qualquer conjunto de dados, haver sempre uma nica mediana. A mediana no afetada por valores extremos. Pode ser calculada para uma distribuio de frequncias que tenha intervalos (ou classes) abertas. Pode ser determinada para dados no nvel ordinal. Por exemplo, se 10 estudantes de um curso receberam conceito A, 8 receberam B, 20 receberam C e um nico foi reprovado, com D, o conceito mediano ser C. Para este caso no seria possvel calcularmos o conceito mdio.
Moda
A moda de um conjunto de dados corresponder ao valor que ocorrer com a maior frequncia. Por exemplo, dados os valores 3, 5, 8, 8, 7, 2, 3 e 8 a moda ser 8 visto que o valor que aparece por maior nmero de vezes. A moda pouco verstil nos clculos aritmticos e possui pouca aplicabilidade na inferncia estatstica. Veja abaixo algumas distribuies e suas modas.
Copyright Ibmec
31
Nas distribuies simtricas, a moda, a mdia e a mediana sero iguais. Porm, quando as medidas da moda e da mdia coincidirem, no obrigatoriamente a distribuio ser simtrica. Nas distribuies assimtricas, desde que o nvel de assimetria no seja muito acentuado, a moda (Mo), a mediana (Md) e a mdia (Me) possuiro a seguinte relao: Mo = 3Md - 2Me. Esta relao denominada de Relao Emprica ou Relao de Pearson, em homenagem ao seu idealizador.
Mdia Geomtrica
A raiz ensima de um nmero poder ser obtida elevando-o a 1/n. Nem sempre a mdia geomtrica estar denida no domnio dos nmeros reais. Sendo assim, admitiremos que os valores para os quais deseja-se calcular a mdia sejam todos no negativos.
32
Copyright Ibmec
Clculo de variaes percentuais (ou taxas de juros) mdias. Na frmula MG, substituiremos cada um dos valores X1, X 2, ..., Xn por (1+i1), (1+i2),... (1+in), chegando a:
A taxa iMg ser denominada de Taxa Geomtrica de Retorno ou Taxa de Retorno Ponderada pelo Tempo (Time-Weighted-Rate-of-Return-TWRR). Suponha que nos ltimos 4 anos a inao tenha sido respectivamente de 15%, 20%, 25% e 50%. Qual a inao mdia anual?
Copyright Ibmec
33
Os quartis iro dividir a distribuio em 4 partes (25% para cada). Os decis em 10 partes (10% para cada). Os percentis em 100 partes (1% para cada). Exemplo prtico A gura a seguir representa os retornos mensais obtidos por duas linhas de produto com as mesmas caractersticas e durante o mesmo perodo (os doze ltimos meses).
34
Copyright Ibmec
Sabendo-se que ambos obtiveram lucratividade mdia de 5,00%am, seria possvel indicarmos qual teria sido a melhor opo de investimento? Por que? A gura nos mostra que os retornos de A ocorreram de forma mais voltil que os retornos de B. comum associarmos a disperso ao risco ou incerteza dos resultados. Assim, percebemos que o investimento na Linha A foi mais arriscado que B. Por outro lado, assumindo que os responsveis pelas escolhas em uma empresa, o fazem de forma racional, de se esperar que eles somente aceitem maiores riscos caso obtenham compensaes em termos de retorno. Nesse caso, a melhor opo teria sido aplicar os recursos na Linha B. Alm de permitir a comparao entre grupos de dados, as medidas de disperso possibilitam a avaliao do grau de representatividade de uma mdia.
Amplitude
Para um conjunto de valores, a amplitude corresponder diferena entre o maior e o menor valor. Utilizando os dados da gura que representa os retornos mensais de duas linhas de produto, qual seria a amplitude para as lucratividades mensais apresentadas?
Copyright Ibmec
35
Como ambas as linhas apresentaram lucratividades extremas de +10,00% e 0,00%, a amplitude para ambos ser de 10,00% (=10,000,00), induzindo-nos ao erro de classic-los como igualmente volteis (ou dispersos). Como desejvel obter medidas que utilizem todos os dados em seus clculos, a soluo ser observar o desvio de cada valor em relao sua mdia. Por exemplo, para os Fundos A e B, retornos mensais de 0,00% causaro desvios de -5,00% em relao mdia. J os retornos mensais de 10,00% geraro desvios de +5,00%.
Conhea outras medidas de disperso: Amplitude Interquartlica diferena entre o terceiro e o primeiro quartis. Amplitude Semi-interquartlica - metade da anterior. Amplitude entre percentis - 10-90 ou entre percentis 5-95 etc.
36
Copyright Ibmec
comum assinalarmos a varincia populacional pela letra grega (sigma ao quadrado ou simplesmente sigma dois). Note que a frmula da varincia amostral ligeiramente diferente da frmula para a varincia populacional. A razo para isso que, ao trabalharmos com uma amostra, desejamos dar um passo adiante, tentando chegar a concluses acerca da populao. Neste caso, demonstra-se que o melhor estimador pontual para a varincia populacional obtido atravs da diviso do numerador das frmulas anteriores por (n-1), e no por n. Voltando ao exemplo abaixo, qual a varincia para as lucratividades mensais apresentadas?
Copyright Ibmec
37
Para cada um dos seis meses em que A apresentou lucratividade nula, o desvio gerado foi de 5,00%, cujo quadrado equivale a 25,00. J nos meses em que A rendeu 10,00% o desvio gerado foi de +5,00%, cujo quadrado tambm equivale a 25,00. Aplicando a frmula da varincia e admitindo uma amostra, chegaremos a:
A linha B apresentou retornos de: 0,00% em um ms (desvio de -5,00, quadrado igual a 25,00). 4,00% em trs meses (desvio de -1,00, quadrado igual a 1,00). 5,00% em quatro meses (desvio e quadrado nulos). 6,00% em trs meses (desvio e quadrado iguais a 1,00) e de 10,00% em um ms (desvio de 5,00, quadrado de 25,00).
Concluso
Por ter apresentado uma menor varincia, conclumos que a disperso das lucratividades apresentada pela Linha B foi menor que a apresentada pela Linha A.
Desvio-Padro
O desvio-padro corresponde raiz quadrada positiva da varincia, seja ela calculada com base em uma populao ou em uma amostra.
38
Copyright Ibmec
Medidas relativas
As medidas relativas so assim chamadas por incorporarem simultaneamente a posio e a disperso de um dado em relao ao conjunto da qual faz parte. As principais medidas so o Escore z e o Coeciente de Variao. O coeciente de variao O desvio-padro uma medida de disperso absoluta que poder levar a distores na comparao de dois conjuntos de dados: unidades de medidas distintas e mdias muito afastadas. Para estes casos, o mais indicado ser empregar uma medida de disperso relativa, de acordo com o coeciente de variao:
A venda mdia projetada e a incerteza desta projeo, medida pelo desvio-padro, para o produto A so respectivamente de M$10 e M$2. Os valores para o produto B so M$40 e M$4. Em termos relativos, qual o produto considerado com vendas mais volteis?
Podemos concluir que B menos voltil do que A. Porm, em termos absolutos, a concluso ser oposta.
Escore Z Dado um conjunto de observaes com mdia e desvio padro , o escore Z associado a uma observao X medir a distncia entre X e a mdia do conjunto em unidades de desvio-padro. O escore z tambm conhecido como escore reduzida ou escore padro. Um valor positivo para z signicar que X encontra-se direita da mdia. Caso Z seja negativo X encontra-se esquerda da mdia.
Copyright Ibmec
39
O escore z ser bastante til na comparao entre distribuies, na deteco de observaes discrepantes e no clculo de probabilidades associado Distribuio Normal. Utilize a frmula abaixo para determinar o valor para z, onde corresponder mdia do conjunto e ao desvio-padro. Escore Z exemplo prtico A venda mdia das liais cariocas do Grupo ABCD para o ano de 1999 foram de $125.000, com um desvio-padro de $10.000. Estes mesmos dados para SP correspondem a $120.000 e $25.000. Se duas liais, uma paulista e uma carioca venderam $170.000 cada, em qual delas ocorreu um maior esforo por parte da equipe de vendas?
primeira vista pode parecer que a lial de SP, por estar mais distante da mdia, esteja melhor posicionada. Entretanto, em termos relativos, quando considerarmos o desvio-padro, conclumos o oposto. Qual a interpretao para este fato? No RJ, o menor desvio-padro para as vendas indica baixa disperso em torno da mdia de $125.000, o que torna uma venda acima deste valor mais difcil para a equipe encarregada. J em SP, o desvio-padro mais alto indica uma maior disperso em torno da mdia de $120.000, tornando uma venda acima deste valor no to difcil de ser alcanada.
Interpretando o desvio-padro
De acordo com as tcnicas da Estatstica Inferencial, o desvio-padro servir de base para o traado de intervalos de conana (faixa de valores onde encontra-se determinado percentual dos dados analisados).
40
Copyright Ibmec
Para traar estes intervalos necessrio desenvolvermos os conceitos de probabilidades. Este assunto ser abordado no prximo mdulo. Os intervalos de conana tambm podem ser encontrados atravs do Teorema de Chebyshev e da Lei Emprica.
Lei emprica
Para um conjunto de dados com distribuio simtrica e em formato de sino encontraremos aproximadamente as seguintes propores: 68% dos dados estaro no intervalo [ 1. ; + 1. ]. 95% dos dados estaro no intervalo [ 2. ; + 2. ]. 100% dos dados estaro no intervalo [ 3. ; + 3. ].
Teorema de Chebyshev
Para qualquer conjunto de dados a proporo mnima de valores compreendidos no intervalo [ k. ; + k. ] ser dada por:
Copyright Ibmec
41
42
Copyright Ibmec
Copyright Ibmec
43
Para os salrios da Empresa XYZ que possui mdia de $199,60 e desvio padro de $35,61, um salrio de $400 pode ser considerado discrepante?
44
Copyright Ibmec
Mdia aritmtica
Varincia
Copyright Ibmec
45
Exemplo 1 Qual o salrio mdio dos empregados da Cia. XYZ, listados nas duas primeiras colunas da abaixo?
Distribuio de Frequncias Cia XYZ - Salrios Semanais em $ Classes 120 140 <$ <$ 140 160 180 200 220 240 260 280 Xi=Ponto Mdio 130 150 170 190 210 230 250 270 fi = frequncia 7 12 18 24 26 22 11 5 125 Xi fi 910 1.800 3.060 4.560 5.460 5.060 2.750 1.350 24.950
Totais []
Exemplo 2 Determine a varincia dos salrios semanais listados na tabela (mdia = $199,60).
46
Copyright Ibmec
A tabela auxiliar os clculos intermedirios, onde Xi e referem-se respectivamente ao ponto mdio e freqncia encontrada em cada classe.
DISTRIBUIO DE FREQNCIAS Cia XYZ - Salrios Semanais em $ Classes 120 140 160 180 200 220 240 260 Totais [] <$ <$ <$ <$ <$ <$ <$ <$ 140 160 180 200 220 240 260 280 Xi 130 150 170 190 210 230 250 270 fi 7 12 18 24 26 22 11 5 125 Xi- -69,60 -49,60 -29,60 -9,60 10,40 30,40 50,40 70,40 (Xi-) 4.844,16 2.460,16 876,16 92,16 108,16 924,16 2.540,16 4.956,16 (Xi-)fi 33.909,12 29.521,92 15.770,88 2.211,84 2.812,16 20.331,52 27.941,76 24.780,80 157.280,00
Copyright Ibmec
47
Exemplo 3 Qual o valor mediano dos salrios agrupados na Distribuio de Frequncias ilustrada na Tabela?
DISTRIBUIO DE FREQUNCIAS Cia XYZ - Salrios Semanais em $ Classes 120 140 160 180 200 220 240 260 Totais [ ] <$ <$ <$ <$ <$ <$ <$ <$ 140 160 180 200 220 240 260 280 fi = Frequncia 7 12 18 24 26 22 11 5 125 Fi = Frequncia Acumulada 7 19 37 61 87 109 120 125 125
Observe que criamos uma coluna adicional contendo as frequncias acumuladas fi . A classe contendo a mediana ser aquela onde fi for maior ou igual metade do total das observaes. Note que at a 4 classe, nossa contagem chegou a 61 (=F4). Consequentemente, precisaremos contar mais 1,5 observaes na 5 classe. Se assumirmos que em cada classe os salrios se distribuem uniformemente, determinaremos o valor de X atravs de uma Regra de Trs Simples, ou seja:
48
Copyright Ibmec
CALCULA
O R D E M . P O R C E N T U A L POSIO PERCENTUAL de X na lista; casas refere-se ao nmero de casas (lista;X;casas) PADRONIZAR(X;Md;Dp) decimais da resposta. ESCORE z para o valor X, onde Md e Dp referem-se mdia e ao desviopadro do conjunto de dados de onde se extraiu X. k-simo PERCENTIL da lista; a funo inversa da funo ORDEM. PERCENTUAL. k-simo QUARTIL da lista.
PERCENTIL(lista;k))) QUARTIL(lista;k)
FUNO
DESVPAD(lista) DESVPADP(lista) VAR(lista) VARP(lista)
CALCULA
DESVIO-PADRO AMOSTRAL da lista. DESVIO-PADRO POPULACIONAL da lista. VARINCIA AMOSTRAL da lista. VARINCIA POPULACIONAL da lista.
Copyright Ibmec
49
Resumo
Iniciamos este mdulo ilustrando como as medidas descritivas de posio e disperso ajudam a formar uma imagem da distribuio dos dados. As medidas de posio tm a nalidade de apontar um valor especco no conjunto de dados. Algumas delas, por procurarem o centro da distribuio, so denominadas de medidas de tendncia central: mdias, mediana e moda. Dependendo de como estiverem relacionadas, essas medidas de posio podero indicar simetria da distribuio. J os quartis, pecentis e o escore z so exemplos de medidas relativas, adequadas para comparao de dois ou mais conjuntos de dados que apresentem diferenas de ordem de grandeza ou unidades distintas. As medidas de disperso apontam a variabilidade existente no conjunto de dados. Seus principais indicadores so a amplitude, a varincia e o desvio padro. A combinao de medidas de posio e disperso permitir aplicar a teoria em problemas prticos: montagem de intervalos de conana e na percepo de informaes discrepantes. Outras medidas descritivas tais como os coecientes de assimetria e curtose complementam o trabalho de descrio de um conjunto de dados. Por m, foi possvel observar as ferramentas do EXCEL utilizadas para calcular essas medidas de posio e disperso.
50
Copyright Ibmec
MDULO 3 Probabilidades
51
Introduo ao Mdulo
Para entendermos porque necessrio termos noes de probabilidade na tomada de decises, imagine a seguinte situao: Para manter um programa no ar, o diretor de uma emissora de TV concluiu ser necessria uma audincia mnima de 17,00%. A ltima pesquisa envolveu 120 telespectadores e revelou ndices de audincia da ordem de 15,00%. O diretor deve ou no manter o programa? Processos decisrios baseados em fatos desta natureza so tambm denominados processos probabilsticos j que, devido incerteza associada aos eventos futuros, no nos levaro a respostas exatas. justamente neste contexto que a Teoria das Probabilidades ganha especial importncia, pois permite a quanticao e anlise dos riscos que podero ocorrer, minimizando desta forma a escolha por decises incorretas.
Objetivos
Destacar a importncia da Teoria das Probabilidades para a inferncia estatstica, identicando suas diferentes abordagens; Calcular probabilidades de eventos isolados e de eventos combinados; Denir variveis aleatrias, variveis discretas e contnuas e suas respectivas Distribuies de Probabilidades; Determinar e interpretar o signicado do valor esperado, da varincia e do desvio-padro de uma varivel aleatria; Identicar a importncia de se trabalhar com modelos tericos de probabilidade para a simplicao dos clculos; Listar alguns modelos discretos e contnuos de distribuio, indenticando quando e como utiliz-los: Binomial, Normal e Uniforme; Resolver problemas utilizando o EXCEL.
Estrutura do Mdulo
Unidade 1 - Denio e abordagens Unidade 2 - Combinao de eventos Unidade 3 - Variveis aleatrias e distribuies de probabilidade
Copyright Ibmec
53
Unidade 4 - Valores esperados, varincias e desvios-padres Unidade 5 - Modelos de distribuio de probabilidade Unidade 6 - Utilizao de ferramentas do EXCEL
54
Copyright Ibmec
Abordagens
Lanar um dado e tirar sete um bom exemplo de evento impossvel. Tirar um nmero menor ou igual a seis um exemplo de evento certo. Diante de um problema envolvendo o clculo de probabilidades, iremos dispor basicamente da abordagem apresentada ao lado para a sua resoluo.
Copyright Ibmec
55
Exemplo prtico Supondo o experimento lanar um dado numerado e observar a face que cai para cima, qual seria a probabilidade de tirarmos 4? Interprete o resultado. O nmero total de resultados [n(S)] 6. Tiraremos 4 apenas de uma nica forma [n(A)]. Consequentemente, esta probabilidade ser de 1/6 [=n(A)/n(S)]. O valor encontrado poder ser interpretado como a proporo de resultados 4 a que chegaremos aps a repetio do experimento.
Probabilidade Lanamento de um dado no viciado Nmero de Jogadas Nmero de 4 ocorridos Proporo 6 60 600 6.000 60.000 2 13 112 1.020 10.040
Copyright Ibmec
56
Na realidade, se zssemos a experincia, lanando o dado 6 vezes, poderamos obter 4 mais (ou menos) do que uma nica vez, conforme ilustrado na tabela acima. Estas variaes, desde que dentro de certos limites, sero passveis de acontecer, no inviabilizando o valor calculado anteriormente para a probabilidade.
O exemplo anterior envolveu eventos: Equiprovveis - As chances de sair um nmero so iguais as de sair 2 ou 3 etc. Mutuamente exclusivos - Ao tiramos 1 no poderemos obter 2 ou 3, etc. Coletivamente exaustivos - Sabemos todos os possveis resultados: 1, 2, 3, etc., razo pela qual foi possvel adotarmos a abordagem clssica em sua resoluo.
Classicao de Eventos
O resultado de 1/6 foi obtido atravs de deduo matemtica sem a necessidade da realizao de uma experincia. Por isso, denominamos a abordagem clssica de abordagem matemtica ou a priori (o resultado previamente conhecido). Neste caso especco, a contagem do nmero total de resultados (6) e do nmero de resultados favorveis (1) foi bastante simples, pois baseou-se na listagem de todos os resultados. Entretanto, em casos mais sosticados, a listagem de todos os resultados poder ser bastante extensa, razo pela qual o clculo feito por intermdio das tcnicas de contagem (anlise combinatria, fatoriais e outras). Se uma das condies anteriores fosse violada precisaramos da abordagem experimental para chegar ao resultado. O que aconteceria por exemplo, se por algum mecanismo qualquer, o dado do exemplo anterior fosse viciado e quisssemos obter a probabilidade de ocorrncia do 4.
Copyright Ibmec
57
Voltando ao exemplo anterior, suponha que o dado fosse construdo de forma a apresentar 4 com maior frequencia que os demais resultados. Como determinaramos a probabilidade de tirar 4? Neste caso, deveramos lan-lo por muitas vezes e observarmos a frequncia do valor 4. Admitindo que aps 1.000 jogadas obtivssemos 250 4, assumiramos que p(4) seria de 0,25. Uma fbrica produziu um lote de 10.000 peas. A probabilidade delas apresentarem defeito de 2,00%, j que testes realizados com 100 destas peas, apontaram apenas 2 defeituosas. A probabilidade de um lojista receber um cheque sem fundos de 12% pois, de acordo com os dados histricos da contabilidade, de cada 1.000 cheques recebidos, 120 so devolvidos por este motivo.
58
Copyright Ibmec
Para dois eventos A e B, a probabilidade de ocorrncia de um ou de outro ser dada por: p(AouB) = p(AB) = p(A) + p(B) -p(AeB)
O ltimo termo da frmula refere-se probabilidade da interseo dos conjuntos A e B, que dever ser subtrada da soma das probabilidades individuais para evitar sua dupla contagem. Ateno ao aplicar a regra anterior na combinao de trs ou mais eventos pois, nem todas as probabilidades das intersees devero ser retiradas. Quando os eventos forem mutuamente exclusivos, no puderem ocorrer simultaneamente, o termo p(AeB) ser nulo. Para trs ou mais eventos mutuamente exclusivos, a probabilidade A ou B ser a soma das probabilidades individuais. Por exemplo, p(A ou B ou C) = p(A) + p(B) + p(C). Caso a unio dos eventos forme o espao amostral, ou seja, o conjunto com todas as possibilidades, p(A ou B ou C ou ...) = 1. A observao anterior aplica-se para os eventos complementares [p(A ou ) = 1], o que implica que p() ser equivalente a 1 - p(A) e vice-versa. Eventualmente, esta propriedade poder ser utilizada para agilizar os clculos.
Exemplo prtico Uma pesquisa entre 200 correntistas de um banco revela que, deste total, 120 investem em aes e 100 em renda xa. Sabendo-se ainda que 60 investem em ambas as modalidades, pergunta-se quais as probabilidades de selecionarmos: 1. Um investidor em aes? 2. Um investidor em renda xa?
Copyright Ibmec
59
3. Um investidor em aes e renda xa? 4. Um investidor em aes ou renda xa? 5. Um correntista que no invista em nenhum dos dois?
Note que se no retirssemos a probabilidade da interseo chegaramos a p(A ou RF) = 1,1 ou 110%, o que contraria a denio de probabilidade. Usando a frmula, chegaremos a:
Basta observar que o evento C = {no investir nem em aes, nem em renda xa} complementar ao evento {investir em um ou em outro}. A probabilidade ser:
60
Copyright Ibmec
Para dois eventos quaisquer, a probabilidade da ocorrncia simultnea de ambos ser dada por: p(AeB) = p(A B) = p(A) x p(B | A) = p(B) x p(A | B)
Quando a ocorrncia de um evento A inuenciar a ocorrncia do evento B, os eventos A e B sero dependentes. Neste caso, aps a ocorrncia do evento A, determinaremos a probabilidade condicional para o evento B, designada por p(B|A) (l-se p de B dado A). Quando a ocorrncia de um evento A no inuenciar a ocorrncia do evento B, os eventos sero independentes. Neste caso, tendo o evento A ocorrido ou no, a probabilidade de ocorrncia de B no ser alterada e assim, p(B|A) = p(B). Para o caso de eventos independentes, a frmula passa a ser reescrita como: p(AeB) = p(A) x p(B), que condio necessria e suciente para a independncia dos eventos. A frmula anterior poder ser aplicada a n eventos. Por exemplo, se A, B e C forem independentes, p(A e B e C) = p(A).p(B).p(C).
No confundir eventos independentes com eventos mutuamente exclusivos. Na realidade, se dois eventos so independentes, eles no sero mutuamente exclusivos e se forem mutuamente exclusivos, no sero independentes.
61
2. p(B|A) supondo que a primeira bola seja recolocada na caixa. 3. p(B|A) supondo que a primeira bola no seja recolocada na caixa.
Aplicando a abordagem clssica e designando por S o espao amostral, teremos: 1. Sendo n(A) = 2 e n(S) = 3, p(A) = 2/3. 2. Como a primeira bola foi devolvida, a situao da caixa no ser alterada. Portanto, n(B|A) = 2, n(S|A) = 3, p(B|A) = 2/3. 3. Como a primeira bola no foi devolvida a situao da caixa cou alterada. Se A ocorreu, sobraram 2 bolas, 1 clara e a outra escura. Logo, n(B|A) = 1, n(S|A) = 2, p(B|A) = .
Concluses
Nas resolues anteriores, n(B|A) refere-se ao nmero de bolas claras na segunda extrao, dado que a primeira bola extrada foi clara. Comparativamente, n(S|A) refere-se ao nmero de elementos do espao amostral aps a primeira retirada, dado que a primeira bola extrada foi clara. Assim, n(S|A) denominado espao amostral reduzido. No caso (b), os eventos A e B so independentes, j que a ocorrncia do primeiro no inuencia a ocorrncia do segundo. Com isso, independente do resultado da primeira extrao (A={ser clara}
62
Copyright Ibmec
ou ={ser escura}), o fato de recolocarmos a bola de volta na caixa no ir alterar as condies iniciais para a extrao da segunda bola. Consequentemente, p(B)=p(B|A)=p(B| )=2/3. Para o caso (c), os eventos A e B no sero mais independentes, pois ao no devolvermos a primeira bola caixa, as condies iniciais do experimento sero modicadas. No exemplo analisado, determinamos p(B|A)=1/2. Caso a primeira bola fosse escura (o evento teria ocorrido), p(B|.)=2/2, o que comprova que o segundo resultado afetado pela ocorrncia do primeiro [p(B)p(B|A)p(B|.)]. Pelas duas concluses anteriores, percebe-se que, tratando-se de eventos dependentes, o conhecimento prvio do primeiro resultado ir alterar as expectativas em relao ao segundo resultado. Portanto, passamos a trabalhar em um espao amostral reduzido, conforme ilustra o diagrama da esquerda apresentado anteriormente.
Copyright Ibmec
63
A situao anterior um exemplo de varivel aleatria, denida no quadro acima. Uma varivel aleatria (VA) aquela cujo valor proveniente do possvel resultado de um experimento. E, dependendo da natureza do experimento, as variveis aleatrias podero assumir valores enumerveis ou no. Uma varivel aleatria discreta aquela que poder assumir apenas valores denidos, separados, resultantes da contagem de itens. Uma varivel aleatria contnua aquela que poder assumir innitos valores em um determinado intervalo.
64
Copyright Ibmec
A probabilidade associada a cada valor de X dever ser sempre um nmero compreendido entre 0 e 1, ou seja 0 p(X=x) 1. Para que uma funo qualquer seja uma funo de probabilidade, alm da condio anterior, a soma de todas as probabilidades dever ser 1, ou seja p(x)=1. A partir de uma funo de probabilidades possvel traarmos grcos similares aos histogramas: no eixo horizontal marcaremos os valores assumidos por X e no eixo vertical marcaremos os valores assumidos por p(X=x). A funo de probabilidade tambm poder estar expressa na forma cumulativa, fornecendo portanto a probabilidade de X x [F(x)=p(X x)]. Neste caso, ela ser denominada funo de distribuio acumulada. Com exceo da observao anterior, as demais no sero aplicveis s variveis contnuas. Exemplo Prtico A tabela a seguir ilustra a funo de probabilidade p(X = x) e a funo de distribuio p(X x) para a varivel X do exemplo Cara e Coroa apresentado anteriormente.
Distribuies de Probabilidade Lanamento de trs moedas no viciadas X=Nmero de Caras 0 1 2 3 p(X = x) 1/8 3/8 3/8 1/8 8/8 p(X x) 1/8 4/8 7/8 8/8 ----
65
No grco anterior, a determinao da rea marcada foi possvel atravs do conhecimento de tcnicas bsicas de Geometria j que a rea corresponde forma de um trapzio. Tanto para a funo citada, quanto para outras funes mais complexas, encontraremos a rea por intermdio da integrao da funo densidade. medida que diminuirmos o intervalo, considerado [0,1], a regio marcada da gura anterior car menor, no limite. Quando o intervalo considerado for innitesimal, teremos apenas um ponto na funo densidade que no delimitar nenhuma rea. Por isso, nas distribuies contnuas, a probabilidade da varivel X assumir um nico valor: zero [p(X=x)=0].
66
Copyright Ibmec
Nas distribuies de probabilidade, a Mdia Aritmtica tambm denominada de Valor Esperado ou Esperana Matemtica. O valor esperado usualmente representado pelo operador E (nome da varivel). O desvio-padro para uma varivel aleatria continuar denido como a raiz quadrada positiva de sua varincia.
Exemplo prtico Em um jogo de roleta o tabuleiro possui 38 casas: uma com o nmero 0, outra com o nmero 00 e as demais numeradas de 1 a 36. Para apostar necessrio colocar uma cha em uma destas casas. Se a casa selecionada for sorteada ele receber sua cha de volta e ainda um prmio de 35 chas adicionais; se a casa selecionada no for sorteada, ele perder a cha apostada. Supondo que cada cha tenha o valor de $1,00 e denindo Z como o ganho lquido em cada sorteio, pede-se: 1. A Distribuio de Probabilidades para Z. 2. O Valor Esperado de Z. 3. A Varincia e o Desvio-padro de Z. 4. A interpretao dos resultados.
Copyright Ibmec
67
Soluo A A varivel Z poder assumir somente 2 valores: -1,00 (quando o apostador perder a cha apostada) ou 35,00 (quando a casa escolhida pelo apostador for sorteada). Como a roleta tem 38 nmeros, a chance do nmero sorteado ser o escolhido pelo apostador de 1/38 e a chance de no ser de 37/38. A tabela seguinte complementa a resposta.
Distribuies de Probabilidade Roleta - Jogo Pleno Z=Ganho/(Perda) -1,00 +35,00 p(Z = z) 37/38 1/38 38/38 p(Z z) 37/38 38/38 ----
Soluo C:
68
Copyright Ibmec
Modelos de Distribuio
Conhea agora os trs modelos tericos de distribuies de probabilidades. Variveis cujas regras de formao adaptem-se perfeitamente Em termos matemticos aos modelos pr-estabelecidos seria, por exemplo, o nmero de caras no lanamento de trs moedas representado pela distribuio binomial. Variveis onde as regras de formao no necessariamente constituem uma relao matematicamente perfeita. Os resultados de medies ou os retornos dos ativos de risco, geralmente representados pela distribuio normal. Nestas situaes, razovel vericar, atravs dos testes de hiptese apropriados, se as atuais condies permaneceram inalteradas em relao aos modelos pr-estabelecidos. Variveis onde as regras de formao no necessariamente constituam uma relao matematicamente perfeita e no existam estudos disponveis O tempo gasto entre o incio do expediente e a chegada do primeiro cliente poderia eventualmente ilustrar este tipo. Para estes casos, o analista dever trabalhar com a coleta de dados amostrais, formular hipteses acerca do comportamento dos dados e test-los. O nosso objetivo foi ilustrar o princpio da utilizao de distribuies. Ao longo do mdulo, abordaremos apenas as distribuies binomial, uniforme e normal. Caso necessite de conhecimentos especcos nesta rea, verique a bibliograa ao nal do curso.
Copyright Ibmec
69
Distribuio Binomial
Diversas so as situaes onde o dado que devemos analisar apresenta dois possveis estados: No lanamento de uma moeda tirarmos ou no cara. No lanamento de um dado tirarmos ou no o nmero 6. Em uma linha de montagem uma pea sair defeituosa ou no. Os resultados acima podem ser classicados em duas categorias: SUCESSOS [S] ou INSUCESSOS [I]. Se atribuirmos probabilidades a cada uma das categorias, construiremos uma Distribuio de Probabilidades denominada de Distribuio de Bernoulli.
Distribuio De Bernoulli Evento Sucesso Insucesso Probabilidade p q p+q=1q=1-p
Se repetirmos a Distribuio de Bernoulli n vezes de forma independente, garantindo que um resultado no inuencie o seguinte, chegaremos Distribuio Binomial.
70
Copyright Ibmec
Onde n: tamanho da amostra; (n=1,2,3,...). p: probabilidade de um nico sucesso (0<1). q: probabilidade de uma nica falha (q=1-p). k: nmero desejado (k=0,1,2,...n). Exemplo prtico O percentual de peas defeituosas em uma linha de produo de 5%. Qual a probabilidade de encontrarmos 3 peas defeituosas em uma amostra com 10 peas?
Ao retirarmos uma primeira pea para a realizao dos testes, diminuiremos a populao em um elemento. Conseqentemente, as probabilidades de defeitos em uma segunda pea sero alteradas. Entretanto, para populaes maiores, razovel admitir que esta alterao no ocasione tanto impacto na condio da populao. n=10, p=0,05, q=0,95 e k=3. p(X = 3) = C310 x 0,053 x 0,957 = 0,0105 105%
Distribuio Uniforme
A distribuio uniforme o modelo mais simples de distribuio contnua alm de ser caracterizada pela funo densidade constante entre seus parmetros. Principais caractersticas da distribuio uniforme: No intervalo, a funo densidade f(X) plana, paralela ao eixo horizontal. Parmetros: a e b;- < a < b < +.
Copyright Ibmec
71
Frmulas de clculo
Em uma sorveteria, o volume dirio vendido uniformemente distribudo entre 10 e 50 litros. Qual a probabilidade das vendas de amanh situarem-se entre 25 e 40 litros? Qual o valor esperado das vendas? E a varincia?
Distribuio Normal
Uma das distribuies contnuas mais importantes para a estatstica a Distribuio Normal, tambm citada em alguns textos como Distribuio de Gauss em homenagem a Karl F.Gauss (1777-1855) que a criou.
72
Copyright Ibmec
Principais Caractersticas da distribuio normal: So simtricas em relao mdia e apresentam o formato de um sino, com um ponto de mximo ao centro da distribuio e extremos assintticos que nunca tocam o eixo horizontal (tendendo respectivamente a - e + ). Inteiramente descritas por seus parmetros e (mdia e desvio padro). Na realidade, h uma famlia de curvas normais, conforme ilustrado na gura abaixo. Descrevem muitos fenmenos fsicos e nanceiros. Utilizadas para aproximar resultados de outras distribuies (binomial, por exemplo). Uma combinao linear de variveis normalmente distribudas tambm uma varivel normalmente distribuda. Ou seja, se X e Y so VAs normais, Z = a.X + b.Y tambm VA normal (a e b constantes).
Frmulas de clculo
A varivel z equivale distncia entre X e a mdia medida em desvios-padres. Valores positivos para z indicaro que X est direita da mdia. Valores negativos indicaro que X est esquerda. Para encontrar a probabilidade de X em um intervalo, calcule primeiramente z e em seguida consulte a tabela da normal padro. Para encontrar um valor X qualquer a partir da probabilidade, da mdia e do desvio-padro, procure a rea no corpo da tabela e em seguida ache z. Encontre X pela expresso acima. As tabelas usualmente adotadas para o clculo da probabilidade em funo de z, referem-se distribuio normal padronizada, cuja principal caracterstica apresentar mdia nula e desviopadro igual a 1.
Copyright Ibmec
73
Exemplo
74
Copyright Ibmec
DIST.NORM(C;md;dp;log)
Copyright Ibmec
75
Resumo
Iniciamos este mdulo denindo probabilidade como um nmero entre 0 e 1 que mede as chances de determinado evento vir a ocorrer. Dois ou mais eventos podem ser considerados como mutuamente exclusivos, coletivamente exaustivos ou equiprovveis. A frequncia relativa e a frequncia subjetiva so outras abordagens de clculo da probabilidade. As combinaes de eventos podem ser do tipo evento A OU evento B ou evento A E evento B. Para o clculo das probabilidades em combinaes OU necessrio utilizar a lei da Adio, variando ligeiramente sua expresso em funo dos eventos serem ou no mutuamente exclusivos. Nas combinaes E utilizam-se a lei da Multiplicao que varia da mesma forma que as combinaes OU. Apresentamos as principais tcnicas de contagem: diagrama de rvore, regras da adio e da multiplicao, ferramentas indispensveis para lidar com o clculo clssico da probabilidade.
76
Copyright Ibmec
77
Introduo ao Mdulo
Se o faturamento de uma Empresa ABC dobrou este ms, no razovel esperar que seu lucro tenha evoludo? Analisando de outra forma o que tentamos vericar se as variveis citadas, faturamento e lucro lquido, so dependentes ou independentes. Duas variveis A e B sero independentes se os resultados obtidos por A no inuenciarem os resultados obtidos por B, e vice-versa. Se a varivel A inuenciar a ocorrncia da varivel B, A e B sero dependentes. Neste mdulo enfatizaremos o estudo do interrelacionamento entre duas variveis X e Y e abordaremos duas tcnicas especcas: Anlise da Covarincia/Correlao onde a nfase recai na identicao da dependncia entre as variveis, permitindo o clculo da varincia para uma combinao linear de variveis. Anlise de Regresso onde a nfase recai na formalizao do relacionamento entre as variveis atravs de uma equao. Esta tcnica possui o objetivo de projetar o que ocorrer com uma das variveis a partir do conhecimento prvio do que ocorrer com a outra varivel.
Objetivos
Destacar a importncia da Teoria das Probabilidades para a inferncia estatstica, identicando suas diferentes abordagens; Calcular probabilidades de eventos isolados e de eventos combinados; Denir variveis aleatrias, variveis discretas e contnuas e suas respectivas Distribuies de Probabilidades; Determinar e interpretar o signicado do valor esperado, da varincia e do desvio-padro de uma varivel aleatria; Identicar a importncia de se trabalhar com modelos tericos de probabilidade para a simplicao dos clculos; Listar alguns modelos discretos e contnuos de distribuio, indenticando quando e como utiliz-los: Binomial, Normal e Uniforme. Resolver problemas utilizando o EXCEL.
Copyright Ibmec
79
Estrutura do Mdulo
Unidade 1 - Coleta de dados Unidade 2 - Clculo de covarincia Unidade 3 - Clculo do coeciente de correlao Unidade 4 - Combinao de variveis Unidade 5 - Clculo dos parmetros da regresso Unidade 6 - Utilizao de ferramentas do EXCEL
80
Copyright Ibmec
O conceito anterior poder ser ampliado de forma a incluir mais do que duas variveis. X, Y e Z poderiam formar as triplas (X1,Y1,Z1); (X2,Y2,Z2); (X3,Y3,Z3); ..... (XN,YN,ZN). A denio anterior no necessariamente signicar que cada par [ou n-dupla] de valores ocorrer em um instante de tempo distinto.
81
comum designarmos a varivel explicativa ou independente por X, sendo a varivel explicada ou dependente designada por Y. Para estudar a inuncia de mais do que uma varivel explicativa no comportamento da varivel explicada, a tcnica utilizada a Anlise de Regresso Mltipla. Cabe ressaltar que as medidas encontradas usualmente referem-se s relaes entre as variveis tomadas duas a duas. Por esse motivo, trataremos somente da anlise envolvendo duas variveis.
Atravs do diagrama de disperso possvel identicar visualmente: A existncia e o tipo de relacionamento entre as variveis, i.e, um relacionamento positivo (do tipo Y sobe quando X sobe, Y cai quando X cai) ou negativo (do tipo Y sobe quando X cai, Y cai quando X sobe). Na gura ao lado exemplicamos um relacionamento positivo. A forma como o relacionamento ocorre: linear, quadrtico, exponencial e outros. Na gura anterior exemplicamos um relacionamento linear entre X e Y. Nem sempre esta ferramenta permitir a identicao dos relacionamentos. Particularmente, nos casos envolvendo variveis qualitativas ou variveis quantitativas que assumam poucos valores.
82
Copyright Ibmec
Observe a semelhana entre as expresses anteriores e as utilizadas para o clculo da varincia. Ou seja, se fssemos calcular a covarincia entre X e X, recorreramos s expresses para a varincia. O motivo de utilizarmos (n-1) no denominador da covarincia amostral seguir a mesma linha de raciocnio que utilizamos para a varincia amostral. No processo inferencial, sx,y calculado desta forma, ser um estimador no tendencioso de x,y.
Exemplo prtico Conforme clculos efetuados na tabela abaixo, a covarincia populacional ser de 8.062 (M$)2. Se quisssemos apresentar em bases amostrais, encontraramos 8.957,78 (M$)2 (obtidos pela diviso de 80.620 por 9).
Copyright Ibmec
83
CLCULO DA COVARINCIA Empresa XYZ - Valores em M$ Anos 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 Mdias X=Fat 200 300 500 400 600 800 900 900 1.100 1.000 6.700 670 Y=LL 20 35 48 38 56 77 87 83 102 98 644 64,4 X-X -470 -370 -170 -270 -70 130 230 230 430 330 0 0 Y-y -44.4 -29.4 -16.4 -26.4 -8.4 12.6 22.6 18.6 37.6 33.6 0 0 (X-X) x (Y-y) 20.868 10.878 2.788 7.128 588 1.638 5.198 4.276 16.168 11.088 80.620 8.062
Interpretao da Covarincia
Tendo determinado a covarincia, possvel encontrar um valor no nulo (positivo ou negativo) ou um valor nulo.
Para o caso de um valor no nulo, a interpretao ser: x,y > 0: X e Y so dependentes e apresentam relacionamento positivo. Ou seja, se X sobe Y tambm sobe; se X cai, Y tambm cai e vice-versa. x,y < 0: X e Y so dependentes e apresentam relacionamento negativo, ou seja: se X sobe Y cai; se X cai, Y sobe e vice-versa.
84
Copyright Ibmec
Covarincia Positiva
O grco abaixo apresenta um exemplo de covarincia positiva. Observe no Diagrama de Disperso que cada par (x,y) ir gerar um desvio em relao s mdias para X e Y. No quadrante assinalado com (-,-) os desvios sero negativos para X e Y. Consequentemente, seu produto ser positivo. A mesma linha de raciocnio poder ser utilizada para os demais quadrantes. Como a covarincia funo da soma de todos estes produtos, caso as observaes concentrem-se nos quadrantes (-,-) e (+,+), x,y ser positivo. O grco direita ilustra a questo de outra forma. Supondo que X e Y assumam a funo do tempo, uma covarincia positiva indicar movimentos paralelos na mesma direo.
Covarincia Negativa
A gura acima ilustra um exemplo de covarincia negativa. Neste caso, a argumentao similar do exemplo anterior e poder ser adotada para a interpretao dos resultados. Para o caso de um valor nulo preciso deveremos observar que: Se duas variveis forem independentes, necessariamente apresentaro covarincia nula. Mas se duas variveis apresentarem covarincia nula, no necessariamente sero variveis independentes.
Copyright Ibmec
85
Inconvenientes da Covarincia
O resumo das regras e concluses anteriores encontra-se abaixo.
Apesar de servir como indicador para a dependncia de variveis e possuir uma srie de propriedades aritmticas teis para a combinao de variveis, a covarincia apresenta alguns inconvenientes, dentre os quais destacamos: Sua unidade de difcil entendimento. Por exemplo, se X e Y estiverem expressos em $, a covarincia estar expressa em $2. Se X estiver expresso em $ e Y em n de empregados, a covarincia ser expressa em $xn de empregados. uma varivel ilimitada, ou seja, est denida para qualquer valor existente no conjunto de nmeros reais, e consequentemente, no fornecer o grau de dependncia existente entre as variveis. Para contornarmos os inconvenientes apresentados, o Coeciente de Correlao surge como uma boa alternativa.
86
Copyright Ibmec
Considerando que o desvio-padro de qualquer varivel ser sempre um nmero no negativo, o Coeciente de Correlao ter o mesmo sinal da covarincia. Portanto, ser interpretado de forma similar. Quando diferente de zero, indicar dependncia entre as variveis, evidenciando relacionamentos positivos ou negativos. Quando nulo poder indicar independncia entre as variveis ou relacionamentos no lineares. Razo de se preferir armar que, se r=0, as variveis so no correlacionadas. Alm da similaridade com a varincia, o Coeciente de Correlao apresentar tambm as seguintes caractersticas: No possuir unidades, evitando com isso uma das desvantagens que citamos para a covarincia. Ser uma varivel limitada, ou seja, -1 " " 1 (a prova constitui-se em teorema da Estatstica terica). Esta caracterstica permitir a criao de uma escala para a quanticao do relacionamento entre as variveis (r=0,8 signica que X e Y apresentam dependncia maior que W e Z, que possuem r=0,4).
Copyright Ibmec
87
Exemplo prtico Calcule o Coeciente de Correlao existente entre o Faturamento e o Lucro Lquido da empresa XYZ, exemplo j apresentado anteriormente.
J havamos calculado a covarincia e obtido 8.062 M$2. Se calcularmos os desvios-padres para X e Y encontraremos respectivamente 296,82 M$ e 27,26 M$. Assim, o coeciente de correlao ser igual a 0,9964 [= 8.062 / (296,82 x 27,26)].
O Coeciente de Determinao
Face sua caracterstica de oscilar entre -1 e 1, o coeciente de correlao permitir a qualicao do grau de relacionamento entre as variveis. Ou seja, quanto mais prximo de +1 ou de -1, mais forte ser esta relao (ou dependncia). O inverso ocorrer medida que o coeciente aproximarse de zero. Outra alternativa vivel, ser trabalharmos com o Coeciente de Determinao, usualmente denominado de coeciente r2 (coeciente de correlao elevado ao quadrado). O Coeciente de Determinao r2 medir a proporo da variao de Y que poder ser explicada pela variao existente em X.
Outras Informaes
88
Copyright Ibmec
A expresso (1- r2) tambm denominada de Coeciente de Indeterminao e representa a parcela da variabilidade de Y no explicada pela variabilidade de X. Por ser uma medida do relacionamento linear entre as variveis, r e r2 indicaro o maior ou menor afastamento dos pares (Xi,Yi) da reta de regresso linear. Os grcos a seguir ilustram diversos casos de r e r2. Observe que enquanto r preocupa-se com a direo do relacionamento, r2 preocupa-se com a maior ou menor proximidade dos pontos da reta traada.
Copyright Ibmec
89
O primeiro passo ser determinarmos a covarincia entre X e Y. Ser necessrio denir o coeciente de correlao.
Com 60% em X e 40% em Y, utilizaremos as frmulas (a) e (b) apresentadas anteriormente. Admitindo que a=0,60 e b=0,40 chegaremos a:
90
Copyright Ibmec
Observe que foi possvel obter um retorno superior e com risco inferior (1,72% contra 3,00%) ao que voc obteria se investisse somente na produo de ventiladores (5,20% contra 4,00%).
Copyright Ibmec
91
Mesmo estabelecendo uma equao matemtica, a regresso no condio necessria e suciente para determinar relaes de causa-efeito entre as variveis envolvidas. Se tal relao existir, dever ser justicada atravs de alguma teoria econmica, nanceira, cientca etc.
Exemplos prticos 1. Analisando as vendas de um produto em funo dos preos praticados, um analista estabeleceu o seguinte modelo: Venda = 30 - 4 Preo. Neste caso, o modelo conrma a Lei da Demanda da Microeconomia que postula que quanto maior o preo, menor a quantidade demandada (vendida). 2. Ao confrontarmos uma srie histrica dos fechamentos de um ndice da bolsa de valores com o nmero de dias ensolarados, ambos em bases mensais, possvel encontrarmos algum tipo de relacionamento. Entretanto, essa questo no seria justicvel por nenhuma teoria nanceira. Tais modelos, meramente casuais, constituem-se no que os estatsticos denominam de relacionamentos esprios.
92
Copyright Ibmec
A tabela abaixo apresenta o faturamento e o lucro lquido apresentados em 18 meses de operao da Empresa XYZ. O grco representa o diagrama de disperso para as duas variveis estabelecendo uma equao linear interligada.
Dados Emparelhados Empresa XYZ Observao 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Faturamento M$ (X) 25 8 27 10 26 27 29 9 16 14 27 13 20 25 22 25 20 7 Lucro Lquido k$ (Y) 32 14 37 20 37 34 38 18 26 25 37 21 28 36 34 36 31 20
Equao Linear
Desde que a expresso abaixo seja vlida para todo par (Xi,Yi), admitiremos o relacionamento linear entre as variveis envolvidas e teremos estabelecido uma equao.
Copyright Ibmec
93
Na equao acima A refere-se interseo da reta com o eixo vertical e B ao coeciente angular da reta. O termo ei refere-se ao erro, ou resduo, no previsto no modelo, equivalente diferena entre o valor observado Yi e o valor Ypi projetado pela equao de regresso [ei = Yi - Ypi].
No grco acima, e2 corresponde distncia vertical entre a observao Y2 e a reta representativa da equao. Para as demais observaes Yi, tambm ser possvel o clculo dos respectivos erros ei. Considerando que se traarmos retas distintas os erros modicaro, a melhor reta ser aquela que minimizar os erros.
94
Copyright Ibmec
Exemplo Determine os coecientes A e B para a equao de regresso entre o faturamento e o lucro lquido da empresa XYZ.
Caso soubssemos previamente os valores para a covarincia entre X e Y (igual a 54,0062), para a varincia de X (igual a 54,0247) e para as mdias de X e Y (respectivamente iguais a 19,4444 e 29,1111), faramos:
Realizao de Previses
Uma vez obtida a Funo de Regresso Linear Amostral [Ypi=A+BXi], ser possvel utiliz-la para estimar a mdia condicional da populao E(Y|X=X0) a partir de um valor X= X0 conhecido. Para isso, preciso substituir o valor de X0 na equao encontrada.
Copyright Ibmec
95
Exemplo Utilizando os dados do exemplo apresentado anteriormente, estime o valor do lucro lquido para um ms cujo faturamento seja igual a M$ 15.
Para este caso X0=15. Portanto, atravs da equao de regresso encontrada, chegaremos a: Yp0 = 9,6733 + 0,9997 x 15 = 24,6682. Observe que apesar de correto, o valor encontrado para Yp0 apenas uma estimativa pontual do lucro lquido esperado na populao. Quando o faturamento for igual a M$15 e sujeito variabilidade amostral, certamente encontraremos um novo valor para Yp0.
Equivale ao valor da oscilao marginal na varivel explicada [Y] em funo de oscilao marginal de uma unidade na varivel explicativa [X]. Equivale sensibilidade da varivel explicada quanto s mudanas na varivel explicativa. Equivale medida de risco sistemtico, no diversicvel. O coeciente indica a interseo da reta de regresso com o eixo vertical ou o valor esperado para a varivel explicada Y quando a varivel explicativa nula. A interpretao para este coeciente no to simples, pois nem sempre o valor encontrado apresentar signicado econmico/nanceiro relevante. Alm dos coecientes citados, comum publicar-se tambm o coeciente de determinao r 2 associado regresso. Vimos anteriormente que medida que os pares (X,Y) aproximam-se de uma reta, mais prximo de 1 estar r2. Consequentemente, r2 tambm poder ser utilizado para comparar os resultados de regresses distintas desde que respeite algumas restries.
96
Copyright Ibmec
Por exemplo, se a regresso do lucro com o faturamento gerar r2=0,70 e a regresso do lucro com a inao gerar r2=0,80, o melhor modelo ser o ltimo j que apresenta maior valor que o primeiro (80% versus 70%). A situao ilustrada retrata a comparao de duas regresses lineares simples, onde deseja-se explicar o comportamento da mesma varivel. Para comparaes envolvendo diferentes nmeros de variveis explicativas e/ou formas distintas para a varivel explicada, no necessariamente o mtodo conduzir a respostas adequadas.
Copyright Ibmec
97
98
Copyright Ibmec
Resumo
Apresentamos os conceitos de dependncia e independncia aplicados s variveis alm das duas tcnicas disponveis: anlise de correlao e anlise de regresso. Em ambos os tipos de anlise, o primeiro passo ser a realizao da coleta de dados que dever ser feita de forma emparelhada. Supondo duas variveis X e Y quaisquer, armaremos que elas esto emparelhadas quando, a cada observao X, obtivermos uma observao Y ou vice versa. Para variveis numricas, na maioria das vezes, o traado do diagrama de disperso permitir (sem preciso) a identicao de existncia, do tipo e da forma do relacionamento entre as variveis. A covarincia medir quantitativamente o relacionamento entre duas variveis. Quando positiva, indicar que duas variveis esto positivamente relacionadas: quando uma crescer, a outra tambm crescer. Quando negativa, indicar o oposto: quando uma crescer, a outra cair. Tambm possvel medir o relacionamento entre duas variveis atravs do coeciente de correlao. Alm de possuir caractersticas semelhantes covarincia, permite a qualicao do relacionamento entre as variveis. Por m, indicamos as ferramentas do EXCEL para calcular as relaes entre as variveis. Os procedimentos adequados para sua utilizao foram destacados ao nal deste mdulo.
Copyright Ibmec
99
101
Introduo ao Mdulo
Este mdulo aborda a denio da estatstica, sua importncia e principais campos de atuao. Sero apresentadas idias bsicas para a compreenso e aplicao da estatstica no seu cotidiano. Um dos procedimentos da inferncia estatstica bastante til a estimao, tcnica adequada para descobrir, estimar, algum parmetro populacional baseado em dados coletados de uma amostra. Por exemplo: Qual o faturamento mdio das microempresas no Brasil se, ao selecionarmos uma amostra com 100 microempresas, obtivermos faturamento mdio de $200.000 e desvio-padro de $10.000? De uma forma geral, para que os resultados obtidos pelas tcnicas que iremos abordar levem-nos a concluses corretas, ser necessrio realizar trs etapas: Etapa 1: Seleo de amostras no tendenciosas. Etapa 2: Conhecer a distribuio amostral relacionada estatstica estudada. Etapa 3: Realizar os clculos para a determinao do intervalo. Por ser mais intuitivo, apresentaremos o mtodo inicialmente para as mdias sob condies especiais. Ao longo do mdulo, procure compreender a lgica existente nos procedimentos da inferncia estatstica.
Objetivos
Diferenciar amostras probabilsticas das no probabilsticas, denir os principais tipos de amostras e nmeros aleatrios; Denir distribuio amostral, exemplicando as principais caractersticas para o caso da distribuio amostral das mdias: o valor esperado, o erro amostral, o erro padro amostral e o formato da distribuio; Enunciar o Teorema Central do Limite, exemplicando sua utilizao; Estabelecer as etapas para a construo de um intervalo de conana; Construir intervalos de conana para as mdias, exemplicando como ele varia em funo da disperso existente na populao, do nvel de conana preestabelecido e do tamanho da amostra Denir o tamanho ideal da amostra em funo do erro mximo aceitvel; Citar outras distribuies amostrais, associando-as aos modelos tericos de distribuies de probabilidades;
Copyright Ibmec
103
Construir intervalos de conana para propores e para os coecientes da regresso linear; Resolver problemas utilizando o EXCEL
Estrutura do Mdulo
Unidade 1 - Conceitos iniciais de seleo de amostras Unidade 2 - Distribuio amostral Unidade 3 - Construo do intervalo de conana Unidade 4 - Outros intervalos de conana Unidade 5 - Utilizao de ferramentas do EXCEL
104
Copyright Ibmec
Amostra probabilstica
Uma amostra probabilstica caracteriza-se por ser extrada da populao de tal forma que cada item, ou pessoa, tenha as mesmas chances de ser selecionado que os demais. Exemplo Em uma empresa h 1.000 funcionrios, dos quais 75% tm segundo grau completo e os 25% restantes nvel superior. Um processo probabilstico de amostragem dever garantir que as chances de seleo de um funcionrio especco sejam idnticas s chances de seleo de cada um dos demais. Portanto, a probabilidade de um funcionrio selecionado ter segundo grau ser de 75% e, mantendo se o critrio adotado, a proporo de funcionrios com segundo grau em uma amostra tender a reproduzir a proporo encontrada na populao.
Amostra no probabilstica
Supondo as condies do exemplo apresentado anteriormente, uma amostra baseada nos resultados de uma prova sobre Estatstica, certamente seria no probabilstica, j que haveria uma tendncia seleo de uma maior proporo de indivduos de nvel superior. Lembre-se de que esta uma disciplina usualmente ministrada nas faculdades.
Copyright Ibmec
105
Amostra Probabilstica
Supondo as condies da empresa com 1000 funcionrios, caso quisssemos selecionar 50 funcionrios aleatoriamente, poderamos: Escrever o nome de cada um dos 1000 funcionrios em um carto, depositando-os em uma urna e, aps sua mistura, extrair 50 cartes. Atribuir um nmero a cada um dos 1000 funcionrios e depositar 1000 cartes ou chas numeradas na urna, sacudir a urna e retirar 50 cartes. Simular a urna anterior atravs da utilizao de nmeros aleatrios, que podero ser obtidos em tabelas, ou ainda em calculadoras e softwares. A metodologia descrita acima denominada de amostragem aleatria simples. H outros mtodos de amostragem aleatria, sendo o sistematizado e o estraticado os mais comuns. importante ter ateno que nos processos de inferncia as chances de sorteio devem ser iguais para todos os elementos da populao. Verique a bibliograa bsica indicada para conhecer mais detalhes sobre o tema amostragem.
106
Copyright Ibmec
Erros Amostrais
Suponha que, ao selecionar uma amostra com 3 elementos, voc tenha sorteado $3, $4 e $5. Neste caso, a mdia para esta amostra, ou mdia amostral, seria $4,00, gerando um erro de $1. Por outro lado, caso voc tivesse sorteado $3, $5 e $6, sua mdia amostral teria sido $4,67, gerando um erro de $0,33. Os erros apontados no exemplo so denominados erros amostrais e, tratando-se de amostras probabilsticas, sua ocorrncia puramente devida ao acaso. Os erros amostrais variam em funo: Do parmetro em estudo, pois ao estimarmos o valor para o desvio padro populacional, a primeira amostra teria gerado um desvio-padro de s=$1,00 o que nos levaria a um erro de -$0,41 e no os -$1,00 obtidos para a mdia.
Copyright Ibmec
107
Da amostra especicamente selecionada j que cada uma gera um erro distinto. Do tamanho da amostra. Sendo razovel acreditar que, quanto maior o tamanho da amostra em relao ao tamanho da populao, menor dever ser o erro gerado.
n: tamanho das amostras. f: nmero de amostras encontradas. Intervalo: corresponde ao menor intervalo entre duas mdias amostrais consecutivas. Com n=2, a amostra ($3;$3) ir gerar mdia $3. A amostra ($3;$4) ir gerar mdia $3,5, e assim sucessivamente. As mdias amostrais neste caso estaro espaadas em $0,50. Mdia: corresponde s mdias das mdias amostrais. Se calcularmos a mdia das mdias amostrais encontradas para as 25 amostras com n=2, chegaremos a $5,00, e assim sucessivamente. Varincia: corresponde s varincias das mdias amostrais. Se calcularmos a varincia das mdias amostrais encontradas para as 25 amostras com n=2, chegaremos a $2, e assim sucessivamente. Desvio-padro: corresponde ao desvio-padro das mdias amostrais. Se calcularmos o desviopadro das mdias amostrais encontradas para as 25 amostras com n=2, chegaremos a $1,41, e assim sucessivamente.
108
Copyright Ibmec
Frmulas
O resultado anterior to importante, que base de um dos mais importantes teoremas da Estatstica: Teorema Central do Limite.
Copyright Ibmec
109
Utilizando as frmulas, observaremos que a mdia das mdias, ou valor esperado das mdias, ser igual a 70,00 e o desvio-padro, ou erro-padro, para as mdias amostrais ser igual a 1,00, conforme abaixo.
As mdias amostrais iro se comportar de acordo com uma Normal, pois atravs do Teorema Central do Limite, com amostras de 30 elementos em diante, o formato da distribuio da populao no importante. Em uma Normal, para garantirmos 95,44% de probabilidade no centro, necessrio delimitar um intervalo que compreenda dois desvios-padres esquerda e dois desvios-padres direita da mdia, o que, para os dados do problema, nos dar: [70 2 1; 70 + 2 1] = [68 72].
O grande problema da abordagem anterior que partimos do conhecimento completo da populao para chegarmos ao comportamento das amostras.
110
Copyright Ibmec
Na prtica, precisaremos realizar o caminho oposto, ou seja, partirmos do conhecimento de uma amostra para inferirmos algo sobre a populao. Vericaremos mais informaes sobre esse assunto na prxima unidade.
Copyright Ibmec
111
1. Aps a coleta dos dados amostrais, calcule a estimativa pontual (T) para o parmetro a ser estimado, o que no caso da mdia corresponde mdia amostral ; 2. Determine o erro-padro da estimativa (E), o que no caso das mdias, corresponde a ; 3. Estabelea o nvel de conana desejado, ou seja, qual a probabilidade de acerto do procedimento; 4. Verique qual a distribuio amostral adequada varivel em estudo e, com base no nvel de conana estabelecido em (3), determine seus ndices i; o que no caso das mdias signica encontrar o valor de z na Normal; 5. O intervalo de conana ser dado por:
O roteiro anterior ser sempre vlido para populaes normalmente distribudas, independente do tamanho da amostra, e com conhecido; Para populaes no normalmente distribudas, o roteiro anterior ser vlido desde que n 30; Veja adiante como proceder para o caso do desvio-padro populacional ser desconhecido.
112
Copyright Ibmec
Exemplos Prticos
Exemplo 1 Voltando populao com mdia 70 e desvio-padro de 5,48, suponha que um consultor, contratado para estimar a mdia populacional, aps coletar uma amostra com 30 elementos, tenha obtido uma mdia amostral de 69. Considerando um nvel de conana de 95,44%, qual o intervalo que ele dir ao contratante? Admita que, por pesquisa j divulgada anteriormente, o consultor saiba qual o desvio-padro existente na populao.
Aplicando o roteiro citado teremos: Etapa 1: J calculada, ou seja X = 69. Etapa 2: Utilizaremos a frmula ajustada pelo fator de correo.
Etapa 3: J estabelecida, equivale a 95,44%. Etapa 4: Como estamos trabalhando com mdias e conhecemos o desvio padro populacional, a distribuio amostral ser de acordo com uma distribuio normal. Se desejamos 95,44% de conana, procuraremos na tabela o valor de z equivalente a uma rea de 0,4722 (=0,9544/2), o que nos dar z igual a 2. Etapa 5: O intervalo de conana IC ser igual a: IC = 69 - 2 x 1 <= <= 69 + 2 x 1 = [67 <= <= 71].
Copyright Ibmec
113
Exemplo 2
Neste caso, a nica alterao em relao resoluo anterior ser na Etapa 1, alterando o intervalo de conana gerado: IC = 72 - 2 x 1 <= <= 72 + 2 x 1 = [70 <= <= 74]
114
Copyright Ibmec
Pelas respostas dadas nos exemplos anteriores, fcil concluir que o IC gerado pelo consultor ser modicado conforme a mdia amostral obtida, e seguindo a regra: ( -2,00 +2,00). A tabela a seguir simula alguns resultados e os intervalos gerados.
Intervalo de Confiana para a Mdia
Amostra 1 2 3 4 . n
X 69 72 70 66 . 71
Intervalo 67 - 71 70 - 74 68 - 72 64 - 68 . 69 - 73
Analisando a simulao da tabela, percebemos que as amostras 1,2,3 e n geraram intervalos contendo a mdia real da populao. Entretanto, a amostra 4 no gerou intervalos pois a mdia real da populao (=70) no faz parte do intervalo considerado (=64-68).
Ou seja, desde que as mdias amostrais estejam no intervalo 68 72, o pesquisador ir gerar um IC contendo a mdia.
Copyright Ibmec
115
Qual a probabilidade disso ocorrer? Conforme j calculado anteriormente, tais chances sero de exatos 95,44%, justamente o nvel de conana preestabelecido. A gura abaixo resume os conceitos relevantes.
O nvel de conana estabelecer o percentual de vezes que os intervalos de conana gerados, a partir das tcnicas citadas, apresentaro o parmetro populacional em estudo.
Como ser necessrio determinar o tamanho da amostra, resolveremos a equao anterior considerando n como incgnita.
116
Copyright Ibmec
Ou seja:
Portanto, o nmero de elementos na amostra ir variar em funo dos fatores: O nvel de conana desejado (representado por z): quanto maior , maior z e mantidas as demais variveis da frmula constantes, maior ser o tamanho n; A disperso : quanto maior , maior e portanto maior n; O erro mximo aceitvel: quanto menor o erro, maior o tamanho n.
Erro Mximo
Voltando aos enunciados anteriores, qual o tamanho da amostra necessria para que tivssemos um erro mximo de 0,5, ao invs dos 2,00?
O valor encontrado dever ser arredondado para cima; No exemplo em anlise, o desvio-padro foi fornecido como dado do problema. Na prtica, caso ele seja desconhecido, uma amostra piloto poder ser realizada com o objetivo de estimar este valor.
Copyright Ibmec
117
Observaes O roteiro anterior ser sempre vlido para populaes normalmente distribudas, independente do tamanho da amostra e com desconhecido. Na prtica, para amostras com n 30, utiliza-se a distribuio normal como aproximao da distribuio de student. Para n < 30, obrigatria a utilizao de Student. Para populaes no normalmente distribudas, sendo n 30, utilizaremos o teorema central do limite ( normalmente distribuda com desvio padro dado pela frmula). O formato da distribuio de student semelhante ao da distribuio normal, porm um pouco mais largo, apresentando maior disperso dos valores. Em outras palavras, quando utilizarmos esta distribuio, os valores que encontrarmos para t sero maiores em termos absolutos que os correspondentes valores de z na Distribuio Normal, gerando intervalos de conana maiores (com extremos mais afastados). A razo de tal procedimento reside no fato de utilizarmos o desvio-padro s como estimativa do desvio-padro . Ao adotarmos tal critrio, substituiremos um parmetro populacional xo por uma estatstica que apresenta elevada volatilidade. Consequentemente, para garantirmos o mesmo nvel de conana pretendido, necessrio aumentar o intervalo de conana das estimativas.
Intervalo
Deseja-se estimar a mdia salarial dos trabalhadores de um determinado setor. Sabe-se de outras
118
Copyright Ibmec
pesquisas que os salrios nestes nveis so normalmente distribudos. Coletando-se os salrios de 15 indivduos selecionados aleatoriamente, chegou-se mdia de $150 e desvio-padro de $20. Qual o intervalo para a mdia salarial da populao com 95% de conana. Utilize Student e Normal.
Seguindo o roteiro citado anteriormente, teremos: Etapa 1: J calculada, X = 150. Etapa 2: Utilizaremos a frmula com s no lugar de
Etapa 3: J estabelecida, equivale a 95,00%. Etapa 4: Utilizaremos a Distribuio t de Student com (15 1=14) graus de liberdade. Para um nvel de 95% de conana em torno da mdia, sobraro 2,5% de rea sob a curva de cada lado. Portanto, o valor de t ser encontrado na interseo da linha, onde gl=14 com a coluna correspondente a 2,50%, t=2,1448. Etapa 5: O intervalo de conana IC ser igual a: IC = 150 - 2,1448 x 5,16 150 + 2,1448 x 5,16 IC = [138,92 161,08] Normal Igual resoluo anterior com as etapas 4 e 5 modicadas. Etapa 4: 95% dos valores ao redor da mdia, iro se situar entre z = -1,96 e z = + 1,96, obtidos a partir de S = 0,95/2 = 0,475. Etapa 5: O intervalo de conana IC ser igual a: IC = 150 - 1,9600 x 5,16 150 + 1,9600 x 5,16 IC = [139,88 < < 160,12]
Copyright Ibmec
119
Intervalo Student
A gura abaixo apresenta os valores envolvidos do exemplo anterior. O intervalo obtido pela student maior que o obtido pela normal.
Note que a diferena encontrada devida aos valores distintos de t e z. Se o tamanho da amostra aumentar esta diferena tender a se reduzir.
120
Copyright Ibmec
Exemplo prtico Uma pesquisa de mercado realizada em 200 domiclios de uma regio revela que 150 consomem determinado produto. Construa o intervalo de conana a 95%.
Copyright Ibmec
121
Aplicando-se o roteiro padronizado, faremos: Etapa 1: Clculo do estimador pontual: = 150 / 200 = 0,75. Etapa 2: Clculo do erro-padro:
Etapa 3: Nvel de Conana: NC=95%. Etapa 4: Seguindo o roteiro, utilizaremos a normal. Atravs da tabela, procuraremos z correspondente rea de 0,4750 [=0,95/2]. Chegaremos a z = 1,96. Etapa 5: O intervalo de conana IC ser igual a: IC = 0,75 1,96 x 0,0306 0,75 + 1,96 x 0,0306 = (0,69 0,81).
122
Copyright Ibmec
Os asteriscos ao lado de A e B foram propositalmente colocados para diferenciar varincias e erros-padres dos estimadores A e B de varincias e desvios-padres para duas variveis quaisquer A e B. Nas expresses anteriores, o termo Y|X corresponder ao desvio-padro dos erros em torno da reta de regresso. Na frmula, aplicamos o conceito populacional, mas no caso de voc trabalhar com uma amostra, substitua o N das expresses por (n 2), encontrando assim sY|X. Trabalhando com amostras, substitua Y|X por sY|X para encontrar o erro-padro do B, em sua verso amostral (sB*). Trabalhando com amostras, substitua B* por sB* para encontrar o erro-padro do A, em sua verso amostral (sA*). No se preocupe com o excesso de contas a serem efetuadas, pois a maioria dos softwares que realizam clculos estatsticos fornecero os resultados automaticamente.
Exemplo prtico 2 As colunas X e Y da tabela a seguir relacionam o faturamento (X) e o lucro lquido (Y) da Empresa XYZ. Determine Os coecientes A e B da regresso.
Copyright Ibmec
123
Admitindo que voc esteja fazendo os clculos e no utilizando o EXCEL para chegar s respostas, faremos:
Faturamento x Lucro Lquido Empresa XYZ Dados Obs. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Mdia X 25 8 27 10 26 27 29 9 16 14 27 13 20 25 22 25 20 7 350 19,44 Y 32 14 37 20 37 34 38 18 26 25 37 21 28 36 34 36 31 20 524 29,11
Copyright Ibmec
Clculo A e B X 625 64 729 100 676 729 841 81 256 196 729 169 400 625 484 625 400 49 7.778 XY 800 112 999 200 962 918 1.102 162 416 350 999 273 560 900 748 900 620 140 11.161
Clculo erro-padro estimativa Yp 34,66 17,67 36,66 19,67 35,66 36,66 38,66 18,67 25,67 23,67 36,66 22,67 29,67 34,66 31,67 34,66 29,67 16,67 e=(Y-Yp) -2,66 -3,67 0,34 0,33 1,34 -2,66 -0,66 -0,67 0,33 1,33 0,34 -1,67 -1,67 1,34 2,33 1,34 1,33 3,33 0,00 e=(Y-Yp) 7,10 13,47 0,11 0,11 1,78 7,10 0,44 0,45 0,11 1,77 0,11 2,79 2,78 1,78 5,45 1,78 1,78 11,08 60,00
124
a. Para o clculo dos coecientes A e B atravs das frmulas adequadas, precisaremos encontrar alguns somatrios, razo da incluso da quarta e quinta coluna na tabela.
b. Como o erro a diferena entre o valor observado para Y e sua projeo Yp feita pela reta de regresso, o primeiro passo encontrar cada projeo para, em seguida chegarmos a cada erro. Isto foi feito na sexta e stima coluna da tabela. Yp = A + BX = 9,6733 + 0,9997 x 8 = 17,67 e = Y Yp = 14 17,67 = 3,67 c) O erro-padro da estimativa obriga-nos a calcular a soma dos quadrados dos erros, o que foi feito na ltima coluna da tabela.
Copyright Ibmec
125
INVT(prob;gl)
126
Resumo
Abordamos o conceito de amostra probabilstica e o cuidado necessrio para denir quais sero os dados que formaro uma amostra para evitar qualquer tipo de inconsistncia. Apresentamos os procedimentos necessrios para a construo da distribuio amostral no caso das mdias, crucial para denio da teoria central do limite e dos intervalos de conana. Como os intervalos de conana so centrados na mdia amostral, para encontrar o erro amostral mximo, preciso determinar o tamanho da amostra por meio de expresses matemticas. A denio dos intervalos de conana e para os coecientes de regresso linear tambm denida por clculos especcos. Para auxiliar todos esses clculos, mostramos as ferramentas disponibilizadas pelo Excel e a forma de utiliz-las para calcular os intervalos de conana.
Copyright Ibmec
127
REFERNCIAS BIBLIOGRFICAS
129
Copyright Ibmec
131