Sei sulla pagina 1di 131

CURSO

ESTATSTICA

RJ

Reviso: Jul. 2012.

Zentgraf, Roberto Z56f 2011. 132p.; 20x26 cm Inclui bibliograa 1. Aplicaes da Estatstica 2. Medidas Descritivas para uma Varivel 3. Probabilidades 4. Relao entre Variveis 5. Inferncia: intervalos de Conana I. Zentgraf, Roberto II. Ibmec Online III. Ttulo CDD: 311.2 Estatstica/ Roberto Zentgraf So Paulo: Grupo Ibmec Educacional,

Grupo Ibmec Educacional 2 Edio - 2011

RJ

Sumrio
ABERTURA DO CURSO ....................................................................... Carta ao aluno ......................................................................................... Currculo resumido do professor-autor .................................................... Introduo................................................................................................ Objetivos.................................................................................................. Diretrizes Pedaggicas............................................................................ MDULO 1: Aplicaes da Estatstica Unidade 1 - Conceitos Iniciais ................................................................. Unidade 2 - Utilizao de Dados ............................................................. Unidade 3 - Utilizao de Grcos .......................................................... Unidade 4 Utilizao de Ferramentas do Excel ................................... Resumo ................................................................................................... MDULO 2: Medidas Descritivas para Uma Varivel Unidade 1 - Tipos de Medidas Descritivas .............................................. Unidade 2 Varincia e Desvio-Padro ................................................. Unidade 3 Informaes Discrepantes .................................................. Unidade 4 Clculo de Indicadores para dados Agrupados .................. Unidade 5 Utilizao das Ferramentas do Excel .................................. Resumo ................................................................................................... MDULO 3: Probabilidades Unidade 1 - Denio e Abordagens....................................................... Unidade 2 - Combinao de Eventos ...................................................... Unidade 3 Variveis Aleatrias e Distribuies de Probabilidade .................................................................. Unidade 4 Valores Esperados, Varincias e Desvios-Padres ............
Copyright Ibmec

05 05 06 07 07 07

12 15 20 23 24

28 37 43 45 49 50

55 59 64 67

Unidade 5 - Modelos de Distribuio de Probabilidade..................... 69 Unidade 6 - Utilizao das Ferramentas do Excel ............................ 75 Resumo ............................................................................................. 76 MDULO 4: Relao Entre Variveis Unidade 1 - Coleta de Dados ............................................................ 81 Unidade 2 - Clculo de Covarincia .................................................. 83 Unidade 3 - Clculo do coeciente de correlao ............................. 87 Unidade 4 - Combinao de Variveis .............................................. 90 Unidade 5 - Clculo dos Parmetros da Regresso ......................... 92 Unidade 6 -Utilizao das Ferramentas do Excel ............................ 98 Resumo ............................................................................................. 99 MDULO 5: Inferncia: intervalos de Conana Unidade 1 - Conceitos Iniciais de Seleo de Amostras ................... 105 Unidade 2 - Distribuio Amostral ..................................................... 107 Unidade 3 - Construo do Intervalo de Conana .......................... 112 Unidade 4 - Outros Intervalos de Conana ..................................... 121 Unidade 5 - Utilizao das Ferramentas do Excel ............................ 126 Resumo ............................................................................................. 127 REFERNCIAS BIBLIOGRFICAS .................................................. 129

Copyright Ibmec

Abertura do Curso
Carta ao Aluno
Caro(a) aluno(a), O presente estudo apresentar de forma gradual e objetiva os principais fundamentos da Estatstica com exemplos prticos e atuais. o resultado de minha experincia em sala de aula de mais de 16 anos, em cursos de graduao e ps-graduao. Espero que voc, ao longo dos diversos mdulos, com o acompanhamento do seu professor online, ganhe conhecimento e segurana para lidar com as questes estatsticas do seu dia a dia, pessoal e prossional.

Um grande abrao, Roberto Zentgraf (Professor-autor)

Copyright Ibmec

Currculo resumido do professor-autor


Roberto Zentgraf Engenheiro Civil (UFRJ) com ps-graduaes em Anlise de Sistemas (PUC), em Finanas (Ibmec) e Mestre em Engenharia de Produo (UFF). Aps trabalhar na Esso, ingressou na rea acadmica, sendo atualmente Professor e Coordenador do MBA em Finanas do Ibmec/RJ e do MBA em Gesto de Negcios. tambm autor dos livros Matemtica Financeira Objetiva e Estatstica Objetiva, foi colunista do jornal O Dia e hoje articulista semanal do jornal O Globo, um dos maiores veculos de comunicao do pas. Alm disso, Roberto Zentgraf mantm o blog Voc Investe, hospedado no site www.oglobo.com.br.

Copyright Ibmec

Introduo
O curso apresentar, de forma gradual e objetiva, os principais fundamentos da Estatstica e suas principais funes existentes, com exemplos prticos e atuais, resolvidos por meio de frmulas e por planilha Excel. Bem vindo ao curso de Estatstica!

Objetivos
Aps concluir o curso Estatstica, voc ser capaz de: Aplicar os principais fundamentos da Estatstica. Utilizar as funes estatsticas existentes no software EXCEL. Compreender a base terica para contedos mais avanados, como Inferncia Estatstica, Econometria, Pesquisa de Mercado, Anlise Multivariada etc. Avaliar situaes reais e casos prticos atravs do uso da Estatstica no processo de tomada de decises.

Diretrizes pedaggicas
Tenha sempre em mente que voc o principal agente de sua aprendizagem! Para um estudo ecaz, siga estas dicas: Organize o seu tempo e escolha o melhor horrio do dia para estudar. Consulte a bibliograa e o material de apoio caso tenha alguma dvida. Releia o contedo sempre que achar necessrio.

Copyright Ibmec

MDULO 1 Apicaes da Estatstica

Introduo ao Mdulo
Este mdulo aborda a denio da estatstica, sua importncia e principais campos de atuao. Sero apresentadas idias bsicas para a compreenso e aplicao da estatstica no seu cotidiano.

Objetivos
Denir Estatstica, sua importncia e principais campos de atuao; Diferenciar uma populao de uma amostra; Diferenciar entre a Estatstica Descritiva e a Inferencial; Identicar os tipos de dados e seus nveis de informao; Trabalhar com conjunto de dados e deles extrair grande quantidade de informaes, atravs de sua classicao e/ou montagem de Distribuies de Frequncias; Identicar os principais tipos de grcos utilizados pela Estatstica; Filtrar informaes incorretamente veiculadas atravs de grcos; Resolver problemas utilizando o EXCEL.

Estrutura do Mdulo
Unidade 1 - Conceitos iniciais Unidade 2 - Utilizao de dados Unidade 3 - Utilizao de grcos Unidade 4 - Utilizao de ferramentas do EXCEL

Copyright Ibmec

11

Unidade 1 Conceitos Iniciais


Dados Estatsticos
Diariamente so divulgados dados estatsticos em jornais e revistas com o intuito de garantir a veracidade de informaes. Conhea alguns exemplos:

Pesquisas de opinio: No jornal de hoje, uma pesquisa do IBOPE revela que, no horrio nobre, 60% dos televisores estiveram sintonizados na Rede Globo (...) ndices comparativos: Um estudo revela que, enquanto nas naes desenvolvidas o ndice de desperdcio na construo civil de cerca de 5%, no Brasil desperdia-se 20% aproximadamente (...) Anlises de mercado: Revista especializada em Finanas revela que, nos ltimos 6 meses, as aes que mais se valorizaram foram as de empresas ligadas gerao e distribuio de energia eltrica e de telecomunicaes (...)

Campos de Atuao da Estatstica


Estatstica cincia que utiliza mtodos (coleta, organizao, resumo, apresentao de grcos) para analisar dados. A Estatstica pode ser aplicada em praticamente todas as reas do conhecimento humano. Por esse motivo, uma matria que pouco a pouco vem perdendo o seu carter terico e se fazendo presente em nosso dia a dia. Conhea alguns dos campos de sua atuao: Marketing: Com o objetivo de avaliar a reao do consumidor a um novo produto, algumas empresas distribuem seus lanamentos inicialmente em Curitiba e, com base na aceitao do mercado, decidem pela distribuio em escala nacional. Mdia: A audincia alcanada em determinado horrio e canal dene o preo a ser cobrado aos anunciantes pela veiculao de suas propagandas. Controle de Qualidade: Em uma linha de montagem, algumas peas so aleatoriamente testadas. A partir dos resultados, determina-se a aceitao ou rejeio do lote. Medicina: possvel avaliar a eccia de um medicamento atravs dos resultados observados no controle de pacientes com determinada doena.

12

Copyright Ibmec

Poltica: As pesquisas realizadas antes das eleies permitem aos candidatos a reviso de suas estratgias na campanha. Anlise de Investimentos: Antes de comprar e/ou vender uma ao, o administrador de um Fundo de Penso analisa parmetros estatsticos como resultados anteriores, mdias, projees, desvios-padres, correlao com o mercado etc.

Nas situaes descritas, as decises tomadas com base nos insumos estatsticos sero consideradas duvidosas, j que no necessariamente essas previses se concretizaro. Um dos objetivos da Estatstica mensurar tal incerteza, reduzindo as possibilidades de erro e, consequentemente, estabelecendo parmetros de conabilidade.

Populao e Amostra
Nos estudos estatsticos, uma populao, tambm chamada de Universo, pode ser denida como o grupo ou conjunto de indivduos no qual ser realizada a coleta, apresentao e anlise de dados. J a amostra denida como uma parte ou subconjunto da populao. Veja os exemplos na tabela abaixo.
POPULAO A Os brasileiros que votaram nas ltimas A1 eleies. A2 As peas produzidas em determinado setor B1 de uma indstria na semana passada. B2 Os gastos efetuados pelos consumidores em uma lanchonete no perodo de um ano. C1 C2 AMOSTRA Os eleitores maiores de 40 anos. 1000 eleitores selecionados aleatoriamente. As peas produzidas na 6 feira. 20 peas escolhidas aleatoriamente. As despesas feitas por estudantes do ensino mdio. As despesas feitas por consumidores selecionados aleatoriamente.

Na prtica, os conceitos de populao ou amostra sero relativos, isto , dependero do tipo de trabalho que ser realizado com os dados coletados.

Copyright Ibmec

13

Estatstica Descritiva
A estatstica descritiva o conjunto de tcnicas e procedimentos destinados organizao e ao sumrio dos dados. Suas tcnicas podem ser aplicadas nos dados coletados a partir de populaes (censo) ou a partir de amostras (amostragem). Nesta fase da pesquisa, necessrio descrever os dados! A partir dos preos dos imveis publicados nos classicados dos jornais, a estatstica descritiva possibilitar: Ordenar os valores obtidos em forma crescente/decrescente. Agrupar os valores obtidos em classes. Representar gracamente os valores. Determinar os valores mdios, os valores mais frequentes. Determinar a disperso dos valores obtidos.

Estatstica Inferencial
A estatstica inferencial abrange as tcnicas e procedimentos destinados descoberta de algum dado acerca de uma populao. Os dados coletados podem ser extrados de uma ou mais amostras.

Antes de uma eleio, os institutos de pesquisa entrevistam 2000 pessoas e, com base em suas respostas, conseguem antecipar o resultado da eleio. Em uma sorveteria experimentamos determinado sabor para decidirmos se levaremos ou no a embalagem de dois litros. Observe que nos exemplos apresentados, concluses foram baseadas de acordo com o resultado coletado em pequenas amostras: os 2000 eleitores e a prova do sorvete. Em outras palavras, foram realizadas inferncias acerca das respectivas populaes.

14

Copyright Ibmec

Unidade 2 - Utilizao de Dados


Tipos de Dados e Seus Nveis de Informao
A tabela a seguir apresenta as diversas categorias de dados e seus respectivos nveis de informao.
DADOS FORMATO Por Categoria Qualitativos Classificados Ordinal NVEL DE INFORMAO Nominal EXEMPLO Agrupar os indivduos de uma sala de aula por sexo ou por religio. Agrupar os indivduos de uma empresa por nvel de escolaridade (Ensino Fundamental, Mdio, Superior). Escalas de temperatura: Se um corpo A est a 20oC [Celsius] e um corpo B a 10oC no possvel afirmar que A duas vezes mais quente que B, pois, se usssemos a escala Kelvin (K), a relao j no seria de 2 para 1. Quantitativos Indivduos agrupados de acordo com sua renda mensal. O zero representar indivduos sem renda, o $100 indivduos com renda duas vezes maior que os de renda $50. Observe que mesmo que faamos uma converso para outra escala, a razo entre as duas classes permanecer de 2 para 1.

Numrico

Intervalar

Numrico

Racional

Coleta de Dados
Apesar de ser muitas vezes negligenciada, atravs da coleta de dados que se obtm as informaes necessrias para a montagem e conrmao dos modelos formulados. A partir dessa etapa, possvel denir os recursos (tempo, computadores, capital, mo-de-obra) que sero utilizados no estudo estatstico.

Copyright Ibmec

15

Exemplo prtico Com a proximidade do vero, uma agncia de viagens decidiu intensicar sua propaganda e para aprimorar seus esforos enviou um questionrio a seus potenciais clientes. Uma das perguntas foi: Quanto voc gastou em suas ltimas frias? O resultado obtido entre 60 clientes encontra-se na tabela abaixo.
DADOS BRUTOS Gastos efetuados nas ltimas frias 950 1.200 2.000 900 870 1.050 670 1.250 1.200 1.100 750 800 800 1.250 1.100 1.150 950 1.700 1.350 2.000 1.600 1.400 1.500

1.050 1.500 1.100 1.300 2.150 700

1.280 1.500 1.800 1.700 1.800 1.300 450 1.900 1.350 1.390 870

1.420 2.100 1.280 2.000 900 1.200

1.750 1.650 1.750 1.550 1.450 1.250 900 1.200

1.380 1.450 1.000 1.700

1.550 1.300

A tabela, apesar de completa, demonstra algumas inconsistncias. Os dados listados so apresentados em sua forma bruta (rol, raw data). A anlise das informaes torna-se mais trabalhosa visto que demanda esforos adicionais do observador. Por exemplo, no possvel identicar qual o maior gasto, o menor, e assim sucessivamente.

Ordem dos Dados


Ordenao de Dados uma tcnica simples, tambm conhecida por classicao ou sort, que consiste em arrumar os dados em alguma sequncia. Com esse procedimento possvel encontrar informaes com rapidez alm de apresentar os dados com maior elegncia e clareza. Porm, dependendo da quantidade de valores, o processo de ordenao poder consumir razovel tempo de execuo. Exemplo disso seria a arrumao de discos em uma estante em ordem alfabtica.

16

Copyright Ibmec

Exemplo prtico Os dados apresentados anteriormente na tabela Gastos efetuados nas ltimas frias foram ordenados para facilitar a observao das informaes como: o menor/maior gasto e mdia de gastos. Veja a tabela abaixo.
DADOS ORDENADOS Gastos efetuados nas ltimas frias 450 670 700 750 800 800 870 870 900 900 900 950 950 1.000 1.050 1.050 1.100 1.100 1.100 1.150 1.200 1.200 1.200 1.200 1.250 1.250 1.250 1.280 1.280 1.300 1.300 1.500 1.750 1.300 1.500 1.750 1.350 1.500 1.800 1.350 1.380 1.550 1.800 1.550 1.900

1.390 1.600 2.000 1.400 1.420 1.450 1.450 1.650 2.000 1.700 2.000 1.700 1.700 2.100 2.150

Alterar a ordem dos dados originais nem sempre desejvel. Suponha que exista uma listagem com os nomes ordenados alfabeticamente na primeira coluna e o gasto em frias na segunda. Caso seja necessrio no perder a ordem alfabtica, uma alternativa ser inserir uma terceira coluna na qual acrescentaremos a posio, ou o ranking, que o valor correspondente ao gasto ocupa em relao aos demais. Chamamos este tipo de classicao de ordenao por postos.

Distribuio de Frequncias
Uma outra forma de apresentar dados quantitativos e/ou qualitativos atravs da Distribio de Frequncias (DF). Esse procedimento denido como o agrupamento dos dados em uma tabela contendo classes (ou categorias) e o nmero de ocorrncias (ou freqncia) em cada categoria.

Copyright Ibmec

17

Verique abaixo as sugestes para a montagem de uma DF. 1. Encontre o maior e o menor valor dentre os dados observados. 2. Determine a amplitude total, diminuindo o menor do maior valor encontrado em (1). 3. Determine o nmero de classes desejadas. 4. Calcule a amplitude, intervalo, de classe (AC) dividindo a amplitude total determinada em (2) pelo nmero de classes estabelecido em (3). Arredonde o resultado para cima. 5. Escolha um valor ligeiramente superior ao menor valor encontrado em (1). Este ser o limite inferior da primeira classe (LI1). 6. Encontre os limites inferiores de cada uma das demais classes. Some a amplitude de classe ao limite inferior da classe precedente (LI2=LI1+AC; LI3=LI2+AC etc.). Observe que o limite superior (LS) de cada classe ser igual ao limite inferior da classe seguinte (LS1=LI2; LS2=LI3 etc.). 7. Conte as ocorrncias em cada classe e preencha a DF. Ateno! Supondo uma varivel X qualquer, usual que em uma classe C a contagem obedea ao critrio: LIC < X LSC. 8. Totalize o nmero de ocorrncias contadas. 9. Se necessrio, calcule o percentual de ocorrncias de cada classe em relao ao total.

Dicas - Distribuio de frequncias

Sempre que possvel, utilize classes de mesma amplitude, exceto os casos onde o critrio levar as classes vazias (sem nenhuma ocorrncia). Utilize um nmero de classes que permita a obteno de mais informaes sobre os dados em estudo. Evite um nmero muito alto ou muito baixo de classes.

18

Copyright Ibmec

Algumas Observaes
Com base no exemplo da tabela Gastos efetuados nas ltimas frias elaboramos a distribuio de frequncias no cumulativas listadas a seguir.
DISTRIBUIO DE FREQUNCIAS Classes $400 < Gastos $600 $600 < Gastos $800 $800 < Gastos $1.000 $1.000 < Gastos $1.200 $1.200 < Gastos $1.400 $1.400 < Gastos $1.600 $1.600 < Gastos $1.800 $1.800 < Gastos $2.000 $2.000 < Gastos $2.200 Totais N de Observaes 1 5 8 10 13 9 8 4 2 60 Percentual (%) 1,67 8,33 13,33 16,67 21,67 15,00 13,33 6,67 3,33 100,00

Observaes: Os valores constantes na ltima coluna da tabela sero obtidos atravs da diviso da frequncia existente em cada uma das classes pelo total de observaes. As DFs que relacionam apenas os percentuais so denominadas Distribuies de Frequncia Relativas. J as DFs que relacionam apenas os resultados da contagem dos valores so denominadas de Distribuies de Frequncia Absolutas. Um valor que ir desempenhar importante papel nos clculos envolvendo as Distribuies de Frequncia ser o PONTO MDIO DE CLASSE, equidistante dos limites extremos de cada classe. Na tabela, o ponto mdio da 2 classe ser de $700 [=(600+800) 2].

Copyright Ibmec

19

Unidade 3 Utilizao de Grcos


Utilizao dos Grcos no Cotidiano
A utilizao dos grcos muito frequente para representar os mais diversos fenmenos em nossa cultura. Nas notcias dirias dos jornais vericamos um alto nmero de grcos divulgados em suas pginas. Os grcos so adotados em pesquisas estatsticas, variando em seus formatos e denies, sempre mantendo em comum a caracterstica de enfatizar aspectos pouco evidentes em uma anlise apenas numrica. A partir de agora voc conhecer diferentes formas de representar gracamente os dados estatsticos.

Histogramas e Polgonos de Frequncia


Histogramas e polgonos de frequncia so grcos apropriados para a representao das distribuies de frequncias no cumulativas. Histograma ou grco de barras formado por diversos retngulos cuja rea proporcional frequncia observada. Polgonos de Frequncia so formados a partir da unio dos pontos mdios de um histograma, onde a rea delimitada entre o eixo horizontal e os segmentos de reta proporcional frequncia observada.

20

Copyright Ibmec

Particularidades dos histogramas e polgonos de frequncia

Nos histogramas envolvendo variveis quantitativas, o eixo horizontal dever estar em escala. Consequentemente, se uma classe tiver amplitude diferente das demais, a altura do retngulo dever ser ajustada, de forma a reetir a proporcionalidade existente entre a frequncia e a rea do retngulo. A maioria dos softwares utilizados para gerar histogramas considera os valores da escala horizontal como texto. medida que os segmentos de reta de um grco polgono de frequncia tornam-se mais suaves, o polgono traado tende a formar uma curva, denominada curva de frequncia.

Grcos Ogiva
Os grcos ogiva (ou polgonos de frequncias acumuladas) so apropriados para a representao das distribuies de frequncias cumulativas. No exemplo ao lado, o eixo horizontal representa a varivel em estudo e o eixo vertical a frequncia cumulativa observada.

Outros Tipos de Grcos


Grcos de Linha ou Grcos XY relacionam a evoluo da varivel Y em funo da varivel X. O grco abaixo relaciona o tempo (X) ao volume nanceiro de vendas (Y). Grcos de Torta ou (Pie Charts) so grcos onde a rea de cada fatia corresponde participao da classe em relao ao todo. O grco abaixo apresenta as diversas categorias vericadas para os possveis gastos de frias dos clientes de uma agncia de viagens. A fatia destacada corresponde classe dos maiores gastos.

Copyright Ibmec

21

Diagramas de Disperso
Diagramas de Disperso ilustram o formato do relacionamento entre duas variveis. O grco abaixo ilustra o diagrama para as variaes mensais nas vendas de um produto (eixo vertical) contra as variaes mensais nos gastos em publicidade (eixo horizontal).

Uso indevido de grcos Geralmente, as informaes dispostas gracamente causam maior impacto visual para o leitor. Por conta disso, recomenda-se que o analista das informaes grcas esteja sempre atento para identicar possveis distores geradas por guras mal construdas, prevenindo-se de decises incorretas.

22

Copyright Ibmec

Unidade 4 Utilizao de Ferramentas do Excel


Uso do Excel Na Ordem Lgica de Dados Estatsticos
A estatstica descritiva o conjunto de tcnicas e procedimentos destinados organizao e ao sumrio dos dados. Suas tcnicas podem ser aplicadas nos dados coletados a partir de populaes (censo) ou a partir de amostras (amostragem). Nesta fase da pesquisa, necessrio descrever os dados! Veja agora como utilizar as ferramentas do EXCEL para ordenar logicamente os dados estatsticos.

Admitindo que os dados estejam dispostos em uma faixa da planilha denominada lista-num e sendo num o valor para o qual se deseja saber a posio, selecione uma nova clula em outra regio. Digite =ORDEM (num;lista-num;ord) para o clculo. Se ord=0 ou omitido, a lista estar em ordem decrescente. Caso contrrio, estar em ordem crescente. Tenha cuidado com o endereamento relativo ao replicar a frmula para as clulas seguintes. Lembre-se que lista-num dever estar xa.

Uso do Excel na Distribuio de Frequncias


Para utilizar o Excel no clculo da Distribuio de Frequncias, siga as instrues: Admita que os dados para criar a DF estejam dispostos em uma faixa da planilha denominada faixadados e os limites superiores em uma coluna denominada colunalimites. Na coluna direita da colunalimites, selecione uma nova coluna contendo uma linha a mais do que o nmero de linhas de colunalimites. Digite =FREQUENCIA(faixadados;colunalimites) e tecle simultaneamente [CTRL] [SHIFT] [ENTER].

Copyright Ibmec

23

Resumo
Neste mdulo, conhecemos os conceitos iniciais da Estatstica. Vericamos a importncia de lidar com grande quantidade de dados, classicaes e anlises. Vimos tambm que uma populao refere-se a todo conjunto de observaes em estudo. J a amostra, considera apenas parte deste conjunto. Alm disso, a maioria das concluses estatsticas baseia-se em dados amostrais, e no populacionais. A Estatstica est dividida em dois grandes grupos de estudo: a estatstica descritiva, preocupada apenas em descrever o conjunto de dados coletados, e a estatstica inferencial, que ao reunir informaes coletadas em amostras, permite concluses das caractersticas populacionais. Diferentes tipos de dados podero ser classicados em funo dos nveis de informao que eles oferecem: nominal, ordinal, intervalar e racional. Por m, apresentamos algumas funes bsicas do Excel que lhe ajudaro a solucionar exerccios dos prximos mdulos.

24

Copyright Ibmec

MDULO 2 Medidas Descritivas para uma Varivel

25

Introduo ao Mdulo
As medidas descritivas so tcnicas que possibilitam a extrao de informaes a partir de um conjunto de dados. Essas tcnicas nos foram a trabalhar com um nmero excessivo de ocorrncias. A estatstica descritiva fornece medidas capazes de caracterizar corretamente o conjunto de dados estudado e ser o tema deste mdulo!

Objetivos
Listar os tipos de medidas descritivas denidas pela Estatstica e sua utilidade; Listar, calcular e interpretar as principais medidas de posio e as de tendncia central, mostrando suas principais caractersticas e limitaes e analisando-as comparativamente; Listar, calcular e interpretar os principais indicadores de disperso, mostrando como aplic-los em conjunto com as medidas de posio em questes prticas, como por exemplo a anlise de risco; Detectar observaes suspeitas ou discrepantes (outliers) em um conjunto de dados; Resolver problemas utilizando o EXCEL.

Estrutura do Mdulo
Unidade 1 - Tipos de medidas descritivas Unidade 2 - Varincia e desvio-padro Unidade 3 - Informaes discrepantes Unidade 4 - Clculo de indicadores para dados agrupados Unidade 5 - Utilizao das ferramentas do Excel

Copyright Ibmec

27

Unidade 1 Tipos de Medidas Descritivas


Medidas de Disperso e Outras Medidas
As medidas descritivas que iremos apresentar podem ser classicadas de acordo com o tipo de informao que iro nos fornecer. Imaginando que os dados para os quais iremos calcul-las estejam agrupados em uma distribuio de frequncias, teremos: Medidas de Disperso: tentam estabelecer a largura da distribuio, o que equivale a mensurar a variabilidade existente no conjunto de dados. Por exemplo, amplitude, varincia, desvio-mdio e outras. Outras Medidas Descritivas: complementam a descrio dos dados, identicando a assimetria e o achatamento da distribuio. Os principais indicadores so os coecientes de assimetria e o de curtose.

Medidas de Posio e Tendncia Central


As medidas de posio apontam um determinado valor da distribuio: mximo, mnimo, quartil etc. Algumas das medidas de posio, por tentarem estabelecer o centro da distribuio, so denominadas de medidas de tendncia central: mdia, mediana e outras.

Considerando uma base de dados contendo os gastos em frias para clientes de uma agncia de viagens, as medidas de posio sero teis para respondermos s seguintes questes: Qual o maior gasto? Qual o menor? Quanto o cliente gasta em mdia? Qual o gasto tpico? Os 25% de clientes que gastam pertencem a que faixa etria?

28

Copyright Ibmec

Mdia Aritmtica
Para um conjunto formado por n dados Xi no agrupados em distribuies de frequncia, determinaremos sua mdia aritmtica a partir da expresso ao lado: Nos ltimos 5 meses, a venda de automveis fabricados no Brasil foi respectivamente de 5.000, 3.800, 7.000, 4.500 e 6.100 unidades (dados hipotticos). Calcule a venda mdia.

Aplicando a frmula chegaremos a:

Propriedades da mdia aritmtica

Todo intervalo fechado possui uma mdia aritmtica. Todos os valores so utilizados no clculo da mdia. Quando existir, ser nica. A soma dos desvios de cada observao em relao sua mdia aritmtica, ser sempre zero:

afetada por valores extremos (ver exemplo a seguir). No pode ser calculada para intervalos (ou classes) abertas.

Exemplo: Na Empresa ABC os salrios anuais de seus diretores so respectivamente de $60.000, $61.000, $59.000, $65.000 e $1.200.000. Qual a mdia salarial para estes dados? Calculando a mdia chegaremos ao valor de $289.000, certamente um valor muito pouco representativo dos salrios dos diretores da empresa ABC!
Copyright Ibmec

29

Mediana
Para um conjunto ordenado de dados, a MEDIANA corresponder medida que ocupa a posio central da lista formada. Dividindo-a em dois grupos, 50% dos valores sero menores e 50% sero maiores que o valor mediano.

Pela denio anterior, conclui-se que para um conjunto de dados no agrupados em distribuies de freqncia, a mediana ser igual: Ao valor que ocupar a posio (n+1)/2 no caso dos conjuntos com nmeros mpares de dados. mdia aritmtica dos valores que ocuparem as posies n/2 e (n+2)/2, no caso de conjuntos com nmeros pares de dados centrais.

Ainda sobre a Empresa ABC, qual seria o salrio mediano dos diretores que ganham $60.000, $61.000, $59.000, $65.000 e $1.200.000? Como n=5, aps ordenarmos os dados, o valor mediano ser aquele que ocupar a 3 posio [=(5+1)/2], ou seja $61.000. Observe que este valor mais representativo do que a mdia calculada anteriormente.

30

Copyright Ibmec

Algumas Propriedades da Mediana Para qualquer conjunto de dados, haver sempre uma nica mediana. A mediana no afetada por valores extremos. Pode ser calculada para uma distribuio de frequncias que tenha intervalos (ou classes) abertas. Pode ser determinada para dados no nvel ordinal. Por exemplo, se 10 estudantes de um curso receberam conceito A, 8 receberam B, 20 receberam C e um nico foi reprovado, com D, o conceito mediano ser C. Para este caso no seria possvel calcularmos o conceito mdio.

Moda
A moda de um conjunto de dados corresponder ao valor que ocorrer com a maior frequncia. Por exemplo, dados os valores 3, 5, 8, 8, 7, 2, 3 e 8 a moda ser 8 visto que o valor que aparece por maior nmero de vezes. A moda pouco verstil nos clculos aritmticos e possui pouca aplicabilidade na inferncia estatstica. Veja abaixo algumas distribuies e suas modas.

Copyright Ibmec

31

Nas distribuies simtricas, a moda, a mdia e a mediana sero iguais. Porm, quando as medidas da moda e da mdia coincidirem, no obrigatoriamente a distribuio ser simtrica. Nas distribuies assimtricas, desde que o nvel de assimetria no seja muito acentuado, a moda (Mo), a mediana (Md) e a mdia (Me) possuiro a seguinte relao: Mo = 3Md - 2Me. Esta relao denominada de Relao Emprica ou Relao de Pearson, em homenagem ao seu idealizador.

Mdia Geomtrica
A raiz ensima de um nmero poder ser obtida elevando-o a 1/n. Nem sempre a mdia geomtrica estar denida no domnio dos nmeros reais. Sendo assim, admitiremos que os valores para os quais deseja-se calcular a mdia sejam todos no negativos.

Qual a mdia geomtrica de 3, 5, 7 e 16?

Propriedade da mdia geomtrica


Uma importante propriedade da mdia geomtrica que ela ser sempre menor ou igual mdia aritmtica, dado um conjunto especco de nmeros. Por esta razo, muitos a utilizam como forma de chegar a valores mais conservadores do que os obtidos pela mdia aritmtica.

32

Copyright Ibmec

A tabela a seguir ilustra a questo.


Valores 50,50,50 40,50,60 10,50,90 Mdia Aritmtica 50,00 50,00 50,00 Mdia Geomtrica 50,00 49,32 35,57

Utilizao da mdia geomtrica


A utilizao da mdia geomtrica como medida conservadora est sujeita a crticas. Entretanto, para alguns tipos de problemas, a mdia geomtrica ser a nica medida que nos levar resposta correta.

Clculo de variaes percentuais (ou taxas de juros) mdias. Na frmula MG, substituiremos cada um dos valores X1, X 2, ..., Xn por (1+i1), (1+i2),... (1+in), chegando a:

A taxa iMg ser denominada de Taxa Geomtrica de Retorno ou Taxa de Retorno Ponderada pelo Tempo (Time-Weighted-Rate-of-Return-TWRR). Suponha que nos ltimos 4 anos a inao tenha sido respectivamente de 15%, 20%, 25% e 50%. Qual a inao mdia anual?

Copyright Ibmec

33

Aplicando a expresso anterior, teremos:

Outras Medidas de Posio


Alm das medidas centrais e das medidas extremas (mximo, mnimo) descritas nos itens anteriores comum a utilizao dos Quartis, Decis e Percentis. Aps ordenarmos o conjunto de dados, a forma para calcularmos estes valores ser similar que vimos para a mediana:

Os quartis iro dividir a distribuio em 4 partes (25% para cada). Os decis em 10 partes (10% para cada). Os percentis em 100 partes (1% para cada). Exemplo prtico A gura a seguir representa os retornos mensais obtidos por duas linhas de produto com as mesmas caractersticas e durante o mesmo perodo (os doze ltimos meses).

34

Copyright Ibmec

Sabendo-se que ambos obtiveram lucratividade mdia de 5,00%am, seria possvel indicarmos qual teria sido a melhor opo de investimento? Por que? A gura nos mostra que os retornos de A ocorreram de forma mais voltil que os retornos de B. comum associarmos a disperso ao risco ou incerteza dos resultados. Assim, percebemos que o investimento na Linha A foi mais arriscado que B. Por outro lado, assumindo que os responsveis pelas escolhas em uma empresa, o fazem de forma racional, de se esperar que eles somente aceitem maiores riscos caso obtenham compensaes em termos de retorno. Nesse caso, a melhor opo teria sido aplicar os recursos na Linha B. Alm de permitir a comparao entre grupos de dados, as medidas de disperso possibilitam a avaliao do grau de representatividade de uma mdia.

Amplitude
Para um conjunto de valores, a amplitude corresponder diferena entre o maior e o menor valor. Utilizando os dados da gura que representa os retornos mensais de duas linhas de produto, qual seria a amplitude para as lucratividades mensais apresentadas?

Copyright Ibmec

35

Como ambas as linhas apresentaram lucratividades extremas de +10,00% e 0,00%, a amplitude para ambos ser de 10,00% (=10,000,00), induzindo-nos ao erro de classic-los como igualmente volteis (ou dispersos). Como desejvel obter medidas que utilizem todos os dados em seus clculos, a soluo ser observar o desvio de cada valor em relao sua mdia. Por exemplo, para os Fundos A e B, retornos mensais de 0,00% causaro desvios de -5,00% em relao mdia. J os retornos mensais de 10,00% geraro desvios de +5,00%.

Conhea outras medidas de disperso: Amplitude Interquartlica diferena entre o terceiro e o primeiro quartis. Amplitude Semi-interquartlica - metade da anterior. Amplitude entre percentis - 10-90 ou entre percentis 5-95 etc.

36

Copyright Ibmec

Unidade 2 Varincia e Desvio-Padro


Varincia
Para um conjunto formado por n dados Xi no agrupados, determinaremos a varincia atravs da expresso:

comum assinalarmos a varincia populacional pela letra grega (sigma ao quadrado ou simplesmente sigma dois). Note que a frmula da varincia amostral ligeiramente diferente da frmula para a varincia populacional. A razo para isso que, ao trabalharmos com uma amostra, desejamos dar um passo adiante, tentando chegar a concluses acerca da populao. Neste caso, demonstra-se que o melhor estimador pontual para a varincia populacional obtido atravs da diviso do numerador das frmulas anteriores por (n-1), e no por n. Voltando ao exemplo abaixo, qual a varincia para as lucratividades mensais apresentadas?

Copyright Ibmec

37

Para cada um dos seis meses em que A apresentou lucratividade nula, o desvio gerado foi de 5,00%, cujo quadrado equivale a 25,00. J nos meses em que A rendeu 10,00% o desvio gerado foi de +5,00%, cujo quadrado tambm equivale a 25,00. Aplicando a frmula da varincia e admitindo uma amostra, chegaremos a:

A linha B apresentou retornos de: 0,00% em um ms (desvio de -5,00, quadrado igual a 25,00). 4,00% em trs meses (desvio de -1,00, quadrado igual a 1,00). 5,00% em quatro meses (desvio e quadrado nulos). 6,00% em trs meses (desvio e quadrado iguais a 1,00) e de 10,00% em um ms (desvio de 5,00, quadrado de 25,00).

Concluso
Por ter apresentado uma menor varincia, conclumos que a disperso das lucratividades apresentada pela Linha B foi menor que a apresentada pela Linha A.

Desvio-Padro
O desvio-padro corresponde raiz quadrada positiva da varincia, seja ela calculada com base em uma populao ou em uma amostra.

38

Copyright Ibmec

Medidas relativas
As medidas relativas so assim chamadas por incorporarem simultaneamente a posio e a disperso de um dado em relao ao conjunto da qual faz parte. As principais medidas so o Escore z e o Coeciente de Variao. O coeciente de variao O desvio-padro uma medida de disperso absoluta que poder levar a distores na comparao de dois conjuntos de dados: unidades de medidas distintas e mdias muito afastadas. Para estes casos, o mais indicado ser empregar uma medida de disperso relativa, de acordo com o coeciente de variao:

A venda mdia projetada e a incerteza desta projeo, medida pelo desvio-padro, para o produto A so respectivamente de M$10 e M$2. Os valores para o produto B so M$40 e M$4. Em termos relativos, qual o produto considerado com vendas mais volteis?

Encontrando o CV para os dois produtos, chegaremos a:

Podemos concluir que B menos voltil do que A. Porm, em termos absolutos, a concluso ser oposta.

Escore Z Dado um conjunto de observaes com mdia e desvio padro , o escore Z associado a uma observao X medir a distncia entre X e a mdia do conjunto em unidades de desvio-padro. O escore z tambm conhecido como escore reduzida ou escore padro. Um valor positivo para z signicar que X encontra-se direita da mdia. Caso Z seja negativo X encontra-se esquerda da mdia.
Copyright Ibmec

39

O escore z ser bastante til na comparao entre distribuies, na deteco de observaes discrepantes e no clculo de probabilidades associado Distribuio Normal. Utilize a frmula abaixo para determinar o valor para z, onde corresponder mdia do conjunto e ao desvio-padro. Escore Z exemplo prtico A venda mdia das liais cariocas do Grupo ABCD para o ano de 1999 foram de $125.000, com um desvio-padro de $10.000. Estes mesmos dados para SP correspondem a $120.000 e $25.000. Se duas liais, uma paulista e uma carioca venderam $170.000 cada, em qual delas ocorreu um maior esforo por parte da equipe de vendas?

Calculemos os escores z para cada lial:

primeira vista pode parecer que a lial de SP, por estar mais distante da mdia, esteja melhor posicionada. Entretanto, em termos relativos, quando considerarmos o desvio-padro, conclumos o oposto. Qual a interpretao para este fato? No RJ, o menor desvio-padro para as vendas indica baixa disperso em torno da mdia de $125.000, o que torna uma venda acima deste valor mais difcil para a equipe encarregada. J em SP, o desvio-padro mais alto indica uma maior disperso em torno da mdia de $120.000, tornando uma venda acima deste valor no to difcil de ser alcanada.

Interpretando o desvio-padro
De acordo com as tcnicas da Estatstica Inferencial, o desvio-padro servir de base para o traado de intervalos de conana (faixa de valores onde encontra-se determinado percentual dos dados analisados).

40

Copyright Ibmec

Para traar estes intervalos necessrio desenvolvermos os conceitos de probabilidades. Este assunto ser abordado no prximo mdulo. Os intervalos de conana tambm podem ser encontrados atravs do Teorema de Chebyshev e da Lei Emprica.

Lei emprica
Para um conjunto de dados com distribuio simtrica e em formato de sino encontraremos aproximadamente as seguintes propores: 68% dos dados estaro no intervalo [ 1. ; + 1. ]. 95% dos dados estaro no intervalo [ 2. ; + 2. ]. 100% dos dados estaro no intervalo [ 3. ; + 3. ].

Teorema de Chebyshev
Para qualquer conjunto de dados a proporo mnima de valores compreendidos no intervalo [ k. ; + k. ] ser dada por:

Nesse caso, K poder ser qualquer constante maior que 1.

Chebyshev e Lei Emprica


Para os salrios da Empresa XYZ com mdia de $199,60 e desvio padro de $35,61, qual o intervalo onde observaremos pelo menos 95% dos valores?

Copyright Ibmec

41

Teorema de Chebyshev O primeiro passo ser encontrarmos o valor de k atravs da frmula:

O intervalo ser obtido por:

Lei Emprica A faixa solicitada ser obtida por:

42

Copyright Ibmec

Unidade 3 Informaes Discrepantes


Outliers
No incomum analisar um conjunto de dados e encontrarmos valores acentuadamente distintos dos demais. Suponha que ao vericar o cadastro de uma operadora de cartes de crdito encontramos um cliente com 128 anos de idade ou um fundo de renda xa que em dezembro de 19xx tenha obtido rentabilidade de 15,00%am, ou ainda, um estudante que nos cinco anos em que frequentou a universidade nunca faltou qualquer aula. Tais ocorrncias so classicadas como observaes discrepantes (outliers) que podem ser atribudas a: Erro de digitao, coleta ou armazenagem do dado. O senhor de 128 anos seria na realidade um rapaz de 28. Observao que no pertence ao grupo pesquisado. O fundo em anlise um fundo de aes, que a julgar pelo desempenho da bolsa brasileira em dezembro de 19xx teve um resultado at modesto. Eventos considerados raros. O estudante realmente no faltou a nenhuma aula durante os cinco anos de universidade.

Classicao de Informaes Discrepantes


Para classicar um dado suspeito de discrepncia, possvel utilizar o clculo do escore z. Nesse caso, valores superiores a 3,00 (ou inferiores a -3,00) conrmaro a suspeita.

Por que esse critrio utilizado?


Responderemos essa questo atravs da Lei Emprica e do Teorema de Chebyshev, lembrando que z 3 signica que a observao est distante da mdia em pelo menos 3 desvios-padres. Lei Emprica: Praticamente 100% das observaes encontram se distantes no mximo 3 desviospadres da mdia. Logo, encontrar algum alm destes limites pouco provvel. Teorema de Chebyshev: A proporo mnima que estar na faixa [ 3; +3] ser igual a 89%, para qualquer conjunto de dados. Portanto, um resultado de z maior que 3,00 (ou menor que -3,00) tambm pouco provvel.

Copyright Ibmec

43

Para os salrios da Empresa XYZ que possui mdia de $199,60 e desvio padro de $35,61, um salrio de $400 pode ser considerado discrepante?

Calculando o escore z para cada um dos salrios chegaremos a:

44

Copyright Ibmec

Unidade 4 Clculo de Indicadores para Dados Agrupados


Mdia Aritmtica e Varincia
Para o caso dos dados agrupados, calculadoras e EXCEL no possuem funes especcas para o clculo dos indicadores. Por esse motivo, ser preciso simular tabelas para o clculo da mdia e da varincia. Sendo Xi e fi o ponto-mdio e a frequncia de cada classe, as frmulas para a mdia aritmtica e varincia sero:

Mdia aritmtica

Varincia

Conhea a seguir alguns exemplos.

Copyright Ibmec

45

Exemplo 1 Qual o salrio mdio dos empregados da Cia. XYZ, listados nas duas primeiras colunas da abaixo?

Distribuio de Frequncias Cia XYZ - Salrios Semanais em $ Classes 120 140 <$ <$ 140 160 180 200 220 240 260 280 Xi=Ponto Mdio 130 150 170 190 210 230 250 270 fi = frequncia 7 12 18 24 26 22 11 5 125 Xi fi 910 1.800 3.060 4.560 5.460 5.060 2.750 1.350 24.950

160 < $ 180 <$

200 < $ 220 < $ 240 < $ 260 < $

Totais []

Exemplo 2 Determine a varincia dos salrios semanais listados na tabela (mdia = $199,60).

46

Copyright Ibmec

A tabela auxiliar os clculos intermedirios, onde Xi e referem-se respectivamente ao ponto mdio e freqncia encontrada em cada classe.
DISTRIBUIO DE FREQNCIAS Cia XYZ - Salrios Semanais em $ Classes 120 140 160 180 200 220 240 260 Totais [] <$ <$ <$ <$ <$ <$ <$ <$ 140 160 180 200 220 240 260 280 Xi 130 150 170 190 210 230 250 270 fi 7 12 18 24 26 22 11 5 125 Xi- -69,60 -49,60 -29,60 -9,60 10,40 30,40 50,40 70,40 (Xi-) 4.844,16 2.460,16 876,16 92,16 108,16 924,16 2.540,16 4.956,16 (Xi-)fi 33.909,12 29.521,92 15.770,88 2.211,84 2.812,16 20.331,52 27.941,76 24.780,80 157.280,00

Copyright Ibmec

47

Exemplo 3 Qual o valor mediano dos salrios agrupados na Distribuio de Frequncias ilustrada na Tabela?
DISTRIBUIO DE FREQUNCIAS Cia XYZ - Salrios Semanais em $ Classes 120 140 160 180 200 220 240 260 Totais [ ] <$ <$ <$ <$ <$ <$ <$ <$ 140 160 180 200 220 240 260 280 fi = Frequncia 7 12 18 24 26 22 11 5 125 Fi = Frequncia Acumulada 7 19 37 61 87 109 120 125 125

Observe que criamos uma coluna adicional contendo as frequncias acumuladas fi . A classe contendo a mediana ser aquela onde fi for maior ou igual metade do total das observaes. Note que at a 4 classe, nossa contagem chegou a 61 (=F4). Consequentemente, precisaremos contar mais 1,5 observaes na 5 classe. Se assumirmos que em cada classe os salrios se distribuem uniformemente, determinaremos o valor de X atravs de uma Regra de Trs Simples, ou seja:

48

Copyright Ibmec

Unidade 5 Utilizao das Ferramentas do Excel


Face ao grande nmero de recursos existentes no EXCEL, nesta seo apresentaremos as funes das denies vistas ao longo do mdulo. H tambm o complemento denominado Ferramentas de anlise que ser bastante til para as anlises estatsticas. Para aqueles que necessitem de um maior aprofundamento neste tpico, recomendamos fortemente a leitura da bibliograa indicada. Sendo lista a faixa de dados contendo os dados para os quais deseja-se calcular o indicador e k um nmero inteiro positivo qualquer, utilize as seguintes funes:
FUNO
MAIOR(lista;k) MXIMO(lista) MED(lista) MEDIA(lista) MEDIA.GEOMTRICA(lista) MENOR(lista;k) MNIMO(lista) MODO(lista) ORDEM(X;lista;cd) k-simo MAIOR VALOR da lista. VALOR MXIMO da lista. MEDIANA da lista. MDIA ARITMTICA da lista. MDIA GEOMTRICA da lista. k-simo MENOR VA-LOR da lista. VALOR MNIMO da lista. MODA da lista. POSIO de X na lista; se cd=0 ou omitido a lista vir em ordem decrescente.

CALCULA

O R D E M . P O R C E N T U A L POSIO PERCENTUAL de X na lista; casas refere-se ao nmero de casas (lista;X;casas) PADRONIZAR(X;Md;Dp) decimais da resposta. ESCORE z para o valor X, onde Md e Dp referem-se mdia e ao desviopadro do conjunto de dados de onde se extraiu X. k-simo PERCENTIL da lista; a funo inversa da funo ORDEM. PERCENTUAL. k-simo QUARTIL da lista.

PERCENTIL(lista;k))) QUARTIL(lista;k)

FUNO
DESVPAD(lista) DESVPADP(lista) VAR(lista) VARP(lista)

CALCULA
DESVIO-PADRO AMOSTRAL da lista. DESVIO-PADRO POPULACIONAL da lista. VARINCIA AMOSTRAL da lista. VARINCIA POPULACIONAL da lista.

Copyright Ibmec

49

Resumo
Iniciamos este mdulo ilustrando como as medidas descritivas de posio e disperso ajudam a formar uma imagem da distribuio dos dados. As medidas de posio tm a nalidade de apontar um valor especco no conjunto de dados. Algumas delas, por procurarem o centro da distribuio, so denominadas de medidas de tendncia central: mdias, mediana e moda. Dependendo de como estiverem relacionadas, essas medidas de posio podero indicar simetria da distribuio. J os quartis, pecentis e o escore z so exemplos de medidas relativas, adequadas para comparao de dois ou mais conjuntos de dados que apresentem diferenas de ordem de grandeza ou unidades distintas. As medidas de disperso apontam a variabilidade existente no conjunto de dados. Seus principais indicadores so a amplitude, a varincia e o desvio padro. A combinao de medidas de posio e disperso permitir aplicar a teoria em problemas prticos: montagem de intervalos de conana e na percepo de informaes discrepantes. Outras medidas descritivas tais como os coecientes de assimetria e curtose complementam o trabalho de descrio de um conjunto de dados. Por m, foi possvel observar as ferramentas do EXCEL utilizadas para calcular essas medidas de posio e disperso.

50

Copyright Ibmec

MDULO 3 Probabilidades

51

Introduo ao Mdulo
Para entendermos porque necessrio termos noes de probabilidade na tomada de decises, imagine a seguinte situao: Para manter um programa no ar, o diretor de uma emissora de TV concluiu ser necessria uma audincia mnima de 17,00%. A ltima pesquisa envolveu 120 telespectadores e revelou ndices de audincia da ordem de 15,00%. O diretor deve ou no manter o programa? Processos decisrios baseados em fatos desta natureza so tambm denominados processos probabilsticos j que, devido incerteza associada aos eventos futuros, no nos levaro a respostas exatas. justamente neste contexto que a Teoria das Probabilidades ganha especial importncia, pois permite a quanticao e anlise dos riscos que podero ocorrer, minimizando desta forma a escolha por decises incorretas.

Objetivos
Destacar a importncia da Teoria das Probabilidades para a inferncia estatstica, identicando suas diferentes abordagens; Calcular probabilidades de eventos isolados e de eventos combinados; Denir variveis aleatrias, variveis discretas e contnuas e suas respectivas Distribuies de Probabilidades; Determinar e interpretar o signicado do valor esperado, da varincia e do desvio-padro de uma varivel aleatria; Identicar a importncia de se trabalhar com modelos tericos de probabilidade para a simplicao dos clculos; Listar alguns modelos discretos e contnuos de distribuio, indenticando quando e como utiliz-los: Binomial, Normal e Uniforme; Resolver problemas utilizando o EXCEL.

Estrutura do Mdulo
Unidade 1 - Denio e abordagens Unidade 2 - Combinao de eventos Unidade 3 - Variveis aleatrias e distribuies de probabilidade
Copyright Ibmec

53

Unidade 4 - Valores esperados, varincias e desvios-padres Unidade 5 - Modelos de distribuio de probabilidade Unidade 6 - Utilizao de ferramentas do EXCEL

54

Copyright Ibmec

Unidade 1 Denio e Abordagens


O que Probabilidade?
A origem do clculo de probabilidades data do sculo XVI, estando intimamente relacionada aos jogos de azar. Entretanto, com o decorrer do tempo, a teoria da probabilidade ultrapassou os limites dos jogos de azar, integrando-se a um universo maior de aplicaes, conforme a utilizamos hoje. Coloquialmente, probabilidade mede a chance de um determinado evento vir a ocorrer. Formalmente, um nmero entre 0 e 1, inclusive, que mede a possibilidade de um particular evento vir a ocorrer. A probabilidade poder ser representada na forma percentual, nunca inferior a zero ou superior a cem por cento.

Abordagens
Lanar um dado e tirar sete um bom exemplo de evento impossvel. Tirar um nmero menor ou igual a seis um exemplo de evento certo. Diante de um problema envolvendo o clculo de probabilidades, iremos dispor basicamente da abordagem apresentada ao lado para a sua resoluo.

Copyright Ibmec

55

Clculo na abordagem clssica


Baseia-se na hiptese de que os eventos so mutuamente exclusivos (quando um ocorre o outro no ocorre), equiprovveis (probabilidades iguais) e coletivamente exaustivos (todos os resultados podem ser listados). A probabilidade de ocorrncia do evento A, ser ento determinada por:

Exemplo prtico Supondo o experimento lanar um dado numerado e observar a face que cai para cima, qual seria a probabilidade de tirarmos 4? Interprete o resultado. O nmero total de resultados [n(S)] 6. Tiraremos 4 apenas de uma nica forma [n(A)]. Consequentemente, esta probabilidade ser de 1/6 [=n(A)/n(S)]. O valor encontrado poder ser interpretado como a proporo de resultados 4 a que chegaremos aps a repetio do experimento.
Probabilidade Lanamento de um dado no viciado Nmero de Jogadas Nmero de 4 ocorridos Proporo 6 60 600 6.000 60.000 2 13 112 1.020 10.040
Copyright Ibmec

2,00 / 6 1,30 / 6 1,12 / 6 1,02 / 6 1,00 / 6

56

Na realidade, se zssemos a experincia, lanando o dado 6 vezes, poderamos obter 4 mais (ou menos) do que uma nica vez, conforme ilustrado na tabela acima. Estas variaes, desde que dentro de certos limites, sero passveis de acontecer, no inviabilizando o valor calculado anteriormente para a probabilidade.

O exemplo anterior envolveu eventos: Equiprovveis - As chances de sair um nmero so iguais as de sair 2 ou 3 etc. Mutuamente exclusivos - Ao tiramos 1 no poderemos obter 2 ou 3, etc. Coletivamente exaustivos - Sabemos todos os possveis resultados: 1, 2, 3, etc., razo pela qual foi possvel adotarmos a abordagem clssica em sua resoluo.

Classicao de Eventos
O resultado de 1/6 foi obtido atravs de deduo matemtica sem a necessidade da realizao de uma experincia. Por isso, denominamos a abordagem clssica de abordagem matemtica ou a priori (o resultado previamente conhecido). Neste caso especco, a contagem do nmero total de resultados (6) e do nmero de resultados favorveis (1) foi bastante simples, pois baseou-se na listagem de todos os resultados. Entretanto, em casos mais sosticados, a listagem de todos os resultados poder ser bastante extensa, razo pela qual o clculo feito por intermdio das tcnicas de contagem (anlise combinatria, fatoriais e outras). Se uma das condies anteriores fosse violada precisaramos da abordagem experimental para chegar ao resultado. O que aconteceria por exemplo, se por algum mecanismo qualquer, o dado do exemplo anterior fosse viciado e quisssemos obter a probabilidade de ocorrncia do 4.

Clculo na Abordagem da Frequncia Relativa


A probabilidade de ocorrncia de um evento A ser determinada por:

Copyright Ibmec

57

Voltando ao exemplo anterior, suponha que o dado fosse construdo de forma a apresentar 4 com maior frequencia que os demais resultados. Como determinaramos a probabilidade de tirar 4? Neste caso, deveramos lan-lo por muitas vezes e observarmos a frequncia do valor 4. Admitindo que aps 1.000 jogadas obtivssemos 250 4, assumiramos que p(4) seria de 0,25. Uma fbrica produziu um lote de 10.000 peas. A probabilidade delas apresentarem defeito de 2,00%, j que testes realizados com 100 destas peas, apontaram apenas 2 defeituosas. A probabilidade de um lojista receber um cheque sem fundos de 12% pois, de acordo com os dados histricos da contabilidade, de cada 1.000 cheques recebidos, 120 so devolvidos por este motivo.

Observaes - Frequncia Relativa


Note que nos exemplos anteriores a condio de equiprobabilidade foi violada, razo pela qual foi impossvel aplicarmos a abordagem clssica. Por conseguinte, um experimento precisou ser conduzido (lanar o dado, testar as peas, observar os cheques devolvidos) para posteriormente estabelecermos as respectivas probabilidades (motivo da denominao experimental ou a posteriori). Algumas importantes observaes merecem destaque: O valor obtido por este mtodo ser sempre uma estimativa j que sempre trabalharemos com amostras. Para uma maior preciso, uma alternativa ser ampliar o tamanho da amostra. As concluses obtidas por este mtodo, somente sero vlidas se as amostras analisadas mantiverem as mesmas caractersticas e condies das populaes que as originaram. Em algumas situaes, na impossibilidade de realizao do experimento, dados histricos sobre os eventos podero ser considerados na determinao das probabilidades. Porm, ser preciso tomar cuidado quanto s concluses.

Clculo na Abordagem Subjetiva


Na impossibilidade de realizao dos experimentos e na ausncia de registros histricos uma avaliao subjetiva por parte dos indivduos poder ser utilizada. Na abordagem subjetiva, a probabilidade associada a um evento ir basear-se na opinio pessoal do analista sobre as chances de sua ocorrncia. Ainda que este seja o nico critrio possvel em determinadas situaes, as estimativas na grande maioria das vezes sero tendenciosas, preconcebidas e de difcil defesa quando questionadas.

58

Copyright Ibmec

Unidade 2 Combinao de Eventos


Leis da Adio Combinaes do Tipo A ou B
As combinaes podem ser exemplicadas nas seguintes situaes: No lanamento de um dado, qual a probabilidade de tirarmos 1 ou 2?; Em uma pesquisa entre 1000 correntistas de um banco, qual a probabilidade de encontrarmos um investidor que aplique no fundo de aes ou no fundo de renda xa? A regra geral para estes casos ser dada pela expresso abaixo:

Para dois eventos A e B, a probabilidade de ocorrncia de um ou de outro ser dada por: p(AouB) = p(AB) = p(A) + p(B) -p(AeB)

O ltimo termo da frmula refere-se probabilidade da interseo dos conjuntos A e B, que dever ser subtrada da soma das probabilidades individuais para evitar sua dupla contagem. Ateno ao aplicar a regra anterior na combinao de trs ou mais eventos pois, nem todas as probabilidades das intersees devero ser retiradas. Quando os eventos forem mutuamente exclusivos, no puderem ocorrer simultaneamente, o termo p(AeB) ser nulo. Para trs ou mais eventos mutuamente exclusivos, a probabilidade A ou B ser a soma das probabilidades individuais. Por exemplo, p(A ou B ou C) = p(A) + p(B) + p(C). Caso a unio dos eventos forme o espao amostral, ou seja, o conjunto com todas as possibilidades, p(A ou B ou C ou ...) = 1. A observao anterior aplica-se para os eventos complementares [p(A ou ) = 1], o que implica que p() ser equivalente a 1 - p(A) e vice-versa. Eventualmente, esta propriedade poder ser utilizada para agilizar os clculos.

Exemplo prtico Uma pesquisa entre 200 correntistas de um banco revela que, deste total, 120 investem em aes e 100 em renda xa. Sabendo-se ainda que 60 investem em ambas as modalidades, pergunta-se quais as probabilidades de selecionarmos: 1. Um investidor em aes? 2. Um investidor em renda xa?
Copyright Ibmec

59

3. Um investidor em aes e renda xa? 4. Um investidor em aes ou renda xa? 5. Um correntista que no invista em nenhum dos dois?

Adotando a abordagem da freqncia relativa, as probabilidades pedidas sero:

Note que se no retirssemos a probabilidade da interseo chegaramos a p(A ou RF) = 1,1 ou 110%, o que contraria a denio de probabilidade. Usando a frmula, chegaremos a:

Basta observar que o evento C = {no investir nem em aes, nem em renda xa} complementar ao evento {investir em um ou em outro}. A probabilidade ser:

60

Copyright Ibmec

Leis da Multiplicao Combinaes do Tipo A e B


Estas combinaes podem ser exemplicadas nas seguintes situaes: No lanamento de uma moeda duas vezes, qual a probabilidade de tirarmos duas caras (uma cara e outra cara)? ou Analisando o prazo de vencimento de duplicatas, qual a probabilidade de encontrarmos ttulos com vencimento superior a 20 dias e valores inferiores a $1.200? A regra geral para estes casos ser dada pela expresso abaixo.

Para dois eventos quaisquer, a probabilidade da ocorrncia simultnea de ambos ser dada por: p(AeB) = p(A B) = p(A) x p(B | A) = p(B) x p(A | B)

Quando a ocorrncia de um evento A inuenciar a ocorrncia do evento B, os eventos A e B sero dependentes. Neste caso, aps a ocorrncia do evento A, determinaremos a probabilidade condicional para o evento B, designada por p(B|A) (l-se p de B dado A). Quando a ocorrncia de um evento A no inuenciar a ocorrncia do evento B, os eventos sero independentes. Neste caso, tendo o evento A ocorrido ou no, a probabilidade de ocorrncia de B no ser alterada e assim, p(B|A) = p(B). Para o caso de eventos independentes, a frmula passa a ser reescrita como: p(AeB) = p(A) x p(B), que condio necessria e suciente para a independncia dos eventos. A frmula anterior poder ser aplicada a n eventos. Por exemplo, se A, B e C forem independentes, p(A e B e C) = p(A).p(B).p(C).

No confundir eventos independentes com eventos mutuamente exclusivos. Na realidade, se dois eventos so independentes, eles no sero mutuamente exclusivos e se forem mutuamente exclusivos, no sero independentes.

Eventos Dependentes e Independentes


Para xar os conceitos de dependncia e independncia de eventos, suponha uma caixa com 2 bolas claras e 1 bola escura. Denindo o evento A como {tirar a primeira bola e ela ser clara} e o evento B como {tirar a segunda bola e ela ser clara} determine: 1. p(A).
Copyright Ibmec

61

2. p(B|A) supondo que a primeira bola seja recolocada na caixa. 3. p(B|A) supondo que a primeira bola no seja recolocada na caixa.

Aplicando a abordagem clssica e designando por S o espao amostral, teremos: 1. Sendo n(A) = 2 e n(S) = 3, p(A) = 2/3. 2. Como a primeira bola foi devolvida, a situao da caixa no ser alterada. Portanto, n(B|A) = 2, n(S|A) = 3, p(B|A) = 2/3. 3. Como a primeira bola no foi devolvida a situao da caixa cou alterada. Se A ocorreu, sobraram 2 bolas, 1 clara e a outra escura. Logo, n(B|A) = 1, n(S|A) = 2, p(B|A) = .

Concluses
Nas resolues anteriores, n(B|A) refere-se ao nmero de bolas claras na segunda extrao, dado que a primeira bola extrada foi clara. Comparativamente, n(S|A) refere-se ao nmero de elementos do espao amostral aps a primeira retirada, dado que a primeira bola extrada foi clara. Assim, n(S|A) denominado espao amostral reduzido. No caso (b), os eventos A e B so independentes, j que a ocorrncia do primeiro no inuencia a ocorrncia do segundo. Com isso, independente do resultado da primeira extrao (A={ser clara}

62

Copyright Ibmec

ou ={ser escura}), o fato de recolocarmos a bola de volta na caixa no ir alterar as condies iniciais para a extrao da segunda bola. Consequentemente, p(B)=p(B|A)=p(B| )=2/3. Para o caso (c), os eventos A e B no sero mais independentes, pois ao no devolvermos a primeira bola caixa, as condies iniciais do experimento sero modicadas. No exemplo analisado, determinamos p(B|A)=1/2. Caso a primeira bola fosse escura (o evento teria ocorrido), p(B|.)=2/2, o que comprova que o segundo resultado afetado pela ocorrncia do primeiro [p(B)p(B|A)p(B|.)]. Pelas duas concluses anteriores, percebe-se que, tratando-se de eventos dependentes, o conhecimento prvio do primeiro resultado ir alterar as expectativas em relao ao segundo resultado. Portanto, passamos a trabalhar em um espao amostral reduzido, conforme ilustra o diagrama da esquerda apresentado anteriormente.

Copyright Ibmec

63

Unidade 3 Variveis Aleatrias e Distribuies de Probabilidade


Variveis Aleatrias
Suponha o experimento simples de lanarmos 3 moedas no viciadas. Representando cara como C e coroa como K, os possveis resultados deste experimento equivalero s 8 trincas a seguir: {(CCC),(CCK),(CKC),(KCC),(KKC),(KCK),(CKK),(KKK)}... Denindo a varivel X como o nmero de caras que ocorrem nos 3 lanamentos, concluiremos que X poder assumir os valores 0, 1, 2 e 3.

A situao anterior um exemplo de varivel aleatria, denida no quadro acima. Uma varivel aleatria (VA) aquela cujo valor proveniente do possvel resultado de um experimento. E, dependendo da natureza do experimento, as variveis aleatrias podero assumir valores enumerveis ou no. Uma varivel aleatria discreta aquela que poder assumir apenas valores denidos, separados, resultantes da contagem de itens. Uma varivel aleatria contnua aquela que poder assumir innitos valores em um determinado intervalo.

Distribuio de Probabilidades Discretas


Supondo que X seja uma varivel aleatria discreta, associaremos a X s probabilidades de ocorrncia de cada um de seus possveis valores. Uma distribuio de probabilidades (DP) ser uma tabela onde a primeira coluna listar todos os possveis valores da varivel aleatria e a segunda, suas respectivas probabilidades de ocorrncia. A tabela criada nestes moldes, tambm recebe o nome de funo de probabilidade para a varivel X.

64

Copyright Ibmec

A probabilidade associada a cada valor de X dever ser sempre um nmero compreendido entre 0 e 1, ou seja 0 p(X=x) 1. Para que uma funo qualquer seja uma funo de probabilidade, alm da condio anterior, a soma de todas as probabilidades dever ser 1, ou seja p(x)=1. A partir de uma funo de probabilidades possvel traarmos grcos similares aos histogramas: no eixo horizontal marcaremos os valores assumidos por X e no eixo vertical marcaremos os valores assumidos por p(X=x). A funo de probabilidade tambm poder estar expressa na forma cumulativa, fornecendo portanto a probabilidade de X x [F(x)=p(X x)]. Neste caso, ela ser denominada funo de distribuio acumulada. Com exceo da observao anterior, as demais no sero aplicveis s variveis contnuas. Exemplo Prtico A tabela a seguir ilustra a funo de probabilidade p(X = x) e a funo de distribuio p(X x) para a varivel X do exemplo Cara e Coroa apresentado anteriormente.
Distribuies de Probabilidade Lanamento de trs moedas no viciadas X=Nmero de Caras 0 1 2 3 p(X = x) 1/8 3/8 3/8 1/8 8/8 p(X x) 1/8 4/8 7/8 8/8 ----

Distribuio de Probabilidades Contnuas


Quando X for uma varivel contnua poder assumir innitos valores dentro de um determinado intervalo. Na realidade, trataremos questes deste tipo atravs da construo de funes matemticas especcas, denominadas funes densidade de probabilidade ou simplesmente curvas de probabilidade. Quando colocadas em um grco X Y, estas curvas iro delimitar reas proporcionais s probabilidades da varivel aleatria.
Copyright Ibmec

65

Aplicao da probabilidade contnua


Suponha que a varivel T mea o tempo gasto entre o incio do expediente bancrio e a chegada do primeiro cliente agncia. Atravs de estudos apropriados, sabe-se que a funo densidade f(T) = 1 - T/2, onde T assume qualquer valor em unidades de tempo no intervalo [0,2]. Calcule a probabilidade do primeiro cliente chegar entre [0,1]. O primeiro passo ser traarmos o grco com a funo densidade para, em seguida, determinarmos a rea correspondente ao intervalo considerado. Observe no grco abaixo que a probabilidade do primeiro cliente chegar entre 0 e 1 corresponde regio hachurada, igual a 0,75 ou 75%.

No grco anterior, a determinao da rea marcada foi possvel atravs do conhecimento de tcnicas bsicas de Geometria j que a rea corresponde forma de um trapzio. Tanto para a funo citada, quanto para outras funes mais complexas, encontraremos a rea por intermdio da integrao da funo densidade. medida que diminuirmos o intervalo, considerado [0,1], a regio marcada da gura anterior car menor, no limite. Quando o intervalo considerado for innitesimal, teremos apenas um ponto na funo densidade que no delimitar nenhuma rea. Por isso, nas distribuies contnuas, a probabilidade da varivel X assumir um nico valor: zero [p(X=x)=0].

66

Copyright Ibmec

Unidade 4 Valores Esperados, Varincias e Desvios-Padres


Variveis Discretas e Medidas Descritivas
Assumindo que trabalharemos com variveis discretas, a determinao das medidas descritivas envolvendo as distribuies de probabilidades discretas ser similar utilizada para as distribuies de frequncia. Portanto, podemos calcular mdias, varincias, desvios-padres etc.

Nas distribuies de probabilidade, a Mdia Aritmtica tambm denominada de Valor Esperado ou Esperana Matemtica. O valor esperado usualmente representado pelo operador E (nome da varivel). O desvio-padro para uma varivel aleatria continuar denido como a raiz quadrada positiva de sua varincia.

Exemplo prtico Em um jogo de roleta o tabuleiro possui 38 casas: uma com o nmero 0, outra com o nmero 00 e as demais numeradas de 1 a 36. Para apostar necessrio colocar uma cha em uma destas casas. Se a casa selecionada for sorteada ele receber sua cha de volta e ainda um prmio de 35 chas adicionais; se a casa selecionada no for sorteada, ele perder a cha apostada. Supondo que cada cha tenha o valor de $1,00 e denindo Z como o ganho lquido em cada sorteio, pede-se: 1. A Distribuio de Probabilidades para Z. 2. O Valor Esperado de Z. 3. A Varincia e o Desvio-padro de Z. 4. A interpretao dos resultados.

Copyright Ibmec

67

Soluo A A varivel Z poder assumir somente 2 valores: -1,00 (quando o apostador perder a cha apostada) ou 35,00 (quando a casa escolhida pelo apostador for sorteada). Como a roleta tem 38 nmeros, a chance do nmero sorteado ser o escolhido pelo apostador de 1/38 e a chance de no ser de 37/38. A tabela seguinte complementa a resposta.
Distribuies de Probabilidade Roleta - Jogo Pleno Z=Ganho/(Perda) -1,00 +35,00 p(Z = z) 37/38 1/38 38/38 p(Z z) 37/38 38/38 ----

Soluo B: Usaremos o conceito de mdia para dados agrupados e chegaremos a:

Soluo C:

O desvio-padro ser a raiz quadrada positiva do resultado anterior: $5,7629.

68

Copyright Ibmec

Unidade 5 Modelos de Distribuio de Probabilidade


Conceitos
Toda e qualquer varivel aleatria estar associada a uma tabela de probabilidades ou a uma funo densidade distinta. A determinao das probabilidades ser simplicada se conhecermos os modelos tericos de distribuies de probabilidades: Os modelos de distribuies de probabilidades so na realidade funes matemticas que permitem o clculo das probabilidades de forma bastante rpida e simples. Existem alguns poucos modelos que cobrem praticamente todos os principais tipos de problemas usuais. O conhecimento de tais modelos permitir o raciocnio do pesquisador das questes algbricas, levando-o a concentrao dos fatores que verdadeiramente afetam sua tomada de deciso.

Modelos de Distribuio
Conhea agora os trs modelos tericos de distribuies de probabilidades. Variveis cujas regras de formao adaptem-se perfeitamente Em termos matemticos aos modelos pr-estabelecidos seria, por exemplo, o nmero de caras no lanamento de trs moedas representado pela distribuio binomial. Variveis onde as regras de formao no necessariamente constituem uma relao matematicamente perfeita. Os resultados de medies ou os retornos dos ativos de risco, geralmente representados pela distribuio normal. Nestas situaes, razovel vericar, atravs dos testes de hiptese apropriados, se as atuais condies permaneceram inalteradas em relao aos modelos pr-estabelecidos. Variveis onde as regras de formao no necessariamente constituam uma relao matematicamente perfeita e no existam estudos disponveis O tempo gasto entre o incio do expediente e a chegada do primeiro cliente poderia eventualmente ilustrar este tipo. Para estes casos, o analista dever trabalhar com a coleta de dados amostrais, formular hipteses acerca do comportamento dos dados e test-los. O nosso objetivo foi ilustrar o princpio da utilizao de distribuies. Ao longo do mdulo, abordaremos apenas as distribuies binomial, uniforme e normal. Caso necessite de conhecimentos especcos nesta rea, verique a bibliograa ao nal do curso.

Copyright Ibmec

69

Distribuio Binomial
Diversas so as situaes onde o dado que devemos analisar apresenta dois possveis estados: No lanamento de uma moeda tirarmos ou no cara. No lanamento de um dado tirarmos ou no o nmero 6. Em uma linha de montagem uma pea sair defeituosa ou no. Os resultados acima podem ser classicados em duas categorias: SUCESSOS [S] ou INSUCESSOS [I]. Se atribuirmos probabilidades a cada uma das categorias, construiremos uma Distribuio de Probabilidades denominada de Distribuio de Bernoulli.
Distribuio De Bernoulli Evento Sucesso Insucesso Probabilidade p q p+q=1q=1-p

Se repetirmos a Distribuio de Bernoulli n vezes de forma independente, garantindo que um resultado no inuencie o seguinte, chegaremos Distribuio Binomial.

Principais caractersticas da distribuio binomial


Cada tentativa apresenta Sucesso (S) ou Insucesso (I). As tentativas so independentes (uma no afeta a outra). Usada para populaes innitas ou amostras com reposio. Aplicaes em controle de qualidade. X mede o nmero de sucessos em n tentativas. Frmulas de clculo

70

Copyright Ibmec

Onde n: tamanho da amostra; (n=1,2,3,...). p: probabilidade de um nico sucesso (0<1). q: probabilidade de uma nica falha (q=1-p). k: nmero desejado (k=0,1,2,...n). Exemplo prtico O percentual de peas defeituosas em uma linha de produo de 5%. Qual a probabilidade de encontrarmos 3 peas defeituosas em uma amostra com 10 peas?

Ao retirarmos uma primeira pea para a realizao dos testes, diminuiremos a populao em um elemento. Conseqentemente, as probabilidades de defeitos em uma segunda pea sero alteradas. Entretanto, para populaes maiores, razovel admitir que esta alterao no ocasione tanto impacto na condio da populao. n=10, p=0,05, q=0,95 e k=3. p(X = 3) = C310 x 0,053 x 0,957 = 0,0105 105%

Distribuio Uniforme
A distribuio uniforme o modelo mais simples de distribuio contnua alm de ser caracterizada pela funo densidade constante entre seus parmetros. Principais caractersticas da distribuio uniforme: No intervalo, a funo densidade f(X) plana, paralela ao eixo horizontal. Parmetros: a e b;- < a < b < +.

Copyright Ibmec

71

Frmulas de clculo

Em uma sorveteria, o volume dirio vendido uniformemente distribudo entre 10 e 50 litros. Qual a probabilidade das vendas de amanh situarem-se entre 25 e 40 litros? Qual o valor esperado das vendas? E a varincia?

Temos a=10; b=50; c=25; d=40.

Distribuio Normal
Uma das distribuies contnuas mais importantes para a estatstica a Distribuio Normal, tambm citada em alguns textos como Distribuio de Gauss em homenagem a Karl F.Gauss (1777-1855) que a criou.

72

Copyright Ibmec

Principais Caractersticas da distribuio normal: So simtricas em relao mdia e apresentam o formato de um sino, com um ponto de mximo ao centro da distribuio e extremos assintticos que nunca tocam o eixo horizontal (tendendo respectivamente a - e + ). Inteiramente descritas por seus parmetros e (mdia e desvio padro). Na realidade, h uma famlia de curvas normais, conforme ilustrado na gura abaixo. Descrevem muitos fenmenos fsicos e nanceiros. Utilizadas para aproximar resultados de outras distribuies (binomial, por exemplo). Uma combinao linear de variveis normalmente distribudas tambm uma varivel normalmente distribuda. Ou seja, se X e Y so VAs normais, Z = a.X + b.Y tambm VA normal (a e b constantes).

Frmulas de clculo

A varivel z equivale distncia entre X e a mdia medida em desvios-padres. Valores positivos para z indicaro que X est direita da mdia. Valores negativos indicaro que X est esquerda. Para encontrar a probabilidade de X em um intervalo, calcule primeiramente z e em seguida consulte a tabela da normal padro. Para encontrar um valor X qualquer a partir da probabilidade, da mdia e do desvio-padro, procure a rea no corpo da tabela e em seguida ache z. Encontre X pela expresso acima. As tabelas usualmente adotadas para o clculo da probabilidade em funo de z, referem-se distribuio normal padronizada, cuja principal caracterstica apresentar mdia nula e desviopadro igual a 1.
Copyright Ibmec

73

Exemplo

Clculo de z: (1318-1000)/150 = 2,12.

74

Copyright Ibmec

Unidade 6 Utilizao de Ferramentas do Excel


Uso do Excel no Clculo de Probabilidades
Nesta seo apresentaremos as funes das denies vistas ao longo do mdulo. H outras funes que permitem o clculo de probabilidades para outras distribuies. Para aqueles que necessitem de um maior aprofundamento neste tpico, recomendamos fortemente a leitura da bibliograa indicada.
Funo COMBIN(n;k) DISTRBINOM(k;n;p;log) COMBINAO de n, k a k; Probabilidades usando a Binomial, onde k, n e p correspondem s definies vistas no texto; se log=0, DISTRBINOM fornecer a probabilidade de X=k; se log=1 de X<=k. Usa a Normal para calcular a probabilidade de X C; log dever ser igual a 1; md e dp referem-se mdia e ao desvio-padro do conjunto de dados, respectivamente; no necessrio calcular z para usar a funo. Usa a Normal-padro para calcular a probabilidade de X z Usa a Normal para calcular C tal que p(X C) = prob; no necessrio calcular z para usar a funo Usa a Normal-padro para calcular z tal que p(X z) = prob Encontra o Escore z para C, estrado de um conjunto com mdia md e desvio-padro dp. Calcula

DIST.NORM(C;md;dp;log)

DIST.NORMP(z) INV.NORM(prob;md;dp) INV.NORMP(prob) PADRONIZAR(C;md;d)

Copyright Ibmec

75

Resumo
Iniciamos este mdulo denindo probabilidade como um nmero entre 0 e 1 que mede as chances de determinado evento vir a ocorrer. Dois ou mais eventos podem ser considerados como mutuamente exclusivos, coletivamente exaustivos ou equiprovveis. A frequncia relativa e a frequncia subjetiva so outras abordagens de clculo da probabilidade. As combinaes de eventos podem ser do tipo evento A OU evento B ou evento A E evento B. Para o clculo das probabilidades em combinaes OU necessrio utilizar a lei da Adio, variando ligeiramente sua expresso em funo dos eventos serem ou no mutuamente exclusivos. Nas combinaes E utilizam-se a lei da Multiplicao que varia da mesma forma que as combinaes OU. Apresentamos as principais tcnicas de contagem: diagrama de rvore, regras da adio e da multiplicao, ferramentas indispensveis para lidar com o clculo clssico da probabilidade.

76

Copyright Ibmec

MDULO 4 Relao entre Variveis

77

Introduo ao Mdulo
Se o faturamento de uma Empresa ABC dobrou este ms, no razovel esperar que seu lucro tenha evoludo? Analisando de outra forma o que tentamos vericar se as variveis citadas, faturamento e lucro lquido, so dependentes ou independentes. Duas variveis A e B sero independentes se os resultados obtidos por A no inuenciarem os resultados obtidos por B, e vice-versa. Se a varivel A inuenciar a ocorrncia da varivel B, A e B sero dependentes. Neste mdulo enfatizaremos o estudo do interrelacionamento entre duas variveis X e Y e abordaremos duas tcnicas especcas: Anlise da Covarincia/Correlao onde a nfase recai na identicao da dependncia entre as variveis, permitindo o clculo da varincia para uma combinao linear de variveis. Anlise de Regresso onde a nfase recai na formalizao do relacionamento entre as variveis atravs de uma equao. Esta tcnica possui o objetivo de projetar o que ocorrer com uma das variveis a partir do conhecimento prvio do que ocorrer com a outra varivel.

Objetivos
Destacar a importncia da Teoria das Probabilidades para a inferncia estatstica, identicando suas diferentes abordagens; Calcular probabilidades de eventos isolados e de eventos combinados; Denir variveis aleatrias, variveis discretas e contnuas e suas respectivas Distribuies de Probabilidades; Determinar e interpretar o signicado do valor esperado, da varincia e do desvio-padro de uma varivel aleatria; Identicar a importncia de se trabalhar com modelos tericos de probabilidade para a simplicao dos clculos; Listar alguns modelos discretos e contnuos de distribuio, indenticando quando e como utiliz-los: Binomial, Normal e Uniforme. Resolver problemas utilizando o EXCEL.

Copyright Ibmec

79

Estrutura do Mdulo
Unidade 1 - Coleta de dados Unidade 2 - Clculo de covarincia Unidade 3 - Clculo do coeciente de correlao Unidade 4 - Combinao de variveis Unidade 5 - Clculo dos parmetros da regresso Unidade 6 - Utilizao de ferramentas do EXCEL

80

Copyright Ibmec

Unidade 1 Coleta de Dados


Coleta de Valores
Para realizarmos toda e qualquer anlise envolvendo mais do que uma nica varivel, o primeiro passo ser a coleta dos valores de forma emparelhada. As VARIVEIS aleatrias X e Y estaro EMPARELHADAS quando, a cada momento que observarmos uma ocorrncia, anotarmos dois valores: um para a varivel X, outro para a varivel Y. Portanto, para n observaes teremos n pares de dados: (X1,Y1); (X2,Y2); (X3,Y3); ..... (XN,YN).

O conceito anterior poder ser ampliado de forma a incluir mais do que duas variveis. X, Y e Z poderiam formar as triplas (X1,Y1,Z1); (X2,Y2,Z2); (X3,Y3,Z3); ..... (XN,YN,ZN). A denio anterior no necessariamente signicar que cada par [ou n-dupla] de valores ocorrer em um instante de tempo distinto.

Relao de Dados e Variveis


A tabela abaixo relaciona o faturamento e o lucro lquido da Empresa XYZ. Observe que os dados esto emparelhados, pois a cada ms foram coletados os dados referentes s duas variveis [X=FAT, Y=LL].
DADOS EMPARELHADOS Empresa XYZ - Valores em M$ Anos 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 Faturamento (X) 200 300 500 400 600 800 900 900 1.100 1.000
Copyright Ibmec

Lucro Lquido (Y) 20 35 48 38 56 77 87 83 102 98

81

comum designarmos a varivel explicativa ou independente por X, sendo a varivel explicada ou dependente designada por Y. Para estudar a inuncia de mais do que uma varivel explicativa no comportamento da varivel explicada, a tcnica utilizada a Anlise de Regresso Mltipla. Cabe ressaltar que as medidas encontradas usualmente referem-se s relaes entre as variveis tomadas duas a duas. Por esse motivo, trataremos somente da anlise envolvendo duas variveis.

Utilizao dos Diagramas de Disperso


No estudo do comportamento das variveis quantitativas, uma ferramenta bastante utilizada o traado do diagrama de disperso, j denido no mdulo 2 e ilustrado abaixo.

Atravs do diagrama de disperso possvel identicar visualmente: A existncia e o tipo de relacionamento entre as variveis, i.e, um relacionamento positivo (do tipo Y sobe quando X sobe, Y cai quando X cai) ou negativo (do tipo Y sobe quando X cai, Y cai quando X sobe). Na gura ao lado exemplicamos um relacionamento positivo. A forma como o relacionamento ocorre: linear, quadrtico, exponencial e outros. Na gura anterior exemplicamos um relacionamento linear entre X e Y. Nem sempre esta ferramenta permitir a identicao dos relacionamentos. Particularmente, nos casos envolvendo variveis qualitativas ou variveis quantitativas que assumam poucos valores.

82

Copyright Ibmec

Unidade 2 Clculo de Covarincia


Clculo da Covarincia
Outra possvel tcnica para identicar os relacionamentos entre duas variveis numricas X e Y o clculo da covarincia e da correlao entre X e Y.

Observe a semelhana entre as expresses anteriores e as utilizadas para o clculo da varincia. Ou seja, se fssemos calcular a covarincia entre X e X, recorreramos s expresses para a varincia. O motivo de utilizarmos (n-1) no denominador da covarincia amostral seguir a mesma linha de raciocnio que utilizamos para a varincia amostral. No processo inferencial, sx,y calculado desta forma, ser um estimador no tendencioso de x,y.

Exemplo prtico Conforme clculos efetuados na tabela abaixo, a covarincia populacional ser de 8.062 (M$)2. Se quisssemos apresentar em bases amostrais, encontraramos 8.957,78 (M$)2 (obtidos pela diviso de 80.620 por 9).

Copyright Ibmec

83

CLCULO DA COVARINCIA Empresa XYZ - Valores em M$ Anos 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 Mdias X=Fat 200 300 500 400 600 800 900 900 1.100 1.000 6.700 670 Y=LL 20 35 48 38 56 77 87 83 102 98 644 64,4 X-X -470 -370 -170 -270 -70 130 230 230 430 330 0 0 Y-y -44.4 -29.4 -16.4 -26.4 -8.4 12.6 22.6 18.6 37.6 33.6 0 0 (X-X) x (Y-y) 20.868 10.878 2.788 7.128 588 1.638 5.198 4.276 16.168 11.088 80.620 8.062

Interpretao da Covarincia
Tendo determinado a covarincia, possvel encontrar um valor no nulo (positivo ou negativo) ou um valor nulo.

Para o caso de um valor no nulo, a interpretao ser: x,y > 0: X e Y so dependentes e apresentam relacionamento positivo. Ou seja, se X sobe Y tambm sobe; se X cai, Y tambm cai e vice-versa. x,y < 0: X e Y so dependentes e apresentam relacionamento negativo, ou seja: se X sobe Y cai; se X cai, Y sobe e vice-versa.

84

Copyright Ibmec

Covarincia Positiva
O grco abaixo apresenta um exemplo de covarincia positiva. Observe no Diagrama de Disperso que cada par (x,y) ir gerar um desvio em relao s mdias para X e Y. No quadrante assinalado com (-,-) os desvios sero negativos para X e Y. Consequentemente, seu produto ser positivo. A mesma linha de raciocnio poder ser utilizada para os demais quadrantes. Como a covarincia funo da soma de todos estes produtos, caso as observaes concentrem-se nos quadrantes (-,-) e (+,+), x,y ser positivo. O grco direita ilustra a questo de outra forma. Supondo que X e Y assumam a funo do tempo, uma covarincia positiva indicar movimentos paralelos na mesma direo.

Covarincia Negativa

A gura acima ilustra um exemplo de covarincia negativa. Neste caso, a argumentao similar do exemplo anterior e poder ser adotada para a interpretao dos resultados. Para o caso de um valor nulo preciso deveremos observar que: Se duas variveis forem independentes, necessariamente apresentaro covarincia nula. Mas se duas variveis apresentarem covarincia nula, no necessariamente sero variveis independentes.
Copyright Ibmec

85

Inconvenientes da Covarincia
O resumo das regras e concluses anteriores encontra-se abaixo.

Apesar de servir como indicador para a dependncia de variveis e possuir uma srie de propriedades aritmticas teis para a combinao de variveis, a covarincia apresenta alguns inconvenientes, dentre os quais destacamos: Sua unidade de difcil entendimento. Por exemplo, se X e Y estiverem expressos em $, a covarincia estar expressa em $2. Se X estiver expresso em $ e Y em n de empregados, a covarincia ser expressa em $xn de empregados. uma varivel ilimitada, ou seja, est denida para qualquer valor existente no conjunto de nmeros reais, e consequentemente, no fornecer o grau de dependncia existente entre as variveis. Para contornarmos os inconvenientes apresentados, o Coeciente de Correlao surge como uma boa alternativa.

86

Copyright Ibmec

Unidade 3 Clculo do coeciente de correlao


Coeciente de Correlao
O Coeciente de Correlao (tambm denominado de Coeciente de Pearson) normalmente designado por r para dados referentes a amostras e por [l-se r] para dados referentes a populaes. Sua utilizao bastante difundida nos problemas envolvendo o relacionamento linear entre duas variveis, pois alm de quanticar a correlao existente entre elas, ainda a qualica. Supondo X e Y duas variveis emparelhadas, o Coeciente de Correlao X,Y [ou rX,Y] ser denido por:

Considerando que o desvio-padro de qualquer varivel ser sempre um nmero no negativo, o Coeciente de Correlao ter o mesmo sinal da covarincia. Portanto, ser interpretado de forma similar. Quando diferente de zero, indicar dependncia entre as variveis, evidenciando relacionamentos positivos ou negativos. Quando nulo poder indicar independncia entre as variveis ou relacionamentos no lineares. Razo de se preferir armar que, se r=0, as variveis so no correlacionadas. Alm da similaridade com a varincia, o Coeciente de Correlao apresentar tambm as seguintes caractersticas: No possuir unidades, evitando com isso uma das desvantagens que citamos para a covarincia. Ser uma varivel limitada, ou seja, -1 " " 1 (a prova constitui-se em teorema da Estatstica terica). Esta caracterstica permitir a criao de uma escala para a quanticao do relacionamento entre as variveis (r=0,8 signica que X e Y apresentam dependncia maior que W e Z, que possuem r=0,4).

Copyright Ibmec

87

Exemplo prtico Calcule o Coeciente de Correlao existente entre o Faturamento e o Lucro Lquido da empresa XYZ, exemplo j apresentado anteriormente.

J havamos calculado a covarincia e obtido 8.062 M$2. Se calcularmos os desvios-padres para X e Y encontraremos respectivamente 296,82 M$ e 27,26 M$. Assim, o coeciente de correlao ser igual a 0,9964 [= 8.062 / (296,82 x 27,26)].

O Coeciente de Determinao
Face sua caracterstica de oscilar entre -1 e 1, o coeciente de correlao permitir a qualicao do grau de relacionamento entre as variveis. Ou seja, quanto mais prximo de +1 ou de -1, mais forte ser esta relao (ou dependncia). O inverso ocorrer medida que o coeciente aproximarse de zero. Outra alternativa vivel, ser trabalharmos com o Coeciente de Determinao, usualmente denominado de coeciente r2 (coeciente de correlao elevado ao quadrado). O Coeciente de Determinao r2 medir a proporo da variao de Y que poder ser explicada pela variao existente em X.

Outras Informaes

88

Copyright Ibmec

A expresso (1- r2) tambm denominada de Coeciente de Indeterminao e representa a parcela da variabilidade de Y no explicada pela variabilidade de X. Por ser uma medida do relacionamento linear entre as variveis, r e r2 indicaro o maior ou menor afastamento dos pares (Xi,Yi) da reta de regresso linear. Os grcos a seguir ilustram diversos casos de r e r2. Observe que enquanto r preocupa-se com a direo do relacionamento, r2 preocupa-se com a maior ou menor proximidade dos pontos da reta traada.

Copyright Ibmec

89

Unidade 4 Combinao de Variveis


Combinao de Variveis
Admitindo a observao de valores emparelhados para duas variveis X e Y quaisquer, expresses do tipo aX + bY onde a e b so duas constantes quaisquer, recebem o nome de Combinaes Lineares de X e Y. Prova-se que, para uma combinao linear entre X e Y, as relaes vlidas sero: a. E(aX = bY) = a.E(X) = b.E(Y) b. VAR(aX+bY) = a2 . VAT(X) + b2VAR(Y) + 2ab COV (X,Y) Exemplo prtico Ventiladores e tostadores so produtos cuja correlao das vendas negativa, igual a -0,70. Supondo que a lucratividade e o risco (em desvio-padro) para a linha de ventiladores (X) sejam de 4% e 3%, e para tostadores (Y) sejam de 7% e 6%, analise os resultados obtidos. Sendo voc o fabricante, opte por alocar 60% dos seus recursos na fabricao de ventiladores e os 40% restantes na fabricao de tostadores.

O primeiro passo ser determinarmos a covarincia entre X e Y. Ser necessrio denir o coeciente de correlao.

Com 60% em X e 40% em Y, utilizaremos as frmulas (a) e (b) apresentadas anteriormente. Admitindo que a=0,60 e b=0,40 chegaremos a:

90

Copyright Ibmec

Observe que foi possvel obter um retorno superior e com risco inferior (1,72% contra 3,00%) ao que voc obteria se investisse somente na produo de ventiladores (5,20% contra 4,00%).

Copyright Ibmec

91

Unidade 5 Clculo dos Parmetros da Regresso


Anlise de Regresso
A anlise de regresso procura estabelecer uma equao matemtica que determinar o comportamento de uma varivel Y em funo do comportamento de outras variveis X1, X2, X3, ..., Xn, ou seja, Y=f(X1,X2,...Xn). A regresso Y tambm denominada de varivel dependente ou explicada. As variveis X1, X2, X3, ... Xn so denominadas de variveis independentes ou explicativas. A regresso simples estudar os modelos envolvendo apenas uma nica varivel explicativa X, sendo os demais modelos abordados pela regresso mltipla.

Mesmo estabelecendo uma equao matemtica, a regresso no condio necessria e suciente para determinar relaes de causa-efeito entre as variveis envolvidas. Se tal relao existir, dever ser justicada atravs de alguma teoria econmica, nanceira, cientca etc.

Exemplos prticos 1. Analisando as vendas de um produto em funo dos preos praticados, um analista estabeleceu o seguinte modelo: Venda = 30 - 4 Preo. Neste caso, o modelo conrma a Lei da Demanda da Microeconomia que postula que quanto maior o preo, menor a quantidade demandada (vendida). 2. Ao confrontarmos uma srie histrica dos fechamentos de um ndice da bolsa de valores com o nmero de dias ensolarados, ambos em bases mensais, possvel encontrarmos algum tipo de relacionamento. Entretanto, essa questo no seria justicvel por nenhuma teoria nanceira. Tais modelos, meramente casuais, constituem-se no que os estatsticos denominam de relacionamentos esprios.

Regresso Linear Simples


Atravs do modelo de regresso linear simples, o comportamento da varivel explicada Y estar relacionado ao comportamento de uma nica varivel explicativa X (simples). Tal relacionamento ser denido por intermdio da equao de uma reta linear.

92

Copyright Ibmec

A tabela abaixo apresenta o faturamento e o lucro lquido apresentados em 18 meses de operao da Empresa XYZ. O grco representa o diagrama de disperso para as duas variveis estabelecendo uma equao linear interligada.

Dados Emparelhados Empresa XYZ Observao 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Faturamento M$ (X) 25 8 27 10 26 27 29 9 16 14 27 13 20 25 22 25 20 7 Lucro Lquido k$ (Y) 32 14 37 20 37 34 38 18 26 25 37 21 28 36 34 36 31 20

Equao Linear
Desde que a expresso abaixo seja vlida para todo par (Xi,Yi), admitiremos o relacionamento linear entre as variveis envolvidas e teremos estabelecido uma equao.

Copyright Ibmec

93

Na equao acima A refere-se interseo da reta com o eixo vertical e B ao coeciente angular da reta. O termo ei refere-se ao erro, ou resduo, no previsto no modelo, equivalente diferena entre o valor observado Yi e o valor Ypi projetado pela equao de regresso [ei = Yi - Ypi].

Representao - equao linear


Se acreditssemos que os valores adequados para A e B fossem respectivamente iguais a 15 e 0,5, para o segundo faturamento constante (X 2=8), o modelo iria prever um lucro lquido de 19 (=Yp2 = 15 + 0,5 x 8). J que o valor efetivamente observado para Y2 foi 14, haveria um erro igual a -5 (=e2 = 14 19). A gura abaixo apresenta todas as variveis envolvidas.

No grco acima, e2 corresponde distncia vertical entre a observao Y2 e a reta representativa da equao. Para as demais observaes Yi, tambm ser possvel o clculo dos respectivos erros ei. Considerando que se traarmos retas distintas os erros modicaro, a melhor reta ser aquela que minimizar os erros.

94

Copyright Ibmec

Mtodos dos Mnimos Quadrados


O mtodo dos mnimos quadrados minimiza os erros ei. Estabelecendo A e B que tornam mnima a soma dos quadrados dos erros ei, prova-se que os valores para estes coecientes so dados conforme abaixo:

Exemplo Determine os coecientes A e B para a equao de regresso entre o faturamento e o lucro lquido da empresa XYZ.

Caso soubssemos previamente os valores para a covarincia entre X e Y (igual a 54,0062), para a varincia de X (igual a 54,0247) e para as mdias de X e Y (respectivamente iguais a 19,4444 e 29,1111), faramos:

Desde que calculado utilizando-se todas as casas decimais relevantes.

Realizao de Previses
Uma vez obtida a Funo de Regresso Linear Amostral [Ypi=A+BXi], ser possvel utiliz-la para estimar a mdia condicional da populao E(Y|X=X0) a partir de um valor X= X0 conhecido. Para isso, preciso substituir o valor de X0 na equao encontrada.

Copyright Ibmec

95

Exemplo Utilizando os dados do exemplo apresentado anteriormente, estime o valor do lucro lquido para um ms cujo faturamento seja igual a M$ 15.

Para este caso X0=15. Portanto, atravs da equao de regresso encontrada, chegaremos a: Yp0 = 9,6733 + 0,9997 x 15 = 24,6682. Observe que apesar de correto, o valor encontrado para Yp0 apenas uma estimativa pontual do lucro lquido esperado na populao. Quando o faturamento for igual a M$15 e sujeito variabilidade amostral, certamente encontraremos um novo valor para Yp0.

Interpretao dos Coecientes , E R2


Vimos que o coeciente corresponde inclinao da reta de regresso. Porm, qual seria o signicado real (econmico, nanceiro etc.) para este ndice? Veja as possveis respostas a seguir.

Equivale ao valor da oscilao marginal na varivel explicada [Y] em funo de oscilao marginal de uma unidade na varivel explicativa [X]. Equivale sensibilidade da varivel explicada quanto s mudanas na varivel explicativa. Equivale medida de risco sistemtico, no diversicvel. O coeciente indica a interseo da reta de regresso com o eixo vertical ou o valor esperado para a varivel explicada Y quando a varivel explicativa nula. A interpretao para este coeciente no to simples, pois nem sempre o valor encontrado apresentar signicado econmico/nanceiro relevante. Alm dos coecientes citados, comum publicar-se tambm o coeciente de determinao r 2 associado regresso. Vimos anteriormente que medida que os pares (X,Y) aproximam-se de uma reta, mais prximo de 1 estar r2. Consequentemente, r2 tambm poder ser utilizado para comparar os resultados de regresses distintas desde que respeite algumas restries.

96

Copyright Ibmec

Por exemplo, se a regresso do lucro com o faturamento gerar r2=0,70 e a regresso do lucro com a inao gerar r2=0,80, o melhor modelo ser o ltimo j que apresenta maior valor que o primeiro (80% versus 70%). A situao ilustrada retrata a comparao de duas regresses lineares simples, onde deseja-se explicar o comportamento da mesma varivel. Para comparaes envolvendo diferentes nmeros de variveis explicativas e/ou formas distintas para a varivel explicada, no necessariamente o mtodo conduzir a respostas adequadas.

Copyright Ibmec

97

Unidade 6 Utilizao das Ferramentas do Excel


Uso do Excel na Relao Entre Variveis
Nesta seo apresentaremos as funes das denies vistas ao longo do mdulo. H outras funes que permitem as anlises estatsticas. Para aqueles que necessitem de um maior aprofundamento neste tpico, recomendamos fortemente a leitura da bibliograa indicada. Sendo LX e LY duas listas de idntico tamanho, contendo dados numricos, utilize as seguintes funes:
Funo COVAR(LY;LX) CORREL(LY;LX) INCLINACAO(LY;LX) INTERCEPO(LY;LX) PREVISO(X;LY;LX) Covarincia entre as duas listas. Correlao entre as duas listas. Coeficiente Angular (B) da regresso linear entre X e Y. Coeficiente Linear (A) da regresso linear entre X e Y. Projeo de Y para o valor X utilizando o modelo de regresso linear entre X e Y. Parmetros da Regresso Linear entre X e Y. uma funo matricial, encerre-a com [CTRL] [SHIFT] [ENTER]. PROJ.LIN(LY;LX;k;e) Se k=Verdadeiro ou omisso calcular o coeficiente A; se falso, A=0. Se e=falso ou omisso calcular apenas A e B; se verdadeiro retornar todos os dados da regres-so linear. RQUAD(LY;LX) Coef. de Determinao (r 2) entre as duas listas. Projeo de Y a partir de estimativas de X (constantes em NL) atravs do Modelo Linear de regresso entre X e Y. TENDENCIA(LY;LX;NL;k) uma funo matricial, encerre-a com [CTRL] [SHIFT] [ENTER]. Se k=Verdadeiro calcular coeficiente A; se falso ou omisso far A=0 Calcula

98

Copyright Ibmec

Resumo
Apresentamos os conceitos de dependncia e independncia aplicados s variveis alm das duas tcnicas disponveis: anlise de correlao e anlise de regresso. Em ambos os tipos de anlise, o primeiro passo ser a realizao da coleta de dados que dever ser feita de forma emparelhada. Supondo duas variveis X e Y quaisquer, armaremos que elas esto emparelhadas quando, a cada observao X, obtivermos uma observao Y ou vice versa. Para variveis numricas, na maioria das vezes, o traado do diagrama de disperso permitir (sem preciso) a identicao de existncia, do tipo e da forma do relacionamento entre as variveis. A covarincia medir quantitativamente o relacionamento entre duas variveis. Quando positiva, indicar que duas variveis esto positivamente relacionadas: quando uma crescer, a outra tambm crescer. Quando negativa, indicar o oposto: quando uma crescer, a outra cair. Tambm possvel medir o relacionamento entre duas variveis atravs do coeciente de correlao. Alm de possuir caractersticas semelhantes covarincia, permite a qualicao do relacionamento entre as variveis. Por m, indicamos as ferramentas do EXCEL para calcular as relaes entre as variveis. Os procedimentos adequados para sua utilizao foram destacados ao nal deste mdulo.

Copyright Ibmec

99

MDULO 5 Inferncia: Intervalos de Conana

101

Introduo ao Mdulo
Este mdulo aborda a denio da estatstica, sua importncia e principais campos de atuao. Sero apresentadas idias bsicas para a compreenso e aplicao da estatstica no seu cotidiano. Um dos procedimentos da inferncia estatstica bastante til a estimao, tcnica adequada para descobrir, estimar, algum parmetro populacional baseado em dados coletados de uma amostra. Por exemplo: Qual o faturamento mdio das microempresas no Brasil se, ao selecionarmos uma amostra com 100 microempresas, obtivermos faturamento mdio de $200.000 e desvio-padro de $10.000? De uma forma geral, para que os resultados obtidos pelas tcnicas que iremos abordar levem-nos a concluses corretas, ser necessrio realizar trs etapas: Etapa 1: Seleo de amostras no tendenciosas. Etapa 2: Conhecer a distribuio amostral relacionada estatstica estudada. Etapa 3: Realizar os clculos para a determinao do intervalo. Por ser mais intuitivo, apresentaremos o mtodo inicialmente para as mdias sob condies especiais. Ao longo do mdulo, procure compreender a lgica existente nos procedimentos da inferncia estatstica.

Objetivos
Diferenciar amostras probabilsticas das no probabilsticas, denir os principais tipos de amostras e nmeros aleatrios; Denir distribuio amostral, exemplicando as principais caractersticas para o caso da distribuio amostral das mdias: o valor esperado, o erro amostral, o erro padro amostral e o formato da distribuio; Enunciar o Teorema Central do Limite, exemplicando sua utilizao; Estabelecer as etapas para a construo de um intervalo de conana; Construir intervalos de conana para as mdias, exemplicando como ele varia em funo da disperso existente na populao, do nvel de conana preestabelecido e do tamanho da amostra Denir o tamanho ideal da amostra em funo do erro mximo aceitvel; Citar outras distribuies amostrais, associando-as aos modelos tericos de distribuies de probabilidades;

Copyright Ibmec

103

Construir intervalos de conana para propores e para os coecientes da regresso linear; Resolver problemas utilizando o EXCEL

Estrutura do Mdulo
Unidade 1 - Conceitos iniciais de seleo de amostras Unidade 2 - Distribuio amostral Unidade 3 - Construo do intervalo de conana Unidade 4 - Outros intervalos de conana Unidade 5 - Utilizao de ferramentas do EXCEL

104

Copyright Ibmec

Unidade 1 Conceitos Iniciais de Seleo de Amostras


Amostra
Uma amostra pode ser denida como qualquer subconjunto da populao sobre a qual desejamos efetuar anlises. Entretanto, nem toda amostra pode gerar resultados conveis e, dependendo do grau de contaminao, poder at mesmo nos levar a concluses inconsistentes. Assim, precisaremos de amostras no tendenciosas ou simplesmente amostras probabilsticas.

Amostra probabilstica
Uma amostra probabilstica caracteriza-se por ser extrada da populao de tal forma que cada item, ou pessoa, tenha as mesmas chances de ser selecionado que os demais. Exemplo Em uma empresa h 1.000 funcionrios, dos quais 75% tm segundo grau completo e os 25% restantes nvel superior. Um processo probabilstico de amostragem dever garantir que as chances de seleo de um funcionrio especco sejam idnticas s chances de seleo de cada um dos demais. Portanto, a probabilidade de um funcionrio selecionado ter segundo grau ser de 75% e, mantendo se o critrio adotado, a proporo de funcionrios com segundo grau em uma amostra tender a reproduzir a proporo encontrada na populao.

Amostra no probabilstica
Supondo as condies do exemplo apresentado anteriormente, uma amostra baseada nos resultados de uma prova sobre Estatstica, certamente seria no probabilstica, j que haveria uma tendncia seleo de uma maior proporo de indivduos de nvel superior. Lembre-se de que esta uma disciplina usualmente ministrada nas faculdades.

Copyright Ibmec

105

Amostra Probabilstica
Supondo as condies da empresa com 1000 funcionrios, caso quisssemos selecionar 50 funcionrios aleatoriamente, poderamos: Escrever o nome de cada um dos 1000 funcionrios em um carto, depositando-os em uma urna e, aps sua mistura, extrair 50 cartes. Atribuir um nmero a cada um dos 1000 funcionrios e depositar 1000 cartes ou chas numeradas na urna, sacudir a urna e retirar 50 cartes. Simular a urna anterior atravs da utilizao de nmeros aleatrios, que podero ser obtidos em tabelas, ou ainda em calculadoras e softwares. A metodologia descrita acima denominada de amostragem aleatria simples. H outros mtodos de amostragem aleatria, sendo o sistematizado e o estraticado os mais comuns. importante ter ateno que nos processos de inferncia as chances de sorteio devem ser iguais para todos os elementos da populao. Verique a bibliograa bsica indicada para conhecer mais detalhes sobre o tema amostragem.

106

Copyright Ibmec

Unidade 2 Distribuio Amostral


Exemplo Prtico Calcule a mdia, o desvio-padro e trace o histograma para a populao em anlise.

Utilizando as frmulas adequadas, chegaremos a:

Erros Amostrais
Suponha que, ao selecionar uma amostra com 3 elementos, voc tenha sorteado $3, $4 e $5. Neste caso, a mdia para esta amostra, ou mdia amostral, seria $4,00, gerando um erro de $1. Por outro lado, caso voc tivesse sorteado $3, $5 e $6, sua mdia amostral teria sido $4,67, gerando um erro de $0,33. Os erros apontados no exemplo so denominados erros amostrais e, tratando-se de amostras probabilsticas, sua ocorrncia puramente devida ao acaso. Os erros amostrais variam em funo: Do parmetro em estudo, pois ao estimarmos o valor para o desvio padro populacional, a primeira amostra teria gerado um desvio-padro de s=$1,00 o que nos levaria a um erro de -$0,41 e no os -$1,00 obtidos para a mdia.
Copyright Ibmec

107

Da amostra especicamente selecionada j que cada uma gera um erro distinto. Do tamanho da amostra. Sendo razovel acreditar que, quanto maior o tamanho da amostra em relao ao tamanho da populao, menor dever ser o erro gerado.

Distribuio Amostral das Mdias


Simulamos a retirada de todas as amostras de determinado tamanho admitindo reposio. Para n=2, por exemplo, isto signicou termos 25 amostras diferentes ($3;$3); ($3;$4); ($3;$5);...;($7;$7). Os resultados obtidos encontram-se listados na tabela abaixo.
Distribuio Amostral das Mdias n 1 2 3 4 5 f 5 25 125 625 3125 Intervalo 1,00 0,50 0,33 0,25 0,20 Mdia 5,00 5,00 5,00 5,00 5,00 Varincia Desv-pad 2,00 1,00 0,67 0,50 0,40 1,41 1,00 0,82 0,71 0,63

n: tamanho das amostras. f: nmero de amostras encontradas. Intervalo: corresponde ao menor intervalo entre duas mdias amostrais consecutivas. Com n=2, a amostra ($3;$3) ir gerar mdia $3. A amostra ($3;$4) ir gerar mdia $3,5, e assim sucessivamente. As mdias amostrais neste caso estaro espaadas em $0,50. Mdia: corresponde s mdias das mdias amostrais. Se calcularmos a mdia das mdias amostrais encontradas para as 25 amostras com n=2, chegaremos a $5,00, e assim sucessivamente. Varincia: corresponde s varincias das mdias amostrais. Se calcularmos a varincia das mdias amostrais encontradas para as 25 amostras com n=2, chegaremos a $2, e assim sucessivamente. Desvio-padro: corresponde ao desvio-padro das mdias amostrais. Se calcularmos o desviopadro das mdias amostrais encontradas para as 25 amostras com n=2, chegaremos a $1,41, e assim sucessivamente.

108

Copyright Ibmec

Frmulas
O resultado anterior to importante, que base de um dos mais importantes teoremas da Estatstica: Teorema Central do Limite.

Teorema Central do Limite


Para uma populao normalmente distribuda, a distribuio amostral das mdias ter formato aproximadamente normal, independente do tamanho da amostra. Para toda e qualquer populao, a distribuio amostral das mdias tender distribuio normal, desde que o tamanho da amostra seja sucientemente grande.

Copyright Ibmec

109

Distribuio Amostral das Mdias


Suponha que uma populao tenha mdia 70 e desvio-padro 5,48. Se retirssemos todas as amostras com 30 elementos, qual o intervalo central em que observaramos 95,44% das mdias amostrais? Qual o problema desta abordagem?

Utilizando as frmulas, observaremos que a mdia das mdias, ou valor esperado das mdias, ser igual a 70,00 e o desvio-padro, ou erro-padro, para as mdias amostrais ser igual a 1,00, conforme abaixo.

As mdias amostrais iro se comportar de acordo com uma Normal, pois atravs do Teorema Central do Limite, com amostras de 30 elementos em diante, o formato da distribuio da populao no importante. Em uma Normal, para garantirmos 95,44% de probabilidade no centro, necessrio delimitar um intervalo que compreenda dois desvios-padres esquerda e dois desvios-padres direita da mdia, o que, para os dados do problema, nos dar: [70 2 1; 70 + 2 1] = [68 72].

O grande problema da abordagem anterior que partimos do conhecimento completo da populao para chegarmos ao comportamento das amostras.

110

Copyright Ibmec

Na prtica, precisaremos realizar o caminho oposto, ou seja, partirmos do conhecimento de uma amostra para inferirmos algo sobre a populao. Vericaremos mais informaes sobre esse assunto na prxima unidade.

Copyright Ibmec

111

Unidade 3 Construo do Intervalo de Conana


Roteiro
Esta modalidade de estimao baseia-se na distribuio amostral da estatstica utilizada como estimador para estabelecer o intervalo onde acreditamos estar o parmetro estimado. Intervalos assim construdos sero denominados intervalos de conana, sendo o nvel de conana correspondente ao grau de conabilidade que queremos ter no procedimento.

1. Aps a coleta dos dados amostrais, calcule a estimativa pontual (T) para o parmetro a ser estimado, o que no caso da mdia corresponde mdia amostral ; 2. Determine o erro-padro da estimativa (E), o que no caso das mdias, corresponde a ; 3. Estabelea o nvel de conana desejado, ou seja, qual a probabilidade de acerto do procedimento; 4. Verique qual a distribuio amostral adequada varivel em estudo e, com base no nvel de conana estabelecido em (3), determine seus ndices i; o que no caso das mdias signica encontrar o valor de z na Normal; 5. O intervalo de conana ser dado por:

O roteiro anterior ser sempre vlido para populaes normalmente distribudas, independente do tamanho da amostra, e com conhecido; Para populaes no normalmente distribudas, o roteiro anterior ser vlido desde que n 30; Veja adiante como proceder para o caso do desvio-padro populacional ser desconhecido.

112

Copyright Ibmec

Exemplos Prticos
Exemplo 1 Voltando populao com mdia 70 e desvio-padro de 5,48, suponha que um consultor, contratado para estimar a mdia populacional, aps coletar uma amostra com 30 elementos, tenha obtido uma mdia amostral de 69. Considerando um nvel de conana de 95,44%, qual o intervalo que ele dir ao contratante? Admita que, por pesquisa j divulgada anteriormente, o consultor saiba qual o desvio-padro existente na populao.

Aplicando o roteiro citado teremos: Etapa 1: J calculada, ou seja X = 69. Etapa 2: Utilizaremos a frmula ajustada pelo fator de correo.

Etapa 3: J estabelecida, equivale a 95,44%. Etapa 4: Como estamos trabalhando com mdias e conhecemos o desvio padro populacional, a distribuio amostral ser de acordo com uma distribuio normal. Se desejamos 95,44% de conana, procuraremos na tabela o valor de z equivalente a uma rea de 0,4722 (=0,9544/2), o que nos dar z igual a 2. Etapa 5: O intervalo de conana IC ser igual a: IC = 69 - 2 x 1 <= <= 69 + 2 x 1 = [67 <= <= 71].

Copyright Ibmec

113

Exemplo 2

Neste caso, a nica alterao em relao resoluo anterior ser na Etapa 1, alterando o intervalo de conana gerado: IC = 72 - 2 x 1 <= <= 72 + 2 x 1 = [70 <= <= 74]

Interpretao dos Resultados


Um erro muito comum achar que o nvel de conana (indicado nos exemplos anteriores como igual a 95,44%) corresponde probabilidade da mdia populacional estar no intervalo gerado. Na sequncia de exemplos que apresentamos, sabemos que a mdia populacional 70. Logo, no intervalo do exemplo anterior, a probabilidade da mdia populacional estar inserida neste intervalo de 100% j que ela efetivamente est. Por outro lado, caso o consultor tivesse obtido como mdia amostral 66, o intervalo gerado seria [64 <= <= 68]. A probabilidade da mdia populacional estar neste intervalo de 0%.

Intervalo de Conana e Mdia


Mantendo as mesmas condies dos ltimos exemplos, simule os resultados obtidos em possveis amostras retiradas da populao em estudo. Construa uma tabela e represente a curva da distribuio amostral das mdias com os possveis resultados encontrados pelo consultor.

114

Copyright Ibmec

Pelas respostas dadas nos exemplos anteriores, fcil concluir que o IC gerado pelo consultor ser modicado conforme a mdia amostral obtida, e seguindo a regra: ( -2,00 +2,00). A tabela a seguir simula alguns resultados e os intervalos gerados.
Intervalo de Confiana para a Mdia

Amostra 1 2 3 4 . n

X 69 72 70 66 . 71

Intervalo 67 - 71 70 - 74 68 - 72 64 - 68 . 69 - 73

Analisando a simulao da tabela, percebemos que as amostras 1,2,3 e n geraram intervalos contendo a mdia real da populao. Entretanto, a amostra 4 no gerou intervalos pois a mdia real da populao (=70) no faz parte do intervalo considerado (=64-68).

Distribuio Amostral das Mdias


Qual a probabilidade de escolhermos um intervalo contendo a mdia real da populao? Como o intervalo em funo de, seus extremos dependero do valor encontrado para a mdia amostral.

Ou seja, desde que as mdias amostrais estejam no intervalo 68 72, o pesquisador ir gerar um IC contendo a mdia.
Copyright Ibmec

115

Qual a probabilidade disso ocorrer? Conforme j calculado anteriormente, tais chances sero de exatos 95,44%, justamente o nvel de conana preestabelecido. A gura abaixo resume os conceitos relevantes.

O nvel de conana estabelecer o percentual de vezes que os intervalos de conana gerados, a partir das tcnicas citadas, apresentaro o parmetro populacional em estudo.

Determinao do Tamanho das Amostras


J denimos o erro amostral como a diferena entre a estimativa e caracterstica populacional estimada. Como os intervalos de conana que construmos so centrados na mdia amostral, o erro amostral mximo que poderemos cometer ser equivalente metade da amplitude do intervalo. A expresso para seu valor, no caso das mdias, poder ser obtida conforme a seguir.

Como ser necessrio determinar o tamanho da amostra, resolveremos a equao anterior considerando n como incgnita.

116

Copyright Ibmec

Ou seja:

Portanto, o nmero de elementos na amostra ir variar em funo dos fatores: O nvel de conana desejado (representado por z): quanto maior , maior z e mantidas as demais variveis da frmula constantes, maior ser o tamanho n; A disperso : quanto maior , maior e portanto maior n; O erro mximo aceitvel: quanto menor o erro, maior o tamanho n.

Erro Mximo
Voltando aos enunciados anteriores, qual o tamanho da amostra necessria para que tivssemos um erro mximo de 0,5, ao invs dos 2,00?

Substituindo os valores da frmula chegaremos a:

O valor encontrado dever ser arredondado para cima; No exemplo em anlise, o desvio-padro foi fornecido como dado do problema. Na prtica, caso ele seja desconhecido, uma amostra piloto poder ser realizada com o objetivo de estimar este valor.

Copyright Ibmec

117

Desvio-Padro Populacional Desconhecido


Quando no soubermos o valor do desvio-padro populacional, trs alteraes no roteiro anterior sero necessrias. O desvio-padro amostral s ser utilizado para estimar o desvio-padro populacional . Assim, o clculo do erro-padro das mdias executado na etapa 2 ser alterado. Lembre-se que o erropadro ser apenas uma estimativa do real erro-padro; Demonstra-se que no caso do desvio-padro desconhecido, a distribuio amostral para as mdias seguir uma Distribuio de Student, com (n-1) graus de liberdade. Sendo assim, na etapa 4 do roteiro, procuraremos t correspondente ao nvel de conana desejado; O intervalo de conana ser dado por:

Observaes O roteiro anterior ser sempre vlido para populaes normalmente distribudas, independente do tamanho da amostra e com desconhecido. Na prtica, para amostras com n 30, utiliza-se a distribuio normal como aproximao da distribuio de student. Para n < 30, obrigatria a utilizao de Student. Para populaes no normalmente distribudas, sendo n 30, utilizaremos o teorema central do limite ( normalmente distribuda com desvio padro dado pela frmula). O formato da distribuio de student semelhante ao da distribuio normal, porm um pouco mais largo, apresentando maior disperso dos valores. Em outras palavras, quando utilizarmos esta distribuio, os valores que encontrarmos para t sero maiores em termos absolutos que os correspondentes valores de z na Distribuio Normal, gerando intervalos de conana maiores (com extremos mais afastados). A razo de tal procedimento reside no fato de utilizarmos o desvio-padro s como estimativa do desvio-padro . Ao adotarmos tal critrio, substituiremos um parmetro populacional xo por uma estatstica que apresenta elevada volatilidade. Consequentemente, para garantirmos o mesmo nvel de conana pretendido, necessrio aumentar o intervalo de conana das estimativas.

Intervalo
Deseja-se estimar a mdia salarial dos trabalhadores de um determinado setor. Sabe-se de outras

118

Copyright Ibmec

pesquisas que os salrios nestes nveis so normalmente distribudos. Coletando-se os salrios de 15 indivduos selecionados aleatoriamente, chegou-se mdia de $150 e desvio-padro de $20. Qual o intervalo para a mdia salarial da populao com 95% de conana. Utilize Student e Normal.

Seguindo o roteiro citado anteriormente, teremos: Etapa 1: J calculada, X = 150. Etapa 2: Utilizaremos a frmula com s no lugar de

Etapa 3: J estabelecida, equivale a 95,00%. Etapa 4: Utilizaremos a Distribuio t de Student com (15 1=14) graus de liberdade. Para um nvel de 95% de conana em torno da mdia, sobraro 2,5% de rea sob a curva de cada lado. Portanto, o valor de t ser encontrado na interseo da linha, onde gl=14 com a coluna correspondente a 2,50%, t=2,1448. Etapa 5: O intervalo de conana IC ser igual a: IC = 150 - 2,1448 x 5,16 150 + 2,1448 x 5,16 IC = [138,92 161,08] Normal Igual resoluo anterior com as etapas 4 e 5 modicadas. Etapa 4: 95% dos valores ao redor da mdia, iro se situar entre z = -1,96 e z = + 1,96, obtidos a partir de S = 0,95/2 = 0,475. Etapa 5: O intervalo de conana IC ser igual a: IC = 150 - 1,9600 x 5,16 150 + 1,9600 x 5,16 IC = [139,88 < < 160,12]

Copyright Ibmec

119

Intervalo Student
A gura abaixo apresenta os valores envolvidos do exemplo anterior. O intervalo obtido pela student maior que o obtido pela normal.

Note que a diferena encontrada devida aos valores distintos de t e z. Se o tamanho da amostra aumentar esta diferena tender a se reduzir.

120

Copyright Ibmec

Unidade 4 Outros Intervalos de Conana


Intervalo de Conana para uma Proporo
Dado um grupo composto por N indivduos, para os quais X apresente determinada caracterstica, deniremos uma proporo como a razo X/N. Ou seja, a frequncia relativa com que tais indivduos ocorrem no grupo. Se de cada 50 peas produzidas, 10 apresentam defeitos, diremos que a proporo de defeituosas de 0,20 ou de 20%. Na construo de um intervalo de conana, utilize o quadro abaixo:

Exemplo prtico Uma pesquisa de mercado realizada em 200 domiclios de uma regio revela que 150 consomem determinado produto. Construa o intervalo de conana a 95%.

Copyright Ibmec

121

Aplicando-se o roteiro padronizado, faremos: Etapa 1: Clculo do estimador pontual: = 150 / 200 = 0,75. Etapa 2: Clculo do erro-padro:

Etapa 3: Nvel de Conana: NC=95%. Etapa 4: Seguindo o roteiro, utilizaremos a normal. Atravs da tabela, procuraremos z correspondente rea de 0,4750 [=0,95/2]. Chegaremos a z = 1,96. Etapa 5: O intervalo de conana IC ser igual a: IC = 0,75 1,96 x 0,0306 0,75 + 1,96 x 0,0306 = (0,69 0,81).

Intervalo de Conana para Coecientes da Regresso Linear


Os intervalos envolvendo os coecientes A e B obtidos na regresso linear so similares aos que geramos para as mdias. Utiliza-se a distribuio normal quando os erros-padres para e forem conhecidos ou a distribuio de student com (n-2) graus de liberdade quando desconhecidos.

122

Copyright Ibmec

Os asteriscos ao lado de A e B foram propositalmente colocados para diferenciar varincias e erros-padres dos estimadores A e B de varincias e desvios-padres para duas variveis quaisquer A e B. Nas expresses anteriores, o termo Y|X corresponder ao desvio-padro dos erros em torno da reta de regresso. Na frmula, aplicamos o conceito populacional, mas no caso de voc trabalhar com uma amostra, substitua o N das expresses por (n 2), encontrando assim sY|X. Trabalhando com amostras, substitua Y|X por sY|X para encontrar o erro-padro do B, em sua verso amostral (sB*). Trabalhando com amostras, substitua B* por sB* para encontrar o erro-padro do A, em sua verso amostral (sA*). No se preocupe com o excesso de contas a serem efetuadas, pois a maioria dos softwares que realizam clculos estatsticos fornecero os resultados automaticamente.

Exemplo prtico 2 As colunas X e Y da tabela a seguir relacionam o faturamento (X) e o lucro lquido (Y) da Empresa XYZ. Determine Os coecientes A e B da regresso.
Copyright Ibmec

123

O erro e para cada observao. O erro-padro da estimativa. Os erros-padres de A e B.

Admitindo que voc esteja fazendo os clculos e no utilizando o EXCEL para chegar s respostas, faremos:
Faturamento x Lucro Lquido Empresa XYZ Dados Obs. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Mdia X 25 8 27 10 26 27 29 9 16 14 27 13 20 25 22 25 20 7 350 19,44 Y 32 14 37 20 37 34 38 18 26 25 37 21 28 36 34 36 31 20 524 29,11
Copyright Ibmec

Clculo A e B X 625 64 729 100 676 729 841 81 256 196 729 169 400 625 484 625 400 49 7.778 XY 800 112 999 200 962 918 1.102 162 416 350 999 273 560 900 748 900 620 140 11.161

Clculo erro-padro estimativa Yp 34,66 17,67 36,66 19,67 35,66 36,66 38,66 18,67 25,67 23,67 36,66 22,67 29,67 34,66 31,67 34,66 29,67 16,67 e=(Y-Yp) -2,66 -3,67 0,34 0,33 1,34 -2,66 -0,66 -0,67 0,33 1,33 0,34 -1,67 -1,67 1,34 2,33 1,34 1,33 3,33 0,00 e=(Y-Yp) 7,10 13,47 0,11 0,11 1,78 7,10 0,44 0,45 0,11 1,77 0,11 2,79 2,78 1,78 5,45 1,78 1,78 11,08 60,00

124

a. Para o clculo dos coecientes A e B atravs das frmulas adequadas, precisaremos encontrar alguns somatrios, razo da incluso da quarta e quinta coluna na tabela.

b. Como o erro a diferena entre o valor observado para Y e sua projeo Yp feita pela reta de regresso, o primeiro passo encontrar cada projeo para, em seguida chegarmos a cada erro. Isto foi feito na sexta e stima coluna da tabela. Yp = A + BX = 9,6733 + 0,9997 x 8 = 17,67 e = Y Yp = 14 17,67 = 3,67 c) O erro-padro da estimativa obriga-nos a calcular a soma dos quadrados dos erros, o que foi feito na ltima coluna da tabela.

d. Os erros-padres de A e B so calculados conforme a seguir:

Copyright Ibmec

125

Unidade 5 Utilizao das Ferramentas do Excel


Uso do Excel nos Intervalos de Conana
Nesta seo apresentaremos as funes das denies vistas ao longo do mdulo. H outras funes que permitem as anlises estatsticas. Para aqueles que necessitem de um maior aprofundamento neste tpico, recomendamos fortemente a leitura da bibliograa indicada. Sendo LX e LY duas listas de idntico tamanho, contendo dados numricos, utilize as seguintes funes:
Funo ALEATORIO() ALEATORIOENTRE(a;b) DISTT(X;gl;caudas) Calcula Nmero aleatrio entre 0 e 1, use-a para a seleo de amostras aleatrias. Nmero aleatrio entre a e b, use-a para a seleo de amostras aleatrias. Dist. de Student; p(t > X) se caudas=1; p(t < - X ou t > X) se caudas=2. Dist. de Student (critrio bicaudal) t tal que p(t<-X ou t>X) igual a prob. Semi-amplitide para o intervalo de confiana para a mdia, usando a Normal; INT.CONFIANA(a,s,n) onde corresponder a (1-Nvel de Confiana). Por exemplo, se NC=95% faa a=5%. EPADYX(LY;LX) INCLINACAO(LY;LX) INTERCEPO(LY;LX) PREVISO(X;LY;LX) Erro-padro da estimativa de Y|X. Coeficiente Angular (B) da regresso linear entre X e Y. Coeficiente Linear (A) da regresso linear entre X e Y. Projeo de Y para o valor X utilizando o modelo de regresso linear entre X e Y. Parmetros da Regresso Linear entre X e Y; uma funo matricial, encerre-a com [CTRL] [SHIFT] [ENTER]. Se k=Verdadeiro calcular coeficiente A; se falso ou omisso far A=0. Se k=Verdadeiro ou omisso calcular o coeficiente A; se falso, A=0. PROJ.LIN(LY;LX;k;e) Se e=falso ou omisso calcular apenas A e B; se verdadeiro retornar todos os dados da regres-so linear. A matriz gerada composta por 5 linhas e 2 colunas e, nas 3 linhas iniciais, voc encontrar os indicadores apresentados no texto, na seguinte sequncia: B; A; Erro-B; Erro-A; R2; Erro-padro-da-estimativa. TENDENCIA(LY;LX;NL;k) Projeo de Y a partir de estimativas de X (constantes em NL) atravs do Modelo Linear de regresso entre X e Y.
Copyright Ibmec

INVT(prob;gl)

126

Resumo
Abordamos o conceito de amostra probabilstica e o cuidado necessrio para denir quais sero os dados que formaro uma amostra para evitar qualquer tipo de inconsistncia. Apresentamos os procedimentos necessrios para a construo da distribuio amostral no caso das mdias, crucial para denio da teoria central do limite e dos intervalos de conana. Como os intervalos de conana so centrados na mdia amostral, para encontrar o erro amostral mximo, preciso determinar o tamanho da amostra por meio de expresses matemticas. A denio dos intervalos de conana e para os coecientes de regresso linear tambm denida por clculos especcos. Para auxiliar todos esses clculos, mostramos as ferramentas disponibilizadas pelo Excel e a forma de utiliz-las para calcular os intervalos de conana.

Copyright Ibmec

127

REFERNCIAS BIBLIOGRFICAS

129

ZENTGRAF, Roberto. Estatstica objetiva. ZTG Ed., 2001.

Copyright Ibmec

131

Potrebbero piacerti anche