Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
M .O .0 4
IEFP ISQ
MODULFORM - Formao Modular Estatstica Aplicada Guia do Formando IEFP - Instituto do Emprego e Formao Profissional Departamento de Formao Profissional Direco de Servios de Recursos Formativos CENFIM - Centro de Formao Profissional da Indstria Metalrgica e Metalomecnica ISQ - Instituto de Soldadura e Qualidade Direco de Formao Rogrio Puga Leal Lus Barros / Snia Figueira SAF - Sistemas Avanados de Formao, SA ISQ / Cludia Monteiro OMNIBUS, LDA SAF - Sistemas Avanados de Formao Instituto do Emprego e Formao Profissional Av. Jos Malhoa, 11 1000 Lisboa Portugal, Lisboa, Janeiro de 1998 200 Exemplares 127-661-98 972-732-453-3
Apoio Tcnico-Pedaggico
Coordenao do Projecto
Copyright, 1998 Todos os direitos reservados IEFP Nenhuma parte desta publicao pode ser reproduzida ou transmitida por qualquer forma ou processo sem o consentimento prvio, por escrito, do IEFP Produo apoiada pelo Programa Operacional Formao Profissional e Emprego, co-financiado pelo Estado Portugus, e pela Unio Europeia, atravs do FSE
M.S.03
Guia do Formando
IEFP ISQ
Actividades / Avaliao
Bibliografia
Destaque
ndice
Objectivos
Recurso a software
Recurso a videograma
Resumo
M.C.04
IEFP ISQ
ndice Geral
NDICE GERAL
Frequncia relativa e absoluta Diagrama de barras Diviso de observaes em classes Construo de histogramas Resumo Actividades / Avaliao
III.2 III.3 III.7 III.9 III.13 III.17 III.18 III.18 III.18 III.20 III.22 III.24
Funo de distribuio e funo densidade de distribuio Parmetros de localizao e disperso Medidas de tendncia central Medidas de disperso Coeficientes de assimetria e achatamento Distribuio uniforme Distribuio hipergeomtrica Distribuio binomial Distribuio de Poisson
Distribuies discretas
M.C.04
Distribuies contnuas
IG . 1
IEFP ISQ
ndice Geral
IV - AMOSTRAGEM
IV.3 IV.4 IV.5 IV.13 IV.14 IV.16 IV.16 IV.20 IV.22 IV.24 IV.25
Intervalos de confiana
Intervalos de confiana para a mdia Intervalos de confiana para a varincia. Intervalos de confiana para propores.
V - TESTES DE HIPTESES
Erros tipo I e II Testes de hipteses para a mdia Testes de hipteses para propores Testes de hipteses para a varincia Teste qui-quadrado para ajustamento de distribuies Resumo Actividades / Avaliao
VI - CORRELAO E REGRESSO
M.C.04
Resumo
IG . 2
IEFP ISQ
ndice Geral
Actividades / Avaliao
M.C.04
IG . 3
IEFP ISQ
M.C.04 Ut.01
IEFP ISQ
OBJECTIVOS
No final desta unidade temtica, o formando dever estar apto a:
Explicar o conceito de sequncia Distinguir entre arranjos com e sem repetio, sabendo efectuar os clculos correspondentes Aplicar o conceito de combinao Identificar a noo de probabilidade Aplicar as noes de acontecimento e espao de acontecimentos Calcular probabilidades de interseco e reunio Calcular probabilidades condicionadas.
TEMAS
M.C.04 Ut.01
I . 1
IEFP ISQ
Clculo combinatrio
Existe, portanto, um total de 6 nmeros que podem ser escritos. Como se compreende, se formos alargando o nmero de algarismos vai aumentando o nmero de formas possveis de os combinar. Seria ento muito til se pudssemos, de forma expedita, determinar a resposta para exemplos como o anterior sem necessidade de escrever todas as sequncias possveis. Acabmos de falar em sequncias; vejamos um pouco melhor o seu significado. No exemplo que abordmos existiam, como se viu, 6 nmeros distintos que podiam ser escritos cumprindo as condies exigidas. Repare que os nmeros 89 e 98, embora utilizando os mesmos algarismos, so diferentes entre si, o que significa que a ordem pela qual aparecem os elementos no indiferente. Cada um dos 6 nmeros referidos constitui uma sequncia de dois elementos. Generalizando um pouco, podemos ento dizer que sequncias de p elementos so grupos com p elementos obedecendo a determinada ordem. Obteremos uma sequncia diferente quando se altera a ordem. No nosso exemplo, o que pretendamos era, ento, determinar o nmero de sequncias distintas que podiam ser formadas com o conjunto dado. Reparemos, tambm, que era imposta a condio de serem utilizados algarismos diferentes, ou seja, no haver repetio de algarismos. Assim, o que fizemos foi determinar os arranjos, sem repetio, de 3 elementos dois a dois. Generalizando, podemos dizer que arranjos, sem repetio, de n elementos p a p ( n p ) so todas as sequncias que possvel constituir utilizando p elementos diferentes de entre os n elementos de um determinado conjunto. O nmero de arranjos, sem repetio, de n elementos p a p , habitualmente, representado por n Sequncias
M.C.04
Ut.01
Estatstica Aplicada
I . 2
IEFP ISQ
n p
= n . ( n 1) . ( n 2 ) ... ( n p + 1)
(I.1)
Veremos, mais tarde, uma outra forma de escrever a equao anterior tornando mais fcil o clculo com recurso a mquina calculadora. Voltando ao exemplo inicialmente proposto, teremos :
n=3 p=2
A
Exemplo I.1
3 2
=3x2=6
Uma gelataria tem 6 diferentes sabores de gelado. Quantos cones, com 3 sabores diferentes, pode a gelataria obter ?
n=6
p=3
6 3
= 6 x 5 x 4 = 30 x 4 = 120
Podem, portanto, obter-se 120 gelados diferentes. Consideremos agora a seguinte situao: um grupo de apuramento para o Campeonato da Europa de Futebol constitudo por 6 equipas; de quantas formas distintas se podem classificar as equipas? Reparemos que se est perante uma situao semelhante s anteriores. A particularidade que pretendemos saber quantas sequncias de 6 elementos distintos se podem formar a partir de um conjunto de 6 elementos. Aqui, de facto, s se altera a ordem, os elementos sero sempre os mesmos. Se utilizarmos a frmula dos arranjos, anteriormente abordada, teremos
Permutaes
A
Ut.01
6 6
= 6 x 5 x 4 x 3 x 2 x 1 = 720
M.C.04
Estatstica Aplicada
I . 3
IEFP ISQ
Aos arranjos, sem repetio, de n elementos n a n costumamos chamar, simplesmente, permutao de n elementos:
A
e poderemos escrever
n n
= Pn
(I.2)
Pn = n . ( n 1) . ( n 2 ) ... 2 . 1
ou, de uma forma mais simples,
Pn = n !
O smbolo n! l-se, simplesmente, como n - factorial. Teremos 1 1! = 1 2! = 2 3! = 6 4! = 24, etc.
n p
n! (n p)!
Uma vez que todas as calculadoras cientficas nos permitem a obteno, directa, do valor de n!, torna-se mais cmoda a utilizao desta frmula do que a da anteriormente apresentada. Na altura em que abordmos a questo das permutaes, fomos colocados perante uma situao em que todos os elementos eram diferentes ou, o que o mesmo, em que no existiam repeties. Admitamos agora, por exemplo, que pretendamos estudar de quantas formas se podiam permutar as letras da palavra BANANA. Neste caso, vamos servir-nos do facto de o nmero de permutaes de um conjunto de n elementos em que n1 elementos so iguais entre si e distintos de todos os outros, n2 elementos so iguais entre si e distintos de todos os outros, etc., ser dado por
P=
n! n1! n2 !..... nk !
com n1 + n2 + ..........+ nk = n.
1 Por definio considera-se
Ut.01
0! = 1
M.C.04
Estatstica Aplicada
I . 4
IEFP ISQ
P=
6! = 60 2! 3! 1 !
Falmos, anteriormente, dos arranjos, sem repetio, de n elementos p a p,e estudmos vrios exemplos. E se quisermos calcular qual o nmero total de sequncias de p elementos que se podem constituir a partir dos n elementosde um conjunto, sem qualquer restrio no que diz respeito a repeties? Chamaremos ao nmero total destas possibilidades os arranjos, com repetio, de n elementos p a p.
' : Sero representados por n Ap
'
= np
(I.4)
Repare que, neste tipo de situao, poderemos ter n < p, ao invs do que acontecia nos arranjos sem repetio.
Exemplo I.2
'
'
13
Num boletim de Totobola possvel escrever 1 594 323 chaves diferentes. Finalmente, para encerrarmos esta nossa rpida viagem pelo clculo combinatrio, vamos debruar-nos sobre a constituio de conjuntos nos quais a ordem dos elementos irrelevante.
Ut.01 M.C.04
Estatstica Aplicada
I . 5
IEFP ISQ
Pensemos noutra situao bem conhecida de todos ns, o Totoloto. Quantas chaves de Totoloto se podem obter (sem contar com o nmero suplementar) ?
1 8 15 22 29 36 43
2 9 16 23 30 37 44
3 10 17 24 31 38 45
4 11 18 25 32 39 46
5 12 19 26 33 40 47
6 13 20 27 34 41 48
7 14 21 28 35 42 49
oooooo?
Queremos, apenas, determinar quantos diferentes subconjuntos de 6 nmeros podem ser considerados a partir de um conjunto de 49. Este nmero corresponde quilo a que chamamos combinao de 49 elementos 6 a 6. Mais genericamente, combinao de n elementos p a p so todos os subconjuntos de p elementos que se podem considerar num conjunto com n n elementos. habitual usar a representao . p
Combinaes
n p
n! p! (n p) !
(I.5)
49 6
49! 6! 43!
O clculo desta expresso pode ser feito, facilmente, com o recurso a calculadoras, ou utilizando simplificaes como as que apresentamos em seguida. Repare-se que
49 ! = 49 x 48 x 47 x 46 x 45 x 44 x 43 !
Ento,
C
resultando
49 6
49 x 48 x 47 x 46 x 45 x 44 x 43! 6! 43!
C
Ut.01
49 6
49 x 48 x 47 x 46 x 45 x 44 = 13 983 816 6!
M.C.04
Estatstica Aplicada
I . 6
IEFP ISQ
Exemplo I.3
Vamos agora calcular o impacto que teve, no nmero de combinaes possveis, o aumento de 47 para 49 nmeros do Totoloto. Conforme j vimos, com 49 algarismos o nmero de combinaes possveis de 6 algarismos de 13 983 916. Se tivssemos 47 algarismos as combinaes possveis seriam:
47 6
Note-se que o simples aumento de 2 algarismos no Totoloto (de 47 para 49) provocou um aumento de 3 246 343 combinaes possveis (13 983 916 - 10 737 573 = 3 246 343).
A noo de probabilidade enquadra-se, certamente, no conjunto daquelas que todos possumos, ainda que de forma intuitiva, mas que temos dificuldade em definir ou quantificar. A definio clssica de probabilidade de um acontecimento (A) a de que se A pode ocorrer de x maneiras distintas, de entre n maneiras possveis e equiprovveis, ento a sua probabilidade ser 2
Probabilidades
P(A) = x / n
Por vezes, por simplificao, habitual escrever, simplesmente,
(I.6)
probabilidade =
Vejamos alguns exemplos que tornam mais fcil a compreenso deste conceito.
0 P( A) 1
M.C.04
Estatstica Aplicada
I . 7
IEFP ISQ
Exemplo I.4
P (coroa) = 1 / 2 = 0,5
como seria de esperar.
Exemplo I.5
Qual a probabilidade de que saia uma face par quando se lana um dado sobre uma mesa?
Acontecimentos possveis Acontecimentos favorveis
{1,2,3,4,5,6}
{2,4,6}
P (face par) = 3 / 6 = 0,5 = 50% Apresentemos agora dois conceitos importantes. Chamaremos acontecimento elementar a cada um dos resultados possveis de determinada experincia - num lanamento de dados os acontecimentos elementares so: sada do 1 , sada do 5 e sada do 6 , sada do 2 . Espao de acontecimentos , sada do 3 , sada do 4 Acontecimento elementar
Chamaremos espao de acontecimentos (S) ao conjunto de todos os acontecimentos elementares. No caso do lanamento do dado, S = {1,2,3,4,5,6} Podemos ento dizer que acontecimento qualquer subconjunto do espao de acontecimentos.
Acontecimento
M.C.04
Ut.01
Estatstica Aplicada
I . 8
IEFP ISQ
Vimos anteriormente que a probabilidade de ocorrncia de um determinado acontecimento A representado por P(A). Uma vez associados os conceitos de acontecimento e de conjunto, torna-se bvio que a probabilidade de no ocorrer A, P ( A ) , semelhante probabilidade de ocorrer o seu complementar. Isto ,
P ( A ) = 1 P ( A)
(I.7)
Vamos calcular a probabilidade de, na extraco do Totoloto, sair o nmero 24. Dado que existem 49 bolas numeradas, a probabilidade de sair qualquer uma delas (e portanto tambm a n 24) de: P = 1 / 49 = 0,0204 = 2,04% A probabilidade de no sair a bola 24 ser o complementar do valor anterior, ou seja, 1 - 0,0204 = 0,9796 (aproximadamente 98%). Significa isto que, em cada extraco, se pretender adivinhar qual o nmero que vai sair, tem apenas cerca de 4,17% de hipteses de acertar. O passo seguinte do nosso trabalho ser o de combinarmos acontecimentos de diversas formas, abordando o clculo de probabilidades relativo a essas vrias combinaes.
Probabilidade da interseco
Uma das questes que frequentemente se colocam a da determinao da probabilidade de ocorrerem conjuntamente dois acontecimentos, A e B. Sendo A e B conjuntos, podemos utilizar diagramas de Venn para representar pictoricamente as relaes que existem entre eles. Vejamos a figura seguinte: Probabilidade da interseco
A zona a sombreado corresponde interseco dos dois conjuntos. Por outras palavras, corresponde ocorrncia conjunta dos acontecimentos A e B. Vamos representar a probabilidade de ocorrncia conjunta de dois acontecimentos por
M.C.04
Ut.01
Estatstica Aplicada
I . 9
IEFP ISQ
Esta situao ocorre quando os dois acontecimentos A e B nunca podem ocorrer conjuntamente. Admitamos, por exemplo, que A corresponde ao acontecimento ter olhos azuis e B corresponde ao acontecimento ter olhos castanhos. No existe, como bvio, nenhum indivduo que possa ter, simultanea-mente, olhos azuis e castanhos. Dizemos ento que os acontecimentos A e B so mutuamente exclusivos. Como se compreende, se A e B forem mutuamente exclusivos, P(AB) = 0. No clculo de P(AB) haver que distinguir se os acontecimentos so ou no independentes entre si. Pensemos, por exemplo, em 3 lanamentos consecutivos de moeda ao ar. Como se compreende, o facto de num determinado lanamento sair cara ou coroa nada tem a ver com o que ocorreu nos lanamentos anteriores. Ento, os lanamentos so independentes entre si. Imaginemos, por outro lado, que temos, dentro de uma caixa, duas bolas azuis e uma vermelha. Se retirarmos, de seguida, 2 bolas da caixa, a probabilidade de que a segunda seja de determinada cor depender, naturalmente, da cor da primeira bola retirada. Dizemos ento que os acontecimentos correspondentes sada de cada uma das bolas no so independentes entre si. Quando os acontecimentos so independentes3 , a probabilidade de ocorrncia conjunta no mais do que o produto das probabilidades individuais. Isto ,
Mtua excluso
Independncia
M.C.04
Ut.01
3 Faremos mais tarde a quantificao da probabilidade relativa ocorrncia conjunta de acontecimentos dependentes.
Estatstica Aplicada
I . 10
IEFP ISQ
Exemplo I.6
A probabilidade de que um mssil acerte no alvo de 0,85. Qual a probabilidade de que dois msseis lanados consecutivamente acertem no alvo? (Assuma que os lanamentos so independentes entre si.) Se designarmos por P(A), probabilidade do primeiro mssil acertar P(B), probabilidade do segundo mssil acertar teremos, atendendo independncia dos lanamentos, P(AB) = P(A).P(B) = 0,85 x 0,85 = 0,7225 Se quisermos converter em percentagem o resultado anterior, teremos de o multiplicar por 100: 0,7225 x 100 = 72,25%
Probabilidade da reunio
Consideremos quaisquer dois acontecimentos, A e B, que se relacionam da forma que podemos ver representada no diagrama de Venn.
Admitamos que pretendemos determinar a probabilidade de que ocorram A ou B, ou ambos. Esta probabilidade representa-se por P( A B ) . No fundo, estamos interessados em calcular a probabilidade de ocorrncia de toda a rea da figura anterior. Para o clculo desta probabilidade haver ento que, antes de mais, somar P(A) e P(B). Repare-se porm que, ao faz-lo, a rea a sombreado mais escuro considerada duas vezes, pois diz respeito a elementos que pertencem aos dois conjuntos. Assim sendo, para obtermos a probabilidade pretendida, mais no temos do que retirar soma anterior o excesso proveniente da duplicao. Ento, a probabilidade de que ocorram A, ou B, ou ambos, pode ser calculada a partir de
Probabilidade da reunio
P ( A B ) = P ( A) + P (B ) P ( AB )
M.C.04 Ut.01
(I.9)
Estatstica Aplicada
I . 11
IEFP ISQ
P(AB) , como vimos, a probabilidade de ocorrncia conjunta de A e B. Sobre o clculo desta probabilidade j nos debrumos na seco anterior, sendo, naturalmente, vlidas todas as consideraes ento efectuadas.
Exemplo I.7
Voltemos ao exemplo dos msseis apresentado no final da seco anterior. Recorde-se que era de 0,85 a probabilidade de acerto de cada um dos msseis. Determine a probabilidade de, disparando uma salva de dois msseis, pelo menos um acertar (consideremos como independentes os lanamentos dos dois msseis). Coloca-se, ento, a questo de determinar qual a probabilidade de se acertar o 1. mssil, ou o segundo, ou ambos. Isto , h que determinar P ( A B ) . Como vimos,
Probabilidade condicionada
Referimos, anteriormente, haverem circunstncias nas quais existe a necessidade de relacionarmos acontecimentos que no so independentes entre si. Far, assim, sentido falarmos na probabilidade de ocorrncia de determinados acontecimentos condicionados pela ocorrncia, ou no, de outros. Designaremos por P(A\B) a probabilidade de ocorrncia de A, dada a ocorrncia de B, e por P ( A \ B ) a probabilidade de ocorrncia de A, dada a no-ocorrncia de B. Se os acontecimentos forem independentes, teremos Probabilidade condicionada
P(A \ B) = P (A \ B ) = P(A)
(I.10)
Prometemos h pouco que voltaramos a abordar a questo da probabilidade de ocorrncia conjunta de acontecimentos quando estes no so independentes. Chegou a altura de o fazermos. Se A e B forem acontecimentos no-independentes, teremos, relativamente probabilidade de interseco,
P ( AB ) = P ( A) . P (B \ A ) = P (B ) . P ( A \ B )
(I.11)
Exemplo I.8
M.C.04
Ut.01
Admitamos agora, ainda no caso dos msseis, que, se o primeiro mssil acertar, a probabilidade de que o segundo tambm acerte permanece inalterada e igual a 0,85. No entanto, se o primeiro mssil falhar, a tenso nervosa da resultante provoca que a probabilidade de o segundo mssil acertar baixe para 0,80. Qual a probabilidade de que pelo menos um mssil acerte?
Estatstica Aplicada
I . 12
IEFP ISQ
Repare que, relativamente ao primeiro mssil, continuamos a ter P(A) = 0,85. Em relao ao segundo mssil, a situao diferente. A sua probabilidade de acerto depender do acerto, ou no, do mssil anterior. Teremos, assim,
P (B \ A) = 0,85
O que pretendemos
P (B \ A ) = 0,80
Resta-nos o clculo do valor de P(B). Observemos a figura, para que se torne mais evidente.
A B
P (B ) = P ( AB) + P ( A B ) = P ( A) . P (B \ A) + P ( A ) P (B \ A ) =
= 0,85 x 0,85 + 0,15 x 0,80 = 0,8425 Ento,
M.C.04
Ut.01
Estatstica Aplicada
I . 13
IEFP ISQ
O exemplo que se segue extremamente importante. No apenas porque engloba a quase totalidade dos conceitos de clculo de probabilidade que temos vindo a abordar, mas ainda porque o seu resultado deve ser analisado com muito cuidado por todos aqueles que trabalhem, ou esperem vir a trabalhar, com equipamentos de medida. Um determinado ensaio tem 98% de probabilidade de classificar como defeituoso um item que , de facto, defeituoso, e 4% de classificar um item como defeituoso sendo ele bom. Se, num determinado lote, 3% dos artigos forem de facto defeituosos, qual a probabilidade de que, quando um item deste lote classificado como defeituoso, ele o seja de facto? Vamos usar a seguinte simbologia: A - item classificado como defeituoso B - item classificado como no-defeituoso C - item no-defeituoso, de facto D - item defeituoso, de facto Pretendemos saber a probabilidade de, sabendo que um item foi classificado como defeituoso, ele o ser realmente. Ou seja, pretendemos calcular P(D\A).
P (D \ A) =
P (DA) P (D ) . P ( A \ D ) = P ( A) P ( A)
P(D) = 0,03
P(A\D) = 0,98
Resta-nos, ento, determinar o valor de P(A). Este poder ser obtido a partir de P(A) = P(AC) + P(AD) = P(C).P(A\C) + P(D).P(A\D) = = 0,97 x 0,04 + 0,03 x 0,98 = 0,0682 resultando P(D\A) = 0,431, ou seja 43,1%. Podemos concluir deste resultado que no basta um equipamento de medida capaz de detectar, com rigor, os itens defeituosos; fundamental, tambm, que o equipamento classifique de forma correcta os bons itens.
M.C.04
Ut.01
Estatstica Aplicada
I . 14
IEFP ISQ
RESUMO
A presente unidade temtica foi, como vimos, dividida em duas grandes reas: clculo combinatrio e clculo de probabilidades. Na primeira destas reas, o que fizemos foi estudar e quantificar diversas formas de constituio de conjuntos a partir de outros conjuntos dados. Para isso, estudmos os conceitos de arranjos, com e sem repetio, permutaes e combinaes. Definindo sequncias de p elementos como sendo grupos com p elementos obedecendo a determinada ordem, pudemos partir para a definio de arranjos. Podemos dizer que arranjos, sem repetio, de n elementos p a p ( n p ) so todas as sequncias que possvel constituir utilizando p elementos diferentes de entre os n elementos de um determinado conjunto. Conclumos, tambm, que permutaes de n elementos no so mais do que arranjos, sem repetio, de n elementos n a n. Abordmos, em seguida, as situaes em que se pretendia o clculo do nmero total de sequncias de p elementos que se podem constituir, a partir dos n elementos de um conjunto, sem qualquer restrio no que diz respeito a repeties. Ou seja, abordmos as questes relativas aos arranjos e permutaes, com repetio. A rea de clculo combinatrio foi finalizada com uma abordagem s situaes relativas constituio de conjuntos nos quais a ordem dos elementos irrelevante. Falmos, portanto, de combinaes de n elementos p a p. A segunda rea estudada foi a relativa ao clculo de probabilidades. Apresentmos o conceito clssico de probabilidade como sendo, em relao a um determinado acontecimento, o quociente entre o nmero de casos favorveis e o nmero de casos possveis. Definimos como acontecimento elementar cada um dos resultados possveis de determinada experincia e como espao de acontecimento o conjunto de todos os acontecimentos elementares. Neste contexto, foi, tambm, apresentado o conceito de acontecimento como sendo qualquer subconjunto do espao de acontecimentos. Procedemos, posteriormente, determinao de probabilidades relativas a combinaes de acontecimentos. Entendendo-se como probabilidade da interseco a probabilidade de ocorrncia conjunta de dois acontecimentos, conclumos que o seu clculo depende da independncia, ou no, dos acontecimentos. Vimos tambm que, no caso de estarmos perante acontecimentos que se excluem mutuamente, nula a probabilidade da
Ut.01 M.C.04
Estatstica Aplicada
I . 15
IEFP ISQ
interseco. probabilidade de ocorrncia de qualquer um dos acontecimentos, ou de ambos, chammos probabilidade da reunio. Terminmos a unidade temtica com uma abordagem s situaes nas quais existe a necessidade de relacionarmos acontecimentos que no so independentes entre si. Ou seja, falou-se na probabilidade de ocorrncia de determinados acontecimentos condicionados pela ocorrncia, ou no, de outros. Entrmos, portanto, no domnio da probabilidade condicionada.
M.C.04
Ut.01
Estatstica Aplicada
I . 16
IEFP ISQ
ACTIVIDADES / AVALIAO
I. Quantos nmeros diferentes, de trs algarismos, podem ser formados com os nmeros 1, 2, 3, 4 e 5, a) se forem permitidas repeties? b) se no forem permitidas repeties? Em ambos os casos, quantos dos nmeros anteriores sero pares? II. De um plantel de 30 jogadores, pretende-se formar uma comisso negociadora de trs jogadores com tarefas diferenciadas. a) Quantas comisses diferentes se podem formar? b) Havendo dois jogadores que recusassem estar juntos na comisso, quantas se poderiam formar? III. Pretende-se constituir uma amostra de cinco peas, duas das quais roscadas, escolhidas entre quatro peas roscadas e nove que o no so. Quantas amostras diferentes se podem constituir? IV. Uma fbrica produz dois tipos diferentes de produtos, A e B, na proporo de 1:3. Sabendo que 10% da produo se destina a exportao, e que destes produtos 60% so de tipo B, determinar : a) A probabilidade de um produto, escolhido ao acaso, ser destinado a exportao, sabendo-se que de tipo B. b) A probabilidade de um produto, escolhido ao acaso, ser destinado ao mercado interno, sabendo-se que de tipo A. V. Numa determinada empresa existem empregados com seguro de vida e outros que o no tm. De um levantamento das idades dos funcionrios, extraram-se os seguintes resultados:
Menos de 45 anos Com seguro Sem seguro Totais 10,52% 28,6% 38,8% Mais de 45 anos 57% 4.2% 61,2% Totais 67,2% 32,8% 100%
M.C.04
Ut.01
Estatstica Aplicada
I . 17
IEFP ISQ
Tomando um empregado ao acaso, determine as probabilidades de: a) Sabendo que tem seguro, ter menos de 45 anos. b) Sabendo que no tem seguro, ter menos de 45 anos. c) Sabendo que tem menos de 45 anos, ter seguro. VI. Determine a probabilidade de se obter 6 ou 7 no lanamento de dois dados.
M.C.04
Ut.01
Estatstica Aplicada
I . 18
IEFP ISQ
M.C.04 Ut.01
IEFP ISQ
OBJECTIVOS
No final desta unidade temtica, o formando dever estar apto a:
Distinguir e calcular frequncias relativas e absolutas Calcular frequncias acumuladas Construir diagramas de barras Dividir um conjunto de observaes em classes e determinar as correspondentes frequncias Construir histogramas
TEMAS
Ut.02
Frequncia relativa e absoluta Diagrama de barras Diviso de observaes em classes Construo de histogramas Resumo Actividades / Avaliao
M.C.04
II . 1
IEFP ISQ
Quando nos servimos da estatstica, temos como principal objectivo conhecer a populao com que estamos a trabalhar, seja qual for a natureza dos elementos que a constituem. Isto , quando falamos em populao, isso no significa, necessariamente, que nos estejamos a referir a um conjunto de seres humanos. Vejamos:
Os pesos de sacos de acar que saem de uma linha de produo constituem uma populao; O conjunto de durezas superficiais medidas em peas de ao sujeitas a tratamento trmico constitui uma populao.
Inmeros outros exemplos se poderiam, naturalmente, apresentar. Voltemos ao exemplo dos sacos de acar. Em que consistir conhecer a populao dos pesos dos sacos de acar? A resposta ser simples e intuitiva:
Consiste, apenas, na possibilidade de conhecermos qual o nmero de sacos de acar que apresentam cada um dos pesos possveis.
Para que isto seja vivel, torna-se necessrio que saibamos partir de um conjunto de dados em bruto, trat-los e represent-los de forma adequada, conferindo-lhes o significado que no tm enquanto aglomerado de nmeros. precisamente sobre formas de tratar e representar dados que vai incidir o nosso trabalho.
M.C.04
Ut.02
de pacotes de comida para gatos vendido em cada semana, por exemplo. Pensemos, por exemplo, no lanamento de um dado. A varivel que corresponde face sada uma varivel discreta.
Estatstica Aplicada
II . 2
IEFP ISQ
De facto, apenas pode tomar os valores 1, 2, 3, 4, 5 ou 6, no fazendo sentido referir, por exemplo, a face 2,28. As variveis contnuas, ao contrrio das anteriores, so aquelas que podem tomar qualquer valor dentro de um intervalo. Medidas como alturas e pesos so contnuas. Apenas podem ser estimadas: a temperatura de 25 C; este sapo pesa 500 g. A presiso de tais estimativas depende da preciso do instrumento de medio. Uma balana mais apurada poderia mostrar que o peso do sapo de 501 g ou 500,5 g ou 500,0005 g, etc. Voltaremos mais tarde, com maior rigor, a esta questo das variveis contnuas e discretas. Tornava-se, no entanto, importante que se ficasse desde j com algumas idias a este respeito. Voltemos varivel discreta correspondente ao nmero de pintas na face de um dado. Vamos imaginar que havamos lanado um dado 50 vezes sobre uma superfcie plana e registado a face sada em cada um dos lanamentos. Vejamos o registo correspondente: 6,4,6,5,5,3,6,1,1,5,2,3,2,4,5,6,4,4,3,4,5,1,2,1,3, 2,5,6,4,3,3,5,2,1,2,3,6,2,1,4,1,3,2,4,2,5,2,1,3,5.
Todos concordaremos em que esta apresentao de dados torna pouco cmoda a sua anlise. De facto, o que temos um aglomerado de nmeros sem qualquer ordenao lgica. Vamos mudar um pouco a situao. Construamos uma simples tabela, com os vrios acontecimentos possveis (sada do 1, 2, 3, 4, 5 ou 6), e representemos nessa tabela cada sada com um trao. Repare-se que quando uma face atinge a 5. sada (ou outro mltiplo de cinco) o registo desta feito atravs de um trao sobre os quatro ltimos. Torna-se, desta forma, muito mais fcil proceder contagem (quadro II.1).
M.C.04
Ut.02
Estatstica Aplicada
II . 3
IEFP ISQ
Verificamos, portanto, que a face 1 saiu 8 vezes1 , a face 5 saiu 9 vezes, etc. Ao nmero de vezes que cada face saiu chamamos a sua frequncia absoluta ou ocorrncia. Vamos representar a frequncia da face 1 por n1, a da face 2 por n2 , etc. Se somarmos todas as frequncias obtemos o nmero de vezes que o dado foi lanado. Vejamos: n1 = 8 n2 = 10 n3 = 9 n4 = 8 n5 = 9 n6 = 6
Frequncia absoluta
n1 n2 n3 n4 n5 n6 8 + 10 + 9 + 8 + 9 + 6 = 50 Podemos utilizar o conceito de somatrio para escrever esta concluso de uma forma mais simples. Teremos ento:
n
i =1
= 50
M.C.04
Ut.02
Definimos frequncia de um acontecimento como sendo o nmero de vezes que ele ocorre. Este conceito, embora muito importante, tem algumas limitaes. Vamos ver porqu. Admitamos que nos dito o seguinte: no lanamento de uma moeda ao ar saram 20 coroas. Isto , a frequncia do acontecimento foi de 20. Ser esta informao suficiente para retirarmos alguma concluso relativamente ao equilbrio da moeda? Obviamente que no. Se as vinte coroas tiverem sado em quarenta lanamentos de moeda ao ar, provvel que a moeda esteja equilibrada. Se, por outro lado, as coroas resultarem de 100 lanamentos de moeda ao ar, bem provvel que no o esteja. Como possvel termos alguma ideia a este respeito? A resposta simples: utilizando frequncias relativas. Frequncia relativa de um acontecimento no mais do que a frequncia absoluta a dividir pelo nmero total de ocorrncias (se multiplicarmos o resultado desta diviso por cem, obtemos a percentagem de vezes que o acontecimento ocorre). Voltando ao caso da moeda, admitamos que ela lanada 50 vezes com os seguintes resultados:
Frequncia relativa
Estatstica Aplicada
II . 4
IEFP ISQ
Caras
Coroas
Nmero de coroas = 27
Frequncia absoluta = 23 Frequncia relativa = 23/50 = 0,46 Frequncia relativa x 100 = 46%
Frequncia absoluta Frequncia relativa = 27/50 = 0,54 Frequncia relativa x 100 = 54%
Reparemos que, ao dizer-se que no lanamento da moeda em causa saram 46% de caras e 54% de coroas, ficamos imediatamente em condies de averiguar do equilbrio da moeda. Podemos, assim, comparar a tendncia de sair cara ou coroa com qualquer outra moeda de que conheamos as percentagens anteriores. Isto torna-se vlido independentemente do nmero de vezes que qualquer uma delas tenha sido lanada. Assim, a grande vantagem da frequncia relativa em relao frequncia absoluta o facto de podermos comparar acontecimentos mesmo quando o nmero total de observaes diferente. Podemos agora, voltando a pegar no caso do dado, construir uma tabela mais completa (quadro II.2). Vejamos:
F ac e 1 2 3 4 5 6
ni
8 10 9 8 9 6
fr fri
8/50 = 0,16 10/50 = 0,20 9/50 = 0,18 8/50 = 0,16 9/50 = 0,18 6/50 = 0,12
A soma de todas as frequncias relativas sempre 100% (ou 1, se no multiplicarmos por 100), independentemente do nmero de observaes.
DIAGRAMA DE BARRAS
Concordaremos, certamente, em que a tabela de frequncias acabada de construir constitui uma forma muito mais eficaz de apresentao dos dados do
M.C.04
Ut.02
Estatstica Aplicada
II . 5
IEFP ISQ
que o aglomerado de nmeros com que inicimos a seco anterior. No entanto, existem formas de apresentar os dados visualmente mais elucidativas do que a anterior. Construamos um sistema de eixos cartesianos em cujas abcissas marcamos os valores da caracterstica em causa e em cujas ordenadas so assinaladas as frequncias relativas. Para cada valor da caracterstica, representamos um segmento de recta cujo comprimento corresponde respectiva frequncia relativa. Voltando ao caso dos dados teremos, ento, F 0,20 0,18 0,16 0,12
A uma figura como a anterior chamamos diagrama de barras (fig. II.1). Antes de avanarmos, vejamos um outro conceito importante, o conceito de frequncia relativa acumulada. Para cada valor da caracterstica (Xi), a frequncia acumulada que lhe corresponde a soma das frequncias relativas dos valores da caracterstica inferiores ou iguais a Xi. Torna-se mais fcil compreender o conceito continuando a analisar o lanamento do dado.
Face ( Xi ) 1 2 3 4 5 6
fri
0,16 0,20 0,18 0,16 0,18 0,12
Estatstica Aplicada
II . 6
IEFP ISQ
Podemos, ento, construir um diagrama em que, no eixo das ordenadas, em vez de serem representadas as frequncias relativas, so representadas as frequncias acumuladas. Obteremos ento uma figura como a que se segue (fig II.2).
F 1 0, 8 0, 6 0, 4 0, 2
Torna-se, por vezes, til e/ou necessrio dividir em classes os valores da caracterstica em estudo. Consideremos que uma determinada classe K tem um ponto mdio a que chamaremos xmk.
Classe K
h x mk
amplitude da classe (a diferena entre o maior e o menor valor do intervalo) chamaremos h.
Classe K
h x mk - h/2
Ut.02
x mk
x mk + h/2
M.C.04
Estatstica Aplicada
II . 7
IEFP ISQ
Facilmente verificamos que o extremo inferior do intervalo dado por xmk - h/2. Pelo mesmo raciocnio o extremo superior dado por xmk + h/2. Baralhando um pouco mais os nmeros, sem grande dificuldade se conclui que: (xmk + h/2) - (xmk - h/2) = h
O nmero de classes a constituir a partir dos dados disponveis no obedece a regras rgidas. Existem, no entanto, algumas regras empricas que nos do indicaes muito teis a este respeito. Aquela que , provavelmente, a regra emprica mais simples diz-nos que o nmero de classes a utilizar no deve andar longe da raiz quadrada do nmero de observaes. Isto , se dispusermos de 100 observaes, devemos considerar um nmero de classes prximo de 10. Outra regra muito utilizada a chamada regra de Sturges. Segundo esta, o nmero de classes a considerar, N, dever estar prximo do valor de
N = 1+3,3logn
em que n o nmero de observaes de que dispomos.
(II.1)
M.C.04
Ut.02
Estatstica Aplicada
II . 8
IEFP ISQ
Todos estes conceitos se tornam mais claros com a utilizao prtica. Vejamos. Foram efectuadas 100 medies de dimetros de determinadas peas, tendo sido obtidos os resultados que seguidamente se apresentam. Utilize a regra de Sturges como base para a constituio de classes e determine a frequncia de cada classe constituda. 22, 25, 15, 13, 27, 30, 18, 10, 16, 12, 19, 27, 24, 22, 27, 27, 30, 18, 19, 23, 15, 20, 20, 27, 25, 29, 17, 15, 26, 24, 22, 14, 20, 20, 27, 21, 15, 22, 16, 19, 25, 27, 18, 13, 23, 25, 25, 27, 24, 32, 27, 30, 22, 24, 16, 19, 23, 25, 30, 30, 27, 22, 21, 22, 24, 29, 17, 19, 22, 26, 23, 21, 24, 26, 30, 32, 15, 19, 20, 20, 17, 22, 20, 27, 29, 19, 26, 30, 16, 20, 17, 23, 16, 22, 24, 23, 24, 23, 22, 22. Dispondo de um conjunto de n = 100 observaes, a regra de Sturges d-nos como valor indicativo do nmero de classes a constituir N = 1+3,3log100 = 1+3,3x2 = 7,6 ou seja, a utilizao de 8 classes. A questo que agora se coloca a determinao da amplitude das classes. Uma forma lgica de abordarmos este problema consiste na determinao da amplitude total envolvida e posterior diviso pelo nmero de classes consideradas. Vejamos: o valor mais elevado do nosso conjunto de observaes total dos valores das nossas observaes
xmx =32. Por outro lado, o valor mais baixo x = 10. Ento, a amplitude min
x
mx
-x
mn
= 32-10 = 22
Ao dividir esta amplitude total pelo nmero de classes, obtemos uma indicao da amplitude que deve ser considerada para cada classe. Ento,
32 10 = 2,75 8
Havendo, como se compreende, toda a vantagem em trabalhar com nmeros inteiros podemos apontar para a utilizao de classes com amplitude igual a 3. O ponto mdio de cada classe no mais do que a soma dos seus extremos dividida por dois. Exemplifiquemos : classe [10 ; 13] - ponto mdio =11,5 classe [9,5 ; 12,5] - ponto mdio =11
M.C.04
Ut.02
Estatstica Aplicada
II . 9
IEFP ISQ
Se tornarmos a privilegiar a utilizao de valores inteiros, podemos ento considerar a seguinte utilizao de 8 classes de amplitude 3. [9,5 ; 12,5] [21,5 ; 24,5] [12,5 ; 15,5] [24,5 ; 27,5] [15,5 ; 18,5] [27,5 ; 30,5] [18,5 ; 21,5] [30,5 ; 33,5]
Se, a exemplo do que anteriormente fizemos, registarmos a ocorrncia de cada valor com um trao na classe correspondente, teremos globalmente
M.C.04
Ut.02
Estatstica Aplicada
II . 10
IEFP ISQ
CONSTRUO DE HISTOGRAMAS
Uma vez divididas as observaes em classes e determinada a frequncia de cada classe, torna-se simples construir uma figura, muito importante, a que chamaremos histograma. Para o fazer, consideremos, a exemplo do que acontecia nos diagramas de barras, um sistema de eixos cartesianos cujas ordenadas correspondero aos valores da frequncia, relativa ou absoluta, e as abcissas correspondero a valores da caracterstica em estudo. O passo seguinte corresponde a assinalar, no eixo das abcissas, os valores correspondentes aos pontos mdios das classes, construindo para cada um deles um rectngulo cuja altura igual frequncia, relativa ou absoluta, e cuja base igual amplitude da classe. Tudo isto se compreender muito mais facilmente se continuarmos com o exemplo que temos vindo a abordar, relativo ao dimetro das peas. Recorde-se que j fizemos a diviso das observaes em classes e que j determinmos o ponto mdio e a frequncia de cada classe. Assim, se quisermos construir um histograma de frequncias absolutas (tambm o poderamos fazer relativamente s frequncias relativas), teremos de representar, por exemplo para a terceira classe, um rectngulo centrado em 17, com uma altura correspondente frequncia de 12 e uma largura de 3. Se o fizermos em relao a todas as classes obteremos o histograma correspondente ao conjunto de observaes. Podemos observ-lo na figura seguinte (fig. II.3).
30 26 25 21 20 15 10 5 0 11 14 17 20 23 26 29 32 8 2 3 18 12 10
Por vezes, como acontece na figura anterior, escreve-se no topo de cada rectngulo a frequncia correspondente. O estudo de um histograma permite-nos, por vezes, retirar importantes concluses relativamente populao a que corresponde. Haver, no apenas neste mdulo, a oportunidade de aprofundar este tipo de anlise.
M.C.04
Ut.02
Estatstica Aplicada
II . 11
IEFP ISQ
RESUMO
Foi feita a distino entre frequncias absolutas e relativas. Vimos que a frequncia absoluta de um acontecimento (ex.: sada de uma face do dado) no mais do que o nmero de vezes que esse acontecimento ocorre num determinado conjunto de tentativas (lanamentos do dado). Vimos, tambm, que a frequncia relativa se obtm da absoluta fazendo a diviso desta pelo nmero de tentativas efectuadas. Construmos um sistema de eixos cartesianos em cujas abcissas marcmos os valores da caracterstica em causa e em cujas ordenadas assinalmos as frequncias relativas (ou frequncias relativas acumuladas). Para cada valor da caracterstica, foi representado um segmento de recta cujo comprimento correspondia respectiva frequncia relativa (ou frequncia relativa acumulada). Designmos este tipo de representao grfica por diagrama de barras. Analisou-se a forma atravs da qual deve ser feita a diviso em classes de um conjunto de observaes, com particular destaque para a regra de Sturges, e, com a utilizao de um exemplo prtico, construiu-se um histograma. Recordemos que, para construir um histograma, h que assinalar, no eixo das abcissas, os valores correspondentes aos pontos mdios das classes, construindo para cada um deles um rectngulo cuja altura igual frequncia, relativa ou absoluta, e cuja base igual amplitude da classe.
M.C.04
Ut.02
Estatstica Aplicada
II . 12
IEFP ISQ
ACTIVIDADES / AVALIAO
I. Numa determinada estrada rural, registaram-se as velocidades dos 55 automveis que nela passaram em determinado dia. Apresentam-se seguidamente os valores obtidos (em Km/h): 73,5 61,9 53,6 77,8 76,4 67,2 55,5 65,7 48,8 60,4 88,5 68,3 78,4 67,1 57,9 56,8 75,3 70,5 81,2 88,9 70,7 60 73,4 63,3 61,1 61,7 78,6 68,2 64,1 64 74,9 70,5 62,4 57,6 78,6 56,7 65,7 54,3 65,8 55,7 62,9 85,4 86,4 75,6 66,6 73,1 69,8 50,9 61,5 81,8 65,4 66,4 63,4 56,8 72,2
Divida em classes estas observaes, determinando as respectivas frequncias. Com base nos resultados anteriores, construa o histograma correspondente. II. Um dimetro foi medido 30 vezes, tendo sido obtidos os seguintes resultados (em milmetros): 100 103 98 99 101 101 99 101 100 99 100 102 103 98 100 103 98 100 102 102 100 101 97 102 97 99 100 98 101 99
M.C.04
Ut.02
Estatstica Aplicada
II . 13
IEFP ISQ
M.C.04 Ut.01
IEFP ISQ
OBJECTIVOS
No final desta unidade temtica, o formando dever estar apto a:
Caracterizar o conceito de varivel aleatria, distinguindo entre discretas e contnuas Explicar os conceitos de funo de distribuio e funo densidade de distribuio Identificar e calcular parmetros de tendncia central e de disperso Identificar e utilizar as seguintes distribuies discretas: uniforme, hipergeomtrica, binomial e Poisson Identificar e utilizar as seguintes distribuies contnuas: uniforme e normal
TEMAS
Distribuies discretas
Distribuies contnuas
Ut.03
M.C.04
III . 1
IEFP ISQ
Na unidade temtica anterior, de forma muito passageira, abordmos a diferena entre variveis contnuas e variveis discretas. Vamos, na presente unidade temtica, dar um pouco mais de consistncia e rigor a estes conceitos atravs do significado de varivel aleatria. Haver, tambm, a possibilidade de se estudar, em termos gerais, o que se entende por funes densidade e de distribuio, estabelecendo a necessria diferena entre as situaes contnuas e discretas. Ser realada a necessidade de se utilizarem, na caracterizao de uma populao, parmetros de tendncia central e de disperso, sendo, naturalmente, apresentados os mais utilizados de cada tipo. Teremos oportunidade de desenvolver os processos de clculo dos coeficientes de assimetria e de achatamento. Uma vez entendida a noo de funo densidade de distribuio, torna-se possvel uma abordagem quantificada s distribuies, contnuas ou discretas, mais vulgarmente utilizadas. No domnio das distribuies discretas, a nossa ateno incidir nas distribuies uniforme, hipergeomtrica, binomial e de Poisson. Relativamente s distribuies contnuas, ser dado um natural nfase distribuio normal, embora sejam, tambm, referidas as distribuies uniforme t-Student e qui-quadrado. Em relao a estas duas ltimas, a concretizao da sua utilizao ser feita nas unidades temticas em que se abordaro os intervalos de confiana e testes de hipteses. No entanto, por imperativos de ordenao lgica, no seria possvel ultrapassar esta unidade temtica sem que lhes fosse feita referncia.
=1
M.C.04 Ut.03
=0
Estatstica Aplicada III . 2
IEFP ISQ
Com rigor, podemos dizer que funo que estabelece um valor numrico para cada elemento do espao de acontecimento que chamamos varivel aleatria. Na maior parte dos casos, o elemento do espao de acontecimentos j constitui ele prprio um valor numrico (exemplo: altura de indivduos, nmeros de pontos na face de um dado, densidade, etc.), ou seja, a caracterstica que estamos a estudar numa populao pode ser de natureza qualitativa (pea defeituosa, face da moeda) ou de natureza quantitativa (durao de lmpadas, espessuras, etc.). s caractersticas qualitativas temos de lhes atribuir nmeros se as pretendermos estudar estatisticamente. Uma caracterstica quantitativa, tomando vrios valores, pode ser considerada como uma varivel aleatria, tornando-se assim frequente encontrar expresses como considere que o peso dos portugueses constitui uma varivel aleatria.... Esta associao do conceito de varivel aleatria ao de caracterstica quantitativa torna imediata a razo de ser da distino entre variveis aleatrias contnuas e discretas. Uma varivel aleatria que tome um conjunto finito, ou um nmero infinito enumervel de valores dita como varivel discreta. Como exemplo de variveis discretas podemos ter o nmero de cabelos das pessoas, o nmero de pintas na face de um dado, etc.. Se, por outro lado, os valores que a varivel toma correspondem a um intervalo de nmeros reais (podendo tomar qualquer valor dentro desse intervalo), dizemos que estamos perante uma varivel aleatria contnua. Sero, como vimos, exemplos de variveis contnuas, as alturas, pesos, salrios, espessuras de chapas, etc. Devemos, finalmente, referir que habitual representar uma varivel aleatria por uma letra maiscula (ex.: X), representando-se por letras minsculas (x) os vrios valores por ela tomados. Variveis contnuas Varivel aleatria
Variveis discretas
Funo densidade
M.C.04
Ut.03
Estatstica Aplicada
III . 3
IEFP ISQ
que a varivel X pode tomar um conjunto de valores, x1,..., xk. Torna-se fcil nestas circunstncias, a noo de funo densidade, f(x). Esta corresponde, apenas, probabilidade de a varivel aleatria tomar cada valor xi. Ou seja, teremos apenas
f(x) = P(X=x)
(III.1)
Exemplo III.1
Admitamos que estamos perante um dado equilibrado. Se assim for, de 1/6 a probabilidade de ocorrncia de cada uma das faces. A funo densidade de probabilidade correspondente ser
Como facilmente se compreende, a funo densidade de probabilidade tem as seguintes propriedades: 1. f(x) 0 2. f(x) = 1 em que o somatrio se estende a todos os valores possveis da varivel aleatria. funo distribuio Continuando a falar de variveis discretas, um outro tipo de funo extremamente importante a chamada funo de distribuio acumulada ou, mais simplesmente, funo de distribuio, F(x). Esta definida como
(III.2)
Reparemos que se torna fcil obter a funo de distribuio a partir da funo densidade. De facto, o valor da funo de distribuio num determinado ponto, x, no mais do que a soma dos valores da funo densidade para todos os xi x . Assim,
Ut.03 M.C.04
Estatstica Aplicada
III . 4
IEFP ISQ
0 f ( x ) F (x) = f ( x 1 ) + ..... + f ( x n )
< x < x1
x1 < x < x 2
xn x
Exemplo III.2
Representemos a funo de distribuio correspondente situao apresentada no exemplo anterior: F(x) 1 5/6 4/6 3/6 2/6 1/6 1 2 3 4 5 6 x
Quando estamos perante uma varivel contnua, torna-se um pouco mais complexo o significado das funes de densidade e distribuio. Na verdade, por estranho que possa parecer, a probabilidade de, numa distribuio contnua, a varivel aleatria tomar um valor determinado nula. Isto , no podemos falar da probabilidade de um indivduo escolhido ao acaso ter uma altura de 1,715 m. possvel, no entanto, falarmos, por exemplo, na probabilidade
Ut.03
Distribuies contnuas
M.C.04
Estatstica Aplicada
III . 5
IEFP ISQ
de um indivduo ter uma altura entre 1,70m e 1,72m. Ou seja, em distribuies contnuas s faz sentido referir a probabilidade a intervalos. No podemos, desta forma, definir a funo densidade de probabilidade da mesma forma que o fizemos para os casos discretos. A funo distribuio, contudo, continua a ser definida de forma semelhante. Teremos, portanto,
F (x) = P (X x)
A probabilidade de que a varivel aleatria tome um valor num determinado intervalo de a a b
(III.3)
Para se ficar com uma ideia do significado da funo densidade em distribuies contnuas, pensemos da seguinte forma: imaginemos uma curva (veja-se a figura) cuja rea que se estende abaixo dela, desde - a +, igual a 1.
f (x)
rea = 1
x
Figura III.1 - Funo densidade de uma distribuio contnua
Para alm disso, a rea abaixo da curva entre dois pontos de abcissa, a e b, igual probabilidade de a varivel aleatria tomar valores entre a e b. Observemos a figura seguinte.
f (x)
P(a < x b)
a
Ut.03
M.C.04
Estatstica Aplicada
III . 6
IEFP ISQ
Nestas condies, a equao desta curva, f(x), a funo densidade de probabilidade da varivel em causa 1 . Todos estes conceitos, que parecem ser agora ridos e complexos, se tornaro facilmente compreensveis com a utilizao prtica que deles faremos ainda nesta unidade temtica.
Se afirmao anterior, acrescentarmos que o portugus mais alto mede 2,08 metros e que o mais baixo mede 1,23 metros ficamos, sem dvida, com uma idia mais clara de como se distribuem as alturas.
Exemplo III.3 Consideremos os salrios listados no quadro abaixo: O salrio mdio , aproximadamente, de 330 844$00 (2 977 600$00 9).
1 Subalterno 2 Escriturrio 3 Secretria 4 Operrio 5 Operrio 6 Operrio 7 Inspector de Produo 8 Chefe de Servios 9 Director Administrativo TOTAL :
2 997 600$00
F( x ) =
f ( x ) dx
M.C.04
Estatstica Aplicada
III . 7
IEFP ISQ
O salrio mdio , aproximadamente, de 330 844$00 (2 977 600$00 9). Tal como acontece no exemplo acima, ser que este valor nos permite ter uma idia da ordem de grandeza dos salrios da empresa referida?
Aceitaria uma proposta de emprego nesta Empresa (considerando apenas o aspecto financeiro) se lhe dissessem que o salrio mdio era de 330 844$00? Note-se que o vencimento mais baixo de 85 000$00 e o mais alto de 1 800 000$00. A concluso a retirar do que ficou expresso que para analisarmos uma dada caracterstica, no basta sabermos o seu valor mdio: precisamos de algo mais. Imagine que os salrios pagos a cada pessoa numa empresa (26 empregados) esto escritos em tijolos; um tijolo por empregado (quadro III.1).
220
120
60
80
100
160
140
200
180
N d e em p r eg ad o s 1 2 3 4 6 4 3 2 1
Qu an t ias 60 80 100 120 140 160 180 200 220 000$00 000$00 000$00 000$00 000$00 000$00 000$00 000$00 000$00
Se os tijolos forem amontoados ao acaso, a informao neles contida uma confuso sem sentido. Provavelmente encontraremos de vez em quando informao sob essa forma. Suponhamos agora que os tijolos so alinhados por ordem dos valores neles inscritos, com os valores mais baixos esquerda.
60
80
100
120
140
160
180
200
220
Os tijolos que apresentassem os mesmos valores seriam colocados uns em cima dos outros. Juntos, os tijolos constituiriam um muro com uma forma afunilada nos extremos.
Ut.03 M.C.04
Estatstica Aplicada
III . 8
IEFP ISQ
60
80
100
120
140
160
180
200
220
O muro representa a distribuio dos salrios pagos pela empresa em questo. A forma deste muro pode ser descrita com apenas trs medidas: Uma Medida de Tendncia Central Pode ser imaginada como o valor escrito nos tijolos da pilha mais alta (no exemplo acima 140 000$00). Se derrubarmos todo o muro e escolhermos um tijolo ao acaso, existe uma maior probabilidade de o valor desse tijolo estar muito prximo desse valor. Uma Medida de Disperso Indica a extenso do muro. Quanto maior fr a diferena entre o maior e o menor salrio, mais extenso ser o muro. Se derrubarmos o muro e retirarmos um tijolo do monte, o valor nele escrito no pode deixar de estar dentro da extenso de salrios representada pelo muro. Uma Medida de Configurao Esta medida indica se os tijolos esto colocados simetricamente em torno de um valor ou se esto desviados para um lado, ou seja se a mdia est no meio (como no exemplo acima) ou se est descentrada e neste caso qual a dimenso da assimetria.
Consideremos o seguinte conjunto de valores: 3, 3, 4, 4, 4, 5, 5, 5, 5, 5, 5, 6, 6, 6, 6, 7, 7. Na nossa linguagem do dia-a-dia, quando um determinado acontecimento ocorre com frequncia, habitual ouvirmos dizer que est na moda. O conceito de moda em termos estatsticos est muito relacionado com esta ideia que todos temos. De facto, quando dispomos de um conjunto de valores, a sua moda o
M.C.04 Ut.03
Moda
Estatstica Aplicada
III . 9
IEFP ISQ
valor mais frequente. Se observarmos a tabela de frequncias correspondente aos valores inicialmente apresentados, logo se conclui que a moda desse conjunto de valores 5.
x 3 4 5 6 7
ni 2 3 6 4 2
Colocando um conjunto de valores por ordem crescente, contando com o nmero de repeties, a mediana o valor que divide este conjunto ao meio, isto , que tem tantos valores sua esquerda como sua direita. Voltando ao nosso exemplo,
3, 3, 4, 4, 4, 5, 5, 5, 5, 5, 5, 6, 6, 6, 6, 7, 7
8 valores esquerda 8 valores direita
Conclumos ento com facilidade que a mediana 5. Quando dispomos de um diagrama de frequncias acumuladas, torna-se particularmente fcil determinar a mediana. Esta corresponde, como bvio, ao valor da abcissa cuja frequncia acumulada 0,5. Relativamente mdia, o seu clculo ligeiramente mais complexo. Comecemos por uma situao muito simples. Se soubermos que o vencimento de determinado indivduo foi de 70 000$ em Janeiro e de 90 000$ em Fevereiro, no teremos qualquer dificuldade em afirmar que o seu vencimento mdio nesses meses foi de 80 000$. O raciocnio que fizemos, ainda que inconscientemente, foi o de somar os vencimentos que conhecamos e dividir pelo nmero de meses a que esses vencimentos correspondiam. Seno vejamos. Janeiro 70 000$00 Fevereiro 90 000$00 ______________________ Total 160 000$00
nmero de meses = 2
Estatstica Aplicada
III . 10
IEFP ISQ
Imaginemos outro tipo de situao. Determinado indivduo bebeu na 2.-feira, 2 litros e meio de gua; na 3.-feira, 1 litro e meio de gua e, finalmente, na 4. feira, 2 litros de gua. Quanto que este indivduo bebeu nestes trs dias? Vejamos:
2,5 l
1,5 l
2l
Qual ser a forma expedita de calcularmos a mdia? simples. Se dispusermos de um recipiente suficientemente grande, o que podemos fazer, antes de mais, despejar nesse recipiente o equivalente s vrias quantidades bebidas. Teremos assim: 2,5 l +1,5 l + 2 l = 6 l
6l Como o que pretendemos o que o indivduo bebeu em mdia em cada um dos trs dias, no temos mais do que pegar no recipiente grande contendo os seis litros e dividir esta quantidade de forma igual pelos trs recipientes pequenos. Resultar, ento,
6l
2l
2l
2l
Podemos dizer, portanto, que a mdia do consumo de gua do referido indivduo nos trs dias em questo foi de dois litros. Reparemos que o procedimento que utilizmos para calcular a mdia foi exactamente o mesmo nos dois exemplos que estudmos. No primeiro, sommos o vencimento dos vrios meses e dividimos pelo nmero total de meses considerados. No segundo, sommos o consumo de gua em cada dia e dividimos depois pelo nmero de dias. Vamos estudar o assunto, mas podemos ficar desde j com a ideia de que, para
M.C.04 Ut.03
Estatstica Aplicada
III . 11
IEFP ISQ
calcular a mdia de um determinado conjunto de valores, o que temos a fazer somar a totalidade dos valores, dividindo a seguir pelo nmero de valores somados. Voltemos ao nosso conjunto inicial de valores: 3, 3, 4, 4, 4, 5, 5, 5, 5, 5, 5, 6, 6, 6, 6, 7, 7. Para calcular a sua mdia temos, ento, de somar a totalidade dos valores, 3+3+4+4+4+5+5+5+5+5+5+6+6+6+6+7+7 = 86 e dividir pelo nmero de valores somados. Assim,
Se voltarmos a olhar para a tabela de frequncias, constatamos logo que as vrias multiplicaes que fizemos correspondem multiplicao de cada valor pela correspondente frequncia. Assim, podemos acrescentar tabela uma coluna que tenha para cada valor a sua multiplicao pela respectiva frequncia. Teremos ento:
xi 3 4 5 6 7
ni 2 3 6 4 2
xi . ni 6 12 30 24 14
Como vimos, para calcular a mdia haveria agora que dividir 86 pelo nmero de valores somados, ou seja, n = 17.
Ut.03 M.C.04
Estatstica Aplicada
III . 12
IEFP ISQ
Com a utilizao de somatrio, torna-se mais fcil indicar, de uma forma resumida, como se calcula a mdia. Vejamos: O primeiro passo para o clculo da mdia consiste na multiplicao de cada valor pela respectiva frequncia, isto ,
ni x xi
O segundo passo consiste em adicionar todos os produtos anteriores. Utilizando o conceito de somatrio torna-se mais fcil indicar este passo. Teremos:
n
i =1
Finalmente, para calcular a mdia, teramos de dividir o somatrio anterior pelo nmero total de valores, n. Resultaria, ento,
mdia =
x=
n
i =1
x xi
(III.4)
k = 5 (3,4,5,6,7) n .x = 6 n .x = 12 n .x = 30
1 1 2 2 3 3
n .x = 24
4 4
n .x = 14
5 5
n=
n
i =1
x xi = 6 + 12 + 30 + 24 + 14 = 86
n=
e, finalmente,
n
i =1
= 2 + 3 + 6 + 4 + 2 = 17
x=
n
i =1
x xi =
1 86 x 86 = = 5,06 17 17
Medidas de disperso
Os parmetros de disperso permitem-nos medir at que ponto os elementos de uma populao so diferentes entre si. O mais simples de todos os parmetros de disperso a amplitude. Relativamente a um determinado conjunto de valores, a amplitude , simplesmente, a diferena entre o valor mais alto e o valor mais baixo. Consideremos o seguinte conjunto de valores:
Ut.03
Amplitude
M.C.04
Estatstica Aplicada
III . 13
IEFP ISQ
Varincia
Amplitude = R = 4-2 = 2 Dissemos anteriormente que, para se conhecer uma populao, temos de obter informao sobre a sua tendncia central e sobre a sua disperso. Utilizando a mdia como medida de tendncia central e a amplitude como medida de disperso, teramos, aparentemente, o problema resolvido. Infelizmente, nem sempre assim acontece. De facto, existem situaes em que a amplitude uma medida muito inadequada de disperso. Vamos analisar um exemplo muito simples que ilustra isso mesmo. Consideremos as duas situaes distintas que seguidamente se apresentam (fig. III.4 (a) e (b)). ni 3 2 1 ni 3 2 1
1 2 3 4 5 6 7 8 (a)
1 2 3 4 5 6 7 8 (b)
Conforme podemos observar, temos dois conjuntos de valores distintos entre si, possuindo, no entanto, a mesma mdia e a mesma amplitude (sugerimos a realizao destes clculos). Significa isto que, em determinadas circunstncias, estes dois parmetros so insuficientes para caracterizar diferentes situaes. Pensemos no caso da amplitude. Repare-se que o clculo da amplitude no depende do nmero total de valores em causa. De facto, apenas utilizamos dois valores, os extremos. , assim, de alguma forma intuitiva a necessidade de se arranjar alguma medida de disperso que tenha em conta a totalidade dos valores e no apenas os extremos. Vamos abordar uma forma de o fazer. Afirmmos anteriormente que a melhor medida da tendncia central de um conjunto de valores era a mdia. Ento, uma forma de medirmos a disperso ser a de encontrarmos um meio de avaliar quanto que os vrios valores se afastam da mdia. Para o fazermos, no temos mais do que pegar em cada valor e calcular a sua diferena em relao mdia. Assim, para cada x , devemos calcular ( xi x ) .
Ut.03
i
M.C.04
Estatstica Aplicada
III . 14
IEFP ISQ
xi
1 2 3 4 5 6 7 8
ni
2 2 2 3 3 1 1 1
(x (x i - x )
-3 -2 -1 0 1 2 3 4
Se observarmos a tabela anterior, logo verificamos que os valores 3 e 5 esto igualmente afastados da mdia; e, no entanto, os resultados obtidos para
( xi x ) so diferentes entre si (simtricos). A melhor forma de ultrapassarmos
este problema considerarmos o quadrado de ( xi x ) . Assim, o passo seguinte consiste em determinarmos a soma dos desvios ( x i x )2 para a totalidade dos valores. Naturalmente que cada valor de ( x i x )2 deve ser multiplicado pela correspondente frequncia antes de ser somado ao seguinte. Resultar:
x
1 2 3 4 5 6 7 8
ni
2 2 2 3 3 1 1 1
(x (x i - x )
-3 -2 -1 0 1 2 3 4
(x (x i - x ) 2
9 4 1 0 1 4 9 16
n i . (x i - x ) 2
18 8 2 0 3 4 9 16
( x i x )2 = 60
M.C.04
Ut.03
O valor do somatrio anterior depende, naturalmente, do nmero total de valores de que dispomos. H que tentar encontrar uma forma de ele poder representar a disperso mesmo quando dispomos de um nmero diferente de observaes.
Estatstica Aplicada
III . 15
IEFP ISQ
A forma de o fazermos dividindo-o pelo nmero total de valores, n. Ao valor resultante chamamos varincia e representamo-lo por .
2 =
n (x
i
x )2
(III.5)
s =
s2 =
( xi - nx 2
( x x )2 = 60
n = 2+2+2+3+3+1+1+1 = 15
varincia = 60/15 = 4 desvio-padro = 2 Se calcularmos o desvio-padro da situao B, podemos concluir que
= 1,9
Conclumos, assim, que foi possvel, atravs do desvio-padro, distinguir as duas situaes. Os valores da mdia e do desvio-padro so muito importantes e deles nos vamos servir com bastante frequncia. Outra forma possvel de calcular o desvio-padro a seguinte:
n .x
i
2 i
nx 2
(III.6)
Antes de terminar este ponto, convm fazer uma advertncia importante. Se pudermos dispor de uma calculadora com modo estatstico, no devemos hesitar na sua utilizao. De facto, com um treino mnimo, tornam-se muito fceis de utilizar, proporcionando uma economia considervel de tempo. Com uma nica introduo de valores 2 , podemos ficar a saber a mdia, o desvio-padro e a varincia.
2 Os valores de x, e correspondentes frequncias
M.C.04
Ut.03
Estatstica Aplicada
III . 16
IEFP ISQ
M.C.04
Ut.03
O coeficiente de achatamento tem a ver com a forma da curva, mais ou menos achatada. A distribuio normal, que adiante abordaremos, tem um coeficiente de achatamento 2 = 3 e serve-nos habitualmente como referncia.
Estatstica Aplicada
III . 17
IEFP ISQ
DISTRIBUIES DISCRETAS
Como se compreende, so distribuies discretas aquelas correspondentes a uma varivel aleatria discreta. As distribuies, discretas ou contnuas, so apresentadas pela sua funo de distribuio ou pela sua funo densidade.
Distribuio uniforme
, talvez, a mais simples de todas as distribuies. Estamos perante uma distribuio uniforme quando uma varivel aleatria X pode somar os valores x1..xn., sendo cada um deles igualmente provvel. A funo densidade de probabilidade ser ento
f ( x ) = P [X = x i ]
1 n
para x1,..., xn
(III.7)
J vimos anteriormente um exemplo de distribuio uniforme. De facto, o lanamento de um dado sobre uma mesa corresponde a uma distribuio uniforme com n = 6 (convir rever as funes densidade e distribuio que ento representmos). Como se pode ver, a distribuio uniforme discreta depende de um nico parmetro: n, nmero de acontecimentos equiprovveis. A mdia 4 e a varincia nas distribuies uniformes so dadas por
m=
n +1 2
s2 =
n2 1 12
(III.8 e III.9)
Exemplo III.4
s2 =
36 1 = 2,92 12
Uma outra situao que se aproximar da distribuio uniforme ser o Totoloto. Este corresponder a uma situao em que n = 49.
Distribuio hipergeomtrica
Vamos fazer uso dos conceitos abordados em clculo combinatrio para, com a utilizao de um exemplo, abordarmos a distribuio hipergeomtrica.
4 Quando nos estamos a referir a distribuies tericas ou a populaes, a mdia , habitualmente, representada por .
M.C.04
Ut.03
Estatstica Aplicada
III . 18
IEFP ISQ
Admitamos que um lote tem um determinado nmero de peas, N. De entre estas N peas, existem D que so defeituosas e, consequentemente, N-D que so peas boas. Admitamos que se retiram, sem reposio, n peas do lote 5. O que queremos determinar a probabilidade de que d destas n peas sejam defeituosas. Vejamos: Lote Amostra
N-D
n-d
Vimos que o conceito clssico de probabilidade nos diz que esta corresponde ao quociente entre o nmero de casos favorveis e o nmero de casos possveis. Teremos, ento, de determinar quantas amostras diferentes se podem retirar, com d peas defeituosas e n-d que o no so, e dividir este resultado pelo nmero total de amostras de n elementos que possvel retirar de um lote de N peas. Em relao ao nmero total de amostras no restam, certamente, dvidas que
N Cn
Se pensarmos que as peas defeituosas na amostra d resultam das defeituosas que estejam no lote D, e que idntica situao se verifica para as no-defeituosas, fcil se torna concluir que o nmero total de amostras que possvel extrair com n elementos, sendo d elementos defeituosos, de um lote com N peas
N D D Cd x Cn d
Resultando, finalmente,
P( X = d ) =
N D D Cd x Cn d N Cn
(III.10)
M.C.04
Ut.03
5 Vamos chamar a estas n peas uma amostra do lote. Mais tarde, voltaremos, com maior detalhe, a este conceito de amostra.
Estatstica Aplicada
III . 19
IEFP ISQ
Exemplo III.5
Um lote de 100 circuitos integrados contm 5 que no cumprem os requisitos exigidos. Tendo sido estabelecida uma regra de aceitao segundo a qual, em amostras de 10 circuitos, no poder haver mais do que 1 no-cumpridor, qual a probabilidade de o lote ser aceite? O lote ser aceite se na amostra ocorrerem 0 ou 1 circuitos defeituosos.
P ( X 1) = P ( X = 0 ) + P ( X = 1) =
=
5 95 C0 x C10 100 C10
5 95 C1 x C9 100 C10
= 0,923
Distribuio binomial
A distribuio binomial utiliza-se quando o espao de acontecimentos constitudo por dois acontecimentos elementares 6 com probabilidades de ocorrncia constantes em cada experincia. o caso, por exemplo, de um lanamento de moeda ao ar. Em cada lanamento apenas existem 2 possibilidades, cara ou coroa, sendo constante (0,5), em cada tentativa, a probabilidade de que saia cara ou coroa. Outra situao, frequente, de classificao binria a identificao de uma pea como defeituosa/ /no-defeituosa. Reparemos que, neste caso, para que possamos afirmar que se mantm constante a probabilidade de ocorrncia de cada um dos acontecimentos (defeituoso/no-defeituoso), necessrio que se verifique, pelo menos, uma das seguintes condies: o lote do qual se extraem as peas muito grande, podendo, como tal, afirmar-se que a proporo de defeituosos nele existente no afectada, significativamente, pelo nmero de peas retiradas. Para que assim seja, o lote deve ter, pelo menos, 10 vezes mais peas do que aquelas que so retiradas. as peas retiradas so classificadas e repostas no lote. Desta forma, mantm-se sempre constante a proporo de peas defeituosas.
M.C.04
Ut.03
Estatstica Aplicada
III . 20
IEFP ISQ
Com a distribuio binomial, pretendemos determinar qual a probabilidade de que um dado acontecimento ocorra r vezes em n tentativas sendo, em cada tentativa, constante a sua probabilidade de ocorrncia, p. Imaginemos que uma moeda tem marcada numa das faces uma cruz e na outra um crculo. Admitamos que pretendemos estudar a probabilidade de que em 5 lanamentos consecutivos de moeda ao ar se observem 3 cruzes, sendo p a probabilidade de sair cruz em qualquer dos lanamentos. Assinalando com X a sada de uma cruz e com O a sada de um crculo, o valor X = 3 resulta, por exemplo, de qualquer uma das seguintes sequncias:
XXXOO OXXXO OXXOX
Sendo os resultados dos diversos lanamentos independentes entre si, a probabilidade de qualquer das sequncias consideradas o produto de 3 factores iguais a p por 5-3 = 2 factores iguais a q = 1-p, isto , p3q2 (recordemos que a probabilidade de ocorrncia conjunta de acontecimentos independentes se obtm pelo produto das probabilidades de ocorrncia de cada um deles). Sabendo a probabilidade de ocorrncia de cada sequncia em particular, resta-nos avaliar quantas sequncias distintas nos podem aparecer. Ou seja, temos de avaliar de quantas maneiras distintas podemos distribuir 3 cruzes por 5 posies. Resultar, ento,
5 P( X = 3 ) = C 3 p3 q 2
Generalizando, a probabilidade de que um dado acontecimento ocorra r vezes em n tentativas sendo, em cada tentativa, constante a sua probabilidade de ocorrncia, p,
P( X = r ) = C rn p r q n r
Esta distribuio tem mdia () = np 2 varincia (s ) = npq
(III.11)
(III.12) (III.13)
Exemplo III.6
M.C.04
Ut.03
Admitindo que 40% dos alunos que entram para a Universidade no chegam a terminar o curso, determine qual a probabilidade de, em 6 alunos escolhidos ao acaso, mais de metade chegarem ao fim da licenciatura.
Estatstica Aplicada
III . 21
IEFP ISQ
Repare-se que dizermos que 40% dos alunos no chegam ao fim do curso o mesmo que dizermos ser de 0,4 a probabilidade de um aluno no concluir o curso e, naturalmente, de 0,6 a de o concluir7. O que queremos
P (X = 4) + P (X = 5) + P (X = 6) = 0,54432
Assim, a probabilidade de que entre 6 alunos escolhidos ao acaso mais de metade tenham concludo o curso de, aproximadamente, 54%.
Distribuio de Poisson
Como vimos, a distribuio binomial aparece-nos sempre que, ao repetirmos uma experincia, observamos o nmero de ocorrncias de um certo acontecimento ligado a essa experincia. Se o nmero n de repeties aumentar indefinidamente, ao mesmo tempo que a probabilidade de ocorrncia do acontecimento numa experincia tende para 0, ficamos nas condies da distribuio de Poisson. Pensemos em alguns exemplos em que se utiliza a distribuio de Poisson: chegada de chamadas telefnicas a uma central. Reparemos que qualquer intervalo de tempo pode ser considerado uma repetio de muitos pequenos intervalos de tempo nos quais se aproxima de 0 a probabilidade de chegada de uma chamada. defeitos superficiais em azulejos. Qualquer azulejo pode ser considerado como um conjunto de muitas pequenas reas nas quais se aproxima de 0 a probabilidade de nelas encontrarmos um defeito.
M.C.04
Ut.03
Estatstica Aplicada
III . 22
IEFP ISQ
Quando um acontecimento ocorre a um ritmo de l num determinado intervalo de tempo (determinada rea, etc.), a probabilidade de que esse acontecimento se repita r vezes nesse intervalo de tempo
P (X = r) =
l r l e r!
(III.14)
No fundo, a distribuio de Poisson uma aproximao da distribuio binomial que pode ser utilizada quando n muito grande e p muito pequeno, fazendo l=np. Resulta daqui que a distribuio de Poisson tem um nico parmetro, l, sendo, como tal, muito mais fcil de tabelar. Na distribuio de Poisson, mdia = varincia = (III.15)
Exemplo III.7 Se a probabilidade de uma pea ser defeituosa for p = 0,05, podemos dizer que em n = 200 peas teremos l = 0,0,5 x 200 = 10 peas defeituosas.
Exemplo III.8
Admitamos que o nmero mdio de chamadas que so recebidas numa central telefnica, durante 6 horas de trabalho, de 120. Qual ser o ritmo de chegada de chamadas por cada 20 minutos? Por minuto chegaro, em mdia,
120 = 0,333 chamadas 60 x 6
Determinemos, por exemplo, a probabilidade de que cheguem 5 chamadas durante este perodo de 20 minutos.
M.C.04
Ut.03
Estatstica Aplicada
III . 23
IEFP ISQ
P ( X = 5) =
Assim, a probabilidade de que cheguem 5 chamadas durante um intervalo de tempo em que ocorrem, em mdia, 6,667 chamadas de, aproximadamente, 14%. (Reparemos que os 20 minutos podem ser decompostos, por exemplo, em 240 perodos de 5 segundos, n = 240, nos quais pequena a probabilidade p de ocorrncia de uma chamada.
DISTRIBUIES CONTNUAS
So distribuies contnuas as correspondentes a variveis aleatrias contnuas. De entre estas, merece inquestionvel destaque a distribuio normal. Assim, incidir sobre esta grande parte da nossa ateno nesta seco.
Distribuio normal
Consideremos o histograma apresentado na figura seguinte (fig. III.6):
M.C.04
Ut.03
No difcil imaginar o que acontecer a este histograma se formos considerando pontos mdios de classe cada vez mais prximos entre si. Os rectngulos vo-se estreitando cada vez mais. A linha a tracejado anterior vai-se aproximando da forma a seguir representada (fig. III.8).
Estatstica Aplicada
III . 24
IEFP ISQ
A este tipo de curva em forma de sino chamamos curva normal. Quando, ao traarmos um histograma, ele se aproxima da forma anterior, dizemos que a populao que lhe deu origem segue uma distribuio normal ou, simplesmente, que uma populao normal. A distribuio normal de longe a que maior aplicao tem aos problemas do dia-a-dia. A razo para isto o facto de que, quando uma determinada caracterstica est sujeita a vrias fontes de variao, a sua distribuio resultante aproxima-se de uma normal. Na distribuio normal, a mdia, a moda e a mediana tm o mesmo valor. A mdia da populao representa-se por . Chammos anteriormente a ateno para o facto de ser necessrio dispor de parmetros relativos localizao e disperso. A localizao ser, obviamente, medida pela mdia. Relativamente disperso, vimos anteriormente que a melhor forma de a medir atravs do desvio-padro. Se pensarmos na curva da distribuio normal, ela ser tanto mais larga quanto maior for o desvio-padro. Um conceito de grande importncia, que haver ocasio de aprofundar, o de que a quase totalidade de uma populao normal se situa entre 3 desvios-padro acima e abaixo da mdia. Ao pretendermos saber a percentagem da populao que se situa entre dois determinados valores de uma distribuio normal, teremos de saber a percentagem da rea total da curva que se situa entre os referidos valores. Veremos, mais adiante, como possvel calcular esta rea de uma forma simples. Para j, observemos um exemplo ilustrativo das duas afirmaes anteriores. Admitamos que a tenso mdia de ruptura de um determinado cabo de ao de 4 000 kg/cm2, com um desvio-padro de 50 kg/cm2. Atendendo aos dois conceitos anteriores, saberemos que a quase totalidade da populao (100 % da rea) estar entre + 3 e 3 , ou seja:
M.C.04
Ut.03
Estatstica Aplicada
III . 25
IEFP ISQ
3 850
4 000
4 150
Admitamos, por exemplo, que queramos calcular a probabilidade de um cabo de ao romper com uma tenso inferior a 4 100 kg/cm2. O que pretendemos calcular a rea indicada a tracejado na figura seguinte (fig. III.9):
4 000
4 100
Figura III.9 - Probabilidades de um cabo de ao romper com tenso inferior a 4 100 kg/cm2
M.C.04
Ut.03
Para podermos calcular a rea referida, vamos servir-nos de uma transformao muito interessante e de uma extraordinria utilidade.
Estatstica Aplicada
III . 26
IEFP ISQ
Imaginando uma populao X, com um determinado desvio-padro, s, e uma mdia , se pegarmos em cada elemento x, dessa populao, lhe subtrairmos a mdia m e dividirmos pelo desvio-padro, i.e., se fizermos 8
z=
xm s
(III.16)
obtemos uma distribuio Z, que tem sempre desvio-padro igual a 1 e uma mdia igual a 0, independentemente dos valores originais de s e m. A grande vantagem desta transformao a de nos permitir transformar qualquer distribuio normal nesta ltima, a que chamamos normal-padro. Existem tabelas que nos do a rea esquerda de vrios valores de z. Os problemas que se seguem recorrem utilizao destas tabelas. Voltemos ao problema proposto da determinao da percentagem de cabos que rompero com uma carga inferior a 4 100 kg.
4 000
4 100
Estatstica Aplicada
III . 27
IEFP ISQ
Como vimos, o valor x = 4 100 transforma-se no valor z = 2. O que pretendemos , ento, determinar a rea esquerda de z = 2. A rea esquerda de um determinado valor de z costuma representar-se por f( z) e pode ler-se directamente na tabela normal. Teremos ento:
f (2) = 0,9772
ou seja, 97,72% dos cabos rompero com cargas inferiores a 4 100 kg/cm2. Admitamos agora que queramos determinar a percentagem de tubos a romper acima de 4 100 kg/cm2. Sabendo que a rea total abaixo da curva representa 100% e que a rea esquerda de 4 100 kg/cm2 de 97,72%, imediatamente se conclui que a rea direita, i. e., a percentagem que rompe acima de 4 100 kg/cm2 ser 100% - 97,72% = 2,28% Escrevendo de outra forma,
3 980
Figura III.11 - Percentagem de cabos que rompem com uma carga inferior a 3 980 kg/cm2
A rea esquerda de Z = - 0,4 ser simplesmente (-4). No entanto, a tabela apresentada no contempla valores negativos. Esta situao, contudo, ultrapassa-se com toda a facilidade. Pensemos um pouco, observando a figura seguinte (fig. III.12):
M.C.04
Ut.03
Estatstica Aplicada
III . 28
IEFP ISQ
- 0,4
0,4
Sendo a curva simtrica, a rea esquerda de -0,4 , obviamente, igual rea direita de 0,4. Por outro lado, como vimos, a rea direita de 0,4 de 1 (ou 100%) menos a rea sua esquerda. Assim,
f ( 0,4) = 1 f (0,4) = 1 0,6554 = 0,3446
Ou seja, 34,46% dos cabos falharo com uma carga inferior a 3 980 kg/cm2. Para terminar estas breves referncias sobre a utilizao da distribuio normal, analisemos outro tipo de situao. Qual a percentagem de cabos que rompero entre 3 978 kg/cm2 e 4 030 kg/cm2 ? O que pretendemos determinar a rea a tracejado da figura seguinte (fig. III.13).
3 978
4 030
Figura III.13 - rea correspondente percentagem de cabos que rompero com tenses entre 3 978 e 4 030 kg/cm2
z1 =
M.C.04 Ut.03
z2 =
Estatstica Aplicada
III . 29
IEFP ISQ
-0,44
0,6
Para determinamos a rea a tracejado, no temos mais de que calcular a rea esquerda de 0,6 e subtrair-lhe a rea esquerda de -0,44. Assim: rea esquerda de 0,6 = f(0,6) = 0,7257 rea esquerda de -0,44 = 1 - rea esquerda de 0,44 = 1 - f(0,44) = = 1 - 0,6700 = 0,3300 A percentagem de cabos a romperem entre os 3 978 kg/cm2 e 4 030 kg/cm2 ser, ento, 72,57%-33,00% = 39,57%
Distribuio uniforme
Uma varivel tem distribuio uniforme no intervalo a x b se a sua funo densidade for
1 b a f (x) = 0
caso contrrio
(III.17)
M.C.04
Ut.03
Estatstica Aplicada
III . 30
IEFP ISQ
Graficamente;
0 ( x a ) F (x) = P ( X < x) = ( b a ) 1
x a x
<
a x b
(III.18)
e s2 =
1 ( b a )2 12
(III.19) e (III.20)
Exemplo III.9
O comprimento de cabelo dos funcionrios de determinada empresa uniformemente distribudo entre a = 4 cm e b = 24 cm. Determine a probabilidade de um empregado escolhido ao acaso ter um comprimento de cabelo entre 8 e 12 cm. Como vimos, a probabilidade de uma varivel aleatria tomar um valor entre a e b dada por P (a x ) = F () - F (a) em que F(a) e F() so valores de funo de distribuio para a e .
Ut.03 M.C.04
Estatstica Aplicada
III . 31
IEFP ISQ
Teremos, assim,
Normal-padro
x a x
<
a x b
no nosso caso, a = 4 e b = 24
F ( 12 ) =
12 4 8 = = 0,4 24 4 20
Ento, P (8 x 12) = F (12) - F (8) = 0,4 - 0,2 = 0,2 . Significa isto que a probabilidade de um empregado escolhido ao acaso ter um comprimento de cabelo entre 8 e 12 cm de 0,2 ou, o que o mesmo, 20% dos empregados tm um comprimento de cabelo entre 8 e 12 cm.
M.C.04
Ut.03
Estatstica Aplicada
III . 32
IEFP ISQ
Vemos ento que podemos dar a x1, x2 e x3 os valores que entendermos, mas, uma vez atribudos estes valores, resta apenas um valor para x4 que respeita x i = 20 . Significa isto que temos n-1 = 4-1 = 3 graus de liberdade.
Em relao distribuio do t-Student refira-se, a ttulo meramente informativo, que, se Z for uma varivel normal-padro e Y uma distribuio qui-quadrado com n graus de liberdade, ento a varivel aleatria
T =
Z Y n
(III.19)
tem distribuio t-Student com n graus de liberdade. Quer a distribuio qui-quadrado, quer a distribuio t-Student se aproximam da normal quando aumenta o nmero de graus de liberdade. Como j referimos, a utilizao das distribuies qui-quadrado e t-Student ser feita mais tarde, quando abordarmos as questes relativas s distribuies amostrais.
M.C.04
Ut.03
Estatstica Aplicada
III . 33
IEFP ISQ
RESUMO
A primeira, das importantes noes introduzidas nesta unidade temtica, foi a de varivel aleatria. Afirmmos que se entendia como tal a funo que estabelece um valor numrico para cada elemento do espao de acontecimentos. Distinguimos caractersticas qualitativas e quantitativas, associando a estas o conceito de varivel aleatria. Pudemos, assim, distinguir variveis aleatrias discretas e contnuas. Uma varivel aleatria que tome um conjunto finito ou um nmero infinito enumervel de valores dita como varivel discreta. Se, por outro lado, os valores que a varivel toma correspondem a um intervalo de nmeros reais, dizemos que estamos perante uma varivel aleatria contnua. Foram apresentados os conceitos de funo densidade e de distribuio, tendo sido identificadas as diferenas nas correspondentes interpretaes, conforme se tratem de distribuies contnuas ou discretas. Vimos que, para analisar a distribuio de qualquer caracterstica, temos de dispor de dois tipos de informao: Qual a zona em que se situam a maior parte dos indivduos; Como se dispersam os valores analisados.
Isto , precisamos de dispor, respectivamente, de medidas de tendncia central e de medidas de disperso. De entre as medidas de tendncia central destacmos a mdia, a moda e a mediana, enquanto que, como medidas de disperso, se focaram a amplitude, a varincia e o desvio-padro. Apresentaram-se ainda os coeficientes da assimetria e achatamento, relacionando-os com diferentes tipos de curvas. De entre as distribuies discretas foram abordadas as distribuies uniforme, hipergeomtrica, binomial e de Poisson. Chammos a ateno para o facto de a distribuio binomial poder ser utilizada quando o espao de acontecimentos constitudo por dois acontecimentos elementares, com probabilidades de ocorrncia constantes em cada experincia. Realmos, tambm, o facto de a distribuio de Poisson ser uma aproximao da distribuio binomial que pode ser utilizada quando n muito grande e p muito pequeno, fazendo l=np.
Ut.03 M.C.04
Estatstica Aplicada
III . 34
IEFP ISQ
Nas distribuies contnuas o destaque foi, naturalmente, para a distribuio normal, uma vez que esta, de longe, a que maior aplicao tem aos problemas do dia-a-dia. A razo para isto o facto de que, quando uma determinada caracterstica est sujeita a vrias fontes de variao, a sua distribuio resultante aproxima-se de uma normal. Vimos como pode ser obtida a varivel reduzida e a facilidade que constitui a sua tabelao. Ainda dentro das distribuies contnuas, foram referidas as distribuies uniforme, qui-quadrado e t-Student. Se em relao primeira concretizmos a sua aplicao, em relao s duas ltimas foi realada a utilizao que delas faremos posteriormente.
M.C.04
Ut.03
Estatstica Aplicada
III . 35
IEFP ISQ
ACTIVIDADES / AVALIAO
Represente, analtica e graficamente, a sua funo de distribuio. II. Um dimetro foi medido 30 vezes, tendo-se obtido os seguintes resultados (em milmetros): 100 97 100 100 99 101 98 101 100 101 100 103 99 102 102 103 101 101 98 100 99 98 98 99 99
97 100
(recorde que estes dados j foram trabalhados num exerccio anterior). Determine: a) a mdia e a mediana. b) a amplitude total, a varincia e o desvio-padro.
III. Uma varivel aleatria discreta tem uma distribuio uniforme dada por
1 f(x) = P(X = x) = 3 0
a) Determine a mdia e a varincia desta distribuio. b) Represente, analtica e graficamente, a funo de distribuio.
IV. Uma caixa contm 16 peas boas e 8 peas defeituosas. Pretendemos determinar qual a probabilidade de em 6 peas retiradas sarem 4 boas. a) Considere as extraces com reposio, isto , cada pea reposta na caixa antes de ser retirada a seguinte. b) Extraco sem reposio. Um fabricante automvel constatou, ao longo de vrios anos, que cerca de
V.
Ut.03 M.C.04
Estatstica Aplicada
III . 36
IEFP ISQ
18% dos carros tm de substituir a bateria ainda durante o perodo da garantia. Qual a probabilidade de que, entre 20 veculos escolhidos ao acaso, nenhum apresente problemas de bateria?
VI. Sabe-se que 20% dos mdicos em determinado Hospital so cirurgies. Determine a probabilidade de que, entre 30 mdicos do Hospital escolhidos ao acaso, existam entre 3 e 5 cirurgies. a) utilizando a distribuio binomial. b) utilizando a distribuio de Poisson.
VII. Defeitos em peas de tecido encontram-se, aleatoriamente, com uma mdia de 1 defeito por 50 dm2. Utilizando a distribuio de Poisson, determine a probabilidade de que numa rea de 4 x 8 dm, a) no exista nenhum defeito. b) exista, no mximo, 1 defeito.
VIII. O nmero de pedidos de assistncia que chegam, por minuto, a uma central de atendimento , em mdia, de 2. Calcule a probabilidade de, num perodo de 5 minutos, a) chegarem, exactamente, 8 pedidos. b) chegarem, no mnimo, 3 pedidos.
IX. A tenso sada de uma fonte de alimentao normalmente distribuda com uma mdia de 12 V e desvio-padro 0,1 V. Se os limites superior e inferior da especificao forem 11,85 e 12,85 V respectivamente, qual a probabilidade de que uma fonte, escolhida ao acaso, cumpra os requisitos?
X.
Suponha-se que a durao de vida de um componente distribuda normalmente, com desvio-padro igual a 10 horas. Sabendo que a probabilidade de que o componente no falhe nas primeiras 100 horas de 0,99, qual ser a sua durao de vida esperada?
M.C.04
Ut.03
Estatstica Aplicada
III . 37
IEFP ISQ
Amostragem
M.C.04 Ut.01
IEFP ISQ
Amostragem
OBJECTIVOS
Explicar o conceito de distribuio de uma estatstica amostral Utilizar as distribuies amostrais de mdias, varincias e propores Distinguir entre estimao pontual e intervalar Explicar a noo de nvel de confiana Calcular intervalos de confiana para mdias, varincias e propores
TEMAS
Intervalos de confiana
Intervalos de confiana para a mdia Intervalos de confiana para a varincia Intervalos de confiana para propores
M.C.04
Ut.04
IV . 1
IEFP ISQ
Amostragem
Referimos anteriormente que o principal objectivo da estatstica o conhecimento de determinada populao com que estejamos a trabalhar. Referimos, tambm, que falar em populao no significava, necessariamente, que nos estivssemos a referir a um conjunto de seres humanos, e apresentmos exemplos: Os pesos de sacos de acar que saem de uma linha de produo constituem uma populao; O conjunto de durezas superficiais medidas em peas de ao sujeitas a tratamento trmico constitui uma populao.
Dissemos que, por exemplo, conhecer a populao de pesos de sacos de acar significaria conhecer a frequncia com que ocorre cada um dos pesos possveis. Deste conceito de conhecimento de uma populao resulta uma concluso primeira vista um pouco estranha. Muito raramente ns podemos conhecer uma populao. Vejamos porqu, voltando ao exemplo das durezas superficiais. Relativamente a uma determinada pea, conhecer a populao das suas durezas superficiais seria conhecer a dureza em cada um dos pontos da sua superfcie. Este nmero de pontos , como se compreende, infinito. Pensemos noutra situao. Ser que, para conhecermos a distribuio das alturas dos portugueses, teremos de medir cada um dos seus 10 000 000 de habitantes? O que podemos fazer? A resposta simples: da populao que pretendemos conhecer extramos uma amostra representativa e fazemos incidir sobre ela o nosso estudo.
M.C.04
Ut.04
Por amostra representativa entende-se um conjunto de elementos retirados de uma populao e que a representam de uma forma justa. Vamos aprofundar melhor o que isto significa. Imaginemos que, para conhecer a distribuio das alturas dos portugueses, a pessoa com a responsabilidade do estudo se dirige a um pavilho de basquetebol e decide constituir uma amostra com os atletas que nesse momento se treinam. Ser essa amostra representativa da verdadeira distribuio das alturas dos portugueses? Obviamente que no. A amostra escolhida tendenciosa e conduzir a concluses erradas, uma vez que nem todos os portugueses tm igual probabilidade de nela figurarem. Ento, podemos dizer que amostra representativa aquela na qual todos os elementos da populao tm igual probabilidade de figurar. Por outro lado, chamaremos dimenso de uma amostra ao nmero de elementos que a constituem.
Estatstica Aplicada
IV . 2
IEFP ISQ
Amostragem
Nesta unidade temtica vamos, precisamente, estudar formas atravs das quais nos ser possvel extrapolarmos concluses, relativamente a uma dada populao, a partir de amostras dela retiradas, ou seja, vamos entrar no campo da inferncia estatstica. Mais particularmente, vamos tentar, partindo de dados amostrais, estimar os valores de mdia e/ou do desvio-padro de uma populao ou, ainda, de uma determinada proporo relativamente ocorrncia de um dado acontecimento. Como se compreende, ao inferirmos valores para a populao partindo de resultados obtidos em amostras, corremos sempre algum risco de no estarmos certos. Surge, assim, o conceito de intervalo de confiana, que teremos oportunidade de aprofundar nesta unidade temtica.
x =
1 n
x
i =1
(IV.1)
O raciocnio anterior, vlido em relao mdia, no o relativamente varincia. Ou seja, o clculo da varincia numa amostra utilizando a frmula que vlida para o clculo numa populao no conduz melhor estimativa para a varincia desta. Teremos ocasio de aprofundar esta questo; convir, todavia, ficar desde j com uma razo intuitiva para este facto. Como vimos, a varincia avalia a disperso de uma populao medindo o afastamento dos vrios elementos que a constituem relativamente mdia. Compreende-se que, ao retirarmos uma amostra da populao, difcil se torna que a variedade de valores existentes na populao seja reflectida na amostra. Ou seja, a varincia medida numa amostra
1 Voltaremos, com maior detalhe, a este assunto.
Ut.04
Varincia amostral
M.C.04
Estatstica Aplicada
IV . 3
IEFP ISQ
Amostragem
resulta, habitualmente, num valor inferior verdadeira disperso da populao. Temos, ento, necessidade de compensar este efeito. Admitamos que a populao constituda por N elementos. A sua varincia ser 2
s2 = 1 N
( x
i =1
m )2
(IV.2)
Retirando da populao uma amostra representativa com n elementos, uma boa estimativa da varincia de uma populao, calculada a partir desta amostra, ser
s2 =
1 ( x i x )2 n 1 i =1
(IV.3)
Reparemos que, ao fazermos a diviso por (n-1), diminui-se o valor do denominador, aumentando desta forma o valor total. Faz-se, assim, como que uma compensao relativamente subestimao que resultaria do clculo amostral. Voltaremos a todos estes assuntos com maior rigor. Era, no entanto, importante que se ficasse desde j com algumas ideias a este respeito.
J vimos que se chama estatstica amostral aos valores que se calculam nas amostras, tendo como objectivo a estimao de parmetros da populao. Admitamos que, de uma dada populao, se extraem todas as amostras possveis de tamanho n, calculando-se em cada uma delas a mesma estatstica (mdia, varincia, etc.). Vamos obter, portanto, um valor por cada amostra extrada. O conjunto de todos estes valores definem eles prprios uma distribuio, a distribuio amostral da estatstica. Precisemos um pouco, para que se torne mais claro. Admitamos que, de uma determinada populao, extramos todas as amostras possveis de tamanho n, calculando a mdia em cada uma delas. O conjunto das vrias mdias das amostras forma uma distribuio a que chamaremos distribuio amostral de mdias. Como em relao a qualquer distribuio, faz sentido falarmos, por exemplo, na mdia e no desvio-padro da distribuio amostral da estatstica. Falaremos, por exemplo, do desvio-padro da distribuio Distribuio amostral
2 A apresentao que foi feita da frmula da varincia diz respeito a um conjunto de valores
M.C.04
Ut.04
x era a mdia desse conjunto de valores. O conceito de varincia da populao deve, naturalmente, considerar em vez de x .
em que
Estatstica Aplicada
IV . 4
IEFP ISQ
Amostragem
de mdias amostrais ou da mdia da distribuio de varincias amostrais3 . Quer os conceitos quer a terminologia utilizada parecero, por agora, um pouco confusos. O aprofundamento das noes apresentadas e sua utilizao prtica ajudaro, certamente, a ultrapassar esta fase menos convidativa.
M.C.04
Ut.04
Estatstica Aplicada
IV . 5
IEFP ISQ
Amostragem
m =
1 + 5 + 6 + 8 20 = =5 4 4 (1 5) 2 + (5 5) 2 + (6 5) 2 + (8 5) 2 = 6,5 4
s2 =
Imaginemos agora que eram retiradas desta populao todas as amostras possveis de dois elementos, com reposio. Ou seja, cada amostra constituda por dois nmeros que podem ser iguais, uma vez que o primeiro nmero depois de observado reposto. O nmero total de amostras diferentes que possvel extrair nestas condies 42 = 16. Sero as seguintes: (1,1) (1,5) (1,6) (1,8) (5,1) (5,5) (5,6) (5,8) (6,1) (6,5) (6,6) (6,8) (8,1) (8,5) (8,6) (8,8) Calculemos agora a mdia de cada uma destas amostras. Teremos, com a mesma ordenao, 1 3 3,5 4,5 3 3,5 4,5 5 5,5 6,5 5,5 6 7 6,5 7 8
Dispomos agora de um conjunto de mdias amostrais. Calculemos a sua mdia e varincia. A mdia de distribuio amostral de mdias,
mx =
, ser x
1 + 3 + 3,5 + ... + 7 + 8 =5 16
(1 5) 2 + (3 5) 2 + ... + (8 5) 2 = 3,25 16
M.C.04
Ut.04
Estatstica Aplicada
IV . 6
IEFP ISQ
Amostragem
mx = m = 5
s 2 = 6,5
2 sx = 3,25
2 sx =
s2 2
Ou seja, no exemplo apresentado a mdia da distribuio de mdias amostrais igual mdia da populao e a varincia da distribuio amostral de mdias igual varincia da populao dividida pelo tamanho da amostra. Podemos generalizar este resultado. De facto, se retirarmos de uma populao, com ou sem reposio, todas as amostras possveis de tamanho n, calculando a mdia em cada uma delas, a distribuio amostral de mdias resultante tem uma mdia que igual da populao. Ou seja,
mx = m
(IV.4)
Se a populao puder ser considerada infinita em relao ao tamanho das amostras extradas ou, ainda, se a amostragem for feita com reposio, verifica-se a seguinte relao entre a varincia da populao e a varincia da distribuio amostral de mdias:
2 sx =
s2 2
(IV.5)
(IV.6)
Se a amostragem for feita, sem reposio, a partir de uma populao finita com N elementos, resultar
2 = sx
s2 2
N n N 1
(IV.7)
Repare que esta expresso se aproxima da anteriormente apresentada quando N n (experimente-se resolver o exemplo anterior considerando que no existe reposio, isto , nunca podemos extrair duas vezes o mesmo nmero desaparecendo as amostras (2,2), etc.). Vejamos agora dois conceitos extremamente importantes 4 .
M.C.04
Ut.04
4 Os conceitos seguidamente apresentados assentam no pressuposto de populao infinita ou amostragem com reposio. Se isto no se verificar, devem ser consideradas as alteraes 2 em x anteriormente apresentadas.
Estatstica Aplicada
IV . 7
IEFP ISQ
Amostragem
i) Se, de uma populao normal, com mdia e varincia 2, extrairmos amostras de dimenso n, a distribuio das mdias amostrais resultante ser tambm normal, com mdia e varincia 2/n. ii) Se, de uma populao no-normal, com mdia e varincia 2, forem extradas amostras de dimenso n, a distribuio das mdias amostrais resultante ter mdia e varincia 2/n. Esta distribuio aproxima-se da normal com o aumento de n. Na prtica, podemos dizer que para n 30 a distribuio de mdias amostrais pode sempre considerar-se normal. Isto o mesmo que dizer-se que a varivel
Z=
x m s n
(IV.8)
M.C.04
Ut.04
Estatstica Aplicada
IV . 8
IEFP ISQ
Amostragem
Os tubos de vidro provenientes de determinado processo tm um comprimento mdio de 20,01 mm com um desvio-padro de 0,04 mm. a) Qual a percentagem de tubos com um comprimento acima de 20,06 mm? b) Extraindo-se amostras de 4 elementos, qual a percentagem de amostras cuja mdia est acima de 20,06 mm? Como podemos observar, a primeira alnea diz respeito populao dos tubos individualmente considerados, que tem, como dito, = 20,01 mm e = 0,04. A segunda alnea diz respeito distribuio de mdias de amostras de quatro elementos. Para esta distribuio,
m x = m = 20,01 sx = s = 0,0,4 = 0,02 2
A percentagem de tubos referida na alnea a) ser dada pela rea indicada a tracejado na figura.
20,01
20,06
Estatstica Aplicada
IV . 9
IEFP ISQ
Amostragem
20,01
20,06
5 Repare-se que a curva correspondente distribuio amostral de mdias sempre mais estreita que a dos valores individuais uma vez que
Ut.04
x=
M.C.04
Estatstica Aplicada
IV . 10
IEFP ISQ
Amostragem
Reparemos que, em todas as situaes abordadas, assentmos no pressuposto de se conhecer a varincia da populao em causa. Nessas condies, vimos que a varivel
Z=
xm s n
normal-padro se a populao for normal, ou, pelo menos, tende assimptoticamente para a normal-padro. Se, por outro lado, no for conhecida a varincia da populao, h que utilizar a varivel
t=
xm s n
(IV.9)
Esta varivel tem uma distribuio t-Student com (n-1) graus de liberdade. Concretizaremos, mais adiante, a sua utilizao.
s2 =
1 ( x i x )2 n 1 i =1
(IV.10)
Se se tratar de uma amostragem sem reposio, a partir de uma populao finita de tamanho N, a mdia de distribuio amostral de varincias ser
N 2 ms2 = N 1 s
(IV.11)
Vimos que, para o caso das mdias amostrais, a distribuio de aproximava de uma normal.
x se
M.C.04
Ut.04
6 A partir de agora, se nada for dito em contrrio, considera-se que a amostragem feita com reposio ou a partir de uma populao infinita.
Estatstica Aplicada
IV . 11
IEFP ISQ
Amostragem
No caso das varincias amostrais, a distribuio de s no corresponde a 2 nenhuma que conheamos. Assim, em vez de utilizar a distribuio de s , vamos utilizar uma varivel aleatria cuja distribuio j foi, passageiramente, referida. Utilizaremos ento a varivel
( n 1) s 2
s2
Podemos dizer que, se extrairmos todas as amostras possveis de dimenso n de uma populao normal com varincia 2, a varivel que acabmos de apresentar tem uma distribuio qui-quadrado com (n-1) graus de liberdade. Devemos referir tambm que, se as amostras extradas nas condies anteriores forem de grande dimenso, n 100, a distribuio das varincias amostrais s aproxima-se de uma distribuio normal com um desvio-padro s s = e 2n mdia m s = s .
Exemplo IV.1
Tornemos a considerar a populao constituda pelos nmeros 1, 5, 6 e 8, e todas as amostras de 2 elementos que dela podemos retirar, com reposio. Relativamente populao, j havamos concludo que m = 5 s 2 = 6,5 . 2 Calculemos agora a varincia, s , de cada amostra:
Estatstica Aplicada
IV . 12
IEFP ISQ
Amostragem
confirmando-se o que havamos visto: m s 2 = s 2 . Deixaremos para mais tarde, quando falarmos de intervalos de confiana, a utilizao da distribuio qui-quadrado.
pq n
(IV.12)
Para valores suficientemente grandes de n, n 30, a distribuio de propores pode ser considerada prxima de uma normal com a mdia e o desvio-padro anteriormente apresentados. Vejamos, atravs de um exemplo, como trabalhar com estas situaes.
Exemplo IV.27
Sabe-se que 2% de determinada produo de parafusos apresenta o defeito de no possuir ranhura na cabea. Qual a probabilidade de, num lote de 400 parafusos, 3% ou mais serem defeituosos? E qual a probabilidade de serem defeituosos menos de 2%? Como vimos,
m p = p = 0,02 sp =
pq = n
M.C.04
Ut.04
7 Com todo o rigor, deveriam ser utilizados factores de correco em virtude de estarmos a aproximar uma distribuio discreta por uma contnua. No o faremos, tentando, na medida do possvel, preservar a simplicidade do texto sem prejuzo da compreenso global dos assuntos envolvidos.
Estatstica Aplicada
IV . 13
IEFP ISQ
Amostragem
Ento,
0,03 0,02 P ( p 3%) = 1 f = 1 f ( 1,43 ) 0,007
concluindo-se ser de 50% a probabilidade de um lote ter uma percentagem de parafusos defeituosos inferior a 2%.
INTERVALOS DE CONFIANA
J referimos, anteriormente, a quase impossibilidade de se conhecerem, exactamente, os parmetros de uma populao. Torna-se ento necessrio que estimemos esses parmetros a partir de dados obtidos em amostras. A estimao pode ser de dois tipos: pontual ou intervalar. Falamos da estimao pontual quando se pretende obter um valor numrico para determinado parmetro. Dizemos que determinada estatstica amostral proporciona uma estimativa no-tendenciosa do valor de determinado parmetro se a mdia da sua distribuio coincidir com o valor do parmetro populacional. Recordemos ento que x , s2 e P proporcionavam estimativas no-tendenciosas da mdia, varincia, e proporo de determinado acontecimento numa populao, uma vez que
mx = m
m s2 = s 2
mp = p
(IV.13)
Falamos de estimao intervalar quando o objectivo construir um intervalo que tenha determinada probabilidade de conter o verdadeiro valor do parmetro. Pretender-se-, por exemplo, determinar um intervalo [I,S] que tenha uma
Ut.04 M.C.04
Estatstica Aplicada
IV . 14
IEFP ISQ
Amostragem
probabilidade (1-) de conter o verdadeiro valor da mdia da populao. Isto , queremos determinar I e S tais que
P (l m S) = 1 a
Ao valor de (1-) chamamos nvel de confiana, sendo conhecido como nvel de significncia. O valor mais vulgarmente utilizado para o nvel de significncia = 0,05, o que corresponde, naturalmente, a um nvel de confiana de 95%. Como intuitivo, e teremos a oportunidade de confirmar, quando queremos nveis de confiana mais elevados resultam intervalos mais largos. tambm evidente que, para o mesmo nvel de confiana, se conseguem intervalos de menor amplitude quando se aumentam os tamanhos da amostra. De facto, amostras maiores possibilitam um melhor conhecimento da populao, tornando mais precisa a estimao do intervalo.
Nvel de confiana
normal, ou pelo menos, assimptoticamente normal, podendo considerar-se como tal para n 30. O que pretendemos, como se disse, determinar, com base em dados de uma amostra, um intervalo no qual exista determinada probabilidade de a mdia da populao, , se encontrar. Se pretendermos, por exemplo, construir um intervalo de confiana a 95%, teremos, antes de mais, de determinar quais os valores de Z tais que entre eles se encontrem 95% da populao. Haver necessidade, portanto, de determinar qual o valor de Z que tem 97,5% da rea sua esquerda e o outro, necessariamente simtrico deste, que tem 2,5% da rea sua esquerda. Vejamos a figura correspondente (Fig. IV.1):
95%
Z0,025 = Z0,975
Ut.04
Z 0,975
M.C.04
Estatstica Aplicada
IV . 15
IEFP ISQ
Amostragem
Consultando a tabela da normal, facilmente se conclui que Z 0,975 = 1,96 . Haver agora que determinar os valores de S e I que, atribudos a , conduziro aos valores 1,96 e -1,96, respectivamente. imediato que
S = x + Z 0 ,975
n
s
= x + 1,96
n
s = x 1,96 s
I = x + Z 0 ,025
ou seja,
= x Z 0 ,975
Como j anteriormente referimos, frequente no ser conhecido o desvio-padro da populao. Se assim for, mas dispusermos de uma amostra com n 30, permanece vlida toda a formulao e raciocnio anteriores, havendo, no entanto, que utilizar o desvio-padro amostral s, em vez do desconhecido s. Se, de uma populao normal cujo desvio-padro desconhecemos, dispusermos de uma amostra com n < 30 elementos, sabemos que a varivel
t=
xm s n
segue uma distribuio t-Student com (n-1) graus de liberdade. Atendendo a que a distribuio t-Student, tal como a normal, simtrica, podemos, raciocinando de forma anloga, escrever (admitindo um nvel de confiana de 95% e uma amostra de n = 10 elementos)
S = x + t 0,975 ; 9
s n s n
= x + 2,262
s n s n
= x 2,262
I = x + t 0,025 ; 9
= x t 0 ,975 ; 9
s n
Estatstica Aplicada
IV . 16
IEFP ISQ
Amostragem
ou seja
P ( x 2,262
s n
m x + 2,262
s n
Como se percebe, t 0 ,975; 9 pretende simbolizar o valor de t, com 9 graus de liberdade, que tem 97,5% de rea sua esquerda. Para as condies anteriormente definidas, podemos escrever, mais genericamente,
s s = 1 a (IV.14) P m x + t ( 1 a / 2 ); ( n 1) x x t ( 1 a / 2 ) ; ( n 1) x n n
Exemplo IV.3
Determinada empresa possui uma linha de produo de lmpadas incandescentes. Sabe-se que o desvio-padro de durao das lmpadas s = 140. Ensaiando-se uma amostra de 100 lmpadas, obteve-se, nesta amostra, uma durao mdia de 1 280 horas. Determine um intervalo de confiana a 95% para a durao mdia das lmpadas provenientes deste processo. Estamos perante uma situao em que, para alm de se conhecer o desvio-padro da populao, se dispe de uma grande amostra. Utilizaremos, naturalmente, a distribuio normal.
x = 1 280 h
Ento,
= 140 h
z0,975 = 1,96
S = 1 280 + 1,96 x
I = 1 280 - 1,96 x
ou seja, podemos afirmar, com 95% de confiana, que a durao mdia das lmpadas em causa se situa entre 1252,56 h e 1307,44 h.
Ut.04 M.C.04
Estatstica Aplicada
IV . 17
IEFP ISQ
Amostragem
Exemplo IV.4
O peso de sacos de determinado produto qumico segue uma distribuio normal da qual se desconhece o desvio-padro. Ensaiando-se uma amostra de 10 sacos obteve-se x = 4,38 Kg e s = 0,06 kg. Determine um intervalo de confiana a 99% para o peso mdio dos sacos. Sabendo que se trata de uma populao normal mas desconhecendo o seu desvio-padro, somos levados a utilizar a distribuio t-Student. Pretendendo construir um intervalo de confiana a 99% temos de, atravs das tabelas, obter o valor de
t 0 ,995 ; 9 = 3,250
sabendo que t 0,995 ; 9 simtrico deste. Assim, com
S = 4,38 + 3,250 x
teremos
0,06 10
= 4,44 Kg
I = 4,38 + 3,250 x
0,06 10
= 4,32 Kg
Podemos ento, com 99% de confiana, afirmar que o peso mdio dos sacos se situa entre 4,44 Kg e 4,32 Kg.
( n 1) s 2
s2
tem uma distribuio qui-quadrado com (n-1) graus de liberdade. Ao contrrio das distribuies normal e t-Student, a distribuio qui-quadrado no simtrica. Como tal, se pretendermos, por exemplo, determinar um intervalo de confiana para 2 a 95%, a partir de uma amostra de 10 elementos, teremos de procurar nas tabelas, separadamente,
2 c0 ,025 ; 9 = 19 ,023
2 c0 ,975 ; 9 = 2,700
M.C.04
Ut.04
Estatstica Aplicada
IV . 18
IEFP ISQ
Amostragem
2 c0 ,975
2 c0 ,025
Teremos ento, para uma amostra com n = 10 elementos e um nvel de confiana de 95%,
I=
ou seja,
s2 x 9 2 c0 ,025 ; 9
S=
s2 x 9 2 c0 ,975 ; 9
s2 x 9 s2 x 9 P 2 s2 S= 2 c c 0,975 ; 9 0 ,025 ; 9
= 95%
e, generalizando,
s2 x 9 s 2 x (n 1) s2 S= 2 P 2 c (1 a ); (n 1) c (a ); (n 1) 2 2
= 1 a
(IV.16)
Exemplo IV.5
Mediram-se os dimetros de 8 peas, tendo-se obtido os seguintes resultados: 7,9 7,8 8 8,1 8,2 7,9 7,7 8,3 (mm)
Determine o intervalo de confiana a 95% para a varincia da populao da qual estas peas foram extradas.
Ut.04 M.C.04
Estatstica Aplicada
IV . 19
IEFP ISQ
Amostragem
x=
1 n
x i = 7,99
s2 =
i =1
1 ( x i x )2 = 0,041 n 1 n =1
Ento,
S=
I=
0,018 s 2 0,170
Vimos que, para valores suficientemente grandes de n, n 30, a distribuio de propores pode ser aproximada por uma normal. Isto , a varivel
Z=
Pp pq n
seguir uma normal-padro. Assim, se pretendemos determinar um intervalo de confiana a 95% para determinada proporo numa populao, p, a partir de uma proporo amostral,
P, teremos
S = P + Z 0 ,975 p ( 1 p) = P + 1,96 n p ( 1 p) = P + Z 0 ,975 n p (1 p ) n p (1 p ) = P 1,96 n p (1 p ) n
I = P + Z 0 ,025
Ut.04 M.C.04
Estatstica Aplicada
IV . 20
IEFP ISQ
Amostragem
Generalizando, obteremos o seguinte intervalo a 100(1-)% para a proporo, p, de um dado acontecimento numa populao:
p (1 p ) p P + Z( 1 a ) P P Z( 1 a 2 2 n
p (1 p ) =1a n
(IV.17)
Exemplo IV.6
Numa amostra aleatria de 300 atletas, 60 afirmaram que se dopavam. Determine um intervalo de confiana a 95% para a proporo de atletas que recorrem ao doping. A proporo amostral ser
P =
60 = 0,2 300
S = 0,2 + 1,96
I = 0,2 1,96
Podemos, como tal, afirmar com 95% de confiana que se doparo entre 15,5% e 24,5% dos atletas.
M.C.04
Ut.04
Estatstica Aplicada
IV . 21
IEFP ISQ
Amostragem
RESUMO
O primeiro conceito de grande importncia introduzido nesta unidade temtica foi o de que o conhecimento de uma populao faz-se, habitualmente, a partir de amostras representativas dela retiradas, tendo definido amostras representativas como aquelas nas quais todos os elementos da populao tm igual probabilidade de figurar. Apresentmos o conceito de estatstica amostral como sendo qualquer valor que se calcule nas amostras, tendo como objectivo a estimao de parmetros da populao. Assim, se de uma dada populao se extrarem todas as amostras possveis de tamanho n, calculando-se em cada uma delas a mesma estatstica (mdia, varincia, etc.), obtm-se um conjunto de valores que definem eles prprios uma distribuio, a distribuio amostral da estatstica. Tendo j clara a noo de distribuio amostral, pudemos abordar as questes relativas estimao de parmetros da populao. Referimos que a estimao pode ser de dois tipos: pontual ou intervalar. Falamos da estimao pontual quando se pretende obter uma valor numrico para determinado parmetro. Dizemos que determinada estatstica amostral proporciona uma estimativa no-tendenciosa do valor de determinado parmetro se a mdia da sua distribuio coincidir com o valor do parmetro populacional. Recordemos, ento, que x , s 2 e P proporcionavam estimativas no-tendenciosas da mdia, varincia, e proporo de determinado acontecimento numa populao, uma vez que
mx = m
m s2 = s 2
mP = p
Falamos de estimao intervalar quando o objectivo construir um intervalo que tenha determinada probabilidade de conter o verdadeiro valor do parmetro. Neste sentido, foi abordada a questo da estimao intervalar para mdias, varincias e propores. Referimos que, ao lidar com grandes amostras ou em situaes de desvio-padro conhecido, legtimo utilizar a distribuio normal na estimao de intervalos de confiana para a mdia. Foi, tambm, utilizada a distribuio t-Student nas situaes correspondentes utilizao de pequenas amostras provenientes de populaes normais com desvio-padro conhecido. Terminmos a unidade temtica abordando o estabelecimento de intervalos de confiana para varincias e propores mediante, respectivamente, as distribuies qui-quadrado e normal.
Ut.04 M.C.04
Estatstica Aplicada
IV . 22
IEFP ISQ
Amostragem
ACTIVIDADES / AVALIAO
I. O peso de determinadas embalagens segue uma distribuio normal de mdia = 99 g e desvio-padro = 2 g. a) Seleccionando uma amostra aleatria de 16 embalagens, qual a probabilidade de o peso mdio nesta amostra ser superior a 100 g? b) Qual a probabilidade de uma embalagem seleccionada ao acaso pesar menos de 98,5 g? c) Determine valores a e b tais que a probabilidade de a mdia de uma amostra de 100 embalagens se encontrar entre eles seja de 95%.
II. Determinada caracterstica apresenta-se numa populao com mdia de 68 e desvio-padro 3. Extraindo-se da populao 80 amostras com 25 elementos cada, em quantas podemos esperar que a mdia seja inferior a 66,4?
III. Uma populao constituda por 500 sacos apresenta um peso mdio de 5,02 Kg com = 0,30 Kg. Extraindo uma amostra de 100 sacos desta populao, qual a probabilidade de que o seu peso mdio esteja entre 4,96 e 5,0 Kg ?
IV. De uma mquina automtica de caf extraiu-se uma amostra constituda pelo enchimento de 50 chvenas. O contedo mdio observado nestas 50 chvenas foi de 5 cl com um desvio-padro de 0,5 cl. Construa um intervalo de confiana a 95% para o contedo mdio das chvenas provenientes da referida mquina.
V. Pretende-se estudar a idade mdia de cada equipa olmpica. Extraindo-se uma amostra de 25 atletas, obtiveram-se os seguintes resultados:
x = 16 anos
s = 1,8 anos
Estatstica Aplicada
IV . 23
IEFP ISQ
Amostragem
VI. Mediu-se o dimetro de 5 peas sadas de determinada mquina, tendo-se obtido os seguintes resultados (em mm). 21 19 23 19 23
VII. Uma grande empresa tem cerca de 7 000 funcionrios. Extraindo-se uma amostra aleatria de 400 funcionrios, encontram-se 80 com um vencimento superior a 200 contos por ms. Estabelea um intervalo de confiana a 95% para o nmero de trabalhadores da empresa com um vencimento superior a 200 contos/ms.
VIII.Ensaiando-se 10 elementos, obteve-se, relativamente a determinada caracterstica, um desvio-padro amostral s = 0,576. Determine um intervalo de confiana a 95% para a varincia da populao.
IX. Sabe-se que a populao constituda pelos pesos de sacos de adubo provenientes de determinada linha de ensacamento normalmente distribuda. Extraindo-se, aleatoriamente, 16 sacos, obtiveram-se os seguintes pesos: 48,89 48,00 51,76 52,07 49,96 50,75 49,29 49,20 49,86 51,66 48,10 51,57 52,16 47,90 49,72 46,94
X.
Numa amostra constituda por 80 peas encontraram-se 15 defeituosas. Estabelea um intervalo de confiana a 95% para a proporo das peas defeituosas produzidas.
XI. De uma populao extraiu-se uma amostra de dimenso elevada (n 30). Na referida amostra, encontrou-se uma mdia de 160 e um desvio-padro de 10. Determine a dimenso da amostra extrada, sabendo que a amplitude do intervalo de confiana a 90% para a mdia menor ou igual a 5.
Ut.04 M.C.04
Estatstica Aplicada
IV . 24
IEFP ISQ
Testes de Hipteses
M.C.04 Ut.01
IEFP ISQ
Testes de Hipteses
OBJECTIVOS
Caracterizar o processo de formulao de hipteses estatsticas Identificar os erros tipo I e II Distinguir entre testes unilaterais e bilaterais Testar hipteses relativamente a mdias, varincias e propores Utilizar o teste qui-quadrado para ajustamento de distribuies
TEMAS
Ut.05
Erros tipo I e II Testes de hipteses para a mdia Testes de hipteses para propores Testes de hipteses para a varincia Teste qui-quadrado para ajustamento de distribuies Resumo Actividades / Avaliao
M.C.04
V . 1
IEFP ISQ
Testes de Hipteses
Pudemos observar, na unidade temtica anterior, vrias formas de, a partir de dados amostrais, se inferirem determinadas concluses relativamente populao de origem. Frequentemente, torna-se necessrio tomar decises relativamente a uma populao com base em resultados obtidos em amostras dela retiradas. O processo atravs do qual essas decises so tomadas consiste, habitualmente, na formulao de hipteses relativamente a caractersticas da populao que sero ou no rejeitadas pela evidncia amostral. A presente unidade temtica vai incidir precisamente sobre a metodologia dos ensaios de hipteses. Mais concretamente, a nossa ateno incidir sobre ensaios de hipteses dirigidos a parmetros da populao e, ainda, a ensaios que nos permitam estudar quo bem um determinado conjunto de dados experimentais se ajusta a uma distribuio terica. Como se compreende, a tomada de deciso com base em dados estatsticos envolve sempre alguma possibilidade de erro. Teremos, portanto, oportunidade de reflectir um pouco sobre os tipos de erro associados aos ensaios de hipteses.
ERROS TIPO I E II
Admitamos que se pretende estudar se a mdia de determinada populao permanece igual a um certo valor, a, ou se ter ocorrido alterao. Teremos, ento, de formular o que designamos por hiptese nula, H0, admitindo que no ocorreu alterao, e confront-la com uma hiptese alternativa, H1, que dela difira. A deciso de aceitar ou rejeitar a hiptese nula tomada com base em resultados obtidos a partir de amostras extradas da populao em causa. Torna-se evidente que existe, sempre, alguma possibilidade de erro na deciso. Designamos por erro tipo I o que corresponde rejeio de uma hiptese que deveria ter sido aceite e por erro tipo II o que corresponde aceitao de uma hiptese que deveria ser rejeitada. A probabilidade mxima de se cometer um erro tipo I , habitualmente, fixada antes do teste e designa-se por nvel de significncia (). Os valores mais frequentemente utilizados para o nvel de significncia so 1%, 5% e 10%. Significa isto que a probabilidade de se rejeitar erradamente a hiptese nula relativamente baixa. Ou, por outras palavras, quando rejeitamos a hiptese nula estamos quase certos de que ela , efectivamente, falsa. Ao invs, quando aceitamos H0, a concluso a retirar no deve ser a de que H0 verdadeira mas antes a de que nada nos indica que seja falsa. Por este motivo, frequente colocar-se em hiptese alternativa o que se pretende efectivamente provar.
Erros tipo I e II
M.C.04
Ut.05
Estatstica Aplicada
V . 2
IEFP ISQ
Testes de Hipteses
Veremos, mais adiante, como calcular a probabilidade de se cometer um erro tipo II.
Z=
x n
(V.1)
segue uma normal-padro, ou dela se aproxima assimptoticamente (se necessrio, para n 30, usa-se s como estimativa de ). Admitamos que se pretendia, para a = 5%, decidir em relao s seguintes hipteses: H0:=b H1:b ou seja, pretendemos testar se existe evidncia para se rejeitar que a mdia da populao igual a um dado valor, b. Como vimos,
95%
-1,96
1,96
A hiptese H0 no seria, ento, rejeitada se, para uma amostra aleatria de n elementos,
- 1,96 x-b s n 1,96
M.C.04
Ut.05
Estatstica Aplicada
V . 3
IEFP ISQ
Testes de Hipteses
Nesta situao, em que se testa a hiptese nula, de igualdade a um dado valor, contra uma hiptese alternativa, de diferena em relao a esse valor, estamos interessados em ambos os lados da distribuio. Ou seja, a validade da hiptese alternativa verifica-se quer para valores de m superiores a b, quer para valores de m inferiores a b. Dizemos, ento, que estamos perante um teste bilateral. Admitamos, por outro lado, que se pretendia estudar se a mdia teria um valor significativamente superior a b. Teramos ento H0:=b H1:>b
95%
1,645
Figura V.2 - Valor de z esquerda do qual se encontra 95% da populao
> 1,96
Neste teste, ao contrrio do anterior, a nossa ateno incidiu, apenas, sobre um dos lados da distribuio. Quando isto acontece dizemos que se trata de um teste unilateral. J referimos anteriormente dois tipos de erros que podem ser cometidos num ensaio de hipteses: o erro tipo I, que consiste em rejeitar a hiptese nula quando ela verdadeira, e o erro tipo II, que diz respeito aceitao da hiptese nula quando esta falsa. Como referimos, a probabilidade mxima de se cometer um erro tipo I dada pelo nvel de significncia, a. Vamos, atravs de um exemplo, analisar como pode ser calculada a probabilidade de se cometer um erro tipo II.
M.C.04 Ut.05
Estatstica Aplicada
V . 4
IEFP ISQ
Testes de Hipteses
Pretende-se testar se a mdia de determinada populao normal significativamente superior a 1 250. O desvio-padro da populao conhecido e igual a 150. Para um nvel de significncia de 5% e extraindo-se uma amostra de 25 elementos, qual a probabilidade de se cometer um erro tipo II se a verdadeira mdia de populao for 1= 1 320? Haver ento que testar H 0 : = 1 250 H 1 : > 1 250 sendo a varivel a utilizar
Z=
Para = 5% teremos
x-m s n
Rejeitar H0
x > 1 299,3
Ut.05 M.C.04
Estatstica Aplicada
V . 5
IEFP ISQ
Testes de Hipteses
Ocorrer um erro tipo II se, apesar da verdadeira mdia da populao ser 1 320, a amostra de 25 elementos apresentar uma mdia x 1 299 ,3 .
P ( x 1 299,3 / m = 1 320
A figura seguinte ilustra tudo o que foi dito.
P(erro tipo I) =
1250
1299
1320
Ento,
M.C.04
Ut.05
Estatstica Aplicada
V . 6
IEFP ISQ
Testes de Hipteses
Como j referimos, frequente no ser conhecido o desvio-padro da populao. Vimos que, se assim for mas dispusermos de uma amostra com n > 30, permanece vlida toda a abordagem anterior, havendo, no entanto, que utilizar o desvio-padro amostral s em vez do desconhecido .
Varincia desconhecida
t=
x s n
(V.2)
Se, por outro lado, de uma populao normal com um desvio-padro desconhecido, dispusermos de uma amostra com n 30, o teste de hipteses dever fazer-se utilizando a varivel que j vimos ter uma distribuio t-Student com (n-1) graus de liberdade. Assim, se pretendermos estudar as hipteses H0:=a H1:a para um nvel de significncia de 10%, a partir de uma amostra de 10 elementos, teremos (a partir da tabela t-Student)
t 0 ,95 ; 9 = 1,833
t 0 ,05 ; 9 = 1,833
Ento, a hiptese nula no dever ser rejeitada se, calculando de 10 elementos, se obtiver
x e s na amostra
1,833
x a 1,833 s 10
Exemplo V.1
As consideraes que anteriormente fizemos relativamente realizao de uma teste unilateral ou bilateral tm aqui, naturalmente, idntica interpretao. O dimetro de determinada pea deve ser de 35 mm. Medindo-se 8 peas, obtiveram-se os seguintes resultados: 31 29 26 33 40 28 30 35
Para um nvel de significncia a 1%, ser de aceitar que a especificao est a ser cumprida? Como se compreende, ao falarmos do dimetro de determinada pea, estamos a referir-nos a uma caracterstica que deve ter um valor exacto, no ultrapassando
Ut.05 M.C.04
Estatstica Aplicada
V . 7
IEFP ISQ
Testes de Hipteses
nem ficando aqum do valor especificado. Devemos, portanto, utilizar um teste bilateral. Teremos, assim, H 0 : = 35 H 1 : 35 O clculo da mdia e do desvio-padro na amostra de 8 elementos conduz-nos aos resultados
x = 31,5
Obtm-se, ento,
s = 4,44
t=
x m s n
t 0,995 ; 7 = 3,499
Ento, atendendo a que
2,23
t 0 ,005 ; 7 = 3,499
[3,499; 3,499 ]
podemos afirmar que no existe evidncia para ser rejeitada a hiptese nula.
Dissemos anteriormente que, para valores suficientemente grandes de n (n 30), a distribuio de propores poderia ser aproximada por uma normal. Ou seja, que a varivel
Z=
Pp pq n
(V.3)
seguiria uma normal-padro. , ento, desta varivel que nos vamos servir para testar hipteses relativamente ao valor da proporo de um dado acontecimento na populao. Admitamos que se pretendiam estudar as hipteses H 0 : p = p0 H 1 : p p0 com um nvel de significncia de 95%.
M.C.04
Ut.05
Estatstica Aplicada
V . 8
IEFP ISQ
Testes de Hipteses
-1,96
1,96
p 0 (1 p 0 )
sendo P, como vimos, a proporo em que o acontecimento ocorre numa amostra de n elementos (n 30) extrados da populao em estudo.
Exemplo V.2
convico dos responsveis de uma estao televisiva que igual a proporo de homens e mulheres que assistem a determinado programa. De 400 pessoas que assistem ao programa, constatou-se que 220 eram homens. Usando um nvel de significncia de 10%, podemos concluir que errada a convico dos responsveis? Haver, ento, que testar as hipteses H0 : p = 0,50 H1 : p 0,50 considerando o nvel de significncia de 10%.
M.C.04
Ut.05
Estatstica Aplicada
V . 9
IEFP ISQ
Testes de Hipteses
90%
1,645
Teremos, ento,
Z=
=2
Como 2 [ 1645 , ; 1645 , ], podemos concluir que existe evidncia para se rejeitar a hiptese nula, no sendo iguais as propores de homens e mulheres que assistem ao programa.
( n 1) s 2
s2
(V.4)
segue uma distribuio qui-quadrado com (n-1) graus de liberdade. Ao pretendermos testar hipteses relativamente varincia de uma populao, vamos, ento, servir-nos da varivel anterior. Dispondo, por exemplo, das seguintes hipteses: H0 : 2 = a H1 : 2 a teremos, para um nvel de significncia de 5% e uma amostra de 10 elementos (no esquecer a assimetria da distribuio qui-quadrado),
M.C.04
Ut.05
Estatstica Aplicada
V . 10
IEFP ISQ
Testes de Hipteses
2 0,975;9 = 2,700
2 0,025;9 = 19,023
95%
2 0,975
2 0,025
Ento, calculando na amostra a varincia s2, diremos que a hiptese nula no deve ser rejeitada se 9 s2 2,700 19,023 a
Exemplo V.3
Um fabricante de baterias pensa que o desvio-padro de vida do seu produto um ano. Os dados relativos a 5 baterias indicam 1,9 2,4 3,0 3,5 4,2
Teste a validade da suposio do fabricante (a = 5%). Haver, ento, que estudar as hipteses H0 : 2 = 1 H1 : 2 1 O clculo da varincia amostral conduz-nos a
s 2 = 0,815
O nmero de graus de liberdade envolvidos n-1 = 4. Resultando
2 0,975;4 = 0,484
teremos, para a varivel calculada,
Ut.05
2 , 0,025;4 = 11143
M.C.04
Estatstica Aplicada
V . 11
IEFP ISQ
Testes de Hipteses
( n 1) s 2
s
2
4 x 0,815 = 3,26 1
Uma vez que 3,26 [0,484; 11,143 ] , devemos concluir que no existe evidncia de que a hiptese nula deve ser rejeitada.
Como se compreende, somos muitas vezes colocados perante situaes em que, embora suspeitemos de que a populao em estudo tem uma determinada distribuio, no a conhecemos de facto. Existem formas de, partindo de valores amostrais, estudar quo bem a distribuio terica se ajusta a estes valores. Vamos, nesta seco, abordar uma forma de o fazermos, conhecida como teste do qui-quadrado. A ideia global consiste na comparao da frequncia absoluta, relativa aos dados amostrais, que se observa numa determinada classe, com a frequncia absoluta que ocorreria nessa classe, para o mesmo nmero de observaes, se a populao tivesse a distribuio terica que supomos. A varivel a utilizar ser
2 cc =
( Oi E i ) 2 Ei i =1
K
(V.5)
em que Oi - ocorrncia observada na classe i Ei - ocorrncia esperada na classe i k - nmero de classes A varivel anterior aproxima-se de uma distribuio qui-quadrado com um nmero de graus de liberdade graus de liberdade = k-1-r em que r o nmero de parmetros cuja estimao necessria. As ocorrncias esperadas so calculadas com base na distribuio em estudo como hiptese nula. Reparemos que, se houver uma total coincidncia entre os dados amostrais e as ocorrncias esperadas, o valor do somatrio ser igual a zero. Por outro lado, quanto mais os valores amostrais estiverem afastados dos valores esperados, maior ser o valor do somatrio. Daqui resulta que o teste qui-quadrado um teste unilateral direita. Ou seja, se o valor da varivel
Ut.05 M.C.04
Estatstica Aplicada
V . 12
IEFP ISQ
Testes de Hipteses
k ( Oi Ei ) 2 = Ei i=1
2 c
for to elevado que cai na zona de rejeio, seremos levados a concluir que, para o nvel de significncia em causa, a suposio expressa na hiptese nula no admissvel.
Para que o teste qui-quadrado seja vlido, no deveremos ter em nenhuma classe uma ocorrncia esperada inferior a 5. Por outro lado, no foroso que todas as classes utilizadas tenham a mesma amplitude. Assim, uma classe com ocorrncia esperada inferior a 5 pode ser associada com uma classe contgua, somando-se as ocorrncias esperadas com esperadas e observadas com observadas e obtendo-se uma nica classe de maior amplitude. Apresentados os conceitos gerais, abordaremos um conjunto de exemplos que tornam clara a utilizao do teste qui-quadrado.
Exemplo V.4
Admitamos que se pretendia estudar se haveria suficiente evidncia para se rejeitar que determinada moeda estava equilibrada. Lanando-se 100 vezes a moeda, obtiveram-se 41 caras e 59 coroas. Teramos H0 : P (cara) = P (coroa) = 0,5 H1 : P (cara) P (coroa) Sendo vlida a hiptese nula, teramos uma ocorrncia esperada, de caras e coroas, igual a 50. Ento,
Oi Cara Coroa 41 59
Ei 50 50
M.C.04
Ut.05
Estatstica Aplicada
V . 13
IEFP ISQ
Testes de Hipteses
2 cc =
( 41 50 ) 2 ( 59 50 ) 2 + = 3,24 50 50
O nmero de graus de liberdade envolvidos g.l.= k-1-r = 2-1-0 = 1 Para um nvel de significncia de 10%,
2 c0 ,10 ;1 = 2,706
Como 3,24 > 2,706, rejeitamos a hiptese de equilbrio da moeda. Note-se, no entanto, que, se o nvel de significncia baixasse para 5%, H0 j no seria rejeitada. Como vimos, o nvel de significncia representa a probabilidade mxima de se rejeitar a hiptese nula quando ela verdadeira. Logo, baixando o nvel de significncia, seremos mais permissivos na aceitao
M.C.04
Ut.05
Estatstica Aplicada
V . 14
IEFP ISQ
Testes de Hipteses
Registou-se o nmero de azulejos que apresentavam 0 defeitos, 1 defeito, etc. Veja-se o quadro seguinte:
Defeitos
n de azulejos
109
65
22
Verifique se o nmero de defeitos por azulejo pode ser aproximado por uma distribuio de Poisson. Teremos, ento, as hipteses
H0 : x segue distribuio de Poisson H1 : x no segue distribuio de Poisson Haver que estimar o parmetro , nmero mdio de defeitos por azulejo:
l= 0 x 109 + 1 65 + ... + 4 x 1 122 = = 0,61 ( 109 + 65 + ... + 1) 200
P (X = r) =
lr e l r!
poderamos facilmente calcular as ocorrncias esperadas. x=0 Ocorrncia esperada = 200 x x =1 Ocorrncia esperada = 200 x x=2 Ocorrncia esperada = 200 x x=3 Ocorrncia esperada = 200 x
Ut.05
0,610 e 0,61 = 108,7 0! 0,611 e 0,61 = 66,3 1! 0,612 e 0,61 = 20,2 ,2 2! 0,613 e 0,61 = 4,1 3!
M.C.04
Estatstica Aplicada
V . 15
IEFP ISQ
Testes de Hipteses
x=4
4 0 ,61 Ocorrncia esperada = 200 x 0,61 e = 0,7 4!
109 109 0
66 65 1
20 22 2
4 3 3
1 1 4
Para assegurar a condio Ei 5, as duas ltimas classes teriam de ser agrupadas, resultando
Ei Oi
109 109
66 65
20 22
5 4
Ento,
2 cc =
(Oi E i ) 2 = 0,415 Ei i =1
k
O nmero de graus de liberdade ser g.l.= k-1-r = 4-1-1 = 2 (recorde que estimmos um parmetro)
No existe, portanto, qualquer evidncia para se rejeitar a hiptese nula. Pelo contrrio, os dados amostrais parecem ajustar-se muito bem a uma distribuio de Poisson com = 0,61.
M.C.04
Ut.05
Estatstica Aplicada
V . 16
IEFP ISQ
Testes de Hipteses
RESUMO
Vimos, na presente unidade temtica, os processos atravs dos quais se formulam hipteses relativamente a caractersticas de uma dada populao e os processos de aceitao/rejeio das hipteses formuladas. Tendo conscincia de que a tomada de deciso com base em dados estatsticos envolve sempre alguma possibilidade de erro, designmos por erro tipo I o que corresponde rejeio de uma hiptese que deveria ter sido aceite e por erro tipo II o que corresponde aceitao de uma hiptese que deveria ser rejeitada. Foi feita a distino entre teste bilateral, no qual estamos interessados em ambos os lados de uma distribuio, e teste unilateral, quando a nossa ateno incide, apenas, num dos lados da distribuio. Abordmos testes dirigidos a parmetros da populao, mais concretamente mdia, varincia e proporo, e, ainda, o teste qui-quadrado para verificar o ajustamento de uma dada distribuio terica a um conjunto de dados amostrais.
M.C.04
Ut.05
Estatstica Aplicada
V . 17
IEFP ISQ
Testes de Hipteses
ACTIVIDADES / AVALIAO
I. Um fabricante de lmpadas alega que o seu produto, aps um alterao no processo, tem agora uma durao mdia superior anterior, que era de 800 horas. Ensaiando-se 36 lmpadas obtiveram-se
x = 816
s = 70
II. Pretende-se estudar a resistncia de determinados componentes para automveis. Ensaiando-se uma amostra de 49 elementos, obteve-se uma resistncia mdia de 87,3 Kg com uma varincia s2 = 162. Para um nvel de significncia de 1%, teste a hiptese nula, a de que a mdia da populao de 95 Kg, contra a hiptese alternativa, a de que menor.
III. Pensa-se que a proporo de peas defeituosas provenientes de determinado processo de 10%. Numa amostra aleatria de 200 peas encontraram-se 15 defeituosas. Para um nvel de significncia de 1%, ser de aceitar que a proporo de peas defeituosas se encontra ao nvel referido?
IV. Numa grande priso, os responsveis acreditam que no mais do que 40% dos reclusos padecem de determinada doena. Uma amostra de 64 detidos revelou 40 como afectados. Estaro estes dados em contradio com a convico dos responsveis (nvel de significncia de 5%)?
V. Num determinado processo, a varincia mxima admissvel de 0,0150. Uma amostra de 25 elementos apresenta uma varincia de 0,0384. Haver suficiente evidncia, tendo em vista um nvel de significncia de 1%, para se concluir que a varincia mxima admissvel est a ser excedida?
VI. Uma empresa administrativa pretende estudar a perfeio do trabalho de 4 dactilgrafas. Entregando o mesmo documento a cada uma delas, obtiveram-se os seguintes resultados: Dactilgrafa Erros cometidos
Ut.05
1 10
2 25
3 0
4 5
M.C.04
Estatstica Aplicada
V . 18
IEFP ISQ
Testes de Hipteses
Verifique se, para um nvel de significncia de 5%, haver razes para se concluir que as dactilgrafas no trabalham todas da mesma maneira.
VII. Num determinado troo de estrada, com velocidade controlada, pretende-se estudar a distribuio das velocidades dos automveis. O registo da passagem de 680 viaturas forneceu os seguintes resultados:
[63-65[ 15
[65-67[ 26
[67-69[ 151
[69-71[ 293
[71-73[ 167
[73-75[ 17
[75-77[ 11
Teste a hiptese de normalidade relativamente distribuio de velocidades, para um nvel de significncia de 5%.
M.C.04
Ut.05
Estatstica Aplicada
V . 19
IEFP ISQ
Correlao e Regresso
M.C.04 Ut.01
IEFP ISQ
OBJECTIVOS
Construir um diagrama de disperso fazendo a sua interpretao Calcular o coeficiente de correlao linear Determinar a equao de regresso Utilizar os princpios de regresso linear nas funes potncia e exponencial
TEMAS
M.C.04
Ut.06
VI . 1
IEFP ISQ
frequente, quando lidamos com variveis aleatrias, pretendermos estudar se existe alguma relao entre elas. Pensemos, por exemplo, nas relaes que existiro entre o comprimento de uma vareta metlica e a temperatura a que est submetida, entre alturas de pais e filhos, etc. Havendo relao entre variveis, ela poder ser mais ou menos intensa. Veremos, na presente unidade temtica, como poder ser medido este grau de relao. Vamos, tambm, estudar alguns casos em que se torna possvel, com alguma simplicidade, construir equaes que nos permitiro estimar uma das variveis em funo da outra.
Pretendendo fazer um estudo de correlao, o nosso primeiro passo consistir na representao grfica dos dados disponveis. Vamos, utilizando um exemplo, analisar o procedimento a seguir. Admitamos que se recolheram dados relativos a 10 indivduos, com o objectivo de ser estudada a eventual relao entre o rendimento destes e o valor do carro que possuem. Vejamos a tabela seguinte: O primeiro passo consistir na representao, num sistema de eixos cartesianos, dos vrios pares ordenados: (x1, y1), (x2, y2), etc.
Indivduo Rendimento ( x) Valor do Automvel ( y)
$
1 2 3 4 5 6 7 8 9 10
Ut.06
10 15 12 70 80 100 20 30 10 60
6 9 7 22 22 32 10 10 5 17
M.C.04
Estatstica Aplicada
VI . 2
IEFP ISQ
Obteremos ento,
Y 25
20
15
10
0 0 10 20 30 40 50 60 70 80 90 100
X
Figura VI.1 - Diagrama de disperso
A um diagrama como este que acabmos de construir chamaremos diagrama de disperso. Atravs da anlise de um diagrama de disperso podem retirar-se informaes preciosas. Devemos, antes de mais, analisar se existem, ou no, indicaes de relao entre as variveis. Vejamos o diagrama de disperso seguidamente apresentado (Fig. VI.2). Diagrama de disperso
Y 10
9 8 7 6 5 4 3 2 1 0 0 5 10 15 20 25 30 35 40
M.C.04
Ut.06
Um diagrama deste tipo, em que se obtm uma nuvem de pontos, leva-nos a concluir que o sentido de variao de cada uma das variveis nada a tem a ver com o da outra. Ou seja, permite-nos dizer que no existe, provavelmente, qualquer relao entre elas. Vejamos agora outras trs figuras representando hipotticos diagramas de disperso.
Estatstica Aplicada
VI . 3
IEFP ISQ
(a) y y
(b) y
(c)
x
Figura VI.3 - Diagramas de disperso
Qualquer uma das figuras parece indicar a existncia de relao entre as variveis. Nos diagramas (a) e (c), vemos que x e y manifestam tendncia para variar no mesmo sentido, isto , o aumento na varivel x acompanhado de aumento na varivel y. No diagrama (b), por outro lado, aparente uma relao inversa, ou seja, o aumento da varivel x acompanhado de decrscimo na varivel y. Reparemos ainda que, nos primeiros dois diagramas, a relao, directa ou inversa, parece ser linear, isto , ser possvel utilizar a equao de uma linha recta para descrever a relao entre as variveis. Teremos, mais adiante, ocasio de abordar a forma atravs da qual se pode chegar equao desta recta. J no diagrama (c), estamos claramente perante uma relao no-linear. Torna-se, por vezes, possvel tratar os dados por forma a serem trabalhadas como lineares relaes que o no so. Abordaremos, mais tarde, alguns destes casos. Convm, no entanto, ficarmos desde j com a noo de que uma anlise cuidadosa do diagrama de disperso fornece indicaes preciosas no que diz respeito ao tipo de relao existente entre as variveis.
Coeficiente de correlao
Voltemos aos dados apresentados no incio desta unidade temtica, relacionando o rendimento de indivduos com o valor do carro que possuem.
M.C.04
Ut.06
Estatstica Aplicada
VI . 4
IEFP ISQ
In d iv d u o
Ren d im en t o ( x)
Valo r d o Au t o m v el ( y)
$
1 2 3 4 5 6 7 8 9 10 10 15 12 70 80 100 20 30 10 60 6 9 7 22 22 32 10 10 5 17
r xy =
( x) . ( y ) x y n ( x ) ( y ) x y n n
2 2 2
(VI.1)
r xy =
( x x ) ( y y ) ( x x ) ( y y )
2
(VI.2)
Os resultados obtidos so, naturalmente, idnticos, independentemente da frmula utilizada. Calculemos, ento, o coeficiente de correlao dos dados apresentados.
M.C.04
Ut.06
Estatstica Aplicada
VI . 5
IEFP ISQ
Rendimento ( x)
Valor do Automvel ( y)
x2
y2
xy
$
10 15 12 70 80 100 20 30 10 60
6 9 7 22 22 32 10 10 5 17 TOTAIS
100 225 144 4 900 6 400 10 000 400 900 100 3 600
407
140
26 769
2 672
8 349
Resultando
8 349 407 x 140 10
r xy =
= 0,9835
1 r xy 1
Valores do coeficiente de correlao prximos de -1 ou 1 significam a existncia de uma forte relao linear entre as variveis em causa. O primeiro caso revela uma forte relao inversa enquanto que o segundo revela que a relao directa. No limite, se r = -1 ou r = 1, a relao linear perfeita e os pontos no diagrama de disperso correspondente estaro dispostos sobre uma linha recta. Vejamos:
M.C.04
Ut.06
Estatstica Aplicada
VI . 6
IEFP ISQ
Por outro lado, o coeficiente de correlao prximo de 0 revelador da inexistncia de uma relao linear entre as variveis em causa. Deve referir-se que, ao contrrio do que por vezes se pensa, a obteno de um coeficiente de correlao linear prximo de 0 no significa, necessariamente, que no exista relao entre as variveis mas, to s, que, a existir relao, ela no de natureza linear.
Estatstica Aplicada
VI . 7
IEFP ISQ
x
Figura VI.5 - Diagrama de disperso
O diagrama sugere, claramente, a existncia de uma relao linear entre x e y. Coloca-se, agora, a questo de escolher, entre as vrias rectas que se podem ajustar aos dados, aquela que representa, de facto, o melhor ajustamento. Para qualquer recta que seja traada haver um conjunto de pontos que dela esto afastados. Consideremos a soma dos quadrados das distncias, em relao recta, de todos estes pontos. A recta que melhor se ajusta a um determinado conjunto de pontos aquela para a qual mnima a soma dos quadrados das distncias dos pontos a ela prpria. por este motivo que tal recta se designa, frequentemente, como recta de mnimos quadrados. Veremos, em seguida, como podemos determinar a equao desta recta. Se entre y (varivel dependente) e x (varivel independente) existir uma relao linear, haver, ento, que determinar a equao que define esta relao. Recordando a equao de uma recta, y = a + bx vemos que a questo que se coloca a da determinao de:
xy n b= ( x) x
x.
2 2
y
(VI.3)
y = a + bx
tornando-se fcil a sua determinao aps a de b. Teremos, simplesmente,
a = y bx
Ut.06 M.C.04
Estatstica Aplicada
VI . 8
IEFP ISQ
Num determinado plano diettico, pretende-se estudar a relao entre o peso perdido desde o incio do tratamento e o nmero de semanas decorridas desde o referido incio. Em relao a cinco indivduos, obtiveram-se os seguintes resultados:
Sem an as d e d iet a (x ) 3 2 1 4 5 Qu ilo s p er d id o s (y ) 6 5 4 9 11
Determine o coeficiente de correlao e a recta de mnimos quadrados que relaciona estas variveis.
x
3 2 1 4 5
y 6 5 4 9 11
x2 9 4 1 16 25 TOTAIS
y2 36 25 16 81 121
xy xy 18 10 4 36 55
15
Resultando
35
55
279
123
r xy =
123
15 x 35 5
2 2 55 15 279 35 5 5
= 0,976
o que indica forte relao linear entre as variveis. Relativamente ao declive da recta de regresso, teremos
123 15 x 35 5 = 1,8 15 2 55 5
b=
Ut.06 M.C.04
Estatstica Aplicada
VI . 9
IEFP ISQ
Atendendo a que x =
x = 15 = 3
n
5
y =
y = 35 = 7 , resultar
n
5
a = y bx = 7 1,8 x 3 = 1,6
Podemos ver, na figura seguinte, o diagrama de disperso e a recta de regresso determinados.
M.C.04
Ut.06
Estatstica Aplicada
VI . 10
IEFP ISQ
Ao quadrado do coeficiente de correlao, r 2, chama-se, habitualmente coeficiente de determinao. O coeficiente de determinao uma medida da qualidade do ajustamento da recta de regresso. Na realidade, r 2 d-nos a percentagem da variao total que explicada pela recta de regresso. Assim, se pensarmos no ltimo exemplo apresentado, em que r = 0,976, isto significa que 95,2% (r 2 = 0,952) da variao na perda de peso explicada pelo nmero de semanas de dieta.
M.C.04
Ut.06
Estatstica Aplicada
VI . 11
IEFP ISQ
RESUMO
A presente unidade temtica foi dedicada ao estudo das relaes entre variveis aleatrias, tendo sido nosso objectivo encontrar formas de quantificar as eventuais relaes existentes. Vimos que a representao dos vrios pares ordenados (x,y) num referencial cartesiano dava origem ao que chammos diagrama de disperso, de cuja anlise se podem retirar importantes informaes relativas existncia e tipo de relao entre as variveis envolvidas. Foi referido que, perante um diagrama de disperso que sugira uma relao linear entre as variveis, haver que avaliar, em primeiro lugar, quo forte essa relao e, seguidamente, determinar a equao da curva que melhor se ajusta aos pontos representados. No sentido de se responder primeira parte desta questo, apresentou-se o conceito de coeficiente de correlao linear. Concluindo-se pela existncia de uma relao linear, vimos de que forma podem ser estimados os parmetros (ordenada na origem e declive) da recta que a descreve.
M.C.04
Ut.06
Estatstica Aplicada
VI . 12
IEFP ISQ
ACTIVIDADES / AVALIAO
I. Em relao a um determinado medicamento, pretende-se estudar a relao entre a quantidade ingerida e o nmero de horas que o medicamento leva a ser eliminado do organismo. Obtiveram-se os seguintes resultados:
Qu an t id ad e in g er id a (x ) 30 20 10 30 30
Determine o coeficiente de correlao entre as duas variveis. II. Pretende-se estudar a relao entre o tempo de permanncia num supermercado e o gasto efectuado. A partir das seguintes observaes, determine:
x y
Tempo Gasto
0,3 10
0,6 15
0,9 30
1,2 35
1,5 25
1,8 30
2,1 50
2,4 45
M.C.04
Ut.06
Estatstica Aplicada
VI . 13
IEFP ISQ
Anexo I
M.C.04 An.01
IEFP ISQ
Anexo I
0.00 0.5000 0.5398 0.5793 0.6179 0.6554 0.6915 0.7257 0.7580 0.7881 0.8159 0.8413 0.8643 0.8849 0.9032 0.9192 0.9332 0.9452 0.9554 0.9641 0.9713 0.9772 0.9821 0.9861 0.9893 0.9918 0.9938 0.9953 0.9965 0.9974 0.9981
0.01 0.5040 0.5438 0.5832 0.6217 0.6591 0.6950 0.7291 0.7611 0.7910 0.8186 0.8438 0.8665 0.8869 0.9049 0.9207 0.9345 0.9463 0.9564 0.9649 0.9719 0.9778 0.9826 0.9864 0.9896 0.9920 0.9940 0.9955 0.9966 0.9975 0.9982
0.02 0.5080 0.5478 0.5871 0.6255 0.6628 0.6985 0.7324 0.7642 0.7939 0.8212 0.8461 0.8686 0.8888 0.9066 0.9222 0.9357 0.9474 0.9573 0.9656 0.9726 0.9783 0.9830 0.9868 0.9898 0.9922 0.9941 0.9956 0.9967 0.9976 0.9982
0.03 0.5120 0.5517 0.5910 0.6293 0.6664 0.7019 0.7357 0.7673 0.7967 0.8238 0.8485 0.8708 0.8907 0.9082 0.9236 0.9370 0.9484 0.9582 0.9664 0.9732 0.9788 0.9834 0.9871 0.9901 0.9925 0.9943 0.9957 0.9968 0.9977 0.9983
0.04 0.5160 0.5557 0.5948 0.6331 0.6700 0.7054 0.7389 0.7704 0.7995 0.8264 0.8508 0.8729 0.8925 0.9099 0.9251 0.9382 0.9495 0.9591 0.9671 0.9738 0.9793 0.9838 0.9875 0.9904 0.9927 0.9945 0.9959 0.9969 0.9977 0.9984
0.05 0.5199 0.5596 0.5987 0.6368 0.6736 0.7088 0.7422 0.7734 0.8023 0.8289 0.8531 0.8749 0.8944 0.9115 0.9265 0.9394 0.9505 0.9599 0.9678 0.9744 0.9798 0.9842 0.9878 0.9906 0.9929 0.9946 0.9960 0.9970 0.9978 0.9984
0.06 0.5239 0.5636 0.6026 0.6406 0.6772 0.7123 0.7454 0.7764 0.8051 0.8315 0.8554 0.8770 0.8962 0.9131 0.9279 0.9406 0.9515 0.9608 0.9686 0.9750 0.9803 0.9846 0.9881 0.9909 0.9931 0.9948 0.9961 0.9971 0.9979 0.9985
0.07 0.5279 0.5675 0.6064 0.6443 0.6808 0.7157 0.7486 0.7794 0.8078 0.8340 0.8577 0.8790 0.8980 0.9147 0.9292 0.9418 0.9525 0.9616 0.9693 0.9756 0.9808 0.9850 0.9884 0.9911 0.9932 0.9949 0.9962 0.9972 0.9979 0.9985
0.08 0.5319 0.5714 0.6103 0.6480 0.6844 0.7190 0.7517 0.7823 0.8106 0.8365 0.8599 0.8810 0.8997 0.9162 0.9306 0.9429 0.9535 0.9625 0.9699 0.9761 0.9812 0.9854 0.9887 0.9913 0.9934 0.9951 0.9963 0.9973 0.9980 0.9986
0.09 0.5359 0.5753 0.6141 0.6517 0.6879 0.7224 0.7549 0.7852 0.8133 0.8389 0.8621 0.8830 0.9015 0.9177 0.9319 0.9441 0.9545 0.9633 0.9706 0.9767 0.9817 0.9857 0.9890 0.9916 0.9936 0.9952 0.9964 0.9974 0.9981 0.9986
M.C.04
A . 1
IEFP ISQ
Bibliografia
BIBLIOGRAFIA
LIPSCHUTZ, Seymour, Probabilidade Resumo da Teoria e Exerccios Resolvidos, Coleco Schaum, McGraw-Hill do Brasil, 1972 MEYER, Paul L., Probabilidade Aplicaes Estatstica, Livros Tcnicos e Cientficos Editora SA, 1980 MONTGOMERY, Douglas C., Introduction to Statistical Quality Control, John Wiley & Sons, 1991 NEVES, Maria Augusta, Maria Teresa Vieira, Alfredo Alves, 11. Ano Matemtica, Porto Editora, 1993 PEREIRA, Zulema L., Texto de Apoio Disciplina de Planeamento e Controlo da Qualidade, FCT/UNL, 1993 RAMALHETE, Paulo e Santos, Carlos G., Estatstica Aplicada, Associao Portuguesa de Bancos-ISGB, 1991
Research and Education Association: The Statistics Problem Solver, Research and Education Association, 1978
ROBALO, Antnio, Estatstica 2. Volume de Exerccios, Edies Slabo, 1987 SANTOS, Fernando Borja, Clculo das Probabilidades, Pltano Editora, 1981 SPIEGEL, Murray, Probabilidade e Estatstica, Coleco Schaum, Mc Graw-Hill do Brasil, 1978
M.C.04
An.02
B . 1