Histograma de acidentes industriais

Karla: 98898-8011
Universidade Federal da Bahia

Escola Politcnica
Disciplinas ENGD02 e ENGD83

Docente: Karla Patricia S Oliveira R Esquerre
LISTA DE EXERCCIOS UNIFICADA

ltima atualizao: 11/05/2016
ESTATSTICA DESCRITIVA
QUESTO ED1 OK
Para fins de vistoria ambiental, a concentrao de monxido de carbono (CO, mg/m3) foi medida em
quatro chamins. Os dados obtidos so apresentados a seguir,
Tabela 1 - Dados da concentrao (mg/m) de monxido de carbono (CO) medida em quatro chamins
Cham
1
Cham
2
Cham
3
Cham
4
40,5
41,6
4
41,5
58,3
6
42,5
42,2
9
43,5
57,7
1
44,5
42,9
3
45,5
57,0
7
46,5
43,5
7
47,5
56,4
3
48,5
44,2
1
49,5
55,7
9
50,5
44,8
6
51,5
55,1
4
52,5
53,5
55,5
53,8
6
59,5
54,5
54,5
46,1
4
45,5
35
37
42
53,9
53
50,6
50,5
53,8
52,5
53,6
50,4
52,2
52,7
52,4
52,7
51,4
53,8
44,5
45
45,5
46
46,5
47
47,5
48
48,5
49
49,5
50
50,5
51
51,5
52
52,5
46,79
Tabela 2 - Estatsticas descritivas

Varivel
Cham1
Cham2
Cham3
Cham4
Mdia
48,68
49,81
49,85
48,50
Desvio Padro
5,39
6,33
2,52
Mnimo
40,50
41,64
35,00
44,50
Q1
44,00
50,45
46,25
Mediana
50,0
50,0
52,45
Q3
53,00
56,11
53,30
51,38
Mximo
59,50
58,36
53,90
72,71
Figure 1 - Grficos de sries temporais

3
Cham1
60
60
55
55
50
50
45
45
40
40
Cham3
55
12
15
Cham2
Cham4
52
50
50
45
48
40
46
35
44
3
12
15
60
Dados
55
50
45
40
35
Cham1
Cham2
Cham3
Cham4
a) Complete o quadro das estatsticas descritivas destes dados.

Para a Chamin 1:
Mdia amostral:
X + + X n 1 n
X = 1
= X i Desvio Padro amostral:
n
n i =1
1
s=
( X i X )2
n1 i=1
Mnimo, mximo e primeiro e terceiro quartis:
Para determinar os valores de mnimo, quartil 1, mediana, quartil 3 e mximo necessrio organizar os
dados obtidos em ordem crescente.
> sort(chamines$Cham1)
#Ordenamento
[1] 40.5 41.5 42.5 43.5 44.5 45.5 46.5 47.5 48.5 49.5 50.5 51.5 52.5 53.5 54.5
[16] 55.5 59.5
Como determinar os Quartis:

Q1 = P25
Q2 = P50 = Mediana
Q3 = P75
Clculo dos percentis:
A posio do percentil de ordem i no conjunto de dados ordenado ser definida como:
n
i.
Posi =
100 , em que Posi = posio do percentil de ordem i; e n = nmero de elementos da srie.
1) Se Posi = valor inteiro, ento o percentil definido como a mdia dos valores que ocupam a
posio Posi e Posi + 1.
2) Se Posi = valor no inteiro, ento o percentil definido como o valor que ocupa a posio u + 1,
em que u = inteiro mais prximo que seja menor que Posi.
(Notas de Aula, MAT236 Mtodos Estatstico, IM-UFBA)
Q1 = P25
Pos25 = 25
17
100
= 4,25 logo Q1 o valor que ocupa a posio 5 do Rol, portanto Q1 = 44.5
Q2 = P50 = Mediana
17
.
Pos50 = 50 100 = 8,5 logo Q2 o valor que ocupa a posio 9 do Rol, portanto Q2 = 48.5
Q3 = P75
Pos75 = 75
17
100
= 12,75 logo Q3 o valor que ocupa a posio 13 do Rol, portanto Q3 = 52.5
Alternativamente:
Os quartis dividem a distribuio dos dados em quatro partes iguais. Para determinar o primeiro
quartil, encontra-se, primeiramente, a mediana, que corresponde ao segundo quartil e que divide os dados
metade. Em seguida obtm-se a mediana da primeira e da segunda parte dos dados que foram divididos
3
pela mediana da distribuio. Essas ltimas medianas devero corresponder ao primeiro quartil e terceiro
quartil respectivamente. Observar que, para determinar o primeiro e terceiro quartis, a mediana (segundo
quartil), deve ser considerado na diviso.
No exemplo:
[1] 40.5 41.5 42.5 43.5 44.5 45.5 46.5 47.5 48.5 49.5 50.5 51.5 52.5 53.5 54.5
[16] 55.5 59.5
Mediana = 48,5
Primeira parte dos dados:
40.5 41.5 42.5 43.5 44.5 45.5 46.5 47.5 48.5
Primeiro quartil = 44,5

Segunda parte dos dados:
48.5 49.5 50.5 51.5 52.5 53.5 54.5 55.5 59.5
Terceiro quartil = 52,5

No RStudio possvel encontrar os valores de mnimo, quartil 1, mediana, quartil 3 e mximo atravs da
funo quantile( ).
> quantile(chamines$Cham1) #Quartis
0% 25% 50% 75% 100%
40.5 44.5 48.5 52.5 59.5
Tabela 3 - Estatsticas descritivas atravs da funo summary()

Cham1
Cham2
Min. :40.50 Min. :41.64
1st Qu.:44.50 1st Qu.:44.21
Median :48.50 Median :46.79
Mean :48.68 Mean :49.81
3rd Qu.:52.50 3rd Qu.:55.79
Max. :59.50 Max. :58.36
Cham3
Cham4
Min. :35.00 Min. :44.5
1st Qu.:50.50 1st Qu.:46.5
Median :52.40 Median :48.5
Mean :49.85 Mean :48.5
3rd Qu.:53.00 3rd Qu.:50.5
Max. :53.90 Max. :52.5
Tabela 4 - Estatsticas descritivas obtidas de mtodo alternativo em R

Mdia Desvio.Padro Mnimo Quartil.1 Mediana Quartil.3 Mximo
Cham1 48.68
5.39 40.50
44.50 48.50
52.50 59.50
Cham2 49.81
6.33 41.64
44.21 46.79
55.79 58.36
Cham3 49.85
5.90 35.00
50.50 52.40
53.00 53.90
Cham4 48.50
2.52 44.50
46.50 48.50
50.50 52.50
Algumas estatsticas da Tabela 2 contm inconsistncias, se levados em considerao os dados da Tabela

1. As inconsistncias so destacadas em amarelo. A Tabela 5 mostra o quadro preenchido com valores
devidamente corrigidos.
Tabela 5 - Estatsticas descritivas corrigidas e completadas
Varivel
Cham1
Cham2
Cham3
Cham4
Mdia
48,68
49,81
49,85
48,50
Desvio Padro
5,39
6,33
5,90
2,52
Mnimo
40,50
41,64
35,00
44,50
Q1
44,50
44,21
50,50
46,50
Mediana
48,50
46,79
52,40
48,50
Q3
52,50
55,79
53,00
50,50
Mximo
59,50
58,36
53,90
52,50
b) Compare as distribuies quanto simetria com base nos grficos acima.
Avaliando somente os grficos de sries temporais no possvel inferir sobre a simetria das
distribuies. Avaliando os boxplots, observa-se que, para Cham1 e Cham2 os dados so bastante
assimtricos, onde boa parte dos dados parecem concentrar-se de um lado e h uma disperso maior do
outro. Para Cham3 verifica-se a presena de valores aberrantes, ou seja, valores considerados muito
distantes da massa de dados. Em Cham4 parece haver uma simetria nos dados, j que a mediana parece
dividir igualmente a massa de dados, no entanto, verificando o grfico de sries temporais verifica-se que
os dados no apresentam normalidade, apresentam na verdade comportamento linear. Analisando o
Histograma de Cham4 comprova-se a uniformidade dos dados, logo verifica-se que no se pode inferir
sobre simetria em nenhuma das distribuies.
c) Que chamin apresenta maior variao relativa? Analise criticamente sua resposta.
Para comparar a variabilidade de duas ou mais distribuies, mesmo quando referem-se a fenmenos
diferentes e sejam expressas em unidade de medida distintas, pode-se utilizar o Coeficiente de Variao
de Pearson, uma medida de disperso relativa dada por:
s
CV =
X
onde s o desvio padro amostral e
Varivel
Cham1
Cham2
Cham3
Cham4
Mdia
48,68
49,81
49,85
48,50
Desvio Padro
5,39
6,33
5,90
2,52
a mdia amostral.
CV (%)
11,07
12,71
11,84
5,21
Para a chamin 2 o coeficiente de variao no representa a disperso dos dados devido ao fato da
distribuio ser bimodal, verificado no grfico histograma. Os dados da chamin 3 so concentrados
porm apresentam outliers, que influenciam no clculo do coeficiente de variao. A retirada dos outliers
5
acarretariam a reduo do desvio padro dos dados e, por consequncia a reduo do coeficiente de
variao. Considerando a presena dos outliers os dados da chamin 3 apresentam o maior coeficente de
variao ou maior dispreso relativa. Por ltimo, as chamins 1 e 4 apresentam comportamento prximo
do linear, analisando os diagramas de sries temporais. Para a chamin 1 h, no entanto, um desvio maior
devido ao ltimo ponto observado que se distancia um pouco da reta, o que acarreta em maior disperso.
Para a chamin 4 os dados seguem um comportamento perfeitamente linear e por isso o desvio padro
menor, acarretando em menor variao relativa dos dados.
d) As estatsticas calculas podem ser utilizadas para descrever o comportamento dos dados?
As estatsticas calculadas no so suficientes para descrever o comportamento dos dados j que, atravs
dessas, no possvel determinar, por exemplo, o comportamento dos dados.
A anlise grfica que permite uma compreenso melhor acerca dos dados.
Os grfico Q-Q Plot permitem avaliar se as distribuies so prximas da normalidade.
>
>
>
+
+
+
+
+
+
+
+
+
+
par(mar=c(4,4,2,1))
par(mfrow = c(2, 2))
sapply(X = c("Cham1","Cham2","Cham3","Cham4"),
FUN=function(s) {
qqnorm(chamines[,s],
ylab= c("gs CO - (mg/m3)"),
main = paste("Normal Q-Q Plot, ",s),
col = "black",
pch=16 )
qqline(chamines[,s],
col='red' )
}
)
QUESTO ED2 OK
Os seguintes dados representam o nmero de acidentes dirios em um complexo industrial (colocados em
ordem crescente), durante o perodo de 50 dias. (Dados fictcios)
18
29
36
41
49
20
29
36
43
50
20
30
37
44
51
21
30
37
44
53
22
31
37
45
54
24
31
37
45
54
25
32
38
45
56
25
33
38
46
58
26
34
38
47
62
27
35
40
48
65
a) Construir o histograma de frequncia relativa para representar esses dados.
6
4
0
Frequency
10
Histogram of acidentes
20
30
40
50
60
acidentes
Grfico 1. Gerado pela funo hist(x= acidentes)
> #Nmero de amostras:
> n = length(acidentes)
>n
[1] 50
> #Valores extremos:
> min = min(acidentes)
> min
[1] 18
> max = max(acidentes)
> max
[1] 65
> #Amplitude Total:
> AT = max - min
> AT
[1] 47
> #Nmero de classes:
> k = 1 + 3.3 * log10(n) #Regra de Sturges ou Regra do Logartmo
>k
[1] 6.606601
> #alternativamente: k = sqrt(n)
> #Lembrar que, mesmo que hajam alguns mtodos para determin-lo, a escolha do nmero de
classes depender mais do bom senso de quem organiza os dados.
> #O nmero de classes deve ser um inteiro positivo, logo:
> k = round(k, 0)
>k
[1] 7
> #Amplitude do intervalo de classes:
> h = AT / k
>h
[1] 6.714286
> #Alternativa: Sabendo que n=50, faz-se k=10 classes com amplitude h=5, incluindo os dados
direita e excluindo esquerda.
> #intervalo = cut(x = acidentes, breaks = seq(15, 15+n, 5), right = FALSE) #right = FALSE para
Excluso direita e Incluso esquerda;
> intervalo = cut(x = acidentes, breaks = seq(15, 15+n, 5), right = TRUE) #right = TRUE para
Excluso esquerda e Incluso direita;
> #Tabela de distribuio de frequncias:
> cbind(freqAbs=table(intervalo), freqRel=100*prop.table(table(intervalo)))
freqAbs freqRel
(15,20]
3
6
(20,25]
5
10
(25,30]
6
12
(30,35]
6
12
(35,40]
10
20
(40,45]
7
14
(45,50]
5
10
(50,55]
4
8
(55,60]
2
4
(60,65]
2
4
logical; if TRUE, the histogram cells are right-closed (left open) intervals.
10
Histograma: Nmero de acidentes dirios

Frequncia (em dias)
right
10
20
30
40
50
60
70
N. de acidentes
Grfico 2. hist() com parmetro right = TRUE
9
10
8
6
4
2
0
Frequncia (em dias)
Histograma: Nmero de acidentes dirios
10
20
30
40
50
60
70
N. de acidentes
Grfico 3. hist() com parmetro right = FALSE
b) O estatstico decide separar destes dados os dias com nmero de acidentes inferior a dois desvios
padres abaixo da mdia e tambm separar os dias com nmero de acidentes superior a um e meio
desvio padro acima da mdia. Qual a porcentagem de dias que sero separados em cada caso?
> media = round(mean(acidentes), 2) #Mdia aritmtica
> media
[1] 38.32
> cat("Mdia de", round(media, digits = 0), "acidentes por dia")
Mdia de 38 acidentes por dia
> desvioPadrao = round(sd(acidentes), 2)
#Desvio Padro "Standard Deviation"
> desvioPadrao
[1] 11.58
Analisando os dados, dentre os 50 dias, nenhum dia tem nmero de acidente inferior a 15, portanto, 0%
dos dias, enquanto que 3 dos 50 dias tm nmero de acidentes superior a 56, dando um total de 6% dos
dias.
necessrio verificar a normalidade dos dados observados. Analisando o histograma dos dados, verificase que os dados indicam normalidade.
>
>
>
+
+
>
>
x <- seq(-min(acidentes), max(acidentes), 0.001)

y <- dnorm(x = x, mean = mean(acidentes), sd = sd(acidentes))
hist(h <- acidentes, probability = TRUE,
col = "lightgreen", main = "",
xlab = "x", ylab = "Densidade de probabilidade")
lines(x, y, type = "l", col = "red")
10
> ## Admitindo normalidade

> ## Caso 1:
> x = media - 2*desvioPadrao
>x
[1] 15.16
> #z = (x - media) / desvioPadrao
> #z
> prob = 100 * pnorm(q = x, mean = media, sd = desvioPadrao, lower.tail = TRUE)
> #lower.tail
logical; if TRUE (default), probabilities are P[X ??? x]
> prob
[1] 2.275013
> paste0("So separados ", round(prob, 2), "% de dias")
[1] "So separados 2.28% de dias"
>
> ## Caso 2:
> x = media + 1.5*desvioPadrao
>x
[1] 55.69
> #z
> prob = 100 * pnorm(q = x, mean = media, sd = desvioPadrao, lower.tail = FALSE)
> #lower.tail
logical; if FALSE, probabilities are P[X > x].
> prob
[1] 6.68072
> paste0("So separados ", round(prob, 2), "% de dias")
[1] "So separados 6.68% de dias"
A distribuio normal a que mais se aproxima da distribuio de acidentes dirios do complexo

industrial.
11
2
0
P (%)
FDP, Normal
20
40
60
N. de acidentes
20 40 60
0
P (%)
80
FDA, Normal
20
40
60
N. de acidentes
> ############ Grfico da Funo Distribuio Acumulada da distribuio Poisson
############
> x=0:70
> y=100 * pnorm(q = x, mean = media, sd = desvioPadrao, lower.tail = TRUE);
> names(y)=x;
> plot(y,ylim=c(0,100), type="h", xlim=c(0,75), lwd=2, bty="l", main="FDA, Normal", xlab = "N. de
acidentes",ylab = "P (%)")
QUESTO ED3 OK
Sejam X1 ~ N(150,30), X 2 ~ N(200,20) e X 3 ~ N(100,14) independentes. Seja X = X 1 X 2 + X 3 tambm
com distribuio normal. Calcule P(47 X 58).
12
Propriedades da Esperana
1) Dada uma constante a, temos:
E(a + X) = a + E(X)
E(a . X) = a . E(X)
2) Sejam X1, X2,..., Xn variveis aleatrias
E(X1 X2 ... Xn) = E(X1) E(X2) ... E(Xn)
3) Sejam X e Y variveis aleatrias independentes. Ento,
E(X.Y) = E(X) . E(Y)
Propriedades da varincia
a) Dada uma constante a, temos:
V(X + a) = V(X)
V(a . X) = a 2 . V(X)
b) Sejam X1, X2,..., Xn, n variveis aleatrias independentes. Ento
V(X1 X2 ... Xn) = V(X1) + V(X2) +... + V(Xn) ; As varincias sempre se somam.
E(X) = E(X1 - X2 + X3) = E(X1) - E(X2) + E(X3) = 150 - 200 + 100 = 50
V(X) = V(X1 - X2 + X3) = V(X1) + V(X2) + V(X3) = 30 + 20 + 14 = 64
Logo, X ~ N(50, 64)
> media = 150 - 200 + 100
> #media = 50
> variancia = 30 + 20 + 14
> #variancia = 64
>
> desvioPadrao = sqrt(variancia)
> desvioPadrao
[1] 8
>
> #Calcular P(47 X 58).
>
> #Normalizando: Z ~ N(0, 1)
> z1 = (47 - media) / desvioPadrao
> z1
[1] -0.375
>
> z2 = (58 - media) / desvioPadrao
> z2
[1] 1
> # Utilizando uma tabela de Distribuio Normal Padro, pode-se calcular das seguintes formas:
>
> # P(47 X 58) = P(-0.2590674 Z 0.6908463)
>
> #Tabela P(0 Z z) = p
> # P(-0.6123724 Z 1.632993) = P(0 Z 0.6123724) + P(0 Z 1.632993)
> #Tabela P(Z z) = p
> # P(-0.6123724 Z 1.632993) = - P(Z -0.6123724) + P(Z 1.632993)
> #Tabela P(Z > z) = p
> # P(-0.6123724 Z 1.632993) = P(Z > -0.6123724) - P(Z > 1.632993)
>
13
> # Utilizando funes R:

>
>
> #P = pnorm(q = x, mean = media, sd = desvioPadrao, lower.tail = TRUE)
> #lower.tail
logical; if TRUE (default), probabilities are P[X x]
> p1 = pnorm(q = 47, mean = media, sd = desvioPadrao, lower.tail = TRUE)
> p2 = pnorm(q = 58, mean = media, sd = desvioPadrao, lower.tail = TRUE)
> P = p2 - p1
>P
[1] 0.4875145
>
> #P = pnorm(q = x, mean = media, sd = desvioPadrao, lower.tail = FALSE)
> #lower.tail
> p1 = pnorm(q = 47, mean = media, sd = desvioPadrao, lower.tail = FALSE)
> p2 = pnorm(q = 58, mean = media, sd = desvioPadrao, lower.tail = FALSE)
> P = p1 - p2
>P
[1] 0.4875145
P(47 X 58) = 0,4875145 49%

QUESTO ED4 OK
Que caractersticas pretende-se realar quando se representa um conjunto de dados sob a forma de um
histograma e de um diagrama de sries temporais?
O histograma fornece uma impresso visual da forma da distribuio das medidas, assim como
informao sobre a tendncia central e o espalhamento ou disperso dos dados. Essa disposio grfica
fornece, frequentemente, discernimento acerca de possveis escolhas de distribuies de probabilidades
para usar como um modelo para a populao. (Montgomery)
A tendncia central caracterizada pelo valor (ou faixa de valores) tpicos da varivel.
A disperso, ou variabilidade, permite representar o quanto os dados variam.
A forma diz respeito concentrao dos dados, de forma a classificar a distribuio quanto simetria:
Tipos bsicos:
Simtrico (valores igualmente distribudos em torno de um valor mais provvel);
Assimtrico:
Concentrao esquerda (assimetria com concentrao esquerda ou assimetria com cauda
direita);
Concentrao direita (assimetria com concentrao direita ou com assimetria cauda
esquerda);
O diagrama de sries temporais frequentemente permitem enxergar tendncias, ciclos ou outras
caractersticas dos dados que no poderiam ser vistas de outra forma. (Montgomery)
Um dos objetivos do estudo de sries temporais conhecer o comportamento da srie ao longo do tempo
(aumento, estabilidade ou declnio dos valores). Em alguns estudos, esse conhecimento pode ser usado
para se fazer previses de valores futuros com base no comportamento dos valores passados.
QUESTO ED5
Sries histricas de produo de petroqumicos e vazo de efluentes orgnicos de uma determinada
empresa foram avaliados considerando mdias anuais de 4 anos. O engenheiro responsvel por esse
processo informou que com o aumento de produo h um maior consumo de matrias primas e insumos,
14
e que no 2 ano houve muitas paradas na planta. Discuta o que acontece com a vazo de efluentes, e sua
relao com a produo, considerando estas informaes. (2,5 PONTOS)
Quando a produo est menor, e portanto menor quantidade de matrias primas e insumos so
consumidos, h um desperdcio maior, causando aumento da vazo de efluentes.
Quando a produo aumenta, as matrias primas e insumos so melhor utilizados, de forma que o
desperdcio diminui, causando consequentemente reduo da vazo de efluentes.
No 2 ano, em funo da maior quantidade de paradas, os ndices variaram consideravelmente. No
entanto, possvel perceber que, a medida que a produo aumenta, a variabilidade da produo diminui,
ao passo que, se a produo continuar aumentando, a variabilidade da vazo de efluentes parece tender a
aumentar, ou seja, deve haver um ponto timo de produo que implique em melhor consumo e
consequentemente menor vazo de efluentes.
Quando h maior
QUESTO ED6
Discos de alumnio so produzidos e a cada 15 minutos 3 discos so retirados da linha e pesados. Os
dados obtidos durante um perodo de quase 7 horas esto apresentados na tabela abaixo. Estime e analise
criticamente as estatsticas de mdia e varincia do peso dos discos de alumnio (g).
N
Tempo
Obs
Amostra
Peso
Tempo
Obs
Peso
Tempo
Obs
Amostr
a
10
9:00
29
11:15
9:00
30
9:00
170,38
4
169,81
7
170,66
7
31
Amostr
a
19
170,667
13:30
11:15
10
170,384
11:30
11
171,234
5
7
5
8
5
9
Peso
170,384
13:45
20
170,667
13:45
20
170,667
15
9:15
9:15
9:15
9:30
9:30
9:30
1
0
11
9:45
9:45
1
2
1
3
1
4
1
5
1
6
1
7
1
8
1
9
2
0
2
1
2
2
2
3
2
4
2
5
2
6
2
7
2
8
9:45
10:00
10:00
10:00
10:15
10:15
10:15
10:30
10:30
10:30
10:45
10:45
10:45
11:00
11:00
11:00
11:15
10
169,53
3
169,81
7
170,38
4
170,95
1
170,66
7
170,66
7
170,66
7
170,95
1
170,66
7
170,10
0
169,81
7
170,38
4
169,81
7
170,10
0
170,10
0
170,66
7
170,38
4
170,10
0
170,38
4
170,95
1
170,38
4
170,38
4
170,66
7
170,10
0
170,10
0
32
11:30
11
170,667
33
11:30
11
170,951
34
11:45
12
170,667
35
11:45
12
170,384
36
11:45
12
170,100
37
12:00
13
170,951
38
12:00
13
170,667
39
12:00
13
171,234
40
12:15
14
170,667
41
12:15
14
170,667
42
12:15
14
170,951
43
12:30
15
170,951
44
12:30
15
170,667
45
12:30
15
170,951
46
12:45
16
170,951
47
12:45
16
170,100
48
12:45
16
170,384
49
13:00
17
171,234
50
13:00
17
170,667
51
13:00
17
170,951
52
13:15
18
171,518
53
13:15
18
170,667
54
13:15
18
171,234
55
13:30
19
170,951
56
13:30
19
171,234
6
0
6
1
6
2
6
3
6
4
6
5
6
6
6
7
6
8
6
9
7
0
7
1
7
2
7
3
7
4
7
5
7
6
7
7
7
8
7
9
8
0
8
1
8
2
8
3
8
4
13:45
20
170,667
14:00
21
171,234
14:00
21
171,518
14:00
21
170,951
14:15
22
171,801
14:15
22
170,951
14:15
22
171,234
14:30
23
171,518
14:30
23
171,234
14:30
23
170,667
14:45
24
171,518
14:45
24
171,234
14:45
24
170,951
15:00
25
171,234
15:00
25
171,801
15:00
25
171,518
15:15
26
171,518
15:15
26
170,951
15:15
26
171,234
15:30
27
170,951
15:30
27
171,234
15:30
27
170,951
15:45
28
171,801
15:45
28
171,801
15:45
28
171,518
O Teorema central do limite um importante resultado da estatstica e a demonstrao de muitos outros teoremas
estatsticos dependem dele. Em teoria das probabilidades, esse teorema afirma que quando o tamanho da amostra
aumenta, a distribuio amostral da sua mdia aproxima-se cada vez mais de uma distribuio normal. (Wikipedia)
QUESTO ED7
16
Uma determinada empresa qumica faz uso

de gua superficial e de poos no seu
processo produtivo, o qual inclui a operao
de trs plantas (figura 1). Um indicador do
consumo de gua (ICA) foi construdo
considerando a relao entre captao total
de gua (ou consumo de gua) e produo
total. Analise criticamente qual a influncia
da variabilidade dos dados no indicador,
considerando as figuras 2 (a) e (b). (2,5
PONTOS)
ICA (m3
INDSTRIA
gua /
CONS
t
U
Planta 1
POOS
DE
MCAPTAO produ
DE
Planta 2
OGUA BRUTA
o)
(1,
Produo
DE2, 3, 4)
G
POO
UA INTERNO
GUA CLARIFICADA
(AGC)
Planta 3
GUA
DESMINERALIZA
DA (AGC)
GUA POTVEL
(AGP)
VAPOR DE ALTA E
MDIA PRESSO
(V-42 e V-15)
Figura 1: Balano hdrico.
(a)
17
(b)
Figura 2: Grficos de disperso da produo de captao de gua total (a) e por tipo de gua (b).
DISTRIBUIES DE PROBABILIDADE
QUESTO DP1 OK
A funo de densidade de probabilidade do comprimento de uma barra de metal f(x)=2,0, para 2,3 < x <
2,8. Se as especificaes para este processo so de 2,25 a 2,75 metros, que proporo de barras no se
encontra dentro das especificaes? (2,5 PONTOS)
+
Para f(x) ser funo densidade,
f ( x ) dx=1
18
2.0
1.5
2.5
FDP
2.2
>
>
>
>
>
>
>
2.3
2.4
2.5
2.6
2.7
2.8
2.9
2.7
2.8
2.9
#FDP
par(mar=c(3, 3, 2, 1))
x = c(2.3, 2.8)
y = c(2, 2)
plot(x, y, type="b", xlim = c(2.2, 2.9), main = "FDP")
grid()
0.0
0.2
0.4
0.6
0.8
1.0
FDA
2.2
>
>
>
>
>
2.3
2.4
2.5
2.6
#FDA
x = c(2.2, 2.3, 2.8, 2.9)
y = c(0, 2*2.3-4.6, 2*2.8-4.6, 2*2.8-4.6)
plot(x, y, type="l", axes=FALSE, main = "FDA")
grid()
19
> axis(side=1, at=seq(2.2, 2.9, 0.1))

> axis(side=2, at=seq(0, 1, length.out = 6))
> box()
QUESTO DP2 OK
A funo de densidade de probabilidade do peso lquido, em libras, de um pacote de herbicida qumico
f(x)=2,0 para 49,75 < x < 50,25 libras. Se as especificaes para este processo so 49,0 a 50,0 libras.
2.0
1.5
2.5
FDP
49.00
>
>
>
>
>
>
>
>
>
49.25
49.50
49.75
50.00
50.25
50.50
par(mar=c(3, 3, 2, 1))
x = c(49.75, 50.25)
y = c(2, 2)
plot(x, y, type="b", xlim = c(49, 50.5), main = "FDP", axes=FALSE)
axis(side=1, at=seq(48, 52, 0.25))
axis(side=2, at=c(1.5, 2, 2.5))
grid()
box()
20
0.0
0.2
0.4
0.6
0.8
1.0
FDA
49.00
>
>
>
>
>
>
>
>
49.25
49.50
49.75
50.00
50.25
50.50
#FDA
x = c(49, 49.75, 50.25, 50.5)
y = c(0, 2*49.75-99.5, 2*50.25-99.5, 2*50.25-99.5)
plot(x, y, type="l", xlim = c(49, 50.5), axes=FALSE, main = "FDA")
axis(side=1, at=seq(48, 52, 0.25))
axis(side=2, at=seq(0, 1, length.out = 6))
grid()
box()
a) Determine a proporo de barras no se encontra dentro das especificaes.

b) Quanto produto qumico est contido em 90% de todos os pacotes?
c) Calcule a mdia e a varincia.
21
Referncia: Apostila MAT236
QUESTO DP3 OK
O tempo gasto no vestibular de uma determinada universidade tem distribuio normal, com mdia 120
min e desvio padro de 15 min. (a). Sorteando um aluno ao acaso, qual a probabilidade que ele termine o
exame antes de 100 min. (b) Qual deve ser o tempo de prova de modo a permitir que 95% dos
vestibulandos terminem no prazo estipulado.
> ### DP3
> par(mar=c(3, 3, 2, 1))
>
> media = 120 #min
> desvioPadrao = 15 #min
> ############ Grfico da Funo de Probabilidade da distribuio Normal
############
> x = (media-3.5*desvioPadrao):(media+3.5*desvioPadrao)
> y = 100 * dnorm(x, mean = media, sd = desvioPadrao);
> names(y)=x;
> plot(x, y,ylim=c(0,max(y)), type="l", lwd=2, bty="o", main="FDP, N(120, 15)", xlab =
"tempo",ylab = "P (%)")
22
1.5
1.0
0.0
0.5
P (%)
2.0
2.5
FDP, N(120, 15)
80
100
120
140
160
> ############ Grfico da Funo Distribuio Acumulada da distribuio Normal

############
> x = (media-3.5*desvioPadrao):(media+3.5*desvioPadrao)
> y = 100 * pnorm(q = x, mean = media, sd = desvioPadrao, lower.tail = TRUE);
> names(y)=x;
> plot(x, y,ylim=c(0,100), type="l", lwd=2, bty="l", main="FDA, N(120, 15)", xlab = "tempo",ylab
= "P (%)")
60
40
0
20
P (%)
80
100
FDA, N(120, 15)
80
100
120
140
160
> #a) Sorteando um aluno ao acaso, determinar a probabilidade de ele terminar o exame antes de
100 min
> x = 100 #min
> z = (x - media) / desvioPadrao
23
> z #Consultar P(Z z) na Tabela da Normal Padronizada

[1] -1.333333
> prob = 100 * pnorm(q = z, mean = 0, sd = 1, lower.tail = TRUE)
> #lower.tail
> prob
[1] 9.121122
>
> #diretamente:
> prob = 100 * pnorm(q = x, mean = media, sd = desvioPadrao, lower.tail = TRUE)
> #lower.tail
> prob
[1] 9.121122
>
> paste0("Um aluno ao acaso tem ", round(prob, 2), "% de chance de concluir antes de 100 min.")
[1] "Um aluno ao acaso tem 9.12% de chance de concluir antes de 100 min."
>
> #b) Determinar qual deve ser o tempo de prova de modo a permitir que 95% dos vestibulandos
terminem no prazo estipulado
> prob = 95 #%
> prob = prob/100
> prob
[1] 0.95
>
> #z #Consultar Z da tabela da Normal Padro
> z = qnorm(p = prob, mean = 0, sd = 1, lower.tail = TRUE)
> #lower.tail
>z
[1] 1.644854
> x = (z * desvioPadrao) + media
>x
[1] 144.6728
>
> #diretamente:
> x = qnorm(p = prob, mean = media, sd = desvioPadrao, lower.tail = TRUE)
> #lower.tail
>x
[1] 144.6728
>
> paste0("So necessrios ", round(x, 2), " minutos de tempo de prova.")
[1] "So necessrios 144.67 minutos de tempo de prova."
QUESTO DP4 OK
Suponha que a relao entre a fora aplicada x e o tempo at a falha y seja descrita por um modelo de
regresso linear simples com uma reta de regresso real y = 65-1,2x e = 8. Portanto, para qualquer valor
fixo x* de fora, o tempo at a falha tem uma distribuio normal com valor mdio 65-1,2x* e desvio
padro 8. Para x = 20, estime a probabilidade de que o tempo de falha (y) ultrapasse 50 quando a fora
aplicada (x) for igual a (a) 20 e (b) 25. Compare os resultados nas letras (a) e (b) de forma grfica com
base na funo de distribuio de probabilidade normal.
> ### DP4
> par(mar=c(3, 3, 2, 1))
>
24
> # x -> Fora aplicada

> # y -> Tempo at a falha
> # Modelo: y = 65-1.2*x e = 8
>
> # x* ser representado por xq
> # Tempo at a falha ~ Normal(65-1.2*xq, 8)
> # onde xq representa qualquer valor fixo de fora
>
> desvioPadrao = 8
>
> # Estimar a probabilidade de o tempo at a falha (y) ultrapassar 50 quando a
> #fora aplicada (x) for igual a:
> #a) 20
> x1 = 20
> y1 = 65-1.2*x1
> y1
[1] 41
> #z = (50 - y1) / desvioPadrao
> #z #Consultar P(Z > z) na Tabela da Normal Padronizada
>
> #P(y > 50)
> prob = 100 * pnorm(q = 50, mean = y1, sd = desvioPadrao, lower.tail = FALSE)
> #lower.tail
> prob
[1] 13.02945
> paste0("Probabilidade de ", round(prob, 2), "% de tempo at falha ultrapassar 50")
[1] "Probabilidade de 13.03% de tempo at falha ultrapassar 50"
>
>
> #b) 25
> x2 = 25
> y2 = 65-1.2*x2
> y2
[1] 35
> #z = (50 - y2) / desvioPadrao
> #z #Consultar P(Z > z) na Tabela da Normal Padronizada
>
> #P(y > 50)
> prob = 100 * pnorm(q = 50, mean = y2, sd = desvioPadrao, lower.tail = FALSE)
> #lower.tail
> prob
[1] 3.039636
> paste0("Probabilidade de ", round(prob, 2), "% de tempo at falha ultrapassar 50")
[1] "Probabilidade de 3.04% de tempo at falha ultrapassar 50"
>
> #Concluso: Quanto maior a fora aplicada, maior a susceptibilidade falha.
>#
Quanto mais fora aplicada, mais rpido dever falhar.
> par(mfrow = c(1, 1))
> #Comparao grfica:
> x = (min(y1, y2)-3.5*desvioPadrao):(max(y1, y2)+3.5*desvioPadrao)
> y = 100 * dnorm(x, mean = y1, sd = desvioPadrao);
> names(y)=x;
> plot(x, y,ylim=c(0,max(y)), type="l", lwd=2, bty="o", main="FDP, Normal(, )", xlab = "N. de
acidentes",ylab = "P (%)", col = "blue")
25
> abline(v=50, col = "black", lty = "dotted")

> ###### Pintando rea sob a curva 1: ##############
> cord.x <- c(50, seq(50, max(x), 0.01), max(x))
> cord.y1 <- c(0, dnorm(seq(50, max(x), 0.01), y1, desvioPadrao), 0) * 100
> polygon(cord.x,cord.y1,col='skyblue')
> ################################################
> par(new=TRUE)
> names(y)=x;
> plot(x, y,ylim=c(0,max(y)), type="l",lty="dotted", lwd=2, bty="o", main="FDP, Normal(, )",
xlab = "N. de acidentes",ylab = "P (%)", col = "red")
> # Adiciona legenda imagem:
> legend(52, 4.5, legend=c("N(20, 8)","N(25, 8)"), lty=c("solid", "dotted"),
col=c("blue","red"),lwd=3,bty="n")
> ###### Pintando rea sob a curva 2: ##############
> #cord.y2 <- c(0, dnorm(seq(50, max(x), 0.01), y2, desvioPadrao), 0) * 100
> #polygon(cord.x,cord.y2,col='skyblue')
> ################################################
FDP, Normal(, s)
3
0
P (%)
N(20, 8)
N(25, 8)
10
20
30
40
50
60
70
> ### Plotando os dois grficos lado a lado: #####

> par(mfrow = c(1, 2))
> #Comparao grfica:
> x = (min(y1, y2)-3.5*desvioPadrao):(max(y1, y2)+3.5*desvioPadrao)
> names(y)=x;
> plot(x, y,ylim=c(0,max(y)), type="l", lwd=2, bty="o", main="FDP, N(20, 8)", xlab = "N. de
acidentes",ylab = "Densidade f(x)")
> ###### Pintando rea sob a curva 1:
> cord.x <- c(50, seq(50, max(x), 0.01), max(x))
> ################################################
> names(y)=x;
26
> plot(x, y,ylim=c(0,max(y)), type="l", lwd=2, bty="o", main="FDP, N(25, 8)", xlab = "N. de
acidentes",ylab = "P (%)")
> ###### Pintando rea sob a curva 2:
> #####################################
> # A rea sob a curva em azul, N(20, 8), maior do que a rea sob a curva em vermelho, N(25,
8).
> #portanto, a h uma maior probabilidade de durar mais tempo quando a fora aplicada menor.
4
3
0
P (%)
3
2
1
0
Densidade f(x)
FDP, N(25, 8)
FDP, N(20, 8)
10 20 30 40 50 60 70
10 20 30 40 50 60 70
27
QUESTO DP5 OK
Dois estudantes foram informados de que alcanaram as variveis reduzidas (Z) de 0,8 e -0,4,
respectivamente, em um exame de mltipla escolha de ingls. Se seus rendimentos foram 88 e 64,
respectivamente:
a) Determinar a mdia e o desvio padro dos rendimentos do exame.
b) Determinar a probabilidade de um estudante alcanar um rendimento maior que 96.
>
>
>
>
>
>
>
>
>
>
>
>
>
### DP5
par(mar=c(3, 3, 2, 1))
z1 = 0.8
x1 = 88
z2 = -0.4
x2 = 64
#a) Determinar a mdia e o desvio padro dos rendimentos do exame.
# As notas dos alunos foram normalizadas, para isso,
#a mdia e o desvio padro devem ser fixos, logo:
28
> #sabendo que a normalizao dada por: z = (x - media) / desvioPadrao

>
> #onde:
>
> # z1 = (x1 - media) / desvioPadrao
> # z2 = (x2 - media) / desvioPadrao
>
> # desvioPadrao = (x1 - media) / z1
>
> # desvioPadrao = desvioPadrao, logo:
> # (x1 - media) / z1 = (x2 - media) / z2
> # x1 - media = (x2 - media) * (z1 / z2)
> # x1 - media = x2 * (z1 / z2) - media * (z1 / z2)
> # x1 - media + media * (z1 / z2) = x2 * (z1 / z2)
> # media * (-1 + (z1 / z2)) = -x1 + x2 * (z1 / z2)
> media = (-x1 + x2 * (z1 / z2) ) / (-1 + (z1 / z2))
> media
[1] 72
>
> desvioPadrao = (x2 - media) / z2
> desvioPadrao
[1] 20
>
> paste0(" = ", media, ", = ", desvioPadrao)
[1] " = 72, s = 20"
> paste0("Rendimento ~ N(", media, ", ", desvioPadrao,")")
[1] "Rendimento ~ N(72, 20)"
>
> #b) Determinar a probabilidade de um estudante alcanar um rendimento maior que 96.
>
> z = (96 - media) / desvioPadrao
> z #Consultar P(Z > z) na Tabela da Normal Padronizada
[1] 1.2
>
> #Atravs do RStudio:
> prob = 100 * pnorm(q = 96, mean = media, sd = desvioPadrao, lower.tail = FALSE)
> #lower.tail
> prob
[1] 11.50697
>
> paste0("P(Rendimento > 96) = ", round(prob, 2), "%.")
[1] "P(Rendimento > 96) = 11.51%."
INFERNCIA
QUESTO I1 OK
Abaixo so apresentadas 20 medidas do tempo residual de inflamabilidade (em segundos) de um
determinado tecido. Determine um intervalo de confiana de 95% para o tempo residual mdio de
inflamabilidade. Interprete o resultado.
9,85
9,93
9,75
9,77
9,67
9,87
9,67
9,94
9,85
9,75
29
9,83
>
>
>
>
>
9,92
9,74
9,99
9,88
9,95
9,95
9,93
9,92
#I1:
closeAllConnections()
rm(list=ls())
#Tempo residual de inflamabilidade (em segundos) de um determinado tecido:
dados = c("9,85
9,93
9,75
9,77
9,67
9,87
9,67
9,94
9,75
+ 9,83 9,92
9,74
9,99
9,88
9,95
9,95
9,93
9,92
9,89")
> #### Dados inseridos com vrgula como decimal, so inseridos como CHAR,
> ##Os tratamentos a seguir os transformam em nmeros com ponto como decimal.
> library("stringr", lib.loc="~/R/win-library/3.3")
> dados = str_replace_all(dados, pattern = " ", "")
> dados = str_replace_all(dados, pattern = ",", ".")
> dados = str_replace_all(dados, pattern = "\t", ",")
> dados = str_replace_all(dados, pattern = "\n", ",")
> dados = strsplit(dados, ",")
> #Transformar em vetor coluna de dados numricos
> dados = data.matrix(as.numeric(unlist(dados)))
> class(dados)
[1] "matrix"
> dim(dados)
[1] 20 1
> str(dados)
num [1:20, 1] 9.85 9.93 9.75 9.77 9.67 9.87 9.67 9.94 9.85 9.75 ...
> dados
[,1]
[1,] 9.85
[2,] 9.93
[3,] 9.75
[4,] 9.77
[5,] 9.67
[6,] 9.87
[7,] 9.67
[8,] 9.94
[9,] 9.85
[10,] 9.75
[11,] 9.83
[12,] 9.92
9,89
9,85
30
[13,] 9.74
[14,] 9.99
[15,] 9.88
[16,] 9.95
[17,] 9.95
[18,] 9.93
[19,] 9.92
[20,] 9.89
> ## ALTERNATIVAMENTE:
> #Ajustar todos os dados para o padro R
> #dados = c(9.85,
9.93,
9.75,
9.77,
9.67,
9.87,
9.67,
9.94,
9.85,
9.75,
>#
9.83,
9.92,
9.74,
9.99,
9.88,
9.95,
9.95,
9.93,
9.92, 9.89)
> hist(dados)
> plot(dados)
> #Estimadores:
> mediaAmostral = mean(dados)
> mediaAmostral # X-Barra
[1] 9.8525
> #Desvio padrao estimado
> s = sd(dados)
> s #com desconhecido, estima-se s
[1] 0.09645697
> #Intervao de confiana de (1-)*100 = 95%
> #Nvel de significncia = 5% = 0.05
> n = length(dados)
>n
[1] 20
> #As observaes no so Normais, no entanto espera-se que as mdias sigam distribuio normal
> #Admitindo normalidade de mdias, com amostra pequena de n elementos (n < 30)
> #e desvio padro desconhecido:
> #com desconhecido, estima-se o desvio atravs de s
> # T = (mediaAmostral - ) / (s / sqrt(n)) ~ t(n-1)
> #Intervalo de confiana:
> #IC = [, 100(1-)%] = mediaAmostral ( t(/2, n-1) * s/sqrt(n) )
> #IC = [, 100(1-)%] = [mediaAmostral - ( t(/2, n-1) * s/sqrt(n) ); mediaAmostral + ( t(/2, n-1) *
s/sqrt(n) )]
> = 0.05 #5%, nvel de significncia
>n
#tamanho da amostra
[1] 20
> #distribuio t-Student
> t = qt(p = (/2), df = (n-1), lower.tail = FALSE)
> #lower.tail
>t
[1] 2.093024
> IC = c( mediaAmostral - (t * s/sqrt(n)), mediaAmostral + (t * s/sqrt(n)) )
> IC
[1] 9.807357 9.897643
> #Alternativamente, utilizando funo do R:
> t.test(x = dados, alternative = "two.sided", mu = mediaAmostral, conf.level = 0.95)
One Sample t-test
data: dados
t = 0, df = 19, p-value = 1
31
alternative hypothesis: true mean is not equal to 9.8525

95 percent confidence interval:
9.807357 9.897643
sample estimates:
mean of x
9.8525
> ###
> #Para um grau de confiana de 95%, o Intervalo de confiana,
> #IC = [9.807357, 9.897643]
> #Espera-se que o tempo residual mdio de inflamabilidade esteja continho no intervalo IC com
95% de confiana.
QUESTO I2 OK
A tenso de ruptura dos cabos produzidos por um fabricante apresenta a mdia de 1800kg e o desvio
padro de 100kg. Mediante nova tcnica no processo de fabricao, proclamou-se que a tenso de ruptura
pode ter aumentado. Para testar essa declarao, ensaiou-se uma amostra de 50 cabos, tendo-se
determinado a tenso mdia de ruptura de 1850kg. Pode-se confirmar a declarao com nvel de
significncia 0,01?
> #I2:
> closeAllConnections()
> rm(list=ls())
> # Processo:
> = 1800 #kg
> = 100 #kg
> #Amostra:
> n = 50 #tamanho amostral
> mediaAmostral = 1850 #kg
> ##Testar suspeita de que a mdia aumentou:
> #Teste de hipteses para a mdia populacional com conhecido e n 30.
> z = (mediaAmostral - ) / ( / sqrt(n))
> #Teste Unilateral Direita
> # H0: = 1800 ( 1800)
Mdia no aumentou
> # H1: > 1800
Mdia aumentou
> #Rejeitar H0 se z > z
> z = qnorm(p = 1-, mean = 0, sd = 1, lower.tail = TRUE)
> #lower.tail
> z = qnorm(p = , mean = 0, sd = 1, lower.tail = FALSE)
> #lower.tail
> #Deciso:
> paste0("H0: = 0 ( <= 0); H1: Mdia aumentou")
[1] "H0: = 0 ( <= 0); H1: Mdia aumentou"
> if (z > z) { paste0("Rejeitar H0") } else { paste0("No rejeitar H0") }
[1] "Rejeitar H0"
> ######Teste pelo P-Valor para Normal unilateral:
> #z = (mediaAmostral - ) / ( / sqrt(n))
> p.valor = pnorm(q = abs(z), mean = 0, sd = 1, lower.tail = FALSE)
> #lower.tail
> if (p.valor > ) { paste0("No rejeitar H0") } else { paste0("Rejeitar H0") }
[1] "Rejeitar H0"
32
Concluso: Ao nvel de confiana de 99%, verifica-se que h evidncias suficientes para suspeitar que a
tenso de ruptura dos cabos aumentou.
QUESTO I3
O desempenho de dois catalisadores est sendo testada de forma a determinar-se se eles exigem tempos
diferentes de imerso para a remoo de quantidades idnticas de material fotorressistente. Doze lotes
foram submetidos ao catalisador 1, resultando em uma mdia amostral do tempo de imerso de 24,6
minutos e em um desvio padro de 0,85 minutos. Quinze lotes foram submetidos ao catalisador 2,
resultando em um tempo mdio de imerso de 22,1 minutos e um desvio padro de 0,98 minutos.
Verifique se h diferena significativa entre o desempenho dos catalisadores considerando um nvel de
significncia de 5% considerando:
Os desvios populacionais so desconhecidos assim, estes foram estimados. No sendo possvel identificar se as varincias so
iguais ou diferentes, inferiu-se sobre o desempenho em cada caso. Para cada caso, para 95% de confiana, os desempenhos de
cada catalisador so diferentes.
33
Montgomery, 4Ed, p. 213-214
a) Intervalo de confiana. Justifique sua resposta.

b) Teste de hipteses. Justifique sua resposta.
O zero no faz parte do intervalo, logo a diferena entre as mdias diferente de zero, portanto, os
processos so diferentes.
QUESTO I4 OK
n Z 2 ( )(1 ) ( p ) 2
Dado que a expresso para o tamanho da amostra para a proporo

,
descreva detalhadamente como maximizar n se o parmetro desconhecido? Lembre-se: a
proporo da populao.
> #I4:
> #Montgomery, 196-197
> #TRIOLA, 273-274
> # n = Z()(1-) / (p-)
> #A expresso mostra que o tamanho amostral no depende do tamanho N da populao; o
tamanho amostral depende do nvel de confiana desejado, que aparece na estatstica Z, e da
margem de erro dada por (p-) no denominador.
> #Para maximizar o tamanho amostral, toma-se a primeira derivada da parcela ()(1-) igualando
zero para determinar o mximo local:
> # d[(1-)]/d = 0
> # 1.(1-) + .(-1) = 0
> # 1-- = 0
> # -2 = -1
> # = 1/2 = 0.5
> #Ou seja, (1-) mximo quando = 0.5. Quando no se tem informao alguma a respeito da
proporo de uma populao, razovel supor que esta proporo esteja dividida igualmente,
=0.5 e (1-)=0.5, para n suficientemente grande.
> #Logo, definida uma margem de erro e o nvel de confiana da estatstica, o tamanho amostral
pode ser maximizado fazendo = 0.5.
> #Parece comum tratar essa suposio como um abordagem conservadora ou otimista.
> #Ou ainda, fazendo a primeira derivada igual a zero considerando a parcela do erro:
> # d[ ()(1-) / (p-) ]/d = 0
> #obtem-se:
34
> # = p / (2p-1), tal que a funo tem assintota vertical em p=1/2. (e assintota horizontal em
=1/2)
> #Dessa forma interessante que o pesquisador defina o erro admissvel, (p-).
2
n=
Z ( )(1 )
( p )2
d (1 )
d
QUESTO I5 OK
Deseja-se estimar a resistncia mdia de certo tipo de pea com preciso de 2kg e 95% de confiana.
Desconhecendo-se a variabilidade dessa resistncia, roperam-se cinco peas, obtendo-se para elas os
seguintes valores de sua resistncia (em kg): 50,58,52,49,55. Com base no resultado obtido, determinouse que deveriam ser rompidas mais quinze peas, a fim de se conseguir o resultado desejado. Qual sua
opinio a respeito dessa concluso?
> #I5:
> setwd(dir = "K:/2016_1 UFBA/ENGD02/Statistics R WDir")
> rm(list=ls())
>
############################################################
#########
> dados = c(50,58,52,49,55)
> erro = 2 #kg
> s = sd(dados)
>s
[1] 3.701351
> n = length(dados)
>n
[1] 5
>t
[1] 2.776445
> n = ( t * s/erro )^2
> n = ceiling(n)
> n #n = 27
[1] 27
> #Calculando a nova probabilidade t com df=27-1:
>t
[1] 2.055529
> #Calculando novo n, com erro=2kg:
> n = ( t * s/erro )^2
> n = ceiling(n)
> n #N = 15
[1] 15
QUESTO I6
Foram realizados testes sobre a fora de trao em duas classes diferentes de ligas de alumnio usadas na
fabricao de avies de transporte comerciais. Pela experincia passada com o processo de fabricao de
35
ligas e pelo procedimento de teste, se supem conhecidos os desvios padres das foras de trao. Os
dados obtidos so apresentados na tabela abaixo:
Classe de
liga
1
2
Tamanho da
amostra
10
12
Fora de trao amostral mdia

(kg/mm2)
87,6
74,5
Desvio padro
(kg/mm2)
1,0
1,5
Se 1 e 2 representam as verdadeiras foras mdias de trao para as duas classes de ligas, encontre um
intervalo de confiana de 90% para a diferena das mdias. Interprete o resultado.
QUESTO I7
A empresa gua de Poo fornece gua engarrafada para as casas do permetro municipal em vasilhames
de 15 litros. O gerente quer estimar o nmero mdio de vasilhames que uma casa usa por ms. Uma
amostra de 75 casas selecionada e o nmero de vasilhames registrado igual a 3,2. O desvio padro
conhecido e igual a 0,78. a) O que podemos deduzir de um intervalo de confiana de 92% para a mdia
mensal de vasilhames registrados por casa? b) Considerando que o gerente acha o intervalo estimado no
item (a) muito grande, quantas casas ele deveria amostrar para construir um intervalo de 99% com erro
menor que 0,10 vasilhames?
QUESTO I8
Voc concorda com a seguinte afirmativa? Experimentos pareados so usados, dentre outras
situaes, quando difcil controlar todos os fatores que podem influenciar a varivel em estudo.
Justifique sua resposta com base no exemplo a seguir. Sugesto: Compare os resultados obtidos entre os
testes pareados e testes para amostras independentes
Exemplo: Deseja-se testar dois mtodos de anlise (A e B), que so realizados as segundas, quartas e
sextas-feiras (Seg, Qua, Sex). Dados levantados referentes aos mtodos so apresentados na tabela
abaixo.
Dia
Seg
Qua
Sex
Mdias
Varincias
Mtodo
A
B
5
3
7
5
8
6
6,67
4,67
2,3
2,3
Diferena
2
2
2
2
0
QUESTO I9
Um sistema de tratamento de gases na foi mudado com a expectativa de que a interveno pudesse
reduzir o nvel de poluio em 25 unidades, sem alterao significativa da variabilidade do processo. Ou
seja, deseja-se detectar se a mdia antes da interveno e aps a interveno diferem em 25 unidades. As
estimativas antes da interveno so: mdia = 234,3 e desvio padro = 58, baseados em uma amostra de
tamanho igual a 10. O gerente de projeto deseja determinar, com 95% de confiana, se a reduo de 25
unidades foi obtida.
QUESTO I10
Deseja-se estimar o intervalo de confiana da proporo de um experimento. Considere que h um
incremento de 20% do custo de coleta de dados a cada retorno a campo. Indique como a pesquisa deveria
ser realizada em campo de forma a minimizar o uso dos recursos financeiros, garantindo um nvel de
confiana de 90%.
36
Tratar das distribuies Z e T, tratar da definio do ERRO esperado, tratar do desvio da populao, se j
conhecido, se h dados histricos, e para o caso de precisar estimar baseado em alguma amostra, falar
da amostragem. (iniciar pela amostragem?)
REGRESSO LINEAR MLTIPLA
QUESTO RLM1 OK
Acredita-se que a vazo de vapor (em ton/h) usada mensalmente por uma planta qumica est relacionada
com a temperatura ambiente (em oF) daquele ms. Os usos e temperaturas dos ltimos anos esto
mostradas na tabela que segue:
Ms
Jan
Fev
Mar
Abr
Mai
Jun
Jul
Ago
Set
Out
Nov
Dez
Temp.
Vazo/1000
21
185,79
24
214,47
32
288,03
47
424,84
50
454,58
59
539,03
68
621,55
74
675,06
62
562,03
50
542,93
41
369,95
30
273,98
> rm(list=ls())
> par(mar=c(4,4,1,1))
> par(mfrow=c(1,1))
> setwd(dir = "K:/2016_1 UFBA/ENGD02/Statistics R WDir")
> planta = read.table(file = "RegressaoLinearMultipla/RLM1/PlantaQuimica.txt", header = TRUE, dec
= ',')
> #Importante: Deve haver um \n ao fim do vetor de dados no arquivos .txt para evitar um alerta no
RStudio
> #Transpor matriz mantendo os nomes do caberio:
> planta = setNames(data.frame(t(planta[,-1])), planta[,1])
> modelo = lm(planta$`Vazo/1000` ~ planta$Temp.) #Modelo Linear
> summary(modelo)
Call:
lm(formula = planta$`Vazo/1000` ~ planta$Temp.)
Residuals:
Min
1Q Median
3Q
Max
-11.528 -8.467 -6.977 -6.130 81.014
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -3.2621 23.0726 -0.141
0.89
planta$Temp. 9.3036
0.4673 19.910 2.24e-09 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 26.88 on 10 degrees of freedom
Multiple R-squared: 0.9754,
Adjusted R-squared: 0.9729
F-statistic: 396.4 on 1 and 10 DF, p-value: 2.243e-09
> plot(planta$Temp.)
Avaliando as probabilidades Pr(>|t|), verifica-se que o coeficiente da Temperatura diferente de Zero,

comparando a qualquer nvel de significncia, j que a probabilidade da ordem de 10-9. O coeficiente de
interceptao (coeficiente linear) por sua vez, no pode ser considerado como diferente de Zero j que a
probabilidade muito alta, ou ainda, adotando um nvel de significncia, = 5%, a hiptese nula, H0: B0
= 0, no poder ser rejeitada.
Concluso: 0 = 0 e 1 = 9.3036
37
70
60
50
40
20
30
planta$Temp.
10
12
10
12
Index
600
500
400
300
200
planta$`Vazo/1000`
> plot(planta$`Vazo/1000`)
6
Index
> plot(planta$Temp., planta$`Vazo/1000`)
38
600
500
400
300
200
planta$`Vazo/1000`
20
30
40
50
60
70
planta$Temp.
> hist(modelo$residuals)
6
4
0
Frequency
10
Histogram of modelo$residuals
-20
20
40
60
80
100
modelo$residuals
> boxplot(modelo$residuals)
39
80
60
40
20
0
> #Teste de Shapiro-Wilk -> Verificar se um conjunto de dados normal
> shapiro.test(modelo$residuals)
Shapiro-Wilk normality test
data: modelo$residuals
W = 0.41436, p-value = 4.413e-06
> boxplot(planta$Temp.)
20
30
40
50
60
70
Avaliando o p-valor do Teste de Normalidade, conclui-se que os resduos so normais, j que o p-valor
muito pequeno quando comparado a qualquer nvel de significncia.
> boxplot(planta$`Vazo/1000`) #Verificar pontos aberrantes (Valores atpicos)
40
600
500
400
300
200
>
>
>
>
#Grficos de avaliao de modelo

par(mar=c(4,5,2,2))
par(mfrow = c(2, 2))
plot(modelo)
-20
400
500
600
-1.5
-1.0
-0.5
0.0
0.5
Fitted values
Theoretical Quantiles
Scale-Location
Residuals vs Leverage
400
500
600
700
1.0
1.5
10
1
0.5
Standardized residuals
1.5
1.0
0.5
300
700
10
200
300
0.0
200
10
10
20 40 60 80
Normal Q-Q
Residuals
Residuals vs Fitted
Cook's distance
8
0.00
Fitted values
0.05
0.10
0.15
0.20
0.25
0.30
Leverage
> #R o valor que explica o quanto o modelo representa os dados.

> #R Ajustado - Penalizao do R pelo nmero de parmetros que se adiciona e tamanho amostral
a) Assuma que o modelo de regresso linear simples apropriado e ajuste o modelo de regresso
relacionando a vazo de vapor (y) e a temperatura (x).
Vazao = -3,26 + 9,30*Temp
b) Avalie a significncia do modelo de regresso.
Multiple R-squared: 0.9754,
Adjusted R-squared: 0.9729
F-statistic: 396.4 on 1 and 10 DF, p-value: 2.243e-09
41
O coeficiente de determinao mltipla, R e o R ajustado servem como parmetro para explicar a

variabilidade dos dados observados usando as variveis independentes. Como o modelo tem uma nica
varivel independente, a Temperatura, e tanto o R mltiplo quanto o R ajustado so muito prximo de 1,
pode-se concluir que 97% dos dados de vazo observados so explicados pela variao da temperatura.
A significncia melhor avaliada a partir da anlise de varincia que retorna uma estatstica F = 396.4
com p-valor da ordem de 10-9 que, para as hipteses:
H 0 : 1=0
, no existe relao linear
H 1: 1 0
, existe relao linear
e para um nvel de significncia muito pequeno, por exemplo =0,01 que retorna uma estatstica F =
F0,01 ;1 ;n2=F 0,01 ;1 ;10=6055,85
6055,85,
, conclui-se que a hiptese nula pode ser rejeitada, ou seja,
para um nvel de confiana de 99% existe relao linear entre Vazo e Temperatura (
1 0
).
c) Analise o significado de cada p-valor (P) apresentado ao lado

Predictor t-valor p-valor
fazendo-se uso do teste de hipteses. Voc faria alguma sugesto
Constant
-0.14
0.890
de alterao do seu modelo de regresso?
Temp.
19.91
0.000
Avaliando as probabilidades Pr(>|t|), verifica-se que o coeficiente da Temperatura diferente de Zero,
comparando a qualquer nvel de significncia, j que a probabilidade da ordem de 10-9. O coeficiente de
interceptao (coeficiente linear) por sua vez, no pode ser considerado como diferente de Zero j que a
probabilidade muito alta, ou ainda, adotando um nvel de significncia, = 5%, a hiptese nula,
H 0 : 0 =0
, no poder ser rejeitada.
Concluso:
=0e
= 9.3036
QUESTO RLM2 SINTETIZAR

Como identificar a existncia de correlao no linear entre as variveis? Qual a influncia de pontos
aberrantes em um modelo de regresso?
Uma relao linear uma tendncia nos dados que pode ser modelada por uma linha reta.
####
Uma relao linear uma tendncia nos dados que pode ser modelada por uma linha reta que mostra uma
taxa estvel de aumento ou reduo.
Se a relao entre duas variveis no linear, a taxa de aumento ou reduo pode mudar quando uma
varivel muda, causando um "padro curvo" nos dados. Essa tendncia curva pode ser melhor modelada
por uma funo no linear
####
A associao linear entre duas variveis avaliada usando correlao. Para predizer o valor de uma
varivel contnua a partir de uma outra varivel e para descrever a relao entre duas variveis utiliza-se
regresso (veja o prximo captulo).
O primeiro estgio em qualquer um dos casos produzir um grfico de pontos dos dados para obter
alguma ideia da forma e grau de associao entre duas variveis.
Para obter uma medida do grau de associao da relao linear entre duas variveis, usamos o coeficiente
de correlao
42
Somente relaes lineares so detectadas pelo coeficiente de correlao que acabamos de descrever
(tambm chamado coeficiente de correlao de Pearson). Nos dados abaixo, mesmo existindo uma clara
relao (no-linear) entre e , o coeficiente de correlao zero. Sempre faa o grfico dos dados de
modo que voc possa visualizar tais relaes.
####
A anlise grfica da relao entre variveis importante, mas os olhos nem sempre so um bom juiz da
intensidade de uma relao linear.
Os diagramas a seguir ilustram precisamente os mesmos dados, mas o grfico inferior menor em um
campo mais amplo (escala diferente).
Nossos olhos podem ser enganados por uma mudana de escalas, ou pela quantidade de espao em
branco em torno do aglomerado dos pontos.
Deve-se, ento, utilizar uma medida numrica para suplementar o grfico.
Coeficiente de Correlao Linear (r)
r -> mede o grau de relacionamento linear entre valores emparelhados x e y em uma
amostra.
Mede a intensidade e a direo da relao linear entre duas variveis quantitativas.
Chamado tambm de Coeficiente de Correlao de Pearson (Karl Pearson, 1857-1936).
Quanto mais prximo de 1: maior correlao negativa
Quanto mais prximo de 1: maior correlao positiva
Quanto mais prximo de 0: menor a correlao linear
O valor de r no varia se todos os valores de qualquer uma das variveis so convertidos para uma escala
diferente.
O valor de r no afetado pela escolha de x ou y. Permutando x e y, r permanece inalterado.
r: s mede a intensidade ou grau de relacionamentos lineares. No serve para medir intensidade de
relacionamentos no lineares.
http://leg.ufpr.br/~paulojus/CE003/ce003/node8.html
https://www.eecis.udel.edu/~portnoi/classroom/prob_estatistica/2006_2/lecture_slides/aula20.pdf
http://support.minitab.com/pt-br/minitab/17/topic-library/modeling-statistics/regression-andcorrelation/basics/what-is-a-linear-relationship/
http://support.minitab.com/pt-br/minitab/17/topic-library/modeling-statistics/regression-andcorrelation/basics/linear-nonlinear-and-monotonic-relationships/
O coeficiente de correlao sensvel a pontos aberrantes, portanto importante que o diagrama de
pontos seja analisado.
O coeficiente de determinao mltipla, R e o R ajustado servem como parmetro para explicar a
variabilidade dos dados observados usando as variveis independentes. Quando R ajustado mais
prximo de 1, indica que existe relao linear, no entanto deve-se tomar cuidado pois a adio de
variveis aumenta o valor de R.
Para avaliar a existncia ou no da relao linear, pode-se recorrer ao teste de hipteses, onde avalia-se a
significncia do modelo atravs das hipteses:
H 0 : i=0
, no existe relao linear
43
H 1: i 0
Definido um
, existe relao linear
e calculando a estatstica F possvel realizar o teste de hipteses para verificar a
existncia da relao linear.

MQ regresso
Fcalculado =
MQresiduos
Encontra-se o valor de F para o nvel de significncia estabelecido e, comparando com o
temos:
F ; glN ; glD < Fcalculado
Se
, rejeita-se a hiptese nula,
H0
Fcalculado
, portanto, conclui-se que os dados indicam
relao linear. Caso contrrio, no h indcios que indiquem a existncia da relao linear.
possvel ainda avaliar a existncia de correlao no-linear a partir da anlise grfica dos resduos, de
modo que, atravs da anlise dos resduos pode-se observar comportamento diferente do comportamento
linear ou outras inadequaes do modelo, como dependncia dos erros, desgaste, ou seja, varincia noconstante.
QUESTO RLM3 ANULADA

Os dados de amostra x1, x2, ..., xn algumas vezes representam uma srie temporal, onde xi = valor
observado de uma varivel resposta x no momento t. Frequentemente, a srie observada mostra grande
variao aleatria, o que dificulta o estudo do comportamento de longo prazo. Nessas situaes,
desejvel produzir uma verso suavizada da srie. Uma das tcnicas usadas a suavizao exponencial.
xt
O valor de uma constante de suavizao escolhido (0 < < 1). Ento, com
xt
xt x t 1 x t 1
instante t, definimos
= x1, e para t = 2, 3, ..., n,
.
= valor ajustado no
a) Considere a seguinte srie temporal em que xt = temperatura de um efluente em uma estao de

tratamento de esgoto no dia t: 47, 54, 53, 50, 46, 46, 47, 50, 51, 50, 46, 52, 50, 50. Plote cada coordenada
xt em relao a t em um sistema bidimensional (um grfico de srie temporal). Parece haver algum
padro?
44
xt
b) Calcule o
suavizada?
xt
usando = 0,1. Repita para = 0,5. Que valor de fornece uma srie
xt 1 xt 1 1 xt 2
c) Substitua
xt
no lado direito da expresso de
xt 3
mais
xt 2
e ento substitua
em termos
xt
de xt-2,
e assim por diante. De quantos valores de xt, xt-1, ..., x1,
coeficiente de xt-k quando k aumenta?
depende? O que acontece com o
xt
d) Consulte o item (c). Se t for grande, qual a sensibilidade de

Explique.
xt
em relao ao valor inicial
= x1?
QUESTO RLM4
Considerando que o modelo de predio da Demanda Bioqumica de Oxignio (DBO) construdo em sala
de aula (05/05/08) no foi satisfatrio, novos dados foram fornecidos pela empresa e so apresentados na
planilha Q4 do arquivo Dados. Construa um modelo de regresso linear mltipla para predio da DBO
fazendo-se uso dos novos dados fornecidos (planilha Q4), analise criticamente os resultados obtidos e
sugira meios para melhoria do modelo.
Nomenclatura (Planilha Q4)
in: entrada do volume de controle
out: sada do volume de controle
Dados do efluente:
Vaz: Vazo
Col: Cor
Cond: Condutividade
DBO: Demanda bioqumica de oxignio
DQO: Demanda qumica de oxignio
Nam: Nitrognio amoniacal
NN: Nitrognio nitrato
SS: Slidos suspensos
T: Temperatura da gua
Dados de produo:
PCel: Produo de celulose
PPapel: Produo de papel
Outros:
Chuva: Precipitao diria
QUESTO RLM5
Acredita-se que a vazo de vapor (em ton/h) usada mensalmente por uma planta qumica est relacionada
com a temperatura ambiente (em oF) daquele ms. Os usos e temperaturas dos ltimos anos esto
mostradas na tabela que segue:
QUESTO REPETIDA
Ms
Temp.
Vazo/1000
Jan
21
185,79
Fev
24
214,47
Mar
32
288,03
Abr
47
424,84
Mai
50
454,58
Jun
59
539,03
Jul
68
621,55
Ago
74
675,06
Set
62
562,03
Out
50
542,93
Nov
41
369,95
Dez
30
273,98
a) Assuma que o modelo de regresso linear simples apropriado e ajuste o modelo de regresso
relacionando a vazo de vapor (y) e a temperatura (x).
45
b) Avalie a significncia do modelo de regresso.

c) Analise o significado de cada p-valor (P) apresentado ao lado
fazendo-se uso do teste de hipteses. Voc faria alguma sugesto
de alterao do seu modelo de regresso?
Predictor T P
Constant
-0.14 0.890
Temp.
19.91 0.000
QUESTO RLM6 SINTETIZAR

O modelo de regresso linear pode ser extrapolado? Como definir o domnio de aplicao de um
modelo de regresso linear? Justifique sua resposta
Relaes de regresso so vlidas somente para valores do regressor dentro da faixa dos dados originais.
A relao linear que temos tentado considerar pode ser vlida sobre toda a faixa original de x, mas ela
pode ser improvvel de ser mantida se extrapolarmos isto , se usarmos valores de x alm daquela
faixa. Em outras palavras, medida que nos movemos alm da faixa de valores de x para a qual os dados
foram coletados, tornamo-nos menos certos acerca da validade do modelo adotado. Modelos de regresso
no so necessariamente vlidos para finalidades de extrapolao.
Agora, isso no significa nunca extrapole. H situaes com problemas em cincias e em engenharia em
que a extrapolao de um modelo de regresso a nica maneira para abordar o problema. No entanto, h
uma grande advertncia para ser cauteloso. Uma extrapolao modesta pode ser perfeitamente certa em
muitos casos, porm uma grande extrapolao quase sempre no produzir resultados aceitveis.
MONTGOMERY
Realizar previses sobre o comportamento futuro de algum fenmeno da realidade.
Neste caso extrapola-se para o futuro as relaes de causa-efeito j observadas no passado entre as
variveis.
Extrapolao: A relao linear assumida para as variveis resposta e explicativa no pode ser estendida
para fora do domnio de atuao dos dados observados, a no ser que haja informao adicional sobre a
validade do modelo para esse domnio estendido.
Modelos de regresso linear no costumam ser vlidos para fins de extrapolao, apenas de
interpolao
O modelo de regresso uma representao de uma massa de dados obtidos experimentalmente,
portanto, esse modelo dever ser usado para fins de interpolao. Havendo elementos que justifiquem a
possibilidade de extrapolao e ainda, tomando todo cuidado com essa extrapolao, possvel faz-la.
QUESTO RLM7 OK
Um modelo linear multivariado foi construdo para representar uma varivel de um processo. Para tanto,
foi utilizado o mtodo Stepwise. Sendo voc um especialista do processo, sugira um meio de interferir na
seleo das variveis pelo mtodo Stepwise; justifique sua resposta considerando inclusive conceitos
estatsticos.
Qualquer procedimento para seleo ou excluso de variveis de um modelo baseado em um algoritmo
que checa a importncia das variveis, incluindo ou excluindo-as do modelo se baseando em uma regra
de deciso. A importncia da varivel definida em termos de uma medida de significncia estatstica do
coeficiente associado varivel para o modelo. Essa estatstica depende das suposies do modelo.
No Stepwise da regresso linear um teste F usado desde que os erros tenham distribuio normal.1
1
http://www.portalaction.com.br/analise-de-regressao/4251-selecao-stepwise
46
Sabendo disso, o especialista, conhecendo o processo estudado e sabendo da importncia ou no de
determinadas variveis, poder interferir na seleo de variveis alterando o nvel de significncia, ,

do teste.
A regresso stepwise padro adiciona e remove preditores conforme necessrio em cada etapa. O
procedimento para quando todas as variveis fora do modelo possuem valores p maiores que o alfa
especificado para incluso e quando todas as variveis no modelo possuem valores p menores que ou
iguais aos valores alfa para excluso.
Varivel sai do modelose p-valor
Varivel entra no modelo
se p-valor
Dessa forma, aumenta-se o nvel de significncia para permitir que determinada varivel entre no modelo
e diminui-se o nvel de significncia para fazer com que determinada varivel saia do modelo, tendo em
vista a importncia da varivel em questo atravs do teste de hipteses.
Problemas com a regresso stepwise:2
Quando duas variveis preditoras so altamente correlacionadas, possvel que

apenas uma fique no modelo mesmo se a outra for importante.
Como o procedimento ajusta muitos modelos, ele pode selecionar aqueles que
ajustam os dados bem apenas por acaso.
A regresso stepwise pode no parar necessariamente com o modelo com o valor
R mais alto possvel para um nmero especificado de preditores.
Procedimentos automticos no consideram conhecimento especializado que o
analista poderia ter sobre os dados. Por isso o modelo selecionado pode no ser o
melhor sob um ponto de vista prtico.
PLANEJAMENTO DE EXPERIMENTOS
QUESTO PE1
Um planejamento de experimentos foi realizado com o objetivo de aumentar a atividade de uma
determinada enzima em funo do pH e temperatura. Desta forma o experimento foi realizado de acordo
com a tabela a seguir:
Fatores
A
B
+
-
Ordem
1
2
1
218
67
Repeties
2
121
73
Mdias
3
170
76
200
72
2
http://support.minitab.com/pt-br/minitab/17/topic-library/modeling-statistics/regression-andcorrelation/basics/basics-of-stepwise-regression/
47
+
+
3
4
402
222
399
258
411
270
404
250
Mdias = (Rep.1 + Rep.2 + Rep.3)/3

?
Observar valor errado.
Repetio 2 = 211 resulta em mdia = 199,67
De acordo com os dados,
a) Calcule os efeitos principais, o efeito sinrgico, e indique as condies de maior atividade enzimtica.
Efeito de A = -141; Efeito de B = 191; Efeito AB = -13;
A atividade da enzima diminui, em mdia, em 141 unidades, quando o fator A passa do nvel inferior para
o nvel superior.
A atividade da enzima aumenta, em mdia, em 191 unidades, quando o fator B passa do nvel inferior
para o nvel superior.
Avaliando o efeito sinrgico AB, percebe-se que h uma significativa interao entre estas variveis, no
entanto, essa interao no se mostra to significativa em vista dos efeitos individuais.
Quando AB passa do nvel inferior para o nvel superior, a atividade da enzima diminui, em mdia, em 13
unidades.
Concluso: Deve-se adotar A com nvel inferior (-1) e B com nvel superior (+1) para que se tenha
mximo aumento da atividade da enzima.
b) Critique a forma que os experimentos foram realizados.
1. Foram realizados na ordem, no uma boa opo, no entanto deve ter sido feito observando a
independncia nos resultados ou em funo da impossibilidade de alterar os fatores em outra ordem que
no a apresentada.
2. Os dados foram coletados em triplicatas e ento calculadas as mdias para cada combinao.
Essa medida fornece uma melhor confiabilidade dos dados e permite inferncias do processo (?).
3. Os nveis dos fatores no so apresentados na tabela.
4. O valor obtido para a mdia do primeiro fator no corresponde aos valores obtidos nas
repeties.
5. Deveriam ser informadas as condies e os momentos de coleta das observaes, j que em
muitos problemas a forma como uma varivel coletada e o tempo at a coleta so fatores importantes a
serem considerados.
c) Caso realizssemos o experimento inserindo mais uma varivel (tipo de enzima), quais devem ser as
premissas adotadas para alcanar o modelo de regresso?
Embora j se conhece a natureza de algumas variveis atravs do experimento previamente
realizado, todos os tratamentos do novo experimento devero ser considerados, pois no se conhece a
sinergia entre as variveis j estudadas e a nova varivel (tipo de enzima).
Na impossibilidade de realizar o experimento com todos os tratamentos, alguns devero ser
selecionados criteriosamente a fim de abranger toda a natureza do experimento.
1. Definir os nveis do(s) fator(es) para verificar quantos tratamentos sero necessrios avaliar,
atravs do planejamento fatorial: n1 x n2 x n3, ou n^k onde k o nmero de fatores com n nveis cada.
2. Verificar quantos experimentos podero ser realizados.
3. Selecionar tratamentos a serem experimentados, na impossibilidade de realizar todos. Essa
seleo poder considerar as variveis j observadas no experimento anterior de forma a otimizar o
entendimento acerca dos novos resultados.
Fatorial completo x Fatorial fracionrio
Fatorial fracionrio: Tratamento = n^(k-1); Usa uma frao de todo o planejamento fatorial.
4. Deve-se observar ainda o grau de confundimento dos fatores.
48
QUESTO PE2
Um experimento conhecido por Teste de Jarro realizado para encontrar-se as melhores condies
operacionais para a quebra da emulso leo-gua com uma combinao de cloreto frrico e cido
sulfrico de forma que o leo livre possa ser removido por flotao. Um experimento fatorial completo
foi realizado, obtendo-se os resultados apresentados ao lado.
a) Estime e analise os efeitos principais e de interao
do cido sulfrico e do cloreto frrico e indique qual a
melhor condio para a separao da emulso leo-gua.
b) Proponha meios de estimar a significncia dos
resultados obtidos.
c) Qual a vantagem em se realizar cada experimento em
duplicata?
QUESTO PE3
Deseja-se maximizar o rendimento de uma reao e para tanto, foi realizado um planejamento
experimental. Que concluses se pode tomar a partir do experimento realizado cujos resultados so
apresentados abaixo. Critique a forma como os fatores foram estabelecidos.
Corrida
Ordem
Temperatura
(oC)
Tempo de
reao
(min)
Rendimento
(%)
40
Baixo
57
61
60
Baixo
92
88
40
Alto
55
53
60
Alto
66
70
Analisando os dados, verifica-se que o rendimento maximizado quando a Temperatura 60C e o

Tempo de reao Baixo; no entanto h algumas crticas quanto ao modelo e portanto essa concluso
deve ser observada com cuidado:
1. Todos os tratamentos foram considerados.
2. A ordem foi alterada porm no privilegiou mudanas significativas dos nveis dos
fatores, j que s altera uma varivel por vez, da mesma forma que ocorreria se a
ordem no fosse alterada.
49
3. Os dados de rendimento foram obtidos em duplicatas. As mdias para cada

tratamento devem ser calculadas.
4. Os Tempos de reao so anunciados em minutos, porm so indicados atravs dos
nveis Baixo e Alto, assim no se sabe qual esse tempo, dificultando a inferncia
sobre o processo.
5. Necessrio calcular os efeitos principais e os efeitos sinrgicos.
QUESTO PE4
Um experimento conhecido por Teste de Jarro realizado para encontrar-se as melhores condies operacionais
para a quebra da emulso leo-gua com uma combinao de cloreto frrico e cido sulfrico de forma que o leo
livre possa ser removido por flotao. A concentrao inicial do leo de 5000 ml/L e dois experimentos
sequenciais foram realizados. O que se pode concluir dos experimentos 1 e 2? Critique a forma em que os
experimentos foram realizados.
FeCl3 (mg/L)
H2SO4 (mg/L)
leo (mg/L)
1,0
0,1
4200
Experimento 1
1,1
1,2
1,3
0,1
0,1
0,1
2400
1700
175
1,4
0,1
650
Experimento 2
1,3
1,3
1,3
0
0,1
0,2
1600
175
500
QUESTO PE5
Considere que se deseja realizar experimentos considerando trs fatores e uma resposta e que apenas 5
experimentos possam ser realizados.
a) Proponha um planejamento de experimentos e indique que experimentos sero realizados.
Justifique sua resposta.
b) Indique qual a resoluo (grau de confundimento) e que fatores sero confundidos considerando
sua resposta em (a). Justifique sua resposta.
c) Como voc avaliaria a existncia de relaes no lineares entre fatores e respostas? Justifique sua
resposta.
CONTROLE ESTATSTICO DE PROCESSOS
QUESTO CEP1
O sistema de controle de qualidade de cinco bombas apresenta as alturas das bases de uma parte da
bomba (medidas realizadas em polegadas) como se pode observar na tabela a seguir.
50
Avalie os dados da tabela acima e construa o(s) grfico(s) de controle mais adequado(s).
Justificando e indicando as etapas para o seu desenvolvimento.
b) Qual a premissa principal a ser considerada na construo da carta de controle de individuais (Xbarra) e de subgrupos (X-barra-barra)?
a)
Amostras
1
2
3
4
5
6
7
8
9
10
11
12
13
14
B1
0,831
0,834
0,836
0,833
0,830
0,829
0,835
0,818
0,841
0,832
0,831
0,831
0,838
0,815
B2
0,829
0,826
0,826
0,831
0,831
0,828
0,833
0,838
0,831
0,828
0,838
0,826
0,822
0,832
B3
0,8400
0,8312
0,8220
0,8310
0,8330
0,8320
0,8300
0,8340
0,8330
0,8320
0,8270
0,8320
0,8300
0,8310
B4
0,836
0,831
0,831
0,835
0,831
0,828
0,829
0,835
0,831
0,836
0,844
0,828
0,835
0,831
B5
0,826
0,831
0,816
0,833
0,820
0,841
0,841
0,830
0,832
0,825
0,826
0,827
0,830
0,838
QUESTO CEP2
O programa guapura vem atuando na reduo do consumo de gua da UFBA, tendo obtido resultados
significativos atravs de um acompanhamento sistemtico vianet do consumo por unidade
(http://teclim.ufba.br/aguapura/index.php, ver exemplo abaixo). Considerando conceitos da estatstica,
proponha outra(s) forma(s) de acompanhamento do consumo de gua da UFBA. Descreva todas as
premissas e implicaes consideradas na(s) sua(s) proposta(s).
Consumo de gua dirio ( esquerda) e mensal

(acima) da Escola Politcnica. Finais de semana so
destacados em amarelo (grfico esquerda).
QUESTO CEP3
Dois grficos de controle (a) e (b) foram construdos considerando dados de subgrupos de tamanho 5 e 4,
respectivamente. Analise criticamente estes grficos de controle e discuta se eles poderiam ser utilizados
para o acompanhamento de processos.
51
Xbar-R Chart of dados
Xbar-R Chart of dados

22,8
16
Sample Mean
Sample Mean
UCL=15,049
14
__
X=11,530
12
10
21,6
UCL=21,395
20,4
__
X=20,154
19,2
LCL=18,912
18,0
8
LCL=8,012
1
11
13
15
17
19
21
23
25
11
15
17
19
21
23
25
UCL=4,550
UCL=12,90
12
4
Sample Range
Sample Range
13
Sample
Sample
9
_
R=6,1
6
3
0
3
11
13
15
17
19
21
23
_
R=2,152
2
1
0
LCL=0
1
LCL=0
1
25
11
13
15
17
19
21
23
25
Sample
Sample
(b)
(a)
QUESTO CEP4
O contedo de cobre, em ppm, de um banho de platina medido trs vezes ao dia e os resultados de Xbarra e R so apresentados na tabela abaixo. Sabendo-se que os limites de especificao so 6,0 1,0: a)
Indique se esse processo est sobre controle (Utilize apenas a regra 1: pontos fora dos limites de controle)
e b) Estime a capabilidade do processo e interprete o resultado.
Dia
X-barra
1
5,45
1,21
Dia
X-barra
14
7,01
1,45
2
5,3
9
0,9
5
15
5,8
3
1,3
7
3
6,8
5
1,4
3
16
6,3
5
1,0
4
4
6,7
4
1,2
9
17
6,0
5
0,8
3
5
5,8
3
1,3
5
18
7,11
1,3
5
6
7,2
2
0,8
8
19
7,3
2
1,0
9
7
6,3
9
0,9
2
20
5,9
0
1,2
2
8
6,5
0
1,1
3
21
5,5
0
0,9
8
9
7,1
5
1,2
5
22
6,3
2
1,2
1
10
5,9
2
1,0
5
23
6,5
5
0,7
6
11
6,4
5
0,9
8
24
5,9
0
1,2
0
12
5,3
8
1,3
6
25
5,9
5
1,1
9
13
6,0
3
0,8
3
QUESTO CEP5
Barras de chocolate so produzidas e a cada 15 minutos 3 barras so retiradas da linha e pesadas. Cartas
de controle para mdia e amplitude so construdas para monitorar o peso dessas barras; o tamanho da
amostra 3 e X-barra e R so estimadas a cada 28 amostras, obtendo-se, respectivamente, 170,785g e
0,515g.
a) Estime os limites de controle para X-barra e R.
b) Estime o desvio padro deste processo. Com base na carta de controle (X-barra) abaixo, verifique se
este valor estimado representa a variabiliade do processo (justifique sua resposta).
52
Xbar-R Chart of Peso

1
171.6
Sample Mean
UCL=171.313
171.2
_
_
X=170.785
170.8
170.4
LCL=170.258
170.0
1
1
10
13
16
19
22
25
28
Sample
1.5
Sample Range
UCL=1.327
1.0
0.5
10
13
10
16
19
22
25
28
0.0
_
R=0.515
LCL=0
1
Sample
D
4
3,
27
2,
57
2,
28
2,
11
2,
00
1,
92
1,
86
1,
82
1,
78
0,
08
0,
14
0,
18
0,
22
1,
88
1,
02
0,
73
0,
58
0,
48
0,
42
0,
37
0,
34
0,
31
A
2
A1
A2
d2
D3
D4
E2
3,7
6
1,88
1,12
8
3,2
7
2,6
6
2,3
9
1,02
3
1,69
3
2,5
7
1,7
7
1,8
8
0,72
9
2,05
9
2,2
8
1,4
6
QUESTO CEP6
53
O sistema de controle de qualidade de cinco bombas apresenta as alturas das bases de uma parte da
bomba (medidas realizadas em polegadas) como se pode observar na tabela a seguir.
a) Avalie os dados da tabela acima e construa o(s) grfico(s) de controle mais adequado(s).
Justificando e indicando as etapas para o seu desenvolvimento.
b) Qual a premissa principal a ser considerada na construo da carta de controle de individuais (Xbarra) e de subgrupos (X-barra-barra)?
Amostras
1
2
3
4
5
6
7
8
9
10
11
12
13
14
B1
0,831
0,834
0,836
0,833
0,830
0,829
0,835
0,818
0,841
0,832
0,831
0,831
0,838
0,815
B2
0,829
0,826
0,826
0,831
0,831
0,828
0,833
0,838
0,831
0,828
0,838
0,826
0,822
0,832
B3
0,8400
0,8312
0,8220
0,8310
0,8330
0,8320
0,8300
0,8340
0,8330
0,8320
0,8270
0,8320
0,8300
0,8310
B4
0,836
0,831
0,831
0,835
0,831
0,828
0,829
0,835
0,831
0,836
0,844
0,828
0,835
0,831
B5
0,826
0,831
0,816
0,833
0,820
0,841
0,841
0,830
0,832
0,825
0,826
0,827
0,830
0,838
QUESTO AM1
a) Descreva uma situao em que seria
necessrio o uso das componentes principais
como variveis independentes de um modelo de
regresso linear multivariado.
b) Considerando o grfico abaixo, voc excluiria
alguma varivel da sua anlise? Justifique sua
resposta
Segundo Componente Principal
ANLISE MULTIVARIADA
1.0
Var.5
0.8
0.6
0.4
0.2
Var.4
Var.3
0.0
Var.2
Var.1
-0.2
-0.4
-0.50
-0.25
0.00
0.25
0.50
Primeiro Componente Principal
QUESTO AM2
Os grficos abaixo foram gerados para a anlise multivariada dos dados do sistema de tratamento de
efluentes discutidos em sala. Descreva o uso de cada grfico.
54
Vaz_in
Segunda componente
Primeira componente
0.75
0.50
0.25
DQO_in
0.00
DBO_in
-0.25
pH_in
-0.50
-0.75
SS_in
-0.50
-0.25
0.00
0.25
0.50
1
0
-1
-2
-3
-4
-5
Segunda componente
-3
-2
-1
Primeira componente
QUESTO AM3
Explique quais as vantagens em transformar os variveis originais em componentes principais e utilizlas na construo de um modelo de regresso.
QUESTES UNIFICADAS
QU1
A demanda bioqumica de oxignio (DBO em mg/L) foi obtida a partir de uma pesquisa em resduos
industriais. Noventa e nove (99) observaes foram levantadas a cada 4 horas, fornecendo seis (6)
observaes dirias para 16 dias, mais trs (3) observaes no 17o dia. O entendimento do
comportamento horrio e composto (mdia diria) ser necessrio para projetar o tratamento do processo.
Os padres de variao tambm precisam ser vistos porque eles influenciam, por exemplo, a
exeqibilidade em utilizar-se unidades de equalizao do processo para reduzir as variaes de carga de
DBO. Os dados podem ter propriedades interessantes, assim a apresentao deve ser completamente clara
e no estar aberta para interpretaes confusas.
Quadro 1: Estatsticas descritivas da DBO (mg/L)
Estatsticas descritivas: DBO mdia (mg/L)
Varivel
Mdia DP Mnimo Q1 Mediana
DBO mdia (mg/L) 683,9 105,3 557,0 585,9 652,3
Q3 Mximo Assimetria Curtose

770,8 925,5
0,70
-0,06
Estatsticas descritivas: DBO (mg/L) em 4h; 8h; 12h; 16h; 20h; 24h
DBO(mg/L) Mdia
4h
701,9
8h
650,9
12h
687,5
16h
760,6
20h
695,1
24h
630,0
DP. Desvio Padro
DP
307,8
303,9
289,5
305,4
316,4
280,7
Mnimo
316,0
221,0
207,0
233,0
235,0
266,0
Q1
405,0
369,5
429,5
511,0
380,8
370,3
Mediana Q3
717,0 1027,0
691,0 898,0
659,0 948,5
826,5 1055,5
693,0 970,0
576,0 822,8
Mximo Assimetria Curtose

1174,0
0,23
-1,46
1105,0
-0,02
-1,41
1187,0
0,35
-0,85
1185,0
-0,35
-1,07
1158,0
0,03
-1,46
1142,0
0,47
-0,99
Figura 1: Grfico de tendncias da DBO (mg/L)
55
1200
DBO (mg/L)
1000
800
600
400
200
1
10
20
30
40
50
60
70
80
90
100
Observao em intervalos de 4 horas
Figura 2: Grfico de tendncias (esquerda) e box plot (direita) da DBO (mg/L) por hora amostrada.
5
10
8h
15
1000
800
600
800
900
600
600
400
400
900
900
600
600
300
300
1
10
1000
300
200
1200
1200
1200
1200
1000
DBO (mg/L)
1
4h
1200
1200
1000
800
600
800
400
600
400
15
200
1
10
15
12
16
20
24
Tempo (h)
Dias
Figura 3: Grfico de pontos da DBO (mg/L) total (acima) e por hora (abaixo)
200
400
600
800
1000
1200
Tempo (h)
DBO (mg/L)
4
8
12
16
20
24
280
420
560
700
840
980
1120
DBO (mg/L)
Figura 4: Grfico de probabilidade dos valores individuais (esquerda), mdio (direita) e por hora (abaixo) da DBO (mg/L)
99,9
99
95
90
80
60
40
Percent
Percent
95
20
5
0,1
-500
80
70
60
50
40
30
20
10
5
500
1000
DBO (mg/L)
1500
1
400
500
600
700
800
900
1000
DBO mdia (mg/L)
56
4h
Probability
0,99
8h
0,99
0,99
0,9
0,9
0,9
0,5
0,5
0,5
0,1
0,1
0,1
0,01
0,01
0
1000
0,01
2000
800
1600
0,99
0,99
0,99
0,9
0,9
0,9
0,5
0,5
0,5
0,1
0,1
0,1
0,01
0,01
0
1000
800
1600
0,01
2000
1000
2000
800
1600
Figura 5: Grfico de controle da mdia da DBO (mg/L). LSC: limite superior de controle e LIC: limite inferior de controle
DBO mdia (mg/L)
1200
LSC=1195
900
_
_
X=687
600
300
LIC=180
1
11
13
15
17
Tempo (dias)
a) Do ponto de vista estatstico, qual a importncia de avaliar a concentrao de DBO por perodo de
amostragem (4h, 8h, 12h, 16h, 20h, e 24h) ao invs de utilizar unicamente a DBO mdia para as anlises
posteriores?
b) Avalie se a concentrao de DBO horria mdia varia significativamente durante 24h de operao.
Descreva todas as premissas necessrias para basear sua anlise. Quando necessrio, considere um nvel
de confiana de 90%.
c) Um dos critrios estabelecidos para avaliar a inviabilidade tcnica de instalao de uma unidade de
tratamento da DBO baseada na avaliao da probabilidade em que a DBO horria exceda os limites de
especificao.Tests
Considera-se
o processo
de tratamento invivel se a probabilidade da DBO (mg/L)
performed with unequal
sample sizes
ultrapassar o seu valor mdio + 10% for igual ou superior a 30%. Pergunta-se, este processo vivel
tecnicamente? Justifique sua resposta.
QU2
Deseja-se caracterizar a qualidade do efluente tratado de uma indstria de papel e celulose atravs do
parmetro demanda bioqumica de oxignio (DBO_out), medido na sada do sistema de tratamento
orgnico. Os demais parmetros de qualidade apresentados so analisados no afluente da estao de
tratamento: demanda bioqumica de oxignio (DBO_in), demanda qumica de oxignio (DQO_in),
pH (pH_in), slidos em suspenso (SS_in) e vazo (Vaz_in). Na Figura 1 e Quadro 1 so apresentados
alguns grficos e estatsticas utilizados para o monitoramento do processo. (6,0 PONTOS)
57
Figura 1: Grficos de caixa (box-plot), pontos (dot plot), histograma e de tendncia dos parmetros de
qualidade do afluente (in) e efluente tratado (out).
Valores escalonados de 0 a 1
0,8
0,7
DBO_out
0,6
DBO_in
DQO_in
0,5
0,4
pH_in
SS_in
0,3
Vaz_in
0,2
DBO_out
DBO_in
DQO_in
pH_in
SS_in
Vaz_in
0,24
0,32
0,3 0,4 0,5 0,6 0,7

DBO_out
0,40
DBO_in
0,48
0,56
0,64
0,72
Valores escalonados de 0 a 1
DBO_out
DQO_in
15
30
45
DBO_in
DQO_in
0,8
30
0,6
Frequencia
20
0,4
10
pH_in
SS_in
Vaz_in
pH_in
0,8
SS_in
0,2
Vaz_in
30
0,6
20
0,4
10
0,2
0
0,3 0,4 0,5 0,6 0,7
15
30
45
15
30
45
Amostras em ordem cronolgica
0,3 0,4 0,5 0,6 0,7
Quadro 1: Estatsticas descritivas dos parmetros de qualidade do afluente (in) e efluente tratado (out).
Estatsticas descritivas
Varivel
DBO_out
DBO_in
DQO_in
pH_in
SS_in
Vaz_in
Mdia
0,457
0,504
0,577
0,528
0,342
0,562
DP
0,0766
0,0696
0,0689
0,0300
0,0800
0,0418
Mnimo
0,326
0,303
0,364
0,479
0,231
0,346
Q1
0,410
0,464
0,540
0,510
0,281
0,550
Mediana
0,453
0,509
0,569
0,521
0,336
0,573
Q3
0,498
0,533
0,614
0,540
0,391
0,588
Mximo
0,723
0,680
0,766
0,638
0,668
0,613
Tamanho amostral
52
52
52
52
52
52
Q1: 1o quartil e Q3: 3o quartil.
(a) Avalie criticamente se h melhoria da qualidade do efluente tratado considerando os grficos

apresentados na Figura 1, as estatsticas apresentadas no Quadro 1 e um nvel de confiana de 90%.
(b) O engenheiro responsvel pela operao e gesto da qualidade do sistema de tratamento de efluentes
da empresa decide no utilizar a incerteza de medies para caracterizar a disperso dos valores que
podem ser atribudos aos parmetros que definem a qualidade do afluente e efluente tratado. Critique a
deciso do engenheiro.
(c) Uma anlise especfica ser realizada considerando dados com maior probabilidade de ocorrncia.
Qual o valor limite do pH caso deseje-se considerar nesta anlise dados com probabilidade superior a
80%?
QU3
58
O processo de gerao e distribuio de vapor, bem como o sistema de co-gerao, de uma determinada
indstria podem ser representados pela figura 1. O primeiro controlador (PC-1) controla a presso do
sistema de distribuio de vapor de mdia presso (15 kgf/cm2) em uma faixa de modo a evitar que fique
abaixo de um valor requerido. Para isto, quando ocorre diminuio da presso do sistema de distribuio
de vapor, o controlador PC-1 comanda a abertura de uma vlvula redutora de presso que injeta vapor
diretamente na linha de distribuio, sem passar pela turbina. O segundo controlador (PC-2) controla a
presso do sistema de distribuio de vapor em outra faixa, evitando que a presso fique acima de um
valor definido como seguro para o processo. Para fazer esse controle, o PC-2 comanda a abertura de uma
vlvula de alvio que lana na atmosfera o excesso de vapor, gerando perdas de vapor e,
consequentemente, de gua e energia.
Figura 1: Fluxograma simplificado do sistema de gerao e distribuio de vapor e cogerao.

A Figura 2 mostra que 40% da perda de vapor pode ser explicada pela relao entre a gerao de
energia eltrica pelas turbinas, sendo esta e o alvio de vapor as principais fontes de variao a serem
analisadas. Na Tabela 1 so apresentados os dados de perda de vapor e consumo de energia eltrica.
Correlao: Perda de vapor vs Energia gerada
Perda (%) = 4,568 + 0,000548 EE gerada (kwh)
30
S
R-Sq
R-Sq(adj)
3,32352
42,5%
39,6%
Perda (%)
25
20
15
10
20000
24000
28000
EE gerada (kwh)
32000
36000
Correlao
moderada
Figura 2: Grfico de correlao entre as perdas de vapor e a gerao de energia eltrica pelas
turbinas.
a) Estime as estatsticas descritivas de mdia e desvio padro dos dados referentes a perda de vapor da
Tabela 1 considerando um nvel de confiana de 95%. Discuta os resultados considerando as informaes
apresentadas no Quadro 1 e Figura 1.
b) Selecionando-se uma unidade amostral ao caso: (a) Qual a probabilidade que esta amostra tenha perda
superior a 25%. (b) Qual deve ser a perda de vapor para que 95% da perda seja inferior a 25%?
59
c) (a) Considerando que o engenheiro responsvel pelo processo acha o intervalo estimado no item 1(a)
muito grande, quantas amostrar ele deveria ter para um intervalo de 95% com erro menor que 0,5% de
perdas de vapor? (b) Esperava-se que a perda mdia de vapor da unidade no ultrapasse 18%, ao nvel de
confiana de 95%, para que no haja atuao manual no processo. Verifique se este procedimento deve
ser alterado com base na teoria de teste de hipteses. Avalie a influncia da alterao do nvel de
confiana para 99% sobre os erros do tipo 1 para este sistema.
d) Atividade no R:
d.1. Complemente a anlise realizada na questo 1 utilizando outras estatsticas descritivas e grficos
alm dos apresentados na Figura 1.
d.2. Solucione a questo 2 utilizando o R.
d.3. Solucione a questo 3 utilizando o R.
Quadro 1: Estatsticas descritivas da varivel perda com e sem o outlier.
Descriptive Statistics:
Variable
Mean StDev Minimum Q1 Median
Q3 Maximum
% Perda
17,001 5,147 8,830 14,010 15,887 19,660 37,631
% Perda (sem outlier) 16,542 4,148 8,830 13,912 15,715 19,612 27,170
Boxplot of % Perda; % Perda (sem outlier)
12
40
% Perda
Frequencia absoluta
35
Data
30
25
20
16
20
24
28
32
36
% Perda (sem outlier)
12
12
10
10
15
10
% Perda
% Perda (sem outlier)
12
16
20
24
28
32
36
Figura 1: Grficos da varivel perda com e sem o outlier.

Tabela 1: Variveis monitoradas do processo de gerao de distribuio de vapor.
Data
Produo Total / (t/ms)
Perda Total / (t/ms)
Mdia Diria / (t/dia)
% Perda
jan/06
37213
4032
130
11
fev/06
33767
3297
118
10
mar/06
38540
3403
110
abr/06
36588
4738
158
13
mai/06
39984
4324
139
11
jun/06
33902
4783
159
14
jul/06
36187
7124
230
20
ago/06
39209
9844
318
25
set/06
36121
5927
198
16
60
out/06
44997
6537
211
15
nov/06
37974
6238
208
16
dez/06
40726
6400
206
16
jan/07
42001
5760
186
14
fev/07
37422
5644
195
15
mar/07
42258
6490
209
15
abr/07
27716
6281
209
23
mai/07
42857
16127
520
38
jun/07
44480
9463
315
21
jul/07
42547
7233
233
17
ago/07
43833
6648
214
15
set/07
40902
7272
242
18
out/07
44605
6983
225
16
nov/07
43026
7885
263
18
dez/07
44834
9041
292
20
jan/08
43755
8334
269
19
fev/08
38334
10415
359
27
mar/08
40754
10283
332
25
abr/08
36805
7676
256
21
mai/08
42597
6058
195
14
jun/08
39327
7728
258
20
jul/08
38301
7173
231
19
ago/08
39324
6531
211
17
set/08
35214
7453
248
21
out/08
44506
6829
220
15
nov/08
37587
7776
259
21
dez/08
36037
7053
228
20
jan/09
34122
4240
137
12
fev/09
32953
4380
151
13
mar/09
19964
2519
81
13
abr/09
41439
4223
141
10
mai/09
40593
5854
189
14
jun/09
36338
5429
181
15
jul/09
39598
6359
205
16
ago/09
42836
6378
206
15
set/09
40022
6722
224
17
out/09
47682
6258
202
13
d) Acredita-se que os dados de perda de vapor (t/ms) e produo (t/ms) sejam correlacionados.
d.1. Verifique se essa afirmao verdadeira considerando os resultados apresentados no Quadro 2 e Figura 4. No se esquea
de utilizar tambm a teoria do teste de hipteses nas suas justificativas.
d.2. Proponha um algoritmo para construo de um modelo de regresso multivariado. Considere que variaes na temperatura
ambiente, presso na linha de distribuio e percentual de condensado na linha podem causar variaes na perda de vapor.
Considere a possibilidade de existir diferentes padres por turno de produo (7-15h, 15-23h, 23-07h), relaes no lineares,
correlao entre variveis preditoras, valores aberrantes, etc.
Quadro 2: Resultados do modelo de regresso.
The regression equation is
Perda Total / (t/ms) = - 1149 + 0,200 Produo Total / (t/ms)
61
Predictor
Constant
Produo Total / (t/ms)
S = 2072,88
Coef
-1149
0,20003
R-Sq = 18,4%
SE Coef
2505
0,06353
T
-0,46
3,15
P
0,649
0,003
R-Sq(adj) = 16,5%
Analysis of Variance
Source
Regression
Residual Error
Total
DF
1
44
45
SS
42591282
189060773
231652055
MS
42591282
4296836
F
9,91
P
0,003
Unusual Observations
Obs
16
17
39
Produo
Total /
(t/ms)
27716
42857
19964
Perda
Total /
(t/ms)
6281
16127
2519
Fit
4395
7423
2844
SE Fit
787
387
1255
Residual
1886
8704
-325
St Resid
0,98 X
4,27R
-0,20 X
R denotes an observation with a large standardized residual.

X denotes an observation whose X value gives it large influence
Residual Plots for Perda Total / (t/ ms)

Normal Probability Plot of the Residuals
Residuals Versus the Fitted Values
99
10000
Residual
Percent
90
50
10
1
-5000
5000
5000
10000
3000
4500
Residual
Histogram of the Residuals
9000
Residuals Versus the Order of the Data
12
Residual
Frequency
7500
10000
16
8
4
0
6000
Fitted Value
-3000
3000
Residual
6000
9000
5000
10
15 20 25 30 35
Observation Order
40
45
Figura 4: Grficos dos resduos.
QU4
A eutrofizao das guas propiciada pelo incremento de nutrientes no corpo d'gua, levando ao
crescimento excessivo das plantas aquticas, com consequente desequilbrio do ecossistema aqutico e
progressiva degenerao da qualidade da gua dos corpos d'gua. A eutrofizao, inicialmente, pode
62
ocorrer de forma natural em ecossistemas aquticos, todavia o estado trfico de lagos tem sido alterado
principalmente pelo influxo de nutrientes provenientes do despejo de esgotos urbanos e industriais.
A avaliao de parmetros de qualidade das guas de um rio pode permitir a anlise de seu estado de
eutrofizao, sendo a clorofila um dos principais parmetros de qualidade avaliados. O ndice de
eutrofizao (IET), proposto pela CETESB, utilizado para avaliar-se a eutrofizao de corpos d'gua.
Nesse ndice, usualmente, considerado o fsforo como o agente principal causador da eutrofizao e a
clorofila deve ser considerada como uma medida da resposta do corpo hdrico ao agente causador. Assim,
o ndice mdio engloba, de forma simplria, a causa e o efeito do processo, utilizando-se a mdia nos
meses em que estejam disponveis dados de ambas variveis, conforme observado nas faixas de trofia do
Quadro 1.
Slidos totais, turbidez, fsforo total, nitrognio amoniacal, nitrognio total, nitrato e clorofila A de
um determinado rio em So Paulo foram levantados em seis pontos de amostragem (ver Figura 1) em
dois perodos seco e mido. Para estimativa do IET, utilizou-se dados histricos levantados no ponto 6.
Com base no Quadro 1 e Figuras 1 a 7, conclua sobre a condio de eutrofizao do rio X. Considere o
ponto 6 como ponto de interesse na anlise da eutrofizao.
a) Considerando novos dados de monitoramento levantados para o ano de 2012 apresentados no Quadro
2:
a.1. Compare se h mudanas no estado de eutrofizao do rio para os perodos seco e mido
considerando a avaliao de intervalos de confiana do IET e nvel de significncia de 10%.
a.2. Com base na teoria do teste de hipteses, verifique, se possvel, se o comportamento das amostras no
perodo seco e mido encontrado para o IET tambm verificado para a clorofila e fosfato.
b) Considerando os dados apresentados no Quadro 2:
b.1. Qual a probabilidade de uma amostra selecionada ao acaso apresentar valores de IET na faixa trfica.
b.2. Uma anlise especfica ser realizada considerando dados com maior probabilidade de ocorrncia.
Qual o valor limite de IET caso deseje-se considerar nesta anlise dados com probabilidade superior a
80%?
63
Quadro 1. Nveis Trficos. Fonte: (CETESB, 2004)
Figura 1: Pontos de monitoramento.
Figura 1. Dotplot dos principais parmetros monitorados nas pocas mida (1) e seca (2).
64
Figura 3. Matriz de correlao considerando o conjunto total de dados (poca seca + mida).
Figura 4. Boxplot considerando o conjunto total de dados (poca seca + mida) no ponto 6.
65
Figura 5. Dot plot do IET considerando o conjunto total de dados (poca seca + mida) no ponto 6.
Figura 6. Srie histrica do ndice de eutrofizao considerando o conjunto total de dados (poca seca +
mida) no ponto 6.
66
Figura 7. Boxplot do IET considerando o conjunto total de dados (poca seca + mida).
Quadro 2: Estatsticas descritivas da clorofila, fosfato e IET para o ano de 2012.

Varivel
Clorofila A (ug/L)
poca
Seco
mido
N
29
27
Mdia
17,66
14,60
DP
18,03
9,79
Q1
2,55
5,64
Mediana
10,56
15,38
Q3
34,22
22,30
FosfatoT (mgPO4-P/L)
Seco
mido
40
39
0,02000
0,03750
0,01483
0,02121
0,01000
0,02000
0,02000
0,03000
0,02000
0,06250
IET
Seco
mido
35
32
59,279
57,488
4,964
4,618
55,667
55,742
60,293
58,168
62,958
60,634
DP: Desvio padro

Quando necessrio, lacunas no banco de dados foram preenchidas por interpolao para estimativa do IET.
c) Proponha um modelo de regresso para estimativa do IET. Foram disponibilizados dados histricos
(classificados pela poca do ano que foram amostradas) de fsforo total, turbidez, clorofila A, contagem
de clulas, pH, demanda bioqumica de dissolvido (DBO5) e oxignio dissolvido (OD), ver Tabela 1.
Discuta todos os passos e resultados obtidos na construo dos modelos. Considere o uso da
estatstica descritiva at a anlise dos resduos dos modelos.
67
Data
05/07/04
04/01/07
03/08/06
01/10/03
16/06/08
03/07/06
10/09/07
10/10/07
27/07/07
26/02/10
17/11/09
10/10/05
06/07/07
05/01/10
03/11/04
29/10/09
02/09/04
11/07/07
29/09/08
12/12/08
28/11/05
12/06/06
23/09/09
03/12/09
06/07/05
07/04/09
05/05/06
02/03/06
11/08/09
28/04/08
31/03/09
10/06/10
01/04/04
05/01/04
01/02/07
29/07/09
04/04/05
28/06/07
10/05/07
20/03/06
23/03/09
26/11/07
25/05/10
21/09/10
poca
mido
Seco
mido
Seco
mido
mido
mido
Seco
mido
Seco
Seco
Seco
mido
Seco
Seco
Seco
Tabela 1. Dados coletados para o modelo de regresso do IET.

Clorofila
Clulas
Turbidez
Fsforo
pH
1,092
381,89
7,5
0,02
6,68
0,182
6592,43
2
0,04
7,16
4,52871
80
4,7
0,01
6,95
1,456
266,97
3,1
0,03
6,9
1,96239
407094,02
4,6
0,012
6,94
1,82
116,69
55
0,01
6,63
3,74485
7724,83
6,1
0,018
6,64
1,092
139102,56
13
0,042
6,84
6,56945
436,7
6
0,022
7,48
8,36881
7017,49
NA
0,025
4,6
9,964
2357,89
NA
0,028
NA
5,096
277,58
4,9
NA
7,1
11,3967
3657,11
3,2
0,031
6,65
11,3967
92735,04
NA
0,031
2,3
6,188
492,39
3,5
NA
7,16
2,548
6301,59
3,3
0,077
7,7
mido
mido
mido
Seco
Seco
mido
mido
Seco
mido
mido
mido
Seco
mido
mido
Seco
mido
mido
Seco
Seco
mido
mido
mido
mido
Seco
Seco
Seco
mido
mido
6,916
13,8871
20,2
14,9845
8,008
15,3321
15,3321
16,3261
8,918
16,6424
18,1254
10,56
19,7206
19,9697
20,2145
22,0333
14,56
14,74
23,0612
23,0612
16,2
23,8327
21,66
18,38
24,7411
25,0887
25,2593
30,39
203,32
6417,84
144871,79
60
53,04
68,51
1971,32
2012
4650
68461,54
576923,08
7917,55
609,96
348974,36
43376,07
468,52
564
2853,55
40341,88
461,01
12050,69
3383,95
168547,01
72505,68
100427,35
1814957,3
835,38
1311,41
4,5
3,5
5,4
NA
2,7
15
NA
NA
20
NA
28
6,1
8,7
9,3
NA
NA
5,8
8,6
8,4
9,7
20
5,6
6,3
5,7
35
83
3,7
4,4
NA
0,037
0,018
0,04
0,02
0,041
0,041
0,044
0,06
0,045
0,05
0,03
0,056
0,057
0,058
0,066
0,05
0,08
0,071
0,071
0,06
0,075
0,062
0,03
0,08
0,082
0,083
0,066
6,82
6,58
7,88
7,8
7,15
6,55
6,9
6,98
6,66
7,02
6,76
6,96
7,07
6,88
7
7
7,03
7,64
7,69
8,5
6,84
6,57
7,27
7,17
9,8
10,3
4,5
6,77
DBO5
1,24
1,63
1,92
1,02
1,7
1,56
1,9
2,7
3,8
4
2
2,06
3,05
1
1
2,2
OD
4,9
5,7
7,6
5,5
6,9
5
5,5
5,3
8,8
4,2
5,1
4,4
5,7
5,7
5,8
5,4
IET
47,2
47,6
48,4
48,6
49,5
49,7
52
52,1
53,2
54
54,7
54,7
55,3
55,3
55,7
56
1,31
3,8
4
3
1,33
1,88
4
3
1,42
2,5
4,05
1,57
1
3
4
3
1,09
2,12
4,12
1
2,29
1,69
3,25
2,46
3,8
7,1
NA
2,7
3,7
5,1
6,4
7,9
5,5
4,7
5
5,9
4,5
7,3
8,3
5,8
4,4
6,5
5,8
3,4
5,8
7,6
6,5
4,1
3,9
3,3
5,6
7,5
7
8,7
4
5,7
56,2
56,3
56,7
56,8
56,9
57
57
57,4
57,5
57,5
58,2
58,3
58,9
59
59,1
59,9
59,9
59,9
60,3
60,3
60,4
60,6
60,6
61
61
61,2
61,2
61,7
68
Data
05/01/05
01/11/06
27/01/10
24/08/10
27/05/08
28/03/08
23/12/08
02/10/06
20/04/10
30/03/10
27/12/07
02/02/06
20/07/10
01/12/06
30/01/08
25/03/09
poca
Seco
Seco
Seco
mido
mido
Seco
Seco
Seco
mido
Seco
Seco
Seco
mido
Seco
Seco
Seco
Clorofila
21,66
26,8605
26,8605
26,8605
24,21
28,5688
45,5
29,7263
30,4483
34,22
32,0016
32,6181
35,0159
35,1844
57,15
38,04
Clulas
16919,76
150,28
8904,09
645,32
139743,59
320662,39
109401,71
26858,97
274,04
4923,88
553162,39
1002,46
402,22
57,46
588547,01
500000
Turbidez
5,7
2,3
6,8
6,9
7,7
7,9
9,1
22
21
6,2
38
8,1
8,3
7,1
110
9,2
Fsforo
0,08
0,093
0,093
0,093
0,009
0,105
0,073
0,114
0,12
0,15
0,134
0,14
0,166
0,168
0,235
0,376
pH
7,52
7,12
3,7
7,6
6,98
6,8
6,98
6,9
7,5
7,45
9,49
7,42
6,5
7,12
8,87
9,28
DBO5
1,78
1,24
NA
NA
1,8
3,6
5
2,22
1,03
5,1
11,2
1,75
9,8
1,39
5,6
7,1
OD
4,9
5,5
5,8
4,4
6,1
4
3,9
3,9
4,1
5,3
5,2
7,3
4,2
6,7
2,2
5,9
IET
61,8
61,9
61,9
61,9
62,4
62,7
63
63,2
63,5
64,1
64,1
64,4
65,4
65,5
67,1
67,5
Clorofila [mg.L-1], Clulas [unidades], Turbidez [mg.L-1], Fsforo [mg.L-1], DBO5 [mg.L-1], OD [mg.L-1],
IET [adimensional] NA - Valor no informado.
69

Histograma de acidentes industriais

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Histograma de acidentes industriais

Caricato da

Copyright:

Formati disponibili

Karla: 98898-8011

Universidade Federal da Bahia

Disciplinas ENGD02 e ENGD83

LISTA DE EXERCCIOS UNIFICADA

Tabela 2 - Estatsticas descritivas

Figure 1 - Grficos de sries temporais

a) Complete o quadro das estatsticas descritivas destes dados.

Como determinar os Quartis:

= 4,25 logo Q1 o valor que ocupa a posio 5 do Rol, portanto Q1 = 44.5

= 12,75 logo Q3 o valor que ocupa a posio 13 do Rol, portanto Q3 = 52.5

Primeiro quartil = 44,5

Terceiro quartil = 52,5

Tabela 3 - Estatsticas descritivas atravs da funo summary()

Tabela 4 - Estatsticas descritivas obtidas de mtodo alternativo em R

Algumas estatsticas da Tabela 2 contm inconsistncias, se levados em considerao os dados da Tabela

b) Compare as distribuies quanto simetria com base nos grficos acima.

a) Construir o histograma de frequncia relativa para representar esses dados.

Histograma: Nmero de acidentes dirios

Frequncia (em dias)

Histograma: Nmero de acidentes dirios

x <- seq(-min(acidentes), max(acidentes), 0.001)

> ## Admitindo normalidade

A distribuio normal a que mais se aproxima da distribuio de acidentes dirios do complexo

> # Utilizando funes R:

P(47 X 58) = 0,4875145 49%

Uma determinada empresa qumica faz uso

Para f(x) ser funo densidade,

> axis(side=1, at=seq(2.2, 2.9, 0.1))

a) Determine a proporo de barras no se encontra dentro das especificaes.

Referncia: Apostila MAT236

FDP, N(120, 15)

> ############ Grfico da Funo Distribuio Acumulada da distribuio Normal

FDA, N(120, 15)

> z #Consultar P(Z z) na Tabela da Normal Padronizada

> # x -> Fora aplicada

> abline(v=50, col = "black", lty = "dotted")

> ### Plotando os dois grficos lado a lado: #####

> #sabendo que a normalizao dada por: z = (x - media) / desvioPadrao

alternative hypothesis: true mean is not equal to 9.8525

Montgomery, 4Ed, p. 213-214

a) Intervalo de confiana. Justifique sua resposta.

Dado que a expresso para o tamanho da amostra para a proporo

Fora de trao amostral mdia

Avaliando as probabilidades Pr(>|t|), verifica-se que o coeficiente da Temperatura diferente de Zero,

> plot(planta$Temp., planta$`Vazo/1000`)

> boxplot(planta$`Vazo/1000`) #Verificar pontos aberrantes (Valores atpicos)

#Grficos de avaliao de modelo

> #R o valor que explica o quanto o modelo representa os dados.

O coeficiente de determinao mltipla, R e o R ajustado servem como parmetro para explicar a

, existe relao linear

c) Analise o significado de cada p-valor (P) apresentado ao lado

QUESTO RLM2 SINTETIZAR

, existe relao linear

e calculando a estatstica F possvel realizar o teste de hipteses para verificar a

existncia da relao linear.

, portanto, conclui-se que os dados indicam

QUESTO RLM3 ANULADA

a) Considere a seguinte srie temporal em que xt = temperatura de um efluente em uma estao de

no lado direito da expresso de

depende? O que acontece com o

d) Consulte o item (c). Se t for grande, qual a sensibilidade de

em relao ao valor inicial

b) Avalie a significncia do modelo de regresso.