Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
ESTATSTICA DESCRITIVA
QUESTO ED1 OK
Para fins de vistoria ambiental, a concentrao de monxido de carbono (CO, mg/m3) foi medida em
quatro chamins. Os dados obtidos so apresentados a seguir,
Tabela 1 - Dados da concentrao (mg/m) de monxido de carbono (CO) medida em quatro chamins
Cham
1
Cham
2
Cham
3
Cham
4
40,5
41,6
4
41,5
58,3
6
42,5
42,2
9
43,5
57,7
1
44,5
42,9
3
45,5
57,0
7
46,5
43,5
7
47,5
56,4
3
48,5
44,2
1
49,5
55,7
9
50,5
44,8
6
51,5
55,1
4
52,5
53,5
55,5
53,8
6
59,5
54,5
54,5
46,1
4
45,5
35
37
42
53,9
53
50,6
50,5
53,8
52,5
53,6
50,4
52,2
52,7
52,4
52,7
51,4
53,8
44,5
45
45,5
46
46,5
47
47,5
48
48,5
49
49,5
50
50,5
51
51,5
52
52,5
46,79
Mdia
48,68
49,81
49,85
48,50
Desvio Padro
5,39
6,33
2,52
Mnimo
40,50
41,64
35,00
44,50
Q1
44,00
50,45
46,25
Mediana
50,0
50,0
52,45
Q3
53,00
56,11
53,30
51,38
Mximo
59,50
58,36
53,90
72,71
Cham1
60
60
55
55
50
50
45
45
40
40
Cham3
55
12
15
Cham2
Cham4
52
50
50
45
48
40
46
35
44
3
12
15
60
Dados
55
50
45
40
35
Cham1
Cham2
Cham3
Cham4
1
s=
( X i X )2
n1 i=1
Mnimo, mximo e primeiro e terceiro quartis:
Para determinar os valores de mnimo, quartil 1, mediana, quartil 3 e mximo necessrio organizar os
dados obtidos em ordem crescente.
> sort(chamines$Cham1)
#Ordenamento
[1] 40.5 41.5 42.5 43.5 44.5 45.5 46.5 47.5 48.5 49.5 50.5 51.5 52.5 53.5 54.5
[16] 55.5 59.5
17
100
Q2 = P50 = Mediana
17
.
Pos50 = 50 100 = 8,5 logo Q2 o valor que ocupa a posio 9 do Rol, portanto Q2 = 48.5
Q3 = P75
Pos75 = 75
17
100
Alternativamente:
Os quartis dividem a distribuio dos dados em quatro partes iguais. Para determinar o primeiro
quartil, encontra-se, primeiramente, a mediana, que corresponde ao segundo quartil e que divide os dados
metade. Em seguida obtm-se a mediana da primeira e da segunda parte dos dados que foram divididos
3
pela mediana da distribuio. Essas ltimas medianas devero corresponder ao primeiro quartil e terceiro
quartil respectivamente. Observar que, para determinar o primeiro e terceiro quartis, a mediana (segundo
quartil), deve ser considerado na diviso.
No exemplo:
[1] 40.5 41.5 42.5 43.5 44.5 45.5 46.5 47.5 48.5 49.5 50.5 51.5 52.5 53.5 54.5
[16] 55.5 59.5
Mediana = 48,5
Primeira parte dos dados:
40.5 41.5 42.5 43.5 44.5 45.5 46.5 47.5 48.5
Cham3
Cham4
Min. :35.00 Min. :44.5
1st Qu.:50.50 1st Qu.:46.5
Median :52.40 Median :48.5
Mean :49.85 Mean :48.5
3rd Qu.:53.00 3rd Qu.:50.5
Max. :53.90 Max. :52.5
Mdia
48,68
49,81
49,85
48,50
Desvio Padro
5,39
6,33
5,90
2,52
Mnimo
40,50
41,64
35,00
44,50
Q1
44,50
44,21
50,50
46,50
Mediana
48,50
46,79
52,40
48,50
Q3
52,50
55,79
53,00
50,50
Mximo
59,50
58,36
53,90
52,50
Avaliando somente os grficos de sries temporais no possvel inferir sobre a simetria das
distribuies. Avaliando os boxplots, observa-se que, para Cham1 e Cham2 os dados so bastante
assimtricos, onde boa parte dos dados parecem concentrar-se de um lado e h uma disperso maior do
outro. Para Cham3 verifica-se a presena de valores aberrantes, ou seja, valores considerados muito
distantes da massa de dados. Em Cham4 parece haver uma simetria nos dados, j que a mediana parece
dividir igualmente a massa de dados, no entanto, verificando o grfico de sries temporais verifica-se que
os dados no apresentam normalidade, apresentam na verdade comportamento linear. Analisando o
Histograma de Cham4 comprova-se a uniformidade dos dados, logo verifica-se que no se pode inferir
sobre simetria em nenhuma das distribuies.
c) Que chamin apresenta maior variao relativa? Analise criticamente sua resposta.
Para comparar a variabilidade de duas ou mais distribuies, mesmo quando referem-se a fenmenos
diferentes e sejam expressas em unidade de medida distintas, pode-se utilizar o Coeficiente de Variao
de Pearson, uma medida de disperso relativa dada por:
s
CV =
X
onde s o desvio padro amostral e
Varivel
Cham1
Cham2
Cham3
Cham4
Mdia
48,68
49,81
49,85
48,50
Desvio Padro
5,39
6,33
5,90
2,52
a mdia amostral.
CV (%)
11,07
12,71
11,84
5,21
Para a chamin 2 o coeficiente de variao no representa a disperso dos dados devido ao fato da
distribuio ser bimodal, verificado no grfico histograma. Os dados da chamin 3 so concentrados
porm apresentam outliers, que influenciam no clculo do coeficiente de variao. A retirada dos outliers
5
acarretariam a reduo do desvio padro dos dados e, por consequncia a reduo do coeficiente de
variao. Considerando a presena dos outliers os dados da chamin 3 apresentam o maior coeficente de
variao ou maior dispreso relativa. Por ltimo, as chamins 1 e 4 apresentam comportamento prximo
do linear, analisando os diagramas de sries temporais. Para a chamin 1 h, no entanto, um desvio maior
devido ao ltimo ponto observado que se distancia um pouco da reta, o que acarreta em maior disperso.
Para a chamin 4 os dados seguem um comportamento perfeitamente linear e por isso o desvio padro
menor, acarretando em menor variao relativa dos dados.
d) As estatsticas calculas podem ser utilizadas para descrever o comportamento dos dados?
As estatsticas calculadas no so suficientes para descrever o comportamento dos dados j que, atravs
dessas, no possvel determinar, por exemplo, o comportamento dos dados.
A anlise grfica que permite uma compreenso melhor acerca dos dados.
Os grfico Q-Q Plot permitem avaliar se as distribuies so prximas da normalidade.
>
>
>
+
+
+
+
+
+
+
+
+
+
par(mar=c(4,4,2,1))
par(mfrow = c(2, 2))
sapply(X = c("Cham1","Cham2","Cham3","Cham4"),
FUN=function(s) {
qqnorm(chamines[,s],
ylab= c("gs CO - (mg/m3)"),
main = paste("Normal Q-Q Plot, ",s),
col = "black",
pch=16 )
qqline(chamines[,s],
col='red' )
}
)
QUESTO ED2 OK
Os seguintes dados representam o nmero de acidentes dirios em um complexo industrial (colocados em
ordem crescente), durante o perodo de 50 dias. (Dados fictcios)
18
29
36
41
49
20
29
36
43
50
20
30
37
44
51
21
30
37
44
53
22
31
37
45
54
24
31
37
45
54
25
32
38
45
56
25
33
38
46
58
26
34
38
47
62
27
35
40
48
65
6
4
0
Frequency
10
Histogram of acidentes
20
30
40
50
60
acidentes
Grfico 1. Gerado pela funo hist(x= acidentes)
> #Nmero de amostras:
> n = length(acidentes)
>n
[1] 50
> #Valores extremos:
> min = min(acidentes)
> min
[1] 18
> max = max(acidentes)
> max
[1] 65
> #Amplitude Total:
> AT = max - min
> AT
[1] 47
> #Nmero de classes:
> k = 1 + 3.3 * log10(n) #Regra de Sturges ou Regra do Logartmo
>k
[1] 6.606601
> #alternativamente: k = sqrt(n)
> #Lembrar que, mesmo que hajam alguns mtodos para determin-lo, a escolha do nmero de
classes depender mais do bom senso de quem organiza os dados.
> #O nmero de classes deve ser um inteiro positivo, logo:
> k = round(k, 0)
>k
[1] 7
> #Amplitude do intervalo de classes:
> h = AT / k
>h
[1] 6.714286
> #Alternativa: Sabendo que n=50, faz-se k=10 classes com amplitude h=5, incluindo os dados
direita e excluindo esquerda.
> #intervalo = cut(x = acidentes, breaks = seq(15, 15+n, 5), right = FALSE) #right = FALSE para
Excluso direita e Incluso esquerda;
> intervalo = cut(x = acidentes, breaks = seq(15, 15+n, 5), right = TRUE) #right = TRUE para
Excluso esquerda e Incluso direita;
> #Tabela de distribuio de frequncias:
> cbind(freqAbs=table(intervalo), freqRel=100*prop.table(table(intervalo)))
freqAbs freqRel
(15,20]
3
6
(20,25]
5
10
(25,30]
6
12
(30,35]
6
12
(35,40]
10
20
(40,45]
7
14
(45,50]
5
10
(50,55]
4
8
(55,60]
2
4
(60,65]
2
4
logical; if TRUE, the histogram cells are right-closed (left open) intervals.
10
right
10
20
30
40
50
60
70
N. de acidentes
Grfico 2. hist() com parmetro right = TRUE
9
10
8
6
4
2
0
10
20
30
40
50
60
70
N. de acidentes
Grfico 3. hist() com parmetro right = FALSE
b) O estatstico decide separar destes dados os dias com nmero de acidentes inferior a dois desvios
padres abaixo da mdia e tambm separar os dias com nmero de acidentes superior a um e meio
desvio padro acima da mdia. Qual a porcentagem de dias que sero separados em cada caso?
> media = round(mean(acidentes), 2) #Mdia aritmtica
> media
[1] 38.32
> cat("Mdia de", round(media, digits = 0), "acidentes por dia")
Mdia de 38 acidentes por dia
> desvioPadrao = round(sd(acidentes), 2)
#Desvio Padro "Standard Deviation"
> desvioPadrao
[1] 11.58
Analisando os dados, dentre os 50 dias, nenhum dia tem nmero de acidente inferior a 15, portanto, 0%
dos dias, enquanto que 3 dos 50 dias tm nmero de acidentes superior a 56, dando um total de 6% dos
dias.
necessrio verificar a normalidade dos dados observados. Analisando o histograma dos dados, verificase que os dados indicam normalidade.
>
>
>
+
+
>
>
10
11
2
0
P (%)
FDP, Normal
20
40
60
N. de acidentes
20 40 60
0
P (%)
80
FDA, Normal
20
40
60
N. de acidentes
> ############ Grfico da Funo Distribuio Acumulada da distribuio Poisson
############
> x=0:70
> y=100 * pnorm(q = x, mean = media, sd = desvioPadrao, lower.tail = TRUE);
> names(y)=x;
> plot(y,ylim=c(0,100), type="h", xlim=c(0,75), lwd=2, bty="l", main="FDA, Normal", xlab = "N. de
acidentes",ylab = "P (%)")
QUESTO ED3 OK
Sejam X1 ~ N(150,30), X 2 ~ N(200,20) e X 3 ~ N(100,14) independentes. Seja X = X 1 X 2 + X 3 tambm
com distribuio normal. Calcule P(47 X 58).
12
Propriedades da Esperana
1) Dada uma constante a, temos:
E(a + X) = a + E(X)
E(a . X) = a . E(X)
2) Sejam X1, X2,..., Xn variveis aleatrias
E(X1 X2 ... Xn) = E(X1) E(X2) ... E(Xn)
3) Sejam X e Y variveis aleatrias independentes. Ento,
E(X.Y) = E(X) . E(Y)
Propriedades da varincia
a) Dada uma constante a, temos:
V(X + a) = V(X)
V(a . X) = a 2 . V(X)
b) Sejam X1, X2,..., Xn, n variveis aleatrias independentes. Ento
V(X1 X2 ... Xn) = V(X1) + V(X2) +... + V(Xn) ; As varincias sempre se somam.
E(X) = E(X1 - X2 + X3) = E(X1) - E(X2) + E(X3) = 150 - 200 + 100 = 50
V(X) = V(X1 - X2 + X3) = V(X1) + V(X2) + V(X3) = 30 + 20 + 14 = 64
Logo, X ~ N(50, 64)
> media = 150 - 200 + 100
> #media = 50
> variancia = 30 + 20 + 14
> #variancia = 64
>
> desvioPadrao = sqrt(variancia)
> desvioPadrao
[1] 8
>
> #Calcular P(47 X 58).
>
> #Normalizando: Z ~ N(0, 1)
> z1 = (47 - media) / desvioPadrao
> z1
[1] -0.375
>
> z2 = (58 - media) / desvioPadrao
> z2
[1] 1
> # Utilizando uma tabela de Distribuio Normal Padro, pode-se calcular das seguintes formas:
>
> # P(47 X 58) = P(-0.2590674 Z 0.6908463)
>
> #Tabela P(0 Z z) = p
> # P(-0.6123724 Z 1.632993) = P(0 Z 0.6123724) + P(0 Z 1.632993)
> #Tabela P(Z z) = p
> # P(-0.6123724 Z 1.632993) = - P(Z -0.6123724) + P(Z 1.632993)
> #Tabela P(Z > z) = p
> # P(-0.6123724 Z 1.632993) = P(Z > -0.6123724) - P(Z > 1.632993)
>
13
e que no 2 ano houve muitas paradas na planta. Discuta o que acontece com a vazo de efluentes, e sua
relao com a produo, considerando estas informaes. (2,5 PONTOS)
Quando a produo est menor, e portanto menor quantidade de matrias primas e insumos so
consumidos, h um desperdcio maior, causando aumento da vazo de efluentes.
Quando a produo aumenta, as matrias primas e insumos so melhor utilizados, de forma que o
desperdcio diminui, causando consequentemente reduo da vazo de efluentes.
No 2 ano, em funo da maior quantidade de paradas, os ndices variaram consideravelmente. No
entanto, possvel perceber que, a medida que a produo aumenta, a variabilidade da produo diminui,
ao passo que, se a produo continuar aumentando, a variabilidade da vazo de efluentes parece tender a
aumentar, ou seja, deve haver um ponto timo de produo que implique em melhor consumo e
consequentemente menor vazo de efluentes.
Quando h maior
QUESTO ED6
Discos de alumnio so produzidos e a cada 15 minutos 3 discos so retirados da linha e pesados. Os
dados obtidos durante um perodo de quase 7 horas esto apresentados na tabela abaixo. Estime e analise
criticamente as estatsticas de mdia e varincia do peso dos discos de alumnio (g).
N
Tempo
Obs
Amostra
Peso
Tempo
Obs
Peso
Tempo
Obs
Amostr
a
10
9:00
29
11:15
9:00
30
9:00
170,38
4
169,81
7
170,66
7
31
Amostr
a
19
170,667
13:30
11:15
10
170,384
11:30
11
171,234
5
7
5
8
5
9
Peso
170,384
13:45
20
170,667
13:45
20
170,667
15
9:15
9:15
9:15
9:30
9:30
9:30
1
0
11
9:45
9:45
1
2
1
3
1
4
1
5
1
6
1
7
1
8
1
9
2
0
2
1
2
2
2
3
2
4
2
5
2
6
2
7
2
8
9:45
10:00
10:00
10:00
10:15
10:15
10:15
10:30
10:30
10:30
10:45
10:45
10:45
11:00
11:00
11:00
11:15
10
169,53
3
169,81
7
170,38
4
170,95
1
170,66
7
170,66
7
170,66
7
170,95
1
170,66
7
170,10
0
169,81
7
170,38
4
169,81
7
170,10
0
170,10
0
170,66
7
170,38
4
170,10
0
170,38
4
170,95
1
170,38
4
170,38
4
170,66
7
170,10
0
170,10
0
32
11:30
11
170,667
33
11:30
11
170,951
34
11:45
12
170,667
35
11:45
12
170,384
36
11:45
12
170,100
37
12:00
13
170,951
38
12:00
13
170,667
39
12:00
13
171,234
40
12:15
14
170,667
41
12:15
14
170,667
42
12:15
14
170,951
43
12:30
15
170,951
44
12:30
15
170,667
45
12:30
15
170,951
46
12:45
16
170,951
47
12:45
16
170,100
48
12:45
16
170,384
49
13:00
17
171,234
50
13:00
17
170,667
51
13:00
17
170,951
52
13:15
18
171,518
53
13:15
18
170,667
54
13:15
18
171,234
55
13:30
19
170,951
56
13:30
19
171,234
6
0
6
1
6
2
6
3
6
4
6
5
6
6
6
7
6
8
6
9
7
0
7
1
7
2
7
3
7
4
7
5
7
6
7
7
7
8
7
9
8
0
8
1
8
2
8
3
8
4
13:45
20
170,667
14:00
21
171,234
14:00
21
171,518
14:00
21
170,951
14:15
22
171,801
14:15
22
170,951
14:15
22
171,234
14:30
23
171,518
14:30
23
171,234
14:30
23
170,667
14:45
24
171,518
14:45
24
171,234
14:45
24
170,951
15:00
25
171,234
15:00
25
171,801
15:00
25
171,518
15:15
26
171,518
15:15
26
170,951
15:15
26
171,234
15:30
27
170,951
15:30
27
171,234
15:30
27
170,951
15:45
28
171,801
15:45
28
171,801
15:45
28
171,518
O Teorema central do limite um importante resultado da estatstica e a demonstrao de muitos outros teoremas
estatsticos dependem dele. Em teoria das probabilidades, esse teorema afirma que quando o tamanho da amostra
aumenta, a distribuio amostral da sua mdia aproxima-se cada vez mais de uma distribuio normal. (Wikipedia)
QUESTO ED7
16
ICA (m3
INDSTRIA
gua /
CONS
t
U
Planta 1
POOS
DE
MCAPTAO produ
DE
Planta 2
OGUA BRUTA
o)
(1,
Produo
DE2, 3, 4)
G
POO
UA INTERNO
GUA CLARIFICADA
(AGC)
Planta 3
GUA
DESMINERALIZA
DA (AGC)
GUA POTVEL
(AGP)
VAPOR DE ALTA E
MDIA PRESSO
(V-42 e V-15)
Figura 1: Balano hdrico.
(a)
17
(b)
Figura 2: Grficos de disperso da produo de captao de gua total (a) e por tipo de gua (b).
DISTRIBUIES DE PROBABILIDADE
QUESTO DP1 OK
A funo de densidade de probabilidade do comprimento de uma barra de metal f(x)=2,0, para 2,3 < x <
2,8. Se as especificaes para este processo so de 2,25 a 2,75 metros, que proporo de barras no se
encontra dentro das especificaes? (2,5 PONTOS)
+
f ( x ) dx=1
18
2.0
1.5
2.5
FDP
2.2
>
>
>
>
>
>
>
2.3
2.4
2.5
2.6
2.7
2.8
2.9
2.7
2.8
2.9
#FDP
par(mar=c(3, 3, 2, 1))
x = c(2.3, 2.8)
y = c(2, 2)
plot(x, y, type="b", xlim = c(2.2, 2.9), main = "FDP")
grid()
0.0
0.2
0.4
0.6
0.8
1.0
FDA
2.2
>
>
>
>
>
2.3
2.4
2.5
2.6
#FDA
x = c(2.2, 2.3, 2.8, 2.9)
y = c(0, 2*2.3-4.6, 2*2.8-4.6, 2*2.8-4.6)
plot(x, y, type="l", axes=FALSE, main = "FDA")
grid()
19
QUESTO DP2 OK
A funo de densidade de probabilidade do peso lquido, em libras, de um pacote de herbicida qumico
f(x)=2,0 para 49,75 < x < 50,25 libras. Se as especificaes para este processo so 49,0 a 50,0 libras.
2.0
1.5
2.5
FDP
49.00
>
>
>
>
>
>
>
>
>
49.25
49.50
49.75
50.00
50.25
50.50
par(mar=c(3, 3, 2, 1))
x = c(49.75, 50.25)
y = c(2, 2)
plot(x, y, type="b", xlim = c(49, 50.5), main = "FDP", axes=FALSE)
axis(side=1, at=seq(48, 52, 0.25))
axis(side=2, at=c(1.5, 2, 2.5))
grid()
box()
20
0.0
0.2
0.4
0.6
0.8
1.0
FDA
49.00
>
>
>
>
>
>
>
>
49.25
49.50
49.75
50.00
50.25
50.50
#FDA
x = c(49, 49.75, 50.25, 50.5)
y = c(0, 2*49.75-99.5, 2*50.25-99.5, 2*50.25-99.5)
plot(x, y, type="l", xlim = c(49, 50.5), axes=FALSE, main = "FDA")
axis(side=1, at=seq(48, 52, 0.25))
axis(side=2, at=seq(0, 1, length.out = 6))
grid()
box()
21
QUESTO DP3 OK
O tempo gasto no vestibular de uma determinada universidade tem distribuio normal, com mdia 120
min e desvio padro de 15 min. (a). Sorteando um aluno ao acaso, qual a probabilidade que ele termine o
exame antes de 100 min. (b) Qual deve ser o tempo de prova de modo a permitir que 95% dos
vestibulandos terminem no prazo estipulado.
> ### DP3
> par(mar=c(3, 3, 2, 1))
>
> media = 120 #min
> desvioPadrao = 15 #min
> ############ Grfico da Funo de Probabilidade da distribuio Normal
############
> x = (media-3.5*desvioPadrao):(media+3.5*desvioPadrao)
> y = 100 * dnorm(x, mean = media, sd = desvioPadrao);
> names(y)=x;
> plot(x, y,ylim=c(0,max(y)), type="l", lwd=2, bty="o", main="FDP, N(120, 15)", xlab =
"tempo",ylab = "P (%)")
22
1.5
1.0
0.0
0.5
P (%)
2.0
2.5
80
100
120
140
160
60
40
0
20
P (%)
80
100
80
100
120
140
160
> #a) Sorteando um aluno ao acaso, determinar a probabilidade de ele terminar o exame antes de
100 min
> x = 100 #min
> z = (x - media) / desvioPadrao
23
QUESTO DP4 OK
Suponha que a relao entre a fora aplicada x e o tempo at a falha y seja descrita por um modelo de
regresso linear simples com uma reta de regresso real y = 65-1,2x e = 8. Portanto, para qualquer valor
fixo x* de fora, o tempo at a falha tem uma distribuio normal com valor mdio 65-1,2x* e desvio
padro 8. Para x = 20, estime a probabilidade de que o tempo de falha (y) ultrapasse 50 quando a fora
aplicada (x) for igual a (a) 20 e (b) 25. Compare os resultados nas letras (a) e (b) de forma grfica com
base na funo de distribuio de probabilidade normal.
> ### DP4
> par(mar=c(3, 3, 2, 1))
>
24
25
FDP, Normal(, s)
3
0
P (%)
N(20, 8)
N(25, 8)
10
20
30
40
50
60
70
26
> plot(x, y,ylim=c(0,max(y)), type="l", lwd=2, bty="o", main="FDP, N(25, 8)", xlab = "N. de
acidentes",ylab = "P (%)")
> ###### Pintando rea sob a curva 2:
> cord.y2 <- c(0, dnorm(seq(50, max(x), 0.01), y2, desvioPadrao), 0) * 100
> polygon(cord.x,cord.y2,col='skyblue')
> #####################################
> # A rea sob a curva em azul, N(20, 8), maior do que a rea sob a curva em vermelho, N(25,
8).
> #portanto, a h uma maior probabilidade de durar mais tempo quando a fora aplicada menor.
4
3
0
P (%)
3
2
1
0
Densidade f(x)
FDP, N(25, 8)
FDP, N(20, 8)
10 20 30 40 50 60 70
10 20 30 40 50 60 70
27
QUESTO DP5 OK
Dois estudantes foram informados de que alcanaram as variveis reduzidas (Z) de 0,8 e -0,4,
respectivamente, em um exame de mltipla escolha de ingls. Se seus rendimentos foram 88 e 64,
respectivamente:
a) Determinar a mdia e o desvio padro dos rendimentos do exame.
b) Determinar a probabilidade de um estudante alcanar um rendimento maior que 96.
>
>
>
>
>
>
>
>
>
>
>
>
>
### DP5
par(mar=c(3, 3, 2, 1))
z1 = 0.8
x1 = 88
z2 = -0.4
x2 = 64
#a) Determinar a mdia e o desvio padro dos rendimentos do exame.
# As notas dos alunos foram normalizadas, para isso,
#a mdia e o desvio padro devem ser fixos, logo:
28
INFERNCIA
QUESTO I1 OK
Abaixo so apresentadas 20 medidas do tempo residual de inflamabilidade (em segundos) de um
determinado tecido. Determine um intervalo de confiana de 95% para o tempo residual mdio de
inflamabilidade. Interprete o resultado.
9,85
9,93
9,75
9,77
9,67
9,87
9,67
9,94
9,85
9,75
29
9,83
>
>
>
>
>
9,92
9,74
9,99
9,88
9,95
9,95
9,93
9,92
#I1:
closeAllConnections()
rm(list=ls())
#Tempo residual de inflamabilidade (em segundos) de um determinado tecido:
dados = c("9,85
9,93
9,75
9,77
9,67
9,87
9,67
9,94
9,75
+ 9,83 9,92
9,74
9,99
9,88
9,95
9,95
9,93
9,92
9,89")
> #### Dados inseridos com vrgula como decimal, so inseridos como CHAR,
> ##Os tratamentos a seguir os transformam em nmeros com ponto como decimal.
> library("stringr", lib.loc="~/R/win-library/3.3")
> dados = str_replace_all(dados, pattern = " ", "")
> dados = str_replace_all(dados, pattern = ",", ".")
> dados = str_replace_all(dados, pattern = "\t", ",")
> dados = str_replace_all(dados, pattern = "\n", ",")
> dados = strsplit(dados, ",")
> #Transformar em vetor coluna de dados numricos
> dados = data.matrix(as.numeric(unlist(dados)))
> class(dados)
[1] "matrix"
> dim(dados)
[1] 20 1
> str(dados)
num [1:20, 1] 9.85 9.93 9.75 9.77 9.67 9.87 9.67 9.94 9.85 9.75 ...
> dados
[,1]
[1,] 9.85
[2,] 9.93
[3,] 9.75
[4,] 9.77
[5,] 9.67
[6,] 9.87
[7,] 9.67
[8,] 9.94
[9,] 9.85
[10,] 9.75
[11,] 9.83
[12,] 9.92
9,89
9,85
30
[13,] 9.74
[14,] 9.99
[15,] 9.88
[16,] 9.95
[17,] 9.95
[18,] 9.93
[19,] 9.92
[20,] 9.89
> ## ALTERNATIVAMENTE:
> #Ajustar todos os dados para o padro R
> #dados = c(9.85,
9.93,
9.75,
9.77,
9.67,
9.87,
9.67,
9.94,
9.85,
9.75,
>#
9.83,
9.92,
9.74,
9.99,
9.88,
9.95,
9.95,
9.93,
9.92, 9.89)
> hist(dados)
> plot(dados)
> #Estimadores:
> mediaAmostral = mean(dados)
> mediaAmostral # X-Barra
[1] 9.8525
> #Desvio padrao estimado
> s = sd(dados)
> s #com desconhecido, estima-se s
[1] 0.09645697
> #Intervao de confiana de (1-)*100 = 95%
> #Nvel de significncia = 5% = 0.05
> n = length(dados)
>n
[1] 20
> #As observaes no so Normais, no entanto espera-se que as mdias sigam distribuio normal
> #Admitindo normalidade de mdias, com amostra pequena de n elementos (n < 30)
> #e desvio padro desconhecido:
> #com desconhecido, estima-se o desvio atravs de s
> # T = (mediaAmostral - ) / (s / sqrt(n)) ~ t(n-1)
> #Intervalo de confiana:
> #IC = [, 100(1-)%] = mediaAmostral ( t(/2, n-1) * s/sqrt(n) )
> #IC = [, 100(1-)%] = [mediaAmostral - ( t(/2, n-1) * s/sqrt(n) ); mediaAmostral + ( t(/2, n-1) *
s/sqrt(n) )]
> = 0.05 #5%, nvel de significncia
>n
#tamanho da amostra
[1] 20
> #distribuio t-Student
> t = qt(p = (/2), df = (n-1), lower.tail = FALSE)
> #lower.tail
logical; if FALSE, probabilities are P[X > x].
>t
[1] 2.093024
> IC = c( mediaAmostral - (t * s/sqrt(n)), mediaAmostral + (t * s/sqrt(n)) )
> IC
[1] 9.807357 9.897643
> #Alternativamente, utilizando funo do R:
> t.test(x = dados, alternative = "two.sided", mu = mediaAmostral, conf.level = 0.95)
One Sample t-test
data: dados
t = 0, df = 19, p-value = 1
31
QUESTO I2 OK
A tenso de ruptura dos cabos produzidos por um fabricante apresenta a mdia de 1800kg e o desvio
padro de 100kg. Mediante nova tcnica no processo de fabricao, proclamou-se que a tenso de ruptura
pode ter aumentado. Para testar essa declarao, ensaiou-se uma amostra de 50 cabos, tendo-se
determinado a tenso mdia de ruptura de 1850kg. Pode-se confirmar a declarao com nvel de
significncia 0,01?
> #I2:
> closeAllConnections()
> rm(list=ls())
> # Processo:
> = 1800 #kg
> = 100 #kg
> #Amostra:
> n = 50 #tamanho amostral
> mediaAmostral = 1850 #kg
> ##Testar suspeita de que a mdia aumentou:
> #Teste de hipteses para a mdia populacional com conhecido e n 30.
> = 0.01 #1%, nvel de significncia
> z = (mediaAmostral - ) / ( / sqrt(n))
> #Teste Unilateral Direita
> # H0: = 1800 ( 1800)
Mdia no aumentou
> # H1: > 1800
Mdia aumentou
> #Rejeitar H0 se z > z
> z = qnorm(p = 1-, mean = 0, sd = 1, lower.tail = TRUE)
> #lower.tail
logical; if TRUE (default), probabilities are P[X x]
> z = qnorm(p = , mean = 0, sd = 1, lower.tail = FALSE)
> #lower.tail
logical; if FALSE, probabilities are P[X > x].
> #Deciso:
> paste0("H0: = 0 ( <= 0); H1: Mdia aumentou")
[1] "H0: = 0 ( <= 0); H1: Mdia aumentou"
> if (z > z) { paste0("Rejeitar H0") } else { paste0("No rejeitar H0") }
[1] "Rejeitar H0"
> ######Teste pelo P-Valor para Normal unilateral:
> #z = (mediaAmostral - ) / ( / sqrt(n))
> p.valor = pnorm(q = abs(z), mean = 0, sd = 1, lower.tail = FALSE)
> #lower.tail
logical; if FALSE, probabilities are P[X > x].
> if (p.valor > ) { paste0("No rejeitar H0") } else { paste0("Rejeitar H0") }
[1] "Rejeitar H0"
32
Concluso: Ao nvel de confiana de 99%, verifica-se que h evidncias suficientes para suspeitar que a
tenso de ruptura dos cabos aumentou.
QUESTO I3
O desempenho de dois catalisadores est sendo testada de forma a determinar-se se eles exigem tempos
diferentes de imerso para a remoo de quantidades idnticas de material fotorressistente. Doze lotes
foram submetidos ao catalisador 1, resultando em uma mdia amostral do tempo de imerso de 24,6
minutos e em um desvio padro de 0,85 minutos. Quinze lotes foram submetidos ao catalisador 2,
resultando em um tempo mdio de imerso de 22,1 minutos e um desvio padro de 0,98 minutos.
Verifique se h diferena significativa entre o desempenho dos catalisadores considerando um nvel de
significncia de 5% considerando:
Os desvios populacionais so desconhecidos assim, estes foram estimados. No sendo possvel identificar se as varincias so
iguais ou diferentes, inferiu-se sobre o desempenho em cada caso. Para cada caso, para 95% de confiana, os desempenhos de
cada catalisador so diferentes.
33
34
> # = p / (2p-1), tal que a funo tem assintota vertical em p=1/2. (e assintota horizontal em
=1/2)
> #Dessa forma interessante que o pesquisador defina o erro admissvel, (p-).
2
n=
Z ( )(1 )
( p )2
d (1 )
d
QUESTO I5 OK
Deseja-se estimar a resistncia mdia de certo tipo de pea com preciso de 2kg e 95% de confiana.
Desconhecendo-se a variabilidade dessa resistncia, roperam-se cinco peas, obtendo-se para elas os
seguintes valores de sua resistncia (em kg): 50,58,52,49,55. Com base no resultado obtido, determinouse que deveriam ser rompidas mais quinze peas, a fim de se conseguir o resultado desejado. Qual sua
opinio a respeito dessa concluso?
> #I5:
> setwd(dir = "K:/2016_1 UFBA/ENGD02/Statistics R WDir")
> closeAllConnections()
> rm(list=ls())
>
############################################################
#########
> dados = c(50,58,52,49,55)
> erro = 2 #kg
> = 0.05 #5%, nvel de significncia
> s = sd(dados)
>s
[1] 3.701351
> n = length(dados)
>n
[1] 5
> #distribuio t-Student
> t = qt(p = (/2), df = (n-1), lower.tail = FALSE)
>t
[1] 2.776445
> n = ( t * s/erro )^2
> n = ceiling(n)
> n #n = 27
[1] 27
> #distribuio t-Student
> #Calculando a nova probabilidade t com df=27-1:
> t = qt(p = (/2), df = (n-1), lower.tail = FALSE)
>t
[1] 2.055529
> #Calculando novo n, com erro=2kg:
> n = ( t * s/erro )^2
> n = ceiling(n)
> n #N = 15
[1] 15
QUESTO I6
Foram realizados testes sobre a fora de trao em duas classes diferentes de ligas de alumnio usadas na
fabricao de avies de transporte comerciais. Pela experincia passada com o processo de fabricao de
35
ligas e pelo procedimento de teste, se supem conhecidos os desvios padres das foras de trao. Os
dados obtidos so apresentados na tabela abaixo:
Classe de
liga
1
2
Tamanho da
amostra
10
12
Desvio padro
(kg/mm2)
1,0
1,5
Se 1 e 2 representam as verdadeiras foras mdias de trao para as duas classes de ligas, encontre um
intervalo de confiana de 90% para a diferena das mdias. Interprete o resultado.
QUESTO I7
A empresa gua de Poo fornece gua engarrafada para as casas do permetro municipal em vasilhames
de 15 litros. O gerente quer estimar o nmero mdio de vasilhames que uma casa usa por ms. Uma
amostra de 75 casas selecionada e o nmero de vasilhames registrado igual a 3,2. O desvio padro
conhecido e igual a 0,78. a) O que podemos deduzir de um intervalo de confiana de 92% para a mdia
mensal de vasilhames registrados por casa? b) Considerando que o gerente acha o intervalo estimado no
item (a) muito grande, quantas casas ele deveria amostrar para construir um intervalo de 99% com erro
menor que 0,10 vasilhames?
QUESTO I8
Voc concorda com a seguinte afirmativa? Experimentos pareados so usados, dentre outras
situaes, quando difcil controlar todos os fatores que podem influenciar a varivel em estudo.
Justifique sua resposta com base no exemplo a seguir. Sugesto: Compare os resultados obtidos entre os
testes pareados e testes para amostras independentes
Exemplo: Deseja-se testar dois mtodos de anlise (A e B), que so realizados as segundas, quartas e
sextas-feiras (Seg, Qua, Sex). Dados levantados referentes aos mtodos so apresentados na tabela
abaixo.
Dia
Seg
Qua
Sex
Mdias
Varincias
Mtodo
A
B
5
3
7
5
8
6
6,67
4,67
2,3
2,3
Diferena
2
2
2
2
0
QUESTO I9
Um sistema de tratamento de gases na foi mudado com a expectativa de que a interveno pudesse
reduzir o nvel de poluio em 25 unidades, sem alterao significativa da variabilidade do processo. Ou
seja, deseja-se detectar se a mdia antes da interveno e aps a interveno diferem em 25 unidades. As
estimativas antes da interveno so: mdia = 234,3 e desvio padro = 58, baseados em uma amostra de
tamanho igual a 10. O gerente de projeto deseja determinar, com 95% de confiana, se a reduo de 25
unidades foi obtida.
QUESTO I10
Deseja-se estimar o intervalo de confiana da proporo de um experimento. Considere que h um
incremento de 20% do custo de coleta de dados a cada retorno a campo. Indique como a pesquisa deveria
ser realizada em campo de forma a minimizar o uso dos recursos financeiros, garantindo um nvel de
confiana de 90%.
36
Tratar das distribuies Z e T, tratar da definio do ERRO esperado, tratar do desvio da populao, se j
conhecido, se h dados histricos, e para o caso de precisar estimar baseado em alguma amostra, falar
da amostragem. (iniciar pela amostragem?)
REGRESSO LINEAR MLTIPLA
QUESTO RLM1 OK
Acredita-se que a vazo de vapor (em ton/h) usada mensalmente por uma planta qumica est relacionada
com a temperatura ambiente (em oF) daquele ms. Os usos e temperaturas dos ltimos anos esto
mostradas na tabela que segue:
Ms
Jan
Fev
Mar
Abr
Mai
Jun
Jul
Ago
Set
Out
Nov
Dez
Temp.
Vazo/1000
21
185,79
24
214,47
32
288,03
47
424,84
50
454,58
59
539,03
68
621,55
74
675,06
62
562,03
50
542,93
41
369,95
30
273,98
> closeAllConnections()
> rm(list=ls())
> par(mar=c(4,4,1,1))
> par(mfrow=c(1,1))
> setwd(dir = "K:/2016_1 UFBA/ENGD02/Statistics R WDir")
> planta = read.table(file = "RegressaoLinearMultipla/RLM1/PlantaQuimica.txt", header = TRUE, dec
= ',')
> #Importante: Deve haver um \n ao fim do vetor de dados no arquivos .txt para evitar um alerta no
RStudio
> #Transpor matriz mantendo os nomes do caberio:
> planta = setNames(data.frame(t(planta[,-1])), planta[,1])
> modelo = lm(planta$`Vazo/1000` ~ planta$Temp.) #Modelo Linear
> summary(modelo)
Call:
lm(formula = planta$`Vazo/1000` ~ planta$Temp.)
Residuals:
Min
1Q Median
3Q
Max
-11.528 -8.467 -6.977 -6.130 81.014
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -3.2621 23.0726 -0.141
0.89
planta$Temp. 9.3036
0.4673 19.910 2.24e-09 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 26.88 on 10 degrees of freedom
Multiple R-squared: 0.9754,
Adjusted R-squared: 0.9729
F-statistic: 396.4 on 1 and 10 DF, p-value: 2.243e-09
> plot(planta$Temp.)
70
60
50
40
20
30
planta$Temp.
10
12
10
12
Index
600
500
400
300
200
planta$`Vazo/1000`
> plot(planta$`Vazo/1000`)
6
Index
38
600
500
400
300
200
planta$`Vazo/1000`
20
30
40
50
60
70
planta$Temp.
> hist(modelo$residuals)
6
4
0
Frequency
10
Histogram of modelo$residuals
-20
20
40
60
80
100
modelo$residuals
> boxplot(modelo$residuals)
39
80
60
40
20
0
> #Teste de Shapiro-Wilk -> Verificar se um conjunto de dados normal
> shapiro.test(modelo$residuals)
Shapiro-Wilk normality test
data: modelo$residuals
W = 0.41436, p-value = 4.413e-06
> boxplot(planta$Temp.)
20
30
40
50
60
70
Avaliando o p-valor do Teste de Normalidade, conclui-se que os resduos so normais, j que o p-valor
muito pequeno quando comparado a qualquer nvel de significncia.
40
600
500
400
300
200
>
>
>
>
-20
400
500
600
-1.5
-1.0
-0.5
0.0
0.5
Fitted values
Theoretical Quantiles
Scale-Location
Residuals vs Leverage
400
500
600
700
1.0
1.5
10
1
0.5
Standardized residuals
1.5
1.0
0.5
300
700
10
200
300
0.0
Standardized residuals
200
10
10
Standardized residuals
20 40 60 80
Normal Q-Q
Residuals
Residuals vs Fitted
Cook's distance
8
0.00
Fitted values
0.05
0.10
0.15
0.20
0.25
0.30
Leverage
a) Assuma que o modelo de regresso linear simples apropriado e ajuste o modelo de regresso
relacionando a vazo de vapor (y) e a temperatura (x).
Vazao = -3,26 + 9,30*Temp
b) Avalie a significncia do modelo de regresso.
Multiple R-squared: 0.9754,
Adjusted R-squared: 0.9729
F-statistic: 396.4 on 1 and 10 DF, p-value: 2.243e-09
41
e para um nvel de significncia muito pequeno, por exemplo =0,01 que retorna uma estatstica F =
F0,01 ;1 ;n2=F 0,01 ;1 ;10=6055,85
6055,85,
, conclui-se que a hiptese nula pode ser rejeitada, ou seja,
para um nvel de confiana de 99% existe relao linear entre Vazo e Temperatura (
1 0
).
=0e
= 9.3036
Somente relaes lineares so detectadas pelo coeficiente de correlao que acabamos de descrever
(tambm chamado coeficiente de correlao de Pearson). Nos dados abaixo, mesmo existindo uma clara
relao (no-linear) entre e , o coeficiente de correlao zero. Sempre faa o grfico dos dados de
modo que voc possa visualizar tais relaes.
####
A anlise grfica da relao entre variveis importante, mas os olhos nem sempre so um bom juiz da
intensidade de uma relao linear.
Os diagramas a seguir ilustram precisamente os mesmos dados, mas o grfico inferior menor em um
campo mais amplo (escala diferente).
Nossos olhos podem ser enganados por uma mudana de escalas, ou pela quantidade de espao em
branco em torno do aglomerado dos pontos.
Deve-se, ento, utilizar uma medida numrica para suplementar o grfico.
Coeficiente de Correlao Linear (r)
r -> mede o grau de relacionamento linear entre valores emparelhados x e y em uma
amostra.
Mede a intensidade e a direo da relao linear entre duas variveis quantitativas.
Chamado tambm de Coeficiente de Correlao de Pearson (Karl Pearson, 1857-1936).
Quanto mais prximo de 1: maior correlao negativa
Quanto mais prximo de 1: maior correlao positiva
Quanto mais prximo de 0: menor a correlao linear
O valor de r no varia se todos os valores de qualquer uma das variveis so convertidos para uma escala
diferente.
O valor de r no afetado pela escolha de x ou y. Permutando x e y, r permanece inalterado.
r: s mede a intensidade ou grau de relacionamentos lineares. No serve para medir intensidade de
relacionamentos no lineares.
http://leg.ufpr.br/~paulojus/CE003/ce003/node8.html
https://www.eecis.udel.edu/~portnoi/classroom/prob_estatistica/2006_2/lecture_slides/aula20.pdf
http://support.minitab.com/pt-br/minitab/17/topic-library/modeling-statistics/regression-andcorrelation/basics/what-is-a-linear-relationship/
http://support.minitab.com/pt-br/minitab/17/topic-library/modeling-statistics/regression-andcorrelation/basics/linear-nonlinear-and-monotonic-relationships/
O coeficiente de correlao sensvel a pontos aberrantes, portanto importante que o diagrama de
pontos seja analisado.
O coeficiente de determinao mltipla, R e o R ajustado servem como parmetro para explicar a
variabilidade dos dados observados usando as variveis independentes. Quando R ajustado mais
prximo de 1, indica que existe relao linear, no entanto deve-se tomar cuidado pois a adio de
variveis aumenta o valor de R.
Para avaliar a existncia ou no da relao linear, pode-se recorrer ao teste de hipteses, onde avalia-se a
significncia do modelo atravs das hipteses:
H 0 : i=0
, no existe relao linear
43
H 1: i 0
Definido um
H0
Fcalculado
relao linear. Caso contrrio, no h indcios que indiquem a existncia da relao linear.
possvel ainda avaliar a existncia de correlao no-linear a partir da anlise grfica dos resduos, de
modo que, atravs da anlise dos resduos pode-se observar comportamento diferente do comportamento
linear ou outras inadequaes do modelo, como dependncia dos erros, desgaste, ou seja, varincia noconstante.
O valor de uma constante de suavizao escolhido (0 < < 1). Ento, com
xt
xt x t 1 x t 1
instante t, definimos
= x1, e para t = 2, 3, ..., n,
.
= valor ajustado no
xt
b) Calcule o
suavizada?
xt
usando = 0,1. Repita para = 0,5. Que valor de fornece uma srie
xt 1 xt 1 1 xt 2
c) Substitua
xt
xt 3
mais
xt 2
e ento substitua
em termos
xt
de xt-2,
e assim por diante. De quantos valores de xt, xt-1, ..., x1,
coeficiente de xt-k quando k aumenta?
xt
xt
= x1?
QUESTO RLM4
Considerando que o modelo de predio da Demanda Bioqumica de Oxignio (DBO) construdo em sala
de aula (05/05/08) no foi satisfatrio, novos dados foram fornecidos pela empresa e so apresentados na
planilha Q4 do arquivo Dados. Construa um modelo de regresso linear mltipla para predio da DBO
fazendo-se uso dos novos dados fornecidos (planilha Q4), analise criticamente os resultados obtidos e
sugira meios para melhoria do modelo.
Nomenclatura (Planilha Q4)
in: entrada do volume de controle
out: sada do volume de controle
Dados do efluente:
Vaz: Vazo
Col: Cor
Cond: Condutividade
DBO: Demanda bioqumica de oxignio
DQO: Demanda qumica de oxignio
Nam: Nitrognio amoniacal
NN: Nitrognio nitrato
SS: Slidos suspensos
T: Temperatura da gua
Dados de produo:
PCel: Produo de celulose
PPapel: Produo de papel
Outros:
Chuva: Precipitao diria
QUESTO RLM5
Acredita-se que a vazo de vapor (em ton/h) usada mensalmente por uma planta qumica est relacionada
com a temperatura ambiente (em oF) daquele ms. Os usos e temperaturas dos ltimos anos esto
mostradas na tabela que segue:
QUESTO REPETIDA
Ms
Temp.
Vazo/1000
Jan
21
185,79
Fev
24
214,47
Mar
32
288,03
Abr
47
424,84
Mai
50
454,58
Jun
59
539,03
Jul
68
621,55
Ago
74
675,06
Set
62
562,03
Out
50
542,93
Nov
41
369,95
Dez
30
273,98
a) Assuma que o modelo de regresso linear simples apropriado e ajuste o modelo de regresso
relacionando a vazo de vapor (y) e a temperatura (x).
45
Predictor T P
Constant
-0.14 0.890
Temp.
19.91 0.000
se p-valor
Dessa forma, aumenta-se o nvel de significncia para permitir que determinada varivel entre no modelo
e diminui-se o nvel de significncia para fazer com que determinada varivel saia do modelo, tendo em
vista a importncia da varivel em questo atravs do teste de hipteses.
PLANEJAMENTO DE EXPERIMENTOS
QUESTO PE1
Um planejamento de experimentos foi realizado com o objetivo de aumentar a atividade de uma
determinada enzima em funo do pH e temperatura. Desta forma o experimento foi realizado de acordo
com a tabela a seguir:
Fatores
A
B
+
-
Ordem
1
2
1
218
67
Repeties
2
121
73
Mdias
3
170
76
200
72
2
http://support.minitab.com/pt-br/minitab/17/topic-library/modeling-statistics/regression-andcorrelation/basics/basics-of-stepwise-regression/
47
+
+
3
4
402
222
399
258
411
270
404
250
QUESTO PE2
Um experimento conhecido por Teste de Jarro realizado para encontrar-se as melhores condies
operacionais para a quebra da emulso leo-gua com uma combinao de cloreto frrico e cido
sulfrico de forma que o leo livre possa ser removido por flotao. Um experimento fatorial completo
foi realizado, obtendo-se os resultados apresentados ao lado.
a) Estime e analise os efeitos principais e de interao
do cido sulfrico e do cloreto frrico e indique qual a
melhor condio para a separao da emulso leo-gua.
b) Proponha meios de estimar a significncia dos
resultados obtidos.
c) Qual a vantagem em se realizar cada experimento em
duplicata?
QUESTO PE3
Deseja-se maximizar o rendimento de uma reao e para tanto, foi realizado um planejamento
experimental. Que concluses se pode tomar a partir do experimento realizado cujos resultados so
apresentados abaixo. Critique a forma como os fatores foram estabelecidos.
Corrida
Ordem
Temperatura
(oC)
Tempo de
reao
(min)
Rendimento
(%)
40
Baixo
57
61
60
Baixo
92
88
40
Alto
55
53
60
Alto
66
70
QUESTO PE4
Um experimento conhecido por Teste de Jarro realizado para encontrar-se as melhores condies operacionais
para a quebra da emulso leo-gua com uma combinao de cloreto frrico e cido sulfrico de forma que o leo
livre possa ser removido por flotao. A concentrao inicial do leo de 5000 ml/L e dois experimentos
sequenciais foram realizados. O que se pode concluir dos experimentos 1 e 2? Critique a forma em que os
experimentos foram realizados.
FeCl3 (mg/L)
H2SO4 (mg/L)
leo (mg/L)
1,0
0,1
4200
Experimento 1
1,1
1,2
1,3
0,1
0,1
0,1
2400
1700
175
1,4
0,1
650
Experimento 2
1,3
1,3
1,3
0
0,1
0,2
1600
175
500
QUESTO PE5
Considere que se deseja realizar experimentos considerando trs fatores e uma resposta e que apenas 5
experimentos possam ser realizados.
a) Proponha um planejamento de experimentos e indique que experimentos sero realizados.
Justifique sua resposta.
b) Indique qual a resoluo (grau de confundimento) e que fatores sero confundidos considerando
sua resposta em (a). Justifique sua resposta.
c) Como voc avaliaria a existncia de relaes no lineares entre fatores e respostas? Justifique sua
resposta.
CONTROLE ESTATSTICO DE PROCESSOS
QUESTO CEP1
O sistema de controle de qualidade de cinco bombas apresenta as alturas das bases de uma parte da
bomba (medidas realizadas em polegadas) como se pode observar na tabela a seguir.
50
Avalie os dados da tabela acima e construa o(s) grfico(s) de controle mais adequado(s).
Justificando e indicando as etapas para o seu desenvolvimento.
b) Qual a premissa principal a ser considerada na construo da carta de controle de individuais (Xbarra) e de subgrupos (X-barra-barra)?
a)
Amostras
1
2
3
4
5
6
7
8
9
10
11
12
13
14
B1
0,831
0,834
0,836
0,833
0,830
0,829
0,835
0,818
0,841
0,832
0,831
0,831
0,838
0,815
B2
0,829
0,826
0,826
0,831
0,831
0,828
0,833
0,838
0,831
0,828
0,838
0,826
0,822
0,832
B3
0,8400
0,8312
0,8220
0,8310
0,8330
0,8320
0,8300
0,8340
0,8330
0,8320
0,8270
0,8320
0,8300
0,8310
B4
0,836
0,831
0,831
0,835
0,831
0,828
0,829
0,835
0,831
0,836
0,844
0,828
0,835
0,831
B5
0,826
0,831
0,816
0,833
0,820
0,841
0,841
0,830
0,832
0,825
0,826
0,827
0,830
0,838
QUESTO CEP2
O programa guapura vem atuando na reduo do consumo de gua da UFBA, tendo obtido resultados
significativos atravs de um acompanhamento sistemtico vianet do consumo por unidade
(http://teclim.ufba.br/aguapura/index.php, ver exemplo abaixo). Considerando conceitos da estatstica,
proponha outra(s) forma(s) de acompanhamento do consumo de gua da UFBA. Descreva todas as
premissas e implicaes consideradas na(s) sua(s) proposta(s).
QUESTO CEP3
Dois grficos de controle (a) e (b) foram construdos considerando dados de subgrupos de tamanho 5 e 4,
respectivamente. Analise criticamente estes grficos de controle e discuta se eles poderiam ser utilizados
para o acompanhamento de processos.
51
16
Sample Mean
Sample Mean
UCL=15,049
14
__
X=11,530
12
10
21,6
UCL=21,395
20,4
__
X=20,154
19,2
LCL=18,912
18,0
8
LCL=8,012
1
11
13
15
17
19
21
23
25
11
15
17
19
21
23
25
UCL=4,550
UCL=12,90
12
4
Sample Range
Sample Range
13
Sample
Sample
9
_
R=6,1
6
3
0
3
11
13
15
17
19
21
23
_
R=2,152
2
1
0
LCL=0
1
LCL=0
1
25
11
13
15
17
19
21
23
25
Sample
Sample
(b)
(a)
QUESTO CEP4
O contedo de cobre, em ppm, de um banho de platina medido trs vezes ao dia e os resultados de Xbarra e R so apresentados na tabela abaixo. Sabendo-se que os limites de especificao so 6,0 1,0: a)
Indique se esse processo est sobre controle (Utilize apenas a regra 1: pontos fora dos limites de controle)
e b) Estime a capabilidade do processo e interprete o resultado.
Dia
X-barra
1
5,45
1,21
Dia
X-barra
14
7,01
1,45
2
5,3
9
0,9
5
15
5,8
3
1,3
7
3
6,8
5
1,4
3
16
6,3
5
1,0
4
4
6,7
4
1,2
9
17
6,0
5
0,8
3
5
5,8
3
1,3
5
18
7,11
1,3
5
6
7,2
2
0,8
8
19
7,3
2
1,0
9
7
6,3
9
0,9
2
20
5,9
0
1,2
2
8
6,5
0
1,1
3
21
5,5
0
0,9
8
9
7,1
5
1,2
5
22
6,3
2
1,2
1
10
5,9
2
1,0
5
23
6,5
5
0,7
6
11
6,4
5
0,9
8
24
5,9
0
1,2
0
12
5,3
8
1,3
6
25
5,9
5
1,1
9
13
6,0
3
0,8
3
QUESTO CEP5
Barras de chocolate so produzidas e a cada 15 minutos 3 barras so retiradas da linha e pesadas. Cartas
de controle para mdia e amplitude so construdas para monitorar o peso dessas barras; o tamanho da
amostra 3 e X-barra e R so estimadas a cada 28 amostras, obtendo-se, respectivamente, 170,785g e
0,515g.
a) Estime os limites de controle para X-barra e R.
b) Estime o desvio padro deste processo. Com base na carta de controle (X-barra) abaixo, verifique se
este valor estimado representa a variabiliade do processo (justifique sua resposta).
52
171.6
Sample Mean
UCL=171.313
171.2
_
_
X=170.785
170.8
170.4
LCL=170.258
170.0
1
1
10
13
16
19
22
25
28
Sample
1.5
Sample Range
UCL=1.327
1.0
0.5
10
13
10
16
19
22
25
28
0.0
_
R=0.515
LCL=0
1
Sample
D
4
3,
27
2,
57
2,
28
2,
11
2,
00
1,
92
1,
86
1,
82
1,
78
0,
08
0,
14
0,
18
0,
22
1,
88
1,
02
0,
73
0,
58
0,
48
0,
42
0,
37
0,
34
0,
31
A
2
A1
A2
d2
D3
D4
E2
3,7
6
1,88
1,12
8
3,2
7
2,6
6
2,3
9
1,02
3
1,69
3
2,5
7
1,7
7
1,8
8
0,72
9
2,05
9
2,2
8
1,4
6
QUESTO CEP6
53
O sistema de controle de qualidade de cinco bombas apresenta as alturas das bases de uma parte da
bomba (medidas realizadas em polegadas) como se pode observar na tabela a seguir.
a) Avalie os dados da tabela acima e construa o(s) grfico(s) de controle mais adequado(s).
Justificando e indicando as etapas para o seu desenvolvimento.
b) Qual a premissa principal a ser considerada na construo da carta de controle de individuais (Xbarra) e de subgrupos (X-barra-barra)?
Amostras
1
2
3
4
5
6
7
8
9
10
11
12
13
14
B1
0,831
0,834
0,836
0,833
0,830
0,829
0,835
0,818
0,841
0,832
0,831
0,831
0,838
0,815
B2
0,829
0,826
0,826
0,831
0,831
0,828
0,833
0,838
0,831
0,828
0,838
0,826
0,822
0,832
B3
0,8400
0,8312
0,8220
0,8310
0,8330
0,8320
0,8300
0,8340
0,8330
0,8320
0,8270
0,8320
0,8300
0,8310
B4
0,836
0,831
0,831
0,835
0,831
0,828
0,829
0,835
0,831
0,836
0,844
0,828
0,835
0,831
B5
0,826
0,831
0,816
0,833
0,820
0,841
0,841
0,830
0,832
0,825
0,826
0,827
0,830
0,838
QUESTO AM1
a) Descreva uma situao em que seria
necessrio o uso das componentes principais
como variveis independentes de um modelo de
regresso linear multivariado.
b) Considerando o grfico abaixo, voc excluiria
alguma varivel da sua anlise? Justifique sua
resposta
ANLISE MULTIVARIADA
1.0
Var.5
0.8
0.6
0.4
0.2
Var.4
Var.3
0.0
Var.2
Var.1
-0.2
-0.4
-0.50
-0.25
0.00
0.25
0.50
QUESTO AM2
Os grficos abaixo foram gerados para a anlise multivariada dos dados do sistema de tratamento de
efluentes discutidos em sala. Descreva o uso de cada grfico.
54
Vaz_in
Segunda componente
Primeira componente
0.75
0.50
0.25
DQO_in
0.00
DBO_in
-0.25
pH_in
-0.50
-0.75
SS_in
-0.50
-0.25
0.00
0.25
0.50
1
0
-1
-2
-3
-4
-5
Segunda componente
-3
-2
-1
Primeira componente
QUESTO AM3
Explique quais as vantagens em transformar os variveis originais em componentes principais e utilizlas na construo de um modelo de regresso.
QUESTES UNIFICADAS
QU1
A demanda bioqumica de oxignio (DBO em mg/L) foi obtida a partir de uma pesquisa em resduos
industriais. Noventa e nove (99) observaes foram levantadas a cada 4 horas, fornecendo seis (6)
observaes dirias para 16 dias, mais trs (3) observaes no 17o dia. O entendimento do
comportamento horrio e composto (mdia diria) ser necessrio para projetar o tratamento do processo.
Os padres de variao tambm precisam ser vistos porque eles influenciam, por exemplo, a
exeqibilidade em utilizar-se unidades de equalizao do processo para reduzir as variaes de carga de
DBO. Os dados podem ter propriedades interessantes, assim a apresentao deve ser completamente clara
e no estar aberta para interpretaes confusas.
Quadro 1: Estatsticas descritivas da DBO (mg/L)
Estatsticas descritivas: DBO mdia (mg/L)
Varivel
Mdia DP Mnimo Q1 Mediana
DBO mdia (mg/L) 683,9 105,3 557,0 585,9 652,3
Estatsticas descritivas: DBO (mg/L) em 4h; 8h; 12h; 16h; 20h; 24h
DBO(mg/L) Mdia
4h
701,9
8h
650,9
12h
687,5
16h
760,6
20h
695,1
24h
630,0
DP. Desvio Padro
DP
307,8
303,9
289,5
305,4
316,4
280,7
Mnimo
316,0
221,0
207,0
233,0
235,0
266,0
Q1
405,0
369,5
429,5
511,0
380,8
370,3
Mediana Q3
717,0 1027,0
691,0 898,0
659,0 948,5
826,5 1055,5
693,0 970,0
576,0 822,8
55
1200
DBO (mg/L)
1000
800
600
400
200
1
10
20
30
40
50
60
70
80
90
100
Figura 2: Grfico de tendncias (esquerda) e box plot (direita) da DBO (mg/L) por hora amostrada.
5
10
8h
15
1000
800
600
800
900
600
600
400
400
900
900
600
600
300
300
1
10
1000
300
200
1200
1200
1200
1200
1000
DBO (mg/L)
1
4h
1200
1200
1000
800
600
800
400
600
400
15
200
1
10
15
12
16
20
24
Tempo (h)
Dias
Figura 3: Grfico de pontos da DBO (mg/L) total (acima) e por hora (abaixo)
200
400
600
800
1000
1200
Tempo (h)
DBO (mg/L)
4
8
12
16
20
24
280
420
560
700
840
980
1120
DBO (mg/L)
Figura 4: Grfico de probabilidade dos valores individuais (esquerda), mdio (direita) e por hora (abaixo) da DBO (mg/L)
99,9
99
95
90
80
60
40
Percent
Percent
95
20
5
0,1
-500
80
70
60
50
40
30
20
10
5
500
1000
DBO (mg/L)
1500
1
400
500
600
700
800
900
1000
56
4h
Probability
0,99
8h
0,99
0,99
0,9
0,9
0,9
0,5
0,5
0,5
0,1
0,1
0,1
0,01
0,01
0
1000
0,01
2000
800
1600
0,99
0,99
0,99
0,9
0,9
0,9
0,5
0,5
0,5
0,1
0,1
0,1
0,01
0,01
0
1000
800
1600
0,01
2000
1000
2000
800
1600
Figura 5: Grfico de controle da mdia da DBO (mg/L). LSC: limite superior de controle e LIC: limite inferior de controle
1200
LSC=1195
900
_
_
X=687
600
300
LIC=180
1
11
13
15
17
Tempo (dias)
a) Do ponto de vista estatstico, qual a importncia de avaliar a concentrao de DBO por perodo de
amostragem (4h, 8h, 12h, 16h, 20h, e 24h) ao invs de utilizar unicamente a DBO mdia para as anlises
posteriores?
b) Avalie se a concentrao de DBO horria mdia varia significativamente durante 24h de operao.
Descreva todas as premissas necessrias para basear sua anlise. Quando necessrio, considere um nvel
de confiana de 90%.
c) Um dos critrios estabelecidos para avaliar a inviabilidade tcnica de instalao de uma unidade de
tratamento da DBO baseada na avaliao da probabilidade em que a DBO horria exceda os limites de
especificao.Tests
Considera-se
o processo
de tratamento invivel se a probabilidade da DBO (mg/L)
performed with unequal
sample sizes
ultrapassar o seu valor mdio + 10% for igual ou superior a 30%. Pergunta-se, este processo vivel
tecnicamente? Justifique sua resposta.
QU2
Deseja-se caracterizar a qualidade do efluente tratado de uma indstria de papel e celulose atravs do
parmetro demanda bioqumica de oxignio (DBO_out), medido na sada do sistema de tratamento
orgnico. Os demais parmetros de qualidade apresentados so analisados no afluente da estao de
tratamento: demanda bioqumica de oxignio (DBO_in), demanda qumica de oxignio (DQO_in),
pH (pH_in), slidos em suspenso (SS_in) e vazo (Vaz_in). Na Figura 1 e Quadro 1 so apresentados
alguns grficos e estatsticas utilizados para o monitoramento do processo. (6,0 PONTOS)
57
Figura 1: Grficos de caixa (box-plot), pontos (dot plot), histograma e de tendncia dos parmetros de
qualidade do afluente (in) e efluente tratado (out).
Valores escalonados de 0 a 1
0,8
0,7
DBO_out
0,6
DBO_in
DQO_in
0,5
0,4
pH_in
SS_in
0,3
Vaz_in
0,2
DBO_out
DBO_in
DQO_in
pH_in
SS_in
Vaz_in
0,24
0,32
0,40
DBO_in
0,48
0,56
0,64
0,72
Valores escalonados de 0 a 1
DBO_out
DQO_in
15
30
45
DBO_in
DQO_in
0,8
30
0,6
Frequencia
20
0,4
10
pH_in
SS_in
Vaz_in
pH_in
0,8
SS_in
0,2
Vaz_in
30
0,6
20
0,4
10
0,2
0
15
30
45
15
30
45
Quadro 1: Estatsticas descritivas dos parmetros de qualidade do afluente (in) e efluente tratado (out).
Estatsticas descritivas
Varivel
DBO_out
DBO_in
DQO_in
pH_in
SS_in
Vaz_in
Mdia
0,457
0,504
0,577
0,528
0,342
0,562
DP
0,0766
0,0696
0,0689
0,0300
0,0800
0,0418
Mnimo
0,326
0,303
0,364
0,479
0,231
0,346
Q1
0,410
0,464
0,540
0,510
0,281
0,550
Mediana
0,453
0,509
0,569
0,521
0,336
0,573
Q3
0,498
0,533
0,614
0,540
0,391
0,588
Mximo
0,723
0,680
0,766
0,638
0,668
0,613
Tamanho amostral
52
52
52
52
52
52
O processo de gerao e distribuio de vapor, bem como o sistema de co-gerao, de uma determinada
indstria podem ser representados pela figura 1. O primeiro controlador (PC-1) controla a presso do
sistema de distribuio de vapor de mdia presso (15 kgf/cm2) em uma faixa de modo a evitar que fique
abaixo de um valor requerido. Para isto, quando ocorre diminuio da presso do sistema de distribuio
de vapor, o controlador PC-1 comanda a abertura de uma vlvula redutora de presso que injeta vapor
diretamente na linha de distribuio, sem passar pela turbina. O segundo controlador (PC-2) controla a
presso do sistema de distribuio de vapor em outra faixa, evitando que a presso fique acima de um
valor definido como seguro para o processo. Para fazer esse controle, o PC-2 comanda a abertura de uma
vlvula de alvio que lana na atmosfera o excesso de vapor, gerando perdas de vapor e,
consequentemente, de gua e energia.
S
R-Sq
R-Sq(adj)
3,32352
42,5%
39,6%
Perda (%)
25
20
15
10
20000
24000
28000
EE gerada (kwh)
32000
36000
Correlao
moderada
Figura 2: Grfico de correlao entre as perdas de vapor e a gerao de energia eltrica pelas
turbinas.
a) Estime as estatsticas descritivas de mdia e desvio padro dos dados referentes a perda de vapor da
Tabela 1 considerando um nvel de confiana de 95%. Discuta os resultados considerando as informaes
apresentadas no Quadro 1 e Figura 1.
b) Selecionando-se uma unidade amostral ao caso: (a) Qual a probabilidade que esta amostra tenha perda
superior a 25%. (b) Qual deve ser a perda de vapor para que 95% da perda seja inferior a 25%?
59
c) (a) Considerando que o engenheiro responsvel pelo processo acha o intervalo estimado no item 1(a)
muito grande, quantas amostrar ele deveria ter para um intervalo de 95% com erro menor que 0,5% de
perdas de vapor? (b) Esperava-se que a perda mdia de vapor da unidade no ultrapasse 18%, ao nvel de
confiana de 95%, para que no haja atuao manual no processo. Verifique se este procedimento deve
ser alterado com base na teoria de teste de hipteses. Avalie a influncia da alterao do nvel de
confiana para 99% sobre os erros do tipo 1 para este sistema.
d) Atividade no R:
d.1. Complemente a anlise realizada na questo 1 utilizando outras estatsticas descritivas e grficos
alm dos apresentados na Figura 1.
d.2. Solucione a questo 2 utilizando o R.
d.3. Solucione a questo 3 utilizando o R.
Quadro 1: Estatsticas descritivas da varivel perda com e sem o outlier.
Descriptive Statistics:
Variable
Mean StDev Minimum Q1 Median
Q3 Maximum
% Perda
17,001 5,147 8,830 14,010 15,887 19,660 37,631
% Perda (sem outlier) 16,542 4,148 8,830 13,912 15,715 19,612 27,170
12
40
% Perda
Frequencia absoluta
35
Data
30
25
20
16
20
24
28
32
36
12
12
10
10
15
10
% Perda
12
16
20
24
28
32
36
% Perda
jan/06
37213
4032
130
11
fev/06
33767
3297
118
10
mar/06
38540
3403
110
abr/06
36588
4738
158
13
mai/06
39984
4324
139
11
jun/06
33902
4783
159
14
jul/06
36187
7124
230
20
ago/06
39209
9844
318
25
set/06
36121
5927
198
16
60
out/06
44997
6537
211
15
nov/06
37974
6238
208
16
dez/06
40726
6400
206
16
jan/07
42001
5760
186
14
fev/07
37422
5644
195
15
mar/07
42258
6490
209
15
abr/07
27716
6281
209
23
mai/07
42857
16127
520
38
jun/07
44480
9463
315
21
jul/07
42547
7233
233
17
ago/07
43833
6648
214
15
set/07
40902
7272
242
18
out/07
44605
6983
225
16
nov/07
43026
7885
263
18
dez/07
44834
9041
292
20
jan/08
43755
8334
269
19
fev/08
38334
10415
359
27
mar/08
40754
10283
332
25
abr/08
36805
7676
256
21
mai/08
42597
6058
195
14
jun/08
39327
7728
258
20
jul/08
38301
7173
231
19
ago/08
39324
6531
211
17
set/08
35214
7453
248
21
out/08
44506
6829
220
15
nov/08
37587
7776
259
21
dez/08
36037
7053
228
20
jan/09
34122
4240
137
12
fev/09
32953
4380
151
13
mar/09
19964
2519
81
13
abr/09
41439
4223
141
10
mai/09
40593
5854
189
14
jun/09
36338
5429
181
15
jul/09
39598
6359
205
16
ago/09
42836
6378
206
15
set/09
40022
6722
224
17
out/09
47682
6258
202
13
d) Acredita-se que os dados de perda de vapor (t/ms) e produo (t/ms) sejam correlacionados.
d.1. Verifique se essa afirmao verdadeira considerando os resultados apresentados no Quadro 2 e Figura 4. No se esquea
de utilizar tambm a teoria do teste de hipteses nas suas justificativas.
d.2. Proponha um algoritmo para construo de um modelo de regresso multivariado. Considere que variaes na temperatura
ambiente, presso na linha de distribuio e percentual de condensado na linha podem causar variaes na perda de vapor.
Considere a possibilidade de existir diferentes padres por turno de produo (7-15h, 15-23h, 23-07h), relaes no lineares,
correlao entre variveis preditoras, valores aberrantes, etc.
Quadro 2: Resultados do modelo de regresso.
The regression equation is
Perda Total / (t/ms) = - 1149 + 0,200 Produo Total / (t/ms)
61
Predictor
Constant
Produo Total / (t/ms)
S = 2072,88
Coef
-1149
0,20003
R-Sq = 18,4%
SE Coef
2505
0,06353
T
-0,46
3,15
P
0,649
0,003
R-Sq(adj) = 16,5%
Analysis of Variance
Source
Regression
Residual Error
Total
DF
1
44
45
SS
42591282
189060773
231652055
MS
42591282
4296836
F
9,91
P
0,003
Unusual Observations
Obs
16
17
39
Produo
Total /
(t/ms)
27716
42857
19964
Perda
Total /
(t/ms)
6281
16127
2519
Fit
4395
7423
2844
SE Fit
787
387
1255
Residual
1886
8704
-325
St Resid
0,98 X
4,27R
-0,20 X
99
10000
Residual
Percent
90
50
10
1
-5000
5000
5000
10000
3000
4500
Residual
9000
12
Residual
Frequency
7500
10000
16
8
4
0
6000
Fitted Value
-3000
3000
Residual
6000
9000
5000
10
15 20 25 30 35
Observation Order
40
45
QU4
A eutrofizao das guas propiciada pelo incremento de nutrientes no corpo d'gua, levando ao
crescimento excessivo das plantas aquticas, com consequente desequilbrio do ecossistema aqutico e
progressiva degenerao da qualidade da gua dos corpos d'gua. A eutrofizao, inicialmente, pode
62
ocorrer de forma natural em ecossistemas aquticos, todavia o estado trfico de lagos tem sido alterado
principalmente pelo influxo de nutrientes provenientes do despejo de esgotos urbanos e industriais.
A avaliao de parmetros de qualidade das guas de um rio pode permitir a anlise de seu estado de
eutrofizao, sendo a clorofila um dos principais parmetros de qualidade avaliados. O ndice de
eutrofizao (IET), proposto pela CETESB, utilizado para avaliar-se a eutrofizao de corpos d'gua.
Nesse ndice, usualmente, considerado o fsforo como o agente principal causador da eutrofizao e a
clorofila deve ser considerada como uma medida da resposta do corpo hdrico ao agente causador. Assim,
o ndice mdio engloba, de forma simplria, a causa e o efeito do processo, utilizando-se a mdia nos
meses em que estejam disponveis dados de ambas variveis, conforme observado nas faixas de trofia do
Quadro 1.
Slidos totais, turbidez, fsforo total, nitrognio amoniacal, nitrognio total, nitrato e clorofila A de
um determinado rio em So Paulo foram levantados em seis pontos de amostragem (ver Figura 1) em
dois perodos seco e mido. Para estimativa do IET, utilizou-se dados histricos levantados no ponto 6.
Com base no Quadro 1 e Figuras 1 a 7, conclua sobre a condio de eutrofizao do rio X. Considere o
ponto 6 como ponto de interesse na anlise da eutrofizao.
a) Considerando novos dados de monitoramento levantados para o ano de 2012 apresentados no Quadro
2:
a.1. Compare se h mudanas no estado de eutrofizao do rio para os perodos seco e mido
considerando a avaliao de intervalos de confiana do IET e nvel de significncia de 10%.
a.2. Com base na teoria do teste de hipteses, verifique, se possvel, se o comportamento das amostras no
perodo seco e mido encontrado para o IET tambm verificado para a clorofila e fosfato.
b) Considerando os dados apresentados no Quadro 2:
b.1. Qual a probabilidade de uma amostra selecionada ao acaso apresentar valores de IET na faixa trfica.
b.2. Uma anlise especfica ser realizada considerando dados com maior probabilidade de ocorrncia.
Qual o valor limite de IET caso deseje-se considerar nesta anlise dados com probabilidade superior a
80%?
63
Figura 1. Dotplot dos principais parmetros monitorados nas pocas mida (1) e seca (2).
64
Figura 3. Matriz de correlao considerando o conjunto total de dados (poca seca + mida).
Figura 4. Boxplot considerando o conjunto total de dados (poca seca + mida) no ponto 6.
65
Figura 5. Dot plot do IET considerando o conjunto total de dados (poca seca + mida) no ponto 6.
Figura 6. Srie histrica do ndice de eutrofizao considerando o conjunto total de dados (poca seca +
mida) no ponto 6.
66
Figura 7. Boxplot do IET considerando o conjunto total de dados (poca seca + mida).
poca
Seco
mido
N
29
27
Mdia
17,66
14,60
DP
18,03
9,79
Q1
2,55
5,64
Mediana
10,56
15,38
Q3
34,22
22,30
FosfatoT (mgPO4-P/L)
Seco
mido
40
39
0,02000
0,03750
0,01483
0,02121
0,01000
0,02000
0,02000
0,03000
0,02000
0,06250
IET
Seco
mido
35
32
59,279
57,488
4,964
4,618
55,667
55,742
60,293
58,168
62,958
60,634
c) Proponha um modelo de regresso para estimativa do IET. Foram disponibilizados dados histricos
(classificados pela poca do ano que foram amostradas) de fsforo total, turbidez, clorofila A, contagem
de clulas, pH, demanda bioqumica de dissolvido (DBO5) e oxignio dissolvido (OD), ver Tabela 1.
Discuta todos os passos e resultados obtidos na construo dos modelos. Considere o uso da
estatstica descritiva at a anlise dos resduos dos modelos.
67
Data
05/07/04
04/01/07
03/08/06
01/10/03
16/06/08
03/07/06
10/09/07
10/10/07
27/07/07
26/02/10
17/11/09
10/10/05
06/07/07
05/01/10
03/11/04
29/10/09
02/09/04
11/07/07
29/09/08
12/12/08
28/11/05
12/06/06
23/09/09
03/12/09
06/07/05
07/04/09
05/05/06
02/03/06
11/08/09
28/04/08
31/03/09
10/06/10
01/04/04
05/01/04
01/02/07
29/07/09
04/04/05
28/06/07
10/05/07
20/03/06
23/03/09
26/11/07
25/05/10
21/09/10
poca
mido
Seco
mido
Seco
mido
mido
mido
Seco
mido
Seco
Seco
Seco
mido
Seco
Seco
Seco
mido
mido
mido
Seco
Seco
mido
mido
Seco
mido
mido
mido
Seco
mido
mido
Seco
mido
mido
Seco
Seco
mido
mido
mido
mido
Seco
Seco
Seco
mido
mido
6,916
13,8871
20,2
14,9845
8,008
15,3321
15,3321
16,3261
8,918
16,6424
18,1254
10,56
19,7206
19,9697
20,2145
22,0333
14,56
14,74
23,0612
23,0612
16,2
23,8327
21,66
18,38
24,7411
25,0887
25,2593
30,39
203,32
6417,84
144871,79
60
53,04
68,51
1971,32
2012
4650
68461,54
576923,08
7917,55
609,96
348974,36
43376,07
468,52
564
2853,55
40341,88
461,01
12050,69
3383,95
168547,01
72505,68
100427,35
1814957,3
835,38
1311,41
4,5
3,5
5,4
NA
2,7
15
NA
NA
20
NA
28
6,1
8,7
9,3
NA
NA
5,8
8,6
8,4
9,7
20
5,6
6,3
5,7
35
83
3,7
4,4
NA
0,037
0,018
0,04
0,02
0,041
0,041
0,044
0,06
0,045
0,05
0,03
0,056
0,057
0,058
0,066
0,05
0,08
0,071
0,071
0,06
0,075
0,062
0,03
0,08
0,082
0,083
0,066
6,82
6,58
7,88
7,8
7,15
6,55
6,9
6,98
6,66
7,02
6,76
6,96
7,07
6,88
7
7
7,03
7,64
7,69
8,5
6,84
6,57
7,27
7,17
9,8
10,3
4,5
6,77
DBO5
1,24
1,63
1,92
1,02
1,7
1,56
1,9
2,7
3,8
4
2
2,06
3,05
1
1
2,2
OD
4,9
5,7
7,6
5,5
6,9
5
5,5
5,3
8,8
4,2
5,1
4,4
5,7
5,7
5,8
5,4
IET
47,2
47,6
48,4
48,6
49,5
49,7
52
52,1
53,2
54
54,7
54,7
55,3
55,3
55,7
56
1,31
3,8
4
3
1,33
1,88
4
3
1,42
2,5
4,05
1,57
1
3
4
3
1,09
2,12
4,12
1
2,29
1,69
3,25
2,46
3,8
7,1
NA
2,7
3,7
5,1
6,4
7,9
5,5
4,7
5
5,9
4,5
7,3
8,3
5,8
4,4
6,5
5,8
3,4
5,8
7,6
6,5
4,1
3,9
3,3
5,6
7,5
7
8,7
4
5,7
56,2
56,3
56,7
56,8
56,9
57
57
57,4
57,5
57,5
58,2
58,3
58,9
59
59,1
59,9
59,9
59,9
60,3
60,3
60,4
60,6
60,6
61
61
61,2
61,2
61,7
68
Data
05/01/05
01/11/06
27/01/10
24/08/10
27/05/08
28/03/08
23/12/08
02/10/06
20/04/10
30/03/10
27/12/07
02/02/06
20/07/10
01/12/06
30/01/08
25/03/09
poca
Seco
Seco
Seco
mido
mido
Seco
Seco
Seco
mido
Seco
Seco
Seco
mido
Seco
Seco
Seco
Clorofila
21,66
26,8605
26,8605
26,8605
24,21
28,5688
45,5
29,7263
30,4483
34,22
32,0016
32,6181
35,0159
35,1844
57,15
38,04
Clulas
16919,76
150,28
8904,09
645,32
139743,59
320662,39
109401,71
26858,97
274,04
4923,88
553162,39
1002,46
402,22
57,46
588547,01
500000
Turbidez
5,7
2,3
6,8
6,9
7,7
7,9
9,1
22
21
6,2
38
8,1
8,3
7,1
110
9,2
Fsforo
0,08
0,093
0,093
0,093
0,009
0,105
0,073
0,114
0,12
0,15
0,134
0,14
0,166
0,168
0,235
0,376
pH
7,52
7,12
3,7
7,6
6,98
6,8
6,98
6,9
7,5
7,45
9,49
7,42
6,5
7,12
8,87
9,28
DBO5
1,78
1,24
NA
NA
1,8
3,6
5
2,22
1,03
5,1
11,2
1,75
9,8
1,39
5,6
7,1
OD
4,9
5,5
5,8
4,4
6,1
4
3,9
3,9
4,1
5,3
5,2
7,3
4,2
6,7
2,2
5,9
IET
61,8
61,9
61,9
61,9
62,4
62,7
63
63,2
63,5
64,1
64,1
64,4
65,4
65,5
67,1
67,5
Clorofila [mg.L-1], Clulas [unidades], Turbidez [mg.L-1], Fsforo [mg.L-1], DBO5 [mg.L-1], OD [mg.L-1],
IET [adimensional] NA - Valor no informado.
69