Sei sulla pagina 1di 80

UNIVERSIDADE FEDERAL DO PARÁ

INSTITUTO DE TECNOLOGIA
FACULDADE DE ENGENHARIA QUÍMICA
Disciplina: ESTATÍSTICA APLICADA À ENGENHARIA QUÍMICA

Prof. Lênio J. G. de Faria

ESTATÍSTICA DESCRITIVA

1. CONCEITOS

1.1 Estatística
É a ciência que se preocupa com coleta, análise, interpretação e apresentação dos
dados, permitindo-nos a obtenção de conclusões válidas a partir destes dados, bem como
a tomada de decisões razoáveis baseadas nessas conclusões.

A Estatística se divide em:

Estatística Descritiva: trata da coleta, análise, interpretação e apresentação dos dados


estatísticos;
Estatística Indutiva (ou inferencial): a partir de uma amostra, estabelece hipóteses sobre a
população de origem e formula previsões fundamentando-se na teoria das probabilidades.

1.2 População
É todo conjunto que possui alguma característica em comum entre todos os seus
elementos componente, limitados no tempo e no espaço.

1.3 Censo
É a coleta das informações de todas as “N” unidades da população.
1.4 Amostra
É um subconjunto, uma parte selecionada da totalidade de observações
abrangidas pela população da qual se quer inferir alguma coisa.
Amostra Aleatória: onde cada unidade da população tem a mesma chance de ser
incluída na amostra.
UNIVERSIDADE FEDERAL DO PARÁ
INSTITUTO DE TECNOLOGIA
FACULDADE DE ENGENHARIA QUÍMICA
Disciplina: ESTATÍSTICA APLICADA À ENGENHARIA QUÍMICA

Prof. Lênio J. G. de Faria

ESTATÍSTICA DESCRITIVA
(continuação)

5. DISTRIBUIÇÃO DE FREQUÊNCIAS

É útil para resumir grandes quantidades de dados. A distribuição de freqüência por


intervalos consiste numa série estatística na qual a variável observada está dividida em
subintervalos do intervalo total observado.

Etapas da construção de uma distribuição de frequência por Intervalos:

1) Organizar os dados em ordem crescente ou decrescente;


2) Calcular a amplitude total da distribuição de frequência (ΔT), que é a diferença entre o
maior (Xmáximo) e o menor valor (Xminimo) observado.

ΔT = X máximo − X mínimo

3) Determinar o número de classes da distribuição de frequência (K), que são os


subintervalos nos quais são contadas as observações da variável. Existem várias
maneiras de se calcular o número de classes.
3.1) Método prático ou da raiz

O método prático estabelece que:

Se n < 25, utiliza-se k = 5 classes;

Se n ≥ 25, utiliza-se k≅ n
Obs. sempre arredondar o valor de K para um número inteiro, seguindo as regras de
arredondamento.

3.2) Método de Sturges

A fórmula de Sturges para estimar o número de classes é dada por:

k ≅ 1+3,3Log10 (n)

Nesses métodos, n representa o número total de observações. Recomenda-se que


o número de classes esteja no intervalo entre 5 e 20, ou seja: 5 ≤ K ≤ 20. Observa-se
pelos dados contidos na Tabela1 que a partir de n = 400 o número de classes, calculado
pelo método prático, passa a ser maior do que o limite máximo recomendado. O mesmo
não ocorre com K estimado pela fórmula de Sturges, que se mantém na faixa
recomendada em função do número de elementos observados.

Tabela 1. Estimativas de K pelo método prático e de Sturges

n Kprático KSturges
25 5 6
50 7 7
100 10 8
300 17 9
400 20 10
500 22 10
800 28 11
1000 32 11
2000 45 12
3000 55 12
4000 63 13
5000 71 13

Pelo exame do gráfico comparativo entre os dois métodos (Figura 1), verifica-se um
comportamento exponencial da curva representativa do método prático, em função do
número de observações, a partir de n = 100.

1
80

70

60
Número de classes (K)

50

40

30

20

10

0
K prático
0 1000 2000 3000 4000 5000
K Sturges
Número de observações (n)

Figura 1. Comparação dos métodos para estimar K

4) Calcular o intervalo de classe ou amplitude do intervalo de classe (h), que é o


comprimento da classe, dado por:

ΔT
h=
k
5) Construção das classes:

1a Classe → Limite Inferior = menor valor da lista de variáveis


Limite Superior = Limite Inferior da 1a Classe + Valor do Intervalo de
classe

2a Classe → Limite Inferior = Limite Superior da 1a Classe


Limite Superior = Limite Inferior da 2a Classe + Valor do Intervalo de
classe

..............................................................................................................................................
ka Classe → Limite Inferior = Limite Superior da (k-1)a Classe

2
Limite Superior = Limite Inferior da ka Classe + Valor do Intervalo de
classe

Convenção:
|----- Inclui à esquerda e exclui à direita
-----| Exclui à esquerda e inclui à direita
----- Exclui ambos
|-----| Inclui ambos

6) Obtenção da frequência simples ou frequência absoluta da classe (fi), que é o número


de observações contadas dentro da classe.

i) Frequência absoluta acumulada de classe (F): é a acumulação sucessiva, a


partir da primeira classe até uma classe qualquer, das freqüências simples das
classes.

F1 = f 1
F2 = f1 + f 2
...
Fk = f 1 + f 2 + ... + f k

ii) Frequência relativa de classe (fr): é a relação existente entre a freqüência


absoluta ou simples de classe e o número de observações da variável.

fr = ∑f f i

iii) Freqüência relativa acumulada (Fr): é a acumulação sucessiva, a partir da


primeira classe até uma classe qualquer das freqüências relativas das classes.

3
Fr1 = f r1
Fr2 = f r1 + f r2
...
Frk = f r1 + f r 2 + ... + f rk

iv) Ponto médio de classe (Xi): é a média aritmética calculada entre o limite inferior
(li) e o superior (ls) da classe. É o valor em estatística que representa os valores
da variável dentro da classe.

X i = (l +2l )
i s

Exemplo de distribuição de frequência por Intervalos:

Na Tabela 1 constam as massas, em gramas, de sementes oleaginosas. Calcule


as frequências acumuladas, relativas e os pontos médios para a distribuição de
frequência por intervalo:

Tabela 1. Massas de sementes oleaginosas

Classe Massa de fi Fi fri Fri Xi


sementes (g)
1ª classe 10 Ⱶ 20 33 33 0,11 0,11 15
2ª classe 20 Ⱶ 30 51 84 0,17 0,28 25
3ª classe 30 Ⱶ 40 80 164 0,27 0,55 35
4ª classe 40 Ⱶ 50 67 231 0,22 0,77 45
5ª classe 50 Ⱶ 60 44 275 0,15 0,92 55
6ª classe 60 Ⱶ 70 25 300 0,08 1,00 65
Σ - 300 - 1,00 - -

4
1.5 Variável
É o conjunto de resultados possíveis de um fenômeno (resposta), ou ainda são as
propriedades (características) dos elementos da população que se pretende conhecer.

1.5.1 Variáveis Qualitativas


Exprimem qualidade, não numéricas e podem se expressas em palavras. Se existir
uma ordem natural, se diz que a variável é qualitativa ordinal, caso contrario, ela é dita
variável qualitativa nominal.

Exemplos:
a) Presença ou ausência de catalisador em uma reação química;
b) Aderência de uma cola (nenhuma, parcial, total);
c) Solubilidade de um composto químico (insolúvel, parcialmente solúvel, solúvel);
d) Presença ou ausência de agitação em um reator.

1.5. 2 Variáveis Quantitativas

São numéricas. Podem ser ditas Discretas, quando obtidas por meio de contagem ou
Contínuas quando obtidas por meio de medições.

Exemplos:
a) Número de passos em um processo de fabricação;
b) Temperatura de secagem;
c) Número de estágios em uma coluna de absorção gasosa;
d) Viscosidade cinemática do glicerol em função da temperatura.

1.6 Parâmetro: valor singular que existe na população e que serve para caracterizá-la. Em
geral, é representado por letra grega.
Exemplos: média populacional ( µ ) e variância populacional ( σ 2)

1.7 Estimativa: é um valor aproximado do parâmetro e é calculado com o uso da amostra.

1.8 Estimador: é a forma ou o meio de se obter a estimativa. Por exemplo, o rendimento


percentual (R) da extração de um óleo vegetal:

1
massa de óleo obtido
R= 100
massa total de sementes

2. ARREDONDAMENTO DE NÚMEROS

Quando for conveniente ou necessário suprimir unidades inferiores às de


determinada ordem, utiliza-se a técnica do arredondamento de dados, que deve ser feito
utilizando uma das seguintes regras:

- Quando o primeiro algarismo a ser abandonado for 0, 1, 2, 3 e 4 fica inalterado o último


algarismo a permanecer. Por exemplo, arredondar para uma casa decimal os números:
23,24 → 23,2 98,01 → 98,0 11,43 → 11,4

- Quando o primeiro algarismo a ser abandonado for 5, 6, 7, 8 ou 9 aumenta-se uma


unidade no algarismo a permanecer. Por exemplo, arredondar para uma casa decimal os
números:
83,25 → 83,3 58,09 → 58,1 15,47 → 15,5

3. MEDIDAS DE TENDÊNCIA CENTRAL

Torna-se necessário, após a tabulação dos resultados e da representação gráfica,


encontrar valores que possam representar a distribuição como um todo. São as
chamadas medidas de tendência central ou medidas de posição.

3.1 Média aritmética ( X ): consiste em somar todas as observações ou medidas


dividindo-se o resultado pelo número total de valores. Têm-se duas formas de calcular
uma média aritmética:

3.1.1 Média Aritmética de dados brutos:


n
∑ xi
x1 + x 2 + L+ x n
X= n
= i =n1

2
n

∑(f
i =1
i × xi )
3.1.2. Média Aritmética de dados tabelados: X = n

∑f
i =1
i

Se os valores forem distribuídos em classes o Xi será o ponto médio de cada classe, .fi =
n
freqüência simples e a ∑f
i =1
i = n (número total de informações).

Obs: a média tem a desvantagem de ser sensível a valores discrepantes ou


“outliers”

3.2 Mediana (Me): é o valor central de um conjunto de valores ordenados. A mediana


divide a distribuição ao meio.

3.2.1- Mediana de valores brutos:


! Ordenar os valores em ordem crescente;
! Verifica se o número de elementos (n) é par ou ímpar;
! Se n for ímpar, posição da mediana no conjunto, será o valor localizado na posição

dada por: P = n2+1 ;

! Se n for par, o conjunto terá dois valores centrais, neste caso, a mediana será igual
à média aritmética dos valores centrais, cujas posições são dadas por:
P1 = n / 2 e P2 = (n / 2) + 1

3.2.2. Mediana de valores tabelados

• Localiza-se primeiro, por meio da frequência acumulada, a posição (P) da


mediana na tabela:
P = (Σfi / 2) → F

 ∑ fi 
n

 i =1 − F aa 
• Calcula-se o valor da mediana por: Me = l i +  ×h
2

 fi 
 

3
onde:
li = Limite inferior da classe da mediana;
Faa = Freqüência acumulada anterior da classe da Me;
fi = Freqüência simples da classe da mediana;
h = Intervalo de classe.

Obs. a mediana é muito empregada em pesquisas onde não interessam valores


extremos, por terem pouca significação para o conjunto em geral.

3.3 Moda (Mo): é o valor que mais aparece num conjunto de informações ou o de maior
freqüência em uma tabela. A moda pode não ser única ou não existir.

3.3.1. Moda de valores brutos: basta observar o valor que mais aparece no conjunto.
Exemplo: 3 ; 3 ; 6 ; 8 ; 10 ; 10; 10; 11; 11; 12 → Mo = 10.

3.3.2. Moda de valores tabelados:

a) Moda Bruta: é ponto médio da classe de maior frequência simples (classe modal).

 f Mo − f ant 
b) Moda pelo processo de Czuber → Mo = l i +  ×h
 Mo
2 f − (f ant + f ) 
post 
onde:

li = Limite inferior da classe modal;


fpost = Freqüência simples posterior à classe modal;
fant = Freqüência simples anterior à classe modal;
h = Intervalo de classe;
fMO = Freqüência modal.

4. MEDIDAS DE DISPERSÃO OU VARIABILIDADE

São as medidas que determinam o comportamento dos valores em termos de


variabilidade.

4.1 Desvio médio: é a média dos valores absolutos dos desvios dos dados a partir de um
valor de tendência central.
n
∑ ( xi − x )
4.1.1 - Desvio médio de valores brutos: DM = i = 1 ,
n
Onde X é a média aritmética e n é o total de informações.
4
n
4.1.2 - Desvio médio de valores tabelados: ∑ [ ( xi − x ) . f i ]
n
DM = i = 1 , onde : ∑ f =n
n i
∑ f i =1
i
i =1

4.2. Variância: é a média quadrática das somas dos desvios em relação à média
aritmética. O símbolo ⇒ S2 (amostra) ou σ2 (população)

n 2
∑ ( xi − x )
4.2.1- Variância para dados brutos: S2 = i =1
n −1

Ou ainda:
"
(∑ &)
∑ &" –
!" = *
*− 1

A variância amostral para dados brutos também pode ser calculada pela
fórmula alternativa:

2
n∑ x 2 − (∑ x ) 2
s =
n −1

n
∑ [ fi × ( x − x ) ]
2
i
4.2.2- Variância para dados tabelados: S2 = i = 1
n −1

Obs. quando se tratar de população divide-se apenas por “N”.

4.3 Desvio padrão: é a raiz quadrada da variância:

S = S 2 , é o desvio padrão amostral e

σ = σ 2 , é o desvio padrão populacional.

5
4.4 Coeficiente de variação: é uma medida estatística que serve para avaliar a
homogeneidade dos dados. É o grau de concentração dos valores observados em torno
da média aritmética. Pode ser interpretado como uma medida de variabilidade relativa, útil
para comparar a variabilidade de observações com diferentes unidades de medida, pois o
CV é adimensional.
4.4 Coeficiente de variação: é uma medida estatística que serve para avaliar a
homogeneidade dos dados. É o grau de concentração dos valores observados em torno
da média aritmética. Pode ser interpretado como uma medida de variabilidade relativa, útil
para comparar a variabilidade de observações com diferentes unidades de medida, pois o
CV é adimensional.
!
-. = 100
/0

O CV dá uma idéia da precisão do experimento, sendo considerado baixo quando


inferior a 10%, médio na faixa de 10% a 20%, alto quando no intervalo de 20% a 30% e
muito alto, quando superior a 30%.

Baixo: ≤10%
Médio: (10%, 20%]
Alto: (20%, 30%]
Muito Alto: >30%

4.5 Erro padrão da média: o erro padrão da média, epm, é uma das medidas mais usadas
para expressar a variabilidade. Pode ser calculado por meio da expressão:

s2
epm =
n
ou na forma:
s
epm =
n

6
EXERCÍCIOS

1) Os dados abaixo se referem às notas de 15 avaliadores de uma análise sensorial


em um alimento processado.
4 6 8 5 8
6 9 7 9 9
9 7 8 10 5

Com base nos dados acima se pede:

a) a nota média ;
b) a mediana;
c) a moda;
d) a amplitude da distribuição;
e) a variância;
f) o desvio padrão;
g) o desvio médio;
h) o coeficiente de variação;
i) o erro padrão da média.

2) Calcule o CV para cada um dos conjuntos de dados a seguir, complete a tabela e


comente o resultado.

Valores Média Desvio-padrão CV (%)


1, 2, 3
100, 200, 300
101, 102, 103

3) De acordo com a terminologia adotada em estatística, classifique as variáveis a


seguir:

a) cor dos olhos


b) tempo de vôo entre duas cidades
c) cômodos de uma residência
d) viscosidade de um óleo
e) densidade
f) naturalidade
g) temperatura de secagem
h) duração de uma bateria de celular
i) velocidade de rotação de um agitador
j) valores das notas de Euro

7
UNIVERSIDADE FEDERAL DO PARÁ
INSTITUTO DE TECNOLOGIA
FACULDADE DE ENGENHARIA QUÍMICA
Disciplina: ESTATÍSTICA APLICADA À ENGENHARIA QUÍMICA

Prof. Lênio J. G. de Faria

ESTATÍSTICA DESCRITIVA
(continuação)

5. DISTRIBUIÇÃO DE FREQUÊNCIAS

É útil para resumir grandes quantidades de dados. A distribuição de freqüência por


intervalos consiste numa série estatística na qual a variável observada está dividida em
subintervalos do intervalo total observado.

Etapas da construção de uma distribuição de frequência por Intervalos:

1) Organizar os dados em ordem crescente ou decrescente;


2) Calcular a amplitude total da distribuição de frequência (ΔT), que é a diferença entre o
maior (Xmáximo) e o menor valor (Xminimo) observado.

ΔT = X máximo − X mínimo

3) Determinar o número de classes da distribuição de frequência (K), que são os


subintervalos nos quais são contadas as observações da variável. Existem várias
maneiras de se calcular o número de classes.
3.1) Método prático ou da raiz

O método prático estabelece que:

Se n < 25, utiliza-se k = 5 classes;

Se n ≥ 25, utiliza-se k≅ n
Obs. sempre arredondar o valor de K para um número inteiro, seguindo as regras de
arredondamento.

3.2) Método de Sturges

A fórmula de Sturges para estimar o número de classes é dada por:

k ≅ 1+3,3Log10 (n)

Nesses métodos, n representa o número total de observações. Recomenda-se que


o número de classes esteja no intervalo entre 5 e 20, ou seja: 5 ≤ K ≤ 20. Observa-se
pelos dados contidos na Tabela1 que a partir de n = 400 o número de classes, calculado
pelo método prático, passa a ser maior do que o limite máximo recomendado. O mesmo
não ocorre com K estimado pela fórmula de Sturges, que se mantém na faixa
recomendada em função do número de elementos observados.

Tabela 1. Estimativas de K pelo método prático e de Sturges

n Kprático KSturges
25 5 6
50 7 7
100 10 8
300 17 9
400 20 10
500 22 10
800 28 11
1000 32 11
2000 45 12
3000 55 12
4000 63 13
5000 71 13

Pelo exame do gráfico comparativo entre os dois métodos (Figura 1), verifica-se um
comportamento exponencial da curva representativa do método prático, em função do
número de observações, a partir de n = 100.

1
80

70

60
Número de classes (K)

50

40

30

20

10

0
K prático
0 1000 2000 3000 4000 5000
K Sturges
Número de observações (n)

Figura 1. Comparação dos métodos para estimar K

4) Calcular o intervalo de classe ou amplitude do intervalo de classe (h), que é o


comprimento da classe, dado por:

ΔT
h=
k
5) Construção das classes:

1a Classe → Limite Inferior = menor valor da lista de variáveis


Limite Superior = Limite Inferior da 1a Classe + Valor do Intervalo de
classe

2a Classe → Limite Inferior = Limite Superior da 1a Classe


Limite Superior = Limite Inferior da 2a Classe + Valor do Intervalo de
classe

..............................................................................................................................................
ka Classe → Limite Inferior = Limite Superior da (k-1)a Classe

2
Limite Superior = Limite Inferior da ka Classe + Valor do Intervalo de
classe

Convenção:
|----- Inclui à esquerda e exclui à direita
-----| Exclui à esquerda e inclui à direita
----- Exclui ambos
|-----| Inclui ambos

6) Obtenção da frequência simples ou frequência absoluta da classe (fi), que é o número


de observações contadas dentro da classe.

i) Frequência absoluta acumulada de classe (F): é a acumulação sucessiva, a


partir da primeira classe até uma classe qualquer, das freqüências simples das
classes.

F1 = f 1
F2 = f1 + f 2
...
Fk = f 1 + f 2 + ... + f k

ii) Frequência relativa de classe (fr): é a relação existente entre a freqüência


absoluta ou simples de classe e o número de observações da variável.

fr = ∑f f i

iii) Freqüência relativa acumulada (Fr): é a acumulação sucessiva, a partir da


primeira classe até uma classe qualquer das freqüências relativas das classes.

3
Fr1 = f r1
Fr2 = f r1 + f r2
...
Frk = f r1 + f r 2 + ... + f rk

iv) Ponto médio de classe (Xi): é a média aritmética calculada entre o limite inferior
(li) e o superior (ls) da classe. É o valor em estatística que representa os valores
da variável dentro da classe.

X i = (l +2l )
i s

Exemplo de distribuição de frequência por Intervalos:

Na Tabela 1 constam as massas, em gramas, de sementes oleaginosas. Calcule


as frequências acumuladas, relativas e os pontos médios para a distribuição de
frequência por intervalo:

Tabela 1. Massas de sementes oleaginosas

Classe Massa de fi Fi fri Fri Xi


sementes (g)
1ª classe 10 Ⱶ 20 33 33 0,11 0,11 15
2ª classe 20 Ⱶ 30 51 84 0,17 0,28 25
3ª classe 30 Ⱶ 40 80 164 0,27 0,55 35
4ª classe 40 Ⱶ 50 67 231 0,22 0,77 45
5ª classe 50 Ⱶ 60 44 275 0,15 0,92 55
6ª classe 60 Ⱶ 70 25 300 0,08 1,00 65
Σ - 300 - 1,00 - -

4
UNIVERSIDADE FEDERAL DO PARÁ
INSTITUTO DE TECNOLOGIA
FACULDADE DE ENGENHARIA QUÍMICA
ESTATÍSTICA APLICADA À ENGENHARIA QUÍMICA

Prof. Lênio J. G. de Faria

DISTRIBUIÇÃO DE PROBABILIDADE NORMAL

A distribuição normal é uma distribuição contínua de probabilidade de uma


variável aleatória x. Seu gráfico é chamado de curva normal (Figura 1). A distribuição
normal tem as seguintes propriedades:

a) A média, a mediana e a moda são iguais


b) A curva normal tem formato de sino e é simétrica em torno da média
c) A área total sob a curva normal é igual a 1
d) A curva normal aproxima-se mais do eixo x à medida que se afasta da média
em ambos os lados, mas nunca toca o eixo
e) Entre µ – σ e µ + σ (no centro da curva) o gráfico curva-se pra baixo. À
esquerda de µ – σ e à direita de µ + σ, o gráfico curva-se para cima. Os pontos
nos quais a curva muda sua curvatura para cima ou para baixo são chamados
de pontos de inflexão.

Figura 1. Curva normal


Se x for uma variável aleatória contínua e tiver uma distribuição normal com média
µ e desvio-padrão σ, pode-se fazer o gráfico de uma curva normal usando a seguinte
equação:

' 0 ⁄*( 0
!"#$ = , -".-/$ para: (-∞ < x < + ∞)
(√*+

Uma distribuição normal pode ter qualquer média e qualquer desvio-padrão. Esses
dois parâmetros, µ e σ, determinam completamente o aspecto da curva normal. A média
dá a localização do eixo de simetria e o desvio-padrão descreve quanto os dados se
espalham em torno da média (Figura 2):

Figura 2. Curvas normais. Note que as curvas A e B têm a mesma média, enquanto as
curvas B e C têm o mesmo desvio-padrão.

REGRA EMPÍRICA: Numa distribuição normal com média µ e desvio-padrão σ, pode-se


aproximar áreas sob a curva normal da seguinte maneira, conforme ilustrado na Figura 3:

a) 68% da área está entre µ – σ e µ + σ


b) 95% da área está entre µ – 2σ e µ + 2σ
c) 99,7% da área está entre µ – 3σ e µ + 3σ
Figura 3. Curva normal e probabilidades

Mais precisamente, para qualquer variável aleatória normal, temos que as


probabilidades são:

P(µ – σ < X < µ + σ) = 0,6827

P(µ – 2σ < X < µ + 2σ) = 0,9545

P(µ – 3σ < X < µ + 3σ) = 0,9973

Da simetria de f(x), P(X > µ) = P(X < µ) = 0,5.

A DISTRIBUIÇÃO NORMAL PADRÃO

Existem infinitas distribuições normais, cada uma com sua própria média e desvio-
padrão. A distribuição com média zero e desvio-padrão 1 é chamada de distribuição
normal padrão.

A escala horizontal do gráfico da distribuição normal padrão corresponde aos


escores z. Um escore z é uma medida de posição que indica o número de desvios-padrão
de um valor a partir da média.

Para transformar um valor x em um escore z, usa-se a seguinte fórmula:

34567 − 9é;<4 #−
2= =
;,=3<6 >4;7ã6 !
A função de densidade probabilidade de z é dada pela equação:

' 0 ⁄*
!"2$ = , -" para: (-∞ < z < + ∞)
√*+

Utiliza-se então a notação X: N(µ, σ2) → Z: N(0, 1)

Exemplo:

Um fabricante de baterias sabe, por experiência passada, que as baterias de sua


fabricação têm vida média de 600 dias e desvio padrão de 100 dias, sendo que a duração
tem aproximadamente distribuição normal. Oferece uma garantia de 312 dias, isto é, troca
as baterias que apresentarem falhas nesse período. Fabrica 10.000 baterias
mensalmente. Quantas deverá trocar pelo uso da garantia, mensalmente?

Solução:

# - $%%
X: duração da bateria (µ = 600 dias; σ = 100 dias) → 2 = '%%

312 − 600
2= = −2,88
100

P(X ≤ 312) = P(Z ≤ - 2,88) = 0,0020 (ver tabela)

Deverá substituir mensalmente: 10.000 x 0,0020 = 20 baterias


TEOREMA CENTRAL DO LIMITE

Retirando-se amostras de uma população que tenha uma distribuição


desconhecida de probabilidades, a distribuição amostral da média da amostra será
aproximadamente normal, com média µ e variância σ2/n, se o tamanho da amostra n for
grande.

Este é um dos teoremas mais úteis em estatística, chamado de Teorema Central


do Limite, e enunciado como:

Se X1, X2, X3, ........, Xn for uma amostra aleatória de tamanho n, retirada de uma
população com média µ e variância σ2, e se -. for a média da amostra, então a forma
limite da distribuição de

-. −
/= !
√0

quando n → ∞, é a distribuição normal.

A aproximação normal para -. depende do tamanho n da amostra. A Figura 4(a)


mostra a distribuição obtida para o arremesso de um único dado, com seis faces. As
probabilidades são iguais a (1/6) para todos os valores obtidos, 1, 2, 3, 4, 5 ou 6. A Figura
4(b) mostra a distribuição das pontuações médias obtidas quando se arremessam dois
dados e as Figuras 4 (c), 4(d) e 4(e) mostram a distribuição das pontuações médias
obtidas quando se arremessam 3, 5 e 10 dados, respectivamente.

Nota-se que, embora a distribuição de 1 dado esteja relativamente longe da


normal, a distribuição das médias será aproximada razoavelmente bem pela distribuição
normal para amostras de tamanho tão pequeno quanto 5. Embora o teorema central do
limite funcione bem para pequenas amostras na maioria dos casos – particularmente
onde a população seja contínua, unimodal e simétrica – amostras maiores serão
requeridas em outras situações, dependendo da forma da população.

Em muitos casos de interesse prático, se n ≥ 30, a aproximação normal será


satisfatória, independentemente da forma da população. Se n < 30, o teorema central do
limite funcionará se a distribuição da população não for muito diferente da normal.
Figura 4. Distribuições das pontuações médias do arremesso de dados

Exemplo:

Uma companhia eletrônica fabrica resistores que têm uma resistência média de
100 Ω e um desvio-padrão de 10 Ω. Encontre a probabilidade de uma amostra aleatória
de n = 25 resistores ter uma resistência média menor que 95 Ω.

Solução:

Considere que a distribuição amostral de -. é aproximadamente normal, com média


-. = 100 Ω e um desvio padrão da média amostral de:

! 10
!#. = = =2
√0 √25
Padronizando-se o ponto -. = 95 Ω encontra-se:

95 − 100
/= = −2,5
2
Desse modo, tem-se que a probabilidade desejada é:

P (-. < 95) = P(Z < -2,5) = P(Z > 2,5) = 0,0062

Correção para populações finitas:

Se a população for finita e de tamanho N conhecido, e se a amostra de tamanho n


dela retirada for sem reposição, recomenda-se a correção:

! 5−0
!#. = 4
√0 5 − 1

Exemplo:

Tem-se uma população de 5.000 alunos de uma faculdade. Sabe-se que a altura
média dos alunos é de 175 cm e o desvio padrão, 5 cm. Retira-se uma amostra sem
reposição de tamanho n = 100. Quais serão os valores de !#. com e sem a correção?

Usando o fator de correção:

( 8-6 9 9.%%%-'%%
!#. = 7 = 7 = 0,495024
√6 8-' √'% 9.%%%-'

Sem a correção:

! 5
!#. = = = 0,50
√0 10

Quando se tira uma amostra grande de uma população de tamanho muito maior
que o da amostra, pelo menos o dobro, é indiferente usar a correção para populações
finitas, pois o erro será muito pequeno, como o do exemplo acima.

Exercício:

Seja X: N(80,26). Dessa população retira-se uma amostra de n = 25. Calcular:

a) P (-. > 83)


b) P (-. ≤ 82)
c) P ( − 2!.̅ ≤ -. ≤ + 2!.̅ )
UNIVERSIDADE FEDERAL DO PARÁ
INSTITUTO DE TECNOLOGIA
FACULDADE DE ENGENHARIA QUÍMICA
ESTATÍSTICA APLICADA Á ENGENHARIA QUÍMICA

Prof. Lênio J. G. de Faria

1. INFERÊNCIA ESTATÍSTICA

É dar informação para o todo, com base no conhecimento de parte, ou seja,


generalizar para a população aquilo que se observa na amostra.

O objetivo da estatística indutiva é fazer inferências, tirar conclusões sobre


populações com base nos resultados da amostra, para isso é necessário garantir
que a amostra seja representativa, ou seja, a amostra deve conter as mesmas
características básicas da população, no que diz respeito ao fenômeno que
desejamos pesquisar.

Estatística Indutiva (Amostral ou Inferencial): partindo de uma amostra, estabelece


hipóteses, tira conclusões sobre a população de origem e formula previsões
fundamentando-se na teoria das probabilidades. A estatística indutiva cuida da
análise e interpretação dos dados.

2. INTERVALOS DE CONFIANÇA - IC

2.1 Introdução

O campo da inferência estatística consiste de métodos usados para tomar


decisões ou tirar conclusões acerca de uma população, a partir de informações
contidas numa amostra aleatória dessa população.

A inferência estatística divide-se em duas grandes áreas: estimação de


parâmetros e teste de hipóteses.

2.2 Estimação de Parâmetros: Intervalos de Confiança (IC) para uma amostra

Objetivo: aplicar amostras estatísticas para estimar o valor desconhecido de um


parâmetro populacional. O parâmetro populacional a ser estimado, em função do
tamanho da amostra, n, será a média, µ.
2.3 Definições

Estimativa pontual: é uma estimativa de um único valor para um parâmetro


populacional. Por exemplo, a estimativa para a média populacional, µ, é a média

amostral, x.
Estimativa intervalar: é um intervalo de valores usado para estimar um parâmetro
populacional.

Nível de confiança (c): é a probabilidade de que o intervalo estimado contenha o


parâmetro populacional.

Se n≥30 a distribuição amostral de médias amostrais é uma distribuição


normal. O nível de confiança é a área sob a curva normal padrão entre os valores
críticos – zc e + zc (Tabelados).

Os níveis de confiança normalmente empregados são: 90%, 95% e 99%. O


escore z a seguir corresponde a esses níveis de confiança:

Nível de confiança zc
90% 1,645
95% 1,960
99% 2,575

Erro máximo da estimativa (E): dado um nível de confiança, é a maior distância


possível entre a estimativa pontual e o valor do parâmetro a ser estimado. Também
conhecido como “margem de erro” ou “tolerância do erro”.

2.4 Obtenção de um IC para µ (n≥30 ou σ conhecido com uma população


distribuída normalmente)

Passos:

Em palavras Em símbolos
− n
∑ x
1. Obter as estatísticas amostrais n e x − i =1 i
x=
n
2. Se conhecido, especificar σ. Caso contrário, se n  − 2
n≥30, determinar o desvio padrão amostral, s e usa- ∑  i x 
 x −
lo como uma estimativa de σ. s= i = 1 
n−1
3. Determinar o valor crítico zc que corresponde ao zc =f(c)
nível de confiança estipulado. (usar tabela normal padrão)
σ
4. Determinar o erro máximo da estimativa, E. E = zc
n
5. Determinar os extremos, esquerdo e direito, para − −
formar o Intervalo de Confiança. x -E ≤ µ ≤ x +E
2.5 Exercício 1:

A duração da vida de uma peça de equipamento é tal que σ = 5 horas. Foram


amostradas 100 dessas peças obtendo-se a média de 500 horas. Deseja-se
construir um intervalo de confiança para a verdadeira duração média da peça com
um nível de 95%.

2.6 Obtenção de um IC para µ (n<30 e σ desconhecido para variável aleatória com


distribuição normal ou aproximadamente normal)

Passos:

Em palavras Em símbolos
n
− i∑
x
i

x = =1
1. Identificar as estatísticas amostrais x e s. n
n  − 2
∑  x i − x 

s= i = 1 
n−1
2. Identifique os graus de liberdade, g.l., o nível de
g.l. = n-1
confiança, c, e o valor crítico, tc
3. Identificar o valor crítico tc em função do nível de tc =f(g.l.,c)
confiança estipulado e dos graus de liberdade. (usar tabela da distribuição t
de Student)
s
4. Determinar o erro máximo da estimativa, E. E = tc
n
5. Determinar os extremos, esquerdo e direito, para − −
formar o Intervalo de Confiança. x -E ≤ µ ≤ x +E

2.7 Exercício 2:

Os rendimentos de um processo químico nos últimos cinco dias de operação


da planta industrial resultaram nos seguintes valores: 91,6%, 88,75%, 90,8%, 89,95%
e 91,3%.
a) Encontre o intervalo de confiança bilateral de 95% (nível de significância igual a
0,05) para o rendimento médio verdadeiro.
b) Há evidência de que o rendimento não seja 90%?

Dado: Da análise estatística, calcula-se o rendimento médio amostral, igual a


90,48% e o respectivo desvio-padrão, igual a 1,15%.
3. TESTE DE HIPÓTESES

3.1 Definições

Uma hipótese nula, H0, é uma hipótese estatística que contém uma
afirmação de igualdade, tal como: ≤, = ou ≥.

A hipótese alternativa, H1, é o complemento da hipótese nula. É uma


afirmativa que deve ser verdadeira se H0 for falsa e contém uma afirmativa de
desigualdade, tal como: >, ≠ ou <.

Um erro do tipo I ocorre se a hipótese nula for rejeitada quando ela for
realmente verdadeira.

Um erro do tipo II ocorre se a hipótese nula não for rejeitada quando ela for
realmente falsa.

Em um teste de hipóteses, o nível de significância, α, é a probabilidade


máxima permitida de ocorrer um erro do tipo I, ou seja, decidir rejeitar H0 quando ela
for verdadeira.

3.2 Teste de Hipóteses para uma amostra

Passos:

1. A partir do contexto do problema, identifique o parâmetro de interesse.


2. Estabeleça a hipótese nula, H0.
3. Especifique a hipótese alternativa apropriada, H1.
4. Escolha um nível de significância, α.
5. Estabeleça uma estatística apropriada de teste, z ou t.
6. Estabeleça a região de rejeição para a estatística.
7. Calcule qualquer grandeza amostral necessária, substitua-a na equação para a
estatística de teste e calcule aquele valor.
8. Decida se H0 deve ser ou não rejeitada e relate isto no contexto do problema.

3.3 Exemplo de aplicação

Supõe-se que a produtividade média de feijão da safra no Estado de Santa


Catarina é de 800 kg/ha. Para investigar a veracidade dessa afirmação, consultou-se
uma publicação do Instituto CEPA-SC, onde se obteve os seguintes valores de
produtividade média de feijão:
a) Qual a conclusão ao nível de significância de 5%?
b) Dê a estimativa da verdadeira produtividade média, com confiança de 95%.

Solução: Trata-se de um caso em que n<30 e σ desconhecido.

A nossa variável em estudo é a produtividade média anual. Como são valores


médios, podemos assumir que a distribuição da variável é normal.
Como não temos informações adicionais se a produtividade média é maior ou
menor do que 800 kg se estipulam as hipóteses do seguinte modo:

H0 : µ = 800 kg/ha.
H1 : µ ≠ 800 kg/ha.

A amostra nos fornece x (média) = 740,11 kg/ha e s = 240,68 kg/ha. Como


vamos fazer um teste sobre uma média populacional, com variância estimada com
os dados de uma amostra, usamos a estatística t (n−1; α/2), a qual segue

uma distribuição t de Student com (9 − 1) = 8 graus de liberdade. Para o nível de


significância 5% e, com o uso da tabela da distribuição t, obtemos:

t(n−1; α/2) = t(9−1; 0,025) = t(8; 0,025) = 2, 306.

A região de rejeição é dada pelos valores |t| > 2, 306; a região de aceitação
compreende os valores (inclusive) entre -2,306 e 2,306, isto é, |t| ≤ 2, 306. A Figura
1 mostra as regiões de aceitação e de rejeição da hipótese. Observe nessa figura
como o teste é bilateral, que o nível de significância está dividido em duas partes:
(0,05/2), ou seja, 0,025 na cauda do lado esquerdo e 0,025 na cauda do lado direito
Com os valores da amostra vamos calcular

Figura 1. Regiões de aceitação e de rejeição da hipótese nula com α = 5%.


Para o teste de uma média populacional a estatística do teste,

Como o valor calculado (-0,746) cai na região de aceitação de H0, concluímos


a favor de H0.
Os dados da amostra indicam, ao nível de significância de 5%, que a
produtividade média pode ser considerada igual a 800 Kg/ha.

O intervalo de confiança, para a média verdadeira, fica:

Observação: Pode-se chegar à mesma conclusão de um teste de hipótese bilateral


por meio do estudo do intervalo de confiança. Sempre que o intervalo incluir o valor
de H0 deve-se aceitar a hipótese nula. No exemplo, 800 kg/ha, está contido no
intervalo, portanto, aceitamos H0: µ = 800 kg/ha.

3.4 Teste de Hipóteses para duas amostras

3.4.1 Introdução

Abordam-se agora os casos de duas populações, que podem ser


independentes ou dependentes. Em ambas as situações, ocorrem os casos:

1. Duas populações com variâncias conhecidas σ12 e σ22 e n≥30.

2. Duas populações com variâncias desconhecidas σ12 e σ22 (supostamente iguais) e


n<30.

3. Duas populações com variâncias desconhecidas σ12 e σ22 (supostamente


diferentes) e n<30.
3.4.2 Populações independentes

Caso 1: Teste de hipóteses para a diferença nas médias µ1 e µ2 com variâncias


conhecidas e n≥30.

Hipótese nula: H0 = µ1 - µ2 = ∆ = 0 (ou seja: µ1 = µ2 ).

x1 − x 2 − Δ
Estatística do teste: Z=
σ 12 σ 22
+
n1 n2

Hipóteses alternativas:
µ1 - µ2 ≠ ∆
µ1 - µ2 > ∆
µ1 - µ2 < ∆

ou na forma:
µ1 ≠ µ2
µ1 > µ2
µ1 < µ2

Caso 2: Teste de hipóteses para a diferença nas médias µ1 e µ2 com variâncias


desconhecidas, porém supostamente iguais, com n<30.

Supor que se tenham duas populações normais independentes, com médias


desconhecidas e variâncias desconhecidas, porém supostamente iguais (σ12 = σ22 =
σ2).

Desejamos testar:
H0: µ1 = µ2
H1: µ1 ≠ µ2

O estimador combinado de σ2 é a variância combinada (ou média ponderada


das duas variâncias das amostras) Sp2, dada por:

2(n1 − 1) s12 + ( n2 − 1) s 22
Sp =
n1 + n 2 − 2

Hipótese nula: H0 = µ1 - µ2 = ∆ = 0 (ou seja: µ1 = µ2 ).


x1 − x2 − Δ
Estatística do teste:
t=
1 1
Sp +
n1 n2

Hipóteses alternativas:
µ1 ≠ µ2
µ1 > µ2
µ1 < µ2

Caso 3: Teste de hipóteses para a diferença nas médias µ1 e µ2 com variâncias


desconhecidas, porém supostamente diferentes, com n<30.

Em algumas situações não é razoável considerar que as variâncias


desconhecidas sejam iguais. Nesse caso, usa-se a estatística:

x1 − x2 − Δ
t* =
s12 s22
+
n1 n2

Essa estatística é distribuída aproximadamente como t, com graus de


liberdade dados por:
s2 s2
( 1 + 2 )2
n n2
ν= 2 1 2
−2
( s1 ) 2
( s 2 ) 2
n1 n2
+
n1 + 1 n2 + 1
3.4.4 Populações Dependentes

O teste “t” emparelhado

É o caso de testes para as médias de duas amostras, quando as observações


nas duas populações de interesse são coletadas aos pares.

Definições:

Símbolo Descrição
n Número de pares de dados
Diferenças entre as entradas para um par de dados:
d d = x1 - x2

µd Média hipotética da diferença de dados emparelhados na população

Média das diferenças entre as entradas dos pares de dados nas


dm amostras dependentes:
Σd
dm =
n
Desvio padrão das diferenças entre as entradas dos pares de dados
Sd nas amostras dependentes:
n(Σd 2 ) − (Σd ) 2
Sd =
n(n − 1)

Passos:

1. Identifique a alegação. Estabeleça a hipótese nula, H0 e a hipótese alternativa,


H1.
2. Especifique um nível de significância, α.
3. Identifique o número de graus de liberdade, g.l.= n - 1
4. Obtenha os valores críticos de t (usar tabela da distribuição de Student).
5. Identifique as regiões de rejeição para a estatística.
6. Calcule dm e Sd: faça uma tabela de valores de Σd e Σd2.
d m − µd
7. Calcule a estatística do teste: t=
Sd n

8. Rejeite ou aceite H0 conforme a localização de t.

9. Interprete a decisão no contexto da alegação original.


3.4.5. Exemplo de aplicação:

Um grupo de 10 pessoas é submetido a um tipo de dieta por 10 dias, estando


o peso antes do início (xi) e no final da dieta (yi) marcados na tabela a seguir. Ao
nível de 5%, podemos concluir que houve diminuição do peso médio pela aplicação
da dieta?

!" = ! % − !'

() = !" = 0
(+ = !" > 0

Seja di = xi - yi (i = 1,2,.......,10)

Pessoa xi yi di d i2
A 120 116 4 16
B 104 102 2 4
C 93 90 3 9
D 87 83 4 16
E 85 86 -1 1
F 98 97 1 1
G 102 98 4 16
H 106 108 -2 4
I 88 82 6 36
J 90 85 5 25
Σ - - 26 128

3
1 26
-̅ = 1 -2 = = 2,6
0 10
24+

n(Σd 2 ) − (Σd ) 2
Sd =
n(n − 1)

+):+;<=> :;?= +;<)>?!? ?)#


8- = 9 =9 = 9 ") = √6,71 = 2,59
+):+)>+= ")

A estatística do teste é:

-̅ − !" 2,6 − 0 2,6


()*+) = = = = 3,17
8- ⁄√0 2,59⁄√10 0,82

Da tabela da distribuição “t” de Student, para 9 graus de liberdade e 95% de


confiança, tem-se: 8-
=
(:", /40%= = 1,833

Como tcalc > t tab, rejeita-se H0, isto é, com 95% de confiança, conclui-se que é
significativa a queda de peso das pessoas pelo uso da dieta do grupo.
UNIVERSIDADE FEDERAL DO PARÁ
INSTITUTO DE TECNOLOGIA
FACULDADE DE ENGENHARIA QUÍMICA
ESTATÍSTICA APLICADA À ENGENHARIA QUÍMICA

Prof. Lênio J. G. de Faria

CORRELAÇÃO E REGRESSÃO

INTRODUÇÃO

Uma das maiores preocupações do pesquisador consiste em descrever e/ou prever


certos acontecimentos. Muitas vezes faz-se necessário encontrar uma expressão
quantitativa, uma equação, fórmula ou modelo que revele uma relação numérica entre
fatos que descrevam ou expliquem os fenômenos que freqüentemente ocorrem. A análise
de regressão é uma metodologia estatística que utiliza as relações entre duas ou mais
variáveis de tal forma que uma variável pode ser predita a partir da outra ou de outras.
Como por exemplo: o rendimento de um processo químico e a temperatura de reação, a
viscosidade aparente de uma suspensão e a concentração de sólidos, ou a intensidade
luminosa usada numa avaliação da fotodegradação de um corante natural.
Descobrir um modelo matemático que reflita a relação existente entre os diversos
fenômenos pode propiciar muito mais que a possibilidade de interpretar a situação. Pode
significar a obtenção de estimativas e previsões de ocorrências futuras. Na prática,
constata-se a existência dessa relação entre duas ou mais variáveis e se deseja
expressar tal relação sob forma matemática, estabelecendo-se um modelo entre as
variáveis de entrada e as respostas. As técnicas estatísticas que permitem construir os
modelos empíricos e avaliar sua qualidade são estudadas na chamada análise de
regressão e correlação.
DEFINIÇÕES

Correlação: é um método que estuda a relação entre variáveis. Geralmente deseja-se


investigar a presença ou ausência de relação linear sob dois pontos de vista:

a) Quantificando a força dessa relação: correlação.


b) Explicitando a forma dessa relação: regressão.

Regressão: é um método que procura estabelecer relações funcionais entre duas ou


mais variáveis, isto é, procura encontrar um modelo que descreva da melhor e mais
segura forma possível, o comportamento das variáveis que estamos interessados em
analisar.

Analise de Correlação: Esta analise é feita com auxílio de um gráfico (chamado


diagrama de correlação ou dispersão) e de uma medida (chamado coeficiente de
correlação linear).

Diagrama de Dispersão: é uma representação gráfica das duas variáveis quantitativas.


O primeiro passo é a coleta de dados exibindo os valores correspondentes das variáveis
(X, Y). O segundo passo é montar um gráfico dos pontos (xi, yi) em um sistema de
coordenadas retangulares. O conjunto resultante costuma chamar-se diagrama de
dispersão. Que podem expressar relações: lineares, não lineares e nenhum tipo de
relação.
Fazendo X a variável independente, se Y tende a aumentar quando X cresce, a
correlação é denominada positiva. Se Y tende a diminuir quando X aumenta, a correlação
é denominação negativa. A Figura 1 mostra exemplos deste tipo de gráfico.
Figura 1. Diagramas de dispersão

Coeficiente de Correlação Linear: é o instrumento de medida descritiva da correlação


(associação) linear entre X e Y, e é dado pelo coeficiente de correlação de Pearson. Este
coeficiente mede a aderência existente entre as variáveis X e Y. Isto é, revela se há ou
não relação entre as variáveis. Se o coeficiente de correlação estiver muito próximo de 1
ou de –1, indica que os dados se ajustam muito bem à reta estimada; por outro lado, um
coeficiente de correlação próximo de zero indica que os pares de dados não se ajustam a
uma reta; e, consequentemente, que uma estimativa linear, usando tais dados não será
confiável.
Com base em uma amostra aleatória de duas variáveis (X, Y), pode-se definir um
estimador para esta correlação, r (X ,Y ), da seguinte forma:
Ou alternativamente, pode-se utilizar outra notação muito utilizada:

Com base nesta notação pode-se expressar o coeficiente de correlação amostral


como:

Observação: O campo de variação do coeficiente r situa-se entre -1 e +1.

Na Figura 2 está indicada a escala de correlação entre a variável dependente Y e a


variável independente X:

Figura 2. Escala de correlação entre as variáveis X e Y.

Análise de Regressão: Este tipo de analise é útil na estimação de problemas de


equações de curvas, que se ajuste a determinados conjuntos de dados observados.
Sendo que um dos principais objetivos do ajustamento é estimar uma das variáveis
(dependente “Y”) em função de outra (independente “X”). Quando se tem:

- Uma variável independente ⇒ regressão simples


- Mais de uma variável independente ⇒ regressão múltipla
- Uma variável dependente (resposta) ⇒ regressão univariavel
- Mais de uma variável dependente (resposta) ⇒ regressão multivariada
Determinação dos coeficientes de regressão do modelo linear, pelo método
dos mínimos quadrados:

Onde !# representa o valor estimado da função no nível X da variável independente.

Significado dos parâmetros do modelo de regressão linear simples:

$% (intercepto); quando a região experimental inclui X=0, $% é o valor da média da


distribuição de Y em X=0, caso contrário, não tem significado prático como um termo
separado (isolado) no modelo;
$& (inclinação) expressa a taxa de mudança em Y, isto é, é a mudança em Y quando
ocorre a mudança de uma unidade em X. Ele indica a mudança na média da distribuição
de probabilidade de Y por unidade de acréscimo em X.

Resíduos: O i-ésimo resíduo é a diferença entre o valor observado !' e o correspondente


#( :
valor ajustado !
QUALIDADE DO MODELO: PRESSUPOSTOS ESTATÍSTICOS

- Proporção de variância explicada: coeficiente de determinação (R2 ≈ 1 ou 100%)


- Falta de ajuste: teste de hipóteses usando a distribuição F (Fisher - Snedecor).

Análise dos Resíduos

- Magnitude dos Resíduos: valores pequenos indicam baixa variabilidade;


- Teste de Normalidade: resíduos distribuídos normalmente;
- Distribuição dos Resíduos: aleatória, em função dos valores preditos;
- Homogeneidade de Variâncias: verificação de homocedasticidade;
- Independência: distribuição aleatória dos resíduos em função dos valores observados.

QUALIDADE DO MODELO - ANÁLISE DE VARIÂNCIA

O exame dos resíduos é fundamental para se avaliar a qualidade do ajuste de


qualquer modelo. O método mais usado para se avaliar numericamente a qualidade do
ajuste de um modelo é a Análise de Variância. Faz-se inicialmente uma decomposição
algébrica dos desvios das respostas observadas em relação à resposta média global. O
desvio de uma resposta individual em relação á média de todas as respostas observadas,
()' − )+' ), pode ser decomposto em duas parcelas:

.)' − )+) = .)0' − )+) + .)' − )0' )

A primeira parcela .)0' − )+) representa o desvio da previsão feita pelo modelo para
o ponto em questão )0' em relação à média global )+. A segunda parcela é a diferença
entre o valor observado e o valor previsto (ou predito). Em um modelo bem ajustado aos
pontos experimentais, essa segunda parcela (resíduos) deve ser pequena.

Em seguida se expressa a decomposição de desvios feita anteriormente em termos


quantitativos. Para isso, elevam-se as parcelas ao quadrado fazendo-se em seguida o
somatório sobre todos os pontos:
2.)' − )+)3 = 2[.)0' − )+) + .)' − )0' )]3

2.)' − )+)3 = 2.)0' − )+)3 + 2 2.)0' − )+) .)' − )0' ) + 2.)' − )0' )3

Pode-se demonstrar que o somatório dos produtos ∑.)0' − )+) .)' − )0' ) é igual a
zero, e, portanto:

2.)' − )+)3 = 2.)0' − )+)3 + 2.)' − )0' )3

Estas somas de quadrados de desvios costumam ser chamadas de “somas


quadráticas” e utilizar a notação SQ. Então, a decomposição de desvios pode ser
expressa como:
[SQ em torno da média] = [SQ devida à regressão] + [SQ residual]

Ou ainda:
SQT = SQR + SQE

A expressão acima denota que uma parte da variação total das observações )' em
torno da média )+ é descrita pela equação de regressão, e o restante fica por conta dos
resíduos. Quanto maior for a fração descrita pela regressão, melhor será o ajuste do
modelo. Isso se quantifica por meio do coeficiente de determinação múltipla, R2.

COEFICIENTE DE DETERMINAÇÃO MÚLTIPLA

O coeficiente de determinação múltipla R2 é definido por:

9:; 9:>
83 = = 1−
9:< 9:<

Onde SQR e SQE correspondem à soma quadrática da regressão e à soma


quadrática do erro (ou resíduo), respectivamente. SQR é a soma quadrática total dada
por:
SQT = SQR + SQE
CONSTRUÇÃO E ANÁLISE DE MODELOS EMPÍRICOS
(Statistica, versão 7.0 – StatSoft/USA)

Exemplo 1- Ajuste linear


Temperatura T(ºC) 40 45 50 55 60
Rendimento (%) 60 70 77 86 91

Exemplo 2- Ajuste não-linear (polinomial)


Temperatura T(ºC) 30 35 40 45 50 55 60 65 70
Rendimento (%) 24 40 60 70 77 86 91 86 84

FALTA DE AJUSTE E ERRO PURO

Ensaios com réplicas (respostas duplicadas, p. ex.) possibilitam estimar erros


aleatórios e fornecem critérios quantitativos para julgar a qualidade do ajuste do modelo
proposto aos dados experimentais.

Soma Quadrática residual = Soma Quadrática devida ao erro puro + Soma Quadrática
devida à falta de ajuste

9:> = 9:? + 9:!"#


9:;
% %& '()*(çã- &./0*1(%( =
9:<
9:< − 9:?
% %& '()*(çã- &./0*1á'&0 =
9:<
Tabela 1 – Análise de variância para ajuste pelo método dos mínimos quadrados
Fonte de Graus de
Soma Quadrática Média Quadrática
variação liberdade
5 34
9:;
Regressão 9:; = 2 2.)0' − )+)3 / − 1 6:; =
/−1
' #

5 34
9:>
Resíduos 9:> = 2 2.)'# − )0)3 7 − / 6:> =
7−/
' #

5 34
Falta de 9:!"#
9:!"# = 2 2.)0' − )+' )3 8 − / 6:!"# =
ajuste 8−/
' #

5 34
9:?
Erro puro 9:? = 2 2.)'# − )+' )3 7 − 8 6:? =
7−8
' #

5 34

TOTAL 9:< = 2 2.)'# − )+' )3 7 − 1


' #

Onde:
7# : número de repetições no nível j;
7: número total de observações (7 = 97# );
8: número de níveis distintos da variável independente;
/: número de parâmetros do modelo.

Exemplo 3- Ajuste não-linear: ensaios em duplicata (falta de ajuste e erro puro)


Temperatura T(ºC) 30 35 40 45 50 55 60 65 70
24 40 60 70 77 86 91 86 84
Rendimento (%)
20 43 57 72 80 89 88 89 80
UNIVERSIDADE FEDERAL DO PARÁ
INSTITUTO DE TECNOLOGIA
FACULDADE DE ENGENHARIA QUÍMICA
ESTATÍSTICA APLICADA À ENGENHARIA QUÍMICA

Prof. Lênio J. G. de Faria

ANÁLISE DE VARIÂNCIA (ANOVA) COM UM FATOR

(PARTE A)

O objetivo na análise de variância é comparar a variação devida


aos tratamentos com a variação devida ao acaso.
Quando as unidades experimentais são homogêneas, ou seja, as
parcelas são uniformes, os tratamentos podem ser sorteados nas
unidades experimentais sem qualquer restrição. Nessa situação, o
planejamento experimental é chamado de completamente
casualizado ou inteiramente ao acaso. Neste caso, todos os
tratamentos têm a mesma chance de serem aplicados em qualquer
unidade experimental ou parcela.

NOTAÇÃO

A Tabela 1 apresenta a notação utilizada para definir um


experimento com k tratamentos. Cada tratamento tem r repetições. A
soma dos resultados das r repetições de um mesmo tratamento constitui
o total deste tratamento. As médias dos tratamentos estão indicadas
por ym1, ym2, ym3,....,ymk. Então temos que: n é o número total de
observações (! = # × %), k é o número de tratamentos e r corresponde
ao número de repetições.
Tabela 1. Notação de um experimento com k tratamentos
Tratamentos
Total
1 2 3 ··· k
y11 y21 y31 ··· yk1
y12 y22 y32 ··· yk2
y13 y23 y33 ··· yk3
· · · ··· ·
y1r y2r y3r ··· ykr
Total T1 T2 T3 ··· Tk ΣT=Σy
Repetições r r r ··· r !=#×%
Média ym1 ym2 ym3 ··· Ymk

FORMULAÇÃO

Para se fazer a análise de variância de um experimento


inteiramente ao acaso (e construir uma tabela de análise de variância),
é preciso calcular as seguintes quantidades:

a) Graus de liberdade:

! De tratamentos: k – 1
! Do total: n – 1 (! = # × %)
! Do resíduo: (n – 1) - (k – 1) = n - k

b) Valor de C (correção): total geral elevado ao quadrado,


dividido pelo número de observações.

(∑ *),
&=
!
c) Soma de quadrados total:

-./ = 0 * , − &

d) Soma de quadrados de tratamentos:


∑ /,
-./% = −&
%

e) Soma de quadrados de resíduos:

-.2 = -./ − -./%


f) Quadrado médio de tratamentos:
-./%
.3/2 =
#−1

g) Quadrado médio de resíduo:


-.2
.32 =
!−#

h) Valor da estatística F (Fisher):


.3/%
5=
.32

A configuração dessas quantidades calculadas em forma de


uma tabela, denominada de Análise de Variância, ou ANOVA, é
apresentada na Tabela 2:

Tabela 2. ANOVA de um experimento inteiramente ao acaso


Causas de variação GL SQ QM F
Tratamentos k-1 SQTr QMTr QMTr/QMR
Resíduo n-k SQR QMR
Total n-1 SQT
GL: graus de liberdade, SQ: soma de quadrados, QM: quadrado médio, F: estatística
F (Fisher).

EXEMPLO

São usados 4 produtos químicos (A, B, C, D) em um processo de


tingimento de um tipo particular de tecido. O engenheiro deseja
comparar o efeito dos 4 produtos químicos (fixadores) em relação
à resistência à tração do tecido em kPa. Para isso utilizou 20
corpos de prova do tecido e efetuou com cada um dos fixadores
5 ensaios, conforme os dados da Tabela 3.
Tabela 3. Resistência à tração (kPa)

A B C D
25 31 22 33
26 25 26 29
20 28 28 31
23 27 25 34
21 24 29 28
Soma: 115 135 130 155
Média: 23 27 26 31

a) Faça a análise de variância para a resistência à tração do


tecido;
b) Faça um teste hipóteses e interprete os resultados. Use α = 0,05;

Solução:

A) Graus de Liberdade:
De tratamento: k – 1 = 4 – 1 = 3
Do total: n – 1 = 20 – 1 = 19
Do resíduo: n – k = 20 – 4 = 16

B) Valor de C:
(25 + 26 + ⋯ + 28), (535),
&= = = 14.311,25
20 20

C) -./ = (25, + 26, + ⋯ + 28, ) − & = 275,75

(""#$ %"&#$ %"&'$ %"##$ )


D) -./% = − & = 14.475,00 − 14.311,25 = 163,75
#

E) SQR = 275,75 – 163,75 = 112

F) QMTr = (163,75 / 3) = 54,58

G) QMR = 112 / 16 = 7

H) F = 54,58 / 7 ≈ 7,80

Assim, por meio de cálculo analítico, obtêm-se os dados da


Tabela 4:
Tabela 4. ANOVA a partir dos dados do Exemplo 1 (Tabela 3).
Causas de variação GL SQ QM F
Tratamentos 3 163,75 54,58 7,80
Resíduo 16 112,00 7,00
Total 19 275,75

A Tabela de Análise de Variância também pode ser obtida


utilizando-se o MINITAB. Após digitar os dados na planilha fazer: STAT >
ANOVA > ONE-WAY (UNSTRAKED) > “selecionar todas as variáveis”

Hipóteses:

H0: A resistência mecânica dos tecidos é igual. Os tratamentos


não influenciam a resistência à tração dos tecidos tingidos pelos 4
produtos químicos utilizados.

H1: Pelo menos um dos tecidos apresenta resistência mecânica à


tração, em média, diferente dos demais.

Usando a distribuição F, para o nível de confiança 5%, com 3


graus de liberdade para o numerador (tratamentos) e 16 graus de
liberdade para o denominador (resíduo), temos:
F0,05; 3; 16 = 3,24 (F tabelado)
O valor de F calculado na ANOVA é: 7,80

Conclui-se então pela rejeição da hipótese nula, ou seja, pelo


menos um dos tecidos apresenta resistência mecânica à tração, em
média, diferente dos demais.
UNIVERSIDADE FEDERAL DO PARÁ
INSTITUTO DE TECNOLOGIA
ESTATÍSTICA APLICADA À ENGENHARIA QUÍMICA

Prof. Lênio J.G. de Faria

PLANEJAMENTO DE EXPERIMENTOS - DOE

OBJETIVO

Fornecer conhecimento teórico e prático sobre as técnicas de projeto fatorial de


experimentos e de otimização estatística de processos, para serem utilizadas como
ferramenta de avaliação e melhoria de parâmetros de processos, formulações, desenho
de equipamentos, entre outras diversas aplicações no desenvolvimento de processos e
de produtos industriais.

INTRODUÇÃO

Em pesquisa e no desenvolvimento de processos industriais é muito comum a


existência de vários fatores ou variáveis que afetam a qualidade do produto final. A tarefa
de otimização pode ser prolongada e dispendiosa se uma metodologia adequada não for
utilizada. A metodologia de planejamento fatorial de experimentos e análise de superfícies
de resposta vem sendo considerada como uma ferramenta eficaz e imprescindível para o
desenvolvimento de processos, principalmente quando um grande número de varáreis
está envolvido.
O avanço da informática e o uso rotineiro de microcomputadores viabilizaram o uso
de softwares de última geração, exigindo do usuário conhecimento básico de informática
e estatística para a interpretação dos resultados.
Ao profissional cabe então investir mais tempo na compreensão do processo,
definindo variáveis relevantes a serem estudadas (temperatura, composição do produto,
tempo de reação, concentrações, etc) e as respostas desejadas (consistência, sabor, cor,
aroma, pureza, rendimentos, produtividades, resistência mecânica, etc.).

Assim, é possível aperfeiçoar (otimizar) as condições de processo, maximizando


rendimentos, produtividades e viabilidades comerciais, minimizando custos, ou mesmo
conduzindo o processo à obtenção de um produto com as especificações desejadas, com
o uso de planejamento experimental e análise de superfícies de resposta, obtendo
resultados com altos índices de confiabilidade.

Grande parte do conhecimento acumulado pela humanidade ao longo de sua


existência foi adquirida por meio da experimentação. A Idéia de experimentar perdura até
os dias de hoje e certamente todos nós já aprendemos alguma coisa realizando
experiências. No entanto, a experimentação só se difundiu como técnica sistemática de
pesquisa no século XX, quando foi formulada através da estatística.
A estatística é a ciência que lida com a coleta, o processamento e a disposição de
dados (informação), atuando como ferramenta fundamental nos processos de solução de
problemas. A estatística trata da coleta de dados informativos e da interpretação desses
dados, facilitando o estabelecimento de conclusões confiáveis sobre algum fenômeno que
esteja sendo estudado.

A Figura 1 ilustra uma forma de visualização da estatística. Podemos interpretá-la


dizendo que a estatística viabiliza a coleta, o processamento e a disposição da
informação, de forma que o conhecimento assim gerado possa ser utilizado, para
agregar valor, ou seja, para atingir metas (melhoria).

Informação
(Fatos e Dados)

Coleta de Informação

Processamento da
Informação

Disposição da
Informação

Conhecimento

Controle do Processo Metas


(Solução de Problemas) (Melhorias)

Figura1. Forma de visualização da estatística

Boa parte da formalização que existe hoje em experimentação se deve a Sir


Ronald A. Fisher (1890-1962), um estatístico que trabalhou na Estação Experimental de
Agricultura de Rothamsted, na Inglaterra. É a origem agrícola da experimentação que
explica o uso de vários termos técnicos como, por exemplo, parcela para designar uma
unidade experimental, uma área usada no experimento que era, originalmente, uma
faixa de terra, mas podia ser também um vaso com uma planta.
O termo tratamento também foi introduzido em experimentação pela área agrícola,
e servia para indicar o que estava em comparação: fertilizantes, inseticidas, variedades.
Atualmente o termo tratamento tem significado mais geral. Muitos experimentos são feitos
para comparar equipamentos, métodos, materiais ou produtos.
O interesse, em experimentação, nem sempre é o de comparar tratamentos. Muitas
vezes o pesquisador deseja saber se determinado tratamento tem efeito. Nesse caso,
deve comparar um grupo de unidades que recebem o tratamento (grupo tratado) como
um grupo de unidades que não recebem o tratamento (grupo controle). Por exemplo:

• Efeito de um determinado tipo de adubo sobre a produção de uma planta.


• Efeito da vitamina C na prevenção de resfriados em seres humanos.

Nos experimentos, o que está sendo medido ou observado é a variável em análise.


Por exemplo, em um experimento conduzido para estudar o efeito de cremes dentais
com flúor na incidência de cáries, o que está em observação é a incidência de cáries,
logo esta é a variável em análise.
Em um experimento conduzido com a finalidade de verificar se a temperatura tem
efeito sobre a velocidade de determinada reação química, a variável em análise é a
velocidade da reação química.

PRINCÍPIOS BÁSICOS DO PLANEJAMENTO DE EXPERIMENTOS.

Um experimento constitui-se numa série de testes nos quais, propositadamente, são


realizadas variações nas variáveis de controle (variáveis de entrada) de um processo ou
sistema, com o objetivo de observar e identificar as razões de variação de resposta.
Podemos então definir um experimento como:

• Um experimento é um procedimento no qual alterações propositais são feitas nas


variáveis de entrada de um processo, de modo que se possam avaliar as possíveis
alterações sofridas pela variável de resposta, como também as razões desta
alteração.

Pela definição acima, observa-se que as variáveis de entrada correspondem aos


fatores ou causas do processo, enquanto a variável de resposta corresponde ao efeito
deste processo.
Podemos usualmente visualizar um processo como uma combinação de
equipamentos, informações do processo ou medidas, insumos, métodos ou
procedimentos, pessoas e condições ambientais, que transforme alguma entrada
(freqüentemente um material) em uma saída que apresenta uma ou mais respostas
observáveis. Alguns fatores do processo são controláveis (X1, X2, . ...., Xp), enquanto
outros fatores (Z1, Z2, ... Zq) são não-controláveis, conforme o modelo ilustrado na Figura
2.
Figura 2. Modelo geral de um processo ou sistema.

Para realizar um experimento de forma eficiente, deve ser utilizada uma


abordagem científica para o seu planejamento. Esta abordagem é identificada por meio
do termo planejamento estatístico de experimentos, que se refere ao procedimento de
planejar um experimento de forma que dados apropriados sejam coletados em tempo e
custo mínimos. A análise destes dados por meio de técnicas estatísticas resultará em
conclusões confiáveis, destacando-se que a utilização dessas técnicas é a única
abordagem objetiva de análise quando o problema envolve dados que estão sujeitos a
erros experimentais. Portanto, há dois aspectos em qualquer estudo experimental: o
planejamento do experimento e a análise estatística dos dados, que estão
intimamente relacionados, já que a técnica de análise depende diretamente do
planejamento utilizado.
Por exemplo, em um processo de usinagem, temos a matéria prima sendo
processada por uma máquina-ferramenta, com uma seqüência de trabalho definida
(método), controlada por um operador (homem), em um ambiente com condições
específicas. O resultado desse processo é uma peça acabada, cuja característica de
qualidade pode ser a rugosidade de sua superfície (ver ilustração na Figura 3).
Esse processo de usinagem pode ser ajustado através da variação de uma série
de variáveis operacionais, tais como: taxa de avanço, profundidade de corte, geometria de
ferramenta, etc...

Figura 3. Entradas e saídas de um processo de usinagem


Outro exemplo seria o desenvolvimento de um processo de extração de um
componente de interesse contido em uma matéria prima, conforme ilustrado na Figura 4.

Figura 3. Entradas e saídas de um processo de extração

Assim, os objetivos de um experimento planejado podem ser:

1 – Determinar quais variáveis (fatores) do processo são mais influentes na variável de


resposta de interesse;
2 – Determinar as faixas de valores (níveis) das variáveis do processo influentes na
resposta, de modo que a variabilidade desta variável de resposta seja mínima;
3 – Determinar os níveis das variáveis influentes na resposta, de modo que o efeito das
variáveis não-controláveis na resposta seja reduzido.

Os três princípios básicos de experimentação são:

Repetição (réplica), aleatorização (casualização, randomização) e blocos (blocagem).


a) Réplicas: são repetições do experimento feitas sob as mesmas condições
experimentais. A repetição apresenta duas propriedades importantes:

• Permite obter uma estimativa da variabilidade devida ao erro experimental. A partir


desta estimativa é possível avaliar se a variabilidade presente nos dados coletados
é devida somente ao erro experimental ao se existe influência das diferentes
condições avaliadas pelo pesquisador. Se estas condições forem influentes,
poderá ser determinada qual a condição mais favorável, de acordo com o interesse
do pesquisador.
• Por meio da escolha adequada do número de réplicas é possível detectar, com a
precisão desejada, quaisquer efeitos produzidos pelas diferentes condições
experimentais que sejam consideradas significantes do ponto de vista prático.

b) Aleatorização: refere-se ao fato de que tanto a alocação do material experimental às


diversas condições de experimentação, quanto à ordem segundo a qual os ensaios
individuais do experimento serão realizados, são determinados ao acaso.

A aleatorização é a suposição básica para a validação do uso dos métodos


estatísticos na técnica de planejamento de experimentos. Os métodos estatísticos
requerem que as observações (ou erros) sejam “variáveis aleatórias independentes”. A
aleatorização do experimento normalmente faz com que esta hipótese seja válida. Através
da aleatorização os efeitos de fontes não assimiláveis de variabilidade são minimizados.

c) Blocos: são conjuntos homogêneos de unidades experimentais.

O planejamento em blocos é um procedimento de visa eliminar o efeito de um ou


mais fatores no resultado (resposta) de um experimento. Com este procedimento, realiza-
se o experimento em condições (blocos) mais homogêneas. Assim, consegue-se:
• Aumentar a precisão do experimento (efeito dentro de cada bloco);
• Aumentar a informação, uma vez que se evidencia o efeito dos blocos (efeito entre
blocos).

Utilização do Planejamento de Experimentos

• Projetar e desenvolver um produto;


• Melhorar um processo existente;
• Melhorar um processo novo após partida;
• Desenvolver produtos e processos robustos perante fontes externas de
variabilidade;
• Aumento de rendimento de um processo;
• Redução da variabilidade de um processo;
• Redução do tempo de desenvolvimento de um produto;
• Redução de custos globais.

Etapas do Planejamento e Análise de Experimento

De um modo geral, o planejamento e análise de experimentos percorrerão as


seguintes etapas:

a) Reconhecimento e formulação do problema

Nesta fase, identifica-se a existência de um problema que pode ser estudado (ou
resolvido) através de experimentação. A partir daí, as idéias são organizadas de forma a
se explicitar o que se conhece e o que se pretende conhecer com o experimento. Não é
tarefa simples, exige cooperação de todas as partes envolvidas: projeto, fabricação,
qualidade, marketing, gerencia, funcionários da fábrica.

b) Escolha dos níveis e fatores

Devem-se definir os fatores (variáveis) a serem considerados no experimento, a


faixa dentro da qual cada fator variará e os níveis para os quais testes serão feitos. Deve
ser considerado também sobre como esses fatores serão controlados nos níveis
desejados e como eles serão medidos. Todo conhecimento não estatístico do processo é
requerido.

c) Planejamento do Experimento
Esta fase envolve a:

• Escolha da técnica experimental a ser usada no experimento;


• Escolha da (s) variável (is) de resposta;
• Definição do número de repetições;
• Definição da ordem dos testes (corridas).
d) Condução do Experimento

Durante os experimentos, é vital monitorar o processo cuidadosamente, para


garantir que tudo seja feito de acordo com o que foi planejado. Erro no procedimento
experimental muito provavelmente invalidará o resultado do experimento.

e) Análise dos Dados

Métodos estatísticos são usados para analisar os dados de modo a garantir que as
conclusões sejam objetivas e fundamentadas, já que estes métodos adicionam
objetividade ao processo de tomada de decisão.
Os métodos estatísticos, quando aplicados adequadamente, nos permite medir o
erro provável de uma conclusão com um certo grau de confiança.

f) Conclusões e Recomendações

Com os dados analisados, deve-se, a partir das inferências estatísticas, tirar


conclusões práticas sobre os resultados e recomendar uma linha de ação. A utilização de
gráficos é bastante útil na apresentação dos resultados.

As Principais Ferramentas do Planejamento de Experimentos

• Experimentos comparativos;
• Experimentos fatoriais;
• Análise de regressão;
• Superfície de resposta;
• “EVOP” (Operação evolucionária).
UNIVERSIDADE FEDERAL DO PARÁ
FACULDADE DE ENGENHARIA QUÍMICA
ESTATÍSTICA APLICADA À ENGENHARIA QUÍMICA

Prof. Lênio J.G. de Faria

METODOLOGIA DE SUPERFÍCIES DE RESPOSTA

Uma das técnicas de otimização muito utilizada é a metodologia de superfícies de resposta


(MSR), a qual se baseia no emprego de planejamentos fatoriais e tem sido utilizada na modelagem
de muitos processos tecnológicos e industriais.
A metodologia de superfícies de resposta consiste de um grupo de técnicas usadas no estudo
empírico de relações entre uma ou mais variáveis de entrada e a resposta. É uma técnica de
otimização baseada no emprego de planejamentos fatoriais e utilizada com sucesso na modelagem
de diversos processos químicos.
Esse conjunto de técnicas matemáticas e estatísticas, é útil para a modelagem de problemas
nos quais a resposta a ser otimizada é influenciada por várias variáveis. A superfície de resposta
constitui-se na representação geométrica obtida quando a variável dependente é posta em gráfico
em função de uma ou mais variáveis de entrada quantitativas. Considerando-se que n funções
matemáticas, fk (k = 1,2 ...n) existem para cada uma das variáveis de resposta, yk, em termos de m
variáveis de entrada, ξi (i = 1, 2... m), representadas por:

yk = fk (ξ1, ξ2, .... ξm) (1)

onde ξ1, ξ2, ξ3 ... ξm denotam as variáveis independentes, ou fatores, de interesse.


A exata representação matemática desta função (fk) é desconhecida ou muito complexa.
Entretanto, esta função pode ser representada por um polinômio de segundo grau ou modelo
quadrático, na forma da Equação 2, como uma aproximação da verdadeira função fk, geralmente
para que seja possível a obtenção de uma estimativa mais precisa da condição ideal de operação de
um processo,

k k k-1 k
(2)
y k = b ko + ∑ b ki x i + ∑ b kii x 2i + ∑ ∑ b kij x i x j + e
i =1 i =1 i =1 j= i +1

onde bko, bki, bkii e bkij representam os coeficientes de regressão constantes e xi, (i = 1, 2, ...., k), são
as variáveis independentes codificadas, relacionadas linearmente a ξi conforme Equação 3,

ξi − ξio (3)
xi =
di
na qual ξi é o valor real da variável de entrada em unidades originais, ξio o valor central (média entre
os valores do nível baixo e do nível alto da variável original ξi) em unidades originais, e di representa
a metade diferença entre os valores dos níveis baixo e alto de ξi. O termo e constitui-se num
componente de erro aleatório.
Os projetos compostos, os quais consistem de projetos fatoriais completos ou de uma fração
do projeto fatorial, são detalhados em BOX e DRAPER (1987) e em KHURI e CORNELL (1996).
As formas mais freqüentes das superfícies de resposta, dadas por modelos polinomiais de
segunda ordem, estão ilustrados em BOX, HUNTER e HUNTER (1978).
O projeto de engenharia e a eficiente operação dos equipamentos e do processo de secagem
são geralmente baseados em experimentos em planta piloto com o material em estudo, numa certa
faixa de condições operacionais.
No método clássico de experimentos, os parâmetros (variáveis independentes) de um
processo de secagem são variados um de cada vez, mantendo-se os demais constantes, sendo a
correspondente resposta (variável dependente) estimada por um método de medidas adequado.
Essa abordagem apresenta a desvantagem de requerer grande número de ensaios experimentais
no caso de experimentos multivariados, além de apresentar limitações nas conclusões, em
conseqüência dos efeitos e de possíveis interações de vários parâmetros.
O planejamento estatístico de experimentos e a análise de variância proporcionam um
vantajoso método para avaliação dos efeitos e interações das variáveis operacionais mais
importantes no processamento industrial de vários materiais. A metodologia de superfícies de
resposta é comumente empregada na análise de dados experimentais, resultando na otimização do
processo.
As técnicas de planejamento fatorial e metodologia de superfícies de resposta têm sido
empregadas para a otimizar a operação de secagem, minimizando o número de experimentos, em
sua maioria trabalhosos e dispendiosos, permitindo a otimização do processo e melhorando a
qualidade dos produtos finais.

A metodologia da superfície de resposta consiste, portanto, de um conjunto de técnicas


usadas no estudo empírico das relações entre uma ou mais respostas, como rendimento,
viscosidade, etc. e outras variáveis de entrada, como tempo, temperatura, concentração, catalisador,
tipo de solvente empregado na extração, etc.
A técnica vem sendo empregada para responder questões do tipo:
• Como uma resposta particular é afetada por um dado conjunto de variáveis de entrada em
um espaço amostral de interesse?
• Que conjunto de condições específicas das variáveis de entrada produz simultaneamente
as especificações desejadas para a resposta estudada?
• Que valores específicos das variáveis de entrada produzem um rendimento máximo para
uma resposta específica, e qual a superfície de resposta que contém esse máximo?
Projetos e Modelos de Primeira Ordem

Um bom exemplo de projeto de primeira ordem é o projeto fatorial completo em dois níveis.
O projeto fatorial consiste em realizar uma série experimental em que cada ensaio foi obtido a partir
de todas as combinações possíveis de um número fixo de níveis para cada variável de entrada
estudada (fatores).

Projetos e Modelos de Segunda Ordem

A região próxima a um ponto extremo (mínimo ou máximo) é também chamada região


estacionária. Um polinômio de segunda ordem pode ser utilizado para descrever este tipo de região.
Os projetos compostos ou projetos seqüenciais são muito empregados na solução de problemas
desta natureza.
O projeto composto consiste de um projeto fatorial completo ou uma fração do projeto
fatorial, com k variáveis independentes, ao qual se adicionam 2k experimentos posicionados nos
eixos coordenados do projeto fatorial em: (± α, 0,...,0), (0, ± α,...,0), (0, 0,...± α), onde α é a
distância do ponto central ao ponto estrela. O ponto central deve ser repetido nc vezes. O número de
repetições, nc, e o valor de α de dependem do número, k, de variáveis independentes.

Os projetos compostos permitem o ajuste de polinômios de segunda ordem, do tipo:

k k k (4)
ŷ = b o + ∑ b x + ∑ b x 2 + ∑ b x x
i=1 i i i=1 ii i i≠ j=1 ij i j

Estes explicam a grande maioria das regiões exploradas no estudo. As superfícies de


resposta podem ser traçadas geometricamente quando se trabalha com k=2 variáveis
independentes, ou podem ser interpretadas matematicamente quando k >2.

Projeto de Segunda Ordem:

K 2 3 4 5 6 7 8
λ 0,7844 0,8385 0,8704 0,8918 0,9070 0,9184 0,9274

Projeto Composto Central:

Consiste de;
• Um projeto fatorial completo (ou fracionário), 2k, onde os níveis são codificados de –1
e +1. É chamada de porção fatorial do projeto.
• Um número de corridas no ponto central, nc (nc≥1).
• Dois pontos axiais no eixo de cada variável de projeto a uma distância α do centro do
projeto. É chamada de porção axial do projeto.

Número total de pontos do projeto:


! = 2$ + 2& + '(
Valor de α:
,
) = '+-

Estimativa do número de corridas no ponto central:


(Precisão uniforme)
'( ≅ /(1'+ + 2 )3 − '+ − 2&

Exemplo: Para k=2 (Planejamento Composto Central)


,
) = 4- = ±1,41

Matriz de planejamento

Ordem X1 X2 Resposta
1 -1 -1 Y1
2 1 -1 Y2
3 -1 1 Y3
4 1 1 Y4
5 -1,41 0 Y5
6 1,41 0 Y6
7 0 -1,41 Y7
8 0 1,41 Y8
9 0 0 Y9
10 0 0 Y10
11 0 0 Y11
12 0 0 Y12
13 0 0 Y13
Planejamento Composto Central – parte fatorial e axial graficamente

ESTUDO DE CASO 1: Secagem de sementes de urucum em leito fixo

Na Tabela 1 estão representadas as variáveis originais e codificadas, e seus respectivos


níveis, com os valores das respostas obtidas no procedimento de otimização da secagem de
sementes de urucum conforme projeto experimental constituído de planejamento fatorial (corridas 1
a 8), planejamento composto central (corridas 9 a 14) e réplicas no ponto central (corrida 15 a 20).
Tabela 1. Condições experimentais e resultados da MSR
Corridas Variáveis codificadas Variáveis originais Variáveis de resposta
x1 x2 x3 Tg (oC) t (min) G (kg/h) Xf (%bs) Bf (%bs)
01 -1 -1 -1 40 240 46,8 15,84 3,00
02 1 -1 -1 80 240 46,8 11,28 2,79
03 -1 1 -1 40 360 46,8 17,83 2,32
04 1 1 -1 80 360 46,8 7,70 2,56
05 -1 -1 1 40 240 108,0 13,10 2,56
06 1 -1 1 80 240 108,0 9,22 3,00
07 -1 1 1 40 360 108,0 12,78 2,50
08 1 1 1 80 360 108,0 6,51 2,76
09 -1,68 0 0 26 300 77,4 16,16 2,69
10 1,68 0 0 94 300 77,4 6,75 2,67
11 0 -1,68 0 60 199 77,4 11,10 2,87
12 0 1,68 0 60 401 77,4 10,07 2,54
13 0 0 -1,68 60 300 25,2 15,15 2,59
14 0 0 1,68 60 300 129,6 10,76 2,50
15 0 0 0 60 300 77,4 11,35 2,30
16 0 0 0 60 300 77,4 11,27 2,90
17 0 0 0 60 300 77,4 11,36 2,74
18 0 0 0 60 300 77,4 10,65 2,75
19 0 0 0 60 300 77,4 11,90 2,65
20 0 0 0 60 300 77,4 11,29 2,84

ANÁLISE PARA A RESPOSTA TEOR DE UMIDADE FINAL: Xf

EFEITOS ESTIMADOS

Os efeitos estimados das variáveis isoladas e de suas combinações binárias mostradas na


Tabela 2 indicam que, a princípio, somente o efeito de x12 não seria significativo para a resposta Xf,
devido seu valor absoluto ser menor que o erro. Observa-se também que o aumento dos níveis
inferior para o superior das variáveis isoladas x1, x2 e x3, propicia um decréscimo na variável de
resposta, sendo mais evidente com a variável x1 (Tg), por possuir um efeito mais significativo (efeitos
negativos e desejáveis na resposta, já que o intuito é obter menores teores de umidade finais).
Tabela 2. Efeitos Estimados para Xf
Efeitos Valores estimados ± erro
x1: Tg - 5,95534 ± 0,215057
x2: t - 0,930263 ± 0,215057
x3: G - 2,69799 ± 0,215057
x1 x2 -1,99 ± 0,280986
x1 x3 1,135 ± 0,280986
x2 x3 - 0,36 ± 0,280986
x12 0,147576 ± 0,209351
x22 - 0,467602 ± 0,209351
x32 1,20823 ± 0,209351
Grande média 11,3002 ± 0,162069

Para a determinação da significância estatística dos efeitos das variáveis de entrada na


resposta teor final de umidade das sementes de urucum, Xf, com mais propriedade, é realizada uma
análise de variância (ANOVA) conforme indicado na Tabela 3. A referida tabela mostra os efeitos
das variáveis de secagem sobre a resposta na forma linear, quadrática e com termos cruzados, que
podem ser avaliados com base na estatística F e no valor de p.
Pelo exame da Tabela 3 verifica-se que as variáveis de entrada x1 (Tg), x3 (G) e as
combinações x1x2 (Tgt) e x32 (G2) são estatisticamente significativas em um nível de significância
menor que 5%; x2 (t) e x1x3 (TgG) a um nível de significância menor que 1% e a combinação x22 (t2)
pode afetar a resposta a um nível de significância menor que 10%. As demais combinações não são
estatisticamente significativas para a resposta Xf. Serão considerados como estatisticamente
significativos os efeitos das variáveis com nível de significância de até 10%.
O teste de falta de ajuste indicado na Tabela 3 consiste em uma medida da falha que o
modelo pode apresentar ao predizer as respostas obtidas com base nos dados experimentais e o
coeficiente R2 representa a proporção de variabilidade em torno da média que é explicada ou
descrita pela equação de regressão. Assim, verifica-se que para o modelo polinomial de 2a ordem
proposto não há evidência de falta de ajuste, já que o valor de F calculado (F5,5 = 2,37) é menor que
o valor de F tabelado (F5,5 = 5,05) ao nível de 95% de confiança.
O valor do coeficiente de determinação R2 indica que 98,43% de variância é explicada pela
regressão. Devido a alta proporção de variabilidade explicada para a resposta Xf, a princípio, o
modelo de 2a ordem proposto pode ser adequado para a descrição do processo e predizer com
segurança as variações nos teores de umidade finais das sementes de urucum sujeitas à secagem,
em função das variáveis estatisticamente significativas.
ANÁLISE DE VARIÂNCIA

Tabela 3. ANOVA para Xf


Efeitos Soma dos Graus de Quadrado F p
Quadrados Liberdade Médio
x1: Tg 121,08912 1 121,0891 766,84 0,0000
x2: t 2,95463 1 2,95463 18,71 0,0075
x3: G 24,85268 1 24,85268 157,39 0,0001
x1 x2 7,92020 1 7,92020 50,16 0,0009
x1 x3 2,57645 1 2,57645 16,32 0,0099
x2 x3 0,25920 1 0,25920 1,64 0,2563
2
x1 0,07847 1 0,07847 0,50 0,5195
x22 0,78777 1 0,78777 4,99 0,0758
x32 5,25951 1 5,25951 33,31 0,0022
Falta de ajuste 1,86878 5 0,37376 2,37 0,1831
Erro Puro 0,78953 5 0,15791 - -
Total (Correlação) 168,85025 19 - - -
R2 = 0,9843

EQUAÇÃO DE REGRESSÃO

Tabela 4. Coeficientes de regressão para Xf


Parâmetros Coeficientes
Constante 11,3002
x1: Tg -2,97767
x2: t -0,465131
x3: G -1,349
x1 x2 -0,995
x1 x3 0,5675
x2 x3 -0,18
x12 0,0737879
x22 0,233801
x32 0,604114

Os resultados da análise de regressão múltipla com a indicação dos respectivos coeficientes


das variáveis de entrada e suas combinações estão na Tabela 4. Com base nesta análise propõe-se
o modelo estatístico de 2a ordem conforme polinômio representado na Equação 5, utilizando
somente os coeficientes e a variáveis codificadas, estatisticamente significativas para a resposta Xf:

Xf = 11,3002 - 2,97767x1 - 0,465131x2 - 1,349x3 - 0,995x1x2 + 0,5675x1x3 - (5)


0,233801x22 + 0,604114x32
A Equação 9 descreve o modelo para a estimativa do conteúdo de umidade final de sementes
de urucum, em função das variáveis originais Tg (oC), t (min) e G (kg/h), a partir das relações entre
as variáveis independentes dadas pelas Equações 6, 7 e 8, com base na Equação 3:

Tg − 60 (6)
x1 =
20

t − 300 (7)
x2 =
60

G − 77 ,4 (8)
x3 =
30,6

Xf = 13,372 + 0,028Tg + 0,081t - 0,2G - 0,00083Tgt + 0,00093TgG - (9)


0,000065t2 + 0,00065G2

A temperatura e a vazão do ar de secagem e o tempo de processamento mostraram exercer


considerável influência na redução do conteúdo de umidade das sementes de urucum. A observação
dos resultados e a análise estatística indicam que um aumento nos valores de Tg, t e G, provocam
uma sensível diminuição no valor de Xf, favorecendo o processo de secagem.
Para melhor visualização do ponto ótimo de operação, construíram-se as superfícies de
resposta e as correspondentes curvas de níveis ou contornos em função das variáveis codificadas,
utilizando-se o aplicativo Statistica. São graficados no eixo z a resposta Xf (%bs) e nos eixos x e y
duas variáveis de interesse, mantendo-se a outra no ponto estacionário. Note que, embora as
coordenadas desses gráficos variem do limite de -2 a +2, as curvas obtidas devem ser interpretadas
dentro do limite de -1,68 a +1,68, de acordo com a parte axial do planejamento adotado.
Desse modo, as Figuras 1 e 2 representam respectivamente a superfície de resposta e os
contornos, descritos pela Equação 5 para a resposta Xf em função de x1 (Tg) e x2 (t), mantendo-se
x3 (G) fixo no ponto máximo (x3 = 1,68).
Avaliando-se as superfícies de respostas e os contornos indicados nas Figuras 1 e 2 percebe-
se com clareza que realmente as condições que propiciam a diminuição de Xf e portanto favorecem
o processo, correspondem aos valores mais elevados das variáveis x1, x2 mantendo-se a variável x3
no seu nível máximo (1,68) o que também é desejável para minimizar o teor final de umidade das
sementes.
16
14
12
10
8
6
4
2

Figura 1. Superfície de resposta para Xf em função de x1 e x2 para x3 = 1,68

2,0

1,5

1,0

0,5
X2

0,0

-0,5

-1,0 16
14
12
-1,5 10
8
6
-2,0
4
-2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0
2
X1

Figura 2. Curvas de nível para Xf em função de x1 e x2 para x3 = 1,68

A Figura 2-A representa a distribuição dos resíduos em função dos valores preditos pelo
modelo proposto e mostra a ausência de um comportamento tendencioso, indicando que o modelo
matemático descreve adequadamente os dados experimentais, não havendo, portanto, qualquer
inconsistência entre estes e os valores calculados. Da mesma forma, a distribuição aleatória dos
resíduos em função dos valores observados experimentalmente para a resposta Xf, vista na Figura
2-B, indica que os mesmos são independentes. A Figura 2-C mostra que os resíduos seguem uma
distribuição de probabilidade normal, o que está de acordo com os pressupostos estatísticos, que
devem ser obedecidos para que o modelo de regressão tenha qualidade na previsão dos valores da
resposta.
0,8

0,6

0,4

0,2
Resíduos

0,0

-0,2

-0,4

-0,6

-0,8
4 6 8 10 12 14 16 18 20

Valores Preditos

Figura 2-A. Distribuição dos resíduos em função dos valores preditos

0,8

0,6

0,4

0,2
Resíduos

0,0

-0,2

-0,4

-0,6

-0,8
4 6 8 10 12 14 16 18 20

Valores Observados

Figura 2-B. Distribuição dos resíduos em função dos valores observados


3,0

2,5
,99
2,0
,95
1,5

1,0

Valor Normal Esperado


,75
0,5
,55
0,0
,35
-0,5

-1,0 ,15

-1,5
,05
-2,0
,01
-2,5

-3,0
-0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8

Resíduos

Figura 2-C. Teste de normalidade

ESTUDO DE CASO 2: Extração por Solvente

Visando a determinação de parâmetros mais influentes na extração química, utiliza-se o


sistema de extração Soxhlet em escala de laboratório, ilustrado na Figura 3, tendo hexano como
solvente.

Figura 3: Arranjo experimental com os parâmetros de extração a serem otimizados

Para se obter um modelo estatístico capaz de predizer o rendimento em óleo em


função das variáveis mais significativas para o processo de extração por solvente, é desenvolvido
um planejamento estatístico com base na Metodologia de Superfícies de Resposta, tomando-se
como variáveis de entrada a granulometria do material, o tempo de extração e a espessura do
isolamento colocado no extrator.
O processo é conduzido mantendo-se fixas as variáveis indicadas na Tabela 5.

Tabela 5: Parâmetros (variáveis mantidas fixas)


Variáveis Valores
A - Temperatura da água de refrigeração 30o C
C - Solvente hexano
D - Relação material/solvente (massa/massa) 1/6
G – Agitação Ausente

Na Tabela 6 estão representadas as variáveis e os respectivos níveis utilizados na otimização


do rendimento da extração de óleo de cupuaçu utilizando-se solvente orgânico.

Tabela 6: Valores codificados e originais para as variáveis utilizadas no planejamento da


metodologia de superfície de resposta
Variáveis Níveis
-1,68 -1 0 +1 +1,68
B – Tempo de extração (min) 19 60 120 180 221
E – Granulometria (mm) 0,5 0,6 0,8 1,0 1,14
H – Espessura do isolamento (mm) 3 30 70 110 137

As corridas com a metodologia de superfície de resposta são desenvolvidas de acordo com a


matriz de experimentos indicada na Tabela 7, calculando-se os pontos extremos (α = ±1,68).

Tabela 7: Matriz de experimentos


Corridas B E H Rendimento
(%)
01 -1 -1 -1 58,05
02 1 -1 -1 62,10
03 -1 1 -1 55,36
04 1 1 -1 58,78
05 -1 -1 1 62,44
06 1 -1 1 62,44
07 -1 1 1 51,95
08 1 1 1 62,19
09 -α 0 0 48,95
10 +α 0 0 66,34
11 0 -α 0 62,89
12 0 +α 0 45,26
13 0 0 -α 75,88
14 0 0 +α 64,88
15 0 0 0 66,06
16 0 0 0 65,29
17 0 0 0 63,41
18 0 0 0 66,06
A análise estatística dos experimentos visando encontrar um modelo representativo do
rendimento do processo de extração química é realizada utilizando o aplicativo Statgraphics 5.0.
A Tabela 8 mostra os resultados para a análise de regressão múltipla e evidencia a influência
das variáveis isoladas B (tempo de extração) e E (granulometria) e de suas interação BB e EE (B2 e
E2). Desta forma, com base nesta análise, propõe-se um modelo estatístico de segunda ordem para
a extração da gordura de cupuaçu, descrito pela Equação 13, a qual é originada da Equação 10 em
função das variáveis codificadas (Equações 11 e 12) e que apresentam significância para o ajuste
proposto.

Rend = 65,27 + 3,44B − 3,4E − 2,95B2 − 4,22E 2 (10)

onde:
t − 120 (11)
B=
60

G − 0,8 (12)
E=
0,2

Assim, a equação do modelo escrita em função das variáveis originais é:

Rend = −7,3 + 0,25t + 151,7G − 8,2x10− 4 t2 − 105,4G 2 (13)

Tabela 8: Resultados para o ajuste do modelo


Variáveis Coeficientes Erro Padrão p
Constante 65,268 1,86376 0,0000
t 3,44199 1,01070 0,0067
G -3,39532 1,01070 0,0072
I -1,01064 1,01070 0,3409
tG 1,19625 1,31995 0,3861
t2 -2,95207 1,05127 0,0185
G2 -4,21695 1,05127 0,0025
2
I 1,56005 1,05127 0,1686

Na Tabela 9 estão indicadas as estimativas dos coeficientes das variáveis e seus limites
inferiores e superiores.

Tabela 9: Intervalo de confiança a 95% para os coeficientes estimados


Variáveis Estimativa Erro Padrão Limite Inferior Limite Superior
Constante 65,268 1,86376 61,1141 69,4218
t 3,44199 1,01070 1,18941 5,69456
G -3,39532 1,01070 -5,64789 -1,14274
I -1,01064 1,01070 -3,26321 1,24193
tG 1,19625 1,31995 -1,74558 4,13808
t2 -2,95207 1,05127 -5,29507 -0,60906
G2 -4,21695 1,05127 -6,55995 -1,87395
I2 1,56005 1,05127 -0,78295 3,90305

A análise de variância para a regressão encontra-se na Tabela 10, onde se observa que o
coeficiente R2 é igual a 0,83996, indicando que o modelo proposto descreve satisfatoriamente as
relações entre as variáveis, explicando cerca de 84% das variabilidades experimentais em torno do
rendimento médio. Este resultado pode ser considerado relativamente bom, em se tratando de
experimentos envolvendo produtos naturais, os quais envolvem parâmetros de difícil controle e
avaliação.

Tabela 10: Análise de variância para a regressão


Fonte de Soma Graus de Média
F p
Variação Quadrática Liberdade Quadrática
Modelo 731,542 7 104,506 7,49778 0,0026
Erro 139,382 10 13,9382
Total 870,924 17
R2 = 0,83996

As Figuras 4 e 5 representam, respectivamente, a superfície de resposta e as curvas de


níveis para o rendimento do processo em função das variáveis codificadas B e E.

72
Rendimento

62

52

42 2.3
1.3
0.3
32
-1.7 -0.7 E
-0.7 0.3 -1.7
1.3 2.3
B

Figura 4: Superfície de resposta para a variável de rendimento

2.3

45
48.5
1.3 52

55.5
59
E 0.3
62.5
66
-0.7

-1.7
-1.7 -0.7 0.3 1.3 2.3
Figura 5: Curvas de níveis para a variável de resposta rendimento

A natureza da superfície no ponto estacionário é determinada pelo cálculo das segundas


derivadas parciais da equação de definição do modelo proposto (Equação 10), as quais apresentam
valores negativos indicando que a função possui um máximo no ponto estacionário, como pode ser
visualizado na Figura 4. Pelo exame das Figuras 4 e 5 verifica-se que os valores numéricos ótimos
das variáveis codificadas B e E, na região estudada, são respectivamente 0,58 e -0,4. As Equações
11 e 12 fornecem valores para o tempo de extração igual a 155 minutos e granulometria do material
0,72 mm que correspondem ao rendimento máximo.
A Figura 6 representa a distribuição aleatória dos resíduos, e mostra a ausência de um
comportamento tendencioso, indicando que o modelo matemático descreve adequadamente os
dados experimentais, não havendo, portanto, qualquer inconsistência entre estes e os valores
calculados.
A comparação entre os valores experimentais e os calculados através do modelo proposto
para o rendimento em óleo, indicada na Figura 7, mostra a existência de um bom ajuste entre os
valores observados e os preditos.

5.7

3.7

1.7

Resíduos

-0.3

-2.3

-4.3

47 52 57 62 67 72
Valores Preditos

Figura 6: Distribuição de resíduos


85

75

Valores Observados

65

55

45

45 55 65 75 85
Valores Preditos

Figura 7: Comparação entre os valores observados e preditos

O modelo proposto apresenta um bom ajuste aos dados experimentais para a resposta
(rendimento), dentro da faixa das condições estudadas, conforme indicam as estatísticas contidas na
Tabela 10.
Observa-se que os resíduos para a variável de resposta, indicados na Figura 6 não possuem
padrão de comportamento, estando distribuídos aleatoriamente, mostrando que a forma da equação
do modelo é adequada para a descrição do comportamento dos dados experimentais, conforme
evidenciado na comparação entre os valores experimentais e preditos (Figura 7).
Com relação a variável I (espessura do isolamento) e sua interação I2, os valores encontrados
para este efeito indicam que a mesma não apresenta significância estatística, o que é evidenciado
pela análise dos dados da Tabela 8.
O valor do teste F para a regressão, indicado na Tabela 10, evidencia que a regressão para o
modelo proposto é estatisticamente significativa, existindo, portanto, uma relação entre as variáveis.
Isto se comprova através da comparação entre os valores de F, calculados (Tabela 10) e tabelados
em função dos graus de liberdade para a regressão e o erro. O valor de F calculado é 7,49778 que
é maior do que valor tabelado (F7,10 = 3,14), ao nível de 95% de confiança. Estes resultados indicam
que o modelo consegue reproduzir adequadamente os dados experimentais devido a boa regressão
apresentada.
Cabe ressaltar que o modelo desenvolvido é empírico e não pode ser extrapolado além dos
limites dos valores das variáveis utilizadas. Contudo, a Equação 13 pode permitir o cálculo das
condições necessárias para se obter um rendimento desejado em equipamentos de extração
convencional em pequena escala utilizando solventes orgânicos líquidos. Partindo das observações
do processo em escala de laboratório, modelos similares podem ser desenvolvidos para o processo
em escala industrial.
REFERÊNCIAS

Akhnazarova, S. and Kafarov, V. Experiment Optimization in Chemistry and Chemical


Engineering. Moscow, Mir Publishers, 1982.
Box, G. E. P.; Hunter, W. G.; Hunter, J. S. Statistics for experimenters: design, innovation, and
discovery. 2. ed., New Jersey: Wiley, 2005.
Box, G. E. P. & Draper, N. R. Empirical Model-Building and Response Surfaces. New York, John
Wiley & Sons, Inc, 1987.
Khuri, A. I. and Cornell, J. A. Response Surfaces: designs and analysis. 2. ed. New York, Marcel
Dekker, Inc., 1996.
Lazic, Z. R. Design of experiments in chemical engineering: a practical guide. Weinheim: Wiley-
VCH, 2004.
Myers, R. H.; Montgomery, D. C. Anderson-Cook, C. M. Response surface methodology: process
and product optimization using designed experiments. 3. ed., New Jersey: Wiley, 2009.
UNIVERSIDADE FEDERAL DO PARÁ
INSTITUTO DE TECNOLOGIA
FACULDADE DE ENGENHARIA QUÍMICA
Disciplina: ESTATÍSTICA APLICADA À ENGENHARIA QUÍMICA

Prof. Lênio J. G. de Faria

FUNÇÃO DESEJABILIDADE

A função desejabilidade é um dos métodos mais utilizados na indústria


para a otimização simultânea de processos com múltiplas respostas. O
princípio do método proposto por Derringer e Suich (1980), baseia-se na idéia
de que a qualidade de um processo ou produto, com múltiplas características
de qualidade é completamente inaceitável, quando pelo menos uma destas
características se encontra fora de alguns limites desejados num intervalo de
[0,1], onde 0 significa um valor inaceitável e 1 o valor mais desejável.
A Equação 1 define a desejabilidade global, D, como a média
geométrica das m desejabilidades individuais, artifício pelo qual a otimização
simultânea das várias respostas se reduz à maximização de um único valor, a
desejailidade global.

D = m d1d 2 ....d m (1)

Segundo Barros Neto, Scarmínio e Bruns (2007), o problema reduz-se


em descobrir os níveis dos fatores que maximizem o valor de D, com a
vantagem de que o uso da média geométrica faz com que a desejabilidade
global se anule sempre que uma das respostas tiver um valor inaceitável,
mesmo que os valores das outras respostas sejam satisfatórios.
A letra m denota o número de respostas. Se qualquer resposta dm for
completamente indesejável (dm = 0), então a desejabilidade global é igual a
zero.
Conforme se deseje maximizar, minimizar ou assumir um valor mediano
para uma variável de resposta, diferentes tipos de funções desejabilidade
podem ser utilizadas. O programa Statistica 7.0, usa a abordagem usada por
Derringer e Suich (1980), que é baseada no seguinte princípio: seja Li, LS e M,
os valores inferior, superior e mediano, respectivamente, os quais são
desejados para a resposta Ŷ, com Li ≤ M ≤ LS.
Os expoentes s e t determinam a importância da função para encontrar
o valor desejado. Para s = t =1, a função desejabilidade aumenta linearmente
com M; para s < 1, t <1, a função é convexa; e para s > 1, t > 1, a função é
côncava.
Se a resposta deve ser maximizada, a desejabilidade individual é definida
na forma da Equação 2:
0 Ŷ < L i

 Ŷ − L
s

d =  i  L i ≤ Ŷ ≤ M (2)
M−L 
 i 

1 Ŷ > M

Se a resposta deve ser minimizada, a desejabilidade individual é dada


pela Equação 3:
1 M < Ŷ
 t
 L − Ŷ 
d =  s  M ≤ Ŷ ≤ L s (3)
 
 L s − M 

0 Ŷ > L s

Se a resposta é do tipo mediana, então sua função desejabilidade


individual é bilateral, em que o valor desejado está localizado entre o limite
inferior e superior, sendo definida por meio da Equação 4:
0 ˆ <L
Y

i

 Y ˆ −L 
s

 i  ˆ ≤M
Li ≤ Y
 M − L i 
d= t
(4)
 L s − Y
ˆ
  ˆ ≤L
M≤ Y
 L s − M 
s


ˆ >L
0 Y s
Análise da função desejabilidade

Para a analise de desejabilidade global por meio do software Statistica®


7.0, utiliza-se uma grade de 30 pontos para cada uma das 2 variáveis
independentes, ou seja, dessa forma os valores das respostas e respectivas
desejabilidades são calculadas em 302 combinações de níveis para os fatores.
Na Tabela 1 observa-se as condições atribuídas na otimização, em que
as variáveis de entradas proporcionaram os melhores resultados, ou seja,
maior rendimento em óleo essencial, com a maior concentração de dilapiol, que
é o componente químico de interesse.

Tabela 1. Valores atribuídos a função desejabilidade global

Condições para as respostas


Valor atribuído na otimização
Rend (%) Dill (%)
Baixo 0,82 (0) 52,35 (0)
Médio 2,87 (0) 63,07 (0)
Alto 4,92 (1) 73,79 (1)
(0): valores considerados inaceitáveis, (1): valores considerados desejáveis

Na Tabela 2 estão indicados os critérios de aceitabilidade para as


respostas obtidas, propostos por Akhnazarova e Kafarov (1982), utilizados para
a determinação do ponto ótimo, em função de restrições nas variáveis
operacionais de entrada.

Tabela 2. Escala de valores de desejabilidade individual ou global

Faixa (D) Descrição da Resposta

0,80 a 1,00 Aceitável e excelente


0,63 a 0,80 Aceitável e bom
0,37 a 0,63 Aceitável, porém pobre
0,20 a 0,37 Faixa de limite de aceitação
0,00 a 0,20 Inaceitável
A Figura 1 ilustra a função desejabilidade global obtida, usando s = t = 5 e
fator de grade igual a 30. Verifica-se que a função cumpre satisfatoriamente as
características estabelecidas, pois apresenta um coeficiente de desejabilidade
global (D) igual a 0,99236 considerado aceitável e excelente (Akhnazarova &
Kafarov, 1982).
Assim, a função desejabilidade pode especificar os níveis de cada uma
das variáveis de entrada [X1-carga (g); X2-tempo (minuto)], que permitem a
maximização das variáveis de resposta Rendimento em óleo essencial (Rend,
%) e concentração do constituinte majoritário dilapiol no óleo essencial (Dill,
%), no processo de destilação por arraste com vapor.

X1 (Carga) X2 (tempo) Desejabilidade


8,0000

1,
4,9215 4,92

Rend
0,
2,87

0,
0,82

-1,000
95,000

1,
73,79

Dill
69,149 0,
63,07
0,
52,35
45,000

,99236
Desejabilidade
Global

-1,41 1,41 -1,41 ,564 1,41

Figura 1. Perfis da função desejabilidade global

Para determinação do ponto ótimo do planejamento experimental, as


respostas obtidas são avaliadas por meio da função desejabilidade, e tem por
principal objetivo analisar, simultaneamente, um planejamento experimental
com múltiplas variáveis de respostas, determinando em um único ponto do
planejamento as condições de obtenção da resposta mais próxima do
desejável para cada variável.
Na Figura 1 são apresentadas as condições ótimas na forma codificada
que representam os seguintes valores: X1 (carga) igual a -1,41 e X2 (tempo)
igual a 0,564. As variáveis de entrada com esses níveis codificados propiciam
obter-se as respostas rendimento em óleo essencial e concentração de dilapiol
de 4,92% e 69,15% respectivamente. Conhecendo-se os correspondentes
valores reais da carga e de dilapiol pode-se concluir sobre o ponto ótimo das
variáveis de entrada em termos de massa de matéria prima em gramas (carga)
e a duração do processo de destilação em minutos (tempo), valores tais que
permitem obter respostas otimizadas simultaneamente.

REFERÊNCIAS

AKHNAZAROVA, S.L.; KAFAROV, V.V. (1982) Experiment optimization in


chemistry and chemical engineering. Mir Publishers: Moscow.

BARROS NETO, B.; SCARMINIO, I. S.; BRUNS, R. E. Como fazer


experimentos: pesquisa e desenvolvimento na ciência e na indústria. 3ª ed.
Campinas: Editora da Unicamp, 2007.

DERRINGER, G.; SUICH, R. Simultaneous optimization of several response


variables. Journal of Quality Technology, Milwaukee, v. 12, p. 214-219, 1980.

Potrebbero piacerti anche