Sei sulla pagina 1di 43

Programa da Disciplina

1. Introduo
1.1. Processos determinsticos e randmicos 1.2. Propsito da Geoestatstica

2. Obteno de dados
2.1. Programa de amostragem 2.2. Fontes de erros

3. Estatstica descritiva clssica


3.1. Estatstica univariada 3.2. Estatstica bivariada 3.3. Estatstica multivariada

4. Estatstica inferencial clssica


4.1. Amostra/populao 4.2. Intervalos de confiana 4.3. Testes de hipteses

Programa da Disciplina
5. Regresso
5.1. Regresso linear univariada 5.2. Anlise de varincia 5.3. Regresso no linear e multivariada

6. Geoestatstica (Krigagem)
6.1. 6.2. 6.3. 6.4. 6.5. 6.6. Idia bsica Variveis regionalizadas Outros mtodos de interpolao Anlise estrutural (variograma) Krigagem Validao cruzada e exemplos de mapas

1. INTRODUO
1.1. Processos Determinsticos e Randmicos Processo determinstico
Processo bem conhecido que pode ser modelado atravs de uma lei cientfica com praticamente incerteza nenhuma E.g. hora do nascer do sol; concentrao de nitrato numa amostra preparada no laboratrio;

Processo randmico (stocstico)


No existe lei cientfica para modelar o processo sem incertezas considerveis E.g. hora do ltimo aluno aparecer na aula; concentrao de nitrato numa amostra de um poo;

1.1. Processos Determinsticos e Randmicos


Muitos processos (P) podem ser divididos numa componente determinstica (D) e outra randmica (R) P=D+R

Por exemplo: P ... Nvel esttico num poo durante um ano D ... Flutuaes sazonais conhecidas R ... Flutuaes devidos a eventos de chuva particulares e erros de observao

1.1. Processos Determinsticos e Randmicos


A componente randmica (R) consiste de uma componente de variabilidade natural (V) a ser estudada e uma componente de erros de observao (E) a ser minimizada (eliminada) R=V+E

Por exemplo: V ... Flutuaes devidos a eventos de chuva particulares E ... Erros de observao

1.2. Propsito da Geoestatstica


Estatstica clssica
Descrever processos randmicos e fazer predies probabilsticas sobre eventos no monitorados (e.g. futuros ou em pontos no amostrados) Tratamento de processos considerando a variabilidade de um parmetro independente da posio espacial (ou temporal) E.g. grau de contaminao do poo mais contaminado em cada municpio da Bahia

1.2. Propsito da Geoestatstica Geoestatstica


Assume que a variabilidade de um parmetro espacialmente (ou temporalmente) dependente CORRELAO ESPACIAL (TEMPORAL) E.g. grau de contaminao dos poos dentro de um municpio (ou perto do lixo de um municpio) Aplicaes: Interpolao local (mapeamento), predio do contedo de ouro num bloco a ser minerado ou na mina inteira, massa total numa fonte de contaminao, ...

Exemplo
Direo de fluxo Poos a montante
Aterro

Poos a jusante

1. 2. 3.

Como indicar se parmetros dos poos a jusante esto acima do valor limite? Qual a taxa de aumento que pode ser considerada significantiva para cada parmetro? Existe alguma variabilidade espacial ou temporal significativa nos poos a montante e a jusante?

2. OBTENO DE DADOS
2.1. Programa de Amostragem Objetivo
Obter um conjunto de dados (amostra) representativos de um processo (populao)

Procedimento
Identificao do problema Definio do propsito, da rea do estudo, dos parmetros e do mtodo de amostragem Avaliar dados definindo limites de erros dos resultados Limites de erros aceitveis tomar deciso segundo regras estabelecidas Limites de erros considerveis redefinir mtodo de amostragem (e.g. tomar mais amostras)

Populao

Amostra

2.1. Mtodo de Amostragem


Sistemtico
Seguir um padro de amostragem sistemtico, regular a partir de um ponto inicial randmico Fcil deteco de zonas de alta contaminao (hot spots) Possibilidade de amostragem tendenciosa (bias)

2.1. Mtodo de Amostragem


Randmico simples
Cada ponto de amostragem definido de forma aleatria na rea de estudo com igual probabilidade de ocorrncia

2.1. Mtodo de Amostragem


Randmico estratificado
A amostra e feita aleatoriamente dentro de estratos pr-definidos Resultado menos tendencioso quando amostras dentro de um estrato mostram mais semelhana do que entre estratos diferentes Evita a possibilidade de todas amostras serem tiradas de uma s parte da rea de estudo

2.1. Mtodo de Amostragem


Composto
As amostras so obtidas de dois ou mais pontos e misturadas Quando anlise muito mais cara que coleta de amostras Bom para estimar mdia, mas subestima variabilidade (smoothing)

2.2. Fontes de Erros


AMOSTRA NO REPRESENTATIVA DO PROCESSO
Nmero de amostras insuficiente Amostragem preferencial em zonas subjetivamente escolhidas
E.g. em zonas de concentraes altas ou com acesso fcil

Erros de amostragem Erros analticos

2.2. Fontes de Erros

Processo de obteno de dados de qualidade

Definio da rea de estudo

Modificado de Millard and Neerchal, 2001

3. Estatstica Descritiva Clssica


3.1. Estatstica Univariada
Organizar, representar e resumir um conjunto de dados independentes de uma varivel
Graficamente
Histograma (histogram) Box-plot

Com parmetros representativos de


Centro da distribuio Variabilidade da distribuio Forma da distribuio

3.1. Tipos de Variveis


Discretas
Os valores que a varivel pode tomar so elementos de um conjunto discreto, finito ou infinito mas contvel E.g. nmeros 1 a 6 num dado, nmero de poos contaminados, tipo de rocha,...

Contnuas
Os valores que a varivel pode tomar so elementos de um conjunto continuo, infinito E.g. concentraes de um contaminante, profundidade da cobertura, resistncia de um tipo de rocha,...

3.1. Histograma
Histograma de freqncias
Quantos valores observados caem dentro de intervalos iguais, definidos Nmero de intervalos baixo para evitar intervalos sem observaes (em geral 5 a 12 intervalos suficiente)

Histograma cumulativo
Quantos valores observados so menores do que os limites dos intervalos

Os histogramas podem ser em nmeros de ocorrncia absolutos ou, mais comum, em porcentagem (normalizados pelo nmero de observaes)

3.1. Histograma
a i c n q e r F 14 12 10 8 6 4 2 0
Q1 Q2 Q3

100,00% 75,00% 50,00% 25,00% 0,00%


Freqncia

Valor da Varivel

% cumulativa

3.1. Histograma
Quantil (quantile) e.g. q0.80
Valor da varivel que divide as observaes em 80 % de valores menores e 20 % de valores maiores Existe para cada porcentagem de 0 a 100 % Do histograma cumulativo

Quartil (quartile)
Q1 = q0,25 Q2 = q0,50 (mediana) Q3 = q0,75

Anlogo: Decil (decile), Percentil (percentile)

3.1. Box-plot
Representao reduzida do histograma cumulativo atravs de certos quantis E.g.
Valores extremos Valor mximo Mdia 75 % quantil (Q3) Mediana (Q2) 25 % quantil (Q1) Valor mnimo

200

150

C2

100

50

BSR

OLS C1

PCR

VIF

3.1. Valores Extremos


Valores extremos (outliers) podem resultar de erros na obteno dos dados ou podem mostrar um comportamento importante da varivel amostrada No tem uma regra geral de como tratar valores extremos (descartar ou incluir) Julgamento baseado no controle da obteno do valor e no entendimento da natureza do processo observado (plausibilidade do valor) Uma transformao dos dados pode reduzir valores extremos (e.g. transformao logartmica)

3.1. Centro da Distribuio


Mdia aritmtica (arithmetic mean)
1 n a x = (a xi ) n i =1
1 n x + b = ( xi + b ) n i =1

1 n x = xi n i =1

com

xi ... Observaes (dados de amostragem) n ... Nmero de observaes (tamanho da amostra)


A mdia sensvel presena de valore extremos A mdia ajustada (trimmed mean) a mdia sem quantis extremos Uma transformao linear (adio, multiplicao) dos dados resulta na mesma transformao da mdia aritmtica

3.1. Centro da Distribuio


Mediana (median)

x med

para n impar x( n +1) 2 = x n 2 + xn 2 +1 para n par 2

Para aplicar esta frmula os dados precisam ser ordenados de forma crescente A mediana e o valor da varivel que divide as observaes em 50 % de valores menores e 50 % de valore maiores Ela no afeitada pela presena de valores extremos

3.1. Centro da Distribuio


Moda (mode)
Valor xmod da varivel com a mais alta freqncia de ocorrncia Pico da distribuio (histograma)

A mdia, mediana e moda tm a mesma unidade que a varivel observada (e.g. m)

3.1. Variabilidade da Distribuio


Varincia (variance)
1 n a s = a xi a x n 1 i =1
2 2

1 n s2 = xi x n 1 i =1

com

1 n s = (xi + b) x + b n 1 i =1
2

))

Ela a mdia dos quadrados das diferenas dos valores observados com a sua mdia O quadrado introduz uma alta sensibilidade a valores extremos e impe s2 > 0 Tem a unidade da varivel ao quadrado (e.g. m2) A varincia fica igual se uma constante b somada aos dados A varincia aumenta pelo fator a2 se os dados forem multiplicados por um fator a

3.1. Variabilidade da Distribuio


Desvio padro (standard deviation)

1 n s= xi x n 1 i =1
Tem a unidade da varivel (e.g. m)

Coeficiente de variabilidade (coefficient of variation)

s CV = x
Independente das unidades das variveis Para comparar variabilidade de diferentes variveis com diferentes unidades e tipos de distribuies semelhantes

3.1. Variabilidade da Distribuio


Mnimo (minimum) Mximo (maximum) Amplitude (range)
(mximo mnimo)

Amplitude interquartlica (interquartile range)


(75 % quantil 25 % quantil) ou (Q3 Q1) Insensvel a valores extremos

3.1. Forma da Distribuio


Coeficiente de assimetria (coefficient of skewness)
3 1 n xi x n CA = i =1 3 s

Moda

ou

x Moda s

CA > 0

CA = 0

CA < 0

3.1. Forma da Distribuio


Coeficiente de curtose (coefficient of curtosis)
1 n xi x n CC = i =1 4 s

ou

q0, 75 q0, 25 2 (q0,90 q0.10 )

Descreve a forma do pico da distribuio Tanto maior quanto mais pronunciado o pico CC da distribuio normal = 3

3.2. Estatstica Bivariada


Duas variveis randmicas que podem ou no mostrar um certo grau de interdependncia Cada varivel pode ser tratada separadamente segundo a estatstica univariada (e.g. para comparar parmetros, histogramas, box-plots) Relaes entre as variveis podem ser melhor expressas Graficamente
q-q-plot Grfico de disperso (scatterplot)

Atravs de parmetros
Covarincia (covariance) Coeficiente de correlao (coefficient of correlation)

3.2. Grfico de Disperso


ERRO !?

Grfico com os valores das duas variveis nos eixos x e y Mostra correlaes qualitativamente Facilita deteco de erros resultando de combinaes de valores no comuns das variveis (mesmo se no forem valores extremos!)

3.2. q-q-plot
Grfico com os quantis das duas variveis nos eixos x e y Se a linha resultante for x = y, ento as distribuies das variveis so iguais Se a linha resultante for diferente mas ainda uma reta, ento as distribuies tm a mesma forma, s com mdias e/ou varincias diferentes No mostra correlaes

3.2. Covarincia
1 n sxy = xi x yi y n i =1
xi e yi e

[(

)(

)]

x so os dados e a mdia da primeira varivel y so os dados e a mdia da segunda varivel

A covarincia pode variar de - a + Ela tem a unidade igual ao produto das unidades das variveis (e.g. mg2/l2) A covarincia de uma varivel com sigo mesmo a varincia dessa varivel As variveis podem ser intercambiadas sem afetar a covarincia (sxy = syx)

3.2. Coeficiente de Correlao


rxy = sxy sx s y

Ele a varincia normalizada pelo produto dos desvios padro sx e sy das duas variveis Pode variar entre -1 e +1 (no tem unidade) Mede a qualidade (no quantidade) de relao linear entre duas variveis (para rxy = 1 a relao perfetamente linear)

A correlao no necessariamente indica uma dependncia causal

3.2. Correlao

Correlao POSITIVA: Tendncia da segunda varivel a aumentar (diminuir) se a primeira aumentar (diminuir) Correlao NEGATIVA: Tendncia da segunda varivel a diminuir se a primeira aumentar (ou vice versa) Correlao ZERO: Nenhuma relao entre as variveis variveis no correlacionadas

3.2. Correlao

3.2. Correlao
Pode existir uma correlao no linear entre as variveis, mesmo mostrando uma correlao (linear) de zero

Pares de valores no comuns podem alterar o grau de correlao significativamente (mesmo se os valores por si no aparecem como valores extremos)

3.3. Estatstica Multivariada


Mais de duas variveis que podem ou no mostrar um certo grau de interdependncia Cada varivel pode ser tratada separadamente segundo a estatstica univariada (e.g. para comparar parmetros, histogramas, box-plots) Cada par de variveis pode ser tratado separadamente segundo a estatstica bivariada
Matriz de correlaes M. de coef. de correlao M. de grficos de disperso
pH STD Ca Mg pH 1 0,07 0,09 0,00 STD 1 1,00 0,93 Ca Mg

1 0,91

3.3. Estatstica Multivariada