Sei sulla pagina 1di 36

IA-5025 METODOS DE

ANALISIS EN HIDROLOGIA

Clase 1:
CARACTERISTICAS ESTADISTICAS
DE LAS SERIES DE TIEMPO
HIDROLOGICAS

Ing. Mg.Sc. Ricardo Apaclla


Nalvarte

Una de las preguntas ms importantes que


se hace mientras se analizan cualquier serie
de tiempo, es describir y resumir los datos
de las series de tiempo en formas, que
expliquen fcilmente sus caractersticas
importantes.
Si se desea conocer la concentracin
esperada de cloruro en la lluvia de una
determinada ubicacin o la variabilidad
espacial de la tasa de infiltracin, o la
avenida esperada para un perodo de
retorno de 100 aos, se requiere
comprender un sumario estadstico de los
datos de las series hidrolgicas.

Las caractersticas estadsticas que a menudo


se describen, incluyen:
Medidas de tendencia central
Medidas de dispersin o variabilidad
Una medida de la simetra de la distribucin
de los datos.
Posiblemente, estimados de extremos tales
como pequeos o grandes percentiles

Medidas de ubicacin
De las seis medidas de localizacin (media, mediana, moda,
media geomtrica, media armnica, media ajustada), la
media y la mediana son dos de las ms comnmente
utilizadas.
Medida clsica: Media aritmtica
Se calcula sumando todos los datos xi, y dividiendo la suma
entre el tamao de la muestra (n).

Para datos agrupados, la ecuacin anterior se modifica


para mostrar la media total que depende de la media de
cada grupo, ponderado por el nmero de observaciones ni
en cada grupo.

Donde

es la media del grupo i.

La influencia de cualquier valor sobre la media

Donde

es la media de todos los datos, excluyendo

La influencia de cada observacin sobre la media es la


distancia entre la observacin y la media excluyendo esa
observacin.
Por lo tanto, todas las observaciones no tienen la misma
influencia sobre la media Una observacin extrema o
atpica, alto o bajo, cualquiera de los dos, tendr una
mayor influencia sobre la media que una observacin
tpica, uno ms cercano a su media.
La influencia de un valor extremo o atpico puede
entenderse como que la media acta como un punto de
balance de todos los valores de la muestra cuando cada
punto es arreglado sobre una lnea numrica.

La media acta como un punto de balance de la serie de datos de tiempo.

Si un dato cerca de la localizacin central es removido, habra


solo la necesidad de un pequeo ajustes sobre el punto para
mantener el balance.
Por el contrario, si un valor atpico que est muy lejos de la
localizacin central se remueve, el punto de balance cambiara
considerablemente.

La media se mueve a la izquierda despus de remover el valor atpico.

Esta sensibilidad a la magnitud del nmero pequeo de


valores define porque la media no es una medida robusta (o
resistente) de localizacin
No es resistente a cambios ante la presencia o cambios en la
magnitud, de pequeos valores atpicos.

Mediana (medida robusta)


La mediana es el valor medio de una serie de datos cuando
los datos son ordenados en orden de su magnitud. Es el
percentil 50 (P50) de los datos.
Para una serie de datos con un nmero impar de
observaciones, la mediana es el valor central que tiene un
nmero igual de observaciones por debajo y por encima del
valor de la media.
Para una serie de datos con un nmero par de
observaciones, la mediana es el valor promedio de los dos
valores centrales.

Para calcular la mediana, primero se ordenan las


observaciones en orden ascendente de menor a mayor valor
y luego se utilizan las siguientes ecuaciones.

Para nmero impar


Para nmero par

Al contrario de la media, la mediana es altamente resistente y


suavemente afectado por la magnitud de un solo valor, siendo
determinado nicamente por el orden relativo de la
observacin.
La mediana es siempre preferida sobre la media en el caso de
un resumen estadstico robusto ya que no es fuertemente
influenciado por un valor extremo bajo o alto

Medidas adicionales de localizacin


Adicionalmente a las medidas de localizacin tradicionales
y robustas, se usan tambin la moda, media geomtrica,
media armnica y media recortada, pero menos frecuente.
La Moda es definida como la observacin ms frecuente en
la serie de datos.
Aunque es fcil de obtener, es una mediada pobre de
localizacin para datos continuos puesto que su valor
depende a menudo de una agrupacin arbitraria de los
datos.

Media geomtrica (GM)


Es a menudo utilizado para calcular un resumen estadstico
para datos positivamente sesgados.

Para una serie de datos sesgados positivamente, la GM es


usualmente bastante cercano a la mediana en la serie.
De hecho la GM es un estimado imparcial de la mediana
cuando los logaritmos del conjunto de datos son simtricos.
Esto por que los logaritmos de la media y de la mediana
son iguales.

Media Armnica
En matemticas, la media armnica (llamada tambin
media subcontraria) es uno de los muchos tipos de
promedio.
Tpicamente, es apropiado para situaciones donde se desea
el promedio de las tasas.
La media armnica (HM) de nmeros reales positivos de
una serie de tiempo x1, x2,, xn>0, se define como:

La media armnica est relacionada a la media aritmtica


y a la media geomtrica. Para un conjunto de datos todos
positivos que contienen al menos un par de valores no
iguales, la media armnica es siempre el menor de las tres
medias, mientras que la media aritmtica es siempre el
mayor de los tres, la media geomtrica esta siempre en el
medio.

Medidas de Dispersin
Medidas Clsicas
La varianza muestral y la desviacin estndar muestral
son medidas clsicas de dispersin. Similar a la media, las
medidas clsicas de dispersin estn fuertemente
influenciadas por valores atpicos.
La varianza muestral (s2) y la desviacin estndar muestral
(s) para una serie de tiempo x1, x2, , xn, se calculan de
acuerdo a:

Medidas Robustas
Medidas robustas de dispersin acerca de la media
incluyen al rango, rango intercuartil, coeficiente de
variacin y desviacin absoluta de la mediana.
Conforme el valor del rango, desviacin estndar y
coeficiente de variacin se incrementan, la variabilidad de
la poblacin se incrementa.
El Rango Intercuartil (IQR)
Es la medida resistente de la dispersin ms comnmente
utilizada, que mide el rango central del 50% de los datos en
la serie de tiempo y no es influenciada por el 25% de los
datos en cualquiera de las dos colas.

El IQR se calcula restando el valor del percentil 25 del


valor del percentil 75
El percentil 75 (superior), percentil 50(mediana), y
percentil 25(inferior) dividen la serie de tiempo en cuatro
percentiles del mismo tamao.
El percentil 75 es un valor que no es excedido en no ms del
75% de los datos y es excedido por no mas del 25% de los
datos de la serie de tiempo.
El percentil 25es un valor que excede en no mas del 25% de
los datos y es excedido por no ms del 75% de los datos de
la serie de tiempo.

Consideremos una serie de tiempo arreglados en orden


cronolgico de magnitudes de los datos: xi, i=1 a n. El
percentil P se calcula usando la siguiente frmula.

Donde n es el tamao de la muestra y j es la fraccin de los


datos menor o igual al valor del percentil (para los
percentiles 25, 50 y 75, j=0.25, 0.50 y 0.75 respectivamente.
Rango
Se calcula tomando la diferencia entre el mayor y el menor
valor de la serie de tiempo. Como depende solo de dos
observaciones, es una medida de dispersin dbil y pobre.

Coeficiente de variacin CV.


El coeficiente de variacin da una medida normalizada de
la medida de la dispersin acerca de la media.

x100

Variables hidrolgicas con valores grandes de CV son ms


variables que aquellos con valores pequeos de CV.

Desviacin absoluta de la mediana MAD


Un estimador robusto de la dispersin que es ms resistente
a valores atpicos, que la desviacin estndar, es la
desviacin absoluta de la mediana.
Se calcula primero creando una nueva diferencia de serie
de tiempodentre cada valor y la mediana.

Donde P50 es la mediana de los valores originales.


Luego se calcula MAD como la mediana de las diferencias
absolutas

Medidas de Sesgo
Las series de tiempo hidrolgicas son usualmente sesgadas,
lo que significa que los datos de la serie no son simtricos
alrededor de la media o mediana, con valores extremos que
se extienden fuera en una direccin.
La probabilidad de la funcin de densidad para una
distribucin log normal, se muestra en la figura siguiente
donde se observa el sesgo en los datos.
Cuando los valores extremos se extienden hacia la derecha,
la distribucin se dice que es sesgada hacia la derecha o
positivamente sesgada. Por el contrario si los valores
extremos se extienden hacia la izquierda, se dice que la
serie de datos es sesgada hacia la izquierda o
negativamente sesgada.

En hidrologa, todos los tipos de series de tiempo, a menudo


tuenen sesgo positivo (lluvia, escorrenta, niveles de agua
subterrnea, etc).

Por lo tanto, propiedades estadsticas incluyendo solo la


media y la desviacin estndar o varianza, no son
suficientes para estudios relacionados a la ingeniera y
gestin de los recursos hdricos.
Esto se debe al hecho de que la media y la desviacin
estndar por si solos no pueden describir las propiedades
de la mayora de los datos muy bien cuando los datos son
sesgados.

Medida Robusta del Sesgo (qs)


Una medida robusta del sesgo es el coeficiente de sesgo
cuartil. Que es definido como la diferencia en distancias del
cuartil superior e inferior respecto a la mediana, dividido
por el IQR

Medida de Agudez o chatura


Kurtosis es una medida de la agudez o chatura de los datos
de la distribucin de series relacionados a la distribucin
normal.
Esto es, datos con alta kurtosis tienden a tener distintos
picos cerca de la media, mas bien declinar rpidamente y
tener colas pesadas.

La kurtosis para una distribucin


normal estndar es 3, y algunos autores
dan las siguiente definicin de kurtosis,
que es referido como exceso de kurtosis.

-3

Una distribucin alta de kurtosis tiene un pico ms ntido y


largo, colas ms gruesas, mientras que distribucin baja de
kurtosis, tiene un pico ms redondeado y corto, con colas
delgadas.
Distribuciones con cero exceso de kurtosis son llamados
mesokurticos, distribucciones con un positivo exceso de
kurtosis son llamados leptokurticos.
En trminos de forma, una distribucin leptokurtica tiene
un pico ms agudo alrededor de la media y colas ms
gruesas

Distribuciones con negativo exceso de kurtosis


llamados platokurticos

son

En trminos de forma, una distribucin platokurtica tiene


un bajo y ms amplio pico alrededor de la media y colas
delgadas.

Mdidas estadsticas para evaluar la perfomance del


sistema.

Muchos enfoques tericos y prcticos han sido propuestos


rn la literatura para identificar y calificar objetivos y para
considerar criterios/objetivos mltiples en la planificacin
y gestin de los recursos hdricos.
En estadstica hay varios mtodos para resumir los datos
de series de tiempo, resultantes de observaciones de campo
como anlisis de simulacin. La media aritmtica pesada, y
la media geomtrica son dos mtodos comunes de resumir
mltiples datos de series de tiempo.

Las grficas de mltiples series son normalmente difciles


de comparar.
Otra aproximacin para resumir y comparar valores de
series de tiempo hidrolgicas, es la varianza.
Ej. Consideremos una serie de lluvia anual:
200, 675, 475, 175, 780, 890, 945, 875, 400 y 300mm de
lluvia en 10 aos.
Media=571.5 mm
Varianza= 88322.5 mm2
La grfica de los datos de lluvia se muestran en la figura
siguiente:

La media y varianza para la serie de tiempo se muestran en la figura


siguiente.

La media y varianza son los mismos para su imagen que se muestra en


la figura siguiente:

Consideremos estas dos series de tiempo, cada una con la


misma media y varianza.

Asumamos que cualquier valor igual o menor a la lnea


punteada (justo arriba de 300 mm) es considerado
insatisfactorio.

As el valor de lluvia se conoce como umbral, dividiendo la


lluvia de la serie de tiempo entre valores satisfactorios e
insatisfactorios,

La serie original de tiempo permanece en una condicin


insatisfactoria para un corto tiempo que, la serie de tiempo
del espejo. Sin embargo su grado mximo de falla ocurre
en la serie del espejo.
Estas caractersticas de las series Fiabilidad, Resistencia y
Vulnerabilidad

Fiabilidad
La fiabilidad de un sistema es definido como el nmero de
datos en un estado satisfactorio dividido por el nmero
total en la serie de tiempo.

Asumiendo valores satisfactorios en la serie hidrolgica de


tiempo xn que contiene n valores que son iguales o
mayores que un valor umbral xT, la fiabilidad del sistema
puede ser expresado como:

La fiabilidad de la serie de tiempo original es de 0.7, que


sugiere que hubieron 3 fallas de 10. Igualmente la serie de
la imagen tambin tiene una fiabilidad de 0.7.

Resistencia
La resistencia de un sistema es definido como la
probabilidad que si un sistema
est en un estado
insatisfactorio, el siguiente estado puede ser satisfactorio.
En otras palabras es la probabilidad de tener un valor
insatisfactorio en un perodo de tiempo t-1, dado un valor
satisfactorio en cualquier perodo de tiempo t.

Para la serie original de tiempo, la resistencia es de 2/2=1,


mientras que en la serie imagen es de 1/3=0.33, ambas para
un umbral de 300 mm.

Vulnerabilidad
Es una medida del grado de diferencia
umbral y los valores insatisfactorios.

entre el valor

Asumiendo un valor esperado de la medida de la


vulnerabilidad, la vulnerabilidad puede ser expresada
como.

La vulnerabilidad esperada de la serie original es de [(300200)+(300-175)]=125


Para la serie imagen es de [(300-248)+(300-193)+(300263)]/3=65.33

Potrebbero piacerti anche