Sei sulla pagina 1di 4

ANALISIS

DE DATOS 2016-1

Significancia estadstica (tarea #2)


Santiago Cordoba Arango, Evelyn Taborda Moncada

H ISTOGRAMAS Y AN ALISIS
DE LAS DISTRIBUCIONES DE
FRECUENCIA

En cuanto a la elaboracion de los histogramas de frecuencias


de las variables Evaporacion y Precipitacion, para una region
al sur de Antioquia, entre los anos 1984 y 2015, se definieron
diez intervalos de clase para cada histograma (Fig 1 y 2),
considerando que las variables tienen el mismo numero de
datos y la regla Sturges para el numero de intervalos.
El histograma de la Figura 1 representa las frecuencias de
los promedios mensuales de Evaporacion E1 en color azul y
E2 en color rojo para la misma region, por consiguiente se
espera que ambas distribuciones sean muy similares.

a las de E1 y contrario en la disminucion; puede concluirse


que ambas son muy similares.
La Figura 2 representa el histograma de la distribucion de
frecuencias de los promedios mensuales de Precipitacion entre
los anos 1984 y 2015 para una region al sur de Antioquia.
En el polgono del histograma se observa que las frecuencias
estan acumuladas a la izquierda, la distribucion es unimodal,
la variabilidad se encuentra entre 0.13 y 23.86 mm/da.
Ademas como se percibe en el histograma y en el Skewness
(con un valor de 1.44) la distribucion es asimetrica y presenta
un sesgo hacia la derecha.
Finalmente a partir de la informacion de los promedios
mensuales de precipitacion, se determino que la probabilidad
de obtener una precipitacion mayor o igual a 10mm/da es del
9.11 %.
Evaporaciones en Algn Lugar de Antioquia (1984 - 2015)
140

Evaporacin 1
Evaporacin 2

120
100
Frecuencia

ResumenMediante una serie de pruebas de significancia


se hace analisis de 384 observaciones en tres series de tiempo
que van desde 1984 hasta 2015 en un lugar hipotetico llamado
Lugar de Antioquia (ALdA), del cual se tomara como
Algun

unica
presuncion que se encuentra en Colombia, es decir en
una zona tropical de baja latitud. El presente trabajo busca
encontrar relaciones entre las observaciones de precipitacion y
dos conjuntos de datos de evaporacion para datos mensuales de
las series de tiempo. La mayora de los calculos se realizaron
mediante NCAR Command Language (NCL) version 6.3.0, los
estimativos relacionados con bootstraping se realizaron en R
mediante la librera boot. Se adjunta el script utilizado en un
archivo con el mismo nombre que el presnete documento con el
formato .ncl.

80
60
40
20

Evaporacin [mm]

Figura 1. Histograma de frecuencias para datos de Evaporacion en Algun


Lugar de Antioquia, Colombia

P RUEBAS DE S IGNIFICANCIA ESTADI STICA DE LA


DIFERENCIA DE LOS VALORES MEDIOS

Cuadro I
DE SER
S IMETRI AS DE E1 Y E2 Y PROBABILIDAD DE PRECIPITACI ON
MENOR A 10 MM .
Coef. simetra E1
Coef. simetra E2
Coef. simetra P
Prob. prec. 10 mm

0.252949
0.202208
1.44103
9.11458 %

Considerando lo ya mencionado y siendo acorde con lo


esperado a pesar de que existe un pequeno desfase entre
las dos distribuciones, en las que se observa que durante la
tendencia a incrementar las frecuencias de E2 son mayores

Durante el analisis exploratorio de los datos, se encontro


que existe evidencia cualitativa de que las dos series de
evaporacion tienen una distribucion de frecuencias con una
forma similar, pero que una estaba desfasada con respecto a
la otra; una evaluacion estadstica mas formal es necesaria para
determinar si, en efecto, dicho desfase es lo suficientemente
significativo y por ende podemos confirmar que el desfase es
real, indicandonos as que muy probablemente las series de
tiempo difieren.
Como puede verse en la tabla II existe una diferencia
sustancial de media y varianzas entre las series (0.43 y 0.22
respectivamente), donde tanto la varianza como la media

6.70291

6.21691

5.73091

5.24491

4.75891

4.27291

3.78691

3.30091

2.81491

2.32891

1.84291

Como puede verse en la Figura 1 la tendencia de las


distribuciones E1 y E2 en los primeros cuatro intervalos es
a incrementar y posteriormente a disminuir. Por otro lado la
variabilidad de E1 se encuentra entre 1.84 y 6.70 mm/da y
es mayor a la de E2 que solo vara desde 1.84 hasta 5.73
mm/da. Ademas puede apreciarse con mayor detalle en los
polgonos de frecuencia de E1 y E2 que las distribuciones
son semejante, son unimodales (es decir un solo pico) y estan
sesgadas hacia la derecha, coincidiendo lo u ltimo con los
Skewness de 0.25 para E1 y de 0.2 para E2.


ANALISIS
DE DATOS 2016-1

Frecuencia

100
80
60
40
20

21.489

19.116

16.743

14.37

11.997

9.624

7.251

4.878

2.505

0.132

Precipitacin [mm]

Figura 2. Histograma de frecuencias para datos de Precipitacion en Algun


Lugar de Antioquia, Colombia

de la primera serie de evaporaciones (E1) es mayor que la


segunda (E2). Se realizaran dos pruebas de significancia, una
parametrica y una no parametrica, para evaluar si en efecto
las dos medias son diferentes.
Cuadro II

R ESULTADOS Y PAR AMETROS


DE PRUEBAS DE SIGNFICANCIA PARA
DIFERENCIA DE LAS MEDIAS DE LOS DATOS E1 Y E2.
Diferencia de medias
Diferencia de varianzas
Valor p parametrica
Valor t parametrica
D. independientes E1
D. independientes E2
# de remuestreos
proporcion exploratoria

0.428
0.22
0.001
3.108853
42
47
5000
0.0228

Tradicionalmente, se ha considerado seguro afirmar que


las diferencias de medias, para datos atmosfericos, siguen
una distribucion normal o al menos una distribucion t o de
Student ((((Wilks)))), en un nivel mas estricto sin embargo,
e sta suposicion solo es cierta si los datos subyacentes a
los estadsticos siguen una distribucion normal, o si son lo
suficientemente abundantes como para que el teorema de
Lmite Central entre en accion; considerando lo anterior y tras
una breve inspeccion de la figura 1 podemos considerar que las
distribuciones de frecuencia de E1 y E2 son lo suficientemente
parecidas a una distribucion normal como para poder usar
de manera segura una prueba t de Student para la diferencia
entre las medias. Los resultados se presentan en el cuadro II,
la hipotesis nula corresponde a afirmar que las medias son
identicas, es decir, un x = 0, tomando en consideracion el
aparente desfase ya mencionado y los resultados presentados
en la parte baja del cuadro II (que se analizaran mas adelante)
parece seguro afirmar que es muy poco probable que la media
de E2 sea superior a la media de E1, por lo cual se plantea
una hipotesis alternativa de que la media de E1 sea mayor
que la de E2 y se realiza una prueba de una cola. Se realiza
una evaluacion de la correlacion serial de las series mediante
la funcion equiv_sample_size de NCL obteniendo un
tamano de muestra equivalente de 42 (E1) y 47 (E2) datos

23.862

120

independientes, determinando as (con un p = 0.05) que la


autocorrelacion de lag 1 de ambas series no es nula. Dada
la evidencia en el cuadro II, puede rechazarse de manera
contundente la hipotesis nula, con un p = 0.001, es decir que
la probabilidad de que la media de E2 sea mayor o igual a la
media de E1 tiene una probabilidad del 0.1 %, si e sta sigue
una distribucion de Student.
Aun ante la evidencia presentada, la suposicion fundamental
de que la diferencia de medias sigue una distribucion de
Student se hizo en base a comentarios en la literatura y una
inspeccion cualitativa del histograma de frecuencias de los
datos, es as como se hace conveniente aplicar una prueba no
parametrica de significancia para la diferencia de medias que
permita verificar los resultados de la parte media del cuadro II.
Aprovechando los recursos computacionales a mano se hara
uso de una prueba no parametrica de remuestreo, si bien la
literatura indica [1] que el metodo de permutaciones puede ser
mas adecuado en los casos en los que es posible utilizarlo, se
pretende usar e sta prueba como una rectificacion de los analisis
anteriores, as una prueba que haga pocas o ninguna suposicion
sobre los datos subyacentes sera idonea para contrastar las
ya hechas mediante la prueba t de Student. Se realizo (por
el simple ejercicio academico) un tanteo de muestreo a las
series de evaporacion, en el cuadro II se aprecia que para 5000
remuestreos de los datos (con reemplazo) se hizo el calculo
de la relacion entre las medias (xE1 /xE1 ), en ninguno de
los casos la relacion fue igual a 1 y a penas el 2 % de las
veces fue menor a 1.1 (por ello se planteo una prueba de cola
derecha para la prueba de Student). Una evaluacion formal
mediante el metodo de bootstrap (figura 3) confirma que, en
efecto, las medias entre las series E1 y E2 son diferentes; dado
que ambas series presentan relacion serial, se uso el metodo de
bloque movil para la prueba mediante bootstrap, a falta de una
buena estimacion de la longitud de bloque la figura 3 muestra
los intervalos de confianza para multiples tamanos de bloque,
mostrando su tendencia, independientemente del tamano de
bloque a escoger los intervalos jamas llegan a incluir a la
hipotesis nula (xE1 xE1 ).
Intervalos de conanza para diferentes longitudes de bloque en una prueba bootstrap
0.7
Intervalos de conanza [mm/da]

Precipitacin en Algn Lugar de Antioquia (1984 - 2015)

0.6
0.5
Lmite inferior
Lmite superior

0.4
0.3
0.2
0.1
0

20

40

60

80

100

120

140

160

180

Longitud de bloque

Figura 3. Histograma de frecuencias para datos de Precipitacion en Algun


Lugar de Antioquia, Colombia

En conclusion la diferencia entre las medias (si bien no

200


ANALISIS
DE DATOS 2016-1

confirma) es un aporte sustancial a la afirmacion de que las dos


series de evaporacion son muestras de poblaciones diferentes,
lo que significara que fueron tomadas en contextos geograficos y ecosistemicos sustancialmente diferentes, lo que podra
implicar distancias extensas entre los puntos de muestreo o
diferencias significativas entre los usos del suelo en ambos
puntos, una hipotesis alternativa podra ser incluso que fueron
tomadas en periodos del da diferentes (diurnas y nocturnas).

Cuadro III
PARA LOS DATOS DE EVAPORACI ON
Y
VALORES DE CORRELACI ON
PARA 12 PERI ODOS DE RESAGO
PRECIPITACI ON
E1 vs P
Lags
0
1
2
7
8
9
10
11
12

P RUEBAS DE S IGNIFICANCIA ESTADI STICA DE LAS


CORRELACIONES

Correlacion
-0.028
0.051
0.106

p
0.580
0.311
0.036

0.119

0.0188

Correlacion
0.037
0.049
0.085
0.088
0.179
0.138
0.139
0.160
0.149

p
0.467
0.334
0.092
0.083
0.000
0.006
0.006
0.001
0.003

C ICLO ANUAL Y PRUEBAS DE S IGNIFICANCIA ESTADI STICA


DE TENDENCIAS
PARA ESTIMACI ON
La Figura 4 representa el ciclo medio anual de las evaporaciones (E1 y E2) y la precipitacion en algun lugar de Antioquia
entre 1984 - 2015.
En la lnea roja se observa que el valor promedio mnimo de
precipitacion se encuentra en el mes de Enero y el maximo en
el mes de Abril. Ademas puede apreciarse un regimen bimodal
en la distribucion de la precipitacion, que se debe a los dos
pasos de la Oscilacion meridional de la Zona de Convergencia
Intertropical (ZCIT) por el territorio Colombiano, que de
acuerdo a la literatura en regiones ubicadas en el centro del
pas (como la region de estudio), incide en que se presenten
dos temporadas de lluvias (Abril-Mayo y Octubre-Noviembre)
y dos temporadas secas (Diciembre-Febrero y Junio-Agosto).
Adicionalmente puede decirse que la precipitacion es mayor
en Abril debido a que en ese mes la ZCIT se encuentra mas
cercana a la region de estudio, por su desplazamiento al norte
para alcanzar la posicion mas meridional durante el mes de
Julio.
Ciclo anual de evaporacin precipitacin en Algn Lugar de Antioquia (1984 - 2015)
4.2

8.5
8

7.5

3.8

7
6.5

3.6

6
3.4

5.5
5

3.2
3
2.8
Ene

4.5

Evaporacin 1
Evaporacin 2
Precipitacin$

Feb

Mar

Abr

May

Jun

Juli

Ago

Sep

Oct

Nov

4
3.5
Dic

Meses

Figura 4. Ciclo anual para los datos de evaporacion y precipitacion.

En cuanto a los ciclos medios anuales de evaporacion E1


(lnea morada) y E2 (lnea verde), puede verse que los valores
de evaporacion E1 son superiores a los de E2, por lo que
es posible que la calibracion de los equipos de medida sean
diferentes o las medidas de evaporacion corresponden a dos

Precipitacin [mm]

Evaporacin [mm]

El cuadro III, muestras los coeficientes de correlacion


cruzada entre las evaporaciones y los datos de precipitacion
para diferentes resagos (12 lags), en la tabla se especifican
los valores de la correlacion y sus respectivas p para una
prueba de significancia del 10 %, se omitieron los valores de la
correlacion para los cuales no era posible descartar la hipotesis
nula (correspondiente a que no existe una correlacion entre los
datos) a excepcion de los datos correspondientes a los resagos
0 y 1.
Es importante considerar que para ninguno de los valores
de 0 y 1 lag es posible descartar que el valor real sea cero,
esto quiere decir que no tenemos evidencia suficiente para
determinar que dichos valores sean significantes, sin embargo,
para el presente analisis tendremos en cuenta que tampoco
tenemos evidencia suficiente para decir que no son cero. La
diferencia entre los signos entre las correlaciones de ambas
evaporaciones con los datos de precipitacion indican que,
en el caso de E1 existe una pendiente negativa, e sto es,
que la evaporacion incrementa al disminuir la precipitacion
y viceversa, mientras que para la correlacion con E2 ocurre el
caso contrario, ambas series de datos son solidarias en sus
tendencias. Una manera de explicar e sta disparidad podra
ser el tipo de suelo en consideracion, o mas general, el
uso especfico del suelo en cuestion que ocurre en el punto
de muestreo de E1 en contraposicion a E2, una correlacion
negativa podra indicar que que existe retencion de agua por
parte de la fuente, o lo que es lo mismo, un obstaculo para la
libre liberacion evaporacion del agua, abundantes coberturas
vegetales por ejemplo tenderan a capturar el agua que precipita
disminuyendo durante los episodios de lluvia la evaporacion,
por el contrario para el caso E2 nada estara impidiendo la evaporacion de agua cuyo efecto puede comenzar inmediatamente
empieza a caer, si el agua no se retiene de ninguna forma, se
evaporara rapidamente secando el ambiente y reduciendo as
su evaporacion hasta que otro evento de lluvia haga presencia.
Una mirada subsiguiente a los datos pareciese no apoyar
la hipotesis planteada para el caso de E1 aunque E2 prueba
ser consistente durante todo el ano, concretamente la figura ??
muestra un fuerte parecido con el cclo anual (figura 4), donde
muestra cierta consistencia en su relacion negativa durante las
e pocas de lluvia pero una positiva durante las e pocas secas en
el tropico.
En cualquier caso es importante resaltar que la mayora de
los datos no son apoyados por su significancia, por lo cual
cualquier conclusion ha sacar de ellos debe estar acompanada
de analisis complementarios que logren pruebas mas contundentes o descubran patrones mas consolidados.

E2 vs P


ANALISIS
DE DATOS 2016-1

lugares distintos, dentro de las misma region. Por otro lado se


aprecia que el regimen de evaporacion para ambos es unimodal
y estan desfasados un mes al observar los valores maximos
(Julio para E2 y Agosto para E1) y mnimos (Diciembre para
E1 y Enero para E2).
Por u ltimo puede apreciarse que durante los picos de
precipitacion, los valores de las evaporaciones estan por debajo
y ocurre lo contrario durante los picos de las evaporaciones.
Aunque es importante resaltar que la humedad del aire y la
disponibilidad de agua superficial que pueda ser evaporada
depende de las precipitaciones que se han dado en la region.
Para la estimacion de la tendencia los tres conjunto de datos
de las variables evaporacion y precipitacion para una region al
sur de Antioquia entre 1984-2015, se removio el ciclo anual de
cada serie de datos y se realizaron dos pruebas de significancia
de las tendencias.
Cuadro IV
R. Lineal
p de R. L.
Man-Kendall
G. libertad

E1
0.0013
0.9999
0.9913
40

E2
0.0013
0.8976
0.1651
49

E3
-0.0028
0.0215
0.9987
96

La primera prueba de significancia que se realizo fue una


prueba no parametrica Mann Kendall, teniendose para los
tres casos como hipotesis nula, Ho: No se presenta una
tendencia y como hipotesis alternativa, Ha: Hay una tendencia.
Ademas para este caso se determino que el nivel mnimo
de significancia para el cual se rechaza la hipotesis nula es
menor o igual que un 5 %. Por tanto como puede verse en los
resultados de la Tabla IV los valores del test de significancia
Mann kendall, son superiores al 5 %, por consiguiente para
ningun set de datos puede rechazarse la hipotesis nula.
Finalmente para la segunda prueba parametrica se determino mediante una Regresion Lineal, la pendiente de los
tres conjuntos de datos y los grados de libertad (debido a
la correlacion serial de los datos) para E1, E2 y P (40,
49 y 96 respectivamente). Posteriormente se definieron la
hipotesis nula (Ho: la pendiente tiene un valor de cero) y la
hipotesis alternativa (Ha: la pendiente tiene un valor diferente
de cero) para realizar las pruebas T Student con un nivel de
significancia del 5 %. Por u ltimo como muestran los resultados
de la Tabla IV no puede rechazarse la hipotesis nula para E1
y E2, pero si se rechaza para la precipitacion.
R EFERENCIA
[1] D. S. Wilks, Statistical methods in the atmospheric
sciences, 3rd ed. Amsterdam: Elsevier, 2011.

Potrebbero piacerti anche