Sei sulla pagina 1di 21

NOCIONES DE ESTADÍSTICA

CURSO PRÁCTICO DE CLIMATOLOGÍA – 2012


Matilde Ungerovich- mungerovich@fisica.edu.uy
DEFINICIÓN PREVIA:
 Distribución: función que nos dice cuál es la probabilidad de
que cada suceso (valor) ocurra. Ej: distribución normal
 Distribución continua: para valores cercanos se producen
variaciones de probabilidad de ocurrencia pequeñas
QUÉ ES LA ESTADÍSTICA?
 Estadística descriptiva: técnicas o procedimientos para
recolectar, ordenar y resumir la información (ej: tablas,
gráficos, promedios, etc)

 Estadística inferencial: técnicas para generalizar a una


población entera con la información obtenida de unos pocos
datos
EDA: Exploratory Data Analysis

 Da sentido a las series de datos

 Nos puede dar idea de cuál es el proceso que está ocurriendo

 Los gráficos son una forma de resumir y entender datos


Características de EDA
La robustez y resistencia son medidas de insensibilidad a suposiciones
sobre la naturaleza de los datos.

 Resistencia- sensibilidad a datos atípicos. Un método es resistente


si es poco sensible a datos atípicos.
 Robustez- sensibilidad a la suposición de que los datos tienen una
distribución dada. Por ejemplo, el promedio es una muy buena
caracterización de una serie de datos si estos tienen una
distribución Gaussiana, pero no si tienen distribución exponencial
(el promedio no es robusto).

No es mejor o peor “globalmente” , depende de lo que estemos


evaluando
CÓMO CARACTERIZAR UNA SERIE DE
DATOS?

 POSICIÓN- dividen un conjunto ordenado de datos en


grupos con la misma cantidad de individuos

 CENTRALIZACIÓN- indican valores con respecto a los


cuales los datos parecen agruparse

 DISPERSIÓN- indican mayor o menor concentración de los


datos con respecto a las medidas de centralización

 SIMETRÍA- cómo están distribuidos los datos respecto al


valor central
MEDIDAS DE POSICIÓN: PERCENTILES
 Se llama Pr (percentil r) a un valor tal que el r% de las observaciones son iguales
o menores que él y el 100%-r% de las observaciones son mayores a él.

 ALGUNOS PERCENTILES IMPORTANTES:

• Mediana = P50 separa al 50% de los valores menores del 50% de las
observaciones mayores.
Sea x la muestra ordenada de manera creciente:

• Cuartiles: el primero es P25, el segundo o mediana es P50, el tercero es P75.


Se para al conjunto ordenado de observaciones en 4 partes iguales , cada una de
ellas formada por un 25% de los valores.
El primer cuartil es “la mediana de la mediana”.
Ejemplo
Tengo la siguiente muestra: [13 3 7 2 9 10 2 6 4 0 9 1 5 ]

1- Buscar el percentil 0.25 de la muestra (primer cuartil)

2- Buscar la mediana de la muestra

Repetir para [100 3 7 2 9 10 2 6 4 0 9 1 5 ]


Es la mediana resistente?
MEDIDAS DE CENTRALIZACIÓN: media,
mediana y moda
 Este tipo de medidas nos permiten identificar y ubicar el valor
alrededor del cual se tienden a reunir los datos (“Punto central”).

 MEDIA (promedio): suma de todos los valores dividido entre la


cantidad de valores. Es decir, nos informa el valor que obtendría cada
uno de los individuos si se distribuyeran los valores en partes iguales.

 MEDIANA: valor que cumple que la mitad de los datos son mayores al
mismo y la mitad son menores.

 MODA: valor que más veces se repite dentro de los datos. Si los que
más se repiten son 2 valores, se llama bimodal, si son varios,
multimodal.
Ejemplo

Tengo las siguiente muestra:


[30 20 27 22 21 18 18 25 26 20]
[0 20 27 22 21 18 18 25 26 20]

Buscar media y moda

Son estas medidas resistentes?


MEDIA vs. MEDIANA
 Coinciden si la distribución es simétrica
 Si no coinciden, es preferible la mediana (por ser mas resistente, es decir, poco
sensible a datos atípicos)
 La media siempre es única (a diferencia de la mediana)
 La media es muy representativa si la distribución es Gaussiana, pero inútil en otro
tipo de distribuciones. Por ejemplo, es representativa de la temperatura media pero
no de la precipitación acumulada.

EJEMPLO:
PUESTO CANT. DE EMPLEADOS SUELDO
repartidor 3 300
capataz 1 450
encargado 1 750
administrativo 1 900
gerente 1 6000

Sólo un valor supera la media!!!!


MEDIDAS DE DISPERSIÓN
Nos dicen en qué medida las observaciones difieren entre sí.

RANGO- mayor valor-menor valor

RANGO INTERCUARTÍLICO (IQR)- es la distancia entre el primer y tercer cuartil


RI=P75-P25

VARIANZA- promedio del cuadrado de las distancias entre cada valor y la media

Siendo la media y N la cantidad de valores

DESVIACIÓN ESTÁNDAR O TÍPICA- - raíz cuadrada de la varianza

COEFICIENTE DE VARIACIÓN- es la desviacióno estándar del conjunto de valores


expresada como un porcentaje de la media
EJEMPLO 1
 Para las series:
[11 12 13 14 15 16 17 18 19]
[11 12 13 14 15 16 17 18 91]

 Calcular IQR y desviación estándar. Cuál es más resistente y


por qué?
EJEMPLO 2
7
serie 1 SERIE 1 SERIE 2
serie 2
6 1,3 1
1,5 3
5 1,7 5
1,9 7
4
1,9 7
1,7 5
3
1,5 3
2 1,3 1

1
1 2 3 4 5 6 7 8
MEDIDAS DE ASIMETRÍA O SESGO
Una medida es simétrica cuando su mediana, su media y su
moda coinciden
PERIODICIDAD
 También es importante darse cuenta si existe algún tipo de
oscilación periódica.
 En el siguiente gráfico se muestran las temperaturas medias
en Paso de los Toros en el año 2000

30,0

25,0

20,0

15,0 Series1

10,0

5,0

0,0
1 2 3 4 5 6 7 8 9 10 11 12
ANOMALÍAS
 Cuando en meteorología estudiamos una variable en un
período en particular es importante saber cuál es la anomalía
con respecto a los valores climatológicos .
 La climatología para la estación de Paso de los Toros es
E F M A M J J A S O N D

24,47 23,56 21,8 17,89 14,69 11,6 11,3 12,65 14,36 17,35 20,07 23,07

 Los datos para el año 1999 son:


E F M A M J J A S O N D

22,9 23,3 23,6 16,5 13,7 11,0 11,4 13,5 15,7 17,7 20,7 23,6
ANOMALÍA
 La anomalía se es la diferencia, mes a mes, de los datos de ese
año en particular y la climatología (climatología-año
particular).
 En este caso es:

E F M A M J J A S O N D

1,57 0,31 -1,8 1,39 1,04 0,65 -0,05 -0,8 -1,29 -0,3 -0,63 -0,53

 Obs: el promedio de las anomalías suma siempre cero


VISUALIZACIÓN DE SERIES
 HISTOGRAMAS
 La superficie de cada barra es proporcional a la cantidad de
veces que aparece cada valor
3
Histograma para la serie:
1
2.5
3
4
2
5
4
1.5 4
2
1 10
3
0.5 1
0
0 6
1 2 3 4 5 6 7 8 9 10
VISUALIZACIÓN DE SERIES
 GRÁFICO DE LÍNEA (para la misma serie)

10

1
1 2 3 4 5 6 7 8 9 10 11
EJEMPLO
Realizar un gráfico de línea y un histograma para la segunda
mitad de la serie de temperaturas mínimas en Paso de los
Toros.
P. Toros

61-80 81-00

Ene 7,6 8,2

Feb 7,2 9,5

Mar 4,6 6,8

Abr 1,4 0,6

May 0,1 -2,3

Jun -3,3 -3,5

Jul -3,2 -3,2

Ago -2 -2,4

Set 0 -1,2

Oct 1,7 0,5

Nov 5,8 3,1

Dic 8,1 8

Potrebbero piacerti anche