Sei sulla pagina 1di 30

Datos univariados

Anlisis exploratorio de datos

Datos climticos
Observaciones
interpolados)

(datos

medidos;

Salidas de modelos numricos:

Simulaciones o pronsticos
(posibilidad de variar condiciones
iniciales o de borde)

datos

Anlisis exploratorio de datos univariados


Robustez y resistencia
Cuantiles (percentiles)
Medidas numricas de resumen
Tcnicas grficas de resumen

Robustez y resistencia
Es deseable que un mtodo de anlisis de datos sea poco
sensible a suposiciones sobre la naturaleza de los datos.
P. ej., que los resultados no dependan esencialmente de que
los datos sigan una distribucin gaussiana.
Un mtodo es robusto cuando sus resultados no dependen
esencialmente de cul sea la distribucin de los datos.
Un mtodo es resistente si no es influido considerablemente
por unos pocos datos atpicos (outliers)

Ejemplo:
dados los conjuntos
{11 12 13 14 15 16 17 18 19}
y
{11 12 13 14 15 16 17 18 91}
Distintas medidas de tendencia central:
En ambos casos, el valor central es 15, pero
los promedios son 15 y 23 respectivamente.

Estadsticos de orden de una muestra


aleatoria
Sea { x1, x2, ..., xn } una muestra aleatoria de datos
Se ordenan en forma ascendente:
{ x(1), x(2) , ..., x(n) } son los estadsticos de orden
( cumplindose que x(1) x(2) x(n) )

Ej:

{7 -2 1 7 -3 4 0}

{-3 -2 0 1 4 7 7}

Cuantiles de una muestra aleatoria


(percentiles)
Ej.: 1) Sea la muestra aleatoria

{7 -2 2 7 -3 4 0}

Cmo podemos estimar un valor central que, en sentido


amplio, deje probabilidad a ambos lados?
{-3 -2 0 2 4 7 7}
Parece natural tomar un valor que deje la misma cantidad de
datos a cada lado, en este caso el 2:
{-3 -2 0 2 4 7 7}.
2.

Se dice que la mediana de la muestra es


q0.5 = 2

percentil 50

Cuantiles
Ej. 2) Sea ahora la muestra {7 1 7 -3 4 0}
Cul ser la mediana?

{-3 0 1 4 7 7}
Convencionalmente, se suele tomar el promedio entre los dos valores
centrales, o sea
(1 + 4) /2 = 2.5.
Pero, si no se tiene ms informacin, podra elegirse cualquier valor en ese
intervalo (1,4)

Generalizando, sea p tal que 0 < p < 1.


Los p-quantiles (qp) ( o percentiles) son valores
que dejan,en cierto sentido, probabilidad p a su
izquierda, y probabilidad 1-p a su derecha.

qp

p
P(X qp) = p

1- p
P(X qp) = 1 - p

Estimacin de los cuantiles


En general, los percentiles no son nicos y por lo tanto, no hay
una nica forma de estimarlos.
Una forma posible para una muestra aleatoria de tamao n es:

1)tomar los estadsticos de orden como los cuantiles


(0.5/n), (1.5/n), ..., ([n-0.5]/n) respectivamente
2) para los cuantiles con probabilidades entre (0.5/n) y
([n-0.5]/n), se interpola linealmente.
3) los valores mnimo o mximo de la muestra se asignan
a los cuantiles para probabilidades fuera de ese rango.

Principales medidas numricas de resumen


de un conjunto de datos
1) Localizacin: valor de tendencia
central del conjunto

2) Dispersin: alrededor del valor


central

3) Simetra: cmo estn distribuidos los


datos respecto del valor central
4)

Localizacin
N

Media
Mediana

i 1

q0.50

La media est comprendida entre el mnimo y el mximo


de la muestra.

La mediana divide el conjunto de datos en


dos subconjuntos ordenados con igual
cantidad de datos .
Importante: la mediana permite trabajar
con estimaciones de probabilidades

Localizacin
Ejemplo: (con muy pocos datos!!)
_

11

14

x 8
_

11

7004

x 1406

(outlier) ??
La media no es robusta ni resistente
Se puede estimar que P (X 9) ~ 0.5 ~ P(X 9)

Localizacin
Los cuantiles ms
usados
Mediana q0.5
Terciles, q0.33 , q0.66
Cuartiles, q0.25 , q0.75
Quintiles, deciles,
q0.05

q0.95

Trimedia

q0.25 2q0.5 q0.75

Robustez vs. Eficiencia


Por qu se usa ms la media que la mediana?
Porque en el caso (muy frecuente) de una
distribucin gaussiana es un estimador ms
eficiente que la mediana:
es decir que tiene menos dispersin alrededor del
valor a estimar,
o de otra forma, con menos valores (una muestra
ms pequea) se obtiene la misma dispersin.
Adems, la media es ms fcil de tratar
matemticamente, y es nica para una muestra
dada.

Matlab
Variable

Comando

media

mean

cuantil

quantile

percentil

prctile

mediana

median

Dispersin
Intervalo intercuartil
IQR = q0.75 - q0.25

No usa el 25% superior e inferior


de los datos

(Robusto y resistente)

Dispersin
Desviacin estndar muestral

1
N 1

(Ni robusta ni resistente)

2
(x
i

x
)

(2 = varianza de la poblacin)

i 1

Desviacin absoluta de la mediana


MAD = median |xi q0.5|

Simetra
Coeficiente de asimetra
de la muestra

Indice de Yule-Kendall

Ambos son adimensionados

>0
<0

Tcnicas grficas de resumen


Boxplots
Histogramas
Distribuciones de frecuencia acumulada

Boxplots (barritas)

Boxplots (barritas)
Min = 3.20

q0.50 = 60.345
q0.25 = 43.645

. .

Max = 124.27

q0.75 = 84.96

0 10 20 30 40 50 60 70 80 90 100 110 120 130

Temperatura diaria mxima en Melbourne

Se destacan valores extremos inusuales

Histogramas
Adems
de
la
localizacin,
la
dispersin, y la simetra, tambin
muestran
si
los
datos
son
multimodales

Histogramas
Precipitacin Rivera agosto 1914-1997

Precipitacin Rivera agosto 1914-1997

25

mediana=78.5 mm

No. de ocurrencias

20

15

media = 97.9 mm

10

50

100

150

200

250

300

Histogramas
Precipitacin Rivera abril 1914-1997

mediana=110.5 mm
media = 141.7 mm

Histogramas

Distribuciones empricas de frecuencia acumulada

110.5 mm

mediana=110.5 mm
P(X110.5) = 0.5

P (X x)

Distribuciones empricas de frecuencia acumulada

Matlab
Variable

Comando

Desviacin
estndar,
varianza

std
var

Intervalo
intercuartil

iqr

Desv. abs. de
la mediana

mad

histograma

hist

Distr. de
frecuencia
acumulada

ecdf

Potrebbero piacerti anche