Sei sulla pagina 1di 35

Curso cero de Estadística

1 Estadística Descriptiva.

2 Cálculo de Probabilidades.

3 Distribución binomial y distribución normal.

4 Test Chi-cuadrado.
Conceptos generales

• Individuo. Elemento que queremos investigar.


• Población. Conjunto homogéneo de individuos objeto de
estudio.
• Muestra. Subconjunto representativo de la población de tamaño
n (tamaño muestral).
• Variables: cada una de las características de los individuos
estudiados
• Cuantitativas:
- Discretas: número de crías en una camada, número de vitrasas
que pasan por la parada en 1 hora, ...
- Continuas: peso, temperatura, tiempo espera vitrasa, ...
• Cualitativas:
- Ordinales: máximo curso en el que se está matriculado, tamaño
(pequeño, mediano, grande), hábitos de consumo de tabaco, ...
- Nominales: sexo, tipo de molusco, color ojos, ...
Distribuciones unidimensionales de
frecuencias

Dada una variable X que toma valores x1 , x2 , . . . , xk diferentes y dada


una muestra de tamaño n:

• Frecuencia absoluta de xi : ni
ni
• Frecuencia relativa de xi : fi =
n
Si además asumimos que x1 < x2 < . . . < xn , se definen:
• Frecuencia absoluta acumulada de xi : Ni = n1 + n2 + . . . + ni
Ni
• Frecuencia relativa acumulada de xi : Fi = f1 + f2 + . . . + fi =
n
Distribuciones unidimensionales de
frecuencias

Dada una variable X que toma valores x1 , x2 , . . . , xk diferentes y dada


una muestra de tamaño n:

Ejemplo: Número de crías en una camada


xi ni fi Ni Fi
3 8 0.1 8 0.1
4 20 0.25 28 0.35
5 28 0.35 56 0.7
6 24 0.3 80 1
Distribuciones unidimensionales de
frecuencias

En el caso de variables continuas es habitual que los datos


aparezcan agrupados en intervalos:

• Intervalo de clase (Clase): (Li−1 , Li ]


Li−1 + Li
• Marca de clase: xi =
2
• Amplitud de clase: ai = Li − Li−1
n
• Densidad de datos: di = i
ai
Distribuciones unidimensionales de
frecuencias

Ejemplo: temperatura del agua en el pilar de Rande


(Li−1 , Li ] xi ni fi Ni Fi ai di
(13,15] 14 12 0.387 12 0.387 2 6
(15,16] 15.5 7 0.226 19 0.613 1 7
(16,17] 16.5 5 0.161 24 0.774 1 5
(17,19] 18 7 0.226 31 1 2 3.5
Representaciones gráficas
Variables cualitativas:
• Diagrama de rectángulos: los rectángulos tienen por altura la
frecuencia.
• Diagrama de sectores: los grados de cada sector se calculan
como gi = 360 · fi

¿Acabará el R.C.Celta en puestos de Europa?


85%

NO NS/NC
10% 5%


10% 85%
5%

SÍ NO NS/NC
Representaciones gráficas
Variables cuantitativas discretas: diagrama de barras o también
el de sectores (cuando los valores
Var. cuantitativas quediagrama
discretas: toma X son
de pocos)
barras

Frecuencia

200

180

160
140
120
100

80

60
40
20

8 12 14 15 16 17 18 19 20 21
Nivel educativo
Nivel educativo
Representaciones gráficas
Variables cuantitativas continuas agrupadas: histograma. El área
de cada rectángulo equivale al número de datos dentro del intervalo,
Var.
por lo tanto lacuantitativas continuas:de
altura es la densidad histograma
datos y no la frecuencia.

d1=n1/a1

di=ni/ai

L0 L1 L2 L3 L4 L5 L6
Representaciones gráficas

(Li−1 , Li ] ni ai di
(13,15] 12 2 6
(15,16] 7 1 7
(16,17] 5 1 5
(17,19] 7 2 3.5

Ŷŝ Ěŝ
ϭϮ ϭϮ
ϭϬ ϭϬ
ϴ ϴ
ϲ ϲ
ϰ ϰ
Ϯ Ϯ

ϭϯϭϰϭϱϭϲϭϳϭϴϭϵ ϭϯϭϰϭϱϭϲϭϳϭϴϭϵ
Medidas de posición

• De tendencia central:
• Media
• Mediana
• Moda

• De tendencia no central: cuantiles


Media aritmética

k k
1X X
x= xi ni = xi fi
n
i=1 i=1

Cuando los datos están agrupados xi es la marca de clase.

Propiedades
1 mín xi ≤ x ≤ máx xi
k
P
2 (xi − x)ni = 0
i=1

3 Linealidad: a + bx = a + bx
4 Si la distribución de frecuencias es simétrica respecto a un valor
c, entonces x = c.
Media aritmética

La media es muy fácil de calcular, nos da un único valor, viene dada


en las mismas unidades que la variable de partida, pero es muy
poco robusta. Esto quiere decir que le afectan mucho los datos
atípicos, aquellos muy raros por ser muy grandes o muy pequeños
respecto a los demás.

Ejemplo
Edad ni
Edad ni
8 5
8 5
9 10
9 10
10 5
10 5
45 1

En el primer caso la media sería 9 años, mientras que en el segundo


se dispararía a 10.7 años.
Media en subpoblaciones
La población está divida en grupos de los cuales conocemos:
cuántos individuos hay en cada uno de ellos y la media de una
determinada variable dentro de cada grupo. Pero, ¿cómo calculamos
la media global?

Ejemplo
Si calculamos la media como
6+5+8
= 6,33 no sería correcto.
Grupo Ti xi 3
A 20 6 Debemos tener en cuenta el número
B 50 5 de individuos en cada grupo y
C 15 8 ponderar
20 · 6 + 50 · 5 + 15 · 8
= 5,76
20 + 50 + 15
x 1 T1 + x 2 T2 + . . . + x L TL
x=
T1 + T2 + . . . + TL
Moda

Se denota por Mo(x ) y es el valor más frecuente.


Cuando los datos no están agrupados, sería el valor de mayor
frecuencia. En el caso de datos agrupados, el intervalo modal sería
el de mayor densidad de datos (Ojo, no el de mayor frecuencia).
Podría haber varias modas, no es una medida única como es el caso
de la media.

Ejemplo
no de crías ni temperatura ni ai di
3 8 (13,15] 12 2 6
4 20 (15,16] 7 1 7
5 28 (16,17] 5 1 5
6 24 (17,19] 7 2 3.5
Mediana
Una vez ordenados los valores de menor a mayor, la mediana Me(x )
es aquel valor que divide la distribución de frecuencias en dos partes
iguales. Es decir, excluida la Mediana, el 50 % de los datos son
inferiores a ésta y el otro 50 % superiores.

Ejemplo
Dados los siguientes valores, calcula su mediana: 45, 20, 10, 80, 7,
30, 100. Para ello es necesario ordenarlos primero.
7, 10, 20, Me(x)=30, 45, 80, 100
1, 7, 10, 20, 30, 45, 80, 100.

Consideramos como mediana al valor medio de los dos valores


centrales:
20 + 30
Me(x ) = = 25
2
Mediana

Cálculo de la mediana:

Ejemplo
no hijos ni Ni
0 10 10
1 20 30
2 23 53
3 5 58
4 2 60
Mediana

Mientras que la media era una medida muy poco robusta, la mediana
sí que lo es. Retomando el ejemplo anterior:
Ejemplo
Edad ni Ni
Edad ni Ni
8 5 5
8 5 5
9 10 15
9 10 15
10 5 20
10 5 20
45 1 21

En ambos casos la mediana es 9 años.


Cuantil de orden p

Dado p con 0 < p < 1, el Cuantil de orden p: xp es aquel valor tal


que una proporción p de las observaciones es menor o igual que xp .

Principales cuantiles:

1 Cuartiles: dividen a la distribución en cuatro partes


iguales:C1 , C2 , C3 .

2 Deciles: dividen a la distribución en diez partes iguales:


D1 , D2 , D3 , D4 , D5 , D6 , D7 , D8 , D9 .

3 Percentiles: dividen a la distribución en cien partes iguales:


P1 , P2 , . . . , P99
Cuantil de orden p

Cálculo del cuantil xp :

Ejemplo
no hijos ni Ni
0 10 10
1 20 30
2 23 53
3 15 68
4 12 80
Datos atípicos y cómo detectarlos

Un dato atípico es aquel que difiere en exceso de los demás, ya sea


por ser muy alto o muy bajo respecto al resto. Para detectarlos uno
de los métodos es a través del gráfico de caja.
Para hacer este gráfico se calculan los tres cuartiles C1 , C2 , C3 y los
límites inferior y superior (bigotes) de la caja como sigue.

LI = C1 − 1,5(C3 − C1 ) >^

LS = C3 + 1,5(C3 − C1 )


Todos aquellos datos
que se salgan de ϭ
dichos bigotes se >/
considerarán atípicos.
Medidas de Dispersión

Miden si la distribución de frecuencias se encuentra muy dispersa o


por el contrario los datos están agrupados. Se dividen en dos tipos.

Medidas de dispersión absolutas


Dependen de las unidades de medida de las variables.
• Rango R y Rango intercuartílico RI.
• Varianza S 2 (x ).
• Desviación típica S(x ).

Medidas de dispersión relativas


Son adimensionales, no llevan unidades asociadas.
• Coeficiente de Variación V (x ).
Medidas de Dispersión Absolutas

Hay medidas que para estudiar la variabilidad no lo hacen respecto a


un valor de referencia sino que consideran directamente el global del
conjunto de datos:

• Rango. R = máx{xi : i = 1, ..., n} − mı́n{xi : i = 1, ..., n}.

• Rango intercuartílico. RI = C3 − C1 . Mide cuánto ocupan el


50 % de los datos centrales.

En cambio otras medidas estudian la dispersión de la variable


estudiando cómo de dispersos están los datos con respecto a un
valor de referencia determinado.
Medidas de Dispersión Absolutas

Varianza: mide la dispersión respecto a la media:


k k
1X 2
X 2
S 2 (x ) = (xi − x) ni = (xi − x) fi
n
i=1 i=1

p
Desviación típica: raiz cuadrada de la varianza S(x ) = S 2 (x ).
Propiedades
• NUNCA son negativas S 2 (x ) ≥ 0, S(x ) ≥ 0.
1P k
• S 2 (x ) = x 2 ni − x 2 .
n i=1 i
• SS2 (ax + b) = a2 S 2 (x ) y por tanto S(ax + b) = aS(x ).
Varianza en subpoblaciones
La población está divida en grupos de los cuales conocemos:
cuántos individuos hay en cada uno de ellos y la media y la varianza
de una determinada variable dentro de cada grupo.
Grupo Ti xi Si2
1 20 6 1
2 50 5 1.6
3 15 8 3

Variabilidad total = var dentro subpobl. + var entre subpobl.


Variabilidad total = media de las var + var de las medias

n 3 3
ni (xi − x)2 Ti Si2 ni (x i − x )2
P P P
i=1 i=1 i=1
Varianza = = +
n 3
P 3
P
Ti Ti
i=1 i=1
Varianza en subpoblaciones

Ejemplo
Grupo Ti xi Si2
1 20 6 1
La media global es X = 5,76.
2 50 5 1.6
3 15 8 3

Variabilidad total = var dentro subpobl. + var entre subpobl.

1
S2 = [20 · 1 + 15 · 1,6 + 15 · 3]
85
1 
20(6 − 5,76)2 + 50(5 − 5,76)2 + 15(8 − 5,76)2

+
85
= 1,2388 + 1,7059 = 2,9447.
Medidas de Dispersión relativas
Estas medidas no llevan unidades asociadas, son adimensionales.

Coeficiente de variación de Pearson: es el cociente entre la


desviación típica y la media.

S(x )
V (x ) =
x

Ejemplo
En un estudio sobre la merluza, se ha observado que el ejemplar
adulto tiene un peso medio de 2000gr con una dispersión de 250gr,
en cambio, en el caso del ejemplar joven (pescadilla) el peso medio
es de 500gr con una dispersión de 80gr. ¿En qué grupo hay mayor
variabilidad?
250gr 80gr
250gr > 80gr sin embargo = 0,125 < = 0,16
2000gr 500gr
Medidas de Forma: asimetria

Coeficiente de asimetría de Fisher


1P k
ni (xi − x)3
n i=1
g1 =
S(x )3

Interpretación
• g1 > 0: asimetría positiva o por la derecha.
• g1 < 0: asimetría negativa o por la izquierda.
• g1 = 0: la distribución es simétrica.
Medidas de Forma: asimetria
Coeficiente de asimetría de Fisher
1P k
ni (xi − x)3
n i=1
g1 =
S(x )3

Asimetría positiva Asimetría negativa


Medidas de forma: apuntamiento o
curtosis
Coeficiente de curtosis de Fisher
1P k
ni (xi − x)4
n i=1
g2 = −3
S(x )4

Interpretación
• g2 > 0: Distribución leptocúrtica: más apuntamiento que la
distribución normal.
• g2 = 0: Distribución mesocúrtica: apuntamiento equivalente a la
distribución normal.
• g2 < 0: Distribución platicúrtica: menos apuntamiento que la
distribución normal.
Medidas de forma: apuntamiento o
curtosis
Coeficiente de curtosis de Fisher
1Pk
ni (xi − X )4
n i=1
g2 = 4
−3
Sn,X

0,80

0,60

g2> 0
g2= 0
0,40

g2< 0

0,20

0,00

-6,00 -4,00 -2,00 0,00 2,00 4,00 6,00


Transformaciones lineales y no lineales

Dada una variable x si le aplicamos una transformación lineal ax + b


observamos los siguientes efectos:
• La Media, Moda, Mediana y cuantiles son lineales.

• La varianza y la desviación típica no son lineales:


S 2 (ax + b) = a2 S 2 (x ) y S(ax + b) = a · S(x ).
• El Coeficiente de Variación y las medidas de forma tampoco son
lineales y en particular no se ven afectadas por dicha
transformación: V (ax + b) = V (x ), g1 (ax + b) = g1 (x ),
g2 (ax + b) = g2 (x ).
Esto último no ocurre en el caso de transformaciones no lineales.
Transformaciones no lineales

En muchos casos a la hora de aplicar determinadas técnicas


estadísticas se piden determinados supuestos. En particular es
bastante habitual el supuesto de simetría. En el caso de no darse
dicho supuesto, cabe la posibilidad de obtenerlo realizando una
pequeña modificación de los datos con transformaciones no lineales.
• x 2 comprime los valores pequeños y en cambio expande los
valores grandes. Esta transformación es muy útil en el caso de
asimetría negativa.

• x , ln(x ) y 1/x producen el efecto contrario y por ello se usan
en el caso de asimetría positiva.
mayor. Si se toma la transformación logaritmo, se obtiene una distribución simétrica de
los datos.
Transformaciones no lineales
Histograma de la variable x

10
8
frecuencias
6
4
2
0

0 10 20 30 40

Histograma de la variable ln(x)


6
frecuencias
4
2
0

1 2 3 4

ln(x)
Transformaciones no lineales

40 x ln(x)

3.5
3.0
30

2.5
20

2.0
1.5
10

1.0
0.5

Potrebbero piacerti anche