Curso 0 CCdelMar

Curso cero de Estadística
1 Estadística Descriptiva.
2 Cálculo de Probabilidades.
3 Distribución binomial y distribución normal.
4 Test Chi-cuadrado.
Conceptos generales
• Individuo. Elemento que queremos investigar.

• Población. Conjunto homogéneo de individuos objeto de
estudio.
• Muestra. Subconjunto representativo de la población de tamaño
n (tamaño muestral).
• Variables: cada una de las características de los individuos
estudiados
• Cuantitativas:
- Discretas: número de crías en una camada, número de vitrasas
que pasan por la parada en 1 hora, ...
- Continuas: peso, temperatura, tiempo espera vitrasa, ...
• Cualitativas:
- Ordinales: máximo curso en el que se está matriculado, tamaño
(pequeño, mediano, grande), hábitos de consumo de tabaco, ...
- Nominales: sexo, tipo de molusco, color ojos, ...
Distribuciones unidimensionales de
frecuencias
Dada una variable X que toma valores x1 , x2 , . . . , xk diferentes y dada

una muestra de tamaño n:
• Frecuencia absoluta de xi : ni
ni
• Frecuencia relativa de xi : fi =
n
Si además asumimos que x1 < x2 < . . . < xn , se definen:
• Frecuencia absoluta acumulada de xi : Ni = n1 + n2 + . . . + ni
Ni
• Frecuencia relativa acumulada de xi : Fi = f1 + f2 + . . . + fi =
n
frecuencias
Dada una variable X que toma valores x1 , x2 , . . . , xk diferentes y dada

una muestra de tamaño n:
Ejemplo: Número de crías en una camada

xi ni fi Ni Fi
3 8 0.1 8 0.1
4 20 0.25 28 0.35
5 28 0.35 56 0.7
6 24 0.3 80 1
frecuencias
En el caso de variables continuas es habitual que los datos

aparezcan agrupados en intervalos:
• Intervalo de clase (Clase): (Li−1 , Li ]

Li−1 + Li
• Marca de clase: xi =
2
• Amplitud de clase: ai = Li − Li−1
n
• Densidad de datos: di = i
ai
frecuencias
Ejemplo: temperatura del agua en el pilar de Rande

(Li−1 , Li ] xi ni fi Ni Fi ai di
(13,15] 14 12 0.387 12 0.387 2 6
(15,16] 15.5 7 0.226 19 0.613 1 7
(16,17] 16.5 5 0.161 24 0.774 1 5
(17,19] 18 7 0.226 31 1 2 3.5
Representaciones gráficas
Variables cualitativas:
• Diagrama de rectángulos: los rectángulos tienen por altura la
frecuencia.
• Diagrama de sectores: los grados de cada sector se calculan
como gi = 360 · fi
¿Acabará el R.C.Celta en puestos de Europa?

85%
NO NS/NC
10% 5%
SÍ
10% 85%
5%
SÍ NO NS/NC
Variables cuantitativas discretas: diagrama de barras o también
el de sectores (cuando los valores
Var. cuantitativas quediagrama
discretas: toma X son
de pocos)
barras
Frecuencia
200
180
160
140
120
100
80
60
40
20
8 12 14 15 16 17 18 19 20 21
Nivel educativo
Nivel educativo
Variables cuantitativas continuas agrupadas: histograma. El área
de cada rectángulo equivale al número de datos dentro del intervalo,
Var.
por lo tanto lacuantitativas continuas:de
altura es la densidad histograma
datos y no la frecuencia.
d1=n1/a1
di=ni/ai
L0 L1 L2 L3 L4 L5 L6
(Li−1 , Li ] ni ai di
(13,15] 12 2 6
(15,16] 7 1 7
(16,17] 5 1 5
(17,19] 7 2 3.5
Ŷŝ Ěŝ
ϭϮ ϭϮ
ϭϬ ϭϬ
ϴ ϴ
ϲ ϲ
ϰ ϰ
Ϯ Ϯ
ϭϯϭϰϭϱϭϲϭϳϭϴϭϵ ϭϯϭϰϭϱϭϲϭϳϭϴϭϵ
Medidas de posición
• De tendencia central:
• Media
• Mediana
• Moda
• De tendencia no central: cuantiles

Media aritmética
k k
1X X
x= xi ni = xi fi
n
i=1 i=1
Cuando los datos están agrupados xi es la marca de clase.
Propiedades
1 mín xi ≤ x ≤ máx xi
k
P
2 (xi − x)ni = 0
i=1
3 Linealidad: a + bx = a + bx
4 Si la distribución de frecuencias es simétrica respecto a un valor
c, entonces x = c.
Media aritmética
La media es muy fácil de calcular, nos da un único valor, viene dada

en las mismas unidades que la variable de partida, pero es muy
poco robusta. Esto quiere decir que le afectan mucho los datos
atípicos, aquellos muy raros por ser muy grandes o muy pequeños
respecto a los demás.
Ejemplo
Edad ni
Edad ni
8 5
8 5
9 10
9 10
10 5
10 5
45 1
En el primer caso la media sería 9 años, mientras que en el segundo

se dispararía a 10.7 años.
Media en subpoblaciones
La población está divida en grupos de los cuales conocemos:
cuántos individuos hay en cada uno de ellos y la media de una
determinada variable dentro de cada grupo. Pero, ¿cómo calculamos
la media global?
Ejemplo
Si calculamos la media como
6+5+8
= 6,33 no sería correcto.
Grupo Ti xi 3
A 20 6 Debemos tener en cuenta el número
B 50 5 de individuos en cada grupo y
C 15 8 ponderar
20 · 6 + 50 · 5 + 15 · 8
= 5,76
20 + 50 + 15
x 1 T1 + x 2 T2 + . . . + x L TL
x=
T1 + T2 + . . . + TL
Moda
Se denota por Mo(x ) y es el valor más frecuente.

Cuando los datos no están agrupados, sería el valor de mayor
frecuencia. En el caso de datos agrupados, el intervalo modal sería
el de mayor densidad de datos (Ojo, no el de mayor frecuencia).
Podría haber varias modas, no es una medida única como es el caso
de la media.
Ejemplo
no de crías ni temperatura ni ai di
3 8 (13,15] 12 2 6
4 20 (15,16] 7 1 7
5 28 (16,17] 5 1 5
6 24 (17,19] 7 2 3.5
Mediana
Una vez ordenados los valores de menor a mayor, la mediana Me(x )
es aquel valor que divide la distribución de frecuencias en dos partes
iguales. Es decir, excluida la Mediana, el 50 % de los datos son
inferiores a ésta y el otro 50 % superiores.
Ejemplo
Dados los siguientes valores, calcula su mediana: 45, 20, 10, 80, 7,
30, 100. Para ello es necesario ordenarlos primero.
7, 10, 20, Me(x)=30, 45, 80, 100
1, 7, 10, 20, 30, 45, 80, 100.
Consideramos como mediana al valor medio de los dos valores

centrales:
20 + 30
Me(x ) = = 25
2
Mediana
Cálculo de la mediana:
Ejemplo
no hijos ni Ni
0 10 10
1 20 30
2 23 53
3 5 58
4 2 60
Mediana
Mientras que la media era una medida muy poco robusta, la mediana
sí que lo es. Retomando el ejemplo anterior:
Ejemplo
Edad ni Ni
Edad ni Ni
8 5 5
8 5 5
9 10 15
9 10 15
10 5 20
10 5 20
45 1 21
En ambos casos la mediana es 9 años.

Cuantil de orden p
Dado p con 0 < p < 1, el Cuantil de orden p: xp es aquel valor tal

que una proporción p de las observaciones es menor o igual que xp .
Principales cuantiles:
1 Cuartiles: dividen a la distribución en cuatro partes

iguales:C1 , C2 , C3 .
2 Deciles: dividen a la distribución en diez partes iguales:

D1 , D2 , D3 , D4 , D5 , D6 , D7 , D8 , D9 .
3 Percentiles: dividen a la distribución en cien partes iguales:

P1 , P2 , . . . , P99
Cuantil de orden p
Cálculo del cuantil xp :
Ejemplo
no hijos ni Ni
0 10 10
1 20 30
2 23 53
3 15 68
4 12 80
Datos atípicos y cómo detectarlos
Un dato atípico es aquel que difiere en exceso de los demás, ya sea

por ser muy alto o muy bajo respecto al resto. Para detectarlos uno
de los métodos es a través del gráfico de caja.
Para hacer este gráfico se calculan los tres cuartiles C1 , C2 , C3 y los
límites inferior y superior (bigotes) de la caja como sigue.
LI = C1 − 1,5(C3 − C1 ) >^
LS = C3 + 1,5(C3 − C1 )
ϯ
Ϯ
Todos aquellos datos
que se salgan de ϭ
dichos bigotes se >/
considerarán atípicos.
Medidas de Dispersión
Miden si la distribución de frecuencias se encuentra muy dispersa o

por el contrario los datos están agrupados. Se dividen en dos tipos.
Medidas de dispersión absolutas

Dependen de las unidades de medida de las variables.
• Rango R y Rango intercuartílico RI.
• Varianza S 2 (x ).
• Desviación típica S(x ).
Medidas de dispersión relativas

Son adimensionales, no llevan unidades asociadas.
• Coeficiente de Variación V (x ).
Medidas de Dispersión Absolutas
Hay medidas que para estudiar la variabilidad no lo hacen respecto a

un valor de referencia sino que consideran directamente el global del
conjunto de datos:
• Rango. R = máx{xi : i = 1, ..., n} − mı́n{xi : i = 1, ..., n}.
• Rango intercuartílico. RI = C3 − C1 . Mide cuánto ocupan el

50 % de los datos centrales.
En cambio otras medidas estudian la dispersión de la variable

estudiando cómo de dispersos están los datos con respecto a un
valor de referencia determinado.
Medidas de Dispersión Absolutas
Varianza: mide la dispersión respecto a la media:

k k
1X 2
X 2
S 2 (x ) = (xi − x) ni = (xi − x) fi
n
i=1 i=1
p
Desviación típica: raiz cuadrada de la varianza S(x ) = S 2 (x ).
Propiedades
• NUNCA son negativas S 2 (x ) ≥ 0, S(x ) ≥ 0.
1P k
• S 2 (x ) = x 2 ni − x 2 .
n i=1 i
• SS2 (ax + b) = a2 S 2 (x ) y por tanto S(ax + b) = aS(x ).
Varianza en subpoblaciones
La población está divida en grupos de los cuales conocemos:
cuántos individuos hay en cada uno de ellos y la media y la varianza
de una determinada variable dentro de cada grupo.
Grupo Ti xi Si2
1 20 6 1
2 50 5 1.6
3 15 8 3
Variabilidad total = var dentro subpobl. + var entre subpobl.

Variabilidad total = media de las var + var de las medias
n 3 3
ni (xi − x)2 Ti Si2 ni (x i − x )2
P P P
i=1 i=1 i=1
Varianza = = +
n 3
P 3
P
Ti Ti
i=1 i=1
Varianza en subpoblaciones
Ejemplo
Grupo Ti xi Si2
1 20 6 1
La media global es X = 5,76.
2 50 5 1.6
3 15 8 3
Variabilidad total = var dentro subpobl. + var entre subpobl.
1
S2 = [20 · 1 + 15 · 1,6 + 15 · 3]
85
1
20(6 − 5,76)2 + 50(5 − 5,76)2 + 15(8 − 5,76)2

+
85
= 1,2388 + 1,7059 = 2,9447.
Medidas de Dispersión relativas
Estas medidas no llevan unidades asociadas, son adimensionales.
Coeficiente de variación de Pearson: es el cociente entre la

desviación típica y la media.
S(x )
V (x ) =
x
Ejemplo
En un estudio sobre la merluza, se ha observado que el ejemplar
adulto tiene un peso medio de 2000gr con una dispersión de 250gr,
en cambio, en el caso del ejemplar joven (pescadilla) el peso medio
es de 500gr con una dispersión de 80gr. ¿En qué grupo hay mayor
variabilidad?
250gr 80gr
250gr > 80gr sin embargo = 0,125 < = 0,16
2000gr 500gr
Medidas de Forma: asimetria
Coeficiente de asimetría de Fisher

1P k
ni (xi − x)3
n i=1
g1 =
S(x )3
Interpretación
• g1 > 0: asimetría positiva o por la derecha.
• g1 < 0: asimetría negativa o por la izquierda.
• g1 = 0: la distribución es simétrica.
Medidas de Forma: asimetria
Coeficiente de asimetría de Fisher
1P k
ni (xi − x)3
n i=1
g1 =
S(x )3
Asimetría positiva Asimetría negativa

Medidas de forma: apuntamiento o
curtosis
Coeficiente de curtosis de Fisher
1P k
ni (xi − x)4
n i=1
g2 = −3
S(x )4
Interpretación
• g2 > 0: Distribución leptocúrtica: más apuntamiento que la
distribución normal.
• g2 = 0: Distribución mesocúrtica: apuntamiento equivalente a la
• g2 < 0: Distribución platicúrtica: menos apuntamiento que la
Medidas de forma: apuntamiento o
curtosis
Coeficiente de curtosis de Fisher
1Pk
ni (xi − X )4
n i=1
g2 = 4
−3
Sn,X
0,80
0,60
g2> 0
g2= 0
0,40
g2< 0
0,20
0,00
-6,00 -4,00 -2,00 0,00 2,00 4,00 6,00

Transformaciones lineales y no lineales
Dada una variable x si le aplicamos una transformación lineal ax + b

observamos los siguientes efectos:
• La Media, Moda, Mediana y cuantiles son lineales.
• La varianza y la desviación típica no son lineales:

S 2 (ax + b) = a2 S 2 (x ) y S(ax + b) = a · S(x ).
• El Coeficiente de Variación y las medidas de forma tampoco son
lineales y en particular no se ven afectadas por dicha
transformación: V (ax + b) = V (x ), g1 (ax + b) = g1 (x ),
g2 (ax + b) = g2 (x ).
Esto último no ocurre en el caso de transformaciones no lineales.
Transformaciones no lineales
En muchos casos a la hora de aplicar determinadas técnicas

estadísticas se piden determinados supuestos. En particular es
bastante habitual el supuesto de simetría. En el caso de no darse
dicho supuesto, cabe la posibilidad de obtenerlo realizando una
pequeña modificación de los datos con transformaciones no lineales.
• x 2 comprime los valores pequeños y en cambio expande los
valores grandes. Esta transformación es muy útil en el caso de
asimetría negativa.
√
• x , ln(x ) y 1/x producen el efecto contrario y por ello se usan
en el caso de asimetría positiva.
mayor. Si se toma la transformación logaritmo, se obtiene una distribución simétrica de
los datos.
Histograma de la variable x
10
8
frecuencias
6
4
2
0
0 10 20 30 40
Histograma de la variable ln(x)

6
frecuencias
4
2
0
1 2 3 4
ln(x)
40 x ln(x)
3.5
3.0
30
2.5
20
2.0
1.5
10
1.0
0.5

Curso 0 CCdelMar

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Curso 0 CCdelMar

Caricato da

Copyright:

Formati disponibili

Curso cero de Estadística

3 Distribución binomial y distribución normal.

• Individuo. Elemento que queremos investigar.

Dada una variable X que toma valores x1 , x2 , . . . , xk diferentes y dada

Dada una variable X que toma valores x1 , x2 , . . . , xk diferentes y dada

Ejemplo: Número de crías en una camada

En el caso de variables continuas es habitual que los datos

• Intervalo de clase (Clase): (Li−1 , Li ]

Ejemplo: temperatura del agua en el pilar de Rande

¿Acabará el R.C.Celta en puestos de Europa?

• De tendencia no central: cuantiles

Cuando los datos están agrupados xi es la marca de clase.

La media es muy fácil de calcular, nos da un único valor, viene dada

En el primer caso la media sería 9 años, mientras que en el segundo

Se denota por Mo(x ) y es el valor más frecuente.

Consideramos como mediana al valor medio de los dos valores

En ambos casos la mediana es 9 años.

Dado p con 0 < p < 1, el Cuantil de orden p: xp es aquel valor tal

1 Cuartiles: dividen a la distribución en cuatro partes

2 Deciles: dividen a la distribución en diez partes iguales:

3 Percentiles: dividen a la distribución en cien partes iguales:

Cálculo del cuantil xp :

Un dato atípico es aquel que difiere en exceso de los demás, ya sea

Miden si la distribución de frecuencias se encuentra muy dispersa o

Medidas de dispersión absolutas

Medidas de dispersión relativas

Hay medidas que para estudiar la variabilidad no lo hacen respecto a

• Rango. R = máx{xi : i = 1, ..., n} − mı́n{xi : i = 1, ..., n}.

• Rango intercuartílico. RI = C3 − C1 . Mide cuánto ocupan el

En cambio otras medidas estudian la dispersión de la variable

Varianza: mide la dispersión respecto a la media:

Variabilidad total = var dentro subpobl. + var entre subpobl.

Variabilidad total = var dentro subpobl. + var entre subpobl.

Coeficiente de variación de Pearson: es el cociente entre la

Coeficiente de asimetría de Fisher

Asimetría positiva Asimetría negativa

-6,00 -4,00 -2,00 0,00 2,00 4,00 6,00

Dada una variable x si le aplicamos una transformación lineal ax + b

• La varianza y la desviación típica no son lineales:

En muchos casos a la hora de aplicar determinadas técnicas

Histograma de la variable ln(x)

Potrebbero piacerti anche