Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Nominal Discreta
Ordinal Continua
• Hay ocasiones en que las medidas cuantitativas continuas son
transformadas en ordinales mediante la utilización de uno o varios
puntos de corte.
Series Simples
Series de Frecuencias
Intervalos de Clases
Gráficos
• La organización de los datos obtenidos en una investigación
mediante tablas de frecuencias no es suficiente para analizar el
comportamiento de la variable. Para una comprensión más efectiva
del comportamiento de la variable, se hace útil el empleo de
gráficas, dado que éstas permiten describir rápidamente las
características del grupo.
Serie Simple:
Si las observaciones de una muestra de tamaño n son x1,x2, …, xn entonces la
media muestral se define como:
donde :
n
X : media aritmética de la muestra
xi n: total de datos de la muestra
X i1
n
xi : dato de la variable
x : suma de todos los valores de la muestra
i
i
Medidas de
Centralización.
Media Aritmética
Cálculo de la Media Aritmética para datos dados por una Serie Simple:
Ejemplo correspondiente a las edades de los alumnos del primer cuatrimestre de 2018
que cursan estadística básica.
n
24 19 26 19 22 21 19 24 20 23
xi 22 21 22 23 20 20 18 24 20 18
X i1
n
22 18 20 21 20 20 21 20 21 27
donde :
k
X : media aritmética de la muestra
i i
xf n: total de datos de la muestra
X i1
n
xi : dato de la variable
fi : frecuencia absoluta para cada valor de la variable
Medidas de
Centralización.
Media Aritmética
Cálculo de la Media Aritmética para datos agrupados en una Tabla de
Frecuencias:
Ejemplo correspondiente a las edades de los alumnos del primer cuatrimestre de 2018
que cursan estadística básica.
Edad fi
18 3
k
19 3
i i 20 8
x f
21 5
X i1 n 21,166 22 4
23 2
Las edades de los alumnos del 1er cuatrimestre de 2018, dadas 24 3
en una tabla de frecuencias, tienen un promedio de 21,166
años. 26 1
27 1
Medidas de
Centralización.
Media Aritmética
Cuando se agrupan los datos en Intervalos de clases, se calcula la media
aritmética mediante la siguiente formula:
donde :
k
mi
fi
X : media aritmética de la muestra
n: total de datos de la muestra
xm : marca de clase de i - ésimo
xX i1
n i
intervalo
fi : frecuencia absoluta para cada valor de la variable
Medidas de
Centralización.
Media Aritmética
Cálculo de la Media Aritmética para datos agrupados en Intervalos de
Clases:
Ejemplo correspondiente a las edades de los alumnos del primer cuatrimestre de 2018
que cursan estadística básica.
Intervalos x mi fi
de Edad
k [18 – 20) 19 6
x mi f i
[20 –22) 21 13
[22 – 24) 23 6
X i1
n 21,80
[24 – 26) 25 3
[26 – 28) 27 2
n = 30
Serie Simple:
Si las observaciones de una muestra de tamaño n son x1,x2, …, xn entonces la
media muestral se define como:
si n es impar
xn1/2
Me x n/2 x n/2 1
si n es par
2
Medidas de
Centralización.
Mediana
Cálculo de la Mediana para datos dados por una Serie Simple:
Ejemplo correspondiente a las edades de los alumnos del primer cuatrimestre de 2018
que cursan estadística básica.
24 19 26 19 22 21 19 24 20 23
22 21 22 23 20 20 18 24 20 18
22 18 20 21 20 20 21 20 21 27
18,18,18,19,19,19,20,20,20,20,20,20,20,20,21,21,21,21,21,22,22,22,22,23,23,24,24,24,26,2
7
La ventaja de la
mediana es que los
valores extremos no Me =21
tienen influencia sobre
ella.
Medidas de
Centralización.
Mediana
Cálculo de la Mediana para datos agrupados en una Tabla de Frecuencias:
1. Hallar n/2.
Edad fi Fa
18 3 3
19 3 6
20 8 14 n 30
Me 21 5 19 15
22 4 23 2 2
23 2 25
24 3 28
26 1 29
27 1 30
Medidas de
Centralización.
Mediana
Cálculo de la Mediana para datos agrupados en Intervalos de Clase:
1. Hallar n/2.
30
Intervalos fi Fa 6
de Edad Me 20 2 * 2 21,3846
[18 – 20) 6 6 13
[20 –22) 13 19 frecuencia absoluta acumulada inmediatamente mayor a
la mitad de las observaciones
[22 – 24) 6 25
[24 – 26) 3 28 donde:
[26 – 28) 2 30 Linf = Límite inferior del primer intervalo cuya Fa es mayor
a n/2.
n = 30
Faa = Frecuencia acumulada del intervalo anterior al
primer intervalo cuya Fa es mayor a n/2.
n F aa
2 fi = Frecuencia absoluta del primer intervalo cuya Fa es
Me Linf a mayor a n/2.
fi a = Amplitud de los intervalos
Medidas de
Centralización.
Moda
Se denomina moda de un conjunto de datos al valor que más se presenta, es decir,
el atributo o el valor de mayor frecuencia. La moda se representa por Mo y puede
ser aplicada a las variables cualitativas y cuantitativas discretas o continuas.
Serie Simple:
Ejemplo 1: 1, 3, 3, 3, 3, 4, 5, 6, 6, 6, 8 , 9, 10
La moda es 3.
Ejemplo 2: 1, 3, 3, 3, 3, 3, 4, 4, 5, 5, 6, 6, 6, 6, 6, 8 , 9, 10
Las modas son 3 y 6.
Ejemplo 3: 1, 2, 3, 4, 7, 8, 9, 19
En este caso, no hay moda.
Medidas de
Centralización.
Moda
Se denomina moda de un conjunto de datos al valor que más se presenta, es decir,
el atributo o el valor de mayor frecuencia. La moda se representa por Mo y puede
ser aplicada a las variables cualitativas y cuantitativas discretas o continuas.
donde:
d1
Mo Linf a Linf = Límite inferior del intervalo que
d1 2
tiene mayor frecuencia
absoluta (intervalo modal).
d d1 = Diferencia entre las frecuencias
absolutas del intervalo modal y
el intervalo pre-modal.
d2 = Diferencia entre las frecuencias
absolutas del intervalo modal y
el intervalo post-modal.
a = Amplitud de los intervalos
Medidas de
Centralización.
Moda
Cálculo de la Mediana para datos agrupados en Intervalos de Clase:
donde:
Intervalos fi
Linf = Límite inferior del intervalo que
de Edad
tiene mayor frecuencia
[18 – 20) 6 absoluta (intervalo modal).
D2
D1
Li Mo
a
Medidas de Posición
Medidas de
Posición.
Cuartiles
Los cuartiles (Qk) son valores que fraccionan la distribución de los datos en
cuatro partes iguales. Existen tres cuartiles y cada una de las partes representa
un 25% de los datos.
75% 25%
25% 75%
Serie Simple: Si las observaciones de una muestra de tamaño n son x1,x2, …, xn entonces la
media muestral se define como:
si n es impar
xn1 j /4
Q xnj /4 x
j
nj /41 si n es par
2
Medidas de
Posición.
Cuartiles
Cálculo de los Cuartiles para datos dados por una Serie Simple:
Ejemplo correspondiente a las edades de los alumnos del primer cuatrimestre de 2018
que cursan estadística básica.
24 19 26 19 22 21 19 24 20 23
22 21 22 23 20 20 18 24 20 18
22 18 20 21 20 20 21 20 21 27
18,18,18,19,19,19,20,20,20,20,20,20,20,20,21,21,21,21,21,22,22,22,22,23,23,24,24,24,26,27
20% 80%
Mínimo Decil 2 Máximo
D2
Medidas de
Centralización.
Percentile
sCuando se divide un conjunto ordenado de datos en cien partes iguales, los
puntos de división se conocen como percentiles.
18% 82%
Mínimo Percentil 18 Máximo
P18
Mediana y Cuartiles representados en el polígono de frecuencias
acumuladas
100,0
0
90,0
0
80,0
0
70,0
Porcentajes
60,0
0
50,0
0
40,0
0
30,0
Q3
0,0 Q1 P40
0
0 41 47 53 59 65 71 77
20,0 Putuacione
0 s
10,0
Medidas de Dispersión
Medidas de Dispersión
Además de las medidas de tendencia central que posibilitan la representación del
conjunto de datos por medio de un valor, es necesario conocer la variabilidad o la
dispersión que los datos pueden tener en relación a una medida de tendencia central.
Medidas de Dispersión
Rango
Varianza
Absolutas
Desviación
Estándar
Medidas de Rango
Intercuartílico
Dispersión
Coeficiente de
Relativas Variación
Medidas de Dispersión.
Rango
El rango se define como la diferencia entre la observación más grande y la más
pequeña :
r x max x min
Rango Intercuartílico (RIC)
R I C Q3
Q1
Los valores extremos influyan en el conjunto de
datos.
Medidas de
Dispersión.
Varianza
Para el conjunto de datos x1, x 2, ….,x n de una población de tamaño N. Las diferencias de cada
dato y la media, determinan los desvíos o desviaciones. Dado que la suma de estas
desviaciones es cero, se utiliza como medida de variabilidad el promedio de los cuadrados
de tales desvíos.
(x (xi i .
N m n
(xi 2
i x ) fi
2 2
(x x )2
i
2 i1
x) x) f
2
i1
N s 2 i1 n s2 i1 n
N
(1) (2) 1
(3) 1 (4)
Varianza muestral
Varianza Poblacional
siendo n el tamaño de la
siendo N el tamaño de la población.
muestra.
Para datos sin agrupar (1) y agrupados Para datos sin agrupar (3)
(2) y agrupados (4)
Si los datos se agrupan por intervalos, usamos xmi en lugar de
xi
Medidas de
Dispersión.
Desvío estandar muestral
n
Para datos sin
S 1 ( xi X ) 2
n 1
i 1
agrupar
n
1 Para datos
S
n 1 i1
( x i X )2 fi agrupados por
frecuencias
k
1
S
n 1 i 1
( x mi X ) 2
fi Para datos
agrupados por
Intervalos
Medidas de
Dispersión.
Coeficiente de variación
El coeficiente de variación (CV) es una medida que relaciona la desviación
estándar con la media aritmética para determinar qué tan homogénea o
dispersa es la información.
S
CV
X
• Mide el grado de variabilidad en una muestra o población.
• Está desprovisto de unidades. Permite comparar la variabilidad entre distintas
variables y poblaciones.
• El valor expresado en términos porcentuales, se llama coeficiente de
porcentual.
variación
S
CV % 100%
X
Consideraremos poca variabilidad, si el CV% es a lo sumo del 30
%
Medidas de
Dispersión.
Coeficiente de variación: Comparación entre distintas variables y
poblaciones.
Ejemplo: Si tenemos el peso de 5 pacientes (70, 60, 56, 83 y 79 Kg) cuya media
es de 69,6 kg. y su desviación estándar (s) = 10,44 y la presión arterial de los
mismos (150, 170, 135, 180 y 195 mmHg) cuya media es de 166 mmHg y su
desviación estándar de 21,3. La pregunta sería: ¿qué distribución es más
dispersa, el peso o la presión arterial? Si comparamos las desviaciones estándar
observamos que la desviación estándar de la presión arterial es mucho mayor;
sin embargo, no podemos comparar dos variables que tienen escalas de medidas
diferentes, por lo que calculamos los coeficientes de variación:
10, 44
CV de la variable peso 69, 15%
6
21,30
CV de la variable presión 166 12,8%
Análisis de la Forma
Análisis del grado de Curtosis
Coeficiente
de curtosis
K>0 K=0
K<0
Con esta medida se cuantifica la mayor o menor cantidad de datos
que se agrupan en torno a los valores centrales
Análisis de la simetría
Coeficiente
de asimetría
As <0 As =0 As >0
Distribuciones Simétricas
Insesgada
Moda=Mediana=Media
X Me Mo
La distribución de los datos es
simétrica
Distribuciones Asimétricas
Media
Moda Mediana
Si Mo Me X : Asimétrica Positiva
Si la distribución es asimétrica
En nuestro estudio, positiva, la media no
M o = 20 < Me = 21 <X = representa al conjunto de
La distribución 21,166
es asimétrica datos.
positiva.
Distribuciones Asimétricas
Sesgo Negativo (a la
izquierda)
Medi Mediana
a Moda
Si X Me Mo : Asimétrica Negativa
Si la distribución es asimétrica negativa,
la media no representa al conjunto de
datos.
Gráfico de caja y bigotes (Box-Plot)
Este gráfico permite visualizar rápidamente la simetría y la variabilidad de los datos. El
largo de la caja, es q3-q1 (rango intercuartílico), que comprende el 5 0 % central de los
datos.
Gráfico de caja y bigotes (Box-Plot)
Interpretación.
Datos asimétricos
Cuando los datos son asimétricos, la mayoría de los datos se ubican en la parte
superior o inferior de la gráfica.
Gráfico de caja y bigotes (Box-Plot)
Interpretación.
Valores atípicos
Los valores atípicos, que son valores de datos que están muy alejados de otros
valores de datos, pueden afectar fuertemente sus resultados. Frecuentemente, es más
fácil identificar los valores atípicos en una gráfica de caja..
Gráfico de caja y bigotes (Box-Plot)
Interpretación.
Evaluar y comparar los grupos
mediana.