Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
edison.vasquez@unl.edu.ec
Clases Vi fi pi Fi Pi
( 30 ; 40] 35 1 1 / 85 1 1 / 85
( 40 ; 50] 45 4 4 / 85 5 5 / 85
( 50 ; 60] 55 9 9 / 85 14 14 / 85
( 60 ; 70] 65 6 6 / 85 20 20 / 85
( 70 ; 80] 75 30 30 / 85 50 50 / 85
( 80 ; 90] 85 29 29 / 85 79 79 / 85
( 90 ; 100] 95 6 6 / 85 85 85 / 85
85
CONTENIDOS
1.1. La estadística en el campo de las ciencias
1.2. La estadística y el método científico
1.3. Una definición de estadística
1.4. ¿Qué puede hacerse con la estadística?
1.5. Consideraciones básicas.
1.6. Notación de suma y reglas para su uso
Alguien dijo que “si todos los estadísticos del mundo se pudieran callar de
una vez por todas, mucho se ganaría”. Además, al estadístico se describe
desdeñosamente como alguien que se ahoga en un vaso de agua o también
como aquél cuya cabeza está en la nevera y cuyos pies están en el horno y
que dice que “en general se siente bien”.
PARÁMETROS
INFERENCIAL
muestra Generalizar los aspectos
característicos de la muestra
Media Varianza Proporción
Estadígrafos
ESTADÍSTICA
DESCRIPTIVA
R OPAI
Población Conjunto de elementos acotados en un tiempo y en un espacio determinados,
con alguna característica común observable o medible.
1. NOMINAL O CARDINAL
2. ORDINAL O DE RANGO
3. INTERVALO
4. PROPORCION
ESCALAS DE MEDICIÓN:
NOMINAL O CARDINAL
La medición se da en un nivel elemental
Los números u otros símbolos se usan para la clasificación de objetos,
personas o características.
1 Medicina
2 Derecho
3 Administración
Relaciones típicas entre clases son las que comparan: altura, preferencia,
dificultad, perturbación, madurez, etc.
Ejemplo:
Un cociente intelectual = 0, no expresa la carencia absoluta de la inteligencia.
Sin embargo, no puede decirse que 60°C es el doble de caliente que 30°C,
porque el punto 0°C no es un cero absoluto (la ausencia completa de calor).
ESCALAS DE MEDICIÓN:
PROPORCIÓN
Tiene todas las características de una escala de intervalo y además tiene un
punto cero real en su origen.
Ejemplos:
La escala de grados Kelvin para la temperatura reconoce un 0 absoluto.
El peso.
El tiempo.
Una variable es una característica, propiedad o atributo, con respecto a la cual los
elementos de una población difieren de alguna forma.
Un conjunto es infinito numerable si cada uno de sus elementos se asocia biunívocamente con un
número natural, en caso contrario se dice que el conjunto es no numerable.
Biunívoco: Que asocia cada elemento de un conjunto con uno y solo uno de los elementos de otro
conjunto, y cada elemento de este último conjunto con uno y solo uno de los elementos del conjunto
con uno y solo uno de los elementos del primero.
Notación:
X número de semillas germinadas en un conjunto de bandejas de germinación,
xi número de semillas germinadas observadas en una de aquellas bandejas,
x20 número de semillas germinadas observadas en la bandeja número 20.
Notación con subíndices:
a) xi i = 1, ..., 6 x1, x2, x3, x4, x5, y x6, no interesando otros si existieran.
b) xi i = 1, ... a partir de 1 en adelante y hasta infinito (∞).
c) xi i = 0, 1 ,... en este caso i puede valer desde cero hasta ∞.
Ej. En la década de 1980 se registraron las temperaturas mínimas de los 3650 días.
X temperaturas mínimas en la década ‘80
xi , i=1,...,3650 temperaturas efectivamente registradas.
x112 valor de temperatura mínima registrado en el día 112 del período considerado.
Si en dicho día la temperatura mínima fue de -3,2 oC x112 = -3,2
En general, se denotar a un conjunto de n observaciones por {x1, x2,...,xn} (n = 3650)
VARIABLES
Magnitudes susceptibles de ser medidas y expresadas en forma de datos y
pueden tomar varios valores comprendidos o no dentro de ciertos límites.
Una variable es una característica, propiedad o atributo, con respecto a la cual los
elementos de una población difieren de alguna forma.
Las variables continuas se pueden “discretizar” (Ej. tomando intervalos) y así ser
tratadas como discretas.
Una variable discreta puede asumir una gran variedad de valores (Ej. contar el número
de pulgones en hojas de trigo), ésta puede ser tratada como una variable continua.
Variable es una característica observable que varía entre los
diferentes individuos de una población.
La información de cada individuo se resume en variables.
– El grupo sanguíneo
• {A, B, AB, O} Var. Cualitativa
• Cuantitativas o Numéricas
Si sus valores son numéricos (se puede hacer operaciones algebraicas con ellos)
OBTENCIÓN DE DATOS
La información sea relevante al problema
Las conclusiones que se extraigan tengan cierto
grado de confiabilidad
(DISEÑO DE EXPERIMENTOS Y MUESTREO ESTADÍSTICO)
CONFRONTACIÓN DE LA INFORMACIÓN
OBTENIDA CON LAS CONSECUENCIAS DE LAS
HIPÓTESIS POSTULADAS
Describir la información
(ESTADÍSTICA DESCRIPTIVA)
Charles Darwin
(1809-1882) Formuló Sus teorías basado en aspectos biométricos.
63 + 52 + 78 + 49 + 71 + 62 + 68 +48 + 56 + 67
x1 + x2 + x3 + x4 + x5 + x6 + x7 + x8 + x9 + x10
n
xi
i=1
la suma de los números xi desde x1 hasta xn
n
x i x1 x 2 ... x n
i1
Ejemplo: Pesos de 10 alumnos.
Alumno x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
Peso (kg) 63 52 78 49 71 62 68 48 56 67
10
a) x
i 1
i x1 + x2 + x3 + x4 + x5 + x6 + x7 + x8 + x9 + x10
= 63 + 52 + 78 + 49 + 71 + 62 + 68 + 48 + 56 + 67 = 614
6
b) x
i 3
i x3 + x4 + x 5 + x6 = 78 + 49 + 71 + 62 = 260
3
c) 2x
i 1
i 2(x1) + 2(x2) + 2(x3) = 2(63) + 2(52) + 2(78) = 386
Ejemplo: Pesos de 10 alumnos.
Alumno x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
Peso (kg) 63 52 78 49 71 62 68 48 56 67
3
3
e) xi 50 x2 + x3 – 50 = 52 + 78 – 50 = 80
i2
6
f) i
x 2
i 4
(x4)2 + (x5 )2 + (x6)2 = (49)2 + (71)2 + (62)2 = 11 286
2
6
g) i (x4 + x5 +
x x6)2 = (49 + 71 + 62)2 = 33 124
i 4
Muestreo aleatorio simple
Método de selección de n unidades de una población de tamaño N de tal modo que
cada una de las muestras posibles tenga la misma oportunidad de ser elegida
(Cochran,1981).
𝑁!
Existen 𝐶𝑛𝑁 = formas posibles de obtener n elementos de entre N.
𝑁−𝑛 ! 𝑛!
No obstante, sólo existen 𝐶𝑛𝑁 muestras (conjuntos diferentes) todas con igual
oportunidad de ser extraídas.
1
La probabilidad de cada muestra es 𝐶 𝑁
𝑛
El método recibe también el nombre de muestreo sin restitución (una vez que
un elemento ha sido extraído no es restituido y por lo tanto no está disponible
para la elección del próximo elemento de la muestra).
Nn = 23 = 8
Características:
Que proporcionen la máxima información contenida
en los datos en forma rápida y fácil de visualizar.
7
Género Frecuencia Frecuencia relativa
6
porcentaje
5
Hombre 4 4/10 = 0,4 (40%) 4
3
Mujer 6 6/10 = 0,6 (60%) 2
1
10 0
tamaño muestral Hombre Mujer
Resumen de la información muestral
Al registrar los resultados de un estudio observacional o experimental, se obtiene un número de
observaciones que puede ser muy grande y su simple listado es de poca relevancia en el sentido interpretativo.
Aunque a partir de dichos registros se puede encontrar la respuesta buscada, no están ordenados de manera
tal que adquieran significado para el investigador. Es por esto deseable presentar las observaciones en forma
resumida.
A los fines de ordenar, resumir y presentar la información, se utilizan tablas y gráficos apropiados para cada
tipo de variable (variables numéricas, continuas o discretas, o bien, variables no numéricas o de naturaleza
categórica), por lo que trataremos las distintas situaciones por separado.
Ej. Un experimento consistió en contar el número Tabla de distribución de frecuencias para la variable
de flores por planta de una muestra n = 50 número de flores por planta.
plantas.
Distribución de frecuencias para la variable número de flores por planta.
fi pi
4 0.4
0.3
3
0.2
2
0.1
1
0
0
0 1 2 3
0 1 2 3
Fig. Diagrama de columnas de frecuencias absolutas. Fig. Diagrama de columnas de frecuencias relativas.
VARIABLES DISCRETAS
Ej.: Se analizó el número de hijos de 10 familias. Los resultados de los conteos fueron los
siguientes: 2, 1, 3, 1, 2, 1, 3, 0, 2, 1
Valores de la Frecuencias
variable Absolutas Relativas Absolutas Acumuladas Relativas Acumuladas
y1 = 0 f1 = 1 p1 = 0,1 F1 = 1 P1 = 0,1
y2 = 1 f2 = 4 p2 = 0,4 F2 = 5 P2 = 0,5
y3 = 2 f3 = 3 p3 = 0,3 F3 = 8 P3 = 0,8
y4 = 3 f4 = 2 p4 = 0,2 F4 = 10 P4 = 1,0
Total 10
La formación de la tabla no supone pérdida de la información contenida en los datos originales.
fi pi
4 0,4
3 0,3
2 0,2
1 0,1
0 1 2 3 0 1 2 3
Fig. Diagrama de columnas de frecuencias absolutas. Fig. Diagrama de columnas de frecuencias relativas.
VARIABLES DISCRETAS
Valores de la Frecuencias
variable Absolutas Relativas Absolutas Acumuladas Relativas Acumuladas
y1 = 0 f1 = 1 p1 = 0,1 F1 = 1 P1 = 0,1
y2 = 1 f2 = 4 p2 = 0,4 F2 = 5 P2 = 0,5
y3 = 2 f3 = 3 p3 = 0,3 F3 = 8 P3 = 0,8
y4 = 3 f4 = 2 p4 = 0,2 F4 = 10 P4 = 1,0
Total 10
Fi Pi
10 1,0
8 0,8
5 0,5
1 0,1
0 1 2 3 4 0 1 2 3 4
Fig. Diagrama acumulativo de frecuencias absolutas. Fig. Diagrama acumulativo de frecuencias relativas.
Tabla de dos encabezados
Tabla 2.1 Número de estudiantes en algunas Facultades de la UNL,
durante el año de 1995.
Artes 32
31
31 52 58 60 66 89
70 75 83 88 91 93
81 57 61 74 64 77
87 62 85 80 68 76
80 82 71 85 62 72
72 82 71 87 73 72
79 84 81 79 96
96 73
77 62 73 84 81 79
72 79 81 84 67 62
89 76 61 57 64 74
Tabla de dos encabezados ...
Tabla 2.2 Calificaciones obtenidas por un grupo de estudiantes en el Curso de Estadística
Calificación N° Estudiantes Calificación N° Estudiantes
31 1 75 1
52 1 76 2
57 2 77 2
58 1 79 4
60 1 80 2
61 2 81 4
62 3 82 2
64 2 83 1
66 1 84 3
67 1
85 2
68 2
87 2
69 1
88 1
70 1
89 1
71 2
72 4 91 1
73 3 93 1
74 2 96 1
VARIABLES CONTÍNUAS
Tablas de Distribución de Frecuencias
Calificaciones obtenidas por un grupo de estudiantes
en el Taller de Cálculo Integral, en el año 1995.
36 71 84 74 77 81 55 86 100 53
100 CLASES = 5 a 20
73 85 76 80 83 65 89 93 44 72 De igual anchura
82 74 78 84 55 87 99 51 76 85
Ej. 7 clases
73 79 82 63 88 98 46 72 82 74
78 87 85 55 87 92 54 77 86 73
80 83 66 90 46 72 82 74 79 85 Amplitud = 100 – 36 = 64
56 87 52 73 85 76 80 83 64 88
54 73 86 77 80 84 70 92 48 72 Clases = Raíz(n)
82 76 79 85 62 Clases: 2k >= n
Regla de Herver Sturges (1926)
C = 1 + logN (n)
36 64 100
C = 1 + 3,332 log10(n)
Tablas de distribución de frecuencias...
Amplitud 64
Intervalo de clase = = = 9,14 10
N° Clases 7
9 * 7 = 63 – 64 = - 1 Falta
36 64 100
33 70 103
30 70 100
Intervalos de clase
li < Dato Ls
30 < Dato 40 31 40 41 50 51 60
Intervalos de clase, Valor Medio y Frecuencia Absoluta
( 40 ; 50] 73 85 76 80 83 65 89 93 44 72
( 40 + 50) / 2 = 45 4
82 74 78 84 55 87 99 51 76 85
( 50 ; 60] ( 50 + 60) / 2 = 55 9
73 79 82 63 88 98 46 72 82 74
( 60 ; 70] ( 60 + 70) / 2 = 65 6 78 87 85 55 87 92 54 77 86 73
( 70 ; 80] ( 70 + 80) / 2 = 75 30 80 83 66 90 46 72 82 74 79 85
( 80 ; 90] ( 80 + 90) / 2 = 85 29 56 87 52 73 85 76 80 83 64 88
54 73 86 77 80 84 70 92 48 72
( 90 ; 100] ( 90 + 100) / 2 = 95 6
82 76 79 85 62
85
Frecuencias relativas y Absolutas
Tabla 2.9 Tabla de Distribución de frecuencias o Tabla de frecuencias
Clases Vi fi pi Fi Datos Pi
originales
( 30 ; 40] 35 1 1 / 85 36 711 84 74 771 / 81
85 55 86 100 53
( 40 ; 50] 45 4 4 / 85 73 855 76 80 835 / 65
85 89 93 44 72
( 50 ; 60] 55 82 7414 78 84 55
14 / 87
85 99 51 76 85
9 9 / 85
73 79 82 63 88 98 46 72 82 74
( 60 ; 70] 65 6 6 / 85 20 20 / 85
78 87 85 55 87 92 54 77 86 73
( 70 ; 80] 75 30 30 / 85 80 8350 66 90 50 / 72
46 85 82 74 79 85
( 80 ; 90] 85 29 29 / 85 56 8779 52 73 85
79 / 76
85 80 83 64 88
54 73 86 77 80 84 70 92 48 72
( 90 ; 100] 95 6 6 / 85 85 85 / 85
82 76 79 85 62
85
44 + 46 + 46 + 48 = 46
4
Salto Tabla doble entrada
Pérdida de información contenida en los datos originales.
GRÁFICO DE RAMA Y HOJA (Stem-and-leaf display)
Técnica empleada para representar los datos cuantitativos de una forma condensada.
Ventaja sobre la distribución de frecuencias, NO existe pérdida de información de cada
observación individual.
Cada valor se divide en dos porciones: una rama y una hoja.
Las hojas de cada rama se muestran de forma separada.
Ej.: Los siguientes datos muestran los resultados de 30 estudiantes en una prueba de estadística.
75 52 80 96 65 79 71 87 93 95 69 72 81 61 76
86 79 68 50 92 83 84 77 64 71 87 72 92 57 98
Se separa la nota en dos partes:
La primera parte contiene el primer dígito, la cual se denomina RAMA.
La segunda parte contiene el segundo dígito, se denomina HOJA.
5 2 0 7 5 0 2 7
6 5 9 1 8 4 6 1 4 5 8 9
7 5 9 1 2 6 9 7 1 2 7 1 1 2 2 5 6 7 9 9
8 0 7 1 6 3 4 7 8 0 1 3 4 6 7 7
9 6 3 5 2 2 8 9 2 2 3 5 6 8
La rama 7 tiene mayor frecuencia. Hojas ordenadas.
GRÁFICO DE RAMA Y HOJA (Stem-and-leaf display) …
Si en los datos hay valores de 3 dígitos (354) y también de 4 dígitos (3257), se toma como
rama el primer dígito de los valores de 3 y los dos primeros dígitos de los valores de 4.
En algunos casos, el gráfico tiene muchas ramas y algunas con pocas hojas. En tales casos
se condensa el gráfico agrupando las ramas, por ejemplo: las 3 primeras, las 3 siguientes y
así sucesivamente. Las hojas de las diferentes ramas agrupadas se separan con *.
1 3 5
2 2 5 6
3 0 1
1-3 3 5 * 2 5 6 * 0 1
4 2 3 6
4-6 2 3 6 * 0 * 5 6
5 0
7-9 0 3 9 * 1 5 7 * 2 6
6 5 6
7 0 3 9
8 1 5 7
9 2 6
Datos :
Si alguna rama no tiene hojas se indica en el 21 25
2-5 1 5 * * 3 8 * 0
gráfico colocando 2 asteriscos seguidos. Ej.: 43 48
50
REPRESENTACIÓN TABULAR DE DOS CONJUNTOS DE DATOS
X ( l 1 , L1 ] ( l 2 , L2 ] . ( l i , Li ] . ( l k , Lk ] Total
Y V1 V2 Vi Vk
( l’1 , L’1 ] p11 p11 . pi . p1k
v ’1
( l’2 , L’2 ] p21 p22 . p2i . p2k
v ’2
. . . . . . .
(0,938; 1,000] p51 = 2/96 p53 = 7/96 p54 = 5/96 p55 = 2/96 . 20/96
v ’5 = 0,969
. . . . . . . .
9 26 8
10 30 8
Ejemplo
Diagramas de puntos.
Histogramas
Polígonos de frecuencias
Ojivas o PFA
Diagrama de puntos
2250
N° Facultades Estudiantes
2000
1750
1 Ciencias de la Educación 2136
0
1 2 3 4 5 6
Facultades
Diagrama de puntos... Calificación
31
Estudiantes
1
52 1
57 2
58 1
60 1
61 2
62 3
64 2
66 1
67 1
68 2
69 1
30 35 45 50 55 60 65 70 75 80 85 90 95 100
Calificación 70 1
71 2
72 4
73 3
74 2
Diagrama de dispersión
Cuando se estudia la asociación entre 2 variables (X e Y) es muy útil hacer
un diagrama de dispersión.
Es un gráfico en el que cada observación está representada en el plano XY
por un punto cuyas coordenadas están dadas por los valores registrados en
ambas variables.
Ej. Si se hace un experimento en maní en el que a distintas parcelas se agregan números crecientes de
aplicaciones de un fungicida y se registra el rendimiento final, se podrían obtener los resultados
mostrados en el Tabla 1.5.
se puede visualizar la existencia de una
asociación positiva entre el rendimiento y
el número de aplicaciones del fungicida
Días de frío y número de callos obtenidos a partir de 200 Tendencia decreciente del
anteras cultivadas. número de callos formados
en función del número de
días de frío y la forma en
que esto ocurre.
Se observa una fuerte caída
inicial para luego llegar a
una situación de estabilidad
con una leve.
25 ( 50 ; 60] 9
20 ( 60 ; 70] 6
15 ( 70 ; 80] 30
10 ( 80 ; 90] 29
5 ( 90 ; 100] 6
0
30 40 50 60 70 80 90 100
Calificaciones
Polígono de Frecuencias
Eje horizontal: valores medios de clase.
Eje vertical: frecuencias relativas o absolutas.
Vi fi
35
35 1
30 45 4
25 55 9
N° Estudiantes
20
65 6
30
15
75
10
85 29
5
0 95 6
30 35 45 55 65 75 85 100
95 100
Calificaciones
Ojiva o PFA
Eje horizontal: límites superiores de clase.
Eje vertical: frecuencias relativas o absolutas ACUMULADAS.
Li Fi
40 1
90
85 80 50 5
70
60 14
Nº Estudiantes
60
50 70 20
40
80 50
30
20 90 79
10
100 85
0
30 40 50 60 70 80 90 100
Calificaciones
Gráfico de una tabla de doble entrada
pij
p11 = 1/10
4/10
1 2 3
X p23 = 1/10
1
2 p32 = 1/10
3
Y
Gráficos para variables cualitativas
• Diagramas de barras
– Alturas proporcionales a las
frecuencias (absolutas o relativas)
– Se pueden aplicar también a
variables discretas
• Pictogramas
– Fáciles de entender.
– El área de cada modalidad debe ser proporcional a la frecuencia.
255
Recuento
215
Diagramas de barras para 200
54
Número de hijos
250
Recuento
El área que hay bajo el 150
individuos en el intervalo.
20 40 60 80
¿Qué se puede decir del peso de las larvas de los distintos estadios?
Las distribuciones están posicionadas de manera diferente, siendo las larvas de estadio 3 las más
pesadas, luego las de estadio 2 y finalmente las de estadio 1.
La variación, al menos en términos absolutos, va incrementándose a medida que aumenta el peso
promedio de las larvas.
La distribución es asimétrica con valores extremos o muy extremos sólo a la derecha de la media.
La asimetría tiende a disminuir con el aumento del peso, esto indica que la distribución es más asimétrica
en las larvas de estadio 1 que en las de estadio 2 ó 3. Esto se puede visualizar por la cantidad de valores
muy extremos.
Gráfico de puntos (Dot-Plot)
A veces el tamaño de la muestra es pequeño y los cuantiles muestrales que de ella se obtienen no son
confiables desde el punto de vista estadístico, en estas condiciones un box-plot, no es adecuado.
En ciertas ocasiones no sólo se quiere tener una imagen de los aspectos generales de la distribución sino,
también, una visualización de los valores efectivamente observados. En estos casos el dot-plot, puede ser la
representación más satisfactoria.
Consiste en dibujar un punto por cada uno de los valores observados en la muestra, ubicados según una
escala (la recta real) que se pone como referencia. Cuando hay más de una observación con el mismo valor,
ésta se representa con otro punto ubicado en posición contigua al anterior y así́ sucesivamente con el resto de
las observaciones repetidas.
1 3 5
2 2 5 6
3 0 1
1-3 3 5 * 2 5 6 * 0 1
4 2 3 6
4-6 2 3 6 * 0 * 5 6
5 0
7-9 0 3 9 * 1 5 7 * 2 6
6 5 6
7 0 3 9
8 1 5 7
9 2 6
Datos :
Si alguna rama no tiene hojas se indica en el 21 25
2-5 1 5 * * 3 8 * 0
gráfico colocando 2 asteriscos seguidos. Ej.: 43 48
50
¿Qué hemos visto?
• DIAGRAMAS INTEGRALES
MEDIDAS DESCRIPTIVAS
Posición y Forma
Tendencia Central.
Dispersión
Asociación
ESTADISTICOS
ESTADISTICOS
• Posición
– Dividen un conjunto ordenado de datos en grupos
con la misma cantidad de individuos.
• Cuantiles: percentiles, cuartiles, deciles,...
• Centralización
– Indican valores con respecto a los que los datos
parecen agruparse.
• Media, mediana y moda
• Dispersión
– Indican la mayor o menor concentración de los
datos con respecto a las medidas de centralización.
• Desviación típica, coeficiente de variación,
rango, varianza
• Forma
– Asimetría
– Apuntamiento o curtosis
Estadísticos de posición
• Se define el cuantil de orden α como un valor de la variable por
debajo del cual se encuentra una frecuencia acumulada α.
Cuantil 0,70
Estadísticos de posición
• Percentil de orden k = cuantil de orden k/100
– La mediana es el percentil 50
– El percentil de orden 15 deja por debajo al 15% de las
observaciones. Por encima queda el 85%
5% 95%
75%
25%
90%
5% 5%
50%
25% 25%
1º Cuartil 3º Cuartil
Ejemplo
70
Estadísticos
PESO 60
Percentiles 25 60,00
50 70,00 50
75 80,00
40
Estadísticos
Percentiles?
Ejemplo Número de años de es colarización
N Válidos 1508
Perdidos 0
Media 12,90
Cuántos años de escolarización, es el percentil 20? Mediana 12,00
Moda 12
Cuántos años de escolarización, es el percentil 90? Percentiles 10 9,00
20 11,00
Número de años de escolarización 25 12,00
30 12,00
Porcentaje 40 12,00
Frecuencia Porcentaje acumulado 50 12,00
3 5 ,3 ,3 60 13,00
4 5 ,3 ,7 70 14,00
5 6 ,4 1,1 75 15,00
6 12 ,8 1,9 80 16,00
7 90 16,00
25 1,7 3,5
8 68 4,5 8,0
9 56 3,7 11,7
10 73 4,8 16,6
11 85 5,6 22,2 ≥20%?
12 461 30,6 52,8
13 130 8,6 61,4
14 175 11,6 73,0
15 73 4,8 77,9
16 194 12,9 90,7 ≥ 90%?
17 43 2,9 93,6
18 45 3,0 96,6
19 22 1,5 98,0
20 30 2,0 100,0
Total 1508 100,0
Media aritmética
La media aritmética es la más usada de las medidas descriptivas. Tiene la ventaja de ser
muy fácil de calcular, además de poseer propiedades teóricas excelentes desde el punto de
vista de la estadística inductiva. Su principal desventaja es que, por ser el punto de
equilibrio de los datos, es muy sensible a la presencia de observaciones extremas.
x1 = 2 x2 = 12 x3 = 9 x4 = 10 x5 = 7 2 12 9 10 7
x 8
5
n
x8
x i
i1
x
n
2 4 6 8 10 12
1 kg 1 kg 1 kg 1 kg 1 kg
Ventajas de la Media Aritmética
Es fácil comprender su significado, ya que no es más que un promedio.
Existe y es única para toda muestra de valores en una escala cuantitativa continua.
Es más confiable que otras medidas de tendencia central, esto es, presenta una
variabilidad menor de muestra a muestra
Principal Desventaja
Valores extremos pueden distorsionarla.
(Esto puede evitarse eliminando los errores de las observaciones y los individuos
presuntamente atípicos).
CÁLCULO DE LA MEDIA ARITMÉTICA EN TABLAS DE FRECUENCIAS
Clases Vi fi pi Vifi piVi
( 30 ; 40] 35 1 0,012 1 x 35 = 35 0,412
( 40 ; 50] 45 4 0,047 4 x 45 = 180 2,118
( 50 ; 60] 55 9 0,106 495 5,824
( 60 ; 70] 65 6 0,071 390 4,588
( 70 ; 80] 75 30 0,353 2 250 26,471
( 80 ; 90] 85 29 0,341 2 465 29,000
( 90 ; 100] 95 6 0,071 570 6,706
85 1,000 6 385 75,118
k
fV i i
6 385
x i 1
75,12
n 85
El valor real de la media, utilizando los datos individuales, es: 75,24
MEDIANA
De un conjunto de n números, ordenados de menor a mayor, es el número central en el arreglo.
Peso (Kg): 63 52 78 49 71 62 68 48 56 67
62 63
ordenar: 48 49 52 56 62 63 67 68 71 78 Me 62,5
2
Clases Vi fi pi Pi
( 30 ; 40] 35 1 0,012 0,012
( 40 ; 50] 45 4 0,047 0,059
( 50 ; 60] 55 9 0,106 0,165
( 60 ; 70] 65 6 0,071 0,235
Clase de la ( 70 ; 80] 75 30 0,353 0,588
Mediana
( 80 ; 90] 85 29 0,341 0,929
( 90 ; 100] 95 6 0,071 1,000
85 1,000
Mediana … Clases Vi Pi
Me =fi 70 + zpi
( 30 ; 40] 35 1 0,012 0,012
0,50 - 0,235 = 0,265 ( 40 ; 50] Me =
45 70 +
4 7,500,047
= 77,50 0,059
( 50 ; 60] 55 9 0,106 0,165
0,50
( 60 ; 70] 65 6 0,071 0,235
( 70 ; 80] 0,353
75
30 100,353 0,588
Me
( 80 ; 90] 0,265
85 z 0,341
29 0,929
0,235 z 0,588 ( 90 ; 100] 95 6 0,071 1,000
(0,26585
)(10) 1,000
Z 7,50
( 70 ; 80] 0,353
0,353
10
10 7 8 7 9 8 7 9 Mo = 7
6 7 8 9 10 11
x Me Mo 8,5
MODA EN TABLAS DE FRECUENCIAS
Cuando se calculan en una tabla de frecuencias, la moda adquiere mayor importancia, ya que es
más frecuente que sea un valor único.
Para propósitos descriptivos es suficiente reportar la clase modal, que es la clase cuya frecuencia
absoluta es mayor. Si se desea un valor único se toma el valor medio de la clase modal.
Clases Vi fi pi Pi
( 30 ; 40] 35 1 0,012 0,012
( 40 ; 50] 45 4 0,047 0,059
( 50 ; 60] 55 9 0,106 0,165
( 60 ; 70] 65 6 0,071 0,235
Clase
Modal ( 70 ; 80] 75 30 0,353 0,558
( 80 ; 90] 85 29 0,341 0,929
( 90 ; 100] 95 6 0,071 1,000
85 1,000
Altura mediana
Resumen...
Datos sin agrupar Tabla de frecuencias
x = Me = Mo Simétrica
• MEDIDAS DESCRIPTIVAS
• ESTADÍTICOS DE POSICIÓN
– CUÁNTILES
• Percentiles
• Cuartiles
• Deciles
• Quintiles
– MEDIA ARITMÉTICA
– MEDIANA
– MODA
MEDIDAS DE DISPERSIÓN
Amplitud
a)
A = 20 – (-4) = 24
-4 -2 0 2 4 6 8 10 12 14 16 18 20
x = Me = Mo = 8
b) A = 13 – 3 = 10
-4 -2 0 2 4 6 8 10 12 14 16 18 20
x = Me = Mo = 8
Desviación Media
xi xi x l xi x l n=8
6 6–3=3 3
2 2–3=–1 1 24
x 3
5 5–3=2 2 8
4 4–3=1 1
7 7–3=4 4 20
DM 2,5
-1 –1–3=–4 4 8
1 1–3=–2 2
1 n
0 0–3=–3 3 DM x i x
n i1
=24 =0 = 20
x
n
i x 0
i 1
Varianza y Desviación Estándar o Típica
xi xi x ( x i x )2
63 1,6 2,56 896,40
s2 99,60 kg2
52 – 9,4 88,36 10 1
78 16,6 275,56
s 99,60 9,98 kg
49 – 12,4 153,76
9,6 92,16
2
71 1 n
62 0,6 0,36
2
s
n 1 i1
xi x
68 6,6 43,56
48 – 13,4 179,56 n
2
n x i
-5,4 29,16 1 x2 i1
56 s2 i
n 1 i1 n
5,6 31,36
67
V x f
2
(70 ; 80] 75 30 -0,12 0,01 0,43 1 k
s2 i i
(80 ; 90] 85 29 9,88 97,61 2830,82 n 1 i1
85 14698,82 Vi f i
Vi f i i 1
1 k 2
s
2
n 1 i 1 n
k
fV i i
6 385
x i1
75,12
n 85
OBSERVACIONES SOBRE LA VARIANZA
1. La varianza es una medida de la dispersión o variabilidad de los datos respecto al valor medio.
2. Si todos los valores son iguales, la varianza es nula y si los valores son diferentes, la varianza
es positiva. Además, la magnitud de la dispersión es más pequeña para un conjunto de valores
más próximos a la media que para otro conjunto integrado por valores más alejados de la
misma media.
VENTAJAS:
• Es fácil comprender su significado, porque se interpreta como un promedio de los cuadrados de
las desviaciones de los datos respecto a la media.
• Existe y es única para toda muestra de valores en una escala cuantitativa continua.
• Toma en cuenta la magnitud de todos y cada uno de los datos de la muestra.
• Es un "buen estimador" de la varianza poblacional.
DESVENTAJAS:
1. No se expresa en las mismas unidades que los datos originales, sino en unidades cuadradas,
las que, en las situaciones usuales en Bioestadística, carecen de interpretación física.
2. Puede conducirnos a conclusiones erróneas si no la comparamos con la media muestral. (Se
utiliza con este fin el "coeficiente de variación").
3. Mediante un cambio de escala ella se transforma según el cuadrado del factor de escala.
COEFICIENTE DE VARIACIÓN
Las medias y desviaciones estándar para los Pesos (X) y Estaturas (Y) de 10 alumnos son:
s
Peso (X) Estatura (Y) CV(%) .100
x
Kg cm
Media 61,4 161,3
9,98 kg
CV ( X ) .100 16,25 %
Desviación 9,98 7,60 61,4 kg
estándar
7,60 cm
CV (Y ) .100 4,71 %
161,3 cm
En este caso, el peso tiene mayor variabilidad que la estatura, para los 10 alumnos
OBSERVACIONES SOBRE EL CV
1. La varianza y la desviación estándar, son útiles como medidas de variación dentro de un
conjunto determinado de datos. Sin embargo, cuando se desea comparar la dispersión en dos o
más conjuntos de datos, la comparación de dos desviaciones estándar puede conducir a
resultados erróneos. Además, puede suceder que las dos variables involucradas estén medidas
en diferentes unidades. Por otra parte, a pesar de que se use la misma unidad de medida, las
dos medias pueden ser bastante diferentes, y la comparación de las desviaciones estándar
correspondientes no tiene mucho sentido. Lo que se necesita en situaciones como estas es una
medida de variación relativa más que de variación absoluta.
4. El CV es también útil al comparar los resultados obtenidos por diferentes personas que
conducen investigaciones que involucran la misma variable, y al comparar los resultados
obtenidos mediante distintas técnicas.
MEDIDAS DE DISPERSIÓN:
1. Las tres medidas de dispersión que se usan en la práctica son la amplitud, la desviación
estándar y el coeficiente de variación.
2. La amplitud se usa por ser muy fácil de calcular. Por estar basada sólo en dos valores, es la
medida de dispersión más sensible a observaciones extremas.
3. La desviación estándar tiene las mismas ventajas y desventajas que la media aritmética. Es
indispensable en estadística inductiva.
4. Por ser independiente de las unidades de medición, el coeficiente de variación es la medida
apropiada para comparar la variabilidad de dos conjuntos de datos.
¿Qué hemos visto?
• COEFICIENTE DE VARIACIÓN
MEDIDAS DE ASOCIACIÓN
COVARIANZA
COEFICIENTE DE CORRELACIÓN
x
1
COVARIANZA
n
s xy i x yi y
n 1 i1
Peso Estatura xi x y i y ( x i x )( y i y)
(x) (Y)
1 63 162 1,6 0,7 1,12
2 52 158 -9,4 -3,3 31,02
3 78 167 16,6 5,7 94,62
1
4 49 151 -12,4 -10,3 127,72
s xy 529,8
5 71 162 9,6 0,7 6,72 10 1
6 62 168 0,6 6,7 4,02
7 68 167 6,6 5,7 37,62
8 48 153 -13,4 -8,3 111,22
s xy 58,87 kg.cm
9 56 152 -5,4 -9,3 50,22
10 67 173 5,6 11,7 65,52
Total 614 1613 529,8
Media 61,4 161,3
COVARIANZA Forma abreviada
Peso Estatura XY n n
(x) (Y) xi yi
1 n i 1 i 1
1 63 162 10206
sxy i i
n 1 i 1
x y
n
2 52 158 8216
3 78 167 13026
4 49 151 7399
5 71 162 11502
s xy
1
99 568
6141613
6 62 168 10416 10 1 10
7 68 167 11356
8 48 153 7344 s xy 58,87 kg.cm
9 56 152 8512
10 67 173 11591
Total 614 1613 99 568
OBSERVACIONES SOBRE LA COVARIANZA:
1. La covarianza es un estadígrafo asociado a un par de muestras X y Y de variables
aleatorias distintas. Se expresa en unidades iguales al producto de las unidades
originales de ambas muestras.
4. Si comparamos las ecuaciones para sxy (covarianza entre X y Y) y sx² (la varianza de
X), podemos observar que, si imaginamos una ecuación para la covarianza de X
consigo misma, obtenemos la ecuación de la varianza; es decir, que podemos pensar
en la varianza como un caso especial de la covarianza.
CORRELACIÓN
Peso Estatura
Peso (X) Estatura (Y)
(x) (Y)
Kg cm
1 63 162
Desviación estándar 9,98 7,60
2 52 158
3 78 167 Covarianza 58,87 kg.cm
4 49 151
5 71 162
6 62 168 s xy
7 68 167 rxy
sx s y
8 48 153
9 56 152
10 67 173
58,87 kg.cm
rxy 0,78
Total 614 1613
9,98 kg 7,60 cm
Diagrama de puntos
Peso Estatura
(x) (Y)
175 1 63 162
170 2 52 158
Estatura (cm)
165 3 78 167
160 4 49 151
155 5 71 162
145
7 68 167
40 50 60 70 80 8 48 153
Peso (kg) 9 56 152
10 67 173
Algunos valores de r
rxy= - 1
rxy= + 1
rxy= 0
OBSERVACIONES SOBRE EL COEFICIENTE DE CORRELACIÓN
3. Los valores positivos de r muestran que Y tiende a aumentar con valores crecientes
de X (y viceversa) (relación lineal directa), pero si r es negativo, entonces Y
disminuye al aumentar X (y viceversa) (relación lineal inversa).
• La asimetría es positiva o
negativa en función de a qué
lado se encuentra la cola de la
distribución.
• La asimetría es adimensional.
Apuntamiento o curtosis
160
La curtosis nos indica el grado de apuntamiento
(aplastamiento) de una distribución con respecto 140
adimensional.
100
Frecuencia
60
Mesocúrtica: curtosis = 0 40
45 48 51 54 57 60 63 66 69 72 75 78 81 84
300
Los gráficos poseen la 200
100
Frecuencia
Frecuencia
sx es la desviación estándar de X
ax
(s x ) 3
INTERPRETACIÓN
Si existen observaciones muy grandes en relación con la media, el coeficiente
de asimetría tendrá un valor positivo.
Si existen observaciones muy pequeñas (menores que la media), el coeficiente
será negativo.
Si las observaciones están simétricamente distribuidas alrededor de la media, el
coeficiente tendrá un valor cero.
Ej. 2.19. Calcule el coeficiente de asimetría.
xi x i x x x x x
i
2
i
3 x = Me = Mo = 8,5
1 n
6,2
7,9
-2,3
-0,6
5,29
0,36
-12,167
-0,216
n i 1
( x i x ) 3
ax
8,1 -0,4 0,16 -0,064 (s x ) 3
8,5 0,0 0,00 0,000
s 11,62 1,66
8,5 0,0 0,00 0,000 2 1
x
8,9 0,4 0,16 0,064 7
9,1 0,6 0,36 0,216
10,8 2,3 5,29 12,167 sx3 = 2,1388
68 0 11,62 0,000
1
(0)
ax 8 0
6 7 8 9 10 11 2,1388
COEFICIENTE DE CURTOSIS
Analiza el grado de concentración que presentan los
valores alrededor de la zona central de la distribución
V x f
n
4
i i
i 1
n
f i
k i 1
4
3
s
COEFICIENTE DE CURTOSIS
50 1787156,56
20
15
1 787 156,56 10
k 50 3 0,584
5
0
4
(11,029) 1 45 2 55 3 65 4 75 5 85 6 95
MEDIA PODADA
• MEDIDAS DE ASOCIACÍON
– Covarianza
– Coeficiente de Correlación
• COEFICIENTE DE ASIMETRÍA
• COEFICIENTE DE CURTOSIS
• MEDIA PODADA
• MEDIA DE WINDSOR
Hasta la próxima
determinismo. (De determinar). m. Teoría que supone que la evolución
de los fenómenos naturales está completamente determinada por las
condiciones iniciales. || 2. Fil. Sistema filosófico que subordina las
determinaciones de la voluntad humana a la voluntad divina. || 3. Fil.
Sistema que admite la influencia irresistible de los motivos.
Biblioteca de Consulta Microsoft® Encarta® 2005. © 1993-2004
Microsoft Corporation. Reservados todos los derechos.
estocástico, ca. (Del gr. στοχαστικός, hábil en conjeturar). adj.
Perteneciente o relativo al azar. || 2. f. Mat. Teoría estadística de los
procesos cuya evolución en el tiempo es aleatoria, tal como la
secuencia de las tiradas de un dado.
Biblioteca de Consulta Microsoft® Encarta® 2005. © 1993-2004
Microsoft Corporation. Reservados todos los derechos.
Cero absoluto, la menor temperatura teóricamente posible. El cero absoluto
corresponde a -273,15 °C, o cero en la escala termodinámica o Kelvin (0 K).
( 70 ; 80] 75 30 30 / 85 50 50 / 85
( 80 ; 90] 85 29 29 / 85 79 79 / 85
( 90 ; 100] 95 6 6 / 85 85 85 / 85
85
Back