Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
ELABORARON
1998
ÍNDICE
1 CONCEPTOS BÁSICOS 11
1.1 CONCEPTO DE ESTADÍSTICA 13
1.2 CLASIFICACIÓN Y CAMPO DE APLICACIÓN DE LA ESTADÍSTICA 14
1.3 DATO ESTADÍSTICO 15
1.4 POBLACIÓN Y MUESTRA 16
1.5 VARIABLES Y SU CLASIFICACIÓN 17
1.6 FUENTES DE ADQUISICIÓN DE DATOS 19
1.7 SELECCIÓN DE LA MUESTRA DE UNA POBLACIÓN 20
1.8 NIVELES O ESCALAS DE MEDICIÓN 22
2 REPRESENTACIÓN DE DATOS 31
2.1 REPRESENTACIÓN TABULAR DE DATOS 33
2.2 DISTRIBUCIÓN O TABLA DE FRECUENCIA SIMPLE 33
2.3 DISTRIBUCIÓN DE FRECUENCIA 44
FRECUENCIA ACUMULADA 44
FRECUENCIA RELATIVA 45
FRECUENCIA RELATIVA ACUMULADA 46
2.4 REPRESENTACIÓN GRÁFICA 47
GRÁFICA DE BARRAS 48
HISTOGRAMA DE FRECUENCIAS 50
POLÍGONO DE FRECUENCIA 53
OJIVA 56
CIRCULOGRAMA 58
CONCEPTOS BÁSICOS
La estadística, tuvo sus inicios en los grandes imperios de la antigüedad,
los primeros antecedentes que se conocen para llevar un registro de sus
pertenencias, son las tablillas de arcilla utilizadas por lo babilonios 5000 a.c. Más
tarde las culturas realizaron registros de bienes, soldados esclavos etc., y más
tarde implementaron los censos de población, Una de las primeras obras que se
conocieron, fue donde se aplicaron las técnicas estadísticas descriptivas que
explican la importancia de los censos.
APLICACIONES DE LA ESTADÍSTICA.
Para aplicar las técnicas estadísticas con eficiencia, se requiere por parte
del investigador conocer ampliamente el área de estudio.
Existen varias razones por las cuales en la mayoría de los casos en que se
realiza un estudio estadístico, este se aplica sobre una muestra y no sobre una
población, las principales son:
b) Resulta más económico estudiar los elementos de una muestra que sea
representativa de la población, que toda la población, puesto que se tiene
un ahorro en tiempo y dinero.
CONCEPTOS BÁSICOS 17
Las variables se asignan mediante una letra, las más comunes son x,y,z:
Por ejemplo cuando se están estudiando varias características de un conjunto
formado por varias personas, como son, su peso, estatura y sexo. Las variables se
asignan de la siguiente manera:
Para identificar los diferentes valores de los elementos sobre una misma
característica, a la variable se le asigna un subíndice que por lo común es la letra i,
la cual va tomando o adquiriendo valores enteros positivos y consecutivos a partir
de uno.
|cualitativas
|
Variables
| |discretas
|cuantitativas
|continuas
No existe una forma general para seleccionar una muestra y que esta sea
representativa de la población en un 100% por lo que se debe utilizar el método
que más se apegue y que garantice la selección adecuada al problema que se está
analizando. En este texto se presentan solo algunas formas que existen para
seleccionar una muestra, corresponde al lector elegir cual es la que usará.
mismo número que los seleccionados en la tabla o con la calculadora; los números
que aparecen en la tabla o en la calculadora mayores de 500 se omiten.
1)
Dónde:
n es el tamaño de la muestra que desea obtener.
N el número de elementos de la población.
e es el error máximo que se tiene con un intervalo de confianza del
95.44%
n= 352.94
2)
3)
CONCEPTOS BÁSICOS 22
c) Otros criterios:
El primer paso para organizar los datos, consiste en identificar el tipo de datos
que se tienen, los cuales pueden ser cualitativos o cuantitativos.
Una vez terminada la tabulación se cuentan los elementos que contiene cada
clase o categoría y se anota el valor en otra columna que se denomina frecuencia.
Ejemplo 1
verde azul verde rojo gris café gris rojo negro negro azul azul
rojo verde rosa blanco verde beige azul gris verde negro verde verde
rosa rojo vino azul verde vino café verde anaranjado rojo rojo
beige azul azul blanco negro negro azul negro rosa rojo rosa rojo
beige azul gris anaranjado gris beige blanco beige azul gris rojo
rosa anaranjado negro rojo rojo verde azul café verde rojo rojo
café gris beige café gris negro anaranjado negro café negro rosa
Con cada uno de estos atributos, se construye una clase y se coloca en una
columna que corresponde a los colores.
COLOR
Verde
Azul
Rojo
Gris
Café
Negro
Rosa
Blanco
Beige
Vino
Anaranjado
COLOR TABULACIÓN
Verde ||||| ||||| |
Azul ||||| ||||| |
Rojo ||||| ||||| |||
Gris ||||| |||
Café ||||| |
Negro ||||| |||||
Rosa ||||| |
Blanco |||
REPRESENTACIÓN DE DATOS 35
Beige ||||| |
Vino ||
Anaranjado ||||
2. Se determina la variación que se presenta en los datos, esto es, la diferencia entre
los datos diferentes más cercanos, por ejemplo; sí se tienen los datos 3, 8, 6, 5, 7, 7, 4,
su variación es igual a uno.
Para los datos 100, 110, 125, 135, 130, 120, 125 su variación es 5.
Para los datos 10, 90, 80, 60, 30, 40, 60, 50, 20 su variación es 10.
Para los datos 5.7, 8.1, 6.4, 7.6, 6.5, 9.2, 7.7, 5.6 su variación es 0.1
3. Toca al estudiante elegir el número de intervalos con los cuales desea trabajar o el
tamaño que deben tener los intervalos que se van a formar, se puede optar
cualquiera de los siguiente criterios.
Rango + variación
Tamaño del intervalo = --------------------------
Número de intervalos
Rango + variación
Número de intervalos = ---------------------------
Tamaño del intervalo
Ejemplo 2.
65 39 32 92 76 54 87 43 54 23 56 34
45 78 65 23 65 34 56 87 54 68 87 56
42 48 54 87 65 51 40 46 65 60 28 55
50 30 75 75 72 35 52 50 40 53 40 30
45 60 40 92 91 41 75 38 42 56 38 54
45 52 65 47 50 50 50 48 51 60 61 58
40 60 46 70 30 60 23 85 85 84 53 80
52 48 75 86 85 82 45 57 57 53 26 58
65 70 60 70 30 25 75 65 65 66 63 60
60 92 38 45 60 78 73 57 57 55 53 60
Dato mayor 92
Dato menor 23
Rango = 69
REPRESENTACIÓN DE DATOS 38
!"
#$%
%&
'
El tamaño resulto entero, por lo que el límite inferior del primer intervalo se
hace coincidir con el dato menor y a partir de aquí se construyen los 10 intervalos,
observe que el límite superior del último intervalo coincide con el valor del mayor que
es 92, se realiza la tabulación y se obtiene la frecuencia, (número de elementos que
tiene cada intervalo), esto es.
()
*+,
()
-
.
/ 0
1
REPRESENTACIÓN DE DATOS 39
Por ejemplo, el límite superior del intervalo uno que es igual a 29, se
determinó como 23+7-1=29.
5 14 52 86 59 74 71 42 45 43 56 42
47 77 52 56 69 91 14 45 57 78 86 62
4 12 7 9 25 13 81 24 37 45 53 11
8 91 95 86 34 43 45 51 22 27 30 15
14 25 18 35 69 92 85 84 41 52 56 53
14 45 32 38 38 40 57 36 52 53 23 6
94 8 10 60 67 66 65 63 72 51 46 20
Valor mayor 95
–
Valor menor 4
Rango 91
La variación = 1
2
*
3 !
$%%
2
*
%%
2
* 4567
Obsérvese que tanto en esta tabla como en la anterior, existen valores que no
se consideran en ningún intervalo de clase (como son los valores comprendidos entre
el límite superior y el límite inferior del siguiente intervalo) como es el caso de este
último ejemplo de los datos 33.9 y 44.1
Para resolver este problema se construyen los límites reales de clase, límites
verdaderos de clase, o fronteras de clase.
Los límites reales de clase, son valores que evitan huecos entre un intervalo y
el siguiente. Sus valores se obtienen como el punto medio del límite superior y el
REPRESENTACIÓN DE DATOS 41
límite inferior del siguiente intervalo, resultando que el límite real superior de un
intervalo es igual que el límite real inferior del intervalo siguiente.
Ahora bien, al tabular un valor tal como el 33.5, se observa que este valor se
encuentra en el intervalo 3 y en el intervalo 4, este texto utiliza el criterio de tabularlo
en el primer intervalo en que aparece dicho dato, esto es, en el intervalo número 3.
Ejemplo 4.
1 – ½ (1) = 0.5
99 + ½ (1) = 99.5
ñ
(
*+,
/ (
-
Ejemplo 5.
MARCA DE CLASE
o bien
Ejemplo 6
En los siguientes conjuntos de datos se ha obtenido la marca de clase:
a) INTERVALO Mi b) INTERVALO Mi
10-15 12.5 1.00-1.09 1.045
15-20 17.5 1.10-1.19 1.145
20-25 22.5 1.20-1.29 1.245
25-30 27.5 1.30-1.39 1.345
30-35 32.5 1.40-1.49 1.445
35-40 37.5 1.50-1.59 1.545
40-45 42.5 1.60-1.69 1.645
45-50 47.5 1.70-1.79 1.745
50-55 52.2 1.80-1.89 1.845
REPRESENTACIÓN DE DATOS 44
FECUENCIA ACUMULADA.
Ejemplo 1
b)
INTERVALO FREC. FRECUENCIA
ACUMULADA
10-17 15 15
18-25 38 53
26-33 57 110
34-41 41 151
42-49 22 173
50-57 16 189
58-65 11 200
REPRESENTACIÓN DE DATOS 45
FRECUENCIA RELATIVA.
Ejemplo 2
Frecuencia
Marca Frecuencia Frecuencia
Intervalo Frec. Relativa
de clase Acumulada Relativa
Acumulada
100 - 108 34 104 34 0.0756 0.0756
109 - 117 45 113 79 0.1000 0.1756
118 - 126 78 122 157 0.1733 0.3489
127 - 135 112 131 269 0.2489 0.5978
136 - 144 89 140 358 0.1978 0.7956
145 - 153 63 149 421 0.1400 0.9356
154 - 162 29 158 450 0.0644 1.0000
REPRESENTACIÓN DE DATOS 47
Los datos obtenidos en una investigación estadística, una vez que se han
agrupado, se pueden obtener algunas conclusiones directamente de la tabla de
distribución de frecuencia, o bien, se puede representar mediante alguna gráfica, ya
que su presentación por sí sola, muestra el comportamiento de los datos.
1. Histograma de frecuencia
2. Polígono de frecuencia
3. Gráfica de barras
4. Gráfica de líneas
5. Curvas
6. Cartograma
7. Pictograma
8. Localización gráfica
9. Tabla de valores
REPRESENTACIÓN DE DATOS 48
GRÁFICA DE BARRAS
Ejemplo 1
a) INTERVALO FRECUENCIA
1-5 15
6-10 12
11-15 13
16-20 8
21-25 11
26-30 7
31-35 6
36-40 10
16
14
12
10
FRECUENCIA 8
6
4
2
0
1-5 6-10 11-15 16-20 21-25 26-30 31-35 36-40
INTERVALO
REPRESENTACIÓN DE DATOS 49
Ahora se traza un intervalo para cada intervalo en los cuales su altura depende de la
frecuencia.
16
14
12
10
FRECUENCIA 8
6
4
2
0
1-5 6-10 11-15 16-20 21-25 26-30 31-35 36-40
INTERVALO
b) CALIDAD FRECUENCIA
Excelente 5
Bueno 14
Malo 16
Regular 4
Pésimo 2
Ubicando cada una de las categorías en el eje horizontal y una escala en el eje
vertical que corresponda a la frecuencia, se construye la gráfica de barras.
16
14
12
10
FRECUENCIA 8 16
14
6
4
2 5 4 2
0
Excelente Bueno Malo Regular Pésimo
INTERVALO
REPRESENTACIÓN DE DATOS 50
HISTOGRAMA DE FRECUENCIA
Consiste en una serie de rectángulos que tienen sus bases sobre un eje
horizontal (eje x), de longitud igual al tamaño de los intervalos de clase y su altura es
proporcional a las frecuencias de clase.
Ejemplo 2
a) INTERVALO FRECUENCIA
0-10 9
10-20 11
20-30 7
30-40 14
40-50 16
50-60 12
60-70 8
70-80 8
80-90 6
Se localizan los intervalos sobre el eje horizontal señalado los límites reales de clase y
una escala para la frecuencia sobre el eje vertical.
REPRESENTACIÓN DE DATOS 51
18
16
14
FRECUENCIA
12
10
8
6
4
2
0
0-10 10-20 20-30 30-40 40-50 50-60 60-70 70-80 80-90
INTERVALO
12
10
8
6
4
2
0
0-10 10-20 20-30 30-40 40-50 50-60 60-70 70-80 80-90
INTERVALO
En ocasiones la frecuencia de cada intervalo, se escribe en la parte
superior de cada intervalo para visualizar mejor la frecuencia de cada inérvalo.
18 16
16 14
14 12
11
FRECUENCIA
12
10 9
8 8
8 7
6
6
4
2
0
0-10 10-20 20-30 30-40 40-50 50-60 60-70 70-80 80-90
INTERVALO
INTERVALO FRECUENCIA
100-105 5
106-111 12
112-117 20
118-123 14
REPRESENTACIÓN DE DATOS 52
b) 124-129 8
130-135 4
136-141 5
INTERVAL
VALO FRECUENCIA LÍMITES REALES
100-105
105 5 99.5-105.5
106-111
111 12 105.5-111.5
112-117
117 20 111.5-117.5
118-123
123 14 117.5-123.4
124-129
129 8 123.5-129.5
130-135
135 4 129.5-135.5
136-141
141 5 135.5-141.5
20
20
15 14
12
10
8
5 5
5 4
0
99.
99.5 105.5 111.5 117.5 123.5 129.5 135.5 141.5
REPRESENTACIÓN DE DATOS 53
Si en el eje vertica
tical se localizan las frecuencias relativas, la gráfica
ca sse llama
histograma de frecuenciaia re
relativa.
0
99.
99.5 105.5 111.5 117.5 123.5 129.5 135.5 141.5
POLÍGONO
NO DE FRECUENCIA
El polígono de frecu
frecuencia, es una gráfica de línea que generalmente te sse traza
sobre el histograma de frec
frecuencia, representa la distribución de un conjunto
to d
de datos
construida sobre sus marca
arcas de clase. Se obtiene con el siguiente procedimient
iento.
1. Se traza el histogram
grama de frecuencia.
2. Se agrega el interv
tervalo antes y uno después del conjunto de datos
atos con el
mismo tamaño y fre
frecuencia cero.
4. Se trazan rectas
as para unir estos puntos, obteniéndose el Polígo
olígono de
Frecuencia.
REPRESENTACIÓN DE DATOS 54
FRECUENCIA
INTERVALO
Primero: Se constru
struye el histograma de frecuencia y se agregan doss intervalos
int
con frecuencia cero y se ubican las marcas de clase en la parte superior rior de los
rectángulos.
El polígono de frecuencia
ia se obtiene uniendo los puntos:
OJIVA
OJIVA “O MAS”
Es una gráfica en la cual
al sse tiene las frecuencias acumuladas de todos los valores
mayores o iguales que ell lím
límite real inferior de cada intervalo.
Ejemplo 4
Trazar la ojiva “o
o má
más” para el siguiente conjunto de datos.
REPRESENTACIÓN DE DATOS 56
INTERVALO FRECUENCIA
20-30 5
30-40 12
40-50 17
50-60 21
60-70 16
70-80 13
80-90 6
FREC.
INTERVALO FRECUENCIA ACUMULADA
20 o más 5 90
30 o mas 12 85
40 o más 17 73
50 o más 21 56
60 o más 16 35
70 o más 13 19
80 o más 6 6
90 o más 0
La ojiva menor que, es una gráfica que se obtiene localizando el eje vertical de
las frecuencias acumuladas hasta el límite real superior de cada intervalo.
Ejemplo 5
Construya la ojiva para el siguiente conjunto de datos.
INTERVALO FRECUENCIA
20-30 5
30-40 12
40-50 17
50-60 21
60-70 16
70-80 13
80-90 6
100
90
80
70
FRECUENCIA
60
ACUMULADA
50
40
30
20
10
0
Menor Menor Menor Menor Menor Menor Menor Menor
que 20 que 30 que 40 que 50 que 60 que 70 que 80 que 90
INTERVALO
CIRCULOGRAMA
Dónde:
f Es la frecuencia de un intervalo.
n Es el número total de datos.
REPRESENTACIÓN DE DATOS 59
Ejemplo 6
Construya el circulo
culograma para el siguiente conjunto de datos
COLOR FRECUENCIA
Rojo 21
Verde 12
Azul 35
Negro 3
Blanco 9
Determinado ell án
ángulo central que tendrá cada color en su sec
sector del
circulograma y el porcentaje
ntaje que representa.
MEDIA ARITMÉTICA
o bien
o bien
Dónde:
x. Es el valor de la media.
k Es el número de intervalos.
n Es el número de datos
Observe que en este último caso en la fórmula ya no se
incluyen los valores inicial y final del sub,ndicei que deben de ir abajo y arriba del
s,mbolo Σ respectivamente, esta forma de escribir la suma, también es correcta,
en este caso se asume que el valor inicial es el uno y el valor final, el último que
aparece en el conjunto de datos.
MEDIA PONDERADA
Dónde:
Ejemplo 5
! "#!# $$#
%% &'(
Ejemplo 6
* +*'
MEDIDAS DE TENDENCIA CENTRAL 95
MODA
Existen casos en los que se tiene más de una moda, a los cuales se les
llama multimodales y algunos no tiene moda, se les llama amodales.
Cuando los datos no están agrupados, solo se busca el dato que aparece
más veces y ese corresponde a la moda.
Ejemplo 7
a) 4 3 7 2 5 6 3 2 5 7 3 6 4 3
b) 10 15 13 14 10 8 13 10 21 13 7 6 1 0 3
0
, - . /0 12 Valor aproximado de la moda
0
Dónde:
MEDIANA
Para un conjunto
unto de datos ordenados en forma ascendente ente o
descendente, la medianaa es el valor central de los datos, se presenta por .
Mediana para
pa datos no agrupados
b) Si el número de datos
da es par, la mediana es igual al promedio de los dos
datos que se encue
cuentra en el centro de la distribución una vez quee estos
es
se han ordenado
o en forma ascendente o descendente.
Ejemplo 9
a) 4 13 12 17 7 4 8 7 17 19 13 14 25 8 23
4 4 7 7 8 8 12 13 13 14 17 17 19 23 25
3 12 26 28 30 35 37 42 43 50 50
60 63 75 78 85 103 128 150 150 201 330
R R B B B MB E
4 56
3 - . / 12
7
89
Dónde:
n Es el número de datos.
3 ,
, 3
, &3 %
MEDIDAS DE DISPERSIÓN 135
MEDIDAS DE DISPERSIÓN
Una vez que se han calculado las medias de tendencia central para un
conjunto de datos, es necesario contar con otra medida estadística, que indique
un comportamiento adicional del conjunto de datos, puesto que la media, la
mediana y la moda, solo indican valores centrales de la distribución.
4.1 RANGO
Ejemplo 1
25 25 56 89 87 45 36 24 12 6 9 47
14 45 46 58 96 92 37 58 45 81 9 52
15 47 45 46 36 25 8 36 5 36 58 100
Aplicando la fórmula:
Dónde:
Ejemplo 1
a) 4 14 12 8 12 6 16 8
Este valor significa, que en promedio cada dato se encuentra 3.5 unidades
alejado de la media. Se representa en el siguiente diagrama de dispersión
x;
MEDIDAS DE DISPERSIÓN 139
b) 0.3 2.1 7.2 4.3 5.7 8.3 4.4 6.5 3.2 4.0
Dónde:
fi Es el valor de la frecuencia del i-ésimo intervalo
Mi Es el valor de la marca de clase del i-ésimo intervalo
Es la media del conjunto de datos
n Es el número total de datos ( n = Σ fi )
Ejemplo 2
INTERVALO FRECUENCIA Mi
10-20 2 15
20-30 11 25
30-40 19 35
40-50 21 45
50-60 35 55
60-70 30 65
70-80 28 75
80-90 20 85
90-100 13 95
Σ 179
60.4749
MEDIDAS DE DISPERSIÓN 141
b)
INTERVALO FRECUENCIA
1.0-1.9 7
2.0-2.9 15
3.0-3.9 23
4.0-4.9 18
5.0-5.9 20
6.0-6.9 16
7.0-7.9 9
= 4.4963
MEDIDAS DE DISPERSIÓN 143
= 1.42.42
MEDIDAS DE DISPERSIÓN 144
4.3 VARIANZA
Dónde:
Es el conjunto del i-ésimo dato
Es la media del conjunto de datos
n El número total de datos
Ejemplo 1
a) 12 25 8 15 5 18 26 14 9 10
La varianza es:
25 8 15 5 18
26 14 9 10 = 443.6
= 44.36
MEDIDAS DE DISPERSIÓN 145
7.2 + 4.5 + 12.7 + 54.6 + 25.6 + 32.9 + 19.1 + 47.2 + 36.5 = 240.3
La varianza es:
= = 24.612
273.4666
Dónde:
Es el valor de la frecuencia en el i-ésimo intervalo
Mi Es el valor de la marca de clase del i-ésimo intervalo
Es la media del conjunto de datos
n Es el número total de datos (n = Σ fi)
Ejemplo 2
a) INTERVALO FRECUENCIA
0-50 7
50-100 15
100-150 28
150-200 22
200-250 11
250-300 13
300-350 9
350-400 25
400-450 10
Agregando la columna Mi
INTERVALO FRECUENCIA Mi
0-50 7 25
50-100 15 75
100-150 28 125
150-200 22 175
200-250 11 225
250-300 13 275
300-350 9 325
350-400 25 375
400-450 10 425
= 223.2143
MEDIDAS DE DISPERSIÓN 147
INTERVALO FRECUENCIA
b)
0-2 12
2-4 35
4-6 43
6-8 31
8-10 22
10-12 17
12-14 11
14-16 4
Σ 175
INTERVALO FRECUENCIA Mi
0-2 12 1
2-4 35 3
4-6 43 5
6-8 31 7
8-10 22 9
10-12 17 11
12-14 11 13
14-16 4 15
Σ 175
= 6.4971
MEDIDAS DE DISPERSIÓN 149
Existen otras fórmulas para obtener el valor de la varianza, las cuales solo
se mencionan en el presente texto.
Ejemplo 1
12 25 8 15 5 18 26 14 9 10
La varianza resultó
44.36
La varianza resultó
273.46
La varianza resultó
INTERVALO FRECUENCIA
0-2 12
2-4 35
4-6 43
6-8 31
8-10 22
10-12 17
12-14 11
14-16 4
La varianza resultó
68.27%
σ σ σ x; σ σ σ
95.45%
σ σ σ x; σ σ σ
MEDIDAS DE DISPERSIÓN 154
99.73%
σ σ σ x; σ σ σ
MEDIDAS DE DISPERSIÓN 155
Ejemplo 2
INTERVALO FRECUENCIA
0-1 1
6-11 4
11-16 12
16-21 20
21-26 31
26-31 22
31-36 14
36-41 7
41-46 2
INTERVALO FRECUENCIA Mi
0-1 1 3.5
6-11 4 8.5
11-16 12 13.5
16-21 20 18.5
21-26 31 23.5
26-31 22 28.5
31-36 14 33.5
36-41 7 38.5
41-46 2 43.5
Σ 113
MEDIDAS DE DISPERSIÓN 156
= 24.3407
Sustituyendo valores
14.5 – 6.5 y 14.5 + 6.5. Por lo cual el 68.27% del total de los datos se
encuentran en el intervalo (8;21)
Dónde:
V Es el coeficiente de variación
σ Es la desviación estándar del conjunto de datos
Es la media del conjunto de datos
Ejemplo 1
Ejemplo 2
7 8.5 6.9 8.3 7.6 9.2 8.2 5.6 7.2 8.2 8.3
9.2 4.8 5.7 8.6 9.3 7.5 7 6 9 8.2 5.8
9.7 4.2 7.5 7 8.8 6.6 5.5 6 9.5 8.5 7
9 8.5 8 9.5 7.5 6.5 8 7 9.3
Sesgo =
Sesgo =
MEDIDAS DE DISPERSIÓN 162
Ejemplo 1
INTERVALO FRECUENCIA
1-8 3
9-16 12
17-24 19
25-32 22
33-40 27
41-48 34
49-56 43
57-64 37
65-72 21
73-80 18
INTERVALO FRECUENCIA Mi
1-8 3 4.5
9-16 12 12.5
17-24 19 20.5
25-32 22 28.5
33-40 27 36.5
41-48 34 44.5
49-56 43 52.5
57-64 37 60.5
65-72 21 68.5
73-80 18 76.5
Σ 236
46.7648
MEDIDAS DE DISPERSIÓN 163
C.S =
C.S.
C.S = – 0.3724
Ejemplo 2
INTERVALO FRECUENCIA
100-96 3
95-91 7
90-86 10
85-81 12
80-76 17
75-71 20
70-66 28
65-61 54
60-56 32
55-51 14
INTERVALO FRECUENCIA Mi Fa
100-96 3 98 197
95-91 7 93 194
90-86 10 88 187
85-81 12 83 177
80-76 17 78 165
75-71 20 73 148
70-66 28 68 128
65-61 54 63 100
60-56 32 58 46
55-51 14 53 14
Σ 197
68.58
MEDIDAS DE DISPERSIÓN 165
C.S =
C.S.
C.S =0.8831
COVARIANZA
Y
CORRELACIÓN LINEAL
Para una muestra o población formada por n elementos, las dos variables
se presentan mediante un conjunto de pares ordenados de la forma.
Ejemplo 1
Estudiante 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
No. de faltas
X 5 11 5 9 8 10 6 1 3 0 4 7 7 9 1
Calificación
Y 8 6 7.5 8 8.5 5 8 10 9 9.5 8 6.5 7.5 6 9
Ejemplo 1
X 82 74 95 86 75 95 90 85 92 84 86 82 83
Y 11 5 80 17 6 50 26 15 30 11 14 11 11
xD = 85.307
yD = 22.076
COVARIANZA Y CORRELACIÓN LINEAL 189
b)
x 5 4 3 9 6 7 2 1 4 6 8 3 4
y 5 -2 4 6 2.1 4.3 -6 1.5 3.2 7.8 4.6 -1.5 2.3
xD = 4.769 yD = 2.407
COVARIANZA Y CORRELACIÓN LINEAL 190
CG
COVARIANZA Y CORRELACIÓN LINEAL 191
5.4 COVARIANZA
a) La varianza resulta positiva, cuando los dos factores son del mismo
signo, lo cual significa, que mientras el valor de una variable aumenta, el otro
también aumenta. Por ejemplo: a mayor edad de una persona, es mayor su grado
de conocimientos, representa una dependencia positiva entre variables.
Ejemplo 1
a)
x y
2 10
6 3
4 7
5 7
7 4
5 6
9 2
13 1
8 5
3 6
5 8
2 9
xD = 5.75 yD = 5.66
COVARIANZA Y CORRELACIÓN LINEAL 193
x y (xi - xD)
2 10 -3-75
6 3 0.25
4 7 -1.75
5 7 -0.75
7 4 -1.25
5 6 -0.75
9 2 3.25
13 1 7.25
8 5 2.25
3 6 -2.75
5 8 -0.75
2 9 -3.75
SUMAS 69 68
Agregando la columna (yi - yD) y obteniendo sus valores para cada elemento:
Agregando la columna (xi - xD)(yi - yD), obteniendo sus valores para cada
elemento y la suma de esta última columna:
= 1/12 (-80.825)
= -6.735
Interpretación:
b)
x Y
2 120
15 1500
12 1000
6 400
8 500
14 1600
9 1000
2 125
5 320
xD = 8.111 yD = 729.444
= 1/9 (21140.556)
= -2348.951.
Interpretación:
Indica que tan estrecha es la relación entre dos variables. Para analizar la
correlación que existe entre dos variables se utiliza el coeficiente de correlación.
COEFICIENTE DE CORRELACIÓN
Dónde:
σx es la desviación estándar de x
σy es la desviación estándar de y
r=1 r>0
r<0 r=0
r=-1
Correlación Correlación
Fuerte Fuerte
Correlación débil
-1 0 1
No hay correlación
Correlación lineal
COVARIANZA Y CORRELACIÓN LINEAL 199
Ejemplo 1
x y
a) 2 10
6 3
4 7
5 7
7 4
5 6
9 2
13 1
8 5
3 6
5 8
2 9
COVARIANZA Y CORRELACIÓN LINEAL 200
xD = 5.75 yD = 5.666
x y (xi- x) (yi- y) (xi - x)(yi- y) (xi- x)2 (yi- y)2
2 10 -3.750 4.333 -16.250 14.063 18.778
6 3 0.250 -2.667 -0.667 0.063 7.111
4 7 -1.750 1.333 -2.333 3.063 1.778
5 7 -0.750 1.333 -1.000 0.563 1.778
7 4 1.250 -1.667 -2.083 1.563 2.778
5 6 -0.750 0.333 -0.250 0.563 0.111
9 2 3.250 -3.667 -11.917 10.563 13.444
13 1 7.250 -4.667 -33.833 52.563 21.778
8 5 2.250 -0.667 -1.500 5.063 0.444
3 6 -2.750 0.333 -0.917 7.563 0.111
5 8 -0.750 2.333 -1.750 0.563 5.444
2 9 -3.750 3.333 -12.500 14.063 11.111
69 68 -85.000 110.250 84.667
= 1/12 (-85.000)
= -7.083
COVARIANZA Y CORRELACIÓN LINEAL 201
σx = 3.031
σy = 2.656
r = -0.88
Interpretación:
Así pues, una recta de ajuste, es una línea que hace mínima la suma de las
desviaciones de cada punto con respecto a la línea, esto es:
X
RECTA DE REGRESIÓN 214
Donde d1, d2, d3, …, dn son las desviaciones de cada punto con respecto a la
línea y la suma d1 + d2 + d3 + … + dn resulta mínima.
La recta de regresión pasa por el centro de gravedad, ),por lo cual este
punto satisface la ecuación de la recta.
RECTA DE REGRESIÓN 215
Ejemplo 1
x y
2 8
8 10
3 7
1 5
4 9
5 8
6 9
3 7
2 6
4 8
8 10
5 9
x: = 4.25 y: = 8
! "
"
#$%#
&$'(
La covarianza resulta
)*
+
!
!
)*
+ "
,&
)*
+ %',,,
"-...
/0-12
0.6044
El valor de b
' $3&&
&%#
#&,44
3$3&& 5.4311
RECTA DE REGRESIÓN 218
Para x=0
y = 0.6044 x + 5.4311
y = 5.4311
Para x = 5.5
y = 0.6044 x + 5.4311
y = 8.7553
Para x = 10
y = 0.6044 x + 5.4311
y = 11.4751
RECTA DE REGRESIÓN 219
Ejemplo:
AÑO PRODUCCIÓN
1987 1000
1988 950
1989 1400
1990 1350
1991 1500
1992 1975
1993 1950
1994 2010
x: = 1990.5
y: = 1517
RECTA DE REGRESIÓN 220
! "
&%
-
#%#
La covarianza resulta
)*
+
!
!
)*
+ -
$5(&
)*
+ '(4(#
-1 12
2"2
166.6476
RECTA DE REGRESIÓN 221
El valor de b
4#4(
4$$3&($
4553#
6,%533345
y = 166.0x - 32900
20000
R² = 0.910
-80000
-130000
-180000
-230000
-280000
-330000
RECTA DE REGRESIÓN 222
y = 166.0476 x + 329000.79
y =3094
Esto es, se espera que para el año 2000, se fabriquen 3094 automóviles.
y = 166.0476 x + 329000.79
y =3925