Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Lima-Perú
2020
GUÍA DE LABORATORIO DE ESTADÍSTICA GENERAL
Área de Estadística
Diseño y Diagramación
Lima-Perú 610-6400
2
Rector
Dr. Manuel Rossemberg
Presidente Ejecutivo
Luis Javier Cardó Soria
Vicerrectos Académico
José Agustín Ortiz Elías
3
INDICE
5
Conociendo el SPSS
Ingreso de variables 6
9
Tablas y gráficos de frecuencias (variable cualitativa)
11
Edición de gráficos
Tablas de contingencia para variables cualitativas 20
Tipos de Gráficos (con 2 variables) 22
Tablas y gráficos de frecuencias (variable cuantitativa discreta) 34
4
CONOCIENDO EL SPSS
IBM SPSS 26
Para dar inicio al software estadístico primeramente hacemos clic en IBM SPSS
Statistics 26. Se muestra la presentación del programa.
Cuando se trabaja con IBM SPSS, existen dos ventanas principales: el Editor de datos
y el Visor de resultados
Editor de datos: Esta ventana presenta dos vistas: (1) Vista de datos, donde se muestran
o ingresan los datos (numérico o de cadena). Se observará una ventana que contiene tantas
filas como casos; y (2) Vista de variables, en esta ventana se podrá asignar el nombre de
la variable (No acepta palabras separadas) el tipo, ancho de columna (N° de caracteres),
decimales, etiqueta, valores (se asignan códigos a cada una de las categorías de la variable
cualitativa) y la medida (escala involucra a toda variable cuantitativa). Se observará una
ventana que contiene tantas filas como variables.
5
Visor de resultados: Esta ventana muestra los resultados obtenidos de un procedimiento
estadístico como son las tablas y gráficos que se van generando de acuerdo al
procedimiento utilizado. Es aquí donde se realiza la edición de los resultados obtenidos:
poner título, copiar las tabla y gráficos, guardar o imprimir los resultados.
Ingreso de Variables
ARCHIVO: PRESALUD
Este archivo contiene información acerca de 45 madres que acudieron a cierto hospital
para ser atendidas por parto.
1 25 1 2 2,90 2
2 22 1 2 2,90 2
3 32 1 4 4,04 1
4 22 1 1 4,35 2
5 18 2 1 3,60 1
6 21 2 3 3,50 1
7 20 3 2 3,20 1
8 19 2 1 3,00 2
9 23 2 3 3,60 1
10 26 2 2 2,80 1
11 36 2 5 3,00 1
12 30 1 5 3,30 2
13 23 3 3 3,10 2
14 29 1 4 3,30 2
15 22 1 2 3,30 2
16 23 2 1 3,50 2
17 27 1 2 3,62 1
18 28 1 3 3,30 2
19 19 1 1 2,65 2
20 32 2 2 2,86 2
21 17 1 1 2,62 1
22 21 1 2 3,56 2
23 18 2 2 3,10 1
24 27 1 3 3,62 2
25 21 2 1 3,18 1
26 19 2 1 2,95 1
27 19 1 2 3,90 1
28 31 2 3 3,00 2
29 32 2 4 4,00 2
30 21 1 2 3,85 1
31 23 2 2 2,75 2
6
32 19 2 1 3,18 2
33 19 1 1 3,14 2
34 26 1 3 3,08 2
35 18 2 1 2,80 2
36 24 2 2 3,40 1
37 30 2 3 3,00 2
38 26 2 3 3,05 2
39 19 2 1 2,90 2
40 34 2 3 3,10 2
41 28 2 3 3,40 1
42 24 2 2 2,97 2
43 26 2 2 2,94 2
44 22 2 2 3,80 1
45 34 2 5 4,65 2
Las variables bajo estudio son:
Edad
Estado Civil:
1: Masculino 2. Femenino
7
Figura 1
Luego hacemos clic con el mouse en Vista de datos (Figura 2) y aparecerá en cada
columna las variables creadas. Luego se ingresa la información para cada una de las 45
madres (una en cada fila). En este caso todos los datos son de tipo numérico
Hay que tener en cuenta que si hubiera decimales como es el caso de la variable peso; el
SPSS no acepta el punto sino la coma.
8
Figura 2
9
Figura 3
Estado civil
Porcentaje Porcentaje
Tabla 1 Frecuencia Porcentaje válido acumulado
Válido Conviviente 17 37,8 37,8 37,8
Casada 26 57,8 57,8 95,6
Soltera 2 4,4 4,4 100,0
Total 45 100,0 100,0
En la tabla 2 podemos observar que el 57.8% de las madres son casadas, seguido de un
37.8% que son convivientes; mientras sólo el 4.4% son madres solteras
Representaciones Gráficas
10
Gráfico de Barras Simples
Gráfi cos Cuadros de diá log o antiguos Barras . Al hacer clic en Barras
aparece la figura 4; elegimos Simples y Resúmenes para grupos de casos
Figura 4
Figura 5
11
Enseguida trataremos de mejorar el gráfico 1.
Para ello damos un doble clic sobre una de las barras del gráfico 1. Luego clic derecho y
elegimos Mostrar etiquetas de datos; obtenemos el gráfico 2
Gráfico 2
Nuevamente clic derecho sobre una de las barras del gráfico 2. Elegimos Ventana
Propiedades y obtenemos la figura 6.
12
Figura 6
Figura 7
Gráfico 3
13
Enseguida prodecemos a darle color a cada una de las barras, obteniendo el gráfico 4
Gráfico 4
14
Luego se sigue los mismos pasos que se hizo para obtener el Gráfico de Barras Simples
y se obtiene el gráfico 5. También este gráfico se puede mejorar en forma similar a lo que
se hizo en el gráfico de barras simples, obteniéndose de esta manera el gráfico 6
Gráfico 5
Gráfico 6
Como se puede apreciar este gráfico no tiene una buena presentación; por lo que se
recomienda hacer dicha gráfica en Excel.
=(B2/45)*100 luego Enter y obtenemos el valor 37.8 tal como se observa en la figura 8
15
Figura 8
Después hacemos un arrastre hacia abajo y obtenemos los demás porcentajes, los cuales
se observan en la figura 9
Figura 9
16
Figura 10
Figura 11
Gráfico 7
17
Después damos un clic derecho sobre este gráfico y elegimos Agregar etiquetas de
datos, obteniéndose el gráfico 8
Gráfico 8
18
Similarmente podemos elegir después de pulsar Insertar la opción insertar gráfico de
columnas o de barras y a partir de allí elegir Columna en 3-D obteniendo luego de hacer
cambios en el color y algunos otros ajustes; el gráfico 9
Gráfico 9
57.8
60
50
37.8
40
30
20
10 4.4
0
Conviviente Casada Soltera
Tareas
Con la variable Sexo de los recién nacidos:
19
Tablas de contingencia para variables cualitativas
Variables: Estado Civil y Número de hijos
Analizar Estadísti cos descriptiv os Tablas cruzadas Al hacer clic sobre Tablas
cruzadas aparece la figura 12
Figura 12
Figura 13
20
Tabla 3 Tabla cruzada Estado civil*Nº de partos
Recuento
Nº de partos
1 2 3 4 5 Total
Estado civil Conviviente 4 7 3 2 1 17
Casada 8 8 7 1 2 26
Soltera 0 1 1 0 0 2
Total 12 16 11 3 3 45
Enseguida presentaremos dicha tabla pero expresado en porcentajes (lo más recomendable)
A partir de la figura 13 pulsamos Casillas. En Porcentajes elegimos Total (Ver figura
14)
Finalmente Continuar Aceptar y obteniendo la Tabla 4
Figura 14
Nº de partos
1 2 3 4 5 Total
Estado civil Conviviente 8,9% 15,6% 6,7% 4,4% 2,2% 37,8%
Casada 17,8% 17,8% 15,6% 2,2% 4,4% 57,8%
Soltera 2,2% 2,2% 4,4%
Total 26,7% 35,6% 24,4% 6,7% 6,7% 100,0%
21
En la Tabla 4 podemos observar que el 8.9% son madres convivientes que han tenido su
primer parto. Si elegimos en la figura 15 Porcentajes en Columna obtenemos la Tabla 5
Figura 15
La Tabla 5 nos muestra que 63.6% de las madres que han tenido su tercer parto son
casadas. Así mismo el 33.3% de las madres que han tenido su primer hijo son
convivientes.
22
En la tabla 6 podemos observar que el 41,2% de las madres convivientes han tenido su
segundo parto.
Figura 16
Gráfico 10
En el gráfico 10 podemos observar que entre las madres convivientes 7 de ellas han sido
atendidas por su segundo parto. Entre las madres casadas 8 han acudido al hospital por su
primer o segundo parto y 7 por su tercer parto. En lo que respecta a las madres solteras
son dos; una de ellas ha tenido su segundo parto y la otra su tercer parto.
23
OTROS EJERCICIOS
1.- Se realizó un estudio para determinar la cantidad de personas que obtienen un empleo.
La siguiente tabla incluye datos de 400 sujetos seleccionados al azar:
Fuentes de empleo Nº de
sujetos
Anuncios clasificados 56
Correo masivo 20
Total 400
Figura 17
24
Figura 18
Gráfico 11
CORREO MASIVO 5
CONTACTOS PROFESIONALES 70
ANUNCIOS CLASIFICADOS 14
0 10 20 30 40 50 60 70
Otros 15%
25
Representar gráficamente dicha información.
En primer lugar, pulsamos la pestaña Vista de variables e ingresamos las variables tal
como se observa en la figura 19
Figura 19
Luego pulsamos la pestaña Vista de datos e ingresamos los datos tal como se aprecia en
la figura 20
Figura 20
Luego Gráfi cos Cuadros de diá log o antiguos Barras y elegimos las opciones
que aparecen en la figura 21
Figura 21
26
Al pulsar Definir obtenemos el siguiente cuadro de diálogo y asignamos las variables en
su respectivo lugar tal como aparece en la figura 22
Figura 22
Gráfico 12
27
3.- La siguiente información se refiere al número de estudiantes matriculados en tres
especialidades de Administración de Empresas, durante los años 2,000 y 2,005.
28
Figura 23
Luego seleccionamos Vista de datos e ingresamos los datos (Ver figura 24)
Figura 24
Gráfi cos Cuadros de diá log o antiguos Barras Nos mostrará la figura 25
Figura 25
29
Al pulsar Definir completamos los recuadros tal como se observa en la figura 26
Figura 26
30
Figura 27
CONTABILIDAD 50
MARKETING 42.85714286
FINANZAS 56.25
0 10 20 30 40 50 60
31
4.- Se tiene la siguiente información
Ingresamos los datos en EXCEL y seleccionamos las celdas respectivas, tal como aparece
en la figura 28
Figura 28
Pulsamos Insertar y elegimos Insertar gráfico de línea o de áreas (Ver figura 29)
32
Figura 29
Gráfico 16
140
120
100
80
60
40
20
0
1987 1988 1989 1990 1991 1992
Cardiovascular Tuberculosis
33
Tabla de frecuencias para variable cuantitativa discreta (para
datos no agrupados)
Variable: Número de partos
Figura 30
Tabla 07
Nº de partos
Porcentaje
N° de partos Cantidad Porcentaje acumulado
1 12 26,7 26,7
2 16 35,6 62,2
3 11 24,4 86,7
4 3 6,7 93,3
5 3 6,7 100,0
Total 45 100,0
En la tabla 07 se puede apreciar que el 35.6% de las madres han acudido al hospital por
su segundo parto, seguido de un 26.7% de madres quienes han tenido su primer parto y
muy de cerca un 24.4% quienes han ido para ser atendidas por su tercer parto.
34
Gráfico 17
Peso (kg)
2,61 – 3,02
3,02 – 3,43
3,43 – 3,84
3,84 – 4,25
4,25 – 4,66
35
Figura 31
Figura 32
36
Figura 33
Figura 34
37
|
Figura 35
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válido 2,61 - 3,02 16 35,6 35,6 35,6
3,02 - 3,43 15 33,3 33,3 68,9
3,43 - 3,84 8 17,8 17,8 86,7
3,84 - 4,25 4 8,9 8,9 95,6
4,25 - 4,66 2 4,4 4,4 100,0
Total 45 100,0 100,0
38
Después de copiar, pegar en el Word y haciendo algunos reajustes en la tabla 08;
obtenemos la tabla 09
Se puede observar en la tabla 08 que el 35.6% de los bebés nacieron pesando entre 2.61
y 3.02 kg seguido de un 33.3% quienes nacieron pesando entre 3.02 y 3.43 kg haciendo
un total de 68.9% quienes nacieron con un peso máximo de 3.43 kg
Tabla 09
Porcentaje
Peso (kg) Cantidad Porcentaje acumulado
2,61 - 3,02 16 35,6 35,6
3,02 - 3,43 15 33,3 68,9
3,43 - 3,84 8 17,8 86,7
3,84 - 4,25 4 8,9 95,6
4,25 - 4,66 2 4,4 100,0
Total 45 100,0
Figura 36
39
Hacemos clic sobre Histograma y aparece el cuadro de diálogo Histograma, trasladamos
a la variable Peso (Agrupada) (Peso) tal como se observa en la figura 37
Figura 37
40
Gráfico 19: Histograma con MINITAB
30
Porcentaje
20 17.7778
10 8.88889
4.44444
0
2.61 3.02 3.43 3.84 4.25 4.66
Peso
Rango: R = 36 – 17 = 19
Por lo tanto utilizaremos intervalos cerrados con una amplitud C = 4 (por estar expresado
las edades en números enteros)
La tabla 10 nos está mostrando que el 31.1% de las madres tienen edades entre
21 y 24 años seguido de un 26.7% de madres bastante jóvenes cuyas edades fluctúan entre 17 a 20 años y
y 20 años de edad.
41
Tabla 10
Figura 38
Tabla 11
Peso (Agrupada)
Porcentaje Porcentaje
Frecuencia Porcentaje
válido acumulado
Menor o igual a 3,0 16 35,6 35,6 35,6
Válido 3,0 - 3,8 23 51,1 51,1 86,7
Más de 3,8 6 13,3 13,3 100,0
42
Total 45 100,0 100,0
Figura 39
Tabla 12
Edad (Agrupada)
Frecuenci Porcentaje Porcentaje
a Porcentaje válido acumulado
Válido 17 - 20 12 26,7 26,7 26,7
21 - 30 26 57,8 57,8 84,4
Más de 30 7 15,6 15,6 100,0
Total 45 100,0 100,0
Cruzamos las tablas 11 y 12: Analizar Estadísti cos descriptiv os Tablas cruzadas
Hacemos clic en el botón Aceptar e insertamos las variables agrupadas creadas. Se
recomienda colocar a la variable dependiente Peso (Agrupada) como columna (Fig 40)
43
Figura 40
Tabla 14
*Peso (Agrupada)
% dentro de Peso (Agrupada)
Peso (Agrupada)
Menor o igual a
3,0 3,0 - 3,8 Más de 3,8 Total
Edad (Agrupada) 17 - 20 37,5% 21,7% 16,7% 26,7%
21 - 30 43,8% 73,9% 33,3% 57,8%
Más de 30 18,8% 4,3% 50,0% 15,6%
Total 100,0% 100,0% 100,0% 100,0%
En la tabla 14 se observa que el 43.8% de los bebés que nacieron con un peso máximo de
3 kg provienen de madres cuyas edades están entre 21 y 30 años de edad; y el 37.5%
proceden de madres jóvenes que tienen a lo mucho 20 años. Por otro lado el 50% de los
bebés que nacieron con un peso mayor a 3.8 kg provienen de madres con más de 30 años
de edad.
44
Tabla 15
Nota: Si observamos los totales de las columnas vemos que el 35.6% de las madres han
acudido al hospital por su segundo parto.
Figura 41
45
Si para Filas se elige Edad (Agrupada); para Columnas, la variable N° de partos y para
Capa 1 de 1, la variable Estado civil y se hace clic en Aceptar, se mostrará como
resultado la siguiente tabla:
Tabla 16
46
Medidas de Tendencia Central
Figura 42
Figura 43
47
Figura 44
Tabla 17
Estadísticos
Peso
Válido 45
N
Perdidos 0
Media 3,2836
Mediana 3,1800
Moda 3,00a
48
Cálculo de Promedios, según categorías.
Se trata de calcular algunos promedios con respecto a ciertas categorías de una
variable cualitativa. En este caso determinaremos el peso promedio de los bebés,
según su sexo. Ingresamos al menú Datos tal como se observa en la siguiente figura
Figura 45
49
Luego vamos al menú Analizar Estadísti cos descriptiv os Descriptiv os (fig. 46)
Figura 46
Enseguida elegimos la variable cuantitativa en este caso Peso y después damos clic
sobre el botón Aceptar en la figura 47 y obtenemos los resultados que se muestran en
la tabla 18
Figura 47
Tabla 18
Estadísticos descriptivos
50
Desv.
Sexo N Mínimo Máximo Media Desviación
Masculino Peso 17 2,62 4,04 3,3859 ,40823
N válido (por lista) 17
Femenino Peso 28 2,65 4,65 3,2214 ,46508
N válido (por lista) 28
Figura 48
Al hacer clic sobre el botón Estadísticos elegimos Valores percentiles (si queremos
obtener medidas de posición) en este caso marcamos Cuartiles, Percentiles tal como se
observa en la figura 49 (si queremos determinar el percentil 80) luego Añadir y podemos
seguir añadiendo otros percentiles.
51
Figura 49
También observamos al Percentil 80: P80 = 3.616 kg lo cual nos indica que el 80% de
estos bebés pesan a lo mucho 3.62 kg aproximadamente y el 20% restante pesa más de
3.62 kg. Este valor 3.62 kg viene a ser el peso mínimo del 20% superior (quinto superior).
Tabla 19
Estadísticos
Peso
N Válido 45
Perdidos 0
Percentiles 25 2,9600
50 3,1800
75 3,5800
80 3,6160
Medidas de Dispersión.
Ahora calcularemos algunas medidas de dispersión como la varianza, desviación estándar
y el rango que nos permitan analizar la variabilidad de los datos.
52
diálogo Frecuencias. Aquí, el primer paso consiste en trasladar al recuadro de la derecha
aquella variable que se desea analizar. Elegiremos Peso (Ver figura 50)
Figura 50
Figura 51
53
Tabla 20
Estadísticos
Peso
N Válido 45
Perdidos 0
Desv. Desviación ,44703
Varianza ,200
Rango 2,03
Mínimo 2,62
Máximo 4,65
En cuanto al rango de los pesos podemos decir que la diferencia entre el bebé que nació
con un mayor peso y el de menor peso ha sido de 2 kg aproximadamente.
La desviación del peso de los recién nacidos con respecto a su promedio es de 0.45 kg en
promedio.
NOTA.- Se debe tener en cuenta que la varianza que se está mostrando como resultado
viene a ser la varianza muestral S2; si se quisiera determinar la varianza poblacional σ2 se
tendría que aplicar la siguiente transformación:
2 (n 1) S 2
n
54
Figura 52
Tabla 21
Estadísticos
Peso
N Válido 45
Perdidos 0
Asimetría 1,035
Error estándar de asimetría ,354
Curtosis ,997
Error estándar de curtosis ,695
Según la tabla 21 se puede observar que para la variable peso; el índice de asimetría
(Asimetría = 1.035> 0 ) lo cual significa que dicha variable tiene una asimetría positiva;
es decir, muchos bebés nacieron con pesos relativamente bajo (por debajo de la media) y
pocos con peso alto.
55
Gráfico 21
45
n M3
As en donde M3 ( xi x )3
(n 1) (n 2) S 3 i 1
45 (3.8866)
As 1.035
44 (43) (0.447) 3
56
Comprobación del valor de la Curtosis
La curtosis utilizando momentos es definida por la expresión:
n (n 1) M 4 3 M 2 M 2 (n 1)
K
(n 1) ( n 2) (n 3) S 4
En donde
45 45
2
M2 ( xi x ) 8.79263 M4 ( xi x ) 4 6.45788
i 1 i 1
Expresiones del tipo “un valor próximo a cero” o “un valor más alejado de cero” ayudan
poco a tomar una decisión sobre el grado de asimetría o curtosis de una distribución.
Para resolver este problema puede recurrirse a una sencilla estrategia.
La estrategia consiste en dividir el índice de asimetría (o el de curtosis) entre su error
típico o error estándar. Si el resultado se encuentra entre -2 y 2 puede asumirse que la
distribución es simétrica (o mesocúrtica); si es mayor que 2 puede afirmarse que la
distribución es asimétrica positiva (o leptocúrtica); y si es menor que -2 puede afirmarse
que la distribución es asimétrica negativa (o platicúrtica).
Según la tabla 21 se puede observar que para la variable peso el índice de asimetría
(Asimetría = 1.035) dividido por su error típico (error estándar de asimetría = 0.354) da
un valor igual a 2.924 > 2 lo cual significa que dicha variable tiene una asimetría positiva.
En cuanto a la Curtosis (Curtosis = 0.997) dividido entre su error típico (error estándar de
curtosis = 0.695) da como resultado 1.435
57
Diagrama de Tallo y Hojas. Gráfico de Caja y Bigotes.
Permiten examinar los datos, identificar valores atípicos; ayuda también a establecer la
distribución de un conjunto de datos.
Figura 53
Luego hacemos clic sobre el botón Aceptar y obtenemos la figura 54, en dicha figura
aparece en la última fila un caso atípico (entre paréntesis) con un peso mayor o igual a
4.7 kg
12,00 2 . 667888999999
19,00 3 . 0000001111112333344
10,00 3 . 5556666889
3,00 4 . 003
1,00 Extremos (>=4,7)
58
En la figura 54 (Diagrama de tallo y hojas) para la variable peso se puede observar:
Primera fila 12 bebés nacieron pesando entre 2.6 a 2.9 kg distribuidos
de la siguiente manera:
2 nacieron con un peso de 2.6 kg
1 con un peso de 2.7 kg
3 con un peso de 2.8 kg
6 con un peso de 2.9 kg
59
Enseguida compararemos la distribución de los pesos en los bebés según su sexo, a través
de los diagramas de cajas. Estos diagramas se obtienen desde el cuadro de diálogo del
menú
Analizar Estadísti cos descriptiv os Explorar Trasladamos las variables peso y sexo
a los recuadros de la derecha tal como se aprecia en la figura 55
|
Figura 55
60
En el gráfico 22 podemos observar que el peso de los bebés de sexo femenino presentan
una mayor dispersión que el de los varones; ya que se tiene la presencia de dos datos
atípicos (correspondientes a los casos 4 y 29) inclusive se puede notar la presencia de un
caso extremo (caso Nº 45) ya que 4,65 se encuentra a más de 3 amplitudes intercuartílicas
del percentil 75 del peso de los bebés de sexo femenino.
Comprobación
Para ello necesitamos la información acerca de los cuartiles del peso de los bebés según
su sexo. Estando en la figura 55 hacemos clic sobre Estadísticos y aparece el recuadro
de la derecha, allí elegimos Percentiles luego Continuar, Aceptar y aparecerá entre
otros resultados los percentiles 75 y 25 de los bebés de sexo femenino los cuales se
muestran en la tabla 22
Figura 56
Tabla 22
Percentiles
Percentiles
Sexo
5 10 25 50 75 90 95
Masculino 2,6200 2,7640 3,0500 3,4000 3,7100 3,9280 .
Peso
Femenino 2,6950 2,7950 2,9100 3,0900 3,3000 4,0350 4,5150
Por lo tanto:
En este caso usaremos la base de datos Practsalud; la cual contiene información acerca de
un total de 200 pacientes, cuyas variables bajo estudio son:
Edad
Consideremos que se trata de una población de 200 pacientes. Nuestra variable objeto de
estudio será la Edad. Haciendo una exploración de las edades podemos observar la
presencia de un dato casi extremo; se trata de la edad de un paciente identificado con el
número 150, cuya edad correspondiente es de 80 años; según el gráfico 01
Gráfico 01
62
Cálculo de los parámetros: Media poblacional y varianza poblacional
Excluyendo esa edad obtenemos los siguientes resultados:
Tabla 01
Estadísticos
Edad
N Válido 199
Perdidos 0
Media 30,67
Varianza 152,049
Como ya se dijo anteriormente que el programa por defecto procesa los datos como si se
tratara de una muestra, por lo tanto la varianza 152.049 no es otra cosa que la varianza
muestral. En consecuencia la varianza poblacional sería:
2 198 (152.049)
151.285
199
Figura 01
63
Al hacer clic sobre Seleccionar casos en la figura 01, aparece la figura 02 y elegimos
Muestra aleatoria de casos tal como se observa en la figura 02
Figura 02
Figura 03
En Editor de datos (Figura 04) aparecerá una columna filter_$ en donde se puede
apreciar una serie de valores: ceros y unos; los cuales identifican a las muestras
(pacientes) que han sido seleccionadas, siendo estas identificadas con el número 1 y los
no seleccionados con el 0.
64
Figura 04
Figura 05
65
Al hacer clic sobre Explorar aparece el cuadro de diálogo siguiente, aquí se selecciona
Edad y lo trasladamos a Lista de dependientes (Ver Figura 06)
Figura 06
Al pulsar Estadísticos aparece el cuadro de diálogo siguiente (figura 07), en donde por
defecto vemos seleccionado Descriptivos y elegido 95 como el porcentaje de
confiabilidad del intervalo de confianza para la media poblacional.
Nota.- El 95% de confiabilidad que se observa puede ser cambiado, de tal manera que
dicho porcentaje de confiabilidad quede a criterio del investigador.
| Figura 07
66
Tabla 02
Descriptivos
Estadístico Error estándar
Edad Media 33,00 1,801
95% de intervalo de Límite inferior 29,32
confianza para la media Límite superior 36,68
Media recortada al 5% 32,72
Mediana 32,00
Varianza 97,310
Desviación estándar 9,865
Mínimo 18
Máximo 55
Rango 37
Rango intercuartil 15
Asimetría ,404 ,427
Curtosis -,497 ,833
También podemos concluir con un 95% de confiabilidad que la edad promedio de los
pacientes es de 33 años con un margen de error (e = 36.68 – 33) de 3.68 años.
Dicho de otra manera “la probabilidad de que la media muestral difiera de la verdadera
media en a lo más 3.68; es de 0.95”. Simbólicamente se puede expresar así:
P X 3.68 0.95
Considerando que el margen de error obtenido (e = 3.68) es muy grande, estimaremos el
tamaño de muestra apropiado, para reducir dicho margen de error a 2 años; con un 95%
de confiabilidad.
67
Estimación del tamaño de muestra
Z 2/2 2
n
e2
(1.96) 2 151.285
n 2
145.3 aprox 146
2
Pero como ya hemos considerado que el tamaño de la población es conocida N = 199
entonces haremos un reajuste del tamaño de muestra obtenido; de la siguiente manera:
n0
n
n0
1
N
146
n 84.2 aprox 85
146
1
199
El siguiente paso será extraer nuevamente una muestra aleatoria de tamaño 85 de la base
de datos, tal como se observa en la figura 08, luego Continuar, Aceptar (Ver fig. 9)
Figura 08
68
Figura 09
Tabla 03
Descriptivos
Estadístico Error estándar
Edad Media 31,26 1,318
95% de intervalo de Límite inferior 28,64
confianza para la media Límite superior 33,88
Media recortada al 5% 30,84
Mediana 30,00
Varianza 147,718
Desviación estándar 12,154
Mínimo 5
Máximo 73
Rango 68
Rango intercuartil 15
69
Asimetría ,678 ,261
Curtosis ,790 ,517
1 = Masculino 2 = Femenino
Primeramente haremos una recodificación en la variable Sexo, de tal manera que el valor
0 = Femenino; para esto entramos al menú:
Figura 10
70
Figura 11
Luego pulsamos Valores antiguos y nuevos y aparece la figura 12 aquí etiquetamos con
el valor 2 para Valor antiguo y el valor 0 para Valor nuevo
Figura 12
Figura 13
71
Finalmente Continuar y Aceptar; luego en Editor de datos se observará la figura 14
Figura 14
72
Figura 15
Tabla 04
Sexo
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válido Femenino 114 57,0 57,0 57,0
Masculino 86 43,0 43,0 100,0
Total 200 100,0 100,0
73
Estimación de la Proporción Poblacional
Nuestro principal objetivo será estimar la proporción de pacientes varones a partir de la
muestra aleatoria de tamaño 80 (muestra piloto), seleccionada de la población de tamaño
N = 200
Primeramente vamos al menú Datos Selecciona r casos Al dar clic sobre Seleccionar
casos aparece la figura 16 en la cual elegimos Muestra aleatoria de casos
Figura 16
Figura 17
En Editor de datos (Figura 18) aparecerá una columna filter_$ en donde se puede
apreciar una serie de valores: ceros y unos; los cuales identifican a las muestras
74
(pacientes) que han sido seleccionadas, siendo estas identificadas con el número 1 y los
no seleccionados con el 0.
Figura 18
Figura 19
Finalmente Aceptar y se observan los resultados que aparecen en la tabla 05. De acuerdo
a esta tabla podemos concluir con un 95% de confiabilidad que la proporción de
pacientes varones se estima estaría comprendido entre 35% y 57%.
75
También podemos concluir con un 95% de confiabilidad que la proporción de pacientes
varones es de 46% con un margen de error de 11%.
Tabla 05
Descriptivos
Estadístico Error estándar
Sexo Media ,46 ,056
95% de intervalo de Límite inferior ,35
confianza para la media Límite superior ,57
Media recortada al 5% ,46
Mediana ,00
Varianza ,252
Desviación estándar ,502
Mínimo 0
Máximo 1
Rango 1
Rango intercuartil 1
Asimetría ,153 ,269
Curtosis -2,028 ,532
Considerando que este margen de error es demasiado grande (11%) nos proponemos
reducirlo a un 3%; entonces estimaremos el tamaño de muestra necesario para cumplir
este objetivo con un 95% de seguridad.
n0 1046
n n 168
n0 1046
1 1
N 200
Enseguida seleccionaremos una muestra aleatoria de tamaño 168 de nuestra base de
datos. Para ello tenemos que ir al menú
76
Datos Selecciona r casos Luego elegir Muestra aleatoria de casos, pulsar el botón
Ejemplo y aparecerá el siguiente recuadro en donde registraremos el tamaño de la
muestra 168 y el total de la población 200 tal como se observa en la figura 20
Figura 20
Luego Continuar y Aceptar. Enseguida el Editor de datos mostrará los 168 pacientes
seleccionados para la muestra. Ver figura 21
Figura 21
77
REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE
Ejemplo 1.- La siguiente información corresponde a la Estatura (metros) y el Peso
(kilogramos) de 30 estudiantes.
78
Figura 01
79
Figura 02
Diagrama de Dispersión
Este diagrama nos permitirá visualmente observar si existe una cierta relación entre el
peso y la estatura y si lo hubiera de qué forma estas variables estarían relacionadas.
Gráfi cos Cuadros de di´a log o antiguos Dispersión / Puntos tal como se observa en
la figura 03
80
Figura 03
Figura 04
81
Figura 05
82
Análisis de Correlación
Una vez visualizado una probable relación lineal entre las variables bajo estudio; el
siguiente paso será medir (cuantificar) el grado de relación lineal, a través del coeficiente
de correlación lineal o de Pearson (ver figura 06)
Figura 06
83
Figura 07
Al pulsar el botón Aceptar se obtiene el siguiente resultado (Ver tabla 01); en donde se
observa que el coeficiente de correlación lineal es de 0.828 y el nivel crítico es 0.000 lo
cual significa que si lleváramos a cabo una prueba de hipótesis para determinar si la
correlación es significativa, estaríamos concluyendo que efectivamente existe una
correlación lineal altamente significativa.; en este caso la correlación es positiva es decir;
a mayor estatura mayor peso.
Tabla 01
Correlaciones
Estatura Peso
N 30 30
N 30 30
84
Análisis de Regresión Lineal Simple
Después de haber determinado que existe una correlación lineal significativa entre las
variables bajo estudio; el siguiente paso será determinar la ecuación de regresión lineal
que nos permita pronosticar (estimar) el valor de la variable dependiente (Y) a partir de
ciertos valores de la otra variable independiente (X).
Figura 08
85
Figura 09
Tabla 02
86
Tabla 03
Coeficientesa
Coeficientes
Coeficientes no estandarizados estandarizados
Yˆ 17.714 40.265 X
Comprobación
87
Nota.- Cabe destacar que nuestras estimaciones tienen cierto grado de precisión para
valores de X (estatura) comprendidos entre 1.21 y 1.30 metros; para valores de X fuera
de este rango nuestras estimaciones no tendrán validez.
Figura 10
88
Al elegir Estimación curvilínea obtenemos el cuadro de diálogo correspondiente al
procedimiento Estimación curvilínea; en el cajón de Dependientes se ingresa la variable
Peso y en el cajón de Variable Independiente se ingresa Estatura (figura 11)
Figura 11
Tabla 04
89
La variable independiente es Estatura.
Gráfico 02
90
Figura 12
91
Figura 13
Ejemplo 2.- Se realizó un estudio para determinar la relación que existe entre el precio
(en soles) y la demanda (en miles de unidades) de cierto producto. En el presente estudio
se seleccionó una muestra aleatoria de 20 días y se obtuvieron los siguientes resultados.
92
1.8 34
3.1 21
2.6 27
2.7 24
2.2 30
La tabla 05 nos muestra que las variables precio y demanda están relacionadas
linealmente en forma negativa, ya que el coeficiente de correlación de Pearson es igual a
-0.954 lo cual significa que al aumentar el precio del artículo, la demanda disminuye, o
que al bajar el precio del artículo, hay una mayor demanda. Por otro lado, se
observa que el nivel crítico (Sig), asociado a la T, es 0,000 < 0,05 (α) lo cual permite
rechazar la hipótesis nula (Ho) de que no existe relación lineal entre las variables,
para un nivel de significancia de 5%.
93
Tabla 05
Correlaciones
Precio Demanda
N 20 20
N 20 20
Tabla 06
R cuadrado
Modelo R R cuadrado ajustado Error estándar de la estimación
94
Ecuación de regresión lineal
De acuerdo a los resultados que se muestran en la tabla 07; la ecuación de regresión lineal
queda expresada de la siguiente manera:
Yˆ 61.836 13.463 X
Tabla 07
Coeficientesa
Coeficientes
Coeficientes no estandarizados
estandarizados
Modelo t Sig.
95
96
TABLAS DE CONTINGENCIAS Y PRUEBA CHI
CUADRADO
Ejemplo 1.- En varios estudios realizados durante los últimos años se ha llegado a
conclusiones contradictorias acerca de la relación existente entre el estado civil y la actitud
hacia el aborto. Con intención de aportar nueva evidencia empírica sobre esta relación, se
ha encuestado a 500 sujetos y; tras clasificarlos según su estado civil y su actitud hacia el
aborto, se han obtenido los siguientes resultados.
97
Figura 01
98
Figura 02
Ho: Las variables estado civil y actitud hacia el aborto son independientes.
99
H1: Las variables estado civil y actitud hacia el aborto no son independientes (están
relacionadas)
Analizar Estadísti cos descriptiv os Tablas cruzadas tal como se observa en la figura
03
Figura 03
100
Figura 04
Si lo que se desea obtener son los valores observados conjuntamente con los esperados se
deberá pulsar el botón Casillas del cuadro de diálogo Tablas cruzadas: Mostrar en las
casillas y en Recuentos elegimos Observado y Esperado (Ver figura 05)
Figura 05
101
Luego Continuar y Aceptar y aparecerá la tabla 01; en donde podemos observar en la
primera celda que el valor observado es 130 y su valor esperado es 72
Tabla 01
Recuento 20 30 50
Viudo
Recuento esperado 24,0 26,0 50,0
102
Figura 06
luego pulsamos los botones Continuar y Aceptar observándose los resultados que
aparecen en la tabla 02 y 04
Tabla 02
Recuento
Divorciado/separado 40 60 100
Viudo 20 30 50
Para analizar mejor la tabla 02 lo expresaremos en porcentaje por columnas, quedando asi:
103
Tabla 03
Podemos observar que la mayoría (54.2%) de los que respondieron estar a favor del aborto
son solteros; mientras que el 57.7% de los que respondieron estar en contra son casados; es
decir los que más están a favor del aborto son los solteros y los que están más en contra
son los casados.
Tabla 04
Pruebas de chi-cuadrado
Significación
asintótica
Valor df (bilateral)
104
2
En la tabla 04 se puede observar que el valor Chi-cuadrado de Pearson 136.084
Con 3 grados de libertad y el nivel crítico o valor p (sig. bilateral) es 0.000. Y la regla de
decisión dice que si el nivel crítico es pequeño (generalmente menor que 0.05) la hipótesis
nula Ho deberá ser rechazada. Por lo que para un nivel de significancia (α) del 5%
rechazaremos Ho y podemos sostener que los datos muestran evidencia suficiente como
para concluir que existe relación entre la actitud hacia el aborto y el estado civil
Se trata analizar una tabla de contingencia partiendo de una tabla que ya ha sido obtenida;
es decir asumiremos que desconocemos la base de datos y solo contamos con la siguiente
tabla.
En primer lugar, entramos al Editor de datos Vista de variables, para registrar el nombre
de las variables tal como se observa en la figura 07
105
Figura 07
Luego en Vista de datos se registran los siguientes valores, tal como se observa en la
figura 08
106
Figura 08
Figura 09
Al hacer clic sobre Ponderar casos obtenemos la figura 10 en donde elegimos Ponderar
casos mediante. En el cajón de Variable de frecuencia se ingresa Frecuencias y luego
Aceptar
107
Figura 10
Figura 11
Al hacer clic sobre Tablas cruzadas aparece la figura 12 y lo que sigue a continuación ya se
ha mencionado anteriormente
108
Figura 12
Con esta prueba se busca determinar si dos o más muestras independientes provienen de una
misma población.
Ho: Las muestras aleatorias provienen de una misma población (o las muestras son
homogéneas).
H1: Las muestras aleatorias no provienen de una misma población ( o las muestras no son
homogéneas).
109
Efectividad
Remedios Sin alivio Cierto alivio Alivio total
Remedio 1 10 40 10
Remedio 2 20 30 10
Remedio 3 15 20 25
¿Podemos concluir al nivel de significación 0.01 que los tres remedios para la alergia son
igualmente efectivos?
En primer lugar, entramos a Editor de datos y pulsamos Vista de variables aquí se definen
las variables (Ver figura 13)
Figura 13
110
Figura 14
111
Figura 15
Al hacer clic sobre Ponderar casos obtenemos la figura 16 en donde elegimos Ponderar
casos mediante. En el cajón de Variable de frecuencia se ingresa Frecuencias y luego
Aceptar
112
Figura 16
Figura 17
113
Al elegir la opción Tablas cruzadas obtenemos el cuadro de diálogo correspondiente al
procedimiento Tablas cruzadas en donde en el cajón de Filas se ingresa la variable
Remedios para la alergia y en el cajón de Columnas se ingresa la variable Efectividad. Ver
(figura 18)
Figura 18
114
Figura 19
Tabla 05
Recuento
Efectividad
Remedio 2 20 30 10 60
Remedio 3 15 20 25 60
Total 45 90 45 180
115
Tabla 06
Pruebas de chi-cuadrado
Significación
asintótica
Valor df (bilateral)
2
En la tabla 06 se puede observar que el valor Chi-cuadrado de Pearson 20
Con 4 grados de libertad y el nivel crítico o valor p (sig. bilateral) es 0.000. Por lo que para
un nivel de significancia (α = 0.01) rechazaremos Ho y podemos concluir que la muestra
está evidenciando que los tres remedios para la alergia no tienen la misma efectividad.
116
117