Sei sulla pagina 1di 171

Módulo de bioestadística para tecnología medica

JOSÉ ANTONIO BOZA ROSARIO


Sesión 1:. Conceptos básicos de la Estadística: Población, muestra, unidad estadística, variable,
dato estadístico. Estadística descriptiva y Estadística inferencial. Práctica dirigida N° 1.

LA ESTADISTICA

1. DEFINICIÓN:
La Estadística es una ciencia que nos ofrece un conjunto de métodos y técnicas para recopilar,
organizar, presentar, analizar e interpretar un conjunto de datos respecto a variables en estudio
de una población, con el fin de obtener conclusiones y tomar decisiones sobre determinados
hechos o fenómenos en estudio.
La estadística es una rama de la matemática y es parte del método científico. En la actualidad,
para hacer investigación científica se necesita conocer de estadística.

2. CLASIFICACION DE LA ESTADÍSTICA
La Estadística se clasifica de la siguiente manera:
2.1. Estadística Descriptiva
Es aquella área de la Estadística que describe y analiza una población, sin pretender
sacar conclusiones de tipo general. Es decir, las conclusiones obtenidas son validas solo
para dicha población.

2.2. Estadística Inferencial


Es aquella área de la Estadística, cuyo propósito es inferir o inducir leyes de
comportamiento de una población, a partir del estudio de una muestra. Es decir las
conclusiones obtenidas a partir de una muestra, son válidas para toda la población.

Bioestadística
Se entiende como bioestadística la aplicación de técnicas estadísticas a las ciencias de
la naturaleza, entre las que se encuentran todas las ciencias de la salud. Para que esta
definición tenga sentido habremos de entender plenamente que es la estadística
3. DEFINICIONES PRELIMINARES:
3.1. UNIVERSO:
Es el conjunto de individuos, objetos o entes que tienen características comunes,
definidas en forma general en un espacio y tiempo.
Ejemplo:
Conjuntos de alumnos, conjunto de docentes universitarios, conjunto de pacientes,
conjunto de clientes, conjunto de proveedores, conjunto de viviendas, conjunto de
establecimientos, conjunto de documentos, etc.; de una determinada región o zona en un
tiempo determinado.

3.2. POBLACIÓN:
Es un conjunto grande y completo de individuos, elementos o unidades que presentan
como mínimo una característica en común y observable. Para definir una población esta
debe contener los siguientes elementos: contenido, espacio y tiempo. Al número de
elementos de una población de denota por “N”. Una población puede clasificarse de la
siguiente manera:
3.2.1. Según su extensión:
Población Finita: Es aquella que tiene un determinado número de elementos.
Población Infinita: Es aquella cuyos elementos no se pueden contar.
3.2.2 Según su ámbito o naturaleza:
Población Objeto: Está dada por los elementos que forman la población.
Población Objetivo: Está dada por la información que da la población objeto
Nota: De un universo se pueden desprender muchas poblaciones, pero operativamente
se pueden hablar indistintamente como población o universo.

3.3. MUESTRA
Es una parte o un subconjunto de la población en estudio. También se puede decir que
es una colección de unidades de muestreo seleccionados de un marco muestral o de
varios marcos muéstrales. Al número de elementos de la muestra se denota por “n”.
Una muestra tiene las siguientes características:
a. Es representativa.
b. Es adecuada.

MUESTREO
 Es una técnica estadística por la cual se realizan inferencias o generalizaciones para
una población examinando solo una muestra de ella.
 Es una técnica empleada para seleccionar elementos de una población.
 Su propósito es proporcionar diferente tipo de información estadística de naturaleza
cuantitativa o cualitativa.
 Por su gran importancia los investigadores lo utilizan en los diferentes campos de saber
y también lo usamos en la vida diaria.

3.4. UNIDAD DE ESTUDIO:


Es el animal persona o cosa de quien se dice algo. Es el elemento quien nos va a dar la
información. Es el individuo u objeto del cual se toman las mediciones u observaciones.
Ejemplos:
Un docente, un auxiliar de educación, un votante, una factura, una empresa, una botella
de cerveza, una universidad, una vaca, una gota de sangre, etc.

3.5. OBSERVACIONES:
Estadísticamente son los datos que se recolectan para un estudio. Una observación o
dato es cuando una variable en si toma un valor especifico.

3.6. VARIABLE:
Una variable es una característica de estudio de una población. Una variable es lo que
se quiere evaluar en una investigación. Las características toma diferentes valores que
varían de individuo a individuo o de objeto a objeto. Aquellas características que
permanecen inalterables en las unidades de estudio reciben el nombre de constantes.
Generalmente, las variables se designan con las últimas letras mayúsculas del
abecedario: X, Y, Z; y los valores de las variables se designan con letras minúsculas: xi
, yi , etc.
Variable:
temperatura

T = 28 ºC
(Dato)

3.6.1. CLASIFICACION DE LAS VARIABLES


Estudiaremos algunas clasificaciones más utilizadas en investigación:
 Según su naturaleza y escalas de medición : Cuantitativas - Cualitativas
 Según su generalidad o nivel de abstracción: Teóricas, Intermedias y Empíricas.
 Según su relación Causal: Independientes ,Dependientes e Intervinientes.

SEGÚN SU NATURALEZA Y ESCALAS DE MEDICION:

Variable

Cualidad Cantidad
Cualitativa O Cuantitativa o

Atributo número

Nominal Ordinal Discreta Continua

No orden Orden Conteo Medición

SEGÚN SU GENERALIDAD O NIVEL DE ABSTRACCIÓN

Ejemplos:
Unidad de estudio Variable
 Estudiante Peso, talla, edad, ci, número de hermanos, raza,
color de ojos, tipo de sangre, etc.
 Empresa Ganancia, costos, producción, número de
trabajadores, numero de computadoras, etc.
 PYME Número de trabajadores, años de funcionamiento,
ganancias, etc.

3.7. PARAMETRO:
Es un valor, una cantidad, un indicador que se obtiene con información de la población.
Dentro de estos tenemos:
a. El promedio poblacional
b. La varianza poblacional.
c. La proporción poblacional, etc.

3.8. ESTIMADOR:
Es un valor, una cantidad, un indicador que se obtiene con información de la muestra.
Dentro de estos tenemos:
a. El promedio muestral.
b. La varianza muestral.
c. La proporción muestral, etc.

PRACTICA N°1
I. Identifique si representa una población (N), muestra(n) en las siguientes situaciones.
( ) 1. Número de enfermos con cáncer observados durante un año en la clínica “x”
( ) 2. Número de reclusos egresados de un centro penitenciario en el año 1987.
( ) 3. Estudio del 20% de reclusos egresados de un centro penitenciario ene l año
1987
( ) 4. Número de personas con proceso judicial por tráfico de drogas en el año 1987.
( ) 5. Estudio del 60% de las raciones atendidas a pacientes en el hospital “x”
( ) 6. Estudio de los antecedentes fisiológicos de 15 mujeres de 30 - 49 años de edad
atendidos en el hospital “x”
( ) 7. Número de niños nacidos vivos en el hospital “x”
( ) 8. Estudio del 25% de pacientes con tuberculosis del distrito de comas.
( ) 9. Análisis de precios de productos de primera necesidad en 10 mercados de lima
metropolitana
( ) 10. Estudio de los precios de todos los productos químicos farmacéuticos
importados por el Perú en 1987.

II. Identifique las unidades de observación y las observaciones en las siguientes.

1. Un sociólogo investiga las condiciones de vida de los reclusos en un centro


penitenciario.
2. Un nutricionista investiga los tipos de dietas en las raciones atendidas a pacientes
en el hospital “x”
3. Una enfermera investiga el control y crecimiento del niño sano en la comunidad
“x”
4. Un investigador estudia el crecimiento de los precios de los productos de primera
necesidad de lima metropolitana.
5. Una enfermara estudia los tumores cancerosos en personas mayores de 60 años
de edad.

III. En base a toda la población de pacientes con tumores cancerosos, identificar lo


siguiente como variable (V) O Constante(C).

( ) 1. EDAD ( )3. SEXO


( ) 2. TIPO DE TUMOR ( )4. TIPO DE ENFERMEDAD

IV. Se lleva a cabo un estudio sobre el consumo de drogas en adolescentes varones que
residen en el distrito de Miraflores. Identificar como variable (V) o constante(c) en lo
siguiente:

( ) 1. Edad
( ) 2. Sexo
( ) 3. Tipo de droga
( ) 4. Lugar de residencia
( ) 5. Consumo semanal
( ) 6. Nivel de instrucción

V. Identifique el tipo de variable por su relación causal, en las siguientes preposiciones.

1. El bajo nivel de instrucción, es uno de los factores que posibilita el poco interés de
los padres, en el control de crecimiento y desarrollo de los niños de familias de
estrato socio económico bajo.
2. El aumento de los precios de los productos de primera necesidad, se debe a la
reducción de los subsidios por parte del estado , en los últimos seis meses

VI. Identifique cada una de las variable siguientes de acuerdo a la clasificación por su
naturaleza y por su escala o nivel de medición:
1. Número de niños nacidos en diferentes horas del día
2. De edad de los reclusos
3. Grado de instrucción de los drogadictos
4. Número de menores abandonados en los hospitales
5. Caso de tuberculosis pulmonar
6. Ingreso per-cápita
7. Consumo per-cápita
8. Candidatos de la alcaldía de lima , según votos obtenidos
9. Categoría docente
10. Número de hogares según servicio de alcantarillado
11. Lugar de nacimiento de las personas peso de recién nacidos en gramos
12. Peso de recién nacidos en gramos
13. Grado de desnutrición
14. Numero de hematíes
15. Urea materna en mg/100
16. Estado marital de las personas
17. Tasa de tuberculosis pulmonar
18. Valores de proteínas en mg/100
19. Sueldos de las enfermeras
20. Tasa de mortalidad infantil
21. Clasificación de la población económicas activas
22. Nivel de inflación mensual

Sesión 2: Organización y presentación de datos univariantes y bivariantes. Distribución de


frecuencias y gráficos para variables categóricas. Distribución de frecuencias y figuras para
variables cuantitativas discretas.

ORGANIZACIÓN Y PRESENTACIÓN DE LA INFORMACIÓN:

En la Estadística se trabaja generalmente con una gran cantidad de datos los cuales por facilidad
de análisis y cálculos se organizan en Tablas de Distribución de Frecuencias (TDF) y Figuras
Estadísticas (FE).

1. TABLAS DE DISTRIBUCIÓN DE FRECUENCIAS (TDF):

1.1. DEFINICIÓN:
Un cuadro de distribución de frecuencias, es una tabla resumen de un conjunto de datos
que muestra el comportamiento o distribución de la variable en estudio en forma rápida
y resumida.
Aun cuando un cuadro de frecuencias se construye a libre criterio de quien lo ejecuta,
generalmente es común seguir algunos pasos que de alguna forma homogenizan criterios
y ayudan a los fines didácticos.
Para realizar este análisis se tienen que tener en cuenta el tipo de variable que se está
evaluando.
1.2. PARTES DE UNA TABLA DE DISTRIBUCION DE FRECUENCIAS:
Las partes de un TDF son las siguientes:
a. Número de la tabla de frecuencias en forma correlativa.
b. Título: Especificar la variable y la población en estudio
c. Encabezado o conceptos.
d. Cuerpo o contenido del cuadro de frecuencias
e. Nota de pie (no siempre es necesaria)
f. Fuente
g. Elaboración

1.3. ELEMENTOS PARA CONSTRUIR UN TDF:


Para construir una tabla de frecuencias se utilizan los siguientes elementos:
A. Valores de la variable Xi:
Los valores de la variable o datos se representan por Xi. Ejm: Si se tienen 50 datos
sus valores correspondientes no agrupados se representan como X1, X2, X3,..., X50.
B. Intervalos de clase:
Los intervalos son subconjuntos de la recta real que están definidos por un límite
menor o inferior Li y un límite mayor o superior Ls.
C. Frecuencia:
1. Frecuencia absoluta simple:
Se denotan por fi. Está constituida por el número de veces que se repite un
valor. En el caso de intervalos es el número de observaciones comprendidas en
dicho intervalo. Estas frecuencias siempre son enteros positivos y además la
suma de todos ellos es el tamaño de la muestra “n”.

2. Frecuencia relativa:
Se denotan por hi. Indica la relación o proporción existente entre la frecuencia
absoluta simple y el número total de datos. Estas frecuencias son números
fraccionarios positivos entre o y 1. Para fines interpretativos estas frecuencias
se expresan en % (hi%) . Así:

fi fi
hi  ó hi (%)  x100
n n
3. Frecuencia absoluta acumulada:
Se denotan por Fi. Resulta de la suma de las frecuencias simples del intervalo
dado o considerado, es decir:
F1 = f1
F2 = f1 + f2
F3 = f1 + f2 + f3
.............................................
……………………………………………………
Fj = f1 + f2 + f3 + ....... + fi
4. Frecuencia relativa acumulada:
Se denotan Hi. Resulta de la suma de las frecuencias relativas simples hasta la
frecuencia del intervalo considerado. Así:
H4 = h1 + h2 + h3 + h4
H6 = h1 + h2 + ....+ h6
Para fines interpretativos estas frecuencias se expresan en % (Hi%)
D. Marca de clase:
Se denota por “Yi”. Es el promedio de los valores correspondientes a los límites
inferior y superior de cada uno de los intervalos determinados.

1.4. PROPIEDADES DE UNA TDF:


A. Las fi y Fi son siempre números enteros positivos. Es decir: fi , Fi ≥ 0
B. Las hi y Hi son siempre números fraccionarios positivos comprendidos entre 0 y 1,
es decir 0≤ hi , Hi ≤ 1
C. F1 siempre es igual f1 y H1 siempre es igual a h1.
D. La suma de todas las fi es igual a n y la suma de las hi es igual a 1.
E. Fm siempre es igual a n y Hm siempre es igual a 1.

1.5. CONSTRUCCIÓN DE TABLAS DE FRECUENCIAS:


Para la construcción de los TDF hay que tener en cuenta el tipo de variable que se está
analizando, es decir, si es cuantitativa continua, cuantitativa discreta o variable
cualitativa.
A. TDF PARA UNA VARIABLE CUANTITATIVA CONTINUA:
Para la construcción de este cuadro hay que realizar los siguientes pasos:
PASO 1. Determinar el Rango del conjunto de datos.
R = Valor máximo - Valor mínimo

PASO 2. Determinar el número de intervalos “m”.


m = 1 + 3.322 log (n)

Este valor siempre es un número entero (Redondeo)


PASO 3. Determinar la amplitud “Ci” interválica (de cada intervalo).
Ci = R / m

Este valor está en función de la estructura de la base de datos (tomar el inmediato


superior)
PASO 4. Determinar el nuevo rango “R2” (Solamente si se tomó un inmediato
superior)
R 2 = Ci * m

Ci: es la amplitud teniendo en cuenta el inmediato superior.

PASO 5. Determinar los intervalos y finalmente construir la tabla.


B. TDF PARA UNA VARIABLE CUANTITATIVA DISCRETA:
Para la construcción de un TDF para una variable cuantitativa discreta (valores
discretos) ya no se utiliza los pasos anteriores solamente colocar en los intervalos a
los diferentes valores discretos.
C. TDF PARA UNA VARIABLE CUALITATIVA:
Para la construcción de un TDF para una variable cualitativa se sigue los mismos
pasos que para una variable cuantitativa discreta, es decir, solamente colocar en los
en los intervalos a las diferentes categorías de la variable cualitativa.

1.6. EXCEL EN LA COSNTRUCCION DE TDF:


Si bien es cierto que el EXCEL no es un programa exclusivamente diseñado para análisis
estadístico (como lo es el SPSS), puede realizar parte del trabajo estadístico. Una de las
ventajas y razones de su uso, está en su fácil acceso, pues en todas las computadoras
está instalado y así se podrá explorar el funcionamiento de las herramientas que se
presentan en este programa.

A. CONSTRUCCION DE TABLAS DE FRECUENCIA UTILIZANDO TABLAS


DINAMICAS: Anexo 1
Para construir tablas de distribución de frecuencias a través de Excel se utiliza la
herramienta TABLAS DINAMICAS ver el uso de este programa analizaremos la
siguiente base de datos respecto a 50 casos y 10 variables de estudio. (Archivo BASE
DE DATOS 01).
BASE DE DATOS
La base de datos que se evaluará con fines prácticos (BASE01.exe), es la siguiente:
X1: Tamaño familiar (Número de integrantes de su familia)
X2: Edad
X3: Sexo
X4: Profesión
X5: Estado civil
X6: Lugar de procedencia
X7: Tenencia de seguro
X8: Tipo de enfermedad
X9: Ingreso mensual
X10: Actividad

Con la siguiente base de datos realizar lo siguiente:


a. Indicar el comportamiento del tamaño familiar de la muestra en estudio.
b. Determinar el comportamiento de la muestra son según estado civil. Señalar
sus respectivos porcentajes.
c. Determinar el comportamiento de la muestra según tenencia de seguro.
d. Determinar la edad promedio.
e. Determinar el ingreso mensual.
f. Realizar un cuadro de doble entrada según sexo y estado civil. Interprete
algunos resultados.
g. Realizar un cuadro de doble entrada según profesión y tenencia de seguros.
Interprete algunos resultados.

A. CONSTRUCCION DE TABLAS Y FIGURAS CON SPSS VS 21


ANALISIS ESTADÍSTICO PARA UNA VARIABLE CUALITATIVA:
Para analizar el comportamiento de la información de una variable CUALITATIVA, esta se
debe presentar en unas Tablas de Frecuencias. La construcción de las tablas lo veremos al
resolver el siguiente ejercicio de aplicación.
Ejercicio de aplicación:
Teniendo en cuenta el archivo Base de datos1SPSS 21.sav, la cual contiene información
obstétrica, obtener el cuadro de frecuencias para las variables de la base de datos 1.
Solución:
Para describir esta variable hacer clic en Analizar \ Estadísticos descriptivos \
Frecuencias…y aparece la siguiente ventana:

Luego se seleccionan las variables a describir. Para obtener las tablas de frecuencias activar
esta opción (Visualizar tabla de frecuencias). Luego para obtener la moda hacer clic en
Estadísticos y activar moda y presionar continuar.
Para obtener el gráfico de barras hacer clic en Gráficos y activar gráficos de barras y hacer
clic en continuar. Por último pulsar el botón Aceptar del cuadro de dialogo de frecuencias.
A continuación presentamos estas ventanas de trabajo:

PARA UNA VARIABLE CONTINUA:


Para su análisis estas variables también se presentan las tablas de distribución de
frecuencias. Sus indicadores son la media o promedio, moda, mediana, rango, varianza,
desviación estándar, kurtosis y asimetría.
Ejercicio: Teniendo en cuenta el archivo Base de datos1 SPSS 21.sav describir
estadísticamente la variable hemoglobina, edad, talla de la madre y peso del recién nacido.
Solución:
Para describir esta variable hacer clic en Analizar \ Estadísticos descriptivos \ Frecuencias.

Luego se seleccionan las variables a describir. Para obtener la tablas de frecuencias activar esta
opción (Visualizar tabla de frecuencias). Para obtener las diferentes medidas estadísticas hacer
clic en Estadísticos y activar media, moda, varianza, asimetría y presionar continuar; para obtener
el gráfico de respectivo hacer clic en Gráficos y activar histograma y hacer clic en continuar. Por
último pulsar el botón Aceptar del cuadro de dialogo de frecuencias.

PARA DOS VARIABLES CUALITATIVAS:


Hay casos en los cuales se analizan dos variables cualitativas los cuales también se deben
presentar en TDF bidimensional y desde luego determinar sus diferentes medidas estadísticas.
Ejercicio: Teniendo en cuenta el archivo Base de datos1 SPSS 21.sav construir el TDF
bidimensional para las variables estado civil y grado de instrucción.
Solución:
Para obtener este TDF hacer clic en Analizar \ Estadísticos descriptivos \ tabla de contingencia
Ejemplo 1
Si se extrae información de una variable cualitativa de 200 pacientes por ejemplo el género
sólo es posible obtener frecuencias absolutas y relativas.
Las frecuencias absolutas fi es la cantidad de veces que se repite ese valor.
Las frecuencias relativas hi es la proporción de individuos que posee ese valor calculada
sobre el total de individuos muestrales, es igual a la frecuencia absoluta dividida la totalidad
de individuos en la muestra (164/200=0,82). Luego el porcentaje es igual a la frecuencia
relativa multiplicada por 100.

Tabla 1: Género de pacientes del IPSS Chimbote” 2016.



Género Pacientes hi %
Femenino 164 0,82 82
Masculino 36 0,18 18
Total 200 1,00 100
Fuente. Datos recolectados de la oficina de estadística.

Se observaron 162 pacientes de género femenino y 36 de género masculino. El 82 % de los


pacientes analizados o estudiados son de género femenino y el 18% de género masculino.
La representación gráfica para esta información puede ser realizada a través de un gráfico
de sectores.
Figura 1: Género de pacientes del IPSS Chimbote” 2016.

Fuente: Tabla 1
Ejemplo 2
Un docente posee un listado de 32 estudiantes que incluye el género y la carrera universitaria
a la cual se inscribieron en la USP Chimbote 2016.
Nº Apellidos Género Carrera
1 Bustos M Abogacía
2 Bisio M Abogacía
3 Callejas M Abogacía
4 Cucos F Abogacía
5 Fuster M Abogacía
6 Frutos M Abogacía
7 Gomez M Abogacía
8 Jozami F Abogacía
9 Mistral F Abogacía
10 Perez M Abogacía
11 Petres M Abogacía
12 Suarez F Abogacía
13 Yoma F Abogacía
14 Zolca M Abogacía
15 Aquines F Medicina
16 Arce M Medicina
17 Alvarez F Medicina
18 Boca M Medicina
19 Casas M Medicina
20 Colman F Medicina
21 Dexter M Medicina
22 Dolce M Medicina
23 Dimo M Medicina
24 Duran F Medicina
25 Desio F Medicina
26 Ercos M Medicina
27 Flores F Medicina
28 Marcos F Medicina
29 Millan M Medicina
30 Oses M Medicina
31 Sosa F Medicina
32 Urca M Medicina

Desea ordenar la información y en primera instancia realiza una tabla de frecuencias


absolutas conjuntas. La siguiente tabla se denomina tabla de contingencia y establece la
cantidad de alumnos que poseen conjuntamente ambas características: 5 alumnos son de
género femenino y se inscribieron en abogacía, 9 alumnos se inscribieron en abogacía y son
de género masculino, etc..

Tabla 2: Estudiantes de la USP Chimbote,2016


Género
Carrera F M Total
Abogacía 5 9 14
Medicina 8 10 18
Total general 13 19 32
Fuente: Datos recolectados de las escuelas.
En este caso lo apropiado para graficar sería utilizar un diseño de barras compuestas
horizontales.
Figura 2: Estudiantes de la USP Chimbote,2016

Medicina
Carrera

Géner
Abogacía Mascul…
Femen…

0 5 10 15
Estudiantes

Fuente: Tabla 2

Si se toman los porcentajes calculados sobre el total de alumnos de cada uno de los géneros,
es decir tomando como total de cada uno de los géneros, 13 y 19, se obtiene una tabla de
porcentajes columnas.
Tabla 3: Porcentaje de estudiantes por género según carrera de la USP Chimbote,
2016
Género
Carrera F M Total
Abogacía 38 47 44
Medicina 62 53 56
Total general 100 100 100
Fuente: Datos recolectados de las escuelas

Figura 3: Porcentaje de estudiantes por género según carrera de la USP Chimbote,


2016
Masculino

Género
Abogacía
Medicina
Femenino

0% 20% 40% 60% 80% 100%

Fuente: Tabla 3

En esta tabla se puede leer que el 38% de los estudiantes de género femenino se inscribieron
en la carrera de abogacía. En el género masculino el porcentaje es mayor ya que alcanza el
47%.
Tabla 4: Porcentaje de estudiantes por carrera según género de la USP Chimbote,
2016
Género
Carrera F M Total
Abogacía 36 64 100
Medicina 44 56 100
Total 41 59 100

Fuente: Datos recolectados de las escuelas.


Aquí la información provee datos relacionados al género dentro de cada una de las carreras
a las cuales se inscribieron los estudiantes. Es decir del total de alumnos que se inscribieron
a abogacía, el 36% son de género femenino y del total de alumnos que se inscribieron a
medicina el 44% son de género femenino. En general puede decirse que en abogacía hay
una tendencia mayor a que los inscritos sean de género masculino.

Figura 4: Porcentaje de estudiantes por carrera según género de la USP Chimbote,


2016
Medicina

Género
Femenino
Masculino
Abogacía

0% 20% 40% 60% 80% 100%

Fuente: Tabla 4

Ejemplo 3

En un A.A.H.H. de la ciudad de Chimbote, 2016 se está realizando un estudio sobre Nº de


niños en edad escolar por hogar para determinar la demanda de ingreso en la escuela de
dicho asentamiento. Se observaron el número de niños en edad escolar por hogar sobre un
total de 40 hogares.
1 5 3 4 2 3 2 3 4 2

2 0 1 2 5 3 4 1 3 3

4 3 2 1 3 0 2 5 3 2

3 6 3 4 2 3 4 3 1 3

Para resumir esta información proveniente de una variable aleatoria cuantitativa se


construye una tabla de frecuencias.

Tabla 5: Nº de niños en edad escolar por hogar un A.A.H.H. de la ciudad de


Chimbote, 2016
Nº de niños fi hi %
en edad escolar Nº
Hogares
xi
x1= 0 2 0,050 5
x2= 1 5 0,125 12,5
x3= 2 9 0,225 22,5
x4= 3 14 0,350 35,0
x5= 4 6 0,150 15,0
x6= 5 3 0,075 7,5
x7= 6 1 0,025 2,5
Total 40 1,000 100,0
Fuente: Datos recolectados de una encuesta a los jefes de hogar.

El 35 % de los hogares poseen 3 hijos en edad escolar, el 57,5% poseen entre 2 y 3 hijos.

En general, la representación gráfica de una tabla de frecuencia permite percibir con mayor
claridad algunas características de la masa de datos que se investiga. Por ello, resulta bastante más
fácil transmitir conclusiones a personas no habituadas a la interpretación de distribuciones de
frecuencias cuando se utilizan gráficos estadísticos.

Para representar gráficamente se utiliza un par de ejes de coordenadas cartesianas, donde en el eje
de abscisa se representa la variable estudiada y en el eje de ordenada los valores de la
correspondiente frecuencia absoluta o relativa. En el caso de graficar datos provenientes de una
variable discreta, como la frecuencia corresponde a cada valor de la variable, se puede representar
por un bastón vertical, construyendo de esta forma el llamado “gráfico de bastones”

Figura 5: Nº de niños en edad escolar por hogar un A.A.H.H. de la ciudad de


Chimbote, 2016
16
14
12

frecuencia
10
8
6
4
2
0
1 2 3 4 5 6 7
Nº de hijos

Fuente: Tabla 5.
Ejemplo 4

Los siguientes datos corresponden a la información relativa al puntaje sobre un test de


atención efectuado a 34 estudiantes de Tecnología Médica, Terapia y Rehabilitación Física
en Diciembre del 2016 Semestre II.

54 62 55 69 78 64 69
66 61 66 58 69 78 68
63 58 51 72 84 64 66
53 70 65 60 70 80 57
63 72 65 64 73 75 -

Para armar los intervalos se calculó el rango que es igual a R=84-51= 33, dado que se querían armar
m= 1 + 3.322 log ( 34 )= 6.09 m=7 intervalos la amplitud sería Ci = 33 / 6
Ci =4.71 Ci =5 Para no tomar amplitudes con decimales se prefirió usar una amplitud de 5 tomando
como límite inferior al valor 50.
Siempre el límite inferior del primer intervalo debe contener al menor valor del conjunto de
datos.

Tabla 6: Estudiantes de Tecnología Médica, Terapia y Rehabilitación Física en


Diciembre del 2016 Semestre II.

Puntaje fi hi % Fi Hi
50 55 4 0,12 12 4 0,12
55 60 4 0,12 12 8 0,24
60 65 9 0,26 26 17 0,50
65 70 9 0,26 26 26 0,76
70 75 4 0,12 12 30 0,88
75 80 3 0,09 9 33 0,97
80 85 1 0,03 3 34 1,00
Total 34 1,00 100 -
Fuente: resultado de test de atención.

En esta tabla se incluye la frecuencia relativa acumulada Hi. Esta frecuencia multiplicada por 100,
indica el porcentaje de individuos que poseen un valor inferior al límite superior de ese intervalo. En
el ejemplo anterior, en la tercera fila se podría leer: “un total de 9 alumnos poseen un puntaje entre
60 y 65, es decir 26% de los alumnos analizados. Luego el 50% posee un puntaje inferior a 65 puntos.
El 0,50 de la frecuencia relativa acumulada se calcula como 0,12+0,12+0,26 sumando a la frecuencia
relativa del intervalo, las anteriores.

Para representar gráficamente a la información que provee una variable cuantitativa se utiliza un
histograma. El histograma es un gráfico de frecuencias absolutas o relativas.
Sobre el eje de ordenada se presentan las frecuencias absolutas o relativas y sobre el eje de abscisa
se presentan las clases o intervalos. Es importante considerar que las barras no poseen espacios entre
sí, dado que la variable es continua.

Figura 6: Estudiantes de Tecnología Médica, Terapia y Rehabilitación Física en


Diciembre del 2016 Semestre II.

10
Nº Estudiantes

8
6
4
2
0
50-55 55-60 60-65 65-70 70-75 75-80 80-85
Puntaje

Fuente: Tabla 6
Las alturas de las barras varían según sean los valores de frecuencia absoluta sobre los intervalos,
que todos tienen en este caso igual longitud de base.
El ascenso y el descenso de las líneas de contorno muestran el aumento o la disminución del
número de alumnos de intervalo en intervalo.
La representación gráfica de las frecuencias relativas acumuladas se realiza a través de un gráfico
lineal u ojiva. Si ese gráfico tiene forma de S estirada, implicaría que el histograma es bastante
simétrico, tal como ocurre en el ejemplo anterior.

Figura 7: Estudiantes de Tecnología Médica, Terapia y Rehabilitación Física en


Diciembre del 2016 Semestre II.

100
90
80
70
Porcentaje

60
50
40
30
20
10
0
50-55 55-60 60-65 65-70 70-75 75-80 80-85
Puntaje

Fuente: Tabla 6

PRACTICA N°2
1. Los siguientes datos corresponden al índice rendimiento en una prueba de aptitud:

1.51 1.53 1.47 1.58 1.46 1.69 1.66 1.61


1.23 1.56 1.09 1.63 1.60 1.89 1.37 2.29
1.65 1.69 2.01 1.73 1.22 1.46 1.51 1.47
1.61 1.65 1.60 2.18 1.54 1.33 1.65 1.50
2.29 1.56 1.67 1.81 1.67 1.38 1.68 1.83

Se pide:

a) Elaborar una tabla completa de distribución de frecuencias.


b) Interpretar algunos valores de las frecuencias halladas.
2. A través de un estudio realizado en el año 1986, sobre la situación de las viviendas ubicadas
en el PP.JJ. “Santa Rosa”, se determinó que la construcción de las mismas de acuerdo al
material utilizado fue la siguiente: Material noble 95, esteras 355, cartón 490, adobe 160,
otros 80.

Se pide:
a) Ordenar la información en un cuadro de frecuencias.
b) Interpretar algunos valores de las frecuencias relativas.

3. Los siguientes datos corresponden al número de viajes que realizan por día 80 personas
encuestadas, para ir y regresar de su centro de trabajo:

3 6 5 7 4 4 3 6 7 4 5 4 4
5 4 3 4 3 5 6 6 4 4 5 7 4
6 2 5 7 6 3 2 5 4 4 6 5 6
5 6 4 5 2 5 3 6 2 2 3 3 5
3 5 4 2 6 3 3 3 6 5 7 4 5
4 2 3 4 2 3 6 5 4 5 5 5 4

a) Ordenar los datos agrupándolos en un cuadro de distribución de frecuencias.


b) ¿Cuántas personas viajan 4 veces por día?
c) ¿Qué porcentaje de personas viajan 3 veces por día?
d) ¿Cuántas personas viajan 5 veces por día?
e) ¿Cuántas personas viajan a lo más 6 veces por día?

4. Los siguientes datos, indican el número de años de niños en edad pre escolar y escolar de un
determinado centro educativo.

4.2 5.8 6.1 9.1 4.7 5.8 6.9 4.0 6.4 7.7
6.9 8.6 8.2 4.0 5.5 5.6 9.4 7.3 2.5 6.3
8.2 8.1 5.2 8.8 9.2 6.6 7.8 6.9 5.8 7.5
5.3 5.6 5.7 3.5 6.0 5.4 2.6 9.3 5.2 2.3
6.1 5.3 2.0 5.4 9.8 6.0 5.2 8.6 5.1 9.2
5.6 4.3 3.8 6.5 7.5 4.5 4.2 3.7 6.1 5.4
6.2 6.3 6.7 7.8 3.9 7.1 5.6 3.3 6.7 5.0
10.4 6.5 5.0 5.8 5.7 4.8 8.5 6.3 7.5 3.1
10.6 7.5 3.7 5.8 6.8 7.4 3.0 9.7 8.4 5.9
2.6 5.4 6.8 5.1 5.0 5.8 5.5 5.2 4.1 6.8

Para estos datos:

a) Organizar la información en un cuadro de distribución de frecuencias.


b) Determinar:
b.1) ¿Cuántos niños poseen entre 3.6 a 6.6 años?
b.2) ¿Qué porcentaje de los escolares tienen más de 7.8 años?

5. Hallar las frecuencias que faltan en el siguiente cuadro de frecuencias.

i Ii fi hi Hi
1 -24 0.15
2 - 0.25
3 -44 0.90
4 45-
60

6. Se tiene una distribución de frecuencias con 4 intervalos de amplitud constante para 50 datos:

i Ii fi hi Hi
1 -3 0.08
2 -5
3 12 0.40
4 -9 0.36

Completar el cuadro.
7. Las oficinas Médico Legales de país registraron la siguiente información, sobre la magnitud
de los servicios brindados durante 1982:

Lesiones 160,429; accidentes de tránsito 26.939; accidentes de trabajo 961; honor


sexual 17,191; examen psicosomático 4,018; otros reconocimientos 28,626.

a) Efectuar el ordenamiento de los datos


b) Analizar el cuadro elaborado.

8. Los siguientes datos corresponden a las lecturas de la presión sanguínea sistólica que se
hicieron a 58 adultos que se presentaron para un examen físico:

104 112 128 139 118 132 132 112 106


126 126 115 118 117 116 113 122 123
116 114 129 117 106 124 115 118 123
105 120 146 121 120 102 138 106 113
a) Construir
114
un cuadro
122
de distribución
116 108
de frecuencias.
122 112 112 123 116
124 algunos
b) Analizar 111 valores
121 de 111las frecuencias
114 123halladas.
107 120 120
124 122 134 131
9. El Ministerio de Justicia presenta información sobre los 17,816 internos a Diciembre de
1987, según lo siguiente: Inculpados 12,467 hombres y 1,158 mujeres; Sentenciados 3,943
hombres y 248 mujeres
a) Organizar en un cuadro de frecuencias la información proporcionada.
b) Analizar los resultados obtenidos.
10. Se presentan los siguientes datos correspondientes al número de calorías que se debe dar en
una dieta diaria a un grupo de 50 pacientes adultos del Hospital “X”.

3250 2118 3520 2118 3448


1890 2735 4520 3210 2588
2150 3250 2455 1980 3525
2451 3767 4215 2966 4680
1520 3842 3000 2219 2641
4445 2788 1960 2322 4520
4238 4119 4590 2638 3792
3019 3209 4504 3722 4129
4239 4950 3920 2215 2330
1250 4670 4575 3432 2697
Agrupar los datos en un cuadro de frecuencias.

11. La siguiente tabla muestra los coeficientes de inteligencia de 50 niños de la ciudad Lima:

126 70 57 80 67 69 72 105 125 106


84 124 89 88 125 90 122 91 82 124
106 117 86 90 112 84 119 84 92 123
103 118 81 86 111 83 121 95 100 122
90 120 91 85 114 82 123 98 101 100

Se pide agrupar estos datos en una tabla completa de frecuencias.

12. Los siguientes datos corresponden a la CAA Tumán Ltda. N°14, sobre la clasificación del
personal ocupado en 1987.

Socios 2800; no socios 580; eventuales 250.

a) Ordene los datos en una tabla de distribución de frecuencias.


b) Analizar algunos datos de las frecuencias halladas.
13. Se tienen los siguientes datos correspondientes a la cantidad de Rodhynol en mg x 20 cc. en
una muestra de Hemocultivo, de un grupo de 50 niños normales (Clínica Anglo Americana)
en el año 1986.

1.59 1.15 1.65 1.30 2.50 1.25 1.86 1.22 2.30 2.32
1.45 1.68 1.91 2.40 1.19 1.37 2.05 1.23 1.08 1.34
1.48 1.52 1.90 1.19 1.28 1.08 2.19 2.05 2.25 1.13
1.10 1.06 1.11 1.14 1.18 1.12 1.21 1.37 1.48 1.43
1.52 1.59 1.64 1.39 1.29 1.49 1.56 1.53 1.46 1.65
Agrupar los datos en un cuadro de frecuencias.

14. A continuación se presentan las edades (en años) de un grupo de pacientes con Carcinoma
Cervical, registradas en el Hospital San Antonio, en Enero de 1988.

25 21 31 24 26 27 42 43 22 48
36 24 39 43 38 39 36 37 44 51
79 76 80 75 39 42 41 51 56 44
62 55 61 43 42 38 27 35 53 50

Se pide:
a) Agrupar los datos en un cuadro de frecuencias.
b) Analizar algunos valores de frecuencias halladas.

15. Se hizo un estudio de 143 casos refentes a las complicaciones presentadas en mujeres luego
del parto, y se obtuvo los siguientes resultados: Infecciones 74 casos; anemia 42 casos;
hemorragias 12 casos; otros 15 casos.

a) Ordenar los datos que se han obtenido, en un cuadro.


b) Efectuar el análisis correspondiente.

16. Los siguientes datos corresponden al tiempo ( en meses) de reclusión en que permanecieron
un grupo de mujeres con gonorrea, y que fueron tratadas en el Hospital Central de Chiclayo,
en Diciembre de 1987.

5 12 11 16 15 45 46 10 8 4
36 6 10 21 20 18 14 5 3 1
22 11 9 3 17 12 16 19 49 52
18 15

Se pide:
a) Elaborar un cuadro completo de distribución de frecuencias.
b) Interpretar algunos valores de las frecuencias encontradas.
17. Se muestra a continuación la estatura en cms. de un un grupo de niños y niñas normales, de
0 a 12 años, residentes en las regiones de 4900 m sobre el nivel del mar:

45 48 115 112 95 98 145 115 96 90


51 38 52 132 96 89 112 51 63 104
55 36 98 134 87 63 109 91 109 103
60 45 120 105 78 54 53 61 46 56
62 48 125 108 69 49 57 71 63 139

18. Se realizó una encuesta a un grupo de jóvenes del Distrito de San Martín de Porres, referente
a sus hábitos alimentarios y nocivos para la salud; encontrándose los siguientes resultados:

Consumo de alcohol 20; condimentos, ají 10; tabaco 9; coca 9; café 7; té 1; líquidos
calientes 1.

a) Ordenar los datos en un cuadro de frecuencias.


b) Interpretar los valores de la frecuencia relativo

19. En enero de 1988 un grupo de enfermeras del ITS “Daniel A. Carrión” efectuaron prácticas
comunitarias en el Distrito de Comas, recolectando los siguientes datos referentes al número
de hijos por familia, en una muestra de 40 familias:

6 12 4 10 11 15 9 13 8 11
5 9 8 10 12 11 10 9 8 5
12 10 12 8 9 11 12 8 7 10
11 12 9 7 8 8 9 10 13 15

a) Ordenar los datos, agrupándolos en un cuadro de frecuencias.


b) Interpretar los valores de las frecuencias relativas y absolutas.

20. Se ha recolectado la siguiente información acerca del número de casos de cáncer uterino en
40 Hospitales del país.

1 4 0 5 3 2 0 4
a) Identifique
0 3 la variable
4 y5 determine
8 el número
4 5de clases.
3
5 11 0 2 10 1 10 9
b) Hallar las frecuencias absolutas y relativas simples y acumuladas.
0 8 9 3 2 3 10 9
7 6 resultados.
c) Interpretar 5 15 8 3 3 4
21. Un grupo de Sociólogas de la UNIFE visitaron la CAA. Tumán (Chiclayo) y se interesaron
por el nivel de ingresos de sus trabajadores. Una muestra de 35 trabajadores arrojó los
siguientes resultados en Intis:

8500 7600 3500 6800 4200


3800 3950 17500 10600 5300
6900 4400 3700 4200 6200
7500 5700 7500 4300 9900
7350 6800 4900 6100 5200
4300 3900 5400 5100 6100
5050 6800 15200 9300 6000

a) Ordenar la información agrupando los datos en un cuadro completo de frecuencias.


b) Efectuar el análisis del cuadro.

Sesión 4: Medidas de Tendencia Central: Media aritmética. Propiedades La Mediana y la


Moda. Relación entre la media aritmética, la mediana y la moda. Distribución de frecuencia
simétrica y asimétrica. Medidas de Posición: Cuartiles, Deciles y percentiles. Media
geométrica.

MEDIDAS DE TENDENCIA CENTRAL Y POSICION


La estadística descriptiva es una técnica que consiste en obtener indicadores que describen el
comportamiento de un conjunto de datos. Dentro de estas medidas estadísticas tenemos:
A. Las medidas de Posición: Dentro de estas tenemos:
a. Medidas de tendencia central: Media, Moda, Mediana.
b. Medidas de localización: cuartiles, deciles y percentiles.
B. Las medidas de variación: rango, varianza, desviación estándar, coeficiente de variación.
C. Las medidas de deformación: asimetría y kurtosis.

1. MEDIDAS DE TENDENCIA CENTRAL

1.1.MEDIA ARITMÉTICA:
 Se denota por x
 Es la medida estadística más fácil de calcular.
 La media o promedio es el punto central de un conjunto de datos.
 Para calcular la media aritmética se utilizan las fórmulas adecuadas ya sea sin son
datos agrupados o datos no agrupados.

1.2.MEDIANA:
 Se denota por Me.
 Es un valor que divide al conjunto de datos en dos partes iguales, es decir, cada
segmento tiene el 50% de los datos.
 Para calcular la media aritmética se utilizan las fórmulas adecuadas ya sea sin son
datos agrupados o datos no agrupados.

1.3.MODA:
 Se denota por Mo.
 La moda es el valor que más se repite en un conjunto de datos.
 En un conjunto de datos se presentan los siguientes casos:
a. No existir datos Amodal
b. 1 moda Unimodal.
c. 2 modas Bimodal
d. 3 a más modas Multimodal
 Para calcular la media aritmética se utilizan las fórmulas adecuadas ya sea sin son
datos agrupados o datos no agrupados.

2. MEDIDAS DE LOCALIZACIÓN:

2.1. CUARTILES:
 Se denotan por Qk, donde k=1,2,3
 Son valores que dividen a un conjunto de datos en 4 partes iguales, es decir, cada
sector tiene el 25% de los datos.
 Para calcular la media aritmética se utilizan las fórmulas adecuadas ya sea sin son
datos agrupados o datos no agrupados.

2.2. DECILES:
 Se denotan por Dk, donde k=1,2,3,4,5,6,7,8,9
 Son valores que dividen a un conjunto de datos en 10 partes iguales, es decir, cada
sector tiene el 10% de los datos.

2.3. PERCENTILES:
 Se denotan por Pk, donde k=1,2,3,4,5,6,7,8,9,10, … , 99
 Son valores que dividen a un conjunto de datos en 100 partes iguales, es decir, cada
sector tiene el 1% de los datos.
 Para calcular la media aritmética se utilizan las fórmulas adecuadas ya sea sin son
datos agrupados o datos no agrupados.

FORMULAS PARA CALCULAR LAS MEDIDAS DE TENDENCIA CENTRAL Y POSICION:

PARA DATOS NO
MEDIDAS PARA DATOS AGRUPADOS
AGRUPADOS
m
n

x _ Y f i i
Y
i i i
X i 1
n
PROMEDIO n
Yi: Marca de clase o punto
Xi: datos
medio
n = número de datos
fi: frecuencia absoluta simple
n: número de datos.
Procedimiento:  1 
Observar la base de datos y Mo  Li  A 
determinar el valor que más se  1   2 
repite. Li: limite inferior del intervalo
MODA modal.
A: amplitud interválica
1  f j  f j 1
 2  f j  f j 1
 n / 2  F j 1 
Me  Li  A 
Procedimiento:  fj 
 Ordenar la serie en forma
Li: limite inferior del intervalo
ascendente
mediano.
 Cuando “n” impar:
MEDIANA A: amplitud interválica.
Me = valor central
 Cuando “n” par: n / 2 es el elemento determinante
Me = promedio de los valores Fj-1: Frecuencia acumulada
centrales anterior al intervalo mediano
fj:Frecuencia abs. simple del
intervalo mediano
 kn / 4  Fj 1 
QK  Li  A 
Seguir pasos similares a la  fj 
QUARTILES
mediana. Similar a la Me. Lo único que
cambia es el elemento
determinante.
 kn / 10  Fj 1 
CUANTILES

DK  Li  A 
Seguir pasos similares a la
 fj 
DECILES mediana.
Similar a la Me. Lo único que
cambia es el elemento
determinante.
 kn / 100  Fj 1 
PK  Li  A 
Seguir pasos similares a la  fj 
PERCENTILES mediana.
Similar a la Me. Lo único que
cambia es el elemento
determinante.
Practica Nª3 Trabaje con la base de datos 3
Sesión 5: Medidas de Dispersión: Rango, rango intercuartil, varianza y desviación estándar.
Coeficiente de variación.

MEDIDAS DE DISPERSION O VARIABILIDAD


ABSOLUTAS Y RELATIVAS

MEDIDAS DE VARIABILIDAD:

3.1. RANGO:
 Se denota por R y la medida de variabilidad más fácil de calcular.
 Es la diferencia que existe entre el valor máximo y el valor mínimo del conjunto de
datos.

3.2. VARIANZA:
 Mide la variabilidad de un conjunto de datos respecto a un valor central(promedio)
 Mide la variabilidad pero en unidades elevadas al cuadrado, por lo tanto es ilógica
su interpretación.
 Para calcular la media aritmética se utilizan las fórmulas adecuadas ya sea sin son
datos agrupados o datos no agrupados.

3.3. DESVIACIÓN ESTANDAR:


 Mide la variabilidad de un conjunto de datos respecto a su valor central pero en
unidades originales.
 Esta es la medida de variabilidad que tiene una interpretación lógica.
 Se obtiene al sacra la raíz cuadrada de la varianza.

3.4. COEFICIENTE DE VARIACIÓN:


 Se denota por C.V.
 El C.V. sirve para determinar si un conjunto de datos tiene un comportamiento
homogéneo o heterogéneo.
 Para llegar a determinar la homogeneidad se compara con un valor convencional del
33%.
 Si el CV ≤ 33% el conjunto de datos tiene un comportamiento homogéneo.
 Si el CV > 33% el conjunto de datos tiene un comportamiento heterogéneo.

FORMULAS PARA CALCULAR LAS MEDIDAS DE DISPERSION O VARIACIÓN


PARA DATOS NO
MEDIDAS PARA DATOS AGRUPADOS
AGRUPADOS

RANGO R  V max  V min R  LS  LI


Ls: Limite superior
Li: Limite inferior
m
N  (Y  u) 2
* fi
(X
i
i  u) 2
 2 i 1

2  i 1 N
N
POBLACIONAL
Xi : Datos de la población Yi : Marca de clase
u : promedio poblacional u : promedio poblacional
N: Número de elementos de N: Número de elementos de la
la población población
fi: frecuencia absoluta simple

 (x  x)2
m
VARIANZA

s 2
 i 1
i
(y i  y)2 * fi
n 1 s2  i 1
n 1
MUESTRAL
Xi : Datos de la muestra yi : Marca de clase
x : promedio muestral y : promedio muestral
n : Número de elementos de
n : Número de elementos de la
la muestra
muestra
fi: frecuencia absoluta simple
 n

 n ( xi ) 2   m

1    m ( yi f i ) 2 
Formulas s2 
 
n  1 i1
xi2  i1
n  s2 
1  y 2 f  i1
 i i 
abreviadas   n  1  i1 n 
   
 

DESVIACION   2 s s2
ESTANDAR
D.E. Poblacional D.E. Muestral

 s
C.V .  *100 C.V .  * 100
COEFIENTE DE u x
VARIACIÓN
C.V. Poblacional C.V. Muestral
Practica Nº5 TRABAJE CON LA BASE DE DATOS 2

Sesión 6: Medidas de Forma: Medidas de Asimetría y medidas de Apuntamiento.


Introducción al Diagrama de tallos y hojas. Gráfico de cajas.
MEDIDAS DE FORMA Y APUNTAMIENTO

ASIMETRIA:
 La asimetría se entiende como la deformación horizontal de un conjunto de datos.
 Para conocer esta asimetría se calcula el coeficiente de asimetría As.
 En un conjunto de datos pueden presentar los siguientes casos:
a. As= 0, el conjunto de datos es simétrica.
b. As<0, el conjunto de datos es asimétrica negativa.
c. As>0, el conjunto de datos es asimétrica positiva.

X  Mo 3( X  Me) Q3  2Q2  Q1
As  As  As 
S S Q3  Q1

KURTOSIS:
 Se entiende por Kurtosis a la deformación vertical de un conjunto de datos, es decir,
mide el apuntamiento o achatamiento de un conjunto de datos.
 Para conocer que tipo de asimetría tiene un conjunto de datos, se utilizan las
siguientes formulas:

A. Kurtosis en función de los momentos:


 Si K1>3, el conjunto de datos es leptocúrtica.
 Si K1=3, el conjunto de datos es mesocútica.
 Si K1<3, el conjunto de datos es platicúrtica.

M4
K1 
(M 2 )2

M4: Momento de orden cuatro respecto a la media


M2: Momento de orden dos respecto a la media

B. Kurtosis en función de los momentos de orden 4:


 Si K2>0, el conjunto de datos es leptocúrtica.
 Si K2=0, el conjunto de datos es mesocútica.
 Si K2<0, el conjunto de datos es platicúrtica.
M4
K2  3
( s) 2
C. Kurtosis en función de loscuantiles:
 Si K3>0.263, el conjunto de datos es leptocúrtica.
 Si K3=0.263, el conjunto de datos es mesocútica.
 Si K3<0.263, el conjunto de datos es platicúrtica.

Q3  Q1
As 
2( P90  P10 )

MEDIDAS ESTADÍSTICAS CON EXCEL:


En Excel los pasos a seguir para obtener estas medidas son las siguientes:
a. Tener una base de datos respecto a variables cuantitativas.
b. Seleccionar en Excel Herramientas/Análisis de datos/Estadística descriptiva….. aparece
la siguiente ventana:

c. Luego se presenta las siguientes ventanas de dialogo, donde tenemos que ingresar el rango,
si la información esta agrupado en columnas o filas, si se seleccionó el rotulo o titulo,
señalar la celda donde van a salir los datos y finalmente activar todas las alternativas que
necesita el investigador.

EVALUACIÓN DE UN CASO: (Ejercicio obtenido de material de trabajo de ESAN)


Wells y Asociados es una de las firmas consultoras financieras más importantes de los Estados
Unidos. Ofrece asesoría financiera y servicios a firmas particulares y a gobiernos estatales y
locales. La universidad San Pedro de Chimbote,a través de la oficina de recursos humanos
acababa de ser encargada a través del departamento de personal. En los tres años pasados, se
han agregado otros ayudantes y hace seis semanas, se sumó al departamento un estadístico
recién graduado.
La universidad San Pedro de Chimbote empezó hace poco a revisar las prácticas de
contratación del departamento. Empezó la revisión examinando el campo más crítico, las
personas en adiestramiento financiero. La firma contrata entre 60 y 130 de estas personas al
año, según sea el crecimiento de la firma, el movimiento de empleados y el número de
perspectivas “notables" que encuentre. Prácticamente todos los que están en adiestramiento
financiero se contratan entre los estudiantes del último año de escuelas superiores con
especialización financiera.
 La universidad San Pedro de Chimbote seleccionó al azar 100 de los 197 candidatos que
habían sido contratados hace dos años y aún seguían trabajando. Cada ficha contenía la
información siguiente (los datos van en el apéndice adjunto):
1. Genero. (0=Femenino y 1=Masculino)
2. Edad al contratarse
3. Promedio ponderado de sus notas universitarias (escala de 0 a 20).
4. Calidad de la universidad de procedencia. (1=Excelente, 2=Muy buena, 3=Buena y
4=Regular)
5. Nota de la prueba de aptitudes. La prueba produce una puntuación de 0 (muy improbable
que tenga éxito en el trabajo) a 100 (muy probable que tenga éxito en el trabajo).
6. Evaluación del rendimiento al final del segundo año. Esta evaluación produce una
puntuación numérica desde 0 (muy malo) hasta 100 (excelente). universidad San Pedro
de Chimbote están seguros de que la escala es de intervalo y también han decidido, con
base en los tres años de experiencia con dicha escala, que una puntuación inferior a 50 es
insatisfactoria, 50-69 es satisfactoria, 70-89 por sobre el promedio, y por encima de 89 es
excelente.
La universidad San Pedro de Chimbote llama al estadístico a su oficina y le dice: "Estamos
encantados de tener un estadístico que nos ayude. No estamos aún listos a desarrollar un
modelo estadístico acabado de lo que constituye una buena contratación, pero es tiempo de
empezar a evaluar algunas de las variables de que tenemos información. El gran número de
personas que contratamos, el alto costo de adiestrarlas y el hecho de que no podemos evaluar
realmente los rendimientos, hasta fines del segundo año, significan que cualquier mejoría en
nuestra eficacia de contratación tendrá por resultado ahorros sustanciales para la firma. Para
comenzar a tratar el tema, ¿Podrías dar respuesta a las siguientes preguntas?
1. Necesitamos un resumen de la edad del personal al contratarse, del promedio de
calificaciones de grado y de la evaluación del rendimiento en el segundo año, para tener
una apreciación general del grupo en adiestramiento financiero. ¿Cuál es el perfil de este
personal?
2. ¿Es más alto el puntaje de varones en la nota de la prueba de aptitudes que el de mujeres?
¿Y en la evaluación del rendimiento?
3. Un criterio inicial en Wells era mantener la calificación promedio de grado de los
contratados por encima de 14.00. ¿Se sigue manteniendo este criterio?
4. Otro criterio era mantener por lo menos un tercio de los contratados que provengan de
escuelas de categoría 2. ¿Se sigue manteniendo este criterio?
5. ¿Son diferentes los rendimientos en la prueba de entrada para las diferentes calidades
de escuelas de donde provienen los candidatos? ¿Y en la Evaluación del rendimiento
del segundo año?

Si Ud. fuera el analista que conclusiones le daría a la universidad San Pedro de


Chimbote respecto al análisis que realizó.
Practica 5 TRABAJE CON LA BASE DE DATOS 1 Y 2. Tener como referencia la base de
datos del archivo BASE02.EXE.

8. FORMULAS PARA CALCULAR LAS MEDIDAS ESTADISTICAS BIDIMENSIONALES

I. MEDIDAS ESTADISTICAS MARGINALES:

1.1. Media o promedio marginal:

p q

x i f i. y
j 1
j f. j
M (X )  X  i
M (Y )  Y 
n n
Media para X Media para Y

1.2. Varianza marginal:

 p
  q
2
1  p ( xi f i. ) 2 
1 q 2
(  yi .j 
f )
V (X )   xi2 f i.  i 1  V (Y )   yi f. j  i 1

n 1  i n  n  1  i 1 n 
   
Varianza para X Varianza para Y

II. MEDIDAS ESTADISTICAS CONDICIONALES:

2.1. Media o promedio condicional:


p q

 xi fik y j f kj
M ( X / Yk )  i
M (Y / X k )  j 1
f.k fk.
Media de X dado Y Media de Y dado X

2.2. Varianza condicional

 p
2
 q
2

1 p 2
(  x i ik 
f )
1 q 2
( i 1 i kj 
y f )
V ( X / Yk )   xi f ik  i 1
 V (Y / X k )   yi f kj  
f .k  1  i f .k  fk.  1  i fk. 
   
 
Varianza de X dado un Y Varianza de Y dado un X

PRÁCTICA PRESENCIAL
Instrucción: Utilizando las definiciones anteriores acerca de estadística bidimensional
resolver los siguientes casos:

CASO Nº 01:
En el siguiente estudio social se evalúa a 30 viviendas familiares de la ciudad de Chimbote,
se considera como primera variable:
X: Número de personas por vivienda
Y: Número de habitaciones por vivienda.
La información bidimensional que se obtuvo (X,Y) es la siguiente:
Número de
personas (X)
6 4 6 5 6 9 7 8 4 4 5 6 8 7 7

Número de
habitaciones (Y)
3 3 3 4 3 6 3 3 2 3 3 3 4 4 3

Número de
personas (X)
9 5 5 5 5 4 9 5 8 5 9 7 8 4 4

Número de
habitaciones (Y)
4 5 2 3 3 3 4 4 3 2 6 3 3 2 3

Presentar esta información en cuadro de doble entrada

Y Número de habitaciones
Total
X 2 3 4 5 6
4

Número de 5
personas 6
7
8
9

Total

CASO Nº 02:
Se tiene la siguiente información bidimensional correspondiente a las siguientes variables:
X: Consumo de agua en m3;
Y: Tiempo de servicio en años.
Esta información corresponde a 40 centros educativos de Chimbote, cuyos datos son los
siguientes:

Tiempo de servicio en años

0 - 4> 4 - 8> 8 - 12> 12 - 16> 16 - 20] fi.

250 - 300> 4 2 1
Consumo de agua

300 - 350> 2 4 4 8 2

350 - 400> 1 2 2 1

400 - 450> 1 3 3

f .j n =

Con esta información calcular e interpretar:


a. M(X). Interprete
b. M(Y). Interprete.

CASO Nº 04:
En base al siguiente cuadro bidimensional que corresponde a la ganancia en miles de dólares
(X) y el gasto en publicidad en miles de dólares (Y), de 55 Instituciones Educativas Privadas
de nuestro medio se presentan en el siguiente cuadro bidimensional:

15-20> 20-25> 25-30> 30-35> 35-40] fi.

25- 5 3 2
30>
30- 3 5 5 9 3
35>
35- 2 3 3 2
40>
40-45] 2 4 4

f .j n=

Calcular e interpretar:
a. M(X)=
b. Interpretar: f32 , h31% , h24% , f21 ,
c. M(X / Y2)
d. M(Y / X2…)
e. V ( Y ).
g. V (X)

Sesión 7: Introducción a la Probabilidad. Experimento aleatorio. Espacio muestral.


Eventos. Definición de Probabilidad: Clásica, Frecuencia Relativa. Definición Axiomática
de probabilidad. Propiedades. Probabilidad Condicional. Interpretación.

EXPERIMENTO, ESPACIO MUESTRAL Y EVENTOS

Los experimentos u operaciones reales o hipotéticos puede dividirse en dos clases: determinísticos
y no determinísticos.
Un experimento es determinístico (no aleatorio), si los resultados del experimento están
completamente determinado y pueden describirse por una fórmula matemática llamado también
modelo determinístico. Así, los siguientes ejemplos:
a. El experimento consiste en soltar una piedra en el aire. la piedra caerá, y su movimiento se
describe por las ecuaciones de caída libre
b. Lanzar una pelota en un tanque de agua y ver si flota o se hunde. la pelota flotara.
c. A un cuerpo de masa “m” en reposo, se somete a una fuerza constante F. el cuerpo se moverá
con una aceleración constante
𝐹
a=𝑚

Un experimento es no determinístico (aleatorio) Si los resultados del experimento no pueden


producirse con exactitud antes de realizar el experimento.
EXPERIMENTO ALEATORIO (Ɛ).- Es aquel fenómeno que bajo las mismas condiciones
experimentales se presenta de una misma manera; es decir, sus resultados pueden o no ocurrir.
Ejemplo:
a. Considere un juego entre dos equipos de futbol A y B desde el punto de vista del resultado
(goles) el experimento es evidentemente aleatorio.
b. Los juegos de azar: dados, barajas, ruletas, loterías, carreras de caballos, etc.
c. En las carreras de caballos pueden existir leyes físicas que determinen el ganador, no
siempre ganan los “favoritos”.
d. Los seguros de vida, la compañía pierde si el asegurado muere pronto y gana en caso
contrario.
1. ESPACIO MUESTRAL (Ω).- Es el conjunto de todos los resultados posibles de un experimento
aleatorio. Cada resultado o elemento del conjunto se llaman “puntos muestrales”.
Ejemplos:
1.- Un dado tiene el número 1 en tres de sus caras, el número 2, en dos de ellas, y el número 3 en
la cara restante. Se hace un lanzamiento del dado ¿Cuál es el espacio muestral?
Solución:
Ω = {1, 2, 3}
2.- Se va a seleccionar un comité de tres miembros, a partir de un grupo de cinco personas A, B,
C, D y E. Defina un espacio muestral para este experimento.
Solución:
1) Usando la teoría combinatoria veamos ¿Cuántos eventos elementales tendrá el espacio
muestral?
Como existen 5 personas y el comité deberá estar integrado por 3 miembros, entonces:
5! 4x5
n(Ω) = C35 = 3! x 2! = 1 x 2 = 10

2) El número de elementos que tendrá el espacio muestral es 10 y el espacio muestral será:


Ω = {ABC, ABD, ABE, ACD, ACE, ADE, BCD, BCE, BDE, CDE}

3.- Dos objetos A y B se distribuyen al azar en tres celdas numeradas. Defina un espacio muestral
adecuado para este experimento.
Solución:
OBJETOS CELDAS

A 1

B 2

Combinando adecuadamente los objetos A y B con los números 1, 2 y 3 como subíndices,


obtenemos:
Ω = {A1B2, A1B3, B1A2, B1A3, A2B1, A2B3, B2A1, B2A3, A3B1, A3B2, B3A1, B3A2}
Como vemos, el espacio muestral tiene 12 eventos elementales.
Donde:
A1B2 significa: A esta en la celda 1 y B en la celda 2.
B3A2 significa: B está en la celda 3 y A en la celda 2, etc.

4.- Los artículos provenientes de la línea de producción se clasifican en defectuosos (D) o no


defectuosos (N). Se observan los artículos y se anota su condición. Este proceso se continua hasta
que se produzcan dos artículos defectuosos consecutivos o se hayan verificado cuatro artículos,
cualesquiera ocurra primero. Describir un espacio muestral para este experimento.
Solución:

Ω = {DD, NDD, DNDD, DNDN, DNND, DNNN, NDND, NDNN, NNDD, NNDN, NNND,
NNNN}

5.- Sea el experimento: “resultado del examen final en el curso de estadística por parte del
estudiante”.
Solución:
Ω = {aprobara o desaprobara}

6.- Sea el experimento aleatorio: “selección de un estudiante de acuerdo a su rendimiento


académico”
Solución:
Ω = {SOBRESALIENTE, BUENO, REGULAR, MALO}

7.- Sea el experimento: “selección de dos personas, en relación a su situación ocupacional”.


Solución:
Ω = {OO, OD, DO, DD}

NOTA:

1.- El espacio muestral puede ser finito o infinito, según si tiene un último elemento o no.
2.- Un espacio muestral puede ser discreto si contiene un numero finito o infinito numerable de
puntos muéstrales, o puede ser continuo, si contiene una infinidad no numerable de puntos
muéstrales.
3.- Pueden existir diferentes espacios muéstrales asociados a un mismo experimento.

Practica Nº7
En el espacio en blanco, escribe los espacios muéstrales que corresponden a los siguientes.
Experimentos aleatorios:
1. Se selecciona una muestra de 50 semillas de un saco, para ver cuantas germinan. Los
resultados posibles son las cantidades que germinan de las 50 semillas:

Ω={ }
2. El experimento aleatorio consiste en preguntar a los espectadores de la televisión de cierta
ciudad si presencian regularmente, tres programas especificados.

Ω ={ }

3. Dado el experimento de ordenar 3 solicitudes: S1, S2, S3 de acuerdo a sus habilidades para
realizar determinado trabajo.

Ω={ }
4. En una encuesta a estudiantes de Ingeniería se pregunta ¿Cree Ud., que el próximo domingo
esta nublado?

Ω={ }

2. SUCESO O EVENTO ALEATORIO.- Es un resultado del experimento aleatorio. Los sucesos


(eventos) aleatorios pueden ser simples o elementales cuando es un resultado del experimento que
no puede descomponerse y sucesos compuestos, cuando está constituida por varios sucesos simples
y corresponde a un resultado del experimento.

NOTA:
 Un suceso imposible A, si A = {} = Ø, significa que no tiene elemento de Ω.
a) Ejemplo: “Selección de un propietario de inmuebles con ingresos bajos de la
Urbanización Las Casuarinas – Lima”.
b) En este caso, el evento es imposible, ya que no se podrá seleccionar un propietario
de inmueble con bajos ingresos, en una zona residencial.
 Un suceso es seguro o cierto A, si A = Ω.
c) Ejemplo: “Selección de un propietario de inmuebles con ingresos medio - alto de
la Urbanización Las Casuarinas – Lima”.
d) Se puede apreciar que el Evento es seguro o universal, ya que al Seleccionar un
propietario de inmueble, este de todas maneras tendrá ingresos medio – alto, ya que se trata
de una zona residencial de Lima.
 Los sucesos A y B son mutuamente excluyentes o incompatibles si AB = Ø.
Ejemplo1:
Selección de un profesor de la universidad nacional del santa según categoría Docente”
Ω = {PRINCIPAL, ASOCIADO, AUXILIAR, JEFE DE PRACTICA}

Siendo los Eventos: A= Profesor Principal


B= Profesor Asociado
C= Profesor Auxiliar
D= Profesor de Jefe de Practica
Los cuatro eventos son mutuamente excluyentes, porque al seleccionar un Docente este tendrá
solo una categoría; anulándose el resto de los eventos. No es posible sostener por ejemplo que al
seleccionar un Docente, este tenga la categoría de Principal y Jefe de Practica a la vez.
Ejemplo 2:
Dado el experimento de revisar 3 televisores elegidos al azar en un taller, donde hay 6 televisores
de los cuales se sabe que dos están defectuosos.
Los resultados del experimento podrán ser:
Que salgan 2 televisores buenos y uno defectuoso.
Otro resultado: 1 televisor bueno y 2 defectuosos y 3 televisores buenos.
Si designamos por B: televisor bueno y por
D: televisor defectuoso.
Expresamos los resultados como:
2B y 1D: BBD, BDB, DBB.
Escriba a continuación, la forma en que tienen los demás resultados.
1B y 2D: ___________________________________

3B: ___________________________________

Ejemplo 3.- De los resultados del ejercicio 7 podemos definir los siguientes sucesos o eventos:

Sea el evento A, tal que las dos personas seleccionadas estén ocupadas; entonces:
A= {OO}
Sea el evento B, tal que al menos una de las dos personas esta ocupada; entonces:
B= {OO, OD, DO}
Sea el evento C, tal que la primera persona seleccionada este ocupada; entonces:
C= {OO, OD}
Ejemplo 4:
A: “el puntaje obtenido es un número impar”.
Entonces, A= {1, 3,5}
Ejemplo 5:
B: “se extrae una esfera blanca”.
Luego, B= {b}
Ejercicios.-
a. Una familia tiene 3 hijos, examinar su sexo, teniendo en cuenta la edad, del mayor al
menor.

1. Determinar su espacio muestral:


2. Determinar el evento A: Los 3 sean masculinos
3. Determinar el evento B: Por lo menos uno sea femenino.

b. Si un investigador de mercados entrevista a una ama de casa y a su esposo para determinar


la “aceptación” o “no aceptación” de un cierto producto.
Asigne el valor 1 si acepta el producto.
Asigne el valor 2 si rechaza el producto.

1. Construya el espacio muestral para este experimento.


2. Determine el evento A: ambos acepten el producto.
3. Determine el evento B: Por lo menos uno de ellos acepte el producto.

c. Un comerciante tiene en su bolsillo cheques de 10,20, 30 y 50 dólares. Si saca dos cheques


de su bolsillo, uno tras otro. Calcular lo siguiente:
Considere lo siguiente:
D = Cheque de diez dólares
V = Cheque de veinte dólares
T = Cheque de treinta dólares
C = Cheque de cincuenta dólares

1. El espacio muestral asociado a este experimento


2. El evento A: Que el primer cheque sea de 10 y el siguiente de 20.
3. El evento B: Que el primer cheque haya sido de 20 dólares

d. Tres personas A, B, C solicitan empleo a una empresa. Si el experimento consiste en


ordenar las solicitudes de acuerdo a sus habilidades para el trabajo. Construya:

1. El espacio muestral
2. El evento P: Que B ocupe el primer lugar.
3. El evento Q: Que A y B ocupen los primeros lugares.

e. En una urna se tiene 2 bolas rojas, 2 bolas azules y 2 verdes. Seleccionar en forma aleatoria
sin reemplazo 3 bolas de la urna.

1. Construir el espacio muestral.


2. Determinar el evento A: La primera sea roja
3. Determinar el evento B: Las 2 primeras sean azules.
4. Determinar el evento C: Obtener a los más 2 bolas verdes.

f. En una urna se tiene 2 bolas rojas, 2 bolas azules y 2 verdes. Seleccionar en forma aleatoria
con reemplazo 3 bolas de la urna.

1. Construir el espacio muestral.


2. Determinar el evento A: La primera sea roja
3. Determinar el evento B: Las 2 primeras sean azules.
4. Determinar el evento C: Obtener a los más 2 bolas verdes.

g. Una urna contiene 5 bolas blancas y 6 negras, se extrae al azar sin reposición dos bolas.

1. Cuál es el espacio muestral (sin reposición)


2. Cuál es el espacio muestral (con reposición)
3. Determinar el evento A: Que las bolas sean blancas para ambos casos.

h. Se tiene una baraja con 52 cartas. Se seleccionan al azar 2 cartas y se observa la figura.

1. Cuál es el espacio muestral asociado con este experimento


2. Si se observa el número. ¿Cuál es el espacio muestral?

PROBABILIDADES
Reseña Histórica
Una disputa entre jugadores en 1654 llevó a dos famosos matemáticos franceses, Blaise Pascal y
Pierre de Fermat, a la creación del cálculo de Probabilidades. Antoine Gombaud, caballero de
Meré, noble francés interesado en cuestiones de juegos y apuestas, llamó la atención a Pascal
respecto a una aparente contradicción en un popular juego de dados. Este y otros problemas
planteados por de Meré motivaron un intercambio de cartas entre Pascal y Fermat en las que por
primera vez se formularon los principios fundamentales de las probabilidades. Si bien unos pocos
problemas sobre juegos de azar habían sido resueltos por matemáticos italianos en los siglos XV
y XVI, no existía una teoría general antes de esa famosa correspondencia.

El científico holandés Christian Huygens, enterado de esa correspondencia publicó rápidamente


en 1657 el primer libro de probabilidades; fue un tratado de problemas relacionado con los juegos.
El cálculo de probabilidades llego a ser pronto popular por sus alusiones a los juegos de azar, y
se desarrolló rápidamente a lo largo del siglo XVIII. Quienes más contribuyeron a su desarrollo
fueron James Bernoulli y Abraham de Moivre.

En 1812, Pierre de Laplace introdujo gran cantidad de ideas nuevas y técnicas matemáticas en su
libro, Teoría Analítica de Probabilidades. Antes de Laplace, las probabilidades prácticamente
consistían en un análisis matemático de los juegos del azar. Laplace demostró que esa teoría podía
ser aplicada a multitud de problemas científicos y prácticos. Ejemplo de tales aplicaciones son la
teoría de errores, la matemática actuarial y la mecánica estadística que se desarrollaron en el siglo
XIX. Una de las dificultades que se presentaron al desarrollar una teoría matemática ha sido
alcanzar una definición de probabilidad lo bastante precisa para su utilización matemática.

La búsqueda de una definición completamente aceptable duro cerca de 3 siglos y fue caracterizada
por un gran número de controversias. El asunto fue definitivamente resuelto en el siglo XX al
tratar la teoría de la probabilidad en forma axiomática establecida por el matemático ruso Andrei
Kolmogorov, quien consideró la relación entre la frecuencia relativa de un suceso y su
probabilidad cuando el número de veces que se realiza el experimento es muy grande.
Enfoques de Probabilidad
Definición Clásica o “a priori”: Si el espacio muestral Ω tiene n (Ω) resultados mutuamente
excluyentes y con igual probabilidad (principio de equiprobabilidad) y si un evento A (suceso)
definido sobre dicho espacio muestral tiene n (A) elementos, entonces la probabilidad de ese
evento, que se denota P (A) es el cociente entre n (A) y n (Ω), es decir:

número de casos favorables n (A)


P (A) = =
número de casos posibles n (Ω)

Esta es la definición clásica de la probabilidad de un evento que se interpreta como la frecuencia


relativa técnica o idealizada con que se presentara el evento.
El enfoque clásico de la probabilidad se basa en la suposición de que cada resultado sea
igualmente probable.
Este enfoque es llamado enfoque a priori porque permite, (en caso de que pueda aplicarse) calcular
el valor de probabilidad antes de observar cualquier evento de muestra.
Ejemplo:
Si tenemos en una caja 15 piedras verdes y 9 piedras rojas. La probabilidad de sacar una piedra
roja en un intento es:
9
P ( A)  = 0,375 ó 37,5%
24
Definición Frecuencial o “a posteriori”: También llamado Enfoque Empírico, determina la
probabilidad sobre la base de la proporción de veces que ocurre un evento favorable en un número
de observaciones. En este enfoque no ese utiliza la suposición previa de aleatoriedad, porque la
determinación de los valores de probabilidad se basa en la observación y recopilación de datos.

Ejemplo:
Se ha observado que 9 de cada 50 vehículos que pasan por una esquina no tienen cinturón de
seguridad. Si un vigilante de transito se para en esa misma esquina un día cualquiera ¿Cuál será
la probabilidad de que detenga un vehículo sin cinturón de seguridad?

Tanto el enfoque clásico como el enfoque empírico conducen a valores objetivos de probabilidad,
en el sentido de que los valores de probabilidad indican al largo plazo la tasa relativa de ocurrencia
del evento.

El enfoque subjetivo
Dice que la probabilidad de ocurrencia de un evento es el grado de creencia por parte de un
individuo de que un evento ocurra, basado en toda la evidencia a su disposición. Bajo esta premisa
se puede decir que este enfoque es adecuado cuando solo hay una oportunidad de ocurrencia del
evento. Es decir, que el evento ocurrirá o no ocurrirá esa sola vez. El valor de probabilidad bajo
este enfoque es un juicio personal.
AXIOMA DE PROBABILIDAD

AXIOMA 1.- P (A) es un número real tal que P (A) ≥ 0


AXIOMA 2.- P (Ω) = 1
AXIOMA 3.- Si A1, A2,… es una sucesión de sucesos mutuamente excluyentes de Ω, es decir Ai
∩ Aj = Ø para i ≠ j = 1,2…
P (A 1 ∪ A2 ∪…) = P (A1) + P (A2) + …
P (⋃∞ ∞
𝑛=1 An) = ∑n=1 P (An)

Luego: 0 ≤ P (A) ≤ 1
El axioma tercero se refiere a las UNIONES, y podemos expresarlo de la siguiente manera:
La probabilidad de un evento compuesto A es la suma de probabilidades de los eventos simples
de los cuales A es compuesto.
AXIOMA 4.- La probabilidad de un suceso imposible  es cero.
AXIOMA5.- P (Aꞌ) =) = 1 – P (A)
AXIOMA 6.- Si A y B son sucesos no necesariamente excluyentes entonces
P (A  B) = P (A) + P (B) - P (A  B)
n( A) n( B ) n( A  B )
P [A  B] = P [A] + P [B] – P [AB] = + 
n( S ) n( S ) n (S )

AXIOMA 7. - P (A  B  C) =P (A) + P (B) +P(C) - P (A  B) - P (A  C) - P (B  C) + P (A  B  C)


AXIOMA 8.- P (A-B) = P(A) – P(A  B)
AXIOMA 9.- Probabilidad Condicional
Sean A y B dos sucesos de un espacio muestral  . La expresión P (A / B) indica la probabilidad
de que ocurra el evento A dado que ya ha ocurrido el evento B. Puede determinarse de la siguiente
manera:
P (A / B) = P (A  B) / P (B)
n( A  B )
P( A / B)  En donde B es la condición
n( B )

P (A  B) se interpreta como la probabilidad de que los sucesos A y B ocurran conjuntamente.

Ejemplo :
Se extrae una carta al azar. ¿Cuál es la probabilidad de que la carta seleccionada sea menor de 7,
si se conoce que es roja?
A = menor que 7
B = color rojo
P [A/B] = 12/26 = 6/13 = 46.15 % Hay 46.15% de probabilidades de que la carta seleccionada
sea menor que 7, sabiendo que es roja.
Ejercicio:
Para obtener licencia para conducir, es necesario aprobar tanto el examen teórico como el práctico.
Se sabe que la probabilidad que un alumno apruebe la parte teórica es 0,68, la de que apruebe la
parte práctica es 0,72 y la de que haya aprobado alguna de las dos partes es 0,82. Si se elige un
alumno al azar, ¿cuál es la probabilidad de que apruebe el examen para obtener licencia?

AXIOMA 10.- Eventos Independientes

Dos o más eventos son independientes cuando la ocurrencia o no-ocurrencia de un evento o suceso
no tiene efecto sobre la probabilidad de ocurrencia del otro evento (o eventos). Un caso típico de
eventos independiente es el muestreo con reposición, es decir, una vez tomada la muestra se
regresa de nuevo a la población donde se obtuvo.
Consideremos dos eventos A y B no vacíos en  . Las siguientes proposiciones son equivalentes
A es independiente de B  P (A  B) = P (A) P (B)
 P (A/ B) = P (A)
 P (B/A) = P (B)

Ejemplo:
Una habitación tiene 3 portabombillas conectadas a un mismo interruptor. De una caja con 10
bombillas, de las que 6 son buenas, se sacan 3 bombillas que se colocan al azar en 3
portabombillas. Al dar contacto con el interruptor en la noche. ¿Cuál es la probabilidad de que la
habitación quede iluminada?
Solución.-
La habitación va aquedar iluminada si de las 3 que elige van a estar buenas 1 ó 2 ó 3 bombillas,
esto es:
P (queda iluminada) = P (1 buena ó 2 buenas ó 3 buenas)
Nos interesa el suceso “de que al menos una de las bombillas este buena” simbólicamente:
P (queda iluminada) = P (A1 A2ꞌ A3ꞌ) + P (A1ꞌ A2 A3ꞌ) + P (A1ꞌ A2ꞌ A3) +
P (A1 A2 A3) + P (A1ꞌ A2 A3) + P (A1ꞌ A2ꞌ A3) +
P (A1 A2 A3)
Donde:
P (A1 A2ꞌ A3ꞌ): Es la probabilidad que la primera bombilla esta buena y la segunda y tercera
defectuosa.
P (A1 A2 A3): Es la probabilidad que las tres bombillas están buenas.
Así definimos los sucesos:
A1: Suceso que la primera bombilla sea buena.
A2: Suceso que la segunda bombilla sea buena.
A3: Suceso que la tercera bombilla sea buena.
Por tanto la probabilidad de que la habitación quede iluminada es:
P (queda iluminada) = P (A1). P (A2ꞌ/A1ꞌ). P (A3ꞌ/A1 A2ꞌ) + P (A1ꞌ). P (A2ꞌ/A1).
P (A3ꞌ/ A1ꞌ A2) +… + P (A1). P (A1/A2) + P (A3/ A1 A2)
Estas probabilidades son condicionales, por cuanto los sucesos A1, A2 y A3 no son independientes;
pues la probabilidad de que la primera bombilla este buena o no, influye en la probabilidad de la
segunda bombilla que este buena o defectuosa; de igual manera los otros sucesos.
Ahora reemplazando tenemos:
6 4 3 4 6 3 4 3 6 6 5 4 6 4 5
P (queda iluminada) = 𝑥 𝑥 + 10 𝑥 𝑥 + 𝑥 𝑥 + 𝑥 𝑥 + 10 𝑥 𝑥 +
10 9 8 9 8 10 9 8 10 9 8 9 8
4 6 5 6 5 4
𝑥 𝑥 + 𝑥 𝑥
10 9 8 10 9 8
6 4 3 6 5 4 6 5 4
= 3(10 𝑥 𝑥 8) + 3 (10 𝑥 𝑥 ) + 10 𝑥 𝑥
9 9 8 9 8
29
P (queda iluminada) = 30

Ejercicio:
Lanzar al aire dos veces una moneda son eventos independientes por que el resultado del primer
evento no afecta sobre las probabilidades efectivas de que ocurra cara o sello, en el segundo
lanzamiento.

AXIOMA 11.- Eventos dependientes


Dos o más eventos serán dependientes cuando la ocurrencia o no-ocurrencia de uno de ellos afecta
la probabilidad de ocurrencia del otro (otros). Cuando tenemos este caso, empleamos entonces, el
concepto de probabilidad condicional para denominar la probabilidad del evento relacionado. La
expresión P (A|B) indica la probabilidad de ocurrencia del evento A sí el evento B ya ocurrió.
Se debe tener claro que A|B no es una fracción.
P (A / B) = P(A  B) / P (B) o P (B /A) = P(A  B) / P(A)
P (A  B) = P (B) P (A/ B) ó P (A  B) = P (A) P (B / A)
Ejemplo:
En un taller trabaja 7 hombres y 3 mujeres. Por el número de ficha se escogen al azar 3 personas.
Hallar la probabilidad de que todas las personas seleccionadas sean hombres.
Solución.-
Designamos los sucesos por:
A: el primer escogido es hombre.
B: el segundo escogido es hombre.
C: el tercero escogido es hombre.
7
- La probabilidad de que el primero sea hombre, es igual a: P (A) = 10.
- La probabilidad de que el segundo escogido sea hombre a condición de que el primero ya
fue escogido un hombre, es decir, la probabilidad condicional del suceso B es igual a P
6 2
(B/A) = 9 = 3 .
- La probabilidad de que el tercero sea escogido un hombre, con la condición de que ya se
escogieron dos hombre, es decir la probabilidad condicional del suceso C es igual a P
5
(C/AB) = 8 .
La probabilidad buscada de que las tres personas escogidas sean hombres, es igual a:
P (A ∩ B ∩ C) = P (A). P (B/A). P (C/AB)
7 2 5 7
= 10 𝑥 𝑥 = 24
3 8

AXIOMA 11.1.- Regla de la multiplicación de probabilidades

Partición del espacio muestral 

Decimos que los sucesos B1 , B2 ,..., Bk , representan una partición de  si:


k
a) Bi  B j =  para i  j, b) Bi   c) 0  P  Bi   1, Bi
i 1

Esto significa que  es cubierto por todas las partes Bi que son mutuamente excluyentes, es decir
que el experimento aleatorio asociado a  ocurre cuando sucede alguno de los Bi .
AXIOMA 12.- Probabilidad total

Sea A un suceso y B1 , B2 ,..., Bk una partición de  . Entonces:


k
P  A    P  Bi  P  A / Bi 
i 1

Ejemplo:
Dos listas de candidatos compiten por los puestos en el directorio de una compañía. Las
probabilidades de que la primera y la segunda ganen son de 0.6 y 0.4 respectivamente.
Además, si la primera lista gana, la probabilidad de introducir un nuevo producto es de 0.8 y la
correspondiente probabilidad si la segunda lista gana es de 0.3. ¿Cuál es la probabilidad de que el
nuevo producto sea introducido?
Solución
Definimos los sucesos: B1: primera lista gana.
B2: segunda lista gana.
Además, P (B1) = 0.6 y P (B2) = 0.4
y las probabilidades condicionales son:
P (A/ B1) = 0.8 y P (A/ B2) = 0.3
Esto es la probabilidad de introducir un nuevo producto, “si la primera lista gana (P (A/ B1)) y la
probabilidad de introducir un nuevo producto “si” la segunda lista gana (P (A/ B2))”.
Sea P (A): suceso introducir un nuevo producto.
Entonces:

P (A) = P (B1 ∩ A) + P (B2 ∩ A)


= P (B1). P (A/ B1) + P (B2). P (A/ B2)
Reemplazando:
P (A) = 0.6 x 0.8 + 0.4 x 0.3
= 0.48 + 0.12
P (A) = 0.60
Donde:

P (B1A) = P (B1 ∩ A): Probabilidad de introducir un nuevo producto y gana la lista 1.

P (B2A) = P (B2 ∩ A): Probabilidad de introducir un nuevo producto y gana la lista 2.


AXIOMA 13.- Teorema de Bayes
Debida a Thomas Bayes, 1702 a 1761, matemático inglés que estableció el primer método de
inferencia estadística.

Regla de Bayes
Para medir la probabilidad de que un Bi sea la causa de un evento observado en A.
P  Bi  A  P  Bi  P  A / Bi 
“fácil” P  Bi / A   k para i = 1, 2,3,..., k
P  A
 P  Bi  P  A / Bi 
i 1
Es una de las leyes más importantes de la probabilidad, ayuda a tomar decisiones sobre algún
problema concreto.

Ejemplo:
Una firma manufacturera produce tubos de acero en tres plantas con un volumen de producción
diaria de 500, 1000 y 2000 unidades, respectivamente. Por la experiencia, se sabe que la fracción
de producción defectuosa de las tres plantas es de 0.005, 0.008 y 0.010, respectivamente. S se
selecciona un tubo en forma aleatoria del total de producción de un día y se descubre que es
defectuoso ¿de qué planta proviene ese tubo?
Solución
Tenemos los siguientes eventos a partir del problema:
B1: Volumen de producción de la primera planta: 500 u. por día.
B2: Volumen de producción de la segunda planta: 1000 u. por día.
B3: Volumen de producción de la tercera planta: 2000 u. por día.
Total = 3500 unidades por día.
E: un ítem defectuoso.
Luego: P (Bi/E) esta probabilidad de que el ítem sea producido por la i-ésima planta, “dado que”
el ítem es defectuoso.

P (Bi ∩ E) es la probabilidad de que los ítems sean producidos por la i-ésima planta y sean
defectuosos.
Entonces:
500
P (B1) = 3500 = 1/7 P (E/ B1) = 0.005
1000
P (B2) = 3500 = 2/7 P (E/ B2) = 0.008
2000
P (B3) = 3500 = 4/7 P (E/ B3) = 0.010

Observe que:

e) ∑3𝑖=1 P (Bi) = 1
Calculamos la probabilidad de que el tubo defectuoso provenga de la planta 1:
P (Bi ∩ E) P (B1). P (E/B1)
P (B1/E) = ∑ P (Bi) . P (E/B1)
= P (B1). P (E/B1)+P (B2). P (E/B2)+ P (B3). P (E/B3)

P (B1). P (E/B1)
P (B1/E) = P (E)

Reemplazando:
(1/7) (0.005) 0.005/7 5
P (B1/E) = (1/7) (0.005)+ (2/7) (0.008)+(4/7) (0.010)
= 0.061/7 = 61

Similarmente, calculamos las probabilidades para la planta 2 y planta 3.


P (H2 ∩ E) P (H2) . P (E/H2) (2/7) (0.008) 16
P (B2/E) = = = =
P (E) P (E) 0.061/7 61

P (H3 ∩ E) P (H3) . P (E/H3) (4/7) (0.010) 40


P (B3/E) = = = =
P (E) P (E) 0.061/7 61
Puesto que P (B3/E), es evidentemente, la probabilidad mayor, entonces lo más probable es que
el ítem defectuoso haya sido sacado de las producciones de la tercera planta.
NOTA: 1.- P (Bi/E) son las probabilidades posteriores.
2.- P (Bi) son las llamadas probabilidades previas.
3.- P (B1 E) se les llama probabilidades conjuntas.
4.- P (E/Bi) son las verosimilitudes.
5.- Como control de los cálculos anteriores, la suma de todas las probabilidades posteriores debe
ser la unidad.
Los problemas de probabilidades también se pueden resolver con ayuda del método del árbol o
con tablas estadísticas.

ÁRBOL DE PROBABILIDADES
El diagrama del árbol es más sugerente para determinar el espacio muestral de un experimento
aleatorio compuesto.

Ejercicio:
Se tiene 6 esferas de colores en una ánfora, de las cuales 3 son rojas, 2 son blancas y 1 es negra.
Se extraen aleatoriamente ó a la suerte de 1 en 1 sin reposición
a. Construya un árbol de probabilidades hasta la tercera extracción
b. Cuál es la probabilidad de obtener 2 rojas hasta la tercera extracción
c. Cuál es la probabilidad de obtener una esfera blanca y una esfera negra hasta la segunda
extracción.

SOLUCIÓN:
a. Figura
R
1/
R
2/ B
2/5
1/ N
R
R 2/
2/5 B
1/ B

1/ N
1/5 2/ R
R
N
3/6 2/ B 2/
R
1/ B
3/5
1/ N
R
B
2/6 1/5 B 3/

1/ N
3/ R
1/5
N
R
1/ B
2/
1/6 R
3/5
2/ B
N R
3/
2/5
B
1/ B

b. Probabilidad de obtener dos rojas hasta la tercera extracción:


P [A]= 3/6 * 2/5 * 2/4+3/6 * 2/5 * 1/4+3/6 * 2/5 * 2/4+3/6 * 1/5 * 2/4+2/6 * 3/5 * 2/4+1/6 * 3/5
* 2/4
P [A]= 9/20 = 0.45 ó 45%

c. Probabilidad de obtener una esfera blanca y una esfera negra hasta la segunda extracción:
P [x] = 2/6 * 1/5 + 1/6 * 2/5
= 2/15 = 0.1333 ó 13.33%
Ejemplos de Aplicación de los Axiomas de probabilidades
Ejemplo1:
Sea: Ɛ 1= Lanzamiento de un dado y su puntaje obtenido.
Su espacio muestral está dado por: Ω 1= {1, 2, 3, 4, 5,6}
Calcule la probabilidad de la ocurrencia de los sucesos A, B, C definidos a continuación:
a) A: El puntaje obtenido es un número par: A = {2, 4, 6}

n( A) 3
P [A]= = = 0.5 ó 50%
n( S ) 6

Interpretación: La Probabilidad de la ocurrencia del suceso A es de 50%


b) B: Puntaje es menor ó igual que 5. B = {1, 2, 3, 4,5}

n( B ) 5
P [B]= = = 0.8333 ó 83.33%
n( S ) 6

Interpretación: La Probabilidad de la ocurrencia del suceso B es de 83.33%

c) C: Puntaje es mayor que 9. C=

n (C ) 0
P [C]= = = 0 ó 0%
n( S ) 6

Interpretación: La Probabilidad de la ocurrencia del suceso C es de 0%

Ejemplo2:

Sea el Ɛ 2: Extracción de una carta de un juego de 52 naipes:

a) Cuál es la probabilidad de que sea espada

n( A) 13
P [A]= = = 0.25 = ó 25%
n( S ) 52

b) Cual es la probabilidad de que sea menor de 9:

8 cartas son menores que 9, por lo tanto el total de cartas es igual a 32 (8x4)

n( B ) 32
P [B] = = = 0.6153 ó 61.53%
n( S ) 52

c) Cual es probabilidad de que sea 13:


Hay 4 cartas 13 es decir que n (C) = 4
(Las cartas son: el 13, el 13, el 13  y el 13)

n (C ) 4
P [C]= = = 0.0769 ó 7.69%
n( S ) 52

Ejemplo 3:

Si se extrae una carta de un juego de 52 naipes. ¿Cuál es la probabilidad de que la carta


seleccionada :

a. Sea roja ó mayor de 9


b. Sea roja y mayor de 9
c. Sea espada ó igual que 5
d. Sea menor de 5 ó mayor de 10

SOLUCIÓN:

a. Sea roja ó mayor de 9. Luego se define los siguientes eventos:


A= carta roja
B= mayor de 9
n( A) n( B ) n( A  B )
Entonces, P [A  B]= P [A] + P [B] - P [AB] = + 
n( S ) n( S ) n (S )

26 16 8 34
   = = 0.6538 ó 65.38%
52 52 52 52

b. Sea roja y mayor de 9:

A= roja

B= mayor a 9

n( A  B ) 8
Luego, P [AB] = = = 0.1538 ó 15.38%
n (S ) 52

c. Sea espada ó igual que 5:

A= espada

B= 5

13 4 1
Luego, P [AB] = P [A] + P [B] – P [AB] =  
52 52 52
d. Sea menor de 5 ó mayor de 10

A<5

B >10

Luego, P [A  B]= P [A] + P [B] – P [AB] = 16/52 + 12/52 – 0/52 = 7/13=


0.5384 ó 53.84%

Ejemplo 4:
Un lote consta de 10 artículos buenos, 4 con pequeños defectos y 2 con defectos graves. Se elige
un artículo al azar. Encontrar la probabilidad de que:

(a) No tenga defectos.


(b) No tenga un defecto grave.
(c) Que sea bueno o que tenga un defecto grave.

Solución:
PASO1: Sean los eventos:
A = {artículos buenos}, donde n(A) = 10
B = {artículos con pequeños defectos}, donde n (B) = 4
C = {artículos con defectos graves} donde n(C) = 2

PASO 2: El total de artículos es 10 + 4 + 2 = 16

PASO 3: Las probabilidades pedidas son:


10 5
(a) P(A) = 16 = 8
2 14 7
(b) P (C’) = 1 – P(C) = 1 - 16 = 16 = 8
(c) P(A o C) = P(A) + P(C)
10 2 12 3
= 16 = 16 = 16 = 4

Ejemplo 5:
En un puesto de inspección el 1% de los carros investigados tuvieron malos freos, malos faros y
causaron demasiada contaminación; 19% produjeron demasiada contaminación; 14% tuvieron
malos freos; 5% tuvieron mal los frenos y los faros delanteros; 3% tuvieron faros malos y causaron
contaminación; 16% tuvieron faros malos y 3% frenos malos y causaron contaminación.

a) ¿Qué porcentaje tienen mal los frenos, los faros (o ambos)?


b) ¿Qué probabilidad tuvieron mal los frenos o los faros pero no ambos?

Solución:
PASO 1:
Sean los eventos:
A: carros que tienen malos frenos
B: carros que tienen malos faros
C: carros que causan demasiada contaminación
Donde:
P (ABC) = 0.01, P(C) = 0.19, P(A) = 0.14, P(AB) = 0.05, P(BC) = 0.03, P(B) 0.16, P(AC) = 0.03

PASO 2: Ubicando estos datos en el esquema de Venn, sería:

PASO 3: La solución es:


a) P (AUB) = 7 + 4 + 1 +2 +9 + 2 = 25%
También se puede calcular del modo siguiente:
P (AUB) = P (A) + P (B) – P (AB)
= 0.14 + 0.16 – 0.05 = 0.25
b) P ((AUB) ∩ (A∩B)’) = (7 + 2) + (9 + 2) = 20%

Ejemplo 6:
En una habitación se encuentra el siguiente grupo de personas: 5 hombres mayores de 21, 4
hombres menores de 21, 6 mujeres mayores de 21 y 3 mujeres menores de 21. Se elige a una
persona al azar, se definen los sucesos siguientes: A = {la persona es mayor de 21}; B = {la
persona es menor de 21}; C = {la persona es hombre}; D = {la persona es mujer}. Evaluar las
siguientes:
(a) P (BUD) (b) P (AUC)

Solución: 4 21 5
Tenemos: 5 hombres mayores de 21 H
4 hombres menores de 21
6 hombres mayores de 21 M
3 hombres menores de 21 3 6
Al elegir una persona, esta puede ser un hombre o una mujer:
9 1
Si resulta hombre, la probabilidad es P (H) = 18 = 2
9 1
Si resulta mujer, la probabilidad es P (M) = 18 = 2

Además:
5+6 11 5+4 9
P(A) = 5+4+6+3 = 18 , P(C) = 5+4+6+3 = 18
4+3 7 6+3 9
P (B) = 5+4+6+3 = 18 , P(C) = 5+4+6+3 = 18

Luego:
(a) P (BUD) = P (B) + P (D) – P (B∩D)
7 9 3 13
= 18 + 18 - 5+4+6+3 = 18

(b) P (AUC) = P(A) + P(C) – P (A∩C)


8 9 5 12 2
= 18 + 18 - 5+4+6+3 = 18 = 3
Instrucción: Utilizando las definiciones anteriores acerca de probabilidades resolver los
siguientes ejercicios:

EJERCICIO Nº 01:

Se lanza 4 veces una moneda. ¿De cuántas formas posibles pueden caer las monedas? Utilice un
diagrama de árbol para mostrar todos los resultados y luego determina su espacio muestral.

EJERCICIO Nº 02:

Un administrador de un centro de impresiones acepta un embarque de 15 receptores, si en una


muestra de 4 receptores no sale ningún defectuoso. ¿Cuál es la probabilidad de que acepte el
embarque si este contiene 3 receptores defectuosos?
Construya un árbol de probabilidades que ilustre el experimento aleatorio e indique las
probabilidades correspondientes para cada suceso

EJERCICIO Nº 03:

En cierta ciudad el 40% de los docentes tiene el cabello castaño, el 20% tiene los ojos negros y el
5% tiene los ojos negros y el cabello castaño. Se escoge un docente al azar.
Halle la probabilidad de que:
a. Tenga el cabello castaño o los ojos negros
b. Tenga solo el cabello castaño, pero no los ojos negros
c. No tenga el cabello castaño ni los ojos negros

EJERCICIO Nº 04:

En una caja hay 6 esferas. 2 son rojas, 1 blanca y las 3 restantes son negras. Si se sacan al azar
de una en una (sin reemplazo) hasta la tercera esfera.
a. Construya un árbol de probabilidades que ilustre el experimento aleatorio b. Indique la
probabilidad de obtener una esfera roja hasta la segunda selección
c. Indique la probabilidad de obtener dos esferas negras hasta la tercera selección.

EJERCICIO Nº 05:

Un estudio de 200 centros educativos iniciales reveló que sus ingresos mensuales (en dólares,
después del pago de impuestos:
Ingreso en dólares Centros educativos

[0 - 150 > 40

[150 - 500 > 70

[500 - 1000 ] 90

a. ¿Cuál es la probabilidad de que un centro educativo tenga un ingreso menor de 150 dolares en
ingresos después de los impuestos?

b. ¿Cuál es la probabilidad de que una tienda seleccionada aleatoriamente o al azar tenga un


ingreso entre 150 a 500 dólares?

EJERCICIO Nº 06:

Se selecciona al azar una carta de un juego de 52 naipes. ¿Cuál es la probabilidad de que la carta
seleccionada:

a. Sea de color rojo y tenga un valor mayor a 10.


b. Tenga un valor mayor a 5 o menor a 11.
c. Sea corazón o tenga un valor menor de 4.

EJERCICIO Nº 07:

Se tienen 5 esferas de colores de las cuales 2 son rojas, 2 son blancas y una negra. Si se seleccionan
al azar en forma aleatoria de una en una sin reposición hasta la tercera extracción:

a. Construya un árbol de probabilidades que ilustre el experimento aleatorio.

b. ¿Cuál es la probabilidad de obtener hasta la segunda extracción una esfera roja?

c. ¿Cuál es la probabilidad de obtener hasta la tercera extracción una esfera roja y una negra?

EJERCICIO Nº 08:

Se lanzan dos dados a la vez, si se conoce que por lo menos en uno de ellos sale 2, ¿Cuál es la
probabilidad de que el puntaje total obtenido sea 5?
EJERCICIO Nº 09:

Se compran 300 accesorios de auto a tres proveedores distintos A, B y C. 60 provienen del


proveedor A, 100 provienen de B y los restantes de C. Si se conoce que el 2%, 4% y 6% de los
accesorios que ofertan A, B y C son defectuosos, calcule cuál es la probabilidad de que al
escogerse un accesorio aleatoriamente de los 400 comprados este:
a. Provenga del proveedor A
b. Siendo defectuoso, provenga del proveedor B
c. Siendo bueno, provenga del proveedor C

EJERCICIO Nº 10:

En una Institución educativa hay 30 trabajadores, de los cuales la tercera parte son mujeres. Si la
cuarta parte de los hombres y la mitad de las mujeres son de la capital, ¿Cuál es la probabilidad
de que al seleccionarse un trabajador aleatoriamente este:
a. Sea hombre
b. Sea mujer y provinciana c. Sea mujer sabiendo que es de la capital
d. Sea hombre sabiendo que es provinciano

EJERCICIO Nº 11:

Un laboratorio trabaja correctamente el 92% del tiempo, produciendo solamente 0.5% de


medicamentos defectuosos; cuando no trabaja bien produce un 4% de defectuosos. Si escogemos
un medicamento al azar. Calcular la probabilidad de que sea defectuoso.
EJERCICIO Nº 12:

La UNS está formada por 56% de hombres y 44% de mujeres, se sabe que el 44% de los hombres
y el 20% de las mujeres fuman. Si elige un estudiante al azar y si resulta que fuma. Calcular la
probabilidad de que sea hombre.
EJERCICIO Nº 13:

Los profesores de la Universidad “X” se clasifican de la siguiente manera:


15% tienen doctorado.

60% tienen licenciatura.

25% tienen bachillerato.

El 60% de los doctores, 80% de los licenciados y el 25% de los bachilleres son varones. Se elige
al azar un profesor y resulta ser mujer, ¿Cuál es la probabilidad de que sea doctor?
EJERCICIO Nº 14:

f) De las personas examinadas en el departamento de salud de un condado, el 45% proviene


de un sector A del condado, el 30% de un segundo sector B y el 25% de un tercer sector C.
El 30% de los pacientes del sector Al 20% del sector B y el 10% del sector C están en la
nómina de bienestar social del condado. Se escoge al azar un paciente entre los archivos del
departamento y se halla que está inscrito en la nómina de bienestar social. ¿Qué probabilidad
hay de que ese paciente sea del sector ¿A?¿B?¿C?
EJERCICIO Nº 15:

Un ingeniero ha descubierto, en una gran empresa industrial, que el 20% de los casos de
emergencia que examina, provienen del departamento A, el 10% del departamento B, el 45% del
departamento C y el 25% del departamento D. también ha descubierto que el 10% de los casos de
emergencia del departamento A, el 5% del departamento B, el 15% del departamento C y el 12%
del departamento D son accidentes debidos a aparente descuido. Se presenta en la clínica un caso
de accidente ocasionado por descuido. ¿Qué probabilidad hay de que ese paciente pertenezca al
departamento ¿A?¿B?¿C?¿D?

EJERCICIO Nº 16:

Tabla:

Proporción de la Proporción de hombres


Edad población total casados respecto de los
grupos de edad
14 – 25 0.20 0.05
26 – 44 0.40 0.80
45 o más o.40 0.95

La tabla muestra algunas características de cierta población de hombres expresadas en


proporciones. Se escoge al azar un hombre y se encuentra que es casado. Calcular la
probabilidad de que su edad este entre los 14 y los 25, entre los 26 y los 44 y que sea de 45
años o más.
EJERCICIO Nº 17:

Un científico ha descubierto en un hospital para enfermedades crónicas que el 15% de los


pacientes permanecen en el hospital menos de 30 días, mientras que el 85% permanece 30 días o
más. El científico también ha descubierto que el 20% de los pacientes que se quedan poco tiempo
y el 60% de los que permanecen largo tiempo presentan cierto grupo de características .Se admite
en el hospital un paciente que presenta dichas características ¿Cuál es la probabilidad de que ese
individuo vaya a permanecer en el hospital menos de 30 días? ¿30 días o más?

EJERCICIO Nº 18:

Tabla

Edad(en años) Total


Diagnostico <15 15 – 24 25 – 34 35 – 44 45 – 54 55 – 64 65omás
(A1) (A2) (A3) (A4) (A5) (A6) (A7)
Reacción 0 0 0 7 27 20 14 68
psicótica
involuntaria (
B1)
Reacción 3 1 4 5 9 10 5 378
maniaco –
depresiva (B2)
Esquizofrenia 5 95 140 160 103 44 7 554
(B3)
Reacciones 8 26 48 48 30 13 3 178
psiconeuróticas
(B4)
Alcoholismo 2 10 85 85 68 26 5 236
(B5)
Drogadicción 5 12 24 24 5 2 1 74
(B6)
Total 23 144 329 329 242 115 35 1147

g) La tabla muestra el número de pacientes admitidos en una clínica psiquiátrica durante un


determinado periodo de tiempo. Los pacientes se hallan clasificados por diagnóstico y por edad.
Con estos datos, encontrar.
h) Siguiente:
(a) P(A3 B4) (b) P(A4 B3) (c) P(A’1)
(d) P(B1 A7) (e) P(B6) (f) P(B6 A1)
(g) La probabilidad de que un paciente escogido al azar sea esquizofrénico.
(h) La probabilidad de que un paciente escogido al azar sea esquizofrénico. Dado que
tiene de 25 a 34 años de edad.
(i) La probabilidad de que un paciente escogido al azar sea esquizofrénico y tenga entre
25 y 34 años de edad.
Sesión 8: Distribución de variables aleatorias discretas más importantes. Distribución
Binomial y Poisson.

DISTRIBUCIONES DE PROBABILIDADES

1. LA DISTRIBUCIÓN BINOMIAL

 La Distribución Binomial es una las distribuciones de probabilidad discretas más


importantes, la cual tiene muchas aplicaciones en Ingeniería, Administración, etc...

 Esta distribución se origina en los Ensayos o Experimentos Bernoulli que consiste en


realizar 1 experimentos que tiene dos resultados posibles, llamados “éxito” y “fracaso”.
Ejemplos:
1.Lanzar una moneda
2.Rendir un examen. Ensayos de Bernoulli
3.Observar el sexo de un recién nacido.
4.Encender una máquina, etc

 Experimento Binomial:
Es aquel que consiste en realizar “n” veces ensayos de Bernoulli, en el cual se debe
cumplir lo siguiente:
a. Cada ensayo tienen solo dos resultados posibles.
b. Los ensayos son independientes.
c. La probabilidad de éxito “p” es constante en cada ensayo.

 Esta distribución tienen las siguientes características:


1. Su variable aleatoria esta definida como:
X: Numero de éxitos en “n” ensayos.

2. Su recorrido o rango es:


Rx = {0,1,2,3,4,5, …, n}

3. Su función de probabilidad esta dada por:

4. Sus parámetros son :


n : Número de veces que se repite el experimento o tamaño de muestra.
p : Probabilidad de éxito en cada uno de los ensayos o proporción de interés.

5. Su notación es : X B ( n, p )
6. Uso de tabla: Para el uso de tabla tener en cuenta lo siguiente

A. P ( X≤a ) = Usar directamente la tabla


B. P ( X>a )=1- P(X≤a)
C. P ( X≥a )=1- P(X≤a-1)
D. P ( X=a )=P(X≤a)-P(X≤a-1)
E. P ( a≤X ≤ b ) = P ( X ≤ b ) - P ( X ≤ a-1 )
F. P ( a≤X < b ) = P ( X ≤ b-1 ) - P ( X ≤ a-1 )
G. P ( a<X < b ) = P ( X ≤ b-1 ) - P ( X ≤ a )

ESTUDIO DE CASOS

CASO Nº 01:
En el almacén de la Universidad Nacional de la Santa, hay 12 artículos eléctricos de los cuales 3
de ellos son defectuosos. Si se extrae una muestra aleatoria de 5 a partir del grupo. Cuál es la
probabilidad de que:

a. Exactamente 1 sea defectuosos.


b. Ninguno sea defectuoso.
c. Menos de 2 sean defectuosos.
d. Más de 3 sean defectuosos.

CASO Nº 02:
En el Centro Educativo “Champagnan” se está aplicando un nuevo método de enseñanza del
aprendizaje del Idioma Inglés. Después de completar con la aplicación de este método se evalúa
que el 1% salió desaprobado. El Administrador selecciona en forma aleatoria estudiantes al azar
del colegio:

a. Cuál es la probabilidad de que exista más de 3 desaprobados.


b. Cuál es la probabilidad de que exista menos de 3 desaprobados.
c. Cuál es la probabilidad de que haya entre 2 y 4 desaprobados inclusive.

CASO Nº 03:
En un juego de apuestas entre los estudiantes de la UPN y el profesor de estadística, el estudiante
arroja una moneda 10 veces. En este juego se tienen en cuenta las siguientes apuestas:
a. Si obtiene 5 caras o más, el estudiante gana 2 puntos en su examen de medio ciclo.
b. Si obtiene menos de 3 caras no gana ningún punto.
c. Si obtiene más de 6 caras gana 3 puntos.
d. Si obtiene 2 caras o menos se le quita 1 punto en el examen de medio ciclo.
Cuáles son las respectivas probabilidades en las diferentes apuestas:
a. P(X≥5)=
b. P(X<3)=

c. P(X>6)=

d. P(X≤2)=

CASO Nº 04:
Según información de Secretaría Académica de la UCV, el 65% de los estudiantes son del sexo
masculino y el resto mujeres. Para la aplicación de una encuesta por parte de la asistenta social,
se selecciona aleatoriamente a 10 estudiantes:
a. Cuál es la probabilidad de encuestar a menos de 5 hombres.
b. Cuál es la probabilidad de encuestar más de 5 hombres
c. Cuál es la probabilidad de encuestar a 3 y 8 hombres inclusive.
d. Cuál es la probabilidad de encuestar a ningún hombre.

2. LA DISTRIBUCIÓN POISSON

 La Distribución de Poisson es otra de las distribuciones de probabilidad discretas más


importantes por que se aplica en muchos problemas reales.

 Esta distribución se origina en problemas que consiste en observar la ocurrencia de


eventos discretos en un intervalo continuo (unidad de medida).

 Ejemplos:
1. Numero de manchas en un metro cuadrado de un esmaltado de un refrigerador.
2. Número de vehículos que llegan a una estación de servicios durante una hora.
3. Número de llamadas telefónicas en un día.
4. Número de clientes que llegan a un banco durante las 10 y 12 p.m.
5. Numero de bacterias en un cm3 de agua.

 Esta distribución tienen las siguientes características:


7. Su variable aleatoria está definida como:
X: Numero de ocurrencias en 1 unidad de medida (Tiempo, Volumen, Superficie,
etc)

8. Su recorrido o rango es:


Rx = {0,1,2,3,4,5, ….}

9. Su función de probabilidad está dada por:

10. Su parámetro es λ : tasa promedio de ocurrencia en 1 unidad de medida.

11. Su notación es : X P( λ )
12. Uso de tabla: Para el uso de tabla tener en cuenta lo siguiente

H. P ( X≤a ) = Usar directamente la tabla


I. P ( X>a )=1- P(X≤a)
J. P ( X≥a )=1- P(X≤a-1)
K. P ( X=a )=P(X≤a)-P(X≤a-1)
L. P ( a≤X ≤ b ) = P ( X ≤ b ) - P ( X ≤ a-1 )
M. P ( a≤X < b ) = P ( X ≤ b-1 ) - P ( X ≤ a-1 )
N. P ( a<X < b ) = P ( X ≤ b-1 ) - P ( X ≤ a )

ESTUDIO DE CASOS
CASO Nº 01:
En un estudio de Satisfacción del Cliente en la UNS, se determinó que las personas llegan
aleatoriamente a la ventanilla de caja, con una tasa promedio de 24 personas por hora, durante la
hora punta comprendida entre 11:00 am y 12:00 am de cierto día. El jefe administrativo desea
calcular las siguientes probabilidades:
a. Cuál es la probabilidad de que lleguen exactamente 5 personas durante esa hora?
b. Cuál es la probabilidad de que lleguen más de 5 personas durante esa hora?
c. Cuál es la probabilidad de que lleguen menos de 5 personas durante esa hora?
d. Cuál es la probabilidad de que lleguen más de 8 personas durante esa hora?

CASO Nº 02:
Si la secretaria de la Escuela de Postgrado de la UNS, recibe un promedio de 2 llamadas cada 3
minutos por motivos académicos. Calcular lo siguiente:
a. Cuál es la probabilidad de que reciba más de 3 llamadas en 3 minutos.
b. Cuál es la probabilidad de que reciba menos de 2 llamadas en tres minutos.
c. Cual es la probabilidad de que reciba exactamente 2 llamadas en tres minutos.
d. Cuál es la probabilidad de reciba 5 llamadas en 6 minutos.
e. Cuál es la probabilidad de que reciba menos de 2 llamadas en un minuto.

CASO Nº 04:
En un estudio por parte del Ministerio de Transporte y Comunicaciones (MTC), se ha determinado
que en la carretera panamericana con destino a Lima, hay en promedio de 20 accidentes por
semana (7 días), calcular las siguientes probabilidades:
a. Cuál es la probabilidad de que en una semana no haya ningún accidente.
b. Cuál es la probabilidad de que en dos semanas haya 10 accidentes.
c. Cual es la probabilidad de que en 1semana ocurra menos de 15 accidentes.
d. Cuál es la probabilidad de que en un día haya tres o menos accidentes.
e. Cuál es la probabilidad de que en un día haya tres o más accidentes.
CASO Nº 05:
En el Centro de impresiones de la UNS se comete dos fallas en las impresiones debido a causas
externas cada vez que imprime 2,500 hojas como promedio. Con esta información determinar:
a. La probabilidad de que en una impresión de 500 hojas, ocurra uno más errores.
b. La probabilidad de que no ocurrirán errores en una impresión de 50 hojas.

CASO Nº 06:
Los alumnos llegan a una garita de vigilancia de la ciudad universitaria aleatoriamente a una
tasa de 300 alumnos por hora. Calcular la probabilidad de que:
a. Un alumno llegue durante un periodo de 1 minuto
b. Por lo menos dos alumnos lleguen durante un periodo dado de un minuto.
c. Ningún alumno llegue durante un periodo de 1 minuto

CASO Nº 07:
En la empresa de textiles “Paracas” se producen ciertos tejidos de lana, con un promedio de un
defecto cada 100 metros cuadrados.
a. Cual es la probabilidad de que una pieza de 50 por 10 metros tenga defectos?
b. Cual es la probabilidad de que presente un defecto como máximo?

Sesión 9: Distribución de variables aleatorias continuas importantes. Distribución Normal.,


Distribución T student. Distribución Chi-cuadrado.

LA DISTRIBUCIÓN NORMAL

 La distribución normal, llamada también Curva de Gauss (en recuerdo al


científico que lo descubrió), es la distribución de probabilidad más importancia en
la Estadística y por ende del Calculo de Probabilidades.
 Esta distribución de probabilidad es importante porque las variables aleatorias
continuas (peso, edad, talla, producción, gasto en publicidad, temperatura, ventas,
PBI, ganancias, etc) que son variables que más se evalúan en una investigación
científica o investigación de mercados se aproximan a esta distribución de
probabilidad.
 También es importante porque se utiliza como aproximación de las distribuciones
discretas tales como: la Binomial, la Poisson, etc.

CARACTERÍSTICAS
1. Tiene como parámetros a  y 
2. Su función de probabilidad está dada por:
1  X  
2

1  
f ( x)   2  
,   X   
2
Además:
-  +
-  <  < + y >0

3. El promedio  puede tomar valores entre – y + mientras que  > 0, entonces existen
infinitas curvas normales.
4. Esta función de probabilidad es asintótica con respecto al eje X, (a pesar de tener recorrido
infinito, la curva nunca toca el eje X); además es unimodal y es simétrica con respecto a
la media .
5. El areá bajo esta función o curva es 1 ó 100%, de la misma manera se sabe que las áreas
comprendidas bajo la curva normal son :

1.    = 68.3%
2.   2 = 95.5%
3.   3 = 99%

- 3 2 1  1 2 3 +

7. Para calcular probabilidades en la distribución normal se necesitaran infinitas tablas de


probabilidad.

4. LA DISTRIBUCIÓN NORMAL ESTÁNDAR:

1. Es una distribución a la cual se le ha modificado la escala original; esta modificación se


ha logrado restando la media  al valor de la variable original y dividiendo este resultado
por , la nueva variable se denota por Z y recibe el nombre de variable estandarizada

X
Z 

2. La modificación de la escala ha permitido elaborar una tabla para el cálculo de las
probabilidades; si esto no hubiera sido posible, sería necesario construir una tabla para
cada valor de  y .
3. La función de densidad de la variable estandarizada es:

1
1 z2
f ( z)  e2
2

4. El promedio (valor esperado) y la varianza de Z son: E(Z) = 0 , V(Z) = 1


5. Notación:
Si X es v.a. continua distribuida normalmente con media  y varianza 2 , la denotamos
por : X  N( , 2).
Aplicando esta notación a la variable normal estandarizada Z, escribimos:
Z  N(0 , 1) , esto se interpreta como, Z tiene distribución normal con media 0 y varianza
1.
6. La superficie bajo la curva normal Z estandarizada también es igual a 1. Por consiguiente,
las probabilidades pueden representarse como áreas bajo la curva normal escandalizada
entre dos valores.
7. Debido a que la distribución normal es simétrica muchas de las tablas disponibles
contienen solo probabilidades para valores positivos de Z.

USO DE TABLA:
Si se conoce el comportamiento de una variable, es decir, se sabe que tienen una distribución
normal, para calcular las diferentes probabilidades se tiene que estandarizar la variable. Una
vez estandarizada la variable, recién utilizar la tabla de la distribución normal estandarizada o
tabla Z.

FORMULAS:
x a a
a. P( x  a)  P(  )  P( Z  )
  
x a a
b. P( x  a)  1  P( x  a)  1  P(  )  1  P( Z  )
  
a b a a
c. P(a  x  b)  P( x )  P( Z )
   
ESTUDIO DE CASOS

CASO Nº 01:
El rendimiento académico de los estudiantes de la UCV, tiene una distribución normal con media
igual a 16 y varianza igual a 4. Si se selecciona un estudiante de esta Universidad, encuentre la
probabilidad de que:
a. El rendimiento sea mayor que 16
b. El rendimiento sea menor que 14
c. El rendimiento este entre 14 y 18
d. El rendimiento este entre 15.5 y 16.5

CASO Nº 02:
Los salarios mensuales de los trabajadores administrativos de la UNS tiene un comportamiento
normal cuya media es S/. 2100 y una desviación estándar de S/. 50. Cuantos trabajadores tienen
salarios:
a. Menores de S/. 2150.
b. Menos de S/. 2200.
c. Mas de S/. 2180.
d. Entre 2080 y 2150 soles.

CASO Nº 03:
El tiempo de duración de los focos eléctrico de los cañones proyectores tienen una distribución
normal con una media de 1000 horas y una desviación estándar de 250 horas. Determinar la
probabilidad de que:
a. Un foco tomado al azar se queme antes de las 990 horas de funcionamiento
b. Un foco se que queme entre 980 y 1120 horas de funcionamiento.
c. Un foco dure mas de 998 horas

CASO Nº 04:
NEUMA Perú, es una empresa que produce llantas para automóviles en nuestro país. La vida útil
de estas llantas se distribuye aproximadamente como una normal con media y desviación estándar
iguales a 32000 y 1000 millas respectivamente. Esta empresa quiere exportar estas llantas por lo
que empieza a hacer ciertos cálculos acerca de la calidad de estas llantas, para lo cual se hace las
siguientes preguntas:
a. Cuál es la probabilidad de una llanta producida por esta empresa tenga una vida útil de 31900
millas.
b. Cuál es la probabilidad de una llanta producida por esta empresa tenga una vida útil desde
31000 y 33000 millas.
c. Si la empresa fija una garantía de 30000 millas. ¿Qué porcentaje de esta producción necesitará
ser reemplazada?

CASO Nº 05:
El tiempo requerido para realizar una pregunta de examen es una variable aleatoria cuya
distribución es aproximadamente normal con media 12.9 minutos y una desviación estándar de
2.0 minutos. ¿Cuáles son la probabilidades de que un alumno resuelva una pregunta del examen
en:
a. Al menos 11.5 minutos.
b. Entre 11.0 y 14.8 minutos.
c. A lo más 12 minutos
d. Entre 10 y 13 minutos.
MUESTREO

1. DEFINICIONES PRELIMINARES:
MUESTREO

Es una TÉCNICA ESTADÍSTICA por la cual se realizan inferencias a la población


examinando solo una parte de ella, ésta parte recibe el nombre de MUESTRA, la cual
debe ser estadísticamente representativa y adecuada.

Ventajas: Desventajas:

 Costo reducido • Presencia del error de muestreo


 Mayor rapidez y exactitud • Presencia de gran variabilidad de las obs.
 Minimiza los costos.

TÉCNICAS DE MUESTREO

Existen 2 tipos de técnicas de muestreo:

A. TECNICAS PROBABILISTICAS: B. TECNICAS NO PROBABILISTICAS


 Muestreo aleatorio simple • El muestreo a criterio o juicio.
 Muestreo aleatorio estratificado • El muestreo por cuotas.
 Muestreo sistemático • El muestreo por conveniencia.
 Muetsreo por conglomerados • etc
 Etc.

UNIDAD DE ANÁLISIS:

Para seleccionar una muestra, primero se define la unidad de análisis que puede
ser un cliente, un votante, una organización, un libro contable, un periódico, un
hospital, un paciente, etc. Esta definición nos permite identificar “Quien va ha ser
medido” , “Quien nos va ha dar la información” y por lo tanto precisar claramente el
problema a investigar y los objetivos de la investigación.

POBLACION OBJETIVO:

Una vez que se ha definido la unidad de análisis se procede a delimitar la población


que va a ser estudiada y sobre la cual se pretende generalizar o inferir los resultados.
Entonces, una población es el conjunto de todos las unidades de estudio que
concuerdan con una serie de especificaciones o características. Para seleccionar la
muestra debe delimitarse la población identificando sus características o
variables de interés a fin de determinar los parámetros poblacionales. En algunos
casos, la delimitación de una población no sólo depende de los objetivos del estudio,
sino de otras razones prácticas. Las poblaciones tienen que ser especificadas en
contenido, lugar y tiempo.
MUESTRA:

La muestra es en esencia, un subconjunto de elementos que pertenecen a una


población de estudio. Para seleccionar una muestra debemos de tener presente el
tipo de muestreo a utilizar: muestreo probabilística y el muestreo no probabilístico.
Se tiene que definir la variable de interés o de estudio principal, para que en
función de esta se sepa que tipo de muestreo utilizar y por ende que formula utilizar.
Luego calcular el tamaño de muestra y finalmente seleccionar las unidades de
análisis.

2. DETERMINACIÓN DEL TAMAÑO DE MUESTRA:

Para determinar el tamaño, primeramente hay que identificar la variable a estudiar


(Cuantitativa o cualitativa). Luego depende de cuatro factores o elementos que son los
siguientes:

PARA UNA VARIABLE CUANTITATIVA:

a. Un nivel de confianza: Que es adoptado por el investigador, el cual puede ser 90%, 95% o
99% y que origina el valor de Z.
b. El error de estimación (E): Que también es fijado por el investigador
c. La desviación estándar ó varianza: que son valores que se obtienen por estudios anteriores,
por la muestra piloto o por la distribución de la población.
d. El Tamaño de la población (N): Que generalmente no se conoce.

PARA UNA VARIABLE CUALITATIVA:

a. Un nivel de confianza: Que es adoptado por el investigador, el cual puede ser 90%, 95% o
99% y que origina el valor de Z.
b. El error de estimación (E): Que también es fijado por el investigador
c. La proporción poblacional (P): que son valores que se obtienen por estudios anteriores, por
la muestra piloto y si no se conoce asumir p=0.5.
d. El Tamaño de la población (N): Que generalmente no se conoce.

3. FORMULAS PARA DETERMINAR EL TAMAÑO DE MUESTRA:

Cualitativa Cuantitativa
VARIABLE
(Proporción Poblacional) (Promedio Poblacional)
POBLACION
INFINITA Z 2 P(1  P) Z 2S 2
(Cuando no se n0  n0 
E2 E2
conoce N)
POBLACION Z 2 P(1  P) N Z 2S 2N
FINITA n 2 n 2
(Cuando se E ( N  1)  Z 2 P(1  P) E ( N  1)  Z 2 S 2
conoce N)

 Z= es el valor de la distribución normal estandarizada para un nivel de confianza fijado


por el investigador.
 S= Desviación estándar de la variable fundamental del estudio o de interés para el
investigador. Obtenida por estudios anteriores, muestra piloto, criterio de experto o
distribución de la variable de interés.
 P= es la proporción de la población que cumple con la característica de interés.
 E= % del estimador o en valor absoluto (unidades). Fijada por el investigador.
 N= Tamaño de la población.

4. PASOS A SEGUIR PARA DETERMINAR LA MUESTRA ÓPTIMA:

A. Identificar eL tipo de variable a analizar.


B. Asumir que la población es infinita y aplicar la formula respectiva señaladas
anteriormente. Esta muestra se llama muestra previa.
n
C. Luego si se conoce el tamaño de la población N, obtener la fracción de muestreo 0
N
n0
 Si  5% , entonces la muestra definitiva es n0 (muestra previa)
N
n
 Si 0  5% , entonces se ajusta la muestra.
N
D. Para ajustar la muestra se tiene que aplicar la siguiente formula:
n0
n
n , n es la muestra final.
1 0
N

5. ESTIMACION DE LOS VALORES A APLICAR EN LAS FORMULAS

A. Valor de Z: es el valor de la abcisa de la distribución normal estandarizada teniendo en


cuenta el nivel de confianza fijado por el investigador, por lo tanto este valor se encuentra
en las tablas estadística respectiva. Para hacer el trabajo menos tedioso, presentamos a
continuación los diferentes valores de Z
TABLA N° 01

VALORES DE LA DISTRIBUCIÓN NORMAL


ESTANDARIZADA(Z)
Nivel de Valor Z
Nivel de confianza
significancia
(1-) Bilateral Unilateral
()
90% = 0.90 10% = 0.10 1.64 1.28
95% = 0.95 5% = 0.05 1.96 1.64
98% = 0.98 2% = 0.02 2.32 2.05
99% = 0.99 1% = 0.01 2.57 2.32

B. Cálculo del Valor de P: Se calcula este valor cuando la variable de estudio es cualitativa.
TABLA N° 02
COMPORTAMIENTO DE P y Q
P Q=1-P PQ
0.05 0.95 0.0475
0.10 0.90 0.090
0.20 0.80 0.160
0.30 0.70 0.210
0.40 0.60 0.240
0.50 0.50 0.250
0.60 0.40 0.240
0.70 0.30 0.210
0.80 0.20 0.160
0.90 0.10 0.090
0.95 0.05 0.0475
C. Cálculo del Valor de la varianza (Si la variable es CUANTITATIVA): este valor es
obtenida por estudios anteriores, muestra piloto, criterio de experto o distribución de la
variable de interés.
D. Cálculo del error de estimación: Generalmente se asume 2%, 5%, y 8% de error. Este
valor es fijado por el investigador. Es la diferencia entre el parámetro (población) y el
estimador (Muestra). Es decir: E  o  oˆ .Este error puede ser absoluto o relativo. Si
E=±0.35 se denomina error absoluto. Si consideramos un error del 10% de la media, es
decir, E=10%( x )=0.10(3.5)=0.35 se denomina error relativo.

ESTUDIO DE CASOS

CASO Nº 01: (Cuando se conoce la varianza)

Por estudios anteriores en una empresa en plena campaña de producción se obtuvo que el
promedio de horas extras por trabajador es de 3.3 hrs, con una varianza de 4.18 hrs2. Si en el
presente año esta misma empresa se encuentra en plena campaña de producción y cuenta con 120
trabajadores, los cuales registran sus horas extras en tarjetas de control. Determinar el tamaño de
muestra necesario para estimar el promedio de horas extras diarias con un error del 20% del
promedio y una confianza del 95%.

CASO Nº 02: (cuando se conoce la varianza)

Cual será el tamaño de corridas de producción adecuado si se requiere estimar el tiempo promedio
para efectuar la producción de un producto químico con una confianza del 95%. Además en un
estudio piloto se encontró x  3.5 horas y s = 2.2 horas y además el investigador asume E = 0.35
horas.

CASO Nº 03: (Cuando se conoce la varianza)

El Director de la sección de control de la rabia del Dpto. de Salud Pública de la Ciudad de


Chiclayo desea obtener una muestra de los registros de dicho Dpto. acerca de las mordidas de
perro reportadas durante el año anterior, para estimar la edad media de las personas mordidas. El
director desea una seguridad del 95%, con un E=2.5 y en base a estudios anteriores conoce que la
desviación estándar es de 15 años. ¿De que tamaño debe ser la muestra?

CASO Nº 04: (Cuando se conoce la varianza)

Se desea estimar el tiempo medio de duración de artefactos eléctricos (focos) producidos por la
empresa PHILIPSS. Se sabe por un estudio piloto de 10 focos que la desviación estándar del
tiempo de duración es de 20 meses. De que tamaño debe ser la muestra para estimar el tiempo
medio de duración con un error máximo de 4 meses y con una confianza del 95%?.

CASO Nº 05: (Cuando no se conoce la varianza-Muestra piloto)

El ministerio de Salud-Chiclayo esta realizando una investigación acerca del comportamiento del
peso de niños en la ciudad de Chiclayo y ver si presenta un plan de salud para mejorar esta factor
latente de bajo de peso. Como no se conoce la varianza se obtiene una muestra piloto de 20 niños
cuyos pesos son:
14.8, 14.2, 15.3, 15.4, 15.0, 15.2, 15.3, 14.2, 15.2, 15.5, 14.5, 15.5, 15.2, 15.0, 14.3, 15.2, 14.0,
14.0, 14.2, 15.3
Determinar el tamaño de muestra apropiado con una confianza del 95% y un error tolerable del
1% respecto al promedio.

CASO N° 06: (Cuando existen estudios previos)

Por estudios científicos se sabe que el Coeficiente de Inteligencia promedio para jóvenes según
la escala de Weshler es de 100 puntos con una desviación estándar de 15 puntos. Determinar el
tamaño de muestra para realizar una investigación sobre niveles de inteligencia en la UCV-
Chiclayo, si se admite un error del 2% del promedio y una seguridad del 95%.
CASO N° 07:

Se desea determinar una muestra representativa


para conocer la opinión de la poblacional acerca de Grupo Tamaño de muestra
la explotación del Cerro Quilish-Cajamarca. Se
A favor 9
aplicó una muestra piloto a 20 de los 10000
En contra 8
cajamarquinos, obteniéndose los siguientes datos.
Indecisos 3
Cual es el tamaño de muestra con un 95% de
confianza y un error del 2%? Total 20

CASO N° 08:

Se desea estimar la proporción de jóvenes de la ciudad de CHIMBOTE que hacen uso de Internet
como mínimo una hora diaria con un 95% de confianza. De estudios anteriores se conoce que
P=0.70 y se desea un E = 5%. Suponiendo que N = 1500. Cual debe ser el tamaño de muestra.

CASO Nº 09:

Se desea estimar la proporción de la población que esta de acuerdo con la actual gestión del
Congreso de la Republica, con un error máximo de 0.5% y con una confianza del 95%. Por
estudios similares, se cree que la proporción será cerca al 1%. ¿Cuál será el tamaño de muestra
requerido?

CASO N° 10:
El administrador del Restaurant “El Romano” desea saber que proporción de sus Clientes-Turistas
están inconformes con las atenciones recibidas durante su estadía en Trujillo. ¿De que tamaño
debe ser la muestra si se considera E=0.05, nivel de confianza del 95% y no se dispone de alguna
otra información?

A CONTINUACIÓN DAREMOS UN RESUMEN SOBRE TÉCNICAS DE MUESTREO


PROBABILISTICO Y NO PROBABILISTICO

Las técnicas de muestreo probabilísticas tienen menos sesgo que las técnicas de muestreo no
probabilísticas; pero, incluso al interior de las técnicas de muestreo probabilísticas también
existen técnicas con más sesgo que otras, lo mismo ocurrirá en las técnicas de muestreo no
probabilísticas.
MUESTREO PROBABILÍSTICO

Muestreo aleatorio simple

El muestreo aleatorio simple desde el punto de vista matemático esta es la forma más sencilla
de seleccionar una muestra, de ahí viene el nombre de muestreo aleatorio simple; pero, desde el
punto de vista práctico de la recolección de los datos y de aproximación a las unidades de estudio
es la técnica más compleja.

Muestreo sistemático

El muestreo sistemático es una alternativa muy interesante al muestreo aleatorio simple cuando
no tenemos un tamaño N, pero incluso el muestreo sistemático no es completamente factible en
muchos casos; por eso, existen otras técnicas de muestreo probabilísticas.

Muestreo estratificado

El muestreo aleatorio estratificado lo podemos aplicar no solamente a un criterio temporal, y


para demostrarlo veamos el siguiente ejemplo: queremos conocer cuál es el grado de aceptación
que tienen los estudiantes de Enfermería respecto al método anticonceptivo quirúrgico voluntario
masculino llamado también vasectomía.

Muestreo por conglomerados

La técnica de muestreo por conglomerados se puede considerar como lo opuesto al muestreo


estratificado, porque en cada conglomerado o grupo de unidades de estudio encontramos
representados a toda la variabilidad de la población: en un centro de salud encontramos al
médico, a la enfermera, a la obstetriz, al odontólogo, al nutricionista, al psicólogo es decir a todo
el equipo de salud en la misma proporción o, por lo menos en similares proporciones a los que se
encuentran en toda la población, es decir, en todo el Ministerio de Salud; por esta razón, a cada
uno de estos grupos los consideramos como minipoblaciones llamados también conglomerados.
Los profesionales que se encuentran al interior de un centro de salud son diferentes entre sí,
en cambio, en el muestreo estratificado los que se encuentran dentro de un estrato son muy
similares, sino acuérdate del ejemplo de los estudiantes de la facultad de Enfermería: un estrato
está conformado por mujeres; y el otro, por varones.

Muestreo no probabilística

Muestreo por cuotas

Dentro de los muestreos no probabilísticos aquel que tiene menos sesgo es el muestreo por
cuotas que si bien está al interior de un grupo de muestreos no probabilísticos viene a ser la mejor
opción para los casos en que no podemos utilizar un muestreo probabilístico. Es preciso que
recordar que elegir entre uno y otro no es cuestión de gustos ni de comodidades; es, de
circunstancias

Vamos a suponer que evaluaremos a 40 estudiantes en cada Institución Educativa, entonces,


tendremos que acudir a 10 de ellas, esto ya es un número mayor y la representatividad de diez
colegios es mucho mejor que la de cuatro

Ahora, ¿qué pasaría si tú quisieras estudiar a diez alumnos en cada colegio? Pues tendrías
que recurrir a 40 de colegios, pero ocurre la misma situación que la visita domiciliaria, porque
acudir a 40 colegios ya es muy trabajoso. Por lo tanto, el número de diez es un número bastante
razonable y en cada colegio tendrás que evaluar a 400 estudiantes.
Pero, ¿por qué exactamente diez Instituciones Educativas? ¿Por qué no once? o ¿por qué no
nueve? Recuerda: esto es un muestreo no probabilístico y la decisión del número de
instituciones educativas que se va a visitar está plenamente en las manos del investigador; de
acuerdo a la experiencia que tiene dentro de su línea de investigación o al conocimiento que tiene
acerca de la variable que desea conocer o medir

Será el investigador quien decidirá cuántas instituciones educativas debe evaluar. En nuestro
ejemplo, estamos poniendo un número de diez que parece bastante razonable. En otros casos
podría ser más o menos de una manera cualitativa.
No existe una formula, no tenemos un algoritmo ni un esquema matemático que nos permita
calcular cuántos colegios vamos a evaluar; lo que sí ocurre en el muestreo por conglomerados,
ahí s hacemos un cálculo del tamaño de la muestra; sí aplicamos un algoritmo para ver a cuántos
de los centros y puestos de salud vamos a evaluar; ahí sí podemos hacer un cálculo y establecer
a cuántas de estas instalaciones vamos a acudir porque se trata de muestreo probabilístico

Muestreo en bola de nieve

El muestreo en bola de nieve es un complemento que aparece con mucha frecuencia cuando
realizamos, por ejemplo, estudios de validación de instrumentos.

Lo que necesitamos es saber qué costumbres tienen estas mujeres a la hora del parto; sin
embargo, la región alto andina del sur del Perú no es una región muy poblada, de tal modo que
encontrar una sola gestante es una tarea complicada. Dicho de otro modo: que si quieres
colectar un grupo de 50 gestantes te podrías pasar todo el año y tenemos la necesidad de construir
el instrumento lo más antes posible. Por lo tanto, necesitamos adaptar nuestra estrategia de
recolección de datos a la circunstancia.

Debemos tener en cuenta que no existe un listado de elementos; no tenemos un marco muestral

No existe un número, un cálculo del tamaño muestral, no tenemos un algoritmo ni una fórmula;
porque esta estrategia es cualitativa y la técnica de muestreo en bola de nieve es no probabilística;
por lo tanto, es el investigador quien tendrá que decidir el número de unidades de estudio que
tendrá que evaluar; el número de parteras a las que tendrá que entrevistar.

Esto significa que el investigador tiene que tener mucho conocimiento y experiencia en el tema
que está investigando; que tiene que ser parte de esta línea de investigación.
tienen contacto entre si son candidatos para ser seleccionados mediante esta técnica de muestreo
no probabilístico; también podríamos incluir a los indocumentados, a las personas ilegales o
que se encuentran con residencia ilegal: el requisito es que estas unidades de estudio se
encuentren conectados entre sí, de tal forma que la identificación de uno de ellos nos permita
acceder al resto de la comunidad.
En mi ciudad yo conozco a los profesionales que brindan asesoramiento estadístico, te puedo
poner en contacto con ellos, te puedo dar su número telefónico; pero, no es que exista un listado,
un registro oficial, una nómina de todas las personas que hacen esta labor. Sin embargo, por la
labor que realicé durante diez años conozco el medio y a las personas que se dedican a esto. Por
lo tanto, bien podría aplicarse también en este caso un muestreo en bola de nieve.

Muestreo según criterio

Dentro del muestreo según criterio existen dos formas de criterio: el primer criterio, que es el
criterio del investigador; y el segundo criterio, que es el criterio de un grupo de expertos. Al
primero de ellos se le denomina discrecional; y al segundo, de juicio.
como siempre, pienso en aquel que tenga la menor cantidad de sesgo posible. Comienzo
por el muestreo por cuotas a ver si este es el tipo de selección que me permitiría recolectar datos.

Este tipo de muestreo es muy utilizado en las pruebas piloto, porque cuando construyes un
instrumento necesitas ponerlo a prueba. Para realizar tu cálculo del alfa de Cronbach y realizar
un ajuste acerca de la forma de redacción que debe tener tu instrumento, en ese caso no tienes
que hacer un cálculo ni utilizar una técnica probabilística, sino simplemente identificar un
conjunto de unidades de estudio muy similar al que pertenece tu población y a esto se le
denomina focus group, muy utilizado en los estudios de mercado.

Muestreo por conveniencia

Existen circunstancias donde no solamente no podemos acceder al muestreo probabilístico, sino


que no podemos hacer ninguno de los muestreos no probabilísticos de los que hemos hablado
anteriormente. En ese caso tendremos que recurrir a un muestreo por conveniencia.

El muestreo por conveniencia recibe diversos nombres, como por ejemplo: deliberado, porque
no hay ningún procedimiento, ninguna acción ni razón; en suma, no hay ninguna forma de
seleccionar la muestra, es simplemente deliberado.
Sesión 11: Inferencia Estadística: Estadística Paramétrica: Requisitos para su aplicación. Estimación puntual
e intervalica. *Intervalo de confianza para la Media y Diferencia de Medias Hipótesis científica y
estadística .Error de tipo I y II.

ESTIMACIÓN ESTADÍSTICA

ESTIMACIÓN: Es el proceso mediante el cual se intenta determinar el valor del parámetro


de la población a partir de la información de una muestra. Al realizar una estimación siempre
se va a cometer un error. Existen dos tipos de estimación:
A. ESTIMACIÓN PUNTUAL B. ESTIMACIÓN
INTERVÁLICA

A. ESTIMACION PUNTUAL:
Es aquel único valor que se obtiene de la muestra, es decir, que para su cálculo se debe
tener información muestral. Las formulas para calcular o realizar estas estimaciones son
las siguientes:

PROMEDIO VARIANZA PROPORCION

PARAMETRO
 2 P
n n
ESTIMACION
x i  (x  x)
i
2
Pˆ  p 
a
PUNTUAL ̂  x  i 1
ˆ  s 
2 2 i 1
n
n n 1

B. ESTIMACIÓN INTERVÁLICA:
Al realizar una estimación, siempre se va a cometer un error. Entonces, cuando estimamos un
parámetro nunca va a ser exacto, ese valor será mayor o menor al verdadero. Entonces se
obtendrá un intervalo de valores posibles. Ese intervalo se llama estimación interválica.A esa
diferencia mayor o menor se llama error de estimación, el cual esta en relación directa con la
variabilidad del estimador y el nivel de confianza determinado por el investigador. La
estimación intervalica para un parámetro en general, esta dada por:
ˆ  Z / 2      ˆ  Z / 2  

Error de Estimación Error de estimación


También se puede escribir de la siguiente manera:

 : ˆ  Z / 2  
Para determinar este intervalo se necesita de:
a. La estimación puntual
b. La desviación estándar del estimador.
c. Nivel de confianza, el cual será repartido para cada lado del intervalo.

FORMULAS DE LOS INTERVALOS DE CONFIANZA


I. INTERVALO DE CONFIANZA PARA EL PROMEDIO POBLACIONAL

A. Si la muestra (n) es mayor de 30 y la varianza poblacional es conocida:



 : x  Z / 2
n
B. Si la muestra (n) es menor o igual a 30 y la varianza poblacional es desconocida:
s
 : x  t (  / 2, n 1)
n

II. INTERVALO DE CONFIANZA PARA LA PROPORCION POBLACIONAL


A. Si la proporción poblacional se conoce:
PQ
P : p  Z / 2
n
B. Si la proporción poblacional No se conoce: (entonces hay que calcularla en la
muestra)

pq
P : p  Z / 2
n

III. INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS

A. Si las muestras son de tamaño n1>30 y n2>30 (grandes) y además las varianzas
poblacionales se CONOCEN:

 12  22
1   2 : ( x1  x 2 )  Z  / 2 
n1 n2
B. Si las muestras son de tamaño n1<30 y n2<30 (pequeñas) y además las
varianzas poblacionales DESCONOCIDAS:
1 1
1  2 : ( x1  x2 )  t( / 2, n  n  2) sc2 (  )
1 2
n1 n2

Donde :

(n 1  1)s 12  (n 2  1)s 22
sc 
2
, se llama varianza mancomunada
n1  n 2  2

IV. INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE PROPORCIONES:

A. Si p1 y p2 se determinan a partir de muestras:


p1 q1 p 2 q 2
P1  P2 : ( p1  p 2 )  Z  / 2 
n1 n2
ESTUDIO DE CASOS

RESPECTO AL PROMEDIO:
1. Los estudiantes de Administración de la UNT realizaron un trabajo de aplicación respecto a
los sueldos de los trabajadores de la mina YANACOCHA, para lo cual seleccionaron una
muestra aleatoria de 24 trabajadores en el cual se determinó que el sueldo promedio semanal
es de $160 y una varianza de 10 dolares2.

a. Calcular un intervalo de confianza para el sueldo promedio con el 90% de confianza.


b. Calcular un intervalo de confianza para el sueldo promedio con el 95% de confianza.

2. La Gerencia de la empresa HAMILTON LIGH está interesado en conocer el contenido de


nicotina promedio de su marca de cigarrillos. Para lo cual selecciona una muestra de 14
cigarros obteniendo un promedio de 25 miligramos y una varianza de 16 miligramos2.

a. Calcular un intervalo de confianza para el sueldo promedio con el 99% de confianza.


b. Calcular un intervalo de confianza para el sueldo promedio con el 95% de confianza.
c. Calcular un intervalo de confianza para el sueldo promedio con el 90% de confianza.

3. Nuestro amigo BRUNO se dedica al negocio de los AUTOS, el sospecha que su margen de
beneficios mensual promedio por auto vendido está por debajo del promedio nacional de S/.
700. Para evaluar su margen de beneficio toma información (muestra) respecto a 8 meses cuya
información es la siguiente:

MES 1 2 3 4 5 6 7 8 Promedio Varianza

BENEFICIO 800 840 780 850 810 790 805 800

a. Calcular un intervalo de confianza para el margen de beneficio promedio con el 99% de


confianza.
b. Calcular un intervalo de confianza para el margen de beneficio promedio con el 95% de
confianza.
c. Calcular un intervalo de confianza para el margen de beneficio promedio con el 90% de
confianza.
RESPECTO A LA PROPORCION:

1. Según un vendedor de automóviles, de todos los vehículos adquiridos por los docentes
universitarios, en más del 80% de los casos el color es elegido por la mujer. Para verificar esta
hipótesis se toma una muestra de 400 parejas que han comprado autos nuevos durante el
último año, hallándose que en 310 casos el color fue en efecto elegido por la dama.
Calcular:
a. El intervalo confidencial para la proporción considerando el 99 % de confianza.
b. El intervalo confidencial para la proporción considerando el 90% de confianza.

RESPECTO A LA DIFERENCIA DE PROMEDIOS:


1. La SUNAT está haciendo auditoria en ciertos grifos gasolineras. Selecciona en forma aleatoria
05 grifos de 2 empresas diferentes (Texaco y Repsol). Los ingresos en miles de soles
semanales se presentan a continuación:

TEXACO : 90 85 95 76 80
REPSOL : 84 87 90 92 90

a. Estimar un intervalo de confianza para la diferencia de medias (DIFERENCIA DE LOS


INGRESOS PROMEDIOS) con el 90% de confianza.
b. Estimar un intervalo confidencial para la diferencia de medias (DIFERENCIA DE LOS
INGRESOS PROMEDIO) con el 99% de confianza.

RESPECTO A LA DIFRENCIA DE PROPORCIONES:

1. Se toman muestras independientes para determinar el la proporción de personas que esta


a favor de un impuesto al combustible. La primera muestra consiste en 100 personas que
solamente trabajan en Trujillo y la segunda muestra es de 100 personas del cercado de
Trujillo. Se determina que 50 y 60 personas de las respectivas muestras están de acuerdo
con el aumento.

a. Calcular un intervalo de confianza para la diferencia de proporciones considerando el


99% de confianza.
b. Calcular un intervalo de confianza para la diferencia de proporciones considerando el
90% de confianz
XI. PRUEBA DE HIPOTESIS:

 Para realizar un análisis de pruebas de hipótesis hay que conocer algunas definiciones
preliminares que debemos conocer:

1. DEFINICIONES PRELIMINARES:

a. HIPÓTESIS: Es una respuesta a priori a un problema.


b. HIPÓTESIS ESTADÍSTICA: En un enunciado acerca del valor de un parámetro
poblacional.
c. PRUEBA DE HIPOTESIS: Es un procedimiento basado en la información muestral
y en la teoría de probabilidad, para determinar si una hipótesis estadística debe ser
aceptada o rechazada.

2. CLASES DE HIPOTESIS:

2.1. HIPOTESIS NULA.


 Se denota por Ho.
 Es una afirmación o enunciado tentativo que se realiza acerca del valor de un
parámetro poblacional.
 Por lo común es una afirmación acerca del parámetro de población cuando toma
un valor específico.

2.2. HIPOTESIS ALTERNATIVA.


 Se denota por H1.
 Es una afirmación o enunciado contraria a la presentada en la hipótesis nula.

3. ERRORES QUE SE COMETEN EN UNA PRUEBA DE HIPOTESIS:

Error Tipo I:

•Se comete este error cuando se rechaza la hipótesis nula, cuando es verdadera.
•Se denota por α = P(Rechazar Ho/Ho es verdadera)

Error Tipo II:

•Se comete este error cuando se acepta la hipótesis, cuando es falsa.


•Se denota por β = P(Aceptar Ho/Ho es falsa)
Decisión
Ho Verdadera Ho Falsa
posible
Aceptar Ho Decisión Error Tipo II
correcta 
Rechazar Ho Error tipo I Decisión Correcta

4. TIPOS DE PRUEBAS DE HIPOTESIS:

A. PRUEBA BILATERAL O PRUEBA DE DOS COLAS

Ho:  = 0 /2 /2


H1:   0

B. PRUEBA UNILATERAL O PRUEBA DE UNA SOLA COLA:

•Prueba de cola inferior o izquierda


Ho:  = 0 
H1:  < 0

•Prueba de cola superior o derecha


Ho:  = 0 
H1:  > 0
5. ETAPAS DE UNA PRUEBA DE HIPOTESIS:

 Plantear la hipótesis nula y alternativa.


 Especificar el nivel de significancia (o confianza) que se va
a utilizar.(Generalmente la plantea el investigador)
 Elegir el estadístico de prueba que debe ser especificado en
términos de un estimador del parámetro a probar.
 Establecer el valor o valores críticos para rechazar o aceptar
Ho. (Se encuentran en la tabla de probabilidades)
 Determinar la Región de Aceptación y de Rechazo, en
función a los valores críticos.
 Tomar la decisión de aceptar o rechazar Ho.
 Dar la conclusión respectiva

6. FORMULAS DE LOS ESTADÍSTICOS DE PRUEBA:

FORMULAS DE LOS ESTADISTICOS DE PRUEBA


I. PRUEBA DE HIPOTESIS PARA EL PROMEDIO POBLACIONAL:
C. Si n es mayor de 30 y la varianza poblacional es conocida:
Estadístico de prueba:

x Z t  Z  / 2 (distribución normal)


Z

n

D. Si n es menor o igual a 30 y la varianza poblacional es desconocida:


Estadístico de prueba:

x
t t t  t (  / 2 , n 1) (distribución t de student)
s
n
II. PRUEBA DE HIPOTESS PARA LA PROPORCION POBLACIONAL
Estadístico de prueba:

pP Zt  Z / 2
Z 
PQ
n

Esta formula es tanto para muestras grandes como para muestras pequeñas.
III. PRUEBA DE HIPOTESIS PARA LA DIFERENCIA DE MEDIAS
C. Si las muestras son de tamaño n1>30 y n2>30 (grandes) y además las varianzas
poblacionales se CONOCEN:
Estadístico de prueba:

( x1  x 2 )  D Zt  Z / 2
Z
1 2

n1 n2

D. Si las muestras son de tamaño n1<30 y n2<30 (pequeñas) y además las varianzas
poblacionales DESCONOCIDAS:
( x  x2 )  D t t  t (  / 2 , n 1) (distribución t de student)
t 1
1 1
Sc 
n1 n 2

Donde :

(n 1  1)s 12  (n 2  1)s 22
sc 
2
, se llama varianza mancomunada
n1  n 2  2
IV. PRUEBA DE HIPOTESIS PARA LA DIFERENCIA DE PROPORCIONES:
B. Si p1 y p2 se determinan a partir de muestras:
( p1  p 2 )  D
Z Zt  Z / 2
p1 q1 p 2 q 2

n1 n2

Esta formula es tanto para muestras grandes como para muestras pequeñas.
7. PRUEBA DE HIPOTESIS CON EXCEL:

Para resolver prueba de hipótesis con EXCEL hay que tener presente lo siguiente. En Excel
solamente se puede evaluar hipótesis de comparación de medias en la cual se puede utilizar
la prueba de T de Student o la prueba Z.
Se utilizara la prueba T de Student cuando la varianza se desconoce y además la muestra es
pequeña (n≤30). Aquí hay que distinguir dos casos:
a. Cuando se supone que la varianza es igual en ambos grupos.
b. Cuando se supone que la varianza es diferente en ambos grupos.

7.1. PRUEBA Z:
Se utilizará la prueba Z cuando la varianza se conoce y cuando la muestra es grande
(n>30).

Seleccionada la opción correspondiente entonces ingresar la información que solicita


cada una de estas pruebas. La pruebas t no necesita como información de entrada las
varianzas, en cambio, la prueba Z si necesita ingresar como información la varianza.
Esto se muestra las siguientes ventanas de trabajo:
PRÁCTICA PRESENCIAL

Instrucción: Utilizando las definiciones anteriores acerca de análisis de regresión y correlación


resolver los siguientes casos:

CASO Nº 01:
Las ganancias en miles de dólares de 10 centros educativos de nuestro medio han producido la
siguiente información:
15.8, 12.7, 13.2 16.9, 10.6, 18.8, 11.1, 14.3, 17.0 y 12.5.
Otro conjunto de centros educativos fueron evaluados también respecto a sus ganancias en miles
dólares, obteniendo los siguientes resultados:
24.9, 23.6, 19.8, 22.1, 20.4, 21.6, 21.8 y 22.5
Realizar una prueba de hipótesis para verificar si las ganancias de este último grupo es superior a
las ganancias de las empresas de nuestro medio. Para probar esta hipótesis utilice un  = 0.05.
Llegaría a la misma conclusión si utiliza  = 0.01.

CASO Nº 02:
JORGE MELENDEZ, Administrador deL BCP está interesado en saber si existe diferencia
significativa entre los tiempos de atención al cliente de los empleados que trabajan en los dos
turnos: mañana y tarde. Al respecto, ayer personalmente registró los tiempos que utilizaron los
empleados para atender a los clientes en ambos turnos y en forma aleatoria. Los tiempos en
minutos que registró fueron los siguientes:
Mañana 2.10 4.10 4.70 3.70 6.00 3.90
Tarde 4.00 4.50 3.70 4.00 4.10 3.45

A la luz de estos resultados, ¿A qué conclusión llegó Jorge Meléndez?. Utilice un nivel de
confianza del 95%.

CASO Nº 03:
Un fabricante de microcircuitos esta interesado en determinar si dos diseños diferentes producen un
flujo de electricidad equivalente. El ingeniero responsable ha obtenido la siguiente información:

Diseño 1 20.3 22.5 23.3 29.1 26.5 22.1 20.8 28.6 23.3 21.5
Diseño 2 23.5 26.5 28.6 21.5 26.4 27.9 26.5 25.5 26.7 28.9

Con =0.01, se desea determinar si existe alguna diferencia significativa en el flujo de electricidad
entre los dos diseños.

CASO Nº 04:
Una compañía desea estudiar el efecto que tiene la pausa para el café, sobre la productividad de
sus obreros. Selecciona 6 obreros y mide su productividad en un día cualquiera (sin pausa para el
café), y luego mide la productividad de los mismos 6 obreros en un día que se concede la pausa
para el café. Las cifras que miden la productividad son las que siguen: Con  = 0,05. ¿A qué
conclusión llegará la compañía?.

TRABAJADO 1 2 3 4 5 6
R
Sin pausa 23 35 29 33 43 32
Con pausa 28 38 29 37 42 30

PRUEBA DE HIPOTESIS

Las hipótesis son afirmaciones o conjeturas respecto al problema planteado. Tales afirmaciones
pueden ser verdaderas o falsas, por lo que se requiere de una comprobación en base a un conjunto
de datos muestrales para determinar si los resultado afirman o contradicen tal suposición
con cierta probabilidad pre establecida.
El procedimiento a seguir en una prueba de hipótesis es :
a) Formular las hipótesis estadísticas .- Se refiere a la formulación de la hipótesis nula ( Ho)
y de la alternativa ( H1)
Ho : No existe diferencia significativa (efecto nulo)

H1 : Si existe diferencia significativa (efecto no nulo).

b) Fijar el nivel de significación (  ) .- Probabilidad de rechazar la hipótesis nula ( Ho)


cuando realmente es cierta.
c) Función pivotal o función de prueba ( estadística de prueba ) .- Es la fórmula asociada a
cada tipo de hipótesis en prueba y nos permite obtener el valor experimental.
d) Valor tabular.- Es un valor obtenido de tablas estadísticas de acuerdo a la distribución
de la estadística de prueba. Generalmente se usa la prueba t, z, 2, F.
e) Decisión .-
- Rechazar Ho si el valor experimental es mayor al valor tabular ( p <  ), (valor
sugerido de  es de 0.05).
- No rechazar Ho si el valor experimental es menor o igual al valor tabular.
(p>)
PRUEBA DE HIPOTESIS PARA LA MEDIA DE UNA SOLA POBLACIÓN

a) Formulación de Hipótesis.

Ho :  = 0
H1 :   0
 : Puntaje promedio poblacional

0 : Puntaje promedio hipotético

b) Nivel de significación o probabilidad de equivocarse (error tipo I)


 = 0,05

c) Estadística de prueba

x  0
t 
DE
n

donde :
1  n 2 2

DE   x i  n x 
(n -1)  i 1 
d) Valor tabular
t tab  t(n-1 
; 1 - 2 )

e) Decisión

Rechazar Ho si p < 0.05 ó p < 0.01

No rechazar Ho si p > 0.05

Criterios de decisión :

Si p < 0.05, Existe diferencia estadísticamente significativa entre el


puntaje promedio real y el valor supuesto.

Si p < 0.01, Existe diferencia altamente significativa entre el puntaje


promedio real y el valor supuesto.

Si p > 0.05, No existe diferencia estadísticamente significativa entre


el puntaje promedio real y el valor supuesto.

Estimación por intervalo de la media poblacional

A) Cuando la varianza de la población (  2 ) es desconocida para un nivel de confianza 1-α,


 pertenece al intervalo:
 S S 
 x  t    x  t
n 
( n 1;1 / 2 ) ( n 1;1 / 2 )
n

B) Cuando la varianza de la población (  2 ) es conocida para un nivel de confianza 1-α, 


pertenece al intervalo:

   
 x  Z    x  Z
n 
(1 / 2 ) (1 / 2 )
n

Ejemplo:

Un empresario está interesado en averiguar si el sueldo de los trabajadores de cierta empresa


es de 420 dólares como el respectivo de la empresa que el regenta. Para realizar tal
averiguación se seleccionó una muestra aleatoria de 20 de los sueldos de dichos trabajadores
y se encontró un sueldo promedio de 430 dólares con una desviación estándar de 100 dólares.
¿Existe evidencia suficiente para afirmar que el sueldo promedio es de 420 dólares?

a) Formulación de Ho y Ha .

Ho :  = 420

Ha :   420

b)  = 0.05

c) Estadística de prueba
-
x  420
t   t (19)
S
n
430  420
t   0.45 , p  0.657
100
20
e) Decisión

Como p > 0.05 se rechaza la hipótesis nula, por tanto existe evidencia suficiente para poder
afirmar que el sueldo promedio es diferente de 420 dólares.

Ejercicio:
Calcular el intervalo de estimación del verdadero sueldo promedio, con un nivel de confianza
del 95%.

PRUEBA DE HIPÓTESIS PARA LA COMPARACIÓN DE VARIANZAS DE DOS


POBLACIONES (  12 y  22 )

a) Formulación de Hipótesis.

Ho :  12 =  22

H1 :  12   22
b) Nivel de significación :

 = 0,05

c) Estadística de prueba

S12
F0  2  F( n1 1;n2 1)
S2

2 2
donde S1 es mayor que S 2 .

d) Valor tabular

Ftab  F( n1 1;n2 1)


donde (n1 - 1) son los grados de libertad del numerador y (n2 – 1) son los grados de
libertad del denominador.

e) Decisión

Rechazar Ho si p < 0.05 ó p< 0.01

No rechazar Ho si p > 0.05

PRUEBA DE HIPOTESIS PARA LA DIFERENCIA ENTRE LAS MEDIAS DE DOS


POBLACIONES INDEPENDIENTES

a) Formulación de Hipótesis.

Ho : 1 = 2
H1 : 1  2

1 : Puntaje promedio del grupo 1

2 : Puntaje promedio del grupo 2

b) Nivel de significación o probabilidad de equivocarse (error tipo I)


 = 0,05

c) Estadística de prueba
x 1  x 2
t 
 
 1 1 
(DE) 2   
 n1 n
2 
 

donde :
(n 1 - 1)S1  (n 2 - 1 )S2
2 2
( DE ) 
2

n 1  n2 - 2

d) Valor de p
p: Es la probabilidad que hay del valor t calculado hacia la derecha

e) Decisión
Rechazar Ho si p < 0.05 ó p < 0.01

No rechazar Ho si ( p > 0.05 )

Criterios de decisión:

Si p < 0.05, Existe diferencia estadísticamente significativa entre los


puntajes promedio de los 2 grupos de estudio.

Si p < 0.01, Existe diferencia estadística altamente significativa


entre los puntajes promedio de los 2 grupos de
estudio
Si p > 0.05, No existe diferencia estadísticamente significativa entre
los puntajes promedio de los 2 grupos de estudio

NOTA: Cuando se va a realizar una prueba de comparación de dos promedios y las


varianzas son desconocidas, primero se debe probar si las varianzas son iguales u
homogéneas usando la prueba de comparación de varianzas.

Ejemplo
Treinta empleados de una gran empresa fueron distribuidos en dos grupos iguales a dos
diferentes programas de capacitación industrial. El grupo I fue capacitado con el Método
A, que consiste en adiestrarlos directamente en la maquinaria y el grupo II con el Método
B, con la atención personal de un instructor. Los puntajes obtenidos después de la
capacitación en una prueba apropiada fueron:
Método A Método B

Media ( x ) 78 70

Desviació estándar (S) 6 4

N 15 15

¿ Proporcionan estos datos evidencia suficiente que el método A es diferente que el


método B?.
Solución
a) Formulación de Hipótesis.

Ho : 1 = 2
H1 : 1  2

c) Nivel de significación :
 = 0,05

c) Estadística de prueba

78 - 70 = 4,30
t0 
 1 1 
(26) 
 
 15 15 

(15 - 1)62  (15 - 1)42


( DE )2  = 26
15  15 - 2

d) Valor de p

p = 0.0002

e) Decisión

Como p < 0.01, se rechaza Ho. Por tanto existe diferencia estadísticamente
significativa en los dos métodos de capacitación.
PRUEBA DE HIPOTESIS PARA LA DIFERENCIA ENTRE LAS MEDIAS DE DOS
POBLACIONES CORRELACIONADAS

Debe usarse cuando se desea comparar 2 tratamientos y las unidades en estudio son heterogéneas
pero es factible conformar parejas homogéneas o gemelas, Ejm. Cuando se desea comparar :
- 2 tipos de cueros de zapatos en diferentes individuos.
- 2 tipos de fungicidas en diferentes individuos.
- 2 marcas de termómetros en diferentes ambientes.
- 2 instrumentos para medir corrosión en diferentes superficies.
- Efectividad de una técnica de ventas (antes y después de la aplicación de la técnica ).
- 2 tipos de alimentación en cerdos de diferentes camadas.
- 2 variedades de maíz en diferentes localidades.

Prueba de hipótesis :

a) Hipótesis estadísticas

Ho : 1 = 2

H1 :  1 ≠  2

b) Nivel de significación
 = 0.05

c) Prueba

d n di  X1i  X2i
tc  ,
Sd
n
 di
d  i 1
n
n
 (d i  d)
2

Sd2  i 1
n -1

d) Valor de p

e) Decisión

Rechazar Ho si p < 0.05 ó p < 0.01

No rechazar Ho si ( p > 0.05 )

Criterios de decisión :

Si p < 0.05, Existe diferencia estadísticamente significativa entre los


puntajes promedio de los 2 grupos de estudio.

Si p < 0.01, Existe diferencia estadística altamente significativa


entre los puntajes promedio de los 2 grupos de
estudio
Si p > 0.05, No existe diferencia estadísticamente significativa entre
los puntajes promedio de los 2 grupos de estudio
.
Ejemplo:

Se llevó a cabo un experimento para probar el efecto de dos medicamentos distintos sobre el
tiempo de coagulación de la sangre (en minutos). Se extrajeron muestras de sangre de 10 personas
y se dividieron igualmente en dos partes que se asignaron al azar a uno de los dos medicamentos.
Los resultados fueron los siguientes:

Persona X1 X2 Dif.
1 1.5 1.6 -0.1
2 1.4 1.4 0.0
3 1.8 1.6 0.2
4 1.3 1.2 0.1
5 2.0 2.1 -0.1
6 1.1 1.0 0.1
7 1.5 1.6 -0.1
8 1.5 1.5 0.0
9 1.2 1.0 0.2
10 1.5 1.6 -0.1

¿Proporciona evidencia de diferencia entre el efecto de ambos medicamentos sobre el tiempo de


coagulación de la sangre. Use α=0.05?

Solución

a) Hipótesis

H0 : 1 = 2 ó H0 : d = 0

H1 : 1  2 H1 : d  0

b)  = 0,05
c) Prueba
d 0,0220
t  
S 0,12273/ 10
d
0,0220
  0.567
0,03881

d) Valor tabular

t = t (9; 0.975) = 2,26 p = 0.5846

e) Decisión

No se puede rechazar H0 puesto que p > 0.05

donde :

d = X1 - X2

d = 0,022

S2 = 0,12273

n = 10

 No existe diferencia estadísticamente significativa entre el efecto de los dos medicamentos en el


tiempo de coagulación de la sangre.

Ejercicio:

En un experimento con 18 pollos agrupados en parejas sumamente homogéneas de un día de


nacidos se probaron 2 hormonas sexuales, la hormona A y la hormona B. Los efectos se estimaron
pesando las crestas después de 9días. Los resultados se dan a continuación
A 57 120 101 137 119 117 104 73 53

B 89 60 82 50 39 22 57 32 96

a) Produce la hipótesis conveniente. Use =0.05


b) Justifique el método empleado e interprete sus resultados.

Sesión 12: Intervalos de confianza para la Proporción y Diferencia de Proporciones


Prueba de hipótesis respecto a una Proporción y Diferencia de Proporciones.

PRUEBA DE HIPOTESIS PARA LA PROPORCIÓN (DE ÉXITOS) DE UNA SOLA


POBLACIÓN

a) Formulación de Hipótesis.
Ho : P = P0
H1 : P  P0

b) Nivel de significación :  = 0,05

c) Estadística de prueba

p - P0
Z   Normal ( 0 , 1)
P Q
0 0
n

donde :

Q0 = 1- P0

p : Proporción muestral de éxitos

d) Valor tabular

Ztab  Z1 - 
2
e) Decisión

Rechazar Ho si Z > Z tab

No rechazar Ho si Z  Z tab

Estimación por intervalo de la proporción poblacional

 pq pq 
 p  Z1 / 2  P  p  Z1 / 2  , con un nivel de confianza (1 –α)
 n n 

Ejercicio:

Se afirma que el nivel de desempleo en una ciudad es del 8%, para confirmar tal versión se

seleccionó una muestra aleatoria del 80 personas y se encontró 9 personas desempleadas.

a) ¿Qué se puede concluir acerca de la afirmación? Use un nivel de error del 5%.

b) Estime mediante un intervalo del 95% de confianza la verdadera proporción de desempleo

en la ciudad en referencia.

PRUEBA DE HIPOTESIS PARA LA DIFERENCIA ENTRE LAS PROPORCIONES DE


DOS POBLACIONES

a) Formulación de Hipótesis.
Ho : P1 = P2
H1 : P1  P2

b) Nivel de significación :  = 0,05

c) Estadística de prueba
p1 - p 2
Z   Normal ( 0 , 1)
 
 1 1 
pq  
 n1 n2 

n1 p1  n 2 p 2
p 
n1  n 2

d) Valor p

e) Decisión

Rechazar Ho si p < 0.05 ó p<0.01

No rechazar Ho si p > 0.05

Ejemplo

Una firma distribuye dos marcas de detergente. En una encuesta se encuentra que 56 de 200
amas de casa prefieren el detergente de la marca A y que 29 de 150 amas de casa prefieren
la marca B. ¿ Se puede concluir al nivel de significación del 5% que la marca A tiene mayor
preferencia que la marca B?

Solución

a) Formulación de Hipótesis.

Ho : P1 = P2
H1 : P1 > P2

P1 : Proporción de amas de casa que prefieren la marca A


P2 : Proporción de amas de casa que prefieren la marca B

b)  = 0,05
c) Estadística de prueba

0,28 - 0,19
Z   1.87
 1 1 
(0,243)(0, 757) 
 
 200 150 

56  29
p  , q = 1-p
200  150

= 0,243

d) Valor de p

p = 0.031

e) Decisión

Como p<0.05, se rechaza la hipótesis nula, por tanto la marca A tiene mayor preferencia que
la marca B.

Los intervalos de confianza que se utilizan con mayor frecuencia son los de 90, 95, y 99%.
PROPORCIONES SELECCIONADAS DE ÁREAS
BAJO LA CURVA NORMAL.

Z (nº de unidades de Proporción Áreas en el


desde la media Intervalo

1.645 0.90
1.96 0.95
2.58 0.99
EMEPLO Nº 1

Suponga que se sabe que la desviación estándar de la vida útil de los lentes de una marca
especifica de microscopios es σ = 500 horas, pero no se conoce el promedio de vida útil en
términos generales, se supone que la vida útil de los lentes tiene una distribución
aproximadamente normal. Para una muestra de n = 15, la vida útil promedio es de X = 8900 horas.
Construya intervalos de confianza para estimar la media de la población.
a) con el 95%

b) con el 90% de confianza.

En este caso puede utilizarse la distribución normal porque la población tiene una distribución
normal y se conoce σ. .
Solución.
a.- datos
 500 500
x = 8900 hrs. n = 15 σ = 500 σx =    129.20
n 15 3.87

  
x z σx = 8900 1.96 * 129.20 = 8900 253.23 Intervalo 8647 a 9153 hrs

 
b.- 8900 1.645 (129.20) = 8900 212.53 Intervalo 8687 a 9113 hrs.

EJEMPLO Nº 2

Con relación al ejemplo anterior, suponga que no puede asumirse que la vida útil de la población
de los lentes tiene una distribución normal. Sin embargo, la media muestral X = 8900 hrs se basa
en una muestra de n = 35. Construya un intervalo de confianza del 95 % para estimar la media
de la población.

En este caso, puede utilizarse la distribución normal de probabilidad utilizando el Teorema del
Límite Central, que señala que cuando n ≥ 30 puede asumirse que la distribución muestral tiene
una distribución normal, aun cuando no tenga distribución normal.
Solución.

  500 
X Z σx = 8900 1.96 * = 8900 165.5 Intervalo 8735 a 9066 hrs.
35

EJEMPLO Nº 3

Con relación al ejemplo nº 2, suponga que puede asumirse que la población tiene distribución,
pero que se desconoce la desviación estándar de la población, más bien, se sabe que la desviación
estándar muestral es S = 500 y X = 8900. Estime la media de la población utilizando un intervalo
de confianza del 90%.
Solución.
La distribución es normal.
El límite central.

  500 
X Z Sx 8900 1.645 * 8900 1.645 * 84.46
35

Intervalo 8761 a 9039

DETERMINACIÓN DEL TAMAÑO DE MUESTRA NECESARIO PARA ESTIMAR


LA MEDIA.
z
n=[ ]²
E
Z = Al valor que se utiliza para el grado de confianza.

σ = La desviación estándar de la población ( o un estimador )

E = Es un factor de error “mas o menos” que se permite en el intervalo.

Nota : Cuando se determina el tamaño de la muestra, cualquier resultado fraccionario siempre


se redondea hacia arriba. Además, si el tamaño de la muestra que se calcula está por debajo de
30, se debe incrementar a esta cantidad, por que la formula se basa en el uso de la distribución
normal.

LA DISTRIBUCIÓN t DE STUDENT Y LOS INTERVALOS DE CONFIANZA PARA


LA MEDIA.

En los ejemplos anteriores se señalo que el uso de la distribución normal en la estimación de una
media poblacional es válida para cualquier muestra grande ( n ≥ 30 ), y para una muestra pequeña
( n < 30 ) sólo si la población tiene distribución y se conoce . Ahora, se revisa el caso en el
que la muestra es pequeña y la población tiene una distribución normal pero se desconoce σ. :
Formula.

x  ttabla; gl  n 1  sx

EJEMPLO Nº 5

La vida útil promedio de una muestra aleatoria de n = 10 focos es X = 4000 horas, con una
desviación estándar muestral S = 200 horas. Se supone que la vida útil de los focos tiene una
distribución aproximadamente normal. Estimar la vida útil promedio de la población de los focos
de la cual se tomó la muestra, utilizando un intervalo de confianza del 95%
Solución.

200 200
4000 ± 2.262 · = 4000 ± 2.262 · = 4000 ± 143.16
10 3.16

Limite inferior 4000 - 143.16 = 3857 horas Limite superior = 4000 + 143.16 = 4143 horas
INTERVALOS DE CONFIANZA PARA LA DIFERENCIA ENTRE DOS MEDIAS
POBLACIONALES.

Con frecuencia es necesario estimar la diferencia entre dos medias poblacionales, tal como la
diferencia entre los niveles de sueldos en dos empresas.

Formula.

Si se conoce las desviaciones estándar poblacionales (  1 y  2 ).

x 
1  x 2  z tabla 
 12
n1

 22
n2
→ Error estándar de la diferencia entre dos medias,

suponiendo que resulta apropiado el uso de la distribución normal.


Donde:

n1 : es el tamaño de la muestra tomada de la población 1

n1 : es el tamaño de la muestra tomada de la población 2

x1 : es la media de la muestra tomada de la población 1

x 2 : es la media de la muestra tomada de la población 2

 1 : es la desviación estándar de la población 1

 2 : es la desviación estándar de la población 2


N es el tamaño de la población

z tabla : es el valor z de la tabla N(0,1)

Cuando no se conocen las desviaciones estándar de las poblaciones, el error estándar de la


diferencia entre las dos medias, suponiendo que resulta apropiado el uso de la distribución
normal.
x 
1  x 2  z tabla 
s12 s 22

n1 n2

S1 = es la desviación estándar de la muestra 1

S2 = es la desviación estándar de la muestra 2

Nota: Se debe utilizar los factores de corrección por población finita cuando sea apropiado.

EJEMPLO Nº 6

El salario diario promedio para una muestra de n = 30 de un laboratorio farmacéutico grande es


X = $ 28000 con una desviación estándar de S = $ 1400. En otro laboratorio grande, una muestra
aleatoria de n = 40 empleados tiene un salario promedio diario de $ 27000, con una desviación
estándar muestral de S = $ 1000. Determinar un intervalo de confianza del 99% para estimar la
diferencia entre los niveles diarios de salarios en las empresas.
Solución.

(1400) 2 (1000) 2
28000 – 27000 ± 2.575 
30 40
2800 – 27000 ± 2.575 · 300.55

$ 1000 ± 773.92

$ 226.08 a $ 1773.92 $ 226 a $ 1774

Se puede afirmarse que el salario diario promedio del primer laboratorio es mayor que el
correspondiente al segundo, en una cantidad que va de $ 226 a $ 1774, con una confianza del
99% en esa estimación por intervalos.
LA DIFERENCIA t STUDENT Y LOS INTERVALOS DE CONFIANZA PARA LA
DIFERENCIA ENTRE LAS MEDIAS DE DOS POBLACIONES.

Resulta necesario utilizar la distribución t student cuando:

1.- No se conocen las desviaciones estándar σ de las poblaciones.

2.- Las muestras son pequeñas ( n < 30 ). Si las muestras son grandes, entonces es posible
aproximar los valores t mediante la distribución normal estándar Z.

3.- Se supone que las poblaciones tienen distribuciones aproximadamente normales (debe
observarse que no se puede aplicarse el Teorema del Límite Central cuando se trata de muestras
pequeñas.
Sin embargo, cuando se utiliza la distribución t para definir los intervalos de confianza para la
diferencia entre dos medias, en vez de hacerlo para una sola, se requiere de una suposición
adicional.
4.- Las varianzas de las dos poblaciones (que se desconocen ) son iguales, σ1 = σ2.

Donde las varianzas poblacionales, si bien son desconocidas, se considera que son iguales, s c2
representa entonces la varianza común y se calcula:

sc2 
n1  1  s12  n2  1  s22
n1  n2  2

x1 
 x 2  tgltabla 
s12
n1
s2
 2
n2
Donde gl = n1 + n2, = 2
Ejemplo Nº 7
La vida útil promedio de una muestra aleatoria de n1 = 10 focos es X = 4600 hrs, con S1 = 250
horas. Para otra marca de focos, la vida útil promedio y la desviación para una muestra de n2 = 8
focos son X = 4000 hrs y S2 = 200 hrs. Se asume que la vida útil de los focos de ambas marcas
tienen una distribución normal. Determinar el intervalo de confianza del 90% para estimar la
diferencia entre las vidas útiles promedio de las dos marcas de focos.

Solución

x1 
 x2 = 4600 – 4000 = 600

t gl = 10 + 8 = 18 – 2 = 16 1. 746

sc2 
n1  1  s12  n2  1  s22 =
9(250) 2  7(200) 2
 52656.25
n1  n2  2 10  8  2

s12 s2 52656.25 52656.25


 2 =   108.847
n1 n2 10 8

x1 
 x 2  tgltabla 
s12
n1
s2
 2
n2
= 600 ± 1.746 ( 108.847 ) = 410 a 790 horas

Puede afirmarse con una confianza del 90% que la primera marca de focos tiene una vida útil
promedio mayor que la segunda, en una cantidad de 410 y 790 hrs.
INTERVALOS DE CONFIANZA PARA LA PROPORCIÓN UTILIZANDO LA
DISTRIBUCIÓN NORMAL.

Cuando se desconoce la proporción de la población ( π ), la mayor parte de los especialistas en


estadística sugieren que se tome una muestra de n  100. Debe observarse que, en el contexto de
la estimación estadística, no se conoce π sino que se estima mediante P.
Formulas.

Pˆ  ztabla  sPˆ
Donde:
:
 pˆ  1  pˆ 

 n
 pˆ  1  pˆ  N  n
s Pˆ    ;
 n N  1

 Si la población es finita o el muestreo es sin reemplazo


n: es el tamaño de la muestra

p̂ : es la proporción de la muestra

N es el tamaño de la población

z tabla : es el valor z de la tabla N(0,1)

Ejemplo Nº 8

Una empresa de investigación de mercados entrevista a una muestra aleatoria de 100 hombres de
una comunidad grande y encuentra que una proporción muestral de 0,40 de ellos prefieren
maquinas de afeitar fabricadas por la empresa cliente de los investigadores, y no las demás
marcas. Determinar el intervalo de confianza del 95% para la proporción de todos los hombres en
esa comunidad que prefieren las maquinas de afeitar de la empresa cliente de los investigadores.
Solución

Pˆ  ztabla  sPˆ

s Pˆ = (0.40)(0.60) 0.24
  0.0024 ~ 0.05
100 100

0.40 ± 1.96 (0.05)

0.40 ± 0.098 = 0.40 ± 0.10 = 0.30 a 0.50

Por lo tanto, puede estimarse con una confianza del 95% que la proporción de hombres de esa
comunidad que prefieren las maquinas de afeitar de la empresa está entre 0.30 y 0.50.

INTERVALOS DE CONFIANZA PARA LA DIFERENCIA ENTRE DOS


PROPORCIONES POBALCIONALES.

Para estimar la diferencia entre dos proporciones de dos poblaciones, el estimador puntual
sesgado de (π1 – π2) es (P1 – P2). El intervalo de confianza implica utilizar el error estándar de
la diferencia entre las proporciones. El uso de la distribución normal se basa en las mismas
condiciones que para la distribución muestral de la proporción, excepto que se trata de dos
muestras y se aplican los requerimientos para cada una de ellas. El intervalo de confianza para
estimar la diferencia entre las proporciones de dos poblaciones es:
Formula.

Pˆ1  Qˆ1 Pˆ2  Qˆ 2


 pˆ 1  pˆ 2   ztabla  
n1 n2
Donde:

n1 : es el tamaño de la muestra tomada de la población 1

n1 : es el tamaño de la muestra tomada de la población 2

P̂1 : es la proporción en la muestra tomada de la población 1; Qˆ 1  1  Pˆ1

P̂2 : es la proporción en la muestra tomada de la población 1; Qˆ 2  1  Pˆ2

N es el tamaño de la población

z tabla : es el valor z de la tabla N(0,1)

EJEMPLO Nº 9
En el ejemplo anterior se reporto que una proporción de 0.40 hombres de una muestra aleatoria
de 100 tomada de una comunidad grande, manifestó preferir las hojas de afeitar de la empresa
cliente de los investigadores y no de las demás marcas. En otra comunidad grande, 60 hombres
de una muestra aleatoria de 200 prefirieron las máquinas de afeitar de la empresa cliente.
Determinar el intervalo de confianza del 90% para la proporción de hombres de las dos
comunidades que prefirieron las maquinas de afeitar de la empresa cliente.
Solución

 pˆ 1  pˆ 2  = 0.40 – 0.30 = 0.10

Z = 1.645

Qˆ 1  1  Pˆ1 = 1 – 0.40 = 0.60 Qˆ 2  1  Pˆ2 = 1 – 0.30 = 0.70

Pˆ1  Qˆ1 Pˆ2  Qˆ 2 (0.40)(0.60) (0.30)(0.70)


 =   0.0024  0.00105  0.00345  0.059
n1 n2 100 200

0.10 ± 1.645(0.059)
0.10 ± 0.097 = 0.003 a 0.197
EJERCICIOS DE INTERVALOS

1. De un lote de 3.500 pilas se probaron 98 al azar. La vida promedio en esa muestra resultó ser
de 3,5 horas con una desviación estándar de 0,9 horas. Construya un intervalo de confianza
del 99% para la vida media del lote de pilas (suponer normalidad en la población).

2. Una muestra aleatoria de empleados de un grupo numeroso perteneciente a una empresa,


entregó las siguientes calificaciones en un examen de aptitud: 63; 72; 56; 65; 66; 74; 57; 59;
63. Construya un intervalo de confianza del 95% para estimar la calificación promedio de
todos los trabajadores de la empresa, suponiendo normalidad en la población.

3. Se desea medir la diferencia en ventas entre dos tipos de empleados en la actividad de seguros,
unos con titulo profesional y otros de personas con estudios medios. Se toma una muestra de
41 empleados entre los primeros y la media de las ventas resulta ser 32($ miles), en tanto que
la media de una muestra de 30 empleados con sólo estudios medios es de 25. Se encontró
también que la varianza en la primera muestra es de 48 y en la segunda de 56. Determine el
intervalo de confianza del 95% para estimar la diferencia en las ventas medias de los dos tipos
de vendedores. (suponer normalidad).

4. Se desea estimar la diferencia ente los salarios semanales promedios de empleados y obreros.
Se toman dos muestras independientes de 61 personas cada una obteniéndose:
Empleados Obreros
Media $150.000 $100.000
Varianza 100.000 81.000

Construya un intervalo del 95% de confianza para estimar la diferencia de medias (suponer
normalidad).

5. Una pequeña empresa compró un lote grande de piezas electrónicas a una firma. En una
muestra aleatoria de 50 piezas se comprobó que 5 eran defectuosas. Estime la proporción de
piezas defectuosas de todo el lote, empleando un intervalo de 95% de confianza.

6. En una muestra aleatoria de 100 posibles clientes se encontró que 30 dicen que prefieren cierto
producto. Estimar el verdadero % de todos los posibles clientes que prefieren el producto,
usando un intervalo de 95% de confianza.
7. En dos ciudades se tomaron muestras de automóviles, cada una de 100 automóviles. En una
ciudad 72 automóviles pasaron con éxito la prueba de seguridad, en la otra solamente lo
hicieron 66. Construya un intervalo de 95% de confianza para estimar la diferencia de
proporciones de autos seguros en las dos ciudades.

8. Se desea hacer una encuesta para estimar el porcentaje de personas mayores de edad, de una
ciudad, que están a favor de cierto proyecto de ley. ¿Cuál debe ser el tamaño de la muestra, si
se desea un nivel de confianza del 95% y un error máximo de estimación de 4%?

9. Se desea estimar el gasto medio en movilización de los alumnos de cierta Universidad que
tiene 5.000 alumnos. ¿Cuál es el tamaño de muestra necesario, si se desea un nivel de
confianza del 95%, un error máximo de ±$2.000, y se sabe por estudios anteriores que la
desviación estándar es de $15.000?

PRUEBAS DE HIPOTESIS: CON SPSS (USE LA DATA 03)


A. PRUEBA T DE STUDENT: Esta prueba se utiliza en tres situaciones:

 Para comprobar si una muestra pertenece a una población con cierta media,
 Para realizar la prueba de diferencia de medias para muestras independientes y
 Para realizar la prueba de diferencia de medias para muestras relacionadas.

En el primer caso se compara la media de una muestra con una media poblacional, en el
segundo caso se comparan las medias de dos grupos de sujetos diferentes y en el tercero se
comparan las medias de dos variables pero generados por un mismo grupo.

Para la realización del presente análisis se tendrá en cuenta la base de datos Data_03.sav, la
cual contiene 05 variables en estudio que son las siguientes:

X1: MES DE TRABAJO


X2: ESTADO CIVIL
X3: GRADO DE INSTRUCCIÓN
X4: NUMERO DE GESTAS
X5: CONTROL PRE NATAL
X6: HEMOGLOBINA
X7: EDAD DE LA MADRE
X8: TALLA DE LA MADRE
X9: PESO DEL RECIEN NACIDO

Para esta base datos obtener las diferentes medidas estadísticas, como rango, Vmin, Vmax,
Promedio y Varianza. Solamente como información preliminar y en base a esto realizar el
presente análisis.

1. COMPARACION DE UNA MUESTRA CON UNA POBLACIÓN: (Ho:μ = µo)


Ejercicio:
a. Utilizando la base de datos Data_02.sav, verificar si la muestra (respecto a la variable peso
del recién nacido) proviene de una población cuyo peso promedio es de 3,50 Klg.
Solución:
Elegir Analizar \ Comparar medias \ Prueba T para una muestra \….se obtienen las
siguientes ventana de trabajo:

Luego presionar OK, y se obtienen los siguientes resultados:

Prueba para una muestra

Valor de prueba = 3.5


95% Intervalo de
confianza para la
Diferencia diferencia
t gl Sig. (bilateral) de medias Inferior Superior
peso del recien nacido -5. 412 84 .000 -.21082 -.2883 -.1334

Dentro de los resultados tenemos el valor de t =-5.412 y su valor p=0.00 < 0.05
Entonces podemos decidir que se rechaza la hipótesis Ho: µ=3.5 y se acepta H1.
La conclusión es que la muestra proviene de una población cuyo promedio es diferente de
3.5.

Ejercicio:
a. Probar si la muestra de estudio proviene de una población cuyo nivel de hemoglobina
promedio es igual a 14.
b. Probar si la muestra en estudio proviene de una población cuya edad promedio de la madre
es igual a 20 años.

EJERCICIO DE APLICACIÓN:
Un ingeniero esta interesado en probar si el instrumento que mide el pH esta sesgada. Se
reúnen datos de una sustancia neutral (pH=7.0). Se toma una muestra de las mediciones y los
datos son los siguientes:
7.07 7.00 7.10 6.97 7.00 7.03 7.01 7.01 6.98 7.08
Probar si el medidor presenta sesgo.

2. DIFERENCIA DE MEDIAS PARA MUESTRAS INDEPENDIENTES:


Esta segunda forma sirve para realizar pruebas de hipótesis para muestras independientes es
decir, aquellas muestras que no tienen ningún tipo de relación que y que en forma
independiente se obtiene su información.
Ejercicio:
a. Verificar si existe diferencias entre los niveles de hemoglobina en las mujeres casadas y
solteras
Solución:
Elegir Analizar \ Comparar medias \ Prueba T para muestras independientes \ …. se obtienen
las siguientes ventana de trabajo:
Los resultados obtenidos son los siguientes:
Prueba de muestras inde pendie nte s

Prueba de Levene
para la igualdad de
varianz as Prueba T para la igualdad de medias
95% Intervalo de
confianza para la
Diferencia Error t íp. de diferencia
F Sig. t gl Sig. (bilateral) de medias la diferenc ia Inferior Superior
Hemoglobina Se han as umido
1.809 .190 -.294 27 .771 -.09783 .33283 -.78073 .58508
varianz as iguales
No se han asumido
-.232 6.216 .824 -.09783 .42247 -1. 12295 .92729
varianz as iguales

1º: PRUEBA DE LEVENE:


Primeramente los resultados obtenidos en esta prueba de hipótesis es La Prueba de
Levene que sirve para probar las siguientes hipótesis:
Ho: Las varianzas son iguales en ambos grupos.
H1: Las varianzas son diferentes
Al evaluar el valor la significancia (p=0.190>0.05) resulta que la prueba es NO
significativa, por lo tanto, aceptamos la Hipótesis Nula Ho.
Es decir, concluimos que las varianzas en ambos grupos son iguales.

2º. LA PRUEBA DE HIPOTESIS


La hipótesis planteada en la segunda parte es
Ho: µ1 = µ2 , frente a la alternativa
H1: µ1 ≠ µ2.
Al verificar su significancia (p=0.771>0.05) resulta que la prueba es NO significativa por
lo que debemos aceptar Ho.
Es decir, concluimos que los niveles de hemoglobina en el grupo soltera y casada son
iguales.

EJERCICIO DE APLICACIÓN:
a. Una compañía química realiza una evaluación de su proceso productivo para lo cual
compara dos marcas de aceite. Los ingenieros químicos de la empresa, toman muestras
para ambas marcas de aceite y hacen las mediciones acerca de la viscosidad. Según la
información muestral las viscosidades de ambas marcas de aceite son iguales?

Marca A Marca B

0.56 0.56
0.48 0.59
0.56 0.56
0.49 0.58
0.48 0.58
0.45 0.64
0.48 0.48
0.49 0.50
0.56 0.51
0.50 0.50

Señale Ud.
a. Cuales son las hipótesis.
b. Cual es el valor de t
c. Cual es e valor de p
d. Cual es la decisión
1

3. DIFERENCIA DE MEDIAS PARA MUESTRAS RELACIONADAS:


Este caso de prueba de hipótesis en muy interesante porque se compara la información
respecto a una misma variable pero en tiempos o etapas diferentes, medidas en la misma
persona (personas pareadas).
Ejercicio:
a. Un ingeniero agrónomo quiere saber el contenido promedio de sacarosa en una
concentración dada de zumo de remolacha. Hay dos métodos de medición y el
investigador desea descubrir si ambos dan el mismo peso promedio. Se seleccionan
aleatoriamente 10 frascos de zumo de remolacha. Ambos son evaluados por el
Método A y por el Método B. La información que se tiene es la siguiente:

Método A Método B

11.00 11.10
5.00 9.70
9.80 5.30
5.70 6.70
6.70 8.50
8.20 5.60
5.90 7.10
6.10 5.10

Probar si ambos métodos de medición producen las misma concentración promedio?


Solución:
Elegir Analizar \ Comparar medias \ Prueba T para muestras relacionadas \ …….se
obtienen las siguientes ventana de trabajo:

Los resultados que se obtienen son los siguientes:

José Antonio Boza Rosario 2016


2

Estadísticos de muestras relacionadas

Desviación Error típ. de


Media N típ. la media
Par 1 VAR00001 7.3000 8 2.15008 .76017
VAR00002 7.3875 8 2.19443 .77585

Corre laci one s de muestras rela cionada s

N Correlación Sig.
Par 1 VAR00001 y VAR00002 8 .157 .711

Prueba de muestras relacionadas

Diferencias relacionadas
95% Intervalo de
confianza para la
Desviación Error típ. de diferencia
Media típ. la media Inferior Superior t gl Sig. (bilateral)
Par 1 VAR00001 - VAR00002 -.08750 2.82157 .99758 -2.44639 2.27139 -.088 7 .933

Analizando estos resultados podemos señalar que en el primer cuadro aparecen


indicadores estadísticos para cada método. Luego aparece el coeficiente de correlación
y finalmente aparece la prueba t de student para muestra pareadas donde el valor de la
significancia (p=0.933>0.05) por lo que resulta que la prueba es NO significativa, es
decir, aceptamos la hipótesis nula Ho.
La conclusión es que los métodos han producido las mismas mediciones.

EJERCICIO DE APLICACION:
a. Deseamos comparar dos productos químicos 1 y 2 que se aplican a telas para hacerlas
mas resistentes a las arrugas. Seleccionamos 6 telas diferentes y cortamos en dos
para aplicar el producto químico. Luego sumergimos las piezas de tela en agua
caliente durante 6 horas y medimos el arrugamiento de cada pieza y obtenemos los
siguientes datos:

Producto 1 Producto 2

José Antonio Boza Rosario 2016


3

4.20 1.60
1.70 1.30
1.00 0.50
3.70 1.50
2.10 1.30

Probar si el producto químico 2 hace a las telas más resistentes a las arrugas que el
producto químico 1?

Solución:
Aplique sus conocimientos aprendidos en el curso.

Sesión 13: Pruebas no Paramétricas I: Prueba de Independencia de criterios Chi-


Cuadrada .U Mann – Whitney Para datos independientes.

PRUEBA DE HIPÒTESIS SOBRE COMPARACIÓN DE t PROPORCIONES.-


VARIABLES CUALITATIVAS

PRUEBA JI CUADRADO DE PEARSON

Uno de los usos más frecuentes de la distribución ji-cuadrado es probar la hipótesis


nula de que dos criterios de clasificación, son independientes. Se dice que dos criterios
de clasificación son independientes si la distribución de uno no se ve afectada por la
distribución del otro.
Para realizar el análisis de los datos o frecuencias conjuntas (Oij) los datos deben
disponerse en una tabla de contingencia, de acuerdo a dos criterios.

Criterio 1

Criterio 2 1 2 ... c ni.


1 O11 O12 ... O1c n1.
2 O21 O22 ... O2c n2.

R Or1 Or2 ... Orc nr.

José Antonio Boza Rosario 2016


4

n. j n.1 n. 2 ... n.c n

El procedimiento de la prueba es el siguiente:


a) Hipótesis
Ho : Ambos criterios de clasificación son independientes
H1 : Ambos criterios de clasificación no son independientes
b) Nivel de significación :  = 0,05
c) Función pivotal

 (Oij - Eij )2
2 
Eij
n i. x n . j
E ij 
n i.
Oij : Frecuencia observada
Eij : Frecuencia esperada
b) d) Valor tabular

c)  tab
2
  (2r 1)(c1) ; 1-
d)
e) Decisión

Rechazar Ho si 2   tab
2
, ( p < 0.05 ó p < 0.01)

No rechazar Ho si  2
  2
tab , ( p > 0.05)

Esto es :

Si p < 0.05 Existe relación estadísticamente significativa entre las


variables en estudio.
Si p < 0.01 Existe relación altamente significativa entre las variables en
estudio.
Si p > 0.05 No existe relación estadísticamente significativa entre las
variables en estudio.

José Antonio Boza Rosario 2016


5

Ejemplo :
Suponga que un grupo de investigadores, estudiando la relación entre el tipo
sanguíneo y la severidad de la HIE en una población, reunió datos de 1500 gestantes,
que se presentan en la siguiente tabla de contingencia :

GRUPO SANGUINEO

GRADO DE A B AB O TOTAL
AFECCIÓN
Ninguno 543 211 90 476 1320
Moderado 44 22 8 31 105
Severo 28 9 7 31 75

TOTAL 615 242 105 538 1500

Oij 543 44 28 211 ... 31 1500


Eij 541,13 43,05 30,75 212,96 ... 26,90 1500

a) Ho : Ambos criterios de clasificación son independientes


H1 : Ambos criterios de clasificación no son independientes

b)  = 0,05
c) Función de prueba

(543 - 541,20) 2 (44 - 43,05) 2 (31 - 26,90) 2


2    ...   5,12
541,20 43,05 26,90
e) d) Valor tabular

tab
2
 22x3 ; 0,95  62; 0,95  12,59

e) Decisión

2  5,12  tab
2
 12,59 
No se rechaza Ho. Por tanto ambos criterios son independientes.-El tipo
sanguíneo no condiciona o predispone el grado de afección de HIE.
PRUEBAS JI- CUADRADO DE HOMOGENEIDAD

José Antonio Boza Rosario 2016


6

Este procedimiento es útil para probar si las muestras extraídas son poblaciones
homogéneas o equivalentes respecto a algún criterio de clasificación. En este caso, en
la hipótesis nula se establece que ambas muestras son homogéneas o que las muestras
se han extraído de la misma "población". A pesar de apreciarse diferencias en
conceptos y procedimientos de muestreo, la prueba de independencia de criterios y la
prueba de homogeneidad son matemáticamente idénticas.

Ejemplo
Se desea verificar si dos grupos experimentales son homogéneos respecto a la
edad.

GRUPOS EXPERIMENTALES
EDAD A B TOTAL

20 - 29 28 30 58
30 - 39 37 38 75
40 - 49 15 14 29
50 - 60 5 3 8
TOTAL 85 85 170

 2
cal  0,62

 tab
2
  (2r 1)(c1) ; 1-   2
3 ; 0,95 = 7,81

2  0,62 <  2
3 ; 0,95  7,81 ( p > 0,05 )

Por consiguiente ambos grupos son homogéneos.

OTRAS APLICACIONES DE LA PRUEBA JI-CUADRADO


EJEMPLOS DE APLICACIÓN:

ESTUDIOS DE CASOS Y CONTROLES

1. Estos estudios de carácter retrospectivo están destinados a explorar hipótesis de


asociación entre factores de riesgo y daños a la salud (muy usado en enfermedades poco
frecuentes). En este diseño se procede a comparar un grupo de individuos en que está

José Antonio Boza Rosario 2016


7

presente el daño a la salud bajo estudio (casos) con un grupo de individuos en los cuales
está ausente el daño a la salud bajo estudio (controles). Interesa conocer la proporción
de individuos expuestos a los factores de riesgo en ambos grupos y que pueden
considerarse relevantes para la condición o enfermedad en estudio.

GRUPO DE ESTUDIO
FACTOR DE Casos Control Total
RIESGO Nº % Nº % Nº %

2. Expuestos a b m1
No expuestos c d m2
Total n1 100,0 n2 100,0 n 100,0
ODDS RATIO :

Razón de disparidad ó Razón de ventajas. Es una estimación del Riesgo relativo y

nos señala la fuerza de asociación entre la exposición y la enfermedad

axd
OR 
bxc
El OR debe entenderse como el riesgo de presentar el daño en aquellos que tienen el
factor exposición respecto a aquellos que no tienen el factor de exposición.
Ejemplo
3. Se puede observar un estudio retrospectivo de casos – controles (relación efecto –
causa ). Se captaron a todos los recién nacidos con RCIU y se toma una muestra de recién
nacidos sin RCIU, evaluándose como factor de riesgo a la talla materna. Los datos son los
siguientes :

Factor de exposición RCIU

TALLA MADRE < 145 Presencia Ausencia

4. Si 20 4
No 60 156

Total 80 160

a) Formulación de Hipótesis.
José Antonio Boza Rosario 2016
8

Ho : P1 = P2

H1 : P1  P2

P1 : Proporción de recién nacidos con RCIU con talla materna < 145 cm.

P2 : Proporción de recién nacidos sin RCIU con talla materna < 145 cm.

b)  = 0,05
c) Estadística de prueba

(10 x 132 - 8 x 60 ) 2 x 210


 2

70 x 140 x 18 x 192
= 4.375

5. d) Valor tabular

 2
tab  3.842

d) Decisión

Rechazar Ho 2  tab
2
( p < 0.05 )

La talla materna constituye un factor de riesgo.


El Odds Ratio o estimación del riesgo relativo :

axd
OR 
cxb
10 x 132
OR   2.75
8 x 60
El riesgo de presentar RCIU en las madres con talla menor a 145 es 2.75
veces respecto a aquellas madres con talla mayor o igual que 145 cm.

ESTUDIOS DE COHORTES
Los estudios prospectivos observacionales se basan en la identificación y observación de
grupos bien definidos de sujetos que experimentan en el futuro un daño a la salud. El riesgo
de experimentar este daño a la salud, se puede calcular tanto para quienes están expuestos a
un atributo o factor de riesgo determinado como para quienes no lo están; para luego

José Antonio Boza Rosario 2016


9

realizar la comparación entre las tasas de incidencia de la enfermedad en los diversos


grupos, después de un cierto período de seguimiento y observación. Este tipo de
investigación prospectiva entrega una respuesta más sólida sobre una relación causal de
una determinada asociación entre la variable "independiente" y la variable
"dependiente"; si bien estos estudios reducen la presencia de sesgos sin embargo requiere
un tiempo de estudio más prolongado no recomendándose para enfermedades de baja
frecuencia.
RIESGO RELATIVO

a/m
RR  1
c/m
2

El riesgo relativo es el riesgo de presentar el daño en aquellos que tienen el factor de


exposición en relación a aquellos que no tienen el factor de exposición.
Ejemplo :

DEFICIENTE DESARROLLO PSICOMOTRIZ

APGAR Si No Total

6. Bajo 30 60 90

Normal 20 78 98

Total 50 138 188

a) Formulación de Hipótesis.

Ho : P1 = P2

H1 : P1  P2

P1 : Proporción de RN de apgar bajo con desarrollo psicomotriz deficiente.


P2 : Proporción de RN de apgar normal con desarrollo psicomotriz deficiente.
b) Nivel de significación :  = 0,05

José Antonio Boza Rosario 2016


10

c) Estadística de prueba

(ad - bc ) 2 n
cal
2  = 4.01
n1n 2 m1m 2
d) Valor tabular

7.  tab
2  2
1; 1- = 3,842

e) Decisión

En este caso como  2


cal   2
tab (p<0.05) se rechaza Ho; es decir existe diferencia
estadísticamente significativa entre la proporción de RN con presencia de deficiencia
psicomotriz en RN de apgar bajo y RN de apgar normal

30/90
RR   1.63
20/98

Los RN con apgar bajo ( 4 - 6) tienen el riesgo de 1.63 veces, de acusar un deficiente
desarrollo psicomotriz a los 3 años , respecto a aquellos que tiene un apgar normal.

COMPARACIÓN DE 2 PROPORCIONES EN POBLACIONES


CORRELACIONADAS.-JI CUADRADO DE MC NEMAR
Esta prueba se utiliza cuando se desea comparar si hay diferencia entre dos grupos que se
han apareado de acuerdo de acuerdo con alguna característica de control o para determinar
si ha habido cambio en un grupo entre un período y otro.
Interés : Probar si hay diferencia entre 2 proporciones o si una es más alta que la otra.
Los datos se disponen en una tabla de 2x2.
Condición (GRUPO 2)
Condición (GRUPO 1) Si No
Si a b a+b
No c d c+d
a+c b+d n

José Antonio Boza Rosario 2016


11

Procedimiento de Prueba

a) Formulación de Hipótesis.

Ho : P1 = P2

H1 : P1  P2

P1 : Proporción de elementos que presentan la condición 1


P2 : Proporción de elementos que presentan la condición 2

ab
p1 
n
ac
p2 
n
b) Nivel de significación :  = 0,05

c) Estadística de prueba

b-c
Z 
bc

Z2  2 MN con 1 grado de libertad


d) Valor tabular
Z tab  Z1 / 2
e) Decisión
Rechazar Ho si Z > Z tab

No rechazar Ho si Z  Z tab

José Antonio Boza Rosario 2016


12

Esta prueba también puede aplicarse para evaluar un examen de tamizaje donde se necesita
contrastar sus resultados con los que se obtengan con una prueba diferente denominada
"Gold Standar" o "Prueba de Oro", a la cual se asigna un valor de certeza diagnóstica.
Los resultados pueden presentarse de la siguiente manera:

PRUEBA DE ORO

RESULTADO Enfermo No enfermo Total


TAMIZAJE
Positivo (+) a b a+b

Negativo (-) c d c+d

Total a+c b+d n

Ejemplo .- Suponga los siguientes resultados :

PRUEBA DE ORO

RESULTADO TAMIZAJE Enfermo No enfermo Total

Positivo (+) 180 80 260


Negativo (-) 20 720 740

Total 200 800 1000

Formulación de Hipótesis.

a) Ho : P1 = P2

H1 : P1  P2

P1 : Proporción de enfermos según tamizaje (+)


P2 : Proporción de enfermos (según prueba de oro)

a  b 180  80
p1    0.26
n 1000
a  c 180  20
p2    0.20
n 1000
José Antonio Boza Rosario 2016
13

b) Nivel de significación :  = 0,05


c) Estadística de prueba

b-c 80 - 20
Z cal   6
bc 80  20
d) Valor tabular

8. Z tab  Z1 / 2 = 1.96


e) Decisión
Como Zcal = 6 > Z tab=1.96 se Rechaza la Ho. Por tanto existe diferencia
significativa entre ambas pruebas

MEDIDAS DE VALOR DIAGNÓSTICO DE UNA PRUEBA

Entre las se puede señalar a las siguientes:

Sensibilidad : Proporción de los individuos con la enfermedad que son


identificados correctamente con la prueba.
Especificidad : Proporción de los individuos "sanos" que son identificados
correctamente por la prueba.
Valor predictivo positivo : Proporción de individuos con una prueba positiva que sí
tienen la enfermedad.
Valor predictivo negativo : Proporción de individuos con una prueba negativa y que no
tienen la enfermedad.

a
S x 100
ac
d
E  x 100
bd

a
VPP  x 100
ab
José Antonio Boza Rosario 2016
14

d
VPN  x 100
cd

En el ejemplo

180
S x 100 = 90,0
200
720
E  x 100 = 90,0
800

180
VPP  x 100 = 69,2
260

720
VPN  x 100 = 97,3
740

200
P  x 100 = 20,0 ( Prevalencia )
1000

APLICACIONES DE LA PRUEBA ESTADISTICA JI-CUADRADO

1.- COMPARACIÓN DE 2 PROPORCIONES DE POBLACIONES


INDEPENDIENTES._ PRUEBA JI- CUADRADO 2X2

Si se asume 2 grupos independientes cuando los datos se presentan en una


tabla de 2 entradas :

Grupo

Resultado A B

Éxito a b m1
Fracaso c d m2
José Antonio Boza Rosario 2016
15

n1 n2 n

a) Formulación de Hipótesis.
Ho : P1 = P2
H1 : P1  P2
c) Nivel de significación :  = 0,05

d) Estadística de prueba

(ad - bc ) 2 n
 2

n 1 n 2 m1 m 2
d) Valor tabular

 tab
2  2
1; 1- = 3,842

e) Decisión

Rechazar Ho si  2  tab2
No rechazar Ho si  2
  2
tab

2.- ESTUDIOS DE CASOS Y CONTROLES

Estos estudios de carácter retrospectivo están destinados a explorar hipótesis de asociación


entre factores de riesgo y daños a la salud (muy usado en enfermedades poco frecuentes).
En este diseño se procede a comparar un grupo de individuos en que está presente el daño a
la salud bajo estudio (casos) con un grupo de individuos en los cuales está ausente el daño
a la salud bajo estudio (controles). Interesa conocer la proporción de individuos expuestos
a los factores de riesgo en ambos grupos y que pueden considerarse relevantes para la
condición o enfermedad en estudio.

Grupo de estudio
Factor de Casos Control Total
riesgo Nº % Nº % Nº %

José Antonio Boza Rosario 2016


16

f) Expuestos a b m1

No expuestos c d m2
Total n1 100,0 n2 100,0 n 100,0

Tamaño de Muestra
Para determinar el número de casos y de controles existen muchos criterios. Si el número
de casos no es grande, la estrategia de muestreo puede ser tomar a todos los casos y luego
una muestra de los controles. Si tantos casos como controles tiene una población
relativamente grande la estrategia es tomar una muestra de casos y una muestra no menor de
los controles; Schlesselman ha desarrollado la siguiente fórmula donde el número de casos
se establece por :

n 
Z/2 2pq  Z  p1q1  p2q 2 2

p1 - p2 2
,  : error de tipo I y error de tipo II

p1  p 2
p 
2
p1 : Proporción de expuestos en los casos
q1 : 1 - p1
p2 : Proporción de expuestos en los controles
q2 : 1- p2

ODDS RATIO :

Razón de disparidad ó Razón de ventajas. Es una estimación del Riesgo relativo y nos

señala la fuerza de asociación entre la exposición y la enfermedad

axd
OR 
bxc
José Antonio Boza Rosario 2016
17

El OR debe entenderse como el riesgo de presentar el daño en aquellos que tienen el


factor exposición respecto a aquellos que no tienen el factor de exposición.

Ejemplo
Se puede observar un estudio retrospectivo de casos – controles (relación efecto – causa).
Se captaron a todos los recién nacidos con RCIU y se toma una muestra de recién nacidos
sin RCIU, evaluándose como factor de riesgo a la talla materna. Los datos son los siguientes
:

Factor de exposición RCIU

TALLA MADRE < 145 Presencia Ausencia

g) Si 20 4
No 60 156

Total 80 160

a) Formulación de Hipótesis.
Ho : P1 = P2
H1 : P1  P2
P1 : Proporción de recién nacidos con RCIU con talla materna < 145
cm.
P2 : Proporción de recién nacidos sin RCIU con talla materna < 145
cm.
b)  = 0,05
c) Estadística de prueba

(10 x 132 - 8 x 60 )2 x 210


 2

70 x 140 x 18 x 192
= 4.375

d) Valor tabular

 2
tab  3.842

José Antonio Boza Rosario 2016


18

e) Decisión

Rechazar Ho 2  tab
2
( p < 0.05 )

La talla materna constituye un factor de riesgo.


El Odds Ratio o estimación del riesgo relativo :

axd
OR 
cxb
10 x 132
OR   2.75
8 x 60
El riesgo de presentar RCIU en las madres con talla menor a 145 es
2.75 veces respecto a aquellas madres con talla mayor o igual que
145 cm.
3.- ESTUDIOS DE COHORTES

Los estudios prospectivos observacionales se basan en la identificación y observación de


grupos bien definidos de sujetos que experimentan en el futuro un daño a la salud. El riesgo
de experimentar este daño a la salud, se puede calcular tanto para quienes están expuestos a
un atributo o factor de riesgo determinado como para quienes no lo están; para luego
realizar la comparación entre las tasas de incidencia de la enfermedad en los diversos
grupos, después de un cierto período de seguimiento y observación. Este tipo de
investigación prospectiva entrega una respuesta más sólida sobre una relación causal de
una determinada asociación entre la variable "independiente" y la variable "dependiente";
si bien estos estudios reducen la presencia de sesgos sin embargo requiere un tiempo de
estudio más prolongado no recomendándose para enfermedades de baja frecuencia.
TAMAÑO DE MUESTRA
Para determinar el número de "expuestos "y de " no expuestos" se puede usar la misma
fórmula que para el diseño de casos y controles:

n
Z /2 2pq  Z  p1q1  p 2 q2  2

 p1 - p2 2

p1 : Tasa de incidencia en el grupo de expuestos

José Antonio Boza Rosario 2016


19

p2 : Tasa de incidencia en el grupo de no expuestos

p1  p 2
p
2
RIESGO RELATIVO

a/m
RR  1
c/m
2
El riesgo relativo es el riesgo de presentar el daño en aquellos que tienen el factor de
exposición en relación a aquellos que no tienen el factor de exposición.
Ejemplo :

Deficiente desarrollo Psicomotriz

Apgar Si No Total

h) 30 60 90
Bajo

Normal 20 78 98

Total 50 138 188

a) Formulación de Hipótesis.
Ho : P1 = P2
H1 : P1  P2
P1 : Proporción de RN de apgar bajo con desarrollo psicomotriz
deficiente.
P2 : Proporción de RN de apgar normal con desarrollo psicomotriz
deficiente.
b) Nivel de significación :  = 0,05

c) Estadística de prueba
José Antonio Boza Rosario 2016
20

(ad - bc ) 2 n
cal
2  = 4.01
n1n 2 m1m 2
d) Valor tabular

 tab
2  2
1; 1- = 3,842

e) Decisión

En este caso como  2


cal   2
tab (p<0.05) se rechaza Ho; es
decir existe diferencia estadísticamente significativa entre la
proporción de RN con presencia de deficiencia psicomotriz en RN de
apgar bajo y RN de apgar normal

30/90
RR   1.63
20/98

Los RN con apgar bajo ( 4 - 6) tienen el riesgo de 1.63 veces, de


acusar un deficiente desarrollo psicomotriz a los 3 años , respecto a
aquellos que tiene un apgar normal.

PRUEBAS ESTADÍSTICAS NO PARAMÉTRICAS

PRUEBA DE HIPÓTESIS DE COMPARACIÓN DE PROMEDIOS DE DOS GRUPOS


INDEPENDIENTES

PRUEBA DE MANN WHITNEY .-


Es una alternativa a la prueba t de Student de dos muestras para medias en poblaciones

independiente bajo las siguientes suposiciones:

- Las 2 muestras, de tamaño n1 y n2, respectivamente, que se utilizan para

el análisis se han extraído independientemente y al azar de sus

poblaciones respectivas.

José Antonio Boza Rosario 2016


21

- La escala de medición es por lo menos ordinal

- Si las poblaciones son diferentes difieren solamente en lo que respecta a

sus medianas.

Procedimiento :

- Unir las dos muestras y posteriormente ordenar sus valores que toman

independientemente de la muestra a la que pertenecen para que después

se les asignen los rangos a la muestra conjunta.

- Luego se calcularán para cada muestra, la suma de los rangos que le

correspondan y estas sumas se utilizan para obtener la estadística de

prueba y se comparan con la tabla de Mann Whitney.

a) Hipótesis a probar :
H0 : M 1 ≥ M2

H1 : M1 < M2

b) Nivel de significación

 = 0,05

c) Función de prueba

n1 (n 1  1)
T S
2
n1 : Número de observaciones de la muestra de la población 1.

S : Suma de los rangos asignados a las observaciones de la muestra de

la población1.

José Antonio Boza Rosario 2016


22

Si n1 ó n2 > 20, se puede usar como función de prueba :

n 1n 2
d) Valor tabular T
Z cal  2
T cal ó Z cal
 n  n 1
n 1n 2  1 2 
e) Decisión  12 
- Rechazar H0 : M1 ≥ M2, si Tcal < W α .

- Rechazar H0 : M1 ≤ M2, si Tcal > W 1-α donde W 1-α = n1 n2-

W α.

- Rechazar H0 : M1 = M2, si Tcal < W 1-α/2 ó T > W 1-α/2

donde W 1-α/2 = n1 n2- W α/2.

- Rechazar H0 si І Zcal І > Z1-α/2 y aceptar H0 si І Zcal І ≤ Z1-

α/2.

Los valores W α y W α/2 son obtenidos de la tabla de Mann Whitney.

Ejemplo :

En un experimento diseñado para estimar los efectos de la inhalación prolongada de óxido

de cadmio, 15 animales de laboratorio sirvieron de sujetos para el experimento, mientras 10

animales sirvieron de controles. La variable de interés fue el nivel de hemoglobina después

del experimento. Se desea saber si se puede concluir que la inhalación prolongada de óxido

de cadmio disminuye el nivel de hemoglobina. Los datos son los siguientes:

José Antonio Boza Rosario 2016


23

TABLA .- DETERMINACIONES DE HEMOGLOBINA (GRAMOS) DE 25 ANIMALES


DE LABORATORIO.

Grupos de estudio
Animales expuestos (1) Animales no expuestos (2)
14.4 17.4
14.2 16.2
13.8 17.1
16.5 17.5
14.1 15.0
16.6 16.0
15.9 16.9
15.6 15.0
14.1 16.3
15.3 16.8
15.7
16.7
13.7
15.3
14.0

Solución :

a) Hipótesis a probar :
H0 : M 1 ≥ M2

H1 : M1 < M2

b) Nivel de significación

 = 0,05

c) Función de prueba
José Antonio Boza Rosario 2016
24

15(15  1)
Tcal  145   25
2

n1 = 15

S = 145

d) Valor tabular

Buscamos el valor de W tab en la tabla de Mann Whitney para n1 =15,

n2 =10 y α= 0.05 y se encuentra que Wα= W0.05 = 45.

e) Decisión

Como Tcal= 25 < W0.05 = 45, se rechaza H0 por tanto hay evidencias de

que M1 es significativamente menor que M2 .

TABLA.- DETERMINACIONES DE HEMOGLOBINA (GRAMOS) DE 25


ANIMALES DE LABORATORIO.

Grupos de estudio
Muestra 1 Rango Muestra 2 Rango
13.7 1

13.8 2
14.0 3
14.1 4.5

José Antonio Boza Rosario 2016


25

14.1 4.5
14.2 6
14.4 7
15.0 15.0 8.5
15.0 15.0 8.5
15.3 10.5
15.3 10.5
15.6 12
15.7 13

15.9 14
16.0 16.0 15
16.2 16.2 16
16.3 16.3 17
16.5 18
16.6 19
16.7 20
16.8 16.8 21
16.9 16.9 22
17.1 17.1 23

17.4 17.4 24
17.5 17.5 25
145

PRUEBA DE HIPÓTESIS DE COMPARACIÓN DE PROMEDIOS DE DOS GRUPOS


CORRELACIONADOS
PRUEBA DE WILCOXON
La Prueba de Wilcoxon se presenta como alternativa a la prueba t de Student cuando las
poblaciones no son independientes y el supuesto de normalidad no es asumible.

José Antonio Boza Rosario 2016


26

Cuando tenemos una muestra de parejas de valores, por ejemplo antes y después del
tratamiento, que podemos denominar (X1,Y1), (X2,Y2), ... ,(Xn,Yn)

- Calculamos las diferencias X1-Y1, X2-Y2, ... , Xn-Yn y las ordenaremos


en valor absoluto.
- Asignar a los rangos los signos de las diferencias originales.
- Calcular la suma de rangos positivos R+ y la suma de rangos negativos
R-
- Elige la menor numéricamente entre R+ y R- llamándolo Tcal.
- Comparar el valor obtenido Tcal con el valor Ttab obtenido de la
tabla de la prueba de rangos de Wilcoxon.
- En caso de no encontrar el n en la tabla de Wilcoxon se realizará la
se utilizará la siguiente función de prueba Z.

a) Hipótesis a probar :
H0 : M1 = M2

H1 : M1 ≠ M2

b) Nivel de significación

 = 0,05

c) Función de prueba

T  T
Zcal 
T
donde :

n(n 1)
 T 
4

José Antonio Boza Rosario 2016


27

n(n 1)(2n 1)


T 
24

d) Valor tabular

T cal ó Z cal

e) Decisión

- Rechazar H0 si Tcal > Ttab ó

- Rechazar H0 si Zcal > Ztab

Al rechazar H0 estaríamos en capacidad de afirmar que existe

evidencia de diferencia de promedios.

BASE DE DATOS 01
PROFES

DENCIA
O CIVIL

INGRES
TAMAÑ
N° ENC.

FAMILI

MENSU
ACTIVI
MEDAD
PROCE
ESTAD

SEGUR
EDAD

ENFER
SEXO

DAD
ION
AR

AL
O

O
O

FEMEN EDUCACION SOLTE N NINGU CUIDA


1 4 28 INO INICIAL RO TRUJILLO O NA 350 NIÑOS
MASCU INFORMATI SOLTE N NINGU VIGILAN
2 4 19 LINO CA RO TRUJILLO O NA 400 CIA
MASCU SOLTE N NINGU ESTILIST
3 1 42 LINO ESTILISTA RO TRUJILLO O NA 460 A
MASCU SOLTE N NINGU ESTILIST
4 7 47 LINO ESTILISTA RO HUARAL O NA 460 A
MASCU CATEDRÁTI CASA AREQUIP NINGU INVERSIO
5 4 73 LINO CO DO A SI NA 4000 NISTA
MASCU ING. SOLTE NINGU COMERCI
6 3 18 LINO SISTEMAS RO PIURA SI NA 1200 ANTE
FEMEN CONTADOR CASA N NINGU
7 4 26 INO A DO TRUJILLO O NA 450 NINGUNO
José Antonio Boza Rosario 2016
28

MASCU ESTUDIANT SOLTE N NINGU


8 5 21 LINO E RO TRUJILLO O NA 420 NINGUNO
MASCU COMERCIAN SOLTE N NINGU COMERCI
9 9 25 LINO TE RO TRUJILLO O NA 420 ANTE
MASCU COMERCIAN CASA N NINGU
10 3 35 LINO TE DO TRUJILLO O NA 500 NEGOCIO
MASCU ESTUDIANT SOLTE NINGU COMERCI
11 4 21 LINO E RO TALARA SI NA 600 ANTE
FEMEN COMERCIAN CASA HUANUC N NINGU
12 5 45 INO TE DO O O NA 500 NEGOCIO
MASCU SOLTE N NINGU ACADEMI
13 6 29 LINO D. TECNICO RO TRUJILLO O NA 1200 A
MASCU ESTUDIANT SOLTE NINGU ESTUDIA
14 3 20 LINO E RO TRUJILLO SI NA 800 NTE
MASCU ESTUDIANT SOLTE N NINGU
15 4 21 LINO E RO TRUJILLO O NA 460 DOCENTE
MASCU ESTUDIANT SOLTE CAJAMA N NINGU ESTUDIA
16 1 20 LINO E RO RCA O NA 300 NTE
MASCU COMERCIAN CASA N NINGU COMERCI
17 6 32 LINO TE DO TRUJILLO O NA 500 ANTE
MASCU COMERCIAN CASA N NINGU COMERCI
18 3 30 LINO TE DO TRUJILLO O NA 500 ANTE
FEMEN VENDEDOR SOLTE N NINGU VENDED
19 4 23 INO A RO TRUJILLO O NA 400 ORA
FEMEN COMERCIAN CASA CAJAMA N NINGU COMERCI
20 5 45 INO TE DO RCA O NA 600 ANTE
MASCU ECONOMIST SOLTE NINGU ECONOMI
21 6 33 LINO A RO TRUJILLO SI NA 700 STA
MASCU COMERCIAN SOLTE CHICLAY N NINGU COMERCI
22 6 32 LINO TE RO O O NA 500 ANTE
MASCU ING. CASA NINGU ING.
23 7 37 LINO QUIMICO DO TRUJILLO SI NA 1200 QUIMICO
MASCU CASA CAJAMA BRONQ COMERCI
24 5 80 LINO PROFESOR DO RCA SI UITIS 800 ANTE
FEMEN AMA DE CASA ALERGI
25 6 40 INO CASA DO TRUJILLO SI AS 2000 NINGUNO
MASCU COMERCIAN SOLTE N NINGU COMERCI
26 3 32 LINO TE RO VIRU O NA 600 ANTE
MASCU AGENTE CASA SAN ESTEOP
27 2 81 LINO VIAJERO DO PEDRO SI OR 500 NINGUNO
MASCU CASA N BRONQ
28 4 50 LINO TOPOGRAFO DO TRUJILLO O UITIS 1000 NINGUNO
MASCU SOLTE N NINGU
29 4 21 LINO DOCENTE RO TRUJILLO O NA 460 DOCENTE
MASCU VIUD NINGU COMERCI
30 6 75 LINO CHEFF O OTUZCO SI NA 700 ANTE
FEMEN AMA DE SOLTE NINGU
31 6 40 INO CASA RO TRUJILLO SI NA 415 NINGUNO
José Antonio Boza Rosario 2016
29

FEMEN CASA CHICLAY N NINGU INGENIE


32 5 31 INO INGENIERA DO O O NA 1300 RO
MASCU CASA N LA COMERCI
33 4 52 LINO ING. CIVIL DO TRUJILLO O GOTA 1000 ANTE
MASCU ADMINISTR SOLTE NINGU ADMINIS
34 4 31 LINO ADOR RO TRUJILLO SI NA 1500 TRADOR
MASCU CASA CARTAVI NINGU CONTAD
35 3 46 LINO CONTADOR DO O SI NA 2500 OR
FEMEN AMA DE CASA N PRESIO AMA DE
36 12 81 INO CASA DO TRUJILLO O N 700 CASA
MASCU VIUD AMAZON ARTRO
37 4 80 LINO DOCENTE O AS SI SIS 900 CESANTE
MASCU SOLTE NINGU
38 5 32 LINO TECNICO RO TRUJILLO SI NA 1200 TECNICO
FEMEN SOLTE NINGU
39 7 68 INO DOCENTE RO ANCASH SI NA 800 CESANTE
FEMEN SECRETARI CASA NINGU
40 4 36 INO A DO TRUJILLO SI NA 1500 DOCENTE
MASCU ARQUITECT CASA NINGU ARQUITE
41 4 63 LINO O DO PIURA SI NA 7200 CTURA
FEMEN CONTADOR CASA GUADAL NINGU CONTAD
42 3 41 INO A DO UPE SI NA 4000 OR
MASCU DIVOR LAMBAY NINGU ABOGACI
43 3 62 LINO ABOGADO CIADO EQUE SI NA 5800 A
FEMEN CASA LAMBAY NINGU OBSTETR
44 3 49 INO OBSTETRIZ DO EQUE SI NA 3000 IZ
MASCU CASA SAN NINGU ABOGACI
45 3 46 LINO ABOGADO DO PEDRO SI NA 7000 A
MASCU CASA NINGU ODONTO
46 3 46 LINO DOCTOR DO TRUJILLO SI NA 6500 LOGO
MASCU CASA CHICLAY NINGU CONTAD
47 2 56 LINO CONTADOR DO O SI NA 5600 OR
FEMEN SOLTE NINGU ENFERM
48 4 39 INO ENFERMERA RO TRUJILLO SI NA 3200 ERIA
FEMEN SOLTE NINGU
49 3 42 INO PROFESORA RO LIMA SI NA 4300 DOCENTE
MASCU ESTUDIANT SOLTE N NINGU
50 4 21 LINO E RO TRUJILLO O NA 460 DOCENTE

José Antonio Boza Rosario 2016


30

BASE DE DATOS 03

Nº de Mes de Estado Grado Nume Contr Hemoglo eda talla peso


pacie trabajo civil de ro de ol pre bina d de de del
nte instrucc gestas natal la la recie
ión mad mad n
re re naci
do
1 Mayo soltera Primari 0 si 12,00 17,0 1,61 3,60
a 0
1
complet
a
2 Junio soltera Secunda 0 no 12,90 14,0 1,51 3,30
ria 0
2
incompl
eta
3 Julio soltera Secunda 0 no 13,00 23,0 1,60 3,10
ria 0
3
incompl
eta
4 Agosto soltera Secunda 1 si 12,20 26,0 1,63 3,40
ria 0
4
incompl
eta

José Antonio Boza Rosario 2016


31

5 Mayo soltera Secunda 1 no 11,00 15,0 1,56 2,80


ria 0
5
incompl
eta
6 Setiem soltera Secunda 1 si 10,60 21,0 1,53 2,80
bre ria 0
6
complet
a
7 Julio casada primaria 3 si 11,30 29,0 1,61 3,40
7 incompl 0
eta
8 Agosto casada Primari 0 si 12,50 19,0 1,56 3,20
a 0
8
complet
a
9 Julio casada Primari 1 si 11,90 29,0 1,55 3,30
a 0
9
complet
a
10 Mayo casada Primari 3 no 12,00 27,0 1,54 3,60
a 0
10
complet
a
11 Julio casada Secunda 1 si 13,00 35,0 1,58 3,00
ria 0
11
incompl
eta
12 Abril casada Secunda 2 si 12,10 30,0 1,55 3,00
ria 0
12
incompl
eta
13 Mayo casada Secunda 2 si 11,00 36,0 1,58 3,85
ria 0
13
incompl
eta
14 Junio casada Secunda 2 si 11,70 24,0 1,55 3,00
ria 0
14
incompl
eta

José Antonio Boza Rosario 2016


32

15 Julio casada Secunda 2 si 13,00 35,0 1,61 3,30


ria 0
15
incompl
eta
16 Abril casada Secunda 0 si 11,00 18,0 1,50 3,00
ria 0
16
complet
a
17 Julio casada Secunda 0 si 12,10 19,0 1,63 4,10
ria 0
17
complet
a
18 Agosto casada Secunda 0 si 12,00 28,0 1,51 3,25
ria 0
18
complet
a
19 Abril casada Secunda 1 si 11,80 25,0 1,60 4,00
ria 0
19
complet
a
20 Julio casada Secunda 1 si 12,50 23,0 1,53 3,30
ria 0
20
complet
a
21 Agosto casada Secunda 1 si 11,90 28,0 1,65 3,80
ria 0
21
complet
a
22 Mayo casada Secunda 2 si 12,60 23,0 1,55 3,80
ria 0
22
complet
a
23 Julio casada Secunda 2 si 12,80 27,0 1,60 3,20
ria 0
23
complet
a
24 Agosto casada Secunda 2 no 12,50 25,0 1,54 3,65
ria 0
24
complet
a
25 Junio casada Superio 0 si 12,70 24,0 1,58 3,00
25
r 0
José Antonio Boza Rosario 2016
33

26 Abril casada Superio 1 si 12,30 33,0 1,75 3,20


26
r 0
27 Mayo casada Superio 2 si 10,50 19,0 1,48 2,50
27
r 0
28 Junio casada Superio 2 si 12,30 25,0 1,53 3,00
28
r 0
29 Abril casada Superio 3 si 11,60 27,0 1,47 3,35
29
r 0
30 Setiem convivie primaria 0 si 10,80 19,0 1,50 2,85
30 bre nte incompl 0
eta
31 Abril convivie primaria 0 no 12,30 18,0 1,51 3,37
31 nte incompl 0
eta
32 Junio convivie primaria 1 si 11,80 22,0 1,68 3,60
32 nte incompl 0
eta
33 Agosto convivie primaria 1 si 11,90 19,0 1,64 3,60
33 nte incompl 0
eta
34 Julio convivie primaria 2 si 11,70 22,0 1,57 3,50
34 nte incompl 0
eta
35 Julio convivie primaria 2 si 13,10 27,0 1,58 3,00
35 nte incompl 0
eta
36 Julio convivie primaria 3 si 12,00 29,0 1,60 4,00
36 nte incompl 0
eta
37 Agosto convivie primaria 3 si 12,90 19,0 1,58 3,50
37 nte incompl 0
eta
38 Setiem convivie primaria 3 si 12,30 29,0 1,63 3,05
38 bre nte incompl 0
eta
39 Junio convivie primaria 3 no 10,30 23,0 1,50 2,80
39 nte incompl 0
eta
40 Mayo convivie primaria 4 si 11,30 36,0 1,50 3,75
40 nte incompl 0
eta

José Antonio Boza Rosario 2016


34

41 Julio convivie primaria 4 si 12,90 24,0 1,63 3,40


41 nte incompl 0
eta
42 Agosto convivie primaria 4 no 12,00 39,0 1,65 3,10
42 nte incompl 0
eta
43 Julio convivie Primari 0 si 11,50 20,0 1,55 3,15
nte a 0
43
complet
a
44 Setiem convivie Primari 0 si 13,10 18,0 1,60 3,50
bre nte a 0
44
complet
a
45 Setiem convivie Primari 0 si 12,70 19,0 1,56 3,50
bre nte a 0
45
complet
a
46 Junio convivie Primari 1 si 11,00 17,0 1,57 2,50
nte a 0
46
complet
a
47 Julio convivie Primari 1 si 10,70 21,0 1,56 2,65
nte a 0
47
complet
a
48 Agosto convivie Primari 1 si 11,70 35,0 1,66 3,25
nte a 0
48
complet
a
49 Setiem convivie Primari 1 si 13,00 21,0 1,54 3,40
bre nte a 0
49
complet
a
50 Mayo convivie Primari 1 no 13,00 39,0 1,60 3,84
nte a 0
50
complet
a
51 Agosto convivie Primari 2 no 12,50 18,0 1,57 3,30
nte a 0
51
complet
a
José Antonio Boza Rosario 2016
35

52 Julio convivie Primari 4 si 10,30 30,0 1,59 2,55


nte a 0
52
complet
a
53 Abril convivie Secunda 0 si 10,60 18,0 1,63 3,10
nte ria 0
53
incompl
eta
54 Abril convivie Secunda 0 si 11,60 20,0 1,54 3,10
nte ria 0
54
incompl
eta
55 Junio convivie Secunda 0 si 13,10 22,0 1,63 3,25
nte ria 0
55
incompl
eta
56 Junio convivie Secunda 0 si 10,60 15,0 1,51 2,85
nte ria 0
56
incompl
eta
57 Setiem convivie Secunda 0 si 12,00 19,0 1,55 3,32
bre nte ria 0
57
incompl
eta
58 Agosto convivie Secunda 0 no 13,00 21,0 1,68 3,65
nte ria 0
58
incompl
eta
59 Julio convivie Secunda 1 si 10,90 17,0 1,48 2,80
nte ria 0
59
incompl
eta
60 Agosto convivie Secunda 1 si 10,80 21,0 1,51 2,95
nte ria 0
60
incompl
eta
61 Mayo convivie Secunda 1 no 12,50 18,0 1,50 3,20
nte ria 0
61
incompl
eta

José Antonio Boza Rosario 2016


36

62 Mayo convivie Secunda 1 no 12,00 28,0 1,60 3,25


nte ria 0
62
incompl
eta
63 Junio convivie Secunda 2 si 11,90 19,0 1,54 3,20
nte ria 0
63
incompl
eta
64 Setiem convivie Secunda 2 si 11,90 24,0 1,57 3,60
bre nte ria 0
64
incompl
eta
65 Setiem convivie Secunda 2 si 12,10 23,0 1,58 3,50
bre nte ria 0
65
incompl
eta
66 Setiem convivie Secunda 3 si 11,60 26,0 1,58 3,70
bre nte ria 0
66
incompl
eta
67 Abril convivie Secunda 0 si 12,70 19,0 1,52 3,50
nte ria 0
67
complet
a
68 Abril convivie Secunda 0 si 10,30 19,0 1,50 2,70
nte ria 0
68
complet
a
69 Julio convivie Secunda 0 si 12,20 20,0 1,56 3,55
nte ria 0
69
complet
a
70 Julio convivie Secunda 0 si 13,90 19,0 1,58 3,20
nte ria 0
70
complet
a
71 Agosto convivie Secunda 0 si 12,00 22,0 1,53 3,10
nte ria 0
71
complet
a

José Antonio Boza Rosario 2016


37

72 Setiem convivie Secunda 0 si 10,50 20,0 1,55 2,75


bre nte ria 0
72
complet
a
73 Setiem convivie Secunda 0 si 12,00 17,0 1,53 3,10
bre nte ria 0
73
complet
a
74 Setiem convivie Secunda 0 si 13,30 23,0 1,58 3,45
bre nte ria 0
74
complet
a
75 Julio convivie Secunda 1 si 12,70 19,0 1,52 3,40
nte ria 0
75
complet
a
76 Julio convivie Secunda 1 si 12,80 23,0 1,61 3,10
nte ria 0
76
complet
a
77 Agosto convivie Secunda 1 si 13,20 20,0 1,58 3,60
nte ria 0
77
complet
a
78 Agosto convivie Secunda 1 si 11,00 19,0 1,60 3,70
nte ria 0
78
complet
a
79 Setiem convivie Secunda 1 si 11,00 22,0 1,52 2,95
bre nte ria 0
79
complet
a
80 Julio convivie Secunda 2 si 11,90 33,0 1,58 3,65
nte ria 0
80
complet
a
81 Setiem convivie Secunda 2 si 12,20 28,0 1,62 3,05
bre nte ria 0
81
complet
a

José Antonio Boza Rosario 2016


38

82 Julio convivie Secunda 3 si 13,20 27,0 1,62 3,60


nte ria 0
82
complet
a
83 Setiem convivie Superio 0 si 11,20 21,0 1,56 3,95
83
bre nte r 0
84 Setiem convivie Superio 0 si 11,90 20,0 1,62 3,60
84
bre nte r 0
85 Agosto convivie Superio 0 no 12,80 26,0 1,65 3,20
85
nte r 0
Tot 85 85 85 85 85 85 85 85 85 85
N
al
a. Limitado a los primeros 100 casos.

ANEXO 1
Excel cuenta con un asistente para crear informes de tablas y gráficos dinámicos. Para crear
una tabla dinámica seleccionamos cualquier celda de la lista de datos y ejecutamos en la ficha
Insertar, en el grupo Tablas, Tabla Dinámica.

José Antonio Boza Rosario 2016


39

Veamos un ejemplo, tenemos un listado de llamadas telefónicas en el que aparecen la fecha


de la llamada, el nº de teléfono al que se ha llamado, el destino (Fijo, Móvil o Vodafone), la
duración en minutos de la llamada, la tarifa (Normal, Reducidad o Super Reducida) y el
importe en euros de la llamada

Ejemplo 1

José Antonio Boza Rosario 2016


40

Crear la tabla dinámica.


Seleccionamos cualquier celda de la lista de datos y ejecutamos en la ficha
Insertar, en el grupo Tablas, Tabla Dinámica.

En nuestro caso como hemos iniciado el proceso desde una celda de la lista, Excel selecciona
automáticamente los datos. Nos pide dónde queremos situar la tabla dinámica. Dejamos la
opción seleccionada por defecto: Nueva hoja de cálculo.
Seleccionamos en la ficha Opciones que nos ha creado, en Tabla Dinámica -> Opciones ->
Mostrar ->Diseño de tabla dinámica clásica ( permite arrastrar campos a la cuadrícula)

Ahora debemos arrastrar los nombres de las columnas de la tabla a las áreas.
PAGINA, FILA, COLUMNA y DATOS.
Por ejemplo, si queremos saber el importe de las llamadas realizadas cada día según el
destino, arrastramos FECHA a FILA, DESTINO a COLUMNA y IMPORTE a DATOS.

José Antonio Boza Rosario 2016


41

Ya tenemos creada la tabla dinámica. En este momento podemos añadir y eliminar campos
a la tabla. Para añadir un campo lo seleccionamos en Lista de campos de tabla dinámica
y lo arrastramos al área al que queremos añadirlo. Para eliminar un campo basta con
arrastrarlo fuera de la tabla.
Por ejemplo, agregar el campo DURACIÓN al Área de datos.

José Antonio Boza Rosario 2016


42

Observar que cada uno de los campos que hemos arrastrado a la tabla dinámica aparece con
un desplegable. Si lo desplegamos podemos ver los valores que toma dicho campo. Por
defecto aparecen todos seleccionados. Sin embargo, podemos desactivar algunos de los
valores para que sólo muestre la tabla con los valores que nos interesa en cada caso. De este
modo conseguimos filtrar la información que queremos mostrar.
Por ejemplo, si desplegamos el campo DESTINO vemos

Si sólo queremos analizar las llamadas a Fijo y Vodafone seleccionamos esos dos campos
únicamente y pulsamos el botón Aceptar

José Antonio Boza Rosario 2016


43

Queremos ver sólo la información de las llamadas que se han realizado con tarifa Normal.
Para ello, agregamos el campo TARIFA a Campos de página y seleccionamos sólo la
opción Normal. Además, seleccionamos todas las opciones del campo DESTINO.

José Antonio Boza Rosario 2016


44

Informe de gráfico dinámico

Podemos crear un Gráfico dinámico sobre una Tabla Dinámica seleccionando:

O podemos crear directamente el Gráfico dinámico si seleccionamos cualquier celda de la


lista de datos y ejecutamos en la ficha Insertar, en el grupo Tablas, Gráfico Dinámico.
Ejemplo 2

Queremos comparar el promedio de la duración de las llamadas realizadas a los distintos


destinos según el tipo de tarifa aplicada en cada caso, para ello arrastramos el campo
DESTINO al Área de filas, el campo TARIFA al Área de columna, y el campo DURACIÓN
al Área de datos.

En principio utiliza la función Suma de DURACIÓN. Para cambiar a la función


Promedio de DURACIÓN hacemos doble clic sobre el botón Suma de DURACIÓN y
seleccionamos Promedio en Resumir por:.
José Antonio Boza Rosario 2016
45

José Antonio Boza Rosario 2016


46

BASE DE DATOS 02

Calidad
No. Genero Edad Calificación Índice Éxito Rendimiento
Universitaria
1 1 22 15.41 3 62 72
2 1 26 15.71 1 60 71
3 1 22 12.45 2 80 66
4 1 23 15.69 2 86 91
5 1 25 16.05 1 86 48
6 1 26 16.21 3 64 95
7 0 27 14.42 2 54 82
8 1 23 12.87 3 80 92
9 1 23 13.08 2 62 73
10 1 26 16.30 3 77 81
11 1 24 15.82 4 61 67
12 0 24 14.85 3 67 95
13 0 36 13.31 4 95 96
14 1 27 16.67 4 62 59
15 0 26 16.35 2 50 79
16 1 24 12.50 1 62 88
17 1 26 12.32 1 81 52
18 1 23 14.72 2 76 71
19 1 24 13.94 2 87 75
20 1 24 16.92 2 73 75
21 0 25 13.14 3 85 93
22 1 23 14.92 3 57 84
23 1 23 13.81 2 89 90
24 0 26 15.53 3 70 83
25 1 25 15.33 3 65 73
26 0 25 12.95 2 89 97
27 1 24 12.24 4 87 88
28 1 23 14.94 4 89 81
29 1 22 12.57 3 94 74
30 0 30 12.92 3 71 67
31 1 24 15.94 1 63 80
32 1 25 13.80 4 67 64
33 1 23 14.42 3 96 82
34 1 24 14.72 2 73 82
35 1 26 12.60 3 92 81
36 0 23 14.53 3 88 77
37 1 26 14.76 4 82 89
38 0 26 13.12 3 84 95
39 1 26 13.35 4 86 58
40 0 23 14.76 2 72 74
41 1 22 15.27 4 82 89
42 1 26 17.00 2 77 68
43 1 24 16.57 2 66 77
José Antonio Boza Rosario 2016
47

44 1 26 14.02 3 73 67
45 1 25 13.08 1 85 99
46 1 24 13.93 3 58 96
47 1 25 14.17 2 58 97
48 0 24 14.65 3 79 92
49 1 22 13.92 1 50 95
50 1 25 13.28 3 93 67
51 1 25 12.96 2 75 52
52 0 23 13.97 2 82 82
53 1 25 13.92 3 57 83
54 1 24 14.92 3 67 87
55 1 24 16.33 2 60 73
56 0 23 14.25 4 56 67
57 1 23 15.29 1 94 72
58 1 26 15.23 3 92 66
59 1 26 15.73 3 81 95
60 0 23 12.94 1 73 82
61 1 24 15.96 1 91 84
62 1 24 16.96 2 72 98
63 1 27 12.23 3 85 93
64 1 22 15.35 2 96 87
65 0 23 16.77 2 85 57
66 1 24 16.12 2 89 85
67 0 25 14.34 3 92 81
68 1 24 14.69 3 66 95
69 1 22 14.67 2 85 90
70 1 23 15.56 2 54 80
71 1 22 12.35 2 85 48
72 1 24 13.39 3 65 71
73 0 26 16.99 1 76 63
74 0 28 15.29 4 63 87
75 0 26 15.93 2 89 97
76 1 25 13.41 3 83 97
77 1 25 15.55 2 57 79
78 1 25 13.97 1 96 71
79 0 23 12.81 4 72 72
80 1 24 12.99 2 73 89
81 1 25 15.67 2 53 94
82 1 23 12.47 3 86 78
83 1 24 12.77 3 64 89
84 0 24 14.67 1 80 84
85 0 25 13.94 3 77 91
86 1 24 14.90 1 52 69
87 1 23 15.44 2 70 89
88 0 23 16.03 4 90 91
89 1 29 12.15 4 74 89
90 0 22 13.42 2 95 94

José Antonio Boza Rosario 2016


48

91 0 26 12.02 4 84 95
92 0 22 13.04 3 68 78
93 0 30 14.35 4 92 84
94 1 25 13.65 2 52 85
95 1 23 12.66 2 82 69
96 1 26 13.22 3 56 71
97 1 23 13.43 3 85 58
98 1 22 15.54 4 85 93
99 1 26 16.51 3 64 97
100 1 23 16.91 3 61 83

José Antonio Boza Rosario 2016


49

I. BIBLIOGRAFÍA

Básica

1. Daniel, Wayne; BIOESTADÍSTICA: BASE PARA EL ANÁLISIS DE LAS CIENCIAS DE LA

SALUD. Dc. LIMUSA. S.A. 4ª. Ediciön. 2002.

2. Dawson-Saunders, Beth y Trapp, Robert; BIOESTADÍSTICA MÉDICA. Ed. El Manual

Moderno S.A. 2da. Edición. 1997.

3. Gonzales, Teresa – Pérez de Vargas, Alberto; ESTADISTICA APLICADA. Una visión

instrumental. Ediciones Díaz de Santos, 2009.

4. Marques De Cantú, María José; PROBABILIDAD Y ESTADÍSTICA PARA CIENCIAS

QUÍMICO-BIOLÓGICAS. Ed. Mc Graw Hill. 1990.

5. Mitacc, Máximo; TOPICOS DE ESTADISTICA DESCRIPTIVA Y PROBABILIDAD” 1ra.

Edición. Ed. San Marcos., Lima- Perú. 1989.

6. Curso Taller de Analisis Multivariado con SPSS Vs 18 2015.Coespe La Libertad

Web grafía:

 http://www.bioestadística .uma.es/libro/Bioestadística métodos y aplicaciones

Universidad de Málaga

 Internet://http:www.diazdesantos.Estadistica Aplicada a las Ciencias de la vida.

 E-mail: ediciones@diazdesantos.es.Rafael Álvarez Cáceres, 2010

José Antonio Boza Rosario 2016

Potrebbero piacerti anche