Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
2006
CURSO TALLER DE
ESTADÍSTICA Y PROBABILIDAD
Página 1
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Mail: primitivo_reyes@yahoo.com
Tel. 58 83 41 67 / Cel. 044 55 52 17 49 12
Página 2
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
CONTENIDO
Página 3
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Población (N)– Es el conjunto de todos los elementos de interés para determinado estudio
Estadístico – Es una característica numérica de una muestra, se identifica con letras latinas
(Media = X, Desviación estándar = s, Proporción = p, Coeficiente de correlación = r)
La Estadística descriptiva proporciona un criterio para lograr mejoras, debido a que sus técnicas
se pueden usar para describir y comprender la variabilidad. Por ejemplo, consideremos en una
caldera de vapor la presión del combustible alimentado y la eficiencia de la caldera, si utilizamos
instrumentos de medición con la resolución suficiente, encontraremos que existe variabilidad en esos
parámetros, y mediante el uso de técnicas estadísticas podemos realizar mejoras para reducir la
variación en rendimiento de la caldera.
Para poder obtener consecuencias y deducciones válidas de los datos de un estadístico, es muy útil
contar con información sobre los valores que se agrupan hacia el centro y sobre que tan
distanciados o dispersos estén unos respecto a otros. Comenzaremos por definir estas medidas:
Media: ( x ) Es el promedio aritmético de todos los valores que componen el conjunto de datos.
Se calcula mediante la siguiente fórmula:
Página 4
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Ejemplo 1: En un equipo de fútbol, una muestra de estaturas de sus integrantes son las
siguientes:
xi 19
x 1.73
n 11
Mediana: ( ~x ) Los datos de "n" observaciones son ordenados del más pequeño al más
grande, Si el tamaño de la muestra es "non" la mediana es el valor ordenado en la posición
(n+1)/2,
Cuando el tamaño de la muestra es "par" la mediana es el promedio de los dos valores que se
encuentran al centro del conjunto de valores. Se puede calcular mediante:
n 2 n 2 1
2
1.60,1.65,1.67,1.67,1.70,1.73,1.74,1.79,1.79,1.82,1.84;
Como tenemos 11 datos el número es non por lo que (n+1)/2 = 12/2 = 6, buscando el número
que ocupa la sexta posición en los datos ordenados encontramos el valor de la mediana
~
x 1.73
Media acotada (Truncated Mean): Determinado porcentaje de los valores más altos y bajos de
un conjunto dado de datos son eliminados (tomando números enteros), para los valores
restantes se calcula la media.
68.7,34.3,97.9,73.4,8.4,42.5,87.9,31.1,33.2,97.7,72.3,54.2,80.6,71.6,82.2,
Como tenemos 11 datos, el 20% de 11 es 2.2, por lo cual eliminamos 2 datos el más bajo y el
más alto, ordenado los datos obtenemos:
Medidas de dispersión
Para comprender el concepto de varianza, supóngase que tenemos los datos siguientes de los
cuales queremos saber que tan dispersos están respecto a su media:
Si tomamos la suma de diferencias de cada valor respecto a su media y las sumamos se tiene:
Por lo que tomando diferencias simples no es posible determinar la dispersión de los datos.
4 + 1 + 0 + 1 + 4 = 10
Es una medida que nos ayuda a comprender la variabilidad de los datos, que tan distanciados están
de la media
( xi x ) 2
2
n
( xi x ) 2
s2
n 1
( xi x ) 2
Para el caso de una población n
( xi x ) 2
Para el caso de una muestra s n 1
Página 6
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
12.14
CVt (100) 12.05%
78.7
Por otra parte si la media de temperaturas es de 10 y su desviación estándar de 2, el CVs de las
temperaturas es:
2
CV s (100) 20%
10
Por tanto la dispersión de las temperaturas es mayor que la de los tiempos de de respuesta, es
posible comparar estas dispersiones con el CV aunque los dos conjuntos de datos sean
completamente disímbolos.
Muestra 1: Muestra 2
x 248 x 248
n-1=5 n-1 = 5
790 7510
s= = 12.56 s= = 38.75
5 5
Aunque la media en ambas muestras es la misma, la desviación estándar (s), rango y coeficiente de
variación, son menores en la muestra 1, por lo cual deducimos que es presenta menor variabilidad.
Ejemplo 5:
Se desea hacer un estudio estadístico de la temperatura del agua, para esto es necesario tomar una
muestra y calcular la media, mediana, media acotada al 15%, desviación estándar, rango y
coeficiente de variación. Se realizan 14 observaciones arrojando los siguientes resultados en ºC:
2.11, 3.8, 4.0, 4.0, 3.1, 2.9, 2.5, 3.6, 2.0, 2.4, 2.8, 2.6,2.9, 3.0.
Página 7
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
1) Calcular la media, mediana, desviación estándar, media acotada al 5%, desviación estándar,
rango y coeficiente de variación.
Cada conjunto de datos ordenado tiene tres cuartiles que lo dividen en cuatro partes iguales. El
primer cuartil es ese valor debajo del cual clasifica el 25% de las observaciones y sobre el cual se
encuentra el 75% restante. El segundo cuartil divide a los datos a la mitad similar a la mediana.
Los deciles separan un conjunto de datos ordenado en 10 subconjuntos iguales y los percentiles en
100 partes, la ubicación de un percentil se encuentra en:
P
L p (n 1)
100
Donde:
3 10 19 27 34 38 48 56 67 74
4 12 20 29 34 39 48 59 67 74
7 14 21 31 36 43 52 62 69 76
9 15 25 31 37 45 53 63 72 79
10 17 27 34 38 47 56 64 73 80
35
L35 (50 1) 17.85
100
O sea que el percentil 35 está al 85% del trayecto comprendido entre la observación 17 que es 29 y
la observación 18 que es 31 o sea L35 = 29 + (0.85)(31-29) = 30.7. Por tanto el 35% de las
observaciones están por debajo de 30.7 y el 65% restante por encima de 30.7.
De la misma forma los percentiles 25, 50 y 75 proporcionan la localización de los cuartiles Q1, Q2 y
Q3 respectivamente.
Q1: es el número que representa al percentil 25 (hay 25% de los datos por debajo de este).
Q2 o Mediana: es el número que representa al percentil 50 (hay 50% de los datos por
debajo de este).
Q3: es el número que representa al percentil 75 (hay 75% de los datos por debajo de este).
Página 8
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
DIAGRAMA DE CAJA
1 10 4
1050
Q3 + 1.5 RIC
Q3
Weight
950
Q2 Mediana
Q1
850
Q1 – 1.5RIC
Rango
Intercuartílico =
RIC = Q3 – Q1 Valores atípicos Bigotes
Cuando tenemos una cantidad grande de datos es difícil poder analizarlos, a menos que hagamos
uso de herramientas que nos permitan hacerlo con mayor facilidad y claridad. El histograma es una
de ellas, consiste en un diagrama de barras donde las bases corresponden a los intervalos y las
alturas a las frecuencias. Para construir un histograma es necesario tener un mínimo de 50 a 100
datos. Se tienen las siguientes definiciones:
Página 9
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Ejemplo 6
2.41 17.87 33.51 38.65 45.70 49.36 55.08 62.53 70.37 81.21
3.34 18.03 33.76 39.02 45.91 49.95 55.23 62.78 71.05 82.37
4.04 18.69 34.58 39.64 46.50 50.02 55.56 62.98 71.14 82.79
4.46 19.94 35.58 40.41 47.09 50.10 55.87 63.03 72.46 83.31
8.46 20.20 35.93 40.58 47.21 50.10 56.04 64.12 72.77 85.83
9.15 20.31 36.08 40.64 47.56 50.72 56.29 64.29 74.03 88.67
11.59 24.19 36.14 43.61 47.93 51.40 58.18 65.44 74.10 89.28
12.73 28.75 36.80 44.06 48.02 51.41 59.03 66.18 76.26 89.58
13.18 30.36 36.92 44.52 48.31 51.77 59.37 66.56 76.69 94.07
15.47 30.63 37.23 45.01 48.55 52.43 59.61 67.45 77.91 94.47
16.20 31.21 37.31 45.08 48.62 53.22 59.81 67.87 78.24 94.60
16.49 32.44 37.64 45.10 48.98 54.28 60.27 69.09 79.35 94.74
17.11 32.89 38.29 45.37 49.33 54.71 61.30 69.86 80.32 96.78
Paso 4: Calcular el tamaño del intervalo de clase ( C ), dividiendo el rango entre el número de
94.37
columnas: C = 8.58 9 , resultando el tamaño del intervalo 9.
11
Paso 5: Calcular los limites de clase de cada intervalo: [0-8], [ 9-17], etc., considerando que el
tamaño del intervalo representa la diferencia entre dos límites de clase adyacentes ya sean
inferiores o superiores.
Página 10
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Paso 6: Contar el número de valores que caen en cada intervalo utilizando una hoja de registro, de
esta manera se obtiene la frecuencia para cada intervalo.
Tabla 1.
Columna Intervalo Registro de frecuencias
1 0 -8 IIIII 5
2 9-17 IIIII IIII 9
3 18-26 IIIII I 6
4 27-35 IIIII IIIII I 11
5 36-44 IIIII IIIII II 17
6 45-53 IIIII IIIII IIIII IIIII IIIII III 28
7 54-62 IIIII IIIII IIIII III 18
8 63-71 IIIII IIIII III 13
9 72-80 IIIII IIIII 10
10 81-89 IIIII III 8
11 90-98 IIIII 5
Histograma
30
25
20
Frecuencia
15 Frecuencia
10
5
0
9 18 27 36 45 54 63 72 81 90 99
Clase
Con Minitab: Stat > EDA > Steam and leaf… Indicar columna de datos, increment = 10
Stem-and-leaf of Respuest N = 50
Leaf Unit = 1.0
2 6 89
Página 11
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
8 7 233566
16 8 01123456
(11) 9 12224556788
23 10 002466678
14 11 2355899
7 12 4678
3 13 24
1 14 1
Xg
fM
n
Donde
Ejemplo:
3935
Xg 78.7
50
Primero se identifica la clase donde se encuentra la mediana cuya F es >= n / 2, en este caso la
clase de 70 a 79 con punto central de clase = 74.5.
~ n/2 F 50 / 2 10
Mediana X Lmd (C ) 70 10 78.33 pasajeros
f md 18
Página 12
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Donde:
Primero se halla la clase que tenga la frecuencia más alta, en este caso la clase 70 a 79.
Da 18 7
Moda Lmo (C ) 70 10 76.47
Db Da (18 12) (18 7)
Donde:
Lmo es el límite inferior de la clase modal con la frecuencia más alta (70).
Da es la diferencia entre la frecuencia de la clase modal y la clase que la antecede (18 – 7 = 11)
Db es la diferencia entre la frecuencia de la clase modal y la clase que le sigue (18 – 12 = 6)
C es el intervalo de la clase modal ( 80 – 70 = 10 )
s2
fM 2
nX 2
n 1
s s 2
3935
Xg 78.7
50
316902.50 50(78.7) 2
s2 147.31 pasajeros
49
s 12.14 pasajeros
EL TEOREMA DE TCHEBYSHEV
1
Establece que para todo conjunto de datos por lo menos (1 )% de las observaciones se
K2
encuentran dentro de K desviaciones estándar de la media, con K >= 1.
Por ejemplo si K = 3 desviaciones estándar respecto a la media, se tiene que por lo menos el:
1 1
(1 2
)% 1 2 % 88.89%
K 3
SESGO
En la distribución normal si no es simétrica y tiene una cola más amplia del lado derecho, se dice
que existe un sesgo a la derecha y viceversa.
3( X Mediana)
P
s
Si P < 0 los datos están sesgados a la izquierda, si P > 0 están sesgados a la derecha; si P = 0
están distribuidos normalmente.
Página 14
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
3(78.7 78.33)
P 0.03 Los datos están un poco sesgados hacia la derecha.
12.14
Coeficiente de asimetría de Fisher
Otra estimación del sesgo o coeficiente de asimetría se hace a través de momentos estadísticos
(diferencias contra la media) como lo sugiere Fisher:
(X i X)j
Mj i 1
j 1, 2,3, 4
n
1 n
M3
( Xi X ) 3
n i 1
Sesgo ˆ1 o 1 3/ 2 Para la distribución normal debe ser 0.
M 23 / 2 1 n
( Xi X ) 2
n i 1
Se puede considerar que una distribución es simétrica si 1 0 , asimétrica hacia la izquierda con
1 0 o hacia la derecha 1 0 .
Por ejemplo:
Ejemplo de una distribución con sesgo negativo o sesgada hacia la izquierda con Sesgo = -1.01
Página 15
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Ejemplo de una distribución con sesgo positivo o sesgada hacia la derecha con Sesgo = 1.08
CURTOSIS
1 n
M4
n i 1
( Xi X ) 4
Kurtosis 2 - 3 o 2 2
3 Para la distribución normal debe ser 0.
M 22 1 n
( Xi X ) 2
n i 1
Página 16
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Para la obtención de las estadísticas descriptivas con Minitab las instrucciones son:
Stat > Basic statistics > Display descriptive statistics
Indicar las variables de las cuales se quieren obtener las estadísticas básicas y la variable categórica
si se desean varios grupos.
Seleccionar las gráficas opcionales para los datos: Histograma, diagrama de caja y de puntos.
Página 17
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Boxplot of Caja
22.5
20.0
17.5
15.0
Caja
12.5
10.0
7.5
5.0
Página 18
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Histograma en Minitab:
Histogram of DATOS
40
30
Frequency
20
10
0
-10 20 50 80 110
DATOS
60
50
40
30
20
10
5
0.1
0 30 60 90 120
DATOS
Página 19
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
USO DE EXCEL
Columna1
50.053769
Media 2
Error típico 1.9738137
Mediana 49.345
Moda 50.1
Desviación 22.504938
estándar 8
Varianza de la
muestra 506.47227
Curtosis -0.4466339
Coeficiente de
asimetría -0.0352296
Rango 94.37
Mínimo 2.41
Máximo 96.78
Suma 6506.99
Cuenta 130
Página 20
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
EJERCICIOS:
1. Las empresas de generación de energía eléctrica están interesadas en los hábitos de consumo de
los clientes para obtener pronósticos exactos de las demandas de energía. Una muestra de
consumidores de 90 hogares con calefacción de gas arrojó lo siguiente (FURNACE.MTW):
BTU.In_1
2.97 7.73 9.60 11.12 13.47
4.00 7.87 9.76 11.21 13.60
5.20 7.93 9.82 11.29 13.96
5.56 8.00 9.83 11.43 14.24
5.94 8.26 9.83 11.62 14.35
5.98 8.29 9.84 11.70 15.12
6.35 8.37 9.96 11.70 15.24
6.62 8.47 10.04 12.16 16.06
6.72 8.54 10.21 12.19 16.90
6.78 8.58 10.28 12.28 18.26
6.80 8.61 10.28 12.31
6.85 8.67 10.30 12.62
6.94 8.69 10.35 12.69
7.15 8.81 10.36 12.71
7.16 9.07 10.40 12.91
7.23 9.27 10.49 12.92
7.29 9.37 10.50 13.11
7.62 9.43 10.64 13.38
7.62 9.52 10.95 13.42
7.69 9.58 11.09 13.43
d) Establecer conclusiones
Página 21
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
HERRAMIENTAS ESTADÍSTICAS
Página 22
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Básicamente es un formato que facilita que una persona pueda tomar datos en una forma ordenada
y de acuerdo al estándar requerido en el análisis que se esté realizando.
DIA
DEFECTO 1 2 3 4 TOTAL
Tamaño erróneo IIIII I IIIII IIIII III IIIII II 26
Forma errónea I III III II 9
Depto. Equivocado IIIII I I I 8
Peso erróneo IIIII IIIII I IIIII III IIIII III IIIII IIIII 37
Mal Acabado II III I I 7
TOTAL 25 20 21 21 87
Página 23
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Herramienta utilizada para el mejoramiento de la calidad para identificar y separar en forma crítica
las pocas causas que provocan la mayor parte de los problemas de calidad. El principio enuncia que
aproximadamente el 80% de los efectos de un problema se debe a solamente 20% de las causas
involucradas.
El diagrama de Pareto es una gráfica de dos dimensiones que se construye listando las causas de
un problema en el eje horizontal, empezando por la izquierda para colocar a aquellas que tienen un
mayor efecto sobre el problema, de manera que vayan disminuyendo en orden de magnitud. El eje
vertical se dibuja en ambos lados del diagrama: el lado izquierdo representa la magnitud del efecto
provocado por las causas, mientras que el lado derecho refleja el porcentaje acumulado de efecto de
las causas, empezando por la de mayor magnitud.
Ejes verticales:
- Eje izquierdo: Marque este eje con una escala desde 0 hasta el total general
- Eje derecho: Marque este eje con una escala desde 0 hasta 100%
Eje horizontal:
- Divida este eje en un número de intervalos igual al número de categorías clasificadas.
8. Dibuje la curva acumulada (curva de Pareto), Marque los valores acumulados (porcentaje
acumulado) en la parte superior, al lado derecho de los intervalos de cada categoría, y conecte
los puntos con una línea continua.
9. Escriba en el diagrama cualquier información que considere necesaria para el mejor
entendimiento del diagrama de Pareto.
Página 24
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
50 99.94
98.52
97.7
95.68
94.26
91.41
87.13
N %
O 78.56
A
D C
68.56
E U
M
Q U
U L
25 35.71
E A
J
23 D
A O
S 7
6
3
2
1
A B C D E F G H I J
Las quejas A,B y C representan el 78.56%, siendo en estas en las que debemos de enfocarnos primero a resolver.
Página 25
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
PARETO CHART
70 100
60
80
50
Percent
60
Count
40
30 40
20
20
10
0 0
Defect
Count 25 23 7 6 3 2 1 3
Percent 35.7 32.9 10.0 8.6 4.3 2.9 1.4 4.3
Cum % 35.7 68.6 78.6 87.1 91.4 94.3 95.7 100.0
En la gráfica se observa que aprox. el 80% de los efectos es debido a los defectos A, B y C.
5
Count
0
Period = Night Period = Weekend
20
15
10
0
Peel Scratch Other Smudge
Flaws
Página 26
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Página 27
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Para comenzar con el proceso de tormenta de ideas, en el cual se genera información la gente se
reúne en una sala en la cual se recomienda la disposición de las mesas en forma de “U” para facilitar
el debate. La gente que participa en la sesión deberá de pertenecer a diferentes áreas o tener
puntos de vista diferentes, esto con el objeto de enriquecer la sesión.
La técnica tormenta de ideas puede ser aplicada con gran frecuencia al llevar a cabo otras
herramientas, como por ejemplo, diagramas causa-efecto (Ishikawa), Diagrama de relaciones,
Diagrama de árbol, planes con 5W-1H, Diseño de experimentos, pruebas de confiabilidad, etc.
EJERCICIO: Realizar una lluvia de ideas para solucionar el problema de llegar a tiempo a algún
lugar.
Página 28
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Es utilizado para explorar e identificar todas las causas posibles y relaciones de un problema (efecto)
o de una condición específica en las características de un proceso.
Los pasos para elaborar el diagrama de causa- efecto son los siguientes:
Ejemplo1
Se detectaron fallas en la soldadura de partes, por lo cual se procedió a realizar una investigación
utilizando el diagrama causa-efecto.
1
Tomado de: Alberto Galgano, Los siete instrumentos de la Calidad Total, ediciones Díaz de Santos,1995
Página 29
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Métodos
Materiales
Mediciones
Medio ambiente
Estas constituyen las causas primarias del problema y es necesario desafiarlas para encontrar
causas más específicas secundarias y terciarias.
Se construye el diagrama espina de pescado con las causas primarias (M´s), a partir de estas
causas se agrupan las causas secundarias y terciarias derivadas de la lluvia de ideas.
DIMENSIONES
VELOCIDAD DE
INADECUADAS FORMACION
FUERA DE AVANCE
DIMENSIONES TEMPERATURA HABILIDAD
ESPECIFICADS
ANGULO LIMITES
INCORRECTO DE PUNTA OXIDADA ERGONOMICOS
FORMA
LA FLAMA PUNTA
SOLDADURA DEFECTUOSA
UNION
SUPERFICIE SOLDADURA
S CON LACA DE
POLVO E SECUENCIA PROTECCION
IMPUREZAS SOLDADURA
TIEMPOS DE TERMINALES
ESPERA DESOXIDANTE
CORTOS OXIDADOS
MEDIO AMBIENTE MÉTODOS MATERIALES
En el ejemplo anterior las causas primarias fueron agrupadas en (M’s): mediciones, máquinas,
mano de obra,medio ambiente, métodos y materiales. Es posible realizar este diagrama con causas
primarias diferentes a las M´s, por ejemplo:
Problema: Por que el servicio “ABC”, no satisface los requerimientos del cliente. Las causas
primarias en las que se puede organizar este problema son las siguientes:
Proceso 1
Proceso 2
Proceso 3
Página 30
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Proceso 4
Diagrama de Causa Efecto en Minitab
1. Llenar las columnas C1 a C5 con las diferentes causas correspondientes a los conceptos de
Personal, Máquinas, Materiales, Métodos, Mediciones y Medio ambiente.
2. Stat>Quality Tools>Cause and Effect Diagram
3. Introducir los datos en la pantalla de entrada, indicando el problema en Effect y aceptar con
OK.
Cause-and-Effect Diagram
Measurements Material Personnel
Polvo
Forma Salud
Vibraciones
Dureza Habilidad
Humedad
Almacén Humor
Temperatura
Problema de
soldadura
Herramental
Velocidad
Abrasión
Deformación
Ajuste
Mantto.
Methods Machines
EJERCICIO: Realizar un Diagrama de Causa Efecto para el problema de llegara tiempo al trabajo.
Página 31
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Usos:
• Saber el comportamiento de un sistema o proceso durante el tiempo.
• Tomar las acciones correctivas a tiempo si la tendencia afectará en forma negativa.
USO DE MINITAB
1. Stat> Time Series > Trend Análisis Variable: % de errores
2. Time > Stamp Semana OK
Accuracy Measures
0.12
MAPE 62.6253
MAD 0.0193
0.10
% Errores
MSD 0.0007
0.08
0.06
0.04
0.02
0.00
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Semana
EJERCICIO: Hacer una carta de tendencias con datos reales de alguna situación particular.
Página 32
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Proveen una secuencia gráfica de cada uno de los pasos que componen una operación desde el inicio hasta el
final. Permitiendo una mejor visualización y comprensión del proceso.
Los diagramas de flujo pueden minimizar grandes volúmenes de documentación, como la del ISO 9000.
Facilitan el desarrollo de Procedimientos Estándar de Operación.
Al tener un procedimiento de operación estándar se reduce en gran medida la variación y el tiempo de ciclo.
Los diagramas de flujo permiten detectar áreas de mejora en los procesos.
Descripción de símbolos
En la construcción de diagramas de flujo de procesos se utilizan los símbolos descritos a continuación:
2. Definir todos los pasos que componen el proceso: el equipo de trabajo anota en tarjetas los diferentes
pasos que conforman el proceso, con este método el equipo puede arreglar y ordenar los pasos del proceso.
3. Conectar las actividades: Cuando los pasos que componen el proceso han sido descritos se construye el
diagrama de flujo, conectando las actividades mediante flechas, cada símbolo debe describir la actividad que
se realiza con pocas palabras.
4. Comparar el proceso actual con el proceso considerado como “ideal” las siguientes preguntas pueden
servir de guía:
¿Existen pasos demasiado complejos? ¿Existe duplicidad o redundancia? ¿Existen puntos de control para
prevenir errores? ¿deberían de existir? ¿El proceso funciona en la manera en la cual debería de hacerse? ¿Se
puede realizar el proceso de diferente manera?
5. Mejoras del proceso: Una vez que se contestan las preguntas mediante tormenta de ideas se realizan
mejoras. Definiendo los pasos que agregan valor y los que no agregan se puede llevar a cabo una
simplificación sustancial del proceso. Las mejoras son priorizadas y se llevan a cabo planes de acción.
6. Implementar el nuevo procedimiento: Una vez realizadas las mejoras se dan a conocer a las personas
involucradas en el proceso y se verifica su efectividad.
Página 33
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Ventajas
2
Adaptado de Hamid Noori/Russell Radford, Administración de Operaciones y producción, Ed. Mc.Graw
Hill Pp.282
Página 34
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
La relación entre dos variables se representa mediante una gráfica de dos dimensiones en la que
cada relación está dada por un par de puntos (uno para cada variable).
La variable del eje horizontal x normalmente es la variable causa, y la variable del eje vertical y es la
variable efecto.
La relación entre dos variables puede ser: positiva o negativa. Si es positiva, significa que un
aumento en la variable causa x provocará una aumento en la variable efecto y y si es negativa
significa que una disminución en la variable x provocará una disminución en la variable y.
Por otro lado se puede observar que los puntos en un diagrama de dispersión pueden estar muy
cerca de la línea recta que los atraviesa, o muy dispersos o alejados con respecto a la misma. El
índice que se utiliza para medir ese grado de cercanía de los puntos con respecto a la línea recta es
el índice de correlación r. En total existen cinco grados de correlación: positiva evidente (r = 1),
positiva, negativa evidente (r = -1), negativa y nula (r = 0).
15 15
10
Y
10
5
5
0
0 5 10 15 20 25 Sin Correlación 0
0 5 10 15 20 25
X 25 X
20
15
Correlación 10
Y
5
Correlación
25
Positiva 0 Negativa
0 5 10 15 20 25 25
20
X 20
15
15
Y
10
Y
10
5
5
0
0 5 10 15 20 25 0
0 5 10 15 20 25
X
X
Página 35
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
APLICACIONES
Las herramientas para la mejora continua se emplean de manera ideal en los casos siguientes:
Es posible emplear las nuevas herramientas para la mejora continua en varias fases del diagrama de
mejora es posible emplear más de una en cada paso y se deberá elegir la herramienta correcta para
el trabajo.
Página 36
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Página 37
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Es una herramienta que se emplea para organizar grandes cantidades de información agrupando los
aspectos de la misma con base en relaciones clave entre ellos; también se conoce como método KJ.
Cuando se emplea este diagrama, se organizan las ideas o áreas generales de problemas para
adquirir la comprensión de un problema o asunto complejo, así como para identificar las causas
potenciales de un problema. La herramienta ayuda a mejorar el compromiso y el apoyo del equipo.
PASOS
1. Reunir el equipo y elegir un líder.
a. El equipo deberá consistir en 5 o 6 personas que estén relacionados con el
problema.
2. Establecer el asunto o problema en forma de pregunta.
3. Realizar una tormenta de ideas respecto al problema o aspecto y registrarla en fichas de
trabajo.
a. Sólo una idea por tarjeta
b. Máximo siete palabras por tarjeta
c. Cada tarjeta deberá contener un sustantivo y un verbo
4. Desplegar las tarjetas en una mesa grande o muro.
5. Acomodar las tarjetas en pilas similares o por “familias”.
6. Crear tarjetas de encabezado
7. Dibujar el diagrama de afinidad
a. Trazar un círculo en torno a cada agrupamiento y conectar este con la tarjeta de
encabezado
b. El diagrama queda completo cuando el equipo alcanza el consenso y etiqueta el
diagrama con el nombre del equipo y la fecha
8. Discutir el diagrama de afinidad
Página 38
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
Una gráfica doble de interrelaciones es una herramienta gráfica que se emplea para organizar
problemas o aspectos complejos y que implican muchas variables, se emplea para estudiar las
relaciones entre los elementos de un problema e identificar las causas raíz o las soluciones, es
similar al diagrama de afinidad en la medida que el proceso de construcción de una gráfica doble
interrelaciones es creativo.
Ayuda a identificar las causas potenciales de un problema. A diferencia del diagrama de causa y
efecto, la gráfica permite que el equipo de solución de problemas observe al mismo tiempo muchos
efectos y trace la relación entre dichos efectos y varias causas.
PASOS
1. Reunir el equipo y elegir un líder.
2. Poner el asunto o problema en forma de pregunta.
a. Es posible elegir dicho asunto o problema de las siguientes fuentes:
- El aspecto clave o la tarjeta de encabezado más crítica de un diagrama de
afinidad.
- La declaración de efecto de un diagrama de causa y efecto
- El aspecto clave de un diagrama de árbol
- Un aspecto clave identificado por el equipo
3. Realizar una tormenta de ideas respecto al problema o aspecto y registrarla en fichas de
trabajo.
- Si la declaración del problema se originó en un diagrama de afinidad, usar las
tarjetas de encabezado de éste y realizar una tormenta de ideas para buscar
ideas adicionales
- Si la declaración del problema se tomó del efecto en un diagrama de causa y
efecto, copiar las causas más básicas de cada uno de los “huesos” del
diagrama en fichas de trabajo
Página 39 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
- Si la declaración del problema se originó en un diagrama de árbol, usar el nivel
más bajo de detalle de éste
- Si la declaración del problema fue un aspecto clave identificado por el equipo,
es preciso hacer una tormenta de ideas y colocar estas en tarjetas de índice
4. Analizar las relaciones.
5. Revisar la gráfica doble de interrelaciones.
6. Identificar causas y efectos raíz.
a. Una causa raíz es una categoría de la que sale la gran cantidad de flechas.
b. Un efecto raíz es una categoría a la que llega una gran cantidad de flechas.
7. Estudiar la gráfica doble de interrelaciones.
Un diagrama de árbol (diagrama sistemático) es una técnica que se emplea para buscar la forma
más apropiada y eficaz de alcanzar un objetivo específico. Esta herramienta gráfica de diagrama los
diversos niveles de detalle, estos representan acciones (o tareas) que siguen rutas lógicas para
implantar un objetivo amplio. Al implantar los puntos detallados de acción, se crea un efecto de
dominio que lleva al logro del objetivo principal.
Cuando se trabaja sobre un objetivo amplio, un diagrama de árbol ayuda a orientar tareas
específicas, es posible emplearlo para planear la implantación de una solución detallada en forma
ordenada. El diagrama de árbol funciones para dividir un aspecto u objetivo más complejo.
PASOS
1. Reunir un equipo apropiado.
2. Elegir la declaración de objetivo.
c. Es posible elegir dicho asunto o problema de las siguientes fuentes:
- El aspecto clave o la tarjeta de encabezado más crítica de un diagrama de
afinidad.
- La declaración de efecto de un diagrama de causa y efecto
- El aspecto clave de un diagrama de árbol
- Un aspecto clave identificado por el equipo
3. Generar los encabezados de primer nivel del árbol.
Página 40 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
a. Como punto de inicio, usar los siguientes tres encabezados de primer nivel del árbol
- Si el objetivo es un aspecto clave de un diagrama de afinidad, usar las tarjetas
de encabezado. Si el objetivo es la tarjeta crítica de encabezado, usar las
tarjetas bajo tal encabezado
- Si el objetivo es una causa o efecto raíz de una gráfica doble de interrelaciones,
usar las tarjetas que llevan a ella
- Si el objetivo es un aspecto clave identificado por el equipo, realizar una
tormenta de ideas cuyo enfoque sea la implantación
4. Completar el diagrama de árbol bajo cada encabezado principal.
5. Revisar el diagrama de árbol terminado.
Los diagramas matriciales son herramientas que se emplean para revelar las correlaciones entre
ideas, tares y responsabilidad y que aparecen en diversas formas matriciales, es posible emplear
estas herramientas para organizar y comparar dos o más conjuntos de artículos para mostrar cuales
de ellos están relacionados, asimismo pueden mostrar la fortaleza estadística y la dirección de
influencia de cada relación.
Los diagramas matriciales se emplean para mostrar la relación entre las tareas de un diagrama de
árbol y otras características o funciones, son herramientas de extrema flexibilidad, pueden manejar
cualquier tipo de contenido de información y comparar cualquier número de variables.
- Forma de L
Página 41 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
- Forma de T
- Forma de Y
- Forma de X
- Forma de C
Es posible crear diagramas matriciales para mostrar diversos tipos de relaciones, una forma de
usarlos es desarrollar las nuevas actividades contra lo que en ese momento hace una organización,
para desplegar una solución genérica.
PASOS
1. Reunir a un equipo apropiado.
2. Elegir las consideraciones clave.
a. ¿Qué tipo de información se desea mostrar en la matriz?
3. Elegir la forma apropiada de la matriz.
a. Decidir el tipo de forma que permitirá obtener la mejor información:
- Forma de L: 2 consideraciones clave
- Forma de T: 3 consideraciones clave con relaciones directas e indirectas
- Forma de Y: 3 consideraciones clave con relaciones directas
- Forma de X: 4 consideraciones clave con relaciones directas e indirectas
- Forma de C: 3 consideraciones clave con relaciones simultáneas
4. Definir los símbolos de relación a emplear y crear una leyenda.
5. Concluir la matriz.
Las matrices de prioridades son herramientas para tomas decisiones. Utilizando criterios ponderados
y acordados, se emplean tales herramientas para asignar prioridades a aspectos, tareas u opciones
posibles. Se basan en la combinación de un diagrama de árbol y uno matricial.
Pueden ayudar a reducir el número de opciones; de modo que sea posible tomar decisiones con
mayor facilidad, debido a que las matrices de prioridades proporcionan un enfoque lógico a la
elección de un conjunto de opciones, son ideales para elegir un problema para que lo ataque el
equipo y estrechar una lista de soluciones potenciales para un problema.
PASOS
Cambiar fecha de
reunión
Reservar sala de Sala de reuniones no
reuniones disponible
Reservar otro sitio
Rentar equipo
audiovisual
Planeación de una Verificar equipo Equipo audiovisual no
reunión audiovisual disponible
Reservar otro sitio
Banquete no
Ordenar a otro
disponible
proveedor
Efectuar los
arreglos de
alimentación
Solicitar un menú
distinto
Menú no
disponible
= Seleccionado Ordenar otro proveedor
= No factible de banquetes
Una gráfica de programa de decisión del proceso (GPDP) es una herramienta dinámica de
planeación que se emplea para diagramar en forma sistemática todas las posibles cadenas de
eventos para alcanzar un objetivo amplio o para implantar una solución compleja.
Se enumeran todos los eventos concebibles y una contramedida apropiada en este flujo cronológico,
se emplea este método cuando existe incertidumbre en un proceso de implantación, cuando el
problema u objetivo es único o desconocido.
Las gráficas de programa de decisión del proceso se clasifican por las herramientas que se emplea:
GPDP “planeado por adelantado”: anticipan lo “inesperado” antes de la implantación
verdadera. Se efectúa una tormenta de ideas de todas las distintas posibilidades y se
elaboran planes de contingencia con anticipación.
GPDP en tiempo real: se desarrollan alternativas durante la implantación.
Se emplea una GPDP para describir de manera sistemática una solución u objetivo complejos, otro
propósito es probar teorías durante la implantación de una solución compleja.
PASOS
Página 43 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
1. Reunir el equipo apropiado.
2. Elegir el flujo básico de implantación.
3. Elegir el formato de la gráfica.
4. Establecer el objetivo principal.
5. Enumerar los pasos del proceso.
6. Determinar contramedidas.
7. Evaluar las contramedidas.
- Evaluar las contramedidas y marcarlas en la forma siguiente
= Seleccionada
= No factible
Un diagrama de redes de actividades (también conocido como diagrama de flechas) es una técnica
de administración de redes de uso generalizado para la planeación e implantación de tareas
complejas, e particular las mas comunes que cuentas con subtareas conocidas. Es una combinación
de la Técnica de Revisión y Evaluación y Programas (PERT) y el Método de Ruta Crítica (CPM).
Se emplea el diagrama de redes de actividades para desplegar soluciones complejas con programas
muy estrictos de tiempo. Identifica los pasos y subtareas y muestra el flujo de rutas simultáneas de
implantación
PASOS
1. Reunir el equipo apropiado.
a. Los miembros del equipo deberán conocer a fondo las tareas y subtareas
2. Identificar todas las tareas que requiere el proyecto.
3. Determinar la secuencia de actividades.
4. Calcular el tiempo que se requiere cada actividad.
5. Calcular la ruta crítica del proyecto.
6. Calcular la fecha más tardía de inicio y más temprana de conclusión de cada subtarea.
7. Calcular la holgura total.
8. Diseñar el diagrama de redes de actividades.
Página 44 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
# Favorable E
P E
# Total resultados
1
Ejemplo 1: La probabilidad de que salga 2 al lanzar un dado es: .16
6
1
Ejemplo 2: La probabilidad de lanzar una moneda y que caiga cara es: .5
2
Ejemplo 3: La probabilidad de sacar 1,2,3,4,5, o 6 al lanzar un dado es:
1 1 1 1 1 1
1
6 6 6 6 6 6
Probabilidad Compuesta
Es la probabilidad compuesta por dos eventos simples relacionados entre sí.
En la composición existen dos posibilidades: Unión o Intersección .
Unión de A y B
Si A y B son eventos en un espacio muestral (S), la unión de A y B A B contiene todos los
elementos de el evento A o B o ambos.
Página 45 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
Intersección de A y B
Si A y B son eventos en un espacio muestral S, la intersección de A y B A B está compuesta
por todos los elementos que se encuentran en A y B.
Ejemplo 4: En el evento A (día nublado), P(A) = .3, la probabilidad de tener un día despejado será
1-P(A) = .7
P A .7
P(A)=.3
2. Probabilidad condicional: Para que se lleve a cabo un evento A se debe haber realizado el
evento B. La probabilidad condicional de un evento A dado que ha ocurrido el evento B es:
P A B
P A B , si B 0
P B
P A B 0 .2
P A B = 0.67
P B 0 .3 A
P(A/B)=.67 B
RAZÓN DE LA
QUEJA
Falla eléctrica Falla mecánica Falla apariencia Total
En garantía 18% 13% 32% 63%
Fuera de garantía 12% 22% 3% 37%
Total 30% 35% 35% 100%
Página 46 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
Si A es el evento de que la queja es por apariencia y que B representa que la queja ocurrió en el
periodo de garantía. Se puede calcular P(Z | B) = P(A y B) / P(B)
Se dice que dos eventos A y B son independientes si: P(A/B) = P(A) o P(B/A) = P(B).
La probabilidad de la ocurrencia de uno no está afectada por la ocurrencia del otro. De otra
manera los eventos son dependientes.
Cuando un evento A no contiene elementos en común con un evento B, se dice que estos son
mutuamente excluyentes.
A B
1 1 1
a) P A B .33
6 6 3
Ley aditiva:
Cuando dos eventos no son mutuamente excluyentes:
P A B P A P B P A B
Ley multiplicativa:
Si los eventos A y B son dependientes:
Página 47 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
P A B P A P B A
Ejemplo 8: Se selecciona una muestra aleatoria n = 2 de un lote de 100 unidades, se sabe que 98
de los 100 artículos están en buen estado. La muestra se selecciona de manera tal que el primer
artículo se observa y se regresa antes de seleccionar el segundo artículo (con reemplazo), a)
calcule la probabilidad de que ambos artículos estén en buen estado, b) si la muestra se toma sin
reemplazo, calcule la probabilidad de que ambos artículos estén en buen estado.
b) Si la muestra se toma “sin reemplazo” de modo que el primer artículo no se regresa antes de
seleccionar el segundo entonces:
98 97
P A B P A P B A = .9602
100 99
Se observa que los eventos son dependientes ya que para que para obtener el evento B, se tiene
que haber cumplido antes el evento A.
B
P(B/A)=.97
A
P(A) =.98
Página 48 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
EJERCICIOS:
1. Tres componentes forman un sistema. Como los componentes del subsistema 2-3 están
conectados en paralelo, trabaja si por lo menos uno de ellos funciona. Para que trabaje el
sistema debe trabajar el componente 1 y el subsistema 2-3.
a) ¿Qué resultados contiene un evento A donde funcionan exactamente dos de los tres
componentes?
b) ¿Qué resultados están contenidos en el evento B en el que por lo menos funcionan dos los
componentes?
1
3
2. En una planta los trabajadores trabajan 3 turnos. En los últimos años ocurrieron 200 accidentes.
Algunos se relacionan con condiciones inseguras y otros a condiciones de trabajo, como se muestra
a continuación:
Página 49 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
Si se elige al azar uno de los 200 informes de accidentes de un archivo y se determina el turno y tipo
de accidente:
3. La ruta que usa un automovilista tiene dos semáforos. La probabilidad de que pare en el primero
es de 0.4, la probabilidad de que pare en el segundo es de 0.5 y la probabilidad de que pare
por lo menos en uno es de 0.6. ¿Cuál es la probabilidad de que se detenga
a) En ambos semáforos?
c) Exactamente en un semáforo?
4. Una empresa construye tres plantas eléctricas en tres lugares diferentes. Se Ai el evento en el que
se termina la planta i en la fecha del contrato. Utilizar las notaciones de unión, intersección y
complemento para describir cada uno de los siguientes eventos, en términos de A1, A2 y A3,
mostrar en diagramas de Venn.
e) Se termina ya sea la planta del lugar 1 o las otras dos en la fecha del contrato.
Página 50 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
Supóngase que una persona tiene dos modos de ir de una ciudad A a otra ciudad B; y una vez
llegada a B, tiene tres maneras de llegar a otra ciudad C. ¿De cuántos modos podrá realizar el viaje
de A a C pasando por B?
a pie en avión
en carro
CIUDAD A CIUDAD B CIUDAD C
en bicicleta en trasatlántico
Evidentemente, si empezó a pie podrá tomar avión, carro o trasatlántico; y si empezó en bicicleta,
también podrá tomar avión, carro o trasatlántico.
Utilizando literales (las iniciales) el viajero tuvo las siguientes oportunidades: pa, pc, pt; ba, bc, bt.
Ejemplo 10: Dado el conjunto de las letras o, p, i , escribir todas las permutaciones empleando
las tres letras cada vez.
Solución: opi, oip, ipo, iop, pio, poi : son seis permutaciones posibles.
Solución: op, oi, io, ip, pi, po: son seis permutaciones.
Página 51 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
En la mayoría de los casos resulta muy complicado hacer las permutaciones manualmente
por lo cual utilizamos la siguiente fórmula:
n !
Prn
n r !
donde:
n = número total de elementos del conjunto
P = Permutaciones
r = número de elementos que se toman a la vez.
! = factorial.
Nota: 0! = 1
Ejemplo 12: ¿Se toman 3 números de lotería de un total de 50, de cuantas formas se pueden tomar
los números?
50 ! 50 !
P350 (50 49 48) 117 ,600
50 3 ! 47 !
Ejemplo 13: Un entrenador de basket ball tiene 9 jugadores igualmente hábiles, ¿cuántas quintetas
podrá formar?
9!
C59 126
4 ! 5 !
Ejemplo 14: Se extraen 5 cartas de una baraja de 52 cartas. Hallar la probabilidad de extraer (a) 4
ases, (b) 4 ases y un rey (c) 3 dieces y dos jotas,
4 C4 48 C1 1
a) P(4 ases) = =
52 C5 54145
4 C4 4 C1 1
b) P (4 ases y 1 rey) =
C5
52 649740
4 C3 4 C2 1
c) P (3 dieces y 2 jotas) =
52 C5 108290
Página 52 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
TEOREMA DE BAYES
Cuando existen dos eventos posibles A y B, la probabilidad de que ocurra Z se describe mediante el
“teorema de probabilidad total” el cual es:
P ( Z ) P A P Z A P B P Z B
P A P Z A
P A Z
P A P Z A P B P Z B
Ejemplo 8: En cierta universidad 20% de los hombres y 1% de las mujeres miden más de 1.80m de
altura. Asimismo 40% de los estudiantes son mujeres. Si se selecciona un estudiante al azar y se
observa que mide más de 1.80m ¿Cual es la probabilidad de que sea mujer?
=Z
Para encontrar la probabilidad de que sea mujer dado que mide más de 1.80,
Utilizando el teorema de Bayes:
P B P Z B
P B Z
P A P Z A P B P Z B
P(B/Z) = (.4 x .01)/ (.6 x .20 +.4 x .01) = .032. Hombre Mujer
Página 53 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
1. Una planta emplea 20 trabajadores en el turno diurno, 15 en el segundo y 10 en la noche. Se
seleccionan 6 para hacerles entrevistas exhaustivas. Suponer que cada uno tiene la
misma probabilidad de ser seleccionado de una urna de nombres.
a) ¿Cuántas selecciones dan como resultado seis trabajadores del turno diurno?
b) ¿Cuál es la probabilidad de que los 6 trabajadores sean seleccionados del mismo turno?
c) ¿Cuál es la probabilidad de que por lo menos dos turnos diferentes estén representados en la
selección?
d) ¿Cuál es la probabilidad de que por lo menos uno de los turnos no esté representado en la
muestra de trabajadores?
2. Una caldera tiene 5 válvulas de alivio idénticas. La probabilidad de que que en algún momento se
abra una de ellas es de 0.95. Si su operación es independiente, calcular la probabilidad de que por lo
menos se abra una de ellas. Y la probabilidad de que por lo menos no se abra una de ellas.
3. Dos bombas conectadas en paralelo fallan en determinado día, sin que haya dependencia mutua.
La probabilidad de que solo falle la bomba más vieja es de 0.10 y de que falle la bomba más nueva
es de 0.05. ¿Cuál es la probabilidad de que fallen ambas bombas al mismo tiempo?
3 4
Página 54 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
Variable aleatoria: Para un determinado espacio muestral SS una variable aleatoria (VA) es
cualquier regla que relaciona un número con cada resultado en SS.
Variable aleatoria discreta: Es una variable aleatoria cuyos posibles valores son enteros.
Variable aleatoria continua: Es una variable aleatoria cuyos valores posibles son los reales.
2. Suma (P(y)) = 1
Su fórmula es la siguiente:
Valor esperado:
Con propiedades:
0 F ( x) 1
Lim x F ( x ) 1
Lim x F ( x ) 0
Página 55 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
Valor esperado de una distribución de probabilidad discreta
La media o valor esperado de una variable aleatoria discreta X , denotada como E(X), es
X E ( X ) xf X ( x) xP( X x)
x x
Sea Y una variable aleatoria discreta con distribución de probabilidades P(X=x). Entonces , la
varianza de Y es:
X E[( X X ) 2 ] ( x X ) 2 P ( X x )
2
DISTRIBUCIONES DISCRETAS
DISTRIBUCIÓN UNIFORME
La variable aleatoria toma un numero finito de n valores, cada uno con igual probabilidad.
1
f ( x) P ( X x )
n
Con n = 10 se tiene:
( n 1)
X
2
n 1
2
X2
12
Página 56 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
DISTRIBUCIÓN HIPERGEOMÉTRICA
Se aplica cuando la muestra (n) es una proporción relativamente grande en relación con la población
(n > 0.1N). El muestreo se hace sin reemplazo
C xD CnNxD n!
P ( x ) C xn
Con x!( n x)!
CnN
La media y la varianza de la distribución hipergeométrica son:
USO DE EXCEL:
N = Tamaño de Población, n = Tamaño de muestra, D= éxitos en la población; x = éxitos en la
muestra.
En Fx Estadísticas seleccionar
=distr.hipergeom(x, n, D, N)
USO DE MINITAB:
Calc > Probability distributions > Hypergeometric
Probability (densidad) o Cumulative probability (acumulada)
N, D, n y en Input constant introducir x.
EJERCICIO:
1. Se compran 10 transformadores y se toma una muestra de 4. Si se encuentra uno o más
defectuosos se rechaza el lote de 10.
a) Si el lote tiene un defectuoso, ¿Cuál es la probabilidad de que se acepte el lote?
b) Cuál es la probabilidad de aceptar el lote si contiene 3 defectuosos.
Página 57 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
DISTRIBUCIÓN BINOMAL
Ensayo Bernoulli. Es un experimento aleatorio que solo tiene dos resultados. Éxito o fracaso.
Donde la probabilidad de éxito se denota por p
La distribución binomial se utiliza para modelar datos discretos y se aplica para poblaciones grandes
(N>50) y muestras pequeñas (n<0.1N). El muestreo binomial es con reemplazamiento.
Ejemplo: Un equipo requiere a lo más 10% de servicios en garantía. Para comprobarlo se compran
20 de estos equipos y se someten a pruebas aceleradas de uso para simular el uso durante el
periodo de garantía. Obtener la probabilidad para P(x<=4).
Rechazar la afirmación de que falla menos del 10% si se encuentra que X>=5.
USO DE EXCEL:
x = éxitos en la muestra, p = probabilidad de éxito, n = tamaño de muestra.
En Fx Estadísticas seleccionar
=distr.binom(x, n, p, 0 o 1 dependiendo si es puntual o acumulada)
USO DE MINITAB:
Calc > Probability distributions > Binomial
Probability (densidad) o Cumulative probability (acumulada)
n = number of trials, p = probability of success y en Input constant introducir x.
Página 58 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
EJERCICIOS:
1. Un panel solar tiene una vida útil de 5 años con una probabilidad de 0.95. Se toman 20 páneles
solares y se registró la vida útil.
c) ¿Si solo 10 paneles tienen una vida útil de 5 años, que debería pensarse sobre el valor verdadero
de P?
2. 20% de los teléfonos se reparan cuando todavía está vigente la garantía. De estos el 60% se
reparan mientras que el 40% se reemplazan. Si una empresa compra 10 de estos teléfonos, ¿Cuál
es la probabilidad de que exactamente sean reemplazados 2 en periodo de garantía?.
3. Suponga que solo 25% de los automovilistas se detienen por completo en un alto con luz roja
intermitente cuando no está visible otro automóvil. ¿Cuál es la probabilidad de que de 20
automovilistas seleccionados al azar se detengan:
4. De todas las plantas sólo el 5% descargan residuos por sobre la norma. Si se muestrean 20
plantas ¿Cuál es la probabilidad de que estén fuera de la ley:
c) Exactamente 3
d) Más de una
Página 59 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
DISTRIBUCIÓN BINOMIAL NEGATIVA
La variable de interés es X = número de fracasos que preceden al r-ésimo éxito. X se llama variable
aleatoria binomial negativa, ya que en contraste con la distribución binomial, el número de éxitos
es fijo y el número de ensayos aleatorio.
x r 1 r x
nb rx ;;( p) p (1 p) con X = 0, 1, 2, …..
r 1
Ejemplo: Se quieren reclutar 5 personas para participar en un nuevo programa. Si p = 0.2 la
probabilidad de que las personas quieran participar. ¿Cuál es la probabilidad de que se les deba
preguntar a 15 personas antes de encontrar a 5 que estén de acuerdo en participar?. Es decir si
S=(de acuerdo en participar),
¿Cuál es la probabilidad de que ocurran X=10 fracasos antes del r=quinto éxito?.
14 5 10
nb(10;5;0.2) 0.2 0.8 0.034
4
La probabilidad de que a lo sumo ocurran 10 fracasos (F) se les pregunte a lo sumo a 10 personas
es:
Página 60 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
10
x 4 x
P(X 10) nb(x,5,0.02) 0.2 0.8 0.164
5 10
X 0
x 0 4
Su media y varianza son las siguientes:
r (1 p )
E ( x )
p
r (1 p )
V ( x )
p2
USO DE EXCEL:
Página 61 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
Otra forma:
y 1
p( y) p r q yr
y r
r
p
rq
2 2
p
P = probabilidad de éxito en un solo intento
Q = 1-p
Y = Número de intentos hasta que se obtienen los r éxitos
a) ¿Cuál es la probabilidad de que el primer fusible defectuoso sea uno de los primeros 5 probados?
P= 0.1 q= 0.9
Para y = 1 hasta 5:
b) Encontrar la media, varianza y desviación estándar para y el número de fusibles probados hasta
que el primer fusible con falla es observado.
Sigma = 9.49
Página 62 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
DISTRIBUCIÓN DE POISSON
La distribución de Poisson se utiliza para modelar datos discretos como aproximación a la Binomial
dada la dificultad que existía de encontrar tablas Binomiales adecuadas cuando n es grande y p
pequeña. La distribución de probabilidad de Poisson proporciona buenas aproximaciones cuando np
<= 5.
Se aproxima a la binomial cuando p es igual o menor a 0.1, y el tamaño de muestra es grande (n >
16) por tanto np > 1.6.
Ejemplo 1. Suponga que una compañía de seguros asegura las vidas de 5000 hombres de 42 años
de edad. Si los estudios actuariales muestran que la probabilidad de que un hombre muera en cierto
año es 0.001, entonces la probabilidad de que la empresa pague exactamente 4 indeminizaciones
y= 4 en un cierto año es:
5000!
P ( y 4) p (4) (0.001) 4 (0.999) 4996
4!*4996!
El valor de esta expresión no aparece en tablas y su cálculo era difícil, no así con Excel.
4 e 5 4 e 5
P ( y 4) 0.1745
4! 4!
Ejemplo 2. Una planta tiene 20 máquinas, si la probabilidad de que falla una en cierto día es 0.05.
Encuentre la probabilidad de que durante un día determinado fallen dos máquinas.
np = 20 *0.05 = 1.0
12 e 1
P ( y 2) 0.184
2!
20!
P ( y 2) p (2) (0.05) 2 (0.95)18 0.188
2!*18!
La distribución de Poisson además de ser útil como aproximación de las probabilidades Binomiales,
constituye un buen modelo para experimentos donde Y representa el número de veces que ha
ocurrido un evento en una unidad dada de tiempo o de espacio. Por ejemplo:
Número de llamadas recibidas en un conmutador durante un día, conociendo el promedio por día.
Número de reclamaciones contra una empresa de seguros por semana, conociendo el prom. Sem.
Número de llegadas a una estación de servicio durante un minuto dado, conociendo el prom./min.
Número de ventas hechas por un agente de ventas en un día, conociendo el promedio por día.
USO DE EXCEL:
x = éxitos en la muestra, np = media.
En Fx Estadísticas seleccionar
=Poisson(x, np, 0 o 1 dependiendo si es puntual o acumulada)
USO DE MINITAB:
Calc > Probability distributions > Poisson
Probability (densidad) o Cumulative probability (acumulada)
n*p = mean y en Input constant introducir x.
Página 64 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
EJERCICIOS:
1. El 20% de los choferes son mujeres, si se seleccionan 20 al azar para una encuesta:
Usando la distribución binomial y la distribución de Poisson
a) ¿Cuál es la probabilidad de que dos choferes sean mujeres ?
b) ¿Cuál es la probabilidad de que al menos cuatro sean mujeres?
2. Se tienen 8 recepcionistas, estan ocupadas en promedio el 30% del tiempo, si 3 clientes llaman
¿la prob. De que estén ocupadas es mayor al 50%?
5. Un proceso de manufactura produce 1.2 defectos por cada 100 unidades producidas,
¿Cuál es la probabilidad de que las siguientes 500 unidades presenten X=3 defectos?
Página 65 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
DISTRIBUCIONES CONTINUAS DE PROBABILIDAD
Si F(y) es la función de distribución acumulada para una variable aleatoria continua entonces su
función de densidad f(y) para y es:
f(y) = dF(y) / dy
1. f(y) >= 0
f(y)
F(yo)
y
yo
Función de distribución acumulativa
Página 66 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
DISTRIBUCIÓN EXPONENCIAL
Se usa para modelar artículos con una tasa de falla constante y está relacionada con la distribución
de Poisson. Si una variable aleatoria x se distribuye exponencialmente, entonces el recíproco de x,
y = 1/x sigue una distribución de Poisson y viceversa.
x
1
f ( x) e e x
Donde Lambda es la tasa de falla y theta es la media.
El modelo exponencial, con un solo parámetro, es el más simple de todos los modelos de
distribución del tiempo de vida. Las ecuaciones clave para la exponencial se muestran:
P ( X x ) 1 e t
Página 67 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
Probabilidad de que el tiempo entre la ocurrencia de dos eventos cualquiera sea <= t
F(x)
Aquí se desea saber de que no transcurra más de cierto tiempo entre dos llegadas, sabiendo que se
tiene una tasa de llegadas .
USO DE EXCEL:
Lamda = 1/ media.
En Fx Estadísticas seleccionar
=distr.exp(x, lamda,1) = distr.exp(10,0.2,1) = 0.865
USO DE MINITAB:
Calc > Probability distributions > Exponential
Probability (densidad) o Cumulative probability (acumulada)
Indicar Threshold = 0 y en Scale indicar la media 5
En Input constant indicar la X del tiempo.
La Distribución Exponencial es usada como el modelo, para la parte de vida útil de la curva de la
bañera, i.e., la tasa de falla es constante. Los sistemas complejos con muchos componentes y
múltiples modos de falla tendrán tiempos de falla que tiendan a la distribución exponencial
Desde una perspectiva de confiabilidad, es la distribución más conservadora para predicción.
Las fallas ocurren en los sistemas con una distribución denominada Curva de la Bañera:
Página 68 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
La zona de tasa de fallas constantes, es modelada con La Distribución exponencial, muy aplicada a
la Confiabilidad, que es la probabilidad de que un equipo o componente sobreviva sin falla hasta un
periodo t bajo condiciones normales de operación:
R (t ) e t
Donde es la tasa media de falla y su inverso es el tiempo medio entre fallas (MTBF), o sea:
1
MTBF
Página 69 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
EJERCICIOS:
1. Sea X el tiempo entre dos solicitudes de servicio sucesivas a un departamento, si X tiene una
distribución exponencial con media = 10, calcular:
2. Las falla de los ventiladores de un equipo tiene un tiempo promedio de 25,000 Horas, ¿cuál es la
probabilidad de que
3. Un fabricante de equipos electrónicos ofrece un año de garantía. Si el equipo falla en ese periodo
por cualquier razón se reemplaza. El tiempo hasta una falla está modelado por la distribución
exponencial:
Página 70 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
Muchos eventos reales y naturales tienen una distribución de frecuencias cuya forma es muy
parecida a la distribución normal.
X
La Función de Distribución de Probabilidad (PDF) normal tiene forma de una campana con simetría
sobre su media definida por la siguiente ecuación:
1 1 t 2
f (t ) exp
2 2
Página 71 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
Existe una relación del porcentaje de población a la desviación estándar. En la figura observamos
por ejemplo que el área bajo la curva para 1 tiene un porcentaje de 68.26%, 2 = 95.46%
y 3 99.73%
68.26%
95.46%
99.73%
Página 72 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
La distribución de probabilidad f (Z) es una distribución normal estándar con media 0 y desviación
estándar 1; esto es Z se distribuye normalmente con media cero y desviación estándar = 1
Z~N(0,1): La gráfica de densidad de probabilidad se muestra en la figura.
F(z)
1
Nota: Excel proporciona el valor del área bajo la curva desde menos infinito hasta un valor dado de
Z.
F(z)=pr(Z z)
1.0
0.5
.01
Z
-4 -3 -2 -1 0 1 2 3 4
X
Página 73 de 129
x- 3s x-2s x-s x x+s x+2s x+3s
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
El valor de z
X
Z
Ejemplo 1: El gerente de personal de una gran compañía requiere que los solicitantes a un puesto
efectúen cierta prueba y alcancen una calificación de 500. Si las calificaciones de la prueba se
distribuyen normalmente con media 485 y desviación estándar 30 ¿Qué porcentaje de
los solicitantes pasará la prueba?
X 500 485
Z = 0.5
30
Buscamos el valor correspondiente Z en las tablas de distribución normal estándar o por medio de
Excel (=distr.norm.estand(0.05). Z0.5 = 0.69146 = 69.146%. siendo esta la probabilidad de que la
calificación sea menor a 500 P (X<500). Dado que el porcentaje pedido es P ( X 500) la solución
es 1-.69146 =0.3085 , 30.85% de los participantes pasarán la prueba.
485
3 0 .8 5 %
Z.0 5
Ejemplo 2:
Encuentre las probabilidades siguientes usando la tabla Z.
Página 74 de 129
-1.23 Z
0
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
Solución: Buscamos el valor Z1..23 en las tablas siendo este =0.89065. restando 0.89065-0.5 =
0.3905, este valor es la probabilidad de 0 a 1.23 que es exactamente la misma de –1.23 a 0 por
simetría. Por lo tanto la probabilidad es 0.3905
USO DE EXCEL
Seleccione la celda que contiene el valor de Z, que en este caso es Z= 1.3 , de clic en
aceptar y aparecerá la probabilidad buscada f(z)= 0.903199
Para calcular Z dada una probabilidad f(z)
En la barra de herramientas seleccione el icono de funciones
fx>Estadísticas>Distr.Norm.Estand.inv OK
De clic en aceptar. Procedemos de la misma manera que en el caso anterior, pero en esta
ocasión seleccionamos la probabilidad 0.93319
El valor Z = 1.4999
Ejemplo 3 : Suponga que una distribución normal dada tiene una media de 20 y una desviación
estándar de 4. Calcule la probabilidad P (X > 24).
Página 75 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
El resultado de la fórmula = 0.8413. , dado que esta es la probabilidad P(X 24), la probabilidad
buscada es:
USO DE MINITAB
4. En Input constant indicar el valor de Z (cumulative) para obtener el área bajo la curva o
proporcionar el área bajo la curva (Inverse cumulative) para obtener el valor de Z. OK
Página 76 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
7. Introducir los valores de los parámetros de la media en Mean y la sigma en Estándar
deviation.
8. En Input constant indicar el valor de X (cumulative) para obtener el área bajo la curva o
proporcionar el área bajo la curva (Inverse cumulative) para obtener el valor de X. OK
Página 77 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
EJERCICIOS:
1. ¿Qué porcentaje del área bajo la curva normal estándar está incluido dentro de los siguientes
rangos?
2. El tiempo de vida de las baterías del conejito tiene una distribución aproximada a la normal con
una media de 85.36 horas y una desviación estándar de 3.77 horas.
3. Considere una media de peso de estudiantes de 75 Kgs. con una desviación estándar de 10Kgs.
4. Una máquina llenadota de refresco se ajusta para servir 10 onzas de líquido por vaso, si la
desviación estándar es de 0.12 onzas. ¿Cuál es la probabilidad o porcentaje de las veces de que la
máquina sirva:
a. 10.2 onzas o más?
b. Entre 10.1 y 10.3 onzas?
c. Entre 9.7 y 10.3 onzas?
d. Menos de 9.8 onzas?
e. Entre 9.8 y 9.9 onzas?
Página 78 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
La inferencia estadística es el proceso mediante el cual se utiliza la información de los datos de una
muestra para extraer conclusiones acerca de la población de la que se seleccionó la muestra. Las
técnicas de inferencia estadística se dividen en dos áreas principales: Estimación de intervalos de
confianza y Pruebas de hipótesis.
En cada prueba estadística, se comparan algunos valores observados contra algunos esperados u
otro valor observado comparando estimaciones de parámetros (media, desviación estándar,
varianza).
Estas estimaciones de los verdaderos parámetros son obtenidos usando una muestra de datos y
calculando los estadísticos.
La capacidad para detectar una diferencia entre lo que es observado y lo que es esperado depende
del desarrollo de la muestra de datos.
Incrementando el tamaño de la muestra mejora la estimación y la confianza en las conclusiones
estadísticas.
Las medias o desviaciones estándar calculadas de una muestra se denominan estadísticos, podrían
ser consideradas como un punto estimado de la media y desviación estándar real de la población o
de los parámetros.
Cuando no deseamos obtener números sencillos como la media basada en una muestra, utilizamos
los intervalos de confianza, los cuales nos dan un margen con algún tipo de error.
Página 79 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
Ejemplo 1. Obtenemos una muestra donde la media x = 100, la desviación estándar s = 10,
Encontrar el intervalo de confianza al 95% en el cual se encuentra la media para una distribución
normal.
C.I. Multiplicador
99 2.576
95 1.960
90 1.645
85 1.439
80 1.282
Para tamaños de muestra > 30, la distribución de referencia es la Normal, para muestras de menor
tamaño, debe usarse la distribución t. El IC que no es simétrico es el de la varianza:
Página 80 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
USO DE EXCEL
Los estadísticos de prueba con alfa se determinan como sigue:
Zalfa/2 = distr.norm.estand.inv(alfa/2)
USO DE MINITAB
Para determinar los intervalos de confianza en Minitab se tiene: intervalo de confianza para la media
Tamaño de muestra
Para determinar el tamaño de muestra necesario para el intervalo de confianza o la prueba hipótesis
con base a un error máximo y un nivel de confianza deseado se utilizan las siguientes fórmulas:
Z2 / 2 2
n
( X )2
Z2 / 2 ( )(1 ) Página 81 de 129
n
( p )2
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
EJERCICIOS:
z 1. el peso promedio de una muestra de 50 bultos de productos xmedia = 652.58 kgs., con s =
217.43 kgs. determinar el intervalo de confianza al nc del 95% y al 99% donde se encuentra la
media del proceso (poblacional). alfa = 1 - NC
2. Un intervalo de confianza del 90% para estimar la ganancia promedio del peso de ratones de
laboratorio oscila entre 0.93 y 1.73 onzas. ¿cuál es el valor de z?.
3. 100 latas de 16 onzas de salsa de tomate tienen una media de xmedia = 15.2 onzas con una s =
0.96 onzas. ¿a un nivel de confianza del 95%, las latas parecen estar llenas con 16 onzas?.
4. Una muestra de 16 soluciones tienen un peso promedio de 16.6 onzas con s = 3.63. se rechaza la
solución si el peso promedio de todo el lote no excede las 18 onzas. ¿cuál es la decisión a un
90% de nivel de confianza?.
Ejemplos para la media (con distribución t) y varianza (con distribución chi cuadrada)
5. 20 cajas de producto pesaron 102 grs. con s = 8.5 grs. ¿cuál es el intervalo donde se encuentra la
media y varianza del lote para un 90% de nivel de confianza?. grados libertad=20 -1 =19
6. Una muestra de 25 productos tienen un peso promedio de 23.87 grs. con una s = 9.56. ¿cuál es la
estimación del intervalo de confianza para la media y varianza a un nivel de confianza del 95 y
del 98% del peso de productos del lote completo?.
7. Los pesos de 25 paquetes enviados a través de ups tuvieron una media de 3.7 libras y una
desviación estándar de 1.2 libras. hallar el intervalo de confianza del 95% para estimar el
peso promedio y la varianza de todos los paquetes. los pesos de los paquetes se distribuyen
normalmente.
8. De 814 encuestados 562 contestaron en forma afirmativa. ¿cuál es el intervalo de confianza para
un 90% de nivel de confianza?
9. En una encuesta a 673 tiendas, 521 reportaron problemas de robo por los empleados ¿se puede
concluir con un 99% de nivel de confianza que el 78% se encuentra en el intervalo de
confianza. ?
Página 82 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
Un proveedor de bebidas afirma que sus botellas contienen 16 onzas; un productor de software dice
que su rechazo promedio es de 3%; etc.
La hipótesis planteada que contiene el signo de igualdad se denomina hipótesis nula ho (=, >=, <=) y
su complemento es la hipótesis alterna ha. se puede iniciar planteando cualquiera de las dos
por ejemplo si se indica …probar si las ventas son mayores que $1000 o …..las ventas son
menores a $1000, se inicia planteando ha y como complemento se plantea ho (ventas<=1000 o
ventas>=1000).
Ho : , 2 , , , parametro de la hipotesis
Ha : , 2 , , , parametro de la hipotesis
Los términos surgen de las investigaciones agrícolas quienes probaban la efectividad de fertilizantes,
lo nulo era sin efecto
Las hipótesis nulas no se rechazan o si se rechazan (aceptándose la ha) con base en datos
muestrales y un valor alfa.
Prueba estadística: es un procedimiento para probar una afirmación o creencia sobre el proceso.
Hipótesis nula (Ho) - usualmente es una afirmación representando una situación “status quo”.
generalmente deseamos rechazar la hipótesis nula.
puede ser por ejemplo ho: , , = 5
sólo puede ser rechazada o no rechazada
Hipótesis alterna (Ha) - es lo que aceptamos si podemos rechazar la hipótesis nula. Ha es lo que
queremos probar es el complemento de Ho.
Región de Rechazo: Indica los valores de la prueba estadística para que podamos rechazar la
Hipótesis nula (Ho). Esta región esta basada en un riesgo deseado, normalmente 0.05 o 5%.
Las pruebas de hipótesis pueden ser de dos colas, de cola derecha o de cola izquierda,
dependiendo del signo de la hipótesis alterna, a continuación se esquematizan cada una de ellas.
Página 83 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
5. Establecer las Hipótesis: Hipótesis Nula (Ho lleva signo =, <=, >=), Hipótesis Alterna (Ha
lleva signo >, < o <>).
6. Seleccionar el nivel de significancia Alfa (normalmente 0.05 o 5%) o el nivel de confianza
1 - alfa.
Página 85 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
Las fórmulas para calcular el estadístico de prueba en base a la muestra son las siguientes:
Para el caso de muestras pareadas se calculan las diferencias d individuales como sigue:
Paso 1. Para una muestra grande (n >30) probar la hipótesis de una media . Establecer alfa.
Ho: o
Ha: 0
Página 86 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
Región de Región de
Rechazo Rechazo
0
-Z Z
Paso 4. Si el valor del estadístico de prueba cae en la región de rechazo rechazaremos Ho de otra
manera no podemos rechazar Ho.
Si el valor de P es menor o igual a alfa se rechaza Ho y se acepta Ha (en el caso de dos colas el
valor de P total es del doble del calculado).
Página 87 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
Página 88 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
Página 89 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
Página 90 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
USO DE MINITAB PARA LA PRUEBA DE HIPÓTESIS DE UNA PROPORCIÓN
Stat > Basic Statistics > 1-Proportion
Seleccionar Summarized Data
Number of trials = n tamaño de la muestra
Number of events = D éxitos encontrados en la muestra
En Options:
Indicar el Confidence Interval -- 90, 95 o 99%
Indicar la Test Proportion Proporción de la hipótesis
Indicar el signo de la hipótesis alterna: Less Than, Not equal, Greater than
EJERCICIOS
1. Se midió la temperatura de fusión de un aceite vegetal hidrogenado en n=16 muestras y se
encontró una media de 94.32. Si la temperatura de fusión sigue una distribución normal con sigma =
1.20.
2. La duración promedio de cierto foco es de 750 horas. El cliente cambiaría de marca sólo que se
demuestre que de manera concluyente que la vida de los focos es menor que la anunciada. Se elige
una muestra aleatoria de 20 focos, se determina su duración y se obtiene una vida media de 738.44
con una desviación estándar de 38.20.
3. Después de ciertas horas de trabajo se determinó el desgaste de flechas en 0.0001” para cada
una de las n=8 máquinas que tienen plomo y cobre como material de soporte, y se obtuvo como
resultado que la media fue de 3.72 con desviación estándar de 1.25.
4. Se prueban 100 baterías de Ni-H para celdas de prueba y se determina que 14 de ellas se
ampoyan en sus placas fallando. Para un 5% de nivel de significancia.
a) ¿Proporciona lo anterior una evidencia de que más del 10% de las baterías fallan?
Página 91 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
5. Para un cierto servicio los tiempos de respuesta son de 3 horas, probar la afirmación para un
98% de nivel de confianza.
1.92
2.16
3.63
3.16
4.02
3.14
2.2
2.34
3.05
2.38
6. Las horas tomadas para mantenimiento son las siguientes. Probar a un 5% si el tiempo es > 2
Hrs.
Tiempos
1.9
1.7
2.8
2.4
2.6
2.5
2.8
3.2
1.6
2.5
7. Un estudio encontró que 40% de los usuarios de Internet recibieron más de 10 mensajes diarios
Si de 420 usuarios 188 recibieron estos mensajes, a un nivel de 5% ¿Cuál es la conclusión?
8. Un estudio indicó que el 64% de los consumidores de supermercado creen en las marcas propias.
El fabricante de una salsa de tomate preguntó a 100 compradores donde 52 prefieren marca propia,
probar si el porcentaje de preferencias es menor al 64%, para un 5% de nivel de significancia
Página 92 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
Caldera A Caldera B
89.7 84.7
81.4 86.1
84.5 83.2
84.8 91.9
87.3 86.3
79.7 79.3
85.1 82.6
81.7 89.1
83.7 83.7
84.5 88.5
Estadísticas Descriptivas
Variable Caldera N Media Desv.Std
Rendimiento A 10 84.24 2.90
B 10 85.54 3.65
Página 93 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
Lo anterior se contesta con pruebas de hipótesis para dos poblaciones como se explica a
continuación.
Presentaremos ahora pruebas para comparar dos varianzas. Supóngase que son dos las
poblaciones de interés, por ejemplo X 1 y X2, donde 1, 1 , 2 , 2 , se desconocen. Deseamos
2 2
H 0 : 12 22
H 1 : 12 22
Rechazaríamos H0 si
Donde F 2,n1 1,n2 1 y F1 2,n1 1,n2 1 son los puntos porcentuales 2 superior e inferior de la
distribución F con n1-1 y n2-2 grados de libertad. La tabla F proporciona sólo los puntos de la cola
superior de F, por lo que para determinar F1 2,n1 1,n2 1 debemos emplear
1
F1 2,n1 1,n2 1 =
F 2 , n2 1, n1 1
La misma estadística de prueba puede utilizarse para probar hipótesis alternativas de un lado. La
hipótesis alternativa de un lado es:
H 0 : 12 22
H 1 : 12 22
Si F0 F ,n 1,n , rechazaríamos H 0 : 1 2 .
2 2
1 2 1
Página 94 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
Ejemplo 1: Los siguientes son tiempos de quemado (en minutos) de señales luminosas de dos tipos
diferentes.
Tipo 1 Tipo 2
63 64
81 72
57 83
66 59
82 65
82 56
68 63
59 74
75 82
73 82
Pruebe la hipótesis de que las dos varianzas sean iguales. Use .05
H 0 : 12 22
H 1 : 12 22
X 1 70.6
X 2 70
S12 88.71
S 22 100.44
S12 88.71
F0 2 = .877
S 2 100.44
USO DE EXCEL
Seleccionar Análisis de datos en el menú herramientas.
En funciones para análisis elija la opción : Prueba F para varianzas de dos muestras.
Seleccionar las columnas de datos con rótulos y el nivel Alfa/2 de 0.025.
Página 95 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
De la tabla deducimos que F1-alfa/2 = 0.248 es menor que Fc de 0.883 y el valor de P value = 0.428
es mayor a alfa/2 de 0.025 por lo cual no rechazamos H 0. y las varianzas son iguales.
USO DE MINITAB
Stat > Basic statistics > 2 Variances Samples in different columns
Seleccionar las columnas de datos
En Options: Confidence level 97.5%, Test Mean = 0.0; Alternative = Not equal
OK
Conclusión: Como Fc de 0.88 es mayor a F1-alfa/2 de 0.248 y Pvalue de 0.856 es mayor a Alfa de
0.05, no se rechaza Ho, las varianzas son similares.
a) Varianzas conocidas
Supóngase que hay dos poblaciones de interés X 1 y X2, Suponemos que X1 tiene media desconocida
1 y varianza conocida 1 2 y que X2 tiene media desconocida 2 y varianza conocida 2 2 .
Estaremos interesados en la prueba de la hipótesis de que las medias 1 y 2 sean iguales.
H 0 : 1 2
H 1 : 1 2
X1 X 2
Zc
21 2 2
n1 n2
Página 96 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
Donde:
a) Z 0 Z 2 o Z 0 Z 2
Donde: Z0 = Valor calculado del estadístico de prueba; Z 2 = distr.norm.estand(alfa/2).
H 0 : 1 2
H 1 : 1 2
H 0 : 1 2
H 1 : 1 2
Ejemplo 2:
Se emplean dos máquinas para llenar botellas de plástico con un volumen neto de 16 onzas. El
proceso de llenado puede suponerse normal, con desviaciones estándar de 1 .015 y
2 .018 . Se cree que ambas máquinas llenan hasta el mismo volumen neto, sin importar que
este volumen sea o no de 16 onzas. Se toma una muestra aleatoria de la salida de cada máquina.
¿Piensa usted que el llenado es similar? Utilizando .05 . o nivel de confianza de 95%.
Máquina Máquina
1 2
16.03 16.02
16.04 15.97
16.05 15.96
16.05 16.01
Página 97 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
16.02 15.99
16.01 16.03
15.96 16.04
15.98 16.02
16.02 16.01
15.99 16.00
H 0 : 1 2
H 1 : 1 2
X1 X 2 16.015 16.005
Zc 1.34
1 2 = .015 2 .018 2
2 2
n1 n2 10 10
Utilizando el criterio de decisión Zc Z 2 para rechazar la hipótesis nula H 0, nos damos cuenta de
que 1.34 no es mayor que 1.96. por lo cual no rechazamos H 0. No existe suficiente evidencia
estadística para pensar que las medias son diferentes.
-Zalfa/2=-1.96
Zc = 1.34
Zalfa/2=1.96
Como Zc es menor que Z alfa/2, no cae en el área de rechazo,
y por tanto no hay suficiente evidencia para rechazar Ho
Página 98 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
USO DE EXCEL
Seleccionar Análisis de datos en el menú herramientas.
En funciones para análisis elija la opción : Prueba z para medias de dos muestras.
Conclusiones: No se rechaza Ho (Medias iguales) ya que Zc de 1.349 < Zalfa/2 de 1.96; el valor P
de 0.177 es mayor a Alfa = 0.05.
USO DE MINITAB
Stat > Basic statistics > 2 Sample t seleccionar Summarized data
Seleccionar Assume equal variantes
En Options: Confidence level 95%, Test Difference 0.0; Alternative Not equal
En Graphs: Boxplot of data OK
Página 99 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
Conclusiones: No se rechaza Ho (Medias iguales) ya que Zc de 1.35 < Zalfa/2 de 1.96; el valor P
de 0.194 es mayor a Alfa = 0.05 y el cero se encuentra en el IC para la diferencia de medias de
(-0.005567, 0.025567).
b) Varianzas desconocidas:
H 0 : 1 2
H 1 : 1 2
2 2
Sean X1, X2, S1 , S 2 , las medias y las varianzas de las muestras, respectivamente. Puesto que tanto
S12 como S 22 estiman la varianza común 2 , podemos combinarlas para producir una sola
estimación, mediante la siguiente fórmula:
n1 1 S12 n2 1 S 22
Sp
n1 n 2 2
H 0 : 1 2
H 1 : 1 2
Calcúlese la estadística de prueba t0 y rechácese H 0 : 1 2 si:
t 0 t ,n1 n2 2
H 0 : 1 2
H 1 : 1 2
t 0 t a ,n1 n2 2
Alambre 1 Alambre 2
0.14 0.135
0.141 0.138
0.139 0.14
0.14 0.139
0.138
0.144
Suponiendo que las dos varianzas son iguales, ¿qué conclusiones puede extraerse respecto a la
resistencia media de los alambres?
H 0 : 1 2
Página 101 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
H 1 : 1 2
x1 .140
x 2 .138
S1 .0021
S 2 .0022
n1 1 S12 n2 1 S 22
Sp = .0021
n1 n 2 2
X1 X 2
t0
1 1 = 1.72
Sp
n1 n2
Utilizando el criterio de rechazo t 0 t 2,n n 2 , 1.72 no es mayor que 2.306, por lo tanto no
1 2
rechazamos H0.
USO DE EXCEL
Conclusión: En la tabla de Excel encontramos los valores deseados: 1.72 no es mayor que 2.306
por lo cual no rechazamos Ho. Asimismo P value de 0.124 es mayor a alfa/2 de 0.025 y el cero se
encuentra en el intervalo de confianza por lo que no se rechaza Ho, las medias son similares.
X1 X 2
t0
S12 S 22
n1 n2
2
S12 S 22
n1 n2 2
S n1 S 22 n 2
1
2
2 2
n1 1 n2 1
El procedimiento para llevar a cabo la prueba de hipótesis es el mismo que el caso 1, varianzas
iguales excepto que se emplean t0 como estadística de prueba y n1 + n2 -2 se sustituye por en la
determinación de los grados de libertad para la prueba.
Ejemplo 4: Se están investigando dos métodos para producir gasolina a partir de petróleo crudo. Se
supone que el rendimiento de ambos procesos se distribuye normalmente. Los siguientes datos de
rendimiento se han obtenido de la planta piloto.
Proceso 1 Proceso 2
24.2 21
26.6 22.1
25.7 21.8
24.8 20.9
25.9 22.4
26.5 22
¿Hay alguna razón para creer que el Proceso 1 tiene un rendimiento medio mayor?
H 0 : 1 2
H 1 : 1 2
x1 25.62
x 2 21.70
S12 .9017
S 22 .3760
X1 X 2
25.62 21.70
t0 8.48
2 2
S S = .9017 .376
1
2
n1 n2 6 6
2
S12 S 22 .9017 .376
2
n1 n2 6 6
2 = 2 9.32 9
S12 n1 2 S 22 n2 2 .9017 6 2 .376 6 2
n1 1 n2 1 7 7
Buscando el valor en la tabla t encontramos t .05,9 = 1,833, mediante el criterio de rechazo para una
cola t0>t.05,9 , 8.48>2.262, por lo tanto rechazamos la hipótesis nula, y aceptamos la hipótesis alterna,
el proceso 1 tiene mayor rendimiento que el proceso 2.
USO DE EXCEL
Seleccionar Análisis de datos en el menú herramientas.
En funciones para análisis elija la opción: Prueba t para dos muestras suponiendo
varianzas desiguales.
Seleccionar las columnas de datos y las celdas de resultados.
Tc de 8.48 mayor que Talfa!de 2.262 (valor crítico de t de una cola), se rechaza Ho.
USO DE MINITAB
Stat > Basic statistics > 2 Sample t Samples in different columns
Quitar selecciçon de Assume equal variantes
En Options: Confidence level 97.5%, Test Difference 0.0; Alternative Not equal
En Graphs: Boxplot of data OK
26
25
24
Data
23
22
21
Proceso 1 Proceso 2
Cuando es posible resulta ventajoso utilizar muestras pareadas en las pruebas de comparación. En
una prueba de comparación pareada, la reducción en la variabilidad experimental puede permitir la
detección de pequeños movimientos en los datos. A pesar de que los grados de libertad sean
reducidos, porque ahora el tamaño de muestra corresponde al número de comparaciones.
Un ejemplo de este tipo de prueba es la evaluación de dos piezas de equipo de inspección para
determinar si existe alguna diferencia significativa entre los equipos.
Las hipótesis de prueba en torno a la igualdad 1 y 2 pueden realizarse efectuando una prueba t
de una muestra en D . Específicamente, probar H 0 : 1 2 contra H 1 : 1 2 es equivalente
a probar
H0 : D 0
H1 : D 0
t0
D
donde D
D j
y
D j D
2
SD n SD
n n 1
Ejemplo 5:
Un fabricante desea comparar el proceso de armado común para uno de sus productos con un
método propuesto que supuestamente reduce el tiempo de armado. Se seleccionaron ocho
trabajadores de la planta de armado y se les pidió que armaran las unidades con ambos procesos.
Los siguientes son los tiempos observados en minutos.
Proceso Proceso
Trabajador actual nuevo Di (Di-D)^2
1 38 30 8 10.5625
2 32 32 0 0
3 41 34 7 49
4 35 37 -2 4
5 42 35 7 49
6 32 26 6 36
7 45 38 7 49
8 37 32 5 25
Dpromedio 4.75 27.8203125
En .05 , ¿existe alguna razón para creer que el tiempo de armado para el proceso actual es
mayor que el del método propuesto por más de dos minutos?
H0 : D 2
H1 : D 2
D
D j
= 4.75
D j D
2
= 3.69
SD
n n 1
D 4.75 2
t0 = = 2.107
SD n 3.69 8
t ,n 1 t .05, 7 1.895
, debido a que 2.107 > 1.895 rechazamos H 0, y aceptamos la H1: el tiempo
de armado para el proceso actual es mayor en dos minutos que el método propuesto.
USO DE EXCEL
Seleccionar Análisis de datos en el menú herramientas.
En funciones para Análisis elija la opción: Prueba t para dos muestras emparejadas
Seleccionar las columnas de datos y las celdas de resultados
De la tabla concluimos que Tc de 3.63 > Talfa/2 de 2.364 (valor crítico de t una cola), por lo cual
rechazamos Ho. Por otro lado el valor P de 0.008 es menor a alfa de 0.05 y se rechaza Ho, las
medias son diferentes.
USO DE MINITAB
Stat > Basic statistics > Paired t Samples in different columns
En Options: Confidence level 95%, Test Mean = 0.0; Alternative = Not equal
En Graphs: Boxplot of data OK
De la tabla concluimos que Tc de 3.64 > Talfa/2 de 2.364 (valor crítico de t en dos colas), por lo cual
rechazamos Ho. Por otro lado el valor P de 0.008 es menor a alfa de 0.05, el cero no se encuentra
en el intervalo de confianza IC y se rechaza Ho, las medias son diferentes.
H 0 : p1 p 2
H 1 : p1 p 2
Considérese que se toman dos muestras aleatorias de tamaño n 1 y n2 de dos poblaciones, y sea X1 y
X2 el número de observaciones que pertenecen a la clase de interés en la muestra 1 y 2
respectivamente.
X1 X 2
pˆ
n1 n 2
pˆ 1 pˆ 2
Z0
1 1
pˆ (1 pˆ )
n1 n 2
X1 X2
pˆ 1 pˆ 2
n1 n2
Si
Z 0 Z 2 o Z 0 Z 2 , la hipótesis nula se rechaza.
Ejemplo 6: La fracción de productos defectuosos producidos por dos líneas de producción se está
analizando. Una muestra aleatoria de 1000 unidades de la línea 1 tiene 10 defectuosas, en tanto que
una muestra aleatoria de 1200 unidades de la línea 2 tiene 25 defectuosas. ¿ Es razonable concluir
que la línea de producción 2 produce una fracción más alta de producto defectuoso que la línea 1?
Use .01 .
H 0 : p1 p 2
H 1 : p1 p 2
X1 X 2 10 25
pˆ = .015909
n1 n 2 1000 1200
X1 10
pˆ 1 = .01
n1 1000
X2
pˆ 2
n2
Página 109 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
25
= .020833
1200
pˆ 1 pˆ 2 .01 .020833
Z0
1 1 = 1 1 = -2.02
pˆ (1 pˆ ) . .015909(.98409)
n1 n2 1000 1200
Z Z .01 2.35
USO DE MINITAB
Stat > Basic statistics > 2-Proportions Seleccionar Summarized data
En Trials poner el tamaño de las muestras y en Events lo que se busca.
En Options: Confidence level 99%, Test Difference = 0.0; Alternative = Not equal
Seleccionar Use pooled estimate for p for test
OK
Pruebas de medias:
Prueba Z para medias (varianza conocida): Prueba si dos medias de muestras son iguales.
Prueba t para medias (varianza desconocida): Prueba si dos medias de muestras son iguales.
Se tienen dos casos: varianzas iguales y varianzas diferentes
Prueba t pareadas para medias: prueba si dos medias de muestras (por pares) son iguales.
Pruebas de varianza:
Prueba F para varianzas: Prueba si dos varianzas de muestras son iguales.
Pruebas de proporciones:
Prueba Z para proporciones: Prueba si dos proporciones de muestras son iguales.
EJERCICIOS:
1. Determinar a un nivel de confianza del 90% si hay diferencia entre las medias de tiempos de
limpieza de máquina A y máquina B. Se toman muestras para comprobar la afirmación.
Máquina A Máquina B
25.2 18.0
17.4 22.9
22.8 26.4
21.9 24.8
19.7 26.9
23.0 17.8
19.7 24.6
23.0 21.0
19.7
16.9
21.8
23.6
2. Los tiempos de terminación del programa para dos departamentos se muestran a continuación:
Probar a un 90% de nivel de confianza si sus varianzas y promedios son iguales.
Depto. A Depto. B
300 276
280 222
344 310
385 338
372 200
Página 111 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
360 302
288 317
321 260
376 320
290 312
301 334
283 265
3. Los tiempos de terminación para la tarea con un método mejorado y actual son, para el mismo
empleado son los siguientes. Probar a un 90% de nivel de confianza si los métodos dan los mismos
resultados.
Antes Después
5 6
4 6
7 7
3 4
5 3
8 9
5 7
6 6
5. A dos grupos de personas se les pidió que indicaran el porcentaje de recortatorio de dos avisos:
Probar a un 5% si son iguales los dos grupos.
6. Se hizo una encuesta para determinar el porcentaje de personas que usaban Internet en el
trabajo: En México se encontró que el 40% de los adultos usa Internet de una muestra de 240.
En Monterrey el 32% de los adultos usaba Internet de una muestra de 250.
¿Para un nivel de significancia del 10%, es mayor la proporción que usa Internet en México que en
Monterrey?
Para probar si una serie de datos observada, concuerda con el modelo (serie esperada) de la
información.
Para probar las diferencias entre las proporciones de varios grupos (tabla de contingencia).
Eij
total de i ésimo renglón total de j ésima columna
n
4) Calcular el valor del estadístico de prueba 2 usando la fórmula:
Oij Eij
2
E ij
donde:
No
Ausencias Aprobado aprobado
0-3 135 110
4-6 36 4
7 - 45 9 6
Con 0 .05 , ¿indican los datos que son distintas las proporciones de estudiantes que pasaron
en las tres categorías de ausencias?
H0 : p 1 = p 2 = p 3
H1 : al menos dos proporciones son diferentes.
Los valores Oij = 135, 110... corresponden a los valores observados, los valores esperados se
colocan en las celdas con paréntesis, para calcular los utilizamos la fórmula:
Eij
total de i ésimo renglón total de j ésima columna
n
O Eij
2
ij
E ij
Para determinar el valor crítico del estadístico de prueba procedemos de la siguiente manera:
Determinar los grados de libertad usando la fórmula: gl r 1 c 1 , gl = (3-1)(2-1) = 2
El valor critico del estadístico ji-cuadrada para 0.05 y g.l. = 2 se denota 0.05 ( 2) , En la
2
tabla ji- cuadrada encontramos que vale 5.991, el valor del estadístico de prueba es 2 =17.44.
Conclusión: Como este estadístico está localizado en la región de rechazo (a la derecha del valor
crítico) , rechazamos Ho por lo cual aceptamos la hipótesis alternativa H 1: al menos dos proporciones
son diferentes. La tasa de aprobación si depende de las asistencias.
USO DE MINITAB
1. Stat > Tables > Chi square test
2. Indicar las columnas conteniendo la tabla (C2 Aprobado y C3 No aprobado)
3. OK
Conclusión: Como el estadístico calculado Chi cuadrado es mayor al Chi de alfa y el valor P es
menor a Alfa, se rechaza Ho indicando que si hay dependencia de los aprobados y asistencias.
Página 115 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
El análisis de la varianza de un factor (ANOVA) es una metodología para analizar la variación entre
muestras y la variación al interior de las mismas mediante la determinación de varianzas. Es llamado
de una vía porque analiza un variable independiente o Factor ej: Velocidad. Como tal, es un método
estadístico útil para comparar dos o más medias poblacionales. El ANOVA de un criterio nos permite
poner a prueba hipótesis tales como:
H 0 1 2 3 .... k
H 1 : Al menos dos medias poblacionales son diferentes.
Los supuestos en que se basa la prueba t de dos muestras que utiliza muestras independientes
son:
sb2
Fc
sw2
F ( k 1, k ( n 1))
Donde el número de grados de libertad para el numerador es k-1 y para el denominador es k(n-1),
siendo el nivel de significancia.
k = número de muestras.
Por ejemplo:
TRATAMIENTOS
1. Variación total entre los 14 empleados, su puntuación no fue igual con todos
VARIACIÓN TOTAL RESPECTO A LA MEDIA GENERAL
r c 2
SCT ( Xij X )
i 1 j 1
2. Variación entre los diferentes tratamientos o Variación entre muestras o variación entre programa
1, programa 2 y programa 3
EFECTO DE LA MEDIA DE CADA TRATAMIENTO RESPECTO A LA MEDIA GENERAL
r
SCTR rj ( X j X ) 2
j 1
3. Variación dentro de un tratamiento o muestra o programa dado que no todos los empleados
dentro de un mismo programa obtuvieron los mismos puntajes. Se denomina Variación dentro de los
tratamientos.
VARIACIÓN DENTRO DEL TRATAMIENTO O VARIACIÓN DEL ERROR
CADA VALOR RESPECTO A LA MEDIA DE SU TRATAMIENTO
r c
SCE (X ij X j )2
i 1 j 1
4. GRADOS DE LIBERTAD
ZONA DE
NO RECHAZAR RECHAZO
Distr. F
7. VALOR P DE Fc
CONCLUSION: NO HAY SUFICIENTE EVIDENCIA PARA RECHAZAR HO, LAS MEDIAS DE LOS
TRATAMIENTOS SON IGUALES
TABLA DE ANOVA
Regla: No rechazar si la F de la muestra es menor que la F de Excel para una cierta alfa
USO DE EXCEL:
Grados
ANÁLISIS DE VARIANZA de Promedio de
Suma Probabilida
Variaciones cuadrados libertad Cuadrados Fc d F crítica
Entre grupos 65.71428571 2 32.85714286 1.9431644 0.18937731 3.98229796
Dentro de
grupos 186 11 16.90909091
Total 251.7142857 13
USO DE MINITAB
Source DF SS MS F P
Factor 2 65.7 32.9 1.94 0.189
Error 11 186.0 16.9
Total 13 251.7
NOTA: Si los Intervalos de confianza se traslapan, las medias son iguales estadísticamente
Tukey 95% Simultaneous Confidence Intervals
All Pairwise Comparisons
NOTA: Si el cero se encuentra en el intervalo de confianza de la diferencia entre medias, este par de
medias no son diferentes.
A B C D
75 78 55 64
93 91 66 72
78 97 49 68
71 82 64 77
63 85 70 56
76 77 68 95
A B C
85 71 59
75 75 64
82 73 62
76 74 69
71 69 75
85 82 67
4. Probar si hay diferencia en los tiempos de servicio de 4 unidades de negocio para el mismo
servicio a un nivel de significancia del 5%.
A B C D
5.4 8.7 11.1 9.9
7.8 7.4 10.3 12.8
5.3 9.4 9.7 12.1
7.4 10.1 10.3 10.8
8.4 9.2 9.2 11.3
7.3 9.8 8.8 11.5
MÓDULO 7. REGRESIÓN Y CORRELACIÓN LINEAL
Página 122 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
Son dos herramientas para investigar la dependencia de una variable dependiente Y en función de
una variable independiente X. Y = f(X)
Y = Variable dependiente que se desea explicar o predecir, también se llama regresor o respuesta
X = Variable independiente, también se llama variable explicativa, regresor o predictor
Regresión lineal - La relación entre X y Y se representa por medio de una línea recta
Regresión curvilinea - La relación entre X y Y se representa por medio de una curva.
Y * *
** * * * *
* * * *
* b1 * * * *
* * * *
* * * * * *
b0
Correlación positiva Correlación negativa X
Sin correlación
El término de error es la diferencia entre los valores reales observados Yi y los valores estimados por
la ecuación de la recta. Se trata de que estos sean mínimos, para lo cual se utiliza el método de
mínimos cuadrados.
Y *
Error Re siduo (Yi Yi )
*
Y
Yest = 4.4 + 1.08 X
Desviación no
Yi = 23 * explicada
Error = (Yi - Yest) =
1.32
Variación total
(Yi-
Ymedia)=5.13 Desviació explicada
(Yest-Ymedia) = 3.81
Ymedia =17.87
X = 16 X
Si todos los puntos estuvieran completamente sobre la recta la ecuación lineal sería
y = a + bx. Como la correlación no siempre es perfecta, se calculan a y b de tal forma que se
minimice la distancia total entre puntos y la recta. Los cálculos tomando las sumas de cuadrados
siguientes se muestran a continuación:
Sxy = 2027.71
Sxx = 698.56
Syy = 6105.94
b1 ˆ1
( Xi X )(Yi Y ) S XY
= 2.902704421
( Xi X ) 2
S XX
b0 ˆ0
Y i ˆ1 X i
Y ˆX = 5.114515575
n
r r 2 = 0.9816
El coeficiente de correlación proporciona el nivel de ajuste que tienen los puntos a la línea recta
indicando el nivel de influencia de una variable en la otra. El factor de correlación r es un número
entre –1 (correlación negativa evidente) y +1 (correlación positiva evidente), y r = 0 indicaría
correlación nula.
El coeficiente de correlación r = 0.98 por lo cual tenemos suficiente evidencia estadística para
afirmar que el tiempo de atención esta relacionado con el número de servicios atendidos.
USO DE EXCEL
Resumen
Estadísticas de la regresión
Coeficiente de correlación
múltiple 0.981811778
Coeficiente de 0.963954368
Página 126 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
determinación R^2
R^2 ajustado 0.962387167
Error típico 3.093419627
Observaciones 25
USO DE MINITAB
Para determinar la función de regresión y correlación en Minitab se siguen los pasos siguientes
(después de cargar los datos correspondientes a X y a Y en las columnas C1 y C2):
Para obtener la línea de mejor ajuste de la regresión, se procede como sigue en Minitab:
Stat >Fitted Line Plot ... Indicar la columna de Respuestas Y y la de predictores X,
seleccionar si se quiere ajustar con los datos con una línea, una función cuadrática o cúbica
y aceptar con OK. Observar el mayor valor del coeficiente de correlación que indica el mejor
ajuste.
Página 127 de 129
TALLER DE ESTADÍSTICA Y PROBABILIDAD P. REYES / SEPT.
2006
En Options: seleccionar Display Confidence (para media en X) y Prediction Intervals para X.
En Graphs: Seleccionar Residual for plots Standardized y Normal Plot of residuals
La gráfica de residuos debe apegarse a la recta y tener siempre un valor P value >0.05.
Fitted Line Plot
Y Tiempo = 5.115 + 2.903 X Servicios
Regression
70
95% CI
95% PI
60
S 3.09342
R-Sq 96.4%
50 R-Sq(adj) 96.2%
Y Tiempo
40
30
20
10
0
0 5 10 15 20
X Servicios
Los intervalos de confianza para la media y el intervalo de predicción para un punto específico X
son los siguientes:
EJERCICIOS:
Ajuste
Cons_energía Máq.
Y X
21.6 11.15
4 15.7
1.8 18.9
1 19.4
1 21.4
0.8 21.7
3.8 25.3
7.4 26.4
4.3 26.7
36.2 29.1
2. En base al porcentaje de puntualidad se trata de ver si hay correlación con las quejas en una línea
aérea. Las quejas son por cada 100000 pasajeros.
%puntos Quejas
Aerolinea X Y
A 81.8 0.21
B 76.6 0.58
C 76.6 0.85
D 75.7 0.68
E 73.8 0.74
F 72.2 0.93
G 70.8 0.72
H 68.5 1.22