Sesión 13.0 - Técnicas Estadísticas Básicas PDF

Sesión 13.
0:
Técnicas Estadísticas Básicas

Temas a tratar
1. Introducción
2. Diagramas de tiempo.
3. Histograma.
4. Diagrama de Puntos.
5. Diagrama de Pareto.
6. Box- Plots.
7. Diagrama de Dispersión.
8. Matriz de Dispersión.
9. Estratificación
10. Serie de Tiempos
11. Ejercicios.
Técnicas estadísticas gráficas básicas
1. INTRODUCCIÓN
Introducción1
▪ En el momento de caracterizar una variable, de segmentar o
de realizar una primera prospecciónpara analizar las
variables, una serie de técnicas gráficas simples pueden
ayudar.
▪ Estas técnicas ayudan a visualizar, de un conjunto de datos:

- Sulocalización.
- Sudispersión.
- Su forma odistribución.
- Las subagrupaciones que pudierehaber.
- Las diferencias o similitudes entre esas
subagrupaciones.
Introducción2
▪ Cálculos gráficos o analíticos más profundos
pueden seguirle, pero con una base que
seguramente nos habrá llevado a seleccionar
o poner foco en algunas variables.
Pertenencia a la distribución
Clave:
• Como la distribución es asintótica, para

determinar si un valor pertenece a la
distribución en cuestión, o otra con valores
similares, se usa el p-value = 0,05.
• Un valor con p-value > 0,05, será
considerado de la distribución.
• Un valor con p-value < 0,05, será sospechado de
pertenecer a otra distribución.
• Asumimos una u otra conclusión a los fines
prácticos. Pero, en realidad, no sabremos.
1363
Técnicas Estadísticas Gráficas Básicas
2. DIAGRAMAS DE TIEMPO
1364
Diagrama de tiempo1
▪ Un diagrama de tiempo es un gráfico de datos en
orden cronológico.
▪ Esusado para visualizar e interpretar cambios de

los datos a lo largo del tiempo.
▪ Los diagramas de tiempo pueden ser usados con

datos Continuos, Discretos por Conteo, Discretos
Ordinales y Discretos por Porcentajes.
Diagrama de tiempo2
▪ El supervisor de un Call Center está
analizando los tiempos de las colas para el
segmento de clientes “Individuos” y
“Empresas”.
▪ Los datos los toma directamente del IVR, aunque

por problemas técnicos los de algunos días en
particular se han perdido.
▪ ¿Qué puede concluirse de los datos?

Ejercicios Medir.mtw
Columna 85 “Promedio de Tiempos”
Diagrama de tiempo3
2
°
Permite hacer Columna
un diagrama con los
simple datos
3
°
1 4
° °
5
°
Vamos a poner
las fechas en el
eje x
Diagrama de tiempo4
6°
7°
9 Time Series Plot of Promedio de tiempos
8 °
400
Columna
° Promedio de tiempos 300
con las 200
fechas
100
0
17-01 31-01 15-02 02-03 17-03 01-04 16-04 01-05 16-05 31-05 15-06
Fecha_1
Diagrama de tiempo5
Permite
editar y
definir las
posiciones
del eje x.
11 12°
Haciendo
°
doble click
sobre el eje 10
x, despliega
un diálogo
°
13
°
Diagrama de tiempo6
15
°
Cambia el cursor
a un índice de la
mano. Permite
identificar,
Con click derecho dragueando,
en algún lugar del 14
datos
gráfico, despliega ° particulares del
una menú gráfico
Diagrama de tiempo7
Dragueando alrededor de un punto,
muestra la fila correspondiente.
En la fila de la planilla de datos
17 coloca un punto.
°
16
°
Diagrama de tiempo8
19
°
Seleccionamos
la fecha y día de
la semana
20°
18 Nuevo click derecho

° sobre el gráfico
para seleccionar
más datos
relacionados con el
punto dragueado.
1372
Diagrama de tiempo9
21°
Muestra los datos del

punto seleccionado
Diagrama de tiempo agrupados1
Time Series Plot of Promedio de tiempos 6
400 ° Día dela
semana
Jueves
1° Lunes
M artes
M iércoles
Promedio de tiempos
300
Viernes
200
Diagrama con
subgrupos 100
para ver con

grupos 0
2° 1 15 30 45 60 75
Index
90 105
Gráfico de
3 líneas para
Columna con
° cada grupo
los datos
4 (en este
Columna con ° caso para
las cada uno de
agrupaciones los días de
5 la semana)
°
Time Series Plot of Promedio de tiempos
Día dela
400 semana
Jueves
Lunes
M artes
M iércoles
Pedimos que
Promedio de tiempos
300
Viernes
use la variable
200
para agrupar
100
los datos
7
Hacemos
0 °
click 15 30 45 60 75
Index
90 105 120 135 150
derecho 8
sobre el °
gráfico Indicamos la columna con 9
la variable (en este °
caso los días)
10
°
11
°
Pone cada
grupo en
diferente
panel
Diagrama de tiempo segmentado
Vamos a
generar
gráficos
1 superpu
° est os
4
para
°
cada
segment
o
Ambas colas en
el mismo gráfico
2
°
Columnas con los datos de

los segmentos (en este caso
3 las dos colas)
°
3. HISTOGRAMA
Histogramas1
▪ El Histograma permite representar datos,
Continuos o Discretos, para evaluar la tendencia
central, la dispersión e identificar la forma de la
distribución o patrones.
▪ Esun gráfico de barras que muestra la frecuencia

con la cual aparecen algunos factores.
▪ Requiere, aproximadamente, 50 mediciones

para revelar el patrón básico de variación.
Histogramas2
▪ Cuando los datos están segmentados, un

Histograma por grupo o factor podría mostrar
igualdad o diferencias entre ellos.
▪ Si uno de esos grupos, por ejemplo, tuviere

mayor variación, podría requerir atención
prioritaria parala solución.
Histogramas3
2 Permite
armar
1 ° Histogramas
° simples o
superpuesto
s (el
histograma
del Torque
para una
3° máquina
superpuesto
Columna en la con el de la
cual está la otra)
serie de datos
Columna 59 “Torque”
4
°
Histogramas4
4° Histogram of Torque
14
12
10
Frequency
0
12 16 20 24 28 32 36
Torque
Muestra localización, variación

y forma de la serie de datos.
Histogramas por grupos1
Permite graficar
varios gráficos
simultáneamente
5
°
8
°
Indicamos en
6
gráficos separados
°
7°
Con la misma Y
para poder
comparar
Histogramas por grupos2
Indicamos la columna en
la cual están las variables
9 para segmentar
°
10 11
° °
Histogramas para
cada máquina
con la misma
escala de Y
4. DIAGRAMA DE PUNTOS
Diagrama de Puntos
1
°
5
°
Con
grupos
2 Columna con
° los datos
Columna con
3 los grupos Gráfico de puntos
° superpuesto para
4 cada grupo
°
5. PARETO
Diagrama de Pareto1
▪ Un diagrama de Pareto es un gráfico de barras
ordenadas de mayor a menor, donde cada barra
refleja la importancia o peso de cada uno de los
factores quese analizan.
▪ El Diagrama de Pareto ayuda a enfocarse en los

grupos o factores “Pocos Vitales” en lugar de los
“Muchos triviales”.
▪ Se basa en el comprobado principio de Pareto: el

20% de las causas produce el 80% de los efectos.
Diagrama de Pareto2
▪ También se lo conoce como la curva A-B-C. La parte
A, genera una curva acumulada de gran
pendiente, y pertenece a los factores de mayor
contribución. La C, generan una curva acumulada
prácticamente horizontal; usualmente los factores
están agrupados en Varios. La B es la parte
intermedia.
▪ Ayudará al equipo, en etapas posteriores, a

enfocarse en aquellas causas que tendrán el más
grande impacto en los Yssi son resueltas.
Diagrama de Pareto3
Permite Porcentaje
colocar los final con el
datos por cual arma el
variables o “Varios”
1 en formato
de tabla.
° Columna en la
cual tenemos
los grupos o
factores
2 3
°
Columna en °
la cual
tenemos la
frecuencia
Ejercicios Medir.mtw para cada
Columna 57 grupo o 5
“Cantidad” factor. °
Diagrama de Pareto4
Porcentajes
Pareto Chart of Defectos acumulados
Cantidad que 100
le 400
corresponde
al 1er Factor 80
o grupo 300
Percent
60
Count
200
40
100
20
0 0grupo
Defectos Rayado Cortadura Doblado Other Factores
sordenad y
Factores
4
os
Frecuencia
Count 351 49 19 según su
Percent 83,0 11,6 4,5 0,9
Cum % 83,0 94,6 99,1 100,0 cantidad
o
Nos dice que, inicialmente, debemos
poner foco en los rayones.
Error usual al aplicar Pareto
▪ Esun error asumir que un diagrama de barras ordenado
de mayor a menor es un Diagrama de Pareto.
▪ El Diagrama de Pareto indica la relación 80-20. Si el

gráfico no muestra una primera zona claramente
diferenciada, con curva Acumulada de mayor pendiente,
entonces el eje Ydebe ser reconvertido.
▪ Por ejemplo, si se registra la frecuencia con la cual

aparece cada factor, cabe reconvertir y graficar elcosto
que genera cada uno de los factores.
Importante
Clave:
• Si no aparece la relación 80 - 20 en un Diagrama

de Pareto, corresponde reconvertir el eje Y.
6. BOX PLOTS
Box-Plots1
▪ Los diagramas Box Plots permiten graficar
los estadísticos esenciales de una serie
de datos para evaluar y comparar
distribuciones.
▪ La localización, variación y forma de los datos

queda en evidencia, permitiendo comparar
muy fácilmente varias series
simultáneamente.
Box-Plots2
Permite graficar una
serie de datos o
comparar varias de
ellas, agrupando y
subagrupando. 2
°
1
°
3
°
4
Columna con
°
los datos
Como con los
Histogramas, permite
graficar en diferentes
gráficos o paneles
5
°
Box-Plots3
Valor máximo de la serie de
datos. Si hubiera un valor
superior al Boxplot of Promedio
Q3 + 1.5 RI = Q3 + 1.5(Q3 - Q1),
Entonces aparecería como *
3° cuartil (75%
41 de los datos)
El 50% de los datos
Promedio
se encuentran Mediana (50% de

concentrados en los datos acum)
esta “caja”
2° cuartil (25% de
los datos acum)
La posición de la
Mediana y la
longitud de los
bigotes dan una Valor mínimo de la serie de
idea de la forma de datos. Si hubiera un valor
la distribución inferior al
Q1 - 1.5 RI = Q1 - 1.5(Q3 - Q1),
Entonces aparecería como *
Box-Plots agrupados1
Para graficar
2 diferentes
° subgrupos.
1
° 3
Columna en
°
la cual están
los datos.
4
°
5
°
Columna en la
cual están los
factores o
grupos. 6
°
Box-Plots agrupados2
Distribución de
los datos para
Distribución de
Distribución de Julieta
los datos para
los datos para
María
Franco
41
Promedio
40
39
38
Franco Julieta María

Operador
Comparación de
los datos para
los tres
operadores
7. DIAGRAMA DE DISPERSIÓN
Diagrama de Dispersión1
▪ Los gráficos o Diagramas de Dispersión
muestran cómo los pares de valores de una
variable independiente (xs) y la respuesta (Ys)
varían a medida que aquella cambia.
▪ Los datos se recolectan de a pares x - y.
▪ La forma de la “nube de puntos” da idea de la

asociación que existe entre las variables.
Han múltiples
1 opciones para
° graficar grupos varios
y superpuestos
2
° Columna en la cual
está la variable
independiente (x)
3
°
Columna en la cual 4°
está la variable 5
dependiente (Y)
°
6
°
Los puntos se Scatterplot of Dureza vs Tiempo
7
encuentran muy °
dispersos, Pares de puntos x-Y
indicando bajo graficados
grado de
correlación
180
170
160
150
14,5 15,0 15,5 16,0 16,5 17,0 17,5 18,0 18,5
Variable ¿Cómo se mostrarían
Tiempo
dependient los puntos en
e (Y) variables con alto
Variable independiente (x) grado de asociación?
Strong PositiveCorrelation Strong Negative Correlation
Fuerte 110
100
110
100
Fuerte
asociación asociación
90 90
80 80
Output
Output
70 70
positiva (una negativa (una

Y = 9.77271 + 0.745022X Y = 99.1754 - 0.745022X
60 60
R-Squared = 0.876 R-Squared = 0.876
50 50
variable variable
40 40
30 30
40 50 60 70 80 90 100 110 120 0 10 20 30 40 50 60 70 80
aumenta, la Input Input

aumenta, la
otra aumenta Moderate PositiveCorrelation Moderate Negative Correlation
otra decrece)
también) 110 110
100 100
90 90
80 80
Output
Output
70 Y = 25.7595 + 0.645418X 70 Y = 90.3013 - 0.645418X

60 60
50 50
40 40
50 60 70 80 90 100 0 10 20 30 40 50
Input Input
Weak PositiveCorrelation Weak Negative Correlation
85 85
75 75
Output
Output
Y = 56.6537 + 0.181987X Y = 74.8524 - 0.181987X

65 65
55 55
40 50 60 70 80 90 10 20 30 40 50 60
Input Input
Diagrama de Dispersión agrupado1
1 2 Para crear un gráfico por
grupos
° °
Columna con el Columna con
resultado (Y) la variable (X)
3
°
4°
5
°
Columna
con los
grupos 6°
7
°
Diagrama de Dispersión agrupado1
8
°
Grupo 1
Grupo 2
8. MATRIZ DE DISPERSIÓN
Matriz de Dispersión1
1
°
Columnas con
las variables a
2 relacionar
°
3 4
° °
5
°
Matriz de Dispersión2
Cada unidad
Dispersión del gráfico
entre Presión muestra el
y Tiempo_1 Diagrama de
Dispersiones
entre un par
de variables
Dispersión
entre Dureza
y Tiempo_1
9. ESTRATIFICACIÓN
Estratificación
▪ Estratificación es una técnica usada en combinación con
otras para analizar los datos de una variable y, Y, x o X.
▪ Cuando los datos de diferentes fuentes, como por ejemplo

diferentes procesos, turnos, centros de atención, días de la
semana, materiales, proveedores, gerencias o equipos están
juntos, el significado deesos datos es imposible de ver.
▪ Esta técnica busca, esencialmente, la separación o una

subagrupación de esos datos para encontrar los patrones y
estadísticos de cada una.
▪ Una aplicación de esta técnica se da para la

identificación de no normalidades.
Estratificación - ¿cuándo usarla?
▪ Cuando los datos vienen de diferentes

fuentes o
condiciones.
▪ El análisis de los datos sugiere entender a

cada una de esas fuentes o condiciones.
▪ Cuando se tiene un alto CV

Estratificación - ¿Qué hacer?
▪ Antes de recolectar los datos, considere el efecto queesas
fuentes o condiciones puede tener en el análisis quehará.
▪ Si ese efecto es considerable, o lo anticipa así, “etiquete” los
datos; esto es que cada uno de ellos contenga la identificación
de las fuentes o condiciones deinterés.
▪ Haga un gráfico para cada fuente o condición; o considere
identificar los datos de cada fuente o condición con colores
distintos. podrá usar Box-Plot, Dot-Plot, gráficode
líneas, histogramas...
▪ Analice cada uno de los subgrupos por separado y
compárelos entre sí. Las diferencias, y similitudes,
conforman información.
Ejemplo 1
▪ Un grupo ha tomado datos para tres equiposdiferentes
sobre las condiciones de un regulador y la temperatura
del agua de salida de la máquina. Toman a ésta última
como un indicador de que la regulación aumenta la
temperatura dentro del equipo.
EjerciciosAnalizar.mtw
Columnas 181 “Reactor” a 183 “Temperatura del
agua de salida”.
Ejemplo 1
1 Indica las columnas en las cuales está

la respuesta (Y) y la variable (x)
°
2
En este ejemplo se usa
un Diagrama de °
Dispersión
Ejemplo 1
3
°
Se pide un solo
gráfico
4°
5 6
El resultado es un diagrama
de Dispersión en el cual ° °
todos los puntos tienen igual
identficación
Con click en el botón derecho,
podemos editar los símbolos
de identificación de los
puntos.
Ejemplo 1 Se indica la columna en la cual están
los equipos a los cuales corresponde
cada par de valores.
7
°
8
9
°
°
Los símbolos toman un color

diferente para cada equipo.
Otros gráficos
▪ Gráficos de puntos. (Dot-Plot)
▪ Gráficos de Individuales.
▪ Gráficos de Efectos Principales. (Main Effect)

Técnicas estadísticas básicas
10. SERIE DE TIEMPOS

Temas a tratar
▪ Introducción.
▪ Métodos de Suavización.
▪ Ejercicios.
1431
Introducción a la serie de tiempos1
▪ Hemos visto a los gráficos de Control para analizarla
evolución de una característica a lo largo deltiempo.
▪ Pero, debemos sumar una técnica que permita

complementar a ese análisis.
▪ Si bien las Series de Tiempo, en general, son usadas para

proveer una predicción de la futura evolución de datos, en
la etapa de Análisis podrán ser usados para identificar
tendencias, estacionalidades o ciclos.
▪ También para identificar la correlación de dos omás

series de tiempo.
c. Variación
TEMPORAL.“Venta de
galletitas a lo largo
del tiempo”.
Para ello pueden ser usados procedimientos
tales como:
1. Métodos de suavización
Para encontrar patrones que pueden ser
estáticos o dinámicos.
2. ARIMA
(Autoregressive Integrated Moving
Average), para identificar patrones más
complejos y disimulados por los datos.
Métodos para suavizar
▪ Este enfoque descompone a los datos identificando una
eventual tendencia y los extiende al futuro.
▪ Pueden elegirse métodos que mantienen los patrones fijos a lo

largo del tiempo o los que losactualizan.
Análisis de Tendencia
▪ El análisis de tendencia muestra un modelo que descompone
la tendencia de los datos. Esatendencia puede ser analizada
como lineal, cuadrática, exponencialo tipo S.
▪ Seusa cuando no hay componentes estacionales en los

datos.
Análisis de Tendencia1
Columna con los
datos a analizar
Análisis de Tendencia
2
1 °
°
3
°
Ejercicios Analizar “Comercio”

4
°
5
°
Archivar los
datos de
predicción y los
residuales (el
error)
6
°
7 Trend Analysis Plot for Comercio
Linear Trend Model
° Y t = 313,989 + 1,16485*t
Variable
Los componentes Actual
estacionales se muestran Fits
Accuracy M easures
marcados MAPE 1,8999
MAD 6,6177
Comercio
MSD 67,4325
360
350
340
330
320
Recta de tendencia
muestra buen modelo,
310
1 6 12 18 24 30 36 aunque podría
60 probarse
Index con el modelo cuadrático
La estacionalidad tiene
un ciclo de 12 períodos.
Trend Analysis for Comercio
Data Comercio
Length 60
NMissing 0
Fitted Trend Equation Ecuación de la recta

Yt = 313,989 + 1,16485*t de tendencia.
Accuracy Measures
MAPE 1,8999
MAD 6,6177
MSD 67,4325 A menor valor de cualquiera de estos
estimativos, mejor es el modelo.
Residual Plots for Comercio
Normal Probability Plot Residuals Versus the Fitted Values
99,9 20
N 60
99 AD 1,038
90 P -Value 0,009 10
Residual
Percent
50 0
10 -10
1
0,1 -20
-20 -10 0 10 20 320 340 360 380
Residual Fitted Value
Histogram of the Residuals Residuals Versus the Order of the Data

16 20
12 10
Frequency
8 Residual 0
4 -10
0 -20
-16 -8 0 8 16 1 5 10 15 20 25 30 35 40 45 50 55 60
Residual Observation Order
Residuales muestran la existencia

de la estacionalidad.
Métodos de suavización
Descomposición
▪ Un análisis completo es el de Descomposición.
▪ La Descomposición separa la serie de tiempo en

componentes de tendencia y estacionales, además
del error.
Tipos de Modelo para la Descomposición1
Modelo Multiplicativo
▪ Se utilizan cuando el patrón estacional depende del

nivel de los datos. El modelo asume que si los datos
crecen en valor, el patrón también lo hace.
▪ La mayoría de las series de tiempo muestran este

patrón.
▪ La tendencia y estacionalidad son multiplicadas

y se suman al componente de error.
Tipos de Modelo para la Descomposición2
Modelo Aditivo
▪ Seusa cuando el patrón no depende de los valores que

toman los datos.
Análisis de Descomposición1
Descomposición en Columna con
tendencia y estacionalidad los datos Período de la
estacionalidad
1 2 3
° ° °
Puede pedirse la
estimación de 4 5
futuros valores
° °
6
°
Registro de valores
de predicción y
estimación futura
7°
8°
10°
9°
Tildar para tener

los valores de
predicción y error
11°
12°
10°
13°
14 Time Series Decomposition Plot for Comercio
° 400 Multiplicative Model
Variable
Actual
Fits
Trend
La predicción3n8o0es Forecasts
buena en el primer
muy Accuracy M easures
ciclo. 360 MAPE 0,8908
Comercio
MAD 3,0351
MSD 16,5285
340
320
300
1 7 14 21 28 35 42 49 56 63
Index
Muestra los valores originales con los valores de predicción en

rojo, la línea de tendencia en verde y los valores de estimación
futura en azul.
15 Seasonal Analysis for Comercio
Multiplicative Model
° Seasonal Indices Detrended Data, by SeasonalPeriod
1,04 1,05
1,00 1,00
0,96 0,95
1 2 3 4 5 1 2 3 4 5 6 7 8 9 10 11 12
Percent Variation,
Índices para aplicarlos Residuals, by SeasonalPeriod
a la estacionalidad
12 10
5
8
0
4
-5
0
1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12
16
° Ecuación de la
recta de tendencia.
17
° Índices para aplicar a los
valores de cada período
dada la estacionalidad.
Accuracy Measures
MAPE 0,8908
MAD 3,0351
MSD 16,5285 A menor valor de cualquiera
de estos estimativos, mejor
Forecasts
es el modelo.
Period Forecast
61 372,964
62 368,687
63 371,370
64 379,150
65 387,248
66 391,582 Valores de predicción
18
°
Índice de Fit de tendencia y
Fit
Período Cte. Pendiente Estacionalid estacionalid
Tendencia
ad ad
1 316,584 1,078 317,662 0,976 309,885

2 316,584 1,078 318,739 0,962 306,509
3 316,584 1,078 319,817 0,966 308,914
4 316,584 1,078 320,895 0,983 315,565
5 316,584 1,078 321,972 1,002 322,484
6 316,584 1,078 323,050 1,010 326,277
7 316,584 1,078 324,128 1,005 325,784
8 316,584 1,078 325,205 1,010 328,396
9 316,584 1,078 326,283 1,009 329,379
10 316,584 1,078 327,361 1,016 332,569
11 316,584 1,078 328,438 1,025 336,630
12 316,584 1,078 329,516 1,037 341,613
Fit de Tendencia + Índice de Estacionalidad

Residual Plots for Comercio
Normal Probability Plot Residuals Versus the Fitted Values
99,9
N 60
99 AD 10
0,837
90 P -Value 0,029
Residual
5
Percent
50
0
10
-5
1
0,1 -10
-10 -5 0 5 10 300 325 350 375 400
Residual Fitted Value
Histogra m o f t h eR e sid ual s Residuals Versus the Order of the Data

20
M u est ra los errores
de 10
15
Frequency
estimación en el
Residual
5
10 primer 0
5 período -5
0 -10
-5 0 5 10 1 5 10 15 20 25 30 35 40 45 50 55 60
Residual Observation Order
11. EJERCICIOS
Ejercicio 1
Consigna:
▪ Utilizando una serie de datos de un procesopropio,
construyan un diagrama de tiempo segmentado.
Tiempo:
▪ 20’
Ejercicio 2
Consigna:
▪ Construya un Histograma y un Diagrama de Puntos
para los datos de la columna 74.
▪ Busque segmentar.
▪ ¿Qué conclusiones puede conseguir?
Tiempo:
▪ 20’
Columna 74 “Medición”
Ejercicio 3
Consigna:
▪ Construya un Histograma y un Diagrama de Puntos
para los datos de la columna 85.
▪ ¿Qué conclusiones puede conseguir?
Tiempo:
▪ 10’
Columna 85 “Promedio de tiempos”
Ejercicio 4
Consigna:
▪ Construya un Box-Plot para los datos de la
columna 85.
▪ ¿Qué conclusiones puede sacar?
Tiempo:
▪ 10’
Columna 85 “Promedio de tiempos”
Ejercicio 5
Consigna:
▪ Construya un Box-Plot para los datos de la
columna 52.
▪ Busque segmentar simultáneamente por
operador y turno.
▪¿Qué conclusiones puede sacar?
Tiempo:
▪ 10’ Ejercicios Medir.mtw
Columna 52 “Promedio_1”
Ejercicio 6
Consigna:
▪ Construya un Diagrama de Pareto para los
datos de la columna 92.
▪ ¿Qué conclusiones puede sacar?
Tiempo:
▪ 5’
Columna 92
“Cantidad_1”
Ejercicio 7
Consigna:
▪ Construya un Diagrama de Dispersión y una Matriz
de Dispersión para verificar la existencia de
relación entre la cantidad de llamados entrantes y
los tiempos de espera del Call Center.
Tiempo:
Columna 85 “Promedio de Tiempos” a 88 “Llamadas Entrantes Totales”
Ejercicio 8
Consigna:
▪ Para los datos de la columna 88, construya
diferentes gráficos.
Tiempo:
▪ 15’
Columna 88 “Llamados Entrantes Totales”
Ejercicio 9
Consigna:
▪ Utilizando los datos de las columnas 94 a 102, utilice los
diferentes gráficos vistos y responda:
1. ¿Qué distribución siguen la variables numéricas?
2. ¿Qué variables influyen sobre el Tiempo de Ciclo?
3. ¿Hay alguna relación entre las variables numéricas?
4. ¿Hay alguna mayor solicitud de préstamospor
industria?
5.Utilice otros gráficos para caracterizar lasvariables.
Tiempo:
Columnas 94 “Solicitud_1” a 102 “Cantidad_2”
Ejercicio 10
Consigna:
▪ Utilizando datos de su propio proceso, por favor
emplee varios de los gráficos vistos para
analizarlos.
Tiempo:
▪ 20’
Sesión 13.0:
Test de Hipótesis (Parte I)

Temas a tratar
➢ Diferencias estadísticamente
significativas.
➢ p-value.
➢ Presunciones para los Test de

Hipótesis.
➢ Qué es un Test de Hipótesis.

Test de Hipótesis
Diferencias estadísticamente significativas
¿Hay diferencias o no1?
▪ Lo que se verá a continuación se conoce como Test

de Hipótesis.
▪ Una hipótesis ayuda a determinar si un cambio o

variación en un factor (x) cambia significativamente la
respuesta o salida (Y) del proceso.
▪ También permite determinar si hay diferencias entre

las salidas de dos o más procesos.
▪ Testear una hipótesis usando métodos estadísticos es
equivalente a hacer una inferencia basándose en la probabilidad
de estar en lo correcto.
▪ Como tomaremos una decisión basándonos en probabilidades,

nunca podremos estar seguros de que haya sido la correcta o no;
simplemente porque estamos condicionados por la variación de
la muestra.
▪ No importa cuántas muestras aleatorias tomemos de una

población, siempre tendrán diferentes valores.
▪ La cuestión es, ¿las diferencias que observamos son producto de

la variación entre muestras, o provienen de un cambio dado en el
proceso?
Dotplot for A-C

▪ Por ejemplo, en este caso, ¿existen o no diferencias entre las tres
muestras?
7.5 8.5 9.5 10.5 11.5 12.5
▪ ¿Será una diferencia dada por el azar o refleja una verdadera diferencia?
▪ Hay que notar que aunque parezca irrelevante la respuesta, en términos

de negocio puede significar mucho dinero?
¿Las muestras 1, 2 y 3,
son diferentes
simplemente porque las
unidades muestreadas
fueron diferentes y
aleatorias o hay un
cambio en el proceso? x1
x2
x3
Muestra 1 Muestra 2
s1 y s2
x1 y x 2
Peor Mejor
_ _
x1 x2
¿Si las muestras 1 y 2 son tomadas del mismo

proceso en diferentes momentos, podemos decir
que el proceso ha mejorado su resultado, o la
diferencia es simplemente fruto de la variación
entre muestras?
Muestra 1 Muestra 2
s1 y s2 se
mantienen
x1 y x2 han
cambiado
Peor Mejor
_ _
¿Y en x1 x 2
estos Muestra 1 Muestra 2
casos?
s1 y s2 han
cambiado
x1 y x2 se mantienen
Peor Mejor
_ _
x1 x2
▪ Los métodos estadísticos son usados para minimizar el número

de veces que no acertamos.
▪ Puesto en otros términos, el Test de Hipótesis nos servirá para

que cuando observemos un cambio entre muestras, no erremos
(o erremos la menor cantidad de veces) al predecir si esa
diferencia proviene de:
▪ La variación entre muestras.
▪ De un cambio en el proceso o de muestras de diferentes procesos.

Riesgos α y β1
▪ Tomemos un caso, ¿cómo sabemos si un valor x pertenece a la
distribución 1?
▪ Por ejemplo, ¿cómo sabemos si la nueva medición de scrap de un

proceso significa que el proceso ha desmejorado?
_ _ _ _
x1 x 2 x3 x4
▪ Algunos podrían asegurar que x2 (promedio del día 2) no es más que un
día como otros, y que x4 (promedio del día 4) definitivamente sería
empeoramiento. Pero, ¿y x3?
Riesgos α y β2
▪ Con x3 correríamos un riesgo, porque si miramos la curva más
detenidamente (recordemos que es asintótica)...
Existe probabilidad de que sea

parte de la distribución. ¡Pero es
muy baja!
_ _
x1 x3
▪ En algún lugar debemos “cortar” la curva.
▪ Significa que, pretender seguridad total para afirmar que no

pertenece al proceso 1, nos llevaría muy “lejos”.
Riesgos α y β3
▪ Pero, al irnos muy lejos, debemos pensar que ese punto puede
ahora pertenecer a otra distribución.
_ _
x1 x3
▪ Asegurarnos que no pertenece al proceso 1 significa que
podríamos confundirlo con un punto del proceso 2.
▪ Hay, entonces, dos errores que podríamos cometer

simultáneamente.
Riesgos α y β4
▪ Error del tipo 1, o error α
▪ Error que podemos cometer al rechazar un valor como

perteneciente a la población original, cuando no deberíamos
haberlo rechazado.
▪ Usualmente se considera α = 0,05, lo que significa que

cuando decimos que la población ha cambiado corremos el
riesgo de equivocarnos el 5% de las veces.
▪ El opuesto, 1-α, es conocido como el nivel de Confianza. Es

el grado de confianza en no equivocarnos cuando decimos
que algo ha cambiado. Usualmente el grado de Confianza es
de 95%.
▪ A mayor Confianza, menos riesgo de creer un cambio cuando

no lo ha habido.
Riesgos α y β5
▪ Error del tipo 2, o error β
▪ Error que podemos cometer al no rechazar un valor como

perteneciente a la población original, cuando deberíamos haberlo
rechazado.
▪ Usualmente se considera β = 0,20, lo que significa que cuando

decimos que no ha habido cambios corremos el riesgo de
equivocarnos el 20% de las veces.
▪ El opuesto, 1-β, es conocido como Potencia del Test.
▪ A mayor Potencia, mayor seguridad de no negar un cambio

cuando lo ha habido.
Riesgos α y β6
Distribución Distribución
1 2
X
•Riesgo : está dentro del 0,05 de la distribución 1
•Riesgo : está fuera del 0,05 y la rechazamos;
y la aceptamos; pero el valor pertenece a la
pero el valor pertenece a la distribución 1.
distribución 2.
•Riesgo I o Riesgo del productor: “Encontrar una
•Riesgo II o Riesgo del consumidor: “No encontrar
diferencia cuando no existe”. Podría rechazar algo
una diferencia cuando existe”. Podría llegarle algo
que debería enviar.
mal.
•Usualmente 0,05 (opción 0,10).
•Usualmente < 0,20 (opción 0,10).
•1 -  = Nivel de Confianza
•1 -  = Potencia
Riesgos α y β7
▪ ¿Qué es potencia?
▪ Potencia es la probabilidad de que usted identifique una diferencia

significativa (efecto) cuando de verdad existe.
▪ Hay cuatro resultados posibles para una prueba de hipótesis .
▪ Los resultados dependen de si la hipótesis nula (H0) es verdadera o falsa y
de si usted decide "rechazar" o "no puede rechazar" H0.
▪ La potencia de una prueba es la probabilidad de rechazar correctamente
H0 cuando es falsa.
▪ Los cuatro resultados posibles se resumen a continuación:
Hipótesis nula
Decisión Verdadera Falsa
no rechazar H 0 decisión correcta Error de tipo II

p=1- p=
rechazar H 0 Error de tipo I decisión correcta
p= p=1-
Riesgos α y β8
▪ Cuando H0 es verdadera y usted la rechaza, comete

un error de tipo I
▪ La probabilidad (p) de cometer un error de Tipo I se

llama alfa y a veces se menciona como el nivel de
significancia de la prueba.
▪ Cuando H0 es falsa y usted no la rechaza, comete un

error de tipo II . La probabilidad (p) de cometer un error
de tipo II se llama beta.
Riesgos α y β9
Elección de niveles de probabilidad
Cuando usted está determinando los valores de a y b para su

prueba, debe considerar:
▪ La gravedad de cometer un error - Mientras más grave sea el

error, menos veces querrá que ocurra. Por lo tanto, debe asignar
valores de probabilidad más pequeños a los errores más graves.
▪ La magnitud del efecto que desea detectar- Potencia es la

probabilidad (p = 1 - b) de rechazar correctamente H0 cuando es
falsa. Lo ideal es tener un alto nivel de potencia para detectar una
diferencia que sea importante y un bajo nivel de potencia para una
diferencia insignificante.
Riesgos α y β10
Factores que inciden en la potencia
Son varios los factores que inciden en la potencia:

▪ La probabilidad de cometer un error de Tipo I (también
denominada nivel de significancia). A medida que a aumenta, la
probabilidad de un error de Tipo II (b) disminuye. De allí que, a
medida que a aumenta, también aumenta la potencia (que es
igual a 1 - b).
▪ La variabilidad en la población (o variabilidad experimental). A
medida que s disminuye, aumenta la potencia.
▪ El tamaño del efecto. A medida que aumenta el tamaño del
efecto, aumenta la potencia.
▪ Tamaño de la muestra. A medida que aumenta el tamaño de la
muestra, aumenta la potencia.
Riesgos α y β11
Conclusiones:
▪ Es siempre una cuestión de

equilibrio. Un riesgo alto de
un tipo, nos lleva a aumentar
el riesgo del otro tipo.
▪ Siempre debe verificarse la

potencia de test cuando no
se rechaza una hipótesis
nula y esta podría ser falsa
en la realidad.
Test de Hipótesis
P-value
p-value (valor p)1
▪ ¿Cómo determinamos los riesgos? ¿Cómo saber si un nuevo
parámetro es diferente de uno anterior?
▪ Por ejemplo, ¿cómo saber si los resultados de un proceso

modificado son mejores que los del proceso anterior?
▪ p-value
▪ Usamos el p-value, que es la probabilidad que tiene un valor de

pertenecer a una distribución.
▪ Para calcularlo se usará el software, que empleará fórmulas para

cada una de las técnicas de análisis.
▪ El p-value se compara con el valor del riesgo α para responder a

la pregunta.
p-value (valor p)2
▪ Si el p-value es mayor que α, aceptamos que el valor
pertenece a la distribución y, por lo tanto, que nada hay
diferente.
Probabilidad
α = 0,05
_
Valor para el x1
cual la
Valor en cuestión. Tiene una Desde este valor, la
probabilidad
probabilidad mayor a 0,05. probabilidad de pertenecer
es 0,5
Aceptamos que es de esta a la distribución es menor a
distribución α = 0,05
p-value (valor p)3
▪ Si, por el contrario, el p-value es menor que α, aceptamos que
el valor tiene baja probabilidad de pertenecer a la distribución y,
por lo tanto, que hay diferencias significativas.
Probabilidad
α = 0,05
_
Valor para el cual x1
la probabilidad
es 0,5 Hasta este valor, la Valor en cuestión. Tiene una
probabilidad de pertenecer a la probabilidad menor a 0,05.
distribución es mayor a α = Aceptamos que es de otra
0,05 distribución
p-value (valor p)4
Para recordar siempre:
▪ Si p-value > 0,05 aceptamos que nada ha cambiado.

▪ Si p-value < 0,05 aceptamos que algo ha cambiado.
O sea Rechazamos Ho y consideramos que existe evidencia

significativa para aceptar la H1 (la hipótesis rebelde) que
trataba de cuestionar correctamente el “status quo” de la Ho.
Test de Hipótesis
Presunciones para los Test de Hipótesis
Si los datos son continuos se supone:

La distribución subyacente es Normal.
▪ Si no lo es, se necesita una transformación o usar test
de hipótesis para datos no normales
▪ Por ejemplo, podría suceder con los tiempos de ciclo.
▪ Al comparar grupos de diferentes poblaciones se supone:

▪ Las muestras son Independientes.
▪ El muestreo ha sido al azar y son representativas.
▪ Al comparar grupos de procesos diferentes se supone:
▪ Cada proceso es Estable; sin causas Especiales o
cambios con el tiempo
▪ Las muestras son representativas.
Test de Hipótesis
Qué es un Test de Hipótesis
Qué es el Test de Hipótesis
Los Test de Hipótesis proveen formas de
calcular la variación de causa común y
responder a la pregunta:
¿Las diferencias que se ven en las

muestras, se deben a una variación
azarosa, de causa común o existe una
diferencia real entre ellas?
Test de Hipótesis1
▪ Un Black Belt o Green Belt haciendo un Test de Hipótesis es como
un juez.
▪ Busca suficientes evidencias -datos- para no correr el riesgo de
declarar culpable a una persona cuando no lo es, sin caer en el
riesgo de no declararla culpable cuando lo es.
▪ De igual manera, un Black Belt o Green Belt buscarán datos para

probar que un cambio en la variable (x) origina o no un cambio en el
resultado (Y).
▪ Si fuera cierto, dirán que x es variable significativa de Y.
▪ Si no fuera cierto, dirán que hay otra/s variable/s que lo son.

¿Qué es el Test de Hipótesis?2
▪ “Una hipótesis estadística es una afirmación sobre la
relación entre parámetros de una o más poblaciones”.
▪ Algunos problemas requieren tomar una decisión:

aceptar o rechazar esa hipótesis.
▪ Para probar la hipótesis estadística tomamos una

muestra aleatoria de la población en estudio y utilizamos
sus datos para dar evidencia que apoye o no la hipótesis.
Pero la hipótesis es una proposición sobre la población,
no sobre la muestra.
¿Qué es el Test de Hipótesis?3
▪ Hipótesis Nula (Ho): cualquier hipótesis que

deseamos probar
▪ Cuando los datos dan suficiente evidencia

para rechazar la Ho, nos conduce a la
aceptación de una Hipótesis Alternativa (Ha).
Test de Hipótesis - síntesis
Recomendaciones no Los hallazgos no son Problema en la ejecución de las acciones de mejora
obligan a la gerencia
Las recomendaciones no son
percibidas como algo que hay que
hacer
creíbles para la gerencia
Resistencia a aceptar hallazgos
no placenteros
Datos usados
Metodología usada 1°
Habilidad de los Facilitadores
No se entiende la El proceso de mejora es considerado errado
relación entre las Dueños de procesos sorprendidos
2°
acciones con los
resultados No se reconoce la Los dueños de proceso no fueron
α
necesidad de cambio Dueños de procesos no involucrados adecuadamente en la
comunicados No se
=μ
revisión y aprobación de las mejoras
adecuadamente
implementan Ho : μ
antes después
4°
No hay un plan formal de implementación No se reconoce la necesidad de cambio
las mejoras
β
Otras motivaciones generadas por la Confusión con la
Plan de implementación evaluación de desempeño expresión “calidad”
no compartido
μ
Expectativas
Otros temas
importantes
Foco en resultados
económicos de corto falsas
Ha : μ
Plan de
implementación fallido
reclaman atención plazo exclusivamente
Los dueños de procesos

Los que toman las decisiones no
están lo suficientemente informados
antes después
3°
no dispuestos a hacerse
Implementación cargo Las acciones están
formuladas vagas
sobrepasada por Pre-requisitos no cumplidos No hay entendimiento de lo
que es ser dueño de proceso
otras prioridades antes del lanzamiento y lo que implica
8° One-Sample T: Tiempos con nuevo software 5°

Test of mu = 345 vs not = 345
Variable N Mean StDev SE Mean 95% CI T P 6°

Tiempos con nuev 22 357,877 1,182 0,252 (357,353. 358,401) 51,11 0,000
7°
Ho : μ
X =μ
antes después
Ha : μ μ
antes después

Sesión 13.0 - Técnicas Estadísticas Básicas PDF

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Sesión 13.0 - Técnicas Estadísticas Básicas PDF

Caricato da

Copyright:

Formati disponibili

Sesión 13.

Técnicas Estadísticas Básicas

▪ Estas técnicas ayudan a visualizar, de un conjunto de datos:

• Como la distribución es asintótica, para

▪ Esusado para visualizar e interpretar cambios de

▪ Los diagramas de tiempo pueden ser usados con

▪ Los datos los toma directamente del IVR, aunque

▪ ¿Qué puede concluirse de los datos?

con las 200

18 Nuevo click derecho

Muestra los datos del

para ver con

Columnas con los datos de

▪ Esun gráfico de barras que muestra la frecuencia

▪ Requiere, aproximadamente, 50 mediciones

▪ Cuando los datos están segmentados, un

▪ Si uno de esos grupos, por ejemplo, tuviere

Muestra localización, variación

▪ El Diagrama de Pareto ayuda a enfocarse en los

▪ Se basa en el comprobado principio de Pareto: el

▪ Ayudará al equipo, en etapas posteriores, a

▪ El Diagrama de Pareto indica la relación 80-20. Si el

▪ Por ejemplo, si se registra la frecuencia con la cual

• Si no aparece la relación 80 - 20 en un Diagrama

▪ La localización, variación y forma de los datos

se encuentran Mediana (50% de

Franco Julieta María

▪ Los datos se recolectan de a pares x - y.

▪ La forma de la “nube de puntos” da idea de la

positiva (una negativa (una

40 50 60 70 80 90 100 110 120 0 10 20 30 40 50 60 70 80

aumenta, la Input Input

R-Squared = 0.359 R-Squared = 0.359

Weak PositiveCorrelation Weak Negative Correlation

Y = 56.6537 + 0.181987X Y = 74.8524 - 0.181987X

▪ Cuando los datos de diferentes fuentes, como por ejemplo

▪ Esta técnica busca, esencialmente, la separación o una

▪ Una aplicación de esta técnica se da para la

▪ Cuando los datos vienen de diferentes

▪ El análisis de los datos sugiere entender a

▪ Cuando se tiene un alto CV

1 Indica las columnas en las cuales está

Los símbolos toman un color

▪ Gráficos de puntos. (Dot-Plot)

▪ Gráficos de Efectos Principales. (Main Effect)

10. SERIE DE TIEMPOS

▪ Pero, debemos sumar una técnica que permita

▪ Si bien las Series de Tiempo, en general, son usadas para

▪ También para identificar la correlación de dos omás

▪ Pueden elegirse métodos que mantienen los patrones fijos a lo

▪ Seusa cuando no hay componentes estacionales en los

Ejercicios Analizar “Comercio”

Fitted Trend Equation Ecuación de la recta

Histogram of the Residuals Residuals Versus the Order of the Data

Residuales muestran la existencia

▪ Un análisis completo es el de Descomposición.

▪ La Descomposición separa la serie de tiempo en

▪ Se utilizan cuando el patrón estacional depende del

▪ La mayoría de las series de tiempo muestran este

▪ La tendencia y estacionalidad son multiplicadas

▪ Seusa cuando el patrón no depende de los valores que

Tildar para tener

Muestra los valores originales con los valores de predicción en