Sei sulla pagina 1di 130

Sesión 13.

0:

Técnicas Estadísticas Básicas


Temas a tratar
1. Introducción
2. Diagramas de tiempo.
3. Histograma.
4. Diagrama de Puntos.
5. Diagrama de Pareto.
6. Box- Plots.
7. Diagrama de Dispersión.
8. Matriz de Dispersión.
9. Estratificación
10. Serie de Tiempos
11. Ejercicios.
Técnicas estadísticas gráficas básicas

1. INTRODUCCIÓN
Introducción1
▪ En el momento de caracterizar una variable, de segmentar o
de realizar una primera prospecciónpara analizar las
variables, una serie de técnicas gráficas simples pueden
ayudar.

▪ Estas técnicas ayudan a visualizar, de un conjunto de datos:


- Sulocalización.
- Sudispersión.
- Su forma odistribución.
- Las subagrupaciones que pudierehaber.
- Las diferencias o similitudes entre esas
subagrupaciones.
Introducción2
▪ Cálculos gráficos o analíticos más profundos
pueden seguirle, pero con una base que
seguramente nos habrá llevado a seleccionar
o poner foco en algunas variables.
Pertenencia a la distribución
Clave:

• Como la distribución es asintótica, para


determinar si un valor pertenece a la
distribución en cuestión, o otra con valores
similares, se usa el p-value = 0,05.
• Un valor con p-value > 0,05, será
considerado de la distribución.
• Un valor con p-value < 0,05, será sospechado de
pertenecer a otra distribución.
• Asumimos una u otra conclusión a los fines
prácticos. Pero, en realidad, no sabremos.

1363
Técnicas Estadísticas Gráficas Básicas

2. DIAGRAMAS DE TIEMPO

1364
Diagrama de tiempo1
▪ Un diagrama de tiempo es un gráfico de datos en
orden cronológico.

▪ Esusado para visualizar e interpretar cambios de


los datos a lo largo del tiempo.

▪ Los diagramas de tiempo pueden ser usados con


datos Continuos, Discretos por Conteo, Discretos
Ordinales y Discretos por Porcentajes.
Diagrama de tiempo2
▪ El supervisor de un Call Center está
analizando los tiempos de las colas para el
segmento de clientes “Individuos” y
“Empresas”.

▪ Los datos los toma directamente del IVR, aunque


por problemas técnicos los de algunos días en
particular se han perdido.

▪ ¿Qué puede concluirse de los datos?


Ejercicios Medir.mtw
Columna 85 “Promedio de Tiempos”
Diagrama de tiempo3
2
°
Permite hacer Columna
un diagrama con los
simple datos
3
°

1 4
° °
5
°
Vamos a poner
las fechas en el
eje x
Diagrama de tiempo4


9 Time Series Plot of Promedio de tiempos

8 °
400

Columna
° Promedio de tiempos 300

con las 200

fechas
100

0
17-01 31-01 15-02 02-03 17-03 01-04 16-04 01-05 16-05 31-05 15-06
Fecha_1
Diagrama de tiempo5

Permite
editar y
definir las
posiciones
del eje x.
11 12°
Haciendo
°
doble click
sobre el eje 10
x, despliega
un diálogo
°
13
°
Diagrama de tiempo6

15
°
Cambia el cursor
a un índice de la
mano. Permite
identificar,
Con click derecho dragueando,
en algún lugar del 14
datos
gráfico, despliega ° particulares del
una menú gráfico
Diagrama de tiempo7
Dragueando alrededor de un punto,
muestra la fila correspondiente.
En la fila de la planilla de datos
17 coloca un punto.
°

16
°
Diagrama de tiempo8
19
°
Seleccionamos
la fecha y día de
la semana
20°

18 Nuevo click derecho


° sobre el gráfico
para seleccionar
más datos
relacionados con el
punto dragueado.
1372
Diagrama de tiempo9

21°

Muestra los datos del


punto seleccionado
Diagrama de tiempo agrupados1
Time Series Plot of Promedio de tiempos 6
400 ° Día dela
semana
Jueves

1° Lunes
M artes
M iércoles

Promedio de tiempos
300
Viernes

200
Diagrama con
subgrupos 100

para ver con


grupos 0

2° 1 15 30 45 60 75
Index
90 105

Gráfico de
3 líneas para
Columna con
° cada grupo
los datos
4 (en este
Columna con ° caso para
las cada uno de
agrupaciones los días de
5 la semana)
°
Diagrama de tiempo agrupados2
Time Series Plot of Promedio de tiempos
Día dela
400 semana
Jueves
Lunes
M artes
M iércoles
Pedimos que
Promedio de tiempos

300
Viernes

use la variable
200
para agrupar
100
los datos
7
Hacemos
0 °
click 15 30 45 60 75
Index
90 105 120 135 150

derecho 8
sobre el °
gráfico Indicamos la columna con 9
la variable (en este °
caso los días)

10
°
Diagrama de tiempo agrupados3
11
°

Pone cada
grupo en
diferente
panel
Diagrama de tiempo segmentado
Vamos a
generar
gráficos
1 superpu
° est os
4
para
°
cada
segment
o
Ambas colas en
el mismo gráfico
2
°

Columnas con los datos de


los segmentos (en este caso
3 las dos colas)
°
Técnicas Estadísticas Gráficas Básicas

3. HISTOGRAMA
Histogramas1
▪ El Histograma permite representar datos,
Continuos o Discretos, para evaluar la tendencia
central, la dispersión e identificar la forma de la
distribución o patrones.

▪ Esun gráfico de barras que muestra la frecuencia


con la cual aparecen algunos factores.

▪ Requiere, aproximadamente, 50 mediciones


para revelar el patrón básico de variación.
Histogramas2

▪ Cuando los datos están segmentados, un


Histograma por grupo o factor podría mostrar
igualdad o diferencias entre ellos.

▪ Si uno de esos grupos, por ejemplo, tuviere


mayor variación, podría requerir atención
prioritaria parala solución.
Histogramas3
2 Permite
armar
1 ° Histogramas
° simples o
superpuesto
s (el
histograma
del Torque
para una
3° máquina
superpuesto
Columna en la con el de la
cual está la otra)
serie de datos
Ejercicios Medir.mtw
Columna 59 “Torque”
4
°
Histogramas4
4° Histogram of Torque

14

12

10
Frequency

0
12 16 20 24 28 32 36
Torque

Muestra localización, variación


y forma de la serie de datos.
Histogramas por grupos1
Permite graficar
varios gráficos
simultáneamente

5
°
8
°
Indicamos en
6
gráficos separados
°

Con la misma Y
para poder
comparar
Histogramas por grupos2
Indicamos la columna en
la cual están las variables
9 para segmentar
°

10 11
° °
Histogramas para
cada máquina
con la misma
escala de Y
Técnicas Estadísticas Gráficas Básicas

4. DIAGRAMA DE PUNTOS
Diagrama de Puntos
1
°
5
°
Con
grupos

2 Columna con
° los datos
Columna con
3 los grupos Gráfico de puntos
° superpuesto para
4 cada grupo
°
Técnicas Estadísticas Gráficas Básicas

5. PARETO
Diagrama de Pareto1
▪ Un diagrama de Pareto es un gráfico de barras
ordenadas de mayor a menor, donde cada barra
refleja la importancia o peso de cada uno de los
factores quese analizan.

▪ El Diagrama de Pareto ayuda a enfocarse en los


grupos o factores “Pocos Vitales” en lugar de los
“Muchos triviales”.

▪ Se basa en el comprobado principio de Pareto: el


20% de las causas produce el 80% de los efectos.
Diagrama de Pareto2
▪ También se lo conoce como la curva A-B-C. La parte
A, genera una curva acumulada de gran
pendiente, y pertenece a los factores de mayor
contribución. La C, generan una curva acumulada
prácticamente horizontal; usualmente los factores
están agrupados en Varios. La B es la parte
intermedia.

▪ Ayudará al equipo, en etapas posteriores, a


enfocarse en aquellas causas que tendrán el más
grande impacto en los Yssi son resueltas.
Diagrama de Pareto3
Permite Porcentaje
colocar los final con el
datos por cual arma el
variables o “Varios”
1 en formato
de tabla.
° Columna en la
cual tenemos
los grupos o
factores

2 3
°
Columna en °
la cual
tenemos la
frecuencia
Ejercicios Medir.mtw para cada
Columna 57 grupo o 5
“Cantidad” factor. °
Diagrama de Pareto4
Porcentajes
Pareto Chart of Defectos acumulados
Cantidad que 100
le 400
corresponde
al 1er Factor 80
o grupo 300

Percent
60
Count

200
40

100
20

0 0grupo
Defectos Rayado Cortadura Doblado Other Factores
sordenad y
Factores
4
os
Frecuencia
Count 351 49 19 según su
Percent 83,0 11,6 4,5 0,9
Cum % 83,0 94,6 99,1 100,0 cantidad
o
Nos dice que, inicialmente, debemos
poner foco en los rayones.
Error usual al aplicar Pareto
▪ Esun error asumir que un diagrama de barras ordenado
de mayor a menor es un Diagrama de Pareto.

▪ El Diagrama de Pareto indica la relación 80-20. Si el


gráfico no muestra una primera zona claramente
diferenciada, con curva Acumulada de mayor pendiente,
entonces el eje Ydebe ser reconvertido.

▪ Por ejemplo, si se registra la frecuencia con la cual


aparece cada factor, cabe reconvertir y graficar elcosto
que genera cada uno de los factores.
Importante

Clave:

• Si no aparece la relación 80 - 20 en un Diagrama


de Pareto, corresponde reconvertir el eje Y.
Técnicas Estadísticas Gráficas Básicas

6. BOX PLOTS
Box-Plots1
▪ Los diagramas Box Plots permiten graficar
los estadísticos esenciales de una serie
de datos para evaluar y comparar
distribuciones.

▪ La localización, variación y forma de los datos


queda en evidencia, permitiendo comparar
muy fácilmente varias series
simultáneamente.
Box-Plots2
Permite graficar una
serie de datos o
comparar varias de
ellas, agrupando y
subagrupando. 2
°

1
°
3
°
4
Columna con
°
los datos
Como con los
Histogramas, permite
graficar en diferentes
gráficos o paneles
5
°
Box-Plots3
Valor máximo de la serie de
datos. Si hubiera un valor
superior al Boxplot of Promedio
Q3 + 1.5 RI = Q3 + 1.5(Q3 - Q1),
Entonces aparecería como *
3° cuartil (75%
41 de los datos)
El 50% de los datos
Promedio

se encuentran Mediana (50% de


concentrados en los datos acum)
esta “caja”

2° cuartil (25% de
los datos acum)
La posición de la
Mediana y la
longitud de los
bigotes dan una Valor mínimo de la serie de
idea de la forma de datos. Si hubiera un valor
la distribución inferior al
Q1 - 1.5 RI = Q1 - 1.5(Q3 - Q1),
Entonces aparecería como *
Box-Plots agrupados1
Para graficar
2 diferentes
° subgrupos.

1
° 3
Columna en
°
la cual están
los datos.
4
°
5
°
Columna en la
cual están los
factores o
grupos. 6
°
Box-Plots agrupados2
Distribución de
los datos para
Distribución de
Distribución de Julieta
los datos para
los datos para
María
Franco
41
Promedio

40

39

38

Franco Julieta María


Operador
Comparación de
los datos para
los tres
operadores
Técnicas Estadísticas Gráficas Básicas

7. DIAGRAMA DE DISPERSIÓN
Diagrama de Dispersión1
▪ Los gráficos o Diagramas de Dispersión
muestran cómo los pares de valores de una
variable independiente (xs) y la respuesta (Ys)
varían a medida que aquella cambia.

▪ Los datos se recolectan de a pares x - y.

▪ La forma de la “nube de puntos” da idea de la


asociación que existe entre las variables.
Diagrama de Dispersión2
Han múltiples
1 opciones para
° graficar grupos varios
y superpuestos
2
° Columna en la cual
está la variable
independiente (x)

3
°
Columna en la cual 4°
está la variable 5
dependiente (Y)
°

6
°
Diagrama de Dispersión3
Los puntos se Scatterplot of Dureza vs Tiempo
7
encuentran muy °
dispersos, Pares de puntos x-Y
indicando bajo graficados
grado de
correlación

180

170

160

150
14,5 15,0 15,5 16,0 16,5 17,0 17,5 18,0 18,5
Variable ¿Cómo se mostrarían
Tiempo
dependient los puntos en
e (Y) variables con alto
Variable independiente (x) grado de asociación?
Diagrama de Dispersión4
Strong PositiveCorrelation Strong Negative Correlation

Fuerte 110

100
110

100
Fuerte
asociación asociación
90 90

80 80

Output

Output
70 70

positiva (una negativa (una


Y = 9.77271 + 0.745022X Y = 99.1754 - 0.745022X
60 60
R-Squared = 0.876 R-Squared = 0.876

50 50

variable variable
40 40

30 30

40 50 60 70 80 90 100 110 120 0 10 20 30 40 50 60 70 80

aumenta, la Input Input


aumenta, la
otra aumenta Moderate PositiveCorrelation Moderate Negative Correlation
otra decrece)
también) 110 110

100 100

90 90

80 80
Output

Output
70 Y = 25.7595 + 0.645418X 70 Y = 90.3013 - 0.645418X

R-Squared = 0.359 R-Squared = 0.359


60 60

50 50

40 40

50 60 70 80 90 100 0 10 20 30 40 50

Input Input

Weak PositiveCorrelation Weak Negative Correlation

85 85

75 75
Output

Output

Y = 56.6537 + 0.181987X Y = 74.8524 - 0.181987X


65 65
R-Squared = 0.115 R-Squared = 0.115

55 55

40 50 60 70 80 90 10 20 30 40 50 60

Input Input
Diagrama de Dispersión agrupado1
1 2 Para crear un gráfico por
grupos
° °
Columna con el Columna con
resultado (Y) la variable (X)

3
°

5
°
Columna
con los
grupos 6°
7
°
Diagrama de Dispersión agrupado1

8
°

Grupo 1

Grupo 2
Técnicas Estadísticas Gráficas Básicas

8. MATRIZ DE DISPERSIÓN
Matriz de Dispersión1
1
°

Columnas con
las variables a
2 relacionar
°

3 4
° °

5
°
Matriz de Dispersión2
Cada unidad
Dispersión del gráfico
entre Presión muestra el
y Tiempo_1 Diagrama de
Dispersiones
entre un par
de variables

Dispersión
entre Dureza
y Tiempo_1
Técnicas Estadísticas Gráficas Básicas

9. ESTRATIFICACIÓN
Estratificación
▪ Estratificación es una técnica usada en combinación con
otras para analizar los datos de una variable y, Y, x o X.

▪ Cuando los datos de diferentes fuentes, como por ejemplo


diferentes procesos, turnos, centros de atención, días de la
semana, materiales, proveedores, gerencias o equipos están
juntos, el significado deesos datos es imposible de ver.

▪ Esta técnica busca, esencialmente, la separación o una


subagrupación de esos datos para encontrar los patrones y
estadísticos de cada una.

▪ Una aplicación de esta técnica se da para la


identificación de no normalidades.
Estratificación - ¿cuándo usarla?

▪ Cuando los datos vienen de diferentes


fuentes o
condiciones.

▪ El análisis de los datos sugiere entender a


cada una de esas fuentes o condiciones.

▪ Cuando se tiene un alto CV


Estratificación - ¿Qué hacer?
▪ Antes de recolectar los datos, considere el efecto queesas
fuentes o condiciones puede tener en el análisis quehará.
▪ Si ese efecto es considerable, o lo anticipa así, “etiquete” los
datos; esto es que cada uno de ellos contenga la identificación
de las fuentes o condiciones deinterés.
▪ Haga un gráfico para cada fuente o condición; o considere
identificar los datos de cada fuente o condición con colores
distintos. podrá usar Box-Plot, Dot-Plot, gráficode
líneas, histogramas...
▪ Analice cada uno de los subgrupos por separado y
compárelos entre sí. Las diferencias, y similitudes,
conforman información.
Ejemplo 1
▪ Un grupo ha tomado datos para tres equiposdiferentes
sobre las condiciones de un regulador y la temperatura
del agua de salida de la máquina. Toman a ésta última
como un indicador de que la regulación aumenta la
temperatura dentro del equipo.

EjerciciosAnalizar.mtw
Columnas 181 “Reactor” a 183 “Temperatura del
agua de salida”.
Ejemplo 1

1 Indica las columnas en las cuales está


la respuesta (Y) y la variable (x)
°

2
En este ejemplo se usa
un Diagrama de °
Dispersión
Ejemplo 1

3
°
Se pide un solo
gráfico


5 6
El resultado es un diagrama
de Dispersión en el cual ° °
todos los puntos tienen igual
identficación
Con click en el botón derecho,
podemos editar los símbolos
de identificación de los
puntos.
Ejemplo 1 Se indica la columna en la cual están
los equipos a los cuales corresponde
cada par de valores.

7
°

8
9
°
°

Los símbolos toman un color


diferente para cada equipo.
Otros gráficos

▪ Gráficos de puntos. (Dot-Plot)

▪ Gráficos de Individuales.

▪ Gráficos de Efectos Principales. (Main Effect)


Técnicas estadísticas básicas

10. SERIE DE TIEMPOS


Temas a tratar

▪ Introducción.

▪ Métodos de Suavización.

▪ Ejercicios.

1431
Introducción a la serie de tiempos1
▪ Hemos visto a los gráficos de Control para analizarla
evolución de una característica a lo largo deltiempo.

▪ Pero, debemos sumar una técnica que permita


complementar a ese análisis.

▪ Si bien las Series de Tiempo, en general, son usadas para


proveer una predicción de la futura evolución de datos, en
la etapa de Análisis podrán ser usados para identificar
tendencias, estacionalidades o ciclos.

▪ También para identificar la correlación de dos omás


series de tiempo.
Introducción a la serie de tiempos2

c. Variación
TEMPORAL.“Venta de
galletitas a lo largo
del tiempo”.
Introducción a la serie de tiempos3
Para ello pueden ser usados procedimientos
tales como:

1. Métodos de suavización
Para encontrar patrones que pueden ser
estáticos o dinámicos.

2. ARIMA
(Autoregressive Integrated Moving
Average), para identificar patrones más
complejos y disimulados por los datos.
Métodos para suavizar
▪ Este enfoque descompone a los datos identificando una
eventual tendencia y los extiende al futuro.

▪ Pueden elegirse métodos que mantienen los patrones fijos a lo


largo del tiempo o los que losactualizan.

Análisis de Tendencia
▪ El análisis de tendencia muestra un modelo que descompone
la tendencia de los datos. Esatendencia puede ser analizada
como lineal, cuadrática, exponencialo tipo S.

▪ Seusa cuando no hay componentes estacionales en los


datos.
Análisis de Tendencia1
Columna con los
datos a analizar
Análisis de Tendencia

2
1 °
°

3
°

Ejercicios Analizar “Comercio”


Análisis de Tendencia2
4
°
5
°
Archivar los
datos de
predicción y los
residuales (el
error)

6
°
Análisis de Tendencia3
7 Trend Analysis Plot for Comercio
Linear Trend Model
° Y t = 313,989 + 1,16485*t

Variable
Los componentes Actual
estacionales se muestran Fits
Accuracy M easures
marcados MAPE 1,8999
MAD 6,6177
Comercio

MSD 67,4325
360

350

340

330

320
Recta de tendencia
muestra buen modelo,
310
1 6 12 18 24 30 36 aunque podría
60 probarse
Index con el modelo cuadrático
La estacionalidad tiene
un ciclo de 12 períodos.
Análisis de Tendencia4
Trend Analysis for Comercio
Data Comercio
Length 60
NMissing 0

Fitted Trend Equation Ecuación de la recta


Yt = 313,989 + 1,16485*t de tendencia.

Accuracy Measures
MAPE 1,8999
MAD 6,6177
MSD 67,4325 A menor valor de cualquiera de estos
estimativos, mejor es el modelo.
Análisis de Tendencia5
Residual Plots for Comercio
Normal Probability Plot Residuals Versus the Fitted Values
99,9 20
N 60
99 AD 1,038
90 P -Value 0,009 10

Residual
Percent

50 0

10 -10
1
0,1 -20
-20 -10 0 10 20 320 340 360 380
Residual Fitted Value

Histogram of the Residuals Residuals Versus the Order of the Data


16 20

12 10
Frequency

8 Residual 0

4 -10

0 -20
-16 -8 0 8 16 1 5 10 15 20 25 30 35 40 45 50 55 60
Residual Observation Order

Residuales muestran la existencia


de la estacionalidad.
Métodos de suavización

Descomposición

▪ Un análisis completo es el de Descomposición.

▪ La Descomposición separa la serie de tiempo en


componentes de tendencia y estacionales, además
del error.
Tipos de Modelo para la Descomposición1
Modelo Multiplicativo

▪ Se utilizan cuando el patrón estacional depende del


nivel de los datos. El modelo asume que si los datos
crecen en valor, el patrón también lo hace.

▪ La mayoría de las series de tiempo muestran este


patrón.

▪ La tendencia y estacionalidad son multiplicadas


y se suman al componente de error.
Tipos de Modelo para la Descomposición2

Modelo Aditivo

▪ Seusa cuando el patrón no depende de los valores que


toman los datos.
Análisis de Descomposición1
Descomposición en Columna con
tendencia y estacionalidad los datos Período de la
estacionalidad

1 2 3
° ° °

Puede pedirse la
estimación de 4 5
futuros valores
° °
6
°
Análisis de Descomposición2

Registro de valores
de predicción y
estimación futura

10°


Análisis de Descomposición3

Tildar para tener


los valores de
predicción y error
11°

12°

10°

13°
Análisis de Descomposición4
14 Time Series Decomposition Plot for Comercio
° 400 Multiplicative Model

Variable
Actual
Fits
Trend
La predicción3n8o0es Forecasts
buena en el primer
muy Accuracy M easures
ciclo. 360 MAPE 0,8908
Comercio

MAD 3,0351
MSD 16,5285

340

320

300
1 7 14 21 28 35 42 49 56 63
Index

Muestra los valores originales con los valores de predicción en


rojo, la línea de tendencia en verde y los valores de estimación
futura en azul.
Análisis de Descomposición5
15 Seasonal Analysis for Comercio
Multiplicative Model
° Seasonal Indices Detrended Data, by SeasonalPeriod
1,04 1,05

1,00 1,00

0,96 0,95

1 2 3 4 5 1 2 3 4 5 6 7 8 9 10 11 12

Percent Variation,
Índices para aplicarlos Residuals, by SeasonalPeriod
a la estacionalidad
12 10

5
8

0
4
-5

0
1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12
Análisis de Descomposición6

16
° Ecuación de la
recta de tendencia.

17
° Índices para aplicar a los
valores de cada período
dada la estacionalidad.
Análisis de Descomposición7
Accuracy Measures
MAPE 0,8908
MAD 3,0351
MSD 16,5285 A menor valor de cualquiera
de estos estimativos, mejor
Forecasts
es el modelo.
Period Forecast
61 372,964
62 368,687
63 371,370
64 379,150
65 387,248
66 391,582 Valores de predicción
18
°
Análisis de Descomposición8
Índice de Fit de tendencia y
Fit
Período Cte. Pendiente Estacionalid estacionalid
Tendencia
ad ad

1 316,584 1,078 317,662 0,976 309,885


2 316,584 1,078 318,739 0,962 306,509
3 316,584 1,078 319,817 0,966 308,914
4 316,584 1,078 320,895 0,983 315,565
5 316,584 1,078 321,972 1,002 322,484
6 316,584 1,078 323,050 1,010 326,277
7 316,584 1,078 324,128 1,005 325,784
8 316,584 1,078 325,205 1,010 328,396
9 316,584 1,078 326,283 1,009 329,379
10 316,584 1,078 327,361 1,016 332,569
11 316,584 1,078 328,438 1,025 336,630
12 316,584 1,078 329,516 1,037 341,613

Fit de Tendencia + Índice de Estacionalidad


Análisis de Descomposición9
Residual Plots for Comercio
Normal Probability Plot Residuals Versus the Fitted Values
99,9
N 60
99 AD 10
0,837
90 P -Value 0,029

Residual
5
Percent

50
0
10
-5
1
0,1 -10
-10 -5 0 5 10 300 325 350 375 400
Residual Fitted Value

Histogra m o f t h eR e sid ual s Residuals Versus the Order of the Data


20
M u est ra los errores
de 10
15
Frequency

estimación en el
Residual
5
10 primer 0

5 período -5

0 -10
-5 0 5 10 1 5 10 15 20 25 30 35 40 45 50 55 60
Residual Observation Order
Técnicas Estadísticas Gráficas Básicas

11. EJERCICIOS
Ejercicio 1

Consigna:
▪ Utilizando una serie de datos de un procesopropio,
construyan un diagrama de tiempo segmentado.

Tiempo:
▪ 20’
Ejercicio 2
Consigna:
▪ Construya un Histograma y un Diagrama de Puntos
para los datos de la columna 74.
▪ Busque segmentar.
▪ ¿Qué conclusiones puede conseguir?

Tiempo:
▪ 20’
Ejercicios Medir.mtw
Columna 74 “Medición”
Ejercicio 3
Consigna:
▪ Construya un Histograma y un Diagrama de Puntos
para los datos de la columna 85.
▪ Busque segmentar.
▪ ¿Qué conclusiones puede conseguir?

Tiempo:
▪ 10’
Ejercicios Medir.mtw
Columna 85 “Promedio de tiempos”
Ejercicio 4
Consigna:
▪ Construya un Box-Plot para los datos de la
columna 85.
▪ Busque segmentar.
▪ ¿Qué conclusiones puede sacar?

Tiempo:
▪ 10’

Ejercicios Medir.mtw
Columna 85 “Promedio de tiempos”
Ejercicio 5
Consigna:
▪ Construya un Box-Plot para los datos de la
columna 52.
▪ Busque segmentar simultáneamente por
operador y turno.
▪¿Qué conclusiones puede sacar?

Tiempo:
▪ 10’ Ejercicios Medir.mtw
Columna 52 “Promedio_1”
Ejercicio 6
Consigna:
▪ Construya un Diagrama de Pareto para los
datos de la columna 92.
▪ ¿Qué conclusiones puede sacar?

Tiempo:
▪ 5’
Ejercicios Medir.mtw
Columna 92
“Cantidad_1”
Ejercicio 7
Consigna:
▪ Construya un Diagrama de Dispersión y una Matriz
de Dispersión para verificar la existencia de
relación entre la cantidad de llamados entrantes y
los tiempos de espera del Call Center.
▪¿Qué conclusiones puede sacar?

Tiempo:
▪ 35’ Ejercicios Medir.mtw
Columna 85 “Promedio de Tiempos” a 88 “Llamadas Entrantes Totales”
Ejercicio 8
Consigna:
▪ Para los datos de la columna 88, construya
diferentes gráficos.
▪ Busque segmentar.
▪¿Qué conclusiones puede sacar?

Tiempo:
▪ 15’
Ejercicios Medir.mtw
Columna 88 “Llamados Entrantes Totales”
Ejercicio 9
Consigna:
▪ Utilizando los datos de las columnas 94 a 102, utilice los
diferentes gráficos vistos y responda:
1. ¿Qué distribución siguen la variables numéricas?
2. ¿Qué variables influyen sobre el Tiempo de Ciclo?
3. ¿Hay alguna relación entre las variables numéricas?
4. ¿Hay alguna mayor solicitud de préstamospor
industria?
5.Utilice otros gráficos para caracterizar lasvariables.

Tiempo:
▪ 30’ Ejercicios Medir.mtw
Columnas 94 “Solicitud_1” a 102 “Cantidad_2”
Ejercicio 10
Consigna:
▪ Utilizando datos de su propio proceso, por favor
emplee varios de los gráficos vistos para
analizarlos.
▪ Busque segmentar.
▪¿Qué conclusiones puede sacar?

Tiempo:
▪ 20’
Sesión 13.0:

Test de Hipótesis (Parte I)


Temas a tratar
➢ Diferencias estadísticamente
significativas.

➢ p-value.

➢ Presunciones para los Test de


Hipótesis.

➢ Qué es un Test de Hipótesis.


Test de Hipótesis
Diferencias estadísticamente significativas
¿Hay diferencias o no1?

▪ Lo que se verá a continuación se conoce como Test


de Hipótesis.

▪ Una hipótesis ayuda a determinar si un cambio o


variación en un factor (x) cambia significativamente la
respuesta o salida (Y) del proceso.

▪ También permite determinar si hay diferencias entre


las salidas de dos o más procesos.
¿Hay diferencias o no2?
▪ Testear una hipótesis usando métodos estadísticos es
equivalente a hacer una inferencia basándose en la probabilidad
de estar en lo correcto.

▪ Como tomaremos una decisión basándonos en probabilidades,


nunca podremos estar seguros de que haya sido la correcta o no;
simplemente porque estamos condicionados por la variación de
la muestra.

▪ No importa cuántas muestras aleatorias tomemos de una


población, siempre tendrán diferentes valores.

▪ La cuestión es, ¿las diferencias que observamos son producto de


la variación entre muestras, o provienen de un cambio dado en el
proceso?
Dotplot for A-C

¿Hay diferencias o no3?


▪ Por ejemplo, en este caso, ¿existen o no diferencias entre las tres
muestras?

7.5 8.5 9.5 10.5 11.5 12.5

▪ ¿Será una diferencia dada por el azar o refleja una verdadera diferencia?

▪ Hay que notar que aunque parezca irrelevante la respuesta, en términos


de negocio puede significar mucho dinero?
¿Hay diferencias o no4?

¿Las muestras 1, 2 y 3,
son diferentes
simplemente porque las
unidades muestreadas
fueron diferentes y
aleatorias o hay un
cambio en el proceso? x1

x2

x3
¿Hay diferencias o no5?
Muestra 1 Muestra 2

s1 y s2
x1 y x 2

Peor Mejor
_ _
x1 x2

¿Si las muestras 1 y 2 son tomadas del mismo


proceso en diferentes momentos, podemos decir
que el proceso ha mejorado su resultado, o la
diferencia es simplemente fruto de la variación
entre muestras?
¿Hay diferencias o no6?
Muestra 1 Muestra 2
s1 y s2 se
mantienen
x1 y x2 han
cambiado
Peor Mejor
_ _
¿Y en x1 x 2
estos Muestra 1 Muestra 2
casos?
s1 y s2 han
cambiado
x1 y x2 se mantienen
Peor Mejor
_ _
x1 x2
¿Hay diferencias o no7?

▪ Los métodos estadísticos son usados para minimizar el número


de veces que no acertamos.

▪ Puesto en otros términos, el Test de Hipótesis nos servirá para


que cuando observemos un cambio entre muestras, no erremos
(o erremos la menor cantidad de veces) al predecir si esa
diferencia proviene de:

▪ La variación entre muestras.

▪ De un cambio en el proceso o de muestras de diferentes procesos.


Riesgos α y β1
▪ Tomemos un caso, ¿cómo sabemos si un valor x pertenece a la
distribución 1?

▪ Por ejemplo, ¿cómo sabemos si la nueva medición de scrap de un


proceso significa que el proceso ha desmejorado?

_ _ _ _
x1 x 2 x3 x4
▪ Algunos podrían asegurar que x2 (promedio del día 2) no es más que un
día como otros, y que x4 (promedio del día 4) definitivamente sería
empeoramiento. Pero, ¿y x3?
Riesgos α y β2
▪ Con x3 correríamos un riesgo, porque si miramos la curva más
detenidamente (recordemos que es asintótica)...

Existe probabilidad de que sea


parte de la distribución. ¡Pero es
muy baja!

_ _
x1 x3

▪ En algún lugar debemos “cortar” la curva.

▪ Significa que, pretender seguridad total para afirmar que no


pertenece al proceso 1, nos llevaría muy “lejos”.
Riesgos α y β3
▪ Pero, al irnos muy lejos, debemos pensar que ese punto puede
ahora pertenecer a otra distribución.

_ _
x1 x3
▪ Asegurarnos que no pertenece al proceso 1 significa que
podríamos confundirlo con un punto del proceso 2.

▪ Hay, entonces, dos errores que podríamos cometer


simultáneamente.
Riesgos α y β4
▪ Error del tipo 1, o error α

▪ Error que podemos cometer al rechazar un valor como


perteneciente a la población original, cuando no deberíamos
haberlo rechazado.

▪ Usualmente se considera α = 0,05, lo que significa que


cuando decimos que la población ha cambiado corremos el
riesgo de equivocarnos el 5% de las veces.

▪ El opuesto, 1-α, es conocido como el nivel de Confianza. Es


el grado de confianza en no equivocarnos cuando decimos
que algo ha cambiado. Usualmente el grado de Confianza es
de 95%.

▪ A mayor Confianza, menos riesgo de creer un cambio cuando


no lo ha habido.
Riesgos α y β5
▪ Error del tipo 2, o error β

▪ Error que podemos cometer al no rechazar un valor como


perteneciente a la población original, cuando deberíamos haberlo
rechazado.

▪ Usualmente se considera β = 0,20, lo que significa que cuando


decimos que no ha habido cambios corremos el riesgo de
equivocarnos el 20% de las veces.

▪ El opuesto, 1-β, es conocido como Potencia del Test.

▪ A mayor Potencia, mayor seguridad de no negar un cambio


cuando lo ha habido.
Riesgos α y β6
Distribución Distribución
1 2

X
•Riesgo : está dentro del 0,05 de la distribución 1
•Riesgo : está fuera del 0,05 y la rechazamos;
y la aceptamos; pero el valor pertenece a la
pero el valor pertenece a la distribución 1.
distribución 2.
•Riesgo I o Riesgo del productor: “Encontrar una
•Riesgo II o Riesgo del consumidor: “No encontrar
diferencia cuando no existe”. Podría rechazar algo
una diferencia cuando existe”. Podría llegarle algo
que debería enviar.
mal.
•Usualmente 0,05 (opción 0,10).
•Usualmente < 0,20 (opción 0,10).
•1 -  = Nivel de Confianza
•1 -  = Potencia
Riesgos α y β7
▪ ¿Qué es potencia?

▪ Potencia es la probabilidad de que usted identifique una diferencia


significativa (efecto) cuando de verdad existe.
▪ Hay cuatro resultados posibles para una prueba de hipótesis .
▪ Los resultados dependen de si la hipótesis nula (H0) es verdadera o falsa y
de si usted decide "rechazar" o "no puede rechazar" H0.
▪ La potencia de una prueba es la probabilidad de rechazar correctamente
H0 cuando es falsa.
▪ Los cuatro resultados posibles se resumen a continuación:

Hipótesis nula
Decisión Verdadera Falsa

no rechazar H 0 decisión correcta Error de tipo II


p=1- p=
rechazar H 0 Error de tipo I decisión correcta
p= p=1-
Riesgos α y β8

▪ Cuando H0 es verdadera y usted la rechaza, comete


un error de tipo I

▪ La probabilidad (p) de cometer un error de Tipo I se


llama alfa y a veces se menciona como el nivel de
significancia de la prueba.

▪ Cuando H0 es falsa y usted no la rechaza, comete un


error de tipo II . La probabilidad (p) de cometer un error
de tipo II se llama beta.
Riesgos α y β9
Elección de niveles de probabilidad

Cuando usted está determinando los valores de a y b para su


prueba, debe considerar:

▪ La gravedad de cometer un error - Mientras más grave sea el


error, menos veces querrá que ocurra. Por lo tanto, debe asignar
valores de probabilidad más pequeños a los errores más graves.

▪ La magnitud del efecto que desea detectar- Potencia es la


probabilidad (p = 1 - b) de rechazar correctamente H0 cuando es
falsa. Lo ideal es tener un alto nivel de potencia para detectar una
diferencia que sea importante y un bajo nivel de potencia para una
diferencia insignificante.
Riesgos α y β10
Factores que inciden en la potencia

Son varios los factores que inciden en la potencia:


▪ La probabilidad de cometer un error de Tipo I (también
denominada nivel de significancia). A medida que a aumenta, la
probabilidad de un error de Tipo II (b) disminuye. De allí que, a
medida que a aumenta, también aumenta la potencia (que es
igual a 1 - b).
▪ La variabilidad en la población (o variabilidad experimental). A
medida que s disminuye, aumenta la potencia.
▪ El tamaño del efecto. A medida que aumenta el tamaño del
efecto, aumenta la potencia.
▪ Tamaño de la muestra. A medida que aumenta el tamaño de la
muestra, aumenta la potencia.
Riesgos α y β11
Conclusiones:

▪ Es siempre una cuestión de


equilibrio. Un riesgo alto de
un tipo, nos lleva a aumentar
el riesgo del otro tipo.

▪ Siempre debe verificarse la


potencia de test cuando no
se rechaza una hipótesis
nula y esta podría ser falsa
en la realidad.
Test de Hipótesis
P-value
p-value (valor p)1
▪ ¿Cómo determinamos los riesgos? ¿Cómo saber si un nuevo
parámetro es diferente de uno anterior?

▪ Por ejemplo, ¿cómo saber si los resultados de un proceso


modificado son mejores que los del proceso anterior?

▪ p-value

▪ Usamos el p-value, que es la probabilidad que tiene un valor de


pertenecer a una distribución.

▪ Para calcularlo se usará el software, que empleará fórmulas para


cada una de las técnicas de análisis.

▪ El p-value se compara con el valor del riesgo α para responder a


la pregunta.
p-value (valor p)2
▪ Si el p-value es mayor que α, aceptamos que el valor
pertenece a la distribución y, por lo tanto, que nada hay
diferente.
Probabilidad
α = 0,05

_
Valor para el x1
cual la
Valor en cuestión. Tiene una Desde este valor, la
probabilidad
probabilidad mayor a 0,05. probabilidad de pertenecer
es 0,5
Aceptamos que es de esta a la distribución es menor a
distribución α = 0,05
p-value (valor p)3
▪ Si, por el contrario, el p-value es menor que α, aceptamos que
el valor tiene baja probabilidad de pertenecer a la distribución y,
por lo tanto, que hay diferencias significativas.
Probabilidad
α = 0,05

_
Valor para el cual x1
la probabilidad
es 0,5 Hasta este valor, la Valor en cuestión. Tiene una
probabilidad de pertenecer a la probabilidad menor a 0,05.
distribución es mayor a α = Aceptamos que es de otra
0,05 distribución
p-value (valor p)4

Para recordar siempre:

▪ Si p-value > 0,05 aceptamos que nada ha cambiado.


▪ Si p-value < 0,05 aceptamos que algo ha cambiado.

O sea Rechazamos Ho y consideramos que existe evidencia


significativa para aceptar la H1 (la hipótesis rebelde) que
trataba de cuestionar correctamente el “status quo” de la Ho.
Test de Hipótesis
Presunciones para los Test de Hipótesis
Presunciones para los Test de Hipótesis

Si los datos son continuos se supone:


La distribución subyacente es Normal.
▪ Si no lo es, se necesita una transformación o usar test
de hipótesis para datos no normales
▪ Por ejemplo, podría suceder con los tiempos de ciclo.
Presunciones para los Test de Hipótesis

▪ Al comparar grupos de diferentes poblaciones se supone:


▪ Las muestras son Independientes.
▪ El muestreo ha sido al azar y son representativas.
▪ Al comparar grupos de procesos diferentes se supone:
▪ Cada proceso es Estable; sin causas Especiales o
cambios con el tiempo
▪ Las muestras son representativas.
Test de Hipótesis
Qué es un Test de Hipótesis
Qué es el Test de Hipótesis
Los Test de Hipótesis proveen formas de
calcular la variación de causa común y
responder a la pregunta:

¿Las diferencias que se ven en las


muestras, se deben a una variación
azarosa, de causa común o existe una
diferencia real entre ellas?
Test de Hipótesis1
▪ Un Black Belt o Green Belt haciendo un Test de Hipótesis es como
un juez.
▪ Busca suficientes evidencias -datos- para no correr el riesgo de
declarar culpable a una persona cuando no lo es, sin caer en el
riesgo de no declararla culpable cuando lo es.

▪ De igual manera, un Black Belt o Green Belt buscarán datos para


probar que un cambio en la variable (x) origina o no un cambio en el
resultado (Y).

▪ Si fuera cierto, dirán que x es variable significativa de Y.

▪ Si no fuera cierto, dirán que hay otra/s variable/s que lo son.


¿Qué es el Test de Hipótesis?2
▪ “Una hipótesis estadística es una afirmación sobre la
relación entre parámetros de una o más poblaciones”.

▪ Algunos problemas requieren tomar una decisión:


aceptar o rechazar esa hipótesis.

▪ Para probar la hipótesis estadística tomamos una


muestra aleatoria de la población en estudio y utilizamos
sus datos para dar evidencia que apoye o no la hipótesis.
Pero la hipótesis es una proposición sobre la población,
no sobre la muestra.
¿Qué es el Test de Hipótesis?3

▪ Hipótesis Nula (Ho): cualquier hipótesis que


deseamos probar

▪ Cuando los datos dan suficiente evidencia


para rechazar la Ho, nos conduce a la
aceptación de una Hipótesis Alternativa (Ha).
Test de Hipótesis - síntesis
Recomendaciones no Los hallazgos no son Problema en la ejecución de las acciones de mejora
obligan a la gerencia
Las recomendaciones no son
percibidas como algo que hay que
hacer
creíbles para la gerencia
Resistencia a aceptar hallazgos
no placenteros
Datos usados
Metodología usada 1°
Habilidad de los Facilitadores
No se entiende la El proceso de mejora es considerado errado
relación entre las Dueños de procesos sorprendidos


acciones con los
resultados No se reconoce la Los dueños de proceso no fueron

α
necesidad de cambio Dueños de procesos no involucrados adecuadamente en la
comunicados No se

revisión y aprobación de las mejoras
adecuadamente
implementan Ho : μ
antes después

No hay un plan formal de implementación No se reconoce la necesidad de cambio
las mejoras

β
Otras motivaciones generadas por la Confusión con la
Plan de implementación evaluación de desempeño expresión “calidad”
no compartido

μ
Expectativas
Otros temas
importantes
Foco en resultados
económicos de corto falsas
Ha : μ
Plan de
implementación fallido
reclaman atención plazo exclusivamente

Los dueños de procesos


Los que toman las decisiones no
están lo suficientemente informados
antes después

no dispuestos a hacerse
Implementación cargo Las acciones están
formuladas vagas
sobrepasada por Pre-requisitos no cumplidos No hay entendimiento de lo
que es ser dueño de proceso
otras prioridades antes del lanzamiento y lo que implica

8° One-Sample T: Tiempos con nuevo software 5°


Test of mu = 345 vs not = 345

Variable N Mean StDev SE Mean 95% CI T P 6°


Tiempos con nuev 22 357,877 1,182 0,252 (357,353. 358,401) 51,11 0,000


Ho : μ
X =μ
antes después
Ha : μ μ
antes después

Potrebbero piacerti anche