Sei sulla pagina 1di 54

Diploma de Postítulo Inteligencia de Negocios 2019

Aplicaciones

Universidad de Chile
Departamento de Ingeniería Industrial

Profesor: Richard Weber


@Richard_Weber
rweber@dii.uchile.cl

1
Contenido
• Predicción de series de tiempo
• Del banco tradicional al banco virtual

Diploma de Postítulo Inteligencia de Negocios 2019


Predicción de una Serie de Tiempo

 Serie de tiempo:

 Número de

 pasajeros de una

 línea aérea

https://www.analyticsvidhya.com/blog/2018/02/time-series-forecasting-methods/
https://robjhyndman.com/publications/
3
Economax

• Cadena de supermercados con 10 locales.


• Orientado a segmentos de ingresos medios,
medios-bajos de la población.
• Ventas anuales por más de 50 MMUS$ que
corresponden aprox. al 3% de las ventas en
Región Metropolitana.

Aburto, L., Weber, R. (2004): ¿Qué necesitarán mis clientes mañana?,


Trend Management 6, mayo 2004, 154 – 162

4
Diploma de Postítulo Inteligencia de Negocios 2019
Motivación del Problema

¿Qué
productos
pido?
¿Cuánto pido?

Necesidad de pronóstico de ventas en el corto plazo


5
Diploma de Postítulo Inteligencia de Negocios 2019
Motivación del Problema

• Ventas ... De qué dependen?


30.000

• Ventas pasadas
• Precios 25.000

• Campañas Publicitarias 20.000

• Estacionalidad
Monto ($)

• Festivos 15.000

• Clima 10.000

• Venta de productos similares


5.000

0
8

98

98

98

98

98

98
98

98

98

98

98
99

99

99

99
9

9
19

19

19

19

19

19

19

19
1

-1

-1

-1

-1

-1

-1
1-

1-

1-

1-

2-

2-

2-

3-

3-

3-

4-

4-
1

4
-0

-0

-0

-0

-0

-0

-0

-0

-0

-0

-0

-0

-0

-0

-0

-0

-0

-0
01

08

15

22

29

05

12

19

26

05

12

19

26

02

09

16

23

30
Día

6
Diploma de Postítulo Inteligencia de Negocios 2019
Motivación del Problema
• ¿Cómo administrar el inventario?

– Muy poco  Quiebres de Venta. Clientes


insatisfechos
– Mucho  Costos de capital

• Desarrollar mejores técnicas de pronóstico y


de acuerdo a esto gestionar nuestro
inventario
7
Diploma de Postítulo Inteligencia de Negocios 2019
Alcances del Proyecto

Se acotará el ámbito de estudio a:


 Local La Pintana: Supermercado
Tradicional con 4.500 m2
 Un subconjunto de productos: 50 PLU’s
más vendidos en el local (representan el
23,18% de las ventas)
 Con datos desde el 12/09/2000 a
31/07/2001

8
Diploma de Postítulo Inteligencia de Negocios 2019
Knowledge Discovery in Databases: KDD
4.Interpretación y
Evaluación

3.Data Mining
Knowledge
Conocimiento
2.Selección y
Preprocesamiento
p(x)=0.02

1.Consolidación
de los Datos Patrones y Modelos

Warehouse
DW Datos preparados

Datos Consolidados

Fuentes de Datos

9
Diploma de Postítulo Inteligencia de Negocios 2019
1.Consolidación de los Datos

• Datos de diferentes fuentes:

• ORION  Unidades Vendidas en local La


Pintana desde 01/07/00 al 31/07/01 para los
50 PLU’s más vendidos

• AC Nielsen ==> Precios semanales de los


productos en el local de estudio y la
competencia del micromercado (Santa Isabel,
Ekono y Lider)
Diploma de Postítulo Inteligencia de Negocios 2019
10
1.Consolidación de los Datos:
Café 170 grs.
120

100

80

60 Verano

40

20
118389

0
01 21 10 30 19 09 29 18 08 28 17 06 26 18 07 27 17 06 26 16
- J - J - A - A - S - O - O -N -D - D - J -F - F - M - A - A - M -J - J - J
UL UL U U E C C O E E AN E E A P P A UN UN UL
-2 -2 G- G- P-2 T- T- V- C- C- -2 B-2 B-2 R- R- R- Y- -2 -2 -2
0 0 00 20 20 0 20 20 2 0 20 20 00 0 0 20 20 2 0 2 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 1 01 01 01 01 0 1 01 1 1 1
11
Diploma de Postítulo Inteligencia de Negocios 2019
1.Consolidación de los Datos:
Cerveza 1 Lt.
2000

Año Nuevo
Navidad

18 Sept

1000 Verano
114464

12
Diploma de Postítulo Inteligencia de Negocios 2019
1.Consolidación de los Datos

Características del día. Variables binarias (0,1)


• pago :Días de pago de fin de mes.
• quincena :Días de pago de quincena
• prefest :Días anteriores a feriados
• feriado :Días festivos
• patrias :Días de fiestas patrias
• santa :Días de semana santa
• vacation :Días de vacaciones (Enero y Febrero)
• verano :Días de meses estivales (desde 01/10 al 31/03)
• a_nuevo :1 de Enero. Único día del año donde los supermercados no
venden.

13
Diploma de Postítulo Inteligencia de Negocios 2019
Knowledge Discovery in Databases: KDD

4.Interpretación y
Evaluación

3.Data Mining
Knowledge
Conocimiento
2.Selección y
Preprocesamient
o p(x)=0.02

1.Consolidació
n de los Datos Patrones y Modelos

Warehouse
DW Datos preparados

Datos Consolidados

Fuentes de Datos

14
Diploma de Postítulo Inteligencia de Negocios 2019
2.Selección y Preprocesamiento
“En la vida real los datos no están como
quisiéramos”

De los 50 PLU’s originales hay 3


correspondientes a promociones
De los 47 PLU’s restantes 9 presentan
ausencia de datos de más del 25% en la serie
de tiempo
LIMPIEZA DE DATOS!!!

15
Diploma de Postítulo Inteligencia de Negocios 2019
2.Preprocesamiento

Las ventas se escalaron entre 0 y 1


En base a los precios se crean las siguientes
variables:
PA(NºPLU)=precioPLU_Economax

precioPLU _ Economax
PB( N º PLU ) 
MAX ( precioPLU _ micromercado)

precioPLU _ Economax
PC ( N º PLU ) 
MIN ( precioPLU _ micromercado)
Estas variables también se reescalan entre 0 y 1

16
Diploma de Postítulo Inteligencia de Negocios 2019
Knowledge Discovery in Databases: KDD

4.Interpretación y
Evaluación

3.Data Mining
Knowledge
Conocimiento
2.Selección y
Preprocesamiento
p(x)=0.02

1.Consolidació
n de los Datos Patrones y Modelos

Warehouse
DW Datos preparados

Datos Consolidados

Fuentes de Datos

17
Diploma de Postítulo Inteligencia de Negocios 2019
3.Data Mining: Enfoques de
Solución
 Modelos Ingenuos (enfoque actual)
 Modelos Box Jenkins
 SARIMAX (p,d,q) (sp,sd,sq) Y
 Redes Neuronales
 Perceptrón Multicapas (MLP)

18
Diploma de Postítulo Inteligencia de Negocios 2019
Análisis de Series de Tiempo

• Box, Jenkins (1976)


• MA(q) (FIR) q
Xt   bn * et  n b1 et 1  ... b p et  q
n 1
• AR(p) (IIR) p
Xt   ai * xt i  et
i 1
• ARMA (p,q) p q
Xt   ai * xt i   bn * et  n  et
i 1 n 1

19
Diploma de Postítulo Inteligencia de Negocios 2019
Modelos Box Jenkins
• Requisitos de ARMA

– Al menos 50 observaciones
– La serie debe ser estacionaria

https://people.maths.bris.ac.uk/~magpn/Research/LSTS/TOS.html
20
Diploma de Postítulo Inteligencia de Negocios 2019
Modelos Box Jenkins
• Para convertir una serie no estacionaria en otra
estacionaria se puede:
– Aplicar transformaciones logarítmicas
– Diferenciar la serie (Xt - Xt-1)
• ARIMA(p,d,q) donde d es Nº de términos
diferenciados
• Seasonal ARIMA: SARIMA (p,d,q) (sp,sd,sq)
• SARIMAX con X variables externas (regresores)

21
Diploma de Postítulo Inteligencia de Negocios 2019
Redes Neuronales
• Modelos de conectividad
• Resuelven problemas de:
– Clasificación de patrones
– Aproximación de funciones
– Clustering
– Optimización
– Memoria asociativa n
– Predicción o pronóstico yk  f ( wik xi )
i 0

22
Diploma de Postítulo Inteligencia de Negocios 2019
Aplicaciones de Redes Neuronales
• Clasificación:
– Detección de Fraude
– Predicción de Fuga de Clientes
– Predicción de Compra de productos (marketing
directo)
• Regresión:
– Estimación de riesgo de clientes (scoring)
– Pronóstico de índices financieros y bursátiles
(monedas, metales, stock markets, bonos, etc.)
23
Diploma de Postítulo Inteligencia de Negocios 2019
Multilayer Perceptron (MLP)

• A través de un ajuste de las conexiones


(aprendizaje), se minimiza el error en la
capa de salida

24
Diploma de Postítulo Inteligencia de Negocios 2019
MLP para forecasting

25
Diploma de Postítulo Inteligencia de Negocios 2019
Overfitting o Sobreajuste

• Sobreajuste de la red a los datos del problema y no al problema en sí

• Conjuntos de Entrenamiento y de Testeo


26
Diploma de Postítulo Inteligencia de Negocios 2019
ARIMA v/s MLP
Modelo Estadístico Redes Neuronales
(ARIMA) (MLP)
Modelo lineal: asume un Modelo no lineal: más
comportamiento de la grados de libertad para
serie a priori el modelo
La modelación requiere No impone requisitos
que la serie sea estadísticos a la serie de
estacionaria tiempo a analizar
Requieren de conocimientos en Requieren menor
Estadística e interacción con el interacción con el
usuario en la modelación usuario

El modelo entrega Difícil lectura del modelo


conocimiento e información (caja negra)
en sus parámetros
Bajo peligro de Fácil de sobreajustar el
sobreajustar el modelo modelo a los datos

27
Diploma de Postítulo Inteligencia de Negocios 2019
Desempeño del pronóstico: medidas de error

• Error Porcentual (Error porcentual absoluto


medio)
1 ( y (k )  yˆ (k ))
N

k y (k )

• Error Normalizado (Error cuadrático medio


normalizado)

 ( y ( k )  ˆ
y ( k )) 2
1
k
  ( y ( k )  ˆ
y ( k )) 2

k
( y ( k )  y ( k )) 2
 2N k
28
Diploma de Postítulo Inteligencia de Negocios 2019
O
N 29
M
56 UE
T
53 ED
W
50 HU
T
47 RI
F
44 A T
S
41 UN
S
39 ON
M
36 UE
T
33 ED
W
30 HU
T
27 RI
F
24 A T
S
Aplicación a PLU 100595

21 UN
S
19 ON
M
16 E
TU
13 ED
(Aceite Vegetal 1 Lt.)

W
10 U
TH
7 I
FR

Diploma de Postítulo Inteligencia de Negocios 2019


4

Date
T
SA
1
400

300

200

100

0
100595
Aplicación de Box Jenkins

100595 100595
1,0 1,0

,5 ,5

0,0 0,0

Partial ACF
-,5 -,5
Confidence Limits Confidence Limits
ACF

-1,0 Coefficient -1,0 Coefficient


1 3 5 7 9 11 13 15 1 3 5 7 9 11 13 15
2 4 6 8 10 12 14 16 2 4 6 8 10 12 14 16

Lag Number Lag Number

SARIMA (1,0,0) (2,0,0)

30
Diploma de Postítulo Inteligencia de Negocios 2019
Aplicación de Box Jenkins

Error for V26 from ARIMA, MOD_2 NOCON Error for V26 from ARIMA, MOD_2 NOCON
1.0 1.0

.5 .5

0.0 0.0

-.5 -.5

Partial ACF
Confidence Limits Confidence Limits
ACF

-1.0 Coefficient -1.0 Coefficient


1 3 5 7 9 11 13 15 1 3 5 7 9 11 13 15
2 4 6 8 10 12 14 16 2 4 6 8 10 12 14 16

Lag Number Lag Number

31
Diploma de Postítulo Inteligencia de Negocios 2019
Modelos Tradicionales y MLP

Conjunto de Entrenamiento Conjunto de Testeo


100595
Error Porcentual Error Normalizado Error Porcentual Error Normalizado
ARIMA 36.21% 0.3301 40.49% 0.6090
Ingenuo 44.28% 0.6972 56.83% 1.2481
Ingenuo Estacional 64.67% 1.2212 45.75% 1.9217
Media Incondicional 59.98% 0.7759 48.54% 0.9689

Conjunto de Entrenamiento Conjunto de Testeo


100595
Error Porcentual Error Normalizado Error Porcentual Error Normalizado
MLPtw21 32.93% 0.4633 31.85% 0.4973
MLPtw14 31.15% 0.3115 34.64% 0.5703
MLPtw7 30.00% 0.3092 35.44% 0.5490
MLPtw6 32.45% 0.3761 33.53% 0.5112
MLPtw5 30.26% 0.3526 35.61% 0.5540
MLPtw3 29.61% 0.3002 34.36% 0.5281
MLPtw1 30.00% 0.3405 35.31% 0.5340
MLPtw0 34.12% 0.4760 31.80% 0.6244

32
Diploma de Postítulo Inteligencia de Negocios 2019
En Resumen...
Se realizaron pruebas con otros cinco productos, y se obtuvo que:
• ARIMA mejora los pronósticos obtenidos por métodos ingenuos
• Generalmente se obtienen mejores resultados con Redes Neuronales
(RN) que con ARIMA
• ARIMA entrega un modelo comprensible y buenos resultados, pero con
costos no despreciables (requerimientos estadísticos, y de conocimientos
del usuario)
• RN obtienen los mejores resultados de forma más automática, pero con
modelo tipo “black box”

33
Diploma de Postítulo Inteligencia de Negocios 2019
Sistema de Reposición Periódica

• Reposición cada P días, con tiempo de entrega de L días.


INVENTARIO OBJETIVO T
T=m’+z
• Con:
• m’: demanda promedio durante P+L días (del sistema de pronóstico)
• Z : stock de seguridad (nivel de servicio*desviación ventas)

34
Diploma de Postítulo Inteligencia de Negocios 2019
Un id ade s

0
1 00
2 00
3 00
4 00
5 00
6 00
7 00
8 00

19/09 /0 0

0 3/10 /0 0

1 7/10/0 0

3 1/10/00

1 4/11/00

28 /11/00

12 /12/00

26/1 2/00

09/0 1/01

23/0 1/01

06/02 /01

2 0/02 /0 1

N i ve l d e Inv entar i o
Días
0 6/03 /0 1

2 0/03/0 1
N ivel de I nv entari o Di ario PL U 100 595

0 3/04/01

Inv entar io O bj eti vo 17 /04/01

01 /05/01

15 /05/01

29/0 5/01

12/06 /0 1

26/06 /0 1

1 0/07 /0 1
Reposición de Inventarios

2 4/07 /0 1
Quiebres de venta: 1% con 5 días de alcance en inventario
35
Identifying web usage behavior
of bank customers

Sandro Araya1), Mariano Silva2), Richard Weber3)

1) BCI Bank, Santiago, Chile


2) webmining.cl, Santiago, Chile

3) Department of Industrial Engineering, Universidad de Chile, Santiago, Chile

Araya, S., Silva, M., Weber, R. (2004): A Methodology for Web Usage Mining and its Application to
Target Group Identification. Fuzzy Sets and Systems 148, No. 1, 139-152

Diploma de Postítulo Inteligencia de Negocios 2019


BCI - Banco de Crédito e Inversiones (www.bci.cl)

• Founded in 1937

• Started Virtual Bank in 1996

• 10,000+ Internet transactions daily

Diploma de Postítulo Inteligencia de Negocios 2019


Process of knowledge discovery in databases (KDD)

Interpretation
Evaluation

Data Mining

Transformation

Pre-processing

Selection Patterns

transformed
data
pre-
processed
selected data
Data data

Diploma de Postítulo Inteligencia de Negocios 2019


Application areas of Web Mining

Diploma de Postítulo Inteligencia de Negocios 2019


Methodology of Web Mining
Combination of KDD process and
Web Traffic analysis

Transformed
Log Files Sessions data

Integrated Pattern
data
Clean
logs
Rules

Clusters

Interpre-
Selection Preprocessing Transformation Data Mining
Diploma de Postítulo Inteligencia de Negocios 2019
tación
Current situation
Registed Visitors of (Traditional)
Virtual Bank Bank Customers

Goal

41,563 navigating customers

142,133 customers still not


visitors of the web site

Diploma de Postítulo Inteligencia de Negocios 2019


Questions
Virtual bank Traditional bank

• How do my navigating
customers behave?

• Are there segments of


“typical visitors”? • Are there customers that
look like “heavy users”?
• Is it possible to identify
“heavy users”? • How can I convert these “twins
of heavy users” to users of my web site?
Diploma de Postítulo Inteligencia de Negocios 2019
Two step approach
Virtual bank Traditional bank

• Clustering of navigating
customers

• Determine profile of
“heavy users” • Search for (traditional) customers that have
• => Fuzzy Clustering a profile similar to that of “heavy users”

• Marketing campaign directed to these “twins


of heavy users”
• => Neural Network
Diploma de Postítulo Inteligencia de Negocios 2019
Results of Segmentation

Class Age Trx Web N° of Cases % Cases


(years)
L1 38 25 9130 22.0%

L2 29 26 4277 10.3%

M1 58 31 4599 11.1%

M2 47 32 11829 28.5%

H 34 141 11728 28.2%

TOTAL 41563 100.0%

Diploma de Postítulo Inteligencia de Negocios 2019


Neural networks (Multilayer Perceptron)
c o n n e c t io n w it h w e ig h ts

N e u ro n

In p u t L a y e r H id d e n O u tp u t L a y e r
Layer
Diploma de Postítulo Inteligencia de Negocios 2019
Identification of twins with Neural networks

Architecture of the Multilayer Perceptron:

Number of input neurons: 6,


corresponding to the attributes: age, gender, civil status, education,
income, and antiquity.

Number of neurons in the hidden layer: 12 (transfer function: sigmoid)

Number of output neurons: 5,


corresponding to the 5 classes of customers: H, L1, L2, M1 and M2.

Diploma de Postítulo Inteligencia de Negocios 2019


Neural Network Results

Class Selected Cases % Cases


L1 32,602 22.9%
L2 25,216 17.7%
M1 35,805 25.2%
M2 18,608 13.1%
H 29,902 21.0%
TOTAL 142,133 100.0%

Diploma de Postítulo Inteligencia de Negocios 2019


Marketing Campaign

Received Did not receive Total


mailing mailing
Customers from class H 11,567 18,335 29,902
Other customers 15,806 96,425 112,231
Total 27,373 114,760 142,133

Diploma de Postítulo Inteligencia de Negocios 2019


Gains Chart
Percentage of
new customers

 Advanced selection

 100%

 Random selection

 Percentage of
 100%
total customers
Diploma de Postítulo Inteligencia de Negocios 2019
Marketing Campaign
New visitors from class H New visitors from class H (total)
that received the mailing

Week New visitors from class H


that did not receive the mailing

13 737 256 993

14 153 264 417

15 114 212 326

16 101 204 305

Diploma de Postítulo Inteligencia de Negocios 2019


Marketing Campaign
Results
New visitors from class H
that received the mailing

Week
Semana New Visitors
Clientes nuevos
13 737
14 153
15 114
16 101
TOTAL 1,105

Response rate Twins = 1.105 = 10%

11.0567

Diploma de Postítulo Inteligencia de Negocios 2019


Marketing Campaign
Results
New visitors from class H
that did not receive the mailing

Semana
Week Clientes
New Visitorsnuevos
13 256
14 264
15 212
16 204
TOTAL 936
936
Connection rate of twins of = 5%
heavy users without mailing 18.300

Diploma de Postítulo Inteligencia de Negocios 2019


Conclusion
”Natural connecting rate” ~ 1.050 new customers /month

~ 2% of web site users

Response rate after mailing to “twins of heavy users” = 10%

Natural connecting rate of “twins of heavy users”


(i.e. without receiving mailing) = 5%

Diploma de Postítulo Inteligencia de Negocios 2019


Más información
www.kdnuggets.com

www.neural-forecasting.com

Diploma de Postítulo Inteligencia de Negocios 2019

Potrebbero piacerti anche