PER LE
VALUTAZIONI
Appunti tratti dalle lezioni del
corso “Statistics for Evaluation”
Anno Accademico 2018-19
Mi hanno chiesto perché ho scelto questo affresco come copertina delle mie dispense.
Ho sempre considerato Guidoriccio il simbolo dell'uomo che sta per prendere una decisione
importante. E' raffigurato pochi istanti prima di dare il segnale dell'attacco per l'assedio di
Montemassi. Ma l'artista lo ha ritratto da solo.... perché è da soli che si prendono le grandi
decisioni. Dopo avere elaborato le informazioni disponibili, ci si chiude in noi stessi e si
decide... DA SOLI...
Quindi mi sembrava il simbolo adatto per chi fa il nostro mestiere ... come Guidoriccio, in ogni
occasione, dobbiamo analizzare le informazioni disponibili e prendere decisioni... DA SOLI...
come lui.
Chi lo dipinse voleva proprio ricordare, a chi doveva prendere decisioni in quella grande stanza
del "Mappamondo" - decisioni che avrebbero deciso la storia di una Comunità - che nel
momento delle decisioni, sarebbero stati da soli...
Desidero ringraziare:
- Andrea Alessi
- Mena Dell’Angelo
- Bruno Giorgi
- Sabrina Petrini Rossi
- Enrico Sacco
I
Questo scritto è dedicato a quel gruppo di
ragazzi che, nonostante l’orario difficile,
parteciparono alla trentina di lezioni del
corso, negli ultimi mesi del 2018
II
INDICE
INTRODUZIONE ........................................................................................................... 1
LA STATISTICA E LA VALUTAZIONE ............................................................................. 1
CAPITOLO 1 ................................................................................................................. 3
IL REPORTING ............................................................................................................. 3
1.1. MECCANISMI DI CONTROLLO E DI COMUNICAZIONE........................................... 4
1.2. LA REPORTISTICA: FINALITÀ GENERALI ............................................................... 4
1.3. DESTINATARI E TIPOLOGIA DI REPORTING .......................................................... 5
1.4. REQUISITI, CONTENUTI E PERIODICITÀ DEI REPORT ........................................... 6
1.5. TABLEAU DE BORD - TDB ................................................................................... 9
1.6. DECISION SUPPORT SYSTEM - DSS ......................................................................11
1.7. ADVANCED DECISION SUPPORT SYSTEM - ADSS ............................................... 14
CAPITOLO 2 ............................................................................................................... 15
IL CLIENTE ................................................................................................................ 15
2.1. IL “MODELLO DEI GAP” COME GUIDA PER IL NOSTRO PERCORSO ..................... 17
2.1.1. IL CONCETTO DI QUALITÀ E LA SUA EVOLUZIONE ........................................... 23
2.1.2. IL “NET PROMOTER SCORE” .......................................................................... 31
2.2. LA SEGMENTAZIONE DELLA CLIENTELA ............................................................ 45
2.2.1. LA SEGMENTAZIONE A PRIORI ......................................................................... 46
2.2.2. LA SEGMENTAZIONE A POSTERIORI ................................................................ 61
CAPITOLO 3 ............................................................................................................... 98
LA VALUTAZIONE DELLA PRODUZIONE ..................................................................... 98
3.1. LA VALUTAZIONE DELLA PERFORMANCE PRODUTTIVA .....................................100
3.2. LA VALUTAZIONE DELLA QUALITÀ PRODUTTIVA ...............................................126
CAPITOLO 4 ..............................................................................................................134
III
LA VALUTAZIONE DELLA EFFICACIA DELLA COMUNICAZIONE PUBBLICITARIA ........134
4.1. IL MODELLO D.A.G.M.A.R. (DETERMINING ADVERTISING GOALS FOR
MEASURED ADVERTISING RESULTS) (1961) DI R. COLLEY ......................................135
4.2. IL MODELLO DI RUSSELL WINER ......................................................................137
4.3. LA MISURAZIONE DELLA RISPOSTA COGNITIVA: I MODELLI DI ZIELSKE,
MORGENZSTERN E BROADBENT .............................................................................138
4.4. LA MISURAZIONE DELLE RISPOSTE AFFETTIVO-COMPORTAMENTALI ...............140
4.5. CENNI DI WEB ANALYSIS ..................................................................................142
CAPITOLO 5 ..............................................................................................................155
LA VALUTAZIONE DEL POTENZIALE DI VENDITA .......................................................155
5.1.1 INTRODUZIONE AL GEOMARKETING STATISTICO ...........................................157
5.1.2. I CONCETTI BASE E GLI STRUMENTI DEL GEOMARKETING STATISTICO .........160
5.2.1 LE ATTIVITÀ E LE METRICHE DEL CRM ..........................................................179
5.2.2 LA REALIZZAZIONE DI UNA CAMPAGNA COMMERCIALE................................... 181
5.2.3 LA VALUTAZIONE DELL’EFFICACIA DI UNA CAMPAGNA COMMERCIALE ...........185
CAPITOLO 6 ..............................................................................................................193
LA VALUTAZIONE DELLE RISORSE UMANE ...............................................................193
6.1 LA VALUTAZIONE DELLE PRESTAZIONI ..............................................................195
6.2 LA VALUTAZIONE DEL POTENZIALE ...................................................................196
CAPITOLO 7 ..............................................................................................................199
LA VALUTAZIONE DEGLI EFFETTI DELLE POLITICHE PUBBLICHE ..............................199
7.1.1 L’EFFICIENZA INTERNA DELLA PUBBLICA AMMINISTRAZIONE...................... 202
7.1.2 L’ ACTIVITY BASED MANAGEMENT: LO STRUMENTO PER LA PIANIFICAZIONE
STRATEGICA DELLE RISORSE UMANE ...................................................................... 203
IV
V
INTRODUZIONE
LA STATISTICA E LA VALUTAZIONE
1
INTRODUZIONE
2
CAPITOLO 1
IL REPORTING
3
Duccio Stefano Gazzei
4
Statistics for Evaluation
5
Duccio Stefano Gazzei
6
Statistics for Evaluation
Contenuti
Economico-Finanziari. Illustrano fenomeni espressi in quantità
monetaria (ad es. Costi, Liquidità, Redditività, Produttività, etc.).
Operativi non monetari. Riguardano i tempi di consegna, i tempi di
produzione, le quantità prodotte e/o vendute, scarti di produzione, numeri
di reclami, etc.
Strategici. Consentono di monitorare variabili strategiche di medio e
lungo periodo (ed es. fidelizzazione e soddisfazione degli utenti,
affidabilità dei fornitore, gradi di efficienza, quote di mercato, etc.).
Periodicità
Giornaliera. Il reporting giornaliero serve a monitorare prodotti/servizi
che hanno elevata volatilità legata ai singoli giorni della settimana.
Settimanale. Il reporting settimanale fornisce informazioni su tutti quei
progetti che coinvolgono più strutture, con cadenze periodali di breve
periodo.
Mensile. Il reporting mensile deve fornire informazioni relative ai fattori
critici di successo (portafoglio ordini, indicatori di soddisfazione della
clientela, indicatori del grado di rispetto dei tempi programmati, etc.) e
relative alla redditività per prodotti e per clienti.
Semestrale. Il reporting semestrale deve fornire informazioni sintetiche
che consentono di seguire alcuni progetti o programmi da parte dell’alta
direzione
Annuale. Il report annuale deve fornire indicazioni di sintesi sull’intera
azienda in modo da avere una visione di insieme sull’andamento
dell’impresa.
7
Duccio Stefano Gazzei
Quantitative-Operative Quantitative-Operative
Tipi di Quantitative-Operative
Economico-Finanziarie Economico-Finanziarie
informazione Economico-Finanziarie
Strategiche Strategiche
Unità organizzative
Riferimenti Intera azienda Singoli prodotti/servizi
autonome
Sintesi report unità di
business
Fattori critici di
successo Produzione
Sintesi report fattori
- portafoglio ordini - qualità prodotti/servizi
critici di successo
- consegne - qualità forniture
- indicatori di efficacia
Bilancio Economico
- indicatori di Costi controllabili
Gestionale
tempistica - controllo costi qualità
Oggetto delle
- controllo costi che
informazioni Rendiconti e preventivi
Redditività per prodotti non aggiungono valore
finanziari
e per cliente
- controllo costi variabili Investimenti
Analisi Indicatori (ROI,
- controllo costi fissi - riduzione delle scorte
ROS, ROE)
- controllo rotazione - controllo utilizzo
scorte impianti
Esame Budget
Balanced Scorecard
Grado di dettaglio
approfondito
Grado di Informazioni sintetiche Informazioni dettagliate
(comunque minore
dettaglio preventive e consuntive sui dati effettivi
rispetto ai rapporti
operativi)
Mensile, Semestrale, Frequente (giornaliera,
Periodicità Mensile
Annuale settimanale)
8
Statistics for Evaluation
9
Duccio Stefano Gazzei
10
Statistics for Evaluation
11
Duccio Stefano Gazzei
12
Statistics for Evaluation
13
Duccio Stefano Gazzei
14
CAPITOLO 2
IL CLIENTE
Il cliente è alla base di qualsiasi discorso aziendale e quindi anche del marketing.
Le aziende per poter essere realmente competitive devono conquistare, e
mantenere nel tempo, la fiducia dei propri clienti, allineandosi alla loro percezione
di valore per poterne ottimizzare l’offerta.
Sono tante le definizioni che si danno del marketing, e per quanto possano
essere diverse, tutte sono caratterizzate da un unico, comune denominatore. Lo
scopo del marketing è quello di apprendere: cos’è, come funziona, come si
utilizza in comunicazione e come è possibile trasferire, in modo sostenibile e
profittevole, valore al cliente.
Il cliente gioca infatti un ruolo fondamentale nel mondo del marketing, in quanto,
se questi dovesse decidere di andare a spendere i propri soldi altrove, potrebbe,
da solo, contribuire fattivamente alla chiusura dell’azienda.
Oltre alla fiducia, un altro termine di importanza rilevante è valore. Qualsiasi tipo
di azienda infatti, di qualsivoglia settore merceologico o ambito, vive il cliente
come perno attorno al quale ruota la propria attività, e suo obiettivo primario deve
essere trasferirgli più valore possibile.
15
Duccio Stefano Gazzei
Possiamo quindi dire che la disciplina del marketing ruota attorno un unico,
grande concetto: la creazione o l’ottimizzazione di un valore irresistibile che il
cliente sia in grado di percepire in ogni momento dell’offerta di beni o servizi da
parte dell’azienda.
16
Statistics for Evaluation
17
Duccio Stefano Gazzei
18
Statistics for Evaluation
servizio soddisfazione
soddisfazione soddisfazione servizio
offerto percepita
attesa pianificata comunicato
specifiche
soddisfazione soddisfazione servizio
medie soddisfazione
recepita attesa offerto
di qualità attesa
insufficiente
discrepanza
comprensione non idonea prestazione
tra quanto differenza tra
necessità allocazione del servizio
l’ente ha la percezione
dell’utenza: delle risorse (qualità
promesso del servizio da
differenza tra aziendali offerta) di
all’utente e le parte
le aspettative destinate a livello
effettive dell’utente e le
dell’utenza e soddisfare le inferiore agli
prestazioni aspettative
le percezioni aspettative standard
del servizio dello stesso
del della clientela medi attesi
reso
management
Tabella 2 – Specifiche del “gap model”
19
Duccio Stefano Gazzei
20
Statistics for Evaluation
Possibili giudizi
L’Ente è in grado di
sfavorevoli causati d
Percepita < Attesa conoscere le reali
mancata soddisfazione
esigenze dell’utenza
dell’utenza
Benefico effetto
Possibile incremento
Percepita > Attesa “passaparola” da parte
attese future dell’utenza
dell’utenza
Possibile meccanismo
di assuefazione con Formazione immagine
Percepita = Attesa conseguente positiva correlata a un
incremento delle attese senso di affidabilità
dell’utenza
21
Duccio Stefano Gazzei
SQ P E [1]
Tale definizione si rifà anch’essa alla gap theory e postula, sulla base di
evidenze teoriche ed empiriche, che la differenza tra le aspettative di
performance del consumatore – su una classe di servizi – e le performance
effettive del servizio di una specifica impresa operante nella classe, può
essere considerata un indicatore della percezione della qualità del servizio.
Il modello è stato oggetto di vari approfondimenti e un’utile trasformazione
proposta è la seguente:
22
Statistics for Evaluation
k
SQ w j (Pij Eij ) [2]
j 1
dove:
SQ j = qualità del servizio generale (overall) percepita relativa allo stimolo sperimentale i
k = numero di attributi del servizio
Wj = coefficiente di ponderazione dell’attributo j (se gli attributi pesi differenziati)
Pij = percezione della performance dello stimolo i, relativo all’attributo j, sulla qualità
del servizio
E ij = aspettativa sulla qualità del servizio verso l’attributo j, conseguentemente allo
stimolo i
23
Duccio Stefano Gazzei
24
Statistics for Evaluation
25
Duccio Stefano Gazzei
Come prima cosa sono state definite le dimensioni di base del servizio
(componenti chiave), che rappresentano i fattori critici di successo del servizio
universitario.
Su ognuna delle dimensioni di base sono stati assegnati due voti da 1 (basso) a
5 (alto): il primo per misurare l’importanza attribuita dal cliente alle varie
componenti.
N° FATTORI CRITICI DI SUCCESSO A B C D E F G H I L Media
1 Qualità del materiale didattico 3 4 5 1 3 1 5 4 4 4 3,4
2 Aule e attrezzatura 2 3 3 3 1 2 2 3 3 2 2,4
3 Qualità insegnamento 4 5 4 4 4 4 4 4 5 5 4,3
4 Apertura sul mondo del lavoro 5 4 4 2 4 5 2 5 3 4 3,8
5 Servizi per la didattica 1 2 2 2 2 4 3 2 1 2 2,1
6 Servizi ausiliari 1 1 1 4 2 2 1 1 2 1 1,6
7 Organizzazione logistica 3 2 2 1 1 3 4 2 2 3 2,3
8 Apertura allo studio 4 1 1 5 3 3 1 1 4 1 2,4
9 Comunicazione 2 3 3 3 5 1 3 3 1 3 2,7
26
Statistics for Evaluation
Per il primo studente (A), ad esempio, il fattore più importante è l’ “apertura sul
mondo del lavoro”. A quel fattore è stato, dallo stesso studente, attribuito il
punteggio “4” (medio-alto).
A questo punto i valori medi delle due tabelle sono stati rappresentati in un
grafico dove è subito possibile individuare quatto quadranti.
Nel quadrante “A” sono riportati quei fattori con “Importanza” maggiore della
media e “Valutazione “Inferiore alla media”. Si tratta, quindi, delle componenti del
27
Duccio Stefano Gazzei
Nel quadrante “B” i fattori dove “Valutazione” e “Importanza” sono maggiori della
media.
Seguono i fattori dei quadranti “C” (Bassa Importanza – Alta valutazione) e “D”
(Bassa Importanza – Bassa valutazione). Nell’ultimo quadrante sono riepilogati i
fattori dove è necessario concentrare gli sforzi di miglioramento, subito dopo
quelli riepilogati nel settore “A”.
4 Date due variabili statistiche e , l'indice di correlazione di Pearson è definito come la loro covarianza
divisa per il prodotto delle deviazioni standard delle due variabili:
.
dove , è la covarianza tra e e , sono le due deviazioni standard
Il coefficiente assume sempre valori compresi tra -1 e 1: . In Excel è possibile
calcolare l’indice in modo automatica utilizzando la formula “Dati -> Analisi Dati-> Correlazione”
28
Statistics for Evaluation
Lungi dal voler essere un risultato statisticamente significativo con sole dieci
interviste, una certa coerenza con le risposte fornite in termini di importanza dei
fattori la ritroviamo.
Esiste un cluster formato dagli studenti B,C e H che ha grande attenzione per la
qualità dell’insegnamento, il materiale didattico e la comunicazione.
5 In Excel è possibile ottenere questo risultato grafico in modo automatico usando il comando: “Home-
>Formattazione Condizionale->Regole di evidenziazione celle”
29
Duccio Stefano Gazzei
Conoscere bene i propri target di clienti è una delle prerogative più importanti
per fornire un servizio efficace.
30
Statistics for Evaluation
31
Duccio Stefano Gazzei
NPS E VALORE
Nessuno ha dubbi sul fatto che avere clienti soddisfatti sia una necessità.
32
Statistics for Evaluation
33
Duccio Stefano Gazzei
34
Statistics for Evaluation
35
Duccio Stefano Gazzei
Quindi, stabiliti i fattori critici, in ognuno di questi si gioca una “partita” per
soddisfare i clienti, che si dividono tra promotori, neutrali e detrattori.
La loro “voce” è sincera: il confronto tra percentuale di promotori e detrattori
è proprio la migliore risposta alla domanda se siamo stati capaci a vincere
quella “partita”.
36
Statistics for Evaluation
6 Nel gergo bancario si tratta dei clienti “persone fisiche” che si differenziano dai clienti Small Business, Imprese o
Corporate. Sono anche esclusi dall’analisi i clienti Private, cioè i clienti che rappresentano la fascia più ricca della
customer base.
37
Duccio Stefano Gazzei
38
Statistics for Evaluation
39
Duccio Stefano Gazzei
……
40
Statistics for Evaluation
41
Duccio Stefano Gazzei
7. Calcolo NPS
8. Text Processing
42
Statistics for Evaluation
43
Duccio Stefano Gazzei
44
Statistics for Evaluation
45
Duccio Stefano Gazzei
Non molte sono le aziende che adottano una segmentazione della clientela
“a priori”: preferire questo tipo di segmentazione significa anche classificare
46
Statistics for Evaluation
il cliente, sin dall’inizio del rapporto con l’azienda, in categorie che sono la
combinazione di variabili potenzialmente capaci di identificare le sue
aspettative. Si riportano di seguito alcuni metodi per giungere ad una
segmentazione “a priori” della clientela.
SEGMENTAZIONE SOCIO-DEMOGRAFICA (O DESCRITTIVA). È basata sulla
diversità dei profili socio-demografici dalla quale scaturisce la diversità dei
vantaggi che i consumatori cercano nel prodotto, nonché la varietà delle
loro preferenze. I criteri socio-demografici vengono utilizzati come indicatori
di bisogni e le variabili di segmentazione più utilizzate sono: genere,
reddito, provenienza geografica, dimensioni del nucleo familiare, livello di
istruzione, professione. Questo tipo di segmentazione è il più utilizzato per
la sua facilità di applicazione ma ci sono dei forti limiti: pone l’accento sulla
descrizione degli individui che costituiscono il segmento piuttosto che
sull’analisi dei fattori che spiegano la formazione del segmento stesso.
Inoltre determina la perdita di valore previsionale a causa della
standardizzazione delle abitudini di consumo nelle diverse classi sociali.
47
Duccio Stefano Gazzei
48
Statistics for Evaluation
49
Duccio Stefano Gazzei
Per ogni segmento Eurisko fornisce una descrizione sintetica dei caratteri
distintivi del gruppo, riportando anche un dettaglio dei tratti prevalenti da un
50
Statistics for Evaluation
Tabella 10 – Esempio della descrizione di due segmenti opposti nella Grande Mappa Eurisko
51
Duccio Stefano Gazzei
52
Statistics for Evaluation
Se si ipotizza che per ogni variabile sia possibile indicare con “A” se il valore
della variabile è superiore alla media e con “B” se il valore è inferiore, si
ottiene la seguente tabella di classificazione:
53
Duccio Stefano Gazzei
54
Statistics for Evaluation
Spesso non si dispone delle informazioni necessarie per segmentare i clienti della
propria Customer Base secondo l’impostazione Eurisko che, come detto, richiede tre
descrittori: Scolarizzazione, Reddito ed Età.
Una delle difficoltà maggiori è relativa alla acquisizione dei dati relativi al livello di reddito
di ogni cliente, come proxy del suo stato di benessere.
Una soluzione a questo problema è dedurre tale informazione dalla zona censuaria di
residenza del cliente stesso: se un luogo è caratterizzato da un elevato valore di
ricchezza (reddito, valore catastale, consumi, etc.) allora è probabile che anche la
maggior parte dei sui abitanti abbia le stesse condizioni. Studi empirici effettuati su
campioni numericamente rilevanti di popolazione hanno mostrato una certa validità di
questa affermazione almeno per l’80-85% dei casi. Quando non si hanno altre
possibilità, quindi, è possibile scegliere questa metodologia.
Ma come fare per capire in modo statisticamente rilevante se una zona ha un reddito
medio più alto della norma, tale da evidenziare una situazione dove gli abitanti siano da
classificarsi come “ad alto reddito”?
Abbiamo preso il SIT (Sistema Informativo Territoriale) della Provincia di Firenze (vedi
estratto in Tab.5)
Il file è composto da oltre tremila righe e da una cinquantina di colonne. Ogni riga
rappresenta una zona censuaria, ogni colonna una variabile.
La parte che utilizzeremo è composta da n°7 colonne:
- COD_SEZ: Codice ufficiale che identifica la zona censuaria
55
Duccio Stefano Gazzei
Come prima cosa abbiamo, utilizzando la procedura Excel “Tabella Pivot”, raggruppato i
dati per UTB
Tabella 6 –Raggruppamento dei dati per UTB con l’utilizzo della “Tabella Pivot”
56
Statistics for Evaluation
Figura 11 – Il risultato della regressione tra Reddito prodotto dalle Famiglie Vs Famiglie
Questa semplice funzionalità non ci consente di effettuare la verifica delle ipotesi della
regressione (ANOVA, Test t sui coefficienti, etc.) ma ci da una prima idea di quale possa
essere la relazione tra variabile dipendente e variabile indipendente.
In questo caso sembra ci sia una relazione lineare quasi perfetta, individuata in:
REDDITO_FAMIGLIE = 820,69 + 48,358*FAMIGLIE
Procediamo, però, ad effettuare una regressione utilizzando il tool “Analisi Dati” di Excel.
Il percorso in excel è il seguente:
DATI → ANALISI DATI → REGRESSIONE
57
Duccio Stefano Gazzei
ANALISI VARIANZA
gdl SQ MQ F Significatività F
Regressione 1 633.010.081.000 633.010.081.000 8.144 0
Residuo 69 5.363.287.161 77.728.799
Totale 70 638.373.368.161
Figura 12 – Le statistiche della regressione tra Reddito prodotto dalle Famiglie Vs Famiglie
58
Statistics for Evaluation
ANALISI VARIANZA
gdl SQ MQ F Significatività F
Regressione 1 1.737.786.005.468,19 1.737.786.005.468,19 22.607,02 0,00
Residuo 70 5.380.852.678,81 76.869.323,98
Totale 71 1.743.166.858.147,00
Figura 13 – Statistiche della regressione tra Reddito prodotto dalle Famiglie Vs Famiglie
59
Duccio Stefano Gazzei
Come si vede i parametri stimati sono esattamente quelli che avevamo ottenuto con la
prima regressione.
A questo punto è estremamente semplice attivare costantemente, ogni volta che
arrivano dati aggiornati sulle UTB, la procedura di ottimizzazione che fornisce i parametri
aggiornati.
60
Statistics for Evaluation
61
Duccio Stefano Gazzei
62
Statistics for Evaluation
7 Il modo migliore per selezionare da subito le variabili esplicative è la cosiddetta “Analisi delle Modalità
Caratterizzanti” di cui parleremo più avanti in queste dispense. In breve si tratta di confrontare e testare la
penetrazione delle variabili nel campione ”caso” rispetto al campione “controllo”, eliminando quelle la cui
distribuzione tra i due campioni è omogenea.
63
Duccio Stefano Gazzei
61 ANNI ED OLTRE
DISIMPEGNATO
SESSO (1="M")
BENESTANTE
IDENTIFICATIVO IDENTIFICATIVO
SESSO SEGMENTO ETA'
19-25 ANNI
26-45 ANNI
46-60 ANNI
0-18 ANNI
CLIENTE CLIENTE
TYCOON
Cliente 1 M Tycoon 67 Cliente 1 1 1 0 0 0 0 0 0 1
Cliente 2 F Benestante 70 Cliente 2 0 0 1 0 0 0 0 0 1
Cliente 3 M Benestante 70 Cliente 3 1 0 1 0 0 0 0 0 1
Cliente 4 M Disimpegnato 30 Cliente 4 1 0 0 1 0 0 1 0 0
LA REGRESSIONE LOGISTICA
L’analisi di regressione logistica è una delle più rilevanti applicazioni del più
generale metodo di regressione statistica, che si applica quando si vuole
andare ad analizzare, rispetto ad un set di variabili indipendenti x, una
variabile dipendente Y, che risulta essere “dicotomica”.
Con tale termine, a volte sostituito con l’equivalente “binomiale” si
intendono quelle variabili che presentano solamente due modalità: esempi
banali di tale categoria sono il possesso di un determinato attributo, come il
sesso di un individuo (dove le modalità possibili sono, ovviamente, l’essere
64
Statistics for Evaluation
65
Duccio Stefano Gazzei
e log it
p [6]
1 e log it
essendo
p
log it ( p ) ln [8]
1 p
66
Statistics for Evaluation
y a 0 a1 x1 ..... a k x k [10]
Da cui:
pA
1 pA pA pB
log OR log log log log it ( p A ) log it ( pB ) [12]
pB 1 pA 1 pB
1 pB
Sia l’analisi di regressione semplice che quella logistica fanno parte della
stessa classi di modelli, detti “lineari generalizzati” (altresì denominati GLIM,
dall’acronimo inglese di Generalized Linear Models), che si caratterizzano
per il fatto che vengono trattati indipendentemente dalla natura della
dipendente e dal tipo di funzione che lega quest’ultima alle esplicative.
Il processo di stima dei parametri ignoti β si basa sul metodo della massima
verosimiglianza, che prevede di massimizzare la probabilità di osservare
l’insieme di dati osservato in funzione di β; in particolare, considerando n
osservazioni indipendenti tra di loro, il modello relativo all’unità i = 1,….,n è
e b 0 b1x1 ... b k xk
y i E[ y i / X ] i p i [13]
1 e b 0 b1x1 ... b k xk
67
Duccio Stefano Gazzei
E [ yi / X ] p [14]
68
Statistics for Evaluation
LE RETI NEURALI
Come suggerisce il nome, dal momento che alla base del loro sviluppo vi è
proprio il tentativo di imitare la neurofisiologia del cervello umano, le reti
sono composte da una serie di unità computazionali elementari, dette
appunto neuroni, fortemente interconnesse tra di loro.
La proprietà che accomuna tutti i “neuroni” della rete neurale è la capacità
di acquisire conoscenza dall’ ambiente esterno appositamente elaborata
tramite un processo adattivo di apprendimento e rispecchiata nei pesi
associati alla connessione, ossia nei parametri della rete stessa .
Ogni neurone è autonomo e, analogamente a quelli reali che caratterizzano
il sistema nervoso, viene raggiunto simultaneamente da una serie di segnali
input che ne determinano l’attivazione o meno. Tale attivazione dipenderà
dall’importanza relativa associata ad ogni input e definita grazie ad un peso
di connessione che può assumere valori positivi, negativi o nulli. La
connessione potrà quindi essere rispettivamente eccitatoria, inibitoria o
assente.
L’elaborazione dei segnali di input avviene da parte di ogni neurone in
maniera autonoma in base ad una funzione chiamata potenziale (o input)
netto. Quest’ultima considererà sia l’importanza relativa degli input, sia il
così detto bias, un valore soglia che ha lo scopo di considerare le influenze
dell’ambiente esterno. In termini matematici, l’input netto corrisponde alla
sommatoria di tutti i valori di input ponderati con i pesi delle relative
connessione e confrontati con il valore soglia:
() ()
Zj = ∑ ( − ) [20]
69
Duccio Stefano Gazzei
a ciascun input. Per rendere più intuitivo il ruolo del valore soglia,
specifichiamo che il neurone si attiva solo se viene superato, altrimenti
rimane inattivo. L’integrazione di θ all’interno dei valori di input è possibile
riconoscendo un particolare campione con = 1 al quale è associato un
peso = −
L’output dello stesso sarà poi ottenuto grazie all’applicazione di una
funzione di trasferimento al potenziale netto. Tale funzione in letteratura
assume anche altri identificativi quali funzione di attivazione e funzione di
output. Gli autori che preferiscono parlare di funzione di attivazione si
riferiscono al processo mediante il quale viene calcolato il nuovo livello di
attivazione del neurone ai vari passi del processo di elaborazione degli
input ricalcolando, da questi, la nuova soglia di attivazione sulla base di
quella individuata al passo precedente. Con funzione output, invece, si
considera il processo di calcolo dell’output del neurone in esame partendo
dallo stato di attivazione dello stesso. Per questi motivi, con il termine
funzione di trasferimento vogliamo indicare l’effetto combinato della
funzione di attivazione e quella di output .
Le più comuni funzioni di trasferimento che restituiranno l’output del
neurone sono di tre tipi: lineari, a gradino o passo unitario e sigmoidali. In
termini matematici la funzione di trasferimento lineare è espressa come
segue :
ϕ(z) = f =β +α [21]
70
Statistics for Evaluation
ϕ(z) = [23]
71
Duccio Stefano Gazzei
72
Statistics for Evaluation
73
Duccio Stefano Gazzei
74
Statistics for Evaluation
75
Duccio Stefano Gazzei
76
Statistics for Evaluation
77
Duccio Stefano Gazzei
2) Misure di impurità
La metodologia CART adotta quale misura d’impurità, per gli alberi di
classificazione, l’indice H di eterogeneità di Gini.
Esso si definisce in generale come:
=1−∑ [26]
( )=1−∑ ( / = ) [27]
78
Statistics for Evaluation
79
Duccio Stefano Gazzei
80
Statistics for Evaluation
81
Duccio Stefano Gazzei
82
Statistics for Evaluation
83
Duccio Stefano Gazzei
I calcoli cominciano una volta che-fatto clic sul pulsante "OK". La tabella
seguente riporta i dettagli sul modello. Questa tabella è utile per comprendere
l'effetto delle diverse variabili e gli effetti relativi delle categorie di età.
84
Statistics for Evaluation
85
Duccio Stefano Gazzei
Una grande banca ha lanciato una campagna pilota di vendita di una nuova
carta di credito. Vengono inviate ad un campione casuale di circa 72k clienti
altrettante “plastiche”, cioè carte di credito non attivate.
Dopo un mese di tempo viene analizzato il campione: circa 18k clienti avevano,
nel frattempo, provveduto ad attivare la carta ricevuta. Ai 72k clienti viene
quindi associata una prima variabile (OUTPUT) con valore binario: “1” = cliente
che ha attivato la carta, “0” = clienti che non hanno attivato il servizio.
Viene condotta una “Analisi delle modalità caratterizzanti” che individua n°10
variabili correlate con la variabile OUTPUT:
- InnovGiov = Segmento Eurisko “Innovazione Giovane”
- Tycoon = Segmento Eurisko “Tycoon”
- Eliteculturale = Segmento Eurisko “Elite Culturale”
- ALTRO = Segmento Eurisko non attribuito
- Disimpegnati = Segmento Eurisko “Disimpegnati”
- Benestanti = Segmento Eurisko “Benestanti”
- Centrosudesard = Zona territoriale: Centro Sud e Sardegna
- Sud = Zona territoriale: Sud e Sardegna
- Family: Segmento bancario “Family”, ovvero clienti con Asset Under
Management (AUM) < 30.000 Euro
- SessoCod = “1” Maschio, “0” femmina.
Il database, come spiegato, deve avere questa forma:
IdentificativoCliente OUTPUT InnovGiov Tycoon Eliteculturale ALTRO Disimpegnati Centrosudesard Sud Benestanti Family SessoCod
10583740 0 0 0 0 0 0 0 0 1 0 0
304716840 0 0 0 0 0 1 0 0 0 1 1
304550503 0 0 0 0 0 1 1 0 0 1 0
970513 0 0 0 0 0 0 0 0 1 1 0
8 Il software SPSS è estremamente friendly e consente di essere utilizzato in doppia modalità: con i menu a
tendina che consentono in modo estremamente agevole e rapido di scegliere la strumentazione da utilizzare per
le analisi, selezionando variabili input ed output, opzioni di stima, vincoli, etc.; oppure è possibile procedere
scrivendo poche linee di programmazione, che possono essere poi trasformate in procedure a regime che
facilitano ed ottimizzano le attività più routinarie. In questo caso di studio abbiamo riportato, per ogni esempio, le
linee di programma relative.
86
Statistics for Evaluation
Classification Tablea
Predicted
FlagCarteCredito
Percentage
Observed 0 1 Correct
87
Duccio Stefano Gazzei
e xb
Usando la [9]: p , è possibile calcolare, per ogni cliente, il valore
1 e xb
dello score. Più il valore è vicino ad 1, più la probabilità di acquisto è alta.
Abbiamo scelto una rete con n°1 strato nascosto, con una funzione di
combinazione di tipo “Hyperbolic tangent” ed una funzione di attivazione
“Softmax”.
Nella tabella abbiamo riportato I risultati della classificazione sul campione di
training e di classificazione (molto simili al valore ottenuto con la regressione
logistica). Come nel modello logistico, è migliore la classificazione dei “casi
88
Statistics for Evaluation
Predicted
89
Duccio Stefano Gazzei
90
Statistics for Evaluation
91
Duccio Stefano Gazzei
% prevista di penetrazione prodotto 1% 89% 95% 92% 92% 81% 87% 72%
Il cluster con la maggiore propensione all’acquisto è il n°3 (nodo 9). Si tratta dei
Tycoon con AUM >30k. Il 95% del cluster ha attivato la carta.
92
Statistics for Evaluation
• Sesso
• Regione
• Professione
• Fascia di reddito
• Fascia di età
• Titolo di studio.
93
Duccio Stefano Gazzei
Dopo un’analisi esplorativa è utile capire se all’interno dei dati esistano dei
pattern che identificano gruppi di osservazioni simili tra loro. Per poterlo fare
utilizziamo un algoritmo di apprendimento non supervisionato di Clustering K-
Medie, implementato grazie al software Python.
94
Statistics for Evaluation
95
Duccio Stefano Gazzei
96
Statistics for Evaluation
97
Duccio Stefano Gazzei
CAPITOLO 3
LA VALUTAZIONE DELLA PRODUZIONE
Ogni impresa sceglie il processo produttivo più conveniente sulla base delle
condizioni di ambiente (capitale, concorrenza, brevetti, domanda, ecc. ) e delle
informazioni a sua disposizione (know-how). In condizioni razionali l'imprenditore
opta per il processo produttivo che consente di minimizzare i costi di produzione
a parità di quantità e qualità del prodotto ottenuto o, in alternativa, di
massimizzare la produzione a parità di costi. La scelta dei processi produttivi non
è una decisione d'impresa di breve periodo in quanto gli investimenti per avviare
98
Statistics for Evaluation
un processo produttivo gli impianti (costi fissi) sono ammortizzati nel medio-lungo
periodo. Nel breve periodo l'impresa può soltanto modificare il regime di utilizzo
del processo produttivo (costi variabili) ossia la quantità di produzione ottenibile
in ogni ciclo produttivo (output).
99
Duccio Stefano Gazzei
100
Statistics for Evaluation
Y x, y / x R I , y R , x, y è realizzabile [30]
frontiera dell’insieme
interno dell’insieme
Ciò, per ogni attività, permette la distinzione fra i piani di produzione che
appartengono alla frontiera, denominati “efficienti” e quelli che invece si
trovano all’interno, detti “inefficienti”.
Naturalmente definendo l’efficienza in questo modo è possibile anche
arrivare ad una sua misura in termini di distanza (per mezzo di un numero
reale) tra il piano di produzione preso in considerazione e la frontiera
101
Duccio Stefano Gazzei
dove:
Y0 è l'output osservato;
Y=f(x) è l'output della funzione di produzione standard di efficienza.
Se raffiguriamo quanto stiamo dicendo su un grafico (Fig.14), i processi di
produzione B e C possiedono lo stesso livello di produttività totale;
giacciono infatti entrambi sulla stessa semiretta caratterizzata, in ogni
punto, dallo stesso rapporto output-input. Tra le due unità di produzione
solo C risulta però efficiente.
Output R R'
A B
Input
102
Statistics for Evaluation
103
Duccio Stefano Gazzei
104
Statistics for Evaluation
9 F. R. Forsund, C. A. K. Lovell, P. Schmidt, A survey of frontier production functions and their relationship to
105
Duccio Stefano Gazzei
35
30
E
25
D
20
Output
C
15
B F
10
5
A
0
0 5 10 15 20 25 30 35
Applicati Equivalenti
106
Statistics for Evaluation
35
30
E
25
D
20
Output
C
15
B F
10
5
A
0
0 5 10 15 20 25 30 35
Applicati Equivalenti
Figura 16 – AIGNER D.J., CHU S.F. (1968), "On Estimating the Industry Production Function",
The american Economic Review, n°4, pp.826-835
35
30
E
25
D
20
Output
C
15
B F
10
5
A
0
0 5 10 15 20 25 30 35
Applicati Equivalenti
107
Duccio Stefano Gazzei
35
30
E
25
D
20
Output
C
15
B F
10
5
A
0
0 5 10 15 20 25 30 35
Applicati Equivalenti
Figura 18 - CHARNES A., COOPER W.W., RHODES E. (1978), “Measuring the efficiency of
decision making units”, European Journal Of Operational Research, 2 (6), 429-444
35
30
E
25
D
20
Output
C
15
B F
10
5
A
0
0 5 10 15 20 25 30 35
Applicati Equivalenti
Figura 19 - DEPRINS D., SIMAR L., TULKENS H. (1984), "Measuring Labor-Efficiency in Post
Offices", The Performance of Public Enterprises: Concepts and Measurement, Amsterdam,
North-Holland, pp.243-267
108
Statistics for Evaluation
A 15,9 37.588
B 18,7 52.310
C 25,1 67.923
D 27,2 68.366
E 29 76.273
F 34,8 61.499
G 38,5 65.798
H 43,1 75.515
I 45 76.384
J 55,2 85.015
K 64,3 115.982
Le variabili rappresentano:
CITTA: Il codice che identifica le città
INPUT: Addetti-equivalenti
ABITANTI: Prima variabile di Output: rappresenta il n° di abitanti del Comune
Prima di procedere ad un’analisi particolareggiata della performance,
fondamentale quando si vogliano analizzare standard di produttività, si ritiene
sempre utile effettuare un’indagine preliminare, a scopi conoscitivi ed
esplorativi, finalizzata ad eliminare possibili cause di distorsione dei risultati,
109
Duccio Stefano Gazzei
120000
100000
80000
Abitanti
60000
40000
20000
0
0,00 10,00 20,00 30,00 40,00 50,00 60,00 70,00
Addetti-equivalenti
110
Statistics for Evaluation
120000
100000
80000
Abitanti
60000
40000
20000
0
0,00 10,00 20,00 30,00 40,00 50,00 60,00 70,00
Addetti-equivalenti
y a b *x [24]
dove:
y = output
x = input
a = intercetta della funzione
111
Duccio Stefano Gazzei
(y yˆ i ) 2 ( yi a b * xi ) 2
i
[25]
dove,
yi sono i valori dell’ output (nell’esempio, il n° di abitanti) osservati
ŷ i sono i valori dell’ output (nel caso in esame, il il n° di abitanti) stimati
Sotto determinate ipotesi è possibile dimostrare che gli stimatori così ottenuti
sono BLUE (Best Linear Unbiased Estimator)10 ossia i migliori stimatori lineari
corretti.
La capacità di un modello teorico di interpretare la realtà può essere valutata
con un indice costruito rapportando la varianza spiegata dalla funzione di
regressione alla varianza totale di Y (coefficiente di determinazione) che,
variando in un intervallo compreso tra zero ed uno, esprime la dipendenza
della variabile Y dalle variabili indipendenti11.
Uno stimatore è lineare quando risulta da una combinazione lineare dei valori campionari, è corretto se la sua
10
11 Un valore di tale coefficiente pari ad uno indicherà l’esistenza di una correlazione perfetta nel campione, ossia
la precisa corrispondenza tra il valore previsto (stimato) e quello effettivo di Y; un valore pari a zero indica invece
112
Statistics for Evaluation
la totale assenza di legame lineare tra le variabili e quindi l’equazione di regressione non fornisce alcun aiuto
nella stima di Y.
113
Duccio Stefano Gazzei
ANALISI VARIANZA
gdl SQ MQ F Significatività F
Regressione 1 3.077.525.216,24 3.077.525.216,24 33,83 0,00
Residuo 9 818.617.675,95 90.957.519,55
Totale 10 3.896.142.892,18
114
Statistics for Evaluation
Alla luce dei risultati ottenuti la relazione iniziale è riscrivibile nel seguente
modo:
y = 29.028,92 + 1.167,68 * x
Sulla base dei risultati della funzione di regressione, si è ottenuto il
coefficiente b che esprime il rapporto intercorrente tra ogni applicato
equivalente ed il numero degli abitanti del comune. Osservando il grafico,
tuttavia, risulta evidente che non tutti gli uffici analizzati si trovano posizionati
lungo la retta di regressione. Infatti, alcuni di essi sono collocati al di sopra di
essa. In termini produttivi, questo significa che, se si ipotizza che lo lo
“standard produttivo medio” (il coefficiente b ) sia costante, gli applicati hanno
servito più abitanti rispetto alla media, cioè hanno la capacità di aumentare il
numero minimo di abitanti da servire per ogni ufficio.
Si può, quindi, ricavare una funzione di frontiera spostando la funzione media
ottenuta dalla regressione per farla passare sulla città che si trova ad essere
più elevata (E)
Funzione di frontiera data la relazione delle variabili di input con quelle di output
140000
120000
100000
80000
Abitanti
60000
40000
20000
0
0,00 10,00 20,00 30,00 40,00 50,00 60,00 70,00
Addetti-equivalenti
Sulla base della frontiera è possibile ottenere i Gradi di Efficienza delle varie
città :
115
Duccio Stefano Gazzei
Y reale
Grado di Efficienza (GET)
Y frontiera [26]
116
Statistics for Evaluation
Le variabili rappresentano:
Y: Il fatturato dell’azienda (milioni di lire)
MP: Spesa per materie prime (milioni di lire)
K: Spese per gli ammortamenti (milioni di lire)
L: Numero delle giornate lavorate dai dipendenti delle varie aziende
La forma funzionale scelta per disegnare la funzione di frontiera è il celebre
117
Duccio Stefano Gazzei
LogA b 0
LogMPi mpi
LogK i k i
LogLi li
Otteniamo:
yi b 0 b1 * mpi b 2 * k i b 3 * li [35]
La procedura di Aigner & Chu prevede che si ottenga la funzione di frontiera
cercando quei coefficienti che minimizzano la funzione obiettivo:
( yˆ yi ) 2 [(b 0 b1 * mpi b 2 * k i b 3 * li ) y i ]2
i
[36]
dove,
yi sono i valori dell’ output (nell’esempio, il fatturato) osservati
ŷ i sono i valori dell’ output (nel caso in esame, il fatturato) stimati
Con il vincolo, fondamentale, che
( yˆ i yi ) u 0
[37]
Tornando al database, il primo passo è trasformare le variabili originali in
118
Statistics for Evaluation
In essa:
- la prima colonna (LnY) rappresenta il valore originale del
fatturato in forma logaritmica;
- le colonne n° 2, 3, 5 e 6 rappresentano i coefficienti della
funziona di frontiera. All’inizio poniamo il valori “1”;
- le colonne 4, 6 e 8 contengono i valori logaritmici delle
variabili originali MP, K ed L
- la colonna 9 contiene il valore di Y calcolato (Yfr) come
risultato della formula 29 (vedi Tab.9)
Poi la colonna 10 che contiene il valore u come differenza tra LnYfr e LnY.
La colonna 11 contiene il valore di u elevato al quadrato.
In fondo ai dati in colonna 11 vi è la somma di tutti i valori, e questa somma è
la vera cella obiettivo, come indicato dalla funzione 30.
119
Duccio Stefano Gazzei
Tabella 9 – La formattazione della tabella in Excel per stimare la funzione di Aigner & Chu
Tabella 12 – La formattazione della tabella in Excel per stimare la funzione di Aigner & Chu
120
Statistics for Evaluation
121
Duccio Stefano Gazzei
122
Statistics for Evaluation
Dal punto di vista grafico (vedi figura 20), la combinazione tra input ed output
mostra una certa correlazione ma unita ad una grande variabilità.
E’ interessante verificare che su una stessa campagna commerciale, e con
gli stessi strumenti di lavoro, ci siano differenze di performance così evidenti.
La scelta dello strumento FDH, capace di identificare con massima
trasparenza delle aree benchmark che possano identificare degli standard di
riferimento anche per le altre non efficienti, ci sembra la scelta giusta.
L’elaborazione FDH passa attraverso una analisi per step:
Step 1: presa un’area X da analizzare, caratterizzata da un inputX e da un
outputX, si individuano tutte le aree che hanno, congiuntamente, un
output≥outputX e un input≤inputX
123
Duccio Stefano Gazzei
Step 2: si sceglie l’area (o le aree) che hanno il rapporto massimo tra i loro
output e l’outputX dell’area in analisi
Step 3: tra le aree selezionate dallo step 2, si sceglie quella che ha il rapporto
minimo tra il suo input e l’inputX dell’area in analisi. L’area che viene scelta è
l’area benchmark
Step 4: si calcolano il “GET_Output = outputX / output dell’area benchmark”
ed il “GET_input = input dell’area benchmark / input X”
Tabella 14 – Il foglio Excel formattato per le analisi FDH
NUMERO CLIENTI APPUNTAMENTI
AREA IN ANALISI
TARGET PRESI
AREA LAZIO SPORTELLI INTERNI 6.750 2.038
Input e Output obiettivo 6.543 3.164 Step 2 Step 3c
GET 97% 64% Max 1,55 Min 0,97
NUMERO CLIENTI APPUNTAMENTI
AREE
TARGET PRESI Step1a Step1b Step1c Step3a Step3b
AREA CALABRIA 6.117 2.415 6.117 2.415 1,18
AREA CAMPANIA E POTENZA 6.861 3.276
AREA EMILIA EST E ROMAGNA 6.543 3.164 6.543 3.164 1,55 6.543 0,97
AREA EMILIA OVEST 3.975 1.667 3.975 1.667 0,82
AREA FRIULI VENEZIA GIULIA 2.529 906 2.529 906 0,44
AREA LAZIO SPORTELLI INTERNI 6.750 2.038 6.750 2.038 1,00
AREA LIGURIA 6.285 2.549 6.285 2.549 1,25
In Tab.14 è riportato una parte del foglio Excel che abbiamo formattato per le
analisi.
In alto a sinistra viene riportata l’area (in questo caso l’area “Lazio sportelli
interni”) oggetto dell’analisi, con le informazioni relative ai clienti (inputLazio)
124
Statistics for Evaluation
125
Duccio Stefano Gazzei
Alcuni esempi:
Resistenza alla trazione di un campione di filo cotone
Diametro delle sfere cuscinetti
Volume liquido per iniezioni;
etc.
126
Statistics for Evaluation
127
Duccio Stefano Gazzei
128
Statistics for Evaluation
x
j 1
j
x
n [39]
Anche per lo scarto quadratico medio si può ottenere una espressione
approssimata.
x [40]
n
129
Duccio Stefano Gazzei
x
j 1
j [41]
x
n
Nelle versioni successive della carta furono anche aggiunte altre due righe,
denominate “Warning Lines”, in corrispondenza del valore tabellare ±1,96,
che, come è noto, identifica i due livelli che contengono il 95% della
distribuzione normale standardizzata. In questo modo era possibile
controllare, ogni n osservazioni, se il numero delle misurazioni effettuate
comprese tra le “Warning lines” ed i limiti di controllo (UCL e LCL) non
superassero il valore pari a
n*0,5
Il caso di superamento, la produzione veniva fermata e le macchine
controllate, prima ancora di un superamento assoluto dei limiti di controllo.
130
Statistics for Evaluation
131
Duccio Stefano Gazzei
Camp 1 … Camp 20 MEDIE ORARIE DEV.STA. MEDIA CARTA UCL LCL WUP WLL
1 150,24 … 151,73 151,09 0,61 151,07 151,44 150,70 151,31 150,83
2 151,75 … 151,12 151,00 0,58 151,07 151,44 150,70 151,31 150,83
3 151,71 … 151,64 150,91 0,56 151,07 151,44 150,70 151,31 150,83
4 150,90 … 151,49 151,07 0,56 151,07 151,44 150,70 151,31 150,83
5 151,64 … 151,90 151,14 0,52 151,07 151,44 150,70 151,31 150,83
6 151,23 … 152,00 151,03 0,56 151,07 151,44 150,70 151,31 150,83
7 150,36 … 150,70 151,18 0,51 151,07 151,44 150,70 151,31 150,83
8 151,06 … 150,77 151,00 0,56 151,07 151,44 150,70 151,31 150,83
9 151,25 … 151,72 151,06 0,59 151,07 151,44 150,70 151,31 150,83
10 150,96 … 151,15 150,93 0,60 151,07 151,44 150,70 151,31 150,83
11 150,89 … 150,14 151,08 0,52 151,07 151,44 150,70 151,31 150,83
12 151,97 … 150,50 151,09 0,69 151,07 151,44 150,70 151,31 150,83
13 150,86 … 151,10 151,04 0,47 151,07 151,44 150,70 151,31 150,83
14 151,29 … 151,07 151,14 0,58 151,07 151,44 150,70 151,31 150,83
15 150,88 … 150,48 151,16 0,60 151,07 151,44 150,70 151,31 150,83
16 151,10 … 150,23 151,00 0,56 151,07 151,44 150,70 151,31 150,83
17 151,15 … 151,32 151,05 0,46 151,07 151,44 150,70 151,31 150,83
18 151,45 … 151,22 151,09 0,50 151,07 151,44 150,70 151,31 150,83
19 150,56 … 150,96 151,23 0,50 151,07 151,44 150,70 151,31 150,83
20 151,41 … 150,71 151,08 0,52 151,07 151,44 150,70 151,31 150,83
media 151,07 0,55
dev st media 0,12
Per ogni riga della tabella calcoliamo la media oraria e, dopo 20 ore, la media
delle medie orarie, pari a 151,07.
Stessa cosa per la deviazione standard, calcolata per ogni riga e poi in media
(0,55). Ricordando che la formula della deviazione standard per le medie
campionarie prevede la divisione per radice quadrata di n, otteniamo la dev.st
delle medie campionarie pari a 0,12.
A questo punto è facile calcolare tutte le linee della carta di Shewart:
- Upper Control Limit UCL = 151,07+3*0,12 = 151,44
- Lower Control Limit LCL = 151,07-3*0,12 = 150,70
- Warning Upper Limit WUL = 151,07+1,96*0,12 = 151,31
- Warning Lower Limit WLL = 151,07-1,96*0,12 = 150,83
132
Statistics for Evaluation
151,40
150,60 WUP
WLL
150,40
150,20
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
154,00
148,00
1
7
13
19
25
31
37
43
49
55
61
67
73
79
85
91
97
133
Duccio Stefano Gazzei
CAPITOLO 4
LA VALUTAZIONE DELLA EFFICACIA DELLA
COMUNICAZIONE PUBBLICITARIA
134
Statistics for Evaluation
135
Duccio Stefano Gazzei
136
Statistics for Evaluation
p E ht f 1 p X ht , M t , c t 1
p Ft f 2 p E ht [44]
p c t f 3 p Ft , Dt , pop t
Dove
137
Duccio Stefano Gazzei
Gli studi di Henry Zielske sulla pubblicità a mezzo stampa hanno avuto
come oggetto sia la velocità di apprendimento (ricordo della pubblicità) sia
la velocità del decadimento memoriale.
Premesso che è possibile individuare tre tipi di strategie di conduzione nel
tempo di una campagna pubblicitaria:
138
Statistics for Evaluation
S t a1 S t 1 a 2 At [45]
Dove i parametri “a” sono da stimare con gli usuali metodi sulla base di
serie temporali di dati individuali.
Altre ricerche hanno mostrato come il ricordo medio durante l’anno può
essere massimizzato organizzando le campagne attraverso ondate (flights).
Secondo Armand Morgenzstern, la memorizzazione del messaggio
pubblicitario è funzione del fattore beta
Indicando con:
n = numero di esposizioni;
Sn = la percentuale di persone che ricordano dopo n esposizioni,
la funzione capace di descrivere la memorizzazione è la seguente:
S n 1 (1 b ) n [46]
con b minore o uguale ad uno.
Se vi è un valore residuo di memorizzazione, anche quando n è uguale a
zero, S 0 è diverso da zero. In questo caso la memorizzazione dopo n
esposizioni è data da:
S n (1 S 0 ) 1 (1 b ) n S 0 [47]
A sua volta il modello di Simon Broadbent si basa sull’assunzione che, in un
dato momento, il ricordo sia funzione non solo della pubblicità effettuata nel
periodo corrente, ma anche della pubblicità esercitata nel passato. Il ricordo
viene ad essere espresso come funzione lineare di una variabile latente,
denominata Advertising Stock (adstock), che indica lo stock di investimento
(o di pressione) pubblicitaria fino al periodo t:
S t bAds t
[48]
Ads t rAt r 2 At 1 r 3 At 2 ... r n At n 1
Dove:
r = parametro che esprime il decadimento dell’azione pubblicitaria;
139
Duccio Stefano Gazzei
140
Statistics for Evaluation
dQ dQT ds
s QT [51]
dA dA dA
dQ dQ * dQ * dPc dQ * dAc
[53]
dA dA dPc dA dAc dA
L’elasticità delle vendite della marca può essere scritta allora nei termini
della propria elasticità diretta , dell’elasticità incrociata , e dell’elasticità di
reazione :
Q , A Q*, A Q*, Pc Pc , A Q*, Ac Ac , A [54]
dove
dQ * Ac
Q*, Ac [55]
dAc Q *
I modelli che permettono di misurare gli effetti di reazione sono per lo più di
tipo moltiplicativo, della forma:
Q kA Ac [56]
in cui:
141
Duccio Stefano Gazzei
142
Statistics for Evaluation
143
Duccio Stefano Gazzei
per calcolare il Tempo sulla Pagina abbiamo utilizzato una media tra le
sessioni, poiché garantisce una migliore comprensione dei fenomeni in atto
sulla pagina.
Vediamo come viene effettivamente misurato il tempo trascorso in una
pagina:
Nel momento in cui un utente apre una qualsiasi pagina del nostro sito
Web, lo strumento di analisi registra l’esatto istante temporale (h: min: s) in
cui è stata richiesta tale pagina. Supponiamo che in un secondo momento
lo stesso utente apra una seconda pagina del nostro sito Web, anche in
questo caso lo strumento registrerà l’esatto istante temporale in cui è stata
richiesta la pagina.
Adesso il nostro programma di Web Analytics è in possesso di due
indicazioni orarie, una per la richiesta della prima pagina e una per la
richiesta della seconda pagina, perciò è in grado di calcolare il tempo
trascorso sulla prima pagina facendo la differenza tra il secondo istante
temporale e il primo.
Da notare che, per calcolare il tempo trascorso su una pagina lo strumento
analitico ha bisogno di due indicazioni temporali, dunque nel caso in cui il
visitatore esca dalla prima pagina senza visualizzarne una seconda, il
nostro strumento non riuscirà a calcolare questa metrica, poiché manca
un’indicazione oraria.
Frequenza di Rimbalzo - Essa rappresenta la percentuale delle sessioni
sul sito Web in cui è stata visualizzata una sola pagina. Alcuni strumenti
sfruttano il tempo per misurare la Frequenza di Rimbalzo, in tal caso essa
rappresenta la percentuale di sessioni in cui il tempo trascorso sulla pagina
è stato minore di cinque secondi.
Questa metrica è una tra le più importanti, poiché consente di stimare il
“grado di fallimento” del sito: misurare un’alta Frequenza di Rimbalzo in una
particolare pagina (o nell’ intero sito Web), infatti, è sintomo di scarso
interessamento da parte dei clienti.
Inoltre è utile per intraprendere una rapida azione correttiva sulla base dei
risultati ottenuti dall’analisi, poiché permette di identificare le pagine che
non suscitano particolare interesse nei clienti e provocano troppi rimbalzi.
144
Statistics for Evaluation
145
Duccio Stefano Gazzei
Figura 22 – Numero di sessioni per giorno di un sito web di una grande banca italiana
146
Statistics for Evaluation
La forma strana della serie storica, con un “picco” nei primi giorni della
rilevazione, è motivata dal fatto che proprio in quei giorni fu lanciata una
campagna pubblicitaria sui principali media nazionali, determinando una crescita
temporanea considerevole degli accessi al sito.
Il presupposto che sta alla base dello studio di una serie storica di questo tipo è il
fatto che quei fattori che hanno condizionato il numero degli utenti nel periodo che
va dal 30/09/2016 al 31/12/2016, possano essere identificati e utilizzati per:
- Studiare il comportamento dei clienti
- Prevedere l’andamento futuro della nostra variabile di interesse.
Per il raggiungimento del nostro obbiettivo utilizzeremo il “modello classico
moltiplicativo per le serie temporali ”:
= [58]
147
Duccio Stefano Gazzei
l’indice orario alle ore 11 è calcolato come la media di tutte le osservazioni alle ore
11 diviso la media generale di tutti gli indici orari.
E’ possibile inoltre di stimare tale modello e testare la presenza delle varie
componenti, con il metodo dei minimi quadrati, applicando una trasformazione
logaritmica al seguente modello:
Sessionii = μi * Ti * IMi * ISi * IGi * εi
[59]
Come prima cosa abbiamo integrato la Tab.15 con informazioni relative al numero
di osservazione (da 0 a 92), il giorno della settimana (1=”Lunedì”), il numero della
settimana ed il numero del mese (Vedi Tab.16)
Come prima cosa abbiamo calcolato la media delle sessioni (pari a 2.961) ed
abbiamo effettuato la prima decomposizione della serie dividendo ogni valore per
la media.
Sessionii / μi = Ti * IMi * ISi * IGi * εi
148
Statistics for Evaluation
L’analisi della nuova serie (y/m) mostra un andamento molto particolare, dovuto al
fatto che i primi giorni si verifica un picco dovuto al grande “push” di pubblicità.
Per cogliere il particolare tipo di trend, abbiamo adottato un modello flessibile
ispirato alla Cobb Douglas, con una sola variabile indipendente (il numero delle
osservazioni N_OSS).
A questo punto possiamo utilizzare i valori sulla curva stimata come indice di trend
(It).
La tabella ha due nuove colonne: a) l’indice di trend It; b) la nuova serie ottenuta
149
Duccio Stefano Gazzei
150
Statistics for Evaluation
151
Duccio Stefano Gazzei
152
Statistics for Evaluation
300
y = 0,1162x
R² = 0,9381
250
PERCEZIONI
200
150
100
50
0
0 500 1000 1500 2000 2500 3000
CONTATTI
A questo punto costruiamo una tabella dove, per colonna sono identificate le
grandi province (Valore “1”) e le altre (Valore “0”) ed, in corrispondenza delle
righe, i valori dei beta provinciali. Vedi esempio sulle prime otto province in
ordine alfabetico:
153
Duccio Stefano Gazzei
RIEPILOGO
Gruppi Conteggio Somma Media Varianza
0 18 2,03 0,11 0,00
1 12 1,43 0,12 0,00
ANALISI VARIANZA
Origine della variazione SQ gdl MQ F Valore di significatività F crit
Tra gruppi 0,000 1,000 0,000 0,587 0,450 4,196
In gruppi 0,014 28,000 0,000
154
Statistics for Evaluation
CAPITOLO 5
LA VALUTAZIONE DEL POTENZIALE DI
VENDITA
155
Duccio Stefano Gazzei
156
Statistics for Evaluation
157
Duccio Stefano Gazzei
È così che il territorio viene utilizzato come una sorta di leva strategica e le
informazioni su di esso permettono una maggiore conoscenza del mercato
da parte dell’azienda, rendendo il processo decisionale più veloce e
completo. Si sviluppa una visione del mercato da un punto di vista
geografico, che consente di avere un’idea di come esso si muova non solo
in termini numerici, ma avendo un riscontro grafico di come produzione,
commercializzazione, clienti, concorrenza e opportunità di business siano
posizionati sul territorio.
Con il Geomarketing statistico l’elemento geografico diventa la variabile
determinante per la lettura e l’interpretazione dei dati del mercato, consentendo
così all’azienda utilizzatrice di fornire risposte personalizzate ai bisogni dei clienti,
individuando e segmentando le specifiche esigenze proprio in relazione alla loro
collocazione geografica 12.
12 Ballocci (1997)
158
Statistics for Evaluation
159
Duccio Stefano Gazzei
Gli oggetti delle analisi alla base degli strumenti di Geomarketing sono il
macroambiente, il microambiente, il comportamento del consumatore e la
definizione dei bacini di utenza.
Il MACROAMBIENTE riguarda l’individuazione delle tendenze che possono
apportare modificazioni alla domanda, in termini sia quantitativi che
qualitativi. In questo ambito vengono studiate le variabili:
- demografiche (ad es. la numerosità della popolazione, la struttura delle
famiglie, la distribuzione della popolazione per classi d’età, etc.)
- economiche (ad es. il livello di reddito, i consumi, i risparmi, etc.)
- sociali (ad es. gli stili di vita dei clienti, le leggi ambientali, la tutela del
consumatore, etc.)
160
Statistics for Evaluation
161
Duccio Stefano Gazzei
162
Statistics for Evaluation
163
Duccio Stefano Gazzei
164
Statistics for Evaluation
l’utilizzo del raggio esploratore che può essere radiale o come “tempo di
guida” cioè stradale.
165
Duccio Stefano Gazzei
166
Statistics for Evaluation
Informazioni Azioni
167
Duccio Stefano Gazzei
Infine, oltre alla determinazione del market share del proprio brand e di
quello dei competitors, nelle diverse realtà territoriali, è possibile analizzare
le direttrici dei flussi di acquisto, tramite il monitoraggio della distanza e
delle traiettorie percorse dal luogo di residenza del cliente al luogo in cui è
presente il punto vendita presso il quale il cliente si reca (ad es. nei casi di
realtà come quelle bancarie o di tutti quei punti vendita con fidelity-card che
consentono di avere informazioni relativamente al domicilio dell’acquirente).
168
Statistics for Evaluation
Introduzione
169
Duccio Stefano Gazzei
La tabella che segue riepiloga, per ogni classe di territorio, la dimensione del
raggio utilizzata per determinare il bacino d’utenza di ogni agenzia. È stata
ricavata considerando la curva di Lorenz per ogni agenzia e pervenendo alla
determinazione di sei gruppi analizzando i dati con la metodologia nota come
delle k-medie:
Raggio N. Agenzie
Tipologia di bacino
esploratore NOMEBANCA
1. CENTRO CITTÀ 300 m 95
2. SEMICENTRO 600 m 46
3.PERIFERIA 850 m 102
4. NUOVA PERIFERIA 1.250 m 13
5. COMUNI A MINOR PRESIDIO 600 m 169
6. AG. UNICHE NEL COMUNE 850 m 286
170
Statistics for Evaluation
Questo ulteriore step di analisi ha consentito uno studio del territorio più
accurato, dando l’opportunità di caratterizzare ulteriormente l’area di
competenza di ciascuna agenzia quantificandone dettagliatamente la
domanda potenziale (espressa sia in termini quantitativi che qualitativi
profilando i possibili clienti secondo i target di mercato – Affluent, Family,
Business) congiuntamente con la pressione concorrenziale dovuta alla
presenza di sportelli di altri istituti di credito.
171
Duccio Stefano Gazzei
Confrontando i valori dei singoli indici rispetto al dato medio della Provincia di
riferimento, è possibile raggruppare ogni mercato come “A” se il valore
dell’indice a livello di bacino è superiore alla media provinciale e “B” in caso
contrario. La combinazione di queste 3 variabili permette la costruzione
dell’infocubo territoriale che determina 8 differenti tipologie di mercato:
172
Statistics for Evaluation
Zona residenziale di nuova edificazione, Agenzia non specializzata. Se la zona è di buona qualità può
Alta Scolarizzazione
non ancora sviluppata dal punto di vista diventare una Agenzia Specializzata Affluent
Basso Reddito
commerciale, semicentrale o periferica. Clienti: Giovani coppie laureate
Bassa presenza UULL
Può essere una zona dormitorio Età: bassa
Bassa Scolarizzazione Zona residenziale, pregiata. Centro Agenzia specializzata di tipo Affluent/Affari
Alto Reddito città, centro storico di Clienti: Imprenditori, Artigiani, Pensionati, Commercianti
Alta presenza UULL grande città (Residenti), Impiegati (Pendolari)
Bassa Scolarizzazione Agenzia specializzata di tipo Affluent
Zona residenziale, pregiata. Spesso
Alto Reddito Clienti: Imprenditori, Artigiani, Pensionati
sono villette singole.
Bassa presenza UULL Età: media
Bassa Scolarizzazione Agenzia Family/Affari
Zona periferica, suburbana, sviluppata
Basso Reddito Clienti: Pensionati, Casalinghe, Commercianti (Residenti), Impiegati
dal punto di vista commerciale
Alta presenza UULL ed Operai (Pendolari)
Bassa Scolarizzazione Agenzia non specializzata.
Basso Reddito Zona degradata, dormitorio Clienti: Pensionati, Casalinghe
Bassa presenza UULL Età media: medio alta
173
Duccio Stefano Gazzei
174
Statistics for Evaluation
175
Duccio Stefano Gazzei
Conclusioni
Nel breve caso illustrato si osservano solo alcune delle occorrenze per le quali il
GeoMarketing statistico è ritenuto un utile strumento di supporto: individuare
territorialmente i segmenti di clientela migliore, concentrare le aperture in zone
ad alta attrattività, potenziare la presenza sul territorio al fine di avvicinarsi o
raggiungere una “massa critica” competitiva, garantire un miglior servizio alla
clientela attraverso il perfezionamento della contiguità geografica delle filiali e
dell’adeguamento dei prodotti alla tipologia di clienti che si trovano in un
territorio.
176
Statistics for Evaluation
177
Duccio Stefano Gazzei
OUTPUT RIEPILOGO
ANALISI VARIANZA
gdl SQ MQ F Significatività F
Regressione 1 1,7002E+12 1,7002E+12 12625,00674 6,787E-108
Residuo 101 13601576966 134669078,9
Totale 102 1,7138E+12
Sono tutti valori buoni, tranne che per l’intercetta, che il test t ci identifica
come non significativa (accettazione H0: intercetta = 0).
Ripetiamo la stima imponendo il passaggio dall’origine degli assi:
OUTPUT RIEPILOGO
ANALISI VARIANZA
gdl SQ MQ F Significatività F
Regressione 1 3,06898E+12 3,06898E+12 22394,83035 2,1714E-120
Residuo 102 13978029956 137039509,4
Totale 103 3,08295E+12
178
Statistics for Evaluation
900.000
800.000
700.000
Numero laureati 600.000
500.000
400.000
300.000
200.000
100.000
-
- 1.000.000 2.000.000 3.000.000 4.000.000
Popolazione residente
179
Duccio Stefano Gazzei
180
Statistics for Evaluation
181
Duccio Stefano Gazzei
Segmenti di clientela
ti
ot
od
Pr
Canali
182
Statistics for Evaluation
183
Duccio Stefano Gazzei
184
Statistics for Evaluation
Tassi di Redemption
“Tasso di Redemption” è un termine che nel marketing indica il risultato in
termini assoluti o percentuali di una operazione promozionale o di vendita.
In termini percentuali, è il rapporto tra il numero di risposte ottenute ed il
numero totale di contatti presi in considerazione per una determinata
iniziativa di marketing.
In un'azione di direct marketing è, ad esempio, il rapporto fra il numero di
risposte ed il numero dei messaggi inviati.
Abbiamo riportato, di seguito, alcuni “Tassi di Redemption” associati ai
principali strumenti utilizzati sono i seguenti:
Redemption Direct E-Mail Marketing: 1-3%; (con liste preparate in
Azienda si arriva fino a 10%);
Redemption Telemarketing: 5-20%;
Redemption Personal Selling: 30%.
185
Duccio Stefano Gazzei
186
Statistics for Evaluation
187
Duccio Stefano Gazzei
188
Statistics for Evaluation
189
Duccio Stefano Gazzei
TARGET
NDG (1=ATTIVATO_ ETA_MINORE_27 ETA_28_45 ETA_46_64 ETA_MAGGIORE_65 MASCHI
BANCOMAT)
3865 0 0 0 1 0 1
4787 1 0 0 1 0 1
20477 1 0 0 0 1 0
20726 0 0 0 0 1 0
Per ogni cliente, identificato dal codice NDG (Numero di Gestione), sono
riepilogate circa 50 variabili binarie (nella tabella sono riepilogate 5 variabili
input e la variabile output) che identificano le classi interessate. Per
esempio il primo cliente non ha attivato il bancomat, ha una età compresa
tra i 46 ed i 64 anni ed è un maschio. In totale stiamo analizzando n°4.000
clienti, n° 2.000 che hanno attivato la carta e n°2.000 no.
Se sommiamo per colonna i valori “1” di ogni variabile e rapportiamo il
totale sul numero dei clienti, abbiamo una misura delle penetrazione della
variabile sulle due popolazioni (clienti che hanno attivato la carta Vs clienti
che non hanno attivato)
Per esempio sulla prima variabile “Età_minore_27”, ho n°44 clienti (su 102)
che hanno meno di 27 anni che non hanno attivato la carta, mentre ne ho
160 che hanno accettato ed attivato il bancomat.
0 1 TOTALE %_0 %_1
Somma di ETA_MINORE_27 44 160 204 0,22 0,78
190
Statistics for Evaluation
E’ evidente che il gruppo dei clienti che ha attivato il bancomat ha una età
minore di 65 anni ed è prevalentemente maschile.
Se vogliamo essere sicuri che la diversa frequenza evidenzi effettivamente
una differenza tra i due campioni, possiamo utilizzare il test “Analisi della
Varianza (ANOVA), anche nella sua forma più semplice, e non nella
modalità spiegata nelle pagine precedenti. In questo modo è possibile
sfruttare il tool “Analisi dati” di Excel.
Ad esempio sulla variabile “Maschi”, confrontando i singoli valori dei due
campioni, si sottopone a test l’ipotesi nulla
H0 : “La percentuale dei Maschi nel Gruppo 0” = “La percentuale dei
Maschi nel Gruppo 1
Verso ipotesi alternativa
HA : “La percentuale dei Maschi nel Gruppo 0” ≠ “La percentuale dei
Maschi nel Gruppo 1
191
Duccio Stefano Gazzei
RIEPILOGO
Gruppi Conteggio Somma Media Varianza
0 2000 892 0,45 0,25
1 2000 1113 0,56 0,25
ANALISI VARIANZA
Origine della variazione SQ gdl MQ F Valore di significatività F crit
Tra gruppi 12,21 1,00 12,21 49,42 0,00 3,84
In gruppi 987,78 3.998,00 0,25
192
Statistics for Evaluation
CAPITOLO 6
LA VALUTAZIONE DELLE RISORSE UMANE
193
Duccio Stefano Gazzei
194
Statistics for Evaluation
195
Duccio Stefano Gazzei
6
3 5 8
1 2 4 7 9
1 2 3 4 5
PUNTEGGIO
196
Statistics for Evaluation
Ad esempio:
197
Duccio Stefano Gazzei
198
Statistics for Evaluation
CAPITOLO 7
LA VALUTAZIONE DEGLI EFFETTI DELLE
POLITICHE PUBBLICHE
Intendiamo qui per “valutazione” l’attività analitica che utilizza i metodi delle
scienze sociali per giudicare gli effetti prodotti da un’azione pubblica.
199
Duccio Stefano Gazzei
decifrare tale complessità e di riconoscere la particolare terapia che sta alla base
della politica nei suoi contenuti essenziali, in modo da stabilire che tipo di
trattamento è stato effettivamente somministrato, secondo quale logica quel
trattamento dovrebbe indurre un certo tipo dì cambiamento, chi tra i potenziali
beneficiari lo ha ricevuto ed eventualmente con quale intensità.
Una volta stabilito su quale (o quali) variabile-risultato vanno ricercati gli effetti
della politica, è necessario individuare operativamente il “trattamento” in cui
concretamente consiste l’intervento pubblico che si intende valutare: occorre cioè
stabilire esattamente di cosa si stia cercando l’effetto.
Quindi l’effetto di una politica è definito come differenza tra due valori della
variabile-risultato. Ma di questi due valori:
200
Statistics for Evaluation
Sappiamo che tale differenza non è calcolabile con assoluto rigore: mentre il
primo termine è direttamente osservabile, il secondo non lo è mai, in quanto è
l’attuazione stessa della politica a renderne impossibile l’attuazione. Sono
possibili solo due eventi: o un insieme di soggetti è esposto alla politica (e quindi
non possiamo osservare il controfattuale); oppure non vi è esposto (e quindi non
possiamo osservare alcun valore dopo l’esposizione alla politica, dato che tale
esposizione non c’è stata).
Le strategie per la valutazione degli effetti di una politica sono, quindi, nella loro
essenza, strategie per approssimare il controfattuale con qualche valore
credibile, utilizzando le informazioni disponibili Una valutazione degli effetti sarà
tanto più plausibile quanto più sarà credibile la strategia che abbiamo adottato
per approssimare il controfattuale.
201
Duccio Stefano Gazzei
202
Statistics for Evaluation
203
Duccio Stefano Gazzei
204
Statistics for Evaluation
L’ABM può pertanto essere visto come uno specchio che, a differenza delle
misurazioni tradizionali focalizzate su indicatori di costo, fornisce ai
manager una nuova immagine delle attività che consumano risorse per
generare prodotti.
L’approccio per attività nasce come risposta alle crescente esigenza di un
sistema avanzato di governo delle aziende. Storicamente le prime
applicazioni dell’approccio activity-based sono la risposta a necessità di
ridefinizione dei sistemi di calcolo dei costi, conseguenti ai profondi
cambiamenti avvenuti. Sostanzialmente il bisogno di informazioni accurate
sui processi produttivi, sulle risorse impiegate e sulle relazioni tra questi
elementi ed i prodotti ottenuti non hanno trovato risposte soddisfacenti nei
sistemi tradizionali: infatti tali modelli, focalizzati su indicatori
prevalentemente contabili, scaturiscono da tecniche che non tengono conto
dell’aumentata complessità dell’aziende e non recepiscono i cambiamenti
nella tecnologia e nell’organizzazione dei processi. Mentre la comprensione
dei costi aziendali attraverso la comprensione delle attività presenta una
serie di vantaggi e di opportunità.
L’approccio per attività non è una tecnica di gestione dei costi. In
realtà le attività sono gli elementi su cui basare la gestione dell’intera
azienda e non solo dei suoi costi. Il costo di un’attività è un’informazione
importante, ma la sua determinazione non è l’obiettivo principale di un
progetto ABM. Esso rappresenta uno degli indicatori di performance di ogni
singola attività; consente di misurare l’assorbimento di risorse da parte delle
attività al fine di ottenere un determinato output. Per affrontare e risolvere il
problema dell’ottimizzazione delle risorse impiegate, bisogna stabilire
precise relazioni tra i fattori produttivi impiegati, le attività svolte e gli output
ottenuti. La valutazione dell’efficienza delle risorse impiegate non può
essere fatta basandosi esclusivamente sui dati di costo poiché dipende dal
valore generato da ciascuna attività.
Il concetto di valore legato alla singola attività è molto importante, in
quanto ci permette di considerare un’attività come una microimpresa
monoprodotto, in cui l’output prodotto rappresenta l’oggetto di scambio
economico. In particolare, uno scambio è da considerarsi economico se
205
Duccio Stefano Gazzei
206
Statistics for Evaluation
Per effettuare la mappatura dei processi, che porterà, poi, alla definizione di
un “Dizionario delle attività”, si deve scegliere tra due diverse strategie:
a) Approccio per funzioni aziendali: parte dall’analisi organizzativa e
porta a migliorare l’efficienza dei processi seguendo la suddivisione dei
compiti proposta dalla struttura e prendendo in esame le attività realizzate
all’interno di ciascuna funzione aziendale. Le attività si rilevano attraverso il
ricorso ad interviste dirette o con la somministrazione di questionari al fine
di comprendere come i diversi operatori occupino il loro tempo, piuttosto
che come dovrebbero impiegarlo secondo quanto riportato nei mansionari.
L’identificazione delle attività risponde alla esigenza di avviare
un’approfondita analisi circa le modalità di impiego delle risorse per la
207
Duccio Stefano Gazzei
Tabella 22 – Differenze fra l’Approccio per funzioni aziendali e l’Approccio per obiettivi di
processo come strategie per la mappatura dei processi aziendali
208
Statistics for Evaluation
Nella pratica, si tende a combinare i due approcci, nelle diverse fasi del
progetto.
La “mappatura” porterà alla realizzazione di un “Dizionario delle attività” ove
saranno identificate tre tipologie di processi:
- Processi strategici: sono i processi in cui si intende superare la
concorrenza e che forniscono le capacità dell’organizzazione
richieste per il futuro
- Processi operativi: sono i processi che realizzano i prodotti/servizi
dell’organizzazione
- Processi di supporto: sono i processi che aggiungono efficienza ed
efficacia ai processi operativi
209
Duccio Stefano Gazzei
210
Statistics for Evaluation
Yi
IPi
Xi [60]
211
Duccio Stefano Gazzei
L’ispirazione del metodo sperimentale per valutare gli effetti delle politiche
deriva dall’ambito medico-farmaceutico, dove è applicato per testare
l’efficacia dei nuovi farmaci, mediante i cosiddetti “clinical trials”. Un gruppo
di pazienti affetti da una certa patologia viene suddiviso in due gruppi
mediante randomizzazione, cioè sorteggio: ai membri di uno dei due gruppi
viene somministrato il farmaco da sperimentare (gruppo dei “trattati” o
“gruppo sperimentale”), mentre ai membri dell’altro viene somministrato un
“placebo”, cioè una sostanza inerte, che ha le stesse caratteristiche
organolettiche del farmaco, ma non può avere alcun effetto diretto sulla
patologia. Questo secondo gruppo viene definito “gruppo di controllo”.
Perché è necessario un “gruppo di controllo”? Quest’ultimo serve, per
riprendere il linguaggio dell’introduzione a questo capitolo, ad approssimare
la situazione controfattuale. Più precisamente, grazie alla randomizzazione,
il decorso della patologia che si osserva tra i membri del gruppo di controllo,
sarà presumibilmente simile al decorso che la patologia avrebbe avuto tra i
membri del gruppo dei “trattati”, qualora essi non avessero ricevuto il
farmaco. Questa espressione è equivalente alla definizione di
controfattuale. Una differenza significativa (nella direzione desiderata) tra il
decorso osservato nella patologia per il gruppo sperimentale ed il decorso
osservato per il gruppo di controllo rivela che i farmaco è efficace, cioè
ottiene un effetto nella direzione desiderata.
Ovviamente, i membri del gruppo di controllo non sono identici ai membri
del gruppo sperimentale. L’esperimento “ideale” dovrebbe prendere due
gruppi di pazienti assolutamente identici e sottoporne uno al trattamento e
l’altro no. Quando si opera con esseri viventi o organismi complessi che si
differenziano lungo moltissime dimensioni, creare due gruppi perfettamente
identici è virtualmente impossibile.
Tuttavia la perfetta identità non è un requisito indispensabile: è sufficiente
che i due gruppi siano “statisticamente equivalenti”, cioè abbiano la stessa
distribuzione di tutte le caratteristiche (ad esempio la stessa media, la
stessa varianza, gli stessi decili), eccezion fatta per l’inevitabile errore
campionario, che però tende ad essere “piccolo”, quando il campione
212
Statistics for Evaluation
213
Duccio Stefano Gazzei
214
Statistics for Evaluation
Figura 45 – Tasso di occupazione delle madri single con sussidio di povertà da più di 3 anni
215
Duccio Stefano Gazzei
216
Statistics for Evaluation
217
Duccio Stefano Gazzei
218
Statistics for Evaluation
Figura 46 – Il tasso di vandalismo in tre anni diversi nei due gruppi di quartieri
219
Duccio Stefano Gazzei
Questo vuol dire che siccome dal 1996 al 2000 l’andamento di crescita del
vandalismo era stato simile, è da ritenersi molto probabile che anche nei
quartieri URP, senza intervento della politica, avremmo assistito ad una
crescita del trend. Quindi, oltre alla differenza tra le differenza, è opportuno
valutare anche la differenza nella dinamica del trend.
La regressione
Per capire come agisca questa metodologia, conviene, prima, chiarire
concettualmente quali siano le ipotesi di base su cui possiamo fondare la
nostra analisi.
Riprendiamo il caso del confronto tra trattati e non trattati osservati solo
dopo il trattamento. La differenza osservata tra le due medie può essere
scritta come la somma di due componenti:
220
Statistics for Evaluation
221
Duccio Stefano Gazzei
222
Statistics for Evaluation
223
Duccio Stefano Gazzei
224
Statistics for Evaluation
225
Duccio Stefano Gazzei
226
Statistics for Evaluation
227
Duccio Stefano Gazzei
Il matching statistico
Torniamo ora alla situazione descritta all’inizio del capitolo, quella in cui
abbiamo accesso ai dati sulla variabile-risultato solamente per il periodo
post-intervento, cioè per il 2004. Invece per il 2000 supponiamo come prima
di avere informazioni sulle caratteristiche di ciascun quartiere (più
precisamente i tassi di disoccupazione e di immigrazione) ma non sulla
variabile-risultato.
Esploriamo ora un metodo alternativo a quello della regressione multipla, il
matching (o abbinamento) statistico. La differenza tra i due metodi è nel
modo in cui essi utilizzano i dati a disposizione, non nei dati a cui fanno
ricorso, che sono (in buona parte) gli stessi; con la regressione, imponiamo
sui dati un modello parametrico, cioè supponiamo di sapere quale forma
abbia la relazione tra la variabile dipendente e le variabili di controllo: nel
caso esaminato, abbiamo supposto una relazione lineare.
Potremmo rendere il modello meno lineare (mediante l’aggiunta di
interazioni o di funzioni polinomiali delle variabili di controllo), ma comunque
faremmo sempre qualche assunto arbitrario sulla forma della relazione tra
le variabili.
Il metodo del matching statistico si basa su un’idea diversa, che trae
ispirazione dal metodo sperimentale: l’idea è quella di creare un gruppo di
controllo ex post, scegliendo tra i non-trattati quel sottogruppo che sia il più
simile possibile al gruppo dei trattati in termini di caratteristiche osservabili.
La procedura adottata per scegliere il gruppo di controllo ex post tenta
228
Statistics for Evaluation
229
Duccio Stefano Gazzei
230
Statistics for Evaluation
Una volta stimato, tale modello permetterà, per ogni unità, di predire la
probabilità di trattamento in funzione del valore delle sue variabili
esplicative: cioè produrrà, per ogni unità, il suo propensity score (che non
sarà altro che un numero tra zero e uno). Quelle unità le cui caratteristiche
implicano un’alta probabilità di trattamento (nel nostro caso, un’alta
probabilità di ricevere i finanziamenti URP) avranno un propensity score più
vicino a 1 di quelle unità che hanno una bassa probabilità di trattamento. Va
ribadito che il propensity score si calcola per tutte le unità (trattate e non-
trattate), usando esclusivamente informazioni pre-trattamento.
Una volta che disponiamo del propensity score per tutte le unità, possiamo
utilizzare come distanza tra due unità la differenza tra i loro propensity
score (che indichiamo con pi nel caso dell’unità trattata e pj nel caso della
non-trattata):
dij = | pi – pj | [66]
Una volta definita la distanza tra le unità, è possibile procedere
all’abbinamento di unità trattate e non-trattate quindi alla costruzione del
gruppo di controllo ex post.
Esistono diverse metodologie per eseguire l’abbinamento. Noi utilizzeremo
l’abbinamento sull’unità più vicina (Nearest neighbour matching), che
rappresenta il metodo più semplice e intuitivo. Consiste semplicemente
231
Duccio Stefano Gazzei
232
Statistics for Evaluation
233
Duccio Stefano Gazzei
CONCLUSIONI
Ognuno di essi è una ottima chiave per aprire le porte di una disciplina
affascinante, moderna, forse una delle più veloci a correre la fantastica corsa
della modernità e dello sviluppo tecnologico.
234
Statistics for Evaluation
BIBLIOGRAFIA
AA.VV. (2016), Net Promoter Score (NPS): Use, Application and Pittfalls, in
www.checkmarket.com
AIGNER D.J., CHU S.F. (1968), "On Estimating the Industry Production
Function", The American Economic Review, n°4
ALVARO G. (1999), Economia e statistica aziendale, Cedam
AMADIO G., LIVERANI A. ZANNI S. (2002), “Analisi dell’Efficienza delle
Aziende che erogano dei servizi al pubblico. Il Costo degli Sportelli
Bancari”, Budget n°16
AMAGLIO A., ZANEGA P. (2000), Activity Based Management: come
realizzare un sistema avanzato dell’impresa. Franco Angeli Editore
AMENDOLA M. (1976): “Macchine, produttività, progresso tecnico”, Milano
ANGIOLINI A. (1995), Come sviluppare un buon sistema di reporting,
Franco Angeli Editore
ARBIA G., ESPA G. (1996), Statistica e Economica e territoriale, Cedam
ARIA M., (2018), Gli alberi di classificazione, Federica Web Learning,
Università degli Studi di Napoli Federico II
BALLOCCI G. (1997), “Marketing e Geografia: un matrimonio d’interesse”,
Largo Consumo n°5
BIZZI N. (2017), statistica, pubblicità e web analytics: un caso di studio in
BNL, Tesi di Laurea
BREIMAN L, FRIEDMAN JH, OLSHEN RA, STONE CJ (1984).
Classification and Regression Trees. The Wadsworth & Brooks/Cole
Statistics/Probability Series.
BRASINI S., FREO M., TASSINARI F., TASSINARI G. (2010), Marketing e
pubblicità, Il Mulino
BRUNI G., DI LAZZARO F., GATTI G. (2001), Il reporting della performance
aziendale. Un’applicazione al settore delle aziende di pubblici servizi in
235
Duccio Stefano Gazzei
236
Statistics for Evaluation
237
Duccio Stefano Gazzei
SITOGRAFIA
www.andreapilotti.com/centralita-cliente-marketing.html
www.digitalanalyticsassociation.org/
www.okpedia.it/processo_produttivo
www.saverioweb.com
www.begcomunicazione.it
www.webanalytics.it/
www.federica.unina.it/economia/analisi-statistica-sociologica/alberi-
classificazione/
238