Sei sulla pagina 1di 62

METODI STATISTICI AVANZATI PER L’INGEGNERIA GESTIONALE

Alberto Lombardo – 6 CFU

Nunzio Calcagno
I PARTE – Experimental design

1. Blocks in experimental design


1.1 Quadrati latini

Quando si parla di esperimenti è opportuno distinguere la fase di progettazione dalla fase di analisi. La
progettazione ha come fine ultimo quello di estrarre il massimo delle informazioni dal minimo numero di
esperimenti, nonché quello di rendere la fase di analisi il più semplice possibile.
È importante focalizzarsi sull’importanza del blocco, ovvero una parte del materiale sperimentale più
omogenea al proprio interno di quanto non lo sia il materiale per intero, nei confronti della risposta. La variabile
di blocco è quindi una variabile qualitativa e il suo scopo è quello di estrarre dalla variabilità generale una
parte, dovuta appunto alla variabile di blocco. Introducendo il fattore di blocco i DOF del residuo
diminuiscono, aumentando il punto critico e dunque il test si riduce di potenza: ciò è largamente compensata
da una forte riduzione nel valore del suo MS. Il concetto di blocco riguarda la possibilità di usare dei fattori
sperimentali che consentano di abbassare la variabilità del residuo.
Si consideri adesso il caso in cui vi siano due fattori di blocco da testare. In questo caso si avranno dunque due
fattori di blocco e un fattore principale, ovvero quello tecnologico, tutti assunti con lo stesso numero L di
livelli. In una progettazione fattoriale si hanno L3 prove, eventualmente moltiplicate per R repliche qualora vi
fosse interazione. Esiste una variante, che consente di ridurre il numero delle prove da effettuare; si tratta dei
quadrati latini, dove in ciascun blocco, preso individualmente, sono presenti univocamente tutti i livelli di un
fattore: si tratta cioè di blocchi completi e considerando i fattori a due a due costituiscono un piano fattoriale
completo. Il modello di riferimento è il seguente
𝑦𝑖𝑗𝑘 = 𝜇 + 𝛼𝑖 + 𝛽1𝑗 + 𝛽2𝑘 + 𝜀𝑖𝑗𝑘

con 𝑖, 𝑗, 𝑘 = 1, … , 𝐿 𝑒 𝜀𝑖𝑗𝑘 𝑖𝑖𝑑 ~𝑧(0; 𝜎 2 ) . L’indipendenza è garantita dalla randomizzazione: l’assegnazione


delle etichette deve essere casuale, così come l’ordine di esecuzione delle prove (ciò su Minitab equivale a
scambiare le righe). Come si studia in questo caso la varianza? Si osservi la seguente tabella.

Chiaramente nelle sommatorie bisogna tenere conto soltanto degli indici esistenti nel quadrato latino in
considerazione. Si ricordi che i DOF totali sono pari al totale degli elementi al netto dei vincoli. Anche in
questo caso la scomposizione è ortogonale: i doppi prodotti sono nulli. Per Cochran, sapendo che i primi tre
fattori sono indipendenti e che compreso il totale sono delle 𝜒 2 , allora anche l’errore sarà una 𝜒 2 , che si ottiene
come complemento al totale.
I primi test da realizzare sono sui blocchi e ci aspettiamo che siano significativi, ovvero siamo riusciti a trovare
un fattore di blocco che è riuscito a estrarre una porzione significativa della variabilità. Il test più importante,
però, è quello sul fattore principale.

1
𝑀𝑆𝑓𝑎𝑡𝑡𝑜𝑟𝑒
𝐹=
𝑀𝑆𝑡𝑜𝑡𝑎𝑙𝑒
Si tratta di un test unilaterale con regione di rifiuto a destra.
Nel caso in cui uno di questi fattori di blocco non dovesse essere significativo, dovremmo effettuare
un’operazione di pooling, sommando il fattore nuovamente all’errore, i cui DOF aumenteranno. È
un’operazione rischiosa, perché potrebbe aumentare i SS in maniera esagerata. Se i DOF dell’errore sono molto
bassi e quindi sommando i DOF di un altro fattore, questi raddoppiano, allora ne vale la pena. Se i DOF
dell’errore sono già grandi, allora ciò è sconsigliato. Ciò perché aumentando i DOF, e quindi il denominatore,
il valore della soglia diminuisce e quindi è più facile superarla: i test andrebbero rifatti con la nuova soglia.
L’analisi della varianza su Minitab, dunque, verrà fatta innanzitutto posizionando i dati in 3 colonne per gli
indici: positions (I, II, III, IV), treatments (A, B, C, D), castings (1, 2, 3, 4). A ciò si aggiunge la colonna della
risposta Y.
1 2 3 4
1 A B C D
2 D A B C
3 C D A B
4 B C D A

Non si tratta di una pianificazione bilanciata. Si procede con ANOVA – GENERAL LINEAR MODEL, che è un
modello generale e non tiene conto del fatto che sia unbalanced. I castings sono un fattore casuale, perché
rappresentano solo un campione. Mentre gli altri due fattori sono fissi, in quanto abbiamo deciso di analizzare
proprio quelli, non come campione rappresentativo. L’interazione tra due fattori avrebbe 3 ∙ 3 = 9 gradi di
libertà, ma non ho dove prenderli. Si procede analizzando i residui e successivamente i risultati statistici,
ricordando che vogliamo ottenere test significativi. Se il trattamento risulta comunque significativo, non vale
la pena sommare gli SS del fattore non significativo all’errore.
È possibile verificare l’ortogonalità. STAT – ANOVA – GENERAL LINEAR MODEL e ripetere l’analisi della
varianza a un solo fattore, cioè esclusivamente con il treatment. Si nota che l’errore è la somma di tutti gli altri
fattori che comparivano nell’analisi precedente. Analogamente si ripete la procedura singolarmente con gli
altri due fattori, giungendo alla stessa conclusione. Dunque le tre analisi della varianza a un fattore equivalgono
a un’analisi della varianza a tre fattori. Ciò però avviene soltanto per analisi bilanciate, allora perché qui
avviene? Perché prendendo i fattori a coppie, l’analisi è bilanciata.

Nel caso di quadrati latini molto piccoli si cerca di replicare il quadrato latino, ovvero da L 2 a 𝑅 ∙ 𝐿2 , dove R
sono le repliche. Nel fare le repliche, però, eccezione fatta per il fattore tecnologico (quello voglio
sperimentare, altrimenti rappresenterebbe un esperimento diverso), i fattori possono cambiare: nel caso
dell’esempio del testo, potrebbero cambiare autisti e/o macchine. Bisogna dunque considerare un nuovo
fattore, che è il fattore replica. In questo modo aumentano i DOF del totale, spendendo 𝑅 − 1 DOF per il fattore
replica, e quindi aumentando i DOF dell’errore. Il nuovo modello sarà:
𝑦𝑖𝑗𝑘 = 𝜇 + 𝛼𝑖 + 𝛽1𝑗 + 𝛽2𝑘 + 𝜌𝑡 + 𝜀𝑖𝑗𝑘

Posso agire in tre modi differenti.

• CASO A: replica con gli stessi elementi per tutti le variabili di blocco
Su Minitab ricopio gli indici dei tre fattori, ma chiaramente le Y dovranno essere differenti. È necessario,
inoltre, introdurre una nuova colonna che indica il fattore replica. Il nuovo fattore è bilanciato con gli altri 3.
Nuovamente STAT – ANOVA – GENERAL LINEAR MODEL, ma con 4 fattori adesso.
I fattori saranno così esaminati:

2
• CASO B: replica con elementi diversi per una delle variabili di blocco
Se nella replica cambio ad esempio i drivers, allora in questo caso il fattore è annidato all’interno del fattore
replica. Su Minitab seguirò STAT – ANOVA – GENERAL LINEAR MODEL, poi in RANDOM/NEST,
specifico quale fattore è annidato e in quale fattore. I DOF del fattore annidato saranno decurtati dei DOF del
fattore in cui è annidato.

• CASO C: replica con elementi diversi per tutti gli elementi di blocco
In questo caso seguiremo STAT – ANOVA – GENERAL LINEAR MODEL e in RANDOM/NEST indicherò
che sia cars sia drivers sono annidati nelle repliche. I DOF dei fattori annidati saranno dunque 𝑅 ∙ 𝐿 − (𝐿 − 1).

3
Delle tre modalità scegliamo quella che con lo stesso numero di prove ci dà grado di residuo più elevato e,
dunque, un test più potente. Quello che fornisce un test più potente è il caso A.

1.2 Quadrati greco-latini e iper greco-latini

E se volessimo usare una terza variabile di blocco? Dunque avremmo una sperimentazione con 4 fattori: 3 di
blocco e uno tecnologico. Un piano fattoriale prevede L4 esperimenti. È possibile fare una sperimentazione in
cui abbiamo anziché L4, L2? Vogliamo determinare un altro quadrato. Immaginiamo di sovrapporre un
quadrato con le lettere greche (greco) con uno latino. Dovrà esserci un incrocio di 𝛼 con A, poi B, poi con C e
poi con D e così via. Piano bilanciato significa scomposizione ortogonale.
Supponiamo di avere delle carte siciliane e di selezionare le stesse 4 carte per ogni palo. Costruire un quadrato
greco latino corrisponde a disporre le carte in modo che in ogni riga e colonna non vi sia ripetizione di palo e
numero. Ciò si ottiene costruendo quattro quadrati 2x2. Lo schema generale è il seguente:
I II III IV
1 A 𝛼 B 𝛽 C 𝛾 D 𝛿
3 B 𝛾 A 𝛿 D 𝛼 C 𝛽
4 C 𝛿 D 𝛾 A 𝛽 B 𝛼
5 D 𝛽 C 𝛼 B 𝛿 A 𝛾

Il principio di base è tale che qualunque coppia di colonne io scelga rappresenta un piano fattoriale completo
LxL. Contando i DOF ci rendiamo conto del massimo che riusciamo a fare. Supponiamo di avere un quadrato
di lato L, avrò dunque L2 numeri, i cui DOF sono L2-1. Ciascun fattore colonna assorbe L-1 DOF, dunque più
di L+1 colonne non potremmo generare, altrimenti si avrebbe un conflitto sui DOF. I quadrati latini che al
massimo si possono creare sono, dunque, L-1, tenendo conto che due colonne di indici sono state utilizzate per
i numeri arabi e i numeri romani.
Il modello è additivo ed è il seguente
𝑦𝑖𝑗𝑘𝑚 = 𝜇 + 𝛼𝑖 + 𝛽1𝑗 + 𝛽2𝑘 + 𝛽3𝑚 + 𝜀𝑖𝑗𝑘𝑚

ovvero un’ANOVA a 4 fattori senza repliche e ancora una volta la scomposizione della varianza è ortogonale.

In FIT GENERAL LINEAR MODEL è possibile impostare come tipologia di SS Sequential o Adjusted. In un
modello bilanciato non c’è differenza. Si chiama sequential perché il risultato è strettamente connesso
all’ordine di immissione dei fattori: prima tolgo quello che mi viene spiegato dal primo e poi quello che viene
spiegato dal secondo, ma la parte spiegata dal primo inclusa anche nel secondo non viene considerata perché
l’ho già spiegata col primo. Quando faccio la somma, però, questo mi dà il totale. Nell’adjusted, invece, la
somma dei SS non dà il totale. In un piano bilanciato a coppie ciò è indifferente. Se non ho uno strumento
come Minitab in cui la parte di varianza aggiustata per le righe, devo farlo manualmente, seguendo la tabella
successiva:
4
Per l’analisi di 3 o più variabili di blocco è necessario sovrapporre più di due quadrati latini MOLS (mutual
orthogonal latin squares), ottenendo un quadrato iper greco-latino. Se L=3 posso generare 2 quadrati latini
che generano un quadrato latino-greco, se L=4 posso generare 3 quadrati latini e due latino-greco, nonché un
quadrato iper greco-latino. Se L è un numero primo o una sua potenza si possono ottenere sempre quadrati iper
greco-latini.

In Appendice A è possibile osservare i prontuari per la costruzione dei quadrati greco-latini. Si verifica prima
se le coppie di colonne sono bilanciate, cioè se prendendo qualsiasi coppia di colonne ottenga un piano
fattoriale LxL. Per verificare con Minitab che il quadrato sia latino digito “TABLE COLONNA R COLONNA
i, mentre per verificare che due quadrati latini generino un quadrato greco-latino digitiamo TABLE
COLONNA i COLONNA j”. Risulta un modello bilanciato a 2 a 2, ma non a 3 a 3. Dunque utilizzo FIT
GENERAL LINEAR MODEL. Costruisco dunque un quadrato greco-latino, inserendo oltre le colonne R e C le
colonne dei due quadrati latini. La scomposizione della varianza avviene in 4 fattori, di cui 3 di blocco

Per la costruzione di un quadrato iper greco-latino, invece, seleziono R, C e 3 colonne. I DOF dell’errore sono
0, dunque non posso calcolare gli MS e non posso svolgere i test F: ho ottenuto un piano saturo, distribuendo
tutti i DOF a disposizione. È opportuno effettuare almeno una replica, con le stesse prove. Come mai per L=6
c’è solo una colonna? Perché 6 non è un numero primo né sua potenza: non è possibile costruire quadrati
greco-latini 6x6.

1.3 Blocchi incompleti

Quando abbiamo parlato di blocchi finora abbiamo sempre fatto riferimento a blocchi completi, allocando in
un blocco tutti i livelli del trattamento. Supponiamo adesso che non sia così e che la dimensione del blocco sia
più piccola del numero di livelli che devo fare, ovvero del numero di livelli del fattore. Cosa posso fare? Se
nel blocco 1 ho messo A B C, nel blocco 2 posso sacrificarne un altro e fare A B D, nel blocco 3 A C D e nel
blocco 4 B C D. In questo modo abbiamo in totale 3 A, 3 B, 3 C e 3 D. Immaginiamo che possiamo fare dunque
una sperimentazione non bilanciata, ma tale che almeno il numero di repliche di ciascun fattore globalmente
sia uguale per tutti. Indichiamo con:

• r il numero di repliche
• b il numero di blocchi
• t il numero di trattamenti
• k la dimensione del blocco (k < t)
Il numero totale di esperimenti che vengono fatti è 𝑁 = 𝑏 ∙ 𝑘 = 𝑡 ∙ 𝑟. Perché non fare allora blocchi omogenei
per trattamento? Ma in questo modo la variabilità del blocco si sovrappone a quella del trattamento, dunque è
inimmaginabile agire in tal senso. Bisogna dunque richiedere non soltanto che ci sia un bilanciamento tra il
numero di lettere, cioè che appaiano lo stesso numero di volte (equally often) ovvero con la stessa frequenza,
ma che anche ogni coppa di trattamenti appaia nei blocchi equally often.
Nella seguente configurazione, per esempio,

1 A B C
5
2 A B D
3 A C D
4 B C D
abbiamo che:

• AB appare due volte


• AC appare due volte
• AD appare due volte
• BC appare due volte
• BD appare due volte

Ciò è verificato se il numero di blocchi è pari a 𝑏 = (𝑘𝑡 ). Il problema è che se k è molto vicino alla metà di t,
il numero è molto grande. Allora esistono dei metodi algebrici in cui certe disposizioni possono essere fatte in
maniera più economica. Nella configurazione abbiamo inserito un fattore di blocco e uno tecnologico: è
dunque un’analisi della varianza a due fattori non bilanciata senza interazioni. In Appendice B vi è una raccolta
di alcuni piani incompleti bilanciati, costruendo dei blocchi di blocchi.

Nel caso di K=2 e t=6, ad esempio, avrò 5 blocchi con 3 blocchi ciascuno di 2 trattamenti.
Quando t=b vi è la particolarità di poter eseguire l’esperimento con il quadrato di Youden, che però è un
rettangolo. Si tratta di k=4 e t=7. Avrei bisogno di 35 blocchi, ma ne posso realizzare soltanto 7.
I II III IV
1 A B C D
2 G A B E
3 F E A C
4 D F G A
5 C G F B
6 B D E F
7 E C D G

La regola dell’equally often risulta rispettata. I trattamenti però non sono messi in ordine alfabetico in riga.
Ciò perché così facendo abbiamo blocchi completi per colonna e possiamo tenere di due fattori di blocco: è un
quadrato latino a cui ho strappato un pezzo. La sperimentazione è pregiata perché abbiamo un numero di
prove molto inferiore rispetto a quanto descritto (35), ma possiamo addirittura tenere conto di un secondo
fattore di blocco.
I piani incompleti servono dunque per allocare una sperimentazione in cui i blocchi non sono tanto grandi da
poter sistemare tutti i livelli. Bisogna garantire il principio dell’equally often per trattamento e per coppie.
Generalmente avviene verificando t su k o, in maniera più efficiente, con delle riduzioni del numero di blocchi,
compreso il caso particolare del quadrato di Youden, tenendo conto di un secondo fattore di blocco. Il modello
risulta
𝑦𝑖𝑗 = 𝜇 + 𝛼𝑖 + 𝛽𝑗 + 𝜀𝑖𝑗

La varianza viene scomposta come di seguito:


6
2. Piani fattoriali a due livelli
Si è visto che i quadrati latini sono uno strumento per ridurre notevolmente la numerosità delle prove
sperimentali, ma bisogna essere sicuri che non siano presenti interazioni, che inficerebbero l’esperimento. In
particolare, i quadrati latini mettono in condizione di poter trattare fattori in cui il numero di livelli è abbastanza
elevato: maggiore è il numero di livelli e maggiore è il risparmio che si ha, nonostante i piani siano più estesi.
Affinché si possano tenere in considerazione le interazioni tra i fattori, si passa ad analizzare lo strumento dei
piani fattoriali a due livelli. I due livelli possono essere qualitativi (variabile dicotomica) o quantitativi. Nel
primo caso vorremmo predisporre un modello di analisi della varianza, nel secondo caso un modello di
regressione: verrà proposto un modello generale che li ingloba entrambi.
Come si presenta un piano fattoriale sperimentale completo? Supponiamo di avere soltanto due variabili con
due livelli: dunque il piano è costituito da 22 osservazioni.
Y X1 X2
Y1 - -
Y2 - +
Y3 + -
Y4 + +

Siamo in un modello saturo. Esprimiamo i valori X1 e X2 con codici che potranno essere trattati come grandezze
numeriche. In un modello di regressione 𝑦 = 𝑎 ∙ 𝑥 + 𝑏𝑥, posso effettuare una trasformazione del tipo
𝑏
𝑦 =𝑎∙𝑥+ ∙ 𝑘𝑥
𝑘
Analogamente indicando con a il livello maggiore e con -a quello più basso, dividendo per a ottengo +1 e -1,
indicati con + e -.
Se abbiamo fattori qualitativi i due numeri devono essere intesi solo come etichette e non come grandezze
numeriche e, attraverso l'analisi della varianza, è possibile ottenere la parte di varianza spiegata da un fattore:
bisogna scartare il valore medio del fattore del proprio valore, per poi moltiplicare per il numero di elementi
costituenti la media.

𝑚 ∙ ∑(𝑦̅𝑖 − 𝑦̅)2
𝑖

Se, invece, si considerano grandezze quantitative, i livelli "+1" e "-1" sono i regressori quindi posso trattare la
x come un fattore quantitativo. La varianza viene dunque scomposta in
2 ∑ 𝑥𝑖′ 𝑦𝑖
𝑇𝑂𝑇 = 𝑏 2 ∑𝑖 𝑥 ′ 𝑖 + 𝜀𝑒𝑖2 , dove 𝑏 = 2
∑ 𝑥𝑖′

2
Si dimostra che 𝑚 ∙ ∑𝑖(𝑦̅𝑖 − 𝑦̅)2 = 𝑏 2 ∑𝑖 𝑥 ′ 𝑖 , infatti:

𝑆𝑆 = 2[(𝑚1 . −𝑚)2 + (𝑚2 . −𝑚)2 ]

7
Per calcolare 𝑚1 . prendo le y corrispondenti ad A1. Dunque:

𝑦1 + 𝑦2 𝑦1 + 𝑦2 + 𝑦3 + 𝑦4 2 𝑦3 + 𝑦4 𝑦1 + 𝑦2 + 𝑦3 + 𝑦4 2
𝑆𝑆 = 2 [( − ) +( − ) ]
2 4 2 4

Svolgendo i calcoli

𝑦1 𝑦2 𝑦3 𝑦4 2 𝑦1 𝑦2 𝑦3 𝑦4 2 (𝑚1 . −𝑚2 . )2
𝑆𝑆 = 2 [( + − − ) + (− − + + ) ] = 2 ∙ 2 ∙ = (𝑚1 . −𝑚2 . )2
4 4 4 4 4 4 4 4 4
−𝑦1 −𝑦2 +𝑦3 +𝑦4 1
Nel caso del modello regressivo semplice presentato avremo che 𝑏 = = (−𝑚1 . +𝑚2 . ), dunque
4 2

2
𝑏 2 ∑ 𝑥 ′ 𝑖 = (𝑚1 . −𝑚2 . )2 = 𝑚 ∙ ∑(𝑦̅𝑖 − 𝑦̅)2
𝑖 𝑖

La quantità 𝑚2. − 𝑚1. prende il nome di effetto. Il valore di b nel modello di regressione è l’incremento medio
della y per incremento unitario della x. In questo modello però si passa da -1 a +1, quindi si è incrementato di
due volte: è chiaro che b, l'incremento unitario, deve misurare la metà dell'effetto perché l’effetto è relativo a
un passo doppio. Abbiamo una corrispondenza non soltanto nelle somme di quadrati ma anche tra il
coefficiente angolare e l'effetto, ricordando il fattore di dimezzamento.
Con questa struttura algebrica posso ricavare b e la parte di varianza spiegata, senza utilizzare l’ANOVA, ma
con il modello di regressione, anche se i punti dovessero essere qualitativi e non quantitativi. Il prodotto scalare
tra i due regressori è nullo, dunque è verificata la condizione di ortogonalità e quindi è possibile calcolare la
varianza dei singoli elementi per differenza.
𝑩− 𝑩+
𝑨− 𝑌−− 𝑌−+ 𝑚−.
𝑨+ 𝑌+− 𝑌++ 𝑚+.
𝑚.− 𝑚.+ 𝑚

Calcoliamo l’effetto. L’effetto riga è 𝑚+ . −𝑚− ., ma è un effetto medio, cioè non abbiamo tenuto
specificatamente il primo o il secondo ma abbiamo fatto una media dei due. Consideriamo adesso il
cambiamento di A tenendo fisso B nello stesso livello. L’interazione è una differenza di effetti, ovvero si deve
misurare prima l'effetto del primo quando il secondo è tenuto a livello "meno" e l'effetto del primo quando il
secondo è tenuto a livello "più"
𝑖𝑛𝑡𝑒𝑟𝑎𝑧𝑖𝑜𝑛𝑒 = (𝑦++ − 𝑦−+ ) − (𝑦+− − 𝑦−− )
Se l’interazione è nulla significa che l’effetto di A è lo stesso se A lo associo a B alto o basso, se invece non è
nulla significa che l’effetto cambia.
𝒙𝟏 𝒙𝟐 𝒙𝟏 ∙ 𝒙𝟐
𝒚𝟏 - - +
𝒚𝟐 - + -
𝒚𝟑 + - -
𝒚𝟒 + + +

In questo caso quanti saranno i gradi di libertà dell'interazione?


Il primo fattore ha un grado di libertà perché è a due livelli, così come il secondo, mentre l'interazione ha come
gradi di libertà il prodotto dei gradi di libertà dei due fattori: avrà dunque un grado di libertà. Se invece prendo
tre fattori l'interazione sarà il prodotto dei gradi di libertà dei fattori coinvolti che mi darà sempre un grado di
libertà: quantunque siano i fattori, l'interazione avrà sempre un grado di libertà, fin quando si considereranno
fattori che siano soltanto a due livelli. La conseguenza è che avremo la possibilità di stimare questi fattori solo

8
con un grado di libertà e quindi come vedremo con un solo regressore, potremo estendere il parallelismo tra
analisi della varianza e il modello di regressione al caso di stima delle interazioni.
La relazione tra il regressore x12 e le variabili x1 e x2 è che il regressore è il prodotto tra le due variabili e dà la
possibilità di stimare l’effetto dell'interazione tra le due variabili.
𝑥12 = 𝑥1 ∙ 𝑥2
Si voglia stimare adesso fino all’interazione del terzo ordine, avremo dunque in totale 7 colonne.
𝒙𝟏 𝒙𝟐 𝒙𝟑 𝒙𝟏 ∙ 𝒙𝟐 𝒙𝟏 ∙ 𝒙𝟑 𝒙𝟐 ∙ 𝒙𝟑 𝒙𝟏 ∙ 𝒙𝟐 ∙ 𝒙𝟑
𝒚𝟏 - - - + + + -
𝒚𝟐 - + - - + - +
𝒚𝟑 + - - - - + +
𝒚𝟒 + + - + - - -
𝒚𝟓 - - + + - - +
𝒚𝟔 - + + - - + -
𝒚𝟔 + - + - + - -
𝒚𝟖 + + + + + + +

Se voglio dimostrare che la x12 è ortogonale con la x1 devo moltiplicare per x1 entrambi i membri dell’equazione
𝑥12 = 𝑥1 ∙ 𝑥2 , ovvero
𝑥1 ∙ 𝑥12 = 𝑥1 ∙ 𝑥1 ∙ 𝑥2
e verificare che il primo membro sia a somma zero. Il prodotto a secondo membro è il prodotto di una colonna
moltiplicata per sé stessa che mi permette di ottenere una colonna di segni positivi "+", cioè l'elemento neutro
della moltiplicazione, quindi idealmente il secondo membro può essere scritto come il prodotto di una colonna
di segni "più" per la colonna 𝑥2 , a somma zero per costruzione: è chiaro dunque che 𝑥1 per 𝑥12 è ortogonale
perché saranno a somma zero. Per verificare, dunque, l’ortogonalità moltiplico il primo e secondo membro per
la colonna con cui voglio dimostrare l'ortogonalità, verificando che il prodotto scalare sia nullo

Si verifica che i 7 fattori sono tutti ortogonali tra loro e ognuno di essi estrarrà una parte di varianza ortogonale,
dunque sono sommabili, ottenendo un piano saturo. L’interazione del secondo ordine misura la variazione
della variazione di un effetto: si sta valutando come varia l’interazione tra x1 e x2, al cambiare di x2. Si assume
che in situazione regolari man mano che si fa riferimento a interazioni di ordine sempre più elevato l’effetto
che essi hanno sulla risposta è sempre più trascurabile. In una situazione regolare i contributi di potenze di
ordine sempre superiore sono di entità minore, dunque si può immaginare che ci siano degli effetti principali
importanti, effetti di interazione oggetto di studio e interazioni di ordine superiore che solitamente si tende a
trascurare.

Si immagini di avere un piano costituito da due fattori e si cerchi di collocare geometricamente (e quindi
programmare le prove) i risultati degli esperimenti nel caso in cui si faccia variare un fattore alla volta. Si parte
da un punto centrale (0,0) e da questo punto si verifica uno alla volta qual è l’effetto modificando soltanto un
fattore per volta. Poi invece si fa variare il secondo fattore tenendo il primo costante. Si immagini quindi una
disposizione a “+”. In un modello One Factor at A Time (OFAT) non siamo in grado di stimare le interazioni,
in quanto non le si fa cambiare contemporaneamente. L’effetto dunque si calcola come differenza di elementi
singoli, e non di medie.

In una sperimentazione fattoriale, invece, si ha sempre il punto centrale (0,0), ma stavolta le coordinate si
collocano a “x”: l’interazione si calcola come differenza delle medie a incrocio.

Quando si hanno due valori (𝑦+ − 𝑦− ) la sua varianza sarà la varianza del primo sommata alla varianza del
secondo

𝜈(𝑦+ − 𝑦− ) = σ2 + σ2 = 2σ2

9
Se si ha invece una media ( ̅𝑦̅̅+̅ − ̅̅̅
𝑦− ) la varianza è ancora la somma delle due varianze solo che la varianza
σ2
della media è , Poiché il numero delle osservazioni sarà la metà, avremo che:
𝑛

σ2 σ 2 2σ2 4σ2
𝜈(𝑦
̅̅̅+̅ − ̅̅̅)
𝑦− = 𝑛 + 𝑛 = 𝑛 =
𝑛
2 2 2

Se 𝑛 = 2 sarà indifferente avere la differenza di due valori o di due medie per un fattore, ma con due fattori
già ci sarà un guadagno, che aumenterà all'aumentare di n: questo è il vantaggio dell'esperimento fattoriale
rispetto all'esperimento un fattore alla volta.

Nello studio con tre fattori a due livelli avremo a disposizione 23 = 8 osservazioni, per un totale di 7 DOF, 3
dei quali spesi per i fattori principali, altrettanti 3 per gli effetti del secondo ordine e uno per l’effetto del terzo
ordine. Essendo un piano saturo il residuo non ha DOF, dunque avrei come MS 0/0. Ciò che posso fare è
considerare l’interazione del secondo ordine nulla, ovvero come se fosse il residuo. Si possono, dunque,
4σ2
stimare tutti i coefficienti beta, che si distribuiranno normalmente con media 0 e varianza . Posizionando le
𝑛
stime sul Normal Probability Plot è possibile individuare la presenza di outliers, corrispondenti a quei contrasti
associati a una significativa fonte di variabilità. In questo modo è possibile costruire i test f formali, ponendo
al numeratore volta per volta il quadrato del contrasto da testare e al denominatore la somma dei quadrati di
tutti i contrasti, divisi per il loro numero.
Quali sono gli svantaggi? Lo svantaggio è il numero di livelli: 2 è molto basso. Si tratta di livelli che possono
essere qualitativi o quantitativi. La tipica variabile a due livelli è quella dicotomica: si/no, presente/assente,
bianco/nero, ecc. Una variabile quantitativa potrebbe essere osservata su due livelli: in questo caso si deve
stare attenti ai due livelli, che potrebbero essere troppo vicini o troppo lontani. Quando sono troppo vicini
l’effetto, che in realtà esiste, non è sufficientemente evidenziato. Se si prendessero due livelli troppo lontani,
invece, un livello potrebbe essere troppo poco e uno eccessivo. Si avrebbero quindi dei risultati scarsi, e quindi
delle rese scarse. È chiaro che bisogna avere una precedente sensibilità sul comportamento di tale fattore
altrimenti si rischia di non operare correttamente.
Quali sono i vantaggi? Il vantaggio è che con i piani fattoriali a due livelli, si è in grado non soltanto di potere
tenere conto sia dei fattori qualitativi che quantitativi, ma anche di potere saggiare gli effetti delle interazioni
che invece erano escluse nei quadrati latini. Si ha dunque la possibilità di studiare le interazioni. Nella pratica
tecnologica, infatti, di solito l’importanza dei fattori è nota, quello che invece si vuole studiare, per
approfondire, è come questi fattori interagiscono tra di loro.

2.1 Blocchi nei piani fattoriali completi

Si supponga ora che sia impossibile eseguire tutte le prove in un singolo blocco (ad esempio in un singolo
giorno) e che sia dunque necessario costituire più blocchi, qui ipotizzati formati da un numero di elemento pari
a potenze di due. Le prove vanno eseguite con una sequenza randomizzata. Come costruire i blocchi? In un
gruppo di 4 prove, vorremmo 2 prove con il livello alto e 2 con quello basso, in modo tale da non avere una
sovrapposizione blocco-variabile sperimentale: in questo caso si parlerebbe di confondimento e, nel caso
risultasse significativo, non si saprebbe se attribuire questo effetto al blocco o al fattore. Viceversa, siamo
invece sicuri che l’effetto non venga intaccato, sia se il blocco è buono o di cattiva qualità. Ciò deve vale per
tutti i fattori. Ma all’aumentare delle prove ciò risulta complicato. È dunque necessario individuare una regola
algebrica. Inoltre si desidera che anche le interazioni rispettino, se possibile, questa proprietà.
L’ordine standard si ricava imitando la velocità del cambio delle cifre in un orologio digitale:

X1 X2 X3 X12 X13 X23 X123 BLOCCO


1 - - - + + + - I
10
2 + - - - - + + II
3 - + - - + - + II
4 + + - + - - - I
5 - - + + - - + II
6 + - + - + - - I
7 - + + - - + - I
8 + + + + + + + II

In realtà la soluzione è semplice: prendo la colonna con l’interazione maggiore e assegno a un blocco gli
elementi con segno – e all’altro blocco gli elementi con segno +.

Ciò che stiamo facendo algebricamente è

𝑥1 ∗ 𝑥123 = 𝑥1 ∗ 𝑥1 ∗ 𝑥2 ∗ 𝑥3 = 𝑥2 ∗ 𝑥3

Il prodotto 𝑥1 ∗ 𝑥1 dà una colonna di segni +, dunque rappresenta il fattore neutro della moltiplicazione. La
colonna 𝑥23 possiede infatti quattro + e quattro -. Stiamo spendendo, dunque, un DOF per associarlo a una
nuova variabile: la variabile blocco, che viene sovrapposta all’effetto del terzo ordine. Abbiamo trovato dunque
un metodo per suddividere un piano fattoriale completo in due blocchi.

Se volessimo invece aumentare il numero di blocchi, ad esempio 4, com’è possibile utilizzare colonne binarie
per ottenere un numero che sta su 4 elementi? La colonna blocco che ne scaturisce sarà una colonna a quattro
livelli e bisogna stabilire quali quaterne vanno in quale blocco (nel caso di 24).
X1 X2 X3 X4 … X123 … X1234 BLOCCO
1 - - - - - + III
2 + - - - + - II
3 - + - - + - II
4 + + - - - + III
5 - - + - + - II
6 + - + - - + III
7 - + + - - + III
8 + + + - + - II
9 - - - + - - I
10 + - - + + + IV
11 - + - + + + IV
12 + + - + - - I
13 - - + + + + IV
14 + - + + - - I
15 - + + + - - I
16 + + + + + + IV

Ciò che abbiamo è un problema di algebra binaria. Nel caso trattato avremo 15 colonne ortogonali tra loro.
Nel caso di due blocchi si era presa la colonna di ordine superiore. Volendo fare, invece, quattro blocchi
saranno necessarie due colonne: si prova prendendo l’ultima colonna e la prima del terzo ordine: le
assegnazioni verranno fatte in base alle posizioni in cui avvengono i cambiamenti, ovvero
- - 1
- + 2
+ - 3
+ + 4

In realtà questa soluzione non ci soddisfa perché il gruppo 2 e il gruppo 3 saranno blocchi omogenei. La
colonna dei blocchi ha 4 livelli, dunque 3 DOF, ma l’ho tirata fuori da 3 colonne da 1 DOF: dunque ho
utilizzato 2 DOF per creare 3 DOF. Dentro questa colonna, dunque, c’è un DOF occulto che in maniera non
11
visibile è entrato nella realizzazione di questa cosa. La regola generale dice che quando uso due colonne, il
DOF occulto è l’interazione tra quelle prese esplicitazione in considerazione. Nel caso presente l’interazione
tra le due colonne dà x4 che è proprio la variabile che ha generato il problema. È necessario dunque rinunciare
alla massima interazione, ma sarà consentito prendere due colonne con effetto di ordine n-1, dove n è il
massimo ordine nel caso considerato. Nell’esempio precedente, dunque, sarà necessario prendere 2 colonne
del terzo ordine, per esempio 𝑥123 e 𝑥234 : in questo modo due interazioni si cancellano sicuramente mentre
𝑥14 non si cancella e quindi i fattori coinvolti saranno quelli che ho scelto, più il loro prodotto
(𝑥123 , 𝑥234 𝑒 𝑥14 ). Ma quali interazioni scegliere? In genere si sceglie la coppia di fattori, in modo tale che
dalla loro interazione si ottenga un fattore a due con effetto inferiore.

Supponiamo di avere un piano con 5 fattori e di avere dunque 25 osservazioni: voglio creare 8 blocchi da 4.
Terrò conto delle colonne 𝐵1 , 𝐵2 e 𝐵3 . In questo caso è necessario avere 3 cifre binarie. Parto dunque da tre
colonne da un DOF, pervenendo a una colonna con 7 DOF: ci saranno dunque 4 DOF occulti, di cui 3 nelle
interazioni a due e 1 nell’interazione a 3.

Su Minitab è possibile creare un piano fattoriale attraverso il percorso STAT – DOE – FACTORIAL – CREATE
FACTORIAL DESIGN. Si impostano dunque il numero di fattori e il numero di livelli. È possibile inoltre
impostare se il piano fattoriale è completo o meno e il numero di blocchi che si vogliono ottenere. Il piano
fattoriale viene presentato non nell’ordine standard, ma i blocchi vengono randomizzati. In questo modo si fa
sì che il più possibile delle interazioni a coppie sia stimabile individualmente. Tornando a DOE è possibile ora
selezionare ANALYZE FACTORIAL DESIGN e indicare in che colonna è presenta la risposta. È importante
includere il blocco nel modello, altrimenti la variabilità si scaricherebbe sull’errore, diminuendo la potenza del
test. In realtà è possibile trascurare i fattori oltre un certo ordine. È importante anche analizzare la curva di
Pareto. Il termine confounded indica una sovrapposizione perfettamente ordinata e può essere tradotto con
confondimento, che è diverso da confuso che indica invece disordine. Un contrasto è una combinazione lineare
con pesi a somma nulla. Ognuno di questi contrasti lo usiamo per formare dei blocchi.

2.3 Piani fattoriali frazionati a due livelli

Supponiamo di avere un piano fattoriale a due livelli con 4 fattori diviso in due blocchi e di realizzarne solo la
metà. Il che significa che saranno necessarie 42 = 16 osservazioni, ma ne verranno eseguite soltanto 8.

𝒙𝟏 𝒙𝟐 𝒙𝟑 𝒙𝟒 𝒙𝟏𝟐𝟑𝟒 BLOCCO
1 - - - - + I
2 + - - - - II
3 - + - - - II
4 + + - - + I
5 - - + - - II
6 + - + - + I
7 - + + - + I
8 + + + - - II
9 - - - + - II
10 + - - + + I
11 - + - + + I
12 + + - + - II
13 - - + + + I
14 + - + + - I
15 - + + + - I
16 + + + + + II

Supponiamo di estrarre e realizzare soltanto il blocco I, ovvero quello generato da 𝑥1234 = [+].

𝑥1234 = [+] si dice generatore del piano frazionato e indica la modalità di generazione del piano frazionato
stesso, ovvero alla sua struttura. In questo caso i DOF non saranno più 16 − 1 = 15, ma 8 − 1 = 7: in realtà,
12
però, nel piano saranno presenti ancora 15 fattori. Ci si rende conto, dunque, che vi sarà una sovrapposizione
tra le interazioni, generando ciò che è stato definito confondimento: i fattori che risultano confusi tra loro
vengono detti uno l’alias dell’altro. Il contrasto associato a loro stima la somma delle due interazioni. Per
capire quali siano gli alias, esiste una regola algebrica molto semplice: basta moltiplicare entrambi i membri
del generatore per l’effetto a cui si è interessati. Supponiamo di voler scoprire a quale fattore è sovrapposto
𝑥1 , allora:

𝑥1 ∙ 𝑥1234 = [+] ∙ 𝑥1 = 𝑥234

L’alias di 𝑥1 è 𝑥234 , cioè i due fattori sono sovrapposti. Se prima avevo un DOF per ognuno dei due, adesso
verranno allocati per lo stesso DOF. Si ricava che tutti i fattori principali sono sovrapposti agli effetti del terzo
ordine. Ricapitolando: 𝑥1 = 𝑥234 , 𝑥2 = 𝑥134 , 𝑥3 = 𝑥124 , 𝑥4 = 𝑥123 . Analogamente è possibile operare per i
fattori del secondo ordine: 𝑥12 = 𝑥34 , 𝑥13 = 𝑥24 e 𝑥14 = 𝑥23 . Mentre prima le interazioni del secondo ordine
richiedevano 6 DOF, adesso sono sovrapposte tra loro richiedendone soltanto 3. L’interazione del quarto
ordine è invece sovrapposta alla media. Per descrivere il grado di confondimento si fa riferimento alla
risoluzione del piano. Un piano si dice di risoluzione n, quando la media è confusa con un effetto di ordine n.
Nell’esempio riportato, poiché la media è confusa con un effetto del quarto ordine, allora si dice che il piano
è di risoluzione IV. Un piano di risoluzione IV presuppone che i fattori principali, confusi con effetti del terzo
ordine che possono essere trascurati, possano essere considerati liberi. Per studiare il piano fattoriale completo
avremmo avuto bisogno di 24 = 16 osservazioni, mentre estrapolando un solo blocco ne sono servite soltanto
24−1 = 23 = 8, cioè la metà: si può dunque affermare che un piano 24−1 sia la metà di un piano 24 .

Caratteristica del piano è la risoluzione del piano, si tratta di andare a trovare la lunghezza della voce del
generatore quante sono i fattori da mettere insieme per ottenere la colonna dei segni. Un piano di risoluzione
3 è caratterizzato dal fatto che i fattori principali sono confusi con le interazioni del secondo ordine: è un piano
estremamente stretto e pericoloso, perché nel momento in cui un fattore dovesse essere significativo non
potremmo stabilire se tale significatività dipende dal fattore principale o dall’interazione, i cui effetti sono
sovrapposti.

Proviamo con 5 fattori. Supponiamo di voler operare un dimezzamento. Calcoliamo 𝑥12345 e prendiamo il [+].
Ciò implica un dimezzamento a 25−1 prove. Analizzando gli alias è possibile notare che i fattori del primo
ordine continuano a poter essere considerati liberi, in quanto sovrapposti a interazioni di ordine superiore, ma
questa volta anche le interazioni del secondo ordine possono essere considerate libere, infatti saranno
sovrapposte con interazioni del terzo ordine.

𝑥1 = 𝑥2345 , 𝑥2 = 𝑥1345 , 𝑥3 = 𝑥1245 , 𝑥4 = 𝑥1235 𝑒 𝑥5 = 𝑥1234

𝑥12 = 𝑥345 , 𝑥13 = 𝑥245 , 𝑥14 = 𝑥235 , 𝑥15 = 𝑥234 , 𝑥23 = 𝑥145 , 𝑥24 = 𝑥135 , 𝑥25 = 𝑥134 , 𝑥34 = 𝑥125 ,

𝑥35 = 𝑥124 𝑒 𝑥45 = 𝑥123

Le interazioni del secondo ordine sono tutte libere, cioè la loro sovrapposizione è con interazioni di ordine
superiore.

Nel momento in cui si hanno dei piani sufficientemente grandi è possibile pensare di eseguire un doppio
dimezzamento ed eseguire, ad esempio, anziché 25 prove, soltanto 25−2 . In questo caso sono necessari due
generatori. Quali possono essere? Supponiamo di scegliere 𝑥12345 = [+] e poi 𝑥1234 = [+]. In questo modo
però 𝑥5 ∙ 𝑥12345 = 𝑥1234 ∙ [+] = [+]. Cioè 𝑥5 ha solo segni [+], passando a un fattore a un unico livello. La
procedura, dunque, è errata. Supponiamo ad esempio di eseguire tutte le prove con pneumatici più gonfi con
il motore più caldo e tutte quelle con i pneumatici meno gonfi sono con il motore meno caldo: se quel contrasto
risulta significativo, a chi deve essere attribuito? Alla pressione? O alla temperatura?

13
Si prova allora riducendo l’ordine di almeno di uno dei due generatori. Supponiamo di selezionare i generatori
𝑥123 = [+] e 𝑥145 = [+]. In questo caso la situazione è migliorata, ma 𝑥1 = 𝑥23 = 𝑥45 , dunque la risoluzione
del piano è pari a 3. Non è possibile, dunque, realizzare piani sempre più stretti con maggiore risoluzione.

In appendice al capitolo troviamo per riga n, ovvero il numero di prove, e per colonna il numero di fattori.
Troveremo ad esempio per 8 prove e 5 fattori, AB=D e AC=E. Data questa coppia di generatori, il piano ha
per risoluzione la più corta delle voci: in questo caso sono uguali, dunque questo è un piano di risoluzione 3.

Chiaramente queste cose non si fanno a mano, ma utilizzando strumenti statistici software come Minitab.
Creiamo dunque un piano fattoriale STAT – DOE – FACTORIAL – CREATE FACTORIAL DESIGN. In
DISPLAY AVALAIBLE DESIGNS è possibile prendere visione degli stessi prontuari in appendice. Creiamo ad
esempio un piano con 8 fattori, con risoluzione 4: avremo dunque 16 prove.

2.4 Prove supplementari

Supponiamo che 𝑥12 e 𝑥34 siano sovrapposti e che risultino significativi. Il confondimento può essere pensato
come una sedia (contrasto) su cui sono sedute due persone (effetti). Per sciogliere questo confondimento avrei
bisogno di un’altra sedia, dunque in termini di prove mancherebbe una prova sperimentale che mi porti il DOF
mancante. Ma quando stabilisco le prove supplementari? Soltanto in un secondo momento, dunque vengono
fatte in una sessione successiva: le prove sperimentali le faccio in un altro blocco, in quanto si deve tenere
conto che sono state svolte in due sessioni. La sedia, tuttavia, la porta un’altra persona che a sua volta dovrà
sedersi: dunque in realtà questa persona dovrebbe portare due sedie. I DOF necessari per sciogliere il
confondimento e per allocare la variabile di blocco devono essere 2.

Si tratta dunque di realizzare il piano, aggiungendo le due prove supplementari. A questo punto si realizza
un’analisi complessiva in cui si stimano 𝑥1 , 𝑥2 , 𝑥3 , 𝑥4 e, separatamente, 𝑥12 e 𝑥34 . Se dovessi sciogliere un
secondo confondimento il DOF necessario sarebbe soltanto un altro, in quanto quello in cui allocare il blocco
è già stato introdotto precedentemente. A questo punto il piano non è più regolare, in quanto i contrasti non
sono più ortogonali tra loro, ma a differenza di un piano fattoriale per avere una risoluzione superiore a 4
dovrei fare 16 prove, in questo caso è possibile eguagliare la performance con 12 osservazioni.

Supponiamo di avere ora 8 fattori e di utilizzare un piano 28−4


𝐼𝑉 , di risoluzione 4. Ci sono 28 interazioni del
secondo ordine che devono essere allocate in 4 DOF. Vogliamo sciogliere il confondimento tra 𝑥12 , 𝑥46 , 𝑥35
e 𝑥78 : nelle prove successive dovranno essere diversi tra loro. Costruisco un piano fattoriale 22 , in cui il
prodotto tra 𝑥1 e 𝑥2 sia concorde, come nel caso successivo

Non è un problema se sono uguali, noi non vogliamo sciogliere il confondimento tra queste due che comunque
non vi è e lo sappiamo dalle precedenti 16 prove. La disposizione mostrata ha una particolarità: tutte le colonne
sono a somma 0. In realtà c’è anche un’altra particolarità: anche le righe sono a somma 0.

Se si devono sciogliere due confondimenti, ovvero che ci siano due contrasti significativi. Metaforicamente
abbiamo due sedie e 8 persone, 4 per sedia: avremmo bisogno di 6+1 sedie. In realtà per realizzare in maniera
ordinata (multiplo di 4), potremmo aver bisogno di 4 per sciogliere il primo e altre 4 per il secondo. Si parte
da 16 prove (28−4
𝐼𝑉 ), poi dovranno essere fatte 4 prove supplementari per ogni contrasto significativo, che al
massimo possono essere 7: ovvero al massimo potrei dover aggiungere 28 prove, con un totale di 44 prove,
14
avendo più DOF di quanto mi servono (dunque tutti i fattori del primo e secondo ordine sono liberi). Con 8
fattori per avere un piano di risoluzione 5 dovrei svolgere 64 esperimenti!

Oltre ai piani fattoriali regolari, possiamo intendere che i fattori presi in considerazione o sono completamente
confusi con altri o sono ortogonali. Esistono i piani di Plackett-Burman caratterizzati dal fatto che hanno un
numero di prove multiplo di 4. Mentre i piani frazionari hanno numero di prove pari a potenze di 2, questi sono
più ampi: ci potrebbero essere piani a 12, 24. Sono dunque dei piani più flessibili ed estremamente più potenti,
arrivando a determinare fino a n-1 fattori tra loro ortogonali. Tuttavia, a differenza dei piani regolari, le
interazioni tra due fattori non è a essi ortogonale: studiare le interazioni risulta dunque estremamente
complicato. I piani di Plackett Burman si ottengono per rotazione a partire da un’unica riga, riportate in
Appendice B (pag 32).

3. Response Surface Methods


Per i quadrati latini le variabili in ingresso erano di tipo qualitativo. Per i piani fattoriali non si è posto il
problema, in quanto il modello di regressione e di ANOVA si possono applicare esattamente allo stesso modo,
ciò perché nel modello di regressione per ogni regressore viene espresso 1 DOF, così come avviene per ogni
fattore nel piano fattoriale. In un modello di regressione, inoltre, l’interazione è espresso da un coefficiente:
nell’analisi della varianza è un prodotto tra due elementi ciascuno con un DOF (perché sono presenti
esclusivamente 2 livelli). Naturalmente se i piani non dovessero essere a 2 livelli, ciò non funziona più.

Supponiamo adesso che tutti i fattori in ingresso siano di tipo quantitativo. Possiamo supporre, ad esempio,
che l’effetto inizialmente vada salendo per poi discendere. Se dovessimo, dunque, prendere i due livelli troppo
lontani potremmo rischiare di registrare la stessa risposta, ovvero che non vi sia effetto. I livelli vanno dunque
scelti in modo da essere più fedeli possibili all’andamento. Il problema è che ciò è proprio oggetto del nostro
esperimento. Dovremmo dunque avere un range di operabilità; inoltre è opportuno, proprio per cogliere gli
effetti quadratici, sperimentare un livello centrale. Allo sperimentatore è noto il delta livello centrale-
alto/basso, ma non gli è noto cosa preferire tra il livello un po’ più alto o basso. Il modello viene pensato di
tipo quadratico, che sia continuo e con derivate prime continue. Non deve essere una funzione quadratica in
tutto il dominio, ma quantomeno nell’intorno del massimo. Questo argomento prende il nome di studio delle
superfici di risposta.

Il primo obiettivo potrebbe essere quello di determinare il massimo (o il minimo) della risposta e i parametri
dei vari input per ottenerlo. In secondo luogo, l’obiettivo potrebbe essere quello di identificare la forma della
funzione di risposta. Per entrambi gli obiettivi deve essere assunto un modello che solitamente ha la forma di
un modello di regressione, che sarà dunque:

𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝛽3 𝑥3 + 𝛽11 𝑥12 + 𝛽22 𝑥22 + 𝛽33 𝑥33 + 2𝛽12 𝑥1 𝑥2 + 2𝛽13 𝑥1 𝑥3 + 2𝛽23 𝑥2 𝑥3 + 𝜀𝑖

Supponiamo di avere temperatura, velocità e consumo. Per ogni prova devo registrare il consumo in funzione
di temperatura e velocità. Se potessi fare tutte le prove al variare delle due variabili, potrei ricostruire tutto
l’insieme di prove e in assenza di errore avrei una superficie liscia. Tuttavia io vedo una prova inficiata
dall’errore accidentale, dunque sarà un po’ più alta o bassa. Inoltre non ho dei punti continui, ma delle
sperimentazioni effettuate per alcuni incroci di temperatura e velocità. L’oggetto è dunque lo studio dei
coefficienti, avendo a disposizione un numero di prove molto limitato. Non si può agire con la tecnica del
OFAT, perché bisogna tenere conto delle interazioni. La prima cosa da capire è la direzione in cui vi è il
miglioramento, in quanto non è possibile stimare il modello all’inizio dell’esperimento: non si sa se si è
sufficientemente vicini al massimo e che dunque il modello quadratico sia adottabile.

Verrà adottato il metodo di steepest ascent. Il calcolo numerico ci insegna che è necessario calcolare le derivate
(rispetto alle variabili), dunque il gradiente, ovvero il vettore costituito dalle derivate: dal gradiente
individuiamo la direzione in cui muoversi.
15
In breve, dato un punto di partenza, è necessario determinare le derivate della funzione di risposta in quel punto
e procedure nella direzione del gradiente, fino a quanto il dato ottenuto non inizi nuovamente a peggiorare. A
quel punto è necessario ricalcolare le derivate e procedere come prima, fino ad arrivare al punto da cui in ogni
direzione ci sono solo discese, ovvero il dato peggiora: questo sarà un punto di massimo. Se la funzione ha un
solo massimo, è possibile raggiungerlo dopo un paio di tentativi.

Inizialmente non si sa se si è abbastanza vicini al punto di massimo da adottare l’approssimazione quadratica.


Per evitare eventuali sprechi, si inizia utilizzando un piano fattoriale a due livelli, in grado di stimare non solo
le componenti lineari ma, se il piano è almeno di risoluzione 4, anche di individuare la presenza di componenti
quadratiche miste, senza però stimarle. In questo modo resterebbero fuori le componenti quadratiche pure. La
risoluzione IV è suggerita, perché un piano di risoluzione III potrebbe essere pericoloso, mentre di risoluzione
V potrebbe essere superfluo: un piano 2𝑛−4 𝐼𝑉 è sufficientemente ridotto da non avere sprechi, ma comunque
sufficiente per non correre rischi di non individuare la concavità.

Bisogna distinguere l’errore del modello dall’errore puro. Come per il lack of fit test, ciò è possibile farlo solo
in presenza di repliche. Ma qual è l’unico punto che può essere ripetuto senza sbilanciare il piano? Il punto
centrale: il pianto continua a essere, dunque, ortogonale. Se le componenti quadratiche sono significative è
sintomo di essere vicini al massimo, viceversa si è talmente lontani da non riuscirle ad apprezzare: la direzione
di avvicinamento è data dal gradiente, che in assenza di elementi quadratici coincide con i coefficienti 𝑏1 , 𝑏2
e 𝑏3 . Giunti nel punto di massimo, sarà necessario stimare anche tutta la componente quadratica cercando il
punto di ottimo nell’intorno del punto appena trovato, non più con esperimenti euristici, ma calcolando
esattamente i valori che massimizzano la funzione.
Ricapitolando, si fa uso del Steepest Ascent Method, ovvero la procedura di ricerca della più ripida salita. Ci
si trova in un punto dello spazio sperimentale, il quale è caratterizzato dalle coordinate 𝑥1 , 𝑥2 , … , 𝑥𝑘 che
costituiscono le variabili che si vogliono movimentare al fine di individuare il punto di ottimo, che non è
possibile individuare con un unico esperimento. Non è possibile sapere se il punto è lontano o vicino al
massimo. Dunque si usa una strategia iniziale prudenziale, tale da non fare un piano troppo stretto, in quanto
se ci si trovasse vicino al massimo, le componenti quadratiche si confonderebbero con le componenti
principali, distorcendo la stima del gradiente, ma nemmeno con un’alta risoluzione, in quanto se ci si trovasse
troppo lontano dal massimo e tentassimo di stimare le componenti quadratiche, non si sarebbe ugualmente in
grado di farlo, sprecando materiale sperimentale. Si inizia dunque con un piano a due livelli di risoluzione 4
con un punto centrale replicato.

• 2 livelli: ci permettono di stimare le componenti lineari, che sono quelle che compongono il gradiente.
• risoluzione 4: se si avessero delle componenti quadratiche miste queste potrebbero essere controllate
e comunque non andrebbero a confliggere con le componenti lineari, mentre un piano di risoluzione 5
sarebbe già uno spreco nel caso in cui si fosse lontani dal massimo.
• punto centrale: perché mette in condizione di controllare le componenti quadratiche pure, senza
stimarle singolarmente ma, quantomeno, di stimarne la presenza. Il punto centrale ha, infatti,
coordinate 0 e riesco ad apprezzare la concavità, perché è diversa dalla media.
• repliche: le repliche permettono di poter calcolare il Lack-of-Fit test che ci mette in condizione di
vedere se il modello lineare che si stia stimando è un modello accettabile.

3.1 Central Composite Designs (CCD)

Supponiamo di essere in possesso di fattori in ingresso quantitativi ed estremamente precisi, stabilendo il


livello in maniera continua. Ci si trova in un determinato punto di partenza, che non rappresenta un sistema
completamente nuovo, ma è quello in cui l’azienda lavora solitamente. Ci si auspica di raggiungere il punto
che offra le prestazioni più alte. Di solito i processi a cui si fa riferimento hanno un campo di attuazione in cui
bisogna immaginare ci sia una superficie semplice e quindi anche se la forma quadratica non è perfettamente
adeguata a descrivere tutto il campo, lo sarà in un intorno del massimo. Attraverso prove preliminari bisogna
individuare la sensibilità dei passi dal punto di partenza: se l’incremento è troppo piccolo non si nota nulla, se
16
è troppo lungo si rischia di passare da un punto non ottimizzato e un altro non ottimizzato, saltando il punto di
ottimo. L’efficienza dipende dalla disposizione della superficie nello spazio. Si cerca dunque una posizione
che renda le stime invarianti alla rotazione.

In un modello di regressione lineare semplice sono presenti x e y e dei punti che vengono interpolati da una
retta stimata (y=a+bx). L’intervallo di confidenza in corrispondenza di ciascun punto x mostra l’intervallo
entro il quale ricade la retta vera. Infatti ricordando che un intervallo di confidenza è un intervallo nello spazio
parametrico dove, con un certo grado di fiducia, può trovarsi il vero parametro, in questo caso il parametro
non è 𝛼 o 𝛽 ma (𝛼 + 𝛽𝑥), cioè una funzione. L’intervallo più stretto è in corrispondenza della x media. La
regione così descritta gode di un’importante proprietà: facendo un passo a destra o a sinistra pari a delta, la
lunghezza dell’intervallo è uguale e dipende soltanto dalla distanza: cioè non varia spostandosi a destra o
sinistra, ma soltanto dalla distanza dal centro.

Se in un punto x qualsiasi non si vuole determinare l’intervallo entro cui può trovarsi la vera retta in
corrispondenza del punto x, ma si vuole trovare una singola realizzazione ancora da effettuare, allora si avrà
una fascia più ampia perché si ha una componente aleatoria maggiore, perché si sovrappone la fonte di
variabilità supplementare dovuta all’esperimento che ancora deve essere condotto.

Supponiamo adesso di estendere queste proprietà allo spazio tridimensionale. La retta in questo caso sarà un
piano, sul quale bisogna individuare una regione di confidenza. Comunque sia orientata la vera funzione la
variabilità della sua stima non dipende dalla posizione, ma dipende solo dalla distanza del punto in cui si sta
effettuando questa stima rispetto al baricentro, ovvero dalla media aritmetica delle x, e deve accadere che non
cambi (proprietà di ruotabilità).

La ruotabilità si può ottenere prendendo i punti non sulla faccia, ma un po’ spostati verso l’esterno. Ciò che si
ottiene è un Central Composit Design (CCD), la cui caratteristica è quella di stimare il fattore misto di primo
e secondo ordine indipendenti tra loro e il fattore puro del secondo ordine dipendenti tra loro. Intuitivamente
infatti la proprietà non è garantita quando i punti non sono simmetrici, allora occorre far sì che questi punti,
che inizialmente avevamo collocato sulle facce, si spostino un po’ verso l’esterno quasi a realizzare una regione
sperimentale sferica, spostando tutti i punti di 𝛼, cioè anziché metterli sul punto 1 si mettono sul punto 𝛼. Ciò
porta alla realizzazione, oltre che del cubo, di una stella. I punti sono spostati verso l’esterno di una quantità
pari ad
1
𝑛𝑐 4
𝛼=( )
𝑟𝑠

Dove 𝑛𝑐 è il numero di elementi che compongono l’ipercubo, mentre 𝑟𝑠 è il numero di volte per cui i punti
della stella vengono replicati: solitamente è pari a 1.

Con il metodo dello Steepest Ascent Procedure si ha una situazione per la quale si perviene, dopo alcuni passi,
ad un punto che è stato sperimentato con un piano 2𝑛−𝑝 di risoluzione 4, che deve essere completato con un
secondo piano sempre a due livelli, per portarlo da risoluzione 4 a risoluzione 5, e un ulteriore piano per
realizzare la stella. Questi tre piani non vengono realizzati nello stesso momento, perché prima viene fatto il
piano a due livelli di risoluzione 4 col punto centrale replicato. Analizzati questi dati, ci si è accorti che le
componenti quadratiche sono presenti e, di conseguenza, si deve completare questo piano con ulteriori prove
che vengono fatte successivamente: quindi almeno devono essere realizzati almeno due blocchi. I piani
fattoriali a due livelli si comportano come mattoncini, cioè possono essere eseguiti a blocchi. Si vorrebbe che
tali blocchi fossero ortogonali.

Per realizzare questa proprietà è opportuno realizzare i punti della stella, perché sono proprio i punti della stella
che creano i problemi. Infatti quando si prende il primo blocco di punti con un piano a due livelli di risoluzione
4 e il piano complementare che completa a risoluzione 5, questi due piani sono comunque ortogonali, perché
siccome sono delle frazioni di un piano completo, sono ortogonali per costruzione, quindi tutto il problema era
17
nell’avere l’ortogonalità con la stella. L’ortogonalità tra i blocchi è realizzabile spostando i punti verso
l’esterno di una quantità pari ad

𝑛𝑐 (𝑛𝑠 + 𝑛𝑠0 )
𝛼2 =
2(𝑛𝑐 + 𝑛𝑐0 )

Dove 𝑛𝑐0 è il numero di repliche eseguite nel punto centrale nel blocco del cubo, mentre 𝑛𝑠0 è il numero di
repliche eseguite nel punto centrale nel blocco della stella.

Nella maggior parte dei casi queste due proprietà non possono essere ottenute contemporaneamente e i due
valori di 𝛼 difficilmente possono essere identici. Fortunatamente i software statistici come Minitab forniscono
dei valori di 𝛼 molto vicini tra loro.

Si crei allora la superficie di risposta sul software attraverso STAT – DOE – CREATE RESPONDE SURFACE
DESIGN. In DISPLAY AVALAIBLE DESIGNS è possibile notare i piani disponibili predefiniti. Supponiamo
di avere due fattori: bisognerà fare un piano completo, ma si può scegliere se realizzare un blocco o due blocchi.
Con 3 fattori, invece, è possibile scegliere se fare un piano immediatamente completo in uno, due o tre blocchi.
Sono suggeriti in tutti i casi 6 repliche del punto centrale, la cui distribuzione varia in base dei blocchi.

Supposto di avere 4 fattori, è possibile realizzare 1, 2 o 3 blocchi. Con 3 blocchi l’ 𝛼 per raggiungere la
16(8+2)
ruotabilità è pari a 2. Per l’ortogonalità, invece, avremo 𝛼 2 = = 4, dunque 𝛼 = 2: con lo stesso 𝛼 sarà
2(16+4)
possibile raggiungere ruotabilità e ortogonalità tra i blocchi.

Nel posizionamento dei livelli bisogna essere in grado di fare una prova centrale, una prova a un livello più
alto e basso e una distanza pari ad 𝛼 ∙ Δ.. In alternativa ci sono dei piani che si basano non su 5 livelli, ma su 3
livelli che non siano però face centred: i punti non vengono messi né sulle facce né sui vertici, ma sugli spigoli
(piani di Box Behnken). Gli spigoli, infatti, sono tutti equidistanti. Si dimostra che si possono realizzare piani
che possano stimare fattori del primo e del secondo ordine e puri, come per i CCD. Mentre precedentemente
avevamo, però, dei piani che si comportano come mattoncini che danno la possibilità di essere ampliati con
nuovi blocchi, ciò non è possibile nei piani di Box Behnken: le prove spesso non sono tutte utilizzabili e non è
possibile realizzarli a blocchi.

4. Progettazione robusta
La ricerca tecnologica oggi introduce una classe di problemi che non sono direttamente riconducibili a modelli
di regressione. Una delle condizioni assunte nei modelli finora, infatti, è l’omogeneità della varianza dell’errore
casuale.

18
Immaginiamo di trovarci in Giappone con le risorse ridotte all’osso, qualità dei prodotti scarsissima, ma con
una capacità intellettuale molto avanzata. Ciò non è più così e il principale esponente di questa rivoluzione fu
l’ingegnere Taguchi, il quale mise l’accento non soltanto sul livello medio, ma anche sulla varianza del
risultato attorno al valore medio: mentre nei modelli di regressione, infatti, si ottimizza un processo
massimizzandone un risultato concentrandosi unicamente sul valore atteso, nella progettazione robusta ci si
concentra soprattutto sulla variabilità del processo. Trasformò inoltre il concetto di qualità come conformità
a ciò che si desidera fare.

Quando si dice che un’automobile è di alta qualità non si deve intendere la rolls royce, perché è sì di alta
qualità, ma anche di alta fascia di presso, bensì un’auto che serva per ciò che è stata comprata: deve essere
conforme al dichiarato. Esistono due strumenti:

• qualità in ingresso molto elevata, con qualità d’uscita molto elevata che però comporta un alto costo
• qualità in ingresso molto scarsa, si deve fare in modo che il suo impatto in uscita sia il più limitato
possibile.

È proprio il secondo principio alla base della progettazione robusta. Una progettazione robusta è una
progettazione in cui l’impatto di fattori esterni perturbanti sia il più basso possibile. Immaginiamo una variabile
di uscita dipendente da due classi di fenomeno.

Supponiamo che z sia un fattore di disturbo (noise factore) e che y sia la variabile di risposta.

• Fattori di controllo (control factors): il fattore di controllo è un fattore che è possibile controllare con
precisione. Ad esempio nel caso della fotocopiatrice è possibile progettarla a monte stabilendo a che
temperatura deve trovarsi il toner, la distanza degli ugelli dalla carta ecc. Sono elementi di
progettazione fissati in qualunque condizione di lavoro, stabili dal progettista.
• Fattori di disturbo (noise factors): sono fattori che dipendono da elementi del processo che non
possiamo controllare, ad esempio la ruvidità della carta o l’umidità della stessa. Nonostante siano stati
fissati certi standard non si sa come questi elementi andranno a rispondere durante il processo.
Possiamo vedere questi fattori casuali come quei fattori che vanno a comporre la variabile aleatoria ε.
Tale variabile è data dalla sommatoria di tutte quelle cause che attribuiscono aleatorietà al processo.
Se sono tra di loro indipendenti, numerose e trascurabili, secondo la formula del teorema del limite
centrale si ha che tale composizione ha una distribuzione normale.
Se siamo in grado di entrare all’interno di questi fattori di disturbo potremmo riuscire a distinguere la
risposta in termini di Y secondo la funzione:
𝑦 = 𝑓(𝑋1 , 𝑋2 , … , 𝑋𝑝 , 𝑍1 , 𝑍2 , … , 𝑍𝑞 )

Si prendano due punti estremi che raccolgano il 99% della distribuzione della variabile e che abbia un
impatto sulla risposta che si distribuisce secondo una distribuzione normale. Al diminuire della pendenza
della retta l’impatto sulla risposta è molto più basso. Supponiamo di avere una retta a cui corrisponde una
data variabilità della risposta. Traslando verso l’alto la retta, allora la risposta sulla y risulta invariata
rispetto alla 𝑋1 , in termini di variabilità.

19
Il punto essenziale della progettazione robusta è studiare l’interazione tra il fattore di controllo e di disturbo.
A sinistra questa interazione non c’è, cioè possiamo descriverlo come il fatto che le due curve sono parallele:
l’impatto del fattore di disturbo sulla risposta si mantiene costante al variare del fattore di controllo. A destra,
invece, la variazione dell’impatto si verifica dunque c’è interazione: ciò si verifica visivamente dal fatto che
le due curve non sono parallele, ma si intersecano.

Lo scopo principale è quello di effettuare una pianificazione degli esperimenti che permetta di trovare l’insieme
dei fattori di controllo che sottoposti a vari possibili stress, diano un risultato in termini di risposta che sia il
più vicino possibile al target prefissato. Come funzione di penalità si assume una funzione di tipo quadratico
quale l’errore quadratico medio, non rispetto ad un valore atteso, ma rispetto ad un determinato valore
assegnato: minore è tale variabilità, migliore è la qualità del processo.

Taguchi propone un modello sperimentale molto criticabile. Supponiamo di avere 4 fattori di controllo 𝑋1 , 𝑋2 ,
𝑋3 e 𝑋4 . Si deve realizzare un certo numero di prototipi, caratterizzato da un determinato livello fissato di
ciascuna variabile. Quanti sono i livelli di ciascun fattore? Taguchi propone di fissare 3 livelli: un livello
intermedio, cioè quello frequentemente usato, poi un livello basso e uno alto per capire cosa succede se ci si
allontana dalla media. Se dovessimo fare un piano fattoriale completo ci vorrebbero 34 prototipi: ma è un
numero ingestibile! Sono state pubblicate delle tabelle che aiutino l’utente nella scelta dei piani sperimentali,
che corrispondono a ciò che è già stato studiato. Supponendo che non ci siano interazioni tra i fattori, tali
tabelle corrispondono ai quadrati iper greco-latini. In questo specifico caso, il numero di prove da eseguire è
pari a 9.

E se ci sono interazioni? Taguchi non risponde in maniera diretta, anche perché non vi è una trattazione
sistematica, ma esclusivamente delle proposte. Partendo da un sistema di qualità molto scarso i fattori
principali sono già in grado di migliorare di molto la qualità e soltanto quando si sarà vicini al massimo di una
superficie i fattori principali perderanno di importanza a favore dei quadrati: è per questo che è possibile
trascurare le interazioni. È chiaro però che incrementi dal 99 al 99,9% non sono possibili. Tutto ciò serve a
individuare come devono essere fatti i prototipi.

La proposta di Taguchi è quella di realizzare un secondo piano sperimentale riguardante i noise factors (z), a
due livelli.

20
Questo piano sperimentale deve essere il più stretto possibile. Si effettua dunque un piano di risoluzione III,
dunque un 23−1
𝐼𝐼𝐼 con 4 prove. Ogni prototipo deve seguire cioè 4 prove diverse, nelle 4 condizioni sperimentali.
Si avranno dunque 𝑦11 , 𝑦12 , 𝑦13 𝑒 𝑦14 poi si avrà 𝑦21 , 𝑦22 e così via fino a 𝑦94 . La funzione obiettivo è ottenere
un risultato che sia il più vicino possibile al target. Si calcoli per ogni prototipo la media aritmetica e la
𝑦̅
varianza. Si chiama rapporto segnale disturbo il rapporto e il decibel è una sua trasformazione pari a
𝑠

𝑦̅
𝜂 = 10 Log
𝑠
La scelta dovrà cadere sul prototipo che ha dato il valore di 𝜂 massimo.

Si vuole minimizzare il valore atteso 𝐸 [𝑦 − 𝑦 ∗ ]2 , fatto sulle z. Per ciascuna y su cui sono stati fissati i livelli
bisogna calcolare il valore atteso al valore di z. Sommando e sottraendo il valore atteso, distribuendo il
quadrato si ottiene e ricordando che il doppio prodotto si annulla la funzione che si vuole minimizzare è:

𝐸 [𝑦 − 𝑦 ∗ ]2 = 𝐸 {[𝑦 − 𝐸(𝑦)] + [𝐸(𝑦) − 𝑦 ∗ ]}2


= [𝑦 − 𝐸(𝑦)]2 + [𝐸(𝑦) − 𝑦 ∗ ]2 + 2 ∙ [𝐸(𝑦) − 𝑦 ∗ ] ∙ 𝐸 [𝑦 − 𝐸(𝑦)] =
= [𝑦 − 𝐸(𝑦)]2 + [𝐸(𝑦) − 𝑦 ∗ ]2 = 𝑉𝑎𝑟[𝑌] + [𝐵𝑖𝑎𝑠(𝑌)]2
Il doppio prodotto è nullo per la prima proprietà del valore atteso. Duque è stato scomposto in un valore atteso
più la distorsione. Esiste un fattore di scala tale che se viene aumentato o diminuito agisca moltiplicativamente
sulla risposta 𝑦 = 𝑘 ∙ 𝑦 ′ , in modo che una volta individuato un set di valori della X, faccia coincidere il valore
atteso con il valore target. Dunque

𝐸 [𝑦 − 𝑦 ∗ ]2 = [𝑘𝑦 − 𝑘𝐸(𝑦)]2 + [𝑘𝐸(𝑦) − 𝑦 ∗ ]2

Volendo annullare la distorsione, scelgo un valore di k opportuno tale che [𝑘𝐸(𝑦) − 𝑦 ∗ ]2 = 0, ovvero
𝑌∗
𝑘=
𝐸(𝑌)
Portando k fuori si avrà

𝑌 ∗2
[𝑘𝑌 − 𝑘𝐸(𝑌)]2 = 𝑘 2 ∙ 𝐸 [𝑌 − 𝐸(𝑌)]2 = 𝑉𝑎𝑟(𝑌)
𝐸 2 (𝑌)
Si vuole dunque minimizzare il rapporto segnale disturbo o qualunque sua trasformazione monotona come il
decibel. Ciò si traduce in

𝐸 2 (𝑦) 𝑉𝑎𝑟 (𝑦)


max = min 2
𝑉𝑎𝑟 (𝑦) 𝐸 (𝑦)

21
Il rapporto segnale disturbo è neutro rispetto a un fattore moltiplicativo k, perché moltiplicando ogni y per k,
la media risulta moltiplicata per k, così come la varianza che viene moltiplicata per 𝑘 2 : il rapporto segnale
disturbo risulta dunque inalterato, dal momento che media e deviazione standard camminano di pari passo. Si
ottimizza dunque il rapporto segnale disturbo.
In realtà le funzioni obiettivo potrebbero essere di diverso tipo. Per esempio si voglia minimizzare un costo o
massimizzare una resa. Con dei calcoli simili si arriva a definire un rapporto segnale disturbo con altre quantità:
l’ultima colonna mostra le varie funzioni obiettivo. Un’altra proposta, per esempio, potrebbe essere la
minimizzazione della frazione dei difettosi.

La progettazione secondo Taguchi prevede di costruire un Product Array, ovvero un prodotto cartesiano:
prodotto tra due insiemi che fa sì che gli elementi dei due insiemi siano congiunti; la cardinalità indica quanti
elementi sono nell’insieme ed è il prodotto delle cardinalità dei singoli insiemi, realizzando un unico piano
fattoriale, scaturito dal prodotto di un piano fattoriale con i fattori di controllo e uno con i fattori di disturbo.
Taguchi propone nel suo metodo di effettuare dunque un unico esperimento globale in cui si hanno i fattori di
controllo tipicamente collocati a tre livelli, uno base, uno alto ed uno medio, per capire se è meglio utilizzare
nel nostro prototipo uno di questi livelli. Per i fattori di disturbo vengono fissati due livelli, in modo tale da
verificare il prototipo nelle condizioni limite, di stress, così facendo si individuano i due livelli estremi per
ogni noise factor. Se le variabili X sono scelte in modo opportuno tale che non vengano generate interazioni
tra queste X, possiamo programmare un esperimento con fattori a tre livelli in cui non esistono interazioni,
ovvero i quadrati latini, piani fattoriali a tre livelli. Anche per i fattori di disturbo si suppone di creare piani
molto ristretti in modo tale da eliminare il più possibile il numero di prove.
Si supponga di voler sviluppare una nuova fotocopiatrice. Ci sono 4 fattori di controllo e 3 fattori di disturbo,
che riguardano la carta usata. Per ognuna delle 9 combinazioni dei fattori di controllo, viene sviluppato un
prototipo che testerà 4 combinazioni di tipologie di carta.

22
Se non vi sono interazioni è possibile ragionare soltanto sui fattori principali, scegliendo il livello migliore,
non in base alla combinazione con gli altri, ma separatamente di ciascuno dei fattori principali.

Vengono poi calcolate le medie degli η (valori riportati nella tabella sopra): per ciascun fattore si considera la
media dei valori degli η corrispondenti al livello considerato. Ad esempio nel caso del fattore l’elemento 14,33
è la media degli 𝜂 realizzati ponendo 𝑥1 al livello 1, dunque è una valutazione più stabile perché mediata su
più risultati. Analogamente si ottengono gli altri dati riportati in tabella. A questo punto la scelta è fatta sulla
base del profilo e non del prototipo migliore. 𝑥1 deve essere posta al livello 3, la 𝑥2 deve essere posta al livello
1, la 𝑥3 al livello 3 e la 𝑥4 al livello 2. In questo caso questo prototipo era stato sperimentato, ma ciò non è
detto, dato che non è stato effettuato un piano completo. Non è detto che il risultato della prova di conferma
sia ciò che ci si aspetta: se ci fossero interazioni, infatti, questo ragionamento sarebbe sbagliato. La scelta del
prototipo non si fa esclusivamente sull’ 𝜂 migliore, ma anche sulla base del profilo ottenuto considerando le
variabili singolarmente. È possibile stimare tra i 4 fattori quello che assomiglia di più al fattore moltiplicativo
k e corrisponde a quello che al variare del livello del fattore di disturbo dà la variazione minore della risposta:
in questo caso il fattore 𝑥4 è quello con varianza minore, anche se non è nulla, dunque si può considerare solo
un’approssimazione di k. Se il target è alto si sceglie il livello che dà la media più alta, se il target è basso si
sceglie il livello che dà la media più bassa.
Il difetto fondamentale di questa metodologia risiede nel “One Shot”, ovvero nello “sparare” tutto il materiale
sperimentale in un solo colpo. Di norma siamo soliti effettuare diversi esperimenti limitati in modo tale da
avvicinarci il più possibile per poi spendere tutte le nostre risorse sperimentali. Un altro difetto della
metodologia risiede nel fatto che i livelli non subiscano alcun “refinement”, non è detto cioè che il migliore
risieda tra medio, alto e basso: potrebbe esserci un qualche livello intermedio ottimale. Non vi è una
modellazione della funzione di risposta in modo tale da poter rifinire il modello in termini matematici, dunque
non si può rigettare l’ipotesi che l’ottimo sia al di fuori, il che rappresenta una problematica ancora più grave.
I product-array di Taguchi sono realizzati in maniera tale che sia il piano per i fattori di controllo che il piano
per i fattori di disturbo siano ridotti il più possibile tale da non tenere conto delle interazioni ma, quando viene
23
fatto il prodotto cartesiano tra queste due matrici tutte le interazioni di qualsiasi ordine vengono stimate,
sprecando del materiale per cercare cose che non servono, come le interazioni di ordine 3 e 4. Al contrario si
è rinunciato ad interazioni più importanti all’interno dei fattori di controllo o dei fattori di disturbo.
Le principali proposte di miglioramento vennero da Box e Jones. Nel 1992, implementarono la tecnica dello
split-plot (lotti suddivisi).
Un blocco potrebbe essere suddiviso allo scopo di allocare più elementi all’interno dello stesso. In una
sperimentazione di tipo agronomico, ad esempio, si supponga di voler saggiare un fattore – come la resa –
rispetto a due fattori tecnologici – come il tipo di fertilizzante e il metodo di irrigazione. Si hanno 3 fertilizzanti
e 2 metodi di irrigazione. Si procede con una randomizzazione completa: il terreno dovrebbe dunque essere
sperimentato secondo la coppia che viene scelta in maniera totalmente randomizzata, per un totale di 9 prove
o 18 nel caso di due repliche. Dunque per realizzare un piano completamente randomizzato bisogna predisporre
𝐼 ∙ 𝐽 ∙ 𝐾 prove. È possibile però ridurre le prove dividendo il terreno in più appezzamenti, realizzando un fattore
di blocco. La difficoltà che si può presentare è che un singolo sotto-lotto possa essere fertilizzato con un
fertilizzante diverso, ma l’intero lotto sarà irrigato con lo stesso impianto di irrigazione. Da un punto di vista
formale si ha un fattore che può cambiare velocemente (fertilizzante), potendo applicare differenti livelli a
seconda del sotto-lotto mentre il secondo fattore cambia più lentamente (il terreno), dunque l’intero lotto deve
essere trattato secondo un determinato livello del secondo fattore. Il vantaggio sta nel fatto che non si avrà più
bisogno di 𝑖 ∙ 𝑗 ∙ 𝑘 sperimentazioni, ma di un numero minore dal momento che all’interno di un terreno sarà
possibile realizzare più prove. Dal momento che il piano è eseguito a blocchi, ci sarà una certa sovrapposizione
tra blocco e irrigazione: per tale motivo è indispensabile avere delle repliche.
Il modello a cui si fa riferimento è il seguente

ed è costituito da tre fattori. Vi sono quindi i fattori principali, i cui effetti sono descritti dalle lettere greche α,
β e γ, dove α e β rappresentano i fattori tecnologici e γ il fattore blocco. Successivamente vi sono le tre
interazioni a coppia e a 3. Infine da non dimenticare l’errore casuale ε.
I fattori possono essere fissi o casuali. Si ricorda che, negli effetti fissi è possibile scegliere i livelli dei fattori
per quello che sono senza fare inferenza su altri livelli dei fattori. Nei fattori casuali i livelli vengono
inizialmente scelti, in un più grande insieme di livelli di quel fattore e successivamente viene fatta inferenza
su essi, in quanto non si vuole scegliere il migliore tra questi fattori ma verificare se vi è un impatto
significativo di quel fattore sulla risposta. Per i fattori casuali bisogna, invece, verificare la parte di variabilità
della risposta, ovvero, la parte di varianza della y che si deve attribuire alla variabilità della scelta del livello
del fattore. Non si ha, dunque, un α ma un σα , che rappresenta la parte della variabilità casuale attribuibile alla
scelta casuale del livello del fattore. Il fattore γ, invece, è comunque un fattore casuale, in quanto un lotto o un
provino è scelto sempre a caso, e quindi si tratta di fattori che non possono mai essere considerati fissi. L’altro
fattore casuale è la ε, che risulta sempre presente come σε .
L’analisi della varianza si presenta come di seguito riportato

24
L’analisi della varianza è suddivisa in due sotto tabelle. Nella seconda parte si fa riferimento al fattore che
cambia più velocemente. Per realizzare test F selettivi bisogna prima calcolare il valore atteso delle medie dei
quadrati. Non vi è però una stima diretta dell’errore, perché si dovrebbe supporre che l’interazione a 3 sia
assente.
Si è visto, dunque, che questa modalità di esecuzione split-plot, pure essendo una limitazione nella
randomizzazione, attraverso un opportuno studio del modello ed una attenta analisi di come questo modello
debba essere utilizzato, porti ad una notevole semplificazione e a dei risultati soddisfacenti.
Supponendo di voler progettare una ricetta per fare una torta: la ricetta deve determinare la percentuale delle
componenti da mettere in una scatola da vendere al supermercato. I fattori che entrano in gioco sono la quantità
di farina, la quantità di burro e la quantità di uova. Si immagini per semplicità che i fattori siano a due livelli.
I fattori di controllo sono quelli appena esposti. I fattori di disturbo, invece, sono dettati dalla distribuzione
della temperatura all’interno del forno che è un forno casalingo, così come non è detto di indovinare
esattamente il tempo di cottura. Bisogna dunque progettare un esperimento robusto, che non sia sensibilmente
influenzato dalla temperatura del forno o dal tempo di cottura. Supposte m condizioni sperimentali ed n
prototipi (ricette), un piano completo sarebbe composto da 8 prove. In una sperimentazione di laboratorio le
variabili come la temperatura e il tempo di cottura potrebbero essere controllate. L’interesse è quello di valutare
le condizioni estreme, non quelle nominali. Le condizioni sperimentali sono 4: dunque il piano completo
sarebbe composto da 8 impasti diversi x 4 condizioni sperimentali x 2 repliche, ovvero 64 prove indipendenti.
Tornando alla proposta di Box e Jones, si supponga di applicare la tecnica dello split-plot alla progettazione
robusta. In laboratorio i fattori di disturbo possono essere ridotti e dunque trattati come fattori sperimentali (di
controllo) fissati arbitrariamente a determinati livelli: in questo caso è come se si avesse una fonte aleatoria
che invece si sta cercando di tenere sotto controllo. Taguchi voleva realizzare un piano fattoriale come prodotto
di due piani fattoriali (fattori di controllo e di disturbo), ma per evitare un numero elevato di prove
bisognerebbe ridurre il più possibile i piani, perdendo il controllo sulle interazioni. La prima proposta di Box
e Jones fa riferimento alla possibilità di ridurre la modalità di esecuzione delle prove e non il loro numero
attraverso la tecnica dello split-plot, in modo da renderle più facilmente realizzabili. Avendo n prototipi, m
modalità sperimentali ed r repliche, le prove dovrebbero essere 𝑛 ∙ 𝑚 ∙ 𝑟. È necessario eseguire repliche per
evitare la sovrapposizione dei fattori con fattori sub-sperimentali. Supposte 8 torte con 4 condizioni
sperimentali con due repliche, secondo Box e Jones, invece, è possibile procedere in 3 modi differenti:
-

25
A. assumere che in ogni forno è possibile allocare più torte, associando fattori di controllo con i sub-plot e i
fattori di disturbo con l’intero blocco. Si crea dunque un blocco, il blocco infornata, composto in questo
caso da 8 torte. Il numero di impasti è sempre 𝑛 ∙ 𝑚 ∙ 𝑟, ma il numero di infornate è pari a 𝑚 ∙ 𝑟.
B. Assumere che ogni impasto può essere suddiviso in più pezzi, associandone ciascuno a un’infornata
diversa., associando i fattori di disturbo al sotto-blocco e i fattori di controllo al blocco intero. Il grande
lotto è qui associato all’impasto, che viene suddiviso in sotto-lotti e infornati separatamente. Le infornate
saranno sempre 𝑛 ∙ 𝑚 ∙ 𝑟, mentre gli impasti saranno 𝑛 ∙ 𝑟.
C. Ammettere entrambe le condizioni esposte, realizzando uno strip-block, preparando solo 𝑚 ∙ 𝑟 infornate
ed 𝑛 ∙ 𝑟 impasti. Si realizzano cioè blocchi a strisce in cui, riferendosi alla singola replica, vengono fatti 8
impasti, ognuno suddiviso in quattro, associando quindi i fattori di controllo ai grandi lotti. Verranno
dunque realizzate infornate con uno dei 4 pezzi di ciascun impasto: si avranno infornate di 8 pezzi
provenienti da 8 impasti diversi che però sono stati essi stessi precedentemente suddivisi. Quindi sia i
fattori di controllo che i fattori di disturbo sono confusi con i grandi lotti. Si ottiene una modalità
sperimentale ancora più veloce, perché viene ridotto sia il numero di impasti che il numero di infornate.
Una considerazione importante è che gli impasti nel forno non si mescolano tra loro ma restano separati.
Il modello è il seguente:

• 𝐸 è relativo ai fattori di controllo e cioè per ciascuna ricetta dovrebbe indicare qual è la migliore: è
dunque una sintesi a n livelli dei fattori di controllo
• 𝐷 è analogo a E, ma relativo ai fattori di disturbo
• 𝐷 ∙ 𝐸 è il motore della progettazione robusta, ovvero l’interazione tra fattori di controllo e di disturbo
• 𝜃 e 𝜂 sono due fattori casuali che rappresentano l’errore casuale del blocco intero
• 𝜌 è il fattore replica
• 𝜀 è l’errore casuale

Nel caso A sono i fattori di controllo a essere coinvolti nel confondimento con i grandi lotti. Il parametro θ,
che sta ad indicare la sovrapposizione tra fattori di disturbo e i grandi lotti, è dunque nullo. Per controllare la
significatività dei fattori di controllo bisogna rapportare il valore atteso dell’MS di CF all’errore, mentre per
controllare la significatività dei fattori di disturbo bisogna effettuare il confronto con interazione R x NF. Il
controllo più importante che deve essere effettuato è sull’interazione tra fattori di controllo e di disturbo, in
quanto si ricorda che nella progettazione robusta è lo studio di queste interazioni che consente di capire come
26
scegliere i fattori di controllo in modo da minimizzare l’impatto dei fattori di disturbo. I fattori di controllo
sono stimati in maniera più efficiente con una varianza più bassa, mentre nel caso B è il contrario: il fattore
messo nei sotto-blocchi è cioè stimato meglio, con una varianza minore. Il caso C è invece più efficiente per
la stima delle interazioni tra i fattori di controllo e di disturbo.
Nel caso B non vi sono fattori aleatori dell’infornata, ma solo dell’impasto: per l’interazione resta tutto
inalterato, mentre si scambiano i confronti per quanto riguarda i fattori di controllo e di disturbo visti nel caso
A. I fattori di controllo vanno dunque controllati sulla riga RxCF, mentre i fattori di disturbo e l’interazione
sull’errore.
Infine nel caso C ci sono entrambi, in quanto l’impasto viene suddiviso in 4 e ciascun pezzo viene messo
insieme e infornato. I fattori di controllo saranno dunque rapportati alla riga RxCF, per i fattori di disturbo
bisogna dividere per RxNF, infine, per le interazioni bisogna controllare sull’errore. Oltre ad essere il più
efficiente, questo caso è quello in cui vi è una maggiore efficienza nella stima delle interazioni tra fattori di
controllo e di disturbo: si può dunque notare come anche sotto questo punto di vista la tecnica strip-block
risulti preferibile
Il numero delle prove, come si vede, dunque non cambia, ma cambia la modalità di esecuzione di esse, perché
si riduce il numero di infornate o di impasti o entrambi: anche se le prove sono tante, la modalità di esecuzione
molto più efficiente le rende più facilmente eseguibili.
La seconda proposta fa riferimento a una modalità di esecuzione delle prove fondamentalmente diverso dal
product array. Ciò che spinge Box e Jones a questa proposta è l’osservazione che mentre le interazioni tra
fattori di controllo non sono stimabili in Taguchi, così come le interazioni tra i fattori di disturbo, mentre lo
sono tra fattori di controllo e disturbo, ciò è del tutto inefficiente. La proposta è quella di realizzare un combined
array. Si propone dunque di trattare sin dall’inizio tutti i fattori come fattori sperimentali, senza effettuare la
distinzione in controllo e disturbo. Nello studio delle superfici di risposta è stato possibile individuare un
modello del secondo ordine con coefficienti dei fattori del primo ordine e coefficienti dei fattori del secondo
ordine misti e puri. In realtà è possibile scrivere un modello in cui si ha la stessa cosa, ma per comodità di
scrittura è possibile distinguere x e z, non per caratteristiche diverse in ambito sperimentale, bensì in ambito
analitico. Il modello del secondo ordine sarà dunque:

In cui

• β0 rappresenta semplicemente l’intercetta di un modello quadratico


• 𝑥 𝑇 𝛽 rappresenta la componente lineare in x
• 𝑥 𝑇 𝐵𝑥 rappresenta la componente quadratica in x
• 𝑧 𝑇 𝛾 rappresenta la componente lineare in z
• 𝑧 𝑇 Γ𝑧 rappresenta la componente quadratica in z
• 𝑧 𝑇 Δ𝑥 rappresenta le interazioni tra fattori di controllo e di disturbo
B e Γ sono generalmente matrici quadrate, mentre la matrice ∆ è in genere rettangolare, avente numero di righe
pari ai fattori di disturbo e numero di colonne pari al numero di fattori di controllo.

Si noti l’esplicitazione di 𝑥 𝑇 𝐵𝑥
𝑏11 𝑏12 𝑏13 𝑥1
𝑇
𝑥 𝐵𝑥 = (𝑥1 𝑥2 𝑥3 ) ∙ (𝑏21 𝑏22 𝑏23 ) ∙ (𝑥2 )
𝑏31 𝑏32 𝑏33 𝑥3
= (𝑥1 𝑏11 + 𝑥2 𝑏21 + 𝑥3 𝑏31 𝑥1 𝑏12 + 𝑥2 𝑏22 + 𝑥3 𝑏32 𝑥1 𝑏13 + 𝑥2 𝑏23 + 𝑥3 𝑏33 )

27
Nella diagonale principale si hanno i coefficienti quadratici puri, mentre fuori si hanno i coefficienti quadratici
misti. Dunque, come si può notare dall’esplicitazione, 𝑥 𝑇 𝐵𝑥 rappresenta la componente quadratica in x.
Analogamente avviene per Γ.
Riscrivendo, infatti, il vettore dei coefficienti lineari come
𝑥
𝑤 = (𝑧)

allora è possibile scrivere le componenti quadratiche come


𝐵 ∆ 𝑥 𝑥
𝑤 𝑇 𝐻𝑤 = (𝑥 𝑇 𝑧𝑇) ∙ ( ) ∙ ( 𝑧 ) = (𝑥 𝑇 𝐵 + 𝑧 𝑇 ∆𝑇 , 𝑥 𝑇 ∆ + 𝑧 𝑇 Γ) ∙ ( )
∆𝑇 Γ 𝑧
Infine ∆ rappresenta i coefficienti dell’interazione tra fattori di controllo e di disturbo.
Questa scrittura è molto importante perché consente di trovare la soluzione analitica al problema della
progettazione robusta, mentre con Taguchi si aveva soltanto il prototipo che si avvicinava di più, senza poter
scegliere una soluzione intermedia o esterna ai livelli. Il metodo di Taguchi è dunque un modello veloce che
dà un miglioramento significativo quando si è lontani dall’ottimo, mentre se si è vicini all’ottimo per avere dei
miglioramenti significativi bisogna ricorrere a strumenti di precisione che soltanto la soluzione analitica può
dare.
Una soluzione molto semplice si ha quando Γ = 0, ovvero non vi sono componenti di secondo ordine
nell’impatto che danno i fattori di disturbo sulla risposta: bisogna immaginare che la risposta dipenda dai fattori
di controllo e che i fattori di disturbo abbiano un impatto lineare. La soluzione della progettazione robusta è
quella per cui nel modello non ci sia un impatto delle z, ovvero al cambiare delle z non vi sia alcun impatto
sulla y: ciò significa che

Mettendo in evidenza z, poiché queste non possono essere mai pari a 0, bisogna annullare (𝛾 + Δ𝑥), ovvero:

Generalmente ∆ è una matrice rettangolare. In generale possono presentarsi tre casi.

• Si considera di essere nel caso in cui vi siano più gradi di liberà rispetto ai vincoli: il sistema è quindi
sovradimensionato, ma ciò non è assolutamente un problema poiché significa che vi sono più x, e
quindi più strumenti, di quanto effettivamente necessari. Il problema si risolve molto facilmente
scegliendo un sottoinsieme di fattori di controllo m (con m numero di vincoli) di n variabili a
disposizione, considerando quelle che sono più facilmente o economicamente manovrabili.
• Il secondo caso, in cui si hanno meno strumenti rispetto a ciò che effettivamente si vuole controllare,
cioè meno variabili di controllo rispetto alle variabili di disturbo, l’equazione prima descritta non è più
risolvibile. Si può solo porre la condizione min(𝛾 + Δ𝑥), cioè si cerca di minimizzare questa distanza
attraverso il metodo dei minimi quadrati, scrivendo 𝛾 = −Δ𝑥 + 𝑒, introducendo quindi la componente
casuale dell’errore, in cui le γ rappresentano le y, Δ sono i coefficienti e le x le incognite da determinare
che minimizzano queste distanze. Si ottiene un modello di regressione, trovando i punti sulle x che
minimizzino dunque l’errore.
• Se ∆, invece, fosse una matrice quadrata e di rango pieno, la soluzione per x è univoca e pari a
𝑥 = ∆−1 𝛾
Nel caso in cui non si possa assumere che Γ = 0 la soluzione analitica è più complessa e corrisponde a:

28
È importante sottolineare che se i Γ nella soluzione finale entrano soltanto come traccia della matrice – quindi
entrano soltanto le componenti quadratiche pure come somma – allora esiste una sperimentazione basata sul
CCD, ma più economica. Perle colonne z le coppie ±𝛼 non vengono eseguite, dunque vi è risparmio di prove
che non servono, perché è possibile notare che questi servono per stimare le componenti quadratiche pure in
maniera individuale, invece il solo punto centrale è in grado di stimare la traccia – in modo accorpato, non
disgiunto.
In sintesi, è opportuno studiare

• Nei fattori di controllo x le componenti lineari e quadratiche – sia miste che pure
• Nei fattori di disturbo z le componenti lineari
• Le interazioni tra fattori di controllo e di disturbo, cioè il Δ.
Delle componenti quadratiche sicuramente non servono le componenti miste. Inoltre le componenti pure
servono solo come somma per poter ottenere la traccia di Γ, cioè quando si deve far un piano sperimentale per
i fattori di disturbo non è necessario fare un piano completo CCD, ma basta limitarsi ad un piano ridotto di
risoluzione 3, in quanto devono essere presenti solo le componenti lineari, più il punto centrale, che consente
di stimare le componenti quadratiche pure nel loro insieme, e non singolarmente, dato che si è interessati
esclusivamente alla loro somma.
Nella tecnica di Taguchi vi è un approccio one shot, cioè il materiale sperimentale viene usato in un’unica
volta, invece, nella proposta di Box e Jones vi è un approccio di miglioramento e avvicinamento all’ottimo
sulla base dei risultati ottenuti precedentemente. L’approccio è dunque di tipo sequenziale, utilizzando il 25%
del budget per la fase preliminare. Ad esempio per lo steepest ascent method, bisogna inizialmente determinare
la grandezza del Δ. In un modello lineare con opportune trasformazioni è possibile ricondursi a un modello
quadratico, variando radicalmente la situazione: un’indagine preliminare fattore per fattore è dunque
necessario. Il 50% va poi impegnato per l’esperimento reale. Infine, il restante 25% va impegnato per la verifica
– ad esempio – della stabilità del punto di ottimo, attraverso ulteriori prove sperimentali. Nella prima parte si
suggerisce di usare piani a due livelli, anche molto compressi. Nella seconda parte si procede con lo steepest
ascent method. Infine nella terza parte bisogna provare delle trasformazioni per verificare ed eliminare
eventuali interazioni.

5. Piani fattoriali a più livelli


I piani che hanno fattori con lo stesso numero di livelli come nei quadrati latini vengono definiti omogenei o
simmetrici. Nei quadrati latini la limitazione cruciale era l’assenza dell’interazione, dunque potevano studiar
un fattore tecnologico di interesse e una serie di fattori di blocco: quello che si conosce si realizza in blocchi,
ciò che non si conosce si randomizza. Per lo studio dell’interazione si ricorre a piani simmetrici a due livelli,
in cui tutti i fattori sono espressi da 1 DOF: da ciò vi è la corrispondenza tra l’analisi della varianza e il modello
di regressione.
Un piano si dice regolare se i fattori sono ortogonali tra loro o perfettamente sovrapposti: la correlazione cioè
può essere 0 o 1. Solitamente i piani ottenuti come frazione sono dei piani regolari.
Si supponga adesso di avere un piano simmetrico con fattori a tre livelli. Nelle superfici di risposta i fattori in
ingresso sono tutti quantitativi, metrici, continui. In questo caso i fattori in ingresso sono qualitativi, nonché
categorical (i livelli sono nominali, cioè aderiscono perfettamente alle specifiche), che non possono essere
sommati né ordinati (i.e. i colori).
Si suppongano dunque fattori in ingresso di tale tipo a tre livelli. Ogni fattore avrà 3 − 1 = 2 DOF, mentre le
interazioni a due saranno pari a 2 ∙ 2 = 4 DOF e così via. Nei piani fattoriali a tre livelli non esiste più il
vantaggio che si aveva nei piani fattoriali a due livelli in cui non soltanto il fattore principale, ma anche ogni
interazione aveva soltanto 1 DOF e quindi si poteva mettere in corrispondenza biunivoca con il modello di
regressione.
29
Per un piano che consiste soltanto di fattori a 3 livelli, le interazioni tra due fattori hanno 4 DOF e possono
essere rappresentati o con due colonne a 3 livelli o con 4 colonne a 2 livelli: in quest’ultimo caso è possibile
esprimere ogni DOF con una colonna fittizia di regressori. Esistono due tecniche di parametrizzazione: la rima
si basa sull’indicator variables, in cui ogni regressore è associato con la presenza di un particolare livello di
ciascun fattore, la seconda si basa sul polinomio ortogonale.

Si studi il secondo caso. Si supponga di avere un piano 32 . I due gradi di libertà di ciascun fattore devono
essere espressi attraverso due regressori. Si parla allora di parametrizzazione: ovvero individuare i regressori
che possano spiegare i fattori: si avranno tanti regressori quanti i DOF del fattore stesso.
Dati i seguenti fattori

A B 𝐴1 𝐴2 𝐵1 𝐵2 𝐴1 ∙ 𝐵1 𝐴1 ∙ 𝐵2 𝐴2 ∙ 𝐵1 𝐴2 ∙ 𝐵2
0 0 1 0 1 0 1
1 0 0 1 1 0 0
2 0 0 0 1 0
0 1 1 0 0 1
1 1 0 1 0 1
2 1 0 0 0 1
0 2 1 0 0 0
1 2 0 1 0 0
2 2 0 0 0 0

Vengono introdotte delle variabili dummy che vengono inserite in corrispondenza di un determinato livello.
Dunque in corrispondenza di A=0 verrà inserito 1 nella colonna di 𝐴1 . Si ripetere per gli altri livelli. Si ottiene
una matrice con rango non pieno: si risolve il problema eliminando un regressore. Si supponga di eliminare il
regressore 𝐴3 : 𝐴2 e 𝐴3 spiegano congiuntamente la stessa parte di varianza che spiegherebbe un modello
dell’analisi della varianza. Analogamente per B. Bisogna dunque esprimere l’interazione, moltiplicando
ciascuna colonna A per ciascuna colonna B e che esprimono i 4 DOF dell’interazione. Si è realizzato un piano
saturo che impegna un DOF per la media e 8 distribuiti come nella tabella precedente. I regressori così ottenuti,
però, non sono ortogonali come si vorrebbe. Esiste però un metodo per renderli tali, in modo da poter attribuire
separatamente la parte di varianza spiegata a ciascun regressore.

A 𝐴1 𝐴2
2 1
0 -1 1− =
3 3
2 2
1 0 0− =−
3 3
2 1
2 1 1− =
3 3

Il primo regressore si comporta come una componente lineare che esprime un DOF e risulta a somma 0.
Eseguendone i quadrati non si ottiene però una colonna a somma zero: bisogna dunque sottrarre al quadrato la
media aritmetica della colonna. Per riportarli a numeri interi è possibile moltiplicare per una stessa costante k.
La seconda colonna rappresenta dunque una pseudo componente quadratica. Le due colonne sono a somma
zero, inoltre il loro prodotto è nullo: dunque i due regressori sono ortogonali. Dunque, secondo il nuovo
metodo, detto del polinomio ortogonale, per la componente lineare laddove c’è 0 bisogna scrivere -1, laddove
c’è 1 bisogna scrivere 0 e laddove c’è 2 bisogna scrivere 1, mentre nella componente quadratica laddove c’è 0
bisogna scrivere 1, laddove c’è 1 bisogna scrivere -2 e laddove c’è 2 bisogna scrivere 1. Dunque

A B 𝐴1 𝐴2 𝐵1 𝐵2
0 0 -1 1 -1 1
1 0 0 -2 -1 1
2 0 1 1 -1 1
0 1 -1 1 0 -2
30
1 1 0 -2 0 -2
2 1 1 1 0 -2
0 2 -1 1 1 1
1 2 0 -2 1 1
2 2 1 1 1 1

In definitiva si può dire che, una colonna a tre livelli può essere rappresentata tramite due colonne, ognuna
delle quali assorbe un DOF (perché ora sono regressori ortogonali tra loro; ogni regressore nell’analisi della
varianza assorbe 1 DOF).

Supponendo di avere adesso un piano a 4 livelli, dunque ogni fattore avrà 3 DOF e serviranno 3 pseudo-fattori.

A 𝐴1 𝐴2 𝐴3
0 -3 9−5=4 1 -27
1 -1 1 − 5 = −4 -1 -1
2 1 1 − 5 = −4 -1 1
3 3 9−5=4 1 27

La prima colonna rappresenterà la componente lineare, solo che in questo caso non avendo un punto centrale
non si può proseguire come nel caso precedente. Quindi ai punti centrali verranno attribuiti i valori di -1 ed 1,
tra i quali vi è un passo pari a due: per scandire con lo stesso passo, anche tra gli estremi vi deve essere lo
stesso passo, dunque si attribuiscono i valori di -3 e 3. La colonna è a somma zero. La componente quadratica
verrà determinata come il quadrato della componente lineare e, per renderla a somma zero, verrà scartata della
media dei suoi valori che è pari a 5. La componente cubica si ottiene come cubo della componente lineare, ma
nonostante sia a somma zero, risulta ortogonale solo con 𝐴2 .

Se si volesse rendere 𝑥3 ortogonale rispetto a (𝑥1 , 𝑥2 ) si crea un modello di regressione

𝑥3 = 𝑏0 + 𝑏1 𝑥1 + 𝑏2 𝑥2 + 𝑒

L’errore risulta essere ortogonale con 𝑥1 e 𝑥2 per la proprietà dei minimi quadrati e spiega la parte di varianza
𝑥3 che non è espressa da 𝑥1 e 𝑥2 . Tuttavia è tutto tabellato come di seguito

Ciò serve per esprimere una matrice di regressori che sia in grado di potere rappresentare un modello di analisi
della varianza sottoforma di modello di regressione. La parte di varianza spiegata da ciascun gruppo di
regressori può essere sommata perché questi sono ortogonali: la matrice di correlazione sarà dunque una
matrice diagonale.
Mentre il modello di regressione può andar bene sia per piani simmetrici che asimmetrici, ciò che verrà esposto
di seguito vale solo per piani omogenei. Si supponga dunque di avere un piano omogeneo a 3 livelli. In
alternativa, per estrarre la parte di varianza associata all’interazione tra due fattori a 3 livelli, è possibile
ottenere due colonne a 3 livelli, ortogonali tra loro, ma anche a 𝑥1 e 𝑥2 . Si creino dunque due nuove colonne a
𝑥3 e a 𝑥4 a 3 livelli, ognuna delle quali sia ortogonale con le prime: si avranno dunque 4 colonne tra loro
ortogonali che estraggono 2 DOF indipendenti.
Le due nuove colonne si ottengono come

31
𝑥3 = (𝑥1 + 𝑐 ∙ 𝑥2 ) ∙ 𝑚𝑜𝑑(3)
Con 𝑐 = 1
𝑥4 = (𝑥1 + 𝑐 ∙ 𝑥2 ) ∙ 𝑚𝑜𝑑(3)

Con 𝑐 = 2
La funzione mod dà come risultato il resto della divisione euclidea del primo numero per il secondo.

-8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8
1 2 0 1 2 0 1 2 0 1 2 0 1 2 0 1 2

Questa tabella si ottiene dividendo la prima riga per 3 e scrivendo il resto della divisione. Date dunque 𝑥1 e 𝑥2
è possibile ottenere ulteriori variabili seguendo la tabella precedente: si ottiene cioè un anello.

𝒙𝟏 𝒙𝟐 𝒙𝟑 𝒙𝟒
0 0 0 0
1 0 1 1
2 0 2 2
0 1 1 2
1 1 2 0
2 1 0 1
0 2 2 1
1 2 0 2
2 2 1 0

Le prime due colonne sono bilanciate per costruzione: è possibile verificare che sono tutte bilanciate tra loro.
Si è ottenuto dunque un quadrato greco latino. Se ci fosse un’interazione tra 𝑥1 e 𝑥2 avrebbe 4 DOF che
sarebbero sovrapposti 2 con 𝑥3 e 2 con 𝑥4 : nei quadrati latini dunque non ci possono essere interazioni perché
sarebbero confuse con gli effetti degli altri fattori.
Se 𝑐 = 3 non si otterrebbe un nuovo quadrato latino perché sarebbe uguale a 𝑐 = 1. Il principio è dunque che

[(𝑎𝑥1 + 𝑏𝑥2 ) + (𝑐𝑥3 + 𝑑𝑥4 )] ∙ 𝑚𝑜𝑑3 = 0


Da questa struttura, ricordando che 𝑎 + 𝑐 = 𝑏 + 𝑑 = ±3, si vede che

• se 𝑐 = 2 e 𝑑 = 1 è equivalente a mettere 𝑎 = 1 e 𝑏 = 2
• se 𝑐 = 2 e 𝑑 = 2 è equivalente a mettere 𝑎 = 1 e 𝑏 = 1
Questa scoperta si deve a un grande matematico francese Galloi che visse fino a 29 anni, vale solo per i numeri
primi. Se non è un numero primo, ma una sua potenza, il discorso è più complicato.

Si supponga di avere un piano fattoriale 33 con 26 DOF. Essendo tutte colonne a tre livelli, i DOF saranno 2
per ciascuna colonna. Avendo 3 fattori, ognuno con due DOF, quindi 6 DOF vengono assorbiti dai fattori
principali, cioè del primo livello. I fattori del secondo livello sono 3, così come le interazioni a 2, ciascuno dei
quali assorbe 4 DOF, quindi in totale si hanno 12 DOF dall’interazione a due. L’interazione a tre è soltanto
una ed assorbe 8 DOF. Nel complesso vengono assorbiti 26 DOF.
Per saturare i DOF, essendo che ciascun fattore assorbe 2 DOF, bisognerà dunque costruire 13 colonne.
Ciascuna interazione a tre, nasce dalla seguente formula:
𝑥10 = (𝑥1 + 𝑎1 𝑥2 + 𝑎2 𝑥3 ) ∙ 𝑚𝑜𝑑3
Con 𝑎1 = 1,2 e 𝑎2 = 1,2.

32
Si sono quindi espressi i 26 DOF attraverso 13 colonne tra di loro ortogonali. A partire dal piano 33 è possibile
inserire un quarto fattore che sia sovrapposto solo a interazioni del secondo ordine? Cioè si potrebbero studiare
13 fattori con 27 prove? Questo piano è l’analogo di 𝑥123 = [+], cioè ogni fattore è sovrapposto con
un’interazione del secondo ordine: risoluzione III.
Se ci fosse un piano a 27 prove, in cui non si tiene conto di 3 fattori ma di 4 fattori e in cui la 𝑥4 è generata
come sovrapposizione, avremo un piano 34 , ma non completo perché sarà a 27 prove e non ad 81: un piano
di riduzione 1/3. Vi è dunque una notevole potenza, perché è possibile costruire un 34−1 che ha la stessa
potenza di un 24−1
𝐼𝑉 . In questi piani ogni riduzione presuppone non un dimezzamento, ma un terzo.

Per creare un piano fattoriale completo su Minitab è possibile seguire CALC – MAKE PATTERNED DATA –
SIMPLE SAT OF NUMBER. Con un numero di livelli pari a 5 è possibile costruire N-1, e quindi 4, quadrati
latini. Dunque c potrà assumere valore 1, 2, 3 e 4: le colonne così costruite saranno tutte ortogonali tra loro,
ottenendo 4 quadrati latini mutuamente ortogonali. Se venisse inserita una nuova variabile di risposta T,
realizzando un’analisi della varianza sarebbe possibile considerare tutti i precedenti fattori, ottenendo un piano
saturo: vale dunque il principio di scomposizione ortogonale, dunque i valori aggiustati e sequenziali
coincidono. Ripetendo con 4 livelli, dal momento che 4 non è un numero primo, le colonne non saranno
ortogonali tra loro. I quadrati latini si possono realizzare con la regola del modulo solo in presenza di numeri
primi. Se, invece, si ha una potenza di numero primo bisogna operare in modo diverso e più complicato. Ad
esempio 4 non è un numero primo, ma è una sua potenza (22 ). La prima cifra rappresenta le unità, la seconda
le coppie. Si può dunque scomporre un fattore a 4 livelli in due fattori a 2 livelli. I DOF del primo sono 3,
mentre i due livelli a due ne hanno uno ciascuno: il DOF rimanente sta nell’interazione.

Si vuole determinare ulteriori 3 colonne sfruttando i contrasti che scaturiscono dai due fattori di partenza. Si
riportano tutte le interazioni possibili esaurendo prima la prima colonna, poi la seconda. Si è dunque distribuito
i 15 DOF in modo che ognuno occupa soltanto una posizione e nell’ultima colonna si ha il prodotto degli
elementi che si hanno rispettivamente nella prima e nella seconda. La colonna C la si costruisce mettendo
insieme 𝐴1 𝐵1 con 𝐴1 𝐵2 , ciascuna costruita con la regola del prodotto, infine si montano i livelli con la regola
del modulo. Ciò assicura che la C è composta da 3 DOF indipendenti dagli altri. Dunque:
𝐶 = 2[(𝐴1 + 𝐵1 )𝑚𝑜𝑑 2] + (𝐴2 + 𝐵2 )𝑚𝑜𝑑 2
𝐷 = 2[(𝐴1 + 𝐵2 )𝑚𝑜𝑑 2] + (𝐴1 + 𝐴2 + 𝐵1 )𝑚𝑜𝑑 2
𝐸 = 2[(𝐴2 + 𝐵1 )𝑚𝑜𝑑 2] + (𝐴1 + 𝐴2 + 𝐵2 )𝑚𝑜𝑑 2
È importante ricordare dunque il legame tra la regola del modulo e la regola generica per la costruzione di un
quadrato latino.
Se i piani non sono più simmetrici, bisogna abbandonare questi ragionamenti. Si supponga di avere un piano
con il primo fattore a due livelli (A) e il secondo fattore a 3 livelli (X): per fare un piano completo 2x3 sono
necessarie 6 prove.

33
For the full design 2x3 build the interaction between the 2-level factor A and the 3-level X, as we did for the
homogeneous 3-level designs: sum up the corresponding columns of contrasts and then do the operation of
module 3. The column thus obtained can be used to allocate a new 3-level variable Y and this exhausts the 5
DOF of the design. It should be noted however that X1, X2, Y1 and Y2 are not all orthogonal each other, but
the five contrasts are all estimable because their matrix is full rank.
Nel modello di regressione si sa che in caso di fattori – i regressori – tutti ortogonali tra loro, per indagare la
loro ortogonalità bisogna prendere una matrice X, pre-moltiplicata per la propria trasposta, e vedere se il
risultato è una matrice diagonale: in caso affermativo i regressori sono ortogonali, dunque le parti di varianza
si possono sommare, i regressori sono indipendenti e quindi si possono fare delle inferenze separate e i
coefficienti di regressione singoli e multipli sono uguali.
Per la regressione semplice si è anche parlato della varianza del coefficiente di regressione, espressa come

𝜎𝜀2
𝑉𝑎𝑟(𝑏) =
∑ 𝑥 ′ 2𝑖

Più i valori sono lontani dalla loro media, più i loro quadrati sono grandi e più la varianza è grande: ma la
distanza dei punti non può essere eccessiva, ma esiste un campo di operabilità: il principio è quello di
2
massimizzare ∑ 𝑥 ′ 𝑖 . Nel caso in cui si avessero due b, per ciascuno di essi singolarmente vale lo stesso
principio. Bisogna però tenere conto della probabilità che questi siano correlati. Come si può allora misurare
la bontà del piano? Nel caso di più b dunque

𝑉𝑎𝑟(𝑏) = 𝜎𝜀2 (𝑥 𝑇 𝑥)−1

Ricordando che
𝐾

det(𝐴) = ∏ 𝜆𝑖
𝑖=1

t 2 (𝐴) = ∑ 𝜆𝑖

bisogna massimizzare il determinante di (𝑥 𝑇 𝑥), così la varianza delle b sarà minima, massimizzando il
prodotto degli autovalori, lasciando la loro somma invariata. Si supponga di avere due numeri positivi con
somma assegnata (ad esempio pari a 10, dunque A+B=10). Si vuole che il loro prodotto sia il più alto possibile.
Il massimo vincolato si ha quando sono tutti uguali: nel caso specifico 5x5. Ciò prende il nome della D
optimality, ovvero quel criterio per cui 𝑥 𝑇 𝑥 ha il determinante più alto possibile e ciò si ottiene quando gli
autovalori sono tutti uguali e cioè quando il piano è ortogonale, determinando la situazione migliore.
Un piano bilanciato si costruisce costruendo un piano fattoriale completo: il numero di prove da fare sarà 𝑆1 ∙
𝑆2 ∙ 𝑆3 , ma si vorrebbe fare dei piani ridotti.
Come si riducono allora questi piani? Se i piani sono simmetrici si ricorda lo strumento di dimezzamento o di
divisione per 3, 4 e così via, ottenendo piani regolari. Tale strumento non è valido in questi casi e bisogna
ricorrere a tecniche euristiche. In presenza di due piani alternativi, quale è possibile scegliere tra i due?
Certamente quello con D optimality migliore, ma ciò non assicura che sia quello ottimo.
34
Nella matrice X non sarà necessario inserire tutti i DOF possibili, ma solo gli pseudo-regressori per cui si ha
interesse, ovvero i fattori principali del secondo ordine. Il numero di DOF che bisogna prendere in
considerazione e dunque il numero totale di colonne della matrice x sarà

Il primo termine è il DOF per la media, il secondo il numero dei DOF per i fattori principali e il terzo termine
i DOF delle interazioni.
Avendo un piano costituito da N righe e un certo numero di colonne e considerando di tale piano una quantità
M più limitata: da quanti elementi da estrarre deve essere composto il piano? Certamente non può avere un
numero di elementi minori ai DOF, potrebbe averlo uguale al numero dei DOF e in questo caso sarebbe un
piano saturo, altrimenti avrebbe determinante nullo. Da un piano completo di N righe, se ne estraggono con
un criterio qualunque, anche puramente casuale, un sottoinsieme molto ridotto, che però abbia numerosità
maggiore di M: si estrae un sottoinsieme di righe pari a 𝑁 ′ e si calcola il determinante, che potrà essere nullo
o positivo. Se il determinante è nullo, il piano è inutilizzabile perché non si potrebbe invertire la matrice.
Si potrebbero cercare piani migliori scambiando una riga tra le M prescelte con una di quelle N non prescelte,
per cui se lo scambio è favorevole – se la sostituzione porta a un determinante di 𝑥 𝑇 𝑥 maggiore, allora la
sostituzione si effettua – si passa dal primo al secondo piano, altrimenti si conserva il piano scelto inizialmente.
La valutazione dell’ottimalità del nuovo piano si può effettuare mediante il criterio della D-ottimalità. Gli
𝑁
scambi possibili da effettuare sono, in questo caso, pari a N*M, valore molto più piccolo di ( ) della
𝑀
situazione di partenza. Operando con tali scambi si giunge ad una situazione stabile, per cui qualunque
tentativo di scambio non risulta migliore, quindi si accetta il piano che si ha in quel momento: si procede
iterativamente, dunque, fino a un piano con determinante non nullo, per cui si ottiene un piano stimabile, ma
senza ottimizzare la varianza di b.
Il piano che si ottiene non è l’ottimo in assoluto, infatti ripetendo la prova si potrebbe ottenere un diverso piano
dato che la procedura stessa ha un punto di partenza che è spesso casuale (al variare del quale varierà la
soluzione finale), infatti si considerano M elementi a caso tra gli N con l’intento di migliorarli. Provando un
certo numero di volte, si potrebbe arrivare a ottenere un piano abbastanza stabile, ottenendo un criterio di
ottimalità abbastanza assodato: il metodo prende il nome di metodo di scambio.
Esistono altri criteri di ottimalità. Per esempio ci si potrebbe riferire a un singolo autovalore, nel caso in cui
questi non siano uguali, in particolare al più piccolo.
Su Minitab, STAT – DOE – CREATE. Si crei, dunque il paino fattoriale.
Si supponga di avere un piano 3 ∙ 4 ∙ 2 ∙ 3 dunque si avranno 72 prove. Si avranno

• 1 DOF per la media


• 2 + 3 + 1 + 2 = 8 DOF per i fattori del primo ordine
• Per i fattori del secondo ordine invece,

X 2 3 1 2
2 - 6 2 4
3 - - 3 6
1 - - - 2
2 - - - -
dunque i DOF saranno 23.

35
Per cui 𝑀 = 1 + 8 + 23 = 32. Si supponga però di realizzare 36 righe: i DOF dell’errore saranno dunque 4.
Non si ottiene un piano ortogonale con la metà delle prove, ma con 72 sì. Si può rinunciare all’ortogonalità,
ma ottenere una soluzione ammissibile, ma risparmiando sul numero di prove? È ciò che tale metodo.
Questa tecnica, dunque, non tiene conto del bilanciamento, ma solo della D ottimalità. Ci sono delle situazioni,
però, in cui il bilanciamento è un requisito essenziale.
Si distinguono due tipologie di bilanciamento:

• Bilanciamento del primo ordine


Prendendo un fattore, deve presentare lo stesso numero di prove per tutti i livelli, cioè ciascun livello
deve essere campionato equally often. Il numero di prove deve dunque essere pari al minimo comune
multiplo del numero dei livelli
• Bilanciamento del secondo ordine
In questo caso la proprietà precedente deve essere estesa e garantita anche per le interazioni.
Un piano si dice dunque bilanciato se gli incroci tra i livelli del primo e del secondo fattore sono ugualmente
campionati. Mentre la prima è raggiungibile sul numero delle prove fissate, per la seconda proprietà il numero
di prove potrebbe dover essere molto grande. Una soluzione potrebbe essere quella di fissare in modo assoluto
il criterio di bilanciamento del primo ordine e far sì che gli incroci siano bilanciati il più possibile tra di loro.
Questa proprietà è rappresentata analiticamente da

Si scambino due livelli all’interno di una stessa colonna, ciò equivale a scambiare due elementi interni con due
esterni, garantendo però che se prima il fattore era bilanciato continuerà a esserlo. Con il criterio della B
ottimalità, dunque, il bilanciamento del primo ordine è garantito per costruzione e si otterrà un bilanciamento
del secondo ordine as much as possible. Il calcolo della B ottimalità, inoltre, essendo basato soltanto su valori
e operazioni semplici, è molto più veloce. In questo metodo – Lombardo & Barone – si cerca di rendere gli
incroci il più possibile bilanciati tra loro.
La procedura proposta: si scambino due livelli all’interno di una stessa colonna, ciò corrisponde a scambiare
due elementi interni con due elementi esterni, garantendo così che se uno prima era bilanciato continui a
esserlo. Dovendo scegliere un piano bilanciato rispetto ad un altro, anziché usare il criterio della D-ottimalità
si è scelto quello della B-ottimalità che garantisce il piano del I ordine bilanciato in maniera assoluta e il piano
del II ordine as much as possible. Il calcolo della B-ottimalità, grazie alla sua semplicità computazionale, è
molto più veloce.
Tranne i piani più piccoli in cui la riduzione non si può fare, è possibile notare come il vantaggio del criterio
sia elevato, anche in termini di riduzioni. Se si fanno riduzioni algebriche si arriva ad un numero di prove
troppo grandi rispetto ad un metodo euristico (risulta più economica seppur si rinuncia all’ortogonalità). Si
cerca di valutare l’efficienza del determinante in termini di rapporto (media geometrica), all’aumentare degli
autovalori il determinante crolla/diminuisce. Questo criterio di efficienza relativa porta a dire che l’efficienza
è del 90%, ma all’aumentare del piano l’efficienza si riduce (80-70%), invece i piani scaturiti dalla procedura
della D-ottimalità tranne 4 casi sono sempre piani sbilanciati: non si ha quasi mai con la procedura della di-
ottimalità – tranne che per piccoli piani – la garanzia del bilanciamento.
Sempre in caso di piani non simmetrici, se si desidera avere due fattori ortogonali bisognerebbe fissare lo
stesso numero di prove per ogni casella: in un piano con fattori di 2 e 3 livelli bisognerebbe avere un numero
di prove multiplo di 6, distribuite in modalità equally often in ciascuna delle caselle, ovvero co 𝑛𝑖𝑗 = 𝑐𝑜𝑠𝑡. In
realtà esiste un metodo affinché siano ortogonali e che dunque non vi sia il doppio prodotto la condizione è
meno restrittiva e che l’interazione sia uguale nel caso sequential e nel caso adjusted. Il metodo prende il nome
di metodo del collasso e prevede che

36
𝑛𝑖. ∙ 𝑛.𝑗
𝑛𝑖𝑗 =
𝑛
Ciò dà origine alla tecnica del collasso. Si supponga di avere un piano così costituito

B1 B2 B3 B4
A1 2 2 2 2 8
A2 2 2 2 2 8
4 4 4 4 16

Se si volesse costruire ora un piano 2x3 è possibile prendere due livelli e collassarli, ovvero unificarli. Ciò che
scaturisce è

B1 B2 B3
A1 2 2 4 8
A2 2 2 4 8
4 4 8 16

È possibile dunque costruire un piano che sia ortogonale, senza essere bilanciato.

II PARTE – Stochastic Processes

6. Survival Analysis
Finora l’indipendenza è sempre stata l’obiettivo da garantire nell’ambito della pianificazione, anche se
complicato da fare in caso di dati di campo. La condizione è indispensabile, perché tutte le altre possono essere
controllate a-posteriori, mentre l’indipendenza è difficile da scoprire o eliminare in un secondo momento. Di
seguito verranno studiate le metodologie che prendono in considerazione le forme di dipendenza, solitamente
intesa in senso temporale (i.e. Se adesso piove è più probabile che piova anche tra un minuto piuttosto che tra
una settimana -> dipendenza temporale). La dipendenza potrebbe essere di tipo spaziale: due osservazioni
vicine nello spazio sono più correlate tra loro più di quanto non lo siano due lontane. (i.e. Se sta piovendo in
Via Basile è più probabile che piova anche in Via Piave, piuttosto che a Messina -> dipendenza spaziale).

Si tratta di processi stocastici, che si svolgono ed evolvono nel tempo. Bisogna distinguere due grandi
categorie:

• Processi di punto, ovvero processi in cui la variabile aleatoria è quanto tempo intercorre tra un evento
e il successivo. Solitamente, non si valuta l’entità del fenomeno, ma soltanto che esso accada in un
determinato punto (i.e. Mentre si guida, la gomma si fora: la variabile aleatoria è quanto tempo
intercorre tra una foratura e la successiva)
• Processi continui, ovvero processi che si svolgono in modo continuo, rilevandolo a intervalli costanti.
In questo caso la variabile aleatoria non è l’intertempo, ma a intervalli costanti si rileva a quanto è
arrivato quel particolare fenomeno (i.e. Si sta valutando l’usura di un utensile da taglio: a intervalli
viene rilevato il livello di usura)

6.1 Processi di punto

Formalmente bisogna definire una variabile aleatoria o variabile di conteggio 𝑁(𝑡), ovvero una variabile
casuale che indica il numero di arrivi tra 0 e t: l’inizio potrebbe essere un inizio fisico, effettivo o l’inizio
dell’intervallo di osservazione. Questa variabile va accumulandosi, senza tenere al momento in considerazione
le entità che escono. Questa variabile aleatoria ha un valore atteso 𝑀(𝑡) che dipende dal tempo. La sua derivata
nel tempo è definita come Rate of accurance of failure (𝑚(𝑡)) e rappresenta il tasso istantaneo di cambio nel
numero atteso di arrivi. È esperienza comune che al supermercato vi siano orari più o meno affollati.
Osservando solo la variabile M essa va aumentando, ma riducendo l’intervallo di osservazione la quantità di
37
persone che arrivano è diversa: se questo intervallo di tempo anziché essere considerato discreto, ma
infinitesimo, si ottiene il tasso di cambio istantaneo, mostrando come M abbia un’evoluzione diversa.
La variabile casuale 𝑁(𝑡) dice al tempo 𝑡 fissato qual è il numero di elementi fin lì accumulati. Passando a
ragionare su 𝑡, è possibile individuare il tempo 𝑇 a cui è arrivato il k-esimo arrivo. Chiaramente 𝑁(𝑡) e 𝑇𝐾
sono in correlazione biunivoca: in particolare, fissando un punto 𝑡:
1. se il tempo di attesa del k-esimo arrivo è maggiore di 𝑡, allora entro 𝑡 sono arrivati meno di K elementi.
Si sta dunque instaurando una relazione tra le variabili aleatorie t ed N. In particolare t indica quanto
tempo si aspetta per il k-esimo arrivo, ovvero il tempo cumulato di attesa, mentre k indica il numero
di arrivi.
2. Se 𝑇𝑘 ≤ 𝑡 allora 𝑁(𝑡) ≥ 𝑘, cioè all’istante t ci sono stati almeno k arrivi.
3. Se 𝑡1 < 𝑇𝑘 < 𝑡2 allora 𝑁(𝑡1 ) < 𝑘 ≤ 𝑁(𝑡2 ). Ovvero in 𝑡1 sono arrivati meno di k elementi, in 𝑡2 ne
sono arrivati almeno k
La relazione ricorda molto il legame tra variabile Gamma e Processo di Poisson.
Si supponga di chiedersi quale sia la probabilità che tra 𝑡 e 𝑡 + 𝑠 vi siano esattamente 𝑘 arrivi.
Un processo si dice a incrementi stazionari quando la distribuzione dipende solo dalla lunghezza s
dell’intervallo di esposizione e non da traslazioni a destra e sinistra.
Viene definito a incrementi indipendenti quando

Si immagini di avere la probabilità che nell’intervallo tra 𝑡1 e 𝑡1 + 𝑠1 ci siano 𝑘1 arrivi, tra 𝑡2 e 𝑡2 + 𝑠2 ci siano
𝑘2 arrivi e così via. Si prendono cioè degli intervalli temporali, si collocano anche in lunghezza diversa
(𝑠1 , 𝑠2 , 𝑠𝑛 ) e in punti diversi (𝑡1 , 𝑡2 , 𝑡𝑛 ) e ci si chiede qual è la probabilità del numero di arrivi 𝑘1 , 𝑘2 , 𝑘𝑛 . Fare
questo coincide con il calcolare la probabilità dell’intersezione di un qualunque insieme al variare della
posizione assoluta, della distanza e del numero di arrivi. Se al variare di tutte queste grandezze la probabilità
dell’intersezione è data dal prodotto delle probabilità, allora il processo si dice a incrementi indipendenti.
La funzione di intensità 𝑖(𝑡) mostra la probabilità che in un intervallo ci sia almeno un arrivo e non
necessariamente il primo.

Il tasso ℎ(𝑡) misura la probabilità istantanea che un evento unico si verifichi in un intervallo infinitesimo,
ammettendo che non si sia mai verificato precedentemente (i.e. uno stesso cliente può arrivare
contemporaneamente a un suo sportello). Tipicamente ciò viene associato al guasto.
Ammettendo che eventi simultanei siano impossibili, allora 𝑖(𝑡) = 𝑚(𝑡).
Se le seguenti condizioni valgono

• 𝑁(0) = 0, ovvero al tempo 𝑡 = 0 si parte con 0 arrivi


• Dati 𝑡1 , 𝑠1 , 𝑡2 , 𝑠2 il processo è a incrementi indipendenti: cioè fissato qualunque coppia di arrivi tra 𝑡1
e 𝑡1 + 𝑠1 , 𝑡2 e 𝑡2 + 𝑠2 la probabilità congiunta di arrivo è data dal prodotto della probabilità
𝑑𝐼(𝐼)
• Venga definita una funzione di intensità 𝑖(𝑡) =
𝑑𝑡
• Siano impossibili eventi simultanei in uno stesso intervallo

38
allora la distribuzione di 𝑁(𝑡) è un processo di Poisson con

con valore atteso 𝑀(𝑡) = 𝐼(𝑡) e funzione di affidabilità 𝑅(𝑡) = 𝑒 −𝐼(𝑡) .


In generale per qualsiasi funzione di intensità, è possibile calcolarla all’interno di qualsiasi intervallo, cioè

Detto w il tempo di attesa di un arrivo, si definisce

la probabilità che bisogna attendere w per un arrivo.


Il valore atteso

mostra, invece, qual è il tempo di attesa tra un arrivo e un altro.


Esercizio. Supposto che siano passate 𝑡1 ore, si cerca la probabilità che non si verifichi un guasto entro 𝑡2 e
che il processo viene ben descritto da una Weibull. Allora
𝑅(𝑡2 ) 𝛼 𝛼
𝑃𝑟𝑜𝑏(𝑇 > 𝑡2 |𝑇 > 𝑡1 ) = = 𝑒 −[(𝜆∙𝑡2 ) −(𝜆∙𝑡1 ) ]
𝑅(𝑡1 )
Se 𝛼 = 1 si ricade nel caso di processo omogeneo con una distribuzione esponenziale. Se, invece, 𝛼 > 1
l’affidabilità decresce, cioè il processo diventa sempre più intenso ed è sempre minore la probabilità che non
ci siano arrivi perché l’intensità va crescendo: l’intensità istantanea aumenta. Se, invece, 0 < 𝛼 < 1 l’intensità
diminuisce.
Si è parlato dunque di processi in cui un’osservazione è una successione di variabili aleatorie, non mescolabili
tra loro, ma ordinate secondo un parametro temporale, cioè man mano che passa il tempo vi è una dipendenza
tra l’osservazione successiva e quella precedente. Nel primo caso la variabile aleatoria è rappresentata
dall’intertempo.
Bisogna distinguere due modalità di processi, ovvero quelli di minima riparazione e di rinnovo.
Si supponga di avere un’auto e di valutare gli arrivi in termini di foratura. Quando si fora uno pneumatico o si
ripara o si cambia: se si ripara, sostanzialmente, si riprende la marcia col pneumatico vecchio, cioè la I(t) resta
uguale a quella di prima – il valore atteso è arrivo a un determinato valore e rimane invariato all’istante prima
della foratura –, mentre nel caso di rinnovo si ha uno pneumatico nuovo, dunque il valore atteso riparte da
𝑀(0). Nel caso di un arrivo a uno sportello il fatto che arrivi una nuova persona non modifica il valore atteso
del fenomeno, in quanto l’intensità va variando indipendentemente dal fatto che la persona sia arrivata o meno
(minima riparazione). In una macchina composta da molti elementi si vuole determinare la probabilità di
guasto: se si sostituisce un pezzo, cosa succede all’affidabilità? La sostituzione non ripristina la macchina allo
stato originario, dunque l’intervento è di minima riparazione.

6.2 Minima riparazione

I modelli di minima riparazione sono quei modelli in cui quando si verifica l’arrivo, questo non modifica lo
stato del sistema, ovvero non altera la situazione in termini di affidabilità.
Per fare inferenza serve la funzione di verosimiglianza. Naturalmente in questi casi bisogna avere una modalità
di rilevazione dei dati, predisponendo in modo adeguato il trattamento di tali dati. Quando si osserva il processo

39
bisogna tenere conto che questo potrebbe essere esteso all’infinito. Esistono due modalità di arresto
dell’osservazione del processo:

• finché non si raccolga un dato numero di arrivi, dunque si fissa 𝑛 e l’intervallo di osservazione è (0, 𝑡𝑛 ]
• finché non si raggiunge un determinato istante, dunque si fissa 𝑇 e la variabile è proprio 𝑛
6.2.1 Arrivi prefissati
Si supponga di voler fermare l’osservazione all’arrivo 𝑛 − 𝑒𝑠𝑖𝑚𝑜. Si precisi che le 𝑡𝑖 non sono indipendenti
tra loro, in quanto i tempi di attesa sono tra loro vincolati: se per il primo si è aspettato di più, è logico pensare
che per il secondo bisogna aspettare ancora di più, al pari dell’intertempo.
Con la lettera minuscola si individua la variabile aleatoria, con la maiuscola un punto precisato. La funzione
di densità è pari alla derivata della funzione di ripartizione. La probabilità che il primo arrivo si verifichi in 𝑇1 .
𝑑𝐹(𝑡) 𝑑𝑅(𝑡)
𝑓(𝑇1 ) = | 𝑡 = 𝑇1 = − | 𝑡 = 𝑇1 = 𝑖(𝑇1 )𝑒 −𝐼(𝑇1 )
𝑑𝑡 𝑑𝑡

Come si calcola la funzione di affidabilità congiunta? Essa è la probabilità che un evento si verifichi all’istante
t2 condizionatamente al fatto che non si sia verificato entro l’istante t1 ed è dato dal rapporto delle affidabilità.
Questo rapporto qui sotto è quindi la probabilità condizionata che un evento si verifichi al punto t ammesso
che non si sia verificato entro il punto t1. Dato il primo arrivo, la probabilità che il secondo arrivo si verifichi
a 𝑇2 è una probabilità condizionata, ovvero

Per il terzo arrivo

E continuando il ragionamento fino all’elemento n

Per la probabilità congiunta, dal momento che non sono indipendenti, bisogna moltiplicare tra loro le
condizionate, dando luogo a

La funzione di densità congiunta esprime la probabilità che il primo evento sia arrivato in 𝑇1 congiuntamente
al fatto che il secondo sia arrivato a 𝑇2 , il terzo a 𝑇3 e l’ennesimo a 𝑡𝑛 .
Ricavando la funzione di densità dell’ultimo arrivo

Si noti come in questo caso si individua la probabilità che l’ultimo arrivo si verifichi a 𝑡𝑛 indipendentemente
dagli arrivi precedente: non è una probabilità condizionata. Se il tempo dell’arrivo n deve essere maggiore di
t, significa che la cumulata degli arrivi 𝑁(𝑡) è minore del numero di arrivi 𝑛 a cui si è scelto di fermarsi. Cioè

40
se 𝑇𝑛 > 𝑡 allora 𝑁(𝑡) < 𝑛. Il risultato finale è una generalizzazione della variabile gamma, dove a
denominatore si ha 𝛾𝛼 e quando è un intero questo diventa attraverso la recursività il fattoriale del numero.
Sia adesso la funzione di intensità una funzione precisa, ovvero 𝐼(𝑡) = (𝜆 ∙ 𝑡)𝛼 . Ciò si semplifica notevolmente
perché l’espressione diventa

Ovvero una gamma generalizzata! In particolare se 𝑛 = 1 si ottiene una Weibull, mentre se 𝛼 = 1 una gamma.
Ciò che bisogna calcolare è la funzione di densità congiunta, come precedentemente, da 1 a 𝑛 − 1
condizionatamente a 𝑡𝑛 , ovvero

6.3.2 Tempo prefissato


La seconda regola di arresto, invece, prevede una nuova variabile aleatoria, ovvero il numero di arrivi 𝑛. In
questo caso la prima cosa da calcolare è la funzione di densità congiunta per 𝑛 condizionato, ovvero
𝑓(𝑡1 , 𝑡2 , … , 𝑡𝑛 |𝑛) =

Nel caso di sistemi di minima riparazione, in cui quando arriva l’evento ciò non porta la funzione di intensità
al valore iniziale, ma permette di andare avanti nel processo stocastico senza alterare l’andamento della
funzione di intensità (il sistema vecchio era e vecchio resta), vi sono due regole di arresto, di cui la prima al
raggiungimento di un determinato numero di elementi e la seconda al raggiungimento di un determinato
istante: si precisa che 𝑡1 , 𝑡2 e così via non sono intertempi, ma tempi di attesa rispettivamente del primo e del
secondo arrivo, di conseguenza SICURAMENTE 𝑡2 > 𝑡1 . Poiché sono dipendenti, bisogna tenere conto delle
probabilità condizionate. La probabilità dell’ultimo arrivo è espressa da un’espressione con densità di
probabilità generica, che è possibile particolarizzare in termini di potenza come generalizzazione di una
gamma: arrivo n con funzione di densità di potenza. Calcolando la funzione di densità congiunta delle prime
𝑛 − 1 condizionatamente a 𝑡𝑛 , in modo da confrontare con la seconda regola. Sono presenti 𝑛 − 1 grandezze
e al denominatore la funzione di intensità è calcolata in 𝑡𝑛 . Nella seconda regola, invece, affinché sia possibile
confrontare le due grandezze bisogna condizionarla all’ultima variabile aleatoria – cioè 𝑛.

6.4 Processi di rinnovo

Gli intertempi 𝑥1 , 𝑥2 , … , 𝑥𝑘 sono indipendenti: l’elemento sostituito è, infatti, indipendente da quello


precedente. Ciò comporta una notevole semplificazione, perché la probabilità che al tempo t sia arrivato un
numero di arrivi maggiore di k, cioè che il tempo di arrivo di k sia minore dell’istante t è dato dalla somma
degli intertempi.

41
La probabilità di una somma è una convulazione, ma appoggiandosi alla funzione caratteristica, data dal
prodotto delle funzioni caratteristiche. Per un numero di arrivi sufficientemente grande, questa grandezza,
opportunamente standardizzata, per il TLC tende a distribuirsi come una normale standardizzata, con valore
atteso

e varianza

Se 𝑋𝑘 si distribuisce secondo una normale con valore atteso 𝐸[𝑋𝑗 ] = 𝜇 e 𝑉𝑎𝑟[𝑋𝑗 ] = 𝜎 2 , allora 𝐸 [𝑇𝑘 ] = 𝑘𝜇 e
𝑉𝑎𝑟[𝑇𝑘 ] = 𝑘𝜎 2 , dunque

Qual è la variabile aleatoria della quale ci si sta occupando? 𝑇𝑘 cioè il tempo di attesa del k-esimo arrivo! K,
invece, non è una variabile aleatoria, bensì una quantità fissata e quindi ci si deve chiedere quale sia il tempo
di attesa del k-esimo arrivo. Si supponga invece, come è stato fatto nel processo di Poisson, di scambiare il
ruolo di queste due grandezze; per cui 𝑇𝑘 diventa un valore fissato rinominato T, mentre k è la variabile
aleatoria che si chiamerà N. Ci si chiede: prendendo un intervallo di osservazione di T, qual è la distribuzione
del numero di arrivi? Cioè quale è la probabilità che tra 0 e T si presentino 0, 1, 2 arrivi? Questa probabilità è
la funzione di ripartizione (quindi la probabilità che sia minore di una certa quantità) e allora si può
direttamente procedere con la sostituzione. Allora si pone 𝑘 = 𝑁(𝑡) per esplicitare il fatto che ora la variabile
casuale è N(t).

Per risolvere la diseguaglianza all’interno delle parentesi, si esegue il quadrato del primo termine e del secondo
termine che porta alla seguente espressione che in funzione della variabile N(t) è un’equazione di secondo
grado

Le cui soluzioni sono

Dalla disuguaglianza scaturiscono due soluzioni, dal momento che 𝑧 è al quadrato. Se si fosse imposta una
probabilità pari ad 𝛼 si sarebbe ottenuta la stessa formulazione. Le due equazioni dunque prevedono una volta
il quadrato di 𝑧𝛼 e 𝑧1−𝛼 che, essendo simmetrici, sono dunque uguali.
Se 𝑃𝑟𝑜𝑏 {𝑁(𝑡) ≥ 𝑘} = 𝑃𝑟𝑜𝑏{𝑇𝑘 ≤ 𝑡} allora bisogna prendere la più piccola, altrimenti la più grande.

42
6.5 Inferenza su uno, due o più sistemi

Finora si è parlato di probabilità, vedendo un processo stocastico e in particolare ci si è concentrati nello studio
di processi stocastici che abbiano le quattro proprietà evidenziate in precedenza: sotto queste condizioni è
rappresentabile attraverso una variabile di Poisson variabile nel tempo. Si tratta di un processo di Poisson
omogeneo se la densità di intensità ha la forma 𝜆 ∙ 𝑡, cioè la derivata nel tempo è costante.
Adesso si osserverà in che modo fare inferenza nel caso in cui si abbia un processo di Poisson omogeneo
(HPP), in cui si ha un solo parametro non variabile nel tempo (𝜆) pari al reciproco del valore atteso: dunque lo
stimatore di massima verosimiglianza sarà il reciproco di 𝑚.
Nel caso di un Processo di Poisson NON omogeneo (NHPP) cioè in presenza di una funzione di densità
generica come

e per 𝑛 fissato, non può essere usato un approccio di tipo parametrico, dal momento che non si conoscono i
parametri di distribuzione. Bisogna fare dunque delle assunzioni e, in particolare, si ipotizza che la funzione
di intensità sia una funzione di potenza e che in particolare segua una distribuzione di Weibull.
Passando al logaritmo e, quindi, alla funzione di verosimiglianza si ha

Derivando e ponendo uguale a zero, si ottengono i valori dei parametri che massimizzano la funzione di
verosimiglianza, ovvero

Queste due quantità non sono lineari, dunque è una statistica distorta, vi è una forma per cui questa statistica
può essere corretta, ma la cosa più ovvia da fare è cambiare la forma dei parametri, che alla fine sono soltanto
un modo per descrivere questa distribuzione e dunque è possibile scegliere arbitrariamente la forma che devono
avere, ragionando su una trasformazione dei parametri che diano una forma più semplice da studiare: è per
esempio preferibile ragionare sui loro reciproci.
Poiché si tratta di una teoria basata sul differenziale, avendo lo stimatore di massima verosimiglianza dei
parametri originari è possibile ottenere quello dei reciproci dei parametri, come reciproco degli stimatori stessi

𝑡
In 𝛽̂ non è presenta l’ultimo addendo in sommatoria in quanto log 𝑛 = 0. La statistica 𝛽̂ ha una funzione
𝑡𝑛
̂
2𝑛𝛽
distribuzionale molto semplice, cioè nella forma si distribuisce come una 𝜒 2 con 2(𝑛 − 1) DOF. Ciò
𝛽
significa che

2𝑛𝛽̂ 2𝑛𝛽̂ 2𝑛𝛽̂


𝜒12 < < 𝜒22 → 2 < 𝛽 < 2
𝛽 𝜒2 𝜒1

43
𝜐 = 2(𝑛 − 1)

𝛼1 𝛼2

𝜒12 𝜒22
È possibile proseguire con la verifica delle ipotesi: se cade dentro l’intervallo è possibile accettare l’ipotesi.
Per il secondo parametro, invece, il discorso è più complicato in quanto la distribuzione non è altrettanto
semplice, ma Minitab svolge tutto automaticamente. Una stima affidabile di questa quantità non è disponibile
perché gli intervalli di confidenza sono molto ampi, tuttavia il vero parametro di interesse è proprio 𝛼 o 𝛽, che
dice se l’intensità del fenomeno va aumentando oppure no: registrando un intervallo di confidenza in cui è
compreso il valore 1, si sta accettando il fatto che il processo di Poisson sia un processo omogeneo, in quanto
𝛼 = 1 significa che la funzione di densità sia costante, quindi è possibile avere delle differenze nella funzione
di densità che si sta osservando, ma sono differenze non significative nel tempo quindi è possibile assumere
che il processo sia omogeneo. Se invece questa quantità è fuori dall’intervallo e quindi l’intervallo è tutto
concentrato per valori più grandi o più piccoli si ha una stima puntuale per capire come si evolve il parametro.
Nel caso in cui si ha la necessità di fare la stima di massima verosimiglianza della funzione di intensità al
tempo 𝑡𝑛 si può stimare direttamente l’intensità del fenomeno come

e nel caso in cui 𝑛 = 𝑡𝑛 l’intensità di arrivi si mantiene costante nel tempo: tutto dipende da α, per cui è
possibile ottenere l’intervallo di confidenza in modo analogo al caso precedente.
Tutto ciò, nel caso in cui non si è in presenza di 𝑛 assegnato, ma di 𝑡 assegnato, cambia: prima si ottiene la
probabilità congiunta condizionatamente a 𝑛, che adesso è una variabile aleatoria. Il valore temporale al quale
fermare l’osservazione si chiama 𝑡. In base alle considerazioni precedenti tale funzione è

Si perviene a un’espressione che è molto simile alla funzione congiunta per 𝑛 assegnatp. Nel primo caso si ha
la funzione di verosimiglianza in cui nell’esponenziale appare 𝑡𝑛 mentre nel secondo caso 𝑡. Nonostante il
modello sembri radicalmente diverso, in realtà, alla fine vi è una modifica abbastanza limitata. Le stime di
massima verosimiglianza, laddove si ha 𝑡𝑛 bisogna sostituire 𝑡, quindi la stima di massima verosimiglianza di
Beta è molto simile alla precedente, ma nel numeratore del logaritmo bisogna sostituire 𝑡. Ciò implica che
l’ultimo termine non è univocamente nullo, dunque non si hanno 𝑛 − 1 addendi, ma 𝑛. Mentre prima i DOF
erano 2(𝑛 − 1), adesso la distribuzione ha 2𝑛 DOF: per il resto non cambia nulla.
Immaginando di avere un sistema multiplo, ovvero si seguono 𝑗 = 1, … , 𝑗 = 𝐽 sistemi (i.e. un’officina con
60 autobus), tutti i sistemi seguono lo stesso processo? Bisogna modellizzare i tempi di arrivo, con lo scopo di
eseguire una stima congiunta di queste quantità e di effettuare un test per capire se i sistemi si comportano allo
stesso modo. La funzione di verosimiglianza di un elemento è

44
Da cui si ricavano gli stimatori di massima verosimiglianza

Nel caso di 𝑡 fissato, invece:

Adesso è possibile realizzare una stima di massima verosimiglianza congiunta.


La cosa più interessante è sottoporre a verifica che i sistemi abbiano lo stesso alpha, cioè che la funzione di
intensità si mantenga uguale. Se i sistemi sono due, il test è abbastanza semplice: bisogna solo saggiare che le
due chi-quadrato abbiano lo stesso valore, rapportandole. Un po’ più complesso, invece, quando si
sottopongono a verifica J sistemi: allora l’ipotesi di uguaglianza della varianza si saggia con il test di Bartlett,
che saggia che più Beta abbiano lo stesso valore.

Il logaritmo applicato a una chi-quadrato tende a linearizzarla, operando una trasformazione del genere

Si supponga di seguire 120 insetti: data la pazienza degli entomologi non è stato necessario fissare una modalità
di arresto, ovvero sono stati seguiti fino alla morte degli stessi. Sono state esaminate due specie. Per ogni specie
30 sono stati alimentati secondo un determinato cibo e i restanti 30 con un altro cibo: è un esperimento pilotato.
Si vuole saggiare se sotto-classe per sotto-classe (si hanno, infatti, 4 sistemi dati dall’interazione specie-cibo).
Attraverso STAT – RELIABILITY – DISTRIBUTION ANALYSIS (RIGHT CENSORING) –
DISTRIBUTION ID PLOT. Le variabili sono rappresentate dai FAILURE TIMES, bisogna suddividerle per
variabili, ovvero l’interazione cibo-specie. Le distribuzioni a disposizione sono molteplici, in questo caso si fa
uso della Weibull, per i pregi descritti. Potrebbe essere utile cercare un’altra distribuzione migliore attraverso
i distribution plot. In DISTRIBUTION OVERVIEW PLOT, invece,
Il censoring (censura, ovvero taglio) rappresenta il punto di partenza dei dati: in particolare si sa da quando
iniziano le osservazioni e si stabiliscono regole di terminazione, dunque il censoring è a destra.

6.6 Metodi grafici e test delle ipotesi

Esistono dei metodi grafici, ovvero metodi che mettono in condizione di poter giudicare attraverso dei test se
alcune assunzioni fatte sono plausibili oppure no. Il primo test, implementato da Minitab, è il test di Duane.

45
𝑁(𝑡𝑘 )
Il test di Duane è riferito alla quantità che è , ovvero il tasso di arrivo cumulato rispetto a t. Si assume che
𝑡𝑘
il processo stocastico segue una funzione di intensità che è esattamente pari a una funzione di potenza: la
𝑁(𝑡𝑘 )
weibull. Se il valore atteso di N è 𝐸 [ ] = 𝜆(∙ 𝑡)𝛼 , il logaritmo dà
𝑡𝑘

In un grafico in cui si mette in ascissa il logaritmo di t e in ordinata N, a cui si potrebbe sostituire i valori
ottenuti nel punto t. Si ottengono una serie di punti che dovrebbero essere ben interpolati da una linea retta, se
la funzione di intensità che ha generato i punti ha effettivamente questa forma.
Se i punti sono ben allineati bisogna studiare la linea retta, stimando attraverso il metodo dei minimi quadrati
i parametri. In particolare se l’ipotesi che il coefficiente angolare sia zero possa essere accettata è possibile
concludere che il Processo di Poisson sia omogeneo.
Un altro test è quello di Laplace. Anche questo test serve ad accertare se si è in presenza di un HPP. Mentre il
test di Duane parte dalla necessità di assumere che sia una distribuzione di potenza, in questo caso si è nel caso
in cui la funzione di intensità potrebbe non essere di potenza. Il test di Laplace è un test numerico e ha la
seguente forma

Si può dimostrare che in presenza di un processo di Poisson omogeneo, questa statistica deve trovarsi
all’interno di due imiti. Ma se questo test risulta superiore al percentile di destra o sinistra, può succedere
qualcosa.

10 10 6,25 6,25 3 3
7 17 6,25 12,5 5 8
5 22 6,25 18,75 7 15
3 25 6,25 25 10 25
39 37,5 26
𝑡𝑛
Nel caso di intensità costante ci si aspetta un valore pari a . Valori significativamente più grandi sono indice
2
di un’intensità crescente e viceversa.

Un altro test è il Total Time on Test (TTT) proposto inizialmente per sistemi non riparabili e poi esteso anche
agli altri. Le due grandezze prese in considerazione sono gli intertempi e i tempi cumulati. Nelle ascisse viene
𝑆𝑖 𝑖
posizionata una variabile aleatoria 𝑢𝑖 = e in ordinata e così via, dove 𝑠𝑖 sono le cumulate e, dunque,
𝑆𝑛 𝑛
grandezze crescenti. Si può dimostrare che i tempi di arrivo sono variabili casuali esponenziali – dunque con
tasso di arrivo costante – in ascissa e ordinata si avranno due realizzazioni indipendenti della stessa variabile
aleatoria. Si ottiene dunque un quadrato in cui vi sono n punti. È possibile interpolare una linea retta, tracciando
la diagonale. Se i punti si allineano bene allora è possibile concludere che il processo di Poisson sia omogeneo.
Se invece si presenta una gobba con concavità verso l’alto o verso il basso è possibile ipotizzare che il processo
non sia omogeneo, ma che la funzione si mantiene sempre crescente o decrescente. Un andamento a serpentina,
infine, fa scartare entrambe le ipotesi. Il grafico è stato modificato con una trasformazione particolare e
prendere il nome di MIL-HDBK (Military Handbook). Si basa sul fatto che, per un numero fisso di arrivi, la
somma dei primi 𝑛 − 1 tempi di interarrivo si distribuisce secondo una Gamma con 𝛼 = 𝑛, mentre W si
distribuisce come una chi-quadrato con (2𝑛 − 1) DOF.

L’ultimo test, quello di Cramer Von Mises che serve a saggiare la funzione di intensità a vari punti, sotto la
condizione che la funzione di ripartizione sia
46
Il test assume la seguente forma

2𝑘−1
Sull’asse delle ascisse viene riportato il valore di 𝑅𝑘 mentre in y il suo valore atteso . Anche questo test
𝑛
serve a saggiare l’omogeneità del processo di Poisson.

6.7 Kaplan Meier estimator

Molto spesso una funzione esplicita della funzione di intensità non è individuabile, in quanto – anche se
solitamente sono monotone – potrebbero non seguire le caratteristiche generali: per tale motivo a volte
conviene utilizzare test non parametrici. Utilizzando lo stimatore di Kaplan-Meier si stima dunque l’intensità
istante per istante, esattamente in ciascun punto in cui si verifica un arrivo: tra un arrivo e un altro una stima
della funzione non esiste, ma se gli arrivi sono sufficienti è possibile pensare a un’interpolazione. Una stima
non parametrica della funzione di intensità è la stima di un suo valore in un determinato punto senza fissare
una funzione che dia un modello all’andamento. Vi sono dunque due censure, ovvero per tempo predefinito
(A) o arrivi prestabilisti (B). Nel primo caso bisogna distinguere la censura a sinistra da quella a destra, in cui
non è noto da quando ha cominciato il soggetto a operare nel sistema. È possibile, dunque, osservare in
ciascuna finestra di osservazione le unità entrate e quelle uscite, mentre per differenza è possibile individuare
le unità “morte”. Questo intervallo viene realizzato da un arrivo a un altro.

Esempio. Si stanno seguendo 20 unità. Quando muore il primo, si registra il tempo tra l’inizio
19
dell’osservazione e la prima morte: a 𝑡1 si ha un tasso di sopravvivenza pari a . A 𝑡1 dunque entrano 19
20
18
elementi, ma al tempo 𝑡2 ne escono 18, dunque il tasso di sopravvivenza sarà di . Questa è dunque la stima
20
della probabilità condizionata: ammesso che ne siano entrati x, fornisce la probabilità che ne escano y.

Può capitare che un elemento non esca per altri motivi: in questo caso l’unità in esame va esclusa sia dal
numeratore che dal denominatore.

Essendo la probabilità dell’evento

e assumendo l’indipendenza nell’eliminazione dei differenti intervalli di tempo e per il principio delle
probabilità composte, la stima di Kaplan-Meier della funzione di sopravvivenza è

Insieme al calcolo estremamente semplice della stima della funzione di affidabilità, è possibile calcolare anche
il valore atteso e la varianza della funzione di campionamento, eseguendo il logaritmico

47
si avrà che

È possible ottenere un intervallo di confidenza per la funzione di affidabilità al tempo t, assumendo che il
valore stimato al valore t si distribuisca normalmente con media 𝑅(𝑡) e varianza appena indicata. La difficoltà
di questa procedura deriva dal fatto che gli intervalli sono simmetrici, mentre la stima della funzione di
affidabilità è limitata tra 0 e 1, dunque intervalli simmetrici risultano inappropriati perché i limiti potrebbero
ricadere fuori dall’intervallo ammissibile.
La regressione è un modello in cui le variabili in ingresso e uscita sono quantitative. In realtà questa è una
particolarità del modello di regressione lineare, ma la regressione può essere estesa in generale anche per fattori
qualitativi. La situazione più semplice è quando si hanno variabili qualitative, ricorrendo al test del chi-qudrato.
Il metodo più potente, tuttavia, è quello in cui ci si ricollega alla regressione.
Si supponga che la variabile di risposta sia di tipo qualitativo e, in particolare, dicotomica. In questo caso la
v.c. Y, che può assumere solo uno dei due valori 0 o 1 in dipendenza di una (una sola, per adesso) variabile
d‟ingresso X, è una bernoullia-na e il suo v.a. 𝐸(𝑌|𝑋) = 𝜑(𝑋) è contenuto nell‟intervallo [0,1].
Per ottenere soluzioni che siano più maneggiabili e più facilmente interpretabili, di solito si cerca una
trasformazione in modo da istaurare un legame lineare tra i valori della X, teoricamente appartenenti a tutto
l’asse reale, e il v.a. della Y:

Tale trasformazione, detta link function, deve risultare monotonicamente crescente o decrescente e ne esistono
vari tipi. Sono state proposte

𝜑∙𝜓
Nel caso (b) la quantità si distribuisce secondo una binomiale con valore atteso 𝜑 e varianza . La più
𝑛
adottata, però, è la (c). La quantità si distribuisce nell’intervallo (−∞; +∞).
La trasformazione inversa della funzione logistica è

Questa trasformazione ha una caratteristica. Supponendo di fare il calcolo appena riportato nel punto base x e
si ripeta il calcolo in 𝑥 + 1 e se ne faccia la differenza. Ciò che si ottiene è

Quindi exp(α) rappresenta la quota tra le probabilità (odd) di base, ossia il rapporto tra la probabilità di successo
e di insuccesso quando X=0; exp(β) rappresenta il rapporto tra tali quote (odd ratio) per incremento unitario
di X.

48
Si noti che exp(β) rappresenta il rischio relativo, ossia il rapporto tra i rischi (probabilità di accadimento) che
si ha aumentando di un’unità la X. Per esempio, se β =2, per incremento unitario di X, si ha un raddoppio del
rischio. In particolare nel caso in cui anche la X è una grandezza dicotomica (saremmo quindi nella situazione
delle tabelle di associazione), in cui X=0 e X=1 rappresentano rispettivamente l’assenza o la presenza di un
qualche fattore di rischio, l’odd ratio misura l’amplificazione del rischio causata dalla presenza di quel fattore.
In quest’ultimo caso, la l.f. è

Imponendo come link function la funzione logistica e imponendo le derivate in X=1 e in X=0 pari a zero, si
ottengono gli stimatori pari a

Nel caso in cui si introducessero più X si avrebbe un modello di regressione multipla, dunque la link function
potrebbe essere molto più complessa. Esaminando diversi soggetti trattati secondo diversi fattori, in una
ripetizione di eventi, è possibile individuare i fattori significativi rispetto al fatto che questi facciano aumentare
o diminuire il rischio relativo.

6.8 Il modello di Cox

Il modello di Cox è un modello semplificato che assume che la funzione di rischio si possa distinguere nel
prodotto di due funzioni: la prima dipende dal tempo e non dalle x (hazard baseline), mentre la seconda
dipende dalle x, ma non dal tempo ().

Nel modello di Cox, se tutte le variabili assumono il valore zero, la formula si riduce all’hazard baseline. Una
sua proprietà importante è che la forma è indefinita, facendone un modello non parametrico. La potenza di
questa rappresentazione è quella di dare una grandezza (il rischio relativo) che non dipende da t, ma soltanto
da x: per incremento unitario di x, il rischio relativo aumenta sistematicamente nel tempo di una certa quantità
pari a

7. Time series analysis


7.1 Processi stocastici e time series

Finora si è preso in considerazione come variabile aleatore gli intertempi – che accumulati danno il tempo di
attesa dell’elemento i-esimo -, senza occuparsi del fenomeno (i.e. arrivo di un cliente, non quanto tempo sta;
si buca uno pneumatico, quanto è grosso il buco). Da adesso la variabile aleatoria sarà, invece, il fenomeno
che si sviluppa con continuità, anche se verrà rilevato in intervalli costanti. Qualora l’intervallo di
campionamento non fosse costante, o in assenza di dati, il problema sarebbe notevole: è un argomento di punta
nella letteratura statistica, soprattutto dal punto di vista applicativo. Il dato mancante può essere di vari tipi,
può mancare casualmente (caso più favorevole) o correlatamente a una situazione che si verifica. Il Professore
Vianelli sosteneva che si segue la cinematica e non la dinamica di un fenomeno, ovvero non si indagano le
cause, ma dall’osservazione è possibile costruire un modello tipicamente finalizzato alle previsioni.
Si immagini che la variabile di risposta Y dipenda funzionalmente da una variabile X al tempo istantaneo, ma
anche rispetto a istanti precedenti più una componente aleatoria indipendente. Si può affermare che

49
spostandocisi di un “passo avanti” (𝑌𝑡+1 ) il valore sarà strettamente legato al valore precedente, perché molte
delle cause che hanno prodotto il primo valore sono attive anche sul secondo.

Bisogna fare una distinzione tra i due termini foreseen e forecasting: entrambi indicano una previsione, ma il
secondo indica una previsione sulla base di un modello ben determinato.
Bisogna distinguere quattro tipi di processo, in quanto in x(t) si hanno due grandezze in gioco: la grandezza
che si sta osservando e il parametro temporale. È possibile avere processi stocastici

• Discreti con parametri discreti (i.e. numero di parti difettose prodotte da un processo manifatturiero
ogni giorno)
• Discreti con parametri continui (i.e. numero di pixel accesi in un determinato istante in uno schermo
PC)
• Continui con parametri continui (i.e. usura di un certo utensile controllato dopo ogni ciclo di
lavorazione)
• Continui con parametri continui (i.e. la temperatura di un reattore chimico)
È chiaro che immaginando un parametro temporale che deve essere campionato a intervalli discreti,
indipendentemente dal processo con parametro di tipo continuo o discreto, bisognerà discretizzarlo in intervalli
costanti. In questa trattazione, la variabile di risposta verrà considerata continua. Tra questi processi alcuni
sono quantità istantanee, relative a precisi istanti temporali, mentre altre sono cumulative, ovvero somma di
valori di variabili che si accumulano in un determinato periodo. Da un punto di vista formale non vi è alcuna
differenza. Una generalizzazione di questi processi è data dai processi multivariati, in cui al momento del
campionamento vengono registrate più quantità (es. temperatura, pressione, percentuale di un certo reagente
in un processo chimico), e dai processi multidimensionali, in cui il parametro t tiene conto di diverse
dimensioni (es. temperatura in coordinate spazio-temporali).
Contrariamente a quanto si è abituati, in questo caso si avrà sempre una sola osservazione per ogni variabile
aleatoria: non si possono avere repliche pure, in quanto il tempo non è ciclico. Si potrà avere una prova dello
stesso giorno della settimana, ma sarà di una settimana diversa. La seconda limitazione è che, mentre il
processo stocastico potrebbe essere illimitato temporalmente, è chiaro che l’ambito di osservazione dovrà
invece avere un istante di inizio e di fine. Inoltre, per quanto possa essere fitto l’intervallo di campionamento,
non si avranno osservazioni continue.

7.2 Processi stazionari

Un processo si dice stazionario in senso forte quando la funzione di ripartizione di qualunque n-upla si
mantiene costante a uno slittamento arbitrario nel tempo. Si supponga di slittare di un valore comune per tutte
le osservazioni: se per qualunque combinazione a cui si fa riferimento, la funzione di ripartizione si mantiene
costante, allora il processo stocastico si dice stazionario in senso forte.

Limitandocisi ai momenti

si parla di stazionarietà in senso debole.


Prendendo qualunque coppia a distanza m e spostandola di k, si parla di stazionarietà in senso debole del
secondo ordine. Sotto queste assunzioni, se il momento primo è costante nel tempo, lo si può porre uguale a
una costante.

50
𝐸(𝑋𝑡 ) = 𝐸(𝑋𝑡+𝑘 ) → 𝐸(𝑋𝑡 ) = 𝜇

𝐸(𝑋𝑡 + 𝑋𝑡+𝑚 ) = 𝐸(𝑋𝑡+𝑘 + 𝑋𝑡+𝑚+𝑘 ) → 𝑉𝑎𝑟(𝑋𝑡 ) = 𝜎 2


Se, invece, m=1 si calcola la covarianza tra un valore e il successivo: se questa si mantiene costante allora
significa che la covarianza di passo 1 (m) è costante. Ciò lo si può ripetere per ogni passo (m), cioè
𝐶𝑜𝑣(𝑋𝑡 , 𝑋𝑡+𝑘 ) = 𝛾(𝑘)
La covarianza si mantiene dunque costante nel tempo e dipende soltanto dal passo. Questa funzione di
covarianza prende il nome di autocovarianza, in quanto dipende soltanto dal proprio passato. Ovviamente, si
riscontra la varianza come caso particolare per k=0.
Se il processo è stazionario, allora
𝛾(𝑘) = 𝛾(−𝑘)
Dividendo ogni termine di questa funzione per la varianza, si ottiene la funzione di correlazione
𝛾(𝑘)
𝜌(𝑘) =
𝛾(0)
Per costruzione 𝜌(0) = 1.
È possibile limitare il ragionamento alla semplice definizione nei processi stazionari deboli del secondo ordine
quando la variabile è distribuita normalmente, è lo stesso motivo per cui si è identificato l’indipendenza in
senso debole e senso forte: i processi gaussiani dipendono soltanto dal momento precedente e successivo.
Si supponga di avere un processo stocastico in cui X(t) dipende solo dal valore precedente: naturalmente è
possibile immaginare che vi sia un coefficiente che li lega, sovrapponendo uno shock aleatorio o fissando il
valore di x(t) tutti gli altri sarebbero univocamente determinati, risultando essere un processo deterministico.
Il valore atteso non condizionale è nullo, ma ciò non significa che si mantiene sempre costante.

Avendo un’osservazione specifica al tempo 𝑡 − 1 è possibile effettuare una previsione dove il valore atteso al
tempo t, suppone l’osservazione al tempo 𝑡 − 1, ovvero

Una cosa è la stazionarietà del processo stocastico in termine non condizionato 𝐸(𝑋𝑡 ) = 0, mentre il valore
atteso presupposta un’osservazione precedente non sarà 0, ma non inficia la stazionarietà.
La seconda condizione da fissare è di avere processi ergodici. Un processo non ergodico potrebbe essere il
seguente: si supponga che il processo sia deterministico secondo una particolare sinusoide e dunque
stazionario. Si immagini di campionare tale processo a istanti fissati, ma l’intervallo di campionamento è
perfettamente uguale al periodo della sinusoide: le grandezze campionate assumeranno sempre lo stesso valore.
All’aumentare della grandezza campionaria, dunque, non migliora la conoscenza sul processo. La condizione
affinché un processo non sia ergodico è che la media della funzione di autocorrelazione, all’aumentare di n,
tende a 0.

Condizione sufficiente affinché la serie sia convergente è che il limite della funzione di autocorrelazione tenda
a 0 per n che tende a infinito.

51
Il passato deve pesare sul presente sempre meno, man mano che è passato. Nella sinusoide, invece, il passato
non passa, ma si ripresenta ciclicamente.
Se un processo è stazionario del secondo ordine, gaussiano ed ergodico ha delle caratteristiche molto pregiate
che lo rendono stimabile. Un particolarissimo processo di questo genere è il white noise, quello in cui si ha

Da un processo stocastico ordinato si torna a una situazione iid.

7.3 Analisi spettrale (non argomento d’esame)

Si prende una funzione con caratteristiche di regolarità e la si trasforma in forma polinomiale, con un
coefficiente di base, componente del primo, secondo ed n-esimo ordine. La condizione affinché la serie di
funzioni converga è che man mano che si va su ordini più grandi, il contributo all’approssimazione è sempre
più basso. Si supponga adesso di avere un segnale, ovvero uno sviluppo di una funzione nel tempo, che sia
periodico (il cui caso particolare è una sinusoide, ma esistono casi più complicati come un’onda quadra). Si
approssimano dunque le funzioni con sinusoidi di frequenza e ampiezza diverse. Un segnale periodico può
essere dunque approssimato da una somma di funzioni sinusoidali e cosinusoidali che approssimano – con
proprie ampiezza e frequenza – sempre meglio l’approssimazione. Ciò può essere espresso come

dove s è il segnale, i l’operatore immaginario, t il tempo e omega il nuovo parametro a cui si riconduce il
problema. È possibile concludere che se non vi sono componenti periodiche deterministiche perfette, allora la
funzione individuata in questo nuovo spazio è una funzione differenziabile in tutti i punti. Laddove invece si
hanno delle sinusoidi esatte, allora in corrispondenza del periodo di quella sinusoide si va a trovare un salto
sulla F che non è derivabile: tuttavia, ciò si può aggiustare sostituendo in quel punto l’entità del salto. In base
a considerazioni matematiche, se vale la trasformata di Fourier vale anche l’anti-trasformata di Fourier, ovvero

Il teorema dell’inversione garantisce nella realizzazione di funzioni caratteristiche la biunivocità,


immaginando il segnale come una combinazione lineare di funzioni sinusoidali e cosinusoidali che hanno una
certa composizione. La prima limitazione è quella nel tempo: non si hanno osservazioni illimitate. Si immagini
che l’osservazione sia limitata all’intervallo [−𝑇, 𝑇]: ciò implica che si ha un numero limitato di valori 𝜔𝑘 .
L’anti-trasformata non avrà più forma integrale, ma di sommatoria in quanto i valori sono discreti.

Con campionamenti fitti si possono avere periodi giornalieri, ma non relativi a singoli minuti. Avendo un
intervallo di campionamento, non è possibile avere stime di frequenze più alte. Ciò fa sì che il tutto si traduca
non in termini di integrali, ma di sommatorie limitate.

52
con

Riportando i coefficienti nel dominio di 𝜔, ciò rappresenta lo spettro di ampiezza: il quadrato dà lo spettro di
potenza. Si supponga di avere una luce scomponibile nelle componenti dei colori che la compongono. Se il
fascio di luce ha un solo colore puro, allora vi è un’onda perfettamente sinusoidale. La rappresentazione
spettrale evidenzia che esiste un’altezza corrispondente a quella ampiezza, mentre la frequenza delle altre
ampiezze è nulla. Avendo un fascio di luce composto, invece, (i.e. luce gialla e verde) si ottiene un colore
diverso che nell’analisi spettrografica può essere scomposta in due altezze in corrispondenza delle due
frequenze diverse. La luce bianca è un fascio in cui tutte le frequenze sono ugualmente rappresentate, cioè
l’ampiezza per qualunque altezza è uguale: la luce bianca è quindi un particolare segnale in cui 𝑐𝑘 sono uguali.
Quando si parla di X, però, non si ha un segnale, ma una variabile aleatoria. Bisogna dunque incardinare un
processo stocastico in un’analisi spettrale.

Lo spettro dà frequenza per frequenza l’importanza misurata come ampiezza (in realtà il quadrato) che quella
particolare onda ha all’interno del segnale: se il segnale è perfettamente sinusoidale si avrà un solo coefficiente,
se è somma di onde i pesi saranno variabili. La stessa rappresentazione prevede che i coefficienti adesso non
siano soltanto numerici, ma siano a loro volta variabili aleatorie. La sintesi è il teorema di Kolmogorov che
afferma che

Si può descrivere lo spettro di potenza come somma di contributi indipendenti. In particolare, la funzione di
autocorrelazione (varianza) si può riscrivere come somma di frequenze

L’analisi spettrale mette in condizione di stabilire qual è il contributo di ogni frequenza alla varianza generale
del processo e questi contributi sono descritti come variabili aleatorie tra loro indipendenti (scomposizioni
ortogonali). Il teorema di Wold afferma che un processo stocastico stazionario si può descrivere sempre come
somma di due processi: il primo chiamato Y dove sono presenti componenti deterministiche e uno dove sono
presenti le componenti aleatorie. Nello spettro la componente deterministica è segnalata da sinusoidi perfette,
su cui si distribuiscono gli errori aleatori. Si supponga allora di estrarre la componente prettamente
deterministica, lasciando uno spettro con la parte puramente aleatoria. Due processi che hanno la stessa
funzione di autocorrelazione sono uguali: si può dunque utilizzare il modello più semplice da studiare. La
componente aleatoria si può dunque riscrivere in funzione di un particolare processo stocastico

dove At è un rumore bianco, ovvero un processo stocastico senza autocorrelazione. La componente stocastica
(Z) ha una sua inerzia: la si può riscrivere in funzione di una componente che inerzia non ne ha e ciò dipende
solo dal sistema di pesi. Affinché il processo sia stazionario si impone la condizione su psi: lo shock passato

53
più è passato e meno pesa sul presente. È possibile immaginare di descrivere il processo stocastico al tempo t
come urti non correlati (white noise) presenti e passati, innescando l’inerzia.

7.4 Arma models


Si immagini di avere un processo stocastico stazionario con forma gaussiana e di aver eliminato la forma
deterministica e dunque

Si supponga che lo spettro faccia passare componenti con determinate frequenze piuttosto che altre: ciò è
dovuto a un filtro, qui rappresentato da un sistema di pesi (psi). Non si tratta più di un approccio non
parametrico come l’analisi spettrale, bensì parametrico perché conoscendo i parametri del modello si conosce
tutto. Wold assicura dunque che, eliminate le componenti deterministiche, il processo stocastico si può scrivere
nella forma precedente, dove A è la luce bianca, Z è il processo stocastico e psi è il sistema di pesi.
Si è passati da un processo stocastico che inizia a 0 e potrebbe terminare anche a infinito ha dei pesi illimitati.
Nel modello di regressione si hanno n punti e, interpolandoli con una retta, si passa a due coefficienti, fornendo
una sintesi. Un modello per essere utile deve essere parsimonioso, costituito da un numero minimo di elementi
sufficienti a dar il massimo delle informazioni che si vogliono estrarre.
Si definisce l’operatore “un passo indietro” (back-shift operator) quell’operatore che applicato a X restituisce
𝑋𝑡−1 .

Dunque applicato ad 𝐴𝑡

Ciò che rimane ha l’espressione di un polinomio di grado infinito. Si dimostra che questo polinomio può essere
trattato come tutti i polinomi: un polinomio di grado infinito, talvolta, sotto determinate condizioni, può essere
approssimato come rapporto tra due polinomi di grado finito, ovvero come

Il primo ha grado q e il secondo grado p e manipolando

Ed esplicitando risulta che


𝑝 𝑞

∑ 𝜑𝑖 𝑍𝑡−𝑖 = ∑ 𝜃𝑖 𝐴𝑡−𝑖
𝑖=0 𝑖=0

Posta la condizione |𝜃| < 1 affinché il polinomio non esploda e raccogliendo a fatto comune

54
Si riconosce dunque una serie geometrica

di ragione 𝜃𝐵. Razionalizzando si ottiene che

Con questi polinomi è dunque possibile manipolare le strutture. Mentre prima i modelli erano espressi in
funzione del loro passato, adesso è possibile lavorare direttamente sui polinomi appena scritti che assicurano
che risultati trovati siano validi. Questo modello è detto ARMA (Auto Regression Moving Average). La prima
parte, infatti, è un modello di regressione in cui la variabile in ingresso è lo stesso processo, ma relativo al
passato – ecco perché auto-regressione – mentre la parte di destra esprime la parte della media mobile, in cui
si hanno dei coefficienti fissi e delle variabili che vanno entrando scorrendo, man mano che passa il tempo.

Si supponga che questi modelli esauriscono tutti i processi stocastici espressi dal teorema di Wold.
La funzione di auto-covarianza, una volta nota, descrive tutte le proprietà di un processo stocastico: due
processi stocastici con la stessa funzione di auto-covarianza sono identici.
Se i processi sono a valore atteso nullo, l’auto-covarianza sarà espressa come

Si studia adesso un modello ARMA in cui p=0 e q è generico. Bisogna dunque sostituire nell’espressione
appena scritta l’espressione di 𝑍𝑡 . Ricordando che gli 𝐴𝑡 sono urti incorrelati, quando gli indici sono diversi
il valore atteso del prodotto (covarianza) è nullo. L’unico valore diverso da zero si ha quando i pedici sono
uguali, ovvero quando 𝑗 = 𝑘 + 𝜏. Dunque

Si prenda come esempio il polinomio MA(1) – in cui cioè 𝑞 = 1 – ponendo 𝑉𝑎𝑟(𝐴𝑡 ) = 𝜎 2 allora si avrà che

Sapendo, infatti, che il grado di p è nullo il polinomio sarà pari a 1, dunque 𝜓 = 𝜃. Nel prodotto, se le due A
hanno pedice diverso, esso sarà nullo. Si nota che per 𝜏 > 1 l’auto-covarianza sarà sempre nulla.
Si prenda in considerazione adesso un polinomio MA(2).

Nell’espressione generale l’MA puro è esclusivamente la parte del Moving Average, mentre l’AR puro è la
parte dell’Auto-regressive.
Nel caso, dunque, di un AR puro, moltiplicando il modello una volta per 𝑍𝑡 e una volta per 𝑍𝑡−1 fino a 𝑍𝑡−𝑝 e
calcolandone il valore atteso, si avrà che

55
Calcolandone i vari gamma, si ottiene il cosiddetto sistema di equazioni di Yule-Walker, ovvero

Poiché 𝑍𝑡 dipende dagli urti passati e presenti e non da quelli futuri: quando il termine di Z è precedente a
quello di A, il loro valore atteso è nullo.
Si studi adesso il modello AR(1).
𝑍𝑡 = 𝜑1 𝑍𝑡−1 + 𝐴𝑡
𝛾(𝑝)
Per semplicità si può utilizzare la funzione di autocorrelazione dividendo per 𝛾(0), ricordando che 𝜌 = .
𝛾(0)

Ovvero

Contrariamente al modello MA, avendo anche un solo coefficiente si hanno termini che camminano fino a
infinito: la funzione di autocorrelazione non è limitata. Bisogna porre delle condizioni. Affinché il processo
stocastico sia stazionario 𝜑 < 1. La funzione di autocorrelazione è, infatti, la dipendenza tra quanto si è
osservato in passato e ciò che si osserva attualmente.

Se 0 < 𝜑 < 1 si avrà un’esponenziale negativa, se 𝜑 < 0 vi è sempre un decadimento esponenziale, ma a


segni alterni

Figura 1. Funzione di autocorrelazione AR(1)

Nel caso di un AR(2) 𝑍𝑡 = 𝜑1 𝑍𝑡−1 + 𝜑2 𝑍𝑡−2 + 𝐴𝑡 che dà luogo a

In cui le condizioni iniziali sono ottenute dalle prime due equazioni del sistema

56
Dove la seconda è definita equazione delle differenze finali. Ricorrendo al coefficiente del passo indietro B,
allora

Se si ha un polinomio di secondo grado può essere scritto come prodotto di due polinomi di primo grado.
Anche in questo caso, dunque, il polinomio a primo membro è stato scomposto in due polinomi, dove 𝜙 sono
i reciproci delle radici (ovvero quei termini che annullano il polinomio) del polinomio. Il discriminante
dell’equazione può essere positivo, negativo o nullo avendo rispettivamente due soluzioni reali e distinte, due
soluzioni complesse e coniugate o una soluzione reale di molteplicità 2. A seconda del discriminante, dunque
è possibile ottenere una sinusoide smorzata con ampiezza che decresce esponenzialmente (Δ < 0) oppure un
misto tra due funzioni che decrescono esponenzialmente (Δ ≥ 0)

Figura 2. Funzione di autocorrelazione AR(2)

È importante lo studio della funzione di auto-correlazione parziali. La costruzione è la seguente

La funzione di autocorrelazione parziale di un modello AR puro si comporta come quella di autocorrelazione


di un modello MA puro e viceversa: ciò consente di riconoscere se si è presenza di modelli puri. Infatti il
modello AR uro ha funzione di autocorrelazione nulla, al di là del valore di p, come la funzione di
autocorrelazione dei modelli MA.
I coefficienti della parte MA non hanno un particolare vincolo, in quanto questi agiscono soltanto fino al
termine q, possono essere ciò che vogliono – a meno di un vincolo formale – in quanto la loro influenza si
esaurisce preoccupandosi della parte presente. Gli altri coefficienti, invece, sono vincolati in quanto
influenzato i termini anche più remoti.
Per la parte AR, invece, è indispensabile che ciascuno dei coefficienti siano tutti in modulo minore di 1,
altrimenti il comportamento smorzato non si verifica, anzi si avrebbe una funzione di autocorrelazione che va
aumentando nel tempo o un’onda che anziché smorzarsi si amplifica. Imponendo tali condizioni, le radici
saranno maggiori di uno e dunque esterne al cerchio unitario: formalmente si verifica la condizione di
stazionarietà.

7.5 Modelli ARIMA

I modelli ARIMA sono modelli non stazionari. Tra le radici del polinomio potrebbe essercene qualcuna che
assume il valore unitario, il modello non sarebbe stazionario in quanto non ha la tendenza ad abbattersi, ma

57
nemmeno a esplodere: il processo è dunque stazionarizzabile attraverso un’opportuna trasformazione. Dunque
si avrà
(1 − 𝐵)𝑍𝑡 = 𝐴𝑡 → 𝑍𝑡 − 𝑍𝑡−1 = 𝐴𝑡 → 𝑍𝑡 = 𝑍𝑡−1 + 𝐴𝑡

La quantità 𝑍𝑡 − 𝑍𝑡−1 si distribuisce normalmente. Mentre i processi stazionari hanno come riferimento il
livello medio (lo zero) che li attira – cioè prima o poi si ripasserà da dove si è partiti – nei modelli ARIMA ciò
non vale – sarà possibile, dunque, allontanarsi dal punto di partenza indefinitamente senza mai tornare al punto
di partenza. Si è in presenza di un processo non stazionario che non esplode. Il modello ARIMA con un solo
termine è
𝜑(𝐵)(1 − 𝐵)𝑍𝑡 = 𝜃(𝐵)𝐴𝑡
E sostituendo
(1 − 𝐵)𝑍𝑡 = ∇𝑍𝑡 = 𝑊𝑡

Si ottiene un modello ARMA. 𝑊𝑡 rappresenta, infatti, gli incrementi che in questo caso rappresentano un
processo stocastico stazionario, non ragionando più sui valori originari. Il processo originario sarà costituito
da valori cumulati e per tal motivo sono detti modelli integrati, perché differenziati riportano un modello
stazionario. Generalizzado

La funzione di autocorrelazione di un modello ARIMA si presenta come una costante di valore pari a 1 per
qualunque 𝜏. Se la funzione di correlazione si mantiene sempre alta senza la tendenza ad abbattersi, si è indotti
a operare sugli incrementi, implicando il fatto che esista una radice della parte AR unitaria.

7.6 ARIMA stagionali

Un’ulteriore generalizzazione è quella dei modelli ARIMA stagionali, il cui nome deriva dalla letteratura
econometrica. Nella costruzione di un modello ARMA si è costruito un polinomio completo e ordinato. Nelle
serie economiche con stagionalità, però, non è detto che questi siano completi. Si pensi ad esempio alla vendita
di un prodotto che ha un’inerzia: se si è venduto un certo numero di scarpe a Maggio ciò è strettamente correlato
con quelle vendute ad Aprile. La vendita di un prodotto stagionale, come i gelati, invece è differente: vi è
infatti sicuramente una dipendenza tra quelli venduti a Luglio e quelli di Giugno, ma sicuramente sarà più forte
con quelli venduti nel Luglio dell’anno precedente. Si può imporre dunque una dipendenza tra Z e il proprio
passato, supponendo che questo si leghi a S passi precedenti. Il più semplice AR stagionale è il modello AR(1)

e rappresenta un ARIMA stagionale puro.


Ammettetendo che posano esserci correlazioni tra stagionalità e non stagionalità, il modello ARIMA generale
è

Si tratta cioè di un modello ARIMA(p,P,d,D,q,Q) dove p rappresenta il numero di radici della parte AR, q le
radici della parte AM e d le radici unitarie della parte non stagionale, mentre P, Q e D sono i corrispettivi
stagionali.
58
In realtà, supponendo che

in cui S=12, in forma esplicita si ha

Dove si può notare come, supposto che 𝑍𝑡 rappresenti Luglio, le vendite di Luglio siano correlate con quelle
di Giugno, ma anche con quelle di Luglio e Giugno dell’anno precedente.

7.7 The Box-Jenkins Methodology

A disposizione, però, non si avrà un processo stocastico, ma delle osservazioni con una certa frequenza di
campionamento, ovvero una serie temporale. Bisogna dapprima verificare che questa sia stazionaria e, in caso
contrario, renderla tale. Fatto ciò, osservando la funzione di correlazione e autocorrelazione, bisognerà adattare
un modello ARMA o ARIMA. Il primo problema in presenza di un modello ARMA è la determinazione di p,
q, P e Q, ovvero quanti termini introdurre nel modello, immaginanzo di conoscere – in caso – la stagionalità.
La parte di identificazione – ovvero di esplicitazione dei valori p e q – è molto difficile: o si hanno modelli
ARMA di ordine molto basso o determinare i valori opportuni di p e q è molto complicato.
Alla fine degli anni ’70 questi modelli hanno assunto una straordinaria importanza grazie alla diffusione dei
software statistici, che hanno semplificato il tutto, ma anche alla diffusione di un aproccio iterativo, proposto
da Box-Jenkins, che riesce a realizzare i passi necessari all’identificazione e successivamente verificarne la
correttezza sulla base dei reisdui. Se l’operazione di verifica non va a buon fine, bisogna modificare la fase di
identificazione (ovvero l’esplicitazione di p e q). Il processo è Z e può essere descritto da un modello ARMA,
che può calzare più o meno a pennello. Sono degli strumenti insostituibili per effettuare delle previsioni.
Purtroppo occorre una particolare combinazione tra capacità e fortuna per stimare tali parametri.
Esistono dei software di elaborazione numerica che arrivano a determinare i parametri dei minimi quadrati.
Chiaramente queste soluzioni non sono certe al 100%, in quanto dipende dalla forma della funzione e dal punto
di partenza. C’è un problema statistico grave: bisogna essere in grado di stimare le funzioni di autocorrelazione
attraverso la serie temporale di partenza.
1
∑𝑁−𝜏
𝑖=1 𝑍𝑡 ∙ 𝑍𝑡−𝜏
𝜌̂𝑟 = 𝑁 − 𝜏
𝜌̂(0)
Queste grandezze sono correlate tra loro

Si supponga di avere un modello MA(1) puro: la funzione di autocorrelazione con eccezione di ro(1) sarà con
righe di zeri. Poiché, però, 𝜌̂(2) è correlata con 𝜌̂(1) il valore che si osserverà di 𝜌̂(2) non sarà nullo,
contrariamente a quanto ci si aspettasse.
Se però i 𝜌 sono tutti nulli – in presenza di un rumore bianco – allora le funzioni di autocorrelazione non
saranno più correlate tra loro. In caso di rumore bianco, dunque, la lettura della stima è genuina e utilizzabile.
1
In questo modo il valore atteso di 𝜌 dovrebbe essere nullo e una varianza assegnata pari a .
𝑁

La funzione di stima dei minimi quadrati è

59
e implica la presenza dei valori presenti e passati, ma siccome gli urti passati non si conoscono, bisogna stimarli
e dunque la procedura è non lineare.
Bisogna ben tenere a mente la differenza tra A (variabili aleatorie del processo stocastico) e a (residui del
modello stimato): se tutto è andato bene le a dovrebbero essere realizzazioni delle A, quindi andando a
calcolare la funzione di autocorrelazione si dovrebbero trovare valori diversi da 0.
La verifica di ipotesi di “bianchezza” è una verifica che consente di definire se tutto quanto fatto finora sia
corretto e cioè la funzione di autocorrelazione deve essere piatta o con piccole oscillazioni rispetto a quanto ci
si aspetta. A questo punto è possibile riportare su un grafico la funzione di autocorrelazione dei residui con
1,96
una banda, collocata a ± : se i dati sono fuori dalla banda, bisogna preoccuparsi. Applicando il test con
√𝑛
livello di significatività del 5% su 100 ce ne si aspetta 5 fuori. Ciò si può fare in modo semplice nel seguente
modo

1
Dato che i 𝜌 si distribuiscono normalmente avente valori attesi nulli e varianza , si ottengono normali
𝑛
standardizzati si ottengono
2
𝜌−0
𝑍2 = ( )
1
𝑁
Che sommate tra loro danno chi quadrato.
Se il test di bianchezza viene superato si conclude che il modello ha estratto tutte le componenti inerziali. Ma
quante 𝑍 2 bisogna sommare? Se ci sono dei periodi è chiaro che almeno un paio di periodi bisogna
acchiapparli, per vedere se vi sono ancora componenti stagionali – ad esempio – nei residui. Se si ha una serie
di 100 numeri, 𝛾(50) è basato su sole 50 differenze: bisogna mettere insieme un numero di addendi di 𝜌 il più
possibile, ma stimati in maniera stabile.
La procedura Box and Jenkins parte dall’identificazione di un modello per tentativi, cioè p e q vengono più o
meno scelti a caso. A questo punto si è stabilito quanti sono i parametri a destra e sinistra, vengono stimati e
se ne estraggono i residui, sui quali viene effettuato il test di bianchezza: se viene accettato, la procedura si
ferma lì, mentre se viene rifiutato, osservando la funzione di autocorrelazione dei residui, si dovrebbe riuscire
a capire quali sono le componenti inerziali ancora presenti sui residui e sulla base di queste considerazioni
modificare il modello di partenza nella direzione indicata dalla funzione di autocorrelazione dei residui e
ripartire dall’inizio. Si supponga di avere un AR(2,0) partendo da un AR(1,0): nei residui si troverà l’AR(1)
che inizialmente non è stato considerato.
Nei modelli ARMA, siccome le stime sono modelli non lineari, quando si aggiungono nuovi termini, non è
detto che la stima migliori, cioè e ci si trova ad avere un modello sovra-parametrizzato, i residui non sono più
bianchi di quelli di prima, ma si “ricolorano”. Aumentando sempre di più il numero di parametri, anziché
avvicinarsi alla soluzione, ce ne si allontana inevitabilmente. Poiché il rischio è molto grave, bisogna evitarlo
seguendo la seguente strategia.
SI inizia con modelli piccolissimi – i.e. uno a destra e/o uno a sinistra – tentando di realizzare questi modelli
osservando sistematicamente nella funzione di autocorrelazione, in quando la sua osservazione guida
nell’indicazione della modifica nel processo di identificazione: se la procedura non viene seguita in maniera
stringente, i residui si ricolorano e non se ne capisce più nulla.
60
Vi sono delle procedure automatiche che, però, non funzionano in maniera certa. La verifica consiste in una
serie di procedimenti che prevede il calcolo della funzione di autocorrelazione dei residui dalla quale si inizia
a farsi un’idea, capendo se è accettabile una distribuzione normale, realizzando un normal plot dei residui.
Gli outlyers andrebbero trattati singolarmente e che non sono riconoscibili nella serie originaria, che potrebbero
dare origine a funzioni di autocorrelazione spurie. Invece, l’allontanamento in termini di forma è indicativo
per un altro motivo: una simmetria positiva (coda a destra) è tipica di una distribuzione attribuibile a una log-
normale, in cui valore atteso e varianza dipendono tra loro. Allora tipicamente l’operazione da fare è tentare
di applicar il logaritmo sui valori originali.
Si immagini di avere un modello
𝑍𝑡 = 𝑍𝑡−1 + 𝐴𝑡
E di applicare in realtà i logaritmi

log(𝑍𝑡 ) − log(𝑍𝑡−1) = 𝐴𝑡

Ciò può essere approssimato come


𝑍𝑡 − 𝑍𝑡−1
log(𝑍𝑡 ) − log(𝑍𝑡−1) ≅ = 𝐴𝑡
𝑍𝑡−1
Se si hanno grandezze con escursioni in termini di varianza molto forti, con i logaritmi, queste escursioni
vengono moderate, in particolare viene trasportata una trasformazione lognormale in una normale simmetrica.
In realtà dunque si trasforma una grandezza in un’altra molto più simile a un tasso. Effettivamente, per
grandezze di tipo economico, questa è un’operazione che si produce per eliminare la non stabilità della
varianza. Di tutto ciò ce ne si accorge osservando la funzione di autocorrelazione dei residui in cui vi sono dei
valori molto grandi, ma anche nel normal plot osservando gobbe nella funzione.
Tentando di applicare un modello più grosso rispetto al precedente, bisogna effettuare il test F per giustificare
che l’abbattimento dei termini di somma dei quadrati è stato significativo. Il test è

In SS1 − 𝑆𝑆2 i DOF sono [(N − p1 − 𝑞1 ) − (𝑁 − 𝑞2 − 𝑝2 )].

61

Potrebbero piacerti anche