I Metodi Per La Qualitá Il D.O.E.

Politecnico di Torino
FACOLT DI INGEGNERIA
TESI DI LAUREA
FRANCESCO SAGLIOCCO
POLITECNICO DI TORINO
Facolt di Ingegneria Corso di Laurea in Ingegneria Gestionale
TESI DI LAUREA
I METODI PER LA QUALIT: IL D.O.E.

Un nuovo approccio allanalisi e alla struttura degli alias dei piani fattoriali
RELATORI Fausto Galetto Raffaello Levi CANDIDATO Francesco Sagliocco
Febbraio 1997
ii
Indice
INDICE
CAPITOLO 1. IL PROBLEMA DELLA QUALIT ...................................................................................... 6 1.1 PERCH OGGI SI PARLA DI QUALIT ?.......................................................................................... 6 1.2 DEFINIZIONE DI QUALIT ................................................................................................................ 8 1.3 IL CLIENTE OVVERO IL GIUDICE DELLA QUALITA'................................................................. 11 1.4 MAKE IT RIGHT THE FIRST TIME: LA PREVENZIONE........................................................... 12 1.5 FMECA E AFFIDABILIT.................................................................................................................. 13 1.6 LE PERSONE E LA CULTURA VALGONO PI DELLA TECNOLOGIA ..................................... 15 1.7 IL RUOLO DELLUPPER MANAGEMENT ...................................................................................... 16 1.8 LA QUALIT: UNA SCELTA CONVENIENTE ............................................................................... 17 1.9 LA QUALIT DELLINSEGNAMENTO ........................................................................................... 18 CAPITOLO 2. LAPPROCCIO SCIENTIFICO ALLA QUALIT.............................................................. 14 2.1 QUALIT TOTALE E CERTIFICAZIONE? MEGLIO LA QUALIT............................................. 14 2.2 APPROCCIO SCIENTIFICO ............................................................................................................... 16 2.3 LA PROFOUND KNOWLEDGE......................................................................................................... 18 2.4 I METODI PER LA QUALITA' ........................................................................................................... 22 2.5 MBITE O MBO? ................................................................................................................................... 23 2.6 L'IMPORTANZA DELLE DEFINIZIONI NELL'APPROCCIO SCIENTIFICO................................ 24 2.7 PERCHE' NON USARE GLI STIMATORI CORRETTI? ................................................................... 25 2.8 UN P DI DISQUALIT TOTALE .................................................................................................... 27 2.9 CONCLUSIONI .................................................................................................................................... 29 CAPITOLO 3. DESIGN OF EXPERIMENTS .............................................................................................. 30 3.1 STORIA DEL DOE............................................................................................................................... 30 3.2 TERMINOLOGIA DOE ....................................................................................................................... 32 3.3 I 3 PRINCIPI DI FISHER ..................................................................................................................... 33 3.4 PRINCIPALI FAMIGLIE DI PIANI SPERIMENTALI....................................................................... 35 3.5 GLI OBIETTIVI DELLA SPERIMENTAZIONE................................................................................ 36 3.6 IL DOE NELLA PRATICA .................................................................................................................. 38 3.7 METODI DI ANALISI.......................................................................................................................... 39 3.7.1 REGRESSIONE LINEARE ........................................................................................................... 39 3.7.2 ANOVA.......................................................................................................................................... 41 3.7.3 ANCON .......................................................................................................................................... 45 3.7.4 ANCOV .......................................................................................................................................... 46 3.7.5 TRASFORMAZIONI DI VARIABILI .......................................................................................... 46 3.8 APPROCCIO SCIENTIFICO NELLA SPERIMENTAZIONE............................................................ 47 CAPITOLO 4. PIANI FATTORIALI ORTOGONALI COMPLETI E FRAZIONATI ................................ 50 4.1 PIANI FATTORIALI 2n ........................................................................................................................ 50 4.2 I CONTRAST........................................................................................................................................ 55 4.3 COLLEGAMENTO FRA ANOVA E ANCON.................................................................................... 59 4.4 TABELLA DEI SEGNI E MATRICI DI HADAMARD...................................................................... 63 4.5 METODO DI YATES ........................................................................................................................... 64 4.5.1 ALGORITMO INVERSO DI YATES ........................................................................................... 67 4.6 PIANI FRAZIONATI 2n-p ..................................................................................................................... 69 4.6.1 UN SOLO TAGLIO: PIANI 2n-1 .................................................................................................... 69 4.6.2 CLASSE DI EQUIVALENZA....................................................................................................... 71 4.6.3 PI TAGLI: PIANI 2n-p .................................................................................................................. 72 4.6.4 TABELLA DEI SEGNI.................................................................................................................. 73 4.6.5 RISOLUZIONE DEI PIANI RIDOTTI.......................................................................................... 74 4.7 ATTENZIONE AI FRAZIONAMENTI ............................................................................................... 75 4.8 EFFETTI E ALIAS: DEFINIAMOLI UN P MEGLIO ...................................................................... 78 4.9 FATTORI QUANTITATIVI E QUALITATIVI A PI DI 2 LIVELLI............................................... 81 CAPITOLO 5. PIANI FATTORIALI NON ORTOGONALI........................................................................ 83 5.1 ORTOGONALIT: CHE CONFUSIONE! .......................................................................................... 83 5.2 DIVERSE RIPETIZIONI PER OGNI STATO DI PROVA ................................................................. 86 5.2.1 ANOVA.......................................................................................................................................... 92 iii
Indice 5.2.2 UN ALTRO ESEMPIO CON 3 FATTORI .................................................................................... 96 5.3 PIANI DI PLACKETT-BURMAN ....................................................................................................... 99 5.3.1 PIANI NON GEOMETRICI PB................................................................................................... 101 5.4 I 3/4 DI JOHN ..................................................................................................................................... 103 5.4.1 PIANO A 6 STATI DI WEBB ..................................................................................................... 106 5.5 ESTENSIONE AI 3/4 DI JOHN ......................................................................................................... 108 5.5.1 ALTRE FRAZIONI: 3/8............................................................................................................... 108 5.5.2 ALTRE FRAZIONI: 5/8............................................................................................................... 109 5.5.3 ALTRE FRAZIONI: 7/8............................................................................................................... 111 5.5.4 CONCLUSIONI ........................................................................................................................... 113 CAPITOLO 6. ANALISI DELLA COVARIANZA E INTERPRETAZIONE GRAFICA DEI PIANI FATTORIALI................................................................................................................................................ 114 6.1 ANCOV: A COSA SERVE? ............................................................................................................... 114 6.2 INTEPRETAZIONE GRAFICA DEGLI EFFETTI DEI FATTORI E INTERAZIONI .................... 115 6.2.1 EFFETTI MEDI E MARGINALI DEI FATTORI....................................................................... 116 6.2.2 LIMPORTANZA DELLE INTERAZIONI ................................................................................ 118 6.3 ESEMPIO MACCHINA - OPERATORE........................................................................................... 120 6.3.1 CRITICHE ALLANALISI DELLA COVARIANZA CHE NON USA MODELLI NON GERARCHICI....................................................................................................................................... 125 6.4 MODELLI NON GERARCHICI ........................................................................................................ 126 CAPITOLO 7. METODO G: MODELLO SOVRAPARAMETRIZZATO ................................................ 131 7.1 METODO G ........................................................................................................................................ 131 7.2 TEOREMA DI GAUSS-MARKOV.................................................................................................... 133 7.2.1 OSSERVAZIONI ......................................................................................................................... 137 7.3 MODELLO SOVRAPARAMETRIZZATO: FUNZIONI STIMABILI ............................................. 139 7.3.1 FUNZIONI STIMABILI .............................................................................................................. 140 7.3.2 ESEMPIO MACCHINA-OPERATORE...................................................................................... 143 7.4 MODELLO SOVRAPARAMETRIZZATO: PROCEDURA DI GALETTO (1995)......................... 150 7.4.1 TEOREMA DI COCHRAN ......................................................................................................... 155 7.4.2 METODO DI GALETTO IN LETTERAURA ............................................................................ 156 7.4.3 MODELLI NON GERARCHICI ................................................................................................. 157 7.4.4 ESEMPIO CON 3 FATTORI ....................................................................................................... 159 7.5 MODELLO SOVRAPARAMETRIZZATO RIPARAMETRIZZATO .............................................. 164 7.6 MODELLO SOVRAPARAMETRIZZATO: GLI ALIAS.................................................................. 167 7.7 CONCLUSIONI .................................................................................................................................. 169 CAPITOLO 8. METODO G: MODELLI FULL-RANK ............................................................................. 172 8.1 MODELLO CELL MEANS................................................................................................................ 172 8.1.1 CELL MEANS: GLI ALIAS........................................................................................................ 175 8.2 MODELLO FULL-REGRESSION (FR) ............................................................................................ 177 8.2.1 ESEMPIO MACCHINA - OPERATORE.................................................................................... 180 8.2.2 MODELLI RIDOTTI ................................................................................................................... 183 8.2.3 ANALISI ORTOGONALE: A PRIORI ORDERING .............................................................. 188 8.3 ESEMPIO A 3 FATTORI ................................................................................................................... 189 8.3.1 QUANTI MODI CI SONO PER CALCOLARE LEFFETTO DI A?......................................... 193 8.4 METODO DI BOX-WILSON (1951) ................................................................................................. 194 8.4.1 MODELLI RIDOTTI COL PIANO COMPLETO....................................................................... 198 8.5 METODO DI BOX-WILSON APPLICATO A PIANI RIDOTTI IRREGOLARI ............................ 201 8.5.1 PIANI NON GEOMETRICI DI PLACKETT-BURMAN ........................................................... 202 8.5.2 FRAZIONI IRREGOLARI: 3/8 ................................................................................................... 204 8.5.3 FRAZIONI IRREGOLARI: 5/8 ................................................................................................... 206 8.5.4 FRAZIONI IRREGOLARI: 3/4 (JOHN) ..................................................................................... 209 8.5.5 FRAZIONI IRREGOLARI: 7/8 ................................................................................................... 211 8.6 MISURA DELLA NON ORTOGONALIT...................................................................................... 212 8.6.1 MISURIAMO LA NON ORTOGONALIT DEGLI ESEMPI FATTI ...................................... 215 8.7 ALTRI METODI DI STIMA .............................................................................................................. 218 8.8 CONCLUSIONI .................................................................................................................................. 219
iv
Indice
CAPITOLO 9. UNA NUOVA TEORIA...................................................................................................... 221 SULLA STRUTTURA DEGLI ALIAS ........................................................................................................ 221 9.1 PERCH UNA NUOVA TEORIA ? .................................................................................................. 221 9.2 CONTRAST, EFFETTO, ALIAS, STRUTTURA DEGLI ALIAS .................................................... 222 9.3 TEOREMA FONDAMENTALE DELLA STRUTTURA DEGLI ALIAS ........................................ 225 9.3.1 DIMOSTRAZIONE ..................................................................................................................... 226 9.3.2 OSSERVAZIONI ......................................................................................................................... 228 9.4 APPLICAZIONI DELLA TEORIA .................................................................................................... 230 9.4.1 FRAZIONE 3/8 ............................................................................................................................ 231 9.4.2 MET IRREGOLARE................................................................................................................. 233 9.4.3 FRAZIONE 5/8 ............................................................................................................................ 235 9.4.4 FRAZIONE 6/8 (3/4 DI JOHN) ................................................................................................... 237 9.4.5 FRAZIONE 7/8 ............................................................................................................................ 238 9.4.6 E SE ABBIAMO DIMENTICATO UN FATTORE? .................................................................. 239 9.5 SCELTA DELLA BASE ..................................................................................................................... 241 9.6 AGGIUNTA DI UN FATTORE PER DIMINUIRE IL RESIDUO.................................................... 244 9.7 UNA SPIEGAZIONE ALTERNATIVA AGLI ALIAS ..................................................................... 247 CAPITOLO 10. APPLICAZIONI SU DATI REALI................................................................................... 250 10.1 QUALI METODI USIAMO?............................................................................................................ 250 10.2 ANOVA ONE-WAY FULL-REGRESSION.................................................................................... 251 10.3 ANOVA TWO-WAY FULL-REGRESSION ................................................................................... 256 10.4 CASO IVECO ................................................................................................................................... 264 10.4.1 ERRORI NELLANALISI DI FORNASIERI (1995)................................................................ 265 10.4.2 FULL-REGRESSION ................................................................................................................ 271 10.4.3 ESPERIMENTO COMPLETO .................................................................................................. 276 10.5 PIANO NON GEOMERICO DI PLACKETTT-BURMAN A 12 STATI PER 5 FATTORI........... 279 10.6 PIANO SPERIMENTALE CON 4 FATTORI DI CONTROLLO A 3 LIVELLI E 3 FATTORI DI RUMORE A 2 LIVELLI ........................................................................................................................... 285 CAPITOLO 11. TAGUCHI: NOVIT O BLUFF? ..................................................................................... 292 11.1 POPOLARIT DI TAGUCHI .......................................................................................................... 292 11.2 QUALITY ENGINEERING: SYSTEM, PARAMETER, TOLERANCE DESIGN ........................ 294 11.3 LOSS FUNCTION ............................................................................................................................ 296 11.4 OUTER E INNER ARRAY .............................................................................................................. 298 11.5 SIGNAL TO NOISE ......................................................................................................................... 299 11.5.1 ON TARGET.............................................................................................................................. 300 11.5.2 THE LARGER THE BETTER................................................................................................... 301 11.5.3 THE SMALLER THE BETTER ................................................................................................ 302 11.6 MIN LOSS FUNCTION = MAX SIGNAL TO NOISE?.................................................................. 303 11.7 TAGUCHI E LE INTERAZIONI ..................................................................................................... 306 11.7.1 3 TIPI DI INTERAZIONE ......................................................................................................... 308 11.8 CONCLUSIONI ................................................................................................................................ 309 BIBLIOGRAFIA ........................................................................................................................................... 311
CAPITOLO 1
IL PROBLEMA DELLA QUALIT
1.1 PERCH OGGI SI PARLA DI QUALIT ?

Mere talk about quality accomplishes little (Deming 1986, pag. 4) Quality first, oggi la Qualit una parola usata tantissimo: basta aprire i quotidiani per vederla nella pubblicit, negli annunci di lavoro, in vari articoli ... i libri e le riviste sulla Qualit si sprecano .. ma come mai tutto ci? In molte pubblicazioni si afferma che oggi il consumatore non guarda pi solo al prezzo ma anche alla Qualit del prodotto; a me sembra strano che 20 o 30 anni fa il consumatore non considerasse la Qualit dei prodotti cos come mi sembra molto dubbia laffermazione di Galgano (1990) che in Italia la Qualit si sia sviluppata solo negli anni 80: forse prima di allora le aziende italiane non avevano una funzione Qualit? Io penso che oggi come 20 anni fa i manager che sapevano cosa fare ottenevano prodotti e servizi di Qualit, gli altri no; e il cliente, quando poteva, andava da chi forniva la qualit pi alta. In realt i problemi legati alla Qualit sono sempre esistiti, fin dai tempi degli antichi Romani che svilupparono standard di qualit, metodi e strumenti di misurazione, e relazioni fra cliente e fornitore per aumentare la produttivit (Juran 1996). E allora come mai questo forte interesse attuale? Secondo me ogni volta che un argomento diviene di moda per un motivo economico: in questo caso stata laggressiva strategia di mercato dei giapponesi che, grazie alla Qualit dei loro prodotti e alla produttivit delle loro industrie, dagli anni60 hanno cominciato a sottrarre quote crescenti di mercato ai colossi americani ed europei.
6
Considerando: che la competitivit si gioca principalmente sul prezzo e sulla Qualit, la crescente standardizzazione e diffusione delle tecnologie, la saturazione pressoch totale delle economie di scala (vista la tendenza oligopolistica dei grossi mercati) molto difficile ridurre i costi oltre un certo limite, quindi per aumentare la competitivit molto pi facile agire sulla variabile Qualit che sul prezzo; inoltre una corretta politica della Qualit porta a ridurre anche gli enormi costi (par.1.8) della disqualit (Galetto 1995), quindi possibile abbassare i prezzi dei prodotti indipendentemente dalla tecnologia usata o dalle economie di scala: da questo vediamo che prezzo e Qualit possono essere 2 grandezze correlate; Juran (1988) afferma che sono stati fatti parecchi studi per indagare questa correlazione. I giapponesi sono stati i primi a riconoscere questi problemi grazie allinsegnamento di Deming riguardo le carte di controllo di Shewart e la responsabilit dellupper management nel problema della Qualit. Deming (1986) riferisce che gi nel lontano 1942 si era cercato di diffondere i metodi statistici nellindustria americana ma che il management non era consapevole delle proprie responsabilit per cui il controllo della Qualit si rivel inefficace. Nel 1950, quando lo JUSE invit in Giappone Deming, i giapponesi compresero che se non avessero unito gli sforzi, questi non avrebbero avuto un impatto nazionale; la Qualit divent allora un problema di tutte le aziende e di tutta la nazione: improvement of quality became in 1950, in Japan, total(Deming 1986); essi compresero una serie di principi sulla Qualit che verranno esposti nei seguenti paragrafi. Gi nel 1950 Deming predisse che, entro 5 anni, i prodotti giapponesi avrebbero invaso il mercato mondiale e cos fu; inoltre nel 1954 arriv in Giappone un altro genio della Qualit, Juran, il cui masterful teaching (cos definito da Deming) convinse definitivamente lupper management giapponese riguardo la sua responsabilit verso il miglioramento della Qualit e della produttivit. Nel 1960, grazie ad Ishikawa, nacquero i circoli della Qualit ovvero dei gruppi di persone che lavoravano sui problemi della Qualit: in Giappone questi gruppi furono una logica e coerente evoluzione degli insegnamenti di Deming; quando gli americani provarono a copiarli negli anni 70 tali circoli fallirono immediatamente perch gli alti manager non seguivano le raccomandazioni che tali circoli davano loro. It is a hazard to copy. It is necessary to understand the theory of what one wishes to do or to make(Deming 1986, pag.129). Negli anni 70 gli americani, che per 30 anni avevano ignorato gli insegnamenti di Deming, lo rivalutarono visto che il suo nome era legato allo strepitoso successo della Qualit giapponese: si crearono molte aspettative irrealistiche e si pens che bastasse istituire il controllo statistico della Qualit per risolvere tutti problemi delle aziende; gli americani di nuovo non capirono che la gestione della Qualit (Quality Control) non consiste in cookbook procedures on file ready for specific application ma
7
piuttosto in a philosophy that directs efforts at all levels of responsibility towards the more effective use of the resources available to meet the needs of customers(Deming 1986, pag.245). Oggi Deming considerato il principale artefice del miracolo giapponese ma forse gli occidentali non hanno ancora compreso il suo insegnamento se vero che lEuropa chiude le frontiere ai giapponesi, non potendo ancora fronteggiare la loro concorrenza (Galetto 1995). Poich ritengo che Deming sia la figura pi importante nella Qualit, nei primi 2 capitoli faremo continuamente riferimento al suo pensiero, chiaramente espresso in Out of the Crisis; le frasi di questo testo saranno riportate in lingua originale per evitare possibili distorsioni delle idee di Deming, come stato fatto nella traduzione italiana da parte dellISVOR.
1.2 DEFINIZIONE DI QUALIT

La qualit ... si sa cos e non si sa cos. Grande contraddizione. Eppure vi sono cose che hanno una qualit maggiore di altre... Se non si pu pi dire che cos la qualit, come si pu sapere che cos e come si pu sapere addirittura se esiste? Se nessuno sa che cos, in pratica non esiste. Invece in pratica esiste (Pirsig 1974, Lo Zen e larte della manutenzione della motocicletta) Seguendo l'approccio scientifico (cap.2) bisogna definire le cose fondamentali di cui si parla quindi le elucubrazioni filosofiche di Pirsig, seppur affascinanti, sono di scarso aiuto nella gestione industriale della Qualit; dobbiamo precisare allora che cosa si intende per Qualit. Nella letteratura troviamo varie definizioni che non fanno altro che accrescere la confusione che si generata sull'argomento:

percentuale di difettosit conformit alle specifiche (Crosby) perdita generata dal prodotto dal momento in cui viene spedito (Taguchi) affidabilit all'istante zero adeguatezza all'uso (Juran) qualcosa suscettibile di miglioramento zero difetti insieme delle caratteristiche atte a soddisfare una certa esigenza
Questi sono solo alcuni esempi; se poi elencassimo tutte le definizioni che si danno sulla qualit totale (par. 2.1) non finiremmo pi. A questo punto si capisce come sia molto importante dare una definizione la pi completa possibile, non suscettibile ad ambiguit; secondo me tale quella che si trova in Galetto (1995):
8
La Qualit l'insieme delle caratteristiche di un sistema atte a soddisfare le esigenze del Cliente, dell'Utilizzatore, della Societ. Accanto a questa definizione vi quella che la Qualit una scienza manageriale che studia come le aziende possono ottenere prodotti e servizi di Qualit (secondo la prima definizione data). Ritorniamo alla prima definizione che abbiamo dato, essa si presta ad alcune interessanti osservazioni: Pochissimi autori considerano la differenza fra Utente (chi utilizza il sistema) e Cliente (chi paga il sistema) per innegabile che un sistema (prodotto o servizio) di Qualit deve soddisfare le esigenze di entrambi. Inoltre quasi nessuno considera la Societ dei cittadini; ma come si pu dire che un prodotto ha Qualit se provoca danno ad altre persone? Possiamo considerare le armi (anche se molto affidabili) un prodotto di Qualit? Io non credo ... Bisogna soddisfare le esigenze (esplicite e implicite) e non il cliente/utente; ad esempio i metodi Taguchi (cap.11) soddisfano molto i clienti (aziende che li usano) che credono di risparmiare soldi, e gli utenti (manager della Qualit) che non devono pensare troppo per progettare le prove; ma la reale esigenza delle aziende di competitivit e quella dei manager della Qualit la capacit di stimare adeguatamente la realt: sono soddisfatte tali esigenze? Non si direbbe visto che le aziende che magnificano i metodi Taguchi poi perdono in competitivit e sono costrette a licenziare un sacco di persone fra cui, magari, quelle del reparto Qualit che erano tanto contente di usare i metodi Taguchi perch non dovevano pensare troppo. Giustamente non distingue fra prodotti e servizi (entrambi sono dei sistemi), perch, come dice Deming (1986),the principle that will help to improve quality of product and of service are universal in nature". Per brevit di notazione nel seguito si user il termine prodotto per indicare qualsiasi sistema. Quali sono allora le caratteristiche dei sistemi che possono soddisfare le esigenze del Cliente/Utente/Societ? Shewart (1931) stato il primo a porsi il problema di quantificare la Qualit attraverso le caratteristiche di Qualit per poterla misurare e migliorare: entra in gioco il problema delle definizioni operative (Deming 1986, cap.9). ovvio che non possiamo dare un elenco di caratteristiche che vadano bene per qualunque sistema in ogni situazione; Galetto (1987) ha comunque proposto un elenco di 10 grandezze che possono andare bene per prodotti industriali; esse sono poste sugli spigoli di un tetraedro per facilitarne il ricordo (fig.1). E' ovvio che il peso di queste 10 caratteristiche varia a seconda del sistema che sto prendendo in considerazione: se ripensiamo alla definizione di qualit la sicurezza
9
sempre la caratteristica pi importante a meno che il sistema sia intrinsecamente molto sicuro; invece l'estetica pu essere abbastanza marginale per certi sistemi.
ESTETICA
ECOLOGIA
ECONOMICIT
MANUTENIBILIT
DURATA
SICUREZZA PRESTAZIONI SERVICE
AFFIDABILIT
CONFORMIT
Figura 1: il tetraedro della Qualit (Galetto 1989b)
E' comunque molto importante, quando si progetta un sistema, stabilire con opportune ricerche di mercato quali sono le caratteristiche che pi soddisfano le esigenze del Cliente (nel seguito si tralascer, per brevit di notazione, lUtente e la Societ) e decidere come quantificarle per poter misurare la Qualit del sistema. Possiamo allora considerare la Qualit come un vettore stocastico Q con valore atteso E(Q), i cui n elementi sono i parametri riguardanti le n caratteristiche considerate. E(Q) = (1, 2, 3, ... i, ... n)
10
il vettore Qualit da stimare se vogliamo misurare la Qualit dei nostri prodotti; ovviamente a ogni caratteristica stimata sar associato un certo intervallo di fiducia. Possiamo considerare che la funzione utilit del Cliente cresca con E(Q) e decresca con il prezzo quindi lazienda pu giocare sia col prezzo che con le caratteristiche di Qualit per consentire allutente di massimizzare la propria utilit comprando i prodotti dellazienda e nel contempo, facendola guadagnare in competitivit; ovviamente per fare ci, bisogna cercare di stimare anche la funzione di utilit del Cliente, con opportune ricerche di mercato. A pag.180 Deming traccia il percorso che bisognerebbe seguire nel lancio di un prodotto se vogliamo che esso sia di Qualit: 1. Progettare con Qualit il prodotto (off-line QC). 2. Produrlo e testarlo sia in linea di produzione (on-line QC) che in laboratorio. 3. Lanciarlo sul mercato. 4. Testarlo sul campo, scoprire cosa ne pensa lacquirente e perch il non acquirente non lha comprato Questa sequenza mette in luce la giusta importanza delle prove e quindi dei metodi statistici per effettuarle; inoltre evidenzia limportanza fondamentale del Cliente.
1.3 IL CLIENTE OVVERO IL GIUDICE DELLA QUALITA'

The consumer is the most important part of the production line (Deming 1986, pag.5) Il Cliente il punto di partenza per fare la Qualit; come dice Feigenbaum (1991), la Qualit ci che dice il Cliente, non ci che dice l'azienda che offre il prodotto o servizio. Senza Clienti l'azienda non avrebbe pi motivo di esistere ecco perch quando Deming (1986) descrive la produzione come un sistema mette il Cliente al primo posto; la crescita delle aziende dipende quindi in modo sostanziale dal Clienti perch a dissatisfied consumer does not complain: he just switches(Deming 1986, pag.175). Progetto e riprogetto Ricerche di mercato Distribuzione CONSUMATORI
Fornitori di materiali e macchinari
Accettazione e controllo dei materiali
Produzione, assemblaggio, ispezione
Controllo dei processi, macchine, metodi, costi

Figura 2: il sistema produzione (Deming 1986, pag.4) 11
La figura 2 pensata in funzione della produzione ma il concetto dellimportanza del cliente vale anche per i servizi: It is customers that keep a company in business, both in manufacturing industries and in service industries (Deming 1986, pag.192); nel capitolo 7 di Deming (1986) vi sono molti esempi di come applicare i suoi 14 principi del management ai servizi, usando tecniche statistiche. Al giorno d'oggi invece molto di moda la catena fornitore-cliente ovvero il concetto di cliente interno contrapposto a quello esterno (che paga con moneta buona): si dice che se nell'azienda il reparto a monte soddisfa quello a valle, alla fine viene soddisfatto meglio anche il "reparto" pi a valle (il cliente esterno). Basta guardare alcuni esempi in Galetto (1995) in cui la soddisfazione del cliente interno non si traduce affatto nella soddisfazione delle esigenze del Cliente vero (esterno). In realt la strada giusta de seguire che i clienti interni devono tutti decidere in funzione delle esigenze del Cliente vero; bisogna considerare che la reputazione dellazienda molto pi importante degli obiettivi di budget dei vari direttori delle funzioni. Infine consideriamo che al Cliente che compra un sistema, interessa che il sistema funzioni, non gli importano le catene fornitorecliente, la qualit totale, i circoli della qualit, il TQM, il CWQC, ....; al Cliente interessa la Qualit e un Cliente onesto capisce quando c la Qualit e quando ci accade ritorna ad acquistare dallazienda: non dimentichiamo che profit comes from repeat customers(Deming 1986, pag.178).
1.4 MAKE IT RIGHT THE FIRST TIME: LA PREVENZIONE

if you do it right the first time, you are invisible ... mess it up , and correct it later, you become a hero (Deming 1986, pag.107). Come si fa a soddisfare le esigenze del Cliente? Bisogna sapere che cosa la Qualit oltre che le metodologie per realizzarla: la Qualit richiede che si prevengano gli errori; agire con Qualit significa prevenire (concetto che solo nel 1994 stato recepito nelle norme ISO 9000); poich chiunque pu commettere degli errori, se questi vengono commessi bisogna attuare le opportune azioni correttive. E' chiaro che per agire con Qualit bisogna insegnare alle persone a ragionare logicamente con la propria testa, perch altrimenti non saranno mai in grado di analizzare adeguatamente i problemi per prendere delle decisioni corrette: questi concetti sono alla base del tetraedro del manager razionale (Galetto 1995) e dellapproccio scientifico di cui parleremo nel cap.2. Anche Deming (1986), Crosby (1986), Juran (1988) e Feigenbaum (1991) sottolineano l'importanza della prevenzione, e oggi si pu dire che anche la norma ISO ha recepito questo messaggio ... a parole; ma nella realt le aziende (certificate e non) cercano di prevenire i difetti? Sanno premiare i lavoratori che agiscono in un'ottica di prevenzione? ..Io penso che sia pi vicino alla realt la frase contenuta in Deming (1986) e riportata
12
sopra: le persone che nelle aziende cercano di prevenire i problemi non sono riconosciute e premiate; coloro che invece creano problemi e poi cercano (con successo???) di risolverli sono considerati i migliori. Questa enfasi attuale sui problemi porta a propagandare "I 7 strumenti della qualit totale", che in realt non servono alla prevenzione e porta a dire Galgano che i problemi sono dei tesori; la propaganda di tali concetti va nella direzione opposta a quella della Qualit (parziale, non totale). . Quello che abbiamo detto riassunto nel famoso detto "you cannot inspect quality into a product, you must build quality into a product": ma quanti conoscono e sanno applicare gli strumenti per progettare la Qualit nei sistemi? Come mai Ishikawa ha esportato in occidente solo i 7 strumenti del TQC, oggi conosciuti come i 7 strumenti della qualit totale? Con quelli non si fa prevenzione... Limportanza della prevenzione sottolineata in una delle 4 verit assolute sulla Qualit che propone Crosby (1986): 1. La Qualit la conformit alle specifiche, 2. La prevenzione assicura la Qualit, 3. Lo standard deve essere Zero difetti, 4. Il criterio di valutazione della Qualit il costo della non conformit. Secondo le definizioni che abbiamo dato e che daremo, non ci sentiamo di condividere appieno queste verit assolute di Crosby perch la conformit solo un aspetto della Qualit, e il mitico Zero difetti non ha mai risolto i difetti, come possiamo aspettarci che prevenga i guasti (Galetto 1988)? La seconda verit assoluta fa emergere limportanza della prevenzione che, secondo Crosby consiste nelleliminare su grande scala tutte le occasioni di errore; Crosby sembra per non considerare che non sempre si riescono a prevenire gli errori: quando ci accade, bisogna riconoscerli con onest intellettuale e spirito scientifico (Cap.2) e attuare le opportune azioni correttive. Modificando la frase di Crosby, diciamo che la prevenzione e le azioni correttive assicurano la Qualit.
1.5 FMECA E AFFIDABILIT

chiaro che per prevenire bisogna considerare tutte le fasi del ciclo di vita del prodotto, dall'identificazione delle necessit di mercato, all'uso del prodotto da parte del Cliente, fino a quando un nuovo prodotto sar lanciato sul mercato. In un ottica di prevenzione, la fase pi importante il ciclo di sviluppo (Galetto 1987) che parte con l'identificazione delle esigenze dei clienti e termina dopo il primo anno: nelle 10 fasi elencate dallautore bisogna cercare di testare tutte le possibili deficienze del prodotto prima che sia lanciato sul mercato. Gli obiettivi in queste 10 fasi devono essere in linea con gli standard pi alti del mercato affinch il prodotto possa essere competitivo; gli strumenti da usare in questa fase sono la FMECA (Failure Mode
13
Effect and Criticality Analysis), le previsioni di affidabilit e il DOE; integrati con i moderni strumenti di progettazione integrata (CAD, CAM) si possono scoprire i difetti quando si possono correggere non spendendo ancora tanti soldi e non facendo insorgere ulteriori problemi. Infatti con la FMECA si identificano i modi di guasto dei vari componenti, non scartandone nessuno a priori; per ogni modo di guasto si identifica leffetto mettendosi nellottica del Cliente. Ogni modo di guasto pu avere una o pi cause: esse vanno identificate perch bisogna stabilire le opportune azioni preventive per migliorare preventivamente il prodotto. Si individuano le combinazioni modo-efffetto-causa pi critiche, cercando di eliminarle; la FMECA serve anche ad ideare prove di affidabilit che assicurano che le combinazioni pi critiche non si verifichino sui prodotti migliorati. Le prove di affidabilit sui prototipi sono il momento della verit aziendale; in questo momento si verifica non solo laffidabilit dei prodotti, ma anche laffidabilit dellazienda: unazienda affidabile non decide di proseguire se non dopo aver ottenuto, con un adeguato livello di fiducia, gli obiettivi fissati. Bisogna quindi progettare le prove di affidabilit cos da raccogliere i dati necessari e sufficienti per prendere le decisioni corrette: ma per progettare le prove abbiamo bisogno di una teoria sufficientemente generale per laffidabilit dei sistemi (Galetto 1981 e 1982). Gli obiettivi di affidabilit vanno fissati per il sistema e poi ripartiti ai vari sottosistemi, poi ai gruppi, fino ai componenti. La tecnica di ripartizione degli obiettivi di affidabilit deve essere tale che laffidabilit del sistema, calcolata mediante laffidabilit dei componenti, e tenendo conto delle eventuali ridondanze, soddisfi allobiettivo dato. I vari obiettivi di affidabilit (R(t), A(t), M(t), m(t), h(t) ...) devono essere congruenti tra loro sia a livello di sistema che a livello di componente: gli obiettivi ripartiti ai componenti vanno trasferiti ai fornitori perch li sviluppino con quei valori di affidabilit. Ecco come si costruisce la Qualit dei sistemi ed ecco perch laffidabilit una disciplina basilare per la Qualit (qua intesa come scienza manageriale). Tutto ci perfettamente coerente con quanto afferma Deming (1986) a pag.49, quality must be built in at the design stage, e a pag.50, It is better to work on the processes, and on equipment and on materials and components that go into your product, and on your procedures for testing these components before they go into the final product Bisogna quindi prevenire e migliorare i processi, il che vuol dire studiare gli effetti di cambiamenti nei livelli dei parametri, cosa che pu essere fatta pianificando gli esperimenti in modo scientifico usando metodologie di Qualit come il DOE (Cap.3), che consente di scoprire leffetto dei fattori e delle loro interazioni, permettendo cos lottimizzazione dei prodotti e dei processi.
14
1.6 LE PERSONE E LA CULTURA VALGONO PI DELLA TECNOLOGIA

Mere allocation of huge sums of money for quality will not bring quality. There is no substitute for knowledge (Deming 1986, pag.50) Molti pensano che per migliorare la Qualit bisogna sprecare tanti soldi , comprare tante macchine, cambiare il personale; in realt Deming ci dice che the improvement took place with the same people and with no new equipment. Il punto fondamentale la formazione: gli uomini non si comprano ma vanno formati; formare le persone ed elevarne la cultura e la capacit di logica pu aiutare le aziende ad affrontare i complessi problemi del mondo doggi: necessaria una preparazione con serio contenuto scientifico, che abbia per luomo come punto di riferimento(Galetto 1995). Dunque Qualit anche formazione e cultura: per ottenere comportamenti corretti e coerenti occorre formare i manager, elevandone la Cultura della Qualit ed evitando il nozionismo e gli slogan. Spesso invece nelle aziende il personale bombardato di slogan: Zero Defects Do it right the first time Getting better together Be a quality worker Take pride in your work Come dice Deming, tali esortazioni sono giustissime ma sono dirette alle persone sbagliate (i lavoratori) visto che la responsabilit del sistema dei manager. People generally want to do the right thing, but in a large organization they frequently dont understand what is the right thing(Deming 1986, pag.70). Anche Crosby (1986) dice che non ha mai conosciuto nessuno che fosse contrario alla Qualit o favorevole ai problemi: le persone vogliono lavorare bene se si d loro questa opportunit. In tutto il suo libro Deming sottolinea limportanza che i lavoratori siano orgogliosi del proprio lavoro: bisogna riuscire a motivare le persone perch uno che sente di essere importante per il suo lavoro cercher di essere sempre presente e potr avere una parte importante nel miglioramento del sistema. Anche Ishikawa, un altro guru della Qualit, enfatizza che il rispetto delluomo deve essere una parte integrante della filosofia gestionale: Employees must be able to feel comfortable and happy with the company, and be able to make use of his capabilities and realize his potential1. Invece spesso avviene che i lavoratori si sentono frustrati perch accusati dal management per colpe che invece appartengono al sistema in cui lavorano; le loro prestazioni dipendono da un grande insieme di fattori: i colleghi, i materiali con cui si lavora, le attrezzature, i capi, i clienti ... tutto ci che compone il sistema. Deming sostiene
Questa frase riportata in Wang (1993), a sua volta ripresa dal libro di Ishikawa, What is Total Quality Control? The Japanese Way (1985) 15
1
che il 94% dei problemi sono causati dal sistema e non dai lavoratori; Juran sostiene che il management responsabile del 85% dei problemi allinterno delle aziende.
1.7 IL RUOLO DELLUPPER MANAGEMENT

Management too often suppose that they have solved their problems of quality by establishing a Quality Control Department, and forgetting about it (Deming 1986, pag.405) La cosa pi importante che il management ai livelli pi alti (upper) si renda conto delle proprie responsabilit riguardo la Qualit; purtroppo i grandi capi dellazienda sono sensibili solo ad argomenti economici, ragionando per lo pi in un ottica di breve periodo. Ecco perch Juran (1988) dice che, quando chiamato da unazienda per una consulenza, ai manager traccia sempre un analogia fra i compiti della funzione Qualit e quelli della funzione Finanza secondo la famosa trilogia di Juran (1988): 1. pianificazione 2. gestione 3. miglioramento Queste tra attivit valgono tanto per la Finanza quanto per la Qualit ma in genere i manager sono pi interessati al primo elemento se non gli si fa toccare con mano gli elevati risparmi nei costi della disqualit (par 1.7). Il coinvolgimento dellupper management fondamentale: quando Deming venne negli anni 50 in Giappone incontr direttamente i manager delle pi grandi compagnie giapponesi; solo cos fu possibile implementare un controllo statistico di Qualit nelle aziende nipponiche; Deming stesso riferisce che si era cercato di fare ci anche in America e gi nel 1942 ma il management non fu sufficientemente coinvolto e il programma fall. I manager, per affrontare adeguatamente il problema della Qualit, devono conformarsi ai principi del tetraedro del manager razionale (Galetto 1995), acquisendo la capacit di decidere in condizioni di incertezza pensando alle conseguenze delle loro decisioni nel lungo periodo (cap.2). La direzione dellazienda deve imparare a premiare coloro che agiscono per prevenire i problemi (non chi li crea) e incentivare chi vuole imparare e impegnarsi seriamente, deve capire che lo scopo ultimo dellazienda la continuit del lavoro per se stessa e per i propri dipendenti. allora necessario una cultural revolution in management, ma quando avverr? The question may not be when, but whether(Deming 1986, pag154).
16
1.8 LA QUALIT: UNA SCELTA CONVENIENTE

The only survivors will be companies with constancy of purpose for quality, productivity, and service (Deming 1986, pag.155) largomento con il quale si pu sperare di fare breccia nel cuore dellupper management; infatti Feigenbaum sostiene che, eliminando i costi della cattiva Qualit, si pu risparmiare fra il 15% e il 40% dei costi totali di produzione; Crosby afferma che le aziende di produzione spendono il 20% del loro fatturato facendo cose sbagliate e ripetendole mentre le societ di servizi spendono il 35% del fatturato per le stesse ragioni; anche Galetto afferma che i costi della disqualit sono una miniera doro. Galetto (1989b) asserisce che vi sono prove inconfutabili che la Qualit rende a che la disqualit un lusso costoso per le aziende: i manager devono imparare a considerare il costo integrale del prodotto che deve anche comprendere la perdita di un cliente per la scarsa qualit del prodotto. In un indagine della Pims risultata una forte correlazione fra Qualit dei prodotti e ROI delle aziende; le aziende di successo hanno conquistato il mercato puntando sulla Qualit, riducendo quindi gli sprechi allinterno dellazienda e spuntando prezzi superiori alla concorrenza meno qualificata. Molti pensano che sia incredibile che unalta Qualit comporti costi minori e una maggior produttivit: ci possibile perch si riducono gli scarti e le rilavorazioni durante il processo produttivo, si risparmia sul controllo di accettazione dei prodotti forniti oltre a tagliare le spese di garanzia. Galetto (1989b) sostiene che, ridurre anche solo della met i costi della disqualit equivalente ad incrementare le vendite del 10% allanno. Tutto ci perfettamente coerente con la reazione a catena profetizzata da Deming e Shewart, conseguente allaumento della Qualit:
Migliori la Qualit
I costi diminuiscono per il minor numero di rilavorazioni, di errori, ritardi ed ostacoli oltre che per un miglior uso dei macchinari e dei materiali
La produttivit aumenta
Crei sempre pi lavoro
Continui a produrre
Conquisti il mercato con Qualit migliore e un prezzo pi basso
Figura 3: reazione a catena provocata dal miglioramento della Qualit (Deming 1986, pag.3)
Anche la Teoria dei Giochi (Rasmusen 1993) predice, utilizzando il teorema Folk, che la strategia vincente per unimpresa produrre beni di elevata Qualit, perch pu
17
venderli a un prezzo elevato per molti periodi; inoltre i consumatori si rifiuteranno di acquistare da unimpresa che abbia prodotto anche una sola volta beni di bassa qualit; il prezzo di equilibrio tale da dissuadere limpresa a sacrificare i profitti futuri in cambio di una congiunturale e non ripetibile successo di vendite derivante dallinganno, ovvero vendere a un prezzo alto beni di bassa qualit. Pur con tutte le limitazioni della Teoria dei Giochi e luso di un modello molto semplificato, il risultato comunque indicativo del fatto che la Qualit una scelta vincente.
1.9 LA QUALIT DELLINSEGNAMENTO

Abbiamo detto che Qualit anche cultura e formazione: per questo motivo ci sembra impossibile che lo sviluppo futuro della qualit possa prescindere da un sistema scolastico (in particolar modo universitario) di Qualit e quindi da professori di Qualit. Il passo che segue, tratto da Deming (1986, pag.173), mi pare molto eloquente per quanto riguarda la Qualit dellinsegnamento perch fa capire che spesso quelle persone che sono tanto osannate pubblicamente, in realt non aggiungono nulla di veramente importante alla nostra conoscenza, anzi a volte insegnano delle cose errate perch non hanno compreso i principi base di ci che spiegano; daltro canto ci sono alcuni insegnanti, che magari sono ritenuti scadenti, ma che invece sono in grado di aprire la mente dei propri studenti: essi non insegnano semplicemente delle formule ma trasmettono una forma mentis che mette gli studenti in condizione di affrontare adeguatamente i problemi che troveranno nella pratica. The first requisite for a good teacher is that he have something to teach. His aim should be to give inspiration and direction to students for further study. To do this, a teacher must possess knowledge of the subject. ... In my experience, I have seen a teacher hold a hundred fifty students spellbound, teaching what is wrong. His students rated him a great teacher. In contrast, two of my own greatest teachers in universities would be rated poor teachers on every count. Then why did people come from all over the world to study with them, including me? For the simple reason that these men had something to teach. They inspired their students to carry on further research. They were leaders of thought-by name, Sir Ronald Fisher in statistics ... and Sir Ernest Brown ....
18
CAPITOLO 2
LAPPROCCIO SCIENTIFICO ALLA QUALIT
2.1
QUALIT TOTALE E CERTIFICAZIONE? MEGLIO LA QUALIT

experience alone, without theory, teaches management nothing about what to do to improve quality and competitive position, nor how to do it (Deming 1986, pag.19)
Nel primo capitolo abbiamo visto che la Qualit rappresenta un problema importante che lupper management deve in qualche modo affrontare se non vuole che lazienda perda in competitivit. Come? Ci sono varie strade, non tutte ugualmente efficaci; ne elenco alcune:
mandare i manager ai convegni sulla qualit totale sperando che tornino con la formula
magica per risolvere i problemi dellazienda, acquistare i libri sulla qualit totale, metterli nella biblioteca dellazienda e non cambiare i sistemi e i metodi di gestione, andare da un consulente esperto di ISO 9000 e spendere un sacco di soldi per farsi certificare da qualche societ, ritenendo che la certificazione assicuri automaticamente la Qualit seguire ciecamente le idee di qualche guru della Qualit, come i 14 punti di Deming, la trilogia di Juran, i 14 punti e le 4 verit assolute di Crosby, il TQC di Feigenbaum, il CWQC di Ishikawa o la loss function di Taguchi
14
2 - LApproccio Scientifico alla Qualit iniziare a ragionare con la propria testa, usando la Logica con onest intellettuale (par.
2.2): Ben poche cose in grado di sostituire lintelletto umano per sviluppare idee, metodi, strumenti...(Galetto 1995). Alla fine del capitolo sar chiara la strada da seguire. I primi 2 approcci sono ovviamente da rigettare perch la qualit totale (pessima traduzione di Total Quality Control, un concetto ideato da Feigenbaum nel 1961, la cui traduzione corretta gestione totale della Qualit), oggi come oggi a uno stadio di confusione totale. Soprattutto non si capisce dalle varie pubblicazioni se la qualit totale un attributo del prodotto o del servizio oppure un approccio manageriale alla Qualit; se un attributo del prodotto bisognerebbe specificare la differenza fra Qualit (definita nel cap.1) e qualit totale: la Qualit la soddisfazione delle esigenze del Cliente, cosa pu aggiungere a ci la qualit totale? Finora non ho letto nulla su questa differenza nelle varie pubblicazioni sulla qualit totale. La norma ufficiale europea ISO 8402 dice in una nota che il Total Quality Management talvolta chiamato Total Quality: io ritengo che questa sia la definizione ufficiale di qualit totale; purtroppo non ho mai visto nessuna pubblicazione sulla qualit totale citare la norma. La conferma che qualit totale un sinonimo di gestione totale della Qualit viene da Feigenbaum (1991), linventore del concetto TQC; egli, nella terza edizione (1986) e nella terza edizione revisionata (1991) del suo libro originale Total Quality Control (1961) usa indifferentemente total quality e total quality control; ci molto strano perch lautore si preoccupa di dire (pag.26) che usa: total quality control quality control indifferentemente. Si preoccupa di dire (pag.108) che usa: total quality system quality sistem indifferentemente ma da nessuna parte c scritto che: total quality control total quality sono equivalenti; ci si capisce solo implicitamente, perch le pagine dove lautore usa total quality, nellindice analitico sono richiamate sotto la voce total quality control; inoltre nella prefazione Feigenbaum esordisce con la frase "Since its original presentation in this book (1961 n.d.a.) total quality has become increasingly widely recognized ...". Io per ritengo che un libro di Qualit dovrebbe essere chiaro riguardo le definizioni e di fatto total quality non definita in alcun modo nella terza edizione revisionata (1991): questa mancanza di chiarezza da parte di Feigembaum un esempio lampante di disqualit. Notiamo che non bisogna comunque considerare negativo tutto ci che qualit totale: P.W.M. John, un grandissimo studioso del DOE, nel 1990 ha pubblicato un ottimo
15
2 - LApproccio Scientifico alla Qualit
libro dal titolo Statistical methods in Engineering and Quality Assurance, in cui definisce subito la total quality: Total quality means total dedication to quality by entire company, from CEO down to the employee who sweeps the corridors John (1990) chiarisce dunque subito che intende la qualit totale come un approccio manageriale; Galetto (1996), commentando la definizione riportata sul libro di John, fa giustamente notare che allora il Cliente pu comprare la Qualit ma non pu comprare la qualit totale. Concludiamo il discorso sulla qualit totale dicendo che essa non rappresenta niente di negativo purch sia definita chiaramente: il fatto che la locuzione derivi da un errore di traduzione non mi sembra particolarmente rilevante perch il linguaggio spesso andato avanti per errori; per lapproccio scientifico che intendiamo seguire (par. 2.2) richiede che si definiscano chiaramente i concetti di cui si parla. Per quanto riguarda la certificazione mi baso sui concetti espressi in Galetto (1995) ma credo che chiunque sia intellettualmente onesto possa condividerli; infatti la certificazione lattivit con cui un ente accreditato attesta con un documento ufficiale che un entit soddisfa i dettami stabiliti dalla norma: chiunque per pu capire che, se la norma ha scarsa qualit, la certificazione attesta la scarsa qualit, dunque non certo la certificazione che provoca un miglioramento della Qualit. Anche Juran ripete questo concetto da anni e anni a tutti convegni europei sulla Qualit eppure i certificatori si moltiplicano; recentemente ho letto un articolo di una societ di consulenza che afferma che la Qualit di un prodotto la logica conseguenza dellapplicazione delle norme: chiunque pu capire lassurdit di una simile affermazione. Se la qualit totale e la certificazione non sono di grande aiuto per affrontare i problemi connessi alla Qualit, cosa dobbiamo fare? Seguire lapproccio scientifico alla Qualit.
2.2 APPROCCIO SCIENTIFICO

"Ut semper dicenda ex dictis pendeant" (Galileo, De motu 1590) Usare l'approccio scientifico nei problemi della Qualit vuol dire principalmente usare la Logica ovvero la scienza che consente di condurre correttamente i ragionamenti: le conclusioni devono dipendere dalle premesse e non si devono supporre vere le cose ancora da dimostrare. Una volta arrivati a delle conclusioni, ovvero a delle decisioni bisogna pensare alle loro conseguenze, sempre nell'ottica di prevenire e correggere i problemi; questi sono i concetti alla base del tetraedro del manager razionale e del MBITE (Galetto 1995) di cui parleremo nel par. 2.5.
16
Galileo stato uno dei primi a sostenere che si poteva sperare di capire le leggi delluniverso attraverso losservazione del mondo reale; egli considerato il fondatore del metodo scientifico sperimentale, che consiste: nel ragionamento condotto logicamente negli esperimenti per confermare le deduzioni logiche, in una continua iterazione fra teoria e pratica (par. 3.8). Se gli specialisti della Qualit usassero questo approccio, impiegherebbero poco a capire gli enormi rischi connessi all'uso dei metodi Taguchi (cap.11): usando la Logica facile far cadere in contraddizione i sostenitori di tali metodi; chi cade in contraddizione logica deve ammettere il proprio errore se intellettualmente onesto. Usare lapproccio scientifico vuol semplicemente dire saper giustificare logicamente le proprie affermazioni senza dire: cos perch lha detto il tal dei tali oppure il metodo funziona perch funziona; le affermazioni si giustificano logicamente se esse sono costruite su una solida teoria di base: ecco perch il famoso psicologo Lewin, gi negli anni 40, affermava che la miglior cosa pratica una buona teoria. Chiunque pu commettere degli errori di logica come chiunque pu entrare nel ciclo vizioso della disqualit (Galetto 1995):
IGNORANZA
PRESUNZIONE IGNORANZA
PRESUNZIONE
Figura 3: il circolo vizioso della disqualit
La cosa importante ammettere di essere entrati nel circolo vizioso e adoperarsi per uscirne. In proposito mi paiono molto eloquenti le parole del grande scienziato S. Hawking (Dal Big Bang ai buchi neri, 1988): Che cosa si deve fare quando si scopre di aver commesso un errore...?Alcuni non ammettono mai di avere sbagliato e continuano a trovare argomenti nuovi, a volta contraddittori fra loro, per sostenere la loro causa....Altri affermano di non avere mai sostenuto realmente la teoria sbagliata...A me pare molto meglio e molto pi chiaro ammettere in una pubblicazione di avere sbagliato. Notiamo che nel circolo vizioso, mentre la presunzione sempre da condannare, l'ignoranza non un male di per s: essa uno stato necessario della natura umana e non provoca danni se accompagnata dall'onest intellettuale. Intellettualmente onesto chiunque, per radicato senso della giustizia, valuta obiettivamente i fatti rifiutando di
17
distorcerli, ma invece utilizza le capacit intellettive per ricercare la realt(Galetto 1995). Galetto (1995), grande sostenitore del metodo scientifico, parte da 2 principi fondamentali: F1: La realt esiste, indipendentemente dalla capacit umana di accettarla o di riconoscerla. F2: La variabilit si manifesta in tutti i fenomeno studiati dall'uomo, sempre Il primo principio indiscutibile per va usato con molta cautela perch la percezione della realt necessariamente soggettiva e selettiva: nessuno potr mai dire che ha ragione in nome del principio F1; esso per fa capire 2 cose importanti: non tutti possono avere ragione su un determinato argomento, se partono dalle stesse premesse, la verit di un'affermazione non dipende dal numero di coloro che la sostengono. Il principio F1 sar dunque spesso richiamato nella tesi, relativamente a dei concetti che mi sembrano assoluti ed oggettivi. Il secondo principio ha una grandissima utilit teorica e pratica perch sancisce quale deve essere la principale preoccupazione della management: sapere riconoscere, interpretare e trattare la variabilit insita in ogni fenomeno naturale; questa la profound knowledge di Deming.
2.3 LA PROFOUND KNOWLEDGE

understanding of variation, special causes and common causes, and the necessary to reduce constantly the variation from common causes, is vital(Deming 1986, pag.136) Capire la variabilit dei fenomeni: ecco il compito fondamentale dei manager, perch capita la variabilit, si riesce a ridurla e come conseguenza si ha la diminuzione dei costi e l'aumento della produttivit: tutto ci fu profetizzato 70 anni fa da Shewart; ai giorni nostri invece diffusa la convinzione che sia stato Taguchi a inventare queste idee di riduzione della variabilit: una convinzione errata.
18
Usando la Logica abbiamo scoperto che la variabilit esiste sempre; We are working, whether we like it or not, in the presence of variability(John 1990); per trattarla in modo scientifico abbiamo bisogno: della Statistica (vedere Galetto 1995, per i vari significati del termine) per progettare le prove che consentono di stimare la realt del Calcolo delle Probabilit che ci consente di misurare il grado di incertezza. Per Statistica qui intendiamo l'insieme dei metodi, ricavati teoricamente, che consentono di prendere le decisioni, in modo razionale, quando si in condizioni di incertezza e di variabilit dei dati. Prima di Shewart, nell'industria si faceva il controllo sui pezzi, dividendoli in buoni (dentro le specifiche) prodotti e quelli cattivi (fuori dalle specifiche) ma questo controllo non aiutava il produttore a produrre dentro le specifiche n lo aiutava a scoprire le cause della non conformit di alcuni prodotti.
Pezzo cattivo
Pezzo buono Limiti delle specifiche
Pezzo cattivo
Figura 4: conformit alle specifiche
Inoltre, se non erano prodotti abbastanza pezzi "buoni", per soddisfare la domanda, venivano venduti anche i pezzi "cattivi", rilassando le specifiche; questo circolo vizioso aveva oscurato il problema centrale della produzione, che era la riduzione della variabilit: Variation always creates costs. This fact has been obscured by our accounting systems and ignored by manufacturers for years, yet it is still true (Wheeler 1988). Se le dimensione dei pezzi fossero state quasi identiche, non ci sarebbe stato bisogno di preoccuparsi di distinguere fra pezzi buoni e cattivi; non sarebbe pi stata necessaria lispezione al 100%, e sarebbero diminuiti moltissimo gli scarti e le rilavorazioni. Ma ci era possibile solo attraverso un attento studio delle sorgenti di variabilit in un processo: Shewart fu il primo a rendersi conto di questi problemi, invent il concetto di "control" (non un semplice controllo, ispezione, anche legato alla gestione) e svilupp un modo semplice di classificare la variabilit di un processo. Shewart pensava che la variabilit entro certi limiti fosse dettata dal caso, e al di fuori di tali limiti fosse provocata da una sorgente identificabile ovvero assignable; vi quindi una: variabilit controllata, stabile nel tempo, dovuta a molti fattori, che insieme danno un effetto in genere piccolo, che Shewart attribuisce al caso,
19
variabilit incontrollata, instabile nel tempo, dovuta a un fattore assignable, che provoca un effetto consistente. Da questa classificazione possiamo capire che vi sono 2 vie per ridurre la variabilit a seconda della natura che ha: se controllata bisogna cambiare il processo (ricorrendo ai piani fattoriali, allEVOP, al RSM e altre tecniche DOE che vedremo nel cap.3) se incontrollata bisogna rimuovere le cause identificabili di variazione, cercando di portare il processo a uno stato di variabilit in controllo. Shewart, quindi, gi negli anni 20 cap che era errato trattare la variabilit come in Fig. 2 e che si sarebbe ottenuto un miglioramento tanto maggiore, quanto pi si riduceva la variazione dal valore nominale del pezzo: come si vede lo stesso concetto della loss function di Taguchi; invece i taguchiani Byrne e Shin Taguchi in un articolo (1987), premiato come best technical paper, dicono che prima di Taguchi, si ragionava come nella Fig. 2; laffermazione falsa: basta leggere Shewart (1931). vero per che queste idee rimasero per lungo tempo ignorate dall'industria: basti pensare che le carte di controllo sono state rispolverate solo ultimamente come uno dei 7 strumenti della qualit totale; il grande Deming, che lavor con Shewart alla Western Electric, fu uno dei pochi che ne comprese l'uso e la grande potenza; nel par 1.1 abbiamo visto che egli prov a diffondere le tecniche di Shewart e i metodi statistici nell'industria nord-americana senza riuscirvi mentre in Giappone fu ascoltato (par 1.1). Deming riformul la terminologia di Shewart, mettendo in evidenza chi era responsabile dei 2 tipi di variabilit (Deming 1986) ma non cambiando sostanzialmente i concetti:
cause comuni di variabilit, intrinseche al sistema di produzione; appartenendo al sistema sono di competenza di che gestisce il sistema: il management. Questo tipo di variabilit pu essere diminuito solo attraverso un azione del management, che modifichi il sistema cause speciali di variabilit, non fanno parte del sistema di produzione: possono essere rimosse dai singoli lavoratori o supervisori di un determinato processo, ma per identificare queste cause ci vuole sempre il management; tali cause modificano casualmente nel tempo, media e varianza del processo. Se il processo non manifesta cause speciali, detto in controllo statistico e si pu prevedere, giorno dopo giorno, cosa far attraverso la carta di controllo: la capability del processo indica lintervallo entro il quale ci aspettiamo che vari la grandezza di interesse quando essa in controllo statistico; essa calcolata ricorrendo alla teoria statistica. Risulta chiara quindi la critica di Deming al mitico "Zero difetti": non sufficiente stare dentro le specifiche; bisogna studiare i processi per tenerli in controllo statistico. I prodotti vanno costantemente migliorati cercando le cause di variabilit ed eliminandole: questo il messaggio che Deming e Juran portarono ai giapponesi negli anni '50. I manager hanno quindi davanti a loro 2 alternative:
20
semplice conformit alle specifiche, adottato dagli occidentali miglioramento continuo dei processi, adottato dai giapponesi Consideriamo per che una conformit totale alle specifiche verr solo col miglioramento continuo del processo, che abbiamo visto essere compito primario del management. Per studiare i processi abbiamo 2 stati di riferimento: processo in controllo statistico e processo che sta producendo tutti pezzi conformi; combinandoli, otteniamo 4 possibili stati che comunque non saranno mai permanenti: 1. Processo in controllo statistico che produce tutti pezzi conformi: il caso in cui la capability2 compresa nella tolleranza specificata dal produttore. 2. Processo in controllo statistico che produce alcuni pezzi non conformi: bisogna cambiare la media o la dispersione del processo oppure cambiare le specifiche se il Cliente d'accordo; interventi sporadici sul processo per rientrare nelle specifiche sono assolutamente deleteri e rischiamo di portare il processo fuori controllo, Specification limits are not action limits(Deming 1986, pag.334). 3. Processo fuori controllo statistico che produce tutti pezzi conformi: per definizione di processo fuori controllo abbiamo delle cause identificabili il cui effetto pu essere pensato in termini di cambiamento casuale della media e varianza del processo produttivo; quindi uno stato assolutamente temporaneo, che presto porter allo stato 4. 4. Processo fuori controllo statistico che produce pezzi non conformi: uno stato di caos; se si prova a modificare il processo gli effetti sono comunque temporanei perch le cause speciali continuano a cambiare il processo. Prima bisogna eliminare le cause speciali per portare in controllo il processo e poi si pu iniziare a cambiarlo per rispettare le specifiche. Ogni processo appartiene a uno di questi 4 stati ma abbiamo detto che sono temporanei perch c' sempre una forza universale che tende a portare dallo stato 1 allo stato 4: l'entropia, che causa deterioramento, usura, rotture e difetti. Ogni processo va naturalmente e inevitabilmente verso lo stato del caos: se vogliamo fronteggiare questo effetto dobbiamo conoscere gli effetti dell'entropia sul processo e ripararci da essi, dobbiamo in altre parole migliorare costantemente il processo. Ma il processo pu essere migliorato solo se in controllo statistico dunque le cause speciali costituiscono un ostacolo al miglioramento. Riassumendo, se vogliamo tendere allo stato 1, bisogna saper riconoscere sia gli effetti dell'entropia che tende a portare nello stato di caos, sia la presenza di cause speciali che costituiscono una barriera al miglioramento: ci pu essere fatto usando le carte di controllo e in generale i metodi statistici. Without statistical methods, attempts to improve
a process are hit or miss, with results that usually make matters worse (Deming 1986, pag.20).
In Wheeler et al.(1990) viene anche chiamata natural tolerance. 21
2.4 I METODI PER LA QUALITA'

Hopes without a method to achieve them will remain mere hopes (Deming 1986, pag.20) Nel capitolo precedente abbiamo chiarito che la variabilit esiste sempre e quindi va trattata con metodi statistici; per una panoramica completa sull'argomento si pu vedere Galetto (1995): in questa sede ci limitiamo a richiamare l'importanza degli stimatori e dei relativi intervalli di fiducia, invitando il lettore a leggere con spirito critico i metodi che vengono spacciati per corretti ma che non sono dimostrati. Altri metodi fondamentali sono i piani di campionamento, le carte di controllo, le tecniche di affidabilit (Galetto 1981 e 1982), la regressione, l'ANOVA per capire l'influenza dei fattori e il DOE (cap.3) per progettare le prove al fine di ottenere proprio l'informazione che serve a prendere una certa decisione; solo ultimamente si incominciato a dire che il DOE molto importante nella gestione della Qualit, per lo pi a causa della propaganda di Taguchi (cap.11): chiariamo fin da subito che non stato Taguchi a inventare il DOE; onore a Taguchi che lo usava (pur con metodi molto discutibili) in Giappone ma onore anche a chi aveva compreso limportanza del DOE nella Qualit molto prima che apparisse Taguchi in occidente. Per decidere in modo scientifico occorrono informazioni; la quantit di informazione raccolta non indifferente per la bont della decisione; bisogna pertanto calcolare, prima di raccogliere linformazione, quanta ce ne occorre, se vogliamo usare lapproccio scientifico. Ogni decisione richiede che si progetti la raccolta delle informazioni necessarie e sufficienti per la decisione; bisogna quindi effettuare le seguenti attivit: 1. la raccolta dei dati, su un campione rappresentativo della popolazione sotto indagine 2. la presentazione dei dati in forma opportuna, con tabelle e grafici 3. il processo decisionale e la previsione, con un certo livello di fiducia 4. il progetto dell'esperimento I metodi statistici sono fondamentali per la Qualit e in proposito penso che le aziende dovrebbero meditare sulla seguente frase: We do not use simple methods ... if they do not suit our needs, nor do we use methods just because they are in fashion(Galetto 1987). Esistono una serie di altri strumenti non statistici che servono a soddisfare le esigenze del Cliente, quali il Quality Function Deployment, la gi citata FMECA (par 1.4), i diagrammi di Ishikawa e Pareto, il Fault Tree Analysis, lAnalisi del Valore e delle Funzioni, tutti strumenti descritti in De Risi (1996). In particolare il QFD una metodologia nellambito del Concurrent (o Simultaneous) Engineering (CE); il CE prevede uno sviluppo parallelo del progetto di dettaglio del prodotto con lo sviluppo della Qualit, della capacit produttiva e della capacit di supporto in esecuzione del prodotto: questo pu essere fatto solo con
22
unorganizzazione e un sistema informativo apposito. Lobiettivo ridurre il periodo di progettazione e lintero time to market, mettendo in parallelo il numero pi elevato possibile di attivit con una visione contemporanea dei vari aspetti del progetto, in particolare quelli qualitativi. Il primo passo unanalisi delle necessit del Cliente e lindividuazione dei parametri critici con la concorrenza e ci pu essere fatto col QFD che permette di collegare ogni bisogno del cliente alle caratteristiche di ciascun processo nel ciclo di sviluppo del prodotto. Il QFD si applica attraverso una serie di tabelle consequenziali, che partono dalla concezione del prodotto fino ad arrivare ai dettagli operativi della sua produzione. A causa della sua forma la tabella conosciuta come la casa della Qualit. Il CE e il QFD sono considerati rispettivamente una metodologia e uno strumento nuovi ma per come sono descritti in De Risi (1996) mi sembra che i concetti di base siano molto simili a quelli espressi in Galetto (1987 e 1988), sebbene non altrettanto formalizzati.
2.5 MBITE O MBO?

Focus on outcome ... must be abolished (Deming 1986, pag.54) MBO ovvero Management By Objective, gestione per obiettivi, uno degli approcci gestionali pi di moda oggi; durante uno stage all'ENEL nel 1995 ho personalmente avuto modo di sentire che l'azienda aveva da qualche anno introdotto questo nuovo sistema di gestione: gli alti dirigenti spiegavano che, mentre una volta il capo ordinava ci che gli altri dovevano fare e diceva come farlo adesso il capo dava degli obiettivi e i sottoposti potevano raggiungerli come meglio credevano; non si riusciva capire perch la situazione dovesse migliorare rispetto a prima; e se uno raggiunge l'obiettivo per caso? e se ci si accorge che gli obiettivi sono sbagliati? Le risposte dei dirigenti furono un po confuse... Anche Deming (1986), in tutto il suo libro critica il MBO, perch a quota is totally incompatible with never-ending improvement(pag.71); in realt dal sistema non si potr ottenere oltre la sua capability, se il sistema in controllo statistico, mentre se non lo , il raggiungimento o meno dell'obbiettivo sar un fatto puramente casuale. Non che sia sbagliato porsi degli obiettivi, anzi, a volte possono essere necessari per la sopravvivenza dell'azienda e in quel caso bisogna attribuirgli la giusta importanza. In generale per rischioso pensare solo agli obiettivi: secondo l'approccio scientifico il pilastro fondamentale l'uso della Logica, che consente di trovare un metodo scientifico per risolvere i problemi aziendali, quindi sulla Logica che dobbiamo impostare i sistemi di gestione. I metodi per raggiungere gli obiettivi sono importanti almeno quanto gli obiettivi stessi; in questa tesi affrontiamo i metodi per progettare e analizzare le prove, there must be continual improvement in test methods(Deming 1986, pag.49).
23
Per questo motivo il MBITE, proposto da Galetto nel 1989, mi sembra un sistema pi adeguato di gestione dei problemi relativi alla Qualit, ma non solo. MBITE l'acronimo di Management By If Then Else, quindi pone l'accento proprio sulle conseguenze delle decisioni prese dai manager; le conseguenze delle decisioni si estendono all'intero Spazio-Tempo Aziendale (Galetto 1995), che comprende:
Tempo aziendale Governo Legislazione Propriet Management Personale Tecnologi Spazio aziendale
Figura 5: lo spazio-tempo aziendale (Galetto 1995)
Societ
Fornitori
Clienti
Creditori
Istruzione
Il concetto di gestione totale della Qualit di Feigenbaum ha a che fare con la dimensione puramente spaziale; sono in pochi coloro che mettono in evidenza la dimensione temporale ovvero le ripercussioni future delle decisioni attuali. Solo nel 1994 il concetto di "redditivit nel futuro" entrato ufficialmente nella definizione di TQM, ma manca ancora il concetto di conseguenze delle decisioni. L'Approccio Integrale alla Qualit, proposto da Galetto gi nel 1976, si realizza prevedendo e gestendo le conseguenze delle decisioni nello Spazio-Tempo Aziendale.
2.6 L'IMPORTANZA DELLE DEFINIZIONI NELL'APPROCCIO SCIENTIFICO

It would be wonderful if all managers and practitioners were to standardize on the terminology used to describe concepts, deeds, and meanings (Juran 1988, 2.13) Nella maggior parte dei casi, gli esseri umani quando comunicano, non badano alla precisione del linguaggio e non si preoccupano adeguatamente che il messaggio ricevuto sia uguale al messaggio inviato; si parla troppo e si medita troppo poco, perch ascoltare
24
richiede una grande disponibilit intellettuale. Il processo di comunicazione non pu funzionare correttamente se non ci si accorda sul significato delle parole del linguaggio. Fino dal V secolo a.C. ci si accorse che per fondare una qualsiasi scienza sono necessarie definizioni rigorose, espresse con una terminologia adeguata: l'uso del linguaggio ordinario e di concetti definiti in modo non rigoroso, pu essere fonte di confusione e conduce, a volte, a vere e proprie contraddizioni. Il significato delle parole stabilito mediante le definizioni: l'insieme di tutte le definizioni formano il vocabolario con cui si genera il linguaggio proprio della scienza che si vuole trattare. Spero che sia chiaro, a questo punto, il motivo dell'avversione alla qualit totale: non definita in modo abbastanza chiaro; quella che potrebbe essere la fonte ufficiale (ISO8402) non mai citata nei documenti qualtotalisti. L'argomento principale del presente lavoro sono i piani fattoriali (cap. 4) e purtroppo ho dovuto constatare anche nella letteratura sul DOE una certa carenza riguardo alle definizioni rigorose, anche in libri di Qualit: non deve stupire quindi che in situazione particolari (quando mancano degli stati di prova o quando ci sono diverse numerosit) l'analisi classica vada in crisi; spesso ci si fa prendere dalle formule e alla fine non si esplicita il collegamento fra i numeri ottenuti da qualche metodo e le ipotesi che sto testando. Nel cap.7 vedremo che se si vuole usare il teorema di Gauss-Markov bisogna enunciarlo e applicarlo in forma rigorosa, altrimenti si rischia di commettere degli errori. Le definizioni sono fondamentali: vedremo nel cap.4 che sufficiente definire l'effetto di un fattore in un certo modo per superare le contraddizioni logiche a cui portano le definizioni classiche; sempre a partire da definizioni chiare e univoche vedremo che facilissimo spiegare il fenomeno degli Alias nei piani frazionati (Cap.4), senza ricorrere a macchinosi artifici come la classe di equivalenza: la struttura degli Alias, descritta in modo classico, sembra quasi un mistero e probabilmente ed per questo che rifiutata dagli specialisti della Qualit. Concludo il paragrafo invitando chiunque a seguire il messaggio di Galetto (1995), condizione necessaria per un corretto uso della Logica: In tutti i campi scientifici bisogna definire i termini ed i concetti che si utilizzano, altrimenti diventa impossibile il trasferimento delle idee e delle esperienze.
2.7 PERCHE' NON USARE GLI STIMATORI CORRETTI?

Consideriamo uno studente in Ingegneria che alla fine del primo anno ha preso i seguenti voti: 28, 26, 30, 29, 27 e vogliamo prevedere quale sar la sua media alla fine dei 5 anni, (supponendo che lo studente sia e rimanga un sistema in controllo statistico); riterreste corretta una stima ottenuta sommando i voti e dividendo per il totale per 6?
25
140/6 = 23,333 Penso di no perch a tutti sembra intuitivo che per fare la media, bisogna dividere il totale per 5: 140/5 = 28 e in questo caso l'intuito confermato dalla teoria statistica che asserisce che, soddisfatte una serie di assunzioni, la media aritmetica dei voti dei 5 esami uno stimatore corretto del parametro "media degli esami" relativo a quello studente. Esistono per dei casi in cui gli stimatori corretti non sono intuitivi da trovare, ad esempio nel campo dell'affidabilit, una disciplina basilare della Qualit (par. 1.5); trovare gli stimatori corretti per l'affidabilit richiede la comprensione della Teoria Integrale dell'Affidabilit (Galetto 1981). Supponiamo che un manager debba decidere se lanciare un nuovo prodotto (non riparabile) e che voglia verificare se ha raggiunto lobiettivo di un tasso di guasto di 1 ogni 25 ore; egli fa delle prove censurate su 10 pezzi in condizioni e trova che 6 unit si sono guastate dopo 4, 13, 15, 16, 19 e 23 ore, mentre le altre 4 sono state ritirate senza guasto dopo 5, 10, 15 e 20 ore. Se il manager conosce il metodo della massima verosimiglianza e la teoria dellaffidabilit (Galetto 1982) trova che il tasso di guasto uguale, assumendo la distribuzione esponenziale, al numero dei guasti meno 1 fratto la somma totale dei tempi fino al guasto e dei tempi dei pezzi che non si sono guastati. 5/140 = 1guasto/28ore possiamo essere abbastanza confident (fiduciosi) che lobiettivo di 1guasto ogni 25 ore raggiunto (per verificarlo rigorosamente devo poi fare il test dipotesi, specificando il livello di fiducia). Se, seguendo lintuito, il manager calcola: 6/140 = 1guasto/23,3ore stima male la realt e deve concludere che non ha raggiunto lobiettivo e spende3 altri soldi inutili per cercare di abbassare il tasso di guasto: sono i costi della disqualit. Questo risultato assai meno intuitivo rispetto all'esempio dello studente per in quel caso tutti condannerebbero il dividere per 6 al posto che 5; invece nell'affidabilit, solo perch difficile trovare il risultato corretto, non ritenuto importante usare 5 o 6: questa disparit di trattamento in assoluto contrasto con il metodo scientifico che abbiamo introdotto nel par. 2.2. L'ignoranza non pu giustificare i manager che non usano gli stimatori corretti: abbiamo per detto che l'ignoranza di per s non un male; se un manager della Qualit consapevole della sua ignoranza e va in cerca dei metodi corretti non entra nel circolo vizioso della disqualit, altrimenti ...
Se non vuole rischiare la reputazione dellazienda. 26
2.8 UN P DI DISQUALIT TOTALE

Il lettore avr sicuramente notato i continui riferimenti al pensiero di Deming, probabilmente la figura pi importante nel campo della Qualit: mi sembra pertanto inaccettabile che il suo pensiero venga distorto nella traduzione italiana del suo libro Out of the crisis, tradotto dallISVOR in Limpresa di Qualit e che molti esperti consiglino la lettura del libro tradotto al posto delloriginale. Citiamo qualche perla presente nella traduzione: a pag.75 Deming cita una frase di Nelson in cui critica la gestione per obiettivi (MBO) e la mancanza di un metodo; la frase non tradotta (!!!) ... chiss che sistema di gestione usava la FIAT... a pag. 132 Analysis of variance tradotto con analisi delle variazioni; evidentemente il traduttore non conosce la Statistica, a pag.133 un intero paragrafo in cui Deming critica i piani di campionamento preconfezionati, non tradotto (!!!): forse la FIAT usava tali piani?... a pag.309 si trova il concetto-chiave del pensiero Deming: The central problem in management ... is failure to understand the information in variation; ovvero, come abbiamo finora ripetuto, il management non riesce a capire linformazione contenuta nella variabilit. La traduzione dellISVOR invece :Il problema centrale del management ... linsuccesso nel capire le informazioni in mutamento; al posto di tradurre in variation con nella variabilit lo hanno tradotto con in mutamento quindi Deming avrebbe detto che il management non riesce a capire le informazioni che mutano (???); mi piacerebbe che coloro che consigliano il libro tradotto mi spiegassero il significato di questa frase perch io non lo capisco... a pag.335 tests of a hypothesis tradotto con dimostrazioni dellipotesi; si vede che il traduttore non conosce i test dipotesi che si fanno in Statistica ma non conosce nemmeno la Matematica e la Logica: come si fa a dimostrare unipotesi ??? Io ho sempre pensato che bisognasse dimostrare i teoremi, non le ipotesi... Premetto che non ho letto tutta la traduzione dellopera ma quel poco che ho letto e i 4 esempi citati mi bastano per capire che i traduttori sapevano poco di Deming, della Qualit e della Statistica e ho il sospetto che non fossero del tutto intellettualmente onesti (vedi alcuni paragrafi non tradotti); non posso non estendere tale giudizio a tutti coloro che consigliano la lettura del libro LImpresa di Qualit. Bisogna stare molto attenti a ci che si legge sulla Qualit perch vi sono molti esperti che fanno delle affermazioni inverosimili; Galgano (1990) dice che solo negli anni 80 le aziende occidentali si sono accorte che la Qualit era per loro un fattore strategico; invece gi nel 1961 veniva introdotto in America alla General Electric quello che lui chiama qualit totale; e Galgano non sa che gi negli anni 70 Galetto predicava limportanza strategica della Qualit per lazienda.
27
Mattana (1994) a pag.25, parlando di Crosby, dice che egli ha sempre puntato sugli aspetti motivazionali; vediamo cosa dice invece Crosby nel suo libro (1986): Non ho mai pensato che si possa motivare qualcuno per pi di qualche giorno(pag.90); Purtroppo, il concetto Zero Difetti stato recepito dallindustria come un semplice programma di motivazione(pag.121); ... aziende che volevano avere maggiori informazioni su questo programma motivazionale. Continuavo a dire che il concetto ZD era uno standard di lavoro gestionale ...(pag.130). Forse Mattana ha frainteso il pensiero di Crosby ... Erto (1995) a pag.7 dice che Shewart, Deming, Juran, Feigenbaum e Crosby sono i fondatori della qualit totale: ma come? Shewart avrebbe fondato la qualit totale prima ancora che essa esistesse? In Deming (1986), in Juran (1988), Crosby (1986) non ho trovato traccia di qualit totale; Feigenbaum solo dal 1986 si convertito sia alla qualit totale sia al diffuso costume di usare il termine senza averlo definito. Questi esempi ci fanno capire che meglio aprire gli occhi e ragionare con la propria testa, e non fidarsi nemmeno delle autorit in materia della Qualit perch anche queste autorit possono fare affermazioni molto dubbie. Non si deve pensare che un articolo abbia un serio contenuto scientifico, solo perch compare su una rivista conosciuta e il suo autore un nome famoso: sullinserto del quotidiano La Stampa, tuttoscienze del 4/12/1996 si riporta che un fisico teorico, Alan Sokal, per scherzo ha inviato un articolo pieno di assurdit scientifiche a una rivista di studi sociali che, al posto di rifiutarlo, lha pubblicato, inconsapevole delle sciocchezze presenti nellarticolo, come quella che i numeri complessi sono stati scoperti recentemente(!!!). Nello stesso inserto anche riportato che un prestigioso scienziato americano, Collins, ha dovuto ammettere che un suo studente aveva falsificato i dati di alcuni suoi esperimenti. Il mancato uso dellapproccio scientifico evidente anche nella Politica, come sottolineato in tuttoscienze del 13/3/1996; se ascoltiamo i discorsi dei politici ci accorgiamo che essi non hanno alcuna consequenzialit logica, lesposizione delle tesi non chiara e infatti spesso si sente un politico fare un affermazione e, tempo dopo, il suo esatto contrario. Non c da stupirsi che non si riescano a risolvere i problemi del paese... La cosa migliore quindi dibattere scientificamente (accettando anche la possibilit di non poter arrivare a una conclusione) ogni argomento provando le proprie affermazioni con i fatti e non con le chiacchiere; "Ut semper dicenda ex dictis pendeant": questo lapproccio scientifico.
28
2.9 CONCLUSIONI
Experience without theory teaches nothing (Deming 1986, pag.317) In questi capitolo abbiamo dunque scoperto che i problemi della Qualit non si risolvono seguendo ciecamente le idee di chicchessia ma solo usando la propria testa. Per scoprire la realt bisogna generare teorie, progettare esperimenti, acquisire ed analizzare i dati, interpretare i risultati dopo aver definito i rischi di sbagliare usando lintelligenza; il modo corretto usare il metodo scientifico, con coerenza e rigore (Galetto 1995). Non sufficiente dire che vogliamo raggiungere un obiettivo: bisogna sviluppare dei metodi per raggiungerlo e la Qualit dei metodi fondamentale: ci vale anche (e soprattutto) per gli obiettivi e i problemi riguardanti il campo della Qualit. Per sviluppare metodi di Qualit bisogna usare la Logica e la Statistica visto che la variabilit esiste sempre in tutti fenomeni, whether we like it or not: lapproccio scientifico la via maestra per risolvere i problemi. Ritengo che una degna conclusione del capitolo possa essere fornita dalle parole del fisico David Ruelle (1992); in esse mi pare condensata lessenza dello spirito scientifico: La riflessione scientifica seria pu essere unesperienza di grande ricchezza, ma anche un lavoro molto faticoso. Le idee devono essere seguite senza tregua, fino allossessione. Quando si intravede una possibilit interessante, si deve cercare di precisarla e di verificarla, cosa che conduce a volte a conservarla e pi spesso a rifiutarla. Si devono sviluppare idee generali e audaci, ma poi necessario verificarne i particolari, ed allora che, per lo pi, si scoprono errori disastrosi. Si deve allora riprendere la costruzione, si devono abbandonare certe idee e risistemare in altro modo quelle che rimangono. E il processo si ripete un giorno dopo laltro, una settimana dopo laltra, un mese dopo laltro.
29
CAPITOLO 3
DESIGN OF EXPERIMENTS
3.1 STORIA DEL DOE

Nei primi anni del secolo la Statistica applicata ai problemi pratici aveva fatto passi da gigante con i contributi di Galton, Pearson e Gosset che avevano introdotto rispettivamente i concetti di correlazione, test 2, test t; negli anni 20 si svilupp anche quello che ora chiamato design of experiments (DOE), dal titolo del libro che Sir Ronald Fisher scrisse nel 1935. Gi per nel 1926 Fisher scrisse un articolo, The arrangement of field experiments, in cui venivano esplicitati per la prima volta i principi di: randomization (casualizzazione), blocking (controllo), replication (replicazione) hidden replication , confounding o aliasing Fisher, che lavorava al centro sperimentale agricolo di Rothamsted, introdusse piani sperimentali quali i quadrati latini e piani fattoriali a blocchi casualizzati per studiare gli effetti dei trattamenti sulle coltivazioni; per analizzare i risultati introdusse lANOVA e i polinomi ortogonali, per testare le ipotesi indipendentemente; inoltre gi nel 1922 aveva usato dei modelli non lineari e in seguito rimpiazz il metodo dei momenti con quello della massima verosimiglianza per le stime puntuali. La grossa novit pratica che Fisher introdusse fu quella di variare nellesperimento pi di un fattore per volta per poter capire lazione combinata dei fattori (interazione): ci era in netto contrasto con le convinzioni del tempo che bisognasse interrogare la Natura con una domanda alla volta (Box 1980), convinzione che dava luogo ai piani One Factor At Time (OFAT), ancora oggi usati (a sproposito).
30
La fattoria di Rothamsted fu il luogo di lavoro di altri 2 grandi del DOE, Yates e Finney; Yates, in un famoso articolo del 1934, The Analysis of Multiple Classifications With Unequal Numbers in the Different Classes, studi gi molto approfonditamente uno degli argomenti principali di questa tesi (i piani con diverse ripetizioni negli stati di prova) proponendo addirittura 3 metodi di analisi, ancora oggi usati; Finney fu il primo a formalizzare il frazionamento dei piani fattoriali nel 1945; anche ai giorni nostri prosegue la grande tradizione della fattoria di Rothamsted col grande statistico Nelder, di cui parleremo nel cap.6 e 7. Nel 1946 appare su Biometrika uno degli articoli pi famosi sul DOE: Design of Optimal Multifactorial Experiments, di Plackett e Burmann, che utilizzarono la Teoria dei Gruppi e del campo di Galois e la geometria proiettiva, per costruire una teoria generale, basata sulle matrici di Hadamard, dei piani fattoriali ortogonali. Dallagricoltura si pens che i piani sperimentali si potessero applicare anche allindustria chimica: Box fu il pioniere in questo campo allImperial Chemicals Industries e nel 1951 un suo articolo, On the Experimental Arrangement of Optimum Conditions, segn la nascita della cosiddetta Response Surface Methodology (RSM); nel suddetto articolo anche spiegato il metodo che useremo nel cap.8 e 9 per trovare la struttura degli alias dei piani frazionati. Nel 1957 Box introduce il cosiddetto EVOP, EVolutionary OPerations, che contrariamente ai piani fattoriali non richiede grossi cambiamenti nei livelli dei fattori, essendo implementato su un processo gi operante. Negli anni 60 vi furono i primi studi teorici sui piani asimmetrici (con fattori a diversi livelli) e sulle frazioni irregolari, come i 3/4 di John, che vedremo nel cap.5; questi studi, essenzialmente teorici e basati su unalgebra piuttosto avanzata, furono condotti da Addelman, Margolin, John e Webb. Negli anni 70 il libro di Searle, Linear Models, formalizza la teoria generale dei modelli lineari attraverso luso del modello sovraparametrizzato (cap.7); il libro-chiave su cui si basano tutte le dissertazioni sui dati non ortogonali (unbalanced), di Speed, Hocking, Hendersson, Freund e Jennings; nel 1987 Searle fa un altro libro, il cui contenuto beneficia di tutte le discussioni fatte in quegli anni, Linear Models for Unbalanced Data. Negli anni 80, grazie ad unaccurata campagna pubblicitaria e al mito della Qualit giapponese, si afferma prepotentemente la metodologia di Taguchi, nella progettazione e analisi delle prove; i piani sperimentali iniziano a venire impiegati massicciamente nellindustria dei semiconduttori, seguendo le indicazioni dellingegnere giapponese. Limportanza che Taguchi d alla sperimentazione per raggiungere gli obiettivi di Qualit senza dubbio positiva e tale anche la propaganda di questo concetto; purtroppo Taguchi propone dei metodi molto discutibili da un punto di vista statistico (cap.11) e sebbene molti statistici di primo piano abbiano dimostrato linesattezza dei cosiddetti metodi Taguchi, lindustria sembra continui a gradirli molto. In questa breve panoramica storica sul DOE non ho ovviamente messo in luce tutti gli argomenti che si sono sviluppati in questo secolo perch ci vorrebbe unaltra tesi solo
31
per elencare i moltissimi studi nellambito dellexperimental design; sono stati evidenziati solo quegli argomenti che saranno oggetto di discussione nella presente tesi.
3.2 TERMINOLOGIA DOE

Chiarisco subito che user indifferentemente design of experiments e experimental design, sebbene qualcuno usi il primo termine per indicare la disciplina scientifica e il secondo per descrivere leffettivo piano operativo per un dato esperimento. La terminologia classica che si trova in letteratura totalmente in lingua inglese per cui si user indifferentemente la notazione inglese e la traduzione italiana. Abbiamo detto che gli inizi del DOE si sono avuti in campo agricolo e ancora oggi le condizioni di prova nellesperimento vengono definite trattamenti: pi modernamente potremmo definirli stati di prova. Uno stato di prova dunque una particolare combinazione di livelli che i fattori possono assumere; i fattori sono quelle variabili che si pensa possano influenzare la risposta dellesperimento e sono incluse nel piano sperimentale; possiamo dividere fra: primary variables, che sono i fattori che pi interessano e quindi devono essere controllati e fatti variare sistematicamente background (o nuisance) variables, inserite per generare variabilit che possono essere controllate (bloccate o tenute costanti) o non controllate ma misurate (covariates). Nei metodi Taguchi (cap.11) alcuni fattori non controllabili nelle normali condizioni operative (di uso o di produzione) vengono invece controllati ovvero variati in modo sistematico nellesperimento; essi vengono chiamati noise factors e sono introdotti per cercare di capire la combinazione dei livelli dei fattori meno sensibili a questi fattori di rumore: questa limportante problematica del robust design, ancora in fase di ricerca perch i metodi di Taguchi sono molto dubbi. Non detto che le variabili non inserite nel piano non esercitino uninfluenza sulla risposta, pertanto bisognerebbe controllare che questi fattori non esercitino una azione sistematica non compensata: ci molto difficile quindi spesso viene introdotta la casualizzazione (par. 3.3) nellesperimento. Se la risposta di interesse Y, che una variabile dipendente, ununica variabile casuale, lanalisi del piano detta univariata, se mutipla lanalisi detta multivariata. Scopo dellanalisi capire se gli effetti dei fattori influenzano significativamente la risposta ovvero se provocano una variabilit in Y superiore a quella dellerrore sperimentale. Per quanto riguarda i fattori essi possono essere:
32
quantitativi, nel qual caso possono variare continuamente o discretamente; ogni fattore potr avere un effetto lineare, quadratico, cubico... e ognuna di questa componenti potr dar luogo a uninterazione con le componenti di altri fattori; qualitativi, nel qual caso non posso parlare di componente lineare, quadratica... ma posso fare dei confronti (contrasts) fra le risposte ai vari livelli del fattore; In questa tesi cercheremo di rendere sfumata la differenza fra i 2 tipi di variabile: considerando che gli effetti lineari, quadratici ... non sono altro che confronti fra le risposte ai vari livelli del fattore (analogamente alle variabili qualitative), codificando i livelli delle variabili quantitative, analogamente a quanto fatto con i fattori qualitativi, al fine di adottare un approccio unificato allanalisi dei piani sperimentali e di far vedere che i 3 tipi principali di analisi, regressione, ANOVA e ANCOV (par. 3.5) conducono agli stessi risultati, indipendentemente dal tipo di variabile presente nel piano. I fattori possono essere: fissi, se allo sperimentatore interessa confrontare solo i livelli considerati nellesperimento casuali, se i livelli considerati nellesperimento sono presi casualmente da una popolazione di livelli pi ampia. I modelli con fattori fissi vengono definiti in letteratura fixed models; quelli con fattori casuali random models; quelli con entrambi i tipi di fattori mixed models; per gli ultimi 2 tipi di modelli lanalisi pi complicata e mai completamente rigorosa: viene introdotto, rispetto allanalisi dei modelli fissi, il problema dei variance components, che non trattato in questa tesi.
3.3 I 3 PRINCIPI DI FISHER

Come abbiamo detto, Fisher nel 1926 esplicit i principi che usava nei suoi esperimenti; il pi importante e controverso fu quello di randomization, ovvero di casualizzazione dellapplicazione dei trattamenti; Fisher us tale principio perch lanalisi (par. 3.7) richiedeva che gli errori sperimentali fossero indipendenti fra di loro e distribuiti normalmente ma tale condizione era (ed ) difficilmente verificabile perch le misurazioni effettuate sono troppo vicine nel tempo e nello spazio per essere scorrelate fra loro: lallocazione casuale dei trattamenti, se da un lato aumenta la variabilit, fornisce una valida giustificazione allassunzione di normalit4 dellerrore sperimentale, permettendo dunque luso dei test t, F e 2; la randomization protegge anche contro possibili distorsioni della stima dellerrore e degli effetti dei fattori e interazioni, perch bilancia gli effetti delle variabili che non sono considerate nellesperimento. La completa casualizzazione in un
4
La dimostrazione di tale affermazione in Box et al. (1978). 33
piano con molti stati di prova pu essere per molto costosa per cui le esigenze economiche possono forzare una parziale casualizzazione; in questo caso, a rigore, bisognerebbe introdurre quello che in Lorenzen et el. (1993) chiamato restriction error: nella tesi non approfondiremo questo discorso. Inoltre, per piani con molti trattamenti, la randomization stessa pu indurre delle distorsioni a causa della non uniformit delle unit sperimentali: in questo caso entra in gioco il blocking. Il bloccaggio o controllo consiste appunto nel bloccare una variabile, solitamente di poca importanza, cosicch allinterno del blocco lambiente sperimentale sia il pi omogeneo possibile per non creare distorsioni; leffetto della variabile bloccata viene cos sottratto allerrore sperimentale. Solitamente si fa lassunzione che la variabile bloccata non interagisca con i trattamenti: viene dunque usato un modello additivo5 (fra trattamenti e blocchi) nellanalisi dei risultati. Abbiamo parlato dellerrore sperimentale o residuo: esso dovuto principalmente alla variabilit intrinseca del materiale, alla mancata uniformit dellesperimento e agli errori di misurazione (di qui limportanza che il misuratore e lo strumento siano congiuntamente in controllo statistico come ricorda Deming (1986) nel cap.8 del suo libro); per cercare di diminuire questo errore bisogna ripetere le prove (replication), il che serve anche a bilanciare leffetto di variabili sconosciute e di fattori di disturbo che possono agire in modo diverso da una prova allaltra; diminuendo lerrore sperimentale, cresce la precisione delle stime e dunque lefficienza del piano: se si riesce ad avere un residuo molto piccolo, si pu trascurare6 il fatto che gli stimatori siano un po correlati fra di loro rinunciando quindi a una completa ortogonalit del piano (cap.8). Sottolineiamo che, per il principio F2, lerrore sperimentale sempre presente in ogni misurazione, dunque coloro che affermano di aver realizzato un esperimento con residuo nullo, hanno capito poco dellexperimental design. Negli esperimenti non replicati non c nessun grado di libert per lerrore sperimentale dunque bisogna fare lassunzione (non sempre giustificata) che qualche effetto sia trascurabile, solitamente le interazioni di ordine pi elevato, e usarle come stima del residuo . altres vero che spesso nei piani completi si verifica quella che Fisher chiamava la hidden replication, nel senso che certe interazioni sono trascurabili quindi servono in realt meno stati di prova (rispetto a quelli del piano completo) e quelli in pi possono considerarsi una replicazione degli altri: nei piani completi tende quindi ad esserci una sorta di ridondanza, sfruttata nei piani frazionati, per ridurre il numero delle prove. Lultima osservazione da fare che nei metodi Taguchi non avvengono delle semplici replicazioni nello stesso stato di prova perch i fattori di disturbo (noise factor) vengono fatti variare sistematicamente (nellouter array): nel cap.11 vedremo che questa
A volte tale modello pu risultare inadeguato. Fino a un certo punto. 34
costituisce una procedura inefficiente, come, del resto, la quasi totalit delle metodologie propugnate da Taguchi.
3.4 PRINCIPALI FAMIGLIE DI PIANI SPERIMENTALI

Il piano pi semplice quello completamente randomizzato in cui c un solo fattore i cui trattamenti vengono applicati a caso sulle unit sperimentali a caso; notiamo che quasi tutti libri tendono a condensare una sola somma dei quadrati leffetto dei trattamenti: pi avanti (cap. 8 e 10) sosterremo che tale somma di quadrati non mi d grande informazione per cui conviene sempre dividerla in somme di quadrati, riferite a singoli confronti con un solo grado di libert, che mettono in evidenza leffettiva sorgente di variazione. In pratica questo tipo di piano usato raramente nella realt perch difficile che un esperimento sia influenzato da una sola variabile indipendente. Infatti nella realt molto pi usato il piano a blocchi randomizzati in cui si pu sottrarre allerrore sperimentale leffetto della variabile bloccata; allinterno di ciascun blocco tutti trattamenti vengono applicati a caso sulle unit sperimentali a caso: se ci non possibile si parla di piani split-plot; la struttura del residuo si complica notevolmente. Se allinterno di un blocco non si possono applicare tutti trattamenti il piano detto a blocchi incompleti, bilanciato o parzialmente bilanciato a seconda che ogni coppia di trattamenti appaia o meno una sola volta nei vari blocchi. Altri piani usati, e rispolverati dai metodi Taguchi sono i quadrati latini in cui abbiamo un solo fattore di interesse principale e 2 background variables che sono bloccate; tali piani non prendono in considerazione possibili interazioni fra le variabili. Una variante di questi piani il quadrato Youden che estende il numero di variabili trattabili (se ci sono 3 background variables detto anche quadrato greco - latino). Fra i piani sperimentali pi usati ci sono senzaltro quelli fattoriali (o crossed), oggetto principale di questa tesi; possono essere bloccati o meno su qualche variabile, completi o frazionati: in questo caso si perde informazione e nasce il problema degli Alias; se i fattori hanno lo stesso numero di livelli vengono detti simmetrici, altrimenti asimmetrici. I piani fattoriali fanno uso del principio di variazione simultanea dei fattori cosicch si riesce a capire anche leffetto delle interazioni fra fattori; sono molto pi efficienti dei classici piani OFAT usati solitamente dagli scienziati, in cui facendo variare un fattore alla volta, leffetto dei fattori parzialmente confuso con quello delle interazioni. Se i fattori sono quantitativi e indicano la percentuale di una miscela, c il vincolo che la somma dei fattori deve essere uguale a 1: si parla allora di mixture designs. Quando non interessa tanto studiare leffetto assoluto di un fattore sulla variabilit della risposta, quanto piuttosto la variabilit relativa dei fattori rispetto alla risposta, conviene incapsulare i fattori, nel senso che alcuni livelli di un fattore compariranno solo
35
per certi livelli di un altro fattore in una struttura gerarchica: sono i cosiddetti nested designs. Se i fattori possono variare in modo continuo pu essere interessante costruirsi una grafico in cui la risposta, vista come una superficie nello spazio, viene proiettata sui piani composti dalle variabili indipendenti, a due, a due: osservando questi grafici, si riesce a capire quali sono i punti stazionari della superficie di risposta; questa la problematica della response surface methodology (RSM). Quando questa metodologia applicata su processi gi operanti in cui non si possono fare grossi cambiamenti nei livelli dei fattori (potrebbero peggiorare la produzione), si parla allora di evolutionary operations (EVOP): in questo modo si riesce a raccogliere informazione sul processo mentre la normale produzione pu continuare indisturbata. Infine abbiamo il robust design che, facendo uso dei piani sopra descritti, si propone un obiettivo diverso dal solito (che indagare la significativit degli effetti), cercando la miglior combinazione dei livelli per cui la risposta operi su un certo valore (target) con una dispersione minima; una problematica DOE in fase di ricerca.
3.5 GLI OBIETTIVI DELLA SPERIMENTAZIONE

Come vedremo nel par. 3.8 lobiettivo principale del DOE dovrebbe essere sempre una progressiva conoscenza del fenomeno, nellottica di uno studio continuo dei processi per diminuire la variabilit, migliorarli, aumentando cos la Qualit: questo mette il manager nella miglior condizione possibile per gestire, ovvero decidere e agire, sulla base della teoria e dellesperienza. molto pericoloso agire sulla base della sola esperienza soprattutto se questo atteggiamento vuole mascherare lignoranza dei manager; attenti a non entrare nel circolo vizioso: sempre la teoria che deve guidare il piano sperimentale. Unaltra cosa da mettere in evidenza che lo sperimentatore deve essere consapevole che nel mondo reale non esistono linee rette e distribuzioni normali e quindi i modelli matematici che egli costruisce sono tutti sbagliati: ciononostante con tali assunzioni si trovano dei risultati che, con una certa approssimazione, rispecchiano quelli del mondo reale; il fatto che tutti modelli siano sbagliati ci fa capire che non conviene costruire modelli troppo complessi per avere il modello giusto: meglio cercare una descrizione semplice e nel contempo, informativa, dei fenomeni naturali (Box 1976). Ricordiamo ci che dice Deming sulla sperimentazione, The reason to study the results of a change is to try to learn how to improve tomorrows product... Planning requires prediction ma possiamo prevedere solo se il sistema in controllo statistico (par. 2.3). Dunque pu essere importante: studiare la significativit degli effetti prevedere media e varianza di qualche variabile di interesse nei vari stati di prova
36
Nel prosieguo della tesi sar importante distinguere i due tipi di situazione perch, voler studiare proprio leffetto di certe variabili pu causare una perdita di precisione nella stima della risposta; se invece si disposti a modificare le variabili di interesse stimo con pi precisione le variabili trasformate e quindi anche la risposta: questo discorso, che pu sembrare un po fumoso risulter pi chiaro, quando si parler di ortogonalizzazione nellanalisi dei piani sperimentali. Cosa significa che una variabile significativa? Nel cap.2 abbiamo visto che la caratteristica di un processo in controllo statistico ha una sua variabilit naturale, indotta da tante cause non controllate che, complessivamente, hanno un effetto ridotto: misuriamo tale variabilit con la varianza della caratteristica; un fattore ha un effetto significativo sulla caratteristica se un suo cambiamento provoca una variabilit superiore7 a quella naturale della caratteristica. Un altro obiettivo del DOE pu essere quello di ottimizzare una qualche funzione obiettivo; nella sperimentazione classica questo obiettivo era quasi sempre il valor medio di una variabile dipendente; Taguchi ha invece portato allattenzione degli specialisti di Qualit che, come funzione da ottimizzare, meglio considerare una loss function (cap.11), che tiene conto anche della varianza dei vari trattamenti, che nellanalisi classica considerata costante8. Il robust design, utilizzando queste idee, si propone, come abbiamo detto, di cercare la miglior combinazione dei livelli per cui la risposta operi su un certo valore (target) con una dispersione minima. Questa idea non di Taguchi (cap.11), sebbene molti pensino il contrario, tuttavia lingegnere giapponese ha avuto linnegabile merito di propagandarla. Unultima notazione riguarda la moderna distinzione che si fa oggi fra: on-line quality control, ovvero gestione della Qualit quando la linea produttiva gi operante: tipici strumenti statistici usati sono le carte di controllo off-line quality control, ovvero gestione della Qualit prima che il processo sia operativo, dunque nelle prime fasi del ciclo di sviluppo dei prodotti; il discorso che ho affrontato nel par. 1.5 in cui si diceva che gli strumenti statistici pi idonei in questa fase erano le tecniche di affidabilit congiunte con il DOE: il DOE uno strumento di prevenzione che serve a costruire la qualit nel prodotto. Invece spesso si identifica loff-line quality control col robust design; e si identifica il robust design con i metodi Taguchi che sono tuttaltro che robust ... Ricordiamoci allora che Taguchi non ha inventato loff-line quality control e che questultimo sempre stato usato dagli specialisti di Qualit che sapevano come ottenere la Qualit: vero che pochi manager si erano resi conto dellimportanza del DOE nella gestione della Qualit ma non per questo bisogna attribuire questa scoperta a Taguchi; e ricordiamoci che il robust design non una metodologia distinta dal DOE (come invece
7 8
Il termine superiore viene quantificato con il livello di fiducia (CL) dunque un concetto relativo. E quindi non influenza la loss function 37
viene dipinto in De Risi 1996), ma ne costituisce una particolare problematica ancora in fase di ricerca perch i metodi Taguchi non sono corretti statisticamente (cap.11).
3.6 IL DOE NELLA PRATICA

Any claim to make use of relevant experience without a plan based on theory is a disguise for rationalization of a decision that has already been made (Deming 1986, pag.404) La teoria statistica del DOE fondamentale nella pratica perch le prove possono essere molto costose: i dati che abbiamo sono stati acquisiti a caro prezzo, ecco perch dobbiamo usare gli stimatori migliori (efficienti) che la teoria ci offre (Galetto 1995). Visto che la sperimentazione molto costosa, il piano va progettato bene e con metodo scientifico: prima di eseguire le prove, bisogna calcolare quanta informazione dobbiamo raccogliere, dopo avere definito i rischi di sbagliare; meno voglio rischiare pi informazione bisogna avere e quindi pi bisogna spendere: ci assolutamente logico. Per di pi vi sono 2 tipi di errori possibili: quello di rifiutare lipotesi nulla quando vera (I specie) e quello di accettare lipotesi nulla quando essa falsa (II specie)9; a parit di informazione raccolta, quando si vuol diminuire il rischio di un tipo, aumenta quello dellaltro: ci perfettamente logico ed illustrato in figura 1. Lunico modo per diminuire entrambi i rischi quello di raccogliere altri dati ovvero spendere pi soldi: se non facciamo le prove necessarie, nessun artificio matematico o presunto tale (vedi i signal-to-noise), ci far stimare meglio la realt.
Quantit di informazione richiesta = soldi da spendere
Rischio di prima specie.
Rischio di seconda specie.
Quantit di informazione richiesta = soldi da spendere
Figura 6: relazioni fra i rischi di sbagliare e linformazione da raccogliere
Pu essere che vari piani sperimentali soddisfino le nostre esigenze: in tal caso, bisogna scegliere quello che ci d la precisione massima delle stime che vogliamo effettuare: notiamo che la teoria statistica, se usata correttamente, ci d molte informazioni prima che le prove siano fisicamente effettuate; anche per questo Hahn et al. (1976)
Lanalogia con un processo giudiziario presentata in Galetto (1995) rende molto bene lidea dei 2 tipi di errore 38
9
consigliano di avere, prima di eseguire il piano, una stima dello s.q.m. dellerrore sperimentale, visto che gli s.q.m. degli stimatori sono tutti proporzionali ad esso: in questo modo, prima delle prove, possiamo sapere approssimativamente la precisione delle nostre stime. Se i piani esaminati che soddisfano le nostre esigenze di precisione, hanno un costo che supera il budget a disposizione, meglio considerare anche la possibilit di non eseguire lesperimento. Concludo il paragrafo sottolineando che la sperimentazione, se fatta in modo scientifico, pu rendere molto dal punto di vista economico. Galetto ha realizzato un esperimento presso uno stabilimento di Desenzano, della Borgonova, unazienda metalmeccanica produttrice di pistoni e segmenti per motori di autoveicoli; lesperimento riguardava un processo di cromatura dei segmenti per motori automobilistici, e lanalisi corretta dei risultati ha permesso di ottimizzare la combinazione dei parametri riducendo il tempo di cromatura, realizzando: un aumento di produttivit del 17%, corrispondenti a circa 200 milioni allanno un risparmio di energia per circa 20 milioni allanno un risparmio di acido cromico per circa 28 milioni allanno una riduzione della difettosit del prodotto per 210 milioni allanno Visto che ci sono in ballo tanti soldi, vale la pena di progettare e analizzare bene lesperimento.
3.7 METODI DI ANALISI

Seguendo la classificazione di Scheffe (1959): i piani con fattori tutti quantitativi vengono solitamente analizzati con la regressione, i piani con fattori tutti qualitativi sono analizzati con lANOVA o con lANCON (ANalysis of CONtrast) che vedremo essere collegate (cap.4); i piani con fattori di entrambi i tipi vengono analizzati con lANCOV (ANalysis of COVariance). Presentiamo questi 3 approcci di analisi nella loro versione originaria, visto che nel tempo sono stati adattati anche ad altre situazioni, fino a rendere molto sfumata la loro differenza; nella tesi li useremo tutti e quattro e vedremo che danno sempre gli stessi risultati (principio F1). La presentazione si limita allessenziale, rimandando ad altri testi (Mood et al.1963, Miller et al. 1990, Allen 1985, Box et al.1978,...) la trattazione rigorosa. 3.7.1 REGRESSIONE LINEARE Nel caso pi semplice di regressione si costruisce un modello in cui una variabile dipendente Y influenzata da una variabile indipendente quantitativa X, secondo una relazione lineare, e da un disturbo casuale (per il principio F2 esso esiste sempre), chiamato errore sperimentale:
39
Y = A + B*X + dove assunto che: E()=0 VAR() = 2 Notiamo che, se il modello corretto, Y una variabile casuale che ha la stessa forma di distribuzione dellerrore sperimentale . Scopo della regressione stimare i 2 parametri A e B, sulla base di una serie di Ni osservazioni sperimentali Yij fatte per ogni livello di X, Xi; in tutto abbiamo N=Ni dati; la stima fatta seguendo il metodo dei minimi quadrati che minimizza la somma dei quadrati degli errori sperimentali osservati:
min A, B
(Y
N i =1 j =1
Ni
ij
A B * Xi
La procedura di minimizzazione d luogo alle equazioni normali. Si trova che le stime dei parametri, a e b, sono combinazioni lineari delle osservazioni sperimentali yij; quindi se lerrore sperimentale distribuito normalmente, allora anche gli stimatori a e b sono distribuiti normalmente. Lassunzione di normalit dellerrore sperimentale giustificata se pensiamo che su Y agiscano tantissimi altri fattori (variabili casuali) che si compensano dando un effetto complessivo nullo, che, in base al teorema del limite centrale10, distribuito normalmente. Sui parametri vengono poi fatti dei test di ipotesi o degli intervalli di fiducia, cosicch si riesce a costruire un modello per la risposta media col relativo intervallo di fiducia per prevedere in che limiti si manterr in futuro la risposta. Attenzione: si pu prevedere solo se la risposta era in controllo statistico quando si fatta la stima e la risposta permane in controllo statistico ovvero se il futuro si mantiene uguale al passato. Quando abbiamo pi di una variabile, conviene usare la forma matriciale per scrivere il modello: Y=X*
10
Non per nella versione che si trova sui libri di Statistica, dove assunto che le variabili sono identicamente distribuite e indipendenti. Nel nostro caso i fattori (variabili casuali) possono avere distribuzioni diverse ed essere correlati fra di loro. 40
dove in X ci sono i valori sperimentali della X, o delle loro codifiche (allocated codes) come vedremo nei cap.7 e 8, e il vettore contenente i parametri da stimare. La forma matriciale delle equazioni normali : (XT*X)* = XT * Y essa sar ampiamente usata nel prosieguo della tesi. Notiamo che questo metodo era gi del tutto noto a Gauss nel 1796, che lo usava per i suoi calcoli in astronomia e non per niente il teorema che sancisce lottimalit degli stimatori provenienti dalle equazioni normali, detto teorema di Gauss-Markov (cap.7). 3.7.2 ANOVA Questa analisi nellimpostazione originaria di Fisher serviva a capire se c differenza significativa fra le risposte medie effettuate per diversi livelli qualitativi di un fattore; in altre parole se il fattore influisce in modo non casuale sulla risposta: casuale vuol dire dovuto a tutti fattori non controllati nellesperimento, che hanno uninfluenza ridotta (si spera!!!) sulla risposta. Consideriamo la classica ANOVA one-way, con un fattore X a p livelli: X1 Y11 Y12 ... Y1N1 X2 Y21 Y22 ... Y2N2 ... ... ... ... ... Xp Yp1 Yp2 ... YpNp
dove N=N1 + N2 + ... + Np il numero totale dei dati. Lipotesi nulla che vogliamo testare che il fattore X non abbia influenza su Y, ovvero che le varie risposte abbiano media e varianza uguali; nellANOVA classica si suppone che la varianza sia la stessa11 nei p trattamenti quindi resta da testare il fatto che le medie siano uguali. Lipotesi nulla che facciamo allora: H0: 1 = 2 = ... = p Se lipotesi nulla vera possiamo pensare che tutte le risposte sperimentali Yij siano costituite dalla media pi un disturbo casuale, il cui valore atteso nullo: Y= + E() = 0
11
I metodi Taguchi non fanno questo tipo di assunzione 41
VAR() = 2 dunque VAR(Y) = 2 Se ci vero lerrore sperimentale consiste nella differenza fra i valori osservati di Y e la risposta media stimata, chiamata anche grande media. La somma dei quadrati di tali errori sperimentali, chiamata anche somma totale corretta dei quadrati, SScor, dunque:
(Y
p Ni i =1 j =1
ij
p Ni 2 = Yij N * Y = SStot SS i =1 j = 1
dove SStot la somma dei quadrati delle risposte e SS il cosiddetto fattore di correzione; se vera lipotesi nulla, SStot, diviso per i suoi gradi di libert, N-1, uno stimatore corretto della varianza 2, poich posso trattare tutti dati come se non fossero stratificati. SScor pu essere scomposta in 2 termini, uno legato alla varianza delle medie Yi. dei trattamenti rispetto alla grande media, SStr; laltro legato alla varianza allinterno dei trattamenti, chiamato SSe: questultimo, diviso i gradi di libert, n-p, sempre uno stimatore corretto della varianza della risposta Y perch una varianza pooled delle varianze dei vari trattamenti. Partendo dallidentit:
Yij Y = Yij Yi . + Yi . Y
possibile dimostrare velocemente (Miller et al. 1990) che:

SScor = Yij Y
i =1 j =1 p Ni
= Yij Yi .
i =1 j = 1
Ni
2 + N i * Yi . Y = SSe + SStr i =1
Questa decomposizione pu essere vista anche geometricamente se pensiamo a Y come un vettore le cui N componenti sono le N risposte Yij, che possono essere scomposte in 3 elementi, secondo lidentit: Yij = Y + Yi . Y + Yij Yi .
) (
corrispondenti ai 3 vettori I, T, E:
Y=I+T+E
42
come si vede dalla fig.1 (che comprime uno spazio N-dimensionale in uno tridimensionale) i 3 vettori sono ortogonali e quindi su di essi si pu applicare il teorema di Pitagora, esteso a N dimensioni: i quadrati dei loro moduli rappresentano le varie somme dei quadrati che abbiamo introdotto. Chi volesse approfondire la spiegazione geometrica dellANOVA, pu consultare Box et al. (1978).
E I+T I
Figura 7: interpretazione geometrica dellANOVA (Box et al.1978).
Se vera lipotesi nulla, allora SScor, diviso i suoi gradi di libert, non deve essere significativamente diverso da SSe, diviso i suoi gradi di libert; quindi lipotesi nulla di partenza: H0: 1 = 2 = ... = p del tutto equivalente a: H0: SScor/(N-1) = SSe/(N-p) e questa, ricordando che SScor = SSe + SStr , equivalente a:
H0: SStr/(p-1) = SSe/(N-p)
Questultima la forma in cui viene testata lipotesi nulla nellANOVA; infatti a questo punto viene fatta lassunzione di normalit dellerrore e quindi di Y cos le somme di quadrati, divisi per i rispettivi gradi di libert, sono delle 2 e i loro rapporti sono delle F visto che il teorema di Cochran (cap.7) sancisce la loro indipendenza. La classica tabella ANOVA la seguente:
43
Sorgente
Somme di quadrati Gradi di libert
Quadrati medi
F calcolata
Totale Media Trattamenti Residuo
SStot SS SStr SSe
N 1 MScor=SScor/N-1 MStr=SStr/p-1 MSe=SSe/N-p MStr/MSe p-1 N-p
Totale corretto SScor = SStot - SS N-1
Qualcuno aggiunge alla tabella una sesta colonna col livello di probabilit di F a cui corrisponde la F calcolata (i famosi P-values): una procedura che noi non seguiremo in quanto pensiamo che vada contro lapproccio scientifico del cap.2: bisogna
decidere prima delle prove quanto vogliamo rischiare per calcolare quanta informazione ci serve. Quindi semplicemente confrontiamo la F calcolata con la F che corrisponde al livello di fiducia prestabilito, e decidiamo se i trattamenti hanno effetto
significativo sulla risposta o no. Notiamo che lipotesi nulla testata ci dice solo se esiste almeno un trattamento che influenza la risposta, non dice quali sono, dunque nasconde leffettiva sorgente di variabilit: conviene allora sempre scomporre SStr in somme dei quadrati che spiegano i confronti (contrast, cap.4) fra le varie medie. Abbiamo detto che:
2 SStr = N i * Yi . Y i =1 p
essa pu essere sviluppata, con pochi calcoli, per ottenere:

p p 2 SStr = ( N i * Yi . ) N * Y = ( Ti * Yi . ) N * Y i =1 i =1 essa quella che chiameremo regola del Questo per questo, seguendo la denominazione di Galetto (1995) che deriva dal fatto che devo moltiplicare le medie dei trattamenti per i rispettivi totali per trovare la somma dei quadrati spiegata dai trattamenti (a meno del fattore di correzione). Nei cap.7 e 8 vedremo che possibile riottenere tutte questa formule dellANOVA, scrivendo le equazioni normali a partire dai modelli: Yij = + i + ij Y = I + A1*X1 + A2*X2 +...+ AP-1*XP-1 Yij = ij + ij modello overperametrized (non full-rank) modello full-regression (full-rank) modello cell-means (full-rank)
44
Questi modelli danno luogo a una regressione multipla per cui vale di nuovo la forma matriciale delle equazioni normali:
(XT*X)* = XT * Y
Lintroduzione delle equazioni normali nellANOVA (metodo G nel cap.7 e 8) costituisce una procedura nota da tempo12, anche se pochi libri di Statistica ne parlano. Riprendiamo la suddivisione che abbiamo fatto della somma dei quadrati delle risposte:
SStot = SS + SStr + SSe
Essa vale sempre, anche con: pi di 1 fattore13; si divide SStr in somme dei quadrati che spiegano leffetto dei fattori e delle loro interazioni, variabili bloccate; si divide SSe nellerrore sperimentale puro SSep (a cui bisogna riferirsi nel test F) e nella somma dei quadrati spiegata dalleffetto dei blocchi SSbl; in alternativa si pu pensare a una variabile fittizia i cui livelli sono pari al numero dei blocchi, da inserire fra i trattamenti e quindi SSbl finisce per far parte di SStr: la sostanza non cambia, stati di prova mancanti, cosa che accade nei piani frazionati (cap.4) regolari e irregolari, la regressione (par. 3.6.1) in quanto possiamo considerare i vari livelli del fattore quantitativo come trattamenti; da quanto abbiamo visto le somme dei quadrati non dipendono dalla X, ma solo dalla Y, e quindi possiamo codificare (cap.8) a piacere i livelli di X; se col test t alcuni parametri della regressione sono significativi anche le somme dei quadrati associate a tali parametri nellANOVA, sono significative col test F. 3.7.3 ANCON Lanalisi dei contrast consiste nel confrontare le medie dei vari trattamenti; i contrast sono appunto combinazioni lineari delle medie tali che la somma dei coefficienti della combinazione lineare uguale a zero. Nel cap.4 vedremo che questo metodo il pi usato nei piani fattoriali bilanciati dove, col metodo di Yates, si riescono a calcolare
12
Per quanto ne so il primo a introdurla fu Yates nel 1934, come riferiscono Nelder (1974) e Speed et al.(1978).
13
Con pi fattori, si possono vedere i vari stati di prova come tanti trattamenti di uno stesso fattore: questo un punto che non ho mai visto essere messo in evidenza sui libri di DOE. 45
facilmente i contrast di interesse, e vedremo che ad ogni contrast associata sempre una somma di quadrati. Questa analisi anche alla base del modello full-rank che vedremo nel cap.8 e dal punto di vista ingegneristico e senzaltro la pi facile da capire. 3.7.4 ANCOV Lanalisi della covarianza, che integra la regressione e lANOVA, in origine era fatta quando si avevano delle variabili quantitative e una qualitativa. Prima si fittano i dati come se i livelli della variabile qualitativa non fossero influenti, trattando quindi le risposte ai vari livelli come semplici replicazioni e poi, invece fittando dei modelli diversi per ogni livello della variabile qualitativa. Facendo lANOVA, ogni modello ha una sua somma dei quadrati e, facendo opportune differenze fra di esse, si capisce leffetto della variabile qualitativa e le sue possibili interazioni con i fattori quantitativi. Non ci dilunghiamo ora su questa procedura, in quanto verr trattata ampiamente nel cap.6. 3.7.5 TRASFORMAZIONI DI VARIABILI In tutti 3 tipi di analisi vengono solitamente fatte le 3 assunzioni seguenti sugli errori sperimentali: indipendenza degli errori sperimentali nellosservazione errori sperimentali distribuiti normalmente varianza dellerrore sperimentale costante in ogni stato di prova (omoschedasticit) In Miller et al. (1990) si dice che anche se queste ipotesi non sono verificate, lANOVA, si mantiene un procedura valida; in Stephens (1996) si riporta che, se non c omoschedasticit, lerrore di I specie non cambia anche se diminuisce lerrore di II specie. Consideriamo inoltre che lipotesi di normalit fatta solo quando si fa il test di ipotesi sulla significativit dei parametri; se gli seguono altre distribuzioni, in teoria si pu ricavare la distribuzione delle loro somme di quadrati, e del rapporto di questa: bisogna vedere se ne vale la pena; Steinberg e Hunter (1984) riferiscono che Pearson nel 1931 aveva scoperto che lANOVA robusta allassunzione di normalit. Tuttavia se le 3 ipotesi non sono verificate statisticamente, pu essere molto utile trasformare le variabili affinch esse siano verificate. In particolare si trova che per una grande quantit di esperimenti la varianza dellerrore tende a crescere con la media della risposta, nel qual caso una trasformazione logaritmica della risposta pu rendere costante la varianza. La trasformazione logaritmica pu essere anche molto utile a smussare leffetto delle interazioni se il modello risposta - fattori moltiplicativo e quindi pu semplificare lanalisi; ci non significa che bisogna assumere acriticamente la bont della trasformazione logaritmica (cosa che pu parzialmente giustificare il signal to noise nei metodi Taguchi, cap.11): uno deve studiare, volta per volta, qual la trasformazione che
46
meglio si adatta alla situazione per semplificare lanalisi, considerando anche la non trasformazione dei dati (Box 1988), se non c evidenza statistica per rifiutare la validit delle 3 assunzioni classiche.
3.8 APPROCCIO SCIENTIFICO NELLA SPERIMENTAZIONE

Experience can be cataloged and put to use rationally only by application of statistical theory. One function of statistical methods is to design experiments and to make use of relevant experience in a way that is effective (Deming 1986, pag.404) Lapproccio scientifico che abbiamo introdotto nel cap.2 vale anche e soprattutto per la sperimentazione che attraverso una continua iterazione fra pratica e teoria deve condurre ad un progressivo avvicinamento alla realt: se vogliamo che ci avvenga bisogna interrogare la Natura con delle domande logiche; come afferma Galetto (1995), essa un testimone molto scrupoloso e se le facciamo domande stupide, dar risposte stupide.
Pratica Dati Esperimenti
Induzioni
Deduzioni
Induzioni
Deduzioni
Teoria Ipotesi Modelli Congetture
CONOSCENZA DEL FENOMENO
Figura 8: approccio scientifico nella sperimentazione (Box 1976)
Una ipotesi iniziale conduce, attraverso un ragionamento deduttivo, a certe conseguenze che possono confrontate con i dati a disposizione. Le differenze fra le conseguenze dedotte teoricamente e i dati pratici sperimentali possono condurre, con un ragionamento induttivo alla modifica delle ipotesi i partenza e cos riinizia un nuovo ciclo di iterazione.
47
Le conseguenze relative alle ipotesi modificate sono nuovamente confrontate con i dati (vecchi e nuovi) che possono condurre a ulteriori modifiche, guadagnando comunque sempre maggior conoscenza del fenomeno in esame; i dati nuovi generati dipendono sempre dalle ipotesi correnti in corso di verifica. Il progetto del piano sperimentale rappresentato da una finestra mobile, attraverso la quale alcuni aspetti dello stato reale del fenomeno, sempre distorto dal rumore, possono essere osservati: se posizioniamo male la finestra (leggi progettiamo male la prova) osserviamo aspetti del fenomeno che non ci interessano.
STATO REALE DEL FENOMENO
Piano sperimentale
Finestra mobile
Rumore
Dati disponibili Progettazione
Nuovi dati
Induzione
Ipotesi modificata Hi+1
Ipotesi corrente H
Deduzione
Conseguenza dellipotesi Hi
Hi := Hi+1
Figura 9: determinazione e analisi dei dati nella sperimentazione scientifica (Box 1976)
48
Dalla figura 4 vediamo che, anche se le nostre congetture sono errate, i dati sono sempre comunque generati dal fenomeno: ecco perch, se ci basiamo solo su di essi il continuo aggiornamento delle ipotesi il confronto delle congetture riguardo lo stato di natura con i dati reali pu condurre alla convergenza verso la reale conoscenza del fenomeno stesso: attenzione dunque ai metodi bayesiani, che aggiungono allanalisi che non provengono dal fenomeno (Galetto 1989c). Questa filosofia scientifica, formalizzata da Box (1976), in contrasto con quella di Taguchi, che invece non vuole avanzare lo stato di conoscenza del fenomeno (Nair 1992), ma solo ottimizzare una certa funzione obiettivo trascurando a priori elementi che potrebbero essere importanti. The ultimate objective of the experimental investigation must surely be to understand the engineering system (Box in Nair 1992)
49
CAPITOLO 4
PIANI FATTORIALI ORTOGONALI COMPLETI E FRAZIONATI
4.1 PIANI FATTORIALI 2n

Nel capitolo precedente abbiamo visto che Fisher ebbe la grande idea di variare pi di un fattore alla volta negli esperimenti; nacquero cos i piani fattoriali, che per la prima volta permettevano di valutare leffetto combinato dei fattori (interazione). Limitiamo il nostro studio ai modelli fissi. I piani fattoriali 2n presentano n variabili quantitative o qualitative a 2 livelli, alto e basso14 che sono codificati -1 e +1 oppure 0 e 1: sono le variabili che lo sperimentatore pensa possano influenzare significativo la risposta Y che sempre una variabile casuale15. Come si vede vi sono 2n possibili combinazioni dei livelli degli n fattori ovvero 2n trattamenti o stati di prova: da ci che abbiamo detto nel par. 3.6.2 se nessuno di questi stati di prova viene replicato, non c nessun grado di libert per lerrore sperimentale. I fattori vengono solitamente indicati con le lettere maiuscole mentre per i trattamenti vi sono essenzialmente 3 tipi di notazione. 1. lo stato di prova associato a un vettore di n elementi che assumono il valore 0 o 1 a seconda che il fattore sia al livello alto o basso; per esempio in un piano a 3 fattori, il trattamento (0, 0, 1) quello in cui i primi 2 fattori sono al livello basso e il terzo al livello alto; chiaro che questo tipo di notazione pu essere estesa a fattori con pi livelli. 2. nella cosiddetta notazione di Yates i fattori sono associati a delle lettere e lo stato di prova una stringa alfabetica in cui compare la lettera associata al fattore solo se questo al livello alto; ad esempio il trattamento ac quello in cui il primo e il terzo fattore
14
La nozione di alto e basso ha senso solo con variabili quantitative, per quelle qualitative solo fittizia. Fra le variabili pu essercene anche qualcuna bloccata, se vi sono solo 2 blocchi. 50
15
sono al livello alto e il secondo al livello basso; la lettera i indica lo stato di prova con tutti fattori al livello basso. Questo tipo di notazione chiaramente non pu essere estesa a fattori con pi di 2 livelli. 3. ogni stato associato a un numero che corrisponde alla sua posizione nellordine canonico di Yates (tab.1) Per chiarire le idee tracciamo la corrispondenza fra i 3 tipi di notazione per un piano a 3 fattori: 000 i 1 100 a 2 010 b 3 110 ab 4 001 c 5 101 ac 6 011 bc 7 111 abc 8
Tabella 1: diverse notazioni per indicare gli stati
Lordine in cui sono stati messi lordine di Yates, che prende in considerazione i fattori in sequenza cos si possono aggiungere altri stati corrispondenti ad altri fattori senza modificare lordine iniziale. Puntualizzo che nel seguito le codifiche dei trattamenti, oltre ad indicare gli stati di prova indicheranno anche la stima della media della risposta in quei trattamenti: ad esempio se nello stato ab si sono effettuate 2 misure della risposta, rispettivamente 25 e 27, ab sar uguale a 26. La tecnica di analisi pi comune per questi piani lANOVA, che, come abbiamo detto, aiuta a distinguere se, cambiando di livello un fattore, la risposta Y varia in modo significativo, ovvero in modo superiore alla variazione dellerrore sperimentale; si fa lipotesi che questultima sia costante per la risposta in ogni stato di prova ovvero: Yijkr = ijk+ ijkr VAR (Yijkr) = VAR (ijkr) = 2 = cost dove gli indici i, j e k indicano il livello dei primi fattori mentre r indica le ripetizioni nello stato (i,j,k). Oltre allANOVA usatissima lANCON ovvero lanalisi dei contrast; nel par. 4.2 definiremo rigorosamente un contrast; per ora cerchiamo una rappresentazione intuitiva come quella, nel caso di 3 fattori, di un cubo sui cui vertici vengono posti gli 8 stati di prova:
51
bc
abc
ac
ab
Figura 1: confronto fra i vari stati per ottenere leffetto di A
Questa rappresentazione grafica molto utile perch permette di giustificare intuitivamente il calcolo dei vari effetti. Infatti ci interessa capire se, passando da un livello allaltro dei vari fattori, la risposta cambia in modo significativo e la cosa pi logica appare confrontare le risposte che si hanno quando il fattore al livello alto e quelle al livello basso. Per ora supponiamo che in ogni stato di prova vi sia lo stesso numero di replicazioni, cos che lo stesso considerare le medie o i totali dei vari trattamenti. La stima delleffetto del fattore A dunque: A = abc + ab +ac + a - i - b - c - bc Questa relazione si presta ad interessanti osservazioni: sul cubo si vede che praticamente si confrontano 2 facce opposte (quella con gli stati ombreggiati e laltra). Si pu pensare di fare analogamente per i fattori B e C questa relazione scritta su tutti libri di DOE ma non mi ricordo nessuno che puntualizzi se le lettere indicano i totali o le medie delle risposte nei vari stati di prova; per ora supponiamo che vi siano uguali ripetizioni per ogni trattamento, dunque il valore A cambia solo per un fattore moltiplicativo16 se passiamo dalle medie ai totali sar opportuno ricordarsi della relazione sopra quando si introdurr il frazionamento e gli alias (par. 4.5)
16
Vedremo che questo fattore non influenza la somma dei quadrati spiegata dal fattore A. 52
i termini della relazione rappresentano le stime ma potrebbero essere anche i parametri della popolazione oppure i rispettivi stimatori: pi avanti cercher di distinguere fra le 3 situazioni anche se mi pare che la distinzione sia evidente dal contesto. Ripensando allANOVA, abbiamo 8 trattamenti, dunque la somma dei quadrati SStr spiegata da essi ha 7 gradi di libert; come abbiamo detto (par. 3.6.2) conviene dividere questa SStr in 7 componenti per mettere in evidenza le effettive sorgenti di variabilit: 3 di queste componenti le abbiamo individuate, sono gli effetti dei fattori A, B e C, ovvero i 3 confronti fra le facce opposte del cubo; e le altre? A parte la media (il cui grado di libert non rientra in quelli di SStr17) che la somma delle medie di tutti gli stati di prova. I = abc + ab +ac + a + i + b + c + bc le altre 4 componenti rappresentano le cosiddette interazioni fra i fattori a coppie (interazione del primo ordine), e fra i 3 fattori (interazione del secondo ordine); consideriamo linterazione fra i fattori A e B: essa si manifesta quando il comportamento di Y in funzione di A, cambia a seconda dei livelli di B18. Pu essere calcolata confrontando le risposte nei trattamenti in cui A e B sono allo stesso livello: AB = abc + ab + c + i - a - b - ac- bc Esso corrisponde al confronto di 2 piani diagonali nel cubo: bc abc
ac b ab
Figura 2: confronto fra i vari stati per ottenere leffetto di AB
17
Nella convenzione assunta nel par. 3.7.2. Il significato dellinterazione si capir meglio con lanalisi della covarianza nel cap.6. 53
18
Analogamente si pu fare per le interazioni AC e BC; per calcolare leffetto dellinterazione del secondo ordine ABC, si confrontano tutti gli stati di prova in cui un numero dispari dei fattori A, B e C hanno il livello alto, con gli altri stati. ABC = abc + a + b + c - i - ab - ac - bc Sul cubo pu essere visto come il confronto fra i 2 tetraedri:
bc
abc
ac
ab
Figura 3: confronto fra i vari stati per ottenere leffetto di ABC
In generale, per stimare leffetto di un fattore basta sommare le medie di tutti gli stati in cui il fattore al livello alto meno quelle dove il fattore al livello basso. Per stimare leffetto di un interazione bisogna vedere quanti fattori coinvolge linterazione: 1. Se essi sono in numero pari, si sommano tutte le medie degli stati con un numero pari di quei fattori al livello alto e si sottraggono le altre medie. 2. Se essi sono in numero dispari, si sommano tutte le medie degli stati con un numero dispari di quei fattori al livello alto e si sottraggono le altre medie. Sottolineo che intuitiva la formula per il calcolo degli effetti di un fattore ma non affatto intuitiva quella per le interazioni. Comunque il calcolo pi facile a farsi che a dirsi; supponiamo di avere 5 fattori A, B, C, D, E (vi sono dunque 25 stati di prova) e che vogliamo calcolare linterazione del quarto ordine ABCDE: essa coinvolge un numero dispari di fattori quindi dobbiamo sommare tutte le medie degli stati in cui vi un numero dispari di fattori al livello alto e sottrarre le altre. Il risultato : ABCDE = abcde + abc + abd + abe + acd + ace + ade + bcd + bce + bde + cde + a + b + c + d + e
54
- abcd - abce - abde - acde - bcde - ab - ac - ad - ae - bc - bd - be - cd - ce - de - i
Questi calcoli diventano molto pesanti, allaumentare del numero di fattori per cui abbiamo bisogno di un algoritmo che calcoli gli effetti in modo meccanico (metodo di Yates nel par. 4.5).
4.2 I CONTRAST
Un contrast C* una combinazione lineare delle medie i nei vari stati di prova, tale che la somma di tali coefficienti uguale a zero. Con n fattori abbiamo 2n stati di prova distinti dunque:
*
C =
c
i =1
2n
* i
c
i =1
2n
=0
In Galetto (1995) a pag.273 si scrive una condizione diversa: (1)
c
i =1
2n
* ni = 0
chiaramente sbagliata, oltre che fuorviante quando si passa agli stimatori del contrast e allesame di piani con diverse replicazioni per ogni stato. Notiamo lassurdit a cui ci porterebbe la condizione di Galetto in un esempio facile con un solo fattore a 2 livelli, 1 e 2: ci sono dunque 2 stati di prova; supponiamo di avere una numerosit n1=5 per il primo stato di prova e n2=10 per il secondo; i 2 parametri che rappresentano le medie nei 2 stati di prova sono 1 e 2 ; seguendo la definizione di Galetto, 1 - 2 non sarebbe un contrast (!!!) perch non soddisfa la condizione (1): 1*5-1*10 = -5 0 mentre 21 - 2 sarebbe un contrast (!!!) perch soddisfa la condizione (1): 2*5-1*10 = 0 Comunque basta prendere un qualunque libro che parli di contrast (ad esempio Searle 1987 o Wheeler 1988) per rendersi conto dellerrore. I contrast ammettono i seguenti stimatori corretti:
C=
c
i =1
2n
* yi
Le notazioni che usiamo sono: risposta (v.c.) j-ma nello stato i Yij
55
yi
Ti ni
stimatore (v.c.) della media i dello stato i totale (v.c.) dello stato i numerosit dello stato i
Per definizione abbiamo che: yi = Ti/ni dunque lo stimatore del contrast pu essere scritto anche in forma dei totali:
2 c C = i * Ti = k i * Ti i =1 ni i =1 2n
n
dove
ki =
ci ni
ma ovviamente cambia la condizione sui coefficienti:
k
i =1
2n
* ni = 0
Per le ipotesi classiche (par 3.7), Yij una variabile casuale con media i e varianza costante, e gli errori sperimentali delle risposte sono indipendenti: Yij = i + ij E(ij) = 0 E(Yij) = i E( yi ) = i VAR(ij) = 2 VAR(Yij) = 2 VAR( yi ) = 2 / ni COV(ij, kr) = 0 COV(Yij, Ykr) = 0 COV( yi , yi ' ) = 0 i, j i,j i i, j i, j i ij, kr ij, kr ii
Sulla base di queste ipotesi possiamo testare se il contrast significativamente diverso da zero: H0: C* = 0 Sappiamo per che per testare un ipotesi dobbiamo introdurre la distribuzione delle variabili casuali in gioco. Come gi detto per gli errori si usa la normale in virt del teorema limite centrale: ij N(0, 2) dunque, viste le assunzioni fatte:
56
Yij N(, 2) yi N(, 2/ni) C N( E(C), VAR(C)) Possiamo allora trovare il valore atteso e, soprattutto, la varianza dello stimatore del contrast C:
E (C) =
c
i =1
2n
* i = C*
VAR (C) =
ci 2 *
i =1
2n
2
ni
Se conoscessimo il valore di 2 potremmo usare la normale nel test di ipotesi ma poich dobbiamo stimarlo dobbiamo usare la t di Student. Nel par. 3.7 abbiamo visto che uno stimatore sempre corretto di 2 rappresentato dalla somma pesata delle varianze campionarie dei vari trattamenti:
)2
SSe 2n ni 2 n i =1
(Y
i =1 j =1
2n
ni
ij
Yi
2 n ni 2 n i =1
2n dunque per il test di ipotesi dobbiamo usare la t con v= ni 2 n gradi di libert: ci i =1
vale ovviamente nei piani completi dove vengono sperimentati effettivamente 2n stati di prova; nei piani ridotti dove ci sono p effettivi stati prova bisogna sostituire p a 2n nella formula dello stimatore di 2 e dei suoi g.l.. Diciamo che il contrast significativamente maggiore19 di zero, con un livello di fiducia (CL) (1-), se:
C > t v, 1- *
c
i =1
2n
2
ni
Vediamo ora quanto vale la covarianza fra 2 generici stimatori di contrast: C = ci * yi

i =1
19
2n
Analogamente si pu testare C minore di zero. 57
C ' = c' i * y i
COV (C , C ') = E [(C E ( C ) ) * (C ' E ( C ') )]
n 2n 2 COV (C , C ') = E ci * y i i * c' i * y i i i =1 i =1 n 2 2 COV (C , C ') = E ci * c' i * y i i + ci * c' j * y i i * y j j i j i i =1
2n
i =1
) (
Il secondo termine nullo perch rappresenta la sommatoria delle covarianze fra gli i, i stimatori delle medie degli stati di prova ma, per ipotesi: COV( yi , yi ' ) = 0 dunque:
COV (C , C ') = ci * c' i *E y i i
i =1 2n
) = c * c' * n
2n i =1 i i
dunque abbiamo la propriet notevole che 2 stimatori di contrast sono non correlati20 se e solo se: 2n c * c' in i =0 i =1 i quando la condizione sopra verificata i 2 contrast sono detti ortogonali e secondo la terminologia classica un piano con n trattamenti detto ortogonale se vengono stimati n-1 contrast ortogonali fra di loro. Notiamo che la condizione di ortogonalit sui contrast nuovamente errata in Galetto (1995) perch tale condizione deriva necessariamente da quella di non correlazione degli stimatori dei contrast; le equazioni normali non hanno niente a che vedere con questo discorso: nel cap.7 vedremo che le equazioni normali portano alle funzioni stimabili (qualunque combinazione lineare delle medie i) ma queste non vanno confuse con i contrast; anticipiamo che: ogni contrast una funzione stimabile non tutte le funzioni stimabili sono dei contrast Plackett e Burman nel 1946 avevano trovato che le matrici di Hadamard (par. 4.4) permettono di avere dei contrast ortogonali con coefficienti -1 e +1. In generale se il piano completo ovvero vengono sperimentati tutti gli stati di prova e le numerosit degli stati sono uguali il piano ortogonale.
20
Se vale la distribuzione normale essi sono anche indipendenti. 58
4.3 COLLEGAMENTO FRA ANOVA E ANCON

Finora abbiamo fatto lanalisi dei contrast (test t) sui piani fattoriali: essa richiede il calcolo delle varianze che pu essere abbastanza oneroso per cui solitamente lanalisi dei piani ortogonali fatta con lANOVA (test F). I 2 approcci sono comunque equivalenti, perch ad ogni contrast si riesce ad associare univocamente una somma dei quadrati con 1 grado di libert: con essa si pu fare poi il test F, mettendo a numeratore la stima della varianza dellerrore sperimentale: come vedremo il test di ipotesi fatto uguale. Per trovare la somma dei quadrati SS(C) associata al contrast riscriviamo la varianza dello stimatore del contrast:
VAR(C ) = ci2 *
i =1 n
2
ni
invertendo questa formula vediamo che riusciamo a legare la stima della varianza della popolazione con quella della varianza dello stimatore C del contrast visto che 2 costante e visto che abbiamo supposto indipendenti gli stimatori delle medie negli stati di prova (quindi covarianze nulle fra gli stimatori delle medie degli stati di prova) e indipendenti anche le variabili casuali le cui determinazioni sono i dati nei singoli stati di prova; la varianza dello stimatore del contrast pu essere sviluppata ricordando la nota formula: VAR(C ) = E (C 2 ) [ E (C )]2 per cui vediamo che la stima della varianza di C dipende dal valore atteso dello stimatore del contrast; ma a noi interessa testare lipotesi nulla che E(C)=0 per cui otteniamo
una stima della varianza di C, posto che sia vera lipotesi nulla.
VR(C) = C2
sotto lipotesi nulla E(C)=0
ora evidente che la stima della varianza della popolazione con 1 grado di libert, se vale lipotesi nulla, :
C 2 =
C2 = SS(C)21 2 2n c ni i =1 i
se lipotesi nulla da rifiutarsi, la quantit sopra sovrastima la varianza della popolazione di una quantit legata al valor medio dello stimatore del contrast E(C) al quadrato. Per capire se questa differenza significativa si possono confrontare la SS(C) e la stima della
21
Notiamo che in Galetto (1995) la formula ancora errata perch Galetto non lega i contrast con i loro stimatori. 59
2n varianza della popolazione che ha v= ni 2 n gradi di libert (nei piani i =1

2
completi):
)2
SSe 2n ni 2 n i =1
(Y
i =1 j =1
2n
ni
ij
Yi
2 n ni 2 n i =1
Dunque, facendo il test F, rifiutiamo lipotesi nulla con un livello di fiducia (1-), ovvero diciamo che il contrast significativamente diverso da zero se: (1)
SS (C ) ) 2 > F1,v ,1
Se consideriamo che F1, v, 1- = t2v, 1- (Galetto 1995), vediamo che la (1) identica ai 2 test di ipotesi dellANCON:
C > t v, 1- * C < - t v, 1- *
c
i =1 2n i =1
2n
*
2
2
ni *
2
ni
Ci perfettamente logico perch usando metodi diversi (test t e F) per una stessa ipotesi nulla il risultato deve (principio F1) essere lo stesso; nel prosieguo della tesi faremo ampiamente uso della formula di SS(C), essa rappresenta uno strumento potentissimo per poter passare dai contrast alle somme di quadrati usate nellanalisi della varianza: ne apprezzeremo lutilit quando introdurremo la non ortogonalit con stati di prova mancanti e con numerosit diverse; infatti di portata assolutamente generale stanti ovviamente le ipotesi fatte: 1. la varianza della popolazione costante ovvero VAR (yij) = 2 = cost, 2. le medie degli stati di prova non sono correlate fra loro ovvero COV ( y j , y k ) = 0 per ogni j k, dove j e k indicano gli stati di prova, 3. le risposte nei singoli stati di prova sono fra loro indipendenti, ovvero COV (yi, yj)= 0 per ogni i j, allinterno di ogni stato di prova. Stranamente tale formula non si trova su molti libri di DOE, e Fornasieri (1995) dimostra di non conoscerla quando afferma a pag.72 che non si pu applicare il metodo di Yates quando le numerosit sono differenti. Infatti di solito si conosce solo la formula semplificata quando la numerosit degli stati di prova costante (ni = r)
60
SS(C) = r * C2 / 2n
se lo stimatore del contrast scritto con le medie e ci = 1
Riprendiamo la formula generale:

SS (C ) = C2 2n ci2 n i =1 i
Come si vede, SS(C) non cambia se i coefficienti del contrast (e del conseguente stimatore) vengono moltiplicati per una costante k: C ' = k * ci * yi
i =1 2n
k 2 *C2 SS (C ') = = SS (C ) n ci2 2 k * i =1 ni

una propriet importantissima perch in letteratura i contrast associati agli effetti spesso differiscono per una costante moltiplicativa. Vediamo questo problema con un esempio a 3 fattori e con 2 ripetizioni negli stati di prova, i cui risultati sono nella tab.2:
Stati di prova i a b ab c ac bc abc Tabella 2 Y1 30 24 25 25 29 25 28 29 Y2 Totali 31 26 23 26 30 23 29 27 61 50 48 51 59 48 57 56 Medie 30,5 25 24 25,5 29,5 24 28,5 28
Qual il contrast rappresentante leffetto A? In letteratura si trovano almeno 6 tipi differenti di contrast, che differiscono solamente per un fattore di proporzionalit: 1. Si pu pensare di sommare le medie22 degli stati in cui A al livello alto meno le altre dunque in questo caso la determinazione dello stimatore del contrast sarebbe:
22
ovvio che adesso sto parlando delle stime delle medie perch nella formula sotto ci sono dei numeri, che sono le determinazioni degli stimatori dei parametri medie; anche se uso lo stesso termine per non appesantire la notazione, spero che il lettore non si lasci confondere. 61
2. 3.
4.
5.
6.
A = 25+25,5+24+28-30,5-24-29,5-28,5 = -10 Si pu pensare di sommare i totali degli stati in cui A al livello alto meno gli altri: A = 50+51+48+56-61-48-59-57 = -20 Possiamo sommare le medie degli stati in cui A al livello alto meno le altre e dividere tutto per il numero di stati in cui A al livello alto: A = -10 / 4 = -2,5 Possiamo sommare i totali degli stati in cui A al livello alto meno le altre e dividere tutto per il numero di stati in cui A al livello alto: A = -20 / 4 = -5 Possiamo sommare le medie degli stati in cui A al livello alto meno le altre e dividere tutto per il numero di stati totali: A = -10 / 8 = -1,25 Possiamo sommare i totali degli stati in cui A al livello alto meno le altre e dividere tutto per il numero di stati totali: A = -20 / 8 = -2,5
Non tutti specificano a che contrast si riferiscono per calcolare leffetto ma per fortuna la somma dei quadrati associati ad A non influenzata dal tipo di contrast usato: infatti nel nostro esempio la sua determinazione sempre: SS(A) = 25 Il risultato si ricava subito dalla formula che abbiamo scritto quando la numerosit degli stati costante e pari a r (in questo caso r=2 e n=3) quando il contrast scritto con le medie e i coefficienti sono tutti +1 o -1, ovvero dal primo dei 6 contrast che abbiamo scritto, A = -10. SS(A) = r * A2 / 2n Quindi usiamo pure la forma di contrast che pi ci aggrada, purch siamo consapevoli di quale stiamo usando perch altrimenti non sappiamo come calcolare la SS(A) che, lo ripetiamo, non deve cambiare al variare della forma che usiamo per i contrast rappresentanti gli effetti.
62
4.4 TABELLA DEI SEGNI E MATRICI DI HADAMARD

Abbiamo visto che un modo per ricavare i cosiddetti effetti si pu fare la sommatoria delle medie dei vari stati di prova pesate per +1 o -1; la tabella dei segni ci dice esattamente quali sono i pesi da attribuire agli stati di prova, per ciascun effetto; ad esempio con 3 fattori la tabella 23:
I i a b ab c ac bc abc 1 1 1 1 1 1 1 1 A -1 1 -1 1 -1 1 -1 1 B -1 -1 1 1 -1 -1 1 1 AB 1 -1 -1 1 1 -1 -1 1 C -1 -1 -1 -1 1 1 1 1 AC 1 -1 1 -1 -1 1 -1 1 BC 1 1 -1 -1 -1 -1 1 1 ABC -1 1 1 -1 1 -1 -1 1
Tabella 3: tabella dei segni
Sia i trattamenti che gli effetti sono messi nellordine canonico di Yates e questo ci consente di poter aggiungere un altro fattore e, conseguentemente, altri stati di prova senza dover alterare la tabella iniziale. Nel capitolo 8 vedremo che scrivendo il modello associato al piano fattoriale in forma full regression, la tabella rappresenta la matrice X di tale modello scritto in forma matriciale: Y=X* Vista come matrice, le colonne e le righe si possono considerare dei vettori: ci si accorge che la tabella presenta una propriet molto importante ovvero i vettori riga e colonna sono tutti ortogonali fra di loro; visto che tali vettori contengono i ci dei contrast, se la numerosit degli stati costante, si dice che i contrast sono: ortogonali il che deriva dal fatto che i vettori formati dai ci che sono ortogonali; conseguentemente gli stimatori dei contrast sono non correlati. La tabella rappresenta dunque una matrice ortogonale (a meno di un fattore moltiplicativo) composta da -1 e +1 ovvero una matrice di Hadamard, il tipo di matrice che Plackett e Burman nel 1946 hanno usato per trovare una teoria unificata sui piani sperimentali ortogonali. Le matrici di Hadamard danno allora sempre dei contrast ortogonali? No, solo se la numerosit degli stati di prova uguale perch altrimenti le covarianze fra gli stimatori dei contrast non sono pi nulle: nessuno mette in evidenza in
23
La prima colonna indica sempre la media: non un contrast. 63
questo importantissimo punto. Gi ora iniziamo ad intuire che la nozione di ortogonalit pu essere molto ambigua perch esistono 2 tipi di ortogonalit (algebrica e statistica, cap.5 e 9) anche se molti li confondono. Plackett e Burman nel 1946 trovarono delle matrici di Hadamard per ogni n = 4*k kN: k<25 e k23 Dopo sono state trovate altre matrici di Hadamard (anche quella con k=23) ma Fontana (1995) riferisce che a tuttoggi nessuno ha ancora dimostrato che le matrici di Hadamard esistano per kN. Qualunque matrice di Hadamard di ordine n pu essere generata partendo da un particolare vettore di n-1 elementi e facendolo ruotare ricorsivamente per n-1 volte; poi si aggiunge allinizio una colonna di +1 e una riga di -1, cos da ottenere una matrice di ordine n; il vettore di partenza da cui partire ottenuto dalla teoria dei gruppi e del campo di Galois. Le matrici di Hadamard di dimensione uguale a una potenza di 2 danno luogo ai cosiddetti piani geometrici e corrispondono alle tabelle dei segni comunemente usate24 per i piani 2n; le altre sono le matrici dei piani sperimentali non geometrici, meglio noti come i piani di Plackett-Burman (PB) che, come vedremo, hanno una struttura un po' particolare. In tutti i libri di DOE c scritto che i piani PB sono ortogonali: non si precisa che si parla di ortogonalit algebrica nello spazio dei contrast (cap.9); se per consideriamo lortogonalit statistica, ovvero la non correlazione degli stimatori, i piani PB essi sono ortogonali solo se la numerosit degli stati di prova costante e questo vale per tutti piani classici ortogonali.
4.5 METODO DI YATES

In precedenza abbiamo pi volte accennato a questo metodo che non rappresenta nientaltro che un modo veloce per ottenere numericamente il valore dei contrast associati agli effetti e interazioni quando i fattori hanno 2 livelli. Per questo non ha senso dire che il metodo non applicabile ai piani non ortogonali, come affermano invece Galetto (1995), Fornasieri (1995), Actis (1995). Anche in casi non ortogonali in cui la numerosit delle celle non costante, il metodo applicato alle medie fornisce sempre degli stimatori di contrast25, associati a delle particolari ipotesi nulle sui contrast: lo sperimentatore che decide se tali ipotesi sono di suo interesse26. Il metodo molto semplice: per n fattori ci vogliono n colonne pi una allinizio e una alla fine. Nella prima colonna si scrivono le
24
A parte le interazioni scambiate di segno. Se metto i totali in generale non si hanno pi delle stime di contrast.
25
26
Le stime dei contrast forniti dal metodo di Yates, di per s, interessano sempre lo sperimentatore, per se gli stimatori sono troppo correlati fra di loro, le stime possono essere molto lontana dalla realt: questo il vero problema della non ortogonalit (statistica). 64
determinazioni degli stimatori delle medie degli stati di prova in ordine canonico o di Yates; il primo elemento della seconda colonna la somma dei primi 2 elementi della prima colonna, il secondo la somma del terzo e del quarto, il terzo la somma del quinto e del sesto,... e cos fino al (2n-1)-mo elemento della
seconda colonna che sar la somma delle ultime due medie della prima colonna, il (2n-1+1)-mo elemento della seconda colonna la differenza fra la seconda media e la prima, il (2n-1+2)-mo elemento della seconda colonna la differenza fra il quarto e il terzo elemento della prima colonna... lultimo elemento la differenza fra lultima e la penultima media. Nella terza colonna si esegue lalgoritmo descritto sopra sulla seconda colonna e cos via fino alla (n+1)-ma colonna che contiene il valore numerico del contrast: esso un contrast di tipo 1 (par. 4.3). A questo punto, si opera con la solita formula che calcola la somma dei quadrati associata allo stimatore C del contrast, che ha i ci=1: C2 SS(C) = 2 n 1 n i =1 i
Se la numerosit costante ni = r, dunque la formula si semplifica:
SS(C) = r * C2 / 2n
Se la numerosit costante posso mettere i totali al posto delle medie nella prima colonna, il metodo di Yates fornisce degli stimatori C di tipo 2 (par. 4.3); per calcolare la somma dei quadrati associata si usa allora:
SS(C) = C2 / (r * 2n) Quasi tutti libri (Galetto 1995 e 1996 rappresenta uneccezione) riportano la formula sopra senza dire da dove arriva senza specificare che vale se nella prima colonna del metodo di Yates si mettono i totali. Non mi stupisco quindi che molti non riescano ad analizzare i dati quando le numerosit dei trattamenti non sono uguali. Facciamo un esempio per capire come funziona lalgoritmo di Yates, usando gli stessi dati della tabella 2: con 3 fattori abbiamo dunque 5 colonne.
65
I i a b ab c ac bc abc 30,5 25 24 25,5 29,5 24 28,5 28
II 55,5 49,5 53,5 56,5 -5,5 1,5 -5,5 -0,5
III 105 110 -4 -6 -6 3 7 5
IV 215 -10 -3 12 5 -2 9 -2
V 11556,25 SS(I) 25 SS(A) 2,25 SS(B) 36 SS(AB) 6,25 SS(C) 1 SS(AC) 20,25 SS(BC) 1 SS(ABC)
Tabella 4: metodo di Yates
Se usiamo i totali, le stime dei contrast (colonna 4) sarebbero moltiplicate per 2 e dunque, elevati al quadrato sarebbero 4 volte questi, ma nellultima colonna bisogna dividere per 2 anzich moltiplicare per 2 dunque le somme dei quadrati non cambiano, come ripetuto pi volte. Ricordiamo che nellesempio posso usare i totali solo perch la numerosit costante. La somma delle SS associate agli n-1 effetti d quella che abbiamo chiamato SStr e quindi per avere la SSe, ricordando le formule dellANOVA, dobbiamo fare la sommatoria dei quadrati delle osservazioni e sottrarre il fattore di correzione (SS(I) oppure SS) e la SStr; abbiamo allora tutti gli elementi per fare lANOVA e valutare la significativit degli effetti: questultima frase induce in errore molte persone che perdono di vista la reale
ipotesi nulla che stanno testando, ovvero che una certa combinazione lineare delle medie uguale a zero. Vediamo la tabella ANOVA:
SS Totale Media Trattamenti A B AB C AC BC ABC Residuo 11658 11556,25 91,75 25 2,25 36 6,25 1 20,25 1 10 df 16 1 11556,25 9245 MS F calcolata F0,95 (1,8) Effetti sign. 5%
7 13,107143 10,4857143 5,31764499 1 1 1 1 1 1 1 8 25 2,25 36 6,25 1 20,25 1 1,25 20 5,31764499 1,8 5,31764499 28,8 5,31764499 5 5,31764499 0,8 5,31764499 16,2 5,31764499 0,8 5,31764499 BC AB A
Tabella 5: ANOVA per i dati di tab.2.
66
Ad esempio nellANOVA, la SS(A)=25 sta testando che: (1) 111+110+101+100-000-001-010-011 = 0 ma anche: (2) 11.+10.-00.-01. = 0 (3) 1.1+1.0-0.0-0.1 = 0 (4) 1..-0.. = 0 ..... in tutto vi sono 64 ipotesi equivalenti che la SS(A)=25 sta testando27.
Queste ipotesi nulle coincidono solo perch la numerosit degli stati di prova costante; ma se le numerosit delle celle non costante (piani non ortogonali), le 4 ipotesi di sopra non coincidono pi e bisogna scegliere quale di esse testa leffetto di A:
anticipo gi ora che lipotesi pi logica da testare anche in casi non ortogonali, secondo me, la (1) perch, considerando tutti gli stati di prova, tiene conto della stratificazione completa dei dati; la (2) ignora il fattore C, la (3) ignora il fattore B, la (4) li ignora entrambi e infatti vedremo nel cap.7 che corrisponde alla regola del Questo per Questo; si potrebbero pensare altre 60 modi diversi di pesare le medie degli stati di prova in base alla loro numerosit... purtroppo spesso si dice che si sta testando leffetto del fattore A senza esplicitare lipotesi che si vuole testare. Sar importante ricordarsi di queste osservazioni quando introdurremo nel cap.7 il modello sovraparametrizzato; fin da ora per mi preme sottolineare che
1. le uniche ipotesi nulle testabili sono quelle esprimibili in termini di combinazioni lineari delle medie (parametri) degli stati di prova28. 2. il termine effetto del fattore A deve essere espresso sotto forma di una specifica combinazione lineare delle medie.
4.5.1 ALGORITMO INVERSO DI YATES Il metodo di Yates pu essere invertito dando luogo allalgoritmo inverso di Yates in cui bisogna mettere i contrast calcolati (nellordine canonico invertito) nella prima colonna e nellultima si riottengono, in ordine inverso, gli stessi valori medi di partenza, dopo aver diviso per 2n i risultati della quarta colonna. Questo algoritmo perfettamente giustificabile se si assume il modello fullregression (cap.8), non quello sovraparametrizzato (cap.7) perch presuppone un modello che colleghi la risposta direttamente agli effetti.
27
Nel cap.8 sar chiaro perch ci sono 64 ipotesi che possono testare leffetto di A. per ovvio fin da ora che al massimo 8 di esse possono essere algebricamente indipendenti fra di loro. Ci messo perfettamente in evidenza dal teorema di Gauss-Markov e dalle funzioni stimabili (Cap.7) 67
28
2 - LApproccio Scientifico alla Qualit I ABC BC AC C AB B A I -2 9 -2 5 12 -3 -10 215 II 7 3 9 205 11 7 -15 225 III 10 214 18 210 -4 196 -4 240 IV 224 228 192 236 204 192 200 244 V 28 abc 28,5 bc 24 ac 29,5 c 25,5 ab 24 b 25 a 30,5 i
Tabella 6: algoritmo inverso di Yates col modello completo
Ma lalgoritmo inverso di Yates non va usato come abbiamo fatto sopra dove abbiamo considerato nel modello della risposta anche gli effetti non significativi; questi infatti vanno esclusi perch abbiamo detto che i modelli devono essere il meno complicati possibili dunque inutile porvi dei termini che hanno un effetto non distinguibile dallerrore sperimentale. Allora nellalgoritmo inverso porremo solo gli effetti che sono risultati significativi, negli altri mettiamo 0: ovviamente cos non riotteniamo pi le medie di partenza; otteniamo dei residui che vanno analizzati con tecniche grafiche (carte di probabilit) che ci consentono di controllare se le ipotesi di normalit dellerrore sono verificate statisticamente. Nellesempio di prima gli effetti significativi erano A, AB e BC, dunque al posto degli altri effetti B, C, AC, ABC mettiamo zero.
I ABC BC AC C AB B A I 0 9 0 0 12 0 -10 215 II 9 0 12 205 9 0 -12 225 III 9 217 9 213 -9 193 -9 237 IV 226 222 184 228 208 204 202 246 V 28,25 27,75 23 28,5 26 25,5 25,25 30,75 Medie osservate Residui 28 28,5 24 29,5 25,5 24 25 30,5 -0,25 abc 0,75 bc 1 ac 1c -0,5 ab -1,5 b -0,25 a -0,25 i
Tabella 7: algoritmo inverso di Yates con un modello ridotto
La somma dei residui nulla ma, poste su una carta di probabilit seminormale, non hanno un andamento normale29: bisogna fare lopportuno test di ipotesi sulla distribuzione e se rifiutata lipotesi di normalit, bisogna provare ad aggiungere altri
29
Ci pu essere dovuto anche al ridotto numero degli stati di prova. 68
termini (quelli che abbiamo posto uguale a zero perch sono risultati non significativi) al modello; il controllo delladeguatezza del modello scelto una fase molto delicata nella quale non ci addentreremo nella tesi.
4.6 PIANI FRAZIONATI 2n-p

I piani completi permettono la stima degli effetti (con tutta lambiguit di questo termine) di tutti i fattori e interazioni; qual allora il problema? Pensiamo a un esperimento in cui ci interessano 10 fattori e a quanti stati di prova bisogna sperimentare: 210 = 1024 diverse condizioni sperimentali; il costo di un tale esperimento pu essere di alcuni miliardi, soprattutto se il sistema complesso ed difficile far variare alcuni fattori30; pu anche esserci il problema che alcune combinazioni dei livelli dei fattori non siano fisicamente realizzabili. Allora bisogna forzatamente ridurre il numero degli stati di prova, con delle conseguenze piuttosto pesanti, nel senso che, non solo si stimano meno parametri di prima, ma quelli che restano non sono pi quelli di prima. Nasce il problema degli alias o del confounding. Con n fattori, a partire dal piano completo 2n, se si esegue solo una certa met31 delle prove, si dice che si operato 1 taglio dando luogo al piano frazionato 2n-1. Se si operano p tagli successivi, si ottiene il piano ridotto 2n-p e si possono stimare quindi solo pi 2n-p quantit (che chiameremo alias). 4.6.1 UN SOLO TAGLIO: PIANI 2n-1 Riprendiamo lesempio di prima per chiarire le idee e usiamo nuovamente la rappresentazione del cubo che molto intuitiva; supponiamo di non aver condotto lesperimento nei 4 stati di prova i, ab, ac, bc. Dal cubo si vede che non si riesce pi a stimare linterazione ABC perch nei trattamenti effettuati sempre al livello alto, dunque essa coincide con la media I che somma i risultati di tutti gli stati di prova. Vediamo anche che il confronto fra gli stati rimasti per ottenere A identico a quello per ottenere BC; sono altres identici i confronti rappresentanti B e AC e quelli di C e AB. Si dice che A confuso con B, B con AC e C con AB: ecco perch si parla di confounding nei piani ridotti.
30
In questo caso converrebbe bloccare qualche variabile oppure usare i nested design. Scelta in modo da mantenere lortogonalit dei contrast di interesse. 69
31
bc
abc
ac
ab
Figura 4: i confronti fra gli stati per ottenere A e BC sono identici nel piano ridotto
Nella terminologia tradizionale32 si dice che: I = abc + a + b + c ABC = abc + a + b + c A = abc + a - b - c BC = abc + a - b - c B = abc + b - a - c AC = abc + b - a - c C = abc + c - a -b AB = abc + c - a -b e che dunque si genera la seguente struttura degli alias: I = ABC A = BC B = AC C = AB oppure oppure oppure oppure I+ABC A+BC B+AC C+AB
perch i contrast che rappresentano quegli effetti sono identici. Come si pu vedere gli alias si ottengono tutti dal primo moltiplicando per A, B e C e usando laritmetica modulo 2, in cui I lelemento neutro; si opera dunque con le seguenti regole: I*A=A A*A=I A * B = AB A * AB = (A * A) * B = B
32
Nel par. 4.8 vedremo delle definizioni alternative. 70
Dunque tutti gli alias si generano dalla relazione I = ABC che detta defining relation del piano frazionato mentre ABC detto defining contrast. Se si effettuava laltra met del piano (ovvero gli stati i, ab, ac, bc) si sarebbero ottenuta la seguente struttura degli alias, che aveva come defining contrast -ABC: I = -ABC A = -BC B = -AC C = -AB oppure oppure oppure oppure I-ABC A-BC B-AC C-AB
anche se molti33, considerano la situazione sopra equivalente a quella di prima e ritengono equivalenti i 2 piani: (a, b, c, abc) e (i, ab, ac, bc) Ci non assolutamente ammissibile teoricamente (nei 2 piani equivalenti si stimano dei contrast diversi) ma pu essere parzialmente giustificato nella pratica aziendale dove conoscere A-BC o A+BC lo stesso se non si ha alcuna conoscenza della direzione degli effetti. 4.6.2 CLASSE DI EQUIVALENZA Galetto (1995) spiega la struttura degli alias ricorrendo al concetto di classe di equivalenza e vedendo i coefficienti dei contrast (rappresentanti gli effetti) come dei vettori che formano lo spazio delle interazioni; anche gli stati di prova sono visti come dei vettori di dimensione pari al numero dei fattori, formati da 0 o 1 a seconda che in quello stato il fattore sia al livello alto o basso: tali vettori formano lo spazio degli stati. X@Y significa interazione34 X non distinguibile dallinterazione Y; essa una relazione di equivalenza nello spazio delle interazioni e induce delle classi di equivalenza che determinano una partizione dello spazio degli stati. La defining relation vista quindi come una relazione di equivalenza che genera il gruppo degli alias. Questo tipo di impostazione35 ha il grosso merito di sottolineare, ad esempio, che la stima del contrast (1) a + abc - b - c non spiega leffetto del fattore A, ma della classe di equivalenza A@BC quindi non sappiamo pi niente dei singoli A e BC; essi potrebbero essere molto significativi ma con effetti opposti sulla risposta per cui, bilanciandosi, potrebbe risultare che il contrast stimato da (1) non significativo; viceversa potrebbe risultare che A e BC non sono significativi
33
Anche Galetto (1995 e 1996). Considerando anche i fattori come interazioni di ordine zero. Per quanto ne so, Galetto lunico che la usi. 71
34
35
ma, sommati, danno un effetto totale che lo (par 4.7). Ci che noi stimiamo non leffetto dei singoli fattori e interazioni ma una loro funzione (quale???). La classe di equivalenza di Galetto presenta per, mio parere, i seguenti inconvenienti: non dice che tipo di funzione lega gli effetti nella classe di equivalenza, anche perch non vengono definiti a priori gli effetti. non riesce a interpretare la struttura degli alias dei piani irregolari, come quelli dei piani non geometrici di Plackett-Burman. trascura il segno + e - delle interazioni e di conseguenza induce a pensare che in un piano frazionato 2n-p vi siano p piani equivalenti per una data struttura degli Alias; ci falso perch, considerando il segno (principio F1), c una corrispondenza biunivoca fra struttura degli alias e piano sperimentale se si sperimentano entrambe le met del piano, (i, ab, ac, bc) e (a, b, c, abc), dalla prima conoscerei A@BC e dallaltra A@-BC (non trascurando il segno); il concetto di classe di equivalenza non spiega come unire quelle 2 quantit per ottenere gli effetti puri A e BC: sicuramente per A@BC e A@-BC devono (principio F1) poter essere unite una volta che si ha il piano completo . Comunque un concetto fondamentalmente corretto (se si considera anche il segno delle interazioni36), anche se incompleto e inutilmente complicato. 4.6.3 PI TAGLI: PIANI 2n-p Se opero in tutto p tagli ho bisogno di p defining contrast, si ottengono 2n-p alias, ciascuno contenente 2p termini (effetti); nellesempio di prima, partendo da I+ABC, se aggiungo I-BC ottengo la defining relation che identifica univocamente la struttura degli alias: (I+ABC)*(I-BC) = I + ABC - BC -A che d luogo allaltro alias: B + AC - C - AB Su alcuni libri i 2 alias sono anche scritti mettendo sempre + anche dove dovrebbe esserci il - oppure mettendo luguale (Lorenzen 1993, Actis 1995,...) al posto dei segni: a mio parere ci pu essere fuorviante perch impedisce di vedere la corrispondenza biunivoca fra linsieme delle prove e la struttura degli alias.
INSIEME DELE PROVE DEL PIANO SPERIMENTALE STRUTTURA DEGLI ALIAS DEL PIANO SPERIMENTALE
Figura 5: corrispondenza biunivoca fra prove e struttura degli alias
36
In ogni caso un concetto che va formalizzato meglio. 72
Con n fattori e p tagli, data una certa struttura degli alias, si ha uno e un solo piano corrispondente ad essa. Come si trova tale piano? Bisogna partire dai p defining contrast37 (d.c.): si parte dal primo e si prendono tutti quegli stati di prova che hanno un numero di lettere pari, se il d.c. ha segno + ed un interazione fra un numero pari di fattori o se il d.c. ha segno - ed un interazione fra un numero dispari di fattori, dispari, se il d.c. ha segno + ed un interazione fra un numero dispari di fattori o se il d.c. ha segno - ed un interazione fra un numero pari di fattori. Si ottengono cos 2n-1 stati di prova distinti; su questi si fa la stessa selezione col secondo d.c. e cos via fino allultimo d.c.: si ottengono 2n-p stati di prova che corrispondono alla defining relation di partenza. 4.6.4 TABELLA DEI SEGNI Gli alias si vedono chiaramente dalla tabella dei segni se si cancellano le righe corrispondenti ai trattamenti dove non si hanno dati. Se partiamo dalla tabella 3:
I i a b ab c ac bc abc 1 1 1 1 1 1 1 1 A -1 1 -1 1 -1 1 -1 1 B -1 -1 1 1 -1 -1 1 1 AB 1 -1 -1 1 1 -1 -1 1 C -1 -1 -1 -1 1 1 1 1 AC 1 -1 1 -1 -1 1 -1 1 BC 1 1 -1 -1 -1 -1 1 1 ABC -1 1 1 -1 1 -1 -1 1
e cancelliamo gli stati di prova i, ab, ac, bc ottteniamo:

I a b c abc 1 1 1 1 A 1 -1 -1 1 B -1 1 -1 1 AB -1 -1 1 1 C -1 -1 1 1 AC -1 1 -1 1 BC 1 -1 -1 1 ABC 1 1 1 1
37
Val la pena di notare che i defining contrast non definiscono univocamente la struttura degli alias mentre la defining relation s. 73
e vediamo che: I = ABC A = BC B = AC C = AB ovvero gli alias che avevamo gi ottenuto in 4.6.1. Se operiamo un altro taglio, eliminando i trattamenti a, abc, ottengo:
I b c 1 1 A -1 -1 B 1 -1 AB -1 1 C -1 1 AC 1 -1 BC -1 -1 ABC 1 1
che corrispondono agli alias gi ottenuti in 4.6.3: I = ABC = -BC = -A B = AC = -C = -AB 4.6.5 RISOLUZIONE DEI PIANI RIDOTTI Nei piani ridotti uno cerca in generale di non confondere gli effetti dei fattori con la media, fra di loro e, se possibile, con le interazioni del primo ordine; nei 2 piani che abbiamo visto sopra, corrispondenti alle defining relation: I + ABC I + ABC - A - BC il primo detto un piano di risoluzione III perch non confonde i fattori fra di loro, ma li confonde con le interazioni del primo ordine; il secondo addirittura solo di risoluzione I perch confonde la media col fattore A. In generale, per le frazioni regolari la risoluzione di un piano il numero di fattori che compaiono nellinterazione38 di ordine pi basso, presente nella defining relation; per le frazioni irregolari vedremo che non c ununica defining relation, quindi non possibile adottare una definizione generale: per ancora possibile parlare di risoluzione, come vedremo nel cap.5 (in Addelman 1972 c una definizione generale per tutti piani). Con 3 fattori il miglior piano ridotto ortogonale che si pu avere di risoluzione III e corrisponde a quello visto, definito da I + ABC; aumentando il numero di fattori, cresce la possibilit di aumentare la risoluzione del piano sperimentale ma cresce anche il numero di trattamenti da sperimentare; ovvio che vorremmo avere la massima risoluzione possibile ma questa esigenza necessariamente mediata da quella di budget.
38
Considerando i fattori come interazioni di ordine zero. 74
4.7 ATTENZIONE AI FRAZIONAMENTI

I piani ridotti sono stati introdotti da tantissimi anni: Bisgaard (1989) riferisce che il primo fu un piano 25-3, eseguito nel 1934 da Tippett39, anche se poi furono formalizzati solo nel 1945 da Finney. Il frazionamento non nasce solo da esigenze di budget ma anche dal principio di Pareto, vital few, trivial many, per il quale sono pochi i fattori e interazioni veramente importanti, dunque nei piani completi c una sorta di ridondanza fra i vari stati di prova: Fisher la chiamava hidden replication, ovvero alcuni trattamenti in realt possono essere considerati semplici replicazioni di altri perch il fattore che li differenzia non ha un effetto significativo. Box et al. (1978), partendo da un piano40 completo 25, a pag.376 simulano un frazionamento e trovano risultati analoghi a quelli del piano completo: ma con quello ridotto si sarebbero risparmiate 16 prove. Ci si spiega col fatto che, nel loro esempio, le interazioni di ordine elevato erano trascurabili e quindi negli alias predominano i fattori e le interazioni del primo ordine; ad esempio se la stima dellalias : A + BCDE = -2 nellesempio di Box et al., possiamo assumere che: BCDE 0 A -2 Box, J.S. Hunter e W.G. Hunter (1978), 3 fra le voci pi autorevoli del DOE, a pag.375 affermano: It is often true, then, that at some point higher order interaction tend to become negligible and can properly be disregarded. Often non vuol dire always. E infatti vi possono essere casi in cui nellalias predominano i termini di ordine pi elevato: dipende dal fenomeno sotto indagine e se non si ha una certa conoscenza a priori (possibilmente derivante da precedenti esperimenti), non si pu escludere niente altrimenti si rischia di fare dei grandissimi errori. Ad esempio con i dati della tabella 2 operiamo il frazionamento I + ABC che genera gli alias: A+BC B+AC C+AB
39
E i taguchiani dicono che Taguchi ha inventato i piani che fanno risparmiare le prove. Ne parleremo nel cap.10. 75
40
Stati di prova a b c abc
Y1 24 25 29 29
Y2 Totali 26 23 30 27 50 48 59 56
Medie 25 24 29,5 28
Tabella 8: piano della tab.2 frazionato
Con i 4 stati di prova a, b, c, abc otteniamo le stime dei seguenti contrast (di tipo 1, par. 4.3): a + abc - b - c = -0,5 b + abc - a- c = -2,5 c + abc - a - b = 8,5 che danno luogo alle seguenti somme dei quadrati, nella tabella ANOVA.
SS df MS F calcolata F0,95 (1,4)
Totale
5717
I+ABC A+BC B+AC C+AB
5671,125 0,125 3,125 36,125
1 5671,125 1 1 1 0,125 3,125 36,125
3489,923077 0,076923077 1,923076923 22,23076923 7,708649719 7,708649719 7,708649719
Residuo Tabella 9
6,5
1,625
Come si vede A+BC non significativo mentre sappiamo dal piano completo (tab.5) che sia A che BC sono significativi con CL=95%; se a priori si sa la direzione (ovvero il segno algebrico dei contrast) di questi 2 effetti si pu anche immaginare che A e BC si siano annullati una volta combinati nellalias A+BC; da questo capiamo quanto importante tenere conto del segno del contrast; se avessi fatto il piano frazionato complementare (i, ab, ac, bc) avrei stimato A-BC, non A+BC e otterrei che A-BC molto significativo. Dunque i 2 piani frazionati non sono decisamente equivalenti perch portano a risultati diversi (coerenti con quelli del piano completo). Abbiamo dunque visto un primo tipo di errore che si pu commettere nellanalisi dei piani frazionati: pensare che gli effetti confusi nellalias non sono significativi perch lalias non significativo. Un altro tipo di errore consiste nel pensare che se lalias risulta significativo, almeno uno dei termini che lo compongono deve essere significativo.
76
Un ultimo tipo di errore, piuttosto comune, a quanto sostiene Galetto (1995), ritenere che le interazioni abbiano un effetto secondario rispetto ai fattori; con i dati della tab.9 si vede che: C + AB significativo e si tende a pensare che leffetto sia da ascrivere al fattore C piuttosto che allinterazione AB: dal piano completo sappiamo invece che AB significativa e C non lo . Questo errore collegato con lassurda credenza che se i fattori sono non significativi, anche la loro interazione, non deve esserlo. Nel nostro esempio invece notiamo che nel piano completo (tab.5) B e C sono non significativi, mentre la loro interazione BC lo . A questo punto, presi dallo sconforto, si sarebbe tentati di dire: Ma allora nei piani ridotti non conosco niente!: in effetti cos... Lesempio stato fatto volutamente per mettere in evidenza tutti possibili errori nellanalisi dei piani frazionati. Forse nella realt non capitano casi cos sfortunati o forse s... Bisogna stare molto attenti e accettare il fatto che col frazionamento non si conosce pi niente di preciso, dunque fondamentale: la conoscenza del fenomeno da parte dei tecnici che, con la loro esperienza, possono provare a individuare a priori elementi non significativi41 conoscere la struttura degli alias del piano sperimentale da eseguire per fare in modo che non mischi gli elementi di interesse: planned confounding...in which important effects either are uncounfounded or are only confounded with effects that are believed to be negligible, is the basis for the statistical constructions of fractional factorial experiments (Mason et a1. 1989) Dunque il successo di un piano sperimentale dipende dalla conoscenza scientifica del fenomeno sotto indagine e dalla teoria statistica che indica quali sono le prove da eseguire, compatibilmente con le esigenze dei tecnici; per il principio F2 la variabilit esiste, We are working, whether we like it or not, in the presence of variability (John 1990), dunque anche studiando scrupolosamente quali prove fare, si pu sbagliare ma almeno si hanno delle solide basi per capire dove si sbagliato e si pu ripartire con un altra iterazione (par. 3.8) nella sperimentazione: con tale onest intellettuale che occorre rivolgersi allo sperimentatore se si vuole operare con Qualit. Invece i metodi Taguchi fanno sempre uso di piani frazionati (come i quadrati latini), ma non indicano mai gli alias e ci non mi stupisce visto che Taguchi assume a priori42 che le interazioni sono trascurabili.
41
Possono anche sbagliare. Taguchi d alcune giustificazioni di questa assunzione: le vedremo nel cap.11. 77
42
4.8 EFFETTI E ALIAS: DEFINIAMOLI UN P MEGLIO

Finora abbiamo usato questi 2 termini in modo volutamente ambiguo per rispecchiare la confusione presente nella letteratura sul DOE. Quando il piano completo e la numerosit costante nessuno dubita che leffetto (contrast) di A stimato, con 3 fattori, da: A = abc + ab +ac + a - i - b - c - bc Su questa relazione, gi vista allinizio del capitolo, facciamo alcune considerazioni: 1. cosa succede se la numerosit non pi costante? Bisogna specificare se le lettere scritte sopra indicano medie o totali: basta ragionare poco per capire che se sono totali lespressione non stima pi un contrast43, dunque usiamo le medie. In questo modo risolto il problema delle numerosit differenti (a parte il fatto della correlazione fra gli stimatori dei contrast di cui parleremo), 2. se leffetto del fattore una combinazione lineare di parametri della popolazione ovvero: A* = 111+110+101+100-000-001-010-011 tale combinazione lineare non pi stimabile se manca anche un solo stato di prova: ci assolutamente evidente. E allora non ha senso dire che nel piano frazionato (a, b, c, abc): A = a + abc - b -c perch tale stimatore di A * non corretto infatti il suo valore atteso : E (a+abc-b-c) = (A* + BC*)/2 dove il simbolo + rappresenta un segno algebrico, non un simbolo di equivalenza come nel par. 4.5. Questo fatto innegabile ed messo in evidenza da Daniel (1976), Box et al.(1978), Mongomery (1991).... Dunque io definisco leffetto medio44 del fattore i-mo come:
E i = k* bij* j
j =1 2n
43
Oppure lo ma per puro caso. Per distinguerlo da quello marginale (Cap.6); quando dico solo effetto, intendo leffetto medio. 78
44
con bij = 1 a seconda che nello stato j il fattore rappresentato da Ei sia al livello basso o alto; la media I ha tutti bij = 1 e non quindi un contrast. Per quanta riguarda l interazione fra i fattori 1,2....t rappresentati dagli effetti E1, E2...Et, il suo effetto lo definisco come:
t E12...t = k* bij * j j =1 i =1
2n
La costante moltiplicativa non influenza in alcun modo lanalisi45 come abbiamo visto perch la somma dei quadrati associata a Ei (che un contrast) rimane invariata con k (par. 4.3): una volta scelto un k per non bisogna cambiarlo. Da questa definizione si vede che, se manca anche un solo stato di prova, leffetto non pi stimabile: questo concetto messo in evidenza anche da John (1979) e Daniel (1976). Una tale definizione di effetto equivale a esaminare gli esperimenti secondo quella che chiamata weighted analysis of means in Speed et al. (1978), Allen (1985) e Searle (1987). Cosa si pu stimare nei piani frazionati se gli effetti non si possono pi stimare? Si possono stimare delle combinazioni lineari degli effetti stessi: ad esempio nel piano frazionato (a, b, c, abc): A* = 111+110+101+100-000-001-010-011 BC* = 111+011+100+000-101-001-010-110 non si possono stimare ma la loro somma: A* + BC* = 2 * (111+100-001-010) stimabile perch richiede solamente le medie degli stati di prova a, b, c, abc. E infatti il valore atteso del contrast: E (a+abc-b-c) = (A* + BC*)/2 Il fattore 2 a denominatore, non influenza lanalisi, come gi detto. I parametri della popolazione, o delle loro combinazioni lineari, sono stimabili per un dato piano se esiste
una combinazione lineare degli stimatori delle medie degli stati di prova il cui valore atteso la c.l. dei parametri. Abbiamo trovato dunque una spiegazione semplice e razionale degli alias nei piani frazionati: in questi ultimi gli effetti dei fattori e delle interazioni non sono pi stimabili ma sono stimabili delle loro combinazioni lineari ovvero gli alias. Dunque lalias Aj definito cos :
45
Rispecchia i 6 tipi di contrast del par. 4.3 79
Ai = ij * E j
j =1
2n
lunico accenno a questa definizione lho trovato in Box (1993): The expected value of a data contrast is called its alias and is a linear combination of various main effects and interactions. Una tale impostazione risolve i problemi della classe di equivalenza di Galetto (par. 4.5.2) perch: specifica il tipo di funzione che lega gli effetti nellalias: una funzione lineare, molto semplice; i segni + e - sono dunque segni algebrici che collegano gli effetti e non dei semplici simboli come nellimpostazione tradizionale si riesce a interpretare qualunque tipo di piano sperimentale come vedremo nel prosieguo della tesi non trascura il segno + e - perch mette in evidenza che nel piano (a, b, c, abc) si pu stimare: A* + BC* mentre nel piano complementare (i, ab, ac, bc) si pu stimare: A* - BC* Se nel piano ridotto (a, b, c, abc) conosciamo lalias: A+BC = 10 e per ipotesi supponiamo46 che BC = 0, posso concludere giustamente che: A = 10 perch il fatto che BC = 0, implica che: abc + bc + a + i - b - c - ac - ab = 0 ovvero: (1) abc + a - b - c = ac + ab -i - bc dunque lespressione per il calcolo di A si semplifica, richiedendo solo 4 stati di prova. Vediamo perch: A = abc + ab +ac + a - i - b - c - bc = (abc + a - b - c) + (ac + ab -i - bc ) Ma per la (1) si ha che i 2 termini sono uguali quindi: (abc + a - b - c) + (ac + ab -i - bc ) = 2 * (abc + a - b - c) = 2 * (ac + ab -i - bc ) ovvero, se BC=0, mi bastano 4 stati al posto di 8 per conoscere A. Questo perch abbiamo supposto che BC fosse nullo, ovvero abbiamo aggiunto un grado di libert artificiale allanalisi: nella realt non abbiamo quasi mai questo tipo di informazione per cui meglio dire che una certa somma dei quadrati associata allalias non ai fattori o interazioni se dal piano (i, ab, ac, bc) conosco: X = A-BC = 20 e da quello (a, b, c, abc) conosco: Y = A+BC = 30
46
Se non abbiamo fatto o non faremo altre prove non potremmo mai sapere se lipotesi corretta. 80
trovo subito: A = (X+Y)/2 = 25 BC = (Y-X)/2 = 5 dunque riesco a unire le 2 quantit stimate con i piani ridotti mentre con la classe di equivalenza non posso sommare algebricamente gli alias lalias visto come c.l. degli effetti cos definito molto pi semplice ed intuitivo della classe di equivalenza; se uno legge una relazione del tipo: x + y = 250 anche se corretto dire che x indistinguibile da y e che quindi x e y formano una classe di equivalenza, non penso che ci sia necessario per capire la realt: ecco perch penso che la classe di equivalenza sia un inutile complicazione per capire la struttura degli alias. Comunque sottolineo che la combinazione lineare degli effetti non in contrasto con la classe di equivalenza: semplicemente un concetto pi completo che, mantenendo la propriet dellindistinguibilit, aggiunge allalias altre propriet molto utili in casi irregolari.
4.9 FATTORI QUANTITATIVI E QUALITATIVI A PI DI 2 LIVELLI

Fino ad ora non abbiamo mai specificato se i fattori erano quantitativi o qualitativi: ma ce nera bisogno? No, perch non abbiamo mai considerato il valore dei livelli delle variabili; ad esempio, se il fattore la temperatura e i suoi livelli sono 300K e 350K, i valori 300 e 350 non influenzano lanalisi di significativit della temperatura: come se avessimo codificato i 2 livelli con -1 e +1. Se il fattore qualitativo ad esempio un colore a 2 livelli, blu e rosso, codifichiamo ancora i 2 livelli con -1 e +1; le somme dei quadrati sono indipendenti dalla codifica usata. Se ci sono 3 livelli le cose si complicano: la somma dei quadrati dovuta alleffetto di un fattore ha 2 gradi di libert dunque pu essere scomposta in 2 componenti (contrast): per fattori quantitativi si parla di una componente lineare e una quadratica; se vi sono ripetizioni costanti nei trattamenti, per la codifica, conviene usare i coefficienti dei polinomi ortogonali (cap.5): (-1,0,1) per leffetto lineare e (1,-2,1) per quello quadratico, assicurano lortogonalit algebrica (e statistica se la numerosit costante) delle 2 componenti. Se le numerosit degli stati sono diverse, i coefficienti dei polinomi ortogonali sono pi difficili da trovare quindi conviene usare il metodo presentato nel cap.7, se si vuole avere gli effetti ortogonali (statisticamente) per fattori qualitativi vi sono semplicemente 2 contrast rappresentanti leffetto; secondo me conviene usare una codifica che rispecchi confronti che interessano lo
81
sperimentatore, ad esempio (-1, 1, 0) e (0, -1, 1) confrontano il primo con il secondo livello e il secondo col terzo, anche se possono essere un po' correlati fra di loro. Anche linterazione acquista dei gradi di libert in pi: in generale, se A e B hanno rispettivamente p e q gradi di libert, linterazione ha p*q gradi di libert47. Nellesempio a 2 fattori qualitativi presente in Galetto (1995), c un fattore, il lotto, a 2 livelli e la bobina, a 3 livelli. La tabella dei segni pu essere la seguente, dove il primo numero dello stato di prova indica il lotto e il secondo la bobina.
Stati di prova 11 12 13 21 22 23 I 1 1 1 1 1 1 L -1 -1 -1 1 1 1 B1 -1 1 0 -1 1 0 B2 0 -1 1 0 -1 1 LB1 1 -1 0 -1 1 0 LB2 0 1 0 0 -1 0
Tabella 10: possibile tabella dei segni per lanalisi dei contrast
Come si vede, vi sono 2 contrast riguardanti il lotto e 2 per linterazione lottobobina: essi non sono ottenuti con i coefficienti dei polinomi ortogonali, perch, a mio parere, lo sperimentare, in presenza di variabili qualitative, deve testare i confronti che gli interessano48 e non affidarsi a mathematical niceties like orthogonality (Hocking e Speed 1975). Con fattori quantitativi invece ragionevole ortogonalizzare i contrast che rappresentano un fattore perch essi hanno un significato fisico (componente lineare, quadratica..): riprenderemo largomento pi avanti.
47
Ovviamente sto parlando di piani completi, perch nei piani ridotti non si deve pi parlare di fattori e interazioni ma di alias, come stato evidenziato nel capitolo precedente. Purch i contrast non siano eccessivamente correlati fra loro. 82
48
CAPITOLO 5
PIANI FATTORIALI NON ORTOGONALI
5.1 ORTOGONALIT: CHE CONFUSIONE!

Finora abbiamo usato questo termine in maniera volutamente ambigua: ci riflette lambiguit che si trova nella letteratura sullexperimental design. In generale si dice che sono ortogonali quei piani sperimentali a 2 livelli, le cui tabelle dei segni sono formate da -1 e +1 e i vettori colonna e riga sono ortogonali fra di loro: le matrici di Hadamard, come visto, soddisfano questa propriet ovvero, fra 2 stimatori C e C di contrast:
(1)
c
i =1
2n
* c' i = 0
ma questa la condizione per lortogonalit algebrica nello spazio dei contrast e non sufficiente per annullare la covarianza fra gli stimatori dei contrast perch tale condizione (ortogonalit statistica) :
(2)
i =1
2n
ci * c' i =0 ni
per ogni coppia di stimatori di contrast (C, C)
La (1) implica la (2) solo se ni = cost. Se nella (2) consideriamo i ci incogniti per ogni contrast, chiamiamoli cij dove j indica il j-mo dei (2n-1) contrast, la (2) esprime un sistema non lineare di [2n * (2n-1)] incognite in un certo numero di equazioni. Quante? Il numero di coppie che si pu formare con (2n-1) contrast dato dallespressione:
83
(2 n 1)! (2 n 1) * (2 n 2) 2n1 n1 n = =2 2 2 +1 2 (2 n 1 2)!* 2!

in aggiunta alle 2n-1 condizioni dei contrast:
c
i =1
2n
=0
vi sono dunque 22n-1 - 2n-1 vincoli sulle [2n * (2n-1)] cij: dunque c un numero di incognite doppio del numero di equazioni il che ci dice che vi sono infinite49 soluzioni e infatti vi sono infiniti modi di ortogonalizzare i contrast. Questo discorso, a mio parere, non pu essere collegato al procedimento di ortogonalizzazione di Graham-Shmidt che trova uninsieme di N vettori ortonormali (in realt a noi non serve la propriet di normalizzazione) dato un insieme di N vettori, di dimensione M=N; in questo caso abbiamo M>N ma in pi ci sono le condizioni sui contrast, per cui non penso che tale procedura si possa applicare. A parte le formule matematiche, il punto fondamentale che, dato un piano con k prove, esistono sempre k-1 contrast ortogonali fra di loro dunque improprio parlare di piani ortogonali; nellanalisi dei risultati si pu ortogonalizzare sempre dunque meglio parlare di analisi ortogonale, che si esegue: 1. usando come cij i coefficienti dei polinomi ortogonali (difficili da ricavare quando ni non costante), 2. aggiungendo i termini uno a uno nel modello della risposta e vedere le differenze fra le somme dei quadrati (SS) spiegate dai vari modelli; tali SS sono associate sempre a contrast fra loro ortogonali (metodo G), Il problema vedere se questi contrast ortogonali ottenuti interessano lo sperimentatore: in generale non detto. A mio parere lunico caso in cui si pu essere interessati ad ortogonalizzare quello con una sola variabile quantitativa in cui si pu essere interessati a vedere quanto il modello: Y = a + b*X + c*X2 spieghi pi del modello: Y = a + b*X Per testare la componente quadratica (H0: c=0) si fa la differenza di somma di quadrati50: SS(c) = SSreg(a,b,c) - SSreg(a,b) Solitamente si dice che la componente lineare testata da: SSreg (a,b) - SSreg(a)
49
Questo dovrebbe essere dimostrato rigorosamente: non lo faccio visto che non conosco bene i sistemi non lineari. Le formule presentate saranno pi chiare quando parleremo del metodo G (cap.7 e 8). 84
50
ma la differenza sopra testa H0: b=0 solo quando la numerosit degli stati costante: quanti se ne rendono conto? Nel caso di una sola variabile quantitativa c un ordine preferenziale con cui i termini entrano nel modello, ovvero prima la componente lineare, poi quella quadratica, quella cubica: come vedremo nel cap.7 e 8 in questo caso si riesce sempre a ortogonalizzare col metodo G. Se c una sola variabile qualitativa, lortogonalizzazione porta gi dei problemi: prendiamo lesempio in Galetto (1995) a pag. 274 in cui si vuole studiare se 5 diversi tipi di pneumatici (X) influenzano lo spazio di frenata (Y): per avere 4 contrast ortogonali si fa un confronto fra i primi 3 pneumatici e gli ultimi 2, anche se sarebbe stato pi interessante confrontare51 i primi 2 con gli ultimi 3 perch i primi 2 erano pneumatici non radiali e gli altri erano radiali: vedremo questo caso nel cap.10. Con pi fattori, se c un ordine preferenziale52 per farli entrare nel modello, si pu ortogonalizzare, altrimenti non c nessun motivo, se non quello di volere una stima pi precisa della Y. Il problema della non ortogonalit statistica che i contrast che ci interessa stimare danno luogo a degli stimatori che sono variabili casuali correlate, quindi la varianza dello stimatore C del contrast C* non rispecchia solo la variabilit di C, ma anche quella degli stimatori C degli altri contrast che sono correlati con C; in altre parole VAR(C) aumenta e cos si allarga lintervallo di fiducia dello stimatore C: la stima puntuale ottenuta pu essere molto lontana dal valore vero; dunque dobbiamo attuare un compromesso fra 2 esigenze: costruire contrast di interesse fare in modo che i loro stimatori non siano troppo correlati fra loro, e quindi le stime siano poco precise.
Chiameremo allora ortogonali quei piani con (n) trattamenti per cui possibile stimare (n-1) contrast di interesse i cui stimatori non sono correlati fra loro: sono tali tutti piani fattoriali completi che hanno un numero costante di ripetizioni per ogni stato di prova. La tesi di Fornasieri (1995) intitolata DOE: piani di prova frazionati non ortogonali. Considerazioni teoriche e pratiche; trovo strano che in tutta la tesi non si parli del problema primario53 della non ortogonalit statistica ovvero laumento della
varianza degli stimatori, causato dalla correlazione fra di essi, che si traduce in una perdita di precisione delle stime puntuali.
51
Si sarebbe dovuto rinunciare allortogonalit. Ad esempio nei nested design. Per quello che ho letto io (vedi ad esempio Hahn et al.1976 e 1978 oppure Snee 1973). 85
52
53
Spesso la nozione di piano ortogonale sostituita con quella di piano bilanciato: Galetto (1995) a pag.278 afferma che un piano bilanciato quando tutti gli stati sperimentali hanno la stessa numerosit dei dati; per a pag.289 dice che bilanciato quando sia i vettori riga, tra loro, sia i vettori colonna, tra loro, sono paralleli. [vettori proporzionali sono paralleli]. La prima condizione citata da Galetto pi restrittiva della seconda. Mason et al. (1989) dicono che i piani bilanciati hanno un ugual numero di ripetizioni per tutti gli stati di prova: la prima definizione di Galetto. Prendiamo per buona questa definizione: allora i piani ridotti come quello che abbiamo visto nel par. 4.7 con numerosit costante sono non bilanciati:
Stati di prova a b c abc Y1 24 25 29 29 Y2 26 23 30 27 Totali 50 48 59 56 Medie 25 24 29,5 28
Tabella 11: esempio di piano ridotto ortogonale
quindi, seguendo Galetto (pag.290) e Mason (pag.312), questo piano si pu esaminare solo col metodo G (Mason lo chiama reduction in error sums of squares, ma la stessa cosa); invece i 2 autori analizzano i piani come quello sopra con le stesse tecniche dei piani bilanciati, introducendo in pi gli alias: e infatti si pu analizzare col metodo di Yates, con la tabella dei segni o col Questo per questo. Dunque occhio alle definizioni (par. 2.6) per evitare confusione e contraddizioni. Nel prosieguo il termine bilanciato sar sinonimo di ortogonale(in senso statistico, non algebrico): un piano con n trattamenti per cui lo sperimentatore riesce a stimare n-1 contrast che gli interessano usando stimatori non correlati. Come riferito da Galetto (1995) nella realt molto comune trovare delle situazioni non bilanciate. Esse possono quindi derivare da:
1. Diverse ripetizioni per ogni stato di prova 2. Stati di prova mancanti per vincoli fisici (non si pu sperimentare praticamente uno stato di prova), matematici (nei mixture designs) o di budget...
5.2 DIVERSE RIPETIZIONI PER OGNI STATO DI PROVA

Iniziamo con un caso molto semplice con 2 fattori, operatore e macchina, a 2 livelli, che codificheremo con 0 e 1: ad esempio lo stato di prova 01 quello con la prima macchina e il secondo operatore; i dati presi sono uguali a quelli di Fornasieri (1995) a
86
pag.58, salvo il fatto che nello stato di prova 11 stato volutamente omesso un dato di prova per rendere il piano sperimentale non ortogonale, non essendo pi costante la numerosit degli stati di prova. MACCHINA 0 OPERATORE 0 OPERATORE 1
Tabella 12
MACCHINA 1 41,48 41
64,67 39,35
La prima cosa da fare, in qualunque analisi (soprattutto nelle pi complicate), farsi una tabella ANOVA, come ci fosse solo un fattore e gli stati di prova fossero i trattamenti di uno stesso fattore: in questo caso abbiamo quindi 4 trattamenti e la tabella ANOVA la seguente:
SS Totale Media 16997 16032,14286 df 7 1 16032,14 3 309,2857 25,0772201 3 12,33333 9,276619 MS F calcolata F0,95 (3,3)
Trattamenti 927,8571429 Residuo 37
Tabella 13: ANOVA one-way per lesempio macchina - operatore
A questo punto si tratta di scomporre la SStr in 3 componenti, ciascuna con 1 grado di libert, rappresentanti rispettivamente leffetto della macchina, delloperatore e della loro interazione. Lunico strumento che abbiamo a disposizione per ora lanalisi dei contrast a cui possiamo associare una somma di quadrati. Conviene allora scrivere le 4 medie dei 4 stati di prova (ricordiamo che il primo indice indica la macchina e il secondo loperatore): Stato prova 00 01 10 11 di Media 65,5 37 44,5 41
Quale contrast possiamo scegliere per identificare leffetto della macchina? A mio parere (come ho detto nel par. 4.8) il pi logico : 11 + 10 - 01 - 00 o qualunque suo multiplo, come chiarito nel par.4.8; esso ammette lo stimatore:
87
(1)
C ( M ) = ( y10 + y11 y 00 y 01 )
la cui determinazione : C(M) = -17 54 il contrast considerato quello che somma le medie in cui il fattore macchina al livello alto1, meno quello in cui essa al livello basso0, considerando tutti gli stati di prova, ovvero tenendo conto della stratificazione massima dei dati; ci corrisponde alla definizione di effetto che ho dato nel par.4.8. Potremmo pensare ad un altro stimatore per leffetto, che non tiene conto dellaltro fattore (operatore) e che vede i dati stratificati in soli 2 macrostati:
MACCHINA 0 MACCHINA 1
64,67,39,35 (2)
41,48,41
C ( M ) = ( y1. y 0. ) = - 7,9166655
Il primo stimatore che abbiamo scritto sta testando lipotesi nulla: 11 + 10 - 01 - 00 = 0 mentre il secondo stimatore sta testando:
(n
11
* 11 + n10 * 10 ) n11 + n10
(n
01
* 01 + n00 * 00 ) n01 + n00
=0
quindi nel nostro esempio lo stimatore (2) sta testando: (1/3) * 11 + (2/3) * 10 - (1/2) * 01 - (1/2) * 00 = 0 Secondo me, una volta stratificati al massimo i dati, non di interesse testare delle ipotesi dipendenti dalla numerosit degli stati (come fa lo stimatore (2)), a meno che le numerosit non rispecchino qualche caratteristica della popolazione; ecco perch, lo ripeto e lo ripeter in tutta la tesi, lipotesi pi logica da testare in questo caso :
54
Spero che a questo punto sia chiaro che, se fosse moltiplicato per una costante moltiplicativa, questa comunque non influenzerebbe lanalisi. Tale contrast quello derivante dalla regola del Questo per questo (Cap.7). 88
55
11 + 10 - 01 - 00 = 0
Consideriamo ancora un ultima ipotesi nulla riguardante leffetto della macchina: (2/10) * 11 + (3/10) * 10 - (2/10) * 01 - (3/10) * 00 = 0 testata dallo stimatore56: (3) C( M ) = 3 2 3 2 * y10 + * y11 * y 00 * y 01 = -5,5 10 10 10 10
Essa sembra che non testi niente di interessante (in effetti cos, secondo me), tuttavia lho introdotta per riottenere alcuni risultati che vedremo nel cap.6, 7 e 8: esso testa lipotesi nulla che si testerebbe usando la procedura descritta in Galetto (1995 e 1996): anche il fattore 10 a denominatore (che non influenza lanalisi) stato introdotto a questo scopo. Tutti i ragionamenti fatti col fattore macchina valgono per il fattore operatore per cui posso ricalcolare le stime dei 3 tipi di contrast visti sopra per loperatore: (1) (2) (3) C (O) = ( y 01 + y11 y10 y 00 ) = -32 C (O) = ( y.1 y.0 ) = -16,666 3 2 3 2 C (O) = * y 01 + * y11 * y 00 * y10 = -9,25 10 10 10 10
Passiamo ora allinterazione fra i 2 fattori; lo stimatore pi ragionevole che pu rappresentarla : (4) C ( MO) = ( y 00 + y11 y10 y 01 ) = 25
Come abbiamo fatto per i fattori, si potrebbe pensare di pesare le medie per le numerosit degli stati di prova; non lo faccio perch nella letteratura DOE c accordo nel dire che la (4) rappresenta linterazione mentre per i fattori non c ancora completo accordo (vedere ad esempio Speed et al.1978). A tutti contrast possiamo associare una somma di quadrati, ricorrendo alla solita formula:
C2 SS (C ) = 2n 2 c ni i =1 i
(1)
C ( M ) = ( y10 + y11 y 00 y 01 ) = -17 SS(M) = 115,6
56
Non distinguo pi fra stimatore, che una variabile casuale, e la sua determinazione che un numero: la differenza evidente dal contesto. 89
(2)
C ( M ) = ( y1. y 0. ) = - 7,91666 SS(M) = 107,4405
(3)
3 2 3 2 * y10 + * y11 * y 00 * y 01 = -5,5 10 10 10 10 SS(M) = 201,666 C( M ) = C (O) = ( y 01 + y11 y10 y 00 ) = -32 SS(O) = 409,6
(1)
(2)
C (O) = ( y.1 y.0 ) = -16,666 SS(O) = 476,1905
(3)
C ( O) =
3 2 3 2 * y 01 + * y11 * y 00 * y10 = -9,25 10 10 10 10
SS(O) = 570,4166 (4) C ( MO) = ( y 00 + y11 y10 y 01 ) = 25 SS(MO) = 250 Per testare la significativit degli effetti, come visto nel par. 4.3, abbiamo 2 metodi equivalenti: il primo calcolare la varianza dello stimatore del contrast e usare la t di Student con 3 gradi di libert (quelli del residuo); il secondo usare la distribuzione F per confrontare la somma dei quadrati dello stimatore del contrast e il residuo SSe, diviso per i suoi gradi di libert, ovvero la classica procedura usata nellANOVA. Il secondo metodo senzaltro pi veloce del primo per cui in generale useremo sempre quello; comunque, per far vedere come funzione il primo test applichiamolo sullo stimatore (1): (1) M = ( y10 + y11 y 00 y 01 ) = -17
VAR(M) = (0,5 + 1 + 0,5 + 0,5) * 2 dunque pu essere facilmente stimata se si conosce la stima della varianza della popolazione: noi conosciamo questa stima dalla tabella ANOVA (tab.3).
$ 2 =
SSe 37 = = 12,333 3 df SSe 3
la stima della varianza dello stimatore (1), con 3 gradi di libert , dunque: VR(C) = 30,8333 s.q.m. (C) = 5,5527
90
t3;0,05 = -3,1824 s.q.m. (C) * t3;0,05 = -17,6709 visto che C=-17> s.q.m. (C) * t3;0,05 = -17,6709, con un livello di fiducia del 95% accettiamo lipotesi nulla: 11 + 10 - 01 - 00 = 0 Se facevamo il test F, avremmo trovato che: SS(M) = 115,6 SSe = 37 F1;3;0,95 = 10,1279 105,6 / (37/3) = 9,3729 < 10,1279 il che ci portava (ovviamente) alla stessa decisione, ovvero allaccettazione dellipotesi nulla.
SE pensiamo che il contrast (1) rappresenta leffetto medio (par. 4.8) del fattore macchina, diciamo che nel nostro esperimento, con un rischio di I specie del 5%, la macchina non ha un effetto medio significativo. Se per stimare leffetto della macchina usiamo lo stimatore (3), ovvero quello derivante dalla procedura descritta in Galetto57 (1995 e 1996, pag.291):
3 2 3 2 * y10 + * y11 * y 00 * y 01 = - 5,5 10 10 10 10 SS(M) = 201,6666 facciamo il test F: 201,6666 / (37/3) = 16,3513 > 10,1279 dunque, con un livello di fiducia del 95%, dobbiamo rifiutare lipotesi nulla: C( M ) = (2/10) * 11 + (3/10) * 10 - (2/10) * 01 - (3/10) * 00 = 0
SE pensiamo che lo stimatore (3) stimi leffetto della macchina, dobbiamo concludere che, con un rischio di I specie del 5%, la macchina ha un effetto significativo sulla risposta. Questi risultati si prestano ad alcune interessanti osservazioni: 1. evidente a questo punto che, a seconda di quale contrast decidiamo che rappresenti leffetto di un fattore, prendiamo decisioni diverse.
57
Sui 2 libri non si fa lanalisi dei contrast ma si ragiona solo sulle somme di quadrati: io ho trovato (col modello full-regression, cap.8) che tali somme di quadrati derivano dai contrast riportati sopra. 91
2. evidente che il termine fattore macchina, di per s, NON SIGNIFICA NULLA

se non viene definito in termini di uno specifico contrast che testa una particolare ipotesi nulla. 3. completamente errato affermare in generale che un tipo di contrast errato e un altro giusto; semplicemente contrast diversi testano ipotesi differenti: lo sperimentatore
che decide quale ipotesi vuole testare. Nei libri e relazioni consultati per la tesi, molto raramente ho trovato considerazioni di questo tipo (Hocking e Speed 1975, Speed et al.1978,); nella maggior parte dei casi viene usato il termine effetto di in fattore senza specificare lipotesi nulla che ci sta dietro: e poi si dice che metodi diversi portano a stime differenti della somma dei quadrati SS associata all effetto del fattore: invece NO. Metodi diversi (purch scientificamente corretti) danno esattamente la stessa SS per una data ipotesi nulla: in questo paragrafo abbiamo fatto lanalisi dei contrast sullesempio operatore-macchina; nel cap.6 vedremo lanalisi della covarianza; nel cap.7 la regressione col modello sovraparametrizzato, riparametrizzato o no; nel cap.8 la regressione col modello cellmeans e quello full-regression. Tutti questi metodi daranno esattamente le stesse somme dei quadrati associate alle ipotesi nulle, trovate in questo paragrafo (principio F1). 5.2.1 ANOVA Riprendiamo la tabella ANOVA che avevamo fatto per lesempio macchinaoperatore:
SS Totale Media 16997 16032,14286 df 7 1 3 3 16032,14 309,2857 25,0772201 12,33333 9,276619 MS F calcolata F0,95 (3,3)
Trattamenti 927,8571429 Residuo Tabella 14 37
Abbiamo detto che dovevamo scomporre la SStr in 3 componenti che mettano in luce leffettiva sorgente di variabilit ovvero gli effetti della macchina, delloperatore e della loro interazione; come ho gi ripetuto pi volte le stime di tali effetti, per me, sono rappresentati dalle somme dei quadrati associate alle stime di contrast58: C ( M ) = ( y10 + y11 y 00 y 01 ) = -17
SS(M) = 115,6
C (O) = ( y 01 + y11 y10 y 00 ) = -32

58
Il loro valore e quello della SS associata potrebbero essere trovati col metodo di Yates; questa analisi anche chiamata Weighted analysis of means (Speed e Hocking 1978, Allen 1985,...). 92
SS(O) = 409,6
C ( MO) = ( y 00 + y11 y10 y 01 ) = 27

SS(MO) = 250
e danno luogo alla seguente tabella ANOVA:

SS Totale Media M O MO Residuo 16997 16032,14286 115,6 409,6 250 37 df 7 1 16032,14 1 1 1 115,6 9,37297297 409,6 33,2108108 250 20,2702703 10,12796 10,12796 10,12796 MS F calcolata F0,95 (1,3)
3 12,33333
Tabella 15: ANOVA non ortogonale full-regression (cap.8)
Come si vede dalla tabella la somma delle 3 SS rappresentanti la macchina, loperatore e la loro interazione, sommate, non danno il valore di SStr: SS(M) + SS(O) + SS(MO) = 775,2 SStr = 927,8571 Come mai? Perch gli stimatori dei 3 contrast che abbiamo usato per rappresentare gli effetti sono correlati: per verificarlo basta applicare la formula ai contrast, presi a coppie: COV (C , C ') = ci * c' i *
i =1
2n
2
ni
Dunque la varianza dello stimatore del contrast non rispecchia solo la sua variabilit ma anche quella degli altri stimatori: la varianza dunque pi alta rispetto a quella che si avrebbe in un piano ortogonale, in cui gli stimatori dei contrast sono indipendenti gli uni dagli altri. Se si volessero 3 contrast ortogonali, si potrebbero ottenere risolvendo il sistema non lineare presentato nel par. 5.1: avremmo 12 incognite e 6 equazioni (3 di non correlazione e 3 condizioni dei contrast) e otterremmo infinite soluzioni; noi non seguiremo questo approccio che abbastanza lungo. Seguiamo dunque unaltra strada che spiegheremo nel par.8.2.2: anticipiamo che essa pu portarci ai seguenti stimatori59:
59
Esistono infiniti set di 3 contrast ortogonali: gli stimatori presentati ne individuano uno dei tanti. 93
C( M ) =
2 1 1 1 * y10 + * y11 * y 00 * y 01 = - 7,91666 3 3 2 2
SS(M) = 107,4405
C ( O) =
3 2 3 2 * y 01 + * y11 * y 00 * y10 = -19 10 10 10 10
SS(O) = 570,4166
C ( MO) = ( y 00 + y11 y10 y 01 ) = 27

SS(MO) = 250
Come si pu vedere SS(M) + SS(O) + SS(MO) = SStr = 927,8571 e ci deriva dallortogonalit dei contrast; chi volesse verificare che la covarianza fra i 3 stimatori, presi a coppie, nulla, pu ricorrere alla solita formula: COV (C , C ') = ci * c' i *
i =1
2n
2
ni
Considerando questi 3 contrast ortogonali, la tabella ANOVA diventa la seguente:

SS Totale Media M O MO Residuo 16997 16032,14286 107,4404762 570,4166667 250 37 df 7 1 1 1 1 3 16032,14 107,4405 8,71138996 570,4167 46,25 10,12796 10,12796 10,12796 MS F calcolata F0,95 (1,3)
250 20,2702703 12,33333
Tabella 16: ANOVA ortogonale 1
diversa dalla tabella 5 perch le somme di quadrati derivano da contrast diversi che stanno testando diverse ipotesi nulle. Come si visto, nellanalisi dellesperimento abbiamo ortogonalizzato un piano che sarebbe considerato non ortogonale o non bilanciato. Le stime ottenute, essendo indipendenti, sono indubbiamente pi precise di quelle correlate della tab.5; ma tali stime interessano lo sperimentatore? Per rispondere egli deve almeno sapere cosa si sta testando ovvero : 2 1 1 1 * 10 + * 11 * 00 * 01 = 0 3 3 2 2 3 2 3 2 * 01 + * 11 * 00 * 10 = 0 10 10 10 10 00 + 11 10 01 = 0
94
Le prime 2 ipotesi non sono, in generale, di interesse (a meno che non ci siano dei motivi per giustificare i differenti pesi dati alle medie, ma in tal caso non si capisce perch non dovrebbero valere per linterazione) mentre la terza s perch la classica ipotesi che testa linterazione; dunque, ortogonalizzando, testiamo con la massima precisione, delle ipotesi che non detto siano di interesse. Per di pi non c un unico set di contrast ortogonali: ad esempio anche i 3 seguenti stimatori: C( M ) = 3 2 3 2 * y10 + * y11 * y 00 * y 01 = -11 10 10 10 10
SS(M) = 201,6666 2 1 1 1 C (O) = * y 01 + * y11 * y 00 * y10 = -16,6666 3 3 2 2 SS(O) = 476,1905 C ( MO) = ( y 00 + y11 y10 y 01 ) = 27 SS(MO) = 250
individuano 3 contrast ortogonali e la tabella ANOVA risultante condurrebbe a decisioni diverse dalle precedenti ( ovvio: stiamo testando ipotesi diverse; ma quanti se ne rendono conto???).
SS Totale Media M O MO Residuo 16997 16032,14286 201,6666667 476,1904762 250 37 df 7 1 16032,14 1 201,6667 16,3513514 1 476,1905 38,6100386 1 250 20,2702703 10,12796 10,12796 10,12796 MS F calcolata F0,95 (1,3)
3 12,33333
Tabella 17: ANOVA ortogonale 2
Ecco un altro buon motivo per non affidarsi a mathematical niceties like orthogonality (Hocking e Speed 1975): ci sono infiniti modi di ortogonalizzare che, in generale, non mi portano alle stesse decisioni. Infine consideriamo unultima tabella ANOVA che deriva implicitamente dalla procedura descritta in Galetto (1995 pag.283, 1996 pag.291): tale procedura utilizza direttamente le somme di quadrati senza passare attraverso i contrast e infatti nasconde lipotesi nulla testata60.
60
Bisogna dunque applicarla con molta cautela. 95
SS Totale Media M O MO Residuo 16997 16032,14286 201,6666667 570,4166667 250 37
df 7
MS F calcolata
F0,95 (1,3)
1 16032,14 1 201,6667 16,3513514 1 570,4167 1 46,25 10,12796 10,12796 10,12796
250 20,2702703
3 12,33333
Tabella 18: ANOVA non ortogonale col metodo di Galetto (1995 e 1996).
Linterazione sempre la stessa; la SS(M) la stessa della tab.7; la SS(O) quella della tab.6; dunque la tabella 8 sta testando le 3 seguenti ipotesi: 3 2 3 2 * 10 + * 11 * 00 * 01 = 0 10 10 10 10 3 2 3 2 * 01 + * 11 * 00 * 10 = 0 10 10 10 10 00 + 11 10 01 = 0 ma lo sperimentatore e lanalista che applica brutalmente il metodo di Galetto (1995 e 1996) non ne consapevole; se si vogliono pesare diversamente le medie deve esserci qualche motivo e se si pesano diversamente per i fattori perch vengono pesate ugualmente nellinterazione? Mi sembra ci sia una contraddizione... I 3 stimatori utilizzati (inconsapevolmente, lo ripeto) sono correlati e infatti: SS(M) + SS(O) + SS(MO) = 1022,0833 SStr = 927,8571 5.2.2 UN ALTRO ESEMPIO CON 3 FATTORI Complichiamo le cose aggiungendo un terzo fattore: in questo modo abbiamo 7 effetti. Adesso non ripeter pi le moltissime ipotesi che si possono testare: tester quelle che mi sembrano le pi logiche ovvero gli effetti definiti nel par. 4.8, ovvero i confronti fra le medie pesate ugualmente. Ad esempio il parametro effetto di A per me dato dal contrast: A* = 111+110+101+100-000-001-010-011 ed stimato da: A = abc + ab + ac + a - b - c- bc - i il parametro che rappresenta leffetto medio dellinterazione BC dato dal contrast: BC* = 111+011+100+000-101-001-010-110
96
ed stimato da: BC = abc + bc + i + a - b - c - ab - ac e cos per tutti gli altri effetti.... I dati sono quelli della tabella 9:
Stati di prova i a b ab c ac bc abc Tabella 19 76 80 86 79 70 79 78 82 75 78 92 77 69 83 74 85 79 81 90 80 73 77 71 76 Risposte Medie 75,5 79,666667 89,333333 77,8 70,75 81 76 82
La prima cosa da fare lANOVA one-way che mette in luce i trattamenti e il residuo.
SS Totale Media Trattamenti Residuo Tabella 20 149592 148837,5 677,1166667 77,38333333 df 24 1 7 16 96,73095238 20,00036922 2,65719535 4,836458333 MS F calcolata F0,95 (7,16)
Per scomporre la SStr nei 7 effetti, calcoliamo gli effetti col metodo di Yates, applicato sulle medie; nellultima colonna bisogna passare dal contrast alla somma di quadrati con la formula: C2 SS(C) = 2 n 1 n i =1 i si vede facilmente che il denominatore proporzionale alla media armonica delle numerosit ed fisso per ogni contrast; il suo valore : 8 1 n = 2,95 i=1 i
97
Abbiamo ora tutti gli elementi per applicare il metodo di Yates:

i a b ab c ac bc abc 75,5 155,166667 79,6666667 167,133333 89,3333333 77,8 151,75 158 322,3 632,05 135419,391 SS(I)
309,75 8,88333333 26,7503766 SS(A) -7,3666667 16,25 18,216667 112,49049 SS(B)
-19,95 134,916102 SS(AB) -12,55 53,390678 SS(C)
70,75 4,16666667 11,9666667 81 76 82 -11,533333 10,25 6
6,25 23,6166667 189,066761 SS(AC) -15,7 -4,25 -5,7166667 11,0780603 SS(BC) 11,45 44,4415254 SS(ABC)
Tabella 21: metodo di Yates applicato a dati non bilanciati
La somma dei quadrati SS(I) associata alla media I non va considerata visto che nellANOVA (tab.10) labbiamo gi isolata: i 2 risultati sono diversi perch col metodo di Yates, viene fuori da: I = i + a + b + c + ac + ab + bc + abc mentre quella dellANOVA viene fuori da: I = 2i + 3a + 4c + 2ac + 5ab + 2bc + 3abc comunque non interessa mai testare la media. La tabella ANOVA completa dunque:
SS Totale Media A B AB C AC BC ABC Residuo Tabella 22 149592 148837,5 26,75037665 112,4904896 134,9161017 53,39067797 189,0667608 11,07806026 44,44152542 77,38333333 df 24 1 1 1 1 1 1 1 1 16 26,75037665 5,530984618 4,49399806 112,4904896 23,25885636 4,49399806 134,9161017 27,89564024 4,49399806 53,39067797 11,03920975 4,49399806 189,0667608 39,09198587 4,49399806 11,07806026 2,290531521 4,49399806 44,44152542 9,188857292 4,49399806 4,836458333 MS F calcolata F0,95(1,16)
Come si vede la somma delle 7 SS degli effetti minore della SStr: SS(A)+SS(B)+SS(C)+SS(AB)+SS(AC)+SS(BC)+SS(ABC)=572,1339 SStr = 677,1166 Come nel precedente esempio, ci dovuto al fatto che gli stimatori dei contrast da cui sono state ricavate le somme dei quadrati sono correlati.
98
5.3 PIANI DI PLACKETT-BURMAN

Finora abbiamo visto la non ortogonalit derivante da diverse numerosit degli stati; adesso consideriamo laltro caso ovvero quando mancano degli stati di prova, ovvero si fraziona il piano ma in modo irregolare, rispetto ai piani 2n-p che abbiamo visto nel cap.4. I piani di Plackett e Burman, come gi detto, risalgono al 1946 e per brevit di notazione saranno talvolta chiamati piani PB: nelle intenzioni degli autori tali piani di dimensione n=4*k (kN), dovevano servire quando nelle prime fasi di un esperimento (screning design) si voleva indagare leffetto di (n-1) fattori trascurando le loro interazioni61. Tutti piani PB di dimensione (n-1) si costruiscono a partire da un vettore di dimensione (n-1), ricavato con la teoria dei gruppi. Ad esempio per n=8 il vettore : 1 1 1 -1 1 -1 -1 la seconda colonna generata dalla prima spostando gli elementi del vettore verso il basso e ponendo lultimo elemento in testa. La terza colonna ricavata in modo analogo a partire dalla seconda e cos fino alla settima colonna. 1 1 1 -1 1 -1 -1 -1 1 1 1 -1 1 -1 -1 -1 1 1 1 -1 1 1 -1 -1 1 1 1 -1 -1 1 -1 -1 1 1 1 1 -1 1 -1 -1 1 1 1 1 -1 1 -1 -1 1
A questa tabella bisogna poi aggiungere allinizio una colonna di 1 e alla fine una riga di -1; in questo modo si ottiene una matrice di Hadamard che assicura lortogonalit algebrica dei contrast e quella statistica se le numerosit degli stati siano costanti.
61
Infatti non indicata la struttura degli alias. 99
1 1 1 1 1 1 1 1
1 1 1 -1 1 -1 -1 -1
-1 1 1 1 -1 1 -1 -1
-1 -1 1 1 1 -1 1 -1
1 -1 -1 1 1 1 -1 -1
-1 1 -1 -1 1 1 1 -1
1 -1 1 -1 -1 1 1 -1
1 1 -1 1 -1 -1 1 -1
Tabella 23: matrice di Hadamard di dimensione 8.
Tale piano pu essere usato negli screening design (in cui si trascurano le interazioni) per studiare 7 fattori (viene allora detto saturated design, secondo Wheeler 1988) e in tal caso corrisponde al piano ridotto 27-4:
I adfg abeg abcf bcdg acde bdef cefg i A B C D E F G
1 1 1 1 1 1 1 1
1 1 1 -1 1 -1 -1 -1
-1 1 1 1 -1 1 -1 -1
-1 -1 1 1 1 -1 1 -1
1 -1 -1 1 1 1 -1 -1
-1 1 -1 -1 1 1 1 -1
1 -1 1 -1 -1 1 1 -1
1 1 -1 1 -1 -1 1 -1
Tabella 24: saturated design, 7 fattori e la media con 8 stati di prova
Se invece ad esempio si vuole usare la tabella 13 per studiare 3 fattori (non saturated design) si vede che essa corrisponde alla tabella dei segni di un piano completo a 3 fattori, a parte il segno delle interazioni del primo ordine e lordine degli stati di prova diverso da quello di Yates.
I 1 1 1 1 1 1 1 1 A 1 1 1 -1 1 -1 -1 -1 B -1 1 1 1 -1 1 -1 -1 C -1 -1 1 1 1 -1 1 -1 -AB 1 -1 -1 1 1 1 -1 -1 -BC -1 1 -1 -1 1 1 1 -1 ABC 1 -1 1 -1 -1 1 1 -1 -AC 1 1 -1 1 -1 -1 1 -1
a ab abc bc ac b c i
Tabella 25: non saturated design, 3 fattori e la media con 8 stati di prova 100
Abbiamo visto dunque che i piani PB di dimensione n = 2k sono identici a quelli esaminati nel cap.4, completi o frazionati: essi sono detti piani geometrici PB e possono essere considerati ortogonali se la numerosit degli stati di prova costante: Plackett e Burman nel 1946 non indicarono la struttura degli alias per i loro piani ma per quelli geometrici facilmente ricavabile anche se pu essere un lavoro molto lungo: basta scrivere la tabella dei segni per tutti i fattori e interazioni (in tutto sono 128 nellesempio di tab.14) e vedere quali effetti sono rappresentati dallo stesso contrast. 5.3.1 PIANI NON GEOMETRICI PB Sono quei piani la cui dimensione un multiplo di 4 ma non una potenza di 2. Il piano pi noto presentato sui libri di DOE indubbiamente quello di dimensione 12: esso si ottiene facendo ruotare il vettore: 1 1 -1 1 1 1 -1 -1 -1 1 -1 e aggiungendo la colonna di 1 e la riga di 1, si ottiene dunque la seguente tabella dei segni:
I
acghln abdhlm bcelmn acdfmn abdegn abcefh bcdfgl cdeghm defhln aefglm bfghmn i
1 1 1 1 1 1 1 1 1 1 1 1
1 1 -1 1 1 1 -1 -1 -1 1 -1 -1
-1 1 1 -1 1 1 1 -1 -1 -1 1 -1
1 -1 1 1 -1 1 1 1 -1 -1 -1 -1
-1 1 -1 1 1 -1 1 1 1 -1 -1 -1
-1 -1 1 -1 1 1 -1 1 1 1 -1 -1
-1 -1 -1 1 -1 1 1 -1 1 1 1 -1
1 -1 -1 -1 1 -1 1 1 -1 1 1 -1
1 1 -1 -1 -1 1 -1 1 1 -1 1 -1
1 1 1 -1 -1 -1 1 -1 1 1 -1 -1
-1 1 1 1 -1 -1 -1 1 -1 1 1 -1
1 -1 1 1 1 -1 -1 -1 1 -1 1 -1
Tabella 26: PB non geometrico saturated, 11 fattori e la media con 12 stati di prova
questa tabella pu essere usata per studiare 11 fattori se si trascurano le interazioni: questa volta impossibile trovare la struttura degli alias con la tabella dei segni completa perch nessuno degli 11 contrast sopra rappresenta pi di un effetto: la classe di
101
equivalenza di Galetto (1995) in questo caso non riesce ad interpretare la struttura degli alias di questo piano. Questo succede anche se con la tab.16 vogliamo studiare meno fattori, ad esempio 5.
I
ac abd bce acd abde abce bcd cde de ae b i
1 1 1 1 1 1 1 1 1 1 1 1
1 1 -1 1 1 1 -1 -1 -1 1 -1 -1
-1 1 1 -1 1 1 1 -1 -1 -1 1 -1
1 -1 1 1 -1 1 1 1 -1 -1 -1 -1
-1 1 -1 1 1 -1 1 1 1 -1 -1 -1
-1 -1 1 -1 1 1 -1 1 1 1 -1 -1
-1 -1 -1 1 -1 1 1 -1 1 1 1 -1
1 -1 -1 -1 1 -1 1 1 -1 1 1 -1
1 1 -1 -1 -1 1 -1 1 1 -1 1 -1
1 1 1 -1 -1 -1 1 -1 1 1 -1 -1
-1 1 1 1 -1 -1 -1 1 -1 1 1 -1
1 -1 1 1 1 -1 -1 -1 1 -1 1 -1
Tabella 27: PB non geometrico non saturated, 5 fattori con 12 stati di prova
Anche in questo caso non si riesce a trovare la struttura degli alias con la tabella dei segni; inoltre 6 dei contrast sopra non indicano nessuna interazione fra i fattori. Per capire la struttura degli alias di questi piani bisogna per forza considerare lalias come una combinazione lineare degli effetti. Nel 1951 Box e Wilson presentarono un metodo per trovare la struttura degli alias per i piani PB (e qualsiasi altro piano sperimentale) che si basa proprio sulle definizioni di effetto e alias che ho dato nel par. 4.8 e sul modello fullregression: lo vedremo nel cap.8. Fornasieri (1995) asserisce a pag.89 e 91 che i piani PB come quelli di tab.16 e 17 sono non ortogonali: io non ho capito come mai faccia una tale affermazione, anche perch nella sua tesi non ben definito cosa sia un piano ortogonale. I libri sullexperimental design che parlano dei piani PB non geometrici (Daniel 1976, Box et al.1978, Diamond 1981, Wheeler 1988) dicono che tali piani di dimensione n sono ortogonali, probabilmente perch la matrice dei segni fornisce n-1 contrast ortogonali fra di loro62. Secondo la mia definizione (par.5.1) un piano ortogonale se questi n-1 contrast interessano lo sperimentatore: come vedremo nel cap.8, i contrast ottenuti coi piani PB non geometrici confondono gli effetti in modo molto complicato, quindi secondo me non detto che siano sempre di interesse: ecco perch preferisco considerarli non ortogonali. Infine diciamo che i piani PB non geometrici sono sempre di risoluzione III in quanto i fattori non sono mai confusi fra di loro, ma lo sono sempre con tutte le interazioni; i piani PB possono essere reflected ovvero replicati negli stati complementari (tabella dei
62
Ma questa lortogonalit algebrica nello spazio dei contrast che implica quella statistica solo se la numerosit degli stati costante. 102
segni con segni opposti): tale tecnica denominata fold-over; con essa i piani PB non geometrici diventano di risoluzione IV.
5.4 I 3/4 DI JOHN

Questo tipo di piano sperimentale risale al 1962 quando fu introdotto da John; negli anni 60 ci fu unintensa ricerca (Addelman 1972, Margolin 1969 e 1972, John 1966 e 1969, Webb 1971) riguardo piani irregolari: nei 6 articoli che ho citato sopra si fa uso di unalgebra non sempre facilissima per indagare le propriet di tali piani che spesso richiedono un numero elevato di stati di prova; inoltre si fa sempre lipotesi iniziale che alcune interazioni siano trascurabili: i 4 studiosi parlano di interazioni negligible a priori; nella tesi io eviter sempre di dire a priori che uninterazione nulla: lo studio della struttura degli alias serve proprio a capire come tutte le interazioni si confondono fra di loro. In questa sede ci soffermeremo sui piani irregolari pi semplici ovvero i 3/4 di John. Lidea di John molto semplice: a partire da un piano completo 2n si eliminano 1/4 degli stati di prova e si sperimentano solamente i restanti 3/4 (di qui il nome); dato un piano completo 2n, esso sempre scomponibile in 4 parti, ciascuna corrispondente a una certa una defining relation: se consideriamo solo 3 di queste 4 parti, unendo a coppie queste 3 parti, arriviamo a 3 piani definiti da una defining relation contenente solo un defining contrast. Facciamo un esempio con 3 fattori: il piano completo pu essere diviso, ad esempio, in queste 4 parti, ciascuna corrispondente a una certa defining relation: i, b ac, abc a, ab c, bc I - A - C + AC I + A + C + AC I + A - C - AC I - A + C - AC
Supponiamo di non volere (o potere, vedi il caso Iveco nel cap.10) sperimentare gli stati di prova a e ab: otteniamo un 3/4 di John. Usiamo la rappresentazione del cubo per visualizzare bene lesperimento con cui abbiamo a che fare.
103
bc
abc
c b
ac ab
Figura 6: 3/4 di John (caso Iveco)
A questo punto si uniscono a coppie le 3 defining relation rimanenti: I - A - C + AC I + A + C +AC I - A + C - AC Unendo le prime 2 si ha
I + AC che porta agli alias: A+C B + ABC AB + BC tale struttura corrisponde al piano (i, b, ac, abc) Unendo la prima e la terza: I-A B - AB C - AC BC - ABC tale struttura corrisponde al piano (i, b, c, bc) Unendo le ultime 2 defining relation si ha: I+C A + AC B + BC AB + ABC tale struttura corrisponde al piano (c, bc, ac, abc)
104
In pratica lidea di John consiste nel considerare separatamente le 3 possibili met del piano a 6 stati. Come si era gi verificato per i piani di Plackett-Burman, anche per un piano come questo non si riesce a capire la struttura degli alias concepita in maniera classica (par. 4.6) perch osservando la tabella dei segni completa non c nessun contrast uguale agli altri (e alcuni non sono nemmeno contrast):
I i b c ac bc abc 1 1 1 1 1 1 A -1 -1 -1 1 -1 1 B -1 1 -1 -1 1 1 AB 1 -1 1 -1 -1 1 C -1 -1 1 1 1 1 AC 1 1 -1 1 -1 1 BC 1 -1 -1 -1 1 1 ABC -1 1 1 -1 -1 1
Tabella 28: tabella dei segni per i 3/4 di John, utilizzando tutti dati e tutti gli effetti
Per capire la struttura degli alias dei 3/4 di John bisogna ridefinirne il concetto in maniera chiara e univoca (cap.9). Nei piani regolari (cap.4) abbiamo visto che il numero di alias in un piano ridotto sempre uguale a quello degli stati di prova; nel cap.9 vedremo che questa una situazione generale dunque in questo caso abbiamo 6 alias indipendenti; dai 12 alias trovati sopra potremmo scegliere, ad esempio: I + AC A + AC B + ABC C - AC AB + ABC BC - ABC ciascuno di essi utilizza solo 4 dei 6 dati a disposizione, come si vede dalla tabella dei segni dalla quale si possono stimare numericamente gli alias63:
I+AC i b c ac bc abc 1 1 1 1 -1 1 -1 1 1 -1 A+AC B+ABC -1 1 1 -1 -1 1 1 1 AB+ABC C-AC -1 -1 1 BC-ABC 1 -1 -1
Tabella 29: tabella dei segni ridotta per i 6 alias considerati
63
Volendo, si possono calcolare anche le somme dei quadrati associate ad ogni alias, con la solita formula. 105
alcuni alias hanno forzatamente degli stimatori correlati (ad esempio A+AC e C-AC), se si fa lipotesi che BC e ABC sono trascurabili, si conoscono tutti gli altri 6 effetti, nel cap.9 vedremo che quella sopra solo una delle tante strutture degli alias, anticipo che il caso Iveco (cap.10), gi trattato in Fornasieri (1995) e Actis (1995), rientra fra i 3/4 di John e, in particolare, ha la stessa struttura di questo esempio; esso si pu dunque risolvere adeguatamente senza ricorrere alle equazioni normali, semplicemente usando lanalisi dei contrast e i 3/4 di John, il piano ha risoluzione III perch gli effetti principali non sono confusi fra di loro.
John (1969) ha dimostrato che, se un alias PQ contiene un effetto P non trascurabile e Q trascurabile, e un altro alias PS contiene leffetto di prima P non trascurabile e un effetto S trascurabile, la media algebrica dei 2 alias d la stima di P uguale a quella proveniente dal metodo dei minimi quadrati; ci si estende a n alias che contengano leffetto P e altri effetti trascurabili. Nel nostro esempio, se ABC e BC sono trascurabili, la media aritmetica dei 2 alias: B+ABC B+BC d la stessa stima di B che sarebbe fornita dalle equazioni normali. Io ho verificato (non dimostrato) che, anche senza fare lipotesi delle interazioni trascurabili, gli alias provenienti dai 3/4 di John derivano dalle equazioni normali: lo vedremo nel cap.8. I 3/4 di John sono ignorati da tutti libri di DOE a parte quello di Diamond (1981), probabilmente perch sono piani non ortogonali ovvero danno luogo a degli stimatori parzialmente correlati fra di loro: quando non si sa come affrontare un problema (la non ortogonalit), molto facile dimenticarsi del problema e abbandonarlo...... 5.4.1 PIANO A 6 STATI DI WEBB Tale piano sperimentale fu introdotto insieme ad altri, da Webb nel 1968 in un famoso articolo, Non orthogonal designs of even resolution, che purtroppo non sono riuscito a trovare. Da ci che ho capito, tale piano essenzialmente un 3/4 di John che, partendo dal piano completo 23, elimina 2 stati di prova opposti sul cubo, ovvero una delle 4 coppie: (i, abc) (a,bc) (b,ac) (c,ab) tale piano il pi efficiente (nel senso di maggior risoluzione) dei 3/4 di John con 3 fattori perch lunico che confonde tutti i fattori con linterazione di secondo ordine ABC, ovvero lunico 3/4 che abbia risoluzione IV.
106
Per verificarlo eliminiamo, ad esempio, la coppia (i, abc):
bc ac c b
abc
ab
Figura 7: piano di Webb a 6 stati
Seguendo la procedura di prima, vediamo che il piano sopra generato dallintersezione dei 3 piani a 4 stati: 1. (a, ab, c, bc) generato da I-AC, porta agli alias: A-C
B-ABC AB-BC 2. (b, c, ac, ab) A-ABC B-C AB-AC 3. (a, b, ac, bc) C-ABC B-A BC-AC
generato da I-BC, porta agli alias:
generato da I-AB, porta agli alias:
Come anticipato, tutti fattori sono confusi con linterazione di ordine superiore ABC: in questo senso il 3/4 di John migliore per 3 fattori; se si ritiene di poter trascurare uninterazione di primo ordine, ad esempio AC, si pu scegliere di stimare la seguente struttura degli alias: I-BC A-ABC B-ABC C-ABC AB-AC BC-AC
107
si pu usare la tabella dei segni in cui, come prima, ogni alias impiega solamente 4 dei 6 dati. Alcuni stimatori sono correlati qualunque sia la numerosit degli stati di prova (ad esempio A-ABC e B-ABC).
I-AC a b ab c ac bc 1 1 1 1 -1 1 -1 1 1 1 -1 A-ABC B-ABC -1 -1 1 1 -1 1 1 -1 1 AB-AC C-ABC -1 -1 BC-AC 1 -1
Figura 8: tabella dei segni per il piano di Webb
5.5 ESTENSIONE AI 3/4 DI JOHN

Riepiloghiamo lidea di John: considerare una frazione irregolare (3/4) come lintersezione di 3 piani regolari e stimare gli alias derivanti dalle varie intersezioni che pi interessano allo sperimentatore. Pensandoci, perch uno dovrebbe limitarsi ai 3/4? Sono convinto che lo stesso John, gi negli anni60, fosse consapevole di poter estendere il suo ragionamento ad altre frazioni e probabilmente lha anche pubblicato. utile a questo punto definire il concetto di regolarit per una frazione del piano completo; abbiamo visto che le frazioni (regolari) del cap.4 si ottengono tutte da ununica defining relation, mentre quelle viste in questo capitolo (PB non geometrici e 3/4 di John) no. Dunque per frazione regolare intendo una frazione i cui alias possono essere ricavati tutti da ununica defining relation; le frazioni irregolari sono quelle non regolari. 5.5.1 ALTRE FRAZIONI: 3/8 Torniamo al solito esempio di 3 fattori. Se dal piano completo decidessimo di eseguire solo i 3 trattamenti i, a, b, qualcuno potrebbe obiettare che un 3/4 di John con soli 2 fattori in cui lo stato mancante ab; nella realt per potrebbe accadere che noi studiamo solo 2 fattori (A e B) ma in realt vi un terzo fattore (C) tenuto costante che influenza la risposta e dunque pu distorcere i risultati ottenuti degli effetti di A e B; in questo caso saremmo di fronte a una frazione 3/8. Tuttavia per la frazione 3/8 preferisco presentare un piano in cui vengono variati 3 fattori, ovvero (i, ab, bc); la rappresentazione sul cubo la seguente:
108
bc
abc
ac
ab
Figura 9: frazione 3/8
deriva dallintersezione di 3 piani 23-2: (i, ab) I-C+AB-ABC A-AC+B-BC (i, bc) I-A+BC-ABC B-AB+C-AC (ab, bc) I+B-AC-ABC A+AB-C-BC Per cui, se ci interessano i fattori A e B, possiamo considerare la seguente struttura degli alias: I-C+AB-ABC A+AB-C-BC B-AB+C-AC questi 3 alias ammettono i 3 stimatori (correlati) forniti dalla seguente tabella dei segni:
I-C+AB-ABC i ab bc A+AB-C-BC B-AB+C-AC
1 1 1 -1
-1 1
Tabella 30: tabella dei segni per la frazione 3/8
5.5.2 ALTRE FRAZIONI: 5/8 Prendiamo lesempio su Fornasieri (1995) a pag.95, visto che lunico riferimento, a mia conoscenza, in cui si cerca di esaminare una frazione cos irregolare, usando il metodo di Box-Wilson che vedremo nel cap.8; in questo paragrafo io lo studio ricorrendo al solito ragionamento di John.
109
bc
abc
ac
ab
Figura 10
Possiamo vederlo come lintersezione dei 2 piani: (i, ab, ac, bc) I-ABC A-BC B-AC C-AB (b, bc) I-A+B-AB C-AC+BC-ABC che genera:
che genera:
Avendo 5 stati possiamo stimare 5 quantit (alias): ad esempio, se ci interessano A, B, C e AB dobbiamo combinare i 2 alias sopra64: C-AB = ac + bc - ab - i C-AC+BC-ABC = 2(bc-b) Sottraendo il primo dal secondo si ottiene lalias: (1) AB - AC + BC - ABC = i - 2b + ab - ac + bc Notiamo che questo uso algebrico degli alias possibile solamente con la mia definizione di alias (par. 4.8), assolutamente impensabile con la classe di equivalenza di Galetto (1995 e 1996). La struttura degli alias per questo piano pu dunque essere la seguente:
64
I 2 alias sotto potrebbero anche essere moltiplicati per una costante moltiplicativa, purch sia la stessa per tutti e due (par. 4.8). 110
I-ABC A-BC B-AC AB - AC + BC - ABC C-AC+BC-ABC Come si vede, siamo riusciti a isolare gli elementi che ci interessano. Per calcolare i 5 alias si usa la tabella dei segni, in cui compare per la prima volta un numero in modulo diverso dallunit: questo a causa delloperazione (1) che abbiamo fatto per isolare AB. Ci non deve stupire: ricordiamoci che la tabella dei segni solo un modo per visualizzare i coefficienti da applicare alle medie degli stati di prova per stimare il contrast rappresentante leffetto o lalias (nei piani ridotti come questo).
I-ABC i b ab ac bc A-BC B-AC AB-AC+BC-ABC C-AC+BC-ABC
1 1 1 1
-1 1 1 -1
-1 1 -1 1
1
-2
-1
1 -1 1 1
Tabella 31: tabella dei segni per la frazione 5/8
5.5.3 ALTRE FRAZIONI: 7/8 Come per la precedente frazione, ci rifacciamo allesempio presentato in Fornasieri (1995) a pag. 106, in cui a partire dal piano completo si elimina lo stato di prova c. Ecco la rappresentazione sul cubo:
bc
abc
c b
ac ab
Figura 11: frazione 7/8 111
Possiamo considerare il piano sopra come lintersezione di sette piani 23-1: 1. 2. 3. 4. 5. 6. 7. (i,ab,ac,bc) (i,a,bc,abc) (i,b,ac,abc) (a,b,ac,bc) (i,a,b,ab) (b,ab,bc,abc) (a,ab,ac,abc) I-ABC I+BC I+AC I-AB I-C I+B I+A
che genera lalias65 A+ABC che genera lalias B+ABC che genera lalias C-ABC che genera lalias AB-ABC che genera lalias AC+ABC che genera lalias BC+ABC
Se ci interessa stimare i sei effetti A,B,C,AB,AC,BC, pensando che linterazione del secondo ordine ABC sia trascurabile, possiamo assumere la seguente struttura degli alias di cui si trova traccia anche in Daniel (1976) a pag.65:
I-ABC A+ABC B+ABC C-ABC AB-ABC AC+ABC BC+ABC Questi sette alias possono essere stimati con la seguente tabella dei segni, e nuovamente ciascun alias utilizzer solo quattro stati di prova:
I-ABC i a b ab ac bc abc Tabella 32: frazione 7/8 1 1 1 -1 1 1 -1 1 A+ABC B+ABC -1 1 1 -1 AB-ABC C-ABC AC+ABC BC+ABC 1 -1 -1 1 1 1 -1 1 1 -1 -1 1 -1 -1 -1 1
65
Genera anche altri alias ma nel nostro esempio ci interessa solo questo; ci vale anche per le defining relation successive. 112
5.5.4 CONCLUSIONI In questo paragrafo abbiamo studiato alcune frazioni irregolari in maniera molto intuitiva, considerandoli come intersezioni di piani regolari: da quel che ho capito questa lessenza del ragionamento di John per la costruzione dei suoi 3/4. Tuttavia non abbiamo dato alcuna giustificazione statistica per luso degli alias e delle tabelle dei segni proposti; inoltre gli esempi fatti sono stati molto semplici nel senso che la struttura degli alias si adattava sempre a ci che volevamo conoscere; infine ci siamo limitati a frazioni semplici con 3 fattori: immaginiamo invece di avere 25 stati di prova sperimentabili e di poter fare solo 13 prove: avremmo la frazione 13/32, molto irregolare, che necessita di metodi appositi (metodo di Box-Wilson) per essere studiata. Nel cap.8 supereremo questi due problemi introducendo il metodo di Box-Wilson che ci consentir di: verificare che gli alias trovati e i contrast proposti derivano dalle equazioni normali, di verificare se, per un dato piano, possibile trovare una struttura degli alias che soddisfa le esigenze dello sperimentatore, operare con un numero qualsiasi di fattori e con qualunque frazione. Tutto ci possibile usando il modello full-regression (cap.8).
113
CAPITOLO 6
ANALISI DELLA COVARIANZA E INTERPRETAZIONE GRAFICA DEI PIANI FATTORIALI
6.1 ANCOV: A COSA SERVE?

In Mason et al. (1989) e Miller et al. (1990) lanalisi della covarianza descritta come un metodo per eliminare dal residuo leffetto delle covariates o covariables, ovvero di quelle variabili che influenzano la risposta Y ma non possono essere controllate pur essendo misurate durante lesperimento. In Sheff (1959) descritta come un metodo per eliminare leffetto delle variabili qualitative quando si costruisce un modello con variabili quantitative. LANCOV integra dunque la regressione e lanalisi della varianza. Noi la applicheremo come una procedura generale, per variabili qualitative e quantitative, attraverso opportune codifiche. Io user questo approccio soprattutto perch si presta molto bene a uninterpretazione grafica, dunque piuttosto intuitiva; lessenza dellANCOV consiste nel fittare i dati che si hanno con dei modelli diversi: Y=X* sui quali si esegue la regressione trovando la soluzione alle equazioni normali: = (XT*X)-1 * XT *Y visto che i modelli usati sono tutti full-rank66 (del tipo allocated codes, secondo Searle 1971).
66
E quindi la matrice (XT*X) invertibile; lo vedremo nei cap.7 e 8. 114
Le conseguenti somme dei quadrati associate ai modelli si calcolano con la formula matriciale: (1) SSreg = T * XT * Y = YT * X * (X*XT)-1 * XT * Y dalla (1) si vede che la SSreg una forma quadratica e si potrebbe dimostrare che la SSreg non dipende dai valori assoluti presenti nella matrice X: questo ci offre la possibilit di codificare le variabili, siano esse quantitative o qualitative. Facendo delle opportune differenze fra le somme dei quadrati dei vari modelli si ottengono le somme dei quadrati che spiegano leffetto dei fattori; leffetto della covariate presente nellordinata allorigine. Applicheremo questa procedura allesempio macchina-operatore del capitolo precedente, ma prima affrontiamo linterpretazione grafica dei piani fattoriali 22.
6.2 INTEPRETAZIONE GRAFICA DEGLI EFFETTI DEI FATTORI E INTERAZIONI

Supponiamo di avere un esperimento con 2 fattori A e B, a 2 livelli con 2 ripetizioni:
B1 A1 A2
Tabella 33
B2
12, 13 26, 29
22, 23 35, 40
Proviamo a calcolare le stime dei contrast rappresentanti gli effetti col metodo di Yates. A = 30 B = 20 AB = 0 In questo esperimento dunque linterazione sicuramente risulter non significativa. Ma ci cosa vuol dire? Per scoprirlo tracciamo un grafico dei valori medi di Y in funzione dei livelli del fattore A, per ogni livello di B; nellanalisi della covarianza B sarebbe considerato la covariate e A una variabile quantitativa: la sua scala nel grafico stata codificata (1, 2).
115
40 35 30 25 Y 20 15 10 5 0 1 fattore A 2 B al livello basso B al livello alto
Figura 12: interazione nulla
Come si pu vedere le 2 rette fatte ai 2 livelli di B sono parallele; ci si verifica anche se sulle ascisse mettiamo il fattore B e trattiamo il fattore A come covariate. Infatti quando AB nulla si ha che: ab + i - a - b = 0 ovvero: ab - b = a - i consideriamo che le 2 quantit rappresentano i coefficienti angolari delle 2 rette disegnate sopra nel piano Y-fattore A: essendo uguali i c.a. le rette sono ovviamente parallele ogniqualvolta linterazione nulla67. Analogamente nel piano Y-fattore B, trattando A come covariate, si avrebbe avuto: ab - a = b - i e si sarebbe ottenuta luguaglianza fra i coefficienti delle 2 rette nel piano Y-fattore B. Questa linterpretazione grafica delle interazioni ovvero il non parallelismo fra le rette. Quando vogliamo fittare i dati con un modello senza interazione (additivo), dobbiamo quindi imporre che le rette corrispondenti ai diversi livelli della covariate siano parallele. 6.2.1 EFFETTI MEDI E MARGINALI DEI FATTORI Osserviamo di nuovo la figura 1: nel passare dal livello 1 al 2 del fattore A, la risposta Y aumenta decisamente sia con B al livello basso che alto dunque diciamo che il fattore A ha un effetto marginale positivo significativo68 sia con B basso che alto: leffetto medio di A allora chiaramente significativo. In formule abbiamo: effetto marginale di A su B basso:
67
Nella realt difficile che linterazione sia proprio nulla tuttavia se trascurabile le rette sono approssimativamente parallele. Ricordiamo comunque che noi stimiamo delle rette perch quelle vere rimarranno sempre sconosciute Anche senza fare lANOVA e specificare un livello di fiducia, ci evidente dal grafico. 116
68
a-i = 15 effetto marginale di A su B alto: ab-b = 15 effetto medio di A: a+ab-i-b69 = 30 Nellanalisi della varianza e dei contrast vengono sempre considerati solo gli effetti medi, e ci va benissimo; vorrei per che si fosse consapevoli che quando si afferma: il fattore A non ha effetto si sta parlando delleffetto medio e anche se esso nullo ci non toglie che pu avere effetti marginali molto significativi; anche io nella tesi quando dico effetto senza specificare se marginale o medio, intendo leffetto medio. Prendiamo i seguenti dati:
B1 A1 A2
Tabella 34
B2
27, 30,5 13,5, 14
20, 22,5 36, 36,5
Calcoliamo gli effetti medi: A=0 B = 15 AB = 30 Anche se leffetto medio di A nullo, sarebbe un grave errore pensare che il fattore A non influenzi la risposta dellesperimento. Infatti se vediamo agli effetti marginali: effetto marginale di A al livello basso di B: a-i = -15 effetto marginale di A al livello alto di B: ab-b = 15 evidente che gli effetti marginali di A sono significativi ma, essendo di segno opposto, danno luogo a un effetto medio nullo. Vediamo il grafico di questo esperimento:
69
Sarebbe opportuno dividere per 2 ma, come sappiamo, per lanalisi dei contrast ininfluente. 117
40 35 30 25 Y 20 15 10 5 0 1 Fattore A 2
B al livello basso B al livello alto
Figura 13: grafico di un modello non gerarchico
Come vediamo le 2 rette hanno coefficienti angolari opposti ovvero: a - i = b - ab e ci deriva dal fatto che: A = a + ab - i - b = 0 Le 2 rette sono decisamente non parallele e infatti si trova che linterazione AB molto significativa. AB = 30 Infatti nellinterazione sono nascosti gli effetti marginali di A: ecco un buon motivo per non trascurare le interazioni; esse esplicitano leffetto marginale di un fattore. I 3 stimatori proposti A, B, AB sono dunque sufficienti70 per descrivere i risultati di un esperimento con 2 fattori a 2 livelli; vediamo una propriet molto importante degli effetti medi e marginali: se i fattori A e B hanno tutti gli effetti marginali non significativi anche la loro interazione necessariamente non significativa, di conseguenza: se linterazione AB significativa allora deve esistere per forza un effetto marginale di A o B significativo. dunque assolutamente impensabile poter trascurare linterazione AB: si rischia di fare degli errori gravissimi come nel seguente esempio. 6.2.2 LIMPORTANZA DELLE INTERAZIONI There really are interactions, and you need to watch out for them (John 1990). Consideriamo i seguenti dati: B1 A1 A2
Tabella 35
70
B2 10, 15 36, 39
37, 38 11, 14
Ecco perch io li uso come definizione di effetto (par. 4.8). 118
A=0 B=0 In questo esperimento se ci limitassimo allo studio dei fattori A e B, troveremmo che i loro effetti medi sono nulli e dovremmo pensare che niente influenza la risposta Y dellesperimento. Invece se non trascuriamo literazione: AB = 50 vediamo che essa molto significativa: ci vuol dire che gli effetti marginali dei fattori A e B sono tuttaltro che trascurabili. Se i fattori A e B fossero stati i parametri di un processo e la Y una variabile da massimizzare, trascurando linterazione, non avrei potuto individuare le 2 condizioni ottimali i e ab.
40 35 30 25 Y 20 15 10 5 0 1 Fattore A 2
B al livello basso B al livello alto
Figura 14: solo linterazione significativa
Questi esempi fatti sono molto banali ma fanno capire il tipo di errore che si pu fare anche con pi fattori e pi livelli. Spero che a questo punto sia evidente limportanza di considerare le interazioni: nel suo libro Galetto (1995 e 1996) afferma ripetutamente che le interazioni sono importanti tanto quanto i fattori. Invece Taguchi (1987 e 1996) trascura sistematicamente le interazioni. Molti autori (fra cui Box et al. 1978) le considerano un effetto del secondo ordine pensando di sviluppare in serie di Taylor la funzione di risposta: questo pu andar bene per fattori quantitativi per, se per esempio la risposta
esponenziale, lecito trascurare i termini di ordine superiore nello sviluppo di Taylor?... Alcune considerazioni molto importanti riguardo le interazioni si trovano in Lorenzen e Anderson (1993) a pag. 212:
If there is no knowledge about interactions, they cannot be assumed negligible and larger designs will have to be run. We constantly hear subject matter experts claim that there are a few two factor interactions but there definitely no three factor interactions. Yet we have observed at least
one significant three factor interaction almost 50% of the time three factor interactions could be tested. The reason is twofold. One, the expert did not actually know there were no three factor interactions, and two, the increased sample size required to test three factor interactions made the tests more sensitive.
119
As processes get more complex, more and higher order interactions are going to exist ... we predict that more and more processes will contain higher order interactions that need to be properly modeled to be fully understood and optimized. Anche Galetto (1995) fa delle considerazioni analoghe e soprattutto afferma che nelle sue applicazioni ha trovato spesso interazioni del secondo ordine quando la struttura del piano era tale che esse si potevano esaminare.
6.3 ESEMPIO MACCHINA - OPERATORE

Ora che abbiamo introdotto lanalisi della covarianza e sappiamo intepretare graficamente gli effetti, possiamo applicare lANCOV allesempio del cap.5. Riportiamo i dati: MACCHINA 0 OPERATORE 0 OPERATORE 1
Tabella 36
MACCHINA 1 41,48 41
64,67 39,35
Immaginiamo un grafico in cui Y funzione solamente delloperatore: trattiamo questo fattore come una variabile quantitativa, codificando i suoi livelli con 1 e 2. Il fattore macchina dunque una covariate: il suo effetto esplicitato attraverso lordinata allorigine. Il primo modello da considerare quello in cui si fittano i dati come se la macchina non avesse effetto dunque si usa solo unordinata allorigine. Il modello : Y = A + B*O che rappresentiamo in forma matriciale: Y=X* dove contiene i 2 parametri A e B e la matrice X contiene una colonna di 1 e unaltra con i valori della variabile operatore 1 e 2. Vediamo i valori numerici:
120
64 67 41 48 39 35 41 =
1 1 1 1 1 1 1
1 1 1 1 2 2 2 *
A B
Le equazioni normali in forma matriciale sono: (XT * X) * = XT * Y non riportiamo i calcoli, effettuati con Excel, che non presentano alcuna difficolt, a parte linversione della matrice (XT*X). Il risultato 71: = (XT * X)-1 * XT * Y contenente le stime dei 2 parametri: A = 71,666 B = -16,666 La somma dei quadrati spiegata da questo modello che tiene conto solo delleffetto delloperatore : SSreg = T * XT * Y
SSreg (I+O) = 16508,333
71
Uso lo stesso termine per i parametri e la loro stima: non credo che il lettore si possa confondere. 121
Y = A + B*O
70 60 50 Y 40 30 20 10 0 1 Operatore 2 y = -16,667*O + 71,667
Figura 15: considero solo leffetto delloperatore
Ripetiamo che un tale modello considera solo leffetto delloperatore (oltre che la media). Analogamente, scambiando i ruoli di macchina e operatore, avremmo potuto trovare la somma dei quadrati di un modello che consideri solo leffetto della macchina: il ragionamento identico a prima, quindi non sar ripetuto; riporto solo il risultato:
SSreg (I + M) = 16139,58333
A questo punto costruiamo un modello nel piano Y-operatore in cui per permettiamo che la macchina abbia un effetto: ci vuol dire che i dati sono divisi con la prima e la seconda macchina, avremo quindi 2 rette con diversa ordinata allorigine ma uguale pendenza visto che per ora ammettiamo che non ci sia interazione fra macchina e operatore. Il modello dunque: Y = A0 + A1 + B*O scritto in forma matriciale: Y=X* dove contiene i 3 parametri (A0, A1, B) e la matrice X la seguente:
I0 I1 O
1 1 0 0 1 1 0
Tabella 37
0 0 1 1 0 0 1
1 1 1 1 2 2 2
Le equazioni normali: (XT * X) * = XT * Y

122
danno la seguente soluzione: A0 = 79 A1 = 68 B = -18,5 ovvero con la prima macchina, abbiamo la seguente retta: Y = 79 - 18,5*O mentre con la seconda macchina: Y = 68 - 18,5*O le 2 rette sono parallele perch in questo modello non prevista linterazione. Il grafico :
Y = A0 + A1 + B*O
70 60 y = -18,5*O + 79 50 40 Y 30 20 10 0 1 Fattore O 2
y = -18,5*O + 68
Prima macchina Seconda macchina
Figura 16: interazione nulla fra macchina e operatore
Questo un modello che chiamiamo additivo perch non considera la possibile interazione fra i 2 fattori avendo imposto che i coefficienti angolari delle 2 rette siano uguali. La somma dei quadrati associata a questo modello : SSreg = T * XT * Y
SSreg (I+M+O) = 16710
Il modello pi completo che possiamo pensare quello in cui oltre allordinata allorigine varia anche il coefficiente angolare quando si passa fra le 2 macchine. Il modello dunque: Y = A0 + A1 + B0*O0 + B1*O1 il vettore della forma matriciale contiene i parametri A0, A1, B0 e B1 mentre la matrice X la seguente:
123
I0 1 1 0 0 1 1 0
Tabella 38
I1 0 0 1 1 0 0 1
O0 1 1 0 0 2 2 0
O1 0 0 1 1 0 0 2
La soluzione alle equazioni normali la seguente: A0 = 94 A1 = 48 B0 = -28,5 B1 = -3,5 si hanno allora le 2 rette: Y = 94 - 28,5*O con la prima macchina Y = 48 - 3,5*O con la seconda macchina
Y =A0 + A1 + B0*O0 + B1*O1
70 60 50 40 Y 30 20 10 0 1 Fattore O 2 Prima macchina Seconda macchina y = -28,5*O0 + 94
y = -3,5x*O1 + 48
Figura17: modello pi completo
e la somma dei quadrati associata a quel modello :

SSreg (I+M+O+MO) = 16960 Riepilogando, abbiamo 4 costruito 4 modelli di cui abbiamo calcolata le somme dei quadrati associate:
SSreg (I+O) = 16508,333

124
SSreg (I + M) = 16139,58333 SSreg (I+M+O) = 16710 SSreg (I+M+O+MO) = 16960 Secondo lanalisi della covarianza a questo punto si possono ottenere le somme dei quadrati associate ai fattori nel modo seguente: (1) SS(M) = SSreg (I+M+O) - SSreg (I+O) = 201,66666 (2) SS(O) = SSreg (I+M+O) - SSreg (I+M) = 570,41666 mentre linterazione si calcola a partire dal modello pi completo: (3) SS(MO) = SSreg (I+M+O+MO) - SSreg (I+M+O) = 250 come si vede sono gli stessi risultati, ottenuti con il metodo di Galetto (par. 5.2.1): anche questi per non si sa quale ipotesi testano sulle medie degli stati di prova; si pu trovare lipotesi nulla solo per linterazione perch a partire dal modello pi completo stato posto il vincolo: 11 + 00 + 01 - 10 = 0 che corrisponde allipotesi nulla testata da SS(MO)=250; le 2 SS relative ai fattori non si sa cosa testino: nel par. 5.2.1 possiamo vedere le 2 corrispondenti ipotesi nulle, ma esse sono state ricavate solo a posteriori col modello full-regression (cap.8). 6.3.1 CRITICHE ALLANALISI DELLA COVARIANZA CHE NON USA MODELLI NON GERARCHICI A mio parere questa procedura soggetta a 2 critiche: 1. Facendo semplici differenze di somme di quadrati, in generale non si capisce qual la reale ipotesi testata in forma di medie degli stati di prova: ricordiamo che le uniche ipotesi testabili sono quelle che si possono esprimere in funzione delle medie degli stati di prova. 2. Perch linterazione calcolata a partire dal modello pi completo e i fattori no??? La cosa pi logica sarebbe introdurre altri 2 modelli (non gerarchici): (4) Y = I+M+MO (5) Y = I+O+MO e calcolare: SS(M) = SSreg (I+M+O+MO) - SSreg (I+O+MO) SS(O) = SSreg (I+M+O+MO) - SSreg (I+M+MO) Il primo problema facilmente superabile, ad esempio, con lanalisi dei contrast (cap.4); il lettore accorto infatti ricorder che le somme dei quadrati (1), (2) e (3) le avevamo gi incontrate nel cap.5 nella tabella 8; gi allora avevamo detto che si stavano testando le 3 ipotesi:
125
3 2 3 2 * 10 + * 11 * 00 * 01 = 0 10 10 10 10 3 2 3 2 * 01 + * 11 * 00 * 10 = 0 10 10 10 10 00 + 11 10 01 = 0 Lultima sta testando leffetto dellinterazione, le prime 2 non credo che siano di interesse generale (a meno che non si giustifichino i diversi pesi per le medie, ma in tal caso perch nellinterazione le medie vengono pesate ugualmente???) per cui bisogna stare molto attenti ad applicare lanalisi della covarianza e qualsiasi altro metodo che nasconde lipotesi nulla testata. Il secondo problema, per essere superato richiede lintroduzione dei modelli non gerarchici (4) e (5); questo ci permette di superare anche il primo problema perch con i modelli non gerarchici perch tutti gli effetti X sono calcolati a partire dal modello pi completo SS(X) = SS(completo) - SS(ridotto) dunque siamo in grado di capire lipotesi nulla dal vincolo posto per ricavare il modello ridotto, esattamente come abbiamo fatto prima per linterazione che era lunico effetto calcolato a partire dal modello pi completo.
6.4 MODELLI NON GERARCHICI

Un modello gerarchico se un interazione fra n fattori inclusa nel modello solo una volta aver incluso in esso i fattori e le interazioni di ordine pi basso che coinvolgono gli n fattori considerati; tale definizione data in Mason et al. (1989) che dice anche che convenzione usare solo modelli gerarchici (senza dire il perch di tale convenzione); comunque lunico libro che si preoccupa di affrontare questo problema. Io definisco (visto che non lho trovato in letteratura), il termine modello gerarchizzato, associabile a ogni modello non gerarchico: con esso intendo un modello con i parametri di quello non gerarchico pi il completamento minimo di parametri per renderlo gerarchico; ad esempio il modello gerarchizzato di Y = I+AB : Y = I+A+B+AB I modelli che abbiamo considerato nel paragrafo precedente erano tutti gerarchici. Ma in effetti non c motivo per non usare un modello del tipo: Y = I + M + MO purch lo si sappia costruire; un modello simile prevederebbe nel nostro esempio un effetto medio della macchina e dellinterazione significativi ma un effetto medio delloperatore nullo: ma nel par. 6.2.1 abbiamo gi incontrato una simile situazione: nella
126
rappresentazione grafica si hanno 2 rette con coefficienti angolari opposti. Nelder (1974) afferma che un modello di questo tipo non sono di interesse perch il fattore tolto dal modello pu comunque avere un effetto marginale significativo quindi la SSreg uguale a quella del modello completo: ci vero sole se si ragiona in termini di modelli sovraparametrizzati (cap.7). Comunque nel modello non gerarchico: Y = I + M + MO bisogna forzare il fit dei dati con le 2 rette: Y = A0 + B*O con la prima macchina Y = A1 - B*O con la seconda macchina In forma matriciale Y = X * abbiamo che contiene i parametri (A0, A1, B), Y il solito vettore con le 7 risposte, mentre la matrice X la seguente:
I0 I1 O
1 1 0 0 1 1 0
Tabella 39
0 0 1 1 0 0 1
1 1 -1 -1 2 2 -2
I dati relativi alla seconda macchina sono cambiati di segno per far s che le 2 rette relative alle 2 macchine abbiano coefficiente angolare opposto. La soluzione delle equazioni normali : A0 = 74,8 A1 = 22,4 B = -15,7
127
Y = A0 + A1 + B*O0 - B*O1
70 60 50 40 Y 30 20 10 0 1 Fattore O 2 y = 15,7*O1 + 22,4 Prima macchina Seconda macchina y = -15,7*O0 + 74,8
Figura 18: modello Y = I+M+MO
Le 2 rette sono dunque: Y = 74,8 - 15,7*O Y = 22,4 + 15,7*O Un tale modello (non gerarchico perch compare linterazione MO ma non il fattore O) fornisce una somma dei quadrati: SSreg (I+M+MO) = T * XT * Y = 16550,4 Analogamente sul piano Y - macchina, trattando loperatore come covariate, si poteva pensare si fittare i dati con 2 rette aventi coefficienti angolari opposti, costruendo cos il modello: Y = I + O + MO non riporto la procedura che identica al modello costruito. Riporto solo il risultato della somma dei quadrati associata che ci sar molto utile nel calcolare l effetto del fattore macchina. SSreg (I+O+MO) = 16844,4 e il grafico :
128
Y = A0 + A1 + B*M0 - B*M1
70 y = -14,2*M0 + 76,3 60
50
40 Y 30 y = 14,2*M1 + 19,4
Primo operatore Secondo operatore
20
10
0 1 Fattore M 2
Figura 19: modello Y = I+O+MO
A questo punto possiamo rimediare agli errori del par. 6.3 che concludeva: SS(M) = SSreg (I+M+O) - SSreg (I+O) = 201,66666 SS(O) = SSreg (I+M+O) - SSreg (I+M) = 570,41666 visto che adesso siamo in grado di calcolare gli effetti dei fattori a partire dal modello pi completo. SS(M) = SSreg (I+M+O+MO) - SSreg (I+O+MO) = 115,6 SS(O) = SSreg (I+M+O+MO) - SSreg (I+M+MO) = 409,6 Non pi nascosta lipotesi nulla sulle medie perch sappiamo che il modello Y=I+O+MO stato costruito col vincolo: 11 + 10 + 01 - 00 = 0 mentre il modello Y=I+M+MO stato costruito col vincolo: 11 + 01 + 10 - 00 = 0 dunque sappiamo le ipotesi nulle testate, solo perch abbiamo calcolato gli effetti dei fattori a partire dal modello pi completo come era stato fatto per linterazione. Se ripensiamo allanalisi dei contrast fatta sullesempio macchina-operatore fatta nel cap.5 vediamo che le 2 somme dei quadrati le avevamo gi trovate; erano associate rispettivamente alle stime: C ( M ) = ( y10 + y11 y 00 y 01 )
129
C (O) = ( y 01 + y11 y10 y 00 ) Avremmo anche potuto testare le ipotesi del Questo per questo o quelle implicite nel metodo di Galetto, ad esempio per la macchina: 211 + 310 - 201 - 300 = 0 non si avr pi la condizione che le 2 rette abbiano coefficiente angolare opposto ma si avr unaltra condizione sui coefficienti angolari delle 2 rette del modello ridotto: il lettore pu provare e vedere che ottiene gli stessi risultati dellanalisi dei contrast perch per una data ipotesi nulla, si ha sempre la stessa somma dei quadrati, se usiamo un metodo corretto per trovarla. Mi pare dunque evidente che lanalisi della covarianza, modificata per tenere conto dellesistenza dei modelli non gerarchici, un metodo corretto anche se pi lungo dellanalisi dei contrast, che quindi da preferirsi.
130
CAPITOLO 7
METODO G: MODELLO SOVRAPARAMETRIZZATO
7.1 METODO G
...analysis of variance and regression. The relationship between these two apparently dissimilar statistical procedures is not only a theoretical fact, but also of considerable practical advantage (Schilling 1974) Il nome metodo G stato dato da Galetto nel 1989 alluso delle equazioni normali nellANOVA, per contrapporlo ai dilaganti metodi Taguchi nellanalisi dei dati stratificati. La lettera G indica Gauss-Markov ovvero il nome del teorema che sancisce lottimalit degli stimatori provenienti dalle equazioni normali. In pratica si tratta di costruire un modello che colleghi la risposta ai fattori che si vogliono studiare con lANOVA e fare la regressione su questo modello, ricavando le somme dei quadrati per lANOVA; nel capitolo precedente sullanalisi della covarianza abbiamo fatto qualcosa di simile, ma i modelli costruiti erano quelli tipicamente usati nella regressione, con i livelli delle variabili codificate (allocated codes, secondo Searle 1971). A quanto riferito da Speed et al.(1978), Yates gi nel 1934 us la regressione per lANOVA: nellarticolo citato il metodo chiamato method of fitting constants ma non nientaltro che il metodo G. Si pu pensare di costruire i modelli in vari modi; noi ne vedremo tre: 1. Modello sovraparametrizzato (overparametrized); in Searle (1971) e Snee (1973) denominato come dummy variable (0, 1); per il primo fattore A si introducono i
131
parametri 1, 2, ... p1, dove p1 il numero dei livelli del fattore A; per il secondo fattore i parametri 1, 2,... p2, dove p2 il numero di livelli del secondo fattore e cos via; per quanto riguarda linterazione AB essa presente con i parametri 11, 12,... p1 p2. La variabile xi corrispondente al parametro vale 0 o 1 a seconda che il parametro sia presente nello stato di prova. Ad esempio con 2 fattori a 2 livelli abbiamo che il modello : (1) yijr = + xi * i + yj * j + zij * ij + ijr i = 1,2 j=1,2
che in tutti libri sempre scritto semplicemente come: (2) yijr = + i + j + ij + ijr i = 1,2 j=1,2
che in forma ulteriormente abbreviata potr essere scritto come: Y = I + A+ B + AB dalla (1) vediamo che nel modello vi sono 9 parametri; al massimo per si possono sperimentare 4 stati di prova quindi se pensiamo allanalisi della varianza (par 3.7.2) vi sono solo 4 gradi di libert (compreso quello della media) e dunque si possono stimare solo 4 parametri. 2. Modello full-regression, secondo la denominazione di Krishnaiah (1980). Introduce p-1 parametri per ogni fattore a p livelli; linterazione fra due fattori a p e q livelli presente con (p-1)*(q-1) parametri. Le variabili corrispondenti ai parametri dei fattori sono codificate opportunamente e quelle delle interazioni sono il prodotto; con 2 livelli la codifica impiegata -1 e +1 per i 2 livelli. Con 2 fattori a 2 livelli il modello : yijr = x0 + x1 + B * x2 + AB * x1x2 + ijr che in forma abbreviata potr essere scritto come: Y = I + A+ B + AB se vengono sperimentati tutti gli stati si riesce sempre a stimare tutti i parametri; se alcuni stati di prova non contengono dati siamo davanti a un frazionamento che produce una distorsione dei parametri che vogliamo stimare ( il problema degli alias). Vedremo questo modello nel cap.8. 3. Modello cell-means, secondo la denominazione di Searle et al.(1981), Jennings et al. (1982), Searle (1987)... molto semplice in quanto i parametri sono le medie dei vari
132
stati di prova, dunque ovvio che si possano stimare tutti parametri corrispondenti agli stati di prova sperimentati. Yij = ij + ij vedremo questo modello nel cap.8. Come gi detto questi 3 modelli ammettono tutti la forma matriciale: E(Y) = X * le equazioni normali diventano: (XT*X)* = XT * Y A seconda del modello che usiamo, la matrice (XT*X) pu essere invertibile o meno. In particolare il modello sovraparametrizzato d sempre luogo a una matrice (XT*X) non invertibile. Il teorema di Gauss-Markov assicura per alcune propriet che valgono sempre, qualunque modello si usi, anche se in questo capitolo ci soffermeremo sul modello sovraparametrizzato. modello cell-means
7.2 TEOREMA DI GAUSS-MARKOV

La gran parte dei risultati presentati in questo paragrafo presa dal Mood e Graybill (1963) nel cap.14, a cui consiglio vivamente di riferirsi per la comprensione e lutilizzo corretto del modello sovraparametrizzato e in generale delle equazioni normali. Sia Y un vettore colonna di n variabili casuali tale che: Y=X*+e dove X una matrice nota (che dipende dal modello usato) di dimensioni n*p, di rango r con r p, dove r il numero degli stati di prova. un vettore di p parametri incogniti; e un vettore colonna di n variabili casuali con valor medio 0 e varianza uguale 2. Scriviamo il modello in forma sovraparametrizzata cosicch la matrice X composta tutta da 0 e 1, dunque r < p. Gli elementi di e possono essere variabili casuali normali oppure no; nel primo caso si pu usare il metodo della massima verosimiglianza mentre nel secondo caso si usa il metodo dei minimi quadrati. In entrambi i casi il sistema di equazioni per ottenere i parametri uguale:
$ (XT*X)* = XT * Y
133
dove XT * Y il vettore contenente i totali negli stati di prova aggregati secondo i parametri. se la matrice (XT*X) ammette inversa (modello full-rank) abbiamo un unico vettore soluzione: $ = (XT*X)-1 * XT * Y se la matrice (XT*X) non ammette inversa (modello overparametrized, non full-rank o less than full-rank), col teorema di Rouch-Capelli, si dimostra che vi sono infinite soluzioni alle equazioni normali. Infatti, se il rango di X r, anche il rango della matrice (XT*X) sar r ed uguale al rango della matrice (XT*X XT*Y) perch il numero di elementi indipendenti in XT*Y sempre uguale a r. Qualcuna di queste infinite soluzioni alle equazioni normali d luogo a degli stimatori corretti? Consideriamo che ogni soluzione delle equazioni normali deve essere combinazione lineare delle risposte Y, dunque: $ =A*Y dove A una matrice di dimensioni p*n. Se esistesse uno stimatore corretto di , dovrebbe risultare che: $ E ( ) = = E (A * Y) = A * E(Y) = A * X * dunque, se esistesse uno stimatore corretto di , sarebbe verificata la seguente identit: A*X=I ma luguaglianza sopra non pu mai essere verificata col modello sovraparametrizzato perch la matrice I ha rango p, mentre la matrice A * X, non pu avere un rango superiore a r che sempre minore di p se il modello sovraparametrizzato: con questo modello non esistono degli stimatori corretti dei parametri. Con dei modelli full-rank, r=p, dunque gli stimatori dei parametri derivanti dalle equazioni normali sono corretti.
FUNZIONI STIMABILI Sia un vettore riga di p elementi noti; allora il prodotto ( * ) fornisce una combinazione lineare dei parametri. ( * ) detta una funzione stimabile se esiste una combinazione lineare delle risposte Y tale che il suo valore atteso sia uguale a ( * ). In formule deve esistere un vettore riga a di n elementi tale che:
E (a * Y) = ( * ) Generalizzando, 1*, 2*,....k*, un set di k funzioni stimabili se, costruita una matrice con i vettori riga i, , di dimensione k*p, esiste una matrice A di dimensione k*n tale:
134
(1) E (A * Y) = ( * )
TEOREMA 1 Se pensiamo che sia la nostra X, sostituendo A=I di dimensione n*n, si vede subito che la (1) verificata dunque X* rappresenta un set di n funzioni stimabili: se ci si pensa, ci perfettamente logico visto che X* non rappresenta altro che il valore atteso delle variabili casuali le cui determinazioni sono le n osservazioni fatte, il cui
valor medio certamente stimabile. Se pensiamo che sia (XT*X), sostituendo A=XT di dimensione p*n, si vede che la (1) verificata dunque (XT*X)* rappresenta un set di p funzioni stimabili.
FUNZIONI STIMABILI LINEARMENTE INDIPENDENTI Se 1*, 2*,....t* sono t funzioni stimabili e il rango della matrice , formata dai i, uguale a t, allora 1*, 2*,....t* sono dette funzioni stimabili linearmente indipendenti. TEOREMA 2 Poich (XT*X)* rappresenta un set di p funzioni stimabili e il rango di (XT*X) r<p (nel modello sovraparametrizzato), al massimo ci saranno r funzioni stimabili linearmente indipendenti dove r il numero degli stati di prova; dunque ogni funzione stimabile una combinazione lineare delle medie degli stati di prova. Abbiamo visto che tutte le funzioni stimabili sono combinazioni lineari delle medie degli stati di prova, dunque i contrast del cap.4 sono particolari funzioni stimabili ed esistono tanti contrast indipendenti quanti sono gli stati di prova meno 1 (che riguarda la media non un contrast pur essendo una c.l. delle medie degli stati di prova). I contrast sono sempre funzioni stimabili mentre non tutte le funzioni stimabili sono dei contrast: ci assolutamente evidente dalle definizioni date. A questo punto possiamo enunciare il teorema di Gauss-Markov per i modelli scritti in
forma sovraparametrizzata (less than full-rank).

TEOREMA 3 Sia * una funzione stimabile; allora esiste un vettore riga b di p elementi tale che: b * XT * X =
e b*XT*Y lo stimatore BLUE (best linear unbiased estimator) di *, ed lo stimatore di massima verosimiglianza se le variabili errore e sono normali. Per i modelli full-rank non c il problema delle funzioni stimabili perch tutti parametri sono funzioni stimabili e il teorema di Gauss-Markov afferma quindi che gli stimatori dei parametri provenienti dalle equazioni normali sono BLUE.
135
TEOREMA 4 Se una funzione * stimabile, ognuna delle infinite soluzioni alle equazioni $ $ normali fornisce lo stesso valore per *. Prendiamo 2 soluzioni 1 e 2, che
soddisfano le equazioni normali: $ (2) (XT*X)* 1 = XT * Y $ (3) (XT*X)* 2 = XT * Y Ma se * stimabile, esiste b tale che: (4) b * XT * X = dunque se moltiplichiamo a destra la (2) e la (3) per il vettore riga b, abbiamo che: $ b * (XT*X)* 1 = b * XT * Y $ b * (XT*X)* 2 = b * XT * Y Per la (4) si ha che: $ * 1 = b * XT * Y $ * 2 = b * XT * Y Quindi: $ $ * 1=* 2 dunque le 2 soluzioni danno lo stesso valore per la funzione stimabile *. Inoltre: $ $ E ( * 1) = E ( * 2) = E (b * XT * Y) = b * XT * E(Y) = b * XT * X * = *
STIMATORE DELLA VARIANZA DELLA POPOLAZIONE $ Abbiamo detto che X* rappresenta un set di n funzioni stimabili, dunque (Y-X* ), il
vettore dei residui, anche invariante rispetto alla soluzione che si sceglie. I minimi quadrati minimizzano la sommatoria dei quadrati dei residui, ovvero in forma matriciale: $ $ SSe = (Y-X* )T*(Y-X* ) Se viene sviluppato si ottiene: $ (5) SSe = YT*Y - T*XT*Y considerando che: $ E (YT*Y - T*XT*Y) = n*2 - r*2 = (n-r)* 2 Abbiamo dunque ritrovato lo stimatore per la varianza delle risposte Y: SSe ) 2 = (n r) Dalla (5) si ricava anche linvarianza della somma dei quadrati associata a un modello al variare della soluzione: $ T*XT*Y = YT*Y - SSe visto che YT*Y la sommatoria dei quadrati delle risposte, indipendente dalla soluzione delle equazioni normali; SSe la sommatoria dei residui e per ci che abbiamo detto pure indipendente dalla soluzione.
TEOREMA 5
136
Date 1*, 2*,....k* sono k funzioni stimabili linearmente indipendenti si pu testare lipotesi nulla che esse siano simultaneamente uguali a zero. Si calcola una soluzione qualsiasi alle equazioni normali: $ (XT*X)* = XT * Y e poi si calcola la somma dei quadrati associata a quel modello: $ SSreg = T * XT * Y Poi si sostituiscono nel modello: E(Y) = X * le ipotesi nulle da testare:
H0: 1* = 2* = 3* = ..... = k* = 0 ottenendo un modello ridotto: E(Y) = Z * ) Si calcola una soluzione delle equazioni normali di quel modello ridotto: ) (XT*X)* = XT * Y
e la somma dei quadrati associata ad esso: ) T * XT * Y Se le variabili casuali nel vettore e sono distribuite normalmente, la statistica:
($
u=
* X T * Y ( $ T * X T * Y )
T
k (Y * Y ) $ T * X T * Y
nr
segue una distribuzione F con k e (n-r) gradi di libert dunque, con un livello di fiducia (1) rifiutiamo lipotesi nulla: H0: 1* = 2* = 3* = ..... = k* = 0 se u > F1-(k, n-r) Notiamo che tutte le funzioni stimabili per il teorema 1 e 2 possono essere espresse in funzione delle medie degli stati di prova dunque le uniche ipotesi che si possono testare sono quelle esprimibili in funzione delle medie degli stati di prova. 7.2.1 OSSERVAZIONI Il teorema di Gausss-Markov, in pratica afferma che se la matrice (XT*X) invertibile (modelli full-rank: full-regression e cell-means), gli stimatori di provenienti dalle equazioni normali: $ (XT*X)* = XT * Y sono i migliori nel senso che sono corretti e a varianza minima: si dice che sono stimatori BLUE; se la matrice (XT*X) non invertibile (modello sovraparametrizzato), gli stimatori delle funzioni stimabili provenienti dalle equazioni normali sono stimatori BLUE. Tutto
137
ci perfettamente logico: in ogni caso, con r stati di prova stimo correttamente al massimo r parametri (o loro c.l.) indipendenti. Nellambito delle equazioni normali e il teorema di Gauss-Markov, abbiamo poi enunciato altri teoremi, presi dal Mood e Graybill (1963): dei 5 teoremi il pi importante indubbiamente lultimo (5) perch indica quali ipotesi si possono testare e come fare. un vero peccato che Actis (1995) e Fornasieri (1995), dopo aver enunciato il teorema 5 come sopra, non lo applicano mai come lo hanno esposto: inoltre essi dichiarano che il teorema 5 il teorema di Gauss-Markov mentre in Mood e Graybill (1963) e Zyskind (1969) si riporta che il teorema di Gauss-Markov quello che dice che gli stimatori provenienti dalle equazioni normali sono quelli a varianza minima (teorema 3). Anche Galetto (1995 e 1996) cita moltissimo il teorema di Gauss-Markov, alla base del metodo G, ma poi non enuncia il teorema 5 come scritto sul Mood e Graybill (1963) e non lo applica mai in modo rigoroso. Il teorema richiede che: 1. 2. 3. 4. si parta da unipotesi sulle funzioni stimabili linearmente indipendenti, si sostituisca lipotesi nulla nel modello pi completo, ottenendo un modello ridotto, si risolvano le equazioni normali sul modello ridotto, si calcoli il numeratore della F calcolata per il test, a partire dal modello pi completo, secondo il teorema 5.
Purtroppo spesso non si dichiara la (o le) funzione stimabile che vuole testare, dunque ovvio che poi i modelli ridotti non si ottengono dal pi completo. Le funzioni stimabili si possono sempre esprimere in funzione delle medie degli stati di prova quindi lanalisi dei contrast introdotta nel cap.4 equivalente alluso del teorema di Gauss-Markov essendo per molto pi veloce; daltra parte, questa equivalenza conferisce agli stimatori dei contrast le propriet di ottimalit, dunque ne legittima lanalisi. Notiamo che nellenunciare il teorema non abbiamo mai invocato lortogonalit statistica ovvero la non correlazione fra gli stimatori di Gauss-Markov: ci vuol dire che anche lanalisi dei contrast (fatta ad esempio col metodo di Yates) si pu fare in ogni situazione: gli stimatori dei contrast restano BLUE. Il teorema di Gauss-Markov quindi un importantissimo risultato teorico ma nellapplicazione pratica decisamente conveniente usare lanalisi dei contrast; tuttavia se si vuole usare a tutti costi il modello sovraparametrizzato invocando il teorema di Gauss-Markov, bisogna farlo rigorosamente, applicando il teorema 5.
138
7.3 MODELLO SOVRAPARAMETRIZZATO: FUNZIONI STIMABILI

Mi appresto ad illustrare ci che io ritengo uninutile complicazione che pu generare notevole confusione; iniziamo con un esempio di 2 fattori a 2 livelli, il modello sovraparametrizzato : yijr = + i + j + ij + ijr i=1, 2 j=1, 2 in forma matriciale: E(Y) = X * dove la matrice X, se ci fosse solo un osservazione per ogni stato di prova, sarebbe cos composta:
0 1 0 1 00 01 10 11
1 1 1 1
Tabella 40
1 1 0 0
0 0 1 1
1 0 1 0
0 1 0 1
1 0 0 0
0 1 0 0
0 0 1 0
0 0 0 1
Se ci sono pi dati nei vari stati di prova, bisogna replicare le righe relative a quegli stati. In questo modo la matrice possiamo scrivere la matrice (XT*X) delle equazioni normali e il termine noto XT*Y, contenente i totali:
0 n0. 1 n1. 0 n.0 1 n.1 00 n00 01 10 n01 n10 n01 0 11 n11
XT*Y
1 2 3 4 5 6 7 8 9
n.. n0. n1. n.0 n.1 n00 n01 n10 n11
n0. 0 n00 n01 n00 n01 0 0
0 n1. n10 n11 0 0 n10 n11
n00 n10 n.0 0 n00 0 n10 0
n01 n11 0 n.1 0 n01 0 n11
n00 0 n00 0 n00 0 0 0
0 0 n01 0 n01 0 0
n10 n10 0 0 0 n10 0
0 n11 0 n11 0 0 0 n11
T.. T0. T1. T.0 T.1 T00 T01 T10 T11
Tabella 41: equazioni normali per 2 fattori a 2 livelli
e il vettore dei parametri contiene i 9 parametri (, 0, 1, 0, 1, 00, 01, 10, 11). Tij indicano i totali e yij indicheranno le medie degli stati prova. Il sistema, come abbiamo gi detto, ammette infinite soluzioni: la prima riga la somma delle ultime 4; la riga 2 la somma della 6 e 7; la 3 la somma della 8 e 9; la 4 la somma della 6 e 8; la 5 la somma della 7 e 9; dunque le ultime 4 righe sono linearmente dipendenti e tutte le altre si possono generare con queste; la matrice di
139
dimensione 9 ha dunque rango 4 (ecco perch il modello sovraparametrizzato chiamato anche non full-rank o, pi precisamente, less than full-rank), pari al numero degli stati di prova. In questo caso posso eliminare le prime 5 righe perch dipendenti dalle ultime 4. Pongo uguali a zero le variabili corrispondenti alle righe cancellate per cui consideriamo solo pi le ultime 4 righe e colonne; subito evidente che la soluzione :
= 0 = 1 = 0 = 1 = 0; 00 = T00/n00 = y00 01 = T01/n01 = y01 10 = T10/n10 = y10 11 = T11/n11 = y11 dunque il vettore soluzione72 trasposto T (0, 0, 0, 0, 0, y00, y01, y10, y11). Per calcolare la somma dei quadrati associata a questo modello, bisogna calcolare:
SSreg = T * XT * Y
Il vettore XT * Y quello dei totali dunque abbiamo che:

SSreg (I+A+B+AB) = T00*y00 + T01*y01 + T10*y10 + T11*y11
quella scritta sopra quella che Galetto (1995) chiama regola del Questo per questo ovvero il prodotto dei totali per le medie degli stati di prova per trovare la somma dei quadrati di un modello completo. Il fatto di aver posto le stime dei parametri uguali a zero, quelli corrispondenti alle righe linearmente dipendenti, vuol dire prendere una soluzione basica del sistema; ci analogo a quanto viene fatto nel simplesso in ricerca operativa. Ogni volte che troveremo un sistema con infinite soluzioni prenderemo sempre una soluzione basica perch sono le pi semplici. Lidea di usare le soluzioni basiche, piuttosto ovvia, lho trovata anche in Searle et al. (1981). 7.3.1 FUNZIONI STIMABILI I teoremi visti prima ci dicono che non esistono degli stimatori corretti per quei 9 parametri; ma c da stupirsi? Assolutamente NO: nellANOVA si hanno solo 4 gradi di libert per i parametri del modello e quindi si possono stimare solo 4 quantit che sono 4 funzioni stimabili linearmente indipendenti; una di esse riguarda la media ovvero la sommatoria di tutti dati e non ci interessa; le altre 3 potrebbero essere gli effetti (par. 4.8) dei 2 fattori e della loro interazione:
72
una delle infinite soluzioni che si possono trovare. Ho di nuovo usato la stessa lettera per indicare il parametro e la sua stima puntuale: il lettore non si lasci confondere. 140
effetto medio di A 11 + 10 - 01 - 00 effetto medio di B 11 + 01 - 10 - 00 effetto di AB 11 + 00 - 01 - 10 essendo 3 c.l. delle medie sono sicuramente 3 funzioni stimabili; esse sono anche linearmente indipendenti73 (teorema 2) visto che la matrice:
00 01 10 00
-1 -1 1
-1 1 -1
1 -1 -1
1 1 1
. ha rango 3. Esprimiamo le medie ij in funzione dei 9 parametri del modello: 00 = + 0 + 0 + 00 01 = + 0 + 1 + 01 10 = + 1 + 0 + 10 11 = + 1 + 1 + 11 Ora siamo in grado di esprimere le 3 funzioni stimabili che abbiamo scritto sopra, in funzione dei parametri del modello: (1) (2) (3) A B AB = 11 + 10 - 01 - 00 = = 11 + 01 - 10 - 00 = = 11 + 00 - 01 - 10 =
21 - 20 + 11 + 10 - 01 - 00 21 - 20 + 11 + 10 - 01 - 00 11 + 00 - 01 - 10
Ecco perch il modello sovraparametrizzato pu essere fuorviante; introduce dei parametri in pi che ovviamente non si possono stimare e quindi bisogna ricorrere alle funzioni stimabili che non sono nientaltro che combinazioni lineari delle medie. Pochi (Searle et al. 1981, Speed et al. 1978, Hocking e Speed 1975) esplicitano il fatto che le somme dei quadrati usualmente impiegate nellANOVA con dati bilanciati per stimare leffetto dei fattori testano la (1) e la (2) in termini dei parametri del modello sovraparametrizzato; coloro che dichiarano di voler usare le funzioni stimabili (fra cui Galetto 1995 e 1996) poi non specificano quale funzione stimabile stanno testando; forse qualcuno crede che le somme dei quadrati SS(A) e SS(B) testino: 1 - 0 = 0 1 - 0 = 0 e invece le 2 funzioni sopra non sono stimabili; per dimostrarlo partiamo dalla definizione di funzione stimabile (Mood e Graybilll 1963 pag.363): una funzione dei parametri
73
E algebricamente ortogonali nello spazio dei contrast. 141
stimabile se esiste una combinazione lineare delle risposte Yijr, il cui valore atteso la funzione dei parametri. Ragioniamo solo su 1 - 0, visto che lo stesso per 1 - 0. Supponiamo di avere N dati distribuiti secondo le seguenti numerosit degli stati di prova: A 0 B 0 1 1 n00 n10 n01 n11
N = n00 + n10 + n01 + n11 Dobbiamo chiederci se esiste un vettore K (k1, k2, k3,.... kN) tale che il valore atteso del prodotto scalare di K per il vettore Y contenete le n osservazioni, uguale ad 1 - 0. KN: E (K*Y) = 1 - 0
n00 n10 n11 n01 E k i * y 00i + k j * y 01 j + k k * y10 k + k h * y11h = 1 0 h =1 j =1 k =1 i =1 n00 n01 n10 n11 k i * E ( y 00i ) + k j * E ( y 01 j ) + k k * E ( y10 k ) + k h * E ( y11h ) = 1 0 h =1 j =1 k =1 i =1 n00 n01 n11 n10 k i * 00 + k j * 01 + k k * 10 + k h * 11 = 1 0 h =1 k =1 j =1 i =1 Se ridefiniamo gli elementi ki nel seguente modo:
k 00 = k i
n00
k 01 = k j
j =1
i =1 n01
k 10 = k k k 11 = k h
h =1 k =1 n11
n10
si ottiene: k00 * 00 + k01 * 01 + k10 * 10 + k11 * 11 = 1 - 0 Quindi abbiamo dimostrato di nuovo (lavevamo gi fatto col teorema 2) che qualsiasi funzione stimabile deve essere esprimibile in funzione delle medie degli stati di prova. 1 - 0 lo ? NO, infatti se sviluppiamo le medie in funzione dei parametri del modello sovraparametrizzato, otteniamo lidentit:
142
*(k00 + k10 + k01 + k11) + 0*(k00 + k01) + 1*(k10 + k11) + 0*(k00 + k10) + 1*(k01 + k11) + 00*k00 + 01*k01 + 10*k10 + 11*k11 = 1 - 0 che d luogo a un sistema incompatibile nelle incognite k00, k01, k10, k11. Dunque non si
trova nessun valore di (k00, k01, k10, k11) che verifichi luguaglianza sopra quindi 1 0 non stimabile. C.V.D. Lo stesso discorso vale per 1 - 0: non una funzione stimabile. Chi non volesse credere alla logica delle dimostrazioni pu provare numericamente con dei dati qualsiasi; si calcoli 2 delle infinite soluzioni delle equazioni normali; esse daranno dei valori diversi di
1 - 0 (e anche di 1 - 0) mentre sappiamo dal teorema 4 che il valore numerico delle funzioni stimabili non cambia qualunque soluzione si prenda alle equazioni normali. Anche in Searle (1987) chiaramente dimostrato in generale (con un numero qualsisaisi di livelli) che con 2 fattori le funzioni i - j e i - j sono non stimabili. In Searle (1987) si riferisce a pag.207 che lo stesso Searle e altri hanno dimostrato nel 1984 che unipotesi non testabile ovvero unipotesi nulla su una funzione non stimabile porta a un numeratore della F calcolata identicamente nullo. 7.3.2 ESEMPIO MACCHINA-OPERATORE Facciamo un esempio per far vedere come andrebbe applicato rigorosamente il teorema 5, cos come descritto sul Mood e Graybill (1963): nella bibliografia consultata per la tesi non ho mai visto lesplicitazione di tale procedura (a parte nel testo citato). Riportiamo i dati del solito esempio: MACCHINA 0 OPERATORE 0 OPERATORE 1
Tabella 42
MACCHINA 1 41,48 41
64,67 39,35
Testiamo alcune ipotesi che abbiamo gi testato con lanalisi dei contrast; i risultati dovranno ovviamente venire uguali per il principio F1. La macchina il fattore A e loperatore il fattore B: ad esempio quello che io definisco effetto medio del fattore operatore: O = 11 + 01 - 10 - 00 O = 21 - 20 + 11 + 01 - 10 - 00 (in termini del modello sovraparametrizzato) Testare leffetto delloperatore sia nullo vuol dunque dire che: (1)
(2)
21 - 20 + 11 + 01 - 10 - 00 = 0
1 = 0 - (11 + 01 - 10 - 00) / 2
143
dunque la (1) rappresenta la funzione stimabile che vogliamo testare; dobbiamo quindi sostituire la (2) nel modello completo: 00 = + 0 + 0 + 00 10 = + 1 + 0 + 10 01 = + 0 + 1 + 01 11 = + 1 + 1 + 11 ripetuto 2 volte ripetuto 2 volte ripetuto 2 volte
per ottenere il modello ridotto74 senza il parametro 1: 00 = + 0 + 0 + 00 10 = + 1 + 0 + 10 01 = + 0 + (0 - (11 + 01 - 10 - 00) / 2 ) + 01 = + 0 + 0 + 0,5*(-11 + 10 + 01 + 00) 11 = + 1 + (0 - (11 + 01 - 10 - 00) / 2 ) + 11 = + 1 + 0 + 0,5*(11 + 10 - 01 + 00)
ripetuto 2 volte ripetuto 2 volte ripetuto 2 volte
scritto in forma matriciale Y=Z*, dove Z la seguente matrice, ricavata dalle 4 uguaglianze scritte sopra:
1 1 1 1 1 1 1
0
1 1 0 0 1 1 0
1
0 0 1 1 0 0 1
0
1 1 1 1 1 1 1
00
1 1 0 0 0,5 0,5 0,5
10
0 0 1 1 0,5 0,5 0,5
01
0 0 0 0 0,5 0,5 -0,5
10
0 0 0 0 -0,5 -0,5 0,5
Tabella 43: matrice Z del modello ridotto
Le equazioni normali in forma matriciale del modello ridotto sono: (ZT*Z) * = (ZT * Y) dunque dobbiamo trovare (ZT * Z) e (ZT * Y):
7 4 3 7
0
4 4 0 4
1
3 0 3 3
0
7 4 3 7
00
3,5 3 0,5 3,5
10
3,5 1 2,5 3,5
01
0,5 1 -0,5 0,5
10
-0,5 -1 0,5 -0,5
Y
335 205 130 335
Ogni volta che parliamo di un modello ridotto i parametri non sono pi quelli del modello originario completo, dunque bisognerebbe distinguerli da essi con qualche simbolo: non lo faccio per non appesantire la rappresentazione. 144
74
2 - LApproccio Scientifico alla Qualit 3,5 3,5 0,5 -0,5 3 1 1 -1 0,5 2,5 -0,5 0,5 3,5 3,5 0,5 -0,5 2,75 0,75 0,25 -0,25 0,75 2,75 0,25 -0,25 0,25 0,25 0,75 -0,75 -0,25 -0,25 -0,75 0,75 188,5 146,5 16,5 -16,5
Tabella 44: equazioni normali del modello ridotto
La matrice ha dimensione 8, ma il rango 3 perch la riga 3 si ottiene dalla differenza delle prime 2; la 4 uguale alla prima. La 6 la 4 meno la 5; la 7 la differenza fra la riga 2 e 5 e la 8 lopposto della 7. Dunque prendiamo le righe 1, 2 e 5 come indipendenti; facciamo entrare in base i parametri corrispondenti a quelle 3 righe ovvero , 0 e 00; poniamo le stime degli altri parametri uguali a zero, ottenendo cos una delle 5 soluzioni del sistema delle equazioni normali. Otteniamo cos un sistema ridotto, di cui scriviamo la matrice e il termine noto:
7 4 3,5
0
4 4 3
00
3,5 3 2,75
termine noto 335 205 188,5
Tabella 45: sistema ridotto del modello ridotto
La cui soluzione 75: = 38,1 0 = -10,4 00 = 31,4 Allora il vettore soluzione trasposto T il seguente: (38.1, -10.4, 0, 0, 31.4, 0, 0, 0) e la somma dei quadrati associata al modello ridotto Y = I + M + MO (lo scrivo cos visto che ho impostato che leffetto medio delloperatore sia nullo) dunque:
SSreg (I + M + MO) = T * ZT * Y = (38,1 * 335 - 10,4 * 205 + 31,4 * 188,5) = 16550,4
il valore conferma (principio F1!!!) quello trovato con lanalisi della covarianza nel cap.6. Per trovare la SSreg del modello completo, come visto prima, si applica la regola del Questo per questo, ovvero le medie per i totali degli stati di prova:
SSreg (I + M + O + MO) = T * XT * Y = (65,5 * 131 + 44,5 * 99 + 37 * 74 + 41*41) = 16960
75
Le stesse lettere indicano sia il parametro che la sua stima: il lettore non si lasci confondere. Anche in seguito user questa notazione semplificata. 145
Il residuo lavevamo gi calcolato con lanalisi della varianza nel par.5.2.1 ed era: SSe = SStot - SSreg (I + M + O + MO) = 37 Dunque il numeratore della F calcolata secondo il teorema 5 : SSreg (I + M + O + MO) - SSreg (I + M + MO) = 409,6 ovvero lo stesso valore trovato con lanalisi della covarianza (cap.6) e con lanalisi dei contrast (cap.5); abbiamo dunque visto finora 3 metodi diversi applicati sullo stesso esempio: 1. analisi dei contrast 2. analisi della covarianza 3. regressione col modello sovraparametrizzato usando le funzioni stimabili essi sono scientificamente corretti e, applicati in modo rigoroso, devono dare gli stessi risultati: notiamo dire che per lanalisi dei contrast molto pi veloce e quindi da preferirsi. Se avessi testato a zero leffetto medio della macchina: H0 : 11 + 10 - 01 - 00 = 0 H0 : 21 - 20 + 11 + 10 - 01 - 00 = 0 avrei ottenuto un modello ridotto Y = Z * che potevo scrivere Y = I + O + MO (visto che si impostava a zero leffetto medio della macchina) e che avrebbe dato la seguente somma dei quadrati:
SSreg (I + O + MO) = 16844,4 SSreg (I + M + O + MO) - SSreg (I + O + MO) = 115,6
anche essa conferma i risultati dellanalisi dei contrast e della covarianza. Non riporto il procedimento per arrivare al risultato sopra visto che del tutto identico a prima. Testiamo invece leffetto dellinterazione: H0 : 11 + 00 - 01 - 10 = 0 H0 : 11 + 00 - 01 - 10 = 0
H0 : 11 = 01 + 10 - 00 si ottiene la seguente matrice Z del modello ridotto:
1 1 1 1 1 1 1
0
1 1 0 0 1 1 0
1
0 0 1 1 0 0 1
0
1 1 1 1 0 0 0
1
0 0 0 0 1 1 1
00
1 1 0 0 0 0 -1
10
0 0 1 1 0 0 1
01
0 0 0 0 1 1 1
Tabella 46: matrice Z del modello ridotto 146
che d luogo ala seguente matrice (ZT*Z) e termine noto (ZT*Y) delle equazioni normali del modello ridotto per testare le interazioni:
7 4 3 4 3 1 3 3
0
4 4 0 2 2 2 0 2
1
3 0 3 2 1 -1 3 1
0
4 2 2 4 0 2 2 0
1
3 2 1 0 3 -1 1 3
00
1 2 -1 2 -1 3 -1 -1
10
3 0 3 2 1 -1 3 1
01
3 2 1 0 3 -1 1 3
ZT*Y 335 205 130 220 115 90 130 115
La matrice ha rango 3 perch si riescono ad esprimere tutte le righe in funzione della prima, della seconda e della quarta; come al solito scegliamo una soluzione basica del sistema: facciamo entrare in base i parametri , 0 e 0; dobbiamo quindi risolvere il sistema:
7 4 4
0
4 4 2
0
4 2 4
termine noto
335 205 220
La soluzione : = 31 0 = 11 0 = 18,5 tutti gli altri parametri sono uguali a zero nella soluzione che abbiamo scelto (una delle 5). Per trovare la somma dei quadrati associata a questo modello Y = I + M + O, come al solito si calcola: SSreg (I + M + O) = T * ZT * Y = (31 * 335 + 11 * 205 + 18,5 * 220) = 16710 e dunque il numeratore della F calcolata :
SSreg (I + M + O + MO) - SSreg (I + M + O) = 250 ovviamente conferma il valore dellanalisi dei contrast e della covarianza. Se volessimo testare a 0 le 2 funzioni: 1 - 0
1 - 0
147
troveremo che il numeratore della F calcolata identicamente nullo, perch le 2 funzioni sopra sono non stimabili. Non riportiamo i calcoli visto che il modo di procedere assolutamente identico a sopra. Testiamo invece lipotesi che avevamo gi introdotto nel cap.5 come possibile effetto delloperatore, per spiegare che il metodo descritto in Galetto (1995 e 1996, cap.9) testa inconsapevolmente quellipotesi: H0 : 3*01 + 2*11 - 3*00 - 2*10 = 0 H0 : 3*(0+1+01) + 2*(1+1+11) - 3*(0+0+00) - 2*(1+0+10) = 0
H0 : 11 = 2,5*(0 - 1) + 10 - 1,5*01 + 1,5*00
Vediamo a cosa conduce lipotesi sopra, sostituendola nel modello completo; il modello ridotto Y = Z* dove contiene tutti parametri del modello completo tranne 11 che espresso in funzione degli altri secondo lipotesi nulla. La matrice Z diventa allora:
1 1 1 1 1 1 1
0
1 1 0 0 1 1 0
1
0 0 1 1 0 0 1
0
1 1 1 1 0 0 2,5
1
0 0 0 0 1 1 -1,5
00
1 1 0 0 0 0 1,5
10
0 0 1 1 0 0 1
01
0 0 0 0 1 1 -1,5
La matrice (ZT*Z) delle equazioni normali e il termine noto (ZT*Y) sono i seguenti: 0 1 0 1 00 10 01 ZT*Y
7 4 3 6,5 0,5 3,5 3 0,5 4 4 0 2 2 2 0 2 3 0 3 4,5 -1,5 1,5 3 -1,5 6,5 2 4,5 10,25 -3,75 5,75 4,5 -3,75 0,5 2 -1,5 -3,75 4,25 -2,25 -1,5 4,25 3,5 2 1,5 5,75 -2,25 4,25 1,5 -2,25 3 0 3 4,5 -1,5 1,5 3 -1,5 0,5 2 -1,5 -3,75 4,25 -2,25 -1,5 4,25 335 205 130 322,5 12,5 192,5 130 12,5
Tabella 50: equazioni del modello ridotto
148
La matrice ha rango 3 quindi dobbiamo scegliere una soluzione basica: facciamo entrare in base i parametri , 0 e 0: gli altri assumeranno valore uguale a zero; il sistema ridotto :
7 4 6,5
0
4 4 2
0
6,5 2 10,25
termine noto
335 205 322,5
La soluzione : = 28,3333 0 = 17,916666 0 = 10 gli altri parametri del vettore sono uguali a zero quindi la somma dei quadrati associata a questo modello ridotto : SSreg (.....)76 = T * ZT * Y = (28,3333 * 335 + 17,196666 * 205 + 10 * 322,5) = 16389,583333 Il numeratore della F calcolata secondo il teorema 5 : SSreg (I + M + O + MO) - SSreg (......) = 16960 - 16389,583333 = 570,416666 conferma (principio F1) il valore trovato con lanalisi dei contrast. Comunque ribadisco che, secondo me, lipotesi testata H0 : 5*(1-0) +3*01 + 2*11 - 3*00 - 2*10 = 0 H0 : 3*01 + 2*11 - 3*00 - 2*10 = 0 di interesse per lo sperimentatore solo se sono giustificati i pesi differenti per le medie; Galetto probabilmente col suo metodo crede di testare: H0 : 1-0 = 0 che invece non testabile, come ho dimostrato. Laltra ipotesi che si testa col metodo di Galetto riguarda la macchina ed : H0 : 5*(1-0) +3*10 + 2*11 - 3*00 - 2*01 = 0 H0 : 3*10 + 2*11 - 3*00 - 2*01 = 0 non rifaccio lintero procedimento che uguale a prima; esso comunque porta a una somma dei quadrati: SSreg (....) = 16758,33333
76
indicato con i puntini perch tale modello non si sa bene quale effetto testi, secondo le mie definizioni (par. 4.8). 149
dunque il numeratore della F calcolata : SSreg (I + M + O + MO) - SSreg (......) = 16960 - 16758,33333 = 201,66666 e ovviamente conferma il valore ottenuto (molto pi velocemente) con lanalisi dei contrast.
Tutte le soluzioni alle equazioni normali dei modelli ridotti che abbiamo visto in questo paragrafo, soddisfano le equazioni normali sul modello completo (tab.2), visto che non abbiamo messo alcun vincolo sul modello.
7.4 MODELLO SOVRAPARAMETRIZZATO: PROCEDURA DI GALETTO (1995)

...a natural criterion for the selection of a method would appear to be the appropriateness of the hypothesis being tested (Speed et al.1978) Galetto (1995 e 1996) nellANOVA, usa il modello sovraparametrizzato dichiarando di voler usare il teorema di Gauss-Markov come giustificazione teorica per il metodo che propone; per nel testare gli effetti, non parte mai dalle funzioni stimabili, come ho fatto invece io nel paragrafo precedente: Galetto ragiona solamente sulle somme dei quadrati senza usare rigorosamente il teorema di Gauss-Markov e gli altri teoremi presenti sul Mood e Graybill (1963); ricordiamoci che il teorema 5 prevede che nel numeratore della F calcolata si sia: la SSreg del modello pi completo meno la SSreg di un modello ridotto ottenuto sostituendo lipotesi nulla sule funzioni stimabili nel modello pi completo. Galetto, per testare leffetto dellinterazione, propone di usare il modello additivo: yijr = + i + j + ijr trovarne la SSreg e sottrarla dalla SSreg del modello pi completo. Cosa c che non va? Non indicata lipotesi nulla da cui arriva quello che Galetto chiama modello additivo; provo a scoprirlo io, limitandomi per semplicit allesempio di sopra con 2 fattori e 2 livelli. Esso deriva dalle ipotesi nulle:
150
H01 : 00 = k H02 : 10 = k H03 : 01 = k H04 : 11 = k in cui si introduce un ulteriore parametro, k, che, comparendo in tutti gli stati di prova, pu essere conglobato senza problemi nella media77. Lipotesi sopra equivalente alle tre: H01 : 00 - 10 = 0 H02 : 10 - 01 = 0 H03 : 01 - 11 = 0 che per vanno espresse (se possibile), in termini di funzioni stimabili, se vogliamo sfruttare il teorema di Gauss-Markov e il teorema 5; ad esempio possiamo esprimerle cos: H01 : 11 + 00 - 10 - 01 = 0 H02 : 10 - 01 = 0 H03 : 01 - 11 = 0 (unendo H01 e H03)
Di queste 3 solo la prima una funzione stimabile e d quindi luogo a unipotesi testabile. Le altre 2 sono ipotesi non testabili. Dunque lipotesi H0 (implicita nella scrittura del modello additivo di Galetto), composta di H01, H02, H03, parzialmente testabile, secondo la terminologia di Searle (1987) a pag.297. Lipotesi H0, sebbene sia diversa da H01 non distinguibile da essa: questo singolare fatto dovuto al fatto di non avere formulato a priori unipotesi nulla sulle funzioni stimabili; il risultato che uno crede di testare H0 e invece testa H01; questultima gi stata testata nel paragrafo precedente: il modello ridotto da H01 dava luogo a una somma dei quadrati: SSreg = 16710 Per far vedere che H0 (lipotesi implicita nella procedura di Galetto) non distinguibile da H01 usiamo il suo modello additivo nellesempio macchina-operatore; la matrice Z del modello ridotto da H0: Y = Z * la seguente:
77
Chi non ne fosse convinto provi a scriversi le equazioni normali introducendo il parametro k: vedr che si pu eliminare perch rappresenta una colonna unitaria della matrice Z, esattamente uguale a quella della media. una situazione analoga a quella di tab.4 del par.7.3.2 dove la colonna di 0 e uguale a quella della media e pu essere eliminata, senza cambiare la SSreg del modello ridotto. 151
1 1 1 1 1 1 1
1 1 0 0 1 1 0
0 0 1 1 0 0 1
1 1 1 1 0 0 0
0 0 0 0 1 1 1
La matrice (ZT*Z) delle equazioni normali e il termine noto (ZT*Y) sono i seguenti:
ZT*Y
7 4 3 4 3
4 4 0 2 2
3 0 3 2 1
4 2 2 4 0
3 2 1 0 3
335 205 130 220 115
La matrice di dimensione 5 ha rango 3 dunque dobbiamo scegliere 3 parametri che entrano in base corrispondenti a 3 righe linearmente indipendenti. Scelgo , 0 e 0: gli altri assumeranno valore uguale a zero; il sistema ridotto :
7 4 4
0
4 4 2
0
4 2 4
termine noto
335 220 205
identico a quello di tabella 9 per lipotesi testabile H01 che dunque indistinguibile78 allipotesi parzialmente testabile H0 dunque porta alla stessa SSreg = 16710. la stessa situazione dellANOVA one-way a p livelli col modello E(Yij) = + i: lipotesi 1 = 2 = .... = p = 0 parzialmente testabile e indistinguibile da
78
Quando dico indistinguibile mi riferisco al numeratore della F calcolata; nella realt le 2 ipotesi sono diverse. 152
1 = 2 = .... = p
che invece testabile, potendosi esprimere con (p-1) funzioni stimabili Ma le 2 ipotesi sono diverse (principio F1) e solo numericamente danno lo stesso risultato. Le ipotesi parzialmente testabili sono decisamente da evitarsi perch illudono di testare una cosa mentre in realt ne testano unaltra: se si parte dalle funzioni stimabili non c il rischio di imbattersi in ipotesi parzialmente testabili, quindi invitiamo a seguire questa strada.
Per quanto riguarda gli effetti dei fattori Galetto (1996) a pag.291 dichiara: leffetto di A si ottiene con la differenza SSreg( + + )-SSreg( + ) leffetto di B si ottiene con la differenza SSreg( + + )-SSreg( + ) Purtroppo non fornita alcuna giustificazione a queste affermazioni e ci non deve stupire visto che nel libro citato non mai esplicitato (in termini dei parametri del modello) cosa si intende per effetto di A e effetto di B, dunque non si sa quali ipotesi nulle stiano testando quelle differenze di SSreg perch non si sono applicati n enunciati rigorosamente il teorema di Gauss-Markov e gli altri teoremi del Mood e Graybill (1963) Comunque seguiamo la procedura di Galetto per vedere dove ci porta con lesempio operatore-macchina. La SSreg del modello additivo gi stata trovata come abbiamo visto sopra: SSreg( + + ) = 16710 dove la macchina e loperatore. Per calcolare SSreg( + ) bisogna usare il modello: yijr = + i + ir immediato verificare che quando si ha un solo fattore nel modello, le equazioni normali portano alla regola del Questo per questo per il calcolo della somma dei quadrati associata al modello (basta far entrare in base i parametri 0 e 1). Dunque, considerando solo la macchina, abbiamo i 2 macrostati:
Media Macchina 0 Macchina 1 Totale Media*Totale
51,25 43,333
205 130
10506,25 5633,333
Tabella 55: i 2 macrostati del fattore macchina
SSreg( + ) = 10506,25 + 5633,333 = 16139,583 Considerando solo loperatore:

153
Media Operatore 0 Operatore 1
Totale
Media*Totale
55 38,333
220 115
12100 4408,333
Tabella 56: i 2 macrostati del fattore operatore
SSreg( + ) = 12100 + 4408,333 = 16508,333 Seguendo la procedura di Galetto avremmo che: SS(A) = SSreg( + + ) - SSreg( + ) = 16710 - 16508,333 = 201,6666 SS(B) = SSreg( + + ) - SSreg( + ) = 16710 - 16139,583 = 570,4166 SS(AB) = SSreg( + + + ) - SSreg( + + ) = 16960 - 16710 = 250 senza sapere cosa stiano testando in realt queste differenze di somme di quadrati. Nel paragrafo precedente abbiamo visto che le prime 2 testano rispettivamente le ipotesi: H01 : 5*(1-0) +3*10 + 2*11 - 3*00 - 2*01 = 0 H02 : 5*(1-0) +3*01 + 2*11 - 3*00 - 2*10 = 0 che, espresse in funzione delle medie, diventano: H01 : 3*11 + 2*10 - 3*00 - 2*01 = 0 H02 : 3*01 + 2*11 - 3*00 - 2*10 = 0 Io non escludo che possano essere di interesse per lo sperimentatore che per dovrebbe giustificare perch usa quei pesi delle medie. E se pesa diversamente le medie, nel calcolo degli effetti dei fattori, perch invece le pesa ugualmente nel calcolo dellinterazione??? H03 : 11 + 00 - 01 - 10 = 0 Mi pare che dunque vi sia una contraddizione nel testare queste 3 ipotesi come rappresentanti gli effetti dei fattori. La tabella ANOVA sarebbe la seguente; lavevamo gi vista nel par.5.2.1 (tabella 8).
SS Totale Media M O MO Residuo 16997 16032,14286 201,6666667 570,4166667 250 37 df 7 1 16032,14 1 201,6667 16,3513514 1 570,4167 1 46,25 10,12796 10,12796 10,12796 MS F calcolata F0,95(1,3)
250 20,2702703
3 12,33333
Tabella 57: ANOVA col metodo di Galetto
154
Nella procedura di Galetto le SS(A) e SS(B) non sono ottenute sostituendo unipotesi nulla nel modello completo: a posteriori sappiamo che cos, ma a priori chi ci garantisce che le 2 statistiche:
( SSreg( + + ) SSreg( + )) / ( a 1) ( SSreg( + + ) SSreg( + ) ) / (b 1)

( SSe / ( N a * b) ) ( SSe / ( N a * b) )
79
seguano una distribuzione F con 1 e 3 gradi di libert? Il teorema di Cochran. 7.4.1 TEOREMA DI COCHRAN Date N variabili Xi che seguono una normale una distribuzione normale con media e varianza 2, sappiamo che la variabile casuale:
( X
i =1
2
segue una distribuzione 2 con N gradi di libert. Se si scompongono: Q=
2
( X
i =1
) = Q1 + Q2 + Q3 +.....+ QK
N = N1 + N2 + N3 +.....+ NK il teorema di Cochran assicura che: il rapporto ( Qi / 2 ) segue una distribuzione 2 con Ni gradi di libert. le variabili casuali ( Qi / 2 ) e ( Qj / 2 ) sono indipendenti, i,j dunque il rapporto di variabili casuali: (Qi / N i )
(Q
/ Nj
segue una distribuzione F con Ni e Nj gradi di libert, i,j Applichiamo tale teorema al nostro esempio con 2 fattori, dove Q la somma dei quadrati corretta e scriviamo le seguenti identit, una per le somme dei quadrati e laltra per i gradi di libert: Q = SStot - SSreg() = [SSreg(+) - SSreg()]80
79
Nel nostro esempio N=7, a=2, b=2.
80
leffetto del fattore A calcolato con la regola del Questo per questo; non sbagliato come afferma Galetto (1996 pag.290): semplicemente sta testando una particolare ipotesi nulla: H0 : 1. - 0. Il fatto che essa probabilmente non di interesse non vuol dire che sbagliato. 155
+ [SSreg(++) - SSreg(+)] + [SSreg(+++) - SSreg(++)] + [SStot - SSreg(+++)] N -1 = (a-1) + (b-1) + (a-1)*(b-1) + (N-ab) dove N il numero totale di osservazioni, a il numero di livelli del fattore A e b il numero di livelli del fattore B. Lultimo addendo rappresenta SSe dunque il teorema di Cochran assicura che:
( SSreg( + + ) SSreg( + ) ) / (b 1)
( SSe / ( N a * b) )
segue una distribuzione F con (a-1) e (N-a*b) gradi di libert. Analogamente potevo mostrare che la statistica:
( SSreg( + + ) SSreg( + )) / ( a 1)
( SSe / ( N a * b) )
segue una distribuzione F con (b-1) e (N-a*b) gradi di libert. La decomposizione di Q effettuata sopra d luogo a unanalisi ortogonale, appropriata solo se il fattore A pi importante del fattore B, ovvero se esiste un ordine preferenziale dei fattori: non credo che questa sia una situazione comune nei piani fattoriali. Il teorema non dice per quale ipotesi nulla si sta testando con queste statistiche. Dunque
con la procedura di Galetto si eseguono dei test corretti. Per: non si sa cosa si testa i test non sono indipendenti81, perch le SS(.) del numeratore F provengono da contrast non ortogonali, se le numerosit sono diverse. 7.4.2 METODO DI GALETTO IN LETTERAURA Comunque Galetto non lunico che usa questo metodo. In Speed et al. (1978) si riferisce al metodo qua esposto come method of fitting constants (inventato da Yates nel 1934) oppure come experimental design (di Overall e Spiegel 1969); anche in Krishnaiah (1980) chiamato experimental design. I testi citati riferiscono che il metodo 2 usato dal programma statistico SAS-76 fa esattamente lanalisi che farebbe Galetto: tale analisi non ortogonale se la numerosit degli stati di prova non costante come abbiamo visto nellesempio macchina-operatore. Il metodo 1 di quel programma richiede un ordine preferenziale di fattori e interazioni e fa dunque unanalisi sempre ortogonale, conducendo quindi dei test
81
il problema della non ortogonalit statistica, non causato dal metodo di Galetto. 156
indipendenti. In Speed et al. (1978) si riferisce tale metodo denominato A Priori Ordering di Overall e Spiegel (1969). I metodi 3 e 4 di SAS-76 impiegano il modello full-regression che vedremo nel prossimo capitolo: danno comunque i risultati dellanalisi dei contrast e quindi se gli stati di prova hanno numerosit diverse, lanalisi non ortogonale. Il metodo impiegato, in Speed et al.(1978) chiamato Complete Least Squares di Overall e Spiegel (1969) oppure Weighted Squares of Means, inventato da Yates nel 1934. Per quanto riguarda lopportunit o meno di fare unanalisi ortogonale (sempre possibile) ricordiamo le sagge parole di Speed e Hocking (1978): Since the statement of a model and the testing of hypothesis about the parameters of that model are fundamental concepts in statistical analysis, particularly the analysis of variance, a natural criterion for the selection of a method would appear to be the appropriateness of the hypothesis being tested. Other factors such as ease of computation and orthogonality of quadratic forms cannot be justified if the hypothesis tested have no meaningful interpretation. 7.4.3 MODELLI NON GERARCHICI Riprendiamo il discorso sui modelli non gerarchici (par. 6.4): un modello gerarchico se un interazione fra n fattori inclusa nel modello solo una volta aver incluso in esso i fattori e le interazioni di ordine pi basso che coinvolgono gli n fattori considerati. Per esempio y =I+A+AB non gerarchico perch stata inserita AB senza che fosse inserito B; non gerarchico y = I+B+C+AC+BC+AB poich ci sono AC e AB ma non c A; non gerarchico y = I+A+B+C+AB+AC+ABC perch c ABC ma non BC. E invece gerarchico y = I+A+B+C+AB+AC+BC+ABC. Il fatto di poter usare solo modelli gerarchici un fatto che ha importanti conseguenze: ad esempio per calcolare leffetto di A facendo la differenza fra le SS di 2 modelli non potr usare i modelli pi completi ovvero con 3 fattori non potr scrivere: SS(A) = SS(I+A+B+C+AB+AC+BC+ABC) - SS(I+B+C+AB+AC+BC+ABC) perch il secondo non gerarchico avendo incluso AB, AC, ABC senza aver incluso A. Ma perch non bisogna usare modelli non gerarchici? A priori non c' alcun motivo. Il problema che se scriviamo i modelli sovraparametrizzati come li scrive Galetto82, e su di essi applichiamo le equazioni normali troviamo che: SS(I+B+C+AB+AC+BC+ABC) = SS(I+A+B+C+AB+AC+BC+ABC) per cui SS(A)=0 se vogliamo calcolarlo per differenza dei 2 modelli sopra. Questa una situazione generale che vale ogni volta che uso scrivo i modelli nella forma di Galetto:
82
Essi non sono giustificati dal teorema 5 del Mood e Graybill (1963) ma dal teorema di Cochran, come abbiamo visto. 157
La SS di un modello non gerarchico sempre uguale a quella del modello gerarchizzato. Il termine modello gerarchizzato non presente in letteratura (almeno quella che ho esaminato): con esso intendo il modello non gerarchico pi il completamento minimo di parametri per renderlo gerarchico; ad esempio il modello gerarchizzato di Y = I+AB Y = I+A+B+AB Dalla legge che abbiamo esposto sopra sappiamo: SS (I+AB) = SS (I+A+B+AB) Dimostriamolo con le equazioni normali; nel par. 7.2 abbiamo visto che:
SSreg (I+A+B+AB) = T00*y00 + T01*y01 + T10*y10 + T11*y11 A questo punto scriviamo le equazioni normali per il modello Y = I+AB:
00 n00 01 n01 10 n10 11 n11
ZT*Y
n.. n00 n01 n10 n11
n00 0 0 0
0 n01 0 0
0 0 n10 0
0 0 0 n11
T.. T00 T01 T10 T11
Tabella 58: equazioni normali su un modello non gerarchico
La prima riga la somma delle altre per cui la elimino e pongo = 0 (soluzione basica); come si vede la soluzione : 00 =(T00/n00); 01 =(T01/n01); 10 =(T10/n10); 11 =(T11/n11); che d luogo alla stessa SSreg calcolata prima. Abbiamo cos mostrato che:
SS (I+AB) = SS (I+A+B+AB) Analogamente potevamo mostrare che : SS (I+A+AB) = SS (I+A+B+AB) oppure SS (I+B+AB) = SS (I+A+B+AB)
Scrivendo dunque i modelli sovraparametrizzati nella forma di Galetto, non si possono usare modelli non gerarchici perch danno una somma dei quadrati uguale a quella del corrispondente modello gerarchizzato83. Nelder (1974) si era reso conto di questo fatto: infatti nella lettera citata in bibliografia, aveva scritto alleditore della rivista Journal of the Royal Statistical Society
83
Lascio al lettore il piacere di collegare tali eguaglianze al discorso delle ipotesi non testabili e parzialmente testabili. 158
dicendo che, con 2 fattori R e S, linterazione RS non indipendente dai 2 fattori perch i 2 fattori sono un sottospazio dellinterazione; Nelder afferma che, partire dal modello Y = I + Ri + Sj + RSij + Eijr e poi togliere R, ottenendo quindi: Y = I + Sj + RSij + Eijr equivale solo a mettere i vincoli: Ri = 0 ###i nel modello principale Y = I + R + S + RS, ma essendo questo sovraparametrizzato, tali vincoli non influenzano il fit dei dati, ovvero la SSreg, dunque si ha che:
SSreg (I+R+S+RS) = SSreg (I+S+RS)
che quello che ho dimostrato sopra con 2 fattori a 2 livelli. Nelder afferma che il modello non gerarchico (non usando per questo termine) Y = I + Sj + RSij + Eijr concepibile in teoria ma non di interesse pratico neanche se viene aggiunto un vincolo che forzi una situazione in cui R ha uninfluenza attraverso linterazione con S, ma, mediato sui valori di S ha un effetto complessivamente nullo. A mio parere invece un tale modello di grande interesse (labbiamo gi visto nellanalisi della covarianza) perch permette di calcolare leffetto di R nel modo pi completo, ovvero:
SS (R) = SS(I+R+S+RS) - SS(I+S+RS) come prescrive il teorema 5; la formula sopra per identicamente nulla se ci riferiamo al modello overparameterized dunque dobbiamo abbandonare tale riferimento se vogliamo usarla.
7.4.4 ESEMPIO CON 3 FATTORI Riprendiamo lesempio del paragrafo 5.2.3, per evidenziare le debolezze implicite nel metodo di Galetto per calcolare la significativit degli effetti dei fattori e interazioni.
Stati di prova i a b ab c ac bc abc Tabella 59 76 80 86 79 70 79 78 82 75 78 92 77 69 83 74 85 79 81 90 80 73 77 71 76 Risposte Medie 75 5 79 666667 89 333333 77 8 70 75 81 76 82
159
La tabella ANOVA che divide la somma totale dei quadrati in media, trattamenti e residuo la seguente:
SS Totale Media Trattamenti Residuo Tabella 60 149592 148837,5 677,1166667 77,38333333 df 24 1 7 16 96,73095238 20,00036922 2,65719535 4,836458333 MS F calcolata F0,95(7,16)
Adesso si tratta di scomporre la SSreg dei trattamenti in 7 componenti con 1 grado di libert, relative ai 3 fattori, alle 3 interazioni del primo ordine e allinterazione del secondo ordine. Nel cap.5 ho gi proposto quella che io ritengo la scomposizione corretta, ovvero quella che testa gli effetti come io li ho definiti nel par. 4.8: pu anche darsi che la mia scomposizione non interessi lanalista; in tal caso egli deve costruirsi i contrast che pi gli interessano: limportante che sappia cosa sta testando. Ci non si verifica con il metodo di Galetto che, con 3 fattori, introduce alcune ambiguit. Ad esempio per calcolare l effetto di A, potrei fare: SS(A) = SS(I+A+B) - SS(I+B) ma questa volta ho un altro modello additivo a 2 fattori per cui potrei anche fare: SS(A) = SS(I+A+C) - SS(I+C) I due modi daranno risultati uguali? Prima di rispondere consideriamo che si possono pensare altri modi per calcolare leffetto di A (se lo si definisce bene come ho fatto io nel par. 4.8, invece c solo un modo); usando solo modelli gerarchici nella forma di Galetto, ci possono essere 5 modi: SS(A) = SS(I+A) - SS(I) SS(A) = SS(I+A+B) - SS(I+B) SS(A) = SS(I+A+C) - SS(I+C) SS(A) = SS(I+A+B+C) - SS(I+B+C) SS(A) = SS(I+A+B+C+BC) - SS(I+B+C+BC) Lesempio sopra ovviamente con numerosit diverse: se fossero uguali non ci sarebbe nessun problema perch in tutti modi la SS(A) sarebbe uguale. Anche per le interazioni del primo ordine vi sono 5 modi possibili per calcolarle; linterazione del secondo ordine si calcola invece solo in un modo: SS(ABC) = SS(I+A+B+C+AB+AC+BC+ABC) - SS(I+A+B+C+AB+AC+BC) La SSreg del modello completo: yijkr = + i + j + k+ ij + kj+ ik + ijk + ijkr si calcola con il Questo per questo: SSreg(I+A+B+C+AB+AC+BC+ABC) = 149514,6167
160
Per trovare le SSreg dei vari modelli ridotti (come li scrive Galetto, senza partire da un ipotesi nulla sui parametri) ho sempre usato il metodo delle soluzioni basiche. Ad esempio per trovare la SSreg del modello: yijkr = + i + j + k + ij + ik + ijkr abbreviato con: Y = I + A + B + C + AB + AC so gi in partenza che dar luogo a una matrice delle equazioni normali con rango 6 visto che sono stati sperimentati tutti gli stati di prova, dunque faccio entrare in base i 6 parametri , 0 , 0 , 0, 00 , 00; le stime degli altri parametri sono poste uguali a zero, dunque devo solo risolvere il sistema:
24 11 11 13 6 5
0
11 11 6 5 6 5
0
11 6 11 5 6 2
0,
13 5 5 13 2 5
00
6 6 6 2 6 2
00
5 5 2 5 2 5
ZT*Y 1890 854 835 1047 434 419 T... T0.. T.0. T..0 T00. T0.0
La soluzione : = 81,30081 0 = -2,590287 0 = 0,747967 0 = -3,081301 00 = -10,06376 00 = 11,89709 e la somma dei quadrati associata a questo modello il prodotto scalare del vettore sopra per i totali ZT*Y scritti in tab.22. SSreg = 149462,073
161
In questo modo, con Excel, ho calcolato velocemente le SSreg dei seguenti modelli: 1 2 3 4 5 6 7 8 9
SS (I) SS (I+A) SS (I+B) SS (I+C)
148837,5 148862,6853 149001,3986 148928,2238 149010,3892 148940,7024 149058,6169 149235,9917 149240,5 149061,0917 149062,4952 149265,4722 149321,3957 149064,2997 149462,073 149266,304 149322,8502 149470,1751 149514,6167
SS (I+A+B) SS (I +A+C) SS (I+B+C)

SS (I+A+B+AB) SS (I+ A+C+AC)
10 SS (I+B+C+BC) 11 SS (I+A+B+C) 12 SS (I+A+B+C+AB) 13 SS (I+A+B+C+AC) 14 SS (I+A+B+C+BC) 15 SS (I+A+B+C+AB+AC) 16 SS (I +A+B+C+AB+BC) 17 SS (I+A+B+C+AC+BC) 18 SS (I+A+B+C+AB+AC+BC) 19 SS( I+A+B+C+AB+AC+BC+ABC)
Tabella 62: SSreg di tutti possibili modelli gerarchici
Per i modelli evidenziati in neretto, il metodo delle soluzioni basiche nelle equazioni normali porta al Questo per questo, perch la matrice del sistema ridotto diagonale. Possiamo calcolare gli effetti dei fattori e interazioni in vari modi: per brevit di notazione indico il modo con cui un effetto calcolato con 2 numeri, indicanti rispettivamente minuendo e sottraendo della differenza fra le SSreg della tab.23; ad esempio la notazione (5-3) significa: SSreg(I+A+B) - SSreg(I+B)
162
SS (A)
2-1 25,18531469 3-1 163,8986014 4-1 90,72377622 8-5 225,60251 9-6 299,7975904 10-7 2,474799197 19-18 44,44152542
5-3 8,990555228 7-4 130,3930912 6-2 78,01709495 12-11 202,9769759 13-11 258,9004528 14-11 1,804464728
6-4 12,4786 5-2 147,704 7-3 57,2183 16-14 202,004 15-12 196,601 17-13 1,45454
11-7 3,878370625 11-6 121,7928285 11-5 52,10608147 15-13 140,6772658 17-14 258,5505325 16-12 0,831808283
14-10 3,208036157 13-9 80,89569094 12-8 29,4805473 18-17 147,3249059 18-16 203,871119 18-15 8,10218446
SS (B)
SS (C)
SS (AB)
SS (AC)
SS (BC)
SS (ABC)
Tabella 63: tutti modi per calcolare leffetto di fattori e interazioni con modelli gerarchici
Ma quale di questi numeri rappresenta leffetto del fattore o dellinterazione? ... seguendo solo ci che c scritto in Galetto (1995 e 1996) non si trova risposta. A questo punto chi applica il metodo di Galetto si renderebbe conto che non ha definito cos un effetto. Terms like main effects are not adequate to describe the hypothesis...their definitions should be dictated by the needs of the researcher(Hocking e Speed 1975), fare semplicemente la differenza di somme di quadrati non ci dice quale ipotesi stiamo testando. ...serious drawback of the R( ) notation is that it does not provide an indication of the hypothesis being tested(Speed et al.1978). Il metodo experimental design, descritto in Speed et al. (1978) e Krishnaiah (1980) prevederebbe come risultati corretti la quarta colonna per i fattori e la quinta colonna per le interazioni del primo ordine: questa scelta per assunta a priori, senza indagare che ipotesi viene testata sui parametri del modello. Il metodo a priori ordering, descritto in Speed et al. (1978), Krishnaiah (1980), Allen (1985), prevederebbe una decomposizione ortogonale: essa richiede un ordine di fattori e interazioni, usando sempre modelli gerarchici84, per cui non si pu dire che AB pi importante dei 2 fattori A e B dunque la media I sempre la prima e linterazione di ordine superiore sempre lultima. Uno dei tanti ordini gerarchici potrebbe essere: I, A, C, AC, B, BC, AB, ABC
84
Luso del modello full-regression consente di superare questa limitazione, ammesso che sia di interesse... 163
che richiederebbe luso delle somme di quadrati (indicate per brevit dai numeri della tab.23): 1, (2-1), (6-2), (9-6), (13-9), (17-13), (18-17), (19-18) La somma di queste SS ovviamente quella indicata dal numero 19 ovvero: SSreg(I+A+B+C+AB+AC+BC+ABC) = 149514,6167 dunque lanalisi ortogonale (ovvero i test F sono indipendenti) per costruzione; ma cosa si sta testando in termini dei parametri del modello?... Confrontando con lanalisi dei contrast che avevamo fatto nel par. 5.2.3 vediamo che solo linterazione ABC uguale a ci che io definisco effetto di ABC; non un caso: infatti lunica calcolata a partire dal modello pi completo come richiede il teorema 5 del Mood e Graybill (1963). Concludiamo il paragrafo dicendo che col modello full-regression (cap.8) si riesce a capire cosa stiano testando le differenze di somme di quadrati sopra.
7.5 MODELLO SOVRAPARAMETRIZZATO RIPARAMETRIZZATO

Si tratta di un approccio molto usato (Lorenzen et al.1993, Mason et al.1989, Miller et al.1990, Box et al.1978), studiato da Hocking e Speed (1975), Speed e Hocking(1978), Searle et al.(1981), Searle(1987); esso consiste nelluso del modello sovraparametrizzato con laggiunta di un numero di vincoli tale da farlo diventare full-rank: in questo modo non c pi il problema delle funzioni stimabili. Ad esempio con 2 fattori con rispettivamente a e b livelli si scrive: E (yij ) = + i + j + ij i=1,..., a j=1,..., b
ci sarebbero (1+a+b+a*b) parametri ma solo a*b stati di prova dunque, per riprametrizare il modello per farlo diventare full-rank bisogna porre (1+a+b) vincoli. Di solito si pongono quelle che in Searle et al.(1981), Searle(1987) sono chiamate -restrictions, ovvero:

j =1 a i =1 b i =1 b
=0 =0 =0 =0 per j=1,...b per i=1,...(a-1) 85

j =1
ij
ij
I nuovi parametri, in numero a*b sono tutti stimabili correttamente, secondo i teoremi che abbiamo visto nel par. 7.1, perch la matrice delle equazioni normali adesso
85
Il vincolo per i=a sarebbe dipendente dagli altri quindi non si mette. 164
invertibile. Bisogna per stare molto attenti perch adesso questi vincoli valgono sempre anche quando si usano dei modelli ridotti. Nellesempio macchina-operatore ci sarebbero i seguenti vincoli: 0 + 1 = 0 0 + 1 = 0 00 + 01 = 0 10 + 11 = 0 01 + 11 = 0 dunque il modello completo riparametrizzato in funzione di soli 4 parametri diventa ad esempio: 00 = + 0 + 0 + 00 10 = 0 + 0 - 00 01 = + 0 - 0 - 00 11 = 0 - 0 + 00 in forma matriciale E(Y) = X* dove X :
0 0 00
1 1 1 1 1 1 1
1 1 -1 -1 1 1 -1
1 1 1 1 -1 -1 -1
1 1 -1 -1 -1 -1 1
Tabella 64: matrice X del modello completo
Adesso, avendo aggiunto i vincoli, ovviamente possibile testare ad esempio: (1) 0: 0 (= 1 ) = 0 esso testa quello che io definisco effetto (par. 4.8) di A (in questo caso il fattore macchina) ovvero: 11 + 10 - 01 - 00 = 0 21 - 20 + 11 + 10 - 01 - 00 = 0 perch con le -restrictions, diventa: -40 = 0 che equivalente allipotesi nulla (1). Il modello ridotto dallipotesi nulla (1) ha la seguente matrice Z:
165
00
1 1 1 1 1 1 1
1 1 1 1 -1 -1 -1
1 1 -1 -1 -1 -1 1
Essa porta a una matrice (ZT*Z) e a un vettore (ZT*Y):
7 1 -1
0
1 7 1
00
-1 1 7
ZT*Y
335 105 9
La soluzione : = 47,85 0 = 7,15 00 = 7,1 essa non soddisfa le equazioni normali sul modello completo non riparametrizzato (tab.2) perch abbiamo aggiunto dei vincoli (le -restrictions ) che hanno cambiato il sistema di tab.2. La soluzione sopra fornisce una somma dei quadrati associata al modello ridotto SSreg = 47,85*335 + 7,15*105 + 9*7,1 = 16844,4 che conferma il valore ottenuto: con lanalisi dei contrast con lanalisi della covarianza col modello sovraparametrizzato usando le funzioni stimabili per il principio F1, perch anche la regressione col modello sovraparametrizzato, riparametrizzato con le -restrictions un metodo scientificamente corretto. Se avessi usato vincoli diversi (Searle et al.1981) dalle -restrictions avrei comunque ottenuto lo stesso valore per la stessa ipotesi nulla sulle medie degli stati di prova. Analogamente potevo testare leffetto delloperatore: 11 + 01 - 10 - 00 = 0 che diventa: (1) 0: 0 (= 1 ) = 0
166
non riporto i calcoli perch sono identici a quelli per leffetto della macchina; il risultato finale : SSreg (I+M+MO) = 16550,4 Si possono testare tutte le ipotesi che abbiamo gi testato: quella del Questo per questo, quelle del metodo di Galetto,....I risultati sarebbero certamente uguali a quelli gi trovati con altri metodi per il principio F1; dunque conviene usare il metodo pi semplice.
Le soluzioni alle equazioni normali dei modelli ridotti visti in questo paragrafo possono non soddisfare le equazioni normali sul modello completo non riparametrizzato (tab.2), perch, avendo aggiunto dei vincoli, il sistema di equazioni normali, cambiato.
7.6 MODELLO SOVRAPARAMETRIZZATO: GLI ALIAS

Finora non abbiamo mai parlato di piani frazionati, ovvero dove mancano degli stati di prova. Vedere gli alias col modello sovraparametrizzato molto complicato e richiede la perfetta comprensione del concetto di funzione stimabile, altrimenti si rischia di fare degli errori molto gravi. Ad esempio in Galetto (1989a), in un piano sperimentale (cap.10) taguchiano, lautore analizza i dati trascurando i fattori di rumore; vi sono 4 fattori a 3 livelli e solo 9 stati di prova, ciascuno con 8 replicazioni; ovvio che i parametri del modello hanno solo 9 gradi di libert (compresa la media) ovvero posso stimare solo 9 funzioni stimabili. Galetto invece dice di poter stimare anche tutte le interazioni del primo ordine e dice di conglobare le altre nel residuo: ci assolutamente sbagliato perch le interazioni si sono mischiate (confounded) con i fattori e in tutto gli alias non possono avere pi di 9 gradi di libert; gli altri 63 sono del residuo: si pu certamente ridurre i g.l. del residuo introducendo i fattori di rumore ma in questo caso i g.l. guadagnati riguardano il fattore di rumore aggiunto e le loro interazioni. Questo errore forse provocato proprio dalluso del modello sovraparametrizzato che introduce pi parametri di quanti se ne possano stimare: il punto che in un modello io posso mettere tutti parametri che voglio ma se ho solo k stati di prova stimo soltanto k parametri (aliased). Un errore analogo contenuto in Fornasieri (1995) a pag.139 nellanalisi del caso Iveco (cap.10), dove ci sono 6 stati di prova e 40 dati in tutto. Anche Fornasieri usa il modello sovraparametrizzato e attribuisce 8 (!!!) gradi di libert ai parametri del modello e 32 al residuo. Con 6 stati di prova si possono attribuire solo 6 gradi di libert ai parametri (aliased) del modello e il residuo ha 34 gradi di libert.
167
Questi 2 errori fanno capire che il modello sovraparametrizzato nei piani ridotti fonte di confusione e porta a risultati corretti solo se si usano in modo rigoroso i concetti esposti nel par.7.1 che si possono ritrovare sul Mood e Graybill (1963). Vediamo come fare nel piano ridotto del par 4.7:
Stati di prova a b c abc Tabella 67 Y1 24 25 29 29 Y2 26 23 30 27 Totali 50 48 59 56 Medie 25 24 29,5 28
Il modello da usare, se si vogliono vedere gli alias il seguente: (1) yijkr = + i + j + k+ ij + kj+ ik + ijk + ijkr Esso ha una SSreg = (25*50 + 24*48+59*29,5+56*28) = 5710,5 (Questo per questo) Vediamo che la funzione che rappresenta leffetto (par. 4.8) del fattore A: 111+110+101+100-000-001-010-011 86
non stimabile perch mancano gli stati di prova (000), (110), (011), (101); se manca anche un solo stato di prova la funzione che definisce leffetto medio di A non pi stimabile. Invece stimabile la funzione che confonde leffetto di A e di BC (come
definiti nel par.4.8): A*+BC* 87= 111+100-001-010 = 21 - 20 + 11 + 10 - 00 - 01 + 11 + 00 - 01 - 10 + 11 + 10 - 01 - 00 + 111 + 100 - 001 - 010 in quanto esprimibile per mezzo delle medie degli stati di prova. Se nel modello completo sostituissimo lipotesi nulla: H0 : 21 - 20 + 11 + 10 - 00 - 01 + 11 + 00 - 01 - 10 + 11 + 10 - 01 00 + 111 + 100 - 001 - 010 = 0 otterremo un modello ridotto che darebbe una SSreg:
86
Non lo scrivo in termini dei parametri dl modello sovraparametrizzato perch troppo lungo.
87
Metto gli asterischi per far vedere che sono dei parametri per distinguerli dagli stimatori A e BC; non sempre nella tesi fatta questa distinzione: in ogni caso si capisce dal contesto se si sta parlando di uno stimatore o di un parametro. 168
SSreg = 5710,375 Non riporto i calcoli che, pur semplici, richiedono la scrittura di matrici abbastanza grandi. Comunque la somma dei quadrati associata allalias A+BC : SSreg(completo) - SSreg(ridotto) = 5710,5 - 5710,375 = 0,125 Esso conferma il valore trovato con lanalisi dei contrast (tab.9 del par.4.7). Il mio giudizio comunque che le funzioni stimabili e il teorema 5 non possono essere considerati strumenti operativi perch richiedono troppi calcoli: per rappresentano lunico modo di vedere gli alias col modello sovraparametrizzato; con il metodo di Galetto (1995 e 1996) impossibile vedere gli alias (anche perch nel suo libro non sono ben definiti); anche con il modello sovraparametrizzato, riparametrizzato per renderlo full-rank, difficile spiegare gli alias e sarebbe, secondo me, uninutile forzatura. Dunque meglio usare il modello full-regression, oggetto del prossimo capitolo.
7.7 CONCLUSIONI
In questo capitolo abbiamo visto che il teorema di Gauss-Markov legittima luso dei contrast perch gli stimatori presentati nel cap.4 sono BLUE; lanalisi dei contrast (ANCON) indubbiamente la pi veloce per ottenere gli effetti dei fattori e interazioni. Luso del teorema 5 e delle funzioni stimabili conduce agli stessi risultati dellANCON, ma in modo molto pi lungo; gi con 3 fattori le dimensioni delle matrici aumentano in modo spropositato dunque il teorema di Gauss-Markov e gli altri teoremi del Mood e Graybill vanno usati solo come base teorica per lANCON, ma non come strumento operativo. Chi vuole usare il modello sovraparametrizzato deve rendersi conto che il numero dei parametri aumenta esponenzialmente con il numero dei fattori e in modo polinomiale con i livelli quindi diventa sempre pi difficile maneggiare i modelli sovraparametrizzati; per dare unidea supponiamo che ogni fattore abbia K livelli: con 2 fattori abbiamo (1+K)2 parametri con 3 fattori ne abbiamo (1+K)3 parametri ... con N fattori ne abbiamo (1+K)N.
169
Con 4 fattori a 3 livelli, un caso abbastanza comune, avremmo 256 (!!!) parametri mentre le funzioni stimabili linearmente indipendenti restano in numero pari a quello degli stati di prova. PIANO SPERIMENTALE
R STATI DI PROVA
MODELLO SOVRAPARAMETRIZZATO
K (>R) PARAMETRI NON STIMABILI
E.N.M.C. EQUAZIONI NORMALI MODELLO COMPLETO
(K - R) SOLUZIONI
R FUNZIONI STIMABILI LINEARMENTE INDIPENDENTI
Le soluzioni alle equazioni normali dei modelli ridotti soddisfano sempre E.N.M.C.
RIPARAMETRIZZAZIONE (K - R) VINCOLI SUL MODELLO COMPLETO R PARAMETRI STIMABILI Le soluzioni alle equazioni normali dei modelli ridotti possono non soddisfare E.N.M.C., perch con laggiunta dei vincoli, il sistema cambiato
Figura 20: come usare il modello sovraparametrizzato.
Comunque se si vuole proprio usare il modello sovraparametrizzato bisogna farlo: o sulla base del teorema 5, usando le funzioni stimabili (par.7.3), o riparametrizzarlo per farlo diventare full-rank (par. 7.5) come messo perfettamente in evidenza da Freund (1980) e nella fig.1; usando il modello sovraparametrizzato, uno deve subito decidere se usare le funzioni stimabili o se
170
riparametrizzare il modello (questultima la scelta preferita nei libri di Statistica e DOE): sono 2 strade distinte e ci portano agli stessi risultati come abbiamo visto; bisogna stare attenti a non confonderle. Galetto (1995 e 1996) non impone vincoli al modello dunque dovrebbe seguire la prima strada per lautore citato scrive i modelli ridotti senza derivarli dalle ipotesi nulle (par. 7.4) sulle funzioni stimabili e questa una procedura molto pericolosa perch alla fine non si conosce lipotesi nulla testata e si rischia di imbattersi nelle indesiderate ipotesi parzialmente testabili. chiaro adesso perch il modello sovraparametrizzato uninutile complicazione? We do not believe that the overparameterization is, per se, a source of serious difficulty; it is simply unnecessary...(Jennings e Ward 1982).
171
CAPITOLO 8
METODO G: MODELLI FULL-RANK
8.1 MODELLO CELL MEANS

Although the full-rank approach we advocate will not tell an investigator what hypothesis he ought to test, the approach does provide the conceptual tools... that will enable him to test what he wants to test (Jennings e Ward 1982) Questo modello descritto in Searle (1971), Hocking e Speed (1975), Speed et al.(1978), Urquhart e Weeks (1978), Searle et al. (1981), Jennings e Ward (1982), Searle (1987); esso considerato dagli autori citati sopra lapproccio migliore nellanalisi di ci che chiamano unbalanced data ovvero i dati dei piani non ortogonali. Considerando un qualsiasi piano con N stati di prova con numrosit Ni, il modello, come dice il nome stesso, : Yij = i + ij i=1,...N j = 1, ...Ni si pu scrivere in forma matriciale E(Y) = X* dove contiene gli N parametri i mentre la matrice X, se ci fosse solo un dato negli stati di prova, sarebbe:
1 2 3
....
1 0 0 ... 0
Tabella 68
0 1 0 ... 0
0 0 1 ... 0
0 0 0 ... 0
0 0 0 ... 1
172
Se nello stato di prova i ci sono Ni replicazioni, bisogna replicare la riga relativa allo stato i Ni volte; in questo modo la matrice XT*X delle equazioni normali, di dimensione N*N e diagonale, e il vettore XT*Y sono i seguenti:
1 2 3
....
XT*Y
n1 0 0 .... 0
0 n2 0 ... 0
0 0 n3 ... 0
0 0 0 .... 0
0 0 0 ... nN
T1 T2 T3 ... TN
Tabella 69: equazioni normali del modello completo
La matrice ha rango N, pari al numero dei parametri quindi, secondo ci che abbiamo visto nel capitolo precedente, il modello full-rank essendo ovviamente invertibile la matrice XT*X. La soluzione alle equazioni normali del modello completo semplicissima: 1 = T1/ n1 = y1. 2 = T2/ n2 = y2. .... N = TN/ nN = yN. Si ritrova la regola del Questo per questo infatti la SSreg del modello completo : SSreg = T * XT * Y = (y1.* T1 +y2.* T2 + ......+ yN.* TN) Questo approccio non dice quale ipotesi testare con procedure preconfezionate, obbliga lo sperimentatore a pensare quale combinazione lineare delle medie degli stati di prova lo interessa maggiormente. Per testare lipotesi nulla su queste combinazioni lineari, come al solito si sostituisce lipotesi nel modello. Per fissare le idee riprendiamo lesempio macchina - operatore: MACCHINA 0 OPERATORE 0 OPERATORE 1 64,67 39,35 MACCHINA 1 41,48 41
Il vettore contiene i 4 parametri (00, 10, 01, 11) e la matrice X la seguente:
173
00
10
01
11
1 1 0 0 0 0 0
0 0 1 1 0 0 1
0 0 0 0 1 1 0
0 0 0 0 0 0 1
Tabella 70: matrice X del modello completo
Se vogliamo testare quello che io ho definito essere leffetto della macchina: H0 : 11 + 10 - 01 - 00 = 0 dobbiamo scrivere, come al solito, un modello ridotto E(Y) = Z* ottenendo Z, sostituendo H0 in X; in questo caso:
11 = 01 + 00 - 10 dunque la matrice Z diventa: 00 10 01
1 1 0 0 0 0 1
0 0 1 1 0 0 -1
0 0 0 0 1 1 1
la matrice ZT*Z e il vettore ZT*Y delle equazioni normali del modello ridotto sono:
00
3 -1 1
10
-1 3 -1
01
1 -1 3
ZT*Y 172 48 115
La soluzione del sistema : 00 = 62,1 00 = 47,9 00 = 33,6 che d una SSreg:

174
SSreg = (62,1*172+47,9*48+33,6*115) = 16844,4 che conferma il valore ottenuto con gli altri metodi che abbiamo visto: analisi dei contrast analisi della covarianza regressione col modello overparameterized, usando le funzioni stimabili regressione col modello overparameterized, riparametrizzato Potrei testare tutte le altre ipotesi gi testate con gli altri metodi e riotterrei (principio F1) gli stessi risultati; non lo faccio perch spero che ormai sia chiaro il modo corretto di procedere:
1. 2. 3. 4. 5. Si parte da unipotesi nulla sulle medie degli stati di prova88 La si sostituisce nel modello completo Si calcola la SSreg del modello ridotto Si fa la differenza fra la SSreg del modello completo meno quella del modello ridotto Questa differenza rappresenta il numeratore della F calcolata; il denominatore la stima della varianza della popolazione.
8.1.1 CELL MEANS: GLI ALIAS Con questo modello possibile vedere gli alias come li ho definiti nel par. 4.8: esattamente lo stesso discorso gi fatto per le funzioni stimabili (par. 7.6) perch queste ultime non sono nientaltro che combinazioni lineari delle medie degli stati di prova; sono stimabili solamente quelle combinazioni di medie degli stati che sono stati sperimentati. Con 3 fattori la combinazione lineare: A* = 111+110+101+100-000-001-010-011 stimabile solo se tutti gli 8 stati di prova sono sperimentati almeno una volta, esattamente per come accadeva con le funzioni stimabili. Se abbiamo solo gli stati (100), (010), (001), (111) e prendiamo per buone le mie definizioni di effetto, diciamo che non riesco a stimare gli effetti puri A* e BC*, ma solo lalias A*+BC*. Nulla e nessuno obbliga lo sperimentatore a prendere per buone le mie definizioni di effetto; egli pu costruirsi delle combinazioni lineari delle medie che rappresentano gli effetti dei fattori e interazioni come messo in evidenza da Speed et al.(1978), Searle et al. (1981), Freund (1980), Jennings e Ward (1982). Ad esempio in una situazione irregolare come quella esaminata nel par. 5.4
88
Le uniche che si possono testare come stato dimostrato nel capitolo precedente. 175
bc
abc
c b
ac ab
Figura 21: frazione irregolare 3/4 (John)
io assumo a priori (par. 4.8) che: A* = 111+110+101+100-000-001-010-011 e quindi dico che leffetto medio di A non stimabile perch mancano gli stati di prova (100) e (110), ma sono stimabili gli alias A* + AC* A* + C* ma lo sperimentatore pu benissimo fare altre assunzioni e dire ad esempio che: A* = 2*(111+101) - (000+001+010+011) e testare questa combinazione lineare. Limportante che egli sappia ci che sta testando e che in un piano come quello di figura 1 pu testare al massimo 6 (di cui una rappresenta la media I) combinazioni lineari indipendenti delle medie degli stati di prova. Lalias confonde in qualche modo gli effetti ma se non si definiscono gli effetti, come si fa a sapere quali fattori e interazioni e in che modo sono confusi? Quando si parla di alias bisogna decidere a priori cosa intendiamo per effetto e alias altrimenti si rischia di scrivere delle formule senza conoscerne pi il significato. Per il motivo sopra, ovvero la soggettivit nel decidere cosa rappresenta leffetto dei fattori e interazioni, Freund (1980) scrive: no universally acceptable or correct methodology for handling missing cells has been developed. Io proporr nel cap.9 quella che ritengo una soluzione adeguata ovvero luso del modello full-regression, unito alle mie definizioni di effetto e di alias.
176
8.2 MODELLO FULL-REGRESSION (FR)

Il nome di tale modello preso da Krishnaiah (1980); gli autori che usano il modello FR (senza chiamarlo cos) sono Snee (1973), Daniel (1976), Hahn et al. (1976 e 1978), Hunter (1985), Khuri e Cornell (1987), John (1990), ovvero tutti coloro che usano il metodo di Box-Wilson (par. 8.4) per trovare gli alias: tale metodo si applica infatti col modello full-regression (FR). Questo modello introduce un numero di parametri sempre uguale a quello degli stati di prova; in un esempio con 2 fattori A e B a 2 livelli, abbiamo che il modello FR: (1) yijr = x0 + x1 + B * x2 + AB * x1x2 + ijr (col piano completo)
(che in forma abbreviata potr essere scritto come Y = I + A+ B + AB) la variabile x0 vale sempre +1 perch la media; bisogna poi codificare le variabili x1 e x2: con 2 livelli universalmente accettata la codifica -1 quando il fattore rappresentato dalla variabile al livello basso e +1 quando il livello del fattore al livello alto; notiamo che -1 e +1 sono i coefficienti dei polinomi ortogonali per 2 livelli quando gli stati di prova sono equispaziati. I coefficienti delle variabili rappresentano i parametri da stimare e sono gli effetti dei fattori e interazioni; ad esempio nella (1) il parametro A rappresenta proprio leffetto di A. La (1), se le variabili sono quantitative, pu essere vista come unapprossimazione di una funzione f di 2 variabili x e y, con uno sviluppo di Taylor nellintorno x0 e y0: f ( x , y ) f ( x, y) = f ( x0 , y0 ) + x
2 1 f ( x, y) + * 2 x 2
x 0 , y0
* ( x x0 ) +
f ( x , y ) y
x0 , y0
* ( y y 0 ) +
x0 , y 0
2 * ( y y0 )
x0 , y 0
* ( x x0 )
2 f ( x, y) + x y
x0 , y 0
2 f ( x, y) * ( x x0 ) * ( y y0 ) + y 2
dove xx1 e yx2 nel nostro caso siamo nellintorno dellorigine ovvero: x0 = 0 y0 = 0 e x e y assumono solo i valori -1 e +1. Come si vede gli effetti dei fattori A e B possono essere assimilati alle derivate parziali prime, gli effetti quadratici89 alle derivate seconde, e leffetto dellinterazione alla derivata mista. Dallo sviluppo di Taylor vediamo che la variabile interazione x1x2 in effetti il prodotto fra x1 e x2 ma ci non significa che la derivata mista (AB) sia il prodotto di A e B. Come abbiamo gi visto (par. 6.2.2) il peso(effetto) dellinterazione
89
Nel modello (1) non ci sono perch con 2 livelli si possono testare solo gli effetti lineari. 177
pu essere alto anche quando i pesi (effetti medi) dei fattori sono bassi. Leffetto dellinterazione dunque, per variabili quantitative, di secondo ordine rispetto a quello (lineare) dei fattori alla stessa stregua degli effetti quadratici che sono secondari rispetto agli effetti lineari; penso che laffermazione riportata in Box et al.(1978) a pag.374, Ignoring, say, 3-factor interactions corresponds to ignoring terms of third order in the Taylor expansion, derivi da un ragionamento simile a quello che ho esposto io adesso. Nei piani a 2 livelli, oggetto principale della tesi, si trascurano forzatamente le componenti quadratiche dei fattori quindi uno potrebbe sentirsi legittimato a trascurare anche le interazioni che sono effetti del secondo ordine; a mio parere farebbe un grosso sbaglio perch: il concetto effetto del secondo ordine ha senso solo nellintorno dello sviluppo di Taylor: un concetto puramente puntuale mentre a noi, con i piani fattoriali, interessa studiare il fenomeno in un certo intervallo, se nellintervallo che ci interessa il fenomeno esponenziale, non pensabile trascurare gli effetti del secondo ordine (nemmeno del terzo, del quarto...90) nello sviluppo di Taylor, col modello FR con 2 fattori a 2 livelli si ha sempre: (x-x0) = 1 (y-y0) = 1 dunque: (x-x0)2 = 1 (y-y0)2 = 1 (x-x0)* (y-y0) = 1 il peso degli effetti del secondo ordine (quadratici e interazione) esattamente uguale a quello degli effetti lineari a parte il fattore (1/2) della formula di Taylor. I piani fattoriali a 2 livelli hanno gi il grosso svantaggio di non poter individuare gli effetti parabolici. Non ha quindi nessun senso trascurare le interazioni che invece sono individuabili con tali piani: sarebbe un modo di diminuire volontariamente (e inspiegabilmente) la potenza dei piani fattoriali a 2 livelli: ci pu produrre elevati costi della disqualit (Galetto 1995). Il fatto di usare proprio -1 e +1 pu derivare dai polinomi ortogonali (e in tal caso sarebbe limitato a piani bilanciati), ma anche dalla standardizzazione delle variabili secondo la seguente procedura: supponiamo che un fattore abbia i livelli a e b>a. La media dei 2 livelli (a+b)/2 mentre una misura della loro dispersione (b-a)/2 dunque si pu standardizzare i livelli delle variabili sottraendo la media e dividendo per la dispersione. Mason et al.(1989) e Khuri e Cornell (1987) raccomandano sempre di standardizzare perch diminuisce la correlazione fra le stime dei parametri e il termine costante I. Per i 2 livelli a e b si ottiene:
90
Potrei pensare di trasformare logaritmicamente i dati per rendere lineare la funzione. 178
a +b 2 a' = = 1 ba 2 a +b b 2 b' = =1 ba 2 a
Ovviamente il modello FR ammette, come gli altri, la forma matriciale: E(Y) = X * dove contiene i parametri effetti (I, A, B, AB, C, AC .....), quelli che si stimerebbero col metodo di Yates e X proprio la tabella dei segni che abbiamo introdotto nel par. 4.4, per piani bilanciati, in cui bisognerebbe91 ripetere le righe tante volte quanto la numerosit (costante) degli stati di prova; se la numerosit non pi costante si devono ripetere le righe secondo le numerosit degli stati. Notiamo che il modello FR giustifica pienamente lapplicazione del metodo inverso di Yates per stimare le medie degli stati di prova perch non nientaltro che la moltiplicazione della matrice X per il vettore delle stime di .
Per la prima volta scriviamo un modello i cui parametri sono proprio gli effetti che ci interessano; quindi possiamo sfruttare le propriet notevoli degli stimatori provenienti dalle equazioni normali su un modello full-rank: COV() = (XT*X)-1 * 2 VAR(Y/X0) = X0*(XT*X)-1*X0T
dunque la matrice (XT*X)-1 contiene le varianze e covarianze degli stimatori , a meno del fattore 2: da questa matrice si pu calcolare facilmente la matrice di correlazione ovvero quella contenente i coefficienti di correlazione fra le varie stime: questa matrice sar molto utile per misurare la non ortogonalit; abbiamo per ora un criterio semplicissimo per dire se il piano ortogonale oppure no: basta vedere se la matrice (XT*X)-1 diagonale. Inoltre sappiamo che gli stimatori sono combinazioni lineari delle variabili casuali Y e, guardando la matrice ((XT*X)-1 * XT), siamo in grado di sapere i coefficienti di queste combinazioni lineari (a parte la media le altre stimano tutte dei contrast); in altre parole siamo in grado di sapere come sono calcolati gli effetti:
= ((XT*X)-1 * XT) * Y La matrice ((XT*X)-1*XT) contiene i coefficienti dei contrast dunque, per calcolare la somma dei quadrati associata agli effetti, abbiamo davanti a noi 2 strade equivalenti:
91
In pratica non necessario se le numerosit degli stati sono uguali perch le equazioni normali si semplificano. 179
1. Applicare la formula: C2 SS (C ) = 2n 2 c ni i =1 i ai contrast contenuti nel vettore , dove i ci si capiscono dalla matrice ((XT*X)-1 * XT). 2. Trovare la SSreg del modello completo: SSreg1 = ((XT*X)-1 * XT)*Y e poi quella di un modello ridotto che contiene tutti parametri tranne quello C che ci interessa: SSreg2 = ((ZT*Z)-1 * ZT)*Y e poi fare la differenza: SS(C) = SSreg1 - SSreg2 tutto ci sulla base del teorema 5 del capitolo 7, adattato a modelli full-rank (in cui tutti parametri sono funzioni stimabili) La validit delle 2 strade gi stata dimostrata rispettivamente nei par. 4.3 e 7.2 dunque per il principio F1 dovr dare gli stessi risultati. Verifichiamo questa affermazione applicando il modello FR al solito esempio macchina - operatore. 8.2.1 ESEMPIO MACCHINA - OPERATORE Riportiamo i soliti dati: MACCHINA 0 OPERATORE 0 OPERATORE 1
Tabella 73
MACCHINA 1 41,48 41
64,67 39,35
e scriviamo il modello full-regression: yijr = x0 + x1 + O * x2 + MO * x1x2 + ijr x1 la variabile relativa alla macchina e vale -1 quando losservazione yijr riguarda la prima macchina e +1 quando relativa all seconda macchina; x2 la variabile relativa alloperatore e vale -1 quando losservazione yijr relativa al primo operatore e +1 quando relativa al secondo; la variabile x1x2 quella dellinterazione ed il prodotto di x1e x2. pi comodo usare la forma matriciale: E(Y) = X * contiene i parametri (I, M, O, MO); la matrice X e il vettore Y sono i seguenti:
180
X i i o o m m mo
MO
1 1 1 1 1 1 1
-1 -1 -1 -1 1 1 1
-1 -1 1 1 -1 -1 1
1 1 -1 -1 -1 -1 1
64 67 39 35 41 48 41
Tabella 74: matrice X e vettore Y
La matrice delle covarianze fra gli stimatori (XT*X)-1:

I I M O MO M O MO
5/32 1/32 1/32 1/32
1/32 5/32 1/32 1/32
1/32 1/32 5/32 1/32
1/32 1/32 1/32 5/32
Tabella 75: matrice delle covarianze
essendo il piano non bilanciato le covarianze fra gli stimatori sono non nulle: il fatto che gli stimatori sono correlati significa che le variabili inserite nel modello sono collineari ovvero che esiste una relazione lineare tra di esse: c una ridondanza di informazione secondo quanto spiegato in Mason et al. (1989) .
La non ortogonalit statistica dei piani fattoriali cos ricondotta al problema della multicollinearit nella regressione multipla. Se le variabili sono troppo correlate bisogna eliminare dei termini dal modello: in questo modo le covarianze tra i parametri rimasti diminuiscono e contemporaneamente diminuisce anche la varianza degli stimatori dei parametri rimasti: ci ovvio visto che in presenza di variabili collineari, la varianza di uno stimatore esprime anche la variabilit degli altri stimatori. Per vedere quando le variabili sono troppo correlate bisogna calcolare la matrice di correlazione: lo vedremo pi avanti. In generale per decidere quali variabili togliere dal modello si possono impiegare le tecniche descritte in Mason et al.(1989) (forward selection, backward selection, stepwise iteration). La matrice dei contrast :
181
i I M O MO
mo
1/8 - 1/8 - 1/8 1/8
1/8 - 1/8 - 1/8 1/8
1/8 - 1/8 1/8 - 1/8
1/8 - 1/8 1/8 - 1/8
1/8 1/8 - 1/8 - 1/8
1/8 1/8 - 1/8 - 1/8
1/4 1/4 1/4 1/4
Tabella 76: matrice dei contrast (XT*X)-1*XT
La soluzione dunque92: I = (1/4) * (i + o + m + mo) = 47 M = (1/4) * (m + mo - i - o) = -4,25 O = (1/4) * (o + mo - i - m) = -8 MO = (1/4) * (i + mo - o - m) = 6,25 che corrisponde alle definizioni di effetto che ho dato nel par. 4.8 in cui si prende k=1/2n=1/4; le ipotesi testate sono infatti rispettivamente sui contrast: 11 + 10 - 01 - 00 11 + 01 - 10 - 00 11 + 00 - 01 - 10 Il fattore (1/4), come il lettore accorto ha ormai capito, non influenza la somma dei quadrati associata ai contrast. Tali somme di quadrati sono le seguenti: SS(M) = 115,6 SS(O) = 409,6 SS(MO) = 250 come avevamo gi visto nel par. 5.2 in tab.8. Per lennesima volta un metodo scientificamente corretto conferma i risultati ottenuti con altri metodi e conferma la bont delle definizioni che ho dato nel par. 4.8. Non ho considerato la media I: questa d una SS= 14137,6 diversa93 da quella di tab.4 e 8 del par. 5.2; in tale paragrafo viene fuori da unaltra combinazione lineare: I = 2i + 2m + 2o + mo
92
Le lettere minuscole indicano le medie negli stati di prova.
93
Era successo anche nellesempio a 3 fattori del par. 5.2.3; succede ogni volte che il piano non bilanciato; ci perch nellANOVA la media viene isolata prima dai trattamenti e quindi la somma di tutti dati non tenendo conto della stratificazione. 182
essendo isolata subito rispetto ai trattamenti; la cosa irrilevante tanto non ci interessa testare la media . Abbiamo detto che c unaltra strada per calcolare le somme dei quadrati dei 3 effetti. Bisogna usare dei modelli ridotti; ricordiamo che le somme dei quadrati testano sempre unipotesi lineare (sui contrast). In questo caso le 3 ipotesi nulle da testare sono: H0 : M = 0 H0 : O = 0 H0 : MO = 0 che richiedono dunque i 3 modelli ridotti: Y = I + O + MO Y = I + M + MO Y=I+M+O La SSreg del modello completo , come sempre: SSreg (I+M+O+MO)= T*XT*Y = (47*335 -4,25*(-75)-8*(-105)+6,25*9) = 16960 non pu che confermare il valore gi ottenuto con altri tipi di modello nei cap.6 e 7. 8.2.2 MODELLI RIDOTTI Iniziamo con il modello ridotto non gerarchico: Y = I + O + MO La matrice Z la seguente:
Z I O MO
i i o o m m mo
1 1 1 1 1 1 1
-1 -1 1 1 -1 -1 1
1 1 -1 -1 -1 -1 1
La matrice delle equazioni normali (ZT*Z) e il vettore ZT*Y sono i seguenti:

I O MO ZT*Y
7 -1 -1
-1 7 -1
-1 -1 7
335 -105 9
183
Il lettore particolarmente attento avr notato che quello sopra un sistema equivalente a quello di tab.27 del cap.7: non un caso infatti stiamo testando la stessa ipotesi con un modello diverso. La soluzione numerica ovviamente la stessa: I = 47,85 M = 7,15 O = 7,1 ma il significato dei parametri stimati diverso. Comunque la somma dei quadrati : SSreg = 16844,4 Per cui si ha:
SS(M) = SSreg(I+M+O+MO)-SSreg(I+O+MO) = 115,6
Per quanto riguarda laltro modello ridotto (non gerarchico) Y=I+M+MO, la matrice Z la seguente:
Z I M MO
i i o o m m mo
1 1 1 1 1 1 1
-1 -1 -1 -1 1 1 1
1 1 -1 -1 -1 -1 1
la matrice delle equazioni normali (ZT*Z) e il vettore ZT*Y sono i seguenti:

I M MO ZT*Y
7 -1 -1
-1 7 -1
-1 -1 7
335 -75 9
La soluzione : I = 48,6 M = -2,65 MO = 7,85 SSreg = 16550,4

SS(O) = SSreg(I+M+O+MO)-SSreg(I+M+MO) = 409,6 Lultimo (e il pi interessante) modello ridotto da considerare :
184
Y=I+M+O La matrice Z la seguente:

Z I M O
i i o o m m mo
Tabella 81
1 1 1 1 1 1 1
-1 -1 -1 -1 1 1 1
-1 -1 1 1 -1 -1 1
e d luogo alla seguente matrice delle covarianze (ZT*Z)-1:

I I M O M O
3/20 1/40 1/40
1/40 3/20 1/40
1/40 1/40 3/20
Confrontiamo i risultati sopra con quelli di tab.8, la varianza delle stime diminuita e cos anche la correlazione fra gli stimatori: ci accade perch abbiamo eliminato il parametro MO dal modello e dunque il suo contributo di variabilit alle varianze degli stimatori dei parametri rimasti; se avessimo scritto la matrice delle covarianze per i 2 modelli ridotti precedenti avremmo notato lo stesso fenomeno. Mi pare il caso di rimarcare il contenuto della nota 2 del capitolo 7 ovvero che, usando un modello ridotto, i parametri non sono pi quelli di partenza94 e infatti il loro valore numerico diverso: dunque nella tabella 15 dovremmo scrivere non I, M, O ma I, M, O: ci non fatto per non appesantire la notazione, comunque il lettore si ricordi che ci vale per tutti i modelli ridotti. La matrice ((ZT*Z)-1)*ZT, contenente i coefficienti dei contrast la seguente:
i I M O i o o m m mo
1/10 - 3/20 - 3/20
1/10 - 3/20 - 3/20
3/20 - 1/10 3/20
3/20 - 1/10 3/20
3/20 3/20 - 1/10
3/20 3/20 - 1/10
1/5 1/5 1/5
Tabella 83: matrice dei contrast
che fornisce i valori delle stime:

94
Tranne se il piano ortogonale: gli stimatori sarebbero indipendenti luno dallaltro e il loro valore non cambierebbe se qualche parametro venisse tolto dal modello. 185
I = 45,75 M = -5,5 O = -9,25 e la seguente somma dei quadrati: SSreg = 16710 che conferma i valori ottenuti con gli altri metodi (cap.6 e 7) e fornisce leffetto dellinterazione:
SS(MO) = SSreg(I+M+O+MO)-SSreg(I+M+O) = 250 che conferma i valori ottenuti nei cap.5, 6, 7 e 8. Osserviamo gli stimatori che danno luogo ai valori di M e O riportati sopra95:
M = (3/10)m + (1/5)mo - (1/5)o - (3/10)i = -5,5 O = (3/10)o + (1/5)mo - (1/5)m - (3/10)i = -9,25 e applicando la formula che associa ai contrast una somma di quadrati si trova che: SS(M) = 201,66666 SS(O) = 570,416666 li abbiamo gi incontrati nei cap.5 e 7: sono i contrast impliciti nella procedura di Galetto in cui si ragiona solo su delle somme di quadrati. Ecco come facevo a sapere le ipotesi nulle testate dal metodo di Galetto (1995 e 1996): le avevo gi ricavate usando il modello full-regression ridotto Y=I+M+O , che porta alla tabella 16. Come detto ripetutamente, non c motivo per usarle al posto dei contrast del modello principale (che testano gli effetti come li ho definiti nel par. 4.8) stimati da: M = (1/4) * (m + mo - i - o) = -4,25 O = (1/4) * (o + mo - i - m) = -8 Lunica ragione valida potrebbe essere quella che i contrast sopra sono troppo correlati quindi il loro valore numerico (e il conseguente test F o t) potrebbe essere senza significato. Con il modello full-regression si sa sempre lipotesi lineare testata, basta guardare la matrice ((ZT*Z)-1)*ZT e si capiscono subito i coefficienti dei contrast: molto meglio che usare le funzioni stimabili e il modello sovraparametrizzato. Provenendo da modelli ridotti, mi pare intuitivo pensare che le stime ottenute saranno distorte (biased) dai parametri cancellati dal modello anche se sono meno correlate fra di loro. In questo caso M e O sarebbero distorti dallinterazione MO cancellata dal modello . Bisogna quindi trovare un trade-off fra:
95
Le lettere minuscole indicano le medie degli stati di prova. 186
correlazione e conseguente aumento della varianza degli stimatori e perdita di precisione delle stime distorsione degli stimatori causata dalleliminazione dei termini nel modello Questo compromesso messo in evidenza anche in Hahn et al.(1978). Quando mancano degli stati di prova si costretti ad usare un modello ridotto: gli stimatori usati sono necessariamente distorti: il problema degli alias, messo perfettamente in evidenza dal metodo di Box-Wilson. Esaminiamo due ultimi modelli ridotti per far vedere le soluzioni derivanti dal Questo per questo: Y=I+M Y =I + O consideriamo solo il primo, tanto il discorso uguale per laltro. La matrice Z del primo modello :
Z i i o o m m mo I M
1 1 1 1 1 1 1
-1 -1 -1 -1 1 1 1
mentre la matrice ((ZT*Z)-1)*ZT, contenente i coefficienti dei contrast, la seguente:

i I M i o o m m mo
1/8 - 1/8
1/8 - 1/8
1/8 - 1/8
1/8 - 1/8
1/6 1/6
1/6 1/6
1/6 1/6
Tabella 85: matrice dei contrast
M = (1/6)mo + (1/3)m - (1/4)i - (1/4)o = (1/2)*(y1. - y0.) = -3,95833333 lavevamo gi incontrato nel par. 5.2 (moltiplicato per 2) quindi sappiamo quanto vale la sua somma dei quadrati: SS(M) = 107,4405 essa equivale ovviamente a: SS(I+M) - SS(I) = 16139,58333 - 16032,14286 = 107,4405 Con il modello Y = I+O avremmo trovato: O = (1/6)/mo + (1/3)o - (1/4)m - (1/4)i = (1/2)*(y.1 - y.0) = -8,33333
187
SS(O) = 476,19048 equivalente a: SS(I+O) - SS(I) = 16508,33333 - 16032,14286 = 476,19048 Il metodo del Questo per questo considera solo un fattore e vede i dati stratificati in dei macrostati individuati dai livelli dellunico fattore considerato: con 2 livelli il contrast la differenza (o un suo multiplo) fra le medie dei 2 macrostati. Non ha senso dire che il Questo per questo fornisce risultati sbagliati; fornisce dei risultati che testano una particolare ipotesi nulla, che ignora la presenza degli altri fattori; probabile che non sia di interessa per lo sperimentatore (in effetti coincide con la mia definizione di effetto solo in piani bilanciati): ci non autorizza Galetto (1996 pag. 289) a dire che: Quando la situazione non bilanciata il metodo del questo per questo non funziona Il metodo funziona sempre nel senso che testa sempre la stessa ipotesi sia in casi bilanciati che no. Ricordiamo che lo sperimentatore a decidere cosa vuole testare. Nei nested design lipotesi pi logica da testare sul fattore principale proprio quella derivante dal Questo per questo come affermano anche Speed et al.(1978). 8.2.3 ANALISI ORTOGONALE: A PRIORI ORDERING un argomento che avevamo gi visto nel par. 7.4.4 in cui per ci eravamo ristretti ad un ordine gerarchico fra i fattori. Con il modello full-regression si possono usare tranquillamente modelli non gerarchici quindi si pu scegliere qualsiasi ordine: nell caso macchina-operatore, se pensiamo ad esempio che linterazione MO sia pi importante di M, a sua volta pi importante di O, c un ordine preferenziale: I, MO, M, O e quindi si pu decomporre ortogonalmente la SStr: SStr = [SS(I+MO)-SS(I)]+[SS(I+M+MO)-SS(I+MO)]+[SS(I+M+O+MO)-SS(I+MO+O)] = SS(MO) + SS(M) + SS(O) = SS(I+M+O+MO)-SS(I) Osservando le matrici ((ZT*Z)-1)*ZT dei 3 modelli: Y = I + MO Y = I + M + MO Y = I + M + O + MO si capiscono quali sono i contrast MO, M, O associati alle somme dei quadrati nella decomposizione ortogonale; in questo modo si ottengono 3 contrast ortogonali. in questo
188
modo che ho trovato i 2 set di contrast ortogonali nel par. 5.2.1 derivanti il primo dallordine: M, O, MO e il secondo dallordine: O, M, MO Nellanalisi ortogonale il primo contrast sempre quello derivante dal Questo per questo. I 2 set di contrast del par.5.2.1 sono facilmente ricavabili numericamente dalle matrici ((ZT*Z)-1)*ZT dei modelli ridotti che abbiamo scritto nel par. 8.2.2.
8.3 ESEMPIO A 3 FATTORI

Riprendiamo i dati del par. 5.2.3:
Stati di prova i a b ab c ac bc abc Tabella 86 76 80 86 79 70 79 78 82 75 78 92 77 69 83 74 85 79 81 90 80 73 77 71 76 Risposte Medie 75,5 79,666667 89,333333 77,8 70,75 81 76 82
Il modello full-regression da usare : yijkr = + x1 + x2 + Cx3 + ABx1x2 + Cx1x3 + BCx2x3 +ABCx1x2x3 + ijkr in forma matriciale: E(Y) = X * contiene gli 8 parametri (I, A, B, C, AB, AC, BC, ABC) e X piuttosto grande avendo sempre96 un numero di righe uguale a quello dei dati totali, in questo caso 24:
96
Come gi detto, se le numerosit degli stati sono uguali, la matrice si semplifica e ha un numero di righe pari a quello degli stati di prova. 189
X i i a a a b b b ab ab ab ab ab c c c c ac ac bc bc abc abc abc
I 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
A -1 -1 1 1 1 -1 -1 -1 1 1 1 1 1 -1 -1 -1 -1 1 1 -1 -1 1 1 1
B -1 -1 -1 -1 -1 1 1 1 1 1 1 1 1 -1 -1 -1 -1 -1 -1 1 1 1 1 1
AB 1 1 -1 -1 -1 -1 -1 -1 1 1 1 1 1 1 1 1 1 -1 -1 -1 -1 1 1 1
C -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 1 1 1 1 1 1 1 1 1 1 1
AC 1 1 -1 -1 -1 1 1 1 -1 -1 -1 -1 -1 -1 -1 -1 -1 1 1 -1 -1 1 1 1
BC 1 1 1 1 1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 1 1 1 1 1
ABC -1 -1 1 1 1 1 1 1 -1 -1 -1 -1 -1 1 1 1 1 -1 -1 -1 -1 1 1 1
Y 76 75 80 78 81 86 92 90 79 77 80 77 76 70 69 73 71 79 83 78 74 82 85 79
Tabella 87: matrice X e vettore Y
Il modello full-regression richiede, come tutti gli altri tipi di modelli, che si replichino le righe relative agli stati tante volte quanto la numerosit dello stato di prova; Fornasieri (1995), peraltro inconsapevole delle differenze fra modello sovraparametrizzato e full-regression, non si rende conto di questo importante fatto nelluso del metodo di BoxWilson e ragiona come se le numerosit degli stati fosse sempre costante. La matrice delle covarianze la seguente:
I I A B AB C AC BC ABC A B AB C AC BC ABC
0,046094 -0,00339 -0,00339 -0,00599 0,003385 0,00599 0,00599 -0,00703 -0,00339 0,046094 -0,00599 -0,00339 0,00599 0,003385 -0,00703 0,00599 -0,00339 -0,00599 0,046094 -0,00339 0,00599 -0,00703 0,003385 0,00599 -0,00599 -0,00339 -0,00339 0,046094 -0,00703 0,00599 0,00599 0,003385 0,003385 0,00599 0,00599 -0,00703 0,046094 -0,00339 -0,00339 -0,00599 0,00599 0,003385 -0,00703 0,00599 -0,00339 0,046094 -0,00599 -0,00339 0,00599 -0,00703 0,003385 0,00599 -0,00339 -0,00599 0,046094 -0,00339 -0,00703 0,00599 0,00599 0,003385 -0,00599 -0,00339 -0,00339 0,046094
190
Le covarianze sono ovviamente non nulle perch il piano non bilanciato. Non riporto la matrice dei contrast ((XT*X)-1)*XT perch troppo grande (dimensione 8*24) comunque facilmente calcolabile. Si pu vedere che le soluzioni delle equazioni normali: = ((XT*X)-1)*XT*Y sono97: I = (1/8)*(i+a+b+c+ab+bc+ac+abc) = 79,0063 A = (1/8)*(a+ab+ac+abc-i-b-c-bc) = 1,11042 B = (1/8)*(b+ab+bc+abc-i-a-c-ac) = 2,27708 C = (1/8)*(c+bc+ac+abc-i-b-a-ab) = -1,5688 AB = (1/8)*(ab+c+abc+i-a-b-ac-bc) = - 2,4937 AC = (1/8)*(ac+b+abc+i-a-c-ab-bc) = 2,95208 BC = (1/8)*(bc+a+abc+i-c-b-ac-ab) = -0,7146 ABC = (1/8)*(abc+a+b+c-i-ab-ac-bc) = 1,43125 sono esattamente i contrast prodotti dal metodo di Yates (tab.11 del par.5.2.3 nella IV colonna) a parte il fattore (1/8) che non influenza le somme dei quadrati associate ai contrast; si sono quindi stimati gli effetti cos come li ho definiti nel par. 4.8, ponendo k=1/2n=1/8 SS(A) SS(B) SS (AB) SS(C) SS(AC) SS(BC) SS(ABC)
Tabella 89
26,75037665 112,4904896 134,9161017 53,39067797 189,0667608 11,07806026 44,44152542
che avevamo gi trovato nel par. 5.3.2 applicando la formula:

SS (C ) = C2 2n ci2 n i =1 i
ai contrast forniti dal metodo di Yates. Questa volta in pi possiamo conoscere subito la correlazione fra i vari contrast dalla matrice (XT*X)-1 e, ricavando la matrice di correlazione, possiamo misurare la non ortogonalit, come vedremo in seguito.
97
Le lettere minuscole indicano le medie negli stati di prova. 191
I risultati di tabella 22 si possono anche ottenere facendo la differenza fra la SSreg del modello completo: SSreg = T*XT*Y = 149514,61666666 e la SSreg dei modelli ridotti che contengono tutti parametri tranne quello che si vuole calcolare; ad esempio: SS(AB) = SSreg(I+A+B+C+AB+AC+BC+ABC) - SSreg(I+A+B+C +AC+BC+ABC) gli effetti dei fattori e interazioni vengono calcolati a partire dal modello pi completo, come richiede il teorema 5 del cap.7. Ecco perch, a parte linterazione ABC tutti gli altri effetti sono diversi da quelli presentati in tabella 24 nel par. 7.4.4. Le somme di quadrati presentate in quella tabella sono tutte ottenute da modelli ridotti; usando i corrispondenti modelli full-regression si riesce a capire che cosa si sta testando. Ad esempio abbiamo le 3 interazioni del primo ordine calcolate, ad esempio, a partire dal modello Y=I+A+B+C+AB+AC+BC (ultima colonna della tab.24 del cap.7): (1) SS(AB) = SSreg(I+A+B+C+AB+AC+BC) - SSreg(I+A+B+C +AC+BC) = 147,3249 (2) SS(AC) = SSreg(I+A+B+C+AB+AC+BC) - SSreg(I+A+B+C +AB+BC) = 203,8711 (3) SS(BC) = SSreg(I+A+B+C+AB+AC+BC) - SSreg(I+A+B+C +AC+AB) = 8,1021 Nel cap.7 sono state ricavate con il metodo di Galetto quindi non sappiamo cosa testano. Usando il modello ridotto Y=I+A+B+C+AB+AC+BC in forma full-regression, calcoliamo la stima dei parametri con la solita formula: = ((ZT*Z)-1*ZT)*Y dalla matrice ((ZT*Z)-1*ZT)98 capiamo che la (1), la (2) e la (3) testano rispettivamente le seguenti ipotesi nulle: 82*111 + 95*110 + 82*001 + 95*000 - 95*100 -95*010 -82*101 -82*011 = 0 95*111 + 82*101 + 95*010 + 82*000 - 82*100 -82*001 -95*110 -95*011 = 0 95*111 + 82*011 + 95*100 + 82*000 - 82*010 -82*001 -95*110 -95*101 = 0 questo si pu verificare applicando la formula che associa una somma di quadrati al contrast. un contrast. Le 3 ipotesi sopra sono quelle implicite nellapplicazione del metodo experimental design (Cap.7), ma chi usa tale metodo sa che si stanno testando le 3 ipotesi sopra?...Facciamo ancora un esempio di risultato fornito dal metodo experimental design: la somma dei quadrati associata ad A, calcolata dal modello Y=I+A+B+C (III colonna della tab.24 del cap.7):
98
Non la scrivo perch troppo grossa ma penso di avere dato tutti gli elementi per ricavarla. 192
SS(A) = SSreg(I+A+B+C) - SSreg(I+B+C) = 3,87837 osservando la matrice ((ZT*Z)-1*ZT) del modello ridotto Y=I+A+B+C, vediamo che si sta testando il contrast: 1,3295*111+1,4772*101+1,3295*100+1,5625*110-1,8920*010-1,4772*001-000-011 = 0 si pu di nuovo verificare con la formula della somma dei quadrati del contrast. Scrivendo i modelli ridotti full-regression quindi possibile trovare tutte le ipotesi testate dalla tabella 24 del cap.7, come avevamo gi anticipato. 8.3.1 QUANTI MODI CI SONO PER CALCOLARE LEFFETTO DI A? ...e degli altri fattori e interazioni? Soffermiamoci sullesempio a 3 fattori e limitiamoci al fattore A visto che il ragionamento identico per gli altri fattori e interazioni. Il lettore che ha compreso lutilizzo del modello full-regression avr capito che ad ogni modello ridotto contenente leffetto A (e la media I), associato un particolare contrast rappresentante leffetto A: per conoscere il contrast sufficiente osservare la matrice ((ZT*Z)-1*ZT) del modello ridotto. Non bisogna prendere in considerazione i modelli che non contengono la media I perch in essi A sarebbe confuso con la media I, e quindi tali modelli non danno luogo a un contrast per A. Siamo dunque in grado di rispondere alla domanda:
Quanti contrast possono essere scelti a rappresentare leffetto di A? perch essa equivalente a: Quanti modelli si possono costruire, contenenti il fattore A (e la media I)? Proviamo a rispondere enumerando i vari modelli quando essi contengono 2,3....8 parametri; se nel modello ci sono solo 2 parametri, lunico modello contenente A : (1) Y = I+A Quando i modelli contengono 3 parametri, quanti modelli contenenti A si possono pensare? Posso aggiungere al modello (1) 1 dei 6 parametri non presenti quindi il numero equivalente a quello delle combinazioni di 1 elemento su 6, ovvero 6. Con 4 parametri il numero uguale alle combinazioni di 2 elementi su 6 e con k parametri uguale al numero di combinazioni di (k-2) elementi su 6. Dunque, indicando con COMB(i,j) il numero di combinazioni di j elementi su i, il numero totale di modelli contenenti A che si riescono a costruire :
COMB(6, i ) = (1+1)6 = 64
i =0
193
a ognuno di questi modelli associato un contrast che contrappone le medie degli stati di prova (a, ab, ac, abc) e (i, c, b, bc): la tabella 24 del cap.7 presentava 5 di questi 64 modi per calcolare leffetto di A, precisamente quelli che coinvolgono solo modelli gerarchici: usando anche quelli non gerarchici si arriva a 64 modelli, come dimostrato sopra. Vediamo da quali modelli derivano i contrast per A pi usati in letteratura: SS(I+A) SS(I+A+B) SS(I+A+C) SS(I+A+B+C) SS(I+A+B+C+BC) SS(I+A+B+C+AB+AC+BC+ABC) Questo per questo Metodo di Galetto??? Metodo di Galetto??? Experimental design Modo pi completo usando solo modelli gerarchici Full-regression (modo pi completo)
Spero che ormai sia chiaro che la mia definizione di effetto (par. 4.8) corrisponde alluso dellultimo dei modelli elencati sopra, usando k=2n=8.
Quando le numerosit degli stati sono uguali (piano ortogonale), questi 64 contrast diventano tutti uguali quindi non esiste il problema di definire chiaramente cosa intendiamo per effetto di A. Quando le numerosit degli stati sono diverse (piano non ortogonale), i 64 contrast sono, in generale, diversi99 fra di loro e quindi dobbiamo per forza definire cosa l effetto di A.
Solo dopo che si sono definiti chiaramente gli effetti, si pu dire che un contrast va bene e gli altri no; e comunque questultima affermazione subordinata alla validit della definizione di effetto data.
8.4 METODO DI BOX-WILSON (1951)

Tale metodo lunico strumento di mia conoscenza che daiuto nellidentificazione della struttura degli Alias per qualunque tipo di piano; grazie a questo metodo che mi venuta lidea di associare la struttura degli Alias a un sottospazio vettoriale di dimensione pari al numero degli stati di prova100; grazie a questo metodo che si riesce a trovare una base per quel sottospazio vettoriale. Si pu
99
Il lettore che conosce lalgebra sa che per al massimo 8 di questi 64 contrast saranno algebricamente indipendenti. Mostreremo tutto ci nel capitolo 9. 194
100
applicare solo su modelli full-regression e, sostanzialmente, collega la struttura degli Alias al ben noto lack of fit della regressione. Tale metodo presuppone: luso del modello full-regression le definizioni di effetto e alias che ho dato nel par. 4.8 Y=X*+e E(Y) = X *
dove = E(b)
Effettuiamo una partizione dei parametri (e conseguentemente degli stimatori) del modello in [1, 2] e conseguentemente della matrice X in [X1, X2] e consideriamo il modello ridotto che contiene solo i parametri 1 a cui corrispondono gli stimatori b1: Y = X1* 1 + e rispetto a quello pi completo che, dopo la partizione, diventa: Y = X1* 1 + X2 * 2 + e Ci sono situazioni in cui siamo costretti a usare un modello ridotto: quando mancano degli stati di prova in un piano sperimentale; se ho p stati di prova posso usare solo p parametri nel modello perch se ne metto di pi non aggiungo comunque delle equazioni normali linearmente indipendenti al modello e quindi ottengo una SS di quel modello uguale a quella del modello con p parametri101: questo fatto molto importante, ribadito in Actis (1995) a pag.310 ma purtroppo ignorato da Fornasieri (1995) nellanalisi del caso Iveco. Continuiamo la spiegazione del metodo Box-Wilson scrivendo le equazioni normali sul modello ridotto (lunico che possiamo usare quando mancano stati di prova come spiegato sopra): b1 = (X1T * X1)-1 * X1T * Y ma qual il valore atteso degli stimatori dei parametri che crediamo di stimare? E(b1) = (X1T * X1)-1 * X1T * E(Y) noi sappiamo qual il valore atteso di Y, esso dipende anche dai parametri 2 attraverso la matrice X2, ignorati nel modello ridotto (ma essi esistono per il principio F1): E(Y) = X1* 1 + X2 * 2 per cui abbiamo che il valore atteso degli stimatori b1 : E(b1) = (X1T * X1)-1 * X1T * X1* 1 + (X1T * X1)-1 * X1T * X2 * 2
101
Questo deriva dai teoremi del cap.7 195
E(b1) = 1 + (X1T * X1)-1 * X1T * X2 * 2 dove (X1T*X1)-1*X1T*X2 la matrice degli Alias; questo un risultato di eccezionale importanza trovato da Box e Wilson nel 1951 e che ho visto citato da molti autori, a cominciare da Draper e Smith (1966) e per finire a Bisgaard (1993) che lo usa per trovare le colonne generatrici dei piani fattoriali frazionati. Fornasieri (1995), a mio parere con poco stile, cita questo risultato con un titolo ambiguo, Un metodo per definire la struttura degli alias (pag. 81) senza dire che il metodo di Box e Wilson. Inoltre a pag. 82 dimostra di non averne capito i fondamenti quando dice che X non la matrice derivante dalle equazioni normali: invece essa deriva proprio dalle equazioni normali se scrivo i modelli in forma full-regression, non un problema di codifica (-1 e +1 al posto di 0 e 1 come sostiene Fornasieri), i vettori e le matrici con cui lavoro non contengono affatto simboli ma numeri che derivano algebricamente dalle equazioni normali e che mi servono per effettuare le stime numeriche dei parametri; a seconda della forma che uso nel modello ottengo -1 e +1 oppure 0 e 1. La mancata comprensione del metodo di Box-Wilson porta Fornasieri (1995) a fornire unanalisi del caso Iveco (cap.10) completamente errata. Applichiamo il metodo BW a un piano ridotto molto semplice per far vedere che si riottiene la struttura degli alias, intesa in maniera tradizionale.
bc
abc
c b
ac ab
Figura 22: frazione regolare I+ABC
Siamo costretti a usare un modello ridotto, perch abbiamo solo 4 stati di prova: nel modello possiamo inserire solo 4 parametri di cui uno deve essere forzatamente la media I. Il modello completo sarebbe: Y = I+A+B+C+AB+BC+AC+ABC
196
con la seguente matrice X:

I a b c abc 1 1 1 1 A 1 -1 -1 1 B -1 1 -1 1 AB -1 -1 1 1 C -1 -1 1 1 AC -1 1 -1 1 BC 1 -1 -1 1 ABC 1 1 1 1
Se provassimo a scrivere le equazioni normali full-regression sul modello completo troveremmo la matrice XT*X non invertibile, perch il modello full-regression completo usato in un piano ridotto diventa un modello non full-rank, quindi siamo costretti ad usare un modello ridotto; ad esempio: Y=I+A+B+C con la matrice X1, cos composta:
I a b c abc 1 1 1 1 A 1 -1 -1 1 B -1 1 -1 1 C -1 -1 1 1
La matrice X2 relativa ai parametri che sono stati cancellati dal modello (AB, AC, BC, ABC):
AB a b c abc -1 -1 1 1 AC -1 1 -1 1 BC 1 -1 -1 1 ABC 1 1 1 1
La matrice degli alias (X1T*X1)-1*X1T*X2 la seguente:

AB I A B C 0 0 0 1 AC 0 0 1 0 BC 0 1 0 0 ABC 1 0 0 0
da cui si capisce che la struttura degli alias conferma quella ben nota, che abbiamo gi visto nel cap.4:
197
I +ABC A+BC B+AC C+AB quindi non si stimano i parametri del modello ridotto I, A, B, C ma i 4 alias sopra che sono combinazioni lineari degli 8 parametri originari del modello. Le stime degli alias possono essere calcolate numericamente (contrariamente a ci che afferma Fornasieri (1995) a pag.82) dal vettore: (X1T*X1)-1*X1T*Y Ho usato il modello Y=I+A+B+C, e se usassi un altro modello, ad esempio Y=I+A+B+AC? Fornasieri (1995) non si pone questa importante domanda e crede che ci sia un modello giusto, unico, da usare per ogni piano; ci vero se la frazione regolare come in questo caso: infatti se in questo caso (a,b,c,abc) si provasse ad applicare il metodo BW al modello Y=I+A+B+AC, si vedrebbe che la matrice (X1T*X1) non invertibile. Quando invece si hanno frazioni irregolari ci sono tanti modelli che vanno bene, ciascuno che fornisce una diversa struttura degli alias: queste considerazioni sono alla base della mia teoria degli alias del cap.9. 8.4.1 MODELLI RIDOTTI COL PIANO COMPLETO Nel paragrafo precedente abbiamo visto che siamo costretti ad usare un modello ridotto; quando il piano completo, possiamo sempre usare il modello completo ma se gli stimatori sono troppo correlati possiamo usare un modello ridotto; le stime saranno distorte dai parametri cancellati dal modello ridotto, quindi si stimano degli alias e non gli effetti puri di fattori e interazioni. Per chiarire questo importante punto rifacciamoci al solito esempio macchina operatore. Nella tabella 8 abbiamo scritto le covarianze (a meno del fattore 2) fra gli stimatori dei parametri del modello completo:
I I M O MO M O MO
5/32 1/32 1/32 1/32
1/32 5/32 1/32 1/32
1/32 1/32 5/32 1/32
1/32 1/32 1/32 5/32
Se cancelliamo il parametro MO, abbiamo visto che le covarianze fra gli stimatori e le loro varianze diminuiscono (tab.15):
198
I I M O
3/20 1/40 1/40
1/40 3/20 1/40
1/40 1/40 3/20
ma gli stimatori non sono pi quelli di partenza, essendo distorti dal parametro cancellato dal modello MO. Per vedere in che misura presente questa distorsione scriviamo la matrice X1 del modello ridotto Y = I+M+O
X1 I M O
i i o o m m mo
1 1 1 1 1 1 1
-1 -1 -1 -1 1 1 1
-1 -1 1 1 -1 -1 1
Labbiamo gi vista nella tabella 10, dove si chiamava Z. La matrice dei parametri cancellati X2:
MO
1 1 -1 -1 -1 -1 1 La matrice degli alias (X1T*X1)-1*X1T*X2 :

MO I M O
- 1/5 - 1/5 - 1/5
dunque le somme dei quadrati (che sono quelle che si troverebbero col metodo di Galetto): SS(M) = 201,66666 SS(O) = 570,416666
199
in realt sono associate non agli effetti puri M e O ma ai 2 alias:

M = M-(1/5)MO O = O-(1/5)MO
Tutto ci valido se si assumono le definizioni di effetto e alias che ho dato nel par. 4.8; il fatto di usare il metodo di Box-Wilson (BW) presuppone tali definizioni anche se non tutti se ne rendono conto. Le definizioni che ho dato consentono un uso algebrico degli effetti e degli alias; verifichiamolo numericamente. Con il modello completo abbiamo trovato nel par. 8.2.1 che: M = -4,25 O = = -8 MO = 6,25 mentre con quello ridotto Y=I+M+O M= M-(1/5)MO = -5,5 O= O-(1/5)MO = -9,25 Si vede che i risultati ottenuti sono perfettamente congruenti. Avendo il piano completo siamo in grado di stimare tutte gli effetti puri e quindi anche delle loro combinazioni lineari come mostrato sopra. Le somme dei quadrati calcolate con il Questo per questo sono: SS(M) = 107,4405 SS(O) = 476,1905 sono relative ai 2 alias: M= M - (1/6)O - (1/6)MO O = O - (1/6)M - (1/6)MO per verificarlo basta scrivere la matrice degli alias dei 2 modelli ridotti Y=I+M e Y=I+O. Riprendiamo anche lesempio con 3 fattori per fornire qualche altro dato numerico sugli alias senza peraltro scrivere le matrici che sarebbero un po troppo grandi e che comunque si possono calcolare facilmente con laiuto di un foglio elettronico. Ad esempio per sapere a quale alias associata la somma di quadrati: SS(A) = SS(I+A)-SS(I) = 25,18531 devo scrivere la matrice degli alias del modello ridotto Y=I+A; posso supporre che la stima di A sar distorta da tutti gli altri parametri cancellati dal modello ridotto e infatti si trova che: A = A+(23/143)B+(10/143)AB-(23/143)C-(10/143)AC+(14/143)BC-(25/143)ABC
200
Per sapere a quale alias si riferisce la somma dei quadrati: SS(A) = SS(I+A+B+C) - SS(I+A+B) bisogna scrivere la matrice degli alias del modello ridotto Y=I+A+B+C; si trova che: A = A+73/945AB-73/945AC+116/945BC-25/189ABC Per trovare le determinazioni gli stimatori degli alias scritti sopra bisogna calcolare il vettore (X1T*X1)-1*X1T*Y. A ogni modello ridotto contente il parametro X associato un alias contenente X, esattamente cos come vi associato un contrast (par. 8.3): ma gli alias non sono nientaltro che dei contrast (a parte la media I) come vedremo nel cap.9.
8.5 METODO DI BOX-WILSON APPLICATO A PIANI RIDOTTI IRREGOLARI

Nel paragrafo precedente abbiamo applicato il metodo BW ai piani completi in cui si possono sempre stimare gli effetti puri non aliased; ci di interesse solo quando gli stimatori degli effetti puri sono troppo correlati fra loro e quindi pu essere utile usare un modello ridotto. In generale molto pi interessante usare il metodo BW quando i piani sono ridotti e in particolare quando si ha a che fare con delle frazioni irregolari in cui il concetto classico di struttura degli alias si rivela decisamente inadeguato. Quali sono queste frazioni irregolari? Ne abbiamo viste alcune nel capitolo 5: piano non geometrico di Plackett-Burman a 12 stati, saturated (11 fattori) e non saturated (5 fattori) 3/4 di John 3/8 5/8 7/8 Sono le frazioni studiate anche da Fornasieri (1995).Troviamo la struttura degli alias di questi piani applicando il metodo di Box-Wilson.
201
8.5.1 PIANI NON GEOMETRICI DI PLACKETT-BURMAN Iniziamo con quello a 12 stati di tabella 17 del cap.5, in cui abbiamo supposto di voler studiare 5 fattori. La matrice X1 del modello full-regression la tabella dei segni che avevamo visto nel capitolo 5 ovvero:
I ac abd bce acd abde abce bcd cde de ae b i A B C D E ? ? ? ? ? ?
1 1 1 1 1 1 1 1 1 1 1 1
1 1 -1 1 1 1 -1 -1 -1 1 -1 -1
-1 1 1 -1 1 1 1 -1 -1 -1 1 -1
1 -1 1 1 -1 1 1 1 -1 -1 -1 -1
-1 1 -1 1 1 -1 1 1 1 -1 -1 -1
-1 -1 1 -1 1 1 -1 1 1 1 -1 -1
-1 -1 -1 1 -1 1 1 -1 1 1 1 -1
1 -1 -1 -1 1 -1 1 1 -1 1 1 -1
1 1 -1 -1 -1 1 -1 1 1 -1 1 -1
1 1 1 -1 -1 -1 1 -1 1 1 -1 -1
-1 1 1 1 -1 -1 -1 1 -1 1 1 -1
1 -1 1 1 1 -1 -1 -1 1 -1 1 -1
Tabella 90: PB non geometrico non saturated, a 5 fattori con 12 stati
Se ci fossero diverse ripetizioni per gli stati di prova bisognerebbe replicare le righe tante volte quanto la numerosit dello stato. Come avevamo gi detto, gli ultimi 6 contrast non rappresentano nessun fattore o interazione noti. E allora perch si usano quei contrast? Perch sono ortogonali fra di loro e con i contrast dei 5 fattori: luso di una matrice di Hadamard che garantisce questa propriet (cap.5). Nel cap.7 ho detto che bisogna stare molto attenti ortogonalizzazione perch si rischia di avere dei contrast ortogonali che non interessano lo sperimentatore. Applicando il metodo BW riusciamo a scoprire che alias rappresentano gli ultimi 6 contrast. Scriviamo la matrice X2, valida se la numerosit degli stati di prova costante:
A A A A B B B C C D A A A A A A B B B C A A A B C D E C D E D E E B B B C C D C C D D B B B C D E D E E D E E E C C D D E E A C D E 1 1 1 -1 -1 -1 1 -1 1 1 B C D E -1 1 -1 1 -1 -1 -1 -1 1 -1 A B C D E -1 1 1 1 -1 -1 1 1 -1 -1 202
ac abd bce acd abde abce bcd cde de ae
-1 1 -1 -1 1 1 -1 1 1 -1
1 -1 -1 1 -1 1 -1 -1 1 -1
-1 1 1 1 1 -1 -1 -1 -1 -1
-1 -1 -1 -1 1 1 1 -1 -1 1
-1 -1 1 -1 -1 1 1 -1 1 1
1 1 -1 -1 1 -1 1 -1 -1 1
1 -1 1 1 1 1 -1 -1 -1 -1
-1 -1 -1 1 -1 -1 1 1 -1 1
-1 1 1 -1 -1 1 -1 1 -1 -1
1 -1 -1 -1 1 -1 -1 1 1 -1
-1 -1 -1 -1 -1 1 -1 1 -1 1
1 1 1 -1 1 -1 -1 1 1 1
1 -1 -1 1 1 1 1 1 1 -1
-1 -1 1 1 -1 -1 -1 -1 1 1
-1 1 -1 -1 -1 1 1 -1 1 -1
1 -1 1 -1 1 -1 1 -1 -1 -1
1 -1 -1 -1 -1 -1 1 -1 1 -1
1 1 1 1 -1 1 -1 -1 1 1
-1 -1 -1 1 1 -1 -1 -1 -1 1
1 1 -1 -1 -1 -1 -1 1 -1 1
1 -1 1 -1 -1 -1 -1 1 -1 -1
1 1 -1 1 -1 1 1 1 -1 1
-1 -1 1 1 1 -1 1 1 1 1
b i
-1 1 1 1 -1 -1 -1 1 1 1 1 1 1 -1 -1 -1 1 1 1 -1 -1 -1 -1 1 -1 1 1 1 1 1 1 1 1 1 1 1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 1 1 1 1 1 -1
Tabella 91: matrice X2
Calcolando la matrice degli alias (X1T * X1)-1 * X1T * X2 si trova la seguente struttura degli alias, gi riportata in Fornasieri (1995) e in Box e Meyer (1993): I + interazioni di ordine superiore A + (1/3)*(-BC+BD+BE-CD-CE-DE) + interazioni di ordine superiore B + (1/3)*(-AC+AD+AE-CD+CE-DE) + interazioni di ordine superiore C + (1/3)*(-AB+AD+AE-CD+CE-DE) + interazioni di ordine superiore D + (1/3)*(AB-AC-AE-BC-BE-CE) + interazioni di ordine superiore E + (1/3)*(AB-AC-AD+BC-BD-CD) + interazioni di ordine superiore (1/3) * (-AB+AC-AD+AE+BC-BD-BE+CD-CE-DE) + interazioni di ordine superiore (1/3) * (-AB-AC-AD+AE-BC+BD-BE+CD-CE-DE) + interazioni di ordine superiore (1/3) * (AB+AC-AD-AE-BC-BD-BE-CD+CE+DE) + interazioni di ordine superiore (1/3) * (-AB-AC-AD-AE+BC+BD-BE-CD-CE-DE) + interazioni di ordine superiore (1/3) * (-AB-AC+AD-AE-BC-BD-BE+CD+CE-DE) + interazioni di ordine superiore (1/3) * (-AB+AC+AD-AE-BC-BD+BE-CD-CE+DE) + interazioni di ordine superiore La struttura completa la seguente, indipendente102 dalla numerosit dei 12 stati di prova:
A B A C A D A E B C B D B E C D C E D E A B C
-0 - 1/3 -0 0
A B D
1/3 0 0 0 1/3 1/3 1/3
A B E
A C D
A C E
A D E
B C D
B C E
B D E
C D E
A B C D
A B C E
1/3
A B D E
1/3
A C D E
B C D E
A B C D E
0 1/3 1/3 1/3 0 -0 -0 0 2/3 -0 0 - 1/3
I A B C D E 1 2 3 4 5 6
0 0 - 1/3
0 0
0 0 1/3
-0 1/3
-0 0
0 1/3 0
-0
1/3 - 1/3 - 1/3 - 1/3 - 1/3 0 1/3 1/3 0 1/3 -0 0 0 1/3 1/3 0 1/3 -0 1/3 0 -0 - 1/3 1/3 1/3 -0 -0 0 -0 - 1/3
1/3 - 1/3 - 1/3 - 1/3 1/3 0 1/3 1/3 - 1/3 -0 -0 1/3 1/3 1/3 1/3 1/3
1/3 - 1/3 0 - 1/3 1/3 0 0 0 0 -0
0 - 1/3
1/3 - 1/3 - 1/3 - 1/3 0 - 1/3 1/3 0 1/3 - 1/3 0 - 1/3 0 0 1/3 1/3
1/3 - 1/3 - 1/3 1/3 0 0 0 0 0
0 - 1/3 1/3 - 1/3 - 1/3 1/3
-0 - 1/3 - 1/3 - 1/3 - 1/3 0 0 1/3 0 - 1/3
0 - 1/3 - 1/3 0 1/3
0 - 1/3 1/3 - 1/3
0 - 1/3 1/3 1/3 1/3 1/3
0 - 1/3 -0 1/3
0 - 1/3 - 1/3 1/3 - 1/3 0 0 -0 0 0 -0 0 2/3 0 0
0 - 1/3 - 1/3
0 - 1/3
0 - 1/3
0 - 1/3
-0 - 1/3 1/3 1/3 1/3 1/3
1/3 - 1/3 - 1/3 1/3 - 1/3 - 1/3 - 1/3 - 1/3
0 - 1/3
0 - 1/3 1/3 1/3 1/3
0 - 1/3 0 0 0 0
1/3 - 1/3 - 1/3 - 1/3 0 - 2/3
1/3 - 1/3 - 1/3 1/3 - 1/3
1/3 - 1/3 - 1/3 1/3 - 1/3 1/3
1/3 - 1/3
1/3 - 1/3 1/3 - 1/3 1/3
1/3 - 1/3 - 2/3
1/3 - 1/3 1/3
1/3 - 1/3 - 1/3 1/3 - 1/3 1/3
1/3 - 1/3
1/3 - 1/3 - 1/3 - 1/3 - 1/3 - 1/3 - 1/3 1/3 - 1/3 - 1/3 - 1/3 - 1/3 1/3 - 1/3 - 1/3 - 1/3 1/3
1/3 - 1/3 1/3 - 1/3 1/3 1/3 1/3
0 - 2/3
- 1/3 - 1/3 - 1/3 - 1/3 - 1/3 - 1/3 - 1/3 1/3
1/3 - 1/3 - 1/3 - 1/3 - 1/3 - 1/3 1/3 - 1/3 1/3 - 1/3 - 1/3 1/3 - 1/3
1/3 - 1/3 1/3 - 1/3 1/3 1/3
1/3 - 1/3 - 1/3 - 1/3 1/3 - 1/3
1/3 - 1/3
0 - 2/3
Tabella 92: matrice degli alias
Come si vede i fattori sono parzialmente confusi con tutte le interazioni che non contengono i fattori in questione mentre gli ultimi 6 contrast della matrice X1 rappresentano la somma di tute le interazioni pesate per (1/3) o (2/3) : non credo che possano essere di interesse, ecco perch ritengo che i piani non geometrici PB sono non ortogonali secondo la mia definizione del par. 5.1. Daniel (1976) riferisce che il piano di
Il lettore pu verificarlo rendendo diverse le numerosit dei 12 stati, cambiando dunque le matrici X1 e X2; riotterr la stessa matrice degli alias. 203
102
Plackett-Burman a 12 stati ha sempre una struttura degli alias simile a quella sopra, qualunque sia il numero di fattori, anche 11 (saturated design). Per non specifica un punto importante ovvero che la struttura degli alias sopra presuppone la mia definizione di effetto e di alias deriva da un particolare modello in cui si sono usati 11 contrast ortogonali (1) Y = I + A + B + C + D + E + ?1+ ?2 + ?3 + ?4 + ?5 + ?6
e se si usa un altro modello, pi intelligente, che magari isoli le interazioni che pi interessano allo sperimentatore, al posto di sprecare 6 gradi di libert per testare dei contrast strani? ovvio che in questo modo si rinuncia allortogonalit dei contrast ma almeno si testano delle cose interessanti. Si otterrebbe una diversa struttura degli alias...ecco che riscopriamo una cosa molto interessante: usando il metodo BW, la struttura degli alias dipende dal modello con il quale si elaborano i dati; questo un punto importante che Fornasieri (1995) non esplicita nella sua tesi, credendo che il modello (1) sia quello giusto, lunico che si possa o si debba usare: questo porta Fornasieri fuori strada perch, anche quando esamina le frazioni 5/8, 6/8 e 7/8, cerca il modello giusto e non lo trova. Nei prossimi paragrafi, riprendendo le frazioni studiate nei par. 5.4 e 5.5, vediamo i problemi che ha incontrato Fornasieri. 8.5.2 FRAZIONI IRREGOLARI: 3/8 Questa frazione non stata studiata da Fornasieri. Il piano il seguente: bc
abc
c b
ac ab a
i
Figura 23: frazione irregolare 3/8
Se mi interessano i 2 fattori A e B, devo usare il modello ridotto Y=I+A+B quindi la matrice X1 la seguente:
I 1 1 1 A -1 1 -1 B -1 1 1
204
i ab bc
La matrice X2 dei parametri cancellati dal modello ridotto :

AB 1 1 -1 C -1 -1 1 AC 1 -1 -1 BC 1 -1 1 ABC -1 -1 -1
i ab bc
La matrice degli alias (X1T*X1)-1*X1T*X2 la seguente:

AB 1 1 -1 C -1 -1 1 AC 0 0 -1 BC 0 -1 0 ABC -1 0 0
I A B
I-C+AB-ABC A+AB-C-BC B-AB+C-AC che conferma la struttura degli alias che abbiamo trovato nel par. 5.5.1; se si scrivesse la matrice dei contrast (X1T*X1)-1*X1T si vedrebbe che i 3 alias corrispondono a quelli di tab.20 del par. 5.5.1, mentre dalla matrice (X1T*X1)-1 si vedrebbe che i 3 stimatori degli alias sono correlati. Abbiamo supposto che ci interessino A e B; e se ci interessano altri 2 elementi, ad esempio B e C? Dobbiamo usare il modello ridotto Y=I+B+C; le matrice X1 e X2 sono:
X1 i ab bc X2 i ab bc I B C
1 1 1
A
-1 1 1
AB
-1 -1 1
AC BC ABC
-1 1 -1
1 1 -1
1 -1 -1
1 -1 1
-1 -1 -1
la matrice degli alias (X1T*X1)-1*X1T*X2 :

A I B C AB AC BC ABC
-1 1 -1
0 0 -1
0 -1 0
1 -1 1
-1 0 0
205
corrispondono a 3 degli alias che abbiamo gi trovato col ragionamento dei 3/4 di John. Non tutti modelli sono ammissibili, nel senso che alcuni danno luogo a una matrice (X1T*X1)-1 non invertibile; ci accade quando gli elementi che lanalista vuole che non si confondano non sono separabili per quel particolare piano. Ad esempio se per questo piano lanalista volesse conoscere C e AB (nel senso che non siano confusi fra di loro), troverebbe che i 2 elementi non possono appartenere a 2 alias diversi e la matrice (X1T*X1)-1 del modello ridotto Y=I+C+AB risulterebbe non invertibile: provare per credere. Il metodo BW per trovare la struttura degli alias quindi molto potente; dati 1. un insieme di stati di prova (piano sperimentale) 2. un insieme di elementi103 che lo sperimentatore non vuole che si confondano fa loro il metodo calcola (se possibile) la struttura degli alias che soddisfa le esigenze dello sperimentatore; le stime degli alias si trovano nel vettore (X1T*X1)-1*X1T*Y mentre la matrice (X1T*X1)-1 ci indica le varianze e covarianze fra gli stimatori degli alias che ci interessano. Se gli elementi che interessano allo sperimentatore non sono separabili, applicando il metodo BW troviamo la matrice (X1T*X1) non invertibile. 8.5.3 FRAZIONI IRREGOLARI: 5/8 Riprendiamo il piano del par.5.5.2, studiato da Fornasieri (1995):
bc
abc
c b
ac a
In numero pari a quello degli stati di prova: ovvio che lo sperimentatore con 3 stati di prova non pu pretendere di conoscere 8 elementi; al massimo pu conoscerne 3 (di cui uno riguarda la media I) e ricordarsi che non sono gli effetti puri ma alias che confondono gli effetti che vuole conoscere con altri che egli non ritiene importanti (ma che potrebbero anche esserlo). 206
103
Se ci interessano gli elementi A, B, C e AB, usiamo il modello ridotto Y=I+A+B+C+AB, che ha le seguenti matrici X1 e X2:
X1 i b ab ac bc I A B AB C
1 1 1 1 1
-1 -1 1 1 -1
-1 1 1 -1 1
1 -1 1 -1 -1
-1 -1 -1 1 1
X2 i b ab ac bc
AC
BC
ABC
1 1 -1 1 -1
1 -1 -1 -1 1
-1 1 -1 -1 -1
la matrice degli alias la seguente:

AC I A B AB C BC ABC
-0 0 -1 -1 -1
0 -1 0 1 1
-1 0 -0 -1 -1
I-ABC A-BC B-AC AB - AC + BC - ABC C-AC+BC-ABC e conferma la struttura degli alias gi trovata nel par.5.5.2; la matrice (X1T*X1)-1*X1T confermerebbe la tabella 21 del paragrafo citato, dove si indicavano i coefficienti dei contrast per trovare i 5 alias sopra. Il lettore avr ormai capito che quella ottenuta sopra una delle tante strutture degli alias che si possono avere per questo piano, a seconda del modello ridotto che uso, che, a sua volta, dipende dalle esigenze dello sperimentatore.
207
Fornasieri (1995) non si rende conto di questo fatto, credendo che debba esistere ununica struttura degli alias per un piano sperimentale. Questa errata convinzione la porta ad usare un modello con solo 4 parametri (non saturated): Y = I+A+B+AB, che fornisce la seguente struttura degli alias: I - (1/4)C + (1/4)AC - (1/4)BC - (3/4)ABC A + (1/4)C - (1/4)AC - (3/4)BC - (1/4)ABC B - (1/4)C - (3/4)AC - (1/4)BC + (1/4)ABC AB - (3/4)C - (1/4)AC + (1/4)BC - (1/4)ABC La struttura degli alias per quel modello ridotto calcolata correttamente (solo se la numerosit delle celle costante) per prima di usare lapproccio di Fornasieri, conviene meditare sui seguenti problemi: con 5 stati di prova mi accontento di stimare 4 alias .... allora tanto vale fare solo 4 stati di prova in cui almeno la struttura degli alias semplice usando solo 4 parametri non si ottengono comunque 4 alias ortogonali; basta guardare la matrice delle covarianze (X1T*X1)-1:
I I A B AB A B AB
7/32 1/32 - 1/32
1/32 - 1/32 7/32 1/32 1/32 7/32 1/32
1/32 - 1/32 1/32 7/32
1/32 - 1/32
gli alias contengono effetti con coefficienti frazionari: questo complica lanalisi, soprattutto se un effetto escluso dal modello ridotto in realt significativo se le numerosit degli stati fossero diverse non si otterrebbero pi i 4 alias sopra ma altri 4 mentre se si usa un numero di parametri pari a quelli degli stati di prova, la struttura degli alias fornita dal modello non cambia; purtroppo Fornasieri non si preoccupa mai delle numerosit degli stati; io ho provato a replicare una volta lo stato i e 2 volte lo stato bc; ho ottenuto la seguente struttura degli alias, diversa dalla precedente:
C I A B AB AC BC ABC
- 1/8 1/8 - 1/8 - 7/8
1/8 - 1/8 - 7/8 - 1/8
- 1/8 - 7/8 - 1/8 1/8
- 7/8 - 1/8 1/8 - 1/8
Tabella 93: matrice degli alias per frazione 5/8 non saturated, con numerosit diverse 208
in ogni caso resta il problema che, per avere i 4 alias della tabella 26, tanto vale sperimentare solo i 4 stati di prova (i, ab, ac, bc) e avere i 4 alias senza coefficienti frazionari: I-ABC A-BC B-AC C-AB Se invece si usa un numero dei parametri pari a quello degli stati di prova, come ho fatto io, si vede che la situazione migliora perch riesco a non confondere 5 elementi di interesse per lo sperimentatore. 8.5.4 FRAZIONI IRREGOLARI: 3/4 (JOHN) Riprendiamo il piano sperimentale del par. 5.4, quello usati nel caso Iveco (cap.10):
bc
abc
c b
ac ab
i
Figura 25: 3/4 di John
Come negli altri casi, prima di applicare il metodo BW, bisogna far capire allo sperimentatore che, avendo 6 stati di prova, pu stimare 6 quantit che non rappresentano pi 6 degli 8 effetti puri che si avrebbero avuti con il piano completo ma sono distorte dagli effetti che lui decider essere trascurabili. Ad esempio, se lo sperimentatore decide che le interazioni AC e ABC sono trascurabili, usiamo il modello Y = I+A+B+C+AB+BC, che ha le seguenti matrici X1 e X2 (se la numerosit costante):
X1 i b c ac bc abc X2 I A B C AB BC
1 1 1 1 1 1 AC
-1 -1 -1 1 -1 1 ABC
-1 1 -1 -1 1 1
-1 -1 1 1 1 1
1 -1 1 -1 -1 1
1 -1 -1 -1 1 1
209
i b c ac bc abc
1 1 -1 1 -1 1
-1 1 1 -1 -1 1
La matrice degli alias la seguente:

AC 1 1 0 -1 0 0 ABC 0 0 1 0 1 -1
I A B C AB BC
Conferma quella trovata nel par. 5.4 e anche la matrice (X1T*X1)-1*X1T conferma i contrast della tab.19; come detto, la struttura degli alias indipendente dalla numerosit degli stati di prova. Se ci interessano 5 effetti diversi da quelli sopra, otteniamo altri alias, sempre fra i 12 elencati nel par. 5.4; alcuni set di effetti restano inseparabili ad esempio I, A, B, C, AB, AC. Il modello ridotto Y = I+A+B+C+AB+AC d luogo a una matrice (X1T*X1) non invertibile: provare per credere. In particolare si trova che, se vogliamo mantenere la risoluzione IV (fattori e interazioni del primo ordine non confusi fra di loro) lunico modello possibile quello che abbiamo usato per la struttura degli alias di tab.29, ovvero quello che esclude AC e ABC. Il fatto che il metodo di Box-Wilson, che deriva dalle equazioni normali, confermi i 3/4 di John, legittima lidea di considerare le frazioni irregolari come intersezione di frazioni regolari. Fornasieri (1995) esamina i piani a 6 stati ma di nuovo mette solo 4 parametri nel modello (non saturated), ottenendo quindi solo 4 alias con coefficienti frazionari: per un tale approccio valgono tutte le critiche fatte nel paragrafo precedente pi unaltra, visto che lautrice citata usa 2 modelli diversi ottenendo quindi 2 set diversi (anche se di struttura simile) di 4 alias ciascuno; da questo avrebbe dovuto capire che la struttura degli alias varia con il modello usato per elaborare i dati.
210
8.5.5 FRAZIONI IRREGOLARI: 7/8 Riprendiamo il piano sperimentale del par. 5.5.3, studiato anche da Fornasieri (1995):
bc c b ac
abc
ab a
i
Si possono stimare 7 alias e lelemento naturale da trascurare ABC104 per cui il modello ridotto Y=I+A+B+C+AB+BC+AC Il lettore ha ormai capito come si scrivono le matrici X1 e X2 dunque scrivo direttamente la matrice degli alias (X1T*X1)-1*X1T*X2:
ABC -1 1 1 -1 -1 1 1
I A B C AB AC BC
non pu che confermare la struttura degli alias (risoluzione IV) vista gi nel par. 5.5.3; notiamo che Daniel (1976) a pag.65, pur non formalizzando il problema della frazione 7/8 come ho fatto io, giunge in maniera implicita alla stessa struttura degli alias. I 7 alias utilizzano solo 4 dei 7 stati di prova come si vede dalla matrice (X1T*X1)-1* X1T:
i 1/4 - 1/4 - 1/4 0 1/4 0 a 0 1/4 0 - 1/4 - 1/4 0 b 0 0 1/4 - 1/4 - 1/4 1/4 ab 1/4 0 0 0 1/4 - 1/4 ac 1/4 0 - 1/4 1/4 0 0 bc 1/4 - 1/4 0 1/4 0 - 1/4 abc 0 1/4 1/4 0 0 1/4
I A B C AB AC
104
Nulla vieta di trascurarne un altro. 211
BC
1/4
- 1/4
- 1/4
1/4
Tabella 94: matrice dei contrast per la frazione 7/8
La tabella 27 lequivalente della tab.22 del par. 5.5.3; nessun alias utilizza gli stessi stati di prova di un altro e gli stimatori degli alias sono tutti correlati, come si pu vedere dalla matrice (X1T*X1)-1:
I 1/4 - 1/8 - 1/8 1/8 1/8 - 1/8 - 1/8 A - 1/8 1/4 1/8 - 1/8 - 1/8 1/8 1/8 B - 1/8 1/8 1/4 - 1/8 - 1/8 1/8 1/8 C 1/8 - 1/8 - 1/8 1/4 1/8 - 1/8 - 1/8 AB 1/8 - 1/8 - 1/8 1/8 1/4 - 1/8 - 1/8 AC - 1/8 1/8 1/8 - 1/8 - 1/8 1/4 1/8 BC - 1/8 1/8 1/8 - 1/8 - 1/8 1/8 1/4
I A B C AB AC BC
Fornasieri (1995) continua a usare solo 4 parametri anche per questo piano; ottiene 4 alias con coefficienti frazionari: come al solito sono calcolati correttamente ma servono a poco come detto nei paragrafi precedenti e soprattutto non fanno capire il miglioramento che si avuto nel passare da 4 stati di prova a 7, ma 7 stati di prova sono indubbiamente meglio di 4 dunque il miglioramento deve esserci (principio F1). Finora abbiamo sempre accettato la non ortogonalit ovvero la correlazione fra gli stimatori degli effetti (puri nei piani completi e aliased in quelli ridotti) che ci interessano; a volte ci pu essere fatto e a volte no: bisogna in qualche modo misurare la non ortogonalit del piano sperimentale.
8.6 MISURA DELLA NON ORTOGONALIT

Come ho gi avuto modo di dire, non ortogonalit vuol dire correlazione fra gli stimatori ovvero variabili collineari; la varianza di uno stimatore X non riflette pi solo la variabilit di X ma anche degli stimatori X degli altri parametri del modello. Dunque lintervallo di fiducia dello stimatore pi grande in un piano non ortogonale che in un piano ortogonale, a parit di stati di prova e di dati totali. In un piano ortogonale a r stati di prova, la matrice delle covarianze, (XT*X)-1 diagonale dunque le covarianze fra gli stimatori sono tutte nulle. Dalla matrice delle covarianze immediato passare a quella dei coefficienti di correlazione, dividendo la covarianza fra 2 stimatori per i rispettivi s.q.m.. In Snee (1973) riportata la seguente formula, valida per un modello full-regression
212
E(Y) = 0 + 1*x1 + 2*x2 +.......+r*xr VAR(bi) =
(x
j
2 * Rii 1
ij
xi
(1 R ) * ( x
2
2
j
ij
xi
dove la sommatoria estesa a tutti i valori di xi presenti nella matrice X; Rii-1 li-mo elemento diagonale dellinversa della matrice di correlazione mentre Ri il coefficiente di correlazione multipla dello stimatore bi con gli altri stimatori. Se il piano ortogonale la matrice di correlazione ortogonale e dunque Ri = 0 e -1 Rii = 1 i. Man mano che cresce la correlazione di bi con gli altri stimatori, la varianza di bi aumenta, come abbiamo gi detto altre volte: ora siamo in grado di quantificare questo aumento della varianza dello stimatore, dato da Rii-1 che Marquardt (1970) chiama Variance Inflation Factor (VIFi) dello stimatore bi e che dunque li-mo elemento diagonale dellinversa della matrice di correlazione.
VIFi = Rii-1 = 1 / (1-Ri2)
Il VIF misura direttamente laumento della varianza degli stimatori, causato dalla non ortogonalit. Da ci che abbiamo detto, quando il piano ortogonale VIFi = 1 i, dunque 1 il limite inferiore per il VIF. Marquardt (1970) afferma che, quando il VIF supera il valore 10, meglio cancellare dei parametri dal modello (accettando la distorsione) o non usare pi i minimi quadrati, ma altri metodi. Snee (1973) dice di poter accettare la non ortogonalit quando il VIF si mantiene al di sotto di 4. In ogni caso bisogna considerare anche il residuo 2: se molto piccolo, si possono accettare anche dei grandi VIF (fino a 100, Snee 1973); bisogna dunque sempre considerare tutti gli elementi che determinano lampiezza dellintervallo di fiducia dello stimatore bi. Notiamo che il VIF, derivando dalla matrice di correlazione, non dipende dalla numerosit dei dati ma solo dalla struttura del piano sperimentale. Dalla matrice di correlazione R si possono estrarre altre informazioni Se il piano ortogonale, det(R) = 1 tr (R-1) = p gli autovalori i di R sono tutti uguali a 1 e dunque min/max = 1 dove p il numero dei parametri del modello. Con un piano non ortogonale det(R)<1 tr (R-1) > p gli autovalori di R possono essere molto grandi quindi min/max < 1; se min/max << 1 allora la matrice R (e di riflesso anche XT*X) mal condizionata: possono esserci dei
213
problemi di calcolo numerico delle stime dei parametri che in effetti ho riscontrato personalmente anche con Excel che lavora con 15 cifre decimali (pu capitare che inverta una matrice non invertibile). A parte un fattore di scala, gli autovalori di R sono collegati a quelli di (XT*X)-1 e Hoerl e Kennard (1970) riportano una propriet che collega il mean squared error degli stimatori b delle equazioni normali e tali autovalori:
MSE(b) = E[(b-)T*(b-)] = tr[(XT*X)-1]2 + (b-E(b))T*(b-E(b))
essendo gli stimatori delle equazioni normali BLUE il secondo termine dellespressione nullo.
MSE(b) = tr[(XT*X)-1]2
Detti i gli autovalori della matrice (XT*X)-1, abbiamo che: MSE(b) = *

2
i =1
Inoltre si trova che: VAR[(b-) *(b-)] = 2* * i 2

T 4
i =1 p
Se il piano molto non ortogonale max >>1 e dunque MSE(b)>>0; ecco perch le stime ottenute possono esse molto lontane dai parametri reali; la non ortogonalit aumenta media e varianza della distanza [(b-)T*(b-)] fra gli stimatori e i parametri veri. Cosa si pu fare quando la non ortogonalit rende prive di senso le stime ottenute con i minimi quadrati? Si possono eliminare dei termini dal modello oppure si pu usare la ridge regression. Questo metodo discusso in gran dettaglio da Hoerl e Kennard (1970) e Marquardt (1970) e consiste nellaggiungere una piccola quantit k agli elementi diagonali della matrice XT*X cos che gli stimatori non sono pi: b = (XT*X)-1*XT*Y ma: b = ( XT*X + k*I )-1 * XT * Y essi sono distorti ma k scelto in modo da rendere la matrice (XT*X + k*I) ben condizionata, e quindi da stabilizzare la grandezza degli autovalori per ridurre MSE(b). In
214
Marquardt (1970) spiegato un altro metodo, Generalized Inverse, che porta sempre a degli stimatori distorti ma che diminuiscono MSE(b). Un altro metodo alternativo ai minimi quadrati spiegato in Gunst et al. (1976) e si chiama Latent root regression e lobiettivo sempre lo stesso: ridurre MSE(b) a spese della non distorsione. Io non mi occupo di questi metodi alternativi ai minimi quadrati ma penso che varrebbe la pena studiarli visto che gli studiosi citati (Marquardt, Gunst, Hoerl e Kennard) li hanno applicati a problemi reali mal condizionati (alta non ortogonalit, misurata ad esempio col VIF) e hanno verificato e dimostrato teoricamente la superiorit delluso di stimatori leggermente distorti ma che riducono molto lerrore quadratico medio MSE(b). 8.6.1 MISURIAMO LA NON ORTOGONALIT DEGLI ESEMPI FATTI gi capitato negli esempi fatti che gli stimatori che raccomandavo di usare erano correlati; ora siamo in grado di vedere se potevamo effettivamente trascurare la correlazione oppure no; in questa analisi user solo il VIF ma come abbiamo visto sarebbe opportuno studiare anche i determinanti, le tracce, gli autovalori (e anche gli autovettori, vedi Gunst et al. 1976, Hahn et al. 1976) della matrice di correlazione. Nellesempio macchina-operatore, la matrice delle covarianze quella di tabella 8:
I I M O MO M O MO
5/32 1/32 1/32 1/32
1/32 5/32 1/32 1/32
1/32 1/32 5/32 1/32
1/32 1/32 1/32 5/32
Per passare alla matrice di correlazione, basta dividere le covarianze per gli s.q.m degli stimatori; si ottiene R:
I I M O MO M O MO
1 1/5 1/5 1/5
1/5 1 1/5 1/5
1/5 1/5 1 1/5
1/5 1/5 1/5 1
la cui inversa :
I I M O MO M O MO
1,09375 -0,15625 -0,15625 -0,15625 -0,15625 1,09375 -0,15625 -0,15625 1,09375 -0,15625 1,09375
215
-0,15625 -0,15625
-0,15625 -0,15625 -0,15625
si vede che il VIF dei 3 stimatori M, O, MO vicinissimo a 1 dunque possiamo tranquillamente trascurare la non ortogonalit del piano macchina - operatore; la tabella 5 del par.5.2.1 che faceva lANOVA sui contrast corrispondenti agli stimatori M, O, MO pu quindi considerarsi corretta in quanto le somme dei quadrati rispecchiano quasi del tutto leffettiva variabilit dei 3 stimatori usati. Per quanto riguarda lesempio con 3 fattori, la matrice delle covarianze quella della tab.21.del cap.8
0,046094 -0,00339 -0,00339 -0,00599 0,003385 0,00599 0,00599 -0,00703
-0,00339 0,046094 -0,00599 -0,00339 0,00599 0,003385 -0,00703 0,00599
-0,00339 -0,00599 0,046094 -0,00339 0,00599 -0,00703 0,003385 0,00599
-0,00599 -0,00339 -0,00339 0,046094 -0,00703 0,00599 0,00599 0,003385
0,003385 0,00599 0,00599 -0,00703 0,046094 -0,00339 -0,00339 -0,00599
0,00599 0,003385 -0,00703 0,00599 -0,00339 0,046094 -0,00599 -0,00339
0,00599 -0,00703 0,003385 0,00599 -0,00339 -0,00599 0,046094 -0,00339
-0,00703 0,00599 0,00599 0,003385 -0,00599 -0,00339 -0,00339 0,046094
da cui si ricava la matrice di correlazione R:

1 -0,07345 -0,07345 -0,12994 0,073446 0,129944 0,129944 -0,15254
-0,07345 1 -0,12994 -0,07345 0,129944 0,073446 -0,15254 0,129944
-0,07345 -0,12994 1 -0,07345 0,129944 -0,15254 0,073446 0,129944
-0,12994 -0,07345 -0,07345 1 -0,15254 0,129944 0,129944 0,073446
0,073446 0,129944 0,129944 -0,15254 1 -0,07345 -0,07345 -0,12994
0,129944 0,073446 -0,15254 0,129944 -0,07345 1 -0,12994 -0,07345
0,129944 -0,15254 0,073446 0,129944 -0,07345 -0,12994 1 -0,07345
-0,15254 0,129944 0,129944 0,073446 -0,12994 -0,07345 -0,07345 1
la cui inversa R-1 :

1,10625 0,092188 0,092188 0,184375 -0,09219 -0,18438 -0,18438 0,092188
0,092188 1,10625 0,184375 0,092188 -0,18438 -0,09219 0,092188 -0,18438
0,092188 0,184375 1,10625 0,092187 -0,18438 0,092188 -0,09219 -0,18438
0,184375 0,092188 0,092188 1,10625 0,092188 -0,18438 -0,18438 -0,09219
-0,09219 -0,18438 -0,18438 0,092188 1,10625 0,092188 0,092188 0,184375
-0,18438 -0,09219 0,092188 -0,18438 0,092188 1,10625 0,184375 0,092188
-0,18438 0,092188 -0,09219 -0,18438 0,092188 0,184375 1,10625 0,092188
0,092188 -0,18438 -0,18438 -0,09219 0,184375 0,092188 0,092188 1,10625

216
Il VIF di nuovo piccolissimo per tutti gli stimatori, dunque legittimata lANOVA fatta nella tab.12 del par. 5.2.3. Esaminiamo infine qualcuna delle frazioni irregolari del par.8.5: in quella sede abbiamo sempre scritto le matrici come se ci fosse un solo dato negli stati di prova; questo non un problema perch la matrice di correlazione R (e dunque il VIF) indipendente dalla numerosit degli stati di prova, purch questa sia costante: se varia, cambia la struttura del piano e quindi R. Prendiamo ad esempio il piano a 5 stati del par. 8.5.3:
bc
abc
c b
ac ab
Scrivo direttamente la matrice di correlazione R, quando la numerosit dei 5 stati costante.

I A B AB C 1 0 0 0,35355339 0,35355339 0 1 0 -0,35355339 -0,35355339 0 0 1 0,35355339 0,35355339 0,35355339 -0,35355339 0,35355339 1 0,75 0,35355339 -0,35355339 0,35355339 0,75 1
I A B AB C
dove sappiamo che, i 5 stimatori sopra non stimano gli effetti puri ma gli alias indicati nel par. 8.5.3. Il coefficiente di correlazione fra lo stimatore dellalias di AB e quello di C abbastanza elevato (3/4) quindi bisogna stare attenti nelluso di un simile piano, anche se i VIF dei 2 stimatori non sono particolarmente elevati (5/2), come si vede da R-1:
I 1,25 -0,25 0,25 -0,35355 -0,35355 A -0,25 1,25 -0,25 0,35355 0,35355 B 0,25 -0,25 1,25 -0,35355 -0,35355 AB -0,353553 0,353553 -0,353553 2,5 -1,5 C -0,354 0,3536 -0,354 -1,5 2,5
I A B AB C
217
Per quanto riguarda il piano a 7 stati del par. 8.5.5, si vede che i coefficienti ci correlazione fra gli stimatori dei 7 alias sono tutti uguali a 0,5 e i VIF tutti uguali a 1,75 dunque, seguendo i valori limite indicati da Marquardt (1970) e Snee (1973), anche in questo caso possiamo trascurare la non ortogonalit. Non scrivo pi le matrici di correlazione e linversa: il lettore ha ormai capito come si ricavano, dunque pu verificare i valori che ho dato sopra; pu altres verificare che per il piano a 3 stati (par. 8.5.2), a 6 stati (par.8.5.4), e il piano di Webb a 6 stati (par. 5.4.1), quando la numerosit costante, i VIF degli stimatori degli alias (sono tutti piani ridotti) sono sempre uguali a 1,5 quindi si pu trascurare la non ortogonalit specie se riusciamo a ottenere un residuo molto basso cos da restringere lintervallo di fiducia per gli stimatori degli alias
8.7 ALTRI METODI DI STIMA

In tutta la tesi, per trovare gli stimatori b di , ho sempre usato (e user) il metodo dei minimi quadrati ovvero la minimizzazione di [(Y-X*b)T*(Y-X*b)], che Searle (1987) chiama ordinary least squares, OLSE:
OLSE(b) = (XT*X)-1*XT*Y
In Searle (1987) sono riportati altri 3 metodi che elenco; weighted least squares (WLSE) o generalized least squares, che introduce una matrice W con cui pesare i parametri: si minimizza allora [(Y-X*b)T*W*(Y-X*b)] ottenendo:
WLSE(b) = (XT*W*X)-1*XT*W*Y
Se si abbandona lipotesi di varianza costante per tutti gli stati di prova, dobbiamo introdurre la matrice delle varianze e covarianze delle Y negli stati di prova, VAR(Y) = V; in questo caso gli stimatori best linear unbiased (BLUE) sono:
BLUE(b) = (XT*V-1*X)-1*XT*V-1*Y
Se inoltre si conosce la distribuzione delle Y, si pu usare il metodo maximum likelihood (MLE); se il vettore stocastico Y segue una normale con media X* e varianza V:
MLE(b) = (XT*V-1*X)-1*XT*V-1*Y
come si vede uguale a BLUE(b). evidente che se in WLSE(b) si pone W=V-1, WLSE(b)=BLUE(b). Se si assume la varianza delle Y costante, V=I*2, OLSE, MLSE, BLUE e MLE (con lipotesi di normalit) sono uguali. Infine Searle (1987) riporta che il
218
metodo dei minimi quadrati classico (OLSE) e quello BLUE portano agli stessi risultati quando esiste una matrice Q tale che:
V*X = X*Q (anche se V singolare)
Quando si usa un modello non full-rank, nelle formule di questo paragrafo, al posto delle inverse si usano le inverse generalizzate.
8.8 CONCLUSIONI
Il vasto contenuto del capitolo dovrebbe orami aver convinto il lettore della grande potenze del metodo full-regression in confronto a quello sovraparametrizzato. Il fatto che la matrice (XT*X) invertibile solo uno dei tanti vantaggi; il vettore degli stimatori b contiene direttamente le stime degli effetti (o degli alias se il modello ridotto) che ci interessano; con il metodo di Box-Wilson stabiliamo la distorsione degli stimatori che abbiamo usato per gli effetti aliased; dalla matrice (XT*X)-1 indaghiamo la correlazione fra gli stimatori e misuriamo la non ortogonalit del piano con il VIF: se troppo elevata eliminiamo alcuni termini dal modello; dalla matrice (XT*X)-1*XT vediamo qual il contrast che stiamo testando, anche quando si usano dei modelli ridotti per diminuire la non ortogonalit. Il modello full-regression fornisce gli stessi risultati dellanalisi dei contrast per come detto aggiunge molte pi informazioni. Quali sono le possibili limitazioni di un tale modello? presuppone le mie definizioni di effetto e di alias (par.4.8) che ribadisco, in generale sono le pi logiche perch tengono conto di tutta la stratificazione fatta, pesando ugualmente le medie degli stati di prova. Comunque chi volesse usare altre definizioni pu usare il modello cell-means (equivalente allanalisi dei contrast) e costruirsi dei contrast che ritiene pi idonei a rappresentare effetti e interazioni dei fattori: non pu ovviamente sfruttare i vantaggi computazionali e di informazione del modello FR esposti sopra le matrici in gioco aumentano molto di dimensione, allaumentare del numero dei dati; se le numerosit sono uguali, si possono usare delle matrici semplificate, altrimenti no; questa una caratteristica in comune a tutti tipi di modello; con N fattori a K livelli si hanno KN parametri e un numero di alias stimabili pari al numero di stati di prova. se ci sono pi di 2 livelli, entra in gioco il problema della codifica: si possono usare i coefficienti dei polinomi ortogonali oppure coefficienti che rispecchiamo dei confronti fra gli stati di prova che ci interessano; nel cap.10, esaminando 2 casi presentati in Galetto (1995 e 1996) e un caso taguchiano presentato (pi volte) da Byrne e Taguchi
219
(1987) ed esaminato in modo errato da Galetto (1989), vedremo come si pu applicare il modello full-regression e il metodo di Box-Wilson a fattori con pi di 2 livelli. Uno dei vantaggi pi grossi la possibilit di sfruttare il metodo di Box-Wilson per esaminare la struttura degli alias di qualsiasi piano fattoriale, con qualunque numerosit degli stati. Nel prossimo capitolo vediamo come questo metodo ci consente di ottenere una teoria generale per gli alias.
220
CAPITOLO 9
UNA NUOVA TEORIA SULLA STRUTTURA DEGLI ALIAS
9.1 PERCH UNA NUOVA TEORIA ?

Per 3 motivi principali: Perch nei libri che ho consultato io per la tesi, si considera solo la struttura degli alias dei piani regolari, ortogonali, bilanciati... Pochi libri parlano di piani irregolari: Daniel (1976) una delle rare eccezioni: egli applica il metodo di Box-Wilson a piani ridotti asimmetrici (fattori con diverso numero di livelli), ma non alle frazioni (3/8, 5/8, 7/8) a 2 livelli che ho considerato io nel cap.8; quando parla di queste frazioni fa spesso lipotesi che qualche interazione sia trascurabile e ci va contro il concetto di struttura degli alias che deve invece indicare gli elementi confusi senza trascurare nessun effetto. Per quel che ho letto Daniel non dice mai esplicitamente La struttura degli alias, per ogni tipo di piano, ..... Altri autori, Wheeler (1988) e Diamond (1981), parlano di piani irregolari come quelli non geometrici di Plackett-Burmann o i 3/4 di John, ma riguardo la struttura degli alias dicono solo che complicata, senza averne prima dato una definizione generale.... Finch ci si limita ai piani regolari, questa mancanza di chiarezza pu anche essere accettata; lo stesso problema della definizione degli effetti dei fattori e interazioni: quando il piano completo e le numerosit degli stati di prova sono costanti, non si pone il problema di definire leffetto perch tutte le possibili definizioni portano allo stesso contrast, ma quando le numerosit sono diverse, bisogna decidere qual la definizione pi idonea.
221
La tesi di Fornasieri (1995) uno dei pochi riferimenti (per quanto ne so io) per le frazioni irregolari; il lettore ricorder che nei capitoli precedenti ho spesso criticato lapproccio di Fornasieri al problema della non ortogonalit; per almeno ha provato a studiare il problema quindi il suo lavoro deve comunque essere tenuto in considerazione. E la tesi di Fornasieri pone un problema, gi accennato nel cap.8, a cui bisogna dare risposta: Partendo dal piano ridotto regolare (I-ABC) e dal conseguente modello: (1) Y=I+A+B+AB aggiunge degli stati di prova, arrivando alle frazioni irregolari 5/8, 6/8, 7/8. Il problema di Fornasieri che, allaggiunta di uno stato, non sa quale parametro aggiungere nel modello (1), perch laggiunta di un parametro modifica gli alias ottenuti applicando il metodo BW al modello (1). Invece logico che si modifichi perch gli stimatori dei 4 alias sono correlati, basta guardare la matrice (XT*X)-1. Il problema di Fornasieri nasce principalmente dal fatto di non aver definito chiaramente i concetti base con cui ella opera: effetto, alias, struttura degli alias. Nel capitolo 8 il lettore abituato a ragionare sui piani regolari, pu essere rimasto stupito dal fatto che per uno stesso piano si ottenevano diverse strutture degli alias a seconda del modello che si usava: questo fatto deve essere giustificato e soprattutto bisogna capire il rapporto fra le varie strutture degli alias. I 3 problemi sono correlati fra di loro e vanno comunque risolti. La prima cosa da fare definire gli oggetti matematici principali.
9.2 CONTRAST, EFFETTO, ALIAS, STRUTTURA DEGLI ALIAS

I contrast, gli effetti e gli alias sono stati gi definiti nel cap.4; non penso che sia dannoso un richiamo, per puntualizzare alcuni concetti importanti. Per ora mi limito a piani a 2 livelli (qualitativi o quantitativi) perch per essi ho definito chiaramente cosa intendo per effetto di un fattore e interazione.
CONTRAST Un contrast C* una combinazione lineare delle medie i nei vari stati di prova, tale che la somma di tali coefficienti uguale a zero.
C =
c
i =1
2n
* i
c
i =1
2n
=0
Il contrast, essendo una combinazione lineare di parametri, egli stesso un parametro caratteristico del fenomeno sotto indagine: a noi interessa scoprire se significativamente diverso da zero. La definizione di contrast di Galetto (1995 e 1996)
222
sbagliata, e cos la condizione di ortogonalit e dei contrast e la loro somma dei quadrati, come spiegato nel par. 4.2. Notiamo che i contrast sono definiti indipendentemente dalle equazioni normali (metodo G); il teorema di Gauss-Markov introduce le funzioni stimabili ovvero qualsiasi combinazione lineare delle medie: allora per definizione si ha che ogni contrast una funzione stimabile ma non tutte le funzioni stimabili sono contrast. Gli stimatori C dei contrast C* possono essere espressi in forma di totali e medie degli stati di prova, o dei singoli dati; usiamo la forma che preferiamo purch stiamo attenti ad avere uno stimatore corretto. Dalla non correlazione fra gli stimatori C deriva la condizione di ortogonalit dei contrast Dallipotesi nulla che E(C)=0, deriva la somma dei quadrati associata al contrast
EFFETTO Il termine effetto pu essere riferito alla media I, a un fattore o interazione. Leffetto della media , per n fattori a 2 livelli:
I = k* j
*
j =1
2n
evidente che una funzione stimabile, ma non un contrast. Leffetto di un fattore la sommatoria delle medie degli stati in cui il fattore al livello alto meno quella delle medie degli stati in cui il fattore al livello basso. Ei = k* bij* j
*
j =1
2n
Leffetto di un interazione fra i fattori 1,2....t rappresentati dagli effetti E1, E2...Et, :
E
*
12 ...t
t = k* bij * j j = 1 i =1
2n
Gli effetti di fattori e interazioni sono dei contrast. Avr ripetuto almeno una decina di volte che la costante k, se influenza il valore assoluto del contrast (della sua stima e della varianza dello stimatore), non modifica la sua somma dei quadrati e quindi lanalisi di significativit del contrast non cambia. Nel capitolo precedente abbiamo visto che i parametri del modello full-regression sono gli effetti, definiti come sopra, ponendo k=(1/2n) quindi visto che: si pu usare un k qualsiasi la mia teoria sugli alias si basa sulluso del modello full-regression
223
nel capitolo adotter sempre k=(1/2n).

Se manca anche solo un stato di prova, gli effetti dei fattori e interazioni non sono pi stimabili. Ci assolutamente evidente dalla definizione di effetto. ALIAS Lalias una combinazione lineare degli effetti:
A i = ij * E * j
* 2n
j =1
Allalias pu essere associato un vettore (i1, i2, .... in) le cui componenti sono gli ij. Un effetto puro un alias particolare in cui ij relativo alleffetto uguale a 1 e tutti gli altri ij sono nulli: agli effetti sono dunque associati dei vettori unitari. Notiamo che per definizione gli alias sono una trasformazione lineare delle funzioni stimabili. Nei piani frazionati gli effetti puri non sono pi stimabili ma lo sono alcune loro combinazioni lineari, gli alias, come stato chiarito nel cap.4. Il problema degli alias quindi un problema di distorsione, non di correlazione, degli stimatori del modello full-regression105. Il concetto di alias come combinazione lineare degli effetti. non in contrasto con la classe di equivalenza di Galetto (1995 e 1996): semplicemente ne rappresenta unevoluzione perch la classe di equivalenza dice che gli effetti sono confusi ma non dice in che modo ovvero quale funzione lega gli effetti nella classe di equivalenza. Il mio concetto di alias dice che la funzione che lega gli effetti lineare e questa affermazione stata verificata anche numericamente nel cap.4. Gli alias sono dei contrast a meno che il coefficiente ij relativo alla media, non sia diverso da zero; ad esempio lalias I*+ABC* non un contrast perch compare la media I* mentre lalias A*+BC* un contrast. E importante notare che, dato un Alias, trovo immediatamente il contrast corrispondente, mentre non vero il contrario: nel solito esempio a 3 fattori, dato A*-BC*, so che corrisponde al contrast (1/23) * (110 + 101 +011 +000) * 2 basta sviluppare gli effetti A* e BC* in contrast; mentre non so a quale alias possa corrispondere, ad esempio, il contrast: 4110 + 5100 - 9111 + 4010 - 6000 + 2011
Questa affermazione subordinata alle definizioni che ho dato. Nel par. 9.7 spiegher che gli alias possono anche essere considerati un problema di correlazione, se si cambia la definizione di effetto. 224
105
Dato un piano sperimentale, alcuni alias sono stimabili, altri no; questo ci porta alla prossima, importantissima, definizione.
STRUTTURA DEGLI ALIAS La struttura degli alias di un dato piano sperimentale linsieme di tutti gli alias stimabili per quel piano. Dunque abbandono la definizione classica di struttura degli alias che la vuole composta da un numero finito di termini; peraltro il concetto classico di struttura degli alias si rivela inadeguato nello studio di piani irregolari (Plackett-Burman, 3/4 di John, 3/8...), come abbiamo ampiamente visto nei cap.5 e 8. La struttura degli alias non quindi un insieme finito ma infinito. Di che genere? Lo vediamo nel prossimo paragrafo in cui abbandono la restrizione dei 2 livelli, per fare una trattazione generale; bisogna per stare attenti alle definizioni di effetto per pi livelli: se la variabile quantitativa, uso i coefficienti dei polinomi ortogonali che hanno limportante propriet di rendere le componenti degli effetti algebricamente ortogonali nello spazio dei contrast106. se qualitativa i coefficienti dei polinomi ortogonali potrebbero non testare dei contrast interessanti quindi bisogna costruirsi dei contrast appositi; luso del modello fullregresson in questo caso da verificare.
9.3 TEOREMA FONDAMENTALE DELLA STRUTTURA DEGLI ALIAS

Si vogliono studiare n fattori con a1, a2, ...an livelli; si ha quindi un piano di riferimento completo in cui si vi sono tutti gli stati di prova, il cui numero k effetti dove k=
a
j =1
Si stimano dunque k effetti. Gli alias stimabili coincidono con i k effetti. Gli alias sono identificati univocamente dagli ij che formano un vettore di dimensione k; considerando gli alias come vettori abbiamo che:
i vettori associati alla struttura degli alias del piano di riferimento formano uno spazio vettoriale dotato di prodotto scalare di dimensione pari a k. La base canonica di tale spazio vettoriale linsieme dei vettori associati agli effetti, ordinati secondo lordine canonico o di Yates ed quindi la base canonica di k.
106
Riprender questa considerazione nel cap.10. 225
Consideriamo ora il piano sperimentale effettivo in cui non detto che si sperimentino tutti i k stati di prova: nel piano effettivo si hanno p ( k) stati di prova. Se p=k, il piano effettivo e quello di riferimento coincidono dunque il piano effettivo completo. Se p<k abbiamo un piano ridotto e
i vettori associati alla struttura degli alias del piano ridotto formano un sottospazio vettoriale della struttura degli alias del piano di riferimento sullinsieme dei numeri reali di dimensione pari a p
Una base di tale sottospazio si trova con il metodo di Box-Wilson applicato a un modello con un numero di parametri pari a p. Modelli diversi danno basi differenti. Nei piani regolari la scelta della base pi idonea (interessante per lo sperimentatore) evidente; nei piani irregolari dipende dalle esigenze dello sperimentatore. La base trovata in questo modo indipendente dalla numerosit degli stati di prova. Se i parametri del modello (in numero pari a p) sono reali e non fittizi, come accadeva nei piani non geometrici di Plackett-Burman (dove, per mantenere lortogonalit dei contrast, ho messo nel modello dei parametri che non rappresentavano nessun fattore o interazione noti, par. 8.5.1), con 3 fattori ho visto che i coefficienti (ovvero gli elementi dei vettori base) degli alias ottenuti col metodo BW sono in modulo uguali a 1; ma questa non una situazione generale, nemmeno per i piani a 2 livelli, infatti nella frazione non geometrica 12/32 di Plackett-Burman (par. 9.5) la base presenta dei coefficienti frazionari, anche maggiori di 1. 9.3.1 DIMOSTRAZIONE Il teorema 2 del cap.7 dice che esistono tante funzioni stimabili linearmente indipendenti quanti sono gli stati di prova dunque i vettori associati alle funzioni stimabili generano uno spazio vettoriale di dimensione pari a p. In generale si dimostra facilmente che linsieme degli alias non nientaltro che un isomorfismo dellinsieme delle funzioni stimabili dunque in un piano con p stati di prova, esistono p alias indipendenti e i vettori associati a quegli alias (struttura degli alias) generano uno spazio vettoriale, ovviamente di dimensione p. Dimostriamo lisomorfismo107 fra funzioni stimabili e alias ovvero che a una funzione stimabile corrisponde uno e un solo alias.
Ricordo che lisomorfismo indica la corrispondenza biunivoca fra 2 insiemi (in questo caso lo spazio delle funzioni stimabili e quello degli alias) sui quali definita unapplicazione lineare (in questo caso abbiamo detto che gli alias, per costruzione, rappresentano una trasformazione lineare delle funzioni stimabili). Per dimostrare lisomorfismo quindi sufficiente dimostrare la corrispondenza biunivoca. 226
107
F * h = hi * i A * i = ij * E * j
j =1 k i =1 k
funzione stimabile alias effetto
E * j = b jt * t
t =1
dove ho inglobato in bjt la costante moltiplicativa e la produttoria dei coefficienti nel caso di effetti delle interazioni. Le sommatorie si estendono alla produttoria k del numero dei livelli dei fattori: k=
a
j =1
Dato un alias, esso corrisponde a una sola funzione stimabile; infatti dato: k k k k k * * A 1 = 1 j * E j = 1 j * b jt * t = 1 j * b jt * t t =1 t =1 j = 1 j =1 j =1
corrisponde a quellunica funzione stimabile F *1 = 1t * t

t =1 k
che ha: k 1t = 1 j * b jt j =1
Data una funzione stimabile
F *1 = 1t * t
t =1
essa corrisponde a un solo alias:
A * 1 = 1 j * E * j
j =1
infatti se corrispondesse anche a un altro alias: A* 2 = 2 j * E * j

j =1 k
avremmo che :
k k k k k A *1 = 1 j * E * j = 1 j * b jt * t = 1 j * b jt * t t =1 j = 1 t =1 j =1 j =1 k k k k k A * 2 = 2 j * E * j = 2 j * b jt * t = 2 j * b jt * t t =1 j = 1 t =1 j =1 j =1
e poich devono corrispondere alla stessa funzione stimabile, si ha che:

227
k k 1t = 1 j * b jt = 2 j * b jt j =1 j =1
per t=1,2,...k
Quello sopra rappresenta un sistema di k equazioni indipendenti nelle k incognite (1j - 2j), con termine noto il vettore nullo, la cui soluzione : (1j - 2j) = 0 1j = 2j per j=1,2...k dunque:
A*1 = A*2 quindi a una funzione stimabile corrisponde uno e un solo alias C.V.D. Dal teorema 2 del cap.7 segue che in un piano con p stati di prova, vi sono dunque p alias indipendenti.
9.3.2 OSSERVAZIONI Notiamo che in questo capitolo parliamo di indipendenza vettoriale in senso algebrico; lindipendenza (ortogonalit) statistica invece legata alla correlazione fra gli stimatori dei contrast, ovvero allortogonalit dei contrast; per verificare lortogonalit statistica bisogna per forza ragionare sui contrast: questo non un problema perch, applicando il metodo BW, la correlazione fra gli stimatori si vede subito dalla matrice (X1T*X1)-1. Lo spazio vettoriale che ho introdotto dotato di prodotto scalare, dunque si pu parlare anche di ortogonalit, in senso algebrico, nuovamente da non confondere con lortogonalit statistica; se lalias A1 calcolato usando un insieme U degli stati, e lalias A2 usa un insieme V, due condizioni sufficienti a rendere A1 e A2 ortogonali algebricamente, sono: UVUV UV Un esempio del primo caso pu essere costituito dai 2 alias A-BC e B-AC; un esempio del secondo caso sono i 2 alias A+BC e A-BC. Questa propriet si mantiene ovviamente sui contrast (particolari funzioni stimabili) dato lisomorfismo fra alias e funzioni stimabili. Spero che sia chiaro che lortogonalit algebrica degli alias implica quella statistica (e viceversa) solo se la numerosit degli stati di prova costante. Se le numerosit sono diverse, i 2 tipi di ortogonalit non hanno alcun legame di implicazione causale comunque lortogonalit algebrica resta una propriet importante (par. 10.2). Lo spazio degli alias che ho introdotto si pu considerare una novit (per quel che ho letto io) anche se non rappresenta altro che una trasformazione del ben noto spazio vettoriale dei contrast (Fontana 1995); in Fontana (1995) per lo studio si limita ai piani ortogonali mentre la mia teoria sugli alias serve apposta a spiegare le situazioni non ortogonali, con lausilio del metodo BW, che Fontana non usa. Secondo me, la trasformazione contrast-alias che ho fatto utile perch penso che per lo sperimentatore sia pi facile ragionare sugli alias che sui contrast.
228
In ogni caso penso che il lettore non abbia problemi a passare dal mio spazio degli alias a quello dei contrast per il quale valgono le stesse nozioni di indipendenza e ortogonalit algebrica contrapposta allortogonalit statistica108. Il concetto di dimensione dello spazio pari al numero degli stati di prova non costituisce una novit visto che questo concetto deriva direttamente dal teorema 2 del cap.7 che ho preso da Mood e Graybill (1963) e che rientra comunque nellambito del teorema di Gauss-Markov, noto da anni e anni. Per un fatto che non viene puntualizzato nella letteratura DOE, come notano anche Pistone e Wynn (1996), The dimension of the vector space....is exactly equal to the number n of distinct points in our case the experimental design points....This important point does not seem to be stated explicitly in the statistical literature: in any particular problem we expect to find a maximal of n basis functions.... Utilizzando altri concetti, molto pi avanzati dei miei dal punto di vista algebrico, Pistone e Wynn sottolineano il fatto che con p stati di prova si stimano p quantit indipendenti. Il lavoro dei 2 studiosi citati utilizza dei concetti a me sconosciuti per ho capito poco del contenuto dellarticolo; da quel che dicono anche loro vogliono studiare piani irregolari ...algebraic geometry is the right framework for answering questions about confounding in general or certainly for problems which do not fall into a classical framework such as he theory of orthogonal fractions. Dunque sembrerebbe che Pistone e Wynn abbiano trovato una teoria per studiare i piani non ortogonali in modo indubbiamente pi elegante e formalizzato (anche se molto pi complicato) del mio; per mi sembra che negli esempi che i 2 studiosi fanno, siano trattati solo casi regolari, classici; inoltre, proprio in un esempio di questi, un piano 26-3 si dice: Only one interaction is estimable together with all main effects . (!!!!!!) Io invece ho detto e ripetuto che nei piani ridotti, anche se manca solo uno stato di prova, non si stimano pi gli effetti di fattori e interazioni ma solo delle loro combinazioni lineari, gli alias o le classi di equivalenza (come direbbe Galetto); evidente che Pistone e Wynn sono partiti da definizioni di effetto diverse dalle mie.
108
Approfondir questo discorso nel par. 10.2 in un esempio di ANOVA one-way a 5 livelli. 229
9.4 APPLICAZIONI DELLA TEORIA

In un piano completo come quello macchina-operatore, il piano effettivo coincide con quello di riferimento quindi i 4 effetti puri sono tutti stimabili. Ordinando gli effetti secondo Yates: I, M, O, MO La base associata alla struttura degli alias : (1,0,0,0) (0,1,0,0) (0,0,1,0) (0,0,0,1) Il sottospazio generato da questi 4 vettori associati agli effetti genera lintero spazio vettoriale del piano di riferimento. I 4 vettori sono ortogonali algebricamente, ma gli alias (in questo caso effetti) associati non sono dei contrast ortogonali perch la numerosit degli stati diversa: lortogonalit algebrica in generale non implica quella statistica; e quella statistica non implica quella algebrica infatti la base: (1,-1/7,-1/7,-1/7) (0,1,-1/6,-1/6) (0,0,1,-1/5) (0,0,0,1) d luogo ad alias ortogonali statisticamente ma evidente che i 4 vettori sopra non sono algebricamente ortogonali. Come ho trovato la base sopra? Con la tecnica di analisi ortogonale descritta nel par. 8.2.3, trovando gli alias associati ai vari modelli col metodo BW: lo lascio come utile esercizio al lettore interessato. Nel piano ridotto I-ABC, gli effetti del piano di riferimento completo sono: I, A, B, AB, C, AC, BC, ABC e una base del piano ridotto costituita dai vettori: (1,0,0,0,0,0,0,-1) corrispondente allalias I-ABC (0,1,0,0,0,0,-1,0) corrispondente allalias A-BC (0,0,1,0,0,-1,0,0) corrispondente allalias B-AC (0,0,0,1,-1,0,0,0) corrispondente allalias AB-C le cui componenti sono scritte riferite alla base dello spazio vettoriale del piano di riferimento completo 23. Tale base si trova se si applica il metodo BW al modello Y=I+A+B+AB. Per questo piano sono dunque stimabili ortogonalmente (in senso algebrico, lo ripeto) i 4 alias sopra: ogni combinazione lineare dei 4 alias stimabile; ad esempio stimabile lalias A-BC+(1/4)B-(1/4)AC perch associato al vettore (0,1,1/4,0,0,-1/4,-1,0)
230
che generato dalla somma del secondo e dal terzo elemento della base con coefficienti 1 e 1/4. Dunque in questo piano la base potrebbe benissimo essere costituita dai vettori associati ai 4 alias: I-ABC A-BC A-BC+(1/4)B-(1/4)AC AB-C Perch ci non fatto nella pratica? 1. Perch lo sperimentatore sempre pi interessato alla prima base perch separa 3 effetti mentre la seconda no. 2. Perch i 4 alias della prima base sono ortogonali algebricamente e statisticamente se le numerosit degli stati sono uguali mentre ci non vero per i 4 alias della seconda base. Ecco perch nelle frazioni regolari immediata la scelta della base; se ci limitiamo alle frazioni regolari ammetto che serve a poco considerare la struttura degli alias associata a un sottospazio vettoriale. 9.4.1 FRAZIONE 3/8 Nel piano a 3 stati:
bc
abc
c b
ac ab
Nel par. 8.5.2 abbiamo studiato il piano, applicando il metodo BW ai 2 modelli Y=I+A+B Y=I+B+C trovando 2 strutture degli alias. La prima:
231
I-AC+AB-ABC A+AB-C-BC B-AB+C-AC e la seconda: I-A+BC-ABC B+A-AC-BC C-A-AB+BC Qualcuno pu essere stupito che ci siano 2 strutture degli alias; in realt se si pensa alla struttura degli alias come un insieme finito, la struttura degli alias dipende dal modello dunque ci sono tante strutture quanti i modelli che si possono costruire; ma se si accetta la mia definizione di sottospazio vettoriale non c nessun problema perch le strutture degli alias derivanti dal metodo di BW applicato a modelli diversi, costituiscono solo una base del sottospazio vettoriale degli alias stimabili. Prendiamo come base la prima: I-AC+AB-ABC A+AB-C-BC B-AB+C-AC in forma vettoriale, rispetto alla base del piano di riferimento completo 23: e1 = (1,0,0,1,0,-1,0,-1) e2 = (0,1,0,1,-1,0,-1,0) e3 = (0,0,1,-1,1,-1,0,0) La seconda struttura degli alias: I-A+BC-ABC B+A-AC-BC C-A-AB+BC rappresenta semplicemente un cambio della base: e1 = e1 - e 2 e2 = e2 + e 3 e3 = - e2 Chi vuole pu inventarsi dei dati per i 3 stati di prova e verificare, anche numericamente col modello full-regression, la dipendenza (esplicitata dal cambio di base sopra) delle stime dei 2 set di alias. Allora quale base conviene adottare (e conseguentemente quale set di alias indipendenti conviene stimare)? Come si era gi capito nei cap.5 e 8, dipende dalle esigenze dello sperimentatore e da quali elementi egli non vuole confondere fra di loro (in questo caso pu sceglierne solo 2): planned confounding...in which important effects
232
either are uncounfounded or are only confounded with effects that are believed to be negligible, is the basis for the statistical constructions of fractional factorial experiments (Mason et a1. 1989). Dunque in questo caso, come gi detto nel cap.8, se ci interessano A e B scegliamo la prima base, se ci interessano B e C scegliamo la seconda. 9.4.2 MET IRREGOLARE Quando si fraziona a met un piano, si possono prendere solo alcune met se si vuole avere un piano regolare con una certa defining relation; esistono per delle met irregolari che non derivano da ununica defining relation e che nessuno prende in considerazione, ad esempio:
bc
abc
c b
ac ab
i
Figura 28: 4/8 irregolare
Lanalista pu scegliere 4 effetti che non vuole confusi fra di loro, ad esempio I, A, B, AB ; di conseguenza usiamo il modello Y=I+A+B+AB, la cui matrice X1, se la numerosit degli stati costante, :
109
I i a b abc
AB
1 1 1 1
-1 1 -1 1
-1 -1 1 1
1 -1 -1 1
Applicando il metodo BW, si ha che la matrice di correlazione fra i 4 alias diagonale dunque il piano della figura 2 ortogonale.
Il lettore potrebbe obbiettare che questa una situazione irrealistica in quanto se interessano A,B,AB si potrebbe fare il piano regolare (i,a,b,ab) ma se per vincoli fisici lo stato ab non sperimentabile e lo invece lo stato abc, il piano diventa interessante. 233
109
I I A B AB
AB
0,25 0 0 0
0 0,25 0 0
0 0 0,25 0
0 0 0 0,25
La base del sottospazio struttura degli alias si capisce dalla matrice degli alias:
C I A B AB AC BC ABC
-0,5 0,5 0,5 0,5
0,5 -0,5 0,5 0,5
0,5 0,5 -0,5 0,5
0,5 0,5 0,5 -0,5
Una base, sempre riferita alle componenti del piano di riferimento, costituita dai vettori associati agli alias: I-1/2C+1/2AC+1/2BC+1/2ABC A+1/2C-1/2AC+1/2BC+1/2ABC B+1/2C+1/2AC-1/2BC+1/2ABC AB+1/2C+1/2AC+1/2BC-1/2ABC Verifichiamo ad esempio che lultimo alias richiede solo i 4 stati di questo piano irregolare (i,a,b,abc). AB =(1/8)*(111+001+000+110-010-011-100-101) C = (1/8)*(111+001+011+101-010-000-100-110) AC = (1/8)*(111+010+000+101-110-011-100-001) BC = (1/8)*(100+000+111+011-010-001-101-110) ABC = (1/8)*(111+001+010+100-110-000-101-011) AB+1/2C+1/2AC+1/2BC-1/2ABC = (1/4)*( 111+000-010-100) Il piano ortogonale (se le numerosit delle celle costante) ma il confounding estremamente pesante; in effetti questo piano non considerato da nessun autore anche se, come ho spiegato nella nota potrebbe avere la sua utilit nella pratica.
234
9.4.3 FRAZIONE 5/8 Alla met regolare I-ABC, si aggiunge lo stato di prova b.
bc
abc
c b
ac ab
Come gi detto la base pi interessante del piano I-ABC : (1,0,0,0,0,0,0,-1) corrispondente allalias I-ABC (0,1,0,0,0,0,-1,0) corrispondente allalias A-BC (0,0,1,0,0,-1,0,0) corrispondente allalias B-AC (0,0,0,1,-1,0,0,0) corrispondente allalias AB-C laggiunta dello stato b rende stimabile in pi lalias I-C-A+AC che corrisponde al vettore (1,-1,0,0,-1,1,0,0) esso linearmente indipendente dai 4 vettori sopra dunque una base del nuovo piano a 5 stati pu essere: e1 = (1,0,0,0,0,0,0,-1) e2 =(0,1,0,0,0,0,-1,0) e3 =(0,0,1,0,0,-1,0,0) e4 =(0,0,0,1,-1,0,0,0) e5 =(1,-1,0,0,-1,1,0,0) corrispondente allalias I-ABC corrispondente allalias A-BC corrispondente allalias B-AC corrispondente allalias AB-C corrispondente allalias I-C-A+AC
La base sopra non molto intelligente perch ha 2 alias che coinvolgono la media; il nostro scopo invece quello di confondere la media con gli effetti ritenuti non interessanti e non confondere fra loro gli effetti che interessano. Nel par. 8.5.3 avevamo ricavato una base110 pi sensata col metodo di Box-Wilson, corrispondente ai 5 alias:
110
Senza peraltro avere introdotto il concetto di base. 235
I-ABC A-BC B-AC AB-AC+ BC-ABC C-AC+BC-ABC essa non rappresenta altro che un cambio di base di (e1, e2, e3, e4, e5) e precisamente: e 1 = e1 e2 = e2 e3 = e3 e4 = e1 + e 4 - e 2 - e 5 e5 = e1 - e 2 - e 5 Questa base va bene se, lo ripeto, ci interessano gli elementi A,B,C,AB perch con tale base questi elementi non sono confusi fra di loro ma solo con gli altri ovvero AC,BC,ABC. Fornasieri (1995), applicando il metodo BW a un modello con soli 4 parametri, trova solamente 4 elementi di una base: (1,0,0,0,-1/4,1/4,-1/4,-3/4) (0,1,0,0,1/4,-1/4,-3/4,-1/4) (0,0,1,0,-1/4,-3/4,-1/4,1/4) (0,0,0,1,-3/4,-1/4,1/4,-1/4) essi rappresentano 4 elementi di una base che ne deve contenere 5 e per di pi sono 4 elementi abbastanza complicati. Fornasieri dichiara di non sapere quale parametro aggiungere al modello: (1) Y=I+A+B+AB
perch laggiunta di un parametro modifica i 4 alias trovati col modello (1); ma chi ha detto che gli alias non possono cambiare? Il fatto che gli alias cambino dovuto alla non ortogonalit dei contrast; basta guardare la matrice (X1T*X1)-1 del modello ridotto (1):
I I A B AB A B AB
7/32 1/32 - 1/32 1/32
1/32 7/32 1/32 - 1/32
- 1/32 1/32 7/32 1/32
1/32 - 1/32 1/32 7/32

236
La risposta alla domanda di Fornasieri circa quale parametro aggiungere :
Aggiungi quello che ritieni pi importante per motivi fisici e tecnici, tanto qualunque parametro si aggiunge, si ottengono risultati congruenti che portano alle stesse decisioni, compatibilmente con la struttura degli alias Nel nostro esempio abbiamo aggiunto un solo stato arrivando a 5, ma la risposta sopra di carattere generale; tanti stati di prova si aggiungono al piano, tanti parametri bisogna aggiungere al modello, secondo le esigenze che si hanno. 9.4.4 FRAZIONE 6/8 (3/4 DI JOHN) Al piano di prima si aggiunge, come fa Fornasieri (1995), lo stato di prova abc.
bc
abc
c b
ac ab
Figura30: 3/4 di John
Il lettore attento riconosce che il piano un 3/4 di John derivante dallintersezione dei 3 piani: I+AC I+B I-ABC che portano a 12 alias stimabili (ma solo 6 indipendenti). Alla base che avevamo prima: e1 = (1,0,0,0,0,0,0,-1) corrispondente allalias I-ABC e2 =(0,1,0,0,0,0,-1,0) corrispondente allalias A-BC e3 =(0,0,1,0,0,-1,0,0) corrispondente allalias B-AC e4 =(0,0,0,1,-1,0,0,0) corrispondente allalias AB-C e5 =(1,-1,0,0,-1,1,0,0) corrispondente allalias I-A-C+AC quale elemento possiamo aggiungere, ora che si aggiunto lo stato abc, per trovare una base del piano? Ad esempio il vettore corrispondente allalias I+B: e6 = (1,0,1,0,0,0,0,0) Come succedeva prima tale base non intelligente perch 3 alias contengono la media I. Per ottenere una base interessante bisogna applicare il metodo BW a un modello che abbia
237
i parametri richiesti dallo sperimentatore. Se ad esempio richiede gli effetti A,B,C,AB e AC, usiamo il modello Y=I+A+B+C+AB+AC, la matrice degli alias :
BC 0 -1 0 1 1 0 ABC -1 0 1 0 0 1
I A B C AB AC
Gli alias di tabella 1 corrispondono al cambio di base: e1 = e1 e2 = e2 e3 = e6 - e1 e4 = e6 - e2 - e3 - e5 e5 = e6 + e4 - e2 - e3 - e5 e6 = e6 - e1 - e3 Come ormai chiaro, se si applicasse il metodo BW su un altro modello, corrispondente ad altre esigenze, si otterrebbe unaltra base della struttura degli alias; pu anche capitare che non esista una base che soddisfi le esigenze dello sperimentatore, in tal caso la matrice (X1T*X1) risulta non invertibile come detto nel par. 8.5.2. 9.4.5 FRAZIONE 7/8 Aggiungiamo lo stato a al piano del paragrafo precedente e ritorniamo al piano gi esaminato nel par. 8.5.5: bc c b abc
ac ab
i
Figura31: frazione 7/8
Rispetto al sottospazio vettoriale del piano a 6 stati abbiamo un elemento indipendente in pi, che ad esempio pu essere il vettore:
238
e7 = (1,0,0,0,-1,0,0,0)
corrispondente allalias I-C
Il lettore pu verificare, come ho fatto io nei paragrafi precedenti, che la base associata ai seguenti alias trovati nel par. 8.5.5, applicando il metodo BW al modello Y=I+A+B+C+AB+AC+BC:
ABC I A B C AB AC BC
-1 1 1 -1 -1 1 1
corrisponde a un cambio di base111 di: e1 = (1,0,0,0,0,0,0,-1) e2 =(0,1,0,0,0,0,-1,0) e3 =(0,0,1,0,0,-1,0,0) e4 =(0,0,0,1,-1,0,0,0) e5 =(1,-1,0,0,-1,1,0,0) e6 = (1,0,1,0,0,0,0,0) e7 = (1,0,0,0,-1,0,0,0) corrispondente allalias I-ABC corrispondente allalias A-BC corrispondente allalias B-AC corrispondente allalias AB-C corrispondente allalias I-A-C+AC corrispondente allalias I+B corrispondente allalias I-C
Se aggiungessimo anche lo stato c, arriveremo al piano completo e conosceremmo tutti gli effetti e la base sarebbe quella canonica di 8. 9.4.6 E SE ABBIAMO DIMENTICATO UN FATTORE? Ora che siamo al piano completo 8/8, immaginiamo di avere trascurato un quarto fattore D e che gli stati che abbiamo sperimentato siano tutti al livello basso di D. Il piano di riferimento, ora che abbiamo 4 fattori, dunque composto dal cubo precedente con D al livello basso, pi un nuovo cubo con D al livello alto, come illustrato in figura 6. Leffetto di D si ottiene confrontando le medie dei 2 cubi fra di loro. In questa situazione tutti gli effetti che credevamo di stimare prima sono in realt confusi con delle interazioni riguardanti il fattore D e in particolare la media I confusa con il fattore D.
111
il cambio di base pi conveniente perch quello che porta a una risoluzione maggiore. 239
bcd bc abc cd bd c b ab d ad ac acd
abcd
abd
Figura 32: ipercubo nello spazio quadridimensionale
La frazione sopra assolutamente regolare, corrispondente alla defining relation I-D che porta alla base (non la scrivo pi in forma vettoriale perch comincia ad essere lunga): e1 I-D e2 A-AD e3 B-BD e4 C-CD e5 AB-ABD e6 AC-ACD e7 BC-BCD e8 ABC-ABCD Se aggiungiamo lo stato di prova d, otteniamo una frazione irregolare 9/16; siamo in grado di aggiungere un elemento alla base: quale? Ad esempio con la coppia (i,d) derivante dalla defining relation I-A-B-C+AB+AC+BC-ABC possiamo stimare, in pi rispetto a prima (8/16), lalias e9 D-AD-BD-CD+ABD+ACD+BCD-ABCD Se applico il metodo BW al modello con 9 parametri (perch ci sono 9 stati di prova): Y=I+A+B+C+AB+BC+AC+ABC+D
240
La matrice degli alias :

AD I A B C AB AC BC ABC D
Tabella 96
BD
CD
ABD
ACD
BCD ABCD
-1 -1 0 0 0 0 0 0 -1
-1 0 -1 0 0 0 0 0 -1
-1 0 0 -1 0 0 0 0 -1
1 0 0 0 -1 0 0 0 1
1 0 0 0 0 -1 0 0 1
1 0 0 0 0 0 -1 0 1
-1 0 0 0 0 0 0 -1 -1
I primi 8 alias sono ortogonali (algebricamente) fra loro, lultimo no: la non ortogonalit un problema comune alle frazioni irregolari. Come si vede, gli alias di tabella 2 rappresentano gli elementi della base che abbiamo indicato sopra a parte lalias della media che cambiato e1 = e1 + e9 ci ovvio visto che in e1 la media I confusa con D, ma noi abbiamo applicato il metodo BW apposta per separare D, e infatti I e D vengono fuori in 2 alias separati come si vede dalla tabella 2.
9.5 SCELTA DELLA BASE

Se aggiungessimo un altro stato, si arriverebbe alla frazione 10/16 ovvero 5/8 che abbiamo gi esaminato e poi si arriverebbe alle nuove frazioni 11/16, 13/16, 15/16 (in questultimo tutti gli effetti sarebbero confondibili con ABCD): non studio queste frazioni tanto il lettore ha ormai acquisito gli strumenti concettuali e operativi per studiarle da solo: struttura degli alias associata a un sottospazio vettoriale metodo di Box-Wilson La cosa importante da ricordare che, quando sono in un piano P, con p stati di prova e voglio passare a un piano P+1, con p+1 stati di prova, a seconda di quale effetto si vuole separare, bisogna aggiungere un particolare stato di prova (pu anche essercene pi di uno); nel piano ridotto di figura 6 ovvio112 aggiungere lo stato d per separare il fattore D dagli altri ma in generale la scelta non cos semplice; per sapere quale stato conviene aggiungere, bisogna indagare, con il metodo BW, la struttura degli
112
ovvio perch in genere prima si stimano i fattori e poi, se possibile, le interazioni. 241
alias dei possibili piani alternativi P+1 (se si vuole separare un effetto), P+2 (se si vogliono separare 2 effetti).....e scegliere la base che pi si adatta alle esigenze dello sperimentatore, tenendo anche conto della correlazione fra gli stimatori degli alias e del fatto che certe basi non ammissibili (matrice X1T*X1 non invertibile). Dunque nella scelta della base bisogna tenere conto di 2 esigenze contrapposte: una base interessante per lo sperimentatore una base ortogonale Ricordo che lortogonalit della base implica la non correlazione fra gli stimatori degli alias se la numerosit degli stati costante. Quale delle 2 esigenze primaria? Secondo me la prima. Ecco perch dico che nei piani non geometrici non saturated di PlackettBurman, come quello del par. 8.5.1, ha poco senso la base ortogonale: I + interazioni di ordine superiore A + (1/3)*(-BC+BD+BE-CD-CE-DE) + interazioni di ordine superiore B + (1/3)*(-AC+AD+AE-CD+CE-DE) + interazioni di ordine superiore C + (1/3)*(-AB+AD+AE-CD+CE-DE) + interazioni di ordine superiore D + (1/3)*(AB-AC-AE-BC-BE-CE) + interazioni di ordine superiore E + (1/3)*(AB-AC-AD+BC-BD-CD) + interazioni di ordine superiore (1/3) * (-AB+AC-AD+AE+BC-BD-BE+CD-CE-DE) + interazioni di ordine superiore (1/3) * (-AB-AC-AD+AE-BC+BD-BE+CD-CE-DE) + interazioni di ordine superiore (1/3) * (AB+AC-AD-AE-BC-BD-BE-CD+CE+DE) + interazioni di ordine superiore (1/3) * (-AB-AC-AD-AE+BC+BD-BE-CD-CE-DE) + interazioni di ordine superiore (1/3) * (-AB-AC+AD-AE-BC-BD-BE+CD+CE-DE) + interazioni di ordine superiore (1/3) * (-AB+AC+AD-AE-BC-BD+BE-CD-CE+DE) + interazioni di ordine superiore perch gli ultimi 6 alias sono sprecati visto che non rappresentano niente di interessante; inoltre tolgono 6 gradi di libert che potrebbero essere attribuiti pi utilmente a 6 interazioni che i tecnici ritengono di interesse. Ad esempio se si applica il metodo BW al modello: Y=I+A+B+C+D+E+AB+AC+AD+BD+DE
242
si ottiene la seguente base non ortogonale: B B C C A A A A A A C E D E B B B C C D C D E D E E

I A B C D E AB AC AD AE BD DE
B C D
B C E
B D E
C D E
A B C D
A B C E
0,33
A B D E
A C D E
B C D E
A B C D E
0,00 0,00 0,00 0,00 0,00
0,00 0,00 0,00 0,00 -0,33 0,33 0,33 -0,33 -0,33 -0,33 -0,33 0,33 -0,33 -0,33 -0,33 -1,00 0,00 0,00 0,00 0,67 0,33 0,33 -0,33 -0,33 -0,33 -0,33 0,33 0,67 0,67 -0,33
0,33 0,33 -0,33
0,33 -0,67 -0,67 -0,33
0,00 0,00 -1,00 0,00 -0,33 0,33 0,33 -0,33 0,67 0,67 0,67 0,33 -0,33 -0,33 -0,33 -0,67 -0,67 0,33 -0,33 0,00 1,00 0,00 0,00 -0,33 -0,67 0,33 -0,33 -0,33 0,67 -0,33 -0,67 -0,33 -0,33 0,67 0,33 0,33 -0,67 -0,33 0,67 -0,33 1,00 0,00 0,33
0,00 0,00 0,00 -1,00 -0,67 -0,33 0,67 0,33 0,33 0,33 0,33 -0,33 0,33 -0,67 -0,67 -0,33 1,00 1,00 -1,00 -1,00 -1,00 0,00 0,00 1,00 0,00 1,00 0,00 0,00 0,00 -1,00 0,00 0,00 0,00 1,00 0,33 -0,33 -0,33 -0,67 0,33 -0,67 -0,67 -0,33 -0,67 0,33 0,00 -1,00 0,33
0,00 -1,00 0,33 0,00
0,67 -0,33 -0,33 0,33 0,33 0,67 -0,33
1,00 1,00 -1,00 -1,00 -1,33 -0,67 0,33 0,67 0,67 0,67 0,67 0,33 -0,33 -1,33 -0,33 -0,67 0,00 1,00 0,00 0,00 -0,67 -0,33 -0,33 0,33 -0,67 0,33 -0,67 -0,33 0,33 -0,67 0,33 -0,33 0,33
0,67 -1,00 0,33 0,00 0,00
0,00 0,00 1,00 0,00 0,67 -0,67 0,33 -0,33 -0,33 -0,33 -0,33 -0,67 0,67 -0,33 -0,33 1,00 1,00 -1,00 -1,00 -1,67 -0,33 -0,33 0,33 0,33 1,33 0,33 -0,33 -0,67 -0,67 -1,00 0,00 0,00 0,00 0,33 0,67 0,67 -0,67 -0,67 0,33 0,33 -0,33 0,33 0,33
0,33 -0,67 -0,33 0,67 0,67
0,33 -0,33
0,33 -1,00 0,00
0,33 -0,33 -0,33 -0,33 -0,67
Trascurando i termini di ordine superiore al primo, la base diventa molto pi semplice ed interpretabile di prima: I+ interazioni di ordine superiore A-BC+ interazioni di ordine superiore B-CD+ interazioni di ordine superiore C+BE+ interazioni di ordine superiore D-CE+ interazioni di ordine superiore E+BC+BE-CD-CE+ interazioni di ordine superiore AB+CE+ interazioni di ordine superiore AC+BC+BE-CD-CE+ interazioni di ordine superiore AD+BE+ interazioni di ordine superiore AE+CD+ interazioni di ordine superiore BD+BC+BE-CD-CE+ interazioni di ordine superiore DE-BC+ interazioni di ordine superiore anche se non sono ortogonali, si separano 6 interazioni in pi di quando avevo una base ortogonale; nel capitolo 10 vedremo un esempio numerico per far vedere che il mio approccio (maggior risoluzione a scapito dellortogonalit) decisamente superiore nellindividuazione degli effetti (aliased) significativi, anche se i VIF degli stimatori degli alias di E, AC e BD, sono attorno al valore non piccolo di 5.
243
Maggior risoluzione a scapito dellortogonalit (precisione delle stime): ecco uno dei messaggi che ritengo pi importante lanciare. Nei libri e articoli che ho letto, solo in un articolo di Steinberg e Hunter (1984) ho ritrovato questo concetto: Another direction worthy of consideration, suggested by Tukey, is the use of designs that are not orthogonal, but in which the correlations of the parameter estimates are quite small. The idea here is that by sacrificing some orthogonality, it may be possible to gain much in terms of the number of factors that can be studied.
9.6 AGGIUNTA DI UN FATTORE PER DIMINUIRE IL RESIDUO

Trattiamo questultimo caso perch ci sar daiuto nel cap.10 per meglio comprendere gli errori di Galetto (1989a) nellanalisi si un caso taguchiano. Consideriamo un piano ridotto regolare con 4 fattori, A, B, C e D in cui inizialmente nellanalisi trascuriamo il fattore D: la defining relation del piano I+ABC:
bc
abc
c b
ac ab
Figura 33: proiezione di una frazione 8/16 sul cubo in cui D al livello basso
Supponiamo che in ogni stato di prova vi siano 4 dati (di cui 2 presi al livello alto di D e 2 al livello basso). I 4 alias stimati, dalla defining relation I+ABC, sono: I+ABC A+BC B+AC C+AB La tabella ANOVA sarebbe:
244
d.f. Totale I+ABC A+BC B+AC C+AB Residuo

Tabella 98
16 1 1 1 1 12
In questo modo il residuo comprende anche gli effetti (aliased) del fattore D e delle sue interazioni; se vogliamo ripulire il residuo da questi effetti, dobbiamo considerare anche il fattore D; la defining relation non cambia come si pu vedere dallipercubo: rimane
I+ABC
bcd bc abc cd bd c b ab d ad ac acd
abcd
abd
Figura 34: piano ridotto I-ABC a 4 fattori
Aggiungendo il fattore D allanalisi, i 4 alias di prima non cambiano, se ne aggiungono altri 4 riguardanti il fattore D e le sue interazioni; infatti la struttura degli alias (o meglio una la base pi interessante che esiste) ora : I+ABC A+BC
245
B+AC C+AB D+ABCD AD+BCD BD+ACD CD+ABD Il residuo diminuisce ora di 4 gradi di libert, quelli relativi ai nuovi 4 alias che riguardano tutti il fattore aggiunto e alle sue interazioni. La nuova tabella ANOVA, indubbiamente pi corretta perch tiene conto di tutta la stratificazione, la seguente:
d.f.
Totale I+ABC A+BC B+AC C+AB D+ABCD AD+BCD BD+ACD CD+ABD Residuo
16 1 1 1 1 1 1 1 1 8
Tabella 99: ANOVA incompleta
Il residuo SSe calcolabile per differenza solo perch il piano bilanciato; in generale con 8 stati sarebbe la varianza pooled delle varianze degli 8 stati di prova, moltiplicata per 8. Aggiungendo un fattore allanalisi abbiamo quindi guadagnato dei gradi di libert da attribuire agli elementi con cui abbiamo stratificato i dati (ovvero i trattamenti); chi non li attribuisse a D e alle sue interazioni (aliased), ma ad esempio a AB,BC,AC,ABC, scrivendo dunque la tabella ANOVA:
d.f.
Totale I A B C AB BC AC ABC Residuo
16 1 1 1 1 1 1 1 1 8
Tabella 100: ANOVA completa
farebbe un grosso errore, e un errore ancora pi grave farebbe nel calcolare il residuo per differenza di componenti non indipendenti. Quando nella tabella ANOVA si ripartiscono i
246
gradi di libert, bisogna attribuirli a delle componenti indipendenti, altrimenti lANOVA stessa perde significato; questa affermazione vale sempre (vedere par. 3.7), anche con un numero di livelli di fattori superiore a 2, nel qual caso la struttura degli alias notevolmente pi complicata rispetto ai piani 2n-p. In una tabella ANOVA i gradi di libert devono essere attribuiti a componenti (alias) indipendenti e vi sono tanti alias indipendenti quanti sono gli stati di prova del piano, come predice la mia teoria sugli alias (che deriva dal teorema di Gauss-Markov).
9.7 UNA SPIEGAZIONE ALTERNATIVA AGLI ALIAS

Io ho definito gli effetti in modo che per stimarli, ho bisogno di tutti gli stati di prova; nei piani ridotti ho quindi necessariamente una distorsione degli stimatori: questo per me il problema del confounding o degli alias; il fatto che gli stimatori siano correlati fra loro, per me significa solamente un aumento della loro varianza e quindi una perdita di precisione della stima numerica, misurabile col VIF; se alcuni VIF sono troppo alti, uso altri stimatori corrispondenti ai modelli ridotti senza i parametri corrispondenti agli stimatori hanno i VIF alti, accettando quindi maggior distorsione (da parte dei parametri cancellati) degli stimatori; questi concetti sono espressi anche in Hahn et al. (1976). Tutto ci segue appunto dalle definizioni che ho dato. Io non ho mai detto per che le mie definizioni sono assolute; in letteratura purtroppo non ho riscontrato una grande chiarezza riguardo i concetti di effetto e di alias quindi ho ritenuto di poter assumere le definizioni che ritenevo pi logiche e che mi permettessero di sfruttare metodi potenti come la regressione full-regression e il metodo di Box-Wilson. Per quanto io sia decisamene contro, si potrebbe pensare a delle definizioni alternative tali che un effetto sempre stimabile correttamente anche in un piano ridotto, e interpretare il confounding come un problema di correlazione fra gli stimatori dei vari effetti. Ad esempio nel piano I-ABC potremmo definire: A* = 111+100-010-001 BC* = 111+100-010-001 e i conseguenti stimatori corretti: A = abc+a-b-c BC = abc+a-b-c avere coefficiente di correlazione uguale a 1 e quindi essere completamente confusi e dire quindi che A alias di BC. Il concetto di classe di equivalenza di Galetto (1995 e 1996) perfettamente compatibile anche con questo tipo di approccio in cui il problema
247
degli alias viene ricondotto alla correlazione: in questo caso la notazione A@BC significherebbe che A totalmente correlato con BC. In situazioni irregolari come nella frazione 5/8
bc
abc
c b
ac ab
i
la definizione degli effetti potrebbe essere la seguente (in forma tabellare):

I 1 A -2 B -3 AB 3 C -2 AC 2 BC 3 ABC -1
000 010 110 101 011
1 1 1 1
-2 3 3 -2
2 2 -3 2
-2 3 -2 -2
-2 -2 3 3
2 -3 2 -3
-2 -2 -2 3
4 -1 -1 -1
Tabella 101: definizioni alternative di effetto
e i conseguenti coefficienti di correlazione fra gli stimatori sarebbero (se la numerosit costante):
I A B AB C 1 0 0 0 0 0 1 - 1/6 1/6 1/6 0 - 1/6 1 - 1/6 - 1/6 0 1/6 - 1/6 1 - 2/3 0 1/6 - 1/6 - 2/3 1 0 - 1/6 - 2/3 - 1/6 - 1/6 0 - 2/3 - 1/6 1/6 1/6 0 - 198/485 198/485 - 198/485 - 198/485 AC 0 1/6 2/3 1/6 1/6 1 1/6 BC 0 - 2/3 - 1/6 1/6 1/6 - 1/6 1 - 198/485 ABC 0 - 198/485 198/485 - 198/485 - 198/485 198/485 - 198/485 1
I A B AB C AC BC ABC
Tabella 102: correlazione fra gli stimatori (BLUE) degli effetti proposti
Visto che abbiamo 5 stati solamente 5 effetti sono indipendenti. Se scegliamo ad esempio i primi 5, avremmo le seguenti classi di equivalenza:
248
I A-1/6B+1/6AB+1/6C-1/6AC-2/3BC-198/485ABC B-1/6A-1/6AB-1/6C-2/3AC-1/6BC+198/485ABC AB+1/6A-1/6B-2/3C-1/6AC+1/6BC-198/485ABC C+1/6A-16B-2/3AB-1/6AC+1/6BC+198/485ABC dove i + e - non rappresentano pi segni algebrici ma dei simboli. Se per un piano scegliamo una base i cui alias sono ortogonali algebricamente e statisticamente, la struttura degli alias, individuata dai 2 approcci uguale simbolicamente: ricordiamo per che dietro i simboli vi sono significati differenti. Io sono molto critico verso lapproccio illustrato in questo paragrafo perch secondo me non ha senso adattare la definizione di effetto a seconda del piano che si fa, tuttavia lho illustrato per completezza di trattazione; per me gli effetti si stimano solo con il piano completo e il confounding resta un problema di distorsione e cos anche trattato il letteratura (Box e Meyer 1993, Barrantine 1996, Bisgaard 1993, Daniel 1976, Montgomery 1991,.....); in letteratura (quella che ho esaminato) lidea di vedere gli alias come fenomeno di correlazione non presente esplicitamente ma forse implicitamente s: infatti quando Pistone e Wynn (1996) dichiarano che in un piano 26-3 Only one interaction is estimable together with all main effects . stanno assumendo delle definizioni di effetto del tipo riportate in questo paragrafo, ovvero che si adattano a seconda del tipo di frazionamento che si fa.
249
CAPITOLO 10
APPLICAZIONI SU DATI REALI
10.1 QUALI METODI USIAMO?

Ricapitoliamo i metodi di analisi che abbiamo visto finora: analisi dei contrast (ANCON) analisi della covarianza (ANCOV) regressione modello sovraparametrizzato con le funzioni stimabili modello sovraparametrizzato riparametrizzato modello cell-means modello full-regression Con questi metodi abbiamo visto che possibile scomporre la SStr113 in tante componenti indipendenti quanti sono gli stati di prova (meno 1 che riguarda la media), ciascuna con 1 grado di libert. I metodi sono tutti corretti e come visto, per una certa ipotesi nulla portano alla stessa decisione di rifiuto o accettazione. Per esistono dei metodi pi efficienti di altri, in termini computazionali e di informazione. Lanalisi dei contrast, legittimata dal teorema di Gauss-Markov, si pu fare velocemente, con fattori a 2 livelli, col metodo di Yates (se si accettano le mie definizioni di effetto) ma a questo metodo senzaltro superiore la regressione full-regression che d informazioni anche sulla correlazione degli stimatori usati, offrendo la possibilit di studiare velocemente la non ortogonalit attraverso la matrice di correlazione. Lanalisi della covarianza offre lutile possibilit di interpretare graficamente i piani fattoriali quando i livelli dei fattori sono pochi, ma con tanti fattori e livelli diventa
113
Ricordo che essa rappresenta la somma dei quadrati dovuta alla stratificazione dei dati. 250
piuttosto onerosa. Il modello sovraparametrizzato chiaramente meno efficiente di quello full-regression: inoltre questultimo offre la possibilit di esplicitare agevolmente la struttura degli alias in ogni situazione. Il modello cell-means utile quando non si condividono le mie definizioni di effetto e alias, perch consente di testare le combinazioni lineari delle medie degli stati di prova, che pi si ritengono utili: equivalente allanalisi dei contrast. Nei casi presentati in seguito io applicher il modello full-regression, e la teoria sugli alias, per far vedere la grande potenza di questi 2 strumenti nellinterpretazione di qualunque tipo di piano fattoriale con fattori fissi114. Il capitolo non solo applicativo ma contiene anche dei contenuti teorici molto importanti che ho ritenuto di proporre solo adesso perch si capiscono meglio con dei dati gi analizzati da altri.
10.2 ANOVA ONE-WAY FULL-REGRESSION

Per trattare questo argomento ci basiamo su un esempio presentato in Galetto (1995 e 1996) in cui la risposta lo spazio di frenata sul bagnato di 5 tipi di pneumatici, i primi 2 non radiali e gli altri 3 radiali.
1 151 143 159 152 156
Tabella 103
2 157 158 150 140 142
3 135 146 142 129 139
4 147 174 179 163 148 165
5 146 171 167 145 147 166
La tabella ANOVA, riportata in Galetto (1995 e 1996) la seguente:

SS df MS F calcolata F0,95(4,22)
Totale Media Totale corretto Trattamenti Residuo
631775 627766,2593 4008,740741 1812,607407 2196,133333
27 1 26 154,1823 4 453,1519 4,53949703 22 99,82424 2,81670509
Tabella 104: ANOVA
Vediamo che il tipo di pneumatico influenza significativamente con un CL=0,95, la risposta, nel senso che la variabilit della risposta per i 5 tipi di pneumatico non pu essere
114
Ripeto ci che avevo gi detto nel cap.3; la tesi si limita allo studio di fattori fissi. 251
attribuita al caso. Sappiamo che almeno un pneumatico si comporta in modo significativamente diverso dagli altri e a noi interessa capire quali sono le effettive sorgenti di variabilit messe in luce solo in modo aggregato dalla SStr. Ecco perch dico che, anche quando si hanno tanti livelli, conviene sempre dividere la somma dei quadrati del fattore in tante componenti ciascuna con un grado di libert. Anche Galetto mette in evidenza questo importante punto e infatti scompone la SStr in 4 componenti riguardanti 4 contrast ortogonali e precisamente: C1* = 1 - 2 C2* = 1 + 2 -23 C3* = 4 - 5 C4* = 21 + 22 + 23 - 34 - 35 I risultati ottenuti applicando la formula: C2 SS (C ) = 5 c ni i =1 i portano alla seguente tabella:
SS df MS F calcolata F0,95(1,22)
Trattamenti C1
C2
1812,607407 19,6 529,2 96,33333333 1167,474074 2196,133333
4 453,1519 1 1 19,6 0,196345091 529,2 5,301317467 4,300944 4,300944 4,300944 4,300944
C3
C4
1 96,33333 0,965029446 1 1167,474 11,69529611 22 99,82424
Residuo
Tabella 105: decomposizione ortogonale di SStr
Vediamo come possiamo riottenere gli stessi risultati col modello full-regression, per la prima volta applicato ad un fattore con pi di 2 livelli: Y = I + C1*x1 + C2*x2 + C3*x3 + C4*x4 le variabili sono codificate in modo da rappresentare i confronti che ci interessano fra i vari livelli: essendo la variabile qualitativa, ha poco senso la codifica dei polinomi ortogonali. Mettiamo invece gli stessi coefficienti dei contrast proposti da Galetto: ad esempio la variabile x1 assumer i valori (1,-1,0,0,0), x2 sar (1,1,-2,0,0).... In forma vettoriale abbiamo la matrice X:
252
1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 4 4 4 4 4 4 5 5 5 5 5 5
I 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
A1 1 1 1 1 1 -1 -1 -1 -1 -1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
A2 1 1 1 1 1 1 1 1 1 1 -2 -2 -2 -2 -2 0 0 0 0 0 0 0 0 0 0 0 0
A3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 -1 -1 -1 -1 -1 -1
A4 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 -3 -3 -3 -3 -3 -3 -3 -3 -3 -3 -3 -3
Tabella 106: matrice X del modello FR con i contrast di Galetto
Essa porta alla soluzione contenente C1, C2, C3, C4: = (XT*X)-1*XT*Y Le stime sono le seguenti;
C C1 C2 C3 C4 SS(C)
1,4 4,2 2,833333
19,6 529,2 96,33333
-2,646667 1167,474
la SS calcolata con la solita formula di SS(C) prendendo i coefficienti della matrice

(XT*X)-1*XT; si trova che i coefficienti dei contrast sono uguali a quelli che ho usato per codificare le variabili. Per avere questa importantissima propriet non condizione necessaria lortogonalit statistica, sufficiente quella algebrica115 (par. 9.3.2); in
Questa una congettura che faccio io, derivante dalle molte elaborazioni fatte col modello full-regression e sempre confermata anche in tutti gli esempi illustrati nella tesi. 253
115
particolare i coefficienti dei polinomi ortogonali forniscono sempre contrast ortogonali algebricamente, ecco perch sono cos importanti. Lortogonalit algebrica implica quella statistica (e viceversa) solo se la numerosit degli stati costante, altrimenti non c nessun legame causale come accadeva per gli alias (par. 9.3.2). Per far vedere questo facciamo un esempio con 3 livelli di numerosit 1,4,4; i contrast: 1 + 2 -23 1 -22 +3 non sono ortogonali algebricamente perch il prodotto scalare dei vettori associati : 1-2-2 = -3 0 tuttavia sono ortogonali statisticamente perch: 1-2/4-2/4 = 0 Se vogliamo continuare a usare il modello full-regression con fattori a pi livelli, dobbiamo usare delle codifiche associate a dei contrast algebricamente ortogonali. Ci sono tante codifiche ortogonali: scegliamo quella che rispecchia i confronti che ci interessano maggiormente. In questo esempio dei pneumatici, essendo i primi 2 non radiali e gli altri radiali, riterrei utile un confronto fra questi 2 gruppi; non ritengo quindi tanto utile il quarto contrast usato da Galetto: C4* = 21 + 22 + 23 - 34 - 35 Peraltro lautore citato lo usa solo per lesigenza didattica di spiegare la decomposizione ortogonale della devianza dei trattamenti. Ma nella realt penso che il contrast: C4* = 31 + 32 - 23 - 24 - 25 sarebbe pi utile; esso algebricamente ortogonale a: C1* = 1 - 2 C3* = 4 - 5 ma non a: C2* = 1 + 2 -23 che dunque va sostituito, per mantenere lortogonalit algebrica (che fa s, lo ripeto, che la soluzione delle equazioni normali FR stimi correttamente questi contrast) da: C2* = 23 - 4 -5 Cambia dunque la codifica di x2 (oltre che di x4), prima era (1,1,-2,0,0) ora (0,0,2,-1,-1); la matrice X diventa:
I A1 A2 A3 A4 254
2 - LApproccio Scientifico alla Qualit 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 4 4 4 4 4 4 5 5 5 5 5 5 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 -1 -1 -1 -1 -1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 2 2 2 2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 -1 -1 -1 -1 -1 -1 3 3 3 3 3 3 3 3 3 3 -2 -2 -2 -2 -2 -2 -2 -2 -2 -2 -2 -2 -2 -2 -2 -2 -2
Tabella 107: matrice X del modello FR con i miei contrast
In questo caso gli stimatori dei 4 contrast non sono completamente scorrelati fra di loro come si vede dalla matrice (XT*X)-1:
I I C1 C2 C3 C4 C1 C2 C3 C4
0,037333 0 0,002222 0 0,000889
0 0,002222222 0,1 0 0 0 0 0,031481481 0 -0,00074074
0 0 0 0,083333 0
0,000889 0 -0,000741 0 0,00637
255
ma questo non assolutamente un problema visto che i VIF sono praticamente uguali a 1 (chi vuole verificarlo pu scrivere la matrice di correlazione e invertirla). I risultati sono:
C C1 C2 C3 C4 SOMMA SS(C)
1,4
19,6
-7,211111 1651,768627 2,833333 96,33333333 -0,364444 20,8496124 1788,551573
La differenza fra pneumatici radiali e non (C4) dunque non significativa116 in media, ma la differenza fra il tipo 3 e 4 e 5 molto significativo: il tipo 3 decisamente migliore, dunque possiamo supporre che i pneumatici 1 e 2 siano migliori del 4 e 5. Queste considerazioni si potrebbero capire anche tracciando un diagramma delle medie, con i rispettivi intervalli di fiducia, come viene fatto in Galetto (1995 e 1996). Si vede che la somma delle SS(C) dei 4 contrast diversa da SStr = 1812,607407 e ci dovuto al fatto che i 4 contrast non sono pi ortogonali statisticamente ma, come il lettore ha ormai capito, io preferisco sacrificare lortogonalit (in questo esempio poi il sacrificio quasi nullo visto che i VIF1) per fare dei test pi interessanti.
10.3 ANOVA TWO-WAY FULL-REGRESSION

Esaminiamo un altro caso presentato in Galetto (1995 e 1996): lesperimento consiste in una prova di trazione su un certo prodotto: sono sperimentati 2 lotti di questo prodotto, da entrambi si prendono 3 bobine e da queste delle spire che vengono sottoposta a prova di trazione.
LOTTO 1 BOBINA 1 BOBINA 2 BOBINA 3 media totale media*totale 1890,9 1948,6 1902,1 1881,3 1889,4 1920,3 1936,9 1903,2 LOTTO 2 1945,4 1911,6 1894,7 media 1905,46 1919 totale media * totale 9527,3 7700,3 9574,3 18153889,06 14776875,7 18273987,7
1900,5 1927,4 1953,9 1909,638 15277,1 29173723
1890,4 1877,6 1908,65 1912,1375 15297,1 29250158,55
Tabella 109: caso lotto-bobina
116
Si vede a occhio anche senza dividere per il residuo e confrontare con la F (tali dati sono nella tab.3). 256
La tabella ANOVA la seguente:

df Totale Media Totale corretto Trattamenti Residuo
Tabella 110: ANOVA
SS
MS F calcolata F0,95(5,10)
16 1 15 5 10
58433129,12 58423856,6 9272,5175 4898,240833 4374,276667 618,1678333 1,4131887 979,6481667 2,2395661 3,325837 437,4276667
Guardando la tabella sembrerebbe che la stratificazione fatta non significativa e la variabilit della risposta nei 6 stati di prova da attribuirsi al caso; infatti il test F sopra sta testando lipotesi nulla: 11 = 12 = 21 = 22 = 31 = 32 dove il primo indice relativo alla bobina e il secondo al lotto. Ci significa che le 6 medie, quando vengono considerate insieme, non sono significativamente diverse; quindi gi sappiamo che ogni contrast che abbia tutti coefficienti diversi da zero, sar non significativo. Ci non toglie che potrebbero esserci dei contrast che non coinvolgono tutte le 6 medie, che potrebbero risultare significativi: conviene comunque sempre scomporre la SStr in tante componenti indipendenti quanti sono i suoi gradi di libert: in questo caso avremo 1 componente per il lotto, 2 per la bobina e altre 2 per linterazione fra lotto e bobina. Si pone di nuovo il problema della codifica dei livelli per la bobina; in questo caso in cui abbiamo un fattore a 3 livelli, la codifica pi ragionevole per le 2 componenti della bobina che d luogo a dei contrast algebricamente ortogonali quella dei polinomi ortogonali: (-1,0,1) e (1,-2,1)117; ci non assolutamente restrittivo perch se ci fosse un confronto privilegiato, ad esempio fra le bobina 2 e 3, la codifica sarebbe nellordine (0,1,1) e (-2,1,1). In questo caso non c niente che ci indichi quali bobine confrontare quindi possiamo assegnare la codifica dei polinomi ortogonali a piacimento; a seconda della codifica testiamo contrast diversi che forniranno diverse somme dei quadrati: limportante, come sempre essere consapevoli di ci che testiamo. Il modello FR : Y = I + L*x1 + B1*y1 + B2*y2 + LB1*x1*y1 + LB2*x1*y2 La codifica dellinterazione sempre il prodotto delle codifiche delle variabili coinvolte nellinterazione. Per le 2 variabili della bobina uso la codifica (-1,1,0) e (1,1,-2) per
117
Il lettore che abbia capito il ragionamento fatto al capoverso precedente (e il concetto di ortogonalit algebrica) sa in partenza che la componente codificata (1,-2,1) risulter non significativa. 257
ritrovare alcuni risultati riportati in Galetto (1995 e 1996). Le soluzioni alle equazioni normali testeranno dunque i seguenti contrast: L B1 B2 LB1 LB2 12 + 22 + 32 - 11 - 21 - 31 = 0 31 + 32 - 21 - 22 = 0 -211 - 212 + 21 + 22 + 31 + 32 = 0 11 + 22 - 12 - 21 = 0 12 + 22 + 31 - 11 - 21 - 32 = 0 (non significativo a priori) (non significativo a priori) (non significativo a priori)
La matrice X la seguente:
I 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 B1 -1 -1 -1 -1 -1 1 1 1 1 1 0 0 0 0 0 0 B2 1 1 1 1 1 1 1 1 1 1 -2 -2 -2 -2 -2 -2 L -1 -1 -1 1 1 -1 -1 1 1 1 -1 -1 -1 1 1 1 LB1 1 1 1 -1 -1 -1 -1 1 1 1 0 0 0 0 0 0 LB2 -1 -1 -1 1 1 -1 -1 1 1 1 2 2 2 -2 -2 -2
b1l1 b1l1 b1l1 b1l2 b1l2 b2l1 b2l1 b2l2 b2l2 b2l2 b3l1 b3l1 b3l1 b3l2 b3l2 b3l2
Tabella 111: matrice X del modello FR
La matrice delle covarianze fra gli stimatori delle 5 componenti (pi la media che non ci interessa perch viene sempre isolata prima nellANOVA):
I I B1 B2 L LB1 LB2 B1 B2 L LB1 LB2
0,064814 0,004629 -0,01388
0 0,004629 0 0,030092 0 -0,00694
0 -0,01388 0 -0,00694 0 0,104166
0 0 0
0 0,104166 0 -0,01388 0 -0,00694
0 -0,01388 0 0,064814 0 0,004629
0 -0,00694 0 0,004629 0 0,030092
Notiamo che gli stimatori delle 2 componenti della bobina sono scorrelate e cos quelle dellinterazione; questo un caso puramente fortuito dovuto alla particolare codifica
258
che ho scelto; chi vuole pu verificare che i VIF sono piccolissimi e quasi uguali a 1 dunque la non ortogonalit (ovvero la diminuzione di precisione delle stime) di questo modello trascurabile. La soluzione delle equazioni normali contenente, a meno di una costante moltiplicativa, gli stimatori dei 5 contrast: L B1 B2 LB1 LB2 12 + 22 + 32 - 11 - 21 - 31 = 0 31 + 32 - 21 - 22 = 0 -211 - 212 + 21 + 22 + 31 + 32 = 0 11 + 22 - 12 - 21 = 0 12 + 22 + 31 - 11 - 21 - 32 = 0 (non significativo a priori) (non significativo a priori) (non significativo a priori)
la seguente:
C SS(C)
L B1 B2 LB1 LB2 SOMMA
0,561111111 4,857619048 6,466666667 401,4506667 2,613888889 227,0464103 0,955555556 30,3425641 B=B1+B2 628,4970769 4389,175231
-21,30833333 4358,832667 LB=LB1+LB2 5022,529927 SStr
Le 2 componenti della bobina e dellinterazione si possono sommare solo perch i rispettivi contrast sono ortogonali. Lanalisi di significativit dei contrast fatta nella tabella: Trattamenti L B1 B2 B LB1 LB2
LB
4898,2408 5 4,857619
1
4,857619 0,011105 4,96459 401,4507 0,9177533 4,96459 227,0464 0,519049 4,96459 314,2485 0,7184011 4,10282 4358,833 9,9646936 4,96459 30,34256 0,0693659 4,96459 2194,588 5,0170297 4,10282 437,4277
401,45067 1 227,04641 1 628,49708 2 4358,8327 1 30,342564 1 4389,1752 2 4374,2767 10
Residuo
Tabella 113: decomposizione di SStr
Come sapevamo gi, il primo, il terzo e il quinto effetto non sono significativi; lunico significativo quello relativo allinterazione LB1 fra lotto e primo confronto della bobina: 11 + 22 - 12 - 21 = 0
259
e se si osservano le stime delle medie contrapposte dal contrast si capisce subito perch significativo; se si fosse fatta lANOVA solo sugli stati 11,12,21,22 i trattamenti sarebbero risultati significativi: provare per credere. Parlare genericamente di interazione fra lotto e bobina serve a poco secondo me; mettiamo invece in luce qual la componente dellinterazione che genera variabilit come fatto in tab.11; il modello full-regression permette tutto ci in pochissimo tempo. Lunico risultato uguale a quelli (presentati come risultati corretti) in Galetto (1995 e 1996) quello dellinterazione; come spiegato nel cap.7, il metodo di Galetto ha il difetto di non partire da delle ipotesi nulle formalizzate; in questo caso lipotesi nulla implicita nella scrittura del modello additivo di Galetto : 11 = k 12 = k 21 = k 22 = k 31 = k 33 = k dove la bobina e il lotto; lipotesi sopra equivalente a: 11 + 22 -12 - 21 = 0 12 + 22 + 31 - 11 - 21 - 32 = 0 11 -12 = 0 31 - 11 = 0 che solo parzialmente testabile perch solo le prime 2 sono funzioni stimabili e sono proprio quelle che ho testato io, ecco perch il risultato dellinterazione numericamente uguale. I risultati dei fattori in Galetto, si possono ritrovare usando un modello fullregression ridotto in cui non ci sono le componenti dellinterazione: Y = I + L*x1 + B1*y1 + B2*y2 in forma matriciale Y = X1*; non riscrivo la matrice Z di questo modello perch assolutamente identica a quella di tab.9 senza le ultime 2 colonne LB1 e LB2; queste 2 colonne formano la matrice X2 nella terminologia che ho introdotto circa il metodo di BoxWilson; infatti con luso di questo modello si creano degli alias perch gli effetti del lotto e della bobina saranno distorti dallinterazione cancellata dal modello. La matrice (X1T*X1)-1 la seguente:
260
I B1 B2 L
I 0,062963
B1 B2 0 0,003704
L 0
0 0,102564 0,003704 0 0 -0,01282
0 -0,012820 0,02963 0 0 0,0641026
Tabella 114: matrice delle covarianze del modello FR ridotto
Come si vede le varianze degli stimatori sono diminuite rispetto a quelle del modello completo (tab.10): ovvio visto che non sono pi gli stessi stimatori (anche se li indico con la stessa lettera, confidando nellintelligenza del lettore). Si riottengono i risultati corretti presentati in Galetto (1995 e 1996), infatti la soluzione delle equazioni normali la seguente:
C B1 B2 L SS(C)
6,6871795 436,0041 B=B1+B2 1,1933333 48,0615 484,0656 0,4141026 2,6751026
ma cosa stanno testando quelle somme di quadrati? Col modello full-regression facile scoprirlo; basta guardare la matrice (X1T*X1)-1*X1T; si capisce che i contrast testati, in forma tabellare, sono:
11
B1 B2 L
12
21
22
31
32
-7 3 -4
-6 2 4
6 2 -4
7 3 4
1 -5 -5
-1 -5 5
Tabella 115: contrast testati col metodo di Galetto
Coinvolgendo tutti gli stati di prova, sappiamo gi che i 3 contrast non sono significativi. Come avevamo gi visto nellesempio macchina-operatore, il metodo di Galetto introduce dei pesi delle medie veramente strani, che non hanno alcuna apparente giustificazione; in pi se si osserva il primo contrast che dovrebbe fornirci un confronto fra le bobine, si vede che le 2 medie della bobina 3 sono pesate una volta positivamente e una volta negativamente118 (!!!!): penso che questo sia pi che sufficiente a metterci in guardia contro i metodi che nascondono le ipotesi nulle testate; non per niente Searle et al.
In realt si potrebbe obbiettare che i 2 contrast di Galetto rappresentanti la bobina (trovati col modello FR ridotto) generano un sottospazio di contrast di dimensione 2 quindi SS(B)=484,056 sta testando non necessariamente i contrast B1 e B2 della tab.13 ma qualunque coppia di contrast da essi generata. 261
118
(1981) affermano For models with interaction with all cells filled, R(/,)119 tests
nothing of use or interest. Questo succede perch gli effetti calcolati a partire dal modello additivo, sono distorti dallinterazione che trascurata in tale modello. E infatti se applichiamo il metodo BW a questo modello ridotto, troviamo la matrice degli alias (X1T*X1)-1*X1T*X2: LB1 B1 B2 L LB2
0 1/15 0
3/13 -0 - 2/13
Col metodo di Galetto si testano dunque inconsapevolmente non gli effetti dei fattori ma i seguenti alias: B1+3/13LB2 B2+1/15 L-2/13LB2 Questo confounding implicito nel metodo di Galetto riferito ovviamente alle mie definizioni di effetto per questo piano: L B1 B2 LB1 LB2 = = = = = 12 + 22 + 32 - 11 - 21 - 31 31 + 32 - 21 - 22 -211 - 212 + 21 + 22 + 31 + 32 11 + 22 - 12 - 21 12 + 22 + 31 - 11 - 21 - 32
Come ho detto, gli effetti si potevano definire diversamente (purch in modo sensato ) e avrebbero portato a risultati diversi ma congruenti con quelli ottenuti da me, perch ovviamente si sarebbero testate diverse ipotesi nulle. Cambiando definizioni, cambierebbero i numeri nella matrice degli alias ma il concetto che il metodo di Galetto conduce a una distorsione degli stimatori dei fattori resta sempre valido. Gli effetti si devono definire prima dellanalisi e poi si costruisce il modello conseguente.
120
119
il modo con cui Galetto calcola gli effetti dei fattori, nella notazione di Searle.
120
Cosa vuol dire sensato? Ad esempio leffetto del lotto deve sempre e comunque contrapporre le medie del primo lotto con quelle del secondo. Un altro esempio si pu vedere nella tab.13: il primo contrast non ha nessun senso per testare una componente della bobina perch la terza bobina pesata una volta positivamente e una volta negativamente (!!!). 262
Se il lettore prova a scrivere i contrast della tab.13 in termini dei parametri del modello sovraparametrizzato, otterrebbe delle espressioni lunghe e apparentemente121 prive di senso: chi pensava che SS(A) = SS(I+A+B) - SS(I+B) SS(B) = SS(I+A+B) - SS(I+A) testassero le ipotesi (in realt non testabili come stato chiarito nel cap.7): 1 = 2 2 = 3 1 = 2 rimarrebbe molto deluso. Galetto (11995 e 1996) presenta anche i risultati sbagliati ottenuti con il Questo per questo; essi si potrebbero riottenere con i 2 modelli full-regression ridotti: Y = I + L*x1 Y = I + B1*y1 + B2*y2 Lo lascio come utile esercizio al lettore che scoprir che i risultati sbagliati: SS(B) = 505,39 SS(L) = 25 testano delle cose pi interessanti (secondo me) dei risultati corretti: SS(B) = 484,07 SS(L) = 2,67 In particolare il lettore trover che: SS(B) = 505,39 testa le 2 ipotesi nulle: 2. - 1. 23.- 2.-1. Le ipotesi sono, a mio parere, pi interessanti di quelle di tab.13, presentando per il solito inconveniente del Questo per questo ovvero di ignorare la presenza degli altri fattori. La somma dei quadrati dovuta al lotto: SS(L) = 24 testa invece: .2 - .1 Questo esempio ha messo in luce la grande potenza del modello full-regression, anche con fattori a pi livelli; nel prossimo esempio introduciamo gli alias.
Il primo contrast della tab.15 assolutamente inadeguato a rappresentare una componente della bobina; gli altri devono giustificare i differenti pesi per le medie. 263
121
10.4 CASO IVECO

Lesperimento stato realizzato nel 1988 in Iveco e prevedeva 1 fattore a 4 livelli e 2 fattori a 2 livelli; per ricondurlo a un piano a 2 livelli stato semplificato da Fornasieri (1995) Actis (1995) aggregando in 2 macrolivelli i 4 livelli del fattore A; per ora anchio mi limito a tale forma per commentare alcuni risultati di Fornasieri e Actis. La risposta sperimentale rappresentata dal consumo di automezzi pesanti, misurato in litri/100km. I 3 fattori controllati pi importanti da valutare sono: tipo di veicolo percorso portata Ciascuno di essi pu assumere solo 2 livelli; i livelli del veicolo sono rappresentati da 2 livelli di potenza del motore (macrolivello 0: P=330-360 CV; macrolivello 1: P=380-420 CV); i livelli del percorso sono 2 tratti stradali, il primo in autostrada (livello 0) e il secondo in autostrada e in montagna (livello 1); la portata assume i 2 valori di 40 tonnellate (livello 0) e 44 tonnellate (livello 1). Il problema che i 2 stati di prova in cui il veicolo ha potenza maggiore e la portata minore non possono essere sperimentate, quindi si ha un frazionamento forzato 6/8: il piano diventa quindi un 3/4 di John. Indicando con A il veicolo, B il percorso e C la portata, abbiamo i seguenti dati della risposta Y:
Veicolo Percorso Portata Consumo
A i a b ab c ac bc abc
Tabella 116
0 1 0 1 0 1 0 1
0 0 1 1 0 0 1 1
0 0 0 0 1 1 1 1
35,9 37,2
36,6 36,5
36,7 35,6
36,7 36,6
38,3 39,7
38,5 38,4
38,8 37,5
40,7 40
40 39,2 40 43,4 41,9 41,3
40,3 39,6 42,2 42,6 42,5 44,5
39,4 40,4 41,5 42,5 44,5 45,5
41,5 40,7 41,6 43,9 44,8 45
Calcoliamo per ogni cella, media, totale, e media per totale:

264
Numerosit i a b ab c ac bc abc Totale 4 8 4 8 8 8
Media 36,475 38,9875 40,3 40,65 43,1 43,75
Totale 291,8 311,9 161,2 325,2 172,4 350 1612,5 S=
Media*totale 10643,405 12160,20125 6496,36 13219,38 7430,44 15312,5 65262,28625 258,38 M*T= 65003,90625
40 M= 40,3125 T=
SStr= S-M*T=
Tabella 117
Otteniamo la seguente tabella ANOVA one-way:

df SS MS F calcolata F0,05(5,34)
40 39 5 34
65301,05 297,14375 7,619070513 6,6827486 258,38 51,676 45,325439 2,4936142 38,76375 1,140110294
1 65003,90625
Tabella 118: ANOVA one-way del caso Iveco
Vediamo che la stratificazione fatta molto significativa, anche perch con 40 prove si riuscito a tenere il residuo molto basso. Come sempre dobbiamo scomporre la SStr in 5 componenti che mettano in luce le effettive sorgenti di variabilit; queste 5 componenti non saranno 5 effetti puri ma necessariamente aliased secondo i concetti esposti nel cap.9. Prima di affrontare lanalisi in modo corretto, col modello full-regression e la teoria degli alias, usiamo la procedura di Galetto usata (non correttamente) da Fornasieri (1995), per spiegare alcuni errori contenuti nella sua elaborazione del caso Iveco. 10.4.1 ERRORI NELLANALISI DI FORNASIERI (1995) Il lettore avr notato che in precedenza ho spesso criticato Fornasieri per i seguenti motivi: non ha capito la differenza fra il modello full-regression e quello sovraparametrizzato non ha capito che il metodo di Box-Wilson si basa sulluso del modello full-regression (e su delle particolari definizioni di effetto e alias: quelle che ho dato io) non considera la numerosit degli stati di prova
265
Inoltre anche con 6 stati di prova, usa dei modelli ridotti con soli 4 parametri ma questo fatto meno grave degli altri, perch per metterne 6 avrebbe dovuto intuire la natura di spazio vettoriale della struttura degli alias. Comunque questi difetti nellapproccio di Fornasieri, non possono ovviamente condurla a dei risultati corretti anche perch in pi: commette degli errori di calcolo non trascurabili dimostra di non aver capito del tutto le equazioni normali Giustifichiamo queste affermazioni; intanto calcolo la SSreg di tutti modelli (gerarchici visto che per ora uso il metodo di Galetto) possibili; in generale ho usato il metodo delle soluzioni basiche (cap.7): per alcuni modelli (quelli segnati in neretto) la matrice del sistema ridotto a cui porta tale metodo diagonale per cui si pu usare il Questo per questo. 1 2 3 4 5 6 7 8 9
SS (I) SS (I+A) SS (I+B) SS (I+C)
65003,90625 65098,91042 65082,5865 65181,58229 65177,59067 65182,91563 65260,26254 65178,17083 65182,91563 65260,83292 65261,59588 65262,17604 65261,59588 65262,16625 65262,17604 65262,28625 65262,16625 65262,28625 65262,28625
SS (I+A+B)
SS (I +A+C)
SS (I+B+C)
SS (I+A+B+AB) SS (I+ A+C+AC)
10 SS (I+B+C+BC) 11 SS (I+A+B+C) 12 SS (I+A+B+C+AB) 13 SS (I+A+B+C+AC) 14 SS (I+A+B+C+BC) 15 SS (I+A+B+C+AB+AC) 16 SS (I +A+B+C+AB+BC) 17 SS (I+A+B+C+AC+BC) 18 SS (I+A+B+C+AB+AC+BC) 19 SS( I+A+B+C+AB+AC+BC+ABC)
Tabella 119: SSreg di tutti possibili modelli gerarchici
Solitamente non si sarebbe potuta applicare la regola del Questo per questo ai modelli:
SS (I +A+C) SS (I +A+B+C+AB+BC) SS (I+A+B+C+AB+AC+BC) In questo caso si pu perch i modelli sopra sono indistinguibili (in termini di SSreg) rispettivamente da: SS (I +A+C+AC)
266
SS (I +A+B+C+AB+BC+AC) SS (I+A+B+C+AB+AC+BC+AC) per i quali si pu applicare sempre la regola del Questo per questo; come mai c questa indistinguibilit? Semplice: mancano i 2 stati di prova a e ab dunque gi nel modello ridotto 9:
Y=I+A+C+AC nascono degli alias; infatti il modello 9 ignora il fattore B e corrisponde alla proiezione degli stati in cui B al livello alto sugli stati in cui B al livello basso (o viceversa). Proiettando, si ottiene un piano irregolare (3/4 di John) ridotto con 3 stati di prova dunque nel modello solo 3 parametri potranno essere indipendenti. Presentiamo il piano sperimentale, avvalendoci del solito cubo:
bc
abc
c b
ac ab
Figura 36: proiezione del piano originario sugli stati (i,c,ac) che ignora il fattore B
evidente che il piano proiettato ridotto perch manca lo stato di prova a dunque assolutamente ovvio che in questo caso:
SS(I+A+C+AC) SS(I+A+C) perch il primo modello non aggiunge delle equazioni normali linearmente indipendenti al secondo; Fornasieri non si rende conto di questo fatto e pag.136 scrive:
SS(AC) = SS(I+A+C+AC) - SS(I+A+C) = 0,025 visto che fa degli errori di calcolo nel risolvere le equazioni normali, non trova un risultato nullo, ma avrebbe dovuto capire a priori che i 2 modelli avevano la stessa SSreg.
267
Per lo stesso motivo sono indistinguibili anche altre coppie di modelli: riferendomi ai numeri di tab.19, si vede che sono indistinguibili le coppie di modelli (6,9), (11,13), (12,15), (14,17) e (16,18) indicati sopra. In pi la coppia (16,18) indistinguibile dal modello completo 19 ovvero: SS(I+A+B+C+AB+BC+AC+ABC)=SS(I+A+B+C+AB+BC+AC)=SS(I+A+B+C+AB+BC ) questo dovuto al fatto che abbiamo 6 stati di prova dunque nei modelli possiamo mettere anche 10000 parametri ma le equazioni normali indipendenti restano al massimo 6, dunque i modelli con 6 parametri (stimabili indipendentemente) hanno tutti la stessa SSreg. Fornasieri di nuovo non si rende conto di ci e scrive a pag.139: SS(ABC)=SS(I+A+B+C+AB+BC+AC+ABC)-SS(I+A+B+C+AB+BC+AC)=0,26626
(!!!)
c di nuovo un errore di calcolo ma chi ha capito la teoria delle equazioni normali dovrebbe sapere a priori che in questo piano quella differenza identicamente nulla quindi se trova un risultato diverso dovrebbe capire di aver fatto un errore di calcolo e rimediare. Actis (1995) invece consapevole di questo problema e a pag.310 della sua tesi spiega ci che ho esposto io qua. Una volta che abbiamo le SSreg dei modelli possiamo calcolare l effetto (aliased) dei fattori e interazioni in vari modi, senza peraltro sapere cosa stiano testando le varie differenze di somme di quadrati (per saperlo dobbiamo applicare FR).
SS (A) 2-1 95,00416667 3-1 78,68025 4-1 177,6760417 8-5 0,580166667 9-6 0 10-7 0,570375 19-18 0 5-3 95,00416667 7-4 78,68025 6-2 84,00520833 12-11 0,580166667 13-11 0 14-11 0,570375 6-4 1,333333333 5-2 78,68025 7-3 177,6760417 16-14 0,12 15-12 0 17-13 0,570375 11-7 1,333333333 11-6 78,68025 11-5 84,00520833 15-13 0,580166667 17-14 0 16-12 0,110208333 14-10 1,333333333 13-9 78,68025 12-8 84,00520833 18-17 0,12 18-16 0 18-15 0,110208333
SS (B)
SS (C)
SS (AB)
SS (AC)
SS (BC)
SS (ABC)
Tabella 120: modi per calcolare gli effetti aliased di fattori e interazioni usando modelli gerarchici 268
La tab.21 molto interessante perch vediamo che molti risultati degli effetti(aliased) sono uguali: in generale, questo non capita con differenti ripetizioni, (ricordiamoci della tab. 24 del cap.7 dove tutti i risultati venivano diversi); ci dovuto a 2 motivi: mancano degli stati di prova, dunque, come gi detto, alcuni modelli sono indistinguibili da altri e dunque sono ridondanti alcune proiezioni del piano sperimentale risultano bilanciate o particolari (numerosit proporzionali): ad esempio se consideriamo i 2 macrostati di B al livello alto e basso, abbiamo che entrambi i macrostati hanno 20 dati; oppure se consideriamo la proiezione sui 2 fattori A e B n i = 12 n a =8 n b =12 n ab =8 vediamo che le numerosit sono proporzionali e lo stesso vale per la proiezione sui fattori B e C ni=8 n b =8 n c =12 n bc =12 non quindi un caso che l effetto (aliased) del fattore B sia uguale in qualunque modo venga calcolato (in ogni modo ricordiamoci che non sappiamo cosa stiamo testando)...Invece leffetto (aliased) di A passa da 95 a 1,3333 e col modello FR e il metodo BW vedremo perch. Per ora proseguiamo ad illustrare gli errori di Fornasieri: lautrice citata usa il modello: Y=I+A+B+AB e vi applica il metodo BW, non replicando le righe delle matrici X1 e X2 : ci va bene solo se la numerosit delle celle costante e in questo esempio non lo ; le classi di equivalenza che Fornasieri calcola: I+1/2C+1/2BC A+1/2C+1/2BC B+1/2AC+1/2ABC AB+1/2AC+1/2ABC sono dunque errate122.
Gli alias che calcola sono stimabili, nel senso che appartengono al sottospazio vettoriale degli alias di questo piano, ma non sono associati a quel modello (in questo senso sono errate). 269
122
Col modello FR si vede che gli alias associati a quel modello in realt sono: I+1/3C+2/3AC, A+2/3C+1/3AC B+1/3BC+2/3ABC AB+2/3BC+1/3ABC Ma anche se li avesse calcolate correttamente, avrebbe sbagliato dopo (pag.122) quando associa gli alias calcolati col metodo BW (full-regression) a delle differenze fra delle somme di quadrati123 (modello sovraparametrizzato) della tabella 19: come se non bastasse, Fornasieri fa degli errori di calcolo nel risolvere le equazioni normali sovraparametrizzate. In realt i 4 alias sopra vanno associati alle somme di quadrati dei contrast contenuti nel vettore soluzione delle equazioni normali full-regression sul modello Y=I+A+B+AB, il che equivalente a fare: SS(A) = SS(I+A+B+AB)-SS(I+B+AB) SS(B) = SS(I+A+B+AB)-SS(I+A+AB) SS(AB) = SS(I+A+B+AB)-SS(I +A+B) coi modelli scritti in forma FR. Un altro errore che considerando un modello ridotto con 4 parametri, il residuo viene ad avere 36 gradi di libert al posto di 34 e quindi in esso vi una parte dei parametri trascurati nel modello ridotto. Fornasieri usa poi un altro modello, Y=I+B+C e ripete tutti gli errori illustrati al capoverso precedente. Lerrore pi grosso per lo fa quando usa lultimo modello a pag.132: (1) Y=I+A+B+C+AB+AC+BC+ABC
Allinizio dice ..con 6 stati di prova potremmo stimare la significativit di 6 classi di equivalenza. Poi per afferma che col modello (1) possiamo stimare le 8 quantit presenti nel modello completo(!!!!!!); invece nel modello (1) solo 6 parametri sono indipendenti quindi 2 devono essere per forza nulli e gli altri non rappresentano gli effetti puri ma aliased. Non avendo capito questo, Fornasieri fa gli errori gi citati: SS(AC) = SS(I+A+C+AC) - SS(I+A+C) = 0,025 SS(ABC)=SS(I+A+B+C+AB+BC+AC+ABC)-SS(I+A+B+C+AB+BC+AC)=0,26626
Lalias dellinterazione AB+2/3BC+1/3ABC lunico che pu essere associato alla somma di quadrati calcolata col metodo di Galetto, perch con questo metodo lunico effetto calcolato a partire dal modello Y=I+A+B+AB 270
123
e nella tabella ANOVA assegna 8 gradi di libert (con 6 stati di prova!!!!!) ai parametri del modello (1) e solo 32 al residuo: il lettore che conosce lanalisi della varianza si rende conto che ci completamente sbagliato. Il caso Iveco stato esaminato invece con molta lucidit da Actis (1995) che giustamente assegna 6 gradi di libert ai parametri del modello e 34 al residuo. Actis dichiara che i 6 parametri del modello sono aliased ammettendo di non sapere trovare il confounding di un piano cos irregolare. 10.4.2 FULL-REGRESSION In una situazione del genere:
bc
abc
c b
ac ab
Figura 37: caso Iveco (3/4 di John)
la prima cosa che lanalista dovrebbe fare rivolgersi allo sperimentatore con onest intellettuale, facendogli capire che con 6 stati di prova pu stimare solo 5 parametri (pi la media) aliased con i parametri non considerati. Quindi lo sperimentatore deve indicare 5 effetti che non vuole confusi fra di loro (come in tutti piani ridotti, anche quelli regolari); i 2 effetti trascurati andranno necessariamente a distorcere le stime dei 5 effetti principali. Uno degli svantaggi nelluso (in questo caso forzato) di una frazione irregolare come questa, che i parametri cancellati dal modello distorcono le stime di tanti parametri mentre nelle frazioni regolari un parametro cancellato dal modello distorce solo una stima; per poter affrontare adeguatamente lo studio delle frazioni irregolari dunque assolutamente necessario conoscere la struttura degli alias. Supponiamo che lo sperimentatore ci abbia detto che non vuole confondere A, B, C, AB e BC. In questo caso usiamo il modello Y=I+A+B+C+AB+BC, le cui matrici X1 e X2 sono:
271
i i i i i i i i b b b b b b b b c c c c ac ac ac ac ac ac ac ac bc bc bc bc abc abc abc abc abc abc abc abc
I 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
A -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 1 1 1 1 1 1 1 1 -1 -1 -1 -1 1 1 1 1 1 1 1 1
B -1 -1 -1 -1 -1 -1 -1 -1 1 1 1 1 1 1 1 1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 1 1 1 1 1 1 1 1 1 1 1 1
C -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
AB 1 1 1 1 1 1 1 1 -1 -1 -1 -1 -1 -1 -1 -1 1 1 1 1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 1 1 1 1 1 1 1 1
BC 1 1 1 1 1 1 1 1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 1 1 1 1 1 1 1 1 1 1 1 1
AC 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 -1 -1 -1 -1 1 1 1 1 1 1 1 1 -1 -1 -1 -1 1 1 1 1 1 1 1 1
ABC -1 -1 -1 -1 -1 -1 -1 -1 1 1 1 1 1 1 1 1 1 1 1 1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 1 1 1 1 1 1 1 1
Tabella 121: matrici X1 e X2
La matrice delle covarianze fra gli stimatori degli effetti aliased :

I A B C AB BC 0,03125 0,01562 0 -0,01563 0 0 0,01562 0,04687 0 -0,03125 0 0 0 0 0,03125 0 0,01562 -0,01562 -0,01562 -0,03125 0 0,04687 0 0 0 0 0,01562 0 0,04687 -0,0312 0 0 -0,01563 0 -0,03125 0,04687
272
I A B C AB BC
Da essa ricaviamo linversa della matrice di correlazione e dunque i VIF, che vediamo essere tutti compresi fra 1 e 2 dunque la non ortogonalit124 del piano non preoccupante. 1,25 -0,3062 0 0,30619 0 0 -0,3062 1,875 0 1,125 0 0 0 0 1,25 0 -0,3062 0,30619 0,30619 1,125 0 1,875 0 0 0 0 -0,3062 0 1,875 1,125 0 0 0,30619 0 1,125 1,875
Tabella 123: inversa della matrice di correlazione
La matrice degli alias la seguente:

AC 1 1 0 -1 0 0 ABC 0 0 1 0 1 -1
I A B C AB BC
La base che abbiamo scelto corrispondente ai seguenti alias: I+AC A+AC B+ABC C-AC AB+ABC BC-ABC le cui somme di quadrati si calcolano con la solita formula SS(C): per sapere i coefficienti del contrast, si guarda come sempre la matrice (X1T*X1)-1*X1. Si ottiene:
C I+AC A+AC B+ABC C-AC AB+ABC BC-ABC SS(C)
39,965625 51112,0378 0,25 1,33333333 1,403125 63,0003125 1,984375 84,0052083 0,075 0,12 0,071875 0,11020833
Spero che a questo punto il lettore abbia capito che la non ortogonalit statistica si riflette in una diminuzione di precisione della stima puntuale (perch aumenta la varianza del relativo stimatore...) 273
124
Abbiamo cos ritrovato alcuni dei risultati della tab.21 e gli altri si potrebbero ritrovare tutti scrivendo opportuni modelli ridotti, come ho mostrato nel par. 8.4.1. Vediamo quale alias significativo:
SS(C) df MS F calcolata F0,95(1,34)
Trattamenti A+AC
B+ABC C-AC
258,38 1,33333333 63,0003125 84,0052083 0,12 0,11020833 38,76375
5 1 1 1 1 1 34 1,33333333 63,0003125 84,0052083 0,12 0,11020833 1,1401103 1,1694775 4,130015441 55,258086 4,130015441 73,681651 4,130015441 0,105253 4,130015441 0,0966646 4,130015441
AB+ABC BC-ABC Residuo
Tabella 124: decomposizione non ortogonale di SStr
Possiamo avere 2 possibili interpretazioni: Se A ha un effetto significativo positivo, anche AC ha uninterazione significativa negativa (visto che importante considerare il segno?) e il loro alias non significativo; in questo caso AC aumenta di molto il valore di C e infatti lalias C-AC molto significativo Se A non significativo, nemmeno AC lo e gli unici effetti significativi sembrerebbero B e C Per confermare lanalisi, soprattutto il poter trascurare AB, BC e ABC, si possono usare modelli ridotti che testano altri alias, sempre generati comunque da quelli di tab.25; a questo riguarda bisogna stare molto attenti perch le congetture che si fanno devono utilizzare sempre degli alias indipendenti. Coi modelli ridotti si ritrovano tutti risultati (quando ci avviene, li segno in neretto) della tab.19. Dal modello Y =I+A+B+AB si trovano gli alias: A+2/3C+1/3AC SS= 95,00416 B+1/3BC+2/3ABC SS=78,20416 AB+2/3BC+1/3ABC SS=0,58016 Dal modello Y=I+B+C+BC si trovano gli alias: B-1/3AB+2/3ABC SS=72,93037 C+2/3A-1/3AC SS=177,67604 BC+2/3AB-1/3ABC SS=0,57037 Dal modello Y=I+A A+2/3C+1/3AC
SS=95,00416
274
Dal modello Y=I+B: B+1/5BC-1/5AB+3/5ABC Dal modello Y=I+C: C+2/3A-1/3AC
SS=78,68025
SS=177,667604
In particolare questo ultimo risultato conferma la prima ipotesi ovvero che sia A che AC siano significativi e infatti con laggiunta di A (per 2/3) si passa da SS(C-AC) = 84,00521 a SS(C+2/3A-1/3AC)= 177,667604 Questo confermato anche da: SS(A+2/3C+1/3AC) = 95,00416 perch sappiamo che A+AC non significativo, A+1/3AC gi pi significativo125 e con laggiunta di 2/3C diventa molto significativo. La mia analisi su tutti gli effetti (forzatamente qualitativa visto che il piano ridotto) dunque la seguente: La potenza del motore (A), e la portata (C) aumentano significativamente con CL95% il consumo di carburante e cos pure il tratto in montagna (B) rispetto alla sola autostrada; linterazione fra potenza del motore e portata (AC) lo riduce in modo significativo: ci cosa vuol dire? Pensiamo al significato dellinterazione (uso il simbolo << per dire significativamente negativo): AC = 101 + 000 +111 + 010 - 100 - 001 - 110 - 011 << 0 Quindi, visto che si vuole ridurre il consumo, conviene usare un veicolo con potenza minore quando la portata minore e potenza maggiore con portata maggiore: questa una scoperta che pu portare dei notevoli vantaggi economici; le altre interazioni sembrano esercitare unazione quasi irrilevante sul consumo. Visto che linterazione AC sembra significativa qualcuno potrebbe essere tentato di applicare il metodo BW su un modello contenente AC: rimarrebbe deluso perch troverebbe la matrice (X1T*X1) non invertibile perch, per questo piano, non esiste un modello che ponga in alias separati i 4 parametri che ritengo essere significativi (A,B,C,AC); dobbiamo quindi accontentarci dellanalisi fatta con gli altri modelli. Questo un caso fortunato in cui con 5 gradi di libert si riesce a fare uninferenza abbastanza convincente (e comunque non rigorosa, perch ci vorrebbero 8 stati di prova) su 7 effetti; ci dovuto anche al fatto che lanalisi dei VIF ci dice di poter trascurare la non ortogonalit del piano.
125
Nel senso che ha un P-value maggiore. 275
10.4.3 ESPERIMENTO COMPLETO Abbiamo detto che in realt non vi erano solo 2 livelli della potenza ma 4 (P=330CV, P=360CV, P=380CV, P=420CV) per cui la stratificazione completa del piano era:
Potenza (A) Percorso (B) 1 1 1 1 2 2 2 2
Tabella 125: esperimento completo
1 1
1 2
2 1
2 2
3 1
3 2
4 1
4 2
Portata (C)
35,9 36,6 36,7 36,7
38,3 38,5 38,8 40,7
37,2 36,5 35,6 36,6 40 40,3 39,4 41,5
39,7 38,4 37,5 40 43,4 42,6 42,5 43,9 39,2 39,6 40,4 40,7 41,9 42,5 44,5 44,8 40 42,2 41,5 41,6 41,3 44,5 45,5 45
In realt le 4 replicazioni nei 10 stati di prova sono sempre state fatte nellordine da 4 autisti diversi, per cui, volendo tenere conto anche di questo fattore, non si avrebbero pi gradi di libert per il residuo; bisogna dunque forzatamente trascurare il fattore autista anche se ci potrebbe essere non appropriato. Le medie per ogni stato di prova sono riportate nella tabella sotto:
Potenza (A) Percorso (B) Portata (C) 1 2
Tabella 126: medie negli stati di prova
1 1
1 2
2 1
2 2
3 1
3 2
4 1
4 2
36,475 39,075 36,475 40,3
38,9 43,1 39,975 43,425 41,325 44,075
Inizialmente non cera il veicolo a potenza 2 (360CV) e si vede dunque che non erano sperimentati gli stati di prova con: alta potenza (380 e 420) e bassa portata bassa potenza (330) e alta portata perch non esistevano fisicamente i veicoli per sperimentarli. Come mai ci? Pu darsi che da prove precedenti fosse risultato che simili veicoli consumassero troppo: se cos fosse, sarebbe confermata linterazione significativamente negativa fra potenza e portata che ho trovato nel paragrafo precedente (considerando per anche il veicolo 2). Si era aggiunto il veicolo a potenza 2 proprio per valutare lintroduzione di un veicolo a potenza bassa (360) ma, se giusta lanalisi semplificata del paragrafo
276
precedente, linterazione AC resta significativa, dunque per portate maggiori una potenza minore non ridurr significativamente il consumo. Ora che abbiamo a disposizione la stratificazione completa (10 stati), possiamo vedere se la stratificazione semplificata (5 macrostati) del paragrafo precedente rappresentava adeguatamente la realt. Rifacciamo la tabella ANOVA con 10 trattamenti: SS Totale Media Totale corretto Trattamenti Residuo 65301,05 65003,90625 297,14375 262,93125 34,2125 df 40 1 39 7,619071 9 29,21458 25,617464 30 1,140417 2,210697 MS F calcolata F0,95(10,30)
Tabella 127: ANOVA one-way dellesperimento completo
La differenza fra SStr_c (completo) e SStr_s (semplificato), ha 4 gradi di libert e va confrontata col nuovo residuo per vedere se la semplificazione fatta prima era ammissibile: SStr_c - SStr_s = 262,93125 - 258,38 = 4,55125
F calc. = (4,55125/4) / 1,140417 = 0,997716 < F0,95 (4,30) = 2,689632
dunque la conglobazione dei 4 livelli di potenza in 2 livelli era ammissibile; spero che il lettore si renda conto che lipotesi nulla testa sopra, posta nei parametri del modello, cos formalizzata: 111 = 211 121 = 221 312 = 412 322 = 422 inutile, quindi a questo punto costruire un modello FR con 10 parametri e ricavare la struttura degli alias col metodo BW perch sarebbe di difficile interpretazione, visto che: il piano irregolare ci sono 3 componenti per il fattore potenza Si possono per fare altre considerazioni interessanti; ad esempio sul nuovo veicolo 2 (P=360CV), si pu verificare il fatto che non vi sia interazione significativa fra percorso e portata, visto che lunico veicolo provato sia con 40t che 44t.
277
La tabella ANOVA, limitatamente al veicolo 2, la seguente:

SS df MS F calcolata F0,95 (.,12)
Totale Media Totale corretto Trattamenti B C BC Residuo
25310,39 25209,50063 100,889375 91,841875 64,400625 27,300625 0,140625 9,0475
16 1 15 3 1 1 1 12 6,725958 30,61396 64,40063 27,30062 0,140625 0,753958 85,41669 4,7472212 36,20973 4,7472212 0,186516 4,7472212
Tabella 128: ANOVA per il veicolo 2 (P=360CV)
Come si vede linterazione BC irrilevante per il veicolo 2: questo conferma ci che ho trovato nel paragrafo precedente con unanalisi approssimata (perch ci sono solo 6 stati su 8). Possiamo ancora fare qualche verifica: ad esempio nel caso dei 4 stati a 40t di portata, possiamo verificare che linterazione AB non significativa
SS df MS F calcolata F0,95 (.,12)
Totale Media Totale corretto Trattamenti B A AB Residuo
22813,13 22778,356 34,774375 25,311875 25,250625 0,030625 0,030625 9,4625
16 1 15 3 1 1 1 12 2,318292 8,437292 25,25063 0,030625 0,030625 0,788542 10,69987 32,02193 0,038838 0,038838 4,747221 4,747221 4,747221
Tabella 129: ANOVA per le portate basse
In questo caso, oltre a confermare il fatto che AB non significativo (limitatamente a basse portate) scopriamo una cosa molto interessante: che per le basse potenze, laumento di potenza non comporta un aumento significativamente maggiore di consumo. Una tabella simile a quella sopra si ha se confrontiamo i veicoli 2 e 3 con 44t di portata: la potenza A e linterazione AB fra potenza e percorso restano non significative; se si confrontano invece i veicoli 3 e 4 si trova che la potenza A aumenta il consumo in modo significativo. Non presento i risultati di questi ultimi 2 confronti, ottenibili, come quelli di tab. 26 e 27, con il metodo di Yates.
278
Alla fine possiamo dire che: il tratto in montagna aumenta regolarmente il consumo la portata aumenta regolarmente il consumo linterazione fra portata e potenza aumenterebbe ulteriormente il consumo e infatti io penso che per questo motivo non fossero stati realizzati veicoli a bassa potenza per portate alte e ad alta potenza per portate basse; infatti il nuovo veicolo (P=360CV) non diminuisce il consumo in modo significativo da quello con P=380CV proprio per linterazione fra portata e potenza la potenza aumenta significativamente il consumo solo per potenze alte, dunque il nuovo veicolo (P=360CV) pu essere utilmente utilizzato per portate basse in alternativa al veicolo con P=330CV; se si preferisce usare veicoli a potenza minore, si pu usare il veicolo 2 anche per portate a 44t al posto di quello a P=380CV: il consumo non significativamente diverso le altre interazioni non sembrano significative
Questo caso, pi vicino alla realt, ci fa capire che per casi complessi meglio condurre delle analisi semplificate e parziali, piuttosto che scrivere dei modelli lunghi che danno luogo a delle matrici enormi e che forniscono risultati difficilmente interpretabili. In questo caso poi lobiettivo primario dellesperimento reale non era tanto scoprire la significativit dei fattori quanto vedere se il nuovo veicolo con P=360CV poteva essere pi efficiente degli altri.
10.5 PIANO NON GEOMERICO DI PLACKETTT-BURMAN A 12 STATI PER 5 FATTORI

In realt il piano in questione solo simulato perch su Box et al. (1978) sono riportati i dati del piano completo 25 non replicati in cui si stimano gli effetti di tutti fattori e delle loro interazioni. Erano risultati significativi i fattori B, D e E e le interazioni BD e DE: Box e Meyer (1993) simulano su quei dati un piano PB a 12 stati, per mettere in risalto il fatto che la complessa struttura degli alias di quel piano (che abbiamo gi trattato nel par. 8.5.1 e par. 9.5) impedisce di scoprire fattori e interazioni importanti e infatti Box e Meyer propongono un approccio bayesiano allanalisi dei piani fattoriali. Io invece mostrer che sufficiente abbandonare la base ortogonale che di solito viene considerata; come detto nel par. 9.5, se si prende una base non ortogonale, si migliora di molto la potenza del piano PB, nel senso che si riesce a separare molti elementi in pi rispetto a quanto viene fatto con lanalisi classica (ortogonale). Il piano simulato, con la matrice di Hadamard e i valori delle osservazioni, il seguente:
279
ac abd bce acd abde abce bcd cde de ae b i
I 1 1 1 1 1 1 1 1 1 1 1 1
A 1 1 -1 1 1 1 -1 -1 -1 1 -1 -1
B -1 1 1 -1 1 1 1 -1 -1 -1 1 -1
C 1 -1 1 1 -1 1 1 1 -1 -1 -1 -1
D -1 1 -1 1 1 -1 1 1 1 -1 -1 -1
E -1 -1 1 -1 1 1 -1 1 1 1 -1 -1
? -1 -1 -1 1 -1 1 1 -1 1 1 1 -1
? 1 -1 -1 -1 1 -1 1 1 -1 1 1 -1
? 1 1 -1 -1 -1 1 -1 1 1 -1 1 -1
? 1 1 1 -1 -1 -1 1 -1 1 1 -1 -1
? -1 1 1 1 -1 -1 -1 1 -1 1 1 -1
? 1 -1 1 1 1 -1 -1 -1 1 -1 1 -1
Y 56 93 67 60 77 65 95 49 44 63 63 61
Tabella 130: matrice di Hadamard
Gi sappiamo che, usando il metodo BW sul modello corrispondente alla matrice sopra, otteniamo la base ortogonale: I + interazioni di ordine superiore A + (1/3)*(-BC+BD+BE-CD-CE-DE) + interazioni di ordine superiore B + (1/3)*(-AC+AD+AE-CD+CE-DE) + interazioni di ordine superiore C + (1/3)*(-AB+AD+AE-CD+CE-DE) + interazioni di ordine superiore D + (1/3)*(AB-AC-AE-BC-BE-CE) + interazioni di ordine superiore E + (1/3)*(AB-AC-AD+BC-BD-CD) + interazioni di ordine superiore (1/3) * (-AB+AC-AD+AE+BC-BD-BE+CD-CE-DE) + interazioni di ordine superiore (1/3) * (-AB-AC-AD+AE-BC+BD-BE+CD-CE-DE) + interazioni di ordine superiore (1/3) * (AB+AC-AD-AE-BC-BD-BE-CD+CE+DE) + interazioni di ordine superiore (1/3) * (-AB-AC-AD-AE+BC+BD-BE-CD-CE-DE) + interazioni di ordine superiore (1/3) * (-AB-AC+AD-AE-BC-BD-BE+CD+CE-DE) + interazioni di ordine superiore (1/3) * (-AB+AC+AD-AE-BC-BD+BE-CD-CE+DE) + interazioni di ordine superiore Se trascuriamo i termini di ordine superiore al primo (come viene fatto anche in Box e Meyer 1993), possiamo stimare i seguenti alias: A + (1/3)*(-BC+BD+BE-CD-CE-DE) B + (1/3)*(-AC+AD+AE-CD+CE-DE) C + (1/3)*(-AB+AD+AE-CD+CE-DE) D + (1/3)*(AB-AC-AE-BC-BE-CE) E + (1/3)*(AB-AC-AD+BC-BD-CD) (1/3) * (-AB+AC-AD+AE+BC-BD-BE+CD-CE-DE) (1/3) * (-AB-AC-AD+AE-BC+BD-BE+CD-CE-DE) (1/3) * (AB+AC-AD-AE-BC-BD-BE-CD+CE+DE) (1/3) * (-AB-AC-AD-AE+BC+BD-BE-CD-CE-DE) (1/3) * (-AB-AC+AD-AE-BC-BD-BE+CD+CE-DE) (1/3) * (-AB+AC+AD-AE-BC-BD+BE-CD-CE+DE) = 2,916667 = 10,58333 = -0,75 = 3,583333 = -5,25 = -1,083333 = 1,083333 = -4,416667 = 3,583333 = -0,25 = -4,916667
280
I numeri sopra sono delle stime dei contrast; da essi posso passare alle somme dei quadrati elevando al quadrato e moltiplicando per 12 e poi dovrei confrontare con il residuo col test F. C per un problema: lesperimento reale non replicato nei 32 stati dunque non si ha una stima del residuo infatti Box et al. (1978) lo analizzano ricorrendo alle carte di probabilit seminormali, senza fare lANOVA. Io per ho bisogno di una stima del residuo per confrontare i 2 approcci alla struttura degli alias, quello tradizionale con la base ortogonale e quello mio con la base non ortogonale trovata nel par. 9.6. Come stimo allora il residuo? Guardo tutto il piano completo con i 32 stati di cui fornisco i dati nella tab. 27
i a b ab c ac bc abc
61 53 63 61 53 56 54 61
d ad bd abd cd acd bcd abcd
69 61 94 93 66 60 95 98
e ae be abe ce ace bce abce
56 63 70 65 59 55 67 65
de ade bde abde cde acde bcde abcde
44 45 78 77 49 42 81 82
Tabella 131: esperimento completo
Da questa si calcolano facilmente tutti gli effetti; nella tab. 28 riporto le 32 somme dei quadrati:
I A B C D E AB AC
Tabella 132
137288 AD 15,125 BC 3042 BD 3,125 CD 924,5 AE 312,5 BE 15,125 CE 4,5 DE
6,125 ABC 6,125 ABD 1404,5 ACD 36,125 BCD 0,125 ABE 32 ACE 6,125 ADE 968 BCE
18 BDE 15,125 CDE 4,5 ABCD 10,125 ABCE 28,125 ABDE 50 ACDE 3,125 BCDE 0,125 ABCDE
0,5 0,125 0 18 3,125 8 3,125 2
Visto che le 16 interazioni di ordine superiore al primo sono trascurabili (secondo lanalisi di Box et al. 1978), posso conglobare nel residuo le loro 16 somme dei quadrati (la somma 164); il residuo cos costruito avr quindi 16 gradi di libert: la stima numerica della varianza della popolazione vale 10,25. Vediamo i risultati che otteniamo con la base ortogonale:
ALIAS
SS=MS
df
F calcolata F0,95 (1,16)

281
I A + (1/3)*(-BC+BD+BE-CD-CE-DE) B + (1/3)*(-AC+AD+AE-CD+CE-DE) C + (1/3)*(-AB+AD+AE-CD+CE-DE) D + (1/3)*(AB-AC-AE-BC-BE-CE) E + (1/3)*(AB-AC-AD+BC-BD-CD) (1/3) * (-AB+AC-AD+AE+BC-BD-BE+CD-CE-DE) (1/3) * (-AB-AC-AD+AE-BC+BD-BE+CD-CE-DE) (1/3) * (AB+AC-AD-AE-BC-BD-BE-CD+CE+DE) (1/3) * (-AB-AC-AD-AE+BC+BD-BE-CD-CE-DE) (1/3) * (-AB-AC+AD-AE-BC-BD-BE+CD+CE-DE) (1/3) * (-AB+AC+AD-AE-BC-BD+BE-CD-CE+DE)
52404,0833 102,083333 1344,08333 6,75 154,083333 330,75 14,0833333 14,0833333 234,083333 154,083333 0,75 290,083333
1 1 1 1 1 1 1 1 1 1 1 1 9,95934959 131,130081 0,65853659 15,0325203 32,2682927 1,37398374 1,37398374 22,8373984 15,0325203 0,07317073 28,300813 4,4939981 4,4939981 4,4939981 4,4939981 4,4939981 4,4939981 4,4939981 4,4939981 4,4939981 4,4939981 4,4939981
Tabella 133: decomposizione ortogonale di SStr
Dalla tabella si vede che qualche interazione significativa perch 3 degli alias che contengono la somma delle interazioni sono significativi, ma non siamo in grado di individuare quali e non sappiamo se qualche interazione responsabile delle SS degli alias di A,B,D,E. Un risultato del genere lascia molto a desiderare; ci dovuto al fatto che, per mantenere lortogonalit e la semplicit di calcolo, abbiamo messo nel modello 6 parametri fittizi per cui sprechiamo 6 g.l. per avere quelle somme di interazioni (pesate per 1/3) molto difficili da interpretare. Se per abbandoniamo la base ortogonale e la matrice di Hadamard per analizzare i dati e passiamo a un modello che contenga 12 parametri reali possiamo aggiungere 6 interazioni che i tecnici ritengono interessanti; supponiamo che vogliano valutare le interazioni AB, AC,AD,AE,AE,BD,BE; il modello diventa Y = I+A+B+C+D+E+AB+AC+AD+AE+BD+DE la base completa per questo modello gi stata trovata nella tab.3 del par. 9.5; essa molto pi semplice rispetto a prima e per di pi offre la possibilit di studiare 6 interazioni in pi. Fra le 6 interazioni ho messo nel modello le due (BD, DE) che sapevo significative gi in partenza dal piano completo: ci non , a mio parere, restrittivo perch nella realt penso che i tecnici abbiano delle conoscenze sul fenomeno che gli permettano di scegliere, su 10 interazioni, 6 di esse fra le quali vi sono quelle importanti; anche se ci non fosse vero, il confounding fra gli effetti comunque pi semplice rispetto a quello generato dallanalisi classica con la matrice di Hadamard. La base, tralasciando le interazioni di ordine pi elevato, :
282
I A-BC B-CD C+BE D-CE E+BC+BE-CD-CE AB+CE AC+BC+BE-CD-CE AD+BE AE+CD BD+BC+BE-CD-CE DE-BC Scrivendo le equazioni normali full-regression si trovano le stime numeriche dei 12 alias sopra, = (X1T*X1)-1*X1T*Y da cui si passa alle somme dei quadrati (con la solita formula guardando i coefficienti nella matrice (X1T*X1)-1*X1T); dalla matrice delle covarianze si ricava la matrice di correlazione e la sua inversa:
I I A B C D E A B C D E AB AC AD AE BD DE
1,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
0,000 2,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 1,054 -0,667 0,000 0,000 2,000 0,000 0,000 0,000 0,000 -1,054 0,667 0,667 0,000 -0,667 0,000 0,000 0,000 2,000 0,000 0,000 -0,667 0,000 -0,667 -0,667 -1,054 -0,667 0,000 0,000 0,000 0,000 2,000 0,000 0,667 -1,054 0,000 -0,667 0,000 0,000 0,000 0,000 0,000 0,000 0,000 4,500 1,000 -1,581 -1,000 0,000 -1,581 0,000
AB 0,000 0,000 0,000 -0,667 0,667 1,000 2,000 0,000 0,000 0,000 0,000 0,667 AC 0,000 0,000 -1,054 0,000 -1,054 -1,581 0,000 5,000 0,000 0,000 -1,667 1,054 AD 0,000 0,000 0,667 -0,667 0,000 -1,000 0,000 0,000 2,000 0,000 0,000 0,000 AE 0,000 0,000 0,667 -0,667 -0,667 0,000 0,000 0,000 0,000 2,000 1,054 0,000 BD 0,000 1,054 0,000 -1,054 0,000 -1,581 0,000 -1,667 0,000 1,054 5,000 0,000 DE 0,000 -0,667 -0,667 -0,667 0,000 0,000 0,667 1,054 0,000 0,000 0,000 2,000
Tabella 134: inversa della matrice di correlazione
Notiamo che i VIF degli stimatori non sono molto piccoli, comunque restano al di sotto del valore limite (10) consigliato da Marquardt (1970) quindi possiamo fare lanalisi di significativit classica. Ricordiamo che il VIF misura lincremento della varianza dovuto alla non ortogonalit: in un piano ortogonale a 12 stati non replicati la varianza degli stimatori del modello FR dovrebbe essere 1/122, il fatto che il VIF dello stimatore
283
dellalias di AC sia 5 vuol dire che la varianza di tale stimatore 5/122: il lettore pu verificare questo risultato, cos come quelli degli altri stimatori, scrivendo la matrice (X1T*X1)-1. Per lANOVA, come prima, usiamo il residuo pooled di 10,25 con 16 gradi di libert. La tabella la seguente:
SS=MS df F calcolata F0,95 (1,16)
I A-BC
B-CD
52404,08 2,666667 368,1667 0,666667 51,04167 48,16667 5,041667 11,26667 0,166667 7,041667 84,01667 140,1667
1 1 1 1 1 1 1 1 1 1 1 1 0,260163 35,9187 0,065041 4,979675 4,699187 0,49187 1,099187 0,01626 0,686992 8,196748 13,6748 4,493998 4,493998 4,493998 4,493998 4,493998 4,493998 4,493998 4,493998 4,493998 4,493998 4,493998
C+BE
D-CE E+BC+BE-CD-CE
AB+CE AC+BC+BE-CD-CE AD+BE AE+CD

BD+BC+BE-CD-CE DE-BC
Tabella 135
Come si vede, si individuano tutti gli alias contenenti gli effetti che a priori sapevamo essere significativi ovvero B,D,E,BD e DE. Pur nella limitatezza di questo esempio che simulato a partire dal piano completo e non replicato, mi sembra evidente la superiorit di questo approccio; abbiamo sacrificato un po di ortogonalit (precisione) ma abbiamo potuto studiare 6 elementi in pi rispetto a prima. Questo un caso in cui un piano sperimentale, tradizionalmente ritenuto ortogonale (solo perch si elaborava con la matrice di Hadamard che ortogonale), beneficia parecchio di unanalisi non ortogonale, che permette di testare delle quantit molto pi interessanti. Questo ci fa capire che in generale lortogonalit una propriet che non riguarda il piano ma il tipo di modello che viene adottato nellanalisi, ecco perch sarebbe meglio parlare di analisi ortogonale che di piano ortogonale (sebbene nel resto della tesi io stesso abbia usato spesso questa locuzione); ovvio che quando la struttura del piano regolare lanalisi ortogonale quella da preferirsi.
284
10.6 PIANO SPERIMENTALE CON 4 FATTORI DI CONTROLLO A 3 LIVELLI E 3 FATTORI DI RUMORE A 2 LIVELLI
Questo caso, analizzato da Byrne e S.Taguchi, stato pubblicato su Quality Progress nel 1987 ma a quanto riferisce Galetto (1989a) era gi stato presentato nel 1984 a un convegno sui metodi Taguchi e nel 1986 alla conferenza ASQC; questo un segno molto chiaro della martellante pubblicit riguardo i metodi Taguchi: la stessa relazione stat ripubblicata 3 volte in 4 anni. Lasciamo da parte per ora lanalisi secondo le tecniche taguchiane; lo scopo di questo paragrafo usare i concetti del cap.8 e 9 per evidenziare alcuni errori condotti da Galetto (1989a) nellanalisi del caso di Byrne e Taguchi. Vi sono 4 fattori di controllo a 3 livelli e 3 fattori di rumore a 2 livelli; Taguchi introduce i fattori di rumore non perch gli interessi valutarne leffetto sulla risposta ma per vedere la variabilit che essi inducono nelle varie combinazioni dei fattori di controllo per scegliere la combinazione che massimizza la risposta e, nel contempo, minimizza la variabilit. Per ogni combinazione dei fattori di controllo viene quindi sperimentata una combinazione dei fattori di rumore; si hanno quindi 2 matrici dellesperimento: linner array che contiene le combinazioni dei fattori di controllo e louter array che contiene quelle dei fattori di rumore: le 2 matrici sono frazionate indipendentemente. In questo caso linner array ha dimensione 3*3 (2 tagli), e louter array ha dimensione 2*2*2 (nessun taglio): il piano sperimentale risultante quello della cosiddetta product array con 72 stati di prova, contrapposta alla combined array che non distingue fra fattori di controllo e di rumore. Si ottiene una tabella come quella sotto in cui sulle righe vengono poste le combinazioni dei fattori di controllo (CF) e sulle colonne quelle dei fattori di rumore (NF):
1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8
Tabella 136: product array, combinazioni dei CF sulle righe e quelle dei NF sulle colonne
Per analizzare il piano abbiamo 2 strade davanti a noi: trascurare i fattori di rumore: avremmo quindi un piano ridotto 34-2 in cui i 9 stati sperimentali vengono replicati 8 volte; in questo caso il residuo avrebbe 63 gradi di libert non trascurare i fattori di rumore: si ha un piano ridotto 23*34-2 con 72 stati sperimentali senza replicazioni per cui il residuo avrebbe 0 gradi di libert; in questo caso per si possono trascurare le interazioni di ordine pi elevato ed attribuirne i gradi di libert al residuo.
285
La cosa da capire subito che in ogni caso siamo davanti a un piano ridotto quindi gli effetti che stimiamo sono forzatamente aliased. I dati sulla risposta Y sono indicati nella tabella sotto:
Fattori di E rumore Fattori di controllo
2 2 2
2 2 1
2 1 2
2 1 1
1 2 2
1 2 1
1 1 2
1 1 1
G C 1 2 3 2 3 1 3 1 2 D 1 2 3 3 1 2 2 3 1
A 1 1 1 2 2 2 3 3 3
B 1 2 3 1 2 3 1 2 3
19,1
20 19,6 19,6 19,9 16,9 9,5 15,6 15
21,9 24,2 19,8 19,7 19,6 19,4 16,2 24,7 23,2 18,9
20,4 23,3 18,2 22,6 15,6 19,1 16,7 16,3 21 18,6 18,9 17,4 18,3 20 16,3 16,2 25,3 27,5 21,4 25,6 25,1 19,4 18,6 19,7 24,7 22,5 19,6 14,7 19,8 21,6 24,3 18,6 16,8 23,6 18,4 19,1 16,4 24,4 23,2 19,6 17,8 16,8 15,1 15,6 14,2 28,6 22,6 22,7 23,1 17,3 19,3 19,9 16,1
Tabella 137
Analizziamo i dati trascurando i fattori di rumore, trattiamo dunque le 8 osservazioni per le diverse combinazioni dei fattori di rumore, come replicazioni nello stesso stato sperimentale dei fattori di controllo. Si ha la tabella ANOVA:
SS df MS F calcolata F0,95 (8,63)
28878,71 28033,17347 845,5365278 156,2277778 689,30875
72 1 71 11,90897 8 19,52847 63 10,94141 1,784822 1,769745
Tabella 138: ANOVA one-way
La SSreg dovuta ai fattori di controllo (aliased) sono al limite della significativit ma ci dovuto al fatto che nel residuo vi sono gli effetti dei fattori di rumore dunque in realt MSe pi basso. Per ora occupiamoci di scomporre i trattamenti in 8 componenti: logico assegnare gli 8 gradi di libert ai 4 fattori (aliased), ciascuno dei quali ha 2 gradi di libert, uno per la componente lineare (Al, Bl,...) e uno per quella quadratica (Aq, Bq,...). Le componenti dellinterazione sono confuse con quelle dei fattori, quindi non possono essere studiate con questo piano; non per niente questo piano progettato secondo le tecniche preconfezionate di Taguchi che ignorano le interazioni.
286
Per trovare il confounding presente in tale piano sperimentale, applichiamo il metodo di Box-Wilson al modello: Y = I+Al+Aq+Bl+Bq+Cl+Cq+Dl+Dq Y = X1* Per le componenti lineari e quadratiche uso la codifica dei polinomi ortogonali. La matrice X1 la seguente:
I 1 1 1 2 2 2 3 3 3 1 2 3 1 2 3 1 2 3 1 2 3 2 3 1 3 1 2 1 2 3 3 1 2 2 3 1 Al Aq Bl Bq Cl Cq Dl Dq
1 1 1 1 1 1 1 1 1
-1 -1 -1 0 0 0 1 1 1
1 1 1 -2 -2 -2 1 1 1
-1 0 1 -1 0 1 -1 0 1
1 -2 1 1 -2 1 1 -2 1
-1 0 1 0 1 -1 1 -1 0
1 -2 1 -2 1 1 1 1 -2
-1 0 1 1 -1 0 0 1 -1
1 -2 1 1 1 -2 -2 1 1
Tabella 139: matrice X1
Nella matrice X2 non metto tutte le possibili interazioni (in tutto sarebbero 72 componenti) ma solo le 16 componenti delle interazioni del primo ordine : Al Al Aq Aq Al Al Aq Aq Al Al Aq Aq Bl Bl Bq Bq Bl Bl Bq Bq Cl Cl Cq Cq * * * * * * * * * * * * * * * * * * * * * * * * Bl Bq Bl Bq Cl Cq Cl Cq Dl Dq Dl Dq Cl Cq Cl Cq Dl Dq Dl Dq Dl Dq Dl Dq 1 -1 -1 0 0 0 0 -1 1 2 0 0 -1 -1 1 0 1 1 -1 -1 0 0 0 0 1 2 0 0 1 1 0 1 1 -1 -1 0 0 0 0 1 2 1 1 1 1 -1 -1 0 1 0 0 0 1 2 0 1 1 4 1 1 -1 -1 0 1 0 0 0 0 1 0 2 0 1 1 1 4 1 1 1 -1 -1 0 1 0 0 0 1 0 1 1 4 1 1 0 -2 2 -2 4 1 1 0 -2 4 0 -2
1 -1 -1
1 -1 -1 0 0 1
0 -2 -2 2 -2 0 1
0 -2 -1 -1 1 1 0 -2
0 -2 -2 1 -1 2 0 -2 0 -2 1 1 2 -2
0 -2 -2 2 -2 1 1 1
0 -2 -2 1 -1 1 0
2 -2 -1 0 -2 0 -2 1
0 -2 -2 1 -1 1 1
4 -1 1 1 0
0 -2
0 -2 -1 -1 0 -2
0 -2 0 0
0 -2
0 -2 -1
1 -1
2 -2
0 -2 -2 -1 -1 1 -1
0 -2
0 -2 -1
1 -1
0 -2 -1
Tabella 140: matrice X2 ridotta alle sole interazioni del primo ordine
Il confounding trovato col metodo BW sar ovviamente limitato a questa 16 componenti. La matrice delle covarianze (X1T*X1)-1 diagonale quindi il piano
287
ortogonale (in realt lanalisi che facciamo che ortogonale) e ci lo sapevo gi in partenza visto che Taguchi usa sempre piani per cui comoda unanalisi ortogonale:
I Al Aq Bl Bq Cl Cq Dl Dq
0,11111 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0
0 0 0
0 0 0 0
0 0 0 0 0
0 0 0 0 0 0
0 0 0 0 0 0 0 0,05556
0,16667 0 0 0 0 0 0 0
0,05556 0 0 0 0 0 0
0,16666 0 0 0 0 0
0,05556 0 0 0 0
0,16667 0 0 0
0,05556 0 0
0,16667 0
La soluzione delle equazioni normali :

157,85556 4,4833333 -3,9722222 2,6 -1,9222222 8,8166667 -2,1388889 -5,4166667 0,8611111
sono ovviamente le stime dei contrast coi coefficienti dei polinomi ortogonali (a parte il solito fattore moltiplicativo che non influenza lanalisi); dai contrast passiamo alla somma dei quadrati per fare il test di significativit, che non un test del tutto corretto perch per ora stiamo trascurando i fattori di rumore e quindi il residuo (denominatore del test F) contiene leffetto dei attori di rumore. Essendo ortogonali, le 2 componenti dei fattori, si possono sommare le rispettive somme dei quadrati, ottenendo una somma dei quadrati associata al fattore con 2 gradi di libert. La decomposizione (ortogonale) di SStr quindi:
288
Trattamenti Al Aq A Bl Bq B Cl Cq C Dl Dq D Residuo
SS 156,2277 15,07521 35,50174 50,57694 5,07 8,313611 13,38361 58,30021 10,2934 68,59361 22,00521 1,668403 23,67361 689,3088
df 8 1 1 2 1 1 2 1 1 2 1 1 2 63
MS 19,52847 15,07521 35,50174 25,28847 5,07 8,313611 6,691806 58,30021 10,2934 34,29681 22,00521 1,668403 11,83681 10,94141
F calcolata
1,377812 3,244713 2,311263 0,463377 0,75983 0,611604 5,328401 0,940775 3,134588 2,011186 0,152485 1,081836
F0,95
3,993364 3,993364 3,142809 3,993364 3,993364 3,142809 3,993364 3,993364 3,142809 3,993364 3,993364 3,142809
Tabella 141: decomposizione di SStr
Per i fattori di controllo si ritrovano le stesse SS calcolate in Galetto (1989a); solo che bisogna rendersi conto che gli effetti dei fattori sono aliased con quelli delle interazioni: infatti se scriviamo la matrice degli alias (trasposta per comodit di impaginazione):
I Al*Bl 0,000 Al*Bq 0,000 Aq*Bl 0,000 Aq*Bq 0,000 Al*Cl 0,000 Al*Cq 0,000 Aq*Cl 0,000 Aq*Cq 0,000 Al*Dl 0,000 Al*Dq 0,000 Aq*Dl 0,000 Aq*Dq 0,000 Bl*Cl 0,000 Bl*Cq 0,000 Bq*Cl 0,000 Bq*Cq 0,000 Bl*Dl 0,000 Bl*Dq 0,000 Bq*Dl 0,000 Bq*Dq 0,000 Cl*Dl 0,000 Cl*Dq 0,000 Cq*Dl 0,000 Cq*Dq 0,000 Al 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 -0,500 -0,500 0,500 -1,500 -0,500 0,500 -0,500 -1,500 -0,500 -0,500 0,500 -1,500 Aq 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,167 -0,500 0,500 0,500 0,167 0,500 -0,500 0,500 0,167 -0,500 0,500 0,500 Bl 0,000 0,000 0,000 0,000 -0,500 -0,500 0,500 -1,500 -0,500 0,500 0,500 1,500 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 1,000 1,000 0,000 Bq 0,000 0,000 0,000 0,000 0,167 -0,500 0,500 0,500 -0,167 -0,500 -0,500 0,500 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,333 0,000 0,000 -1,000 Cl -0,500 0,500 0,500 1,500 0,000 0,000 0,000 0,000 -0,500 -0,500 0,500 -1,500 0,000 0,000 0,000 0,000 0,000 1,000 1,000 0,000 0,000 0,000 0,000 0,000 Cq -0,167 -0,500 -0,500 0,500 0,000 0,000 0,000 0,000 0,167 -0,500 0,500 0,500 0,000 0,000 0,000 0,000 0,333 0,000 0,000 -1,000 0,000 0,000 0,000 0,000 Dl -0,500 -0,500 0,500 -1,500 -0,500 0,500 0,500 1,500 0,000 0,000 0,000 0,000 0,000 1,000 1,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 Dq 0,167 -0,500 0,500 0,500 -0,167 -0,500 -0,500 0,500 0,000 0,000 0,000 0,000 0,333 0,000 0,000 -1,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
289
2 - LApproccio Scientifico alla Qualit Tabella 142: matrice degli alias del piano taguchiano
Vediamo che tutte le interazioni sono confuse con i fattori non coinvolti nellinterazione: ad esempio le 4 componenti dellinterazione AB sono confuse nelle componenti di C e D, le 4 di AC sono confuse con B e D, AD con B e C.... E infatti se sommiamo la somma dei quadrati di C e D, otteniamo la SS che Galetto (1989a) attribuisce allinterazione AB e cos per tutte le altre interazioni si ritrovano i risultati presentati da Galetto: AB = C+D AC = B+D AD = B+C BC = A+D BD = A+C CD = A+B 92,2672 37,0572 81,9772 74,2506 119,171 63,9606
Tabella 143: dipendenza delle interazioni dai fattori generata dal confounding
ma quelle di tab.41 non sono le somme dei quadrati delle interazioni; come abbiamo gi chiarito in questo piano le interazioni non possono essere testate perch Taguchi costruisce dei piani che testano solo i fattori. Le SS di tab.41 sono le interazioni aliased con i fattori quindi servono a ben poco e infatti si vede chiaramente che sono dipendenti dalle somme dei quadrati dei fattori (aliased con le interazioni): assolutamente sbagliato (come detto nel par. 7.6) porre in una tabella ANOVA i fattori con 2 gradi di libert e le interazioni con 4 gradi di libert e calcolare il residuo per differenza di questa componenti non indipendenti (!!!), ovvero scrivere la seguente tabella:
SS df
Totale corretto 845,5365 A B C D AB AC AD BC BD CD Residuo 50,57694 13,38361 68,59361 23,67361 92,26722 37,05722 81,97722 74,25056 119,1706 63,96056 220,6254
71 2 2 2 2 4 4 4 4 4 4 39
Tabella 144: ANOVA di Galetto
290
invece possibile diminuire i gradi libert del residuo introducendo i fattori di rumore; se introduciamo il fattore E, ci equivale a sdoppiare (par.9.6) i 9 stati sperimentali, arrivando quindi a 18 e diminuendo contemporaneamente i gradi di libert del residuo da 63 a 54. Si aggiungono 9 gradi di libert ma questi non possono essere attribuiti alle interazioni AB,AC,AD,BC,BD,CD perch queste restano confuse con i fattori A,B,C,D; come chiarito nel par. 9.6, aggiungendo un fattore allanalisi, gli alias non cambiano; i nuovi 9 gradi di libert vanno dunque attribuiti a E e alle sue interazioni con i fattori di controllo per un totale di 9 componenti (aliased con quelle trascurate). Se si aggiungesse un altro fattore di rumore (F), si passerebbe da 18 a 36 stati di prova e i 18 gradi di libert in pi riguarderebbero le componenti di F e le sue interazioni; il residuo passerebbe a 36 gradi di libert e dovrebbe tenere conto della variabilit (2 replicazioni) allinterno dei nuovi 36 stati di prova. Se infatti aggiungiamo anche lultimo fattore di rumore (G) abbiamo 72 stati di prova distinti non replicati e il residuo ha zero gradi di libert per cui bisogna attribuire ad esso le interazioni di ordine elevato che coinvolgono i 3 fattori di rumore. evidente che questa una situazione molto insoddisfacente per gli obbiettivi della sperimentazione classica perch il piano non permette di testare le interazioni fra i fattori pi importanti (quelli di controllo) e si sprecano tantissimi gradi di libert per analizzare delle interazioni poco interessanti; ma Taguchi, come detto nel cap.3, si propone degli obiettivi diversi (senza peraltro raggiungerli, cap.11): trovare la combinazione dei fattori di controllo che massimizza la risposta e nel contempo minimizzi la variabilit allinterno degli stati, dovuta ai fattori di rumore, che non possono essere controllati nelle normali condizioni di uso e di esercizio. Per raggiungere un obiettivo del genere bisognerebbe fare molte prova in pi ecco perch Taguchi costretto a trascurare le interazioni fra i fattori di controllo. Ecco perch sono abbastanza critico, in generale, verso unanalisi classica ex-post dei risultati di un piano progettato secondo criteri taguchiani in cui impossibile rilevare leffetto delle interazioni. Il confronto fra metodologia classica e quella di Taguchi va fatto gi dalla costruzione del piano sperimentale, a parit di stati sperimentali126; in questo caso con la metodologia classica sarebbe convenuto considerare tutti 7 fattori allo stesso modo (non distinguendo fra controllo e rumore) e progettare le prove in modo che fossero testabili le 6 interazioni AB,AC,AD,BC,CD.
In realt, pi che sul numero delle prove, bisognerebbe ragionare sul costo di esse perch alcuni fattori possono essere variati pi facilmente (economicamente) di altri: questo per dipende da problema a problema. 291
126
CAPITOLO 11
TAGUCHI: NOVIT O BLUFF?
11.1 POPOLARIT DI TAGUCHI

..it worries me when I hear of hundreds of engineers being taught what I believe are sometimes inappropriate, unnecessarily complicated, and inefficient statistical methods (Box 1988) Nel cap.3 abbiamo visto che la Statistica applicata alla sperimentazione aveva fatto passi da gigante gi agli inizi del secolo e ben prima degli anni 50 in Occidente si erano sviluppati i concetti fondamentali dellexperimental design; per il suo uso rimasto confinato a pochi grandi centri di ricerca e ha sempre stentato ad imporsi come pratica corrente nellindustria occidentale. Non un caso che Deming, grande sostenitore della Statistica nellindustria e nei servizi, sia dovuto andare in Giappone a propagandare le sue idee perch in Occidente non era ascoltato; dagli anni 50 i giapponesi capiscono (grazie a Deming) limportanza della Statistica e lingegnere giapponese Genichi Taguchi inizia a elaborare i suoi metodi di pianificazione degli esperimenti; nellanno 1953 Taguchi compie il tile experiment, citato da tutte le pubblicazioni taguchiane come il momento in cui si capisce che pi economico rendere il processo insensibile alle variazioni ambientali che controllare queste sorgenti di variabilit: questa lidea alla base del robust design. Incredibilmente Taguchi sviluppa i suoi lavori sul DOE, trascurando quasi del tutto la ricerca statistica fatta in Occidente, infatti nel suo libro System of Experimental Design (1987), su una quarantina di riferimenti bibliografici, solo una dozzina riguarda autori occidentali e tutti nellarco temporale 1944-1957). Taguchi, ingegnere elettronico, ritiene di poter estendere i concetti propri delle telecomunicazioni alla pianificazione e analisi
292
degli esperimenti e cos nasce il famigerato signal-to-noise ratio per lanalisi dei risultati dellesperimento. In Occidente, fra gli anni 70 e 80 si diffonde il mito della Qualit giapponese e, come riportato in Steinberg e Hunter (1984), nascono delle leggende come quella che i giapponesi, grazie a Taguchi, riescono ad eseguire esperimenti con 100 fattori (!!!). Taguchi viene quindi invitato da grosse aziende americane negli Stati Uniti a tenere delle conferenze sui suoi metodi; allinizio le sue idee suscitano molto scetticismo proprio perch ignorano ci che la base della sperimentazione scientifica occidentale ma Taguchi riesce a catturare linteresse delle persone che contano nelle grosse aziende come la AT&T, la Ford, la ITT e la Xerox; in aggiunta a questo, potenti organizzazioni come l American Supplier Institute (ASI) danno una grande promozione allapplicazione delle sue idee nellindustria. Galetto (1995) riferisce che i metodi Taguchi sono stati presentati127 in Europa nel 1986 a Stoccolma durante il congresso EOQC. La pubblicit data a questi metodi stata quindi martellante (il caso del par. 10.6, fatto pubblicare dallASI 3 volte in 4 anni un esempio lampante): seguita unincredibile diffusione dei metodi Taguchi, anche a causa del rinnovato interesse per la Qualit come mezzo strategico di competizione per le aziende. La diffusione dei metodi Taguchi ha sortito 2 effetti, il primo positivo e il secondo negativo: molti ingegneri che prima sapevano poco o niente di DOE hanno iniziato a conoscere limportanza della pianificazione e analisi degli esperimenti, in particolar modo nei problemi della Qualit proprio perch hanno sentito parlare del DOE per la prima volta nellambito della metodologia di Taguchi, essi credono che Taguchi abbia inventato lexperimental design; la maggior parte degli ingegneri rimane quindi ignorante128 circa la Statistica sperimentale sviluppata in Occidente: la teoria dei piani fattoriali, il planned confounding, i 3 principi di Fisher, le equazioni normali, il concetto di significativit di un fattore, limportanza delle interazioni.... American engineers are learning about designed experiments...many of them are hearing about these things for the first time in the framework of the Taguchi methodology. Unfortunately, some of the more zealous disciples of Taguchi get overhead and proclaim that all the ideas of multifactor experimentation are Japanese, and were invented by Taguchi himself...(John 1990). Come mai allora la Statistica classica ha stentato ad imporsi nellindustria, mentre i metodi Taguchi in pochi anni hanno conquistato il mercato? Dai documenti che ho letto, credo di poter individuare 3 motivi fondamentali:
Lautore citato peraltro non afferma che stata la prima volta che i metodi Taguchi sono sbarcati in Europa quindi non escludo che si siano diffusi prima del 1986. La maggior parte degli utilizzatori dei metodi Taguchi rimangono ignoranti della Statistica classica, non Taguchi che, credo, abbia una certa competenza statistica. 293
128 127
1. Il preconcetto che le cose giapponesi siano migliori delle cose occidentali 2. La travolgente pubblicit di cui hanno goduto i metodi Taguchi 3. La metodologia di Taguchi non richiede allo sperimentatore di pensare allesperimento e di conoscere la Statistica Infatti per la pianificazione, Taguchi mette a disposizione un catalogo con le sue orthogonal array o lattices, per vari numeri di fattori e livelli; per lanalisi, ha inventato un SN ratio con cui elaborare (???) i dati per diversi tipi di problemi (esistono pi di 80 SN). Il tutto senza spiegare perch: le formula proposte spesso non hanno giustificazione statistica; non a caso Senturia (1989), uno dei reviewer della rivista Technometrics, suggerisce check your mathematical rigor at the door , prima di leggere i libri di Taguchi. Scopo dichiarato delle metodologie di Taguchi trovare la combinazione dei livelli dei fattori che ottimizza la loss function (che combina media e varianza della risposta), non avanzare nella conoscenza del fenomeno secondo lapproccio scientifico di Box di cui ho parlato nel cap.3. In Nair (1992), Shin Taguchi afferma che il ruolo dellingegnere non discover the causal relationships and to understand the mechanics of how things happen; lo scopo dellingegnere deve essere quello di achieve robust function ... to satisfy the consumer: tale filosofia in chiaro contrasto con lapproccio scientifico occidentale della sperimentazione.
11.2
QUALITY ENGINEERING: TOLERANCE DESIGN
SYSTEM,
PARAMETER,
...everyone can judge...whether the recent fascination with Taguchi methods is a panicked reaction by people looking for a miracle cure (Bisgaard 1989) Linsieme delle tecniche statistiche per raggiungere la Qualit chiamato da Taguchi, Quality Engineering; esso si compone di 3 fasi da applicare sia al progetto del prodotto che a quello del processo di produzione. SD: System design. la fase di sviluppo del prodotto e processo in cui fondamentale la capacit tecnologica e di innovazione degli ingegneri: bisogna scegliere materiali, parti e componenti; il prodotto deve avere le caratteristiche richieste dal mercato con la minima variabilit verso un certo target. PD: Parameter design. Si identificano i parametri pi importanti e bisogna trovare la loro combinazione ottimale, che consente di raggiungere il target specificato nella prima
294
fase con la minima variabilit verso fattori di rumore, che si incontrano nelle condizioni di produzione (PD di processo) e di uso del prodotto (PD di prodotto). TD: Tolerance design. Se la riduzione della variabilit attuata col PD non ancora sufficiente per raggiungere il target di mercato, allora bisogna usare dei componenti e macchinari di Qualit migliore; come dicono Byrne e Shin Taguchi (1987), Tolerance design typically means spending money. Queste 3 fasi rappresentano l off-line quality control (cap.3), ovvero il momento in cui si dovrebbe costruire la Qualit nel prodotto e nel processo produttivo; una volta che la produzione entra a regime, ci sono le tecniche on-line quality control, ovvero le carte di controllo, i diagrammi di causa-effetto, i diagrammi di Pareto... Come si vede non c nulla di fondamentalmente nuovo nella filosofia di Taguchi; egli ripropone i concetti di riduzione della variabilit introdotti da Shewart negli anni 20. La novit pi grossa costituita dal parameter design, che quello che io ho chiamato robust design nel cap.3: si vuole cercare la miglior combinazione dei livelli per cui la risposta operi su un certo valore (target) con una dispersione minima. per assurdo credere che Taguchi abbia inventato il robust design; come dice Box (in Nair 1992) Like most good ideas, designing for robustness has a considerable history: gi Gosset e Fisher avevano studiato allinizio del secolo il problema della robustezza; lindustria dolciaria ha sempre usato il robust design per rendere le ricette delle torte in scatola insensibili a variazioni dovute alla persona che legge le istruzioni. Lorenzen sostiene (in Nair 1992) che negli anni 40 si cercava di rendere i prodotti agricoli insensibili alle variazioni del tempo e alle condizioni del suolo (fattori di rumore) in modo che assicurassero il massimo raccolto (target) sfruttando linterazione fra questi 2 fattori di rumore e i prodotti agricoli (fattore di controllo). dunque evidente che Taguchi non ha inventato il robust design, tuttavia ha linnegabile merito di avere applicato questi principi alla sperimentazione industriale e di averli propagandati in tutto il mondo. I punti pi importanti evidenziati da Taguchi sono i seguenti: analizzare la varianza oltre che la media della risposta per ogni combinazione dei fattori di controllo, minimizzare la variabilit rispetto ai fattori di rumore, minimizzare la sensibilit del prodotto alle variazioni trasmesse dai suoi componenti Purtroppo these very important engineering ideas are however accompanied by proposed statistical procedures that are often unnecessarily complicated and inefficient, and sometimes naive (Box, in Kacker 1985)
295
11.3 LOSS FUNCTION

Spesso si sente dire che Taguchi ha inventato la loss-function e che questa costituisce la base matematica per le formule di Taguchi. In realt le cose non stanno proprio cos. La loss-function un concetto per niente nuovo, visto che costituisce la base della teoria delle equazioni normali, fondata da Gauss nel 1796; la loss-function inoltre correntemente impiegata nella teoria statistica delle decisioni, come testimonia un testo classico di Statistica, il Mood-Graybill (1963). Taguchi ha iniziato a usare la loss-function per esprimere i costi dovuti alla variabilit di una caratteristica Y (v.c.), il cui target T; la loss-function L(Y) e le assunzioni fatte su di essa sono: positiva per tutte le determinazioni y di Y uguale a zero per y=T; L(T) = 0 ha un minimo per y=T; L(T) = 0 Se sviluppiamo L(y) in serie di Taylor nellintorno di y=T, abbiamo che: L( y ) L(T ) + L'(T ) * ( y T ) + con le assunzioni fatte diventa: L( y ) L''(T ) 2 2 *( y T) = k *( y T) 2 L' ' ( T ) 2 *( y T) 2
Ecco perch, anche se L(y) pu essere pi complessa, viene di solito usata una lossfunction quadratica: essa fornisce sempre una buona approssimazione se si opera vicino al target. L(y) = K*(y-T)2 K la costante che lega i costi alla variabilit rispetto al target. L(Y) una funzione stocastica quindi a noi interessa il suo valore atteso, in funzione del valore atteso E(Y) = e della sua varianza VAR (Y) = Y2. R = E(L(Y)) = K * (Y - T)2 = k*[E(Y) - 2* E(Y) * T + E(T2)] R = K*[E(Y2) - 2 * * T + T2] = K* [VAR(Y) + ( T)2] = K* [ Y2 + ( T)2] La sperimentazione classica un caso particolare di minimizzazione del valore atteso della loss-function in cui si fa lipotesi di omoschedasticit ovvero Y2 = cost, e si considera solo la media delle risposte. La minimizzazione della loss-function, tenendo conto della media e della dispersione, quindi un obiettivo pi ambizioso e quindi, per il principio F1,
296
si capisce che richieder un numero pi elevato di prove, rispetto al DOE classico che considera solo la media: invece i taguchiani dicono che minimizzano la loss-function e risparmiano molte prove: la contraddizione evidente. Sia che 2 dipendono dai fattori di controllo ovvero i parametri di cui si vuole trovare la combinazione ottimale per minimizzare R. Se si vuole minimizzare R, innanzitutto bisogna trovarne uno stimatore corretto: Wheeler (1988), col metodo dei momenti ha trovato lo stimatore: MSD = s2 + (y. - T)2 dove s lo scarto quadratico medio campionario di Y e y. la media campionaria di Y, per una particolare combinazione dei fattori di controllo (trattamento). Per ogni trattamento possiamo dunque stimare il valore della loss-function. A qualcuno potrebbe venire in mente di fare lANOVA, considerano come funziona di risposta la loss-function. Sarebbe una buona idea? Io sono daccordo con Wheeler (1988) che dice di no, perch i fattori che influenzano significativamente la media potrebbero avere un effetto contrario a quelli che influenzano la varianza, e cos non si capirebbe quali sono i fattori importanti. ..it is rarely a good idea to use composite response variables.. (Wheeler 1988); molto meglio analizzare separatamente media e varianza dei trattamenti con 2 ANOVA: la prima su y. come risposta la seconda su s2 o meglio129 su log (s2), come risposta; il lettore si rende conto che in questo caso non si ha nessuna replicazione, dunque per capire i fattori che influenzano log (s2) bisogna o decidere a priori su quali effetti fare il pooling per stimare il residuo di log (s2) oppure usare tecniche grafiche come le carte di probabilit seminormali di Daniel (1976) o usare la distribuzione maxF, presentata in Wheeler (1988): sono tutte tecniche che io non conosco a fondo quindi non le esporr. C ancora un altro problema da considerare di cui parla Levi (1991), ovvero la scarsa precisione in generale delle stime di dispersione; Levi (1991) afferma che per stimare la dispersione con CL=90% in modo che lintervallo di fiducia abbia ampiezza pari allo scarto quadratico medio, ci vogliono 12 replicazioni130. Dunque la stima congiunta della media e di una misura di dispersione risulta estremamente costosa in termini di prove da effettuare, anche accontentandosi di precisioni molto modeste. E' per questo motivo che i fondatori della statistica sperimentale hanno sempre propugnato con molta cautela l'uso di
129
Wheeler sostiene che usare il logaritmo si s2 una procedura efficiente nota dal 1937 (Bartlett). Consideriamo per che se Y segue una normale, s2 non pi normale quindi non so se abbia senso fare unANOVA standard su s2.
Purtroppo non sono riuscito a capire come Levi abbia trovato questo numero; io ho trovato 9 al posto di 12, usando la distribuzione 2: rimane comunque un numero elevato. 297
130
stime di dispersione: tali stime costano moltissimo in termini di prove se si vuole seguire un approccio scientifico131; inoltre consideriamo che per la grande maggioranza delle applicazioni sufficiente valutare leffetto dei fattori e interazioni sulla media e non sulla dispersione della risposta (Levi 1991). Finora abbiamo visto come andrebbe condotto scientificamente il ragionamento sulla loss-function. Ora vediamo come invece ragiona Taguchi.
11.4 OUTER E INNER ARRAY

The cross of inner and outer arrays often leads to a prohibitive number of observations (Sacks e Welch, in Nair 1992) Taguchi divide i fattori in 2 categorie principali: fattori di controllo (CF) e fattori di rumore (NF); i primi rappresentano i parametri del sistema per i quali bisogna scegliere il livello ottimale; i secondi sono quei fattori non controllabili nelle normali condizioni operative (di uso o di produzione) ma che possono essere controllati nellesperimento: essi rappresentano delle sorgenti di variabilit rispetto alle quali si vuole raggiungere una certa robustness selezionando opportunamente i livelli dei CF: lo scopo del robust design che, come visto lo scopo della fase di parameter design nel Quality Engineering di Taguchi. Nel par. 10.6 abbiamo visto che un tipico piano di Taguchi dato dal prodotto delle combinazioni sperimentali dellinner array (in cui vengono variati i fattori di controllo) e dellouter array (in cui vengono variati i fattori di rumore). Si hanno dunque 2 piani, uno per i CF, laltro per i NF e vengono frazionati indipendentemente; la matrice del piano risultante detta product o crossed array, di dimensione pari al numero di combinazioni dei CF e quello di combinazioni CF. In questo tipo di approccio taguchiano vi sono 3 difetti: non viene studiato leffetto dei fattori di rumore sulla risposta Y ma solo leffetto dei fattori di controllo il numero di prove sempre decisamente alto quindi per cercare di contenerlo si costretti a fare lipotesi che non ci siano interazioni fra i fattori di controllo non si pu stimare lerrore sperimentale perch il residuo non ha nessun grado di libert, a meno che non si replichino le singole combinazioni di CF e NF; Taguchi propone quindi di fare il pooling di alcuni effetti con MS pi basso, una procedura che pu portare a forti distorsioni nella stima del residuo Per rimediare ad essi, sarebbe meglio considerare tutti fattori alla stessa stregua in un unica matrice (combined array); in questo modo si valuta leffetto dei fattori di rumore sulla risposta Y e, chiedendo ai tecnici quali sono le interazioni che essi ritengono pi interessanti, si riesce a mantenere il numero delle prove entro limiti accettabili.
131
Ovvero se non si vogliono fare assunzioni assolutamente arbitrarie come quelle di Taguchi. 298
In questo modo si pu anche replicare le osservazioni nei vari stati sperimentali, ottenendo quindi una stima del residuo; con la product array di Taguchi non si ha nessuna replicazione perch le ripetizioni nei vari trattamenti sono fatte secondo condizioni prestabilite dei fattori di rumore, sono ben lungi dallessere indipendenti: non c mai nessun grado di libert per il residuo e dunque bisogna sempre fare il pooling di qualche effetto. Lerrore sperimentale non leffetto dei fattori di rumore: forse i taguchiani non se ne rendono conto. Nel prossimo paragrafo vediamo come Taguchi analizza i risultati che vengono fuori dalle inner e outer array.
11.5 SIGNAL TO NOISE

Although it is attractive to some that the use of a standard SN ratio avoids the necessity of thinking about their experiment, avoidance of thought, as usual, does not pay in the long run (Nelder, in Nair 1992) Rifacendosi alla terminologia delle comunicazioni, Taguchi ha proposto il signal to noise come una misura di dispersione delle osservazioni per una data combinazione dei livelli dei CF. Taguchi ha inventato pi di 80 SN, a seconda dei vari problemi che si possono incontrare. Le 3 formule pi usate sono comunque: the larger the better n 1 2 i =1 y i SN L = 10 * log 10 n
the smaller the better n 2 yi SN S = 10 * log 10 i =1 n

on target
y2 SN T = 10 * log 10 2 sY
299
dove n il numero dei trattamenti, y e s2Y sono la media e la varianza campionaria dei trattamenti. Le 3 formule sopra sono quelle degli stimatori delle corrispondenti funzioni dei parametri SN*. Dunque Taguchi esegue lANOVA132 sui signal to noise per vedere quali sono i fattori di controllo che influenzano significativamente SN: visto che fa il test F, fa lassunzione implicita che le sue statistiche SN seguano la distribuzione normale; i fattori di controllo che non influenzano significativamente SN ma influiscono sulla media vengono denominati fattori di aggiustamento; in letteratura i fattori di aggiustamento sono a volte confusi con i fattori di segnale (signal factors): questi sono invece dei fattori che regolano il target nei pi difficili problemi di parameter design dinamico; in questo capitolo (e nella maggior parte della letteratura) trattato solo il parameter design statico in cui il target T fisso e non vi sono dunque fattori di segnale. La procedura taguchiana di ottimizzazione avviene in 2 passi: 1. Scegliere la combinazione dei livelli dei fattori di controllo che influiscono su SN in modo da massimizzare SN 2. Scegliere i livelli dei fattori di aggiustamento che portano la media della risposta pi vicina al target Come riferito in Leon et al. (1987), Taguchi non esplicita il collegamento fra questa procedura di ottimizzazione in 2 stati e la minimizzazione della loss-function: nel paragrafo successivo vedremo che, solo sotto delle assunzioni abbastanza restrittive la procedura di Taguchi conduce alla minimizzazione della loss-function. Per ora concentriamoci sui signal to noise.
11.5.1 ON TARGET Questo SN si trova in letteratura in 2 diverse forme del tutto equivalenti:
y2 SN T = 10 * log 10 2 sY y 2 1 SN T = 10 * log 10 2 n sY
Visto che sono equivalenti per quanto riguarda la minimizzazione della loss-function, consideriamo il primo, che pi semplice; vediamo che largomento del logaritmo lo stimatore del reciproco del coefficiente di variazione al quadrato
stimato da:
A volte (Byrne e S.Taguchi 1986) si cerca di capire la significativit semplicemente dai grafici marginali delle medie del tipo che io ho usato nel cap.6; Taguchi li chiama marginal means, e usa la regola pick the winner ovvero scegli il livello che d SN pi alto: inutile dire che tale regola trascura le interazioni come evidenziato in Montgomery (1991). 300
132
$ =
s y
che usato quando si vuole definire la dispersione in modo adimensionato. gode di una propriet notevole, quando si opera la trasformazione Z=ln Y:
2 =
2 1 2 = e
2
Z
la relazione sopra riportata in Box (1988) che dice che esatta quando Z normale e approssimata in altri casi. Abbiamo dunque:
ln (1+2) = 2lnY
che, approssimata in serie di Taylor, diventa la ben nota relazione:
= Y / = lnY
dunque, analizzare il signal to noise on target di Taguchi equivale ad analizzare il logaritmo della varianza della variabile trasformata Z=lnY; SNT* = -20 * log(Y /) = -k * ln (lnY /) ci pu essere utile se la trasformazione logaritmica serve a stabilizzare la varianza o a verificare lipotesi di normalit. Box (1988) afferma che un conto trovare delle relazioni matematiche sui parametri della popolazione, un conto stimare tali parametri; nel caso di sopra, s2lnY una s (come SNT di Taguchi) statistica sufficiente per 2lnY ma qualunque funzione di $ = y necessariamente meno efficiente133.
11.5.2 THE LARGER THE BETTER Nei casi in cui si vuole massimizzare la risposta Y, Taguchi propone la statistica: n 1 2 i =1 y i SN L = 10 * log 10 n
come tutti i signal to noise, una misura che confonde la posizione e la dispersione dei dati. Box (1988) ha fatto delle simulazioni misurando lefficienza di SNL con la numerosit campionaria che garantirebbe lo stessa potenza (complementare a 1 dellerrore di seconda specie) della media campionaria, diviso la numerosit effettiva dei dati. Box ha trovato per 2 valori di lefficienza di SNL come misura di posizione 58% e 70%: in altre parole, usare SNL al posto della media campionaria come misura di posizione, equivale a buttare
133
Purtroppo non sono in grado di giustificare laffermazione di Box.. 301
via dal 30% al 42% dei dati: ricordiamo che i dati costano parecchi soldi alle aziende e non usarli al meglio provoca i costi della disqualit. Tutto questo vale quando sono verificate le ipotesi classiche dellANOVA senza trasformare la Y; se fosse necessaria la trasformazione Z=1/Y, SNL potrebbe essere pi efficiente della media campionaria ma Taguchi non giustifica luso di SNL con la necessit di trasformare i dati. Montgomery riporta che i risultati di altre simulazioni (Schnidt e Boudot) hanno mostrato che SNL completamente inefficiente nellidentificare la dispersione.
11.5.3 THE SMALLER THE BETTER Quando si vuole minimizzare la risposta, Taguchi usa la statistica: n 2 yi SN S = 10 * log 10 i =1 n
anchessa confonde posizione e dispersione, infatti pu essere scritta in funzione della media e varianza campionaria. n 1 2 SN S = 10 * log 10 y 2 + *s n Luso di SNS al posto della media campionaria come misura di posizione, corrisponde a sprecare il 30% dei dati, secondo la simulazione di Box (1988). Montgomery (1991) riporta che delle simulazioni hanno mostrato la completa inefficienza di SNS nel misurare la dispersione. Anche le simulazioni numeriche di Galetto (1995) Actis (1995) e Stephens (1994 e 1996), svolte sia in condizioni di omogeneit della varianza che di non omogeneit, confermano la perdita di potenza dei 3 signal to noise nellindividuazione della posizione delle caratteristiche studiate: non pu essere altrimenti visto che i signal to noise confondono posizione e dispersione dei dati. il problema che abbiamo gi accennato nella stima della loss-function per i vari trattamenti: visto che ci interessa sia la posizione che la dispersione dei dati, qualsiasi funzione che combina le 2 caratteristiche inefficiente perch in essa possono elidersi gli effetti dei fattori significativi. Se proprio si vuole esaminare anche la dispersione (ricordiamo che la sua stima molto pi imprecisa della media), conviene farlo separatamente dalla media. I agree ... that the variance s2 as well as y is important. So lets look at s2 ... and not just at some hard-to-understand mixture of s2 e y 2 (Box 1988).
302
11.6 MIN LOSS FUNCTION = MAX SIGNAL TO NOISE?

Abbiamo visto che Taguchi dice di voler minimizzare una loss-function, poi per nelle applicazioni che ho letto io si massimizza sempre il signal to noise. In Wheeler elencata una serie di esempi in cui la massimizzazione del SN non coincide affatto con la minimizzazione della loss-function. Leon et al. (1987) hanno dimostrato che solo in un caso molto particolare le 2 cose coincidono. Dividiamo linsieme dei fattori in 3 insiemi: d: fattori di controllo che influenzano la dispersione e la media a: fattori di aggiustamento, non influenzano la dispersione ma la media N: fattori di rumore, non influenzano la media Assumiamo un modello moltiplicativo per la funzione di risposta che collega la media al disturbo casuale, abbiamo che: Y = (d, a) * (N, d) E(Y) = (d, a) E( (N, d)) = 1 VAR() = 2(d) Notiamo che il modello rispecchia le assunzioni taguchiane che i fattori di rumore non abbiano influenza sulla media e lesistenza dei fattori di aggiustamento. Assumiamo la loss function quadratica in cui per semplicit supponiamo K = 1: L = K * (Y - T)2 = (Y - T)2 Vogliamo trovare la combinazione (d, a) che minimizza il valore atteso della loss-function R = 2Y(d) + ((a,d) T)2 = R (a,d) Possiamo seguire una procedura di ottimizzazione a 2 stadi: 1. Trovare d* che minimizza P(d) = mina R(d, a) ovvero il luogo dei punti di minimo su a per ogni d, ammesso che esista. 2. Trovare a* che minimizza R(d*, a). P(d) quella che in Leon et al.(1987) viene definita come PERformance Meassure Indipendent of Adjustment (PERMIA) in quanto un indicatore, legato alla dispersione di Y, indipendente dai fattori di aggiustamento a, che rappresenta il luogo dei punti di R (in cui R minimo rispetto ai fattori a) in funzione di d. Possiamo trovare P(d) una volta che conosciamo R, dunque dobbiamo anche conoscere il modello che lega la risposta Y alla media e al disturbo casuale; noi abbiamo supposto che tale modello sia moltiplicativo dunque possiamo trovare VAR (Y):
303

+
VAR (Y ) =
f (Y ) * (Y E (Y ) ) dY
2
ma poich sappiamo che: E(Y) = (d, a) E( (N, d)) = 1 VAR() = 2 (d) e sappiamo che la parte aleatoria di Y sta solo in (N, d) possiamo considerare la densit di e non quella di Y; dunque:
+
VAR(Y ) =
f ( ) * ( * ) d =
2
* 2
Allora il valore atteso della funzione di perdita, per le ipoteesi che abbiamo fatto, : R(d,a) = 2(d, a) * 2(d) + ((d, a) - T)2 Troviamo il luogo dei punti di minimo su a di R(d, a):
(d , a ) R ( d , a ) = 2* * { ( d , a ) * [1 + 2 ( d ) ] T } a a
Ponendo uguale a zero tale derivata abbiamo che:
( d , a * (d )) =
(1 + 2 ( d ) )
Sostituendo in R troviamo la nostra P(d) ovvero, ripeto, il luogo dei punti di minimo (rispetto ad a) di R in funzione di d. P( d ) =
min R(d , a ) =
a
(1 +
T 2 * 2 (d )
2
( d ))
Quindi qualunque trasformazione monotona di P(d) pu essere usata per la procedura di ottimizzazione a 2 stadi. E il rapporto signal-to-noise on target SNT di Taguchi, per le ipotesi fatte, rappresenta proprio una trasformazione monotona decrescente della P(d) trovata: SN = 10 * log10 ( E2(Y) / VAR(Y) ) Ricordando che: E(Y) = VAR(Y) = ( )2
304
SN = - 10 * log10 2 decrescente con P(d) dunque assumendo: 1. 2. 3. 4. una loss function quadratica un modello moltiplicativo l'esistenza di fattori di aggiustamento i fattori di rumore non influenzano la media della risposta
il signal-to-noise di Taguchi rappresenta una PERMIA e pu dunque essere usato nella procedura di ottimizzazione in 2 passi: 1. Trovare la combinazione di fattori d* che massimizza il rapporto SN, 2. Trovare la combinazione dei fattori di aggiustamento a* tale che T ( d * , a * (d ) ) = 1 + 2 (d * )
In realt Taguchi al secondo passo vuole la combinazione di a tale che (d, a) = T; ci pu essere giustificato se poniamo il vincolo (d, a) = T nel problema di ottimizzazione. Leon, Shoemaker e Kacker (1987) hanno quindi fornito una base teorica alle procedure sperimentali di Taguchi, ma sotto assunzioni abbastanza restrittive, come ricordano gli stessi autori che sottolineano il fatto che, se il modello non moltiplicativo il SN pu condurre molto lontani dall'ottimo: ...blanket use of the SN ratio in static problems, as Taguchi and Phadke seem to have advocated, could lead to far from optimal design-parameter settings. In particolare se il modello additivo (che probabilmente pi comune di quello moltiplicativo) facile vedere, ripercorrendo il ragionamento di prima, che:
P(d) = 2(d)
e che il rapporto SNT: SNT = 10 * log10 ( 2(d, a) / 2(d)) non pi indipendente dai fattori di aggiustamento a. I 3 autori si mostrano molto critici verso le procedure preconfezionate di Taguchi, sostenendo la superiorit dell'approccio dei -plots di Box per i problemi di parameter design.
305
11.7 TAGUCHI E LE INTERAZIONI

Taguchis main motivation for ignoring interactions between control factors appears to be economy of experimental effort rather than any assurance that it is safe to do so. Economy measures are forced by the inefficiency of his crossed array experimental design. (Sacks e Welch, in Nair 1992) Nel par. 11.4 ho spiegato come costruisce i suoi piani sperimentali, con le outer e inner array; pensiamo a una situazione comune che potremmo incontrare: 4 fattori di controllo a 2 livelli e 3 fattori di rumore a 2 livelli. Se si volesse fare il piano completo ci vorrebbero 24*23 = 128 diverse combinazioni sperimentali; visto che egli deve frazionare indipendentemente louter e la inner array, non pu applicare le tecniche di planned confounding in cui si riesce a non confondere gli effetti che sono ritenuti importanti. Dato che louter array non pu essere frazionata pi di tanto (al massimo un taglio se no non si pu studiare la variabilit indotta dal rumore) bisogna frazionare drasticamente louter array: alla fine si possono stimare solo i fattori (aliased, ma Taguchi, pur sapendolo, non lo mette in evidenza) se non si vuole avere un numero proibitivo di condizioni sperimentali. In questa situazione bisogna per forza inventarsi qualche motivo per togliere di mezzo le interazioni. Quindi Taguchi non un incompetente che crede che le interazioni e gli alias non esistano, come viene a volte dipinto; semplicemente costretto a trascurarle per il modo con cui pianifica gli esperimenti di robust design. Chi dice che Taguchi nega lesistenza delle interazioni pu leggere il suo libro (1987) a pag.171 dove dice: ...for various reasons additivity fails; that is, interaction exist. Taguchi altres perfettamente consapevole dei problemi legati al confounding When only the main effects are estimated using orthogonal arrays, these effects may be confounded by many interactions. Per evita di parlare troppo di alias perch altrimenti i suoi fans entusiasti inizierebbero a preoccuparsi e a capire che un po difficile conoscere tanto facendo poche prove. Taguchi alla fine dei sui esperimenti propone il confirmation experiment per verificare se i risultati previsti con la combinazione ottima trovata trascurando le interazioni sono confermati da una (!!!) prova134. Se le previsioni non sono confermate allora vuol dire che cera qualche interazione forte ma non avendo esplicitato la struttura degli alias, non si pu assolutamente sapere qual ; ecco perch Taguchi costretto a dire when there is interaction, it is because insufficient research has been done on the characteristic values. Taguchi pensa infatti che esista sempre una variabile legata alla caratteristica della Qualit che possiede la propriet di monotonicit (additivit ovvero
E se la conferma avviene per caso? Il confirmation experiment molto criticato in letteratura (ad esempio Wheeler 1988). 306
134
assenza di interazioni). Questo pu essere vero o falso: ammettiamo che sia vero. Mi vengono in mente due domande: Bisogna rifare lesperimento e sostenere i relativi costi (della disqualit) fino a che non si trova la variabile che presenta assenza di interazioni? Se uno interessato in una certa caratteristica Y della Qualit e deve usare unaltra variabile Y, come fa a sapere se le conclusioni fatte su Y rimangono valide per Y? Tutte queste complicazioni solo perch a priori non si vogliono studiare le interazioni. Forse meglio pensarci 2 volte prima di abbandonare le solide tecniche statistiche occidentali... Taguchi vuole dunque minimizzare le interazioni e per far questo suggerisce di: 1. Scegliere variabili di risposta monotoniche e continue: per individuarle bisogna pensare a qual il meccanismo attraverso il quale avviene un trasferimento di energia (Phadke e S.Taguchi in Nair 1992) 2. Scegliere i livelli dei fattori in modo da attenuare le interazioni Il motivo principale che Taguchi adduce nel voler minimizzare le interazioni il seguente (Taguchi 1987, pag.149): se in laboratorio si trovano forti interazioni vuol dire che la variabile di risposta Y tende ad essere influenzata dalle interazioni e quindi se si trovasse lottimo tenendo conto delle interazioni, questo ottimo non sarebbe pi tale nelle condizioni di produzione e di utilizzo (downstream conditions) perch i fattori controllati in la laboratorio interagirebbero con i fattori ambientali modificando cos la condizione ottimale. Questo motivo non mi sembra del tutto irragionevole se lobiettivo dellesperimento estendere i risultati trovati in laboratorio su larga scala. Per resta il problema che se a me interessa una certa caratteristica Y, se la devo sostituire con Y dovrei conoscere la relazione matematica fra Y e Y. Inoltre anche se in laboratorio analizzo una caratteristica monotonica, chi mi dice che nelle condizioni di utilizzo tale caratteristica resta monotonica? Purtroppo negli articoli non ho mai visto delle discussioni su questo punto fondamentale che Taguchi richiama sempre, ovvero la reproducibility of design optimization ... from laboratory to manufacturing and eventually to the field (Taguchi 1996). Taguchi che una persona competente, pu avere i suoi motivi, giusti, sbagliati o di comodo, per minimizzare le interazioni negli esperimenti, ma almeno sa che esistono; il problema che, trascurandole, induce i suoi seguaci a credere che le interazioni non esistano. Some rabid disciples also go so far to deny the existence of interactions, arguing that they do not exist in the real world. Such blind partisanship by zealots is regrettable.(John 1990).
307
11.7.1 3 TIPI DI INTERAZIONE Consideriamo che ci sono 3 tipi di interazione:
1. fra fattori di controllo (C*C), 2. fra fattori di rumore (N*N), 3. fra fattori di controllo e rumore (C*N), Le ultime (C*N) sono assolutamente necessarie nel parameter design affinch esistano dei livelli dei fattori di controllo per cui la risposta meno sensibile ai fattori di rumore: anche Phadke e S.Taguchi lo dicono chiaramente (interactions C*N are used to reduce variability) nella panel discussion sul parameter design organizzata da Nair su Technometrics nel 1992. Le interazioni N*N non servono per la robustezza e quindi possono essere considerate nellerrore sperimentale; e le interazioni C*C ? Il commento di Phadke in Nair (1992), a mio parere, sfiora il ridicolo; allinizio Phadke la mette sul filosofico: Taguchis robust design method addresses the problem of interaction among control factors in a way that is philosophically different from the classical approach to experimental design. Presence of large C*C interactions is considered highly undesirable for several reasons. Poi si mette a spiegare perch vuole minimizzare le interazioni C*C ma le ragioni che adduce hanno ben poco di filosofico essendo invece dettate dal tentativo di ridurre i costi dellesperimento. Ecco cosa dice: ... presence of interactions implies that a much large number of experiments would be needed to study the same number of control factors. Come a dire: non studiamo le interazioni se no dovremmo fare molte prove in pi. ...the presence of of large C*C interaction makes it difficult to divide the task of designing a complex product ... This is highly undesirable for shortening the development interval and for improving R&D productivity. Ovvero: non studiamo le interazioni se no molto pi difficile progettare un prodotto complesso e si allungano i tempi di sviluppo. I motivi per tralasciare le interazioni addotti da Phadke sono quindi essenzialmente di carattere economico e commerciale: esse non hanno niente a che vedere con la filosofia o col pensiero scientifico. Questa anche la ragione per cui molti manager della Qualit sono entusiasti dei metodi Taguchi: fanno crede di risparmiare prove, accorciare i tempi di sviluppo del prodotto, inoltre forniscono piani e metodi di analisi preconfezionati buoni per ogni situazione: essi soddisfano molto il cliente (azienda che li usa) che crede di risparmiare soldi e lutente (manager della Qualit) che non deve pensare troppo ma soddisfano le loro esigenze ? No perch lazienda e la sua funzione Qualit hanno bisogno di metodi scientifici che riescano a stimare adeguatamente la realt: un qualsiasi metodo che trascura le interazioni solo per ragioni di comodo non tale. La cosa pi ridicola che quando la risposta effettivamente monotonica, ad esempio con 2 fattori di controllo X1 e X2 e un fattore di rumore Z:
308
Y = X1 + X2 + Z sono proprio i signal to noise ad introdurre le interazioni fra X1 e X2. Lorenzen in Nair (1992) fa notare che i taguchiani stessi affermano limportanza delle interazioni fra i fattori di controllo CF e quelli di rumore NF mentre trascurano quelle fra fattori di controllo; ma la differenza fra i CF e NF non ha alcun significato fisico, dipende solo dal fatto che un fattore possa essere controllato facilmente o no: allora sar avvertire i fattori di non interagire fra di loro quando in un esperimento taguchiano siano stati definiti control factors, mentre essi potranno interagire quando uno sia stato definito control factor e laltro noise factor.....non assurdo tutto ci?..... Do C*C interaction exist? (Phadke in Nair 1992) : alla sconcertante domanda di Phadke si pu rispondere esaurientemente con un racconto di Lorenzen (in Nair 1992): ...an engineer modeled expensive computer runs following a course offered by ASI....I heard this presentation and talked him into running a higher resolution design requiring the same number of runs. The best point from this model also confirmed, with a 30% improvement!
End of claim and an engineer who now believes in interactions
11.8 CONCLUSIONI
I believe that Taguchis engineering ideas are important... but it would be foolish to learn the details of many of the statistical methods that he has proposed (Box in Kacker 1985) Taguchi propone altri metodi che ha inventato come laccumulation analyisis o la minute laccumulation analyisis che Wu, in Nair (1992), giudica unnecessarily complicated and often invalid. I linear graphs per costruire le matrici ortogonali, ma come dice Box (in Nair 1992), gi per 16 combinazioni sperimentali, the graphs are complicated and even in their authors hands can produce designs that are demonstrably inferior I beta coefficients rappresentano un altra invenzione taguchiana, destinata secondo lingegnere giapponese (1987, pag.560) a sostituire la teoria dei test dipotesi di Neymann-Pearson: Whether Taguchis prophesy will be fulfilled, we will have to wait and see(Bisgaard 1989). Dagli articoli che ho letto mi pare che la comunit statistica mondiale (Box, Bisgaard, Nelder, Lucas, Hunter J.S., John P.W.M., Lorenzen, Myers, Montogomery, Wheeler, Nair, Miller, Shoemaker, Stephens, Wu C.F.......), pur riconoscendo i contributi di Taguchi:
309
propaganda dellimportanza della sperimentazione uso del DOE per rendere prodotti e processi robusti alle condizioni ambientali critica decisamente i metodi statistici con cui Taguchi supporta le sue idee: gli statistici hanno dimostrato linefficienza e gli errori concettuali dei metodi Taguchi e una parte di questi errori stata presentata in questo capitolo. Daltronde lo stesso Taguchi (1987, pag120) dichiara che per promuovere lefficienza nellattivit di ricerca, bisogna valutare i metodi con cui si intende raggiungere gli obiettivi: ebbene i suoi metodi sono stati valutati... Eppure molti utilizzatori (che probabilmente si sono avvicinati solo recentemente al DOE) dei metodi Taguchi continuano a dire they work e pubblicano dei casi in cui il parameter design ha fatto risparmiare un sacco di soldi; ammettiamo che essi siano in buona fede: il merito non dei metodi Taguchi ma merito proprio dellattivit sperimentale, che quello di evidenziare comunque determinati meccanismi di causalit e/o di associazione di effetti(Levi 1991). Non dimentichiamo infatti che nellindustria si sono sempre usati gli inefficienti piani OFAT (un fattore alla volta): solo il fatto di usare i piani fattoriali, anche se nel modo taguchiano inefficiente, produce risultati migliori dei piani OFAT. ...the factorial design is so powerful that even when it is used inefficiently, it will work better than almost anything else.(Montogmery 1991). Chiudo il capitolo con i commenti molto significativi di 2 studiosi italiani di DOE, che hanno studiato i metodi Taguchi da quando sono apparsi sulla scena, rendendosi subito conto degli enormi rischi connessi a un loro cieco utilizzo: Non pu che rammaricare il fatto che lautore abbia scelto di ignorare, o di utilizzare malamente, quanto noto grazie ad unintensa e fruttuosa attivit di ricerca svolta in Occidente(Levi 1991). ...la critica pi pesante va rivolta senzaltro allapproccio metodologico: i metodi Taguchi non si fondano su alcuna base scientifica; sovente, infatti, nei libri non viene fornita alcuna giustificazione di quello che viene detto o fatto... (Galetto 1995).
310
BIBLIOGRAFIA
ACTIS E. (1995), DOE: Analisi comparativa di piani frazionati, Tesi di laurea, Politecnico di Torino. ADDELMAN S. (1972), Recent Developments in the Design of Factorial Experiments, Journal of the American Statistical Association, 67, 103-111. ALLEN L.E. (1985), Multiple regression and the analysis of covariance, Freeman & Co., New York. BARRANTINE L.B. (1996), Illustration of confounding in Plackett-Burman Designs, Quality Engineering, 9, 11-20. BISGAARD S. (1989), Review of Taguchi, Technometrics, 31, 257-260. BISGAARD S. (1993), A Method for Identifying Defining Contrasts for 2k-p Experiments, Journal of Quality Technology, 25, 28-35. BOX G.E.P. (1966), Use and Abuse of Regression, Technometrics, 10. BOX G.E.P. (1976), Science and Statistics, Journal of the American Statistical Association, 71, 791-799. BOX G.E.P. (1984), The importance of Practice in the Development of Statistics, Technometrics, 26, 1-8. BOX G.E.P. (1988), Signal to Noise Ratios, Performance Criteria, and Transformations, Technometrics, 30, 1-17. BOX G.E.P., HUNTER W.G, HUNTER J.S. (1978), Statistics for experimenters, J. Wiley, New York. BOX G.E.P., MEYER R.D. (1993), Finding the Active Factors in Fractional Screening Experiments, Journal of Quality Technology, 25, 94-105. BYRNE D.M., TAGUCHI S. (1987), The Taguchi approach to Parameter Design, Quality Progress, 20, 19-26. CROSBY P.B. (1986), La Qualit facile, Mc Graw-Hill, New York. DANIEL C. (1976), Applications of Statistics to Industrial Experimentation, J. Wiley, New York DE RISI P. (1996), Progettare in Qualit, Il Sole 24 Ore, Milano. DEMING W.E. (1986), Out of the crisis, MIT CAES, Cambridge. DIAMOND W.J. (1981), Practical Experimental Designs, Wadsworth, Belmont.
311
DRAPER N.R., SMITH H. (1966), Applied Regression Analysis, J. Wiley, New York. ERTO P. (1995), La Qualit Totale in cui credo, Tessere, Napoli. FEIGENBAUM A.V. (1991), Total Quality Control, III edizione revisionata, Mc GrawHill, New York. FONTANA R. (1995), Teoria e algoritmi per la generazione di piani fattoriali frazionari, Tesi di dottorato, Politecnico di Torino. FORNASIERI S. (1995), DOE: Piani di prova frazionati non ortogonali. Considerazioni teoriche e pratiche, Tesi di laurea, Politecnico di Torino. FREUND R.A. (1974), Contrast Analysis of Experiments, Journal of Quality Technology, 6, 2-21. FREUND R.J. (1980), The Case of Missing Cell, The American Statistician, 34, 94-98. GALETTO F. (1981), Affidabilit, vol.1, CLEUP, Padova. GALETTO F. (1982), Affidabilit, vol.2, CLEUP, Padova. GALETTO F. (1987), Quality and Reliability: the Iveco way, The International Management Development Review. GALETTO F. (1988), Quality and Reliability, a must for the industry. Basic ideas for the development cycle, ISATA, Monte Carlo. GALETTO F. (1989a), Qualit dei metodi: il metodo G meglio dei metodi Taguchi, ATA, 42, 202-209. GALETTO F. (1989b), Elementi strategici per la qualit, ATA, 42, 415-425. GALETTO F. (1989c), Quality of Methods for Quality is Important, EOQC Conference, Vienna. GALETTO F. (1995), Qualit: alcuni Metodi Statistici da Manager, I edizione CUSL, Torino. GALETTO F. (1996), Qualit: alcuni Metodi Statistici da Manager, II edizione, CUSL, Torino. GALGANO A. (1990), La Qualit Totale, Il Sole 24 Ore, Milano. GUNST R.F., MASON R.L., WEBSTER J.T. (1976), A Comparison of Least Squares and Latent Root Regression Estimators, Technometrics, 18, 75-83. HAHN G.J. (1977), Some Things Engineers Should Know About Experimental Design, Journal of Quality Technology, 9, 13-20. HAHN G.J. (1984), Experimental design in the complex World, Technometrics, 26, 1931. HAHN G.J., MEEKER W.Q., FEDER P.I. (1976), The Evaluation and Comparison of Experimental Designs for Fitting Regression Relationships, Journal of Quality Technology, 8, 140-157. HAHN G.J., MEEKER W.Q., FEDER P.I. (1978a), Evaluating the Effect of Incorrect Specification of a Regression Model, part 1, Journal of Quality Technology, 10, 6172.
312
HAHN G.J., MEEKER W.Q., FEDER P.I. (1978b), Evaluating the Effect of Incorrect Specification of a Regression Model, part 2, Journal of Quality Technology, 10, 9398. HAMADA M., WU C.F.J. (1992), Analysis of Designed Experiments with Complex Aliasing, Journal of Quality Technology, 24, 130-137. HOCKING R.R., SPEED F.M. (1975), A Full Rank Analysis of Some Linear Model Problems, Journal of the American Statistical Association, 70, 706-712. HOERL A.E., KENNARD R.W. (1970), Ridge Regression: Biased Estimation for Nonortogonal Problems, Technometrics, 12, 55-67. HUNTER J.S. (1985), Statistical Design Applied to Product Design, Journal of Quality Technology, 17, 210-221. HUNTER J.S. (1988), Design and Analysis of experiments, Section 26 del Jurans Quality Control Handbook, Mc Graw-Hill, New York. JENNINGS E., WARD J.H. (1982), Hypothesis Identification in the case of the Missing Cell, The American Statistician, 36, 25-27. JOHN P.W.M. (1966), Augmenting 2n-1 designs, Technometrics, 10, 291-300. JOHN P.W.M. (1969), Some non-orthogonal fractions of 2n designs, Journal of the Royal Statistical Society, B, 31, 270-275. JOHN P.W.M. (1979), Missing points in 2n and 2n-k Factorial Designs, Technometrics, 21, 225-228. JOHN P.W.M. (1990), Statistical methods in Engineering and Quality Assurance, J. Wiley, New York JURAN J.M. (1988), Jurans Quality Control Handbook, Mc Graw-Hill, New York. JURAN J.M. (1995), A History of Managing for Quality, Quality progress, 28, 125-129. KACKER R.N. (1985), Off-line Quality Control, Parameter Design, and the Taguchi Method, Journal of Quality Technology, 17, 176-190 (con commento di BOX G.E.P.). KHURI A.I., CORNELL J.A. (1987), Response Surface Methodology, M. Dekker, New York. KRISHNAIAH P.R. (1980), Analysis of Variance, North Holland Publishing Company, Amsterdam. LEON R.V., SHOEMAKER A.C., KACKER R.N. (1987), Performance Measures Indipendent of Adjustment, Technometrics, 29, 253-265. LEVI R. (1991), Piani sperimentali e metodi Taguchi: luci e ombre, ATA, 44, 777-781. LIN D.K.J., DRAPER N.R. (1992), Projection Properties of Plackett and Burman Designs, Technometrics, 34, 423-428. LITTLE R.J.A. (1982), Direct Standardization: A Tool for Teaching Linear Models for Unbalanced Data, The American Statistician, 36, 38-43. LORENZEN T.J., ANDERSON V.L. (1993), Design of experiments: a no-name approach, M. Dekker, New York.
313
MARGOLIN B.H. (1969), Resolution IV Fractional Factorial Designs, Journal of the Royal Statistical Society, B, 31, 514-523. MARGOLIN B.H. (1972), Non orthogonal Main-effect Designs for Asymmetrical Factorial Experiments, Journal of the Royal Statistical Society, B, 34, 431-440. MARQUARDT D.W. (1970), Generalized Inverses, Ridge Regression, Biased Linear Estimation and nonlinear Estimation, Technometrics, 12, 591-612. MASON R.L, GUNST R.F., HESS J.L. (1989), Statistical Design & Analysis of experiments, J. Wiley, New York. MATTANA G.U. (1994), Qualit, Affidabilit, Certificazione, F. Angeli, Milano. MILLER I., FREUND J.E., JOHNSON R.A. (1990), Probability and Statistics for Engineers, Prentice Hall, Englewood Cliffs. MILLER A., WU C.F.J. (1996), Commentary on Taguchi Parameter Design with Dynamic Characteristics, Quality and Reliability Engineering International, 12, 7477. MONTGOMERY D.C. (1991), Design and Analysis of Experiments, Wiley, New York. MOOD A.M., GRAYBILL F.A. (1963), Introduction to the Theory of Statistics, Mc GrawHill, New York. NAIR V.N. (1992), Taguchi Parameter Design: A Panel Discussion, Technometrics, 34, 127-161. NELDER J.A. (1974), Letter to editor, Journal of the Royal Statistical Society, C, 23, 232. NGUYEN N.K. (1996), A Note on the Construction of Near-Orthogonal Arrays With Mixed Levels and Economic Run Size, Technometrics, 38, 279-283. NOGUCHI J. (1995), The legacy of W. Edwards Deming, Quality Progress, 28, 35-37. PISTONE G., WYNN H.P. (1995), Generalized confounding with Grobner bases, Biometrika, 73. PLACKETT R.L., BURMAN J.P. (1946), The Design of Optimum Multifactorial Experiments, Biometrika, 33, 305-325. RASMUSEN E. (1993), Teoria dei giochi e informazione, Hoepli, Milano. RUELLE D. (1992), Caso e caos, Bollati Borlinghieri, Torino. SCHEFFE H. (1959), The Analysis of Variance, Wiley, New York. SCHILLING E.G. (1974), The Relationship of Analysis of Variance to Regression. Part II: Unbalanced Designs, Journal of Quality Technology, 6, 146-153. SEARLE S.R. (1971), Linear models, Wiley, New York. SEARLE S.R. (1987), Linear models for unbalanced data, Wiley, New York. SEARLE S.R., SPEED F.M., HENDERSON H.V. (1981), Some Computational and Model Equivalencies in Analyses of Variance of Unequal-Subclass-Number Data, The American Statistician, 35, 16-33. SENTURIA J. (1989), Review of Taguchi, Technometrics, 31, 256-257. SHEWART W.A. (1931), Economic Control of Quality of Manufactured Products, D. Van Nostrand Company, New York.
314
SNEE R.D. (1973), Some Aspects of Nonorthogonal Datya Analysis. Part I: Developing Prediction Equations, Journal of Quality Technology, 5, 67-79. SNEE R.D. (1973), Some Aspects of Nonorthogonal Datya Analysis. Part II: Comparison of Means, Journal of Quality Technology, 5, 109-122. SPEED F.M., HOCKING R.R., HACNEY O.P. (1978), Methods of Analysis of Linear Models with Unbalanced Data, Journal of the American Statistical Association, 73, 105-112. STEINBERG D.M., HUNTER W.G. (1984), Experimental Design: Review and Comment, Technometrics, 26, 71-97. STEPHENS M.P. (1994), A Comparison of Robustness of Taguchis Methods with Classical ANOVA Under Conditions of Homogeneous Variances, Quality Engineering, 7, 147-167. STEPHENS M.P. (1996), Effects of Heterogeneity of Variance on the Analysis of Designed Experiments: A Comparison of Robustness of Classical ANOVA with the use of S/N Ratios, Quality Engineering, 8, 411-417. TAGUCHI G. (1987), System of Experimental Design, Unipub Kraus, White Plains. TAGUCHI G. (1996), The role of DOE for Robust Engineering: a commentary, Quality and Reliability Engineering International, 12, 73-74. URQUHART N.S., WEEKS D.L. (1978), Linear Models in Messy Data: Some Problems and Alternatives, Biometrics, 34, 696-705. VICARIO G. (1993), Fondamenti teorici del DOE, Tutorial DEINDE, Torino. WANG J.C. (1993), Sense and nonsense in statistical inference, M. Dekker, New York. WEBB S.R. (1971), Small incomplete factorial designs for two and three level factors, Technometrics, 13, 243-256. WHEELER D.J. (1988), Understanding Industrial Experimentation, Statistical Process Control Inc., Knoxville. WHEELER D.J., CHAMBERS D.S. (1990), Understanding Statistical Process Control, Addison-Wesley, Workingham. ZYSKIND G., MARTIN F.B. (1969), On best linear estimation and a general GaussMarkov theorem in linear models with arbitrary nonnegative covariance structure, SIAM Journal of Applied Mathematics, 17, 1190-1202.
315

I Metodi Per La Qualitá Il D.O.E.

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

I Metodi Per La Qualitá Il D.O.E.

Caricato da

Copyright:

Formati disponibili

Politecnico di Torino

I METODI PER LA QUALIT: IL D.O.E.

RELATORI Fausto Galetto Raffaello Levi CANDIDATO Francesco Sagliocco

IL PROBLEMA DELLA QUALIT

1.1 PERCH OGGI SI PARLA DI QUALIT ?

1.2 DEFINIZIONE DI QUALIT

SICUREZZA PRESTAZIONI SERVICE

Figura 1: il tetraedro della Qualit (Galetto 1989b)

1.3 IL CLIENTE OVVERO IL GIUDICE DELLA QUALITA'

Fornitori di materiali e macchinari

Accettazione e controllo dei materiali

Produzione, assemblaggio, ispezione

Controllo dei processi, macchine, metodi, costi

1.4 MAKE IT RIGHT THE FIRST TIME: LA PREVENZIONE

1.5 FMECA E AFFIDABILIT

1.6 LE PERSONE E LA CULTURA VALGONO PI DELLA TECNOLOGIA

1.7 IL RUOLO DELLUPPER MANAGEMENT

1.8 LA QUALIT: UNA SCELTA CONVENIENTE

Crei sempre pi lavoro

Conquisti il mercato con Qualit migliore e un prezzo pi basso

1.9 LA QUALIT DELLINSEGNAMENTO

LAPPROCCIO SCIENTIFICO ALLA QUALIT

QUALIT TOTALE E CERTIFICAZIONE? MEGLIO LA QUALIT

2 - LApproccio Scientifico alla Qualit

2.2 APPROCCIO SCIENTIFICO

2 - LApproccio Scientifico alla Qualit

Figura 3: il circolo vizioso della disqualit

2 - LApproccio Scientifico alla Qualit

2.3 LA PROFOUND KNOWLEDGE

2 - LApproccio Scientifico alla Qualit

Pezzo buono Limiti delle specifiche

Figura 4: conformit alle specifiche

2 - LApproccio Scientifico alla Qualit

2 - LApproccio Scientifico alla Qualit

In Wheeler et al.(1990) viene anche chiamata natural tolerance. 21

2 - LApproccio Scientifico alla Qualit

2.4 I METODI PER LA QUALITA'

2 - LApproccio Scientifico alla Qualit

2.5 MBITE O MBO?

2 - LApproccio Scientifico alla Qualit

2.6 L'IMPORTANZA DELLE DEFINIZIONI NELL'APPROCCIO SCIENTIFICO

2 - LApproccio Scientifico alla Qualit

2.7 PERCHE' NON USARE GLI STIMATORI CORRETTI?

2 - LApproccio Scientifico alla Qualit

Se non vuole rischiare la reputazione dellazienda. 26

2 - LApproccio Scientifico alla Qualit

2.8 UN P DI DISQUALIT TOTALE

2 - LApproccio Scientifico alla Qualit

2 - LApproccio Scientifico alla Qualit

2 - LApproccio Scientifico alla Qualit

3.1 STORIA DEL DOE

2 - LApproccio Scientifico alla Qualit

2 - LApproccio Scientifico alla Qualit

3.2 TERMINOLOGIA DOE

2 - LApproccio Scientifico alla Qualit

3.3 I 3 PRINCIPI DI FISHER

La dimostrazione di tale affermazione in Box et al. (1978). 33

2 - LApproccio Scientifico alla Qualit

A volte tale modello pu risultare inadeguato. Fino a un certo punto. 34

2 - LApproccio Scientifico alla Qualit

3.4 PRINCIPALI FAMIGLIE DI PIANI SPERIMENTALI

2 - LApproccio Scientifico alla Qualit

3.5 GLI OBIETTIVI DELLA SPERIMENTAZIONE

k 2 C2 SS (C ') = = SS (C ) n ci2 2 k i =1 ni