Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
FACOLT DI INGEGNERIA
TESI DI LAUREA
FRANCESCO SAGLIOCCO
POLITECNICO DI TORINO
Facolt di Ingegneria Corso di Laurea in Ingegneria Gestionale
TESI DI LAUREA
Febbraio 1997
ii
Indice
INDICE
CAPITOLO 1. IL PROBLEMA DELLA QUALIT ...................................................................................... 6 1.1 PERCH OGGI SI PARLA DI QUALIT ?.......................................................................................... 6 1.2 DEFINIZIONE DI QUALIT ................................................................................................................ 8 1.3 IL CLIENTE OVVERO IL GIUDICE DELLA QUALITA'................................................................. 11 1.4 MAKE IT RIGHT THE FIRST TIME: LA PREVENZIONE........................................................... 12 1.5 FMECA E AFFIDABILIT.................................................................................................................. 13 1.6 LE PERSONE E LA CULTURA VALGONO PI DELLA TECNOLOGIA ..................................... 15 1.7 IL RUOLO DELLUPPER MANAGEMENT ...................................................................................... 16 1.8 LA QUALIT: UNA SCELTA CONVENIENTE ............................................................................... 17 1.9 LA QUALIT DELLINSEGNAMENTO ........................................................................................... 18 CAPITOLO 2. LAPPROCCIO SCIENTIFICO ALLA QUALIT.............................................................. 14 2.1 QUALIT TOTALE E CERTIFICAZIONE? MEGLIO LA QUALIT............................................. 14 2.2 APPROCCIO SCIENTIFICO ............................................................................................................... 16 2.3 LA PROFOUND KNOWLEDGE......................................................................................................... 18 2.4 I METODI PER LA QUALITA' ........................................................................................................... 22 2.5 MBITE O MBO? ................................................................................................................................... 23 2.6 L'IMPORTANZA DELLE DEFINIZIONI NELL'APPROCCIO SCIENTIFICO................................ 24 2.7 PERCHE' NON USARE GLI STIMATORI CORRETTI? ................................................................... 25 2.8 UN P DI DISQUALIT TOTALE .................................................................................................... 27 2.9 CONCLUSIONI .................................................................................................................................... 29 CAPITOLO 3. DESIGN OF EXPERIMENTS .............................................................................................. 30 3.1 STORIA DEL DOE............................................................................................................................... 30 3.2 TERMINOLOGIA DOE ....................................................................................................................... 32 3.3 I 3 PRINCIPI DI FISHER ..................................................................................................................... 33 3.4 PRINCIPALI FAMIGLIE DI PIANI SPERIMENTALI....................................................................... 35 3.5 GLI OBIETTIVI DELLA SPERIMENTAZIONE................................................................................ 36 3.6 IL DOE NELLA PRATICA .................................................................................................................. 38 3.7 METODI DI ANALISI.......................................................................................................................... 39 3.7.1 REGRESSIONE LINEARE ........................................................................................................... 39 3.7.2 ANOVA.......................................................................................................................................... 41 3.7.3 ANCON .......................................................................................................................................... 45 3.7.4 ANCOV .......................................................................................................................................... 46 3.7.5 TRASFORMAZIONI DI VARIABILI .......................................................................................... 46 3.8 APPROCCIO SCIENTIFICO NELLA SPERIMENTAZIONE............................................................ 47 CAPITOLO 4. PIANI FATTORIALI ORTOGONALI COMPLETI E FRAZIONATI ................................ 50 4.1 PIANI FATTORIALI 2n ........................................................................................................................ 50 4.2 I CONTRAST........................................................................................................................................ 55 4.3 COLLEGAMENTO FRA ANOVA E ANCON.................................................................................... 59 4.4 TABELLA DEI SEGNI E MATRICI DI HADAMARD...................................................................... 63 4.5 METODO DI YATES ........................................................................................................................... 64 4.5.1 ALGORITMO INVERSO DI YATES ........................................................................................... 67 4.6 PIANI FRAZIONATI 2n-p ..................................................................................................................... 69 4.6.1 UN SOLO TAGLIO: PIANI 2n-1 .................................................................................................... 69 4.6.2 CLASSE DI EQUIVALENZA....................................................................................................... 71 4.6.3 PI TAGLI: PIANI 2n-p .................................................................................................................. 72 4.6.4 TABELLA DEI SEGNI.................................................................................................................. 73 4.6.5 RISOLUZIONE DEI PIANI RIDOTTI.......................................................................................... 74 4.7 ATTENZIONE AI FRAZIONAMENTI ............................................................................................... 75 4.8 EFFETTI E ALIAS: DEFINIAMOLI UN P MEGLIO ...................................................................... 78 4.9 FATTORI QUANTITATIVI E QUALITATIVI A PI DI 2 LIVELLI............................................... 81 CAPITOLO 5. PIANI FATTORIALI NON ORTOGONALI........................................................................ 83 5.1 ORTOGONALIT: CHE CONFUSIONE! .......................................................................................... 83 5.2 DIVERSE RIPETIZIONI PER OGNI STATO DI PROVA ................................................................. 86 5.2.1 ANOVA.......................................................................................................................................... 92 iii
Indice 5.2.2 UN ALTRO ESEMPIO CON 3 FATTORI .................................................................................... 96 5.3 PIANI DI PLACKETT-BURMAN ....................................................................................................... 99 5.3.1 PIANI NON GEOMETRICI PB................................................................................................... 101 5.4 I 3/4 DI JOHN ..................................................................................................................................... 103 5.4.1 PIANO A 6 STATI DI WEBB ..................................................................................................... 106 5.5 ESTENSIONE AI 3/4 DI JOHN ......................................................................................................... 108 5.5.1 ALTRE FRAZIONI: 3/8............................................................................................................... 108 5.5.2 ALTRE FRAZIONI: 5/8............................................................................................................... 109 5.5.3 ALTRE FRAZIONI: 7/8............................................................................................................... 111 5.5.4 CONCLUSIONI ........................................................................................................................... 113 CAPITOLO 6. ANALISI DELLA COVARIANZA E INTERPRETAZIONE GRAFICA DEI PIANI FATTORIALI................................................................................................................................................ 114 6.1 ANCOV: A COSA SERVE? ............................................................................................................... 114 6.2 INTEPRETAZIONE GRAFICA DEGLI EFFETTI DEI FATTORI E INTERAZIONI .................... 115 6.2.1 EFFETTI MEDI E MARGINALI DEI FATTORI....................................................................... 116 6.2.2 LIMPORTANZA DELLE INTERAZIONI ................................................................................ 118 6.3 ESEMPIO MACCHINA - OPERATORE........................................................................................... 120 6.3.1 CRITICHE ALLANALISI DELLA COVARIANZA CHE NON USA MODELLI NON GERARCHICI....................................................................................................................................... 125 6.4 MODELLI NON GERARCHICI ........................................................................................................ 126 CAPITOLO 7. METODO G: MODELLO SOVRAPARAMETRIZZATO ................................................ 131 7.1 METODO G ........................................................................................................................................ 131 7.2 TEOREMA DI GAUSS-MARKOV.................................................................................................... 133 7.2.1 OSSERVAZIONI ......................................................................................................................... 137 7.3 MODELLO SOVRAPARAMETRIZZATO: FUNZIONI STIMABILI ............................................. 139 7.3.1 FUNZIONI STIMABILI .............................................................................................................. 140 7.3.2 ESEMPIO MACCHINA-OPERATORE...................................................................................... 143 7.4 MODELLO SOVRAPARAMETRIZZATO: PROCEDURA DI GALETTO (1995)......................... 150 7.4.1 TEOREMA DI COCHRAN ......................................................................................................... 155 7.4.2 METODO DI GALETTO IN LETTERAURA ............................................................................ 156 7.4.3 MODELLI NON GERARCHICI ................................................................................................. 157 7.4.4 ESEMPIO CON 3 FATTORI ....................................................................................................... 159 7.5 MODELLO SOVRAPARAMETRIZZATO RIPARAMETRIZZATO .............................................. 164 7.6 MODELLO SOVRAPARAMETRIZZATO: GLI ALIAS.................................................................. 167 7.7 CONCLUSIONI .................................................................................................................................. 169 CAPITOLO 8. METODO G: MODELLI FULL-RANK ............................................................................. 172 8.1 MODELLO CELL MEANS................................................................................................................ 172 8.1.1 CELL MEANS: GLI ALIAS........................................................................................................ 175 8.2 MODELLO FULL-REGRESSION (FR) ............................................................................................ 177 8.2.1 ESEMPIO MACCHINA - OPERATORE.................................................................................... 180 8.2.2 MODELLI RIDOTTI ................................................................................................................... 183 8.2.3 ANALISI ORTOGONALE: A PRIORI ORDERING .............................................................. 188 8.3 ESEMPIO A 3 FATTORI ................................................................................................................... 189 8.3.1 QUANTI MODI CI SONO PER CALCOLARE LEFFETTO DI A?......................................... 193 8.4 METODO DI BOX-WILSON (1951) ................................................................................................. 194 8.4.1 MODELLI RIDOTTI COL PIANO COMPLETO....................................................................... 198 8.5 METODO DI BOX-WILSON APPLICATO A PIANI RIDOTTI IRREGOLARI ............................ 201 8.5.1 PIANI NON GEOMETRICI DI PLACKETT-BURMAN ........................................................... 202 8.5.2 FRAZIONI IRREGOLARI: 3/8 ................................................................................................... 204 8.5.3 FRAZIONI IRREGOLARI: 5/8 ................................................................................................... 206 8.5.4 FRAZIONI IRREGOLARI: 3/4 (JOHN) ..................................................................................... 209 8.5.5 FRAZIONI IRREGOLARI: 7/8 ................................................................................................... 211 8.6 MISURA DELLA NON ORTOGONALIT...................................................................................... 212 8.6.1 MISURIAMO LA NON ORTOGONALIT DEGLI ESEMPI FATTI ...................................... 215 8.7 ALTRI METODI DI STIMA .............................................................................................................. 218 8.8 CONCLUSIONI .................................................................................................................................. 219
iv
Indice
CAPITOLO 9. UNA NUOVA TEORIA...................................................................................................... 221 SULLA STRUTTURA DEGLI ALIAS ........................................................................................................ 221 9.1 PERCH UNA NUOVA TEORIA ? .................................................................................................. 221 9.2 CONTRAST, EFFETTO, ALIAS, STRUTTURA DEGLI ALIAS .................................................... 222 9.3 TEOREMA FONDAMENTALE DELLA STRUTTURA DEGLI ALIAS ........................................ 225 9.3.1 DIMOSTRAZIONE ..................................................................................................................... 226 9.3.2 OSSERVAZIONI ......................................................................................................................... 228 9.4 APPLICAZIONI DELLA TEORIA .................................................................................................... 230 9.4.1 FRAZIONE 3/8 ............................................................................................................................ 231 9.4.2 MET IRREGOLARE................................................................................................................. 233 9.4.3 FRAZIONE 5/8 ............................................................................................................................ 235 9.4.4 FRAZIONE 6/8 (3/4 DI JOHN) ................................................................................................... 237 9.4.5 FRAZIONE 7/8 ............................................................................................................................ 238 9.4.6 E SE ABBIAMO DIMENTICATO UN FATTORE? .................................................................. 239 9.5 SCELTA DELLA BASE ..................................................................................................................... 241 9.6 AGGIUNTA DI UN FATTORE PER DIMINUIRE IL RESIDUO.................................................... 244 9.7 UNA SPIEGAZIONE ALTERNATIVA AGLI ALIAS ..................................................................... 247 CAPITOLO 10. APPLICAZIONI SU DATI REALI................................................................................... 250 10.1 QUALI METODI USIAMO?............................................................................................................ 250 10.2 ANOVA ONE-WAY FULL-REGRESSION.................................................................................... 251 10.3 ANOVA TWO-WAY FULL-REGRESSION ................................................................................... 256 10.4 CASO IVECO ................................................................................................................................... 264 10.4.1 ERRORI NELLANALISI DI FORNASIERI (1995)................................................................ 265 10.4.2 FULL-REGRESSION ................................................................................................................ 271 10.4.3 ESPERIMENTO COMPLETO .................................................................................................. 276 10.5 PIANO NON GEOMERICO DI PLACKETTT-BURMAN A 12 STATI PER 5 FATTORI........... 279 10.6 PIANO SPERIMENTALE CON 4 FATTORI DI CONTROLLO A 3 LIVELLI E 3 FATTORI DI RUMORE A 2 LIVELLI ........................................................................................................................... 285 CAPITOLO 11. TAGUCHI: NOVIT O BLUFF? ..................................................................................... 292 11.1 POPOLARIT DI TAGUCHI .......................................................................................................... 292 11.2 QUALITY ENGINEERING: SYSTEM, PARAMETER, TOLERANCE DESIGN ........................ 294 11.3 LOSS FUNCTION ............................................................................................................................ 296 11.4 OUTER E INNER ARRAY .............................................................................................................. 298 11.5 SIGNAL TO NOISE ......................................................................................................................... 299 11.5.1 ON TARGET.............................................................................................................................. 300 11.5.2 THE LARGER THE BETTER................................................................................................... 301 11.5.3 THE SMALLER THE BETTER ................................................................................................ 302 11.6 MIN LOSS FUNCTION = MAX SIGNAL TO NOISE?.................................................................. 303 11.7 TAGUCHI E LE INTERAZIONI ..................................................................................................... 306 11.7.1 3 TIPI DI INTERAZIONE ......................................................................................................... 308 11.8 CONCLUSIONI ................................................................................................................................ 309 BIBLIOGRAFIA ........................................................................................................................................... 311
CAPITOLO 1
Considerando: che la competitivit si gioca principalmente sul prezzo e sulla Qualit, la crescente standardizzazione e diffusione delle tecnologie, la saturazione pressoch totale delle economie di scala (vista la tendenza oligopolistica dei grossi mercati) molto difficile ridurre i costi oltre un certo limite, quindi per aumentare la competitivit molto pi facile agire sulla variabile Qualit che sul prezzo; inoltre una corretta politica della Qualit porta a ridurre anche gli enormi costi (par.1.8) della disqualit (Galetto 1995), quindi possibile abbassare i prezzi dei prodotti indipendentemente dalla tecnologia usata o dalle economie di scala: da questo vediamo che prezzo e Qualit possono essere 2 grandezze correlate; Juran (1988) afferma che sono stati fatti parecchi studi per indagare questa correlazione. I giapponesi sono stati i primi a riconoscere questi problemi grazie allinsegnamento di Deming riguardo le carte di controllo di Shewart e la responsabilit dellupper management nel problema della Qualit. Deming (1986) riferisce che gi nel lontano 1942 si era cercato di diffondere i metodi statistici nellindustria americana ma che il management non era consapevole delle proprie responsabilit per cui il controllo della Qualit si rivel inefficace. Nel 1950, quando lo JUSE invit in Giappone Deming, i giapponesi compresero che se non avessero unito gli sforzi, questi non avrebbero avuto un impatto nazionale; la Qualit divent allora un problema di tutte le aziende e di tutta la nazione: improvement of quality became in 1950, in Japan, total(Deming 1986); essi compresero una serie di principi sulla Qualit che verranno esposti nei seguenti paragrafi. Gi nel 1950 Deming predisse che, entro 5 anni, i prodotti giapponesi avrebbero invaso il mercato mondiale e cos fu; inoltre nel 1954 arriv in Giappone un altro genio della Qualit, Juran, il cui masterful teaching (cos definito da Deming) convinse definitivamente lupper management giapponese riguardo la sua responsabilit verso il miglioramento della Qualit e della produttivit. Nel 1960, grazie ad Ishikawa, nacquero i circoli della Qualit ovvero dei gruppi di persone che lavoravano sui problemi della Qualit: in Giappone questi gruppi furono una logica e coerente evoluzione degli insegnamenti di Deming; quando gli americani provarono a copiarli negli anni 70 tali circoli fallirono immediatamente perch gli alti manager non seguivano le raccomandazioni che tali circoli davano loro. It is a hazard to copy. It is necessary to understand the theory of what one wishes to do or to make(Deming 1986, pag.129). Negli anni 70 gli americani, che per 30 anni avevano ignorato gli insegnamenti di Deming, lo rivalutarono visto che il suo nome era legato allo strepitoso successo della Qualit giapponese: si crearono molte aspettative irrealistiche e si pens che bastasse istituire il controllo statistico della Qualit per risolvere tutti problemi delle aziende; gli americani di nuovo non capirono che la gestione della Qualit (Quality Control) non consiste in cookbook procedures on file ready for specific application ma
7
piuttosto in a philosophy that directs efforts at all levels of responsibility towards the more effective use of the resources available to meet the needs of customers(Deming 1986, pag.245). Oggi Deming considerato il principale artefice del miracolo giapponese ma forse gli occidentali non hanno ancora compreso il suo insegnamento se vero che lEuropa chiude le frontiere ai giapponesi, non potendo ancora fronteggiare la loro concorrenza (Galetto 1995). Poich ritengo che Deming sia la figura pi importante nella Qualit, nei primi 2 capitoli faremo continuamente riferimento al suo pensiero, chiaramente espresso in Out of the Crisis; le frasi di questo testo saranno riportate in lingua originale per evitare possibili distorsioni delle idee di Deming, come stato fatto nella traduzione italiana da parte dellISVOR.
percentuale di difettosit conformit alle specifiche (Crosby) perdita generata dal prodotto dal momento in cui viene spedito (Taguchi) affidabilit all'istante zero adeguatezza all'uso (Juran) qualcosa suscettibile di miglioramento zero difetti insieme delle caratteristiche atte a soddisfare una certa esigenza
Questi sono solo alcuni esempi; se poi elencassimo tutte le definizioni che si danno sulla qualit totale (par. 2.1) non finiremmo pi. A questo punto si capisce come sia molto importante dare una definizione la pi completa possibile, non suscettibile ad ambiguit; secondo me tale quella che si trova in Galetto (1995):
8
La Qualit l'insieme delle caratteristiche di un sistema atte a soddisfare le esigenze del Cliente, dell'Utilizzatore, della Societ. Accanto a questa definizione vi quella che la Qualit una scienza manageriale che studia come le aziende possono ottenere prodotti e servizi di Qualit (secondo la prima definizione data). Ritorniamo alla prima definizione che abbiamo dato, essa si presta ad alcune interessanti osservazioni: Pochissimi autori considerano la differenza fra Utente (chi utilizza il sistema) e Cliente (chi paga il sistema) per innegabile che un sistema (prodotto o servizio) di Qualit deve soddisfare le esigenze di entrambi. Inoltre quasi nessuno considera la Societ dei cittadini; ma come si pu dire che un prodotto ha Qualit se provoca danno ad altre persone? Possiamo considerare le armi (anche se molto affidabili) un prodotto di Qualit? Io non credo ... Bisogna soddisfare le esigenze (esplicite e implicite) e non il cliente/utente; ad esempio i metodi Taguchi (cap.11) soddisfano molto i clienti (aziende che li usano) che credono di risparmiare soldi, e gli utenti (manager della Qualit) che non devono pensare troppo per progettare le prove; ma la reale esigenza delle aziende di competitivit e quella dei manager della Qualit la capacit di stimare adeguatamente la realt: sono soddisfatte tali esigenze? Non si direbbe visto che le aziende che magnificano i metodi Taguchi poi perdono in competitivit e sono costrette a licenziare un sacco di persone fra cui, magari, quelle del reparto Qualit che erano tanto contente di usare i metodi Taguchi perch non dovevano pensare troppo. Giustamente non distingue fra prodotti e servizi (entrambi sono dei sistemi), perch, come dice Deming (1986),the principle that will help to improve quality of product and of service are universal in nature". Per brevit di notazione nel seguito si user il termine prodotto per indicare qualsiasi sistema. Quali sono allora le caratteristiche dei sistemi che possono soddisfare le esigenze del Cliente/Utente/Societ? Shewart (1931) stato il primo a porsi il problema di quantificare la Qualit attraverso le caratteristiche di Qualit per poterla misurare e migliorare: entra in gioco il problema delle definizioni operative (Deming 1986, cap.9). ovvio che non possiamo dare un elenco di caratteristiche che vadano bene per qualunque sistema in ogni situazione; Galetto (1987) ha comunque proposto un elenco di 10 grandezze che possono andare bene per prodotti industriali; esse sono poste sugli spigoli di un tetraedro per facilitarne il ricordo (fig.1). E' ovvio che il peso di queste 10 caratteristiche varia a seconda del sistema che sto prendendo in considerazione: se ripensiamo alla definizione di qualit la sicurezza
9
sempre la caratteristica pi importante a meno che il sistema sia intrinsecamente molto sicuro; invece l'estetica pu essere abbastanza marginale per certi sistemi.
ESTETICA
ECOLOGIA
ECONOMICIT
MANUTENIBILIT
DURATA
AFFIDABILIT
CONFORMIT
E' comunque molto importante, quando si progetta un sistema, stabilire con opportune ricerche di mercato quali sono le caratteristiche che pi soddisfano le esigenze del Cliente (nel seguito si tralascer, per brevit di notazione, lUtente e la Societ) e decidere come quantificarle per poter misurare la Qualit del sistema. Possiamo allora considerare la Qualit come un vettore stocastico Q con valore atteso E(Q), i cui n elementi sono i parametri riguardanti le n caratteristiche considerate. E(Q) = (1, 2, 3, ... i, ... n)
10
il vettore Qualit da stimare se vogliamo misurare la Qualit dei nostri prodotti; ovviamente a ogni caratteristica stimata sar associato un certo intervallo di fiducia. Possiamo considerare che la funzione utilit del Cliente cresca con E(Q) e decresca con il prezzo quindi lazienda pu giocare sia col prezzo che con le caratteristiche di Qualit per consentire allutente di massimizzare la propria utilit comprando i prodotti dellazienda e nel contempo, facendola guadagnare in competitivit; ovviamente per fare ci, bisogna cercare di stimare anche la funzione di utilit del Cliente, con opportune ricerche di mercato. A pag.180 Deming traccia il percorso che bisognerebbe seguire nel lancio di un prodotto se vogliamo che esso sia di Qualit: 1. Progettare con Qualit il prodotto (off-line QC). 2. Produrlo e testarlo sia in linea di produzione (on-line QC) che in laboratorio. 3. Lanciarlo sul mercato. 4. Testarlo sul campo, scoprire cosa ne pensa lacquirente e perch il non acquirente non lha comprato Questa sequenza mette in luce la giusta importanza delle prove e quindi dei metodi statistici per effettuarle; inoltre evidenzia limportanza fondamentale del Cliente.
La figura 2 pensata in funzione della produzione ma il concetto dellimportanza del cliente vale anche per i servizi: It is customers that keep a company in business, both in manufacturing industries and in service industries (Deming 1986, pag.192); nel capitolo 7 di Deming (1986) vi sono molti esempi di come applicare i suoi 14 principi del management ai servizi, usando tecniche statistiche. Al giorno d'oggi invece molto di moda la catena fornitore-cliente ovvero il concetto di cliente interno contrapposto a quello esterno (che paga con moneta buona): si dice che se nell'azienda il reparto a monte soddisfa quello a valle, alla fine viene soddisfatto meglio anche il "reparto" pi a valle (il cliente esterno). Basta guardare alcuni esempi in Galetto (1995) in cui la soddisfazione del cliente interno non si traduce affatto nella soddisfazione delle esigenze del Cliente vero (esterno). In realt la strada giusta de seguire che i clienti interni devono tutti decidere in funzione delle esigenze del Cliente vero; bisogna considerare che la reputazione dellazienda molto pi importante degli obiettivi di budget dei vari direttori delle funzioni. Infine consideriamo che al Cliente che compra un sistema, interessa che il sistema funzioni, non gli importano le catene fornitorecliente, la qualit totale, i circoli della qualit, il TQM, il CWQC, ....; al Cliente interessa la Qualit e un Cliente onesto capisce quando c la Qualit e quando ci accade ritorna ad acquistare dallazienda: non dimentichiamo che profit comes from repeat customers(Deming 1986, pag.178).
sopra: le persone che nelle aziende cercano di prevenire i problemi non sono riconosciute e premiate; coloro che invece creano problemi e poi cercano (con successo???) di risolverli sono considerati i migliori. Questa enfasi attuale sui problemi porta a propagandare "I 7 strumenti della qualit totale", che in realt non servono alla prevenzione e porta a dire Galgano che i problemi sono dei tesori; la propaganda di tali concetti va nella direzione opposta a quella della Qualit (parziale, non totale). . Quello che abbiamo detto riassunto nel famoso detto "you cannot inspect quality into a product, you must build quality into a product": ma quanti conoscono e sanno applicare gli strumenti per progettare la Qualit nei sistemi? Come mai Ishikawa ha esportato in occidente solo i 7 strumenti del TQC, oggi conosciuti come i 7 strumenti della qualit totale? Con quelli non si fa prevenzione... Limportanza della prevenzione sottolineata in una delle 4 verit assolute sulla Qualit che propone Crosby (1986): 1. La Qualit la conformit alle specifiche, 2. La prevenzione assicura la Qualit, 3. Lo standard deve essere Zero difetti, 4. Il criterio di valutazione della Qualit il costo della non conformit. Secondo le definizioni che abbiamo dato e che daremo, non ci sentiamo di condividere appieno queste verit assolute di Crosby perch la conformit solo un aspetto della Qualit, e il mitico Zero difetti non ha mai risolto i difetti, come possiamo aspettarci che prevenga i guasti (Galetto 1988)? La seconda verit assoluta fa emergere limportanza della prevenzione che, secondo Crosby consiste nelleliminare su grande scala tutte le occasioni di errore; Crosby sembra per non considerare che non sempre si riescono a prevenire gli errori: quando ci accade, bisogna riconoscerli con onest intellettuale e spirito scientifico (Cap.2) e attuare le opportune azioni correttive. Modificando la frase di Crosby, diciamo che la prevenzione e le azioni correttive assicurano la Qualit.
Effect and Criticality Analysis), le previsioni di affidabilit e il DOE; integrati con i moderni strumenti di progettazione integrata (CAD, CAM) si possono scoprire i difetti quando si possono correggere non spendendo ancora tanti soldi e non facendo insorgere ulteriori problemi. Infatti con la FMECA si identificano i modi di guasto dei vari componenti, non scartandone nessuno a priori; per ogni modo di guasto si identifica leffetto mettendosi nellottica del Cliente. Ogni modo di guasto pu avere una o pi cause: esse vanno identificate perch bisogna stabilire le opportune azioni preventive per migliorare preventivamente il prodotto. Si individuano le combinazioni modo-efffetto-causa pi critiche, cercando di eliminarle; la FMECA serve anche ad ideare prove di affidabilit che assicurano che le combinazioni pi critiche non si verifichino sui prodotti migliorati. Le prove di affidabilit sui prototipi sono il momento della verit aziendale; in questo momento si verifica non solo laffidabilit dei prodotti, ma anche laffidabilit dellazienda: unazienda affidabile non decide di proseguire se non dopo aver ottenuto, con un adeguato livello di fiducia, gli obiettivi fissati. Bisogna quindi progettare le prove di affidabilit cos da raccogliere i dati necessari e sufficienti per prendere le decisioni corrette: ma per progettare le prove abbiamo bisogno di una teoria sufficientemente generale per laffidabilit dei sistemi (Galetto 1981 e 1982). Gli obiettivi di affidabilit vanno fissati per il sistema e poi ripartiti ai vari sottosistemi, poi ai gruppi, fino ai componenti. La tecnica di ripartizione degli obiettivi di affidabilit deve essere tale che laffidabilit del sistema, calcolata mediante laffidabilit dei componenti, e tenendo conto delle eventuali ridondanze, soddisfi allobiettivo dato. I vari obiettivi di affidabilit (R(t), A(t), M(t), m(t), h(t) ...) devono essere congruenti tra loro sia a livello di sistema che a livello di componente: gli obiettivi ripartiti ai componenti vanno trasferiti ai fornitori perch li sviluppino con quei valori di affidabilit. Ecco come si costruisce la Qualit dei sistemi ed ecco perch laffidabilit una disciplina basilare per la Qualit (qua intesa come scienza manageriale). Tutto ci perfettamente coerente con quanto afferma Deming (1986) a pag.49, quality must be built in at the design stage, e a pag.50, It is better to work on the processes, and on equipment and on materials and components that go into your product, and on your procedures for testing these components before they go into the final product Bisogna quindi prevenire e migliorare i processi, il che vuol dire studiare gli effetti di cambiamenti nei livelli dei parametri, cosa che pu essere fatta pianificando gli esperimenti in modo scientifico usando metodologie di Qualit come il DOE (Cap.3), che consente di scoprire leffetto dei fattori e delle loro interazioni, permettendo cos lottimizzazione dei prodotti e dei processi.
14
che il 94% dei problemi sono causati dal sistema e non dai lavoratori; Juran sostiene che il management responsabile del 85% dei problemi allinterno delle aziende.
16
Migliori la Qualit
I costi diminuiscono per il minor numero di rilavorazioni, di errori, ritardi ed ostacoli oltre che per un miglior uso dei macchinari e dei materiali
La produttivit aumenta
Continui a produrre
Figura 3: reazione a catena provocata dal miglioramento della Qualit (Deming 1986, pag.3)
Anche la Teoria dei Giochi (Rasmusen 1993) predice, utilizzando il teorema Folk, che la strategia vincente per unimpresa produrre beni di elevata Qualit, perch pu
17
venderli a un prezzo elevato per molti periodi; inoltre i consumatori si rifiuteranno di acquistare da unimpresa che abbia prodotto anche una sola volta beni di bassa qualit; il prezzo di equilibrio tale da dissuadere limpresa a sacrificare i profitti futuri in cambio di una congiunturale e non ripetibile successo di vendite derivante dallinganno, ovvero vendere a un prezzo alto beni di bassa qualit. Pur con tutte le limitazioni della Teoria dei Giochi e luso di un modello molto semplificato, il risultato comunque indicativo del fatto che la Qualit una scelta vincente.
18
CAPITOLO 2
2.1
Nel primo capitolo abbiamo visto che la Qualit rappresenta un problema importante che lupper management deve in qualche modo affrontare se non vuole che lazienda perda in competitivit. Come? Ci sono varie strade, non tutte ugualmente efficaci; ne elenco alcune:
mandare i manager ai convegni sulla qualit totale sperando che tornino con la formula
magica per risolvere i problemi dellazienda, acquistare i libri sulla qualit totale, metterli nella biblioteca dellazienda e non cambiare i sistemi e i metodi di gestione, andare da un consulente esperto di ISO 9000 e spendere un sacco di soldi per farsi certificare da qualche societ, ritenendo che la certificazione assicuri automaticamente la Qualit seguire ciecamente le idee di qualche guru della Qualit, come i 14 punti di Deming, la trilogia di Juran, i 14 punti e le 4 verit assolute di Crosby, il TQC di Feigenbaum, il CWQC di Ishikawa o la loss function di Taguchi
14
2 - LApproccio Scientifico alla Qualit iniziare a ragionare con la propria testa, usando la Logica con onest intellettuale (par.
2.2): Ben poche cose in grado di sostituire lintelletto umano per sviluppare idee, metodi, strumenti...(Galetto 1995). Alla fine del capitolo sar chiara la strada da seguire. I primi 2 approcci sono ovviamente da rigettare perch la qualit totale (pessima traduzione di Total Quality Control, un concetto ideato da Feigenbaum nel 1961, la cui traduzione corretta gestione totale della Qualit), oggi come oggi a uno stadio di confusione totale. Soprattutto non si capisce dalle varie pubblicazioni se la qualit totale un attributo del prodotto o del servizio oppure un approccio manageriale alla Qualit; se un attributo del prodotto bisognerebbe specificare la differenza fra Qualit (definita nel cap.1) e qualit totale: la Qualit la soddisfazione delle esigenze del Cliente, cosa pu aggiungere a ci la qualit totale? Finora non ho letto nulla su questa differenza nelle varie pubblicazioni sulla qualit totale. La norma ufficiale europea ISO 8402 dice in una nota che il Total Quality Management talvolta chiamato Total Quality: io ritengo che questa sia la definizione ufficiale di qualit totale; purtroppo non ho mai visto nessuna pubblicazione sulla qualit totale citare la norma. La conferma che qualit totale un sinonimo di gestione totale della Qualit viene da Feigenbaum (1991), linventore del concetto TQC; egli, nella terza edizione (1986) e nella terza edizione revisionata (1991) del suo libro originale Total Quality Control (1961) usa indifferentemente total quality e total quality control; ci molto strano perch lautore si preoccupa di dire (pag.26) che usa: total quality control quality control indifferentemente. Si preoccupa di dire (pag.108) che usa: total quality system quality sistem indifferentemente ma da nessuna parte c scritto che: total quality control total quality sono equivalenti; ci si capisce solo implicitamente, perch le pagine dove lautore usa total quality, nellindice analitico sono richiamate sotto la voce total quality control; inoltre nella prefazione Feigenbaum esordisce con la frase "Since its original presentation in this book (1961 n.d.a.) total quality has become increasingly widely recognized ...". Io per ritengo che un libro di Qualit dovrebbe essere chiaro riguardo le definizioni e di fatto total quality non definita in alcun modo nella terza edizione revisionata (1991): questa mancanza di chiarezza da parte di Feigembaum un esempio lampante di disqualit. Notiamo che non bisogna comunque considerare negativo tutto ci che qualit totale: P.W.M. John, un grandissimo studioso del DOE, nel 1990 ha pubblicato un ottimo
15
libro dal titolo Statistical methods in Engineering and Quality Assurance, in cui definisce subito la total quality: Total quality means total dedication to quality by entire company, from CEO down to the employee who sweeps the corridors John (1990) chiarisce dunque subito che intende la qualit totale come un approccio manageriale; Galetto (1996), commentando la definizione riportata sul libro di John, fa giustamente notare che allora il Cliente pu comprare la Qualit ma non pu comprare la qualit totale. Concludiamo il discorso sulla qualit totale dicendo che essa non rappresenta niente di negativo purch sia definita chiaramente: il fatto che la locuzione derivi da un errore di traduzione non mi sembra particolarmente rilevante perch il linguaggio spesso andato avanti per errori; per lapproccio scientifico che intendiamo seguire (par. 2.2) richiede che si definiscano chiaramente i concetti di cui si parla. Per quanto riguarda la certificazione mi baso sui concetti espressi in Galetto (1995) ma credo che chiunque sia intellettualmente onesto possa condividerli; infatti la certificazione lattivit con cui un ente accreditato attesta con un documento ufficiale che un entit soddisfa i dettami stabiliti dalla norma: chiunque per pu capire che, se la norma ha scarsa qualit, la certificazione attesta la scarsa qualit, dunque non certo la certificazione che provoca un miglioramento della Qualit. Anche Juran ripete questo concetto da anni e anni a tutti convegni europei sulla Qualit eppure i certificatori si moltiplicano; recentemente ho letto un articolo di una societ di consulenza che afferma che la Qualit di un prodotto la logica conseguenza dellapplicazione delle norme: chiunque pu capire lassurdit di una simile affermazione. Se la qualit totale e la certificazione non sono di grande aiuto per affrontare i problemi connessi alla Qualit, cosa dobbiamo fare? Seguire lapproccio scientifico alla Qualit.
Galileo stato uno dei primi a sostenere che si poteva sperare di capire le leggi delluniverso attraverso losservazione del mondo reale; egli considerato il fondatore del metodo scientifico sperimentale, che consiste: nel ragionamento condotto logicamente negli esperimenti per confermare le deduzioni logiche, in una continua iterazione fra teoria e pratica (par. 3.8). Se gli specialisti della Qualit usassero questo approccio, impiegherebbero poco a capire gli enormi rischi connessi all'uso dei metodi Taguchi (cap.11): usando la Logica facile far cadere in contraddizione i sostenitori di tali metodi; chi cade in contraddizione logica deve ammettere il proprio errore se intellettualmente onesto. Usare lapproccio scientifico vuol semplicemente dire saper giustificare logicamente le proprie affermazioni senza dire: cos perch lha detto il tal dei tali oppure il metodo funziona perch funziona; le affermazioni si giustificano logicamente se esse sono costruite su una solida teoria di base: ecco perch il famoso psicologo Lewin, gi negli anni 40, affermava che la miglior cosa pratica una buona teoria. Chiunque pu commettere degli errori di logica come chiunque pu entrare nel ciclo vizioso della disqualit (Galetto 1995):
IGNORANZA
PRESUNZIONE IGNORANZA
PRESUNZIONE
La cosa importante ammettere di essere entrati nel circolo vizioso e adoperarsi per uscirne. In proposito mi paiono molto eloquenti le parole del grande scienziato S. Hawking (Dal Big Bang ai buchi neri, 1988): Che cosa si deve fare quando si scopre di aver commesso un errore...?Alcuni non ammettono mai di avere sbagliato e continuano a trovare argomenti nuovi, a volta contraddittori fra loro, per sostenere la loro causa....Altri affermano di non avere mai sostenuto realmente la teoria sbagliata...A me pare molto meglio e molto pi chiaro ammettere in una pubblicazione di avere sbagliato. Notiamo che nel circolo vizioso, mentre la presunzione sempre da condannare, l'ignoranza non un male di per s: essa uno stato necessario della natura umana e non provoca danni se accompagnata dall'onest intellettuale. Intellettualmente onesto chiunque, per radicato senso della giustizia, valuta obiettivamente i fatti rifiutando di
17
distorcerli, ma invece utilizza le capacit intellettive per ricercare la realt(Galetto 1995). Galetto (1995), grande sostenitore del metodo scientifico, parte da 2 principi fondamentali: F1: La realt esiste, indipendentemente dalla capacit umana di accettarla o di riconoscerla. F2: La variabilit si manifesta in tutti i fenomeno studiati dall'uomo, sempre Il primo principio indiscutibile per va usato con molta cautela perch la percezione della realt necessariamente soggettiva e selettiva: nessuno potr mai dire che ha ragione in nome del principio F1; esso per fa capire 2 cose importanti: non tutti possono avere ragione su un determinato argomento, se partono dalle stesse premesse, la verit di un'affermazione non dipende dal numero di coloro che la sostengono. Il principio F1 sar dunque spesso richiamato nella tesi, relativamente a dei concetti che mi sembrano assoluti ed oggettivi. Il secondo principio ha una grandissima utilit teorica e pratica perch sancisce quale deve essere la principale preoccupazione della management: sapere riconoscere, interpretare e trattare la variabilit insita in ogni fenomeno naturale; questa la profound knowledge di Deming.
Usando la Logica abbiamo scoperto che la variabilit esiste sempre; We are working, whether we like it or not, in the presence of variability(John 1990); per trattarla in modo scientifico abbiamo bisogno: della Statistica (vedere Galetto 1995, per i vari significati del termine) per progettare le prove che consentono di stimare la realt del Calcolo delle Probabilit che ci consente di misurare il grado di incertezza. Per Statistica qui intendiamo l'insieme dei metodi, ricavati teoricamente, che consentono di prendere le decisioni, in modo razionale, quando si in condizioni di incertezza e di variabilit dei dati. Prima di Shewart, nell'industria si faceva il controllo sui pezzi, dividendoli in buoni (dentro le specifiche) prodotti e quelli cattivi (fuori dalle specifiche) ma questo controllo non aiutava il produttore a produrre dentro le specifiche n lo aiutava a scoprire le cause della non conformit di alcuni prodotti.
Pezzo cattivo
Pezzo cattivo
Inoltre, se non erano prodotti abbastanza pezzi "buoni", per soddisfare la domanda, venivano venduti anche i pezzi "cattivi", rilassando le specifiche; questo circolo vizioso aveva oscurato il problema centrale della produzione, che era la riduzione della variabilit: Variation always creates costs. This fact has been obscured by our accounting systems and ignored by manufacturers for years, yet it is still true (Wheeler 1988). Se le dimensione dei pezzi fossero state quasi identiche, non ci sarebbe stato bisogno di preoccuparsi di distinguere fra pezzi buoni e cattivi; non sarebbe pi stata necessaria lispezione al 100%, e sarebbero diminuiti moltissimo gli scarti e le rilavorazioni. Ma ci era possibile solo attraverso un attento studio delle sorgenti di variabilit in un processo: Shewart fu il primo a rendersi conto di questi problemi, invent il concetto di "control" (non un semplice controllo, ispezione, anche legato alla gestione) e svilupp un modo semplice di classificare la variabilit di un processo. Shewart pensava che la variabilit entro certi limiti fosse dettata dal caso, e al di fuori di tali limiti fosse provocata da una sorgente identificabile ovvero assignable; vi quindi una: variabilit controllata, stabile nel tempo, dovuta a molti fattori, che insieme danno un effetto in genere piccolo, che Shewart attribuisce al caso,
19
variabilit incontrollata, instabile nel tempo, dovuta a un fattore assignable, che provoca un effetto consistente. Da questa classificazione possiamo capire che vi sono 2 vie per ridurre la variabilit a seconda della natura che ha: se controllata bisogna cambiare il processo (ricorrendo ai piani fattoriali, allEVOP, al RSM e altre tecniche DOE che vedremo nel cap.3) se incontrollata bisogna rimuovere le cause identificabili di variazione, cercando di portare il processo a uno stato di variabilit in controllo. Shewart, quindi, gi negli anni 20 cap che era errato trattare la variabilit come in Fig. 2 e che si sarebbe ottenuto un miglioramento tanto maggiore, quanto pi si riduceva la variazione dal valore nominale del pezzo: come si vede lo stesso concetto della loss function di Taguchi; invece i taguchiani Byrne e Shin Taguchi in un articolo (1987), premiato come best technical paper, dicono che prima di Taguchi, si ragionava come nella Fig. 2; laffermazione falsa: basta leggere Shewart (1931). vero per che queste idee rimasero per lungo tempo ignorate dall'industria: basti pensare che le carte di controllo sono state rispolverate solo ultimamente come uno dei 7 strumenti della qualit totale; il grande Deming, che lavor con Shewart alla Western Electric, fu uno dei pochi che ne comprese l'uso e la grande potenza; nel par 1.1 abbiamo visto che egli prov a diffondere le tecniche di Shewart e i metodi statistici nell'industria nord-americana senza riuscirvi mentre in Giappone fu ascoltato (par 1.1). Deming riformul la terminologia di Shewart, mettendo in evidenza chi era responsabile dei 2 tipi di variabilit (Deming 1986) ma non cambiando sostanzialmente i concetti:
cause comuni di variabilit, intrinseche al sistema di produzione; appartenendo al sistema sono di competenza di che gestisce il sistema: il management. Questo tipo di variabilit pu essere diminuito solo attraverso un azione del management, che modifichi il sistema cause speciali di variabilit, non fanno parte del sistema di produzione: possono essere rimosse dai singoli lavoratori o supervisori di un determinato processo, ma per identificare queste cause ci vuole sempre il management; tali cause modificano casualmente nel tempo, media e varianza del processo. Se il processo non manifesta cause speciali, detto in controllo statistico e si pu prevedere, giorno dopo giorno, cosa far attraverso la carta di controllo: la capability del processo indica lintervallo entro il quale ci aspettiamo che vari la grandezza di interesse quando essa in controllo statistico; essa calcolata ricorrendo alla teoria statistica. Risulta chiara quindi la critica di Deming al mitico "Zero difetti": non sufficiente stare dentro le specifiche; bisogna studiare i processi per tenerli in controllo statistico. I prodotti vanno costantemente migliorati cercando le cause di variabilit ed eliminandole: questo il messaggio che Deming e Juran portarono ai giapponesi negli anni '50. I manager hanno quindi davanti a loro 2 alternative:
20
semplice conformit alle specifiche, adottato dagli occidentali miglioramento continuo dei processi, adottato dai giapponesi Consideriamo per che una conformit totale alle specifiche verr solo col miglioramento continuo del processo, che abbiamo visto essere compito primario del management. Per studiare i processi abbiamo 2 stati di riferimento: processo in controllo statistico e processo che sta producendo tutti pezzi conformi; combinandoli, otteniamo 4 possibili stati che comunque non saranno mai permanenti: 1. Processo in controllo statistico che produce tutti pezzi conformi: il caso in cui la capability2 compresa nella tolleranza specificata dal produttore. 2. Processo in controllo statistico che produce alcuni pezzi non conformi: bisogna cambiare la media o la dispersione del processo oppure cambiare le specifiche se il Cliente d'accordo; interventi sporadici sul processo per rientrare nelle specifiche sono assolutamente deleteri e rischiamo di portare il processo fuori controllo, Specification limits are not action limits(Deming 1986, pag.334). 3. Processo fuori controllo statistico che produce tutti pezzi conformi: per definizione di processo fuori controllo abbiamo delle cause identificabili il cui effetto pu essere pensato in termini di cambiamento casuale della media e varianza del processo produttivo; quindi uno stato assolutamente temporaneo, che presto porter allo stato 4. 4. Processo fuori controllo statistico che produce pezzi non conformi: uno stato di caos; se si prova a modificare il processo gli effetti sono comunque temporanei perch le cause speciali continuano a cambiare il processo. Prima bisogna eliminare le cause speciali per portare in controllo il processo e poi si pu iniziare a cambiarlo per rispettare le specifiche. Ogni processo appartiene a uno di questi 4 stati ma abbiamo detto che sono temporanei perch c' sempre una forza universale che tende a portare dallo stato 1 allo stato 4: l'entropia, che causa deterioramento, usura, rotture e difetti. Ogni processo va naturalmente e inevitabilmente verso lo stato del caos: se vogliamo fronteggiare questo effetto dobbiamo conoscere gli effetti dell'entropia sul processo e ripararci da essi, dobbiamo in altre parole migliorare costantemente il processo. Ma il processo pu essere migliorato solo se in controllo statistico dunque le cause speciali costituiscono un ostacolo al miglioramento. Riassumendo, se vogliamo tendere allo stato 1, bisogna saper riconoscere sia gli effetti dell'entropia che tende a portare nello stato di caos, sia la presenza di cause speciali che costituiscono una barriera al miglioramento: ci pu essere fatto usando le carte di controllo e in generale i metodi statistici. Without statistical methods, attempts to improve
a process are hit or miss, with results that usually make matters worse (Deming 1986, pag.20).
unorganizzazione e un sistema informativo apposito. Lobiettivo ridurre il periodo di progettazione e lintero time to market, mettendo in parallelo il numero pi elevato possibile di attivit con una visione contemporanea dei vari aspetti del progetto, in particolare quelli qualitativi. Il primo passo unanalisi delle necessit del Cliente e lindividuazione dei parametri critici con la concorrenza e ci pu essere fatto col QFD che permette di collegare ogni bisogno del cliente alle caratteristiche di ciascun processo nel ciclo di sviluppo del prodotto. Il QFD si applica attraverso una serie di tabelle consequenziali, che partono dalla concezione del prodotto fino ad arrivare ai dettagli operativi della sua produzione. A causa della sua forma la tabella conosciuta come la casa della Qualit. Il CE e il QFD sono considerati rispettivamente una metodologia e uno strumento nuovi ma per come sono descritti in De Risi (1996) mi sembra che i concetti di base siano molto simili a quelli espressi in Galetto (1987 e 1988), sebbene non altrettanto formalizzati.
Per questo motivo il MBITE, proposto da Galetto nel 1989, mi sembra un sistema pi adeguato di gestione dei problemi relativi alla Qualit, ma non solo. MBITE l'acronimo di Management By If Then Else, quindi pone l'accento proprio sulle conseguenze delle decisioni prese dai manager; le conseguenze delle decisioni si estendono all'intero Spazio-Tempo Aziendale (Galetto 1995), che comprende:
Tempo aziendale Governo Legislazione Propriet Management Personale Tecnologi Spazio aziendale
Figura 5: lo spazio-tempo aziendale (Galetto 1995)
Societ
Fornitori
Clienti
Creditori
Istruzione
Il concetto di gestione totale della Qualit di Feigenbaum ha a che fare con la dimensione puramente spaziale; sono in pochi coloro che mettono in evidenza la dimensione temporale ovvero le ripercussioni future delle decisioni attuali. Solo nel 1994 il concetto di "redditivit nel futuro" entrato ufficialmente nella definizione di TQM, ma manca ancora il concetto di conseguenze delle decisioni. L'Approccio Integrale alla Qualit, proposto da Galetto gi nel 1976, si realizza prevedendo e gestendo le conseguenze delle decisioni nello Spazio-Tempo Aziendale.
richiede una grande disponibilit intellettuale. Il processo di comunicazione non pu funzionare correttamente se non ci si accorda sul significato delle parole del linguaggio. Fino dal V secolo a.C. ci si accorse che per fondare una qualsiasi scienza sono necessarie definizioni rigorose, espresse con una terminologia adeguata: l'uso del linguaggio ordinario e di concetti definiti in modo non rigoroso, pu essere fonte di confusione e conduce, a volte, a vere e proprie contraddizioni. Il significato delle parole stabilito mediante le definizioni: l'insieme di tutte le definizioni formano il vocabolario con cui si genera il linguaggio proprio della scienza che si vuole trattare. Spero che sia chiaro, a questo punto, il motivo dell'avversione alla qualit totale: non definita in modo abbastanza chiaro; quella che potrebbe essere la fonte ufficiale (ISO8402) non mai citata nei documenti qualtotalisti. L'argomento principale del presente lavoro sono i piani fattoriali (cap. 4) e purtroppo ho dovuto constatare anche nella letteratura sul DOE una certa carenza riguardo alle definizioni rigorose, anche in libri di Qualit: non deve stupire quindi che in situazione particolari (quando mancano degli stati di prova o quando ci sono diverse numerosit) l'analisi classica vada in crisi; spesso ci si fa prendere dalle formule e alla fine non si esplicita il collegamento fra i numeri ottenuti da qualche metodo e le ipotesi che sto testando. Nel cap.7 vedremo che se si vuole usare il teorema di Gauss-Markov bisogna enunciarlo e applicarlo in forma rigorosa, altrimenti si rischia di commettere degli errori. Le definizioni sono fondamentali: vedremo nel cap.4 che sufficiente definire l'effetto di un fattore in un certo modo per superare le contraddizioni logiche a cui portano le definizioni classiche; sempre a partire da definizioni chiare e univoche vedremo che facilissimo spiegare il fenomeno degli Alias nei piani frazionati (Cap.4), senza ricorrere a macchinosi artifici come la classe di equivalenza: la struttura degli Alias, descritta in modo classico, sembra quasi un mistero e probabilmente ed per questo che rifiutata dagli specialisti della Qualit. Concludo il paragrafo invitando chiunque a seguire il messaggio di Galetto (1995), condizione necessaria per un corretto uso della Logica: In tutti i campi scientifici bisogna definire i termini ed i concetti che si utilizzano, altrimenti diventa impossibile il trasferimento delle idee e delle esperienze.
140/6 = 23,333 Penso di no perch a tutti sembra intuitivo che per fare la media, bisogna dividere il totale per 5: 140/5 = 28 e in questo caso l'intuito confermato dalla teoria statistica che asserisce che, soddisfatte una serie di assunzioni, la media aritmetica dei voti dei 5 esami uno stimatore corretto del parametro "media degli esami" relativo a quello studente. Esistono per dei casi in cui gli stimatori corretti non sono intuitivi da trovare, ad esempio nel campo dell'affidabilit, una disciplina basilare della Qualit (par. 1.5); trovare gli stimatori corretti per l'affidabilit richiede la comprensione della Teoria Integrale dell'Affidabilit (Galetto 1981). Supponiamo che un manager debba decidere se lanciare un nuovo prodotto (non riparabile) e che voglia verificare se ha raggiunto lobiettivo di un tasso di guasto di 1 ogni 25 ore; egli fa delle prove censurate su 10 pezzi in condizioni e trova che 6 unit si sono guastate dopo 4, 13, 15, 16, 19 e 23 ore, mentre le altre 4 sono state ritirate senza guasto dopo 5, 10, 15 e 20 ore. Se il manager conosce il metodo della massima verosimiglianza e la teoria dellaffidabilit (Galetto 1982) trova che il tasso di guasto uguale, assumendo la distribuzione esponenziale, al numero dei guasti meno 1 fratto la somma totale dei tempi fino al guasto e dei tempi dei pezzi che non si sono guastati. 5/140 = 1guasto/28ore possiamo essere abbastanza confident (fiduciosi) che lobiettivo di 1guasto ogni 25 ore raggiunto (per verificarlo rigorosamente devo poi fare il test dipotesi, specificando il livello di fiducia). Se, seguendo lintuito, il manager calcola: 6/140 = 1guasto/23,3ore stima male la realt e deve concludere che non ha raggiunto lobiettivo e spende3 altri soldi inutili per cercare di abbassare il tasso di guasto: sono i costi della disqualit. Questo risultato assai meno intuitivo rispetto all'esempio dello studente per in quel caso tutti condannerebbero il dividere per 6 al posto che 5; invece nell'affidabilit, solo perch difficile trovare il risultato corretto, non ritenuto importante usare 5 o 6: questa disparit di trattamento in assoluto contrasto con il metodo scientifico che abbiamo introdotto nel par. 2.2. L'ignoranza non pu giustificare i manager che non usano gli stimatori corretti: abbiamo per detto che l'ignoranza di per s non un male; se un manager della Qualit consapevole della sua ignoranza e va in cerca dei metodi corretti non entra nel circolo vizioso della disqualit, altrimenti ...
Mattana (1994) a pag.25, parlando di Crosby, dice che egli ha sempre puntato sugli aspetti motivazionali; vediamo cosa dice invece Crosby nel suo libro (1986): Non ho mai pensato che si possa motivare qualcuno per pi di qualche giorno(pag.90); Purtroppo, il concetto Zero Difetti stato recepito dallindustria come un semplice programma di motivazione(pag.121); ... aziende che volevano avere maggiori informazioni su questo programma motivazionale. Continuavo a dire che il concetto ZD era uno standard di lavoro gestionale ...(pag.130). Forse Mattana ha frainteso il pensiero di Crosby ... Erto (1995) a pag.7 dice che Shewart, Deming, Juran, Feigenbaum e Crosby sono i fondatori della qualit totale: ma come? Shewart avrebbe fondato la qualit totale prima ancora che essa esistesse? In Deming (1986), in Juran (1988), Crosby (1986) non ho trovato traccia di qualit totale; Feigenbaum solo dal 1986 si convertito sia alla qualit totale sia al diffuso costume di usare il termine senza averlo definito. Questi esempi ci fanno capire che meglio aprire gli occhi e ragionare con la propria testa, e non fidarsi nemmeno delle autorit in materia della Qualit perch anche queste autorit possono fare affermazioni molto dubbie. Non si deve pensare che un articolo abbia un serio contenuto scientifico, solo perch compare su una rivista conosciuta e il suo autore un nome famoso: sullinserto del quotidiano La Stampa, tuttoscienze del 4/12/1996 si riporta che un fisico teorico, Alan Sokal, per scherzo ha inviato un articolo pieno di assurdit scientifiche a una rivista di studi sociali che, al posto di rifiutarlo, lha pubblicato, inconsapevole delle sciocchezze presenti nellarticolo, come quella che i numeri complessi sono stati scoperti recentemente(!!!). Nello stesso inserto anche riportato che un prestigioso scienziato americano, Collins, ha dovuto ammettere che un suo studente aveva falsificato i dati di alcuni suoi esperimenti. Il mancato uso dellapproccio scientifico evidente anche nella Politica, come sottolineato in tuttoscienze del 13/3/1996; se ascoltiamo i discorsi dei politici ci accorgiamo che essi non hanno alcuna consequenzialit logica, lesposizione delle tesi non chiara e infatti spesso si sente un politico fare un affermazione e, tempo dopo, il suo esatto contrario. Non c da stupirsi che non si riescano a risolvere i problemi del paese... La cosa migliore quindi dibattere scientificamente (accettando anche la possibilit di non poter arrivare a una conclusione) ogni argomento provando le proprie affermazioni con i fatti e non con le chiacchiere; "Ut semper dicenda ex dictis pendeant": questo lapproccio scientifico.
28
2.9 CONCLUSIONI
Experience without theory teaches nothing (Deming 1986, pag.317) In questi capitolo abbiamo dunque scoperto che i problemi della Qualit non si risolvono seguendo ciecamente le idee di chicchessia ma solo usando la propria testa. Per scoprire la realt bisogna generare teorie, progettare esperimenti, acquisire ed analizzare i dati, interpretare i risultati dopo aver definito i rischi di sbagliare usando lintelligenza; il modo corretto usare il metodo scientifico, con coerenza e rigore (Galetto 1995). Non sufficiente dire che vogliamo raggiungere un obiettivo: bisogna sviluppare dei metodi per raggiungerlo e la Qualit dei metodi fondamentale: ci vale anche (e soprattutto) per gli obiettivi e i problemi riguardanti il campo della Qualit. Per sviluppare metodi di Qualit bisogna usare la Logica e la Statistica visto che la variabilit esiste sempre in tutti fenomeni, whether we like it or not: lapproccio scientifico la via maestra per risolvere i problemi. Ritengo che una degna conclusione del capitolo possa essere fornita dalle parole del fisico David Ruelle (1992); in esse mi pare condensata lessenza dello spirito scientifico: La riflessione scientifica seria pu essere unesperienza di grande ricchezza, ma anche un lavoro molto faticoso. Le idee devono essere seguite senza tregua, fino allossessione. Quando si intravede una possibilit interessante, si deve cercare di precisarla e di verificarla, cosa che conduce a volte a conservarla e pi spesso a rifiutarla. Si devono sviluppare idee generali e audaci, ma poi necessario verificarne i particolari, ed allora che, per lo pi, si scoprono errori disastrosi. Si deve allora riprendere la costruzione, si devono abbandonare certe idee e risistemare in altro modo quelle che rimangono. E il processo si ripete un giorno dopo laltro, una settimana dopo laltra, un mese dopo laltro.
29
CAPITOLO 3
DESIGN OF EXPERIMENTS
La fattoria di Rothamsted fu il luogo di lavoro di altri 2 grandi del DOE, Yates e Finney; Yates, in un famoso articolo del 1934, The Analysis of Multiple Classifications With Unequal Numbers in the Different Classes, studi gi molto approfonditamente uno degli argomenti principali di questa tesi (i piani con diverse ripetizioni negli stati di prova) proponendo addirittura 3 metodi di analisi, ancora oggi usati; Finney fu il primo a formalizzare il frazionamento dei piani fattoriali nel 1945; anche ai giorni nostri prosegue la grande tradizione della fattoria di Rothamsted col grande statistico Nelder, di cui parleremo nel cap.6 e 7. Nel 1946 appare su Biometrika uno degli articoli pi famosi sul DOE: Design of Optimal Multifactorial Experiments, di Plackett e Burmann, che utilizzarono la Teoria dei Gruppi e del campo di Galois e la geometria proiettiva, per costruire una teoria generale, basata sulle matrici di Hadamard, dei piani fattoriali ortogonali. Dallagricoltura si pens che i piani sperimentali si potessero applicare anche allindustria chimica: Box fu il pioniere in questo campo allImperial Chemicals Industries e nel 1951 un suo articolo, On the Experimental Arrangement of Optimum Conditions, segn la nascita della cosiddetta Response Surface Methodology (RSM); nel suddetto articolo anche spiegato il metodo che useremo nel cap.8 e 9 per trovare la struttura degli alias dei piani frazionati. Nel 1957 Box introduce il cosiddetto EVOP, EVolutionary OPerations, che contrariamente ai piani fattoriali non richiede grossi cambiamenti nei livelli dei fattori, essendo implementato su un processo gi operante. Negli anni 60 vi furono i primi studi teorici sui piani asimmetrici (con fattori a diversi livelli) e sulle frazioni irregolari, come i 3/4 di John, che vedremo nel cap.5; questi studi, essenzialmente teorici e basati su unalgebra piuttosto avanzata, furono condotti da Addelman, Margolin, John e Webb. Negli anni 70 il libro di Searle, Linear Models, formalizza la teoria generale dei modelli lineari attraverso luso del modello sovraparametrizzato (cap.7); il libro-chiave su cui si basano tutte le dissertazioni sui dati non ortogonali (unbalanced), di Speed, Hocking, Hendersson, Freund e Jennings; nel 1987 Searle fa un altro libro, il cui contenuto beneficia di tutte le discussioni fatte in quegli anni, Linear Models for Unbalanced Data. Negli anni 80, grazie ad unaccurata campagna pubblicitaria e al mito della Qualit giapponese, si afferma prepotentemente la metodologia di Taguchi, nella progettazione e analisi delle prove; i piani sperimentali iniziano a venire impiegati massicciamente nellindustria dei semiconduttori, seguendo le indicazioni dellingegnere giapponese. Limportanza che Taguchi d alla sperimentazione per raggiungere gli obiettivi di Qualit senza dubbio positiva e tale anche la propaganda di questo concetto; purtroppo Taguchi propone dei metodi molto discutibili da un punto di vista statistico (cap.11) e sebbene molti statistici di primo piano abbiano dimostrato linesattezza dei cosiddetti metodi Taguchi, lindustria sembra continui a gradirli molto. In questa breve panoramica storica sul DOE non ho ovviamente messo in luce tutti gli argomenti che si sono sviluppati in questo secolo perch ci vorrebbe unaltra tesi solo
31
per elencare i moltissimi studi nellambito dellexperimental design; sono stati evidenziati solo quegli argomenti che saranno oggetto di discussione nella presente tesi.
32
quantitativi, nel qual caso possono variare continuamente o discretamente; ogni fattore potr avere un effetto lineare, quadratico, cubico... e ognuna di questa componenti potr dar luogo a uninterazione con le componenti di altri fattori; qualitativi, nel qual caso non posso parlare di componente lineare, quadratica... ma posso fare dei confronti (contrasts) fra le risposte ai vari livelli del fattore; In questa tesi cercheremo di rendere sfumata la differenza fra i 2 tipi di variabile: considerando che gli effetti lineari, quadratici ... non sono altro che confronti fra le risposte ai vari livelli del fattore (analogamente alle variabili qualitative), codificando i livelli delle variabili quantitative, analogamente a quanto fatto con i fattori qualitativi, al fine di adottare un approccio unificato allanalisi dei piani sperimentali e di far vedere che i 3 tipi principali di analisi, regressione, ANOVA e ANCOV (par. 3.5) conducono agli stessi risultati, indipendentemente dal tipo di variabile presente nel piano. I fattori possono essere: fissi, se allo sperimentatore interessa confrontare solo i livelli considerati nellesperimento casuali, se i livelli considerati nellesperimento sono presi casualmente da una popolazione di livelli pi ampia. I modelli con fattori fissi vengono definiti in letteratura fixed models; quelli con fattori casuali random models; quelli con entrambi i tipi di fattori mixed models; per gli ultimi 2 tipi di modelli lanalisi pi complicata e mai completamente rigorosa: viene introdotto, rispetto allanalisi dei modelli fissi, il problema dei variance components, che non trattato in questa tesi.
piano con molti stati di prova pu essere per molto costosa per cui le esigenze economiche possono forzare una parziale casualizzazione; in questo caso, a rigore, bisognerebbe introdurre quello che in Lorenzen et el. (1993) chiamato restriction error: nella tesi non approfondiremo questo discorso. Inoltre, per piani con molti trattamenti, la randomization stessa pu indurre delle distorsioni a causa della non uniformit delle unit sperimentali: in questo caso entra in gioco il blocking. Il bloccaggio o controllo consiste appunto nel bloccare una variabile, solitamente di poca importanza, cosicch allinterno del blocco lambiente sperimentale sia il pi omogeneo possibile per non creare distorsioni; leffetto della variabile bloccata viene cos sottratto allerrore sperimentale. Solitamente si fa lassunzione che la variabile bloccata non interagisca con i trattamenti: viene dunque usato un modello additivo5 (fra trattamenti e blocchi) nellanalisi dei risultati. Abbiamo parlato dellerrore sperimentale o residuo: esso dovuto principalmente alla variabilit intrinseca del materiale, alla mancata uniformit dellesperimento e agli errori di misurazione (di qui limportanza che il misuratore e lo strumento siano congiuntamente in controllo statistico come ricorda Deming (1986) nel cap.8 del suo libro); per cercare di diminuire questo errore bisogna ripetere le prove (replication), il che serve anche a bilanciare leffetto di variabili sconosciute e di fattori di disturbo che possono agire in modo diverso da una prova allaltra; diminuendo lerrore sperimentale, cresce la precisione delle stime e dunque lefficienza del piano: se si riesce ad avere un residuo molto piccolo, si pu trascurare6 il fatto che gli stimatori siano un po correlati fra di loro rinunciando quindi a una completa ortogonalit del piano (cap.8). Sottolineiamo che, per il principio F2, lerrore sperimentale sempre presente in ogni misurazione, dunque coloro che affermano di aver realizzato un esperimento con residuo nullo, hanno capito poco dellexperimental design. Negli esperimenti non replicati non c nessun grado di libert per lerrore sperimentale dunque bisogna fare lassunzione (non sempre giustificata) che qualche effetto sia trascurabile, solitamente le interazioni di ordine pi elevato, e usarle come stima del residuo . altres vero che spesso nei piani completi si verifica quella che Fisher chiamava la hidden replication, nel senso che certe interazioni sono trascurabili quindi servono in realt meno stati di prova (rispetto a quelli del piano completo) e quelli in pi possono considerarsi una replicazione degli altri: nei piani completi tende quindi ad esserci una sorta di ridondanza, sfruttata nei piani frazionati, per ridurre il numero delle prove. Lultima osservazione da fare che nei metodi Taguchi non avvengono delle semplici replicazioni nello stesso stato di prova perch i fattori di disturbo (noise factor) vengono fatti variare sistematicamente (nellouter array): nel cap.11 vedremo che questa
costituisce una procedura inefficiente, come, del resto, la quasi totalit delle metodologie propugnate da Taguchi.
per certi livelli di un altro fattore in una struttura gerarchica: sono i cosiddetti nested designs. Se i fattori possono variare in modo continuo pu essere interessante costruirsi una grafico in cui la risposta, vista come una superficie nello spazio, viene proiettata sui piani composti dalle variabili indipendenti, a due, a due: osservando questi grafici, si riesce a capire quali sono i punti stazionari della superficie di risposta; questa la problematica della response surface methodology (RSM). Quando questa metodologia applicata su processi gi operanti in cui non si possono fare grossi cambiamenti nei livelli dei fattori (potrebbero peggiorare la produzione), si parla allora di evolutionary operations (EVOP): in questo modo si riesce a raccogliere informazione sul processo mentre la normale produzione pu continuare indisturbata. Infine abbiamo il robust design che, facendo uso dei piani sopra descritti, si propone un obiettivo diverso dal solito (che indagare la significativit degli effetti), cercando la miglior combinazione dei livelli per cui la risposta operi su un certo valore (target) con una dispersione minima; una problematica DOE in fase di ricerca.
Nel prosieguo della tesi sar importante distinguere i due tipi di situazione perch, voler studiare proprio leffetto di certe variabili pu causare una perdita di precisione nella stima della risposta; se invece si disposti a modificare le variabili di interesse stimo con pi precisione le variabili trasformate e quindi anche la risposta: questo discorso, che pu sembrare un po fumoso risulter pi chiaro, quando si parler di ortogonalizzazione nellanalisi dei piani sperimentali. Cosa significa che una variabile significativa? Nel cap.2 abbiamo visto che la caratteristica di un processo in controllo statistico ha una sua variabilit naturale, indotta da tante cause non controllate che, complessivamente, hanno un effetto ridotto: misuriamo tale variabilit con la varianza della caratteristica; un fattore ha un effetto significativo sulla caratteristica se un suo cambiamento provoca una variabilit superiore7 a quella naturale della caratteristica. Un altro obiettivo del DOE pu essere quello di ottimizzare una qualche funzione obiettivo; nella sperimentazione classica questo obiettivo era quasi sempre il valor medio di una variabile dipendente; Taguchi ha invece portato allattenzione degli specialisti di Qualit che, come funzione da ottimizzare, meglio considerare una loss function (cap.11), che tiene conto anche della varianza dei vari trattamenti, che nellanalisi classica considerata costante8. Il robust design, utilizzando queste idee, si propone, come abbiamo detto, di cercare la miglior combinazione dei livelli per cui la risposta operi su un certo valore (target) con una dispersione minima. Questa idea non di Taguchi (cap.11), sebbene molti pensino il contrario, tuttavia lingegnere giapponese ha avuto linnegabile merito di propagandarla. Unultima notazione riguarda la moderna distinzione che si fa oggi fra: on-line quality control, ovvero gestione della Qualit quando la linea produttiva gi operante: tipici strumenti statistici usati sono le carte di controllo off-line quality control, ovvero gestione della Qualit prima che il processo sia operativo, dunque nelle prime fasi del ciclo di sviluppo dei prodotti; il discorso che ho affrontato nel par. 1.5 in cui si diceva che gli strumenti statistici pi idonei in questa fase erano le tecniche di affidabilit congiunte con il DOE: il DOE uno strumento di prevenzione che serve a costruire la qualit nel prodotto. Invece spesso si identifica loff-line quality control col robust design; e si identifica il robust design con i metodi Taguchi che sono tuttaltro che robust ... Ricordiamoci allora che Taguchi non ha inventato loff-line quality control e che questultimo sempre stato usato dagli specialisti di Qualit che sapevano come ottenere la Qualit: vero che pochi manager si erano resi conto dellimportanza del DOE nella gestione della Qualit ma non per questo bisogna attribuire questa scoperta a Taguchi; e ricordiamoci che il robust design non una metodologia distinta dal DOE (come invece
7 8
Il termine superiore viene quantificato con il livello di fiducia (CL) dunque un concetto relativo. E quindi non influenza la loss function 37
viene dipinto in De Risi 1996), ma ne costituisce una particolare problematica ancora in fase di ricerca perch i metodi Taguchi non sono corretti statisticamente (cap.11).
Pu essere che vari piani sperimentali soddisfino le nostre esigenze: in tal caso, bisogna scegliere quello che ci d la precisione massima delle stime che vogliamo effettuare: notiamo che la teoria statistica, se usata correttamente, ci d molte informazioni prima che le prove siano fisicamente effettuate; anche per questo Hahn et al. (1976)
Lanalogia con un processo giudiziario presentata in Galetto (1995) rende molto bene lidea dei 2 tipi di errore 38
9
consigliano di avere, prima di eseguire il piano, una stima dello s.q.m. dellerrore sperimentale, visto che gli s.q.m. degli stimatori sono tutti proporzionali ad esso: in questo modo, prima delle prove, possiamo sapere approssimativamente la precisione delle nostre stime. Se i piani esaminati che soddisfano le nostre esigenze di precisione, hanno un costo che supera il budget a disposizione, meglio considerare anche la possibilit di non eseguire lesperimento. Concludo il paragrafo sottolineando che la sperimentazione, se fatta in modo scientifico, pu rendere molto dal punto di vista economico. Galetto ha realizzato un esperimento presso uno stabilimento di Desenzano, della Borgonova, unazienda metalmeccanica produttrice di pistoni e segmenti per motori di autoveicoli; lesperimento riguardava un processo di cromatura dei segmenti per motori automobilistici, e lanalisi corretta dei risultati ha permesso di ottimizzare la combinazione dei parametri riducendo il tempo di cromatura, realizzando: un aumento di produttivit del 17%, corrispondenti a circa 200 milioni allanno un risparmio di energia per circa 20 milioni allanno un risparmio di acido cromico per circa 28 milioni allanno una riduzione della difettosit del prodotto per 210 milioni allanno Visto che ci sono in ballo tanti soldi, vale la pena di progettare e analizzare bene lesperimento.
Y = A + B*X + dove assunto che: E()=0 VAR() = 2 Notiamo che, se il modello corretto, Y una variabile casuale che ha la stessa forma di distribuzione dellerrore sperimentale . Scopo della regressione stimare i 2 parametri A e B, sulla base di una serie di Ni osservazioni sperimentali Yij fatte per ogni livello di X, Xi; in tutto abbiamo N=Ni dati; la stima fatta seguendo il metodo dei minimi quadrati che minimizza la somma dei quadrati degli errori sperimentali osservati:
min A, B
(Y
N i =1 j =1
Ni
ij
A B * Xi
La procedura di minimizzazione d luogo alle equazioni normali. Si trova che le stime dei parametri, a e b, sono combinazioni lineari delle osservazioni sperimentali yij; quindi se lerrore sperimentale distribuito normalmente, allora anche gli stimatori a e b sono distribuiti normalmente. Lassunzione di normalit dellerrore sperimentale giustificata se pensiamo che su Y agiscano tantissimi altri fattori (variabili casuali) che si compensano dando un effetto complessivo nullo, che, in base al teorema del limite centrale10, distribuito normalmente. Sui parametri vengono poi fatti dei test di ipotesi o degli intervalli di fiducia, cosicch si riesce a costruire un modello per la risposta media col relativo intervallo di fiducia per prevedere in che limiti si manterr in futuro la risposta. Attenzione: si pu prevedere solo se la risposta era in controllo statistico quando si fatta la stima e la risposta permane in controllo statistico ovvero se il futuro si mantiene uguale al passato. Quando abbiamo pi di una variabile, conviene usare la forma matriciale per scrivere il modello: Y=X*
10
Non per nella versione che si trova sui libri di Statistica, dove assunto che le variabili sono identicamente distribuite e indipendenti. Nel nostro caso i fattori (variabili casuali) possono avere distribuzioni diverse ed essere correlati fra di loro. 40
dove in X ci sono i valori sperimentali della X, o delle loro codifiche (allocated codes) come vedremo nei cap.7 e 8, e il vettore contenente i parametri da stimare. La forma matriciale delle equazioni normali : (XT*X)* = XT * Y essa sar ampiamente usata nel prosieguo della tesi. Notiamo che questo metodo era gi del tutto noto a Gauss nel 1796, che lo usava per i suoi calcoli in astronomia e non per niente il teorema che sancisce lottimalit degli stimatori provenienti dalle equazioni normali, detto teorema di Gauss-Markov (cap.7). 3.7.2 ANOVA Questa analisi nellimpostazione originaria di Fisher serviva a capire se c differenza significativa fra le risposte medie effettuate per diversi livelli qualitativi di un fattore; in altre parole se il fattore influisce in modo non casuale sulla risposta: casuale vuol dire dovuto a tutti fattori non controllati nellesperimento, che hanno uninfluenza ridotta (si spera!!!) sulla risposta. Consideriamo la classica ANOVA one-way, con un fattore X a p livelli: X1 Y11 Y12 ... Y1N1 X2 Y21 Y22 ... Y2N2 ... ... ... ... ... Xp Yp1 Yp2 ... YpNp
dove N=N1 + N2 + ... + Np il numero totale dei dati. Lipotesi nulla che vogliamo testare che il fattore X non abbia influenza su Y, ovvero che le varie risposte abbiano media e varianza uguali; nellANOVA classica si suppone che la varianza sia la stessa11 nei p trattamenti quindi resta da testare il fatto che le medie siano uguali. Lipotesi nulla che facciamo allora: H0: 1 = 2 = ... = p Se lipotesi nulla vera possiamo pensare che tutte le risposte sperimentali Yij siano costituite dalla media pi un disturbo casuale, il cui valore atteso nullo: Y= + E() = 0
11
VAR() = 2 dunque VAR(Y) = 2 Se ci vero lerrore sperimentale consiste nella differenza fra i valori osservati di Y e la risposta media stimata, chiamata anche grande media. La somma dei quadrati di tali errori sperimentali, chiamata anche somma totale corretta dei quadrati, SScor, dunque:
(Y
p Ni i =1 j =1
ij
p Ni 2 = Yij N * Y = SStot SS i =1 j = 1
dove SStot la somma dei quadrati delle risposte e SS il cosiddetto fattore di correzione; se vera lipotesi nulla, SStot, diviso per i suoi gradi di libert, N-1, uno stimatore corretto della varianza 2, poich posso trattare tutti dati come se non fossero stratificati. SScor pu essere scomposta in 2 termini, uno legato alla varianza delle medie Yi. dei trattamenti rispetto alla grande media, SStr; laltro legato alla varianza allinterno dei trattamenti, chiamato SSe: questultimo, diviso i gradi di libert, n-p, sempre uno stimatore corretto della varianza della risposta Y perch una varianza pooled delle varianze dei vari trattamenti. Partendo dallidentit:
Yij Y = Yij Yi . + Yi . Y
= Yij Yi .
i =1 j = 1
Ni
2 + N i * Yi . Y = SSe + SStr i =1
Questa decomposizione pu essere vista anche geometricamente se pensiamo a Y come un vettore le cui N componenti sono le N risposte Yij, che possono essere scomposte in 3 elementi, secondo lidentit: Yij = Y + Yi . Y + Yij Yi .
) (
corrispondenti ai 3 vettori I, T, E:
Y=I+T+E
42
come si vede dalla fig.1 (che comprime uno spazio N-dimensionale in uno tridimensionale) i 3 vettori sono ortogonali e quindi su di essi si pu applicare il teorema di Pitagora, esteso a N dimensioni: i quadrati dei loro moduli rappresentano le varie somme dei quadrati che abbiamo introdotto. Chi volesse approfondire la spiegazione geometrica dellANOVA, pu consultare Box et al. (1978).
E I+T I
Figura 7: interpretazione geometrica dellANOVA (Box et al.1978).
Se vera lipotesi nulla, allora SScor, diviso i suoi gradi di libert, non deve essere significativamente diverso da SSe, diviso i suoi gradi di libert; quindi lipotesi nulla di partenza: H0: 1 = 2 = ... = p del tutto equivalente a: H0: SScor/(N-1) = SSe/(N-p) e questa, ricordando che SScor = SSe + SStr , equivalente a:
H0: SStr/(p-1) = SSe/(N-p)
Questultima la forma in cui viene testata lipotesi nulla nellANOVA; infatti a questo punto viene fatta lassunzione di normalit dellerrore e quindi di Y cos le somme di quadrati, divisi per i rispettivi gradi di libert, sono delle 2 e i loro rapporti sono delle F visto che il teorema di Cochran (cap.7) sancisce la loro indipendenza. La classica tabella ANOVA la seguente:
43
Sorgente
Quadrati medi
F calcolata
Qualcuno aggiunge alla tabella una sesta colonna col livello di probabilit di F a cui corrisponde la F calcolata (i famosi P-values): una procedura che noi non seguiremo in quanto pensiamo che vada contro lapproccio scientifico del cap.2: bisogna
decidere prima delle prove quanto vogliamo rischiare per calcolare quanta informazione ci serve. Quindi semplicemente confrontiamo la F calcolata con la F che corrisponde al livello di fiducia prestabilito, e decidiamo se i trattamenti hanno effetto
significativo sulla risposta o no. Notiamo che lipotesi nulla testata ci dice solo se esiste almeno un trattamento che influenza la risposta, non dice quali sono, dunque nasconde leffettiva sorgente di variabilit: conviene allora sempre scomporre SStr in somme dei quadrati che spiegano i confronti (contrast, cap.4) fra le varie medie. Abbiamo detto che:
2 SStr = N i * Yi . Y i =1 p
44
Questi modelli danno luogo a una regressione multipla per cui vale di nuovo la forma matriciale delle equazioni normali:
(XT*X)* = XT * Y
Lintroduzione delle equazioni normali nellANOVA (metodo G nel cap.7 e 8) costituisce una procedura nota da tempo12, anche se pochi libri di Statistica ne parlano. Riprendiamo la suddivisione che abbiamo fatto della somma dei quadrati delle risposte:
SStot = SS + SStr + SSe
Essa vale sempre, anche con: pi di 1 fattore13; si divide SStr in somme dei quadrati che spiegano leffetto dei fattori e delle loro interazioni, variabili bloccate; si divide SSe nellerrore sperimentale puro SSep (a cui bisogna riferirsi nel test F) e nella somma dei quadrati spiegata dalleffetto dei blocchi SSbl; in alternativa si pu pensare a una variabile fittizia i cui livelli sono pari al numero dei blocchi, da inserire fra i trattamenti e quindi SSbl finisce per far parte di SStr: la sostanza non cambia, stati di prova mancanti, cosa che accade nei piani frazionati (cap.4) regolari e irregolari, la regressione (par. 3.6.1) in quanto possiamo considerare i vari livelli del fattore quantitativo come trattamenti; da quanto abbiamo visto le somme dei quadrati non dipendono dalla X, ma solo dalla Y, e quindi possiamo codificare (cap.8) a piacere i livelli di X; se col test t alcuni parametri della regressione sono significativi anche le somme dei quadrati associate a tali parametri nellANOVA, sono significative col test F. 3.7.3 ANCON Lanalisi dei contrast consiste nel confrontare le medie dei vari trattamenti; i contrast sono appunto combinazioni lineari delle medie tali che la somma dei coefficienti della combinazione lineare uguale a zero. Nel cap.4 vedremo che questo metodo il pi usato nei piani fattoriali bilanciati dove, col metodo di Yates, si riescono a calcolare
12
Per quanto ne so il primo a introdurla fu Yates nel 1934, come riferiscono Nelder (1974) e Speed et al.(1978).
13
Con pi fattori, si possono vedere i vari stati di prova come tanti trattamenti di uno stesso fattore: questo un punto che non ho mai visto essere messo in evidenza sui libri di DOE. 45
facilmente i contrast di interesse, e vedremo che ad ogni contrast associata sempre una somma di quadrati. Questa analisi anche alla base del modello full-rank che vedremo nel cap.8 e dal punto di vista ingegneristico e senzaltro la pi facile da capire. 3.7.4 ANCOV Lanalisi della covarianza, che integra la regressione e lANOVA, in origine era fatta quando si avevano delle variabili quantitative e una qualitativa. Prima si fittano i dati come se i livelli della variabile qualitativa non fossero influenti, trattando quindi le risposte ai vari livelli come semplici replicazioni e poi, invece fittando dei modelli diversi per ogni livello della variabile qualitativa. Facendo lANOVA, ogni modello ha una sua somma dei quadrati e, facendo opportune differenze fra di esse, si capisce leffetto della variabile qualitativa e le sue possibili interazioni con i fattori quantitativi. Non ci dilunghiamo ora su questa procedura, in quanto verr trattata ampiamente nel cap.6. 3.7.5 TRASFORMAZIONI DI VARIABILI In tutti 3 tipi di analisi vengono solitamente fatte le 3 assunzioni seguenti sugli errori sperimentali: indipendenza degli errori sperimentali nellosservazione errori sperimentali distribuiti normalmente varianza dellerrore sperimentale costante in ogni stato di prova (omoschedasticit) In Miller et al. (1990) si dice che anche se queste ipotesi non sono verificate, lANOVA, si mantiene un procedura valida; in Stephens (1996) si riporta che, se non c omoschedasticit, lerrore di I specie non cambia anche se diminuisce lerrore di II specie. Consideriamo inoltre che lipotesi di normalit fatta solo quando si fa il test di ipotesi sulla significativit dei parametri; se gli seguono altre distribuzioni, in teoria si pu ricavare la distribuzione delle loro somme di quadrati, e del rapporto di questa: bisogna vedere se ne vale la pena; Steinberg e Hunter (1984) riferiscono che Pearson nel 1931 aveva scoperto che lANOVA robusta allassunzione di normalit. Tuttavia se le 3 ipotesi non sono verificate statisticamente, pu essere molto utile trasformare le variabili affinch esse siano verificate. In particolare si trova che per una grande quantit di esperimenti la varianza dellerrore tende a crescere con la media della risposta, nel qual caso una trasformazione logaritmica della risposta pu rendere costante la varianza. La trasformazione logaritmica pu essere anche molto utile a smussare leffetto delle interazioni se il modello risposta - fattori moltiplicativo e quindi pu semplificare lanalisi; ci non significa che bisogna assumere acriticamente la bont della trasformazione logaritmica (cosa che pu parzialmente giustificare il signal to noise nei metodi Taguchi, cap.11): uno deve studiare, volta per volta, qual la trasformazione che
46
meglio si adatta alla situazione per semplificare lanalisi, considerando anche la non trasformazione dei dati (Box 1988), se non c evidenza statistica per rifiutare la validit delle 3 assunzioni classiche.
Induzioni
Deduzioni
Induzioni
Deduzioni
Una ipotesi iniziale conduce, attraverso un ragionamento deduttivo, a certe conseguenze che possono confrontate con i dati a disposizione. Le differenze fra le conseguenze dedotte teoricamente e i dati pratici sperimentali possono condurre, con un ragionamento induttivo alla modifica delle ipotesi i partenza e cos riinizia un nuovo ciclo di iterazione.
47
Le conseguenze relative alle ipotesi modificate sono nuovamente confrontate con i dati (vecchi e nuovi) che possono condurre a ulteriori modifiche, guadagnando comunque sempre maggior conoscenza del fenomeno in esame; i dati nuovi generati dipendono sempre dalle ipotesi correnti in corso di verifica. Il progetto del piano sperimentale rappresentato da una finestra mobile, attraverso la quale alcuni aspetti dello stato reale del fenomeno, sempre distorto dal rumore, possono essere osservati: se posizioniamo male la finestra (leggi progettiamo male la prova) osserviamo aspetti del fenomeno che non ci interessano.
Piano sperimentale
Finestra mobile
Rumore
Nuovi dati
Induzione
Ipotesi corrente H
Deduzione
Conseguenza dellipotesi Hi
Hi := Hi+1
Figura 9: determinazione e analisi dei dati nella sperimentazione scientifica (Box 1976)
48
Dalla figura 4 vediamo che, anche se le nostre congetture sono errate, i dati sono sempre comunque generati dal fenomeno: ecco perch, se ci basiamo solo su di essi il continuo aggiornamento delle ipotesi il confronto delle congetture riguardo lo stato di natura con i dati reali pu condurre alla convergenza verso la reale conoscenza del fenomeno stesso: attenzione dunque ai metodi bayesiani, che aggiungono allanalisi che non provengono dal fenomeno (Galetto 1989c). Questa filosofia scientifica, formalizzata da Box (1976), in contrasto con quella di Taguchi, che invece non vuole avanzare lo stato di conoscenza del fenomeno (Nair 1992), ma solo ottimizzare una certa funzione obiettivo trascurando a priori elementi che potrebbero essere importanti. The ultimate objective of the experimental investigation must surely be to understand the engineering system (Box in Nair 1992)
49
CAPITOLO 4
La nozione di alto e basso ha senso solo con variabili quantitative, per quelle qualitative solo fittizia. Fra le variabili pu essercene anche qualcuna bloccata, se vi sono solo 2 blocchi. 50
15
sono al livello alto e il secondo al livello basso; la lettera i indica lo stato di prova con tutti fattori al livello basso. Questo tipo di notazione chiaramente non pu essere estesa a fattori con pi di 2 livelli. 3. ogni stato associato a un numero che corrisponde alla sua posizione nellordine canonico di Yates (tab.1) Per chiarire le idee tracciamo la corrispondenza fra i 3 tipi di notazione per un piano a 3 fattori: 000 i 1 100 a 2 010 b 3 110 ab 4 001 c 5 101 ac 6 011 bc 7 111 abc 8
Lordine in cui sono stati messi lordine di Yates, che prende in considerazione i fattori in sequenza cos si possono aggiungere altri stati corrispondenti ad altri fattori senza modificare lordine iniziale. Puntualizzo che nel seguito le codifiche dei trattamenti, oltre ad indicare gli stati di prova indicheranno anche la stima della media della risposta in quei trattamenti: ad esempio se nello stato ab si sono effettuate 2 misure della risposta, rispettivamente 25 e 27, ab sar uguale a 26. La tecnica di analisi pi comune per questi piani lANOVA, che, come abbiamo detto, aiuta a distinguere se, cambiando di livello un fattore, la risposta Y varia in modo significativo, ovvero in modo superiore alla variazione dellerrore sperimentale; si fa lipotesi che questultima sia costante per la risposta in ogni stato di prova ovvero: Yijkr = ijk+ ijkr VAR (Yijkr) = VAR (ijkr) = 2 = cost dove gli indici i, j e k indicano il livello dei primi fattori mentre r indica le ripetizioni nello stato (i,j,k). Oltre allANOVA usatissima lANCON ovvero lanalisi dei contrast; nel par. 4.2 definiremo rigorosamente un contrast; per ora cerchiamo una rappresentazione intuitiva come quella, nel caso di 3 fattori, di un cubo sui cui vertici vengono posti gli 8 stati di prova:
51
bc
abc
ac
ab
Questa rappresentazione grafica molto utile perch permette di giustificare intuitivamente il calcolo dei vari effetti. Infatti ci interessa capire se, passando da un livello allaltro dei vari fattori, la risposta cambia in modo significativo e la cosa pi logica appare confrontare le risposte che si hanno quando il fattore al livello alto e quelle al livello basso. Per ora supponiamo che in ogni stato di prova vi sia lo stesso numero di replicazioni, cos che lo stesso considerare le medie o i totali dei vari trattamenti. La stima delleffetto del fattore A dunque: A = abc + ab +ac + a - i - b - c - bc Questa relazione si presta ad interessanti osservazioni: sul cubo si vede che praticamente si confrontano 2 facce opposte (quella con gli stati ombreggiati e laltra). Si pu pensare di fare analogamente per i fattori B e C questa relazione scritta su tutti libri di DOE ma non mi ricordo nessuno che puntualizzi se le lettere indicano i totali o le medie delle risposte nei vari stati di prova; per ora supponiamo che vi siano uguali ripetizioni per ogni trattamento, dunque il valore A cambia solo per un fattore moltiplicativo16 se passiamo dalle medie ai totali sar opportuno ricordarsi della relazione sopra quando si introdurr il frazionamento e gli alias (par. 4.5)
16
Vedremo che questo fattore non influenza la somma dei quadrati spiegata dal fattore A. 52
i termini della relazione rappresentano le stime ma potrebbero essere anche i parametri della popolazione oppure i rispettivi stimatori: pi avanti cercher di distinguere fra le 3 situazioni anche se mi pare che la distinzione sia evidente dal contesto. Ripensando allANOVA, abbiamo 8 trattamenti, dunque la somma dei quadrati SStr spiegata da essi ha 7 gradi di libert; come abbiamo detto (par. 3.6.2) conviene dividere questa SStr in 7 componenti per mettere in evidenza le effettive sorgenti di variabilit: 3 di queste componenti le abbiamo individuate, sono gli effetti dei fattori A, B e C, ovvero i 3 confronti fra le facce opposte del cubo; e le altre? A parte la media (il cui grado di libert non rientra in quelli di SStr17) che la somma delle medie di tutti gli stati di prova. I = abc + ab +ac + a + i + b + c + bc le altre 4 componenti rappresentano le cosiddette interazioni fra i fattori a coppie (interazione del primo ordine), e fra i 3 fattori (interazione del secondo ordine); consideriamo linterazione fra i fattori A e B: essa si manifesta quando il comportamento di Y in funzione di A, cambia a seconda dei livelli di B18. Pu essere calcolata confrontando le risposte nei trattamenti in cui A e B sono allo stesso livello: AB = abc + ab + c + i - a - b - ac- bc Esso corrisponde al confronto di 2 piani diagonali nel cubo: bc abc
ac b ab
17
Nella convenzione assunta nel par. 3.7.2. Il significato dellinterazione si capir meglio con lanalisi della covarianza nel cap.6. 53
18
Analogamente si pu fare per le interazioni AC e BC; per calcolare leffetto dellinterazione del secondo ordine ABC, si confrontano tutti gli stati di prova in cui un numero dispari dei fattori A, B e C hanno il livello alto, con gli altri stati. ABC = abc + a + b + c - i - ab - ac - bc Sul cubo pu essere visto come il confronto fra i 2 tetraedri:
bc
abc
ac
ab
In generale, per stimare leffetto di un fattore basta sommare le medie di tutti gli stati in cui il fattore al livello alto meno quelle dove il fattore al livello basso. Per stimare leffetto di un interazione bisogna vedere quanti fattori coinvolge linterazione: 1. Se essi sono in numero pari, si sommano tutte le medie degli stati con un numero pari di quei fattori al livello alto e si sottraggono le altre medie. 2. Se essi sono in numero dispari, si sommano tutte le medie degli stati con un numero dispari di quei fattori al livello alto e si sottraggono le altre medie. Sottolineo che intuitiva la formula per il calcolo degli effetti di un fattore ma non affatto intuitiva quella per le interazioni. Comunque il calcolo pi facile a farsi che a dirsi; supponiamo di avere 5 fattori A, B, C, D, E (vi sono dunque 25 stati di prova) e che vogliamo calcolare linterazione del quarto ordine ABCDE: essa coinvolge un numero dispari di fattori quindi dobbiamo sommare tutte le medie degli stati in cui vi un numero dispari di fattori al livello alto e sottrarre le altre. Il risultato : ABCDE = abcde + abc + abd + abe + acd + ace + ade + bcd + bce + bde + cde + a + b + c + d + e
54
Questi calcoli diventano molto pesanti, allaumentare del numero di fattori per cui abbiamo bisogno di un algoritmo che calcoli gli effetti in modo meccanico (metodo di Yates nel par. 4.5).
4.2 I CONTRAST
Un contrast C* una combinazione lineare delle medie i nei vari stati di prova, tale che la somma di tali coefficienti uguale a zero. Con n fattori abbiamo 2n stati di prova distinti dunque:
*
C =
c
i =1
2n
* i
c
i =1
2n
=0
c
i =1
2n
* ni = 0
chiaramente sbagliata, oltre che fuorviante quando si passa agli stimatori del contrast e allesame di piani con diverse replicazioni per ogni stato. Notiamo lassurdit a cui ci porterebbe la condizione di Galetto in un esempio facile con un solo fattore a 2 livelli, 1 e 2: ci sono dunque 2 stati di prova; supponiamo di avere una numerosit n1=5 per il primo stato di prova e n2=10 per il secondo; i 2 parametri che rappresentano le medie nei 2 stati di prova sono 1 e 2 ; seguendo la definizione di Galetto, 1 - 2 non sarebbe un contrast (!!!) perch non soddisfa la condizione (1): 1*5-1*10 = -5 0 mentre 21 - 2 sarebbe un contrast (!!!) perch soddisfa la condizione (1): 2*5-1*10 = 0 Comunque basta prendere un qualunque libro che parli di contrast (ad esempio Searle 1987 o Wheeler 1988) per rendersi conto dellerrore. I contrast ammettono i seguenti stimatori corretti:
C=
c
i =1
2n
* yi
Le notazioni che usiamo sono: risposta (v.c.) j-ma nello stato i Yij
55
yi
Ti ni
stimatore (v.c.) della media i dello stato i totale (v.c.) dello stato i numerosit dello stato i
Per definizione abbiamo che: yi = Ti/ni dunque lo stimatore del contrast pu essere scritto anche in forma dei totali:
2 c C = i * Ti = k i * Ti i =1 ni i =1 2n
n
dove
ki =
ci ni
k
i =1
2n
* ni = 0
Per le ipotesi classiche (par 3.7), Yij una variabile casuale con media i e varianza costante, e gli errori sperimentali delle risposte sono indipendenti: Yij = i + ij E(ij) = 0 E(Yij) = i E( yi ) = i VAR(ij) = 2 VAR(Yij) = 2 VAR( yi ) = 2 / ni COV(ij, kr) = 0 COV(Yij, Ykr) = 0 COV( yi , yi ' ) = 0 i, j i,j i i, j i, j i ij, kr ij, kr ii
Sulla base di queste ipotesi possiamo testare se il contrast significativamente diverso da zero: H0: C* = 0 Sappiamo per che per testare un ipotesi dobbiamo introdurre la distribuzione delle variabili casuali in gioco. Come gi detto per gli errori si usa la normale in virt del teorema limite centrale: ij N(0, 2) dunque, viste le assunzioni fatte:
56
Yij N(, 2) yi N(, 2/ni) C N( E(C), VAR(C)) Possiamo allora trovare il valore atteso e, soprattutto, la varianza dello stimatore del contrast C:
E (C) =
c
i =1
2n
* i = C*
VAR (C) =
ci 2 *
i =1
2n
2
ni
Se conoscessimo il valore di 2 potremmo usare la normale nel test di ipotesi ma poich dobbiamo stimarlo dobbiamo usare la t di Student. Nel par. 3.7 abbiamo visto che uno stimatore sempre corretto di 2 rappresentato dalla somma pesata delle varianze campionarie dei vari trattamenti:
)2
SSe 2n ni 2 n i =1
(Y
i =1 j =1
2n
ni
ij
Yi
2 n ni 2 n i =1
vale ovviamente nei piani completi dove vengono sperimentati effettivamente 2n stati di prova; nei piani ridotti dove ci sono p effettivi stati prova bisogna sostituire p a 2n nella formula dello stimatore di 2 e dei suoi g.l.. Diciamo che il contrast significativamente maggiore19 di zero, con un livello di fiducia (CL) (1-), se:
C > t v, 1- *
c
i =1
2n
2
ni
2n
C ' = c' i * y i
COV (C , C ') = E [(C E ( C ) ) * (C ' E ( C ') )]
n 2n 2 COV (C , C ') = E ci * y i i * c' i * y i i i =1 i =1 n 2 2 COV (C , C ') = E ci * c' i * y i i + ci * c' j * y i i * y j j i j i i =1
2n
i =1
) (
Il secondo termine nullo perch rappresenta la sommatoria delle covarianze fra gli i, i stimatori delle medie degli stati di prova ma, per ipotesi: COV( yi , yi ' ) = 0 dunque:
COV (C , C ') = ci * c' i *E y i i
i =1 2n
) = c * c' * n
2n i =1 i i
dunque abbiamo la propriet notevole che 2 stimatori di contrast sono non correlati20 se e solo se: 2n c * c' in i =0 i =1 i quando la condizione sopra verificata i 2 contrast sono detti ortogonali e secondo la terminologia classica un piano con n trattamenti detto ortogonale se vengono stimati n-1 contrast ortogonali fra di loro. Notiamo che la condizione di ortogonalit sui contrast nuovamente errata in Galetto (1995) perch tale condizione deriva necessariamente da quella di non correlazione degli stimatori dei contrast; le equazioni normali non hanno niente a che vedere con questo discorso: nel cap.7 vedremo che le equazioni normali portano alle funzioni stimabili (qualunque combinazione lineare delle medie i) ma queste non vanno confuse con i contrast; anticipiamo che: ogni contrast una funzione stimabile non tutte le funzioni stimabili sono dei contrast Plackett e Burman nel 1946 avevano trovato che le matrici di Hadamard (par. 4.4) permettono di avere dei contrast ortogonali con coefficienti -1 e +1. In generale se il piano completo ovvero vengono sperimentati tutti gli stati di prova e le numerosit degli stati sono uguali il piano ortogonale.
20
2
ni
invertendo questa formula vediamo che riusciamo a legare la stima della varianza della popolazione con quella della varianza dello stimatore C del contrast visto che 2 costante e visto che abbiamo supposto indipendenti gli stimatori delle medie negli stati di prova (quindi covarianze nulle fra gli stimatori delle medie degli stati di prova) e indipendenti anche le variabili casuali le cui determinazioni sono i dati nei singoli stati di prova; la varianza dello stimatore del contrast pu essere sviluppata ricordando la nota formula: VAR(C ) = E (C 2 ) [ E (C )]2 per cui vediamo che la stima della varianza di C dipende dal valore atteso dello stimatore del contrast; ma a noi interessa testare lipotesi nulla che E(C)=0 per cui otteniamo
una stima della varianza di C, posto che sia vera lipotesi nulla.
VR(C) = C2
ora evidente che la stima della varianza della popolazione con 1 grado di libert, se vale lipotesi nulla, :
C 2 =
C2 = SS(C)21 2 2n c ni i =1 i
se lipotesi nulla da rifiutarsi, la quantit sopra sovrastima la varianza della popolazione di una quantit legata al valor medio dello stimatore del contrast E(C) al quadrato. Per capire se questa differenza significativa si possono confrontare la SS(C) e la stima della
21
Notiamo che in Galetto (1995) la formula ancora errata perch Galetto non lega i contrast con i loro stimatori. 59
completi):
)2
SSe 2n ni 2 n i =1
(Y
i =1 j =1
2n
ni
ij
Yi
2 n ni 2 n i =1
Dunque, facendo il test F, rifiutiamo lipotesi nulla con un livello di fiducia (1-), ovvero diciamo che il contrast significativamente diverso da zero se: (1)
SS (C ) ) 2 > F1,v ,1
Se consideriamo che F1, v, 1- = t2v, 1- (Galetto 1995), vediamo che la (1) identica ai 2 test di ipotesi dellANCON:
C > t v, 1- * C < - t v, 1- *
c
i =1 2n i =1
2n
*
2
2
ni *
2
ni
Ci perfettamente logico perch usando metodi diversi (test t e F) per una stessa ipotesi nulla il risultato deve (principio F1) essere lo stesso; nel prosieguo della tesi faremo ampiamente uso della formula di SS(C), essa rappresenta uno strumento potentissimo per poter passare dai contrast alle somme di quadrati usate nellanalisi della varianza: ne apprezzeremo lutilit quando introdurremo la non ortogonalit con stati di prova mancanti e con numerosit diverse; infatti di portata assolutamente generale stanti ovviamente le ipotesi fatte: 1. la varianza della popolazione costante ovvero VAR (yij) = 2 = cost, 2. le medie degli stati di prova non sono correlate fra loro ovvero COV ( y j , y k ) = 0 per ogni j k, dove j e k indicano gli stati di prova, 3. le risposte nei singoli stati di prova sono fra loro indipendenti, ovvero COV (yi, yj)= 0 per ogni i j, allinterno di ogni stato di prova. Stranamente tale formula non si trova su molti libri di DOE, e Fornasieri (1995) dimostra di non conoscerla quando afferma a pag.72 che non si pu applicare il metodo di Yates quando le numerosit sono differenti. Infatti di solito si conosce solo la formula semplificata quando la numerosit degli stati di prova costante (ni = r)
60
SS(C) = r * C2 / 2n
Come si vede, SS(C) non cambia se i coefficienti del contrast (e del conseguente stimatore) vengono moltiplicati per una costante k: C ' = k * ci * yi
i =1 2n
Qual il contrast rappresentante leffetto A? In letteratura si trovano almeno 6 tipi differenti di contrast, che differiscono solamente per un fattore di proporzionalit: 1. Si pu pensare di sommare le medie22 degli stati in cui A al livello alto meno le altre dunque in questo caso la determinazione dello stimatore del contrast sarebbe:
22
ovvio che adesso sto parlando delle stime delle medie perch nella formula sotto ci sono dei numeri, che sono le determinazioni degli stimatori dei parametri medie; anche se uso lo stesso termine per non appesantire la notazione, spero che il lettore non si lasci confondere. 61
2. 3.
4.
5.
6.
A = 25+25,5+24+28-30,5-24-29,5-28,5 = -10 Si pu pensare di sommare i totali degli stati in cui A al livello alto meno gli altri: A = 50+51+48+56-61-48-59-57 = -20 Possiamo sommare le medie degli stati in cui A al livello alto meno le altre e dividere tutto per il numero di stati in cui A al livello alto: A = -10 / 4 = -2,5 Possiamo sommare i totali degli stati in cui A al livello alto meno le altre e dividere tutto per il numero di stati in cui A al livello alto: A = -20 / 4 = -5 Possiamo sommare le medie degli stati in cui A al livello alto meno le altre e dividere tutto per il numero di stati totali: A = -10 / 8 = -1,25 Possiamo sommare i totali degli stati in cui A al livello alto meno le altre e dividere tutto per il numero di stati totali: A = -20 / 8 = -2,5
Non tutti specificano a che contrast si riferiscono per calcolare leffetto ma per fortuna la somma dei quadrati associati ad A non influenzata dal tipo di contrast usato: infatti nel nostro esempio la sua determinazione sempre: SS(A) = 25 Il risultato si ricava subito dalla formula che abbiamo scritto quando la numerosit degli stati costante e pari a r (in questo caso r=2 e n=3) quando il contrast scritto con le medie e i coefficienti sono tutti +1 o -1, ovvero dal primo dei 6 contrast che abbiamo scritto, A = -10. SS(A) = r * A2 / 2n Quindi usiamo pure la forma di contrast che pi ci aggrada, purch siamo consapevoli di quale stiamo usando perch altrimenti non sappiamo come calcolare la SS(A) che, lo ripetiamo, non deve cambiare al variare della forma che usiamo per i contrast rappresentanti gli effetti.
62
Sia i trattamenti che gli effetti sono messi nellordine canonico di Yates e questo ci consente di poter aggiungere un altro fattore e, conseguentemente, altri stati di prova senza dover alterare la tabella iniziale. Nel capitolo 8 vedremo che scrivendo il modello associato al piano fattoriale in forma full regression, la tabella rappresenta la matrice X di tale modello scritto in forma matriciale: Y=X* Vista come matrice, le colonne e le righe si possono considerare dei vettori: ci si accorge che la tabella presenta una propriet molto importante ovvero i vettori riga e colonna sono tutti ortogonali fra di loro; visto che tali vettori contengono i ci dei contrast, se la numerosit degli stati costante, si dice che i contrast sono: ortogonali il che deriva dal fatto che i vettori formati dai ci che sono ortogonali; conseguentemente gli stimatori dei contrast sono non correlati. La tabella rappresenta dunque una matrice ortogonale (a meno di un fattore moltiplicativo) composta da -1 e +1 ovvero una matrice di Hadamard, il tipo di matrice che Plackett e Burman nel 1946 hanno usato per trovare una teoria unificata sui piani sperimentali ortogonali. Le matrici di Hadamard danno allora sempre dei contrast ortogonali? No, solo se la numerosit degli stati di prova uguale perch altrimenti le covarianze fra gli stimatori dei contrast non sono pi nulle: nessuno mette in evidenza in
23
questo importantissimo punto. Gi ora iniziamo ad intuire che la nozione di ortogonalit pu essere molto ambigua perch esistono 2 tipi di ortogonalit (algebrica e statistica, cap.5 e 9) anche se molti li confondono. Plackett e Burman nel 1946 trovarono delle matrici di Hadamard per ogni n = 4*k kN: k<25 e k23 Dopo sono state trovate altre matrici di Hadamard (anche quella con k=23) ma Fontana (1995) riferisce che a tuttoggi nessuno ha ancora dimostrato che le matrici di Hadamard esistano per kN. Qualunque matrice di Hadamard di ordine n pu essere generata partendo da un particolare vettore di n-1 elementi e facendolo ruotare ricorsivamente per n-1 volte; poi si aggiunge allinizio una colonna di +1 e una riga di -1, cos da ottenere una matrice di ordine n; il vettore di partenza da cui partire ottenuto dalla teoria dei gruppi e del campo di Galois. Le matrici di Hadamard di dimensione uguale a una potenza di 2 danno luogo ai cosiddetti piani geometrici e corrispondono alle tabelle dei segni comunemente usate24 per i piani 2n; le altre sono le matrici dei piani sperimentali non geometrici, meglio noti come i piani di Plackett-Burman (PB) che, come vedremo, hanno una struttura un po' particolare. In tutti i libri di DOE c scritto che i piani PB sono ortogonali: non si precisa che si parla di ortogonalit algebrica nello spazio dei contrast (cap.9); se per consideriamo lortogonalit statistica, ovvero la non correlazione degli stimatori, i piani PB essi sono ortogonali solo se la numerosit degli stati di prova costante e questo vale per tutti piani classici ortogonali.
A parte le interazioni scambiate di segno. Se metto i totali in generale non si hanno pi delle stime di contrast.
25
26
Le stime dei contrast forniti dal metodo di Yates, di per s, interessano sempre lo sperimentatore, per se gli stimatori sono troppo correlati fra di loro, le stime possono essere molto lontana dalla realt: questo il vero problema della non ortogonalit (statistica). 64
determinazioni degli stimatori delle medie degli stati di prova in ordine canonico o di Yates; il primo elemento della seconda colonna la somma dei primi 2 elementi della prima colonna, il secondo la somma del terzo e del quarto, il terzo la somma del quinto e del sesto,... e cos fino al (2n-1)-mo elemento della
seconda colonna che sar la somma delle ultime due medie della prima colonna, il (2n-1+1)-mo elemento della seconda colonna la differenza fra la seconda media e la prima, il (2n-1+2)-mo elemento della seconda colonna la differenza fra il quarto e il terzo elemento della prima colonna... lultimo elemento la differenza fra lultima e la penultima media. Nella terza colonna si esegue lalgoritmo descritto sopra sulla seconda colonna e cos via fino alla (n+1)-ma colonna che contiene il valore numerico del contrast: esso un contrast di tipo 1 (par. 4.3). A questo punto, si opera con la solita formula che calcola la somma dei quadrati associata allo stimatore C del contrast, che ha i ci=1: C2 SS(C) = 2 n 1 n i =1 i
Se la numerosit costante ni = r, dunque la formula si semplifica:
SS(C) = r * C2 / 2n
Se la numerosit costante posso mettere i totali al posto delle medie nella prima colonna, il metodo di Yates fornisce degli stimatori C di tipo 2 (par. 4.3); per calcolare la somma dei quadrati associata si usa allora:
SS(C) = C2 / (r * 2n) Quasi tutti libri (Galetto 1995 e 1996 rappresenta uneccezione) riportano la formula sopra senza dire da dove arriva senza specificare che vale se nella prima colonna del metodo di Yates si mettono i totali. Non mi stupisco quindi che molti non riescano ad analizzare i dati quando le numerosit dei trattamenti non sono uguali. Facciamo un esempio per capire come funziona lalgoritmo di Yates, usando gli stessi dati della tabella 2: con 3 fattori abbiamo dunque 5 colonne.
65
IV 215 -10 -3 12 5 -2 9 -2
V 11556,25 SS(I) 25 SS(A) 2,25 SS(B) 36 SS(AB) 6,25 SS(C) 1 SS(AC) 20,25 SS(BC) 1 SS(ABC)
Se usiamo i totali, le stime dei contrast (colonna 4) sarebbero moltiplicate per 2 e dunque, elevati al quadrato sarebbero 4 volte questi, ma nellultima colonna bisogna dividere per 2 anzich moltiplicare per 2 dunque le somme dei quadrati non cambiano, come ripetuto pi volte. Ricordiamo che nellesempio posso usare i totali solo perch la numerosit costante. La somma delle SS associate agli n-1 effetti d quella che abbiamo chiamato SStr e quindi per avere la SSe, ricordando le formule dellANOVA, dobbiamo fare la sommatoria dei quadrati delle osservazioni e sottrarre il fattore di correzione (SS(I) oppure SS) e la SStr; abbiamo allora tutti gli elementi per fare lANOVA e valutare la significativit degli effetti: questultima frase induce in errore molte persone che perdono di vista la reale
ipotesi nulla che stanno testando, ovvero che una certa combinazione lineare delle medie uguale a zero. Vediamo la tabella ANOVA:
SS Totale Media Trattamenti A B AB C AC BC ABC Residuo 11658 11556,25 91,75 25 2,25 36 6,25 1 20,25 1 10 df 16 1 11556,25 9245 MS F calcolata F0,95 (1,8) Effetti sign. 5%
7 13,107143 10,4857143 5,31764499 1 1 1 1 1 1 1 8 25 2,25 36 6,25 1 20,25 1 1,25 20 5,31764499 1,8 5,31764499 28,8 5,31764499 5 5,31764499 0,8 5,31764499 16,2 5,31764499 0,8 5,31764499 BC AB A
66
Ad esempio nellANOVA, la SS(A)=25 sta testando che: (1) 111+110+101+100-000-001-010-011 = 0 ma anche: (2) 11.+10.-00.-01. = 0 (3) 1.1+1.0-0.0-0.1 = 0 (4) 1..-0.. = 0 ..... in tutto vi sono 64 ipotesi equivalenti che la SS(A)=25 sta testando27.
Queste ipotesi nulle coincidono solo perch la numerosit degli stati di prova costante; ma se le numerosit delle celle non costante (piani non ortogonali), le 4 ipotesi di sopra non coincidono pi e bisogna scegliere quale di esse testa leffetto di A:
anticipo gi ora che lipotesi pi logica da testare anche in casi non ortogonali, secondo me, la (1) perch, considerando tutti gli stati di prova, tiene conto della stratificazione completa dei dati; la (2) ignora il fattore C, la (3) ignora il fattore B, la (4) li ignora entrambi e infatti vedremo nel cap.7 che corrisponde alla regola del Questo per Questo; si potrebbero pensare altre 60 modi diversi di pesare le medie degli stati di prova in base alla loro numerosit... purtroppo spesso si dice che si sta testando leffetto del fattore A senza esplicitare lipotesi che si vuole testare. Sar importante ricordarsi di queste osservazioni quando introdurremo nel cap.7 il modello sovraparametrizzato; fin da ora per mi preme sottolineare che
1. le uniche ipotesi nulle testabili sono quelle esprimibili in termini di combinazioni lineari delle medie (parametri) degli stati di prova28. 2. il termine effetto del fattore A deve essere espresso sotto forma di una specifica combinazione lineare delle medie.
4.5.1 ALGORITMO INVERSO DI YATES Il metodo di Yates pu essere invertito dando luogo allalgoritmo inverso di Yates in cui bisogna mettere i contrast calcolati (nellordine canonico invertito) nella prima colonna e nellultima si riottengono, in ordine inverso, gli stessi valori medi di partenza, dopo aver diviso per 2n i risultati della quarta colonna. Questo algoritmo perfettamente giustificabile se si assume il modello fullregression (cap.8), non quello sovraparametrizzato (cap.7) perch presuppone un modello che colleghi la risposta direttamente agli effetti.
27
Nel cap.8 sar chiaro perch ci sono 64 ipotesi che possono testare leffetto di A. per ovvio fin da ora che al massimo 8 di esse possono essere algebricamente indipendenti fra di loro. Ci messo perfettamente in evidenza dal teorema di Gauss-Markov e dalle funzioni stimabili (Cap.7) 67
28
2 - LApproccio Scientifico alla Qualit I ABC BC AC C AB B A I -2 9 -2 5 12 -3 -10 215 II 7 3 9 205 11 7 -15 225 III 10 214 18 210 -4 196 -4 240 IV 224 228 192 236 204 192 200 244 V 28 abc 28,5 bc 24 ac 29,5 c 25,5 ab 24 b 25 a 30,5 i
Ma lalgoritmo inverso di Yates non va usato come abbiamo fatto sopra dove abbiamo considerato nel modello della risposta anche gli effetti non significativi; questi infatti vanno esclusi perch abbiamo detto che i modelli devono essere il meno complicati possibili dunque inutile porvi dei termini che hanno un effetto non distinguibile dallerrore sperimentale. Allora nellalgoritmo inverso porremo solo gli effetti che sono risultati significativi, negli altri mettiamo 0: ovviamente cos non riotteniamo pi le medie di partenza; otteniamo dei residui che vanno analizzati con tecniche grafiche (carte di probabilit) che ci consentono di controllare se le ipotesi di normalit dellerrore sono verificate statisticamente. Nellesempio di prima gli effetti significativi erano A, AB e BC, dunque al posto degli altri effetti B, C, AC, ABC mettiamo zero.
I ABC BC AC C AB B A I 0 9 0 0 12 0 -10 215 II 9 0 12 205 9 0 -12 225 III 9 217 9 213 -9 193 -9 237 IV 226 222 184 228 208 204 202 246 V 28,25 27,75 23 28,5 26 25,5 25,25 30,75 Medie osservate Residui 28 28,5 24 29,5 25,5 24 25 30,5 -0,25 abc 0,75 bc 1 ac 1c -0,5 ab -1,5 b -0,25 a -0,25 i
La somma dei residui nulla ma, poste su una carta di probabilit seminormale, non hanno un andamento normale29: bisogna fare lopportuno test di ipotesi sulla distribuzione e se rifiutata lipotesi di normalit, bisogna provare ad aggiungere altri
29
termini (quelli che abbiamo posto uguale a zero perch sono risultati non significativi) al modello; il controllo delladeguatezza del modello scelto una fase molto delicata nella quale non ci addentreremo nella tesi.
30
In questo caso converrebbe bloccare qualche variabile oppure usare i nested design. Scelta in modo da mantenere lortogonalit dei contrast di interesse. 69
31
bc
abc
ac
ab
Figura 4: i confronti fra gli stati per ottenere A e BC sono identici nel piano ridotto
Nella terminologia tradizionale32 si dice che: I = abc + a + b + c ABC = abc + a + b + c A = abc + a - b - c BC = abc + a - b - c B = abc + b - a - c AC = abc + b - a - c C = abc + c - a -b AB = abc + c - a -b e che dunque si genera la seguente struttura degli alias: I = ABC A = BC B = AC C = AB oppure oppure oppure oppure I+ABC A+BC B+AC C+AB
perch i contrast che rappresentano quegli effetti sono identici. Come si pu vedere gli alias si ottengono tutti dal primo moltiplicando per A, B e C e usando laritmetica modulo 2, in cui I lelemento neutro; si opera dunque con le seguenti regole: I*A=A A*A=I A * B = AB A * AB = (A * A) * B = B
32
Dunque tutti gli alias si generano dalla relazione I = ABC che detta defining relation del piano frazionato mentre ABC detto defining contrast. Se si effettuava laltra met del piano (ovvero gli stati i, ab, ac, bc) si sarebbero ottenuta la seguente struttura degli alias, che aveva come defining contrast -ABC: I = -ABC A = -BC B = -AC C = -AB oppure oppure oppure oppure I-ABC A-BC B-AC C-AB
anche se molti33, considerano la situazione sopra equivalente a quella di prima e ritengono equivalenti i 2 piani: (a, b, c, abc) e (i, ab, ac, bc) Ci non assolutamente ammissibile teoricamente (nei 2 piani equivalenti si stimano dei contrast diversi) ma pu essere parzialmente giustificato nella pratica aziendale dove conoscere A-BC o A+BC lo stesso se non si ha alcuna conoscenza della direzione degli effetti. 4.6.2 CLASSE DI EQUIVALENZA Galetto (1995) spiega la struttura degli alias ricorrendo al concetto di classe di equivalenza e vedendo i coefficienti dei contrast (rappresentanti gli effetti) come dei vettori che formano lo spazio delle interazioni; anche gli stati di prova sono visti come dei vettori di dimensione pari al numero dei fattori, formati da 0 o 1 a seconda che in quello stato il fattore sia al livello alto o basso: tali vettori formano lo spazio degli stati. X@Y significa interazione34 X non distinguibile dallinterazione Y; essa una relazione di equivalenza nello spazio delle interazioni e induce delle classi di equivalenza che determinano una partizione dello spazio degli stati. La defining relation vista quindi come una relazione di equivalenza che genera il gruppo degli alias. Questo tipo di impostazione35 ha il grosso merito di sottolineare, ad esempio, che la stima del contrast (1) a + abc - b - c non spiega leffetto del fattore A, ma della classe di equivalenza A@BC quindi non sappiamo pi niente dei singoli A e BC; essi potrebbero essere molto significativi ma con effetti opposti sulla risposta per cui, bilanciandosi, potrebbe risultare che il contrast stimato da (1) non significativo; viceversa potrebbe risultare che A e BC non sono significativi
33
Anche Galetto (1995 e 1996). Considerando anche i fattori come interazioni di ordine zero. Per quanto ne so, Galetto lunico che la usi. 71
34
35
ma, sommati, danno un effetto totale che lo (par 4.7). Ci che noi stimiamo non leffetto dei singoli fattori e interazioni ma una loro funzione (quale???). La classe di equivalenza di Galetto presenta per, mio parere, i seguenti inconvenienti: non dice che tipo di funzione lega gli effetti nella classe di equivalenza, anche perch non vengono definiti a priori gli effetti. non riesce a interpretare la struttura degli alias dei piani irregolari, come quelli dei piani non geometrici di Plackett-Burman. trascura il segno + e - delle interazioni e di conseguenza induce a pensare che in un piano frazionato 2n-p vi siano p piani equivalenti per una data struttura degli Alias; ci falso perch, considerando il segno (principio F1), c una corrispondenza biunivoca fra struttura degli alias e piano sperimentale se si sperimentano entrambe le met del piano, (i, ab, ac, bc) e (a, b, c, abc), dalla prima conoscerei A@BC e dallaltra A@-BC (non trascurando il segno); il concetto di classe di equivalenza non spiega come unire quelle 2 quantit per ottenere gli effetti puri A e BC: sicuramente per A@BC e A@-BC devono (principio F1) poter essere unite una volta che si ha il piano completo . Comunque un concetto fondamentalmente corretto (se si considera anche il segno delle interazioni36), anche se incompleto e inutilmente complicato. 4.6.3 PI TAGLI: PIANI 2n-p Se opero in tutto p tagli ho bisogno di p defining contrast, si ottengono 2n-p alias, ciascuno contenente 2p termini (effetti); nellesempio di prima, partendo da I+ABC, se aggiungo I-BC ottengo la defining relation che identifica univocamente la struttura degli alias: (I+ABC)*(I-BC) = I + ABC - BC -A che d luogo allaltro alias: B + AC - C - AB Su alcuni libri i 2 alias sono anche scritti mettendo sempre + anche dove dovrebbe esserci il - oppure mettendo luguale (Lorenzen 1993, Actis 1995,...) al posto dei segni: a mio parere ci pu essere fuorviante perch impedisce di vedere la corrispondenza biunivoca fra linsieme delle prove e la struttura degli alias.
INSIEME DELE PROVE DEL PIANO SPERIMENTALE STRUTTURA DEGLI ALIAS DEL PIANO SPERIMENTALE
36
Con n fattori e p tagli, data una certa struttura degli alias, si ha uno e un solo piano corrispondente ad essa. Come si trova tale piano? Bisogna partire dai p defining contrast37 (d.c.): si parte dal primo e si prendono tutti quegli stati di prova che hanno un numero di lettere pari, se il d.c. ha segno + ed un interazione fra un numero pari di fattori o se il d.c. ha segno - ed un interazione fra un numero dispari di fattori, dispari, se il d.c. ha segno + ed un interazione fra un numero dispari di fattori o se il d.c. ha segno - ed un interazione fra un numero pari di fattori. Si ottengono cos 2n-1 stati di prova distinti; su questi si fa la stessa selezione col secondo d.c. e cos via fino allultimo d.c.: si ottengono 2n-p stati di prova che corrispondono alla defining relation di partenza. 4.6.4 TABELLA DEI SEGNI Gli alias si vedono chiaramente dalla tabella dei segni se si cancellano le righe corrispondenti ai trattamenti dove non si hanno dati. Se partiamo dalla tabella 3:
I i a b ab c ac bc abc 1 1 1 1 1 1 1 1 A -1 1 -1 1 -1 1 -1 1 B -1 -1 1 1 -1 -1 1 1 AB 1 -1 -1 1 1 -1 -1 1 C -1 -1 -1 -1 1 1 1 1 AC 1 -1 1 -1 -1 1 -1 1 BC 1 1 -1 -1 -1 -1 1 1 ABC -1 1 1 -1 1 -1 -1 1
37
Val la pena di notare che i defining contrast non definiscono univocamente la struttura degli alias mentre la defining relation s. 73
e vediamo che: I = ABC A = BC B = AC C = AB ovvero gli alias che avevamo gi ottenuto in 4.6.1. Se operiamo un altro taglio, eliminando i trattamenti a, abc, ottengo:
I b c 1 1 A -1 -1 B 1 -1 AB -1 1 C -1 1 AC 1 -1 BC -1 -1 ABC 1 1
che corrispondono agli alias gi ottenuti in 4.6.3: I = ABC = -BC = -A B = AC = -C = -AB 4.6.5 RISOLUZIONE DEI PIANI RIDOTTI Nei piani ridotti uno cerca in generale di non confondere gli effetti dei fattori con la media, fra di loro e, se possibile, con le interazioni del primo ordine; nei 2 piani che abbiamo visto sopra, corrispondenti alle defining relation: I + ABC I + ABC - A - BC il primo detto un piano di risoluzione III perch non confonde i fattori fra di loro, ma li confonde con le interazioni del primo ordine; il secondo addirittura solo di risoluzione I perch confonde la media col fattore A. In generale, per le frazioni regolari la risoluzione di un piano il numero di fattori che compaiono nellinterazione38 di ordine pi basso, presente nella defining relation; per le frazioni irregolari vedremo che non c ununica defining relation, quindi non possibile adottare una definizione generale: per ancora possibile parlare di risoluzione, come vedremo nel cap.5 (in Addelman 1972 c una definizione generale per tutti piani). Con 3 fattori il miglior piano ridotto ortogonale che si pu avere di risoluzione III e corrisponde a quello visto, definito da I + ABC; aumentando il numero di fattori, cresce la possibilit di aumentare la risoluzione del piano sperimentale ma cresce anche il numero di trattamenti da sperimentare; ovvio che vorremmo avere la massima risoluzione possibile ma questa esigenza necessariamente mediata da quella di budget.
38
E i taguchiani dicono che Taguchi ha inventato i piani che fanno risparmiare le prove. Ne parleremo nel cap.10. 75
40
Y1 24 25 29 29
Y2 Totali 26 23 30 27 50 48 59 56
Medie 25 24 29,5 28
Con i 4 stati di prova a, b, c, abc otteniamo le stime dei seguenti contrast (di tipo 1, par. 4.3): a + abc - b - c = -0,5 b + abc - a- c = -2,5 c + abc - a - b = 8,5 che danno luogo alle seguenti somme dei quadrati, nella tabella ANOVA.
SS df MS F calcolata F0,95 (1,4)
Totale
5717
Residuo Tabella 9
6,5
1,625
Come si vede A+BC non significativo mentre sappiamo dal piano completo (tab.5) che sia A che BC sono significativi con CL=95%; se a priori si sa la direzione (ovvero il segno algebrico dei contrast) di questi 2 effetti si pu anche immaginare che A e BC si siano annullati una volta combinati nellalias A+BC; da questo capiamo quanto importante tenere conto del segno del contrast; se avessi fatto il piano frazionato complementare (i, ab, ac, bc) avrei stimato A-BC, non A+BC e otterrei che A-BC molto significativo. Dunque i 2 piani frazionati non sono decisamente equivalenti perch portano a risultati diversi (coerenti con quelli del piano completo). Abbiamo dunque visto un primo tipo di errore che si pu commettere nellanalisi dei piani frazionati: pensare che gli effetti confusi nellalias non sono significativi perch lalias non significativo. Un altro tipo di errore consiste nel pensare che se lalias risulta significativo, almeno uno dei termini che lo compongono deve essere significativo.
76
Un ultimo tipo di errore, piuttosto comune, a quanto sostiene Galetto (1995), ritenere che le interazioni abbiano un effetto secondario rispetto ai fattori; con i dati della tab.9 si vede che: C + AB significativo e si tende a pensare che leffetto sia da ascrivere al fattore C piuttosto che allinterazione AB: dal piano completo sappiamo invece che AB significativa e C non lo . Questo errore collegato con lassurda credenza che se i fattori sono non significativi, anche la loro interazione, non deve esserlo. Nel nostro esempio invece notiamo che nel piano completo (tab.5) B e C sono non significativi, mentre la loro interazione BC lo . A questo punto, presi dallo sconforto, si sarebbe tentati di dire: Ma allora nei piani ridotti non conosco niente!: in effetti cos... Lesempio stato fatto volutamente per mettere in evidenza tutti possibili errori nellanalisi dei piani frazionati. Forse nella realt non capitano casi cos sfortunati o forse s... Bisogna stare molto attenti e accettare il fatto che col frazionamento non si conosce pi niente di preciso, dunque fondamentale: la conoscenza del fenomeno da parte dei tecnici che, con la loro esperienza, possono provare a individuare a priori elementi non significativi41 conoscere la struttura degli alias del piano sperimentale da eseguire per fare in modo che non mischi gli elementi di interesse: planned confounding...in which important effects either are uncounfounded or are only confounded with effects that are believed to be negligible, is the basis for the statistical constructions of fractional factorial experiments (Mason et a1. 1989) Dunque il successo di un piano sperimentale dipende dalla conoscenza scientifica del fenomeno sotto indagine e dalla teoria statistica che indica quali sono le prove da eseguire, compatibilmente con le esigenze dei tecnici; per il principio F2 la variabilit esiste, We are working, whether we like it or not, in the presence of variability (John 1990), dunque anche studiando scrupolosamente quali prove fare, si pu sbagliare ma almeno si hanno delle solide basi per capire dove si sbagliato e si pu ripartire con un altra iterazione (par. 3.8) nella sperimentazione: con tale onest intellettuale che occorre rivolgersi allo sperimentatore se si vuole operare con Qualit. Invece i metodi Taguchi fanno sempre uso di piani frazionati (come i quadrati latini), ma non indicano mai gli alias e ci non mi stupisce visto che Taguchi assume a priori42 che le interazioni sono trascurabili.
41
Possono anche sbagliare. Taguchi d alcune giustificazioni di questa assunzione: le vedremo nel cap.11. 77
42
43
Oppure lo ma per puro caso. Per distinguerlo da quello marginale (Cap.6); quando dico solo effetto, intendo leffetto medio. 78
44
con bij = 1 a seconda che nello stato j il fattore rappresentato da Ei sia al livello basso o alto; la media I ha tutti bij = 1 e non quindi un contrast. Per quanta riguarda l interazione fra i fattori 1,2....t rappresentati dagli effetti E1, E2...Et, il suo effetto lo definisco come:
t E12...t = k* bij * j j =1 i =1
2n
La costante moltiplicativa non influenza in alcun modo lanalisi45 come abbiamo visto perch la somma dei quadrati associata a Ei (che un contrast) rimane invariata con k (par. 4.3): una volta scelto un k per non bisogna cambiarlo. Da questa definizione si vede che, se manca anche un solo stato di prova, leffetto non pi stimabile: questo concetto messo in evidenza anche da John (1979) e Daniel (1976). Una tale definizione di effetto equivale a esaminare gli esperimenti secondo quella che chiamata weighted analysis of means in Speed et al. (1978), Allen (1985) e Searle (1987). Cosa si pu stimare nei piani frazionati se gli effetti non si possono pi stimare? Si possono stimare delle combinazioni lineari degli effetti stessi: ad esempio nel piano frazionato (a, b, c, abc): A* = 111+110+101+100-000-001-010-011 BC* = 111+011+100+000-101-001-010-110 non si possono stimare ma la loro somma: A* + BC* = 2 * (111+100-001-010) stimabile perch richiede solamente le medie degli stati di prova a, b, c, abc. E infatti il valore atteso del contrast: E (a+abc-b-c) = (A* + BC*)/2 Il fattore 2 a denominatore, non influenza lanalisi, come gi detto. I parametri della popolazione, o delle loro combinazioni lineari, sono stimabili per un dato piano se esiste
una combinazione lineare degli stimatori delle medie degli stati di prova il cui valore atteso la c.l. dei parametri. Abbiamo trovato dunque una spiegazione semplice e razionale degli alias nei piani frazionati: in questi ultimi gli effetti dei fattori e delle interazioni non sono pi stimabili ma sono stimabili delle loro combinazioni lineari ovvero gli alias. Dunque lalias Aj definito cos :
45
Ai = ij * E j
j =1
2n
lunico accenno a questa definizione lho trovato in Box (1993): The expected value of a data contrast is called its alias and is a linear combination of various main effects and interactions. Una tale impostazione risolve i problemi della classe di equivalenza di Galetto (par. 4.5.2) perch: specifica il tipo di funzione che lega gli effetti nellalias: una funzione lineare, molto semplice; i segni + e - sono dunque segni algebrici che collegano gli effetti e non dei semplici simboli come nellimpostazione tradizionale si riesce a interpretare qualunque tipo di piano sperimentale come vedremo nel prosieguo della tesi non trascura il segno + e - perch mette in evidenza che nel piano (a, b, c, abc) si pu stimare: A* + BC* mentre nel piano complementare (i, ab, ac, bc) si pu stimare: A* - BC* Se nel piano ridotto (a, b, c, abc) conosciamo lalias: A+BC = 10 e per ipotesi supponiamo46 che BC = 0, posso concludere giustamente che: A = 10 perch il fatto che BC = 0, implica che: abc + bc + a + i - b - c - ac - ab = 0 ovvero: (1) abc + a - b - c = ac + ab -i - bc dunque lespressione per il calcolo di A si semplifica, richiedendo solo 4 stati di prova. Vediamo perch: A = abc + ab +ac + a - i - b - c - bc = (abc + a - b - c) + (ac + ab -i - bc ) Ma per la (1) si ha che i 2 termini sono uguali quindi: (abc + a - b - c) + (ac + ab -i - bc ) = 2 * (abc + a - b - c) = 2 * (ac + ab -i - bc ) ovvero, se BC=0, mi bastano 4 stati al posto di 8 per conoscere A. Questo perch abbiamo supposto che BC fosse nullo, ovvero abbiamo aggiunto un grado di libert artificiale allanalisi: nella realt non abbiamo quasi mai questo tipo di informazione per cui meglio dire che una certa somma dei quadrati associata allalias non ai fattori o interazioni se dal piano (i, ab, ac, bc) conosco: X = A-BC = 20 e da quello (a, b, c, abc) conosco: Y = A+BC = 30
46
Se non abbiamo fatto o non faremo altre prove non potremmo mai sapere se lipotesi corretta. 80
trovo subito: A = (X+Y)/2 = 25 BC = (Y-X)/2 = 5 dunque riesco a unire le 2 quantit stimate con i piani ridotti mentre con la classe di equivalenza non posso sommare algebricamente gli alias lalias visto come c.l. degli effetti cos definito molto pi semplice ed intuitivo della classe di equivalenza; se uno legge una relazione del tipo: x + y = 250 anche se corretto dire che x indistinguibile da y e che quindi x e y formano una classe di equivalenza, non penso che ci sia necessario per capire la realt: ecco perch penso che la classe di equivalenza sia un inutile complicazione per capire la struttura degli alias. Comunque sottolineo che la combinazione lineare degli effetti non in contrasto con la classe di equivalenza: semplicemente un concetto pi completo che, mantenendo la propriet dellindistinguibilit, aggiunge allalias altre propriet molto utili in casi irregolari.
sperimentatore, ad esempio (-1, 1, 0) e (0, -1, 1) confrontano il primo con il secondo livello e il secondo col terzo, anche se possono essere un po' correlati fra di loro. Anche linterazione acquista dei gradi di libert in pi: in generale, se A e B hanno rispettivamente p e q gradi di libert, linterazione ha p*q gradi di libert47. Nellesempio a 2 fattori qualitativi presente in Galetto (1995), c un fattore, il lotto, a 2 livelli e la bobina, a 3 livelli. La tabella dei segni pu essere la seguente, dove il primo numero dello stato di prova indica il lotto e il secondo la bobina.
Stati di prova 11 12 13 21 22 23 I 1 1 1 1 1 1 L -1 -1 -1 1 1 1 B1 -1 1 0 -1 1 0 B2 0 -1 1 0 -1 1 LB1 1 -1 0 -1 1 0 LB2 0 1 0 0 -1 0
Tabella 10: possibile tabella dei segni per lanalisi dei contrast
Come si vede, vi sono 2 contrast riguardanti il lotto e 2 per linterazione lottobobina: essi non sono ottenuti con i coefficienti dei polinomi ortogonali, perch, a mio parere, lo sperimentare, in presenza di variabili qualitative, deve testare i confronti che gli interessano48 e non affidarsi a mathematical niceties like orthogonality (Hocking e Speed 1975). Con fattori quantitativi invece ragionevole ortogonalizzare i contrast che rappresentano un fattore perch essi hanno un significato fisico (componente lineare, quadratica..): riprenderemo largomento pi avanti.
47
Ovviamente sto parlando di piani completi, perch nei piani ridotti non si deve pi parlare di fattori e interazioni ma di alias, come stato evidenziato nel capitolo precedente. Purch i contrast non siano eccessivamente correlati fra loro. 82
48
CAPITOLO 5
(1)
c
i =1
2n
* c' i = 0
ma questa la condizione per lortogonalit algebrica nello spazio dei contrast e non sufficiente per annullare la covarianza fra gli stimatori dei contrast perch tale condizione (ortogonalit statistica) :
(2)
i =1
2n
ci * c' i =0 ni
La (1) implica la (2) solo se ni = cost. Se nella (2) consideriamo i ci incogniti per ogni contrast, chiamiamoli cij dove j indica il j-mo dei (2n-1) contrast, la (2) esprime un sistema non lineare di [2n * (2n-1)] incognite in un certo numero di equazioni. Quante? Il numero di coppie che si pu formare con (2n-1) contrast dato dallespressione:
83
c
i =1
2n
=0
vi sono dunque 22n-1 - 2n-1 vincoli sulle [2n * (2n-1)] cij: dunque c un numero di incognite doppio del numero di equazioni il che ci dice che vi sono infinite49 soluzioni e infatti vi sono infiniti modi di ortogonalizzare i contrast. Questo discorso, a mio parere, non pu essere collegato al procedimento di ortogonalizzazione di Graham-Shmidt che trova uninsieme di N vettori ortonormali (in realt a noi non serve la propriet di normalizzazione) dato un insieme di N vettori, di dimensione M=N; in questo caso abbiamo M>N ma in pi ci sono le condizioni sui contrast, per cui non penso che tale procedura si possa applicare. A parte le formule matematiche, il punto fondamentale che, dato un piano con k prove, esistono sempre k-1 contrast ortogonali fra di loro dunque improprio parlare di piani ortogonali; nellanalisi dei risultati si pu ortogonalizzare sempre dunque meglio parlare di analisi ortogonale, che si esegue: 1. usando come cij i coefficienti dei polinomi ortogonali (difficili da ricavare quando ni non costante), 2. aggiungendo i termini uno a uno nel modello della risposta e vedere le differenze fra le somme dei quadrati (SS) spiegate dai vari modelli; tali SS sono associate sempre a contrast fra loro ortogonali (metodo G), Il problema vedere se questi contrast ortogonali ottenuti interessano lo sperimentatore: in generale non detto. A mio parere lunico caso in cui si pu essere interessati ad ortogonalizzare quello con una sola variabile quantitativa in cui si pu essere interessati a vedere quanto il modello: Y = a + b*X + c*X2 spieghi pi del modello: Y = a + b*X Per testare la componente quadratica (H0: c=0) si fa la differenza di somma di quadrati50: SS(c) = SSreg(a,b,c) - SSreg(a,b) Solitamente si dice che la componente lineare testata da: SSreg (a,b) - SSreg(a)
49
Questo dovrebbe essere dimostrato rigorosamente: non lo faccio visto che non conosco bene i sistemi non lineari. Le formule presentate saranno pi chiare quando parleremo del metodo G (cap.7 e 8). 84
50
ma la differenza sopra testa H0: b=0 solo quando la numerosit degli stati costante: quanti se ne rendono conto? Nel caso di una sola variabile quantitativa c un ordine preferenziale con cui i termini entrano nel modello, ovvero prima la componente lineare, poi quella quadratica, quella cubica: come vedremo nel cap.7 e 8 in questo caso si riesce sempre a ortogonalizzare col metodo G. Se c una sola variabile qualitativa, lortogonalizzazione porta gi dei problemi: prendiamo lesempio in Galetto (1995) a pag. 274 in cui si vuole studiare se 5 diversi tipi di pneumatici (X) influenzano lo spazio di frenata (Y): per avere 4 contrast ortogonali si fa un confronto fra i primi 3 pneumatici e gli ultimi 2, anche se sarebbe stato pi interessante confrontare51 i primi 2 con gli ultimi 3 perch i primi 2 erano pneumatici non radiali e gli altri erano radiali: vedremo questo caso nel cap.10. Con pi fattori, se c un ordine preferenziale52 per farli entrare nel modello, si pu ortogonalizzare, altrimenti non c nessun motivo, se non quello di volere una stima pi precisa della Y. Il problema della non ortogonalit statistica che i contrast che ci interessa stimare danno luogo a degli stimatori che sono variabili casuali correlate, quindi la varianza dello stimatore C del contrast C* non rispecchia solo la variabilit di C, ma anche quella degli stimatori C degli altri contrast che sono correlati con C; in altre parole VAR(C) aumenta e cos si allarga lintervallo di fiducia dello stimatore C: la stima puntuale ottenuta pu essere molto lontana dal valore vero; dunque dobbiamo attuare un compromesso fra 2 esigenze: costruire contrast di interesse fare in modo che i loro stimatori non siano troppo correlati fra loro, e quindi le stime siano poco precise.
Chiameremo allora ortogonali quei piani con (n) trattamenti per cui possibile stimare (n-1) contrast di interesse i cui stimatori non sono correlati fra loro: sono tali tutti piani fattoriali completi che hanno un numero costante di ripetizioni per ogni stato di prova. La tesi di Fornasieri (1995) intitolata DOE: piani di prova frazionati non ortogonali. Considerazioni teoriche e pratiche; trovo strano che in tutta la tesi non si parli del problema primario53 della non ortogonalit statistica ovvero laumento della
varianza degli stimatori, causato dalla correlazione fra di essi, che si traduce in una perdita di precisione delle stime puntuali.
51
Si sarebbe dovuto rinunciare allortogonalit. Ad esempio nei nested design. Per quello che ho letto io (vedi ad esempio Hahn et al.1976 e 1978 oppure Snee 1973). 85
52
53
Spesso la nozione di piano ortogonale sostituita con quella di piano bilanciato: Galetto (1995) a pag.278 afferma che un piano bilanciato quando tutti gli stati sperimentali hanno la stessa numerosit dei dati; per a pag.289 dice che bilanciato quando sia i vettori riga, tra loro, sia i vettori colonna, tra loro, sono paralleli. [vettori proporzionali sono paralleli]. La prima condizione citata da Galetto pi restrittiva della seconda. Mason et al. (1989) dicono che i piani bilanciati hanno un ugual numero di ripetizioni per tutti gli stati di prova: la prima definizione di Galetto. Prendiamo per buona questa definizione: allora i piani ridotti come quello che abbiamo visto nel par. 4.7 con numerosit costante sono non bilanciati:
Stati di prova a b c abc Y1 24 25 29 29 Y2 26 23 30 27 Totali 50 48 59 56 Medie 25 24 29,5 28
quindi, seguendo Galetto (pag.290) e Mason (pag.312), questo piano si pu esaminare solo col metodo G (Mason lo chiama reduction in error sums of squares, ma la stessa cosa); invece i 2 autori analizzano i piani come quello sopra con le stesse tecniche dei piani bilanciati, introducendo in pi gli alias: e infatti si pu analizzare col metodo di Yates, con la tabella dei segni o col Questo per questo. Dunque occhio alle definizioni (par. 2.6) per evitare confusione e contraddizioni. Nel prosieguo il termine bilanciato sar sinonimo di ortogonale(in senso statistico, non algebrico): un piano con n trattamenti per cui lo sperimentatore riesce a stimare n-1 contrast che gli interessano usando stimatori non correlati. Come riferito da Galetto (1995) nella realt molto comune trovare delle situazioni non bilanciate. Esse possono quindi derivare da:
1. Diverse ripetizioni per ogni stato di prova 2. Stati di prova mancanti per vincoli fisici (non si pu sperimentare praticamente uno stato di prova), matematici (nei mixture designs) o di budget...
pag.58, salvo il fatto che nello stato di prova 11 stato volutamente omesso un dato di prova per rendere il piano sperimentale non ortogonale, non essendo pi costante la numerosit degli stati di prova. MACCHINA 0 OPERATORE 0 OPERATORE 1
Tabella 12
MACCHINA 1 41,48 41
64,67 39,35
La prima cosa da fare, in qualunque analisi (soprattutto nelle pi complicate), farsi una tabella ANOVA, come ci fosse solo un fattore e gli stati di prova fossero i trattamenti di uno stesso fattore: in questo caso abbiamo quindi 4 trattamenti e la tabella ANOVA la seguente:
SS Totale Media 16997 16032,14286 df 7 1 16032,14 3 309,2857 25,0772201 3 12,33333 9,276619 MS F calcolata F0,95 (3,3)
A questo punto si tratta di scomporre la SStr in 3 componenti, ciascuna con 1 grado di libert, rappresentanti rispettivamente leffetto della macchina, delloperatore e della loro interazione. Lunico strumento che abbiamo a disposizione per ora lanalisi dei contrast a cui possiamo associare una somma di quadrati. Conviene allora scrivere le 4 medie dei 4 stati di prova (ricordiamo che il primo indice indica la macchina e il secondo loperatore): Stato prova 00 01 10 11 di Media 65,5 37 44,5 41
Quale contrast possiamo scegliere per identificare leffetto della macchina? A mio parere (come ho detto nel par. 4.8) il pi logico : 11 + 10 - 01 - 00 o qualunque suo multiplo, come chiarito nel par.4.8; esso ammette lo stimatore:
87
(1)
C ( M ) = ( y10 + y11 y 00 y 01 )
la cui determinazione : C(M) = -17 54 il contrast considerato quello che somma le medie in cui il fattore macchina al livello alto1, meno quello in cui essa al livello basso0, considerando tutti gli stati di prova, ovvero tenendo conto della stratificazione massima dei dati; ci corrisponde alla definizione di effetto che ho dato nel par.4.8. Potremmo pensare ad un altro stimatore per leffetto, che non tiene conto dellaltro fattore (operatore) e che vede i dati stratificati in soli 2 macrostati:
MACCHINA 0 MACCHINA 1
64,67,39,35 (2)
41,48,41
C ( M ) = ( y1. y 0. ) = - 7,9166655
Il primo stimatore che abbiamo scritto sta testando lipotesi nulla: 11 + 10 - 01 - 00 = 0 mentre il secondo stimatore sta testando:
(n
11
(n
01
=0
quindi nel nostro esempio lo stimatore (2) sta testando: (1/3) * 11 + (2/3) * 10 - (1/2) * 01 - (1/2) * 00 = 0 Secondo me, una volta stratificati al massimo i dati, non di interesse testare delle ipotesi dipendenti dalla numerosit degli stati (come fa lo stimatore (2)), a meno che le numerosit non rispecchino qualche caratteristica della popolazione; ecco perch, lo ripeto e lo ripeter in tutta la tesi, lipotesi pi logica da testare in questo caso :
54
Spero che a questo punto sia chiaro che, se fosse moltiplicato per una costante moltiplicativa, questa comunque non influenzerebbe lanalisi. Tale contrast quello derivante dalla regola del Questo per questo (Cap.7). 88
55
11 + 10 - 01 - 00 = 0
Consideriamo ancora un ultima ipotesi nulla riguardante leffetto della macchina: (2/10) * 11 + (3/10) * 10 - (2/10) * 01 - (3/10) * 00 = 0 testata dallo stimatore56: (3) C( M ) = 3 2 3 2 * y10 + * y11 * y 00 * y 01 = -5,5 10 10 10 10
Essa sembra che non testi niente di interessante (in effetti cos, secondo me), tuttavia lho introdotta per riottenere alcuni risultati che vedremo nel cap.6, 7 e 8: esso testa lipotesi nulla che si testerebbe usando la procedura descritta in Galetto (1995 e 1996): anche il fattore 10 a denominatore (che non influenza lanalisi) stato introdotto a questo scopo. Tutti i ragionamenti fatti col fattore macchina valgono per il fattore operatore per cui posso ricalcolare le stime dei 3 tipi di contrast visti sopra per loperatore: (1) (2) (3) C (O) = ( y 01 + y11 y10 y 00 ) = -32 C (O) = ( y.1 y.0 ) = -16,666 3 2 3 2 C (O) = * y 01 + * y11 * y 00 * y10 = -9,25 10 10 10 10
Passiamo ora allinterazione fra i 2 fattori; lo stimatore pi ragionevole che pu rappresentarla : (4) C ( MO) = ( y 00 + y11 y10 y 01 ) = 25
Come abbiamo fatto per i fattori, si potrebbe pensare di pesare le medie per le numerosit degli stati di prova; non lo faccio perch nella letteratura DOE c accordo nel dire che la (4) rappresenta linterazione mentre per i fattori non c ancora completo accordo (vedere ad esempio Speed et al.1978). A tutti contrast possiamo associare una somma di quadrati, ricorrendo alla solita formula:
C2 SS (C ) = 2n 2 c ni i =1 i
(1)
56
Non distinguo pi fra stimatore, che una variabile casuale, e la sua determinazione che un numero: la differenza evidente dal contesto. 89
(2)
(3)
3 2 3 2 * y10 + * y11 * y 00 * y 01 = -5,5 10 10 10 10 SS(M) = 201,666 C( M ) = C (O) = ( y 01 + y11 y10 y 00 ) = -32 SS(O) = 409,6
(1)
(2)
(3)
C ( O) =
SS(O) = 570,4166 (4) C ( MO) = ( y 00 + y11 y10 y 01 ) = 25 SS(MO) = 250 Per testare la significativit degli effetti, come visto nel par. 4.3, abbiamo 2 metodi equivalenti: il primo calcolare la varianza dello stimatore del contrast e usare la t di Student con 3 gradi di libert (quelli del residuo); il secondo usare la distribuzione F per confrontare la somma dei quadrati dello stimatore del contrast e il residuo SSe, diviso per i suoi gradi di libert, ovvero la classica procedura usata nellANOVA. Il secondo metodo senzaltro pi veloce del primo per cui in generale useremo sempre quello; comunque, per far vedere come funzione il primo test applichiamolo sullo stimatore (1): (1) M = ( y10 + y11 y 00 y 01 ) = -17
VAR(M) = (0,5 + 1 + 0,5 + 0,5) * 2 dunque pu essere facilmente stimata se si conosce la stima della varianza della popolazione: noi conosciamo questa stima dalla tabella ANOVA (tab.3).
$ 2 =
la stima della varianza dello stimatore (1), con 3 gradi di libert , dunque: VR(C) = 30,8333 s.q.m. (C) = 5,5527
90
t3;0,05 = -3,1824 s.q.m. (C) * t3;0,05 = -17,6709 visto che C=-17> s.q.m. (C) * t3;0,05 = -17,6709, con un livello di fiducia del 95% accettiamo lipotesi nulla: 11 + 10 - 01 - 00 = 0 Se facevamo il test F, avremmo trovato che: SS(M) = 115,6 SSe = 37 F1;3;0,95 = 10,1279 105,6 / (37/3) = 9,3729 < 10,1279 il che ci portava (ovviamente) alla stessa decisione, ovvero allaccettazione dellipotesi nulla.
SE pensiamo che il contrast (1) rappresenta leffetto medio (par. 4.8) del fattore macchina, diciamo che nel nostro esperimento, con un rischio di I specie del 5%, la macchina non ha un effetto medio significativo. Se per stimare leffetto della macchina usiamo lo stimatore (3), ovvero quello derivante dalla procedura descritta in Galetto57 (1995 e 1996, pag.291):
3 2 3 2 * y10 + * y11 * y 00 * y 01 = - 5,5 10 10 10 10 SS(M) = 201,6666 facciamo il test F: 201,6666 / (37/3) = 16,3513 > 10,1279 dunque, con un livello di fiducia del 95%, dobbiamo rifiutare lipotesi nulla: C( M ) = (2/10) * 11 + (3/10) * 10 - (2/10) * 01 - (3/10) * 00 = 0
SE pensiamo che lo stimatore (3) stimi leffetto della macchina, dobbiamo concludere che, con un rischio di I specie del 5%, la macchina ha un effetto significativo sulla risposta. Questi risultati si prestano ad alcune interessanti osservazioni: 1. evidente a questo punto che, a seconda di quale contrast decidiamo che rappresenti leffetto di un fattore, prendiamo decisioni diverse.
57
Sui 2 libri non si fa lanalisi dei contrast ma si ragiona solo sulle somme di quadrati: io ho trovato (col modello full-regression, cap.8) che tali somme di quadrati derivano dai contrast riportati sopra. 91
che decide quale ipotesi vuole testare. Nei libri e relazioni consultati per la tesi, molto raramente ho trovato considerazioni di questo tipo (Hocking e Speed 1975, Speed et al.1978,); nella maggior parte dei casi viene usato il termine effetto di in fattore senza specificare lipotesi nulla che ci sta dietro: e poi si dice che metodi diversi portano a stime differenti della somma dei quadrati SS associata all effetto del fattore: invece NO. Metodi diversi (purch scientificamente corretti) danno esattamente la stessa SS per una data ipotesi nulla: in questo paragrafo abbiamo fatto lanalisi dei contrast sullesempio operatore-macchina; nel cap.6 vedremo lanalisi della covarianza; nel cap.7 la regressione col modello sovraparametrizzato, riparametrizzato o no; nel cap.8 la regressione col modello cellmeans e quello full-regression. Tutti questi metodi daranno esattamente le stesse somme dei quadrati associate alle ipotesi nulle, trovate in questo paragrafo (principio F1). 5.2.1 ANOVA Riprendiamo la tabella ANOVA che avevamo fatto per lesempio macchinaoperatore:
SS Totale Media 16997 16032,14286 df 7 1 3 3 16032,14 309,2857 25,0772201 12,33333 9,276619 MS F calcolata F0,95 (3,3)
Abbiamo detto che dovevamo scomporre la SStr in 3 componenti che mettano in luce leffettiva sorgente di variabilit ovvero gli effetti della macchina, delloperatore e della loro interazione; come ho gi ripetuto pi volte le stime di tali effetti, per me, sono rappresentati dalle somme dei quadrati associate alle stime di contrast58: C ( M ) = ( y10 + y11 y 00 y 01 ) = -17
SS(M) = 115,6
Il loro valore e quello della SS associata potrebbero essere trovati col metodo di Yates; questa analisi anche chiamata Weighted analysis of means (Speed e Hocking 1978, Allen 1985,...). 92
SS(O) = 409,6
3 12,33333
Come si vede dalla tabella la somma delle 3 SS rappresentanti la macchina, loperatore e la loro interazione, sommate, non danno il valore di SStr: SS(M) + SS(O) + SS(MO) = 775,2 SStr = 927,8571 Come mai? Perch gli stimatori dei 3 contrast che abbiamo usato per rappresentare gli effetti sono correlati: per verificarlo basta applicare la formula ai contrast, presi a coppie: COV (C , C ') = ci * c' i *
i =1
2n
2
ni
Dunque la varianza dello stimatore del contrast non rispecchia solo la sua variabilit ma anche quella degli altri stimatori: la varianza dunque pi alta rispetto a quella che si avrebbe in un piano ortogonale, in cui gli stimatori dei contrast sono indipendenti gli uni dagli altri. Se si volessero 3 contrast ortogonali, si potrebbero ottenere risolvendo il sistema non lineare presentato nel par. 5.1: avremmo 12 incognite e 6 equazioni (3 di non correlazione e 3 condizioni dei contrast) e otterremmo infinite soluzioni; noi non seguiremo questo approccio che abbastanza lungo. Seguiamo dunque unaltra strada che spiegheremo nel par.8.2.2: anticipiamo che essa pu portarci ai seguenti stimatori59:
59
Esistono infiniti set di 3 contrast ortogonali: gli stimatori presentati ne individuano uno dei tanti. 93
C( M ) =
SS(M) = 107,4405
C ( O) =
SS(O) = 570,4166
Come si pu vedere SS(M) + SS(O) + SS(MO) = SStr = 927,8571 e ci deriva dallortogonalit dei contrast; chi volesse verificare che la covarianza fra i 3 stimatori, presi a coppie, nulla, pu ricorrere alla solita formula: COV (C , C ') = ci * c' i *
i =1
2n
2
ni
diversa dalla tabella 5 perch le somme di quadrati derivano da contrast diversi che stanno testando diverse ipotesi nulle. Come si visto, nellanalisi dellesperimento abbiamo ortogonalizzato un piano che sarebbe considerato non ortogonale o non bilanciato. Le stime ottenute, essendo indipendenti, sono indubbiamente pi precise di quelle correlate della tab.5; ma tali stime interessano lo sperimentatore? Per rispondere egli deve almeno sapere cosa si sta testando ovvero : 2 1 1 1 * 10 + * 11 * 00 * 01 = 0 3 3 2 2 3 2 3 2 * 01 + * 11 * 00 * 10 = 0 10 10 10 10 00 + 11 10 01 = 0
94
Le prime 2 ipotesi non sono, in generale, di interesse (a meno che non ci siano dei motivi per giustificare i differenti pesi dati alle medie, ma in tal caso non si capisce perch non dovrebbero valere per linterazione) mentre la terza s perch la classica ipotesi che testa linterazione; dunque, ortogonalizzando, testiamo con la massima precisione, delle ipotesi che non detto siano di interesse. Per di pi non c un unico set di contrast ortogonali: ad esempio anche i 3 seguenti stimatori: C( M ) = 3 2 3 2 * y10 + * y11 * y 00 * y 01 = -11 10 10 10 10
SS(M) = 201,6666 2 1 1 1 C (O) = * y 01 + * y11 * y 00 * y10 = -16,6666 3 3 2 2 SS(O) = 476,1905 C ( MO) = ( y 00 + y11 y10 y 01 ) = 27 SS(MO) = 250
individuano 3 contrast ortogonali e la tabella ANOVA risultante condurrebbe a decisioni diverse dalle precedenti ( ovvio: stiamo testando ipotesi diverse; ma quanti se ne rendono conto???).
SS Totale Media M O MO Residuo 16997 16032,14286 201,6666667 476,1904762 250 37 df 7 1 16032,14 1 201,6667 16,3513514 1 476,1905 38,6100386 1 250 20,2702703 10,12796 10,12796 10,12796 MS F calcolata F0,95 (1,3)
3 12,33333
Ecco un altro buon motivo per non affidarsi a mathematical niceties like orthogonality (Hocking e Speed 1975): ci sono infiniti modi di ortogonalizzare che, in generale, non mi portano alle stesse decisioni. Infine consideriamo unultima tabella ANOVA che deriva implicitamente dalla procedura descritta in Galetto (1995 pag.283, 1996 pag.291): tale procedura utilizza direttamente le somme di quadrati senza passare attraverso i contrast e infatti nasconde lipotesi nulla testata60.
60
df 7
MS F calcolata
F0,95 (1,3)
250 20,2702703
3 12,33333
Tabella 18: ANOVA non ortogonale col metodo di Galetto (1995 e 1996).
Linterazione sempre la stessa; la SS(M) la stessa della tab.7; la SS(O) quella della tab.6; dunque la tabella 8 sta testando le 3 seguenti ipotesi: 3 2 3 2 * 10 + * 11 * 00 * 01 = 0 10 10 10 10 3 2 3 2 * 01 + * 11 * 00 * 10 = 0 10 10 10 10 00 + 11 10 01 = 0 ma lo sperimentatore e lanalista che applica brutalmente il metodo di Galetto (1995 e 1996) non ne consapevole; se si vogliono pesare diversamente le medie deve esserci qualche motivo e se si pesano diversamente per i fattori perch vengono pesate ugualmente nellinterazione? Mi sembra ci sia una contraddizione... I 3 stimatori utilizzati (inconsapevolmente, lo ripeto) sono correlati e infatti: SS(M) + SS(O) + SS(MO) = 1022,0833 SStr = 927,8571 5.2.2 UN ALTRO ESEMPIO CON 3 FATTORI Complichiamo le cose aggiungendo un terzo fattore: in questo modo abbiamo 7 effetti. Adesso non ripeter pi le moltissime ipotesi che si possono testare: tester quelle che mi sembrano le pi logiche ovvero gli effetti definiti nel par. 4.8, ovvero i confronti fra le medie pesate ugualmente. Ad esempio il parametro effetto di A per me dato dal contrast: A* = 111+110+101+100-000-001-010-011 ed stimato da: A = abc + ab + ac + a - b - c- bc - i il parametro che rappresenta leffetto medio dellinterazione BC dato dal contrast: BC* = 111+011+100+000-101-001-010-110
96
ed stimato da: BC = abc + bc + i + a - b - c - ab - ac e cos per tutti gli altri effetti.... I dati sono quelli della tabella 9:
Stati di prova i a b ab c ac bc abc Tabella 19 76 80 86 79 70 79 78 82 75 78 92 77 69 83 74 85 79 81 90 80 73 77 71 76 Risposte Medie 75,5 79,666667 89,333333 77,8 70,75 81 76 82
La prima cosa da fare lANOVA one-way che mette in luce i trattamenti e il residuo.
SS Totale Media Trattamenti Residuo Tabella 20 149592 148837,5 677,1166667 77,38333333 df 24 1 7 16 96,73095238 20,00036922 2,65719535 4,836458333 MS F calcolata F0,95 (7,16)
Per scomporre la SStr nei 7 effetti, calcoliamo gli effetti col metodo di Yates, applicato sulle medie; nellultima colonna bisogna passare dal contrast alla somma di quadrati con la formula: C2 SS(C) = 2 n 1 n i =1 i si vede facilmente che il denominatore proporzionale alla media armonica delle numerosit ed fisso per ogni contrast; il suo valore : 8 1 n = 2,95 i=1 i
97
6,25 23,6166667 189,066761 SS(AC) -15,7 -4,25 -5,7166667 11,0780603 SS(BC) 11,45 44,4415254 SS(ABC)
La somma dei quadrati SS(I) associata alla media I non va considerata visto che nellANOVA (tab.10) labbiamo gi isolata: i 2 risultati sono diversi perch col metodo di Yates, viene fuori da: I = i + a + b + c + ac + ab + bc + abc mentre quella dellANOVA viene fuori da: I = 2i + 3a + 4c + 2ac + 5ab + 2bc + 3abc comunque non interessa mai testare la media. La tabella ANOVA completa dunque:
SS Totale Media A B AB C AC BC ABC Residuo Tabella 22 149592 148837,5 26,75037665 112,4904896 134,9161017 53,39067797 189,0667608 11,07806026 44,44152542 77,38333333 df 24 1 1 1 1 1 1 1 1 16 26,75037665 5,530984618 4,49399806 112,4904896 23,25885636 4,49399806 134,9161017 27,89564024 4,49399806 53,39067797 11,03920975 4,49399806 189,0667608 39,09198587 4,49399806 11,07806026 2,290531521 4,49399806 44,44152542 9,188857292 4,49399806 4,836458333 MS F calcolata F0,95(1,16)
Come si vede la somma delle 7 SS degli effetti minore della SStr: SS(A)+SS(B)+SS(C)+SS(AB)+SS(AC)+SS(BC)+SS(ABC)=572,1339 SStr = 677,1166 Come nel precedente esempio, ci dovuto al fatto che gli stimatori dei contrast da cui sono state ricavate le somme dei quadrati sono correlati.
98
A questa tabella bisogna poi aggiungere allinizio una colonna di 1 e alla fine una riga di -1; in questo modo si ottiene una matrice di Hadamard che assicura lortogonalit algebrica dei contrast e quella statistica se le numerosit degli stati siano costanti.
61
1 1 1 1 1 1 1 1
1 1 1 -1 1 -1 -1 -1
-1 1 1 1 -1 1 -1 -1
-1 -1 1 1 1 -1 1 -1
1 -1 -1 1 1 1 -1 -1
-1 1 -1 -1 1 1 1 -1
1 -1 1 -1 -1 1 1 -1
1 1 -1 1 -1 -1 1 -1
Tale piano pu essere usato negli screening design (in cui si trascurano le interazioni) per studiare 7 fattori (viene allora detto saturated design, secondo Wheeler 1988) e in tal caso corrisponde al piano ridotto 27-4:
I adfg abeg abcf bcdg acde bdef cefg i A B C D E F G
1 1 1 1 1 1 1 1
1 1 1 -1 1 -1 -1 -1
-1 1 1 1 -1 1 -1 -1
-1 -1 1 1 1 -1 1 -1
1 -1 -1 1 1 1 -1 -1
-1 1 -1 -1 1 1 1 -1
1 -1 1 -1 -1 1 1 -1
1 1 -1 1 -1 -1 1 -1
Se invece ad esempio si vuole usare la tabella 13 per studiare 3 fattori (non saturated design) si vede che essa corrisponde alla tabella dei segni di un piano completo a 3 fattori, a parte il segno delle interazioni del primo ordine e lordine degli stati di prova diverso da quello di Yates.
I 1 1 1 1 1 1 1 1 A 1 1 1 -1 1 -1 -1 -1 B -1 1 1 1 -1 1 -1 -1 C -1 -1 1 1 1 -1 1 -1 -AB 1 -1 -1 1 1 1 -1 -1 -BC -1 1 -1 -1 1 1 1 -1 ABC 1 -1 1 -1 -1 1 1 -1 -AC 1 1 -1 1 -1 -1 1 -1
a ab abc bc ac b c i
Tabella 25: non saturated design, 3 fattori e la media con 8 stati di prova 100
Abbiamo visto dunque che i piani PB di dimensione n = 2k sono identici a quelli esaminati nel cap.4, completi o frazionati: essi sono detti piani geometrici PB e possono essere considerati ortogonali se la numerosit degli stati di prova costante: Plackett e Burman nel 1946 non indicarono la struttura degli alias per i loro piani ma per quelli geometrici facilmente ricavabile anche se pu essere un lavoro molto lungo: basta scrivere la tabella dei segni per tutti i fattori e interazioni (in tutto sono 128 nellesempio di tab.14) e vedere quali effetti sono rappresentati dallo stesso contrast. 5.3.1 PIANI NON GEOMETRICI PB Sono quei piani la cui dimensione un multiplo di 4 ma non una potenza di 2. Il piano pi noto presentato sui libri di DOE indubbiamente quello di dimensione 12: esso si ottiene facendo ruotare il vettore: 1 1 -1 1 1 1 -1 -1 -1 1 -1 e aggiungendo la colonna di 1 e la riga di 1, si ottiene dunque la seguente tabella dei segni:
I
acghln abdhlm bcelmn acdfmn abdegn abcefh bcdfgl cdeghm defhln aefglm bfghmn i
1 1 1 1 1 1 1 1 1 1 1 1
1 1 -1 1 1 1 -1 -1 -1 1 -1 -1
-1 1 1 -1 1 1 1 -1 -1 -1 1 -1
1 -1 1 1 -1 1 1 1 -1 -1 -1 -1
-1 1 -1 1 1 -1 1 1 1 -1 -1 -1
-1 -1 1 -1 1 1 -1 1 1 1 -1 -1
-1 -1 -1 1 -1 1 1 -1 1 1 1 -1
1 -1 -1 -1 1 -1 1 1 -1 1 1 -1
1 1 -1 -1 -1 1 -1 1 1 -1 1 -1
1 1 1 -1 -1 -1 1 -1 1 1 -1 -1
-1 1 1 1 -1 -1 -1 1 -1 1 1 -1
1 -1 1 1 1 -1 -1 -1 1 -1 1 -1
Tabella 26: PB non geometrico saturated, 11 fattori e la media con 12 stati di prova
questa tabella pu essere usata per studiare 11 fattori se si trascurano le interazioni: questa volta impossibile trovare la struttura degli alias con la tabella dei segni completa perch nessuno degli 11 contrast sopra rappresenta pi di un effetto: la classe di
101
equivalenza di Galetto (1995) in questo caso non riesce ad interpretare la struttura degli alias di questo piano. Questo succede anche se con la tab.16 vogliamo studiare meno fattori, ad esempio 5.
I
ac abd bce acd abde abce bcd cde de ae b i
1 1 1 1 1 1 1 1 1 1 1 1
1 1 -1 1 1 1 -1 -1 -1 1 -1 -1
-1 1 1 -1 1 1 1 -1 -1 -1 1 -1
1 -1 1 1 -1 1 1 1 -1 -1 -1 -1
-1 1 -1 1 1 -1 1 1 1 -1 -1 -1
-1 -1 1 -1 1 1 -1 1 1 1 -1 -1
-1 -1 -1 1 -1 1 1 -1 1 1 1 -1
1 -1 -1 -1 1 -1 1 1 -1 1 1 -1
1 1 -1 -1 -1 1 -1 1 1 -1 1 -1
1 1 1 -1 -1 -1 1 -1 1 1 -1 -1
-1 1 1 1 -1 -1 -1 1 -1 1 1 -1
1 -1 1 1 1 -1 -1 -1 1 -1 1 -1
Tabella 27: PB non geometrico non saturated, 5 fattori con 12 stati di prova
Anche in questo caso non si riesce a trovare la struttura degli alias con la tabella dei segni; inoltre 6 dei contrast sopra non indicano nessuna interazione fra i fattori. Per capire la struttura degli alias di questi piani bisogna per forza considerare lalias come una combinazione lineare degli effetti. Nel 1951 Box e Wilson presentarono un metodo per trovare la struttura degli alias per i piani PB (e qualsiasi altro piano sperimentale) che si basa proprio sulle definizioni di effetto e alias che ho dato nel par. 4.8 e sul modello fullregression: lo vedremo nel cap.8. Fornasieri (1995) asserisce a pag.89 e 91 che i piani PB come quelli di tab.16 e 17 sono non ortogonali: io non ho capito come mai faccia una tale affermazione, anche perch nella sua tesi non ben definito cosa sia un piano ortogonale. I libri sullexperimental design che parlano dei piani PB non geometrici (Daniel 1976, Box et al.1978, Diamond 1981, Wheeler 1988) dicono che tali piani di dimensione n sono ortogonali, probabilmente perch la matrice dei segni fornisce n-1 contrast ortogonali fra di loro62. Secondo la mia definizione (par.5.1) un piano ortogonale se questi n-1 contrast interessano lo sperimentatore: come vedremo nel cap.8, i contrast ottenuti coi piani PB non geometrici confondono gli effetti in modo molto complicato, quindi secondo me non detto che siano sempre di interesse: ecco perch preferisco considerarli non ortogonali. Infine diciamo che i piani PB non geometrici sono sempre di risoluzione III in quanto i fattori non sono mai confusi fra di loro, ma lo sono sempre con tutte le interazioni; i piani PB possono essere reflected ovvero replicati negli stati complementari (tabella dei
62
Ma questa lortogonalit algebrica nello spazio dei contrast che implica quella statistica solo se la numerosit degli stati costante. 102
segni con segni opposti): tale tecnica denominata fold-over; con essa i piani PB non geometrici diventano di risoluzione IV.
Supponiamo di non volere (o potere, vedi il caso Iveco nel cap.10) sperimentare gli stati di prova a e ab: otteniamo un 3/4 di John. Usiamo la rappresentazione del cubo per visualizzare bene lesperimento con cui abbiamo a che fare.
103
bc
abc
c b
ac ab
A questo punto si uniscono a coppie le 3 defining relation rimanenti: I - A - C + AC I + A + C +AC I - A + C - AC Unendo le prime 2 si ha
I + AC che porta agli alias: A+C B + ABC AB + BC tale struttura corrisponde al piano (i, b, ac, abc) Unendo la prima e la terza: I-A B - AB C - AC BC - ABC tale struttura corrisponde al piano (i, b, c, bc) Unendo le ultime 2 defining relation si ha: I+C A + AC B + BC AB + ABC tale struttura corrisponde al piano (c, bc, ac, abc)
104
In pratica lidea di John consiste nel considerare separatamente le 3 possibili met del piano a 6 stati. Come si era gi verificato per i piani di Plackett-Burman, anche per un piano come questo non si riesce a capire la struttura degli alias concepita in maniera classica (par. 4.6) perch osservando la tabella dei segni completa non c nessun contrast uguale agli altri (e alcuni non sono nemmeno contrast):
I i b c ac bc abc 1 1 1 1 1 1 A -1 -1 -1 1 -1 1 B -1 1 -1 -1 1 1 AB 1 -1 1 -1 -1 1 C -1 -1 1 1 1 1 AC 1 1 -1 1 -1 1 BC 1 -1 -1 -1 1 1 ABC -1 1 1 -1 -1 1
Tabella 28: tabella dei segni per i 3/4 di John, utilizzando tutti dati e tutti gli effetti
Per capire la struttura degli alias dei 3/4 di John bisogna ridefinirne il concetto in maniera chiara e univoca (cap.9). Nei piani regolari (cap.4) abbiamo visto che il numero di alias in un piano ridotto sempre uguale a quello degli stati di prova; nel cap.9 vedremo che questa una situazione generale dunque in questo caso abbiamo 6 alias indipendenti; dai 12 alias trovati sopra potremmo scegliere, ad esempio: I + AC A + AC B + ABC C - AC AB + ABC BC - ABC ciascuno di essi utilizza solo 4 dei 6 dati a disposizione, come si vede dalla tabella dei segni dalla quale si possono stimare numericamente gli alias63:
I+AC i b c ac bc abc 1 1 1 1 -1 1 -1 1 1 -1 A+AC B+ABC -1 1 1 -1 -1 1 1 1 AB+ABC C-AC -1 -1 1 BC-ABC 1 -1 -1
63
Volendo, si possono calcolare anche le somme dei quadrati associate ad ogni alias, con la solita formula. 105
alcuni alias hanno forzatamente degli stimatori correlati (ad esempio A+AC e C-AC), se si fa lipotesi che BC e ABC sono trascurabili, si conoscono tutti gli altri 6 effetti, nel cap.9 vedremo che quella sopra solo una delle tante strutture degli alias, anticipo che il caso Iveco (cap.10), gi trattato in Fornasieri (1995) e Actis (1995), rientra fra i 3/4 di John e, in particolare, ha la stessa struttura di questo esempio; esso si pu dunque risolvere adeguatamente senza ricorrere alle equazioni normali, semplicemente usando lanalisi dei contrast e i 3/4 di John, il piano ha risoluzione III perch gli effetti principali non sono confusi fra di loro.
John (1969) ha dimostrato che, se un alias PQ contiene un effetto P non trascurabile e Q trascurabile, e un altro alias PS contiene leffetto di prima P non trascurabile e un effetto S trascurabile, la media algebrica dei 2 alias d la stima di P uguale a quella proveniente dal metodo dei minimi quadrati; ci si estende a n alias che contengano leffetto P e altri effetti trascurabili. Nel nostro esempio, se ABC e BC sono trascurabili, la media aritmetica dei 2 alias: B+ABC B+BC d la stessa stima di B che sarebbe fornita dalle equazioni normali. Io ho verificato (non dimostrato) che, anche senza fare lipotesi delle interazioni trascurabili, gli alias provenienti dai 3/4 di John derivano dalle equazioni normali: lo vedremo nel cap.8. I 3/4 di John sono ignorati da tutti libri di DOE a parte quello di Diamond (1981), probabilmente perch sono piani non ortogonali ovvero danno luogo a degli stimatori parzialmente correlati fra di loro: quando non si sa come affrontare un problema (la non ortogonalit), molto facile dimenticarsi del problema e abbandonarlo...... 5.4.1 PIANO A 6 STATI DI WEBB Tale piano sperimentale fu introdotto insieme ad altri, da Webb nel 1968 in un famoso articolo, Non orthogonal designs of even resolution, che purtroppo non sono riuscito a trovare. Da ci che ho capito, tale piano essenzialmente un 3/4 di John che, partendo dal piano completo 23, elimina 2 stati di prova opposti sul cubo, ovvero una delle 4 coppie: (i, abc) (a,bc) (b,ac) (c,ab) tale piano il pi efficiente (nel senso di maggior risoluzione) dei 3/4 di John con 3 fattori perch lunico che confonde tutti i fattori con linterazione di secondo ordine ABC, ovvero lunico 3/4 che abbia risoluzione IV.
106
bc ac c b
abc
ab
Seguendo la procedura di prima, vediamo che il piano sopra generato dallintersezione dei 3 piani a 4 stati: 1. (a, ab, c, bc) generato da I-AC, porta agli alias: A-C
B-ABC AB-BC 2. (b, c, ac, ab) A-ABC B-C AB-AC 3. (a, b, ac, bc) C-ABC B-A BC-AC
Come anticipato, tutti fattori sono confusi con linterazione di ordine superiore ABC: in questo senso il 3/4 di John migliore per 3 fattori; se si ritiene di poter trascurare uninterazione di primo ordine, ad esempio AC, si pu scegliere di stimare la seguente struttura degli alias: I-BC A-ABC B-ABC C-ABC AB-AC BC-AC
107
si pu usare la tabella dei segni in cui, come prima, ogni alias impiega solamente 4 dei 6 dati. Alcuni stimatori sono correlati qualunque sia la numerosit degli stati di prova (ad esempio A-ABC e B-ABC).
I-AC a b ab c ac bc 1 1 1 1 -1 1 -1 1 1 1 -1 A-ABC B-ABC -1 -1 1 1 -1 1 1 -1 1 AB-AC C-ABC -1 -1 BC-AC 1 -1
108
bc
abc
ac
ab
deriva dallintersezione di 3 piani 23-2: (i, ab) I-C+AB-ABC A-AC+B-BC (i, bc) I-A+BC-ABC B-AB+C-AC (ab, bc) I+B-AC-ABC A+AB-C-BC Per cui, se ci interessano i fattori A e B, possiamo considerare la seguente struttura degli alias: I-C+AB-ABC A+AB-C-BC B-AB+C-AC questi 3 alias ammettono i 3 stimatori (correlati) forniti dalla seguente tabella dei segni:
I-C+AB-ABC i ab bc A+AB-C-BC B-AB+C-AC
1 1 1 -1
-1 1
5.5.2 ALTRE FRAZIONI: 5/8 Prendiamo lesempio su Fornasieri (1995) a pag.95, visto che lunico riferimento, a mia conoscenza, in cui si cerca di esaminare una frazione cos irregolare, usando il metodo di Box-Wilson che vedremo nel cap.8; in questo paragrafo io lo studio ricorrendo al solito ragionamento di John.
109
bc
abc
ac
ab
Figura 10
Possiamo vederlo come lintersezione dei 2 piani: (i, ab, ac, bc) I-ABC A-BC B-AC C-AB (b, bc) I-A+B-AB C-AC+BC-ABC che genera:
che genera:
Avendo 5 stati possiamo stimare 5 quantit (alias): ad esempio, se ci interessano A, B, C e AB dobbiamo combinare i 2 alias sopra64: C-AB = ac + bc - ab - i C-AC+BC-ABC = 2(bc-b) Sottraendo il primo dal secondo si ottiene lalias: (1) AB - AC + BC - ABC = i - 2b + ab - ac + bc Notiamo che questo uso algebrico degli alias possibile solamente con la mia definizione di alias (par. 4.8), assolutamente impensabile con la classe di equivalenza di Galetto (1995 e 1996). La struttura degli alias per questo piano pu dunque essere la seguente:
64
I 2 alias sotto potrebbero anche essere moltiplicati per una costante moltiplicativa, purch sia la stessa per tutti e due (par. 4.8). 110
I-ABC A-BC B-AC AB - AC + BC - ABC C-AC+BC-ABC Come si vede, siamo riusciti a isolare gli elementi che ci interessano. Per calcolare i 5 alias si usa la tabella dei segni, in cui compare per la prima volta un numero in modulo diverso dallunit: questo a causa delloperazione (1) che abbiamo fatto per isolare AB. Ci non deve stupire: ricordiamoci che la tabella dei segni solo un modo per visualizzare i coefficienti da applicare alle medie degli stati di prova per stimare il contrast rappresentante leffetto o lalias (nei piani ridotti come questo).
I-ABC i b ab ac bc A-BC B-AC AB-AC+BC-ABC C-AC+BC-ABC
1 1 1 1
-1 1 1 -1
-1 1 -1 1
1
-2
-1
1 -1 1 1
5.5.3 ALTRE FRAZIONI: 7/8 Come per la precedente frazione, ci rifacciamo allesempio presentato in Fornasieri (1995) a pag. 106, in cui a partire dal piano completo si elimina lo stato di prova c. Ecco la rappresentazione sul cubo:
bc
abc
c b
ac ab
Possiamo considerare il piano sopra come lintersezione di sette piani 23-1: 1. 2. 3. 4. 5. 6. 7. (i,ab,ac,bc) (i,a,bc,abc) (i,b,ac,abc) (a,b,ac,bc) (i,a,b,ab) (b,ab,bc,abc) (a,ab,ac,abc) I-ABC I+BC I+AC I-AB I-C I+B I+A
che genera lalias65 A+ABC che genera lalias B+ABC che genera lalias C-ABC che genera lalias AB-ABC che genera lalias AC+ABC che genera lalias BC+ABC
Se ci interessa stimare i sei effetti A,B,C,AB,AC,BC, pensando che linterazione del secondo ordine ABC sia trascurabile, possiamo assumere la seguente struttura degli alias di cui si trova traccia anche in Daniel (1976) a pag.65:
I-ABC A+ABC B+ABC C-ABC AB-ABC AC+ABC BC+ABC Questi sette alias possono essere stimati con la seguente tabella dei segni, e nuovamente ciascun alias utilizzer solo quattro stati di prova:
I-ABC i a b ab ac bc abc Tabella 32: frazione 7/8 1 1 1 -1 1 1 -1 1 A+ABC B+ABC -1 1 1 -1 AB-ABC C-ABC AC+ABC BC+ABC 1 -1 -1 1 1 1 -1 1 1 -1 -1 1 -1 -1 -1 1
65
Genera anche altri alias ma nel nostro esempio ci interessa solo questo; ci vale anche per le defining relation successive. 112
5.5.4 CONCLUSIONI In questo paragrafo abbiamo studiato alcune frazioni irregolari in maniera molto intuitiva, considerandoli come intersezioni di piani regolari: da quel che ho capito questa lessenza del ragionamento di John per la costruzione dei suoi 3/4. Tuttavia non abbiamo dato alcuna giustificazione statistica per luso degli alias e delle tabelle dei segni proposti; inoltre gli esempi fatti sono stati molto semplici nel senso che la struttura degli alias si adattava sempre a ci che volevamo conoscere; infine ci siamo limitati a frazioni semplici con 3 fattori: immaginiamo invece di avere 25 stati di prova sperimentabili e di poter fare solo 13 prove: avremmo la frazione 13/32, molto irregolare, che necessita di metodi appositi (metodo di Box-Wilson) per essere studiata. Nel cap.8 supereremo questi due problemi introducendo il metodo di Box-Wilson che ci consentir di: verificare che gli alias trovati e i contrast proposti derivano dalle equazioni normali, di verificare se, per un dato piano, possibile trovare una struttura degli alias che soddisfa le esigenze dello sperimentatore, operare con un numero qualsiasi di fattori e con qualunque frazione. Tutto ci possibile usando il modello full-regression (cap.8).
113
CAPITOLO 6
Le conseguenti somme dei quadrati associate ai modelli si calcolano con la formula matriciale: (1) SSreg = T * XT * Y = YT * X * (X*XT)-1 * XT * Y dalla (1) si vede che la SSreg una forma quadratica e si potrebbe dimostrare che la SSreg non dipende dai valori assoluti presenti nella matrice X: questo ci offre la possibilit di codificare le variabili, siano esse quantitative o qualitative. Facendo delle opportune differenze fra le somme dei quadrati dei vari modelli si ottengono le somme dei quadrati che spiegano leffetto dei fattori; leffetto della covariate presente nellordinata allorigine. Applicheremo questa procedura allesempio macchina-operatore del capitolo precedente, ma prima affrontiamo linterpretazione grafica dei piani fattoriali 22.
B2
12, 13 26, 29
22, 23 35, 40
Proviamo a calcolare le stime dei contrast rappresentanti gli effetti col metodo di Yates. A = 30 B = 20 AB = 0 In questo esperimento dunque linterazione sicuramente risulter non significativa. Ma ci cosa vuol dire? Per scoprirlo tracciamo un grafico dei valori medi di Y in funzione dei livelli del fattore A, per ogni livello di B; nellanalisi della covarianza B sarebbe considerato la covariate e A una variabile quantitativa: la sua scala nel grafico stata codificata (1, 2).
115
Come si pu vedere le 2 rette fatte ai 2 livelli di B sono parallele; ci si verifica anche se sulle ascisse mettiamo il fattore B e trattiamo il fattore A come covariate. Infatti quando AB nulla si ha che: ab + i - a - b = 0 ovvero: ab - b = a - i consideriamo che le 2 quantit rappresentano i coefficienti angolari delle 2 rette disegnate sopra nel piano Y-fattore A: essendo uguali i c.a. le rette sono ovviamente parallele ogniqualvolta linterazione nulla67. Analogamente nel piano Y-fattore B, trattando A come covariate, si avrebbe avuto: ab - a = b - i e si sarebbe ottenuta luguaglianza fra i coefficienti delle 2 rette nel piano Y-fattore B. Questa linterpretazione grafica delle interazioni ovvero il non parallelismo fra le rette. Quando vogliamo fittare i dati con un modello senza interazione (additivo), dobbiamo quindi imporre che le rette corrispondenti ai diversi livelli della covariate siano parallele. 6.2.1 EFFETTI MEDI E MARGINALI DEI FATTORI Osserviamo di nuovo la figura 1: nel passare dal livello 1 al 2 del fattore A, la risposta Y aumenta decisamente sia con B al livello basso che alto dunque diciamo che il fattore A ha un effetto marginale positivo significativo68 sia con B basso che alto: leffetto medio di A allora chiaramente significativo. In formule abbiamo: effetto marginale di A su B basso:
67
Nella realt difficile che linterazione sia proprio nulla tuttavia se trascurabile le rette sono approssimativamente parallele. Ricordiamo comunque che noi stimiamo delle rette perch quelle vere rimarranno sempre sconosciute Anche senza fare lANOVA e specificare un livello di fiducia, ci evidente dal grafico. 116
68
a-i = 15 effetto marginale di A su B alto: ab-b = 15 effetto medio di A: a+ab-i-b69 = 30 Nellanalisi della varianza e dei contrast vengono sempre considerati solo gli effetti medi, e ci va benissimo; vorrei per che si fosse consapevoli che quando si afferma: il fattore A non ha effetto si sta parlando delleffetto medio e anche se esso nullo ci non toglie che pu avere effetti marginali molto significativi; anche io nella tesi quando dico effetto senza specificare se marginale o medio, intendo leffetto medio. Prendiamo i seguenti dati:
B1 A1 A2
Tabella 34
B2
Calcoliamo gli effetti medi: A=0 B = 15 AB = 30 Anche se leffetto medio di A nullo, sarebbe un grave errore pensare che il fattore A non influenzi la risposta dellesperimento. Infatti se vediamo agli effetti marginali: effetto marginale di A al livello basso di B: a-i = -15 effetto marginale di A al livello alto di B: ab-b = 15 evidente che gli effetti marginali di A sono significativi ma, essendo di segno opposto, danno luogo a un effetto medio nullo. Vediamo il grafico di questo esperimento:
69
Sarebbe opportuno dividere per 2 ma, come sappiamo, per lanalisi dei contrast ininfluente. 117
40 35 30 25 Y 20 15 10 5 0 1 Fattore A 2
Come vediamo le 2 rette hanno coefficienti angolari opposti ovvero: a - i = b - ab e ci deriva dal fatto che: A = a + ab - i - b = 0 Le 2 rette sono decisamente non parallele e infatti si trova che linterazione AB molto significativa. AB = 30 Infatti nellinterazione sono nascosti gli effetti marginali di A: ecco un buon motivo per non trascurare le interazioni; esse esplicitano leffetto marginale di un fattore. I 3 stimatori proposti A, B, AB sono dunque sufficienti70 per descrivere i risultati di un esperimento con 2 fattori a 2 livelli; vediamo una propriet molto importante degli effetti medi e marginali: se i fattori A e B hanno tutti gli effetti marginali non significativi anche la loro interazione necessariamente non significativa, di conseguenza: se linterazione AB significativa allora deve esistere per forza un effetto marginale di A o B significativo. dunque assolutamente impensabile poter trascurare linterazione AB: si rischia di fare degli errori gravissimi come nel seguente esempio. 6.2.2 LIMPORTANZA DELLE INTERAZIONI There really are interactions, and you need to watch out for them (John 1990). Consideriamo i seguenti dati: B1 A1 A2
Tabella 35
70
B2 10, 15 36, 39
37, 38 11, 14
A=0 B=0 In questo esperimento se ci limitassimo allo studio dei fattori A e B, troveremmo che i loro effetti medi sono nulli e dovremmo pensare che niente influenza la risposta Y dellesperimento. Invece se non trascuriamo literazione: AB = 50 vediamo che essa molto significativa: ci vuol dire che gli effetti marginali dei fattori A e B sono tuttaltro che trascurabili. Se i fattori A e B fossero stati i parametri di un processo e la Y una variabile da massimizzare, trascurando linterazione, non avrei potuto individuare le 2 condizioni ottimali i e ab.
40 35 30 25 Y 20 15 10 5 0 1 Fattore A 2
Questi esempi fatti sono molto banali ma fanno capire il tipo di errore che si pu fare anche con pi fattori e pi livelli. Spero che a questo punto sia evidente limportanza di considerare le interazioni: nel suo libro Galetto (1995 e 1996) afferma ripetutamente che le interazioni sono importanti tanto quanto i fattori. Invece Taguchi (1987 e 1996) trascura sistematicamente le interazioni. Molti autori (fra cui Box et al. 1978) le considerano un effetto del secondo ordine pensando di sviluppare in serie di Taylor la funzione di risposta: questo pu andar bene per fattori quantitativi per, se per esempio la risposta
esponenziale, lecito trascurare i termini di ordine superiore nello sviluppo di Taylor?... Alcune considerazioni molto importanti riguardo le interazioni si trovano in Lorenzen e Anderson (1993) a pag. 212:
If there is no knowledge about interactions, they cannot be assumed negligible and larger designs will have to be run. We constantly hear subject matter experts claim that there are a few two factor interactions but there definitely no three factor interactions. Yet we have observed at least
one significant three factor interaction almost 50% of the time three factor interactions could be tested. The reason is twofold. One, the expert did not actually know there were no three factor interactions, and two, the increased sample size required to test three factor interactions made the tests more sensitive.
119
As processes get more complex, more and higher order interactions are going to exist ... we predict that more and more processes will contain higher order interactions that need to be properly modeled to be fully understood and optimized. Anche Galetto (1995) fa delle considerazioni analoghe e soprattutto afferma che nelle sue applicazioni ha trovato spesso interazioni del secondo ordine quando la struttura del piano era tale che esse si potevano esaminare.
MACCHINA 1 41,48 41
64,67 39,35
Immaginiamo un grafico in cui Y funzione solamente delloperatore: trattiamo questo fattore come una variabile quantitativa, codificando i suoi livelli con 1 e 2. Il fattore macchina dunque una covariate: il suo effetto esplicitato attraverso lordinata allorigine. Il primo modello da considerare quello in cui si fittano i dati come se la macchina non avesse effetto dunque si usa solo unordinata allorigine. Il modello : Y = A + B*O che rappresentiamo in forma matriciale: Y=X* dove contiene i 2 parametri A e B e la matrice X contiene una colonna di 1 e unaltra con i valori della variabile operatore 1 e 2. Vediamo i valori numerici:
120
64 67 41 48 39 35 41 =
1 1 1 1 1 1 1
1 1 1 1 2 2 2 *
A B
Le equazioni normali in forma matriciale sono: (XT * X) * = XT * Y non riportiamo i calcoli, effettuati con Excel, che non presentano alcuna difficolt, a parte linversione della matrice (XT*X). Il risultato 71: = (XT * X)-1 * XT * Y contenente le stime dei 2 parametri: A = 71,666 B = -16,666 La somma dei quadrati spiegata da questo modello che tiene conto solo delleffetto delloperatore : SSreg = T * XT * Y
SSreg (I+O) = 16508,333
71
Uso lo stesso termine per i parametri e la loro stima: non credo che il lettore si possa confondere. 121
Y = A + B*O
70 60 50 Y 40 30 20 10 0 1 Operatore 2 y = -16,667*O + 71,667
Ripetiamo che un tale modello considera solo leffetto delloperatore (oltre che la media). Analogamente, scambiando i ruoli di macchina e operatore, avremmo potuto trovare la somma dei quadrati di un modello che consideri solo leffetto della macchina: il ragionamento identico a prima, quindi non sar ripetuto; riporto solo il risultato:
SSreg (I + M) = 16139,58333
A questo punto costruiamo un modello nel piano Y-operatore in cui per permettiamo che la macchina abbia un effetto: ci vuol dire che i dati sono divisi con la prima e la seconda macchina, avremo quindi 2 rette con diversa ordinata allorigine ma uguale pendenza visto che per ora ammettiamo che non ci sia interazione fra macchina e operatore. Il modello dunque: Y = A0 + A1 + B*O scritto in forma matriciale: Y=X* dove contiene i 3 parametri (A0, A1, B) e la matrice X la seguente:
I0 I1 O
1 1 0 0 1 1 0
Tabella 37
0 0 1 1 0 0 1
1 1 1 1 2 2 2
danno la seguente soluzione: A0 = 79 A1 = 68 B = -18,5 ovvero con la prima macchina, abbiamo la seguente retta: Y = 79 - 18,5*O mentre con la seconda macchina: Y = 68 - 18,5*O le 2 rette sono parallele perch in questo modello non prevista linterazione. Il grafico :
Y = A0 + A1 + B*O
70 60 y = -18,5*O + 79 50 40 Y 30 20 10 0 1 Fattore O 2
y = -18,5*O + 68
Questo un modello che chiamiamo additivo perch non considera la possibile interazione fra i 2 fattori avendo imposto che i coefficienti angolari delle 2 rette siano uguali. La somma dei quadrati associata a questo modello : SSreg = T * XT * Y
SSreg (I+M+O) = 16710
Il modello pi completo che possiamo pensare quello in cui oltre allordinata allorigine varia anche il coefficiente angolare quando si passa fra le 2 macchine. Il modello dunque: Y = A0 + A1 + B0*O0 + B1*O1 il vettore della forma matriciale contiene i parametri A0, A1, B0 e B1 mentre la matrice X la seguente:
123
I0 1 1 0 0 1 1 0
Tabella 38
I1 0 0 1 1 0 0 1
O0 1 1 0 0 2 2 0
O1 0 0 1 1 0 0 2
La soluzione alle equazioni normali la seguente: A0 = 94 A1 = 48 B0 = -28,5 B1 = -3,5 si hanno allora le 2 rette: Y = 94 - 28,5*O con la prima macchina Y = 48 - 3,5*O con la seconda macchina
Y =A0 + A1 + B0*O0 + B1*O1
70 60 50 40 Y 30 20 10 0 1 Fattore O 2 Prima macchina Seconda macchina y = -28,5*O0 + 94
y = -3,5x*O1 + 48
SSreg (I + M) = 16139,58333 SSreg (I+M+O) = 16710 SSreg (I+M+O+MO) = 16960 Secondo lanalisi della covarianza a questo punto si possono ottenere le somme dei quadrati associate ai fattori nel modo seguente: (1) SS(M) = SSreg (I+M+O) - SSreg (I+O) = 201,66666 (2) SS(O) = SSreg (I+M+O) - SSreg (I+M) = 570,41666 mentre linterazione si calcola a partire dal modello pi completo: (3) SS(MO) = SSreg (I+M+O+MO) - SSreg (I+M+O) = 250 come si vede sono gli stessi risultati, ottenuti con il metodo di Galetto (par. 5.2.1): anche questi per non si sa quale ipotesi testano sulle medie degli stati di prova; si pu trovare lipotesi nulla solo per linterazione perch a partire dal modello pi completo stato posto il vincolo: 11 + 00 + 01 - 10 = 0 che corrisponde allipotesi nulla testata da SS(MO)=250; le 2 SS relative ai fattori non si sa cosa testino: nel par. 5.2.1 possiamo vedere le 2 corrispondenti ipotesi nulle, ma esse sono state ricavate solo a posteriori col modello full-regression (cap.8). 6.3.1 CRITICHE ALLANALISI DELLA COVARIANZA CHE NON USA MODELLI NON GERARCHICI A mio parere questa procedura soggetta a 2 critiche: 1. Facendo semplici differenze di somme di quadrati, in generale non si capisce qual la reale ipotesi testata in forma di medie degli stati di prova: ricordiamo che le uniche ipotesi testabili sono quelle che si possono esprimere in funzione delle medie degli stati di prova. 2. Perch linterazione calcolata a partire dal modello pi completo e i fattori no??? La cosa pi logica sarebbe introdurre altri 2 modelli (non gerarchici): (4) Y = I+M+MO (5) Y = I+O+MO e calcolare: SS(M) = SSreg (I+M+O+MO) - SSreg (I+O+MO) SS(O) = SSreg (I+M+O+MO) - SSreg (I+M+MO) Il primo problema facilmente superabile, ad esempio, con lanalisi dei contrast (cap.4); il lettore accorto infatti ricorder che le somme dei quadrati (1), (2) e (3) le avevamo gi incontrate nel cap.5 nella tabella 8; gi allora avevamo detto che si stavano testando le 3 ipotesi:
125
3 2 3 2 * 10 + * 11 * 00 * 01 = 0 10 10 10 10 3 2 3 2 * 01 + * 11 * 00 * 10 = 0 10 10 10 10 00 + 11 10 01 = 0 Lultima sta testando leffetto dellinterazione, le prime 2 non credo che siano di interesse generale (a meno che non si giustifichino i diversi pesi per le medie, ma in tal caso perch nellinterazione le medie vengono pesate ugualmente???) per cui bisogna stare molto attenti ad applicare lanalisi della covarianza e qualsiasi altro metodo che nasconde lipotesi nulla testata. Il secondo problema, per essere superato richiede lintroduzione dei modelli non gerarchici (4) e (5); questo ci permette di superare anche il primo problema perch con i modelli non gerarchici perch tutti gli effetti X sono calcolati a partire dal modello pi completo SS(X) = SS(completo) - SS(ridotto) dunque siamo in grado di capire lipotesi nulla dal vincolo posto per ricavare il modello ridotto, esattamente come abbiamo fatto prima per linterazione che era lunico effetto calcolato a partire dal modello pi completo.
rappresentazione grafica si hanno 2 rette con coefficienti angolari opposti. Nelder (1974) afferma che un modello di questo tipo non sono di interesse perch il fattore tolto dal modello pu comunque avere un effetto marginale significativo quindi la SSreg uguale a quella del modello completo: ci vero sole se si ragiona in termini di modelli sovraparametrizzati (cap.7). Comunque nel modello non gerarchico: Y = I + M + MO bisogna forzare il fit dei dati con le 2 rette: Y = A0 + B*O con la prima macchina Y = A1 - B*O con la seconda macchina In forma matriciale Y = X * abbiamo che contiene i parametri (A0, A1, B), Y il solito vettore con le 7 risposte, mentre la matrice X la seguente:
I0 I1 O
1 1 0 0 1 1 0
Tabella 39
0 0 1 1 0 0 1
1 1 -1 -1 2 2 -2
I dati relativi alla seconda macchina sono cambiati di segno per far s che le 2 rette relative alle 2 macchine abbiano coefficiente angolare opposto. La soluzione delle equazioni normali : A0 = 74,8 A1 = 22,4 B = -15,7
127
Y = A0 + A1 + B*O0 - B*O1
70 60 50 40 Y 30 20 10 0 1 Fattore O 2 y = 15,7*O1 + 22,4 Prima macchina Seconda macchina y = -15,7*O0 + 74,8
Le 2 rette sono dunque: Y = 74,8 - 15,7*O Y = 22,4 + 15,7*O Un tale modello (non gerarchico perch compare linterazione MO ma non il fattore O) fornisce una somma dei quadrati: SSreg (I+M+MO) = T * XT * Y = 16550,4 Analogamente sul piano Y - macchina, trattando loperatore come covariate, si poteva pensare si fittare i dati con 2 rette aventi coefficienti angolari opposti, costruendo cos il modello: Y = I + O + MO non riporto la procedura che identica al modello costruito. Riporto solo il risultato della somma dei quadrati associata che ci sar molto utile nel calcolare l effetto del fattore macchina. SSreg (I+O+MO) = 16844,4 e il grafico :
128
Y = A0 + A1 + B*M0 - B*M1
70 y = -14,2*M0 + 76,3 60
50
40 Y 30 y = 14,2*M1 + 19,4
20
10
0 1 Fattore M 2
A questo punto possiamo rimediare agli errori del par. 6.3 che concludeva: SS(M) = SSreg (I+M+O) - SSreg (I+O) = 201,66666 SS(O) = SSreg (I+M+O) - SSreg (I+M) = 570,41666 visto che adesso siamo in grado di calcolare gli effetti dei fattori a partire dal modello pi completo. SS(M) = SSreg (I+M+O+MO) - SSreg (I+O+MO) = 115,6 SS(O) = SSreg (I+M+O+MO) - SSreg (I+M+MO) = 409,6 Non pi nascosta lipotesi nulla sulle medie perch sappiamo che il modello Y=I+O+MO stato costruito col vincolo: 11 + 10 + 01 - 00 = 0 mentre il modello Y=I+M+MO stato costruito col vincolo: 11 + 01 + 10 - 00 = 0 dunque sappiamo le ipotesi nulle testate, solo perch abbiamo calcolato gli effetti dei fattori a partire dal modello pi completo come era stato fatto per linterazione. Se ripensiamo allanalisi dei contrast fatta sullesempio macchina-operatore fatta nel cap.5 vediamo che le 2 somme dei quadrati le avevamo gi trovate; erano associate rispettivamente alle stime: C ( M ) = ( y10 + y11 y 00 y 01 )
129
C (O) = ( y 01 + y11 y10 y 00 ) Avremmo anche potuto testare le ipotesi del Questo per questo o quelle implicite nel metodo di Galetto, ad esempio per la macchina: 211 + 310 - 201 - 300 = 0 non si avr pi la condizione che le 2 rette abbiano coefficiente angolare opposto ma si avr unaltra condizione sui coefficienti angolari delle 2 rette del modello ridotto: il lettore pu provare e vedere che ottiene gli stessi risultati dellanalisi dei contrast perch per una data ipotesi nulla, si ha sempre la stessa somma dei quadrati, se usiamo un metodo corretto per trovarla. Mi pare dunque evidente che lanalisi della covarianza, modificata per tenere conto dellesistenza dei modelli non gerarchici, un metodo corretto anche se pi lungo dellanalisi dei contrast, che quindi da preferirsi.
130
CAPITOLO 7
7.1 METODO G
...analysis of variance and regression. The relationship between these two apparently dissimilar statistical procedures is not only a theoretical fact, but also of considerable practical advantage (Schilling 1974) Il nome metodo G stato dato da Galetto nel 1989 alluso delle equazioni normali nellANOVA, per contrapporlo ai dilaganti metodi Taguchi nellanalisi dei dati stratificati. La lettera G indica Gauss-Markov ovvero il nome del teorema che sancisce lottimalit degli stimatori provenienti dalle equazioni normali. In pratica si tratta di costruire un modello che colleghi la risposta ai fattori che si vogliono studiare con lANOVA e fare la regressione su questo modello, ricavando le somme dei quadrati per lANOVA; nel capitolo precedente sullanalisi della covarianza abbiamo fatto qualcosa di simile, ma i modelli costruiti erano quelli tipicamente usati nella regressione, con i livelli delle variabili codificate (allocated codes, secondo Searle 1971). A quanto riferito da Speed et al.(1978), Yates gi nel 1934 us la regressione per lANOVA: nellarticolo citato il metodo chiamato method of fitting constants ma non nientaltro che il metodo G. Si pu pensare di costruire i modelli in vari modi; noi ne vedremo tre: 1. Modello sovraparametrizzato (overparametrized); in Searle (1971) e Snee (1973) denominato come dummy variable (0, 1); per il primo fattore A si introducono i
131
parametri 1, 2, ... p1, dove p1 il numero dei livelli del fattore A; per il secondo fattore i parametri 1, 2,... p2, dove p2 il numero di livelli del secondo fattore e cos via; per quanto riguarda linterazione AB essa presente con i parametri 11, 12,... p1 p2. La variabile xi corrispondente al parametro vale 0 o 1 a seconda che il parametro sia presente nello stato di prova. Ad esempio con 2 fattori a 2 livelli abbiamo che il modello : (1) yijr = + xi * i + yj * j + zij * ij + ijr i = 1,2 j=1,2
che in tutti libri sempre scritto semplicemente come: (2) yijr = + i + j + ij + ijr i = 1,2 j=1,2
che in forma ulteriormente abbreviata potr essere scritto come: Y = I + A+ B + AB dalla (1) vediamo che nel modello vi sono 9 parametri; al massimo per si possono sperimentare 4 stati di prova quindi se pensiamo allanalisi della varianza (par 3.7.2) vi sono solo 4 gradi di libert (compreso quello della media) e dunque si possono stimare solo 4 parametri. 2. Modello full-regression, secondo la denominazione di Krishnaiah (1980). Introduce p-1 parametri per ogni fattore a p livelli; linterazione fra due fattori a p e q livelli presente con (p-1)*(q-1) parametri. Le variabili corrispondenti ai parametri dei fattori sono codificate opportunamente e quelle delle interazioni sono il prodotto; con 2 livelli la codifica impiegata -1 e +1 per i 2 livelli. Con 2 fattori a 2 livelli il modello : yijr = x0 + x1 + B * x2 + AB * x1x2 + ijr che in forma abbreviata potr essere scritto come: Y = I + A+ B + AB se vengono sperimentati tutti gli stati si riesce sempre a stimare tutti i parametri; se alcuni stati di prova non contengono dati siamo davanti a un frazionamento che produce una distorsione dei parametri che vogliamo stimare ( il problema degli alias). Vedremo questo modello nel cap.8. 3. Modello cell-means, secondo la denominazione di Searle et al.(1981), Jennings et al. (1982), Searle (1987)... molto semplice in quanto i parametri sono le medie dei vari
132
stati di prova, dunque ovvio che si possano stimare tutti parametri corrispondenti agli stati di prova sperimentati. Yij = ij + ij vedremo questo modello nel cap.8. Come gi detto questi 3 modelli ammettono tutti la forma matriciale: E(Y) = X * le equazioni normali diventano: (XT*X)* = XT * Y A seconda del modello che usiamo, la matrice (XT*X) pu essere invertibile o meno. In particolare il modello sovraparametrizzato d sempre luogo a una matrice (XT*X) non invertibile. Il teorema di Gauss-Markov assicura per alcune propriet che valgono sempre, qualunque modello si usi, anche se in questo capitolo ci soffermeremo sul modello sovraparametrizzato. modello cell-means
dove XT * Y il vettore contenente i totali negli stati di prova aggregati secondo i parametri. se la matrice (XT*X) ammette inversa (modello full-rank) abbiamo un unico vettore soluzione: $ = (XT*X)-1 * XT * Y se la matrice (XT*X) non ammette inversa (modello overparametrized, non full-rank o less than full-rank), col teorema di Rouch-Capelli, si dimostra che vi sono infinite soluzioni alle equazioni normali. Infatti, se il rango di X r, anche il rango della matrice (XT*X) sar r ed uguale al rango della matrice (XT*X XT*Y) perch il numero di elementi indipendenti in XT*Y sempre uguale a r. Qualcuna di queste infinite soluzioni alle equazioni normali d luogo a degli stimatori corretti? Consideriamo che ogni soluzione delle equazioni normali deve essere combinazione lineare delle risposte Y, dunque: $ =A*Y dove A una matrice di dimensioni p*n. Se esistesse uno stimatore corretto di , dovrebbe risultare che: $ E ( ) = = E (A * Y) = A * E(Y) = A * X * dunque, se esistesse uno stimatore corretto di , sarebbe verificata la seguente identit: A*X=I ma luguaglianza sopra non pu mai essere verificata col modello sovraparametrizzato perch la matrice I ha rango p, mentre la matrice A * X, non pu avere un rango superiore a r che sempre minore di p se il modello sovraparametrizzato: con questo modello non esistono degli stimatori corretti dei parametri. Con dei modelli full-rank, r=p, dunque gli stimatori dei parametri derivanti dalle equazioni normali sono corretti.
FUNZIONI STIMABILI Sia un vettore riga di p elementi noti; allora il prodotto ( * ) fornisce una combinazione lineare dei parametri. ( * ) detta una funzione stimabile se esiste una combinazione lineare delle risposte Y tale che il suo valore atteso sia uguale a ( * ). In formule deve esistere un vettore riga a di n elementi tale che:
E (a * Y) = ( * ) Generalizzando, 1*, 2*,....k*, un set di k funzioni stimabili se, costruita una matrice con i vettori riga i, , di dimensione k*p, esiste una matrice A di dimensione k*n tale:
134
(1) E (A * Y) = ( * )
TEOREMA 1 Se pensiamo che sia la nostra X, sostituendo A=I di dimensione n*n, si vede subito che la (1) verificata dunque X* rappresenta un set di n funzioni stimabili: se ci si pensa, ci perfettamente logico visto che X* non rappresenta altro che il valore atteso delle variabili casuali le cui determinazioni sono le n osservazioni fatte, il cui
valor medio certamente stimabile. Se pensiamo che sia (XT*X), sostituendo A=XT di dimensione p*n, si vede che la (1) verificata dunque (XT*X)* rappresenta un set di p funzioni stimabili.
FUNZIONI STIMABILI LINEARMENTE INDIPENDENTI Se 1*, 2*,....t* sono t funzioni stimabili e il rango della matrice , formata dai i, uguale a t, allora 1*, 2*,....t* sono dette funzioni stimabili linearmente indipendenti. TEOREMA 2 Poich (XT*X)* rappresenta un set di p funzioni stimabili e il rango di (XT*X) r<p (nel modello sovraparametrizzato), al massimo ci saranno r funzioni stimabili linearmente indipendenti dove r il numero degli stati di prova; dunque ogni funzione stimabile una combinazione lineare delle medie degli stati di prova. Abbiamo visto che tutte le funzioni stimabili sono combinazioni lineari delle medie degli stati di prova, dunque i contrast del cap.4 sono particolari funzioni stimabili ed esistono tanti contrast indipendenti quanti sono gli stati di prova meno 1 (che riguarda la media non un contrast pur essendo una c.l. delle medie degli stati di prova). I contrast sono sempre funzioni stimabili mentre non tutte le funzioni stimabili sono dei contrast: ci assolutamente evidente dalle definizioni date. A questo punto possiamo enunciare il teorema di Gauss-Markov per i modelli scritti in
e b*XT*Y lo stimatore BLUE (best linear unbiased estimator) di *, ed lo stimatore di massima verosimiglianza se le variabili errore e sono normali. Per i modelli full-rank non c il problema delle funzioni stimabili perch tutti parametri sono funzioni stimabili e il teorema di Gauss-Markov afferma quindi che gli stimatori dei parametri provenienti dalle equazioni normali sono BLUE.
135
TEOREMA 4 Se una funzione * stimabile, ognuna delle infinite soluzioni alle equazioni $ $ normali fornisce lo stesso valore per *. Prendiamo 2 soluzioni 1 e 2, che
soddisfano le equazioni normali: $ (2) (XT*X)* 1 = XT * Y $ (3) (XT*X)* 2 = XT * Y Ma se * stimabile, esiste b tale che: (4) b * XT * X = dunque se moltiplichiamo a destra la (2) e la (3) per il vettore riga b, abbiamo che: $ b * (XT*X)* 1 = b * XT * Y $ b * (XT*X)* 2 = b * XT * Y Per la (4) si ha che: $ * 1 = b * XT * Y $ * 2 = b * XT * Y Quindi: $ $ * 1=* 2 dunque le 2 soluzioni danno lo stesso valore per la funzione stimabile *. Inoltre: $ $ E ( * 1) = E ( * 2) = E (b * XT * Y) = b * XT * E(Y) = b * XT * X * = *
STIMATORE DELLA VARIANZA DELLA POPOLAZIONE $ Abbiamo detto che X* rappresenta un set di n funzioni stimabili, dunque (Y-X* ), il
vettore dei residui, anche invariante rispetto alla soluzione che si sceglie. I minimi quadrati minimizzano la sommatoria dei quadrati dei residui, ovvero in forma matriciale: $ $ SSe = (Y-X* )T*(Y-X* ) Se viene sviluppato si ottiene: $ (5) SSe = YT*Y - T*XT*Y considerando che: $ E (YT*Y - T*XT*Y) = n*2 - r*2 = (n-r)* 2 Abbiamo dunque ritrovato lo stimatore per la varianza delle risposte Y: SSe ) 2 = (n r) Dalla (5) si ricava anche linvarianza della somma dei quadrati associata a un modello al variare della soluzione: $ T*XT*Y = YT*Y - SSe visto che YT*Y la sommatoria dei quadrati delle risposte, indipendente dalla soluzione delle equazioni normali; SSe la sommatoria dei residui e per ci che abbiamo detto pure indipendente dalla soluzione.
TEOREMA 5
136
Date 1*, 2*,....k* sono k funzioni stimabili linearmente indipendenti si pu testare lipotesi nulla che esse siano simultaneamente uguali a zero. Si calcola una soluzione qualsiasi alle equazioni normali: $ (XT*X)* = XT * Y e poi si calcola la somma dei quadrati associata a quel modello: $ SSreg = T * XT * Y Poi si sostituiscono nel modello: E(Y) = X * le ipotesi nulle da testare:
H0: 1* = 2* = 3* = ..... = k* = 0 ottenendo un modello ridotto: E(Y) = Z * ) Si calcola una soluzione delle equazioni normali di quel modello ridotto: ) (XT*X)* = XT * Y
e la somma dei quadrati associata ad esso: ) T * XT * Y Se le variabili casuali nel vettore e sono distribuite normalmente, la statistica:
($
u=
* X T * Y ( $ T * X T * Y )
T
k (Y * Y ) $ T * X T * Y
nr
segue una distribuzione F con k e (n-r) gradi di libert dunque, con un livello di fiducia (1) rifiutiamo lipotesi nulla: H0: 1* = 2* = 3* = ..... = k* = 0 se u > F1-(k, n-r) Notiamo che tutte le funzioni stimabili per il teorema 1 e 2 possono essere espresse in funzione delle medie degli stati di prova dunque le uniche ipotesi che si possono testare sono quelle esprimibili in funzione delle medie degli stati di prova. 7.2.1 OSSERVAZIONI Il teorema di Gausss-Markov, in pratica afferma che se la matrice (XT*X) invertibile (modelli full-rank: full-regression e cell-means), gli stimatori di provenienti dalle equazioni normali: $ (XT*X)* = XT * Y sono i migliori nel senso che sono corretti e a varianza minima: si dice che sono stimatori BLUE; se la matrice (XT*X) non invertibile (modello sovraparametrizzato), gli stimatori delle funzioni stimabili provenienti dalle equazioni normali sono stimatori BLUE. Tutto
137
ci perfettamente logico: in ogni caso, con r stati di prova stimo correttamente al massimo r parametri (o loro c.l.) indipendenti. Nellambito delle equazioni normali e il teorema di Gauss-Markov, abbiamo poi enunciato altri teoremi, presi dal Mood e Graybill (1963): dei 5 teoremi il pi importante indubbiamente lultimo (5) perch indica quali ipotesi si possono testare e come fare. un vero peccato che Actis (1995) e Fornasieri (1995), dopo aver enunciato il teorema 5 come sopra, non lo applicano mai come lo hanno esposto: inoltre essi dichiarano che il teorema 5 il teorema di Gauss-Markov mentre in Mood e Graybill (1963) e Zyskind (1969) si riporta che il teorema di Gauss-Markov quello che dice che gli stimatori provenienti dalle equazioni normali sono quelli a varianza minima (teorema 3). Anche Galetto (1995 e 1996) cita moltissimo il teorema di Gauss-Markov, alla base del metodo G, ma poi non enuncia il teorema 5 come scritto sul Mood e Graybill (1963) e non lo applica mai in modo rigoroso. Il teorema richiede che: 1. 2. 3. 4. si parta da unipotesi sulle funzioni stimabili linearmente indipendenti, si sostituisca lipotesi nulla nel modello pi completo, ottenendo un modello ridotto, si risolvano le equazioni normali sul modello ridotto, si calcoli il numeratore della F calcolata per il test, a partire dal modello pi completo, secondo il teorema 5.
Purtroppo spesso non si dichiara la (o le) funzione stimabile che vuole testare, dunque ovvio che poi i modelli ridotti non si ottengono dal pi completo. Le funzioni stimabili si possono sempre esprimere in funzione delle medie degli stati di prova quindi lanalisi dei contrast introdotta nel cap.4 equivalente alluso del teorema di Gauss-Markov essendo per molto pi veloce; daltra parte, questa equivalenza conferisce agli stimatori dei contrast le propriet di ottimalit, dunque ne legittima lanalisi. Notiamo che nellenunciare il teorema non abbiamo mai invocato lortogonalit statistica ovvero la non correlazione fra gli stimatori di Gauss-Markov: ci vuol dire che anche lanalisi dei contrast (fatta ad esempio col metodo di Yates) si pu fare in ogni situazione: gli stimatori dei contrast restano BLUE. Il teorema di Gauss-Markov quindi un importantissimo risultato teorico ma nellapplicazione pratica decisamente conveniente usare lanalisi dei contrast; tuttavia se si vuole usare a tutti costi il modello sovraparametrizzato invocando il teorema di Gauss-Markov, bisogna farlo rigorosamente, applicando il teorema 5.
138
1 1 1 1
Tabella 40
1 1 0 0
0 0 1 1
1 0 1 0
0 1 0 1
1 0 0 0
0 1 0 0
0 0 1 0
0 0 0 1
Se ci sono pi dati nei vari stati di prova, bisogna replicare le righe relative a quegli stati. In questo modo la matrice possiamo scrivere la matrice (XT*X) delle equazioni normali e il termine noto XT*Y, contenente i totali:
0 n0. 1 n1. 0 n.0 1 n.1 00 n00 01 10 n01 n10 n01 0 11 n11
XT*Y
1 2 3 4 5 6 7 8 9
0 0 n01 0 n01 0 0
e il vettore dei parametri contiene i 9 parametri (, 0, 1, 0, 1, 00, 01, 10, 11). Tij indicano i totali e yij indicheranno le medie degli stati prova. Il sistema, come abbiamo gi detto, ammette infinite soluzioni: la prima riga la somma delle ultime 4; la riga 2 la somma della 6 e 7; la 3 la somma della 8 e 9; la 4 la somma della 6 e 8; la 5 la somma della 7 e 9; dunque le ultime 4 righe sono linearmente dipendenti e tutte le altre si possono generare con queste; la matrice di
139
dimensione 9 ha dunque rango 4 (ecco perch il modello sovraparametrizzato chiamato anche non full-rank o, pi precisamente, less than full-rank), pari al numero degli stati di prova. In questo caso posso eliminare le prime 5 righe perch dipendenti dalle ultime 4. Pongo uguali a zero le variabili corrispondenti alle righe cancellate per cui consideriamo solo pi le ultime 4 righe e colonne; subito evidente che la soluzione :
= 0 = 1 = 0 = 1 = 0; 00 = T00/n00 = y00 01 = T01/n01 = y01 10 = T10/n10 = y10 11 = T11/n11 = y11 dunque il vettore soluzione72 trasposto T (0, 0, 0, 0, 0, y00, y01, y10, y11). Per calcolare la somma dei quadrati associata a questo modello, bisogna calcolare:
SSreg = T * XT * Y
quella scritta sopra quella che Galetto (1995) chiama regola del Questo per questo ovvero il prodotto dei totali per le medie degli stati di prova per trovare la somma dei quadrati di un modello completo. Il fatto di aver posto le stime dei parametri uguali a zero, quelli corrispondenti alle righe linearmente dipendenti, vuol dire prendere una soluzione basica del sistema; ci analogo a quanto viene fatto nel simplesso in ricerca operativa. Ogni volte che troveremo un sistema con infinite soluzioni prenderemo sempre una soluzione basica perch sono le pi semplici. Lidea di usare le soluzioni basiche, piuttosto ovvia, lho trovata anche in Searle et al. (1981). 7.3.1 FUNZIONI STIMABILI I teoremi visti prima ci dicono che non esistono degli stimatori corretti per quei 9 parametri; ma c da stupirsi? Assolutamente NO: nellANOVA si hanno solo 4 gradi di libert per i parametri del modello e quindi si possono stimare solo 4 quantit che sono 4 funzioni stimabili linearmente indipendenti; una di esse riguarda la media ovvero la sommatoria di tutti dati e non ci interessa; le altre 3 potrebbero essere gli effetti (par. 4.8) dei 2 fattori e della loro interazione:
72
una delle infinite soluzioni che si possono trovare. Ho di nuovo usato la stessa lettera per indicare il parametro e la sua stima puntuale: il lettore non si lasci confondere. 140
effetto medio di A 11 + 10 - 01 - 00 effetto medio di B 11 + 01 - 10 - 00 effetto di AB 11 + 00 - 01 - 10 essendo 3 c.l. delle medie sono sicuramente 3 funzioni stimabili; esse sono anche linearmente indipendenti73 (teorema 2) visto che la matrice:
00 01 10 00
-1 -1 1
-1 1 -1
1 -1 -1
1 1 1
. ha rango 3. Esprimiamo le medie ij in funzione dei 9 parametri del modello: 00 = + 0 + 0 + 00 01 = + 0 + 1 + 01 10 = + 1 + 0 + 10 11 = + 1 + 1 + 11 Ora siamo in grado di esprimere le 3 funzioni stimabili che abbiamo scritto sopra, in funzione dei parametri del modello: (1) (2) (3) A B AB = 11 + 10 - 01 - 00 = = 11 + 01 - 10 - 00 = = 11 + 00 - 01 - 10 =
21 - 20 + 11 + 10 - 01 - 00 21 - 20 + 11 + 10 - 01 - 00 11 + 00 - 01 - 10
Ecco perch il modello sovraparametrizzato pu essere fuorviante; introduce dei parametri in pi che ovviamente non si possono stimare e quindi bisogna ricorrere alle funzioni stimabili che non sono nientaltro che combinazioni lineari delle medie. Pochi (Searle et al. 1981, Speed et al. 1978, Hocking e Speed 1975) esplicitano il fatto che le somme dei quadrati usualmente impiegate nellANOVA con dati bilanciati per stimare leffetto dei fattori testano la (1) e la (2) in termini dei parametri del modello sovraparametrizzato; coloro che dichiarano di voler usare le funzioni stimabili (fra cui Galetto 1995 e 1996) poi non specificano quale funzione stimabile stanno testando; forse qualcuno crede che le somme dei quadrati SS(A) e SS(B) testino: 1 - 0 = 0 1 - 0 = 0 e invece le 2 funzioni sopra non sono stimabili; per dimostrarlo partiamo dalla definizione di funzione stimabile (Mood e Graybilll 1963 pag.363): una funzione dei parametri
73
stimabile se esiste una combinazione lineare delle risposte Yijr, il cui valore atteso la funzione dei parametri. Ragioniamo solo su 1 - 0, visto che lo stesso per 1 - 0. Supponiamo di avere N dati distribuiti secondo le seguenti numerosit degli stati di prova: A 0 B 0 1 1 n00 n10 n01 n11
N = n00 + n10 + n01 + n11 Dobbiamo chiederci se esiste un vettore K (k1, k2, k3,.... kN) tale che il valore atteso del prodotto scalare di K per il vettore Y contenete le n osservazioni, uguale ad 1 - 0. KN: E (K*Y) = 1 - 0
n00 n10 n11 n01 E k i * y 00i + k j * y 01 j + k k * y10 k + k h * y11h = 1 0 h =1 j =1 k =1 i =1 n00 n01 n10 n11 k i * E ( y 00i ) + k j * E ( y 01 j ) + k k * E ( y10 k ) + k h * E ( y11h ) = 1 0 h =1 j =1 k =1 i =1 n00 n01 n11 n10 k i * 00 + k j * 01 + k k * 10 + k h * 11 = 1 0 h =1 k =1 j =1 i =1 Se ridefiniamo gli elementi ki nel seguente modo:
k 00 = k i
n00
k 01 = k j
j =1
i =1 n01
k 10 = k k k 11 = k h
h =1 k =1 n11
n10
si ottiene: k00 * 00 + k01 * 01 + k10 * 10 + k11 * 11 = 1 - 0 Quindi abbiamo dimostrato di nuovo (lavevamo gi fatto col teorema 2) che qualsiasi funzione stimabile deve essere esprimibile in funzione delle medie degli stati di prova. 1 - 0 lo ? NO, infatti se sviluppiamo le medie in funzione dei parametri del modello sovraparametrizzato, otteniamo lidentit:
142
*(k00 + k10 + k01 + k11) + 0*(k00 + k01) + 1*(k10 + k11) + 0*(k00 + k10) + 1*(k01 + k11) + 00*k00 + 01*k01 + 10*k10 + 11*k11 = 1 - 0 che d luogo a un sistema incompatibile nelle incognite k00, k01, k10, k11. Dunque non si
trova nessun valore di (k00, k01, k10, k11) che verifichi luguaglianza sopra quindi 1 0 non stimabile. C.V.D. Lo stesso discorso vale per 1 - 0: non una funzione stimabile. Chi non volesse credere alla logica delle dimostrazioni pu provare numericamente con dei dati qualsiasi; si calcoli 2 delle infinite soluzioni delle equazioni normali; esse daranno dei valori diversi di
1 - 0 (e anche di 1 - 0) mentre sappiamo dal teorema 4 che il valore numerico delle funzioni stimabili non cambia qualunque soluzione si prenda alle equazioni normali. Anche in Searle (1987) chiaramente dimostrato in generale (con un numero qualsisaisi di livelli) che con 2 fattori le funzioni i - j e i - j sono non stimabili. In Searle (1987) si riferisce a pag.207 che lo stesso Searle e altri hanno dimostrato nel 1984 che unipotesi non testabile ovvero unipotesi nulla su una funzione non stimabile porta a un numeratore della F calcolata identicamente nullo. 7.3.2 ESEMPIO MACCHINA-OPERATORE Facciamo un esempio per far vedere come andrebbe applicato rigorosamente il teorema 5, cos come descritto sul Mood e Graybill (1963): nella bibliografia consultata per la tesi non ho mai visto lesplicitazione di tale procedura (a parte nel testo citato). Riportiamo i dati del solito esempio: MACCHINA 0 OPERATORE 0 OPERATORE 1
Tabella 42
MACCHINA 1 41,48 41
64,67 39,35
Testiamo alcune ipotesi che abbiamo gi testato con lanalisi dei contrast; i risultati dovranno ovviamente venire uguali per il principio F1. La macchina il fattore A e loperatore il fattore B: ad esempio quello che io definisco effetto medio del fattore operatore: O = 11 + 01 - 10 - 00 O = 21 - 20 + 11 + 01 - 10 - 00 (in termini del modello sovraparametrizzato) Testare leffetto delloperatore sia nullo vuol dunque dire che: (1)
(2)
21 - 20 + 11 + 01 - 10 - 00 = 0
1 = 0 - (11 + 01 - 10 - 00) / 2
143
dunque la (1) rappresenta la funzione stimabile che vogliamo testare; dobbiamo quindi sostituire la (2) nel modello completo: 00 = + 0 + 0 + 00 10 = + 1 + 0 + 10 01 = + 0 + 1 + 01 11 = + 1 + 1 + 11 ripetuto 2 volte ripetuto 2 volte ripetuto 2 volte
per ottenere il modello ridotto74 senza il parametro 1: 00 = + 0 + 0 + 00 10 = + 1 + 0 + 10 01 = + 0 + (0 - (11 + 01 - 10 - 00) / 2 ) + 01 = + 0 + 0 + 0,5*(-11 + 10 + 01 + 00) 11 = + 1 + (0 - (11 + 01 - 10 - 00) / 2 ) + 11 = + 1 + 0 + 0,5*(11 + 10 - 01 + 00)
scritto in forma matriciale Y=Z*, dove Z la seguente matrice, ricavata dalle 4 uguaglianze scritte sopra:
1 1 1 1 1 1 1
0
1 1 0 0 1 1 0
1
0 0 1 1 0 0 1
0
1 1 1 1 1 1 1
00
1 1 0 0 0,5 0,5 0,5
10
0 0 1 1 0,5 0,5 0,5
01
0 0 0 0 0,5 0,5 -0,5
10
0 0 0 0 -0,5 -0,5 0,5
Le equazioni normali in forma matriciale del modello ridotto sono: (ZT*Z) * = (ZT * Y) dunque dobbiamo trovare (ZT * Z) e (ZT * Y):
7 4 3 7
0
4 4 0 4
1
3 0 3 3
0
7 4 3 7
00
3,5 3 0,5 3,5
10
3,5 1 2,5 3,5
01
0,5 1 -0,5 0,5
10
-0,5 -1 0,5 -0,5
Y
335 205 130 335
Ogni volta che parliamo di un modello ridotto i parametri non sono pi quelli del modello originario completo, dunque bisognerebbe distinguerli da essi con qualche simbolo: non lo faccio per non appesantire la rappresentazione. 144
74
2 - LApproccio Scientifico alla Qualit 3,5 3,5 0,5 -0,5 3 1 1 -1 0,5 2,5 -0,5 0,5 3,5 3,5 0,5 -0,5 2,75 0,75 0,25 -0,25 0,75 2,75 0,25 -0,25 0,25 0,25 0,75 -0,75 -0,25 -0,25 -0,75 0,75 188,5 146,5 16,5 -16,5
La matrice ha dimensione 8, ma il rango 3 perch la riga 3 si ottiene dalla differenza delle prime 2; la 4 uguale alla prima. La 6 la 4 meno la 5; la 7 la differenza fra la riga 2 e 5 e la 8 lopposto della 7. Dunque prendiamo le righe 1, 2 e 5 come indipendenti; facciamo entrare in base i parametri corrispondenti a quelle 3 righe ovvero , 0 e 00; poniamo le stime degli altri parametri uguali a zero, ottenendo cos una delle 5 soluzioni del sistema delle equazioni normali. Otteniamo cos un sistema ridotto, di cui scriviamo la matrice e il termine noto:
7 4 3,5
0
4 4 3
00
3,5 3 2,75
La cui soluzione 75: = 38,1 0 = -10,4 00 = 31,4 Allora il vettore soluzione trasposto T il seguente: (38.1, -10.4, 0, 0, 31.4, 0, 0, 0) e la somma dei quadrati associata al modello ridotto Y = I + M + MO (lo scrivo cos visto che ho impostato che leffetto medio delloperatore sia nullo) dunque:
SSreg (I + M + MO) = T * ZT * Y = (38,1 * 335 - 10,4 * 205 + 31,4 * 188,5) = 16550,4
il valore conferma (principio F1!!!) quello trovato con lanalisi della covarianza nel cap.6. Per trovare la SSreg del modello completo, come visto prima, si applica la regola del Questo per questo, ovvero le medie per i totali degli stati di prova:
SSreg (I + M + O + MO) = T * XT * Y = (65,5 * 131 + 44,5 * 99 + 37 * 74 + 41*41) = 16960
75
Le stesse lettere indicano sia il parametro che la sua stima: il lettore non si lasci confondere. Anche in seguito user questa notazione semplificata. 145
Il residuo lavevamo gi calcolato con lanalisi della varianza nel par.5.2.1 ed era: SSe = SStot - SSreg (I + M + O + MO) = 37 Dunque il numeratore della F calcolata secondo il teorema 5 : SSreg (I + M + O + MO) - SSreg (I + M + MO) = 409,6 ovvero lo stesso valore trovato con lanalisi della covarianza (cap.6) e con lanalisi dei contrast (cap.5); abbiamo dunque visto finora 3 metodi diversi applicati sullo stesso esempio: 1. analisi dei contrast 2. analisi della covarianza 3. regressione col modello sovraparametrizzato usando le funzioni stimabili essi sono scientificamente corretti e, applicati in modo rigoroso, devono dare gli stessi risultati: notiamo dire che per lanalisi dei contrast molto pi veloce e quindi da preferirsi. Se avessi testato a zero leffetto medio della macchina: H0 : 11 + 10 - 01 - 00 = 0 H0 : 21 - 20 + 11 + 10 - 01 - 00 = 0 avrei ottenuto un modello ridotto Y = Z * che potevo scrivere Y = I + O + MO (visto che si impostava a zero leffetto medio della macchina) e che avrebbe dato la seguente somma dei quadrati:
SSreg (I + O + MO) = 16844,4 SSreg (I + M + O + MO) - SSreg (I + O + MO) = 115,6
anche essa conferma i risultati dellanalisi dei contrast e della covarianza. Non riporto il procedimento per arrivare al risultato sopra visto che del tutto identico a prima. Testiamo invece leffetto dellinterazione: H0 : 11 + 00 - 01 - 10 = 0 H0 : 11 + 00 - 01 - 10 = 0
H0 : 11 = 01 + 10 - 00 si ottiene la seguente matrice Z del modello ridotto:
1 1 1 1 1 1 1
0
1 1 0 0 1 1 0
1
0 0 1 1 0 0 1
0
1 1 1 1 0 0 0
1
0 0 0 0 1 1 1
00
1 1 0 0 0 0 -1
10
0 0 1 1 0 0 1
01
0 0 0 0 1 1 1
che d luogo ala seguente matrice (ZT*Z) e termine noto (ZT*Y) delle equazioni normali del modello ridotto per testare le interazioni:
7 4 3 4 3 1 3 3
0
4 4 0 2 2 2 0 2
1
3 0 3 2 1 -1 3 1
0
4 2 2 4 0 2 2 0
1
3 2 1 0 3 -1 1 3
00
1 2 -1 2 -1 3 -1 -1
10
3 0 3 2 1 -1 3 1
01
3 2 1 0 3 -1 1 3
La matrice ha rango 3 perch si riescono ad esprimere tutte le righe in funzione della prima, della seconda e della quarta; come al solito scegliamo una soluzione basica del sistema: facciamo entrare in base i parametri , 0 e 0; dobbiamo quindi risolvere il sistema:
7 4 4
0
4 4 2
0
4 2 4
termine noto
335 205 220
La soluzione : = 31 0 = 11 0 = 18,5 tutti gli altri parametri sono uguali a zero nella soluzione che abbiamo scelto (una delle 5). Per trovare la somma dei quadrati associata a questo modello Y = I + M + O, come al solito si calcola: SSreg (I + M + O) = T * ZT * Y = (31 * 335 + 11 * 205 + 18,5 * 220) = 16710 e dunque il numeratore della F calcolata :
SSreg (I + M + O + MO) - SSreg (I + M + O) = 250 ovviamente conferma il valore dellanalisi dei contrast e della covarianza. Se volessimo testare a 0 le 2 funzioni: 1 - 0
1 - 0
147
troveremo che il numeratore della F calcolata identicamente nullo, perch le 2 funzioni sopra sono non stimabili. Non riportiamo i calcoli visto che il modo di procedere assolutamente identico a sopra. Testiamo invece lipotesi che avevamo gi introdotto nel cap.5 come possibile effetto delloperatore, per spiegare che il metodo descritto in Galetto (1995 e 1996, cap.9) testa inconsapevolmente quellipotesi: H0 : 3*01 + 2*11 - 3*00 - 2*10 = 0 H0 : 3*(0+1+01) + 2*(1+1+11) - 3*(0+0+00) - 2*(1+0+10) = 0
H0 : 11 = 2,5*(0 - 1) + 10 - 1,5*01 + 1,5*00
Vediamo a cosa conduce lipotesi sopra, sostituendola nel modello completo; il modello ridotto Y = Z* dove contiene tutti parametri del modello completo tranne 11 che espresso in funzione degli altri secondo lipotesi nulla. La matrice Z diventa allora:
1 1 1 1 1 1 1
0
1 1 0 0 1 1 0
1
0 0 1 1 0 0 1
0
1 1 1 1 0 0 2,5
1
0 0 0 0 1 1 -1,5
00
1 1 0 0 0 0 1,5
10
0 0 1 1 0 0 1
01
0 0 0 0 1 1 -1,5
La matrice (ZT*Z) delle equazioni normali e il termine noto (ZT*Y) sono i seguenti: 0 1 0 1 00 10 01 ZT*Y
7 4 3 6,5 0,5 3,5 3 0,5 4 4 0 2 2 2 0 2 3 0 3 4,5 -1,5 1,5 3 -1,5 6,5 2 4,5 10,25 -3,75 5,75 4,5 -3,75 0,5 2 -1,5 -3,75 4,25 -2,25 -1,5 4,25 3,5 2 1,5 5,75 -2,25 4,25 1,5 -2,25 3 0 3 4,5 -1,5 1,5 3 -1,5 0,5 2 -1,5 -3,75 4,25 -2,25 -1,5 4,25 335 205 130 322,5 12,5 192,5 130 12,5
148
La matrice ha rango 3 quindi dobbiamo scegliere una soluzione basica: facciamo entrare in base i parametri , 0 e 0: gli altri assumeranno valore uguale a zero; il sistema ridotto :
7 4 6,5
0
4 4 2
0
6,5 2 10,25
termine noto
335 205 322,5
La soluzione : = 28,3333 0 = 17,916666 0 = 10 gli altri parametri del vettore sono uguali a zero quindi la somma dei quadrati associata a questo modello ridotto : SSreg (.....)76 = T * ZT * Y = (28,3333 * 335 + 17,196666 * 205 + 10 * 322,5) = 16389,583333 Il numeratore della F calcolata secondo il teorema 5 : SSreg (I + M + O + MO) - SSreg (......) = 16960 - 16389,583333 = 570,416666 conferma (principio F1) il valore trovato con lanalisi dei contrast. Comunque ribadisco che, secondo me, lipotesi testata H0 : 5*(1-0) +3*01 + 2*11 - 3*00 - 2*10 = 0 H0 : 3*01 + 2*11 - 3*00 - 2*10 = 0 di interesse per lo sperimentatore solo se sono giustificati i pesi differenti per le medie; Galetto probabilmente col suo metodo crede di testare: H0 : 1-0 = 0 che invece non testabile, come ho dimostrato. Laltra ipotesi che si testa col metodo di Galetto riguarda la macchina ed : H0 : 5*(1-0) +3*10 + 2*11 - 3*00 - 2*01 = 0 H0 : 3*10 + 2*11 - 3*00 - 2*01 = 0 non rifaccio lintero procedimento che uguale a prima; esso comunque porta a una somma dei quadrati: SSreg (....) = 16758,33333
76
indicato con i puntini perch tale modello non si sa bene quale effetto testi, secondo le mie definizioni (par. 4.8). 149
dunque il numeratore della F calcolata : SSreg (I + M + O + MO) - SSreg (......) = 16960 - 16758,33333 = 201,66666 e ovviamente conferma il valore ottenuto (molto pi velocemente) con lanalisi dei contrast.
Tutte le soluzioni alle equazioni normali dei modelli ridotti che abbiamo visto in questo paragrafo, soddisfano le equazioni normali sul modello completo (tab.2), visto che non abbiamo messo alcun vincolo sul modello.
H01 : 00 = k H02 : 10 = k H03 : 01 = k H04 : 11 = k in cui si introduce un ulteriore parametro, k, che, comparendo in tutti gli stati di prova, pu essere conglobato senza problemi nella media77. Lipotesi sopra equivalente alle tre: H01 : 00 - 10 = 0 H02 : 10 - 01 = 0 H03 : 01 - 11 = 0 che per vanno espresse (se possibile), in termini di funzioni stimabili, se vogliamo sfruttare il teorema di Gauss-Markov e il teorema 5; ad esempio possiamo esprimerle cos: H01 : 11 + 00 - 10 - 01 = 0 H02 : 10 - 01 = 0 H03 : 01 - 11 = 0 (unendo H01 e H03)
Di queste 3 solo la prima una funzione stimabile e d quindi luogo a unipotesi testabile. Le altre 2 sono ipotesi non testabili. Dunque lipotesi H0 (implicita nella scrittura del modello additivo di Galetto), composta di H01, H02, H03, parzialmente testabile, secondo la terminologia di Searle (1987) a pag.297. Lipotesi H0, sebbene sia diversa da H01 non distinguibile da essa: questo singolare fatto dovuto al fatto di non avere formulato a priori unipotesi nulla sulle funzioni stimabili; il risultato che uno crede di testare H0 e invece testa H01; questultima gi stata testata nel paragrafo precedente: il modello ridotto da H01 dava luogo a una somma dei quadrati: SSreg = 16710 Per far vedere che H0 (lipotesi implicita nella procedura di Galetto) non distinguibile da H01 usiamo il suo modello additivo nellesempio macchina-operatore; la matrice Z del modello ridotto da H0: Y = Z * la seguente:
77
Chi non ne fosse convinto provi a scriversi le equazioni normali introducendo il parametro k: vedr che si pu eliminare perch rappresenta una colonna unitaria della matrice Z, esattamente uguale a quella della media. una situazione analoga a quella di tab.4 del par.7.3.2 dove la colonna di 0 e uguale a quella della media e pu essere eliminata, senza cambiare la SSreg del modello ridotto. 151
1 1 1 1 1 1 1
1 1 0 0 1 1 0
0 0 1 1 0 0 1
1 1 1 1 0 0 0
0 0 0 0 1 1 1
La matrice (ZT*Z) delle equazioni normali e il termine noto (ZT*Y) sono i seguenti:
ZT*Y
7 4 3 4 3
4 4 0 2 2
3 0 3 2 1
4 2 2 4 0
3 2 1 0 3
La matrice di dimensione 5 ha rango 3 dunque dobbiamo scegliere 3 parametri che entrano in base corrispondenti a 3 righe linearmente indipendenti. Scelgo , 0 e 0: gli altri assumeranno valore uguale a zero; il sistema ridotto :
7 4 4
0
4 4 2
0
4 2 4
termine noto
335 220 205
identico a quello di tabella 9 per lipotesi testabile H01 che dunque indistinguibile78 allipotesi parzialmente testabile H0 dunque porta alla stessa SSreg = 16710. la stessa situazione dellANOVA one-way a p livelli col modello E(Yij) = + i: lipotesi 1 = 2 = .... = p = 0 parzialmente testabile e indistinguibile da
78
Quando dico indistinguibile mi riferisco al numeratore della F calcolata; nella realt le 2 ipotesi sono diverse. 152
1 = 2 = .... = p
che invece testabile, potendosi esprimere con (p-1) funzioni stimabili Ma le 2 ipotesi sono diverse (principio F1) e solo numericamente danno lo stesso risultato. Le ipotesi parzialmente testabili sono decisamente da evitarsi perch illudono di testare una cosa mentre in realt ne testano unaltra: se si parte dalle funzioni stimabili non c il rischio di imbattersi in ipotesi parzialmente testabili, quindi invitiamo a seguire questa strada.
Per quanto riguarda gli effetti dei fattori Galetto (1996) a pag.291 dichiara: leffetto di A si ottiene con la differenza SSreg( + + )-SSreg( + ) leffetto di B si ottiene con la differenza SSreg( + + )-SSreg( + ) Purtroppo non fornita alcuna giustificazione a queste affermazioni e ci non deve stupire visto che nel libro citato non mai esplicitato (in termini dei parametri del modello) cosa si intende per effetto di A e effetto di B, dunque non si sa quali ipotesi nulle stiano testando quelle differenze di SSreg perch non si sono applicati n enunciati rigorosamente il teorema di Gauss-Markov e gli altri teoremi del Mood e Graybill (1963) Comunque seguiamo la procedura di Galetto per vedere dove ci porta con lesempio operatore-macchina. La SSreg del modello additivo gi stata trovata come abbiamo visto sopra: SSreg( + + ) = 16710 dove la macchina e loperatore. Per calcolare SSreg( + ) bisogna usare il modello: yijr = + i + ir immediato verificare che quando si ha un solo fattore nel modello, le equazioni normali portano alla regola del Questo per questo per il calcolo della somma dei quadrati associata al modello (basta far entrare in base i parametri 0 e 1). Dunque, considerando solo la macchina, abbiamo i 2 macrostati:
Media Macchina 0 Macchina 1 Totale Media*Totale
51,25 43,333
205 130
10506,25 5633,333
Totale
Media*Totale
55 38,333
220 115
12100 4408,333
SSreg( + ) = 12100 + 4408,333 = 16508,333 Seguendo la procedura di Galetto avremmo che: SS(A) = SSreg( + + ) - SSreg( + ) = 16710 - 16508,333 = 201,6666 SS(B) = SSreg( + + ) - SSreg( + ) = 16710 - 16139,583 = 570,4166 SS(AB) = SSreg( + + + ) - SSreg( + + ) = 16960 - 16710 = 250 senza sapere cosa stiano testando in realt queste differenze di somme di quadrati. Nel paragrafo precedente abbiamo visto che le prime 2 testano rispettivamente le ipotesi: H01 : 5*(1-0) +3*10 + 2*11 - 3*00 - 2*01 = 0 H02 : 5*(1-0) +3*01 + 2*11 - 3*00 - 2*10 = 0 che, espresse in funzione delle medie, diventano: H01 : 3*11 + 2*10 - 3*00 - 2*01 = 0 H02 : 3*01 + 2*11 - 3*00 - 2*10 = 0 Io non escludo che possano essere di interesse per lo sperimentatore che per dovrebbe giustificare perch usa quei pesi delle medie. E se pesa diversamente le medie, nel calcolo degli effetti dei fattori, perch invece le pesa ugualmente nel calcolo dellinterazione??? H03 : 11 + 00 - 01 - 10 = 0 Mi pare che dunque vi sia una contraddizione nel testare queste 3 ipotesi come rappresentanti gli effetti dei fattori. La tabella ANOVA sarebbe la seguente; lavevamo gi vista nel par.5.2.1 (tabella 8).
SS Totale Media M O MO Residuo 16997 16032,14286 201,6666667 570,4166667 250 37 df 7 1 16032,14 1 201,6667 16,3513514 1 570,4167 1 46,25 10,12796 10,12796 10,12796 MS F calcolata F0,95(1,3)
250 20,2702703
3 12,33333
154
Nella procedura di Galetto le SS(A) e SS(B) non sono ottenute sostituendo unipotesi nulla nel modello completo: a posteriori sappiamo che cos, ma a priori chi ci garantisce che le 2 statistiche:
79
seguano una distribuzione F con 1 e 3 gradi di libert? Il teorema di Cochran. 7.4.1 TEOREMA DI COCHRAN Date N variabili Xi che seguono una normale una distribuzione normale con media e varianza 2, sappiamo che la variabile casuale:
( X
i =1
2
segue una distribuzione 2 con N gradi di libert. Se si scompongono: Q=
2
( X
i =1
) = Q1 + Q2 + Q3 +.....+ QK
N = N1 + N2 + N3 +.....+ NK il teorema di Cochran assicura che: il rapporto ( Qi / 2 ) segue una distribuzione 2 con Ni gradi di libert. le variabili casuali ( Qi / 2 ) e ( Qj / 2 ) sono indipendenti, i,j dunque il rapporto di variabili casuali: (Qi / N i )
(Q
/ Nj
segue una distribuzione F con Ni e Nj gradi di libert, i,j Applichiamo tale teorema al nostro esempio con 2 fattori, dove Q la somma dei quadrati corretta e scriviamo le seguenti identit, una per le somme dei quadrati e laltra per i gradi di libert: Q = SStot - SSreg() = [SSreg(+) - SSreg()]80
79
80
leffetto del fattore A calcolato con la regola del Questo per questo; non sbagliato come afferma Galetto (1996 pag.290): semplicemente sta testando una particolare ipotesi nulla: H0 : 1. - 0. Il fatto che essa probabilmente non di interesse non vuol dire che sbagliato. 155
+ [SSreg(++) - SSreg(+)] + [SSreg(+++) - SSreg(++)] + [SStot - SSreg(+++)] N -1 = (a-1) + (b-1) + (a-1)*(b-1) + (N-ab) dove N il numero totale di osservazioni, a il numero di livelli del fattore A e b il numero di livelli del fattore B. Lultimo addendo rappresenta SSe dunque il teorema di Cochran assicura che:
( SSreg( + + ) SSreg( + ) ) / (b 1)
( SSe / ( N a * b) )
segue una distribuzione F con (a-1) e (N-a*b) gradi di libert. Analogamente potevo mostrare che la statistica:
( SSreg( + + ) SSreg( + )) / ( a 1)
( SSe / ( N a * b) )
segue una distribuzione F con (b-1) e (N-a*b) gradi di libert. La decomposizione di Q effettuata sopra d luogo a unanalisi ortogonale, appropriata solo se il fattore A pi importante del fattore B, ovvero se esiste un ordine preferenziale dei fattori: non credo che questa sia una situazione comune nei piani fattoriali. Il teorema non dice per quale ipotesi nulla si sta testando con queste statistiche. Dunque
con la procedura di Galetto si eseguono dei test corretti. Per: non si sa cosa si testa i test non sono indipendenti81, perch le SS(.) del numeratore F provengono da contrast non ortogonali, se le numerosit sono diverse. 7.4.2 METODO DI GALETTO IN LETTERAURA Comunque Galetto non lunico che usa questo metodo. In Speed et al. (1978) si riferisce al metodo qua esposto come method of fitting constants (inventato da Yates nel 1934) oppure come experimental design (di Overall e Spiegel 1969); anche in Krishnaiah (1980) chiamato experimental design. I testi citati riferiscono che il metodo 2 usato dal programma statistico SAS-76 fa esattamente lanalisi che farebbe Galetto: tale analisi non ortogonale se la numerosit degli stati di prova non costante come abbiamo visto nellesempio macchina-operatore. Il metodo 1 di quel programma richiede un ordine preferenziale di fattori e interazioni e fa dunque unanalisi sempre ortogonale, conducendo quindi dei test
81
il problema della non ortogonalit statistica, non causato dal metodo di Galetto. 156
indipendenti. In Speed et al. (1978) si riferisce tale metodo denominato A Priori Ordering di Overall e Spiegel (1969). I metodi 3 e 4 di SAS-76 impiegano il modello full-regression che vedremo nel prossimo capitolo: danno comunque i risultati dellanalisi dei contrast e quindi se gli stati di prova hanno numerosit diverse, lanalisi non ortogonale. Il metodo impiegato, in Speed et al.(1978) chiamato Complete Least Squares di Overall e Spiegel (1969) oppure Weighted Squares of Means, inventato da Yates nel 1934. Per quanto riguarda lopportunit o meno di fare unanalisi ortogonale (sempre possibile) ricordiamo le sagge parole di Speed e Hocking (1978): Since the statement of a model and the testing of hypothesis about the parameters of that model are fundamental concepts in statistical analysis, particularly the analysis of variance, a natural criterion for the selection of a method would appear to be the appropriateness of the hypothesis being tested. Other factors such as ease of computation and orthogonality of quadratic forms cannot be justified if the hypothesis tested have no meaningful interpretation. 7.4.3 MODELLI NON GERARCHICI Riprendiamo il discorso sui modelli non gerarchici (par. 6.4): un modello gerarchico se un interazione fra n fattori inclusa nel modello solo una volta aver incluso in esso i fattori e le interazioni di ordine pi basso che coinvolgono gli n fattori considerati. Per esempio y =I+A+AB non gerarchico perch stata inserita AB senza che fosse inserito B; non gerarchico y = I+B+C+AC+BC+AB poich ci sono AC e AB ma non c A; non gerarchico y = I+A+B+C+AB+AC+ABC perch c ABC ma non BC. E invece gerarchico y = I+A+B+C+AB+AC+BC+ABC. Il fatto di poter usare solo modelli gerarchici un fatto che ha importanti conseguenze: ad esempio per calcolare leffetto di A facendo la differenza fra le SS di 2 modelli non potr usare i modelli pi completi ovvero con 3 fattori non potr scrivere: SS(A) = SS(I+A+B+C+AB+AC+BC+ABC) - SS(I+B+C+AB+AC+BC+ABC) perch il secondo non gerarchico avendo incluso AB, AC, ABC senza aver incluso A. Ma perch non bisogna usare modelli non gerarchici? A priori non c' alcun motivo. Il problema che se scriviamo i modelli sovraparametrizzati come li scrive Galetto82, e su di essi applichiamo le equazioni normali troviamo che: SS(I+B+C+AB+AC+BC+ABC) = SS(I+A+B+C+AB+AC+BC+ABC) per cui SS(A)=0 se vogliamo calcolarlo per differenza dei 2 modelli sopra. Questa una situazione generale che vale ogni volta che uso scrivo i modelli nella forma di Galetto:
82
Essi non sono giustificati dal teorema 5 del Mood e Graybill (1963) ma dal teorema di Cochran, come abbiamo visto. 157
La SS di un modello non gerarchico sempre uguale a quella del modello gerarchizzato. Il termine modello gerarchizzato non presente in letteratura (almeno quella che ho esaminato): con esso intendo il modello non gerarchico pi il completamento minimo di parametri per renderlo gerarchico; ad esempio il modello gerarchizzato di Y = I+AB Y = I+A+B+AB Dalla legge che abbiamo esposto sopra sappiamo: SS (I+AB) = SS (I+A+B+AB) Dimostriamolo con le equazioni normali; nel par. 7.2 abbiamo visto che:
SSreg (I+A+B+AB) = T00*y00 + T01*y01 + T10*y10 + T11*y11 A questo punto scriviamo le equazioni normali per il modello Y = I+AB:
00 n00 01 n01 10 n10 11 n11
ZT*Y
n00 0 0 0
0 n01 0 0
0 0 n10 0
0 0 0 n11
La prima riga la somma delle altre per cui la elimino e pongo = 0 (soluzione basica); come si vede la soluzione : 00 =(T00/n00); 01 =(T01/n01); 10 =(T10/n10); 11 =(T11/n11); che d luogo alla stessa SSreg calcolata prima. Abbiamo cos mostrato che:
SS (I+AB) = SS (I+A+B+AB) Analogamente potevamo mostrare che : SS (I+A+AB) = SS (I+A+B+AB) oppure SS (I+B+AB) = SS (I+A+B+AB)
Scrivendo dunque i modelli sovraparametrizzati nella forma di Galetto, non si possono usare modelli non gerarchici perch danno una somma dei quadrati uguale a quella del corrispondente modello gerarchizzato83. Nelder (1974) si era reso conto di questo fatto: infatti nella lettera citata in bibliografia, aveva scritto alleditore della rivista Journal of the Royal Statistical Society
83
Lascio al lettore il piacere di collegare tali eguaglianze al discorso delle ipotesi non testabili e parzialmente testabili. 158
dicendo che, con 2 fattori R e S, linterazione RS non indipendente dai 2 fattori perch i 2 fattori sono un sottospazio dellinterazione; Nelder afferma che, partire dal modello Y = I + Ri + Sj + RSij + Eijr e poi togliere R, ottenendo quindi: Y = I + Sj + RSij + Eijr equivale solo a mettere i vincoli: Ri = 0 ###i nel modello principale Y = I + R + S + RS, ma essendo questo sovraparametrizzato, tali vincoli non influenzano il fit dei dati, ovvero la SSreg, dunque si ha che:
SSreg (I+R+S+RS) = SSreg (I+S+RS)
che quello che ho dimostrato sopra con 2 fattori a 2 livelli. Nelder afferma che il modello non gerarchico (non usando per questo termine) Y = I + Sj + RSij + Eijr concepibile in teoria ma non di interesse pratico neanche se viene aggiunto un vincolo che forzi una situazione in cui R ha uninfluenza attraverso linterazione con S, ma, mediato sui valori di S ha un effetto complessivamente nullo. A mio parere invece un tale modello di grande interesse (labbiamo gi visto nellanalisi della covarianza) perch permette di calcolare leffetto di R nel modo pi completo, ovvero:
SS (R) = SS(I+R+S+RS) - SS(I+S+RS) come prescrive il teorema 5; la formula sopra per identicamente nulla se ci riferiamo al modello overparameterized dunque dobbiamo abbandonare tale riferimento se vogliamo usarla.
7.4.4 ESEMPIO CON 3 FATTORI Riprendiamo lesempio del paragrafo 5.2.3, per evidenziare le debolezze implicite nel metodo di Galetto per calcolare la significativit degli effetti dei fattori e interazioni.
Stati di prova i a b ab c ac bc abc Tabella 59 76 80 86 79 70 79 78 82 75 78 92 77 69 83 74 85 79 81 90 80 73 77 71 76 Risposte Medie 75 5 79 666667 89 333333 77 8 70 75 81 76 82
159
La tabella ANOVA che divide la somma totale dei quadrati in media, trattamenti e residuo la seguente:
SS Totale Media Trattamenti Residuo Tabella 60 149592 148837,5 677,1166667 77,38333333 df 24 1 7 16 96,73095238 20,00036922 2,65719535 4,836458333 MS F calcolata F0,95(7,16)
Adesso si tratta di scomporre la SSreg dei trattamenti in 7 componenti con 1 grado di libert, relative ai 3 fattori, alle 3 interazioni del primo ordine e allinterazione del secondo ordine. Nel cap.5 ho gi proposto quella che io ritengo la scomposizione corretta, ovvero quella che testa gli effetti come io li ho definiti nel par. 4.8: pu anche darsi che la mia scomposizione non interessi lanalista; in tal caso egli deve costruirsi i contrast che pi gli interessano: limportante che sappia cosa sta testando. Ci non si verifica con il metodo di Galetto che, con 3 fattori, introduce alcune ambiguit. Ad esempio per calcolare l effetto di A, potrei fare: SS(A) = SS(I+A+B) - SS(I+B) ma questa volta ho un altro modello additivo a 2 fattori per cui potrei anche fare: SS(A) = SS(I+A+C) - SS(I+C) I due modi daranno risultati uguali? Prima di rispondere consideriamo che si possono pensare altri modi per calcolare leffetto di A (se lo si definisce bene come ho fatto io nel par. 4.8, invece c solo un modo); usando solo modelli gerarchici nella forma di Galetto, ci possono essere 5 modi: SS(A) = SS(I+A) - SS(I) SS(A) = SS(I+A+B) - SS(I+B) SS(A) = SS(I+A+C) - SS(I+C) SS(A) = SS(I+A+B+C) - SS(I+B+C) SS(A) = SS(I+A+B+C+BC) - SS(I+B+C+BC) Lesempio sopra ovviamente con numerosit diverse: se fossero uguali non ci sarebbe nessun problema perch in tutti modi la SS(A) sarebbe uguale. Anche per le interazioni del primo ordine vi sono 5 modi possibili per calcolarle; linterazione del secondo ordine si calcola invece solo in un modo: SS(ABC) = SS(I+A+B+C+AB+AC+BC+ABC) - SS(I+A+B+C+AB+AC+BC) La SSreg del modello completo: yijkr = + i + j + k+ ij + kj+ ik + ijk + ijkr si calcola con il Questo per questo: SSreg(I+A+B+C+AB+AC+BC+ABC) = 149514,6167
160
Per trovare le SSreg dei vari modelli ridotti (come li scrive Galetto, senza partire da un ipotesi nulla sui parametri) ho sempre usato il metodo delle soluzioni basiche. Ad esempio per trovare la SSreg del modello: yijkr = + i + j + k + ij + ik + ijkr abbreviato con: Y = I + A + B + C + AB + AC so gi in partenza che dar luogo a una matrice delle equazioni normali con rango 6 visto che sono stati sperimentati tutti gli stati di prova, dunque faccio entrare in base i 6 parametri , 0 , 0 , 0, 00 , 00; le stime degli altri parametri sono poste uguali a zero, dunque devo solo risolvere il sistema:
24 11 11 13 6 5
0
11 11 6 5 6 5
0
11 6 11 5 6 2
0,
13 5 5 13 2 5
00
6 6 6 2 6 2
00
5 5 2 5 2 5
ZT*Y 1890 854 835 1047 434 419 T... T0.. T.0. T..0 T00. T0.0
La soluzione : = 81,30081 0 = -2,590287 0 = 0,747967 0 = -3,081301 00 = -10,06376 00 = 11,89709 e la somma dei quadrati associata a questo modello il prodotto scalare del vettore sopra per i totali ZT*Y scritti in tab.22. SSreg = 149462,073
161
In questo modo, con Excel, ho calcolato velocemente le SSreg dei seguenti modelli: 1 2 3 4 5 6 7 8 9
SS (I) SS (I+A) SS (I+B) SS (I+C)
148837,5 148862,6853 149001,3986 148928,2238 149010,3892 148940,7024 149058,6169 149235,9917 149240,5 149061,0917 149062,4952 149265,4722 149321,3957 149064,2997 149462,073 149266,304 149322,8502 149470,1751 149514,6167
10 SS (I+B+C+BC) 11 SS (I+A+B+C) 12 SS (I+A+B+C+AB) 13 SS (I+A+B+C+AC) 14 SS (I+A+B+C+BC) 15 SS (I+A+B+C+AB+AC) 16 SS (I +A+B+C+AB+BC) 17 SS (I+A+B+C+AC+BC) 18 SS (I+A+B+C+AB+AC+BC) 19 SS( I+A+B+C+AB+AC+BC+ABC)
Per i modelli evidenziati in neretto, il metodo delle soluzioni basiche nelle equazioni normali porta al Questo per questo, perch la matrice del sistema ridotto diagonale. Possiamo calcolare gli effetti dei fattori e interazioni in vari modi: per brevit di notazione indico il modo con cui un effetto calcolato con 2 numeri, indicanti rispettivamente minuendo e sottraendo della differenza fra le SSreg della tab.23; ad esempio la notazione (5-3) significa: SSreg(I+A+B) - SSreg(I+B)
162
SS (A)
2-1 25,18531469 3-1 163,8986014 4-1 90,72377622 8-5 225,60251 9-6 299,7975904 10-7 2,474799197 19-18 44,44152542
5-3 8,990555228 7-4 130,3930912 6-2 78,01709495 12-11 202,9769759 13-11 258,9004528 14-11 1,804464728
6-4 12,4786 5-2 147,704 7-3 57,2183 16-14 202,004 15-12 196,601 17-13 1,45454
11-7 3,878370625 11-6 121,7928285 11-5 52,10608147 15-13 140,6772658 17-14 258,5505325 16-12 0,831808283
14-10 3,208036157 13-9 80,89569094 12-8 29,4805473 18-17 147,3249059 18-16 203,871119 18-15 8,10218446
SS (B)
SS (C)
SS (AB)
SS (AC)
SS (BC)
SS (ABC)
Tabella 63: tutti modi per calcolare leffetto di fattori e interazioni con modelli gerarchici
Ma quale di questi numeri rappresenta leffetto del fattore o dellinterazione? ... seguendo solo ci che c scritto in Galetto (1995 e 1996) non si trova risposta. A questo punto chi applica il metodo di Galetto si renderebbe conto che non ha definito cos un effetto. Terms like main effects are not adequate to describe the hypothesis...their definitions should be dictated by the needs of the researcher(Hocking e Speed 1975), fare semplicemente la differenza di somme di quadrati non ci dice quale ipotesi stiamo testando. ...serious drawback of the R( ) notation is that it does not provide an indication of the hypothesis being tested(Speed et al.1978). Il metodo experimental design, descritto in Speed et al. (1978) e Krishnaiah (1980) prevederebbe come risultati corretti la quarta colonna per i fattori e la quinta colonna per le interazioni del primo ordine: questa scelta per assunta a priori, senza indagare che ipotesi viene testata sui parametri del modello. Il metodo a priori ordering, descritto in Speed et al. (1978), Krishnaiah (1980), Allen (1985), prevederebbe una decomposizione ortogonale: essa richiede un ordine di fattori e interazioni, usando sempre modelli gerarchici84, per cui non si pu dire che AB pi importante dei 2 fattori A e B dunque la media I sempre la prima e linterazione di ordine superiore sempre lultima. Uno dei tanti ordini gerarchici potrebbe essere: I, A, C, AC, B, BC, AB, ABC
84
Luso del modello full-regression consente di superare questa limitazione, ammesso che sia di interesse... 163
che richiederebbe luso delle somme di quadrati (indicate per brevit dai numeri della tab.23): 1, (2-1), (6-2), (9-6), (13-9), (17-13), (18-17), (19-18) La somma di queste SS ovviamente quella indicata dal numero 19 ovvero: SSreg(I+A+B+C+AB+AC+BC+ABC) = 149514,6167 dunque lanalisi ortogonale (ovvero i test F sono indipendenti) per costruzione; ma cosa si sta testando in termini dei parametri del modello?... Confrontando con lanalisi dei contrast che avevamo fatto nel par. 5.2.3 vediamo che solo linterazione ABC uguale a ci che io definisco effetto di ABC; non un caso: infatti lunica calcolata a partire dal modello pi completo come richiede il teorema 5 del Mood e Graybill (1963). Concludiamo il paragrafo dicendo che col modello full-regression (cap.8) si riesce a capire cosa stiano testando le differenze di somme di quadrati sopra.
ci sarebbero (1+a+b+a*b) parametri ma solo a*b stati di prova dunque, per riprametrizare il modello per farlo diventare full-rank bisogna porre (1+a+b) vincoli. Di solito si pongono quelle che in Searle et al.(1981), Searle(1987) sono chiamate -restrictions, ovvero:
j =1 a i =1 b i =1 b
j =1
ij
ij
I nuovi parametri, in numero a*b sono tutti stimabili correttamente, secondo i teoremi che abbiamo visto nel par. 7.1, perch la matrice delle equazioni normali adesso
85
Il vincolo per i=a sarebbe dipendente dagli altri quindi non si mette. 164
invertibile. Bisogna per stare molto attenti perch adesso questi vincoli valgono sempre anche quando si usano dei modelli ridotti. Nellesempio macchina-operatore ci sarebbero i seguenti vincoli: 0 + 1 = 0 0 + 1 = 0 00 + 01 = 0 10 + 11 = 0 01 + 11 = 0 dunque il modello completo riparametrizzato in funzione di soli 4 parametri diventa ad esempio: 00 = + 0 + 0 + 00 10 = 0 + 0 - 00 01 = + 0 - 0 - 00 11 = 0 - 0 + 00 in forma matriciale E(Y) = X* dove X :
0 0 00
1 1 1 1 1 1 1
1 1 -1 -1 1 1 -1
1 1 1 1 -1 -1 -1
1 1 -1 -1 -1 -1 1
Adesso, avendo aggiunto i vincoli, ovviamente possibile testare ad esempio: (1) 0: 0 (= 1 ) = 0 esso testa quello che io definisco effetto (par. 4.8) di A (in questo caso il fattore macchina) ovvero: 11 + 10 - 01 - 00 = 0 21 - 20 + 11 + 10 - 01 - 00 = 0 perch con le -restrictions, diventa: -40 = 0 che equivalente allipotesi nulla (1). Il modello ridotto dallipotesi nulla (1) ha la seguente matrice Z:
165
00
1 1 1 1 1 1 1
1 1 1 1 -1 -1 -1
1 1 -1 -1 -1 -1 1
7 1 -1
0
1 7 1
00
-1 1 7
ZT*Y
335 105 9
La soluzione : = 47,85 0 = 7,15 00 = 7,1 essa non soddisfa le equazioni normali sul modello completo non riparametrizzato (tab.2) perch abbiamo aggiunto dei vincoli (le -restrictions ) che hanno cambiato il sistema di tab.2. La soluzione sopra fornisce una somma dei quadrati associata al modello ridotto SSreg = 47,85*335 + 7,15*105 + 9*7,1 = 16844,4 che conferma il valore ottenuto: con lanalisi dei contrast con lanalisi della covarianza col modello sovraparametrizzato usando le funzioni stimabili per il principio F1, perch anche la regressione col modello sovraparametrizzato, riparametrizzato con le -restrictions un metodo scientificamente corretto. Se avessi usato vincoli diversi (Searle et al.1981) dalle -restrictions avrei comunque ottenuto lo stesso valore per la stessa ipotesi nulla sulle medie degli stati di prova. Analogamente potevo testare leffetto delloperatore: 11 + 01 - 10 - 00 = 0 che diventa: (1) 0: 0 (= 1 ) = 0
166
non riporto i calcoli perch sono identici a quelli per leffetto della macchina; il risultato finale : SSreg (I+M+MO) = 16550,4 Si possono testare tutte le ipotesi che abbiamo gi testato: quella del Questo per questo, quelle del metodo di Galetto,....I risultati sarebbero certamente uguali a quelli gi trovati con altri metodi per il principio F1; dunque conviene usare il metodo pi semplice.
Le soluzioni alle equazioni normali dei modelli ridotti visti in questo paragrafo possono non soddisfare le equazioni normali sul modello completo non riparametrizzato (tab.2), perch, avendo aggiunto dei vincoli, il sistema di equazioni normali, cambiato.
Questi 2 errori fanno capire che il modello sovraparametrizzato nei piani ridotti fonte di confusione e porta a risultati corretti solo se si usano in modo rigoroso i concetti esposti nel par.7.1 che si possono ritrovare sul Mood e Graybill (1963). Vediamo come fare nel piano ridotto del par 4.7:
Stati di prova a b c abc Tabella 67 Y1 24 25 29 29 Y2 26 23 30 27 Totali 50 48 59 56 Medie 25 24 29,5 28
Il modello da usare, se si vogliono vedere gli alias il seguente: (1) yijkr = + i + j + k+ ij + kj+ ik + ijk + ijkr Esso ha una SSreg = (25*50 + 24*48+59*29,5+56*28) = 5710,5 (Questo per questo) Vediamo che la funzione che rappresenta leffetto (par. 4.8) del fattore A: 111+110+101+100-000-001-010-011 86
non stimabile perch mancano gli stati di prova (000), (110), (011), (101); se manca anche un solo stato di prova la funzione che definisce leffetto medio di A non pi stimabile. Invece stimabile la funzione che confonde leffetto di A e di BC (come
definiti nel par.4.8): A*+BC* 87= 111+100-001-010 = 21 - 20 + 11 + 10 - 00 - 01 + 11 + 00 - 01 - 10 + 11 + 10 - 01 - 00 + 111 + 100 - 001 - 010 in quanto esprimibile per mezzo delle medie degli stati di prova. Se nel modello completo sostituissimo lipotesi nulla: H0 : 21 - 20 + 11 + 10 - 00 - 01 + 11 + 00 - 01 - 10 + 11 + 10 - 01 00 + 111 + 100 - 001 - 010 = 0 otterremo un modello ridotto che darebbe una SSreg:
86
Non lo scrivo in termini dei parametri dl modello sovraparametrizzato perch troppo lungo.
87
Metto gli asterischi per far vedere che sono dei parametri per distinguerli dagli stimatori A e BC; non sempre nella tesi fatta questa distinzione: in ogni caso si capisce dal contesto se si sta parlando di uno stimatore o di un parametro. 168
SSreg = 5710,375 Non riporto i calcoli che, pur semplici, richiedono la scrittura di matrici abbastanza grandi. Comunque la somma dei quadrati associata allalias A+BC : SSreg(completo) - SSreg(ridotto) = 5710,5 - 5710,375 = 0,125 Esso conferma il valore trovato con lanalisi dei contrast (tab.9 del par.4.7). Il mio giudizio comunque che le funzioni stimabili e il teorema 5 non possono essere considerati strumenti operativi perch richiedono troppi calcoli: per rappresentano lunico modo di vedere gli alias col modello sovraparametrizzato; con il metodo di Galetto (1995 e 1996) impossibile vedere gli alias (anche perch nel suo libro non sono ben definiti); anche con il modello sovraparametrizzato, riparametrizzato per renderlo full-rank, difficile spiegare gli alias e sarebbe, secondo me, uninutile forzatura. Dunque meglio usare il modello full-regression, oggetto del prossimo capitolo.
7.7 CONCLUSIONI
In questo capitolo abbiamo visto che il teorema di Gauss-Markov legittima luso dei contrast perch gli stimatori presentati nel cap.4 sono BLUE; lanalisi dei contrast (ANCON) indubbiamente la pi veloce per ottenere gli effetti dei fattori e interazioni. Luso del teorema 5 e delle funzioni stimabili conduce agli stessi risultati dellANCON, ma in modo molto pi lungo; gi con 3 fattori le dimensioni delle matrici aumentano in modo spropositato dunque il teorema di Gauss-Markov e gli altri teoremi del Mood e Graybill vanno usati solo come base teorica per lANCON, ma non come strumento operativo. Chi vuole usare il modello sovraparametrizzato deve rendersi conto che il numero dei parametri aumenta esponenzialmente con il numero dei fattori e in modo polinomiale con i livelli quindi diventa sempre pi difficile maneggiare i modelli sovraparametrizzati; per dare unidea supponiamo che ogni fattore abbia K livelli: con 2 fattori abbiamo (1+K)2 parametri con 3 fattori ne abbiamo (1+K)3 parametri ... con N fattori ne abbiamo (1+K)N.
169
Con 4 fattori a 3 livelli, un caso abbastanza comune, avremmo 256 (!!!) parametri mentre le funzioni stimabili linearmente indipendenti restano in numero pari a quello degli stati di prova. PIANO SPERIMENTALE
R STATI DI PROVA
MODELLO SOVRAPARAMETRIZZATO
K (>R) PARAMETRI NON STIMABILI
(K - R) SOLUZIONI
R FUNZIONI STIMABILI LINEARMENTE INDIPENDENTI
Le soluzioni alle equazioni normali dei modelli ridotti soddisfano sempre E.N.M.C.
RIPARAMETRIZZAZIONE (K - R) VINCOLI SUL MODELLO COMPLETO R PARAMETRI STIMABILI Le soluzioni alle equazioni normali dei modelli ridotti possono non soddisfare E.N.M.C., perch con laggiunta dei vincoli, il sistema cambiato
Comunque se si vuole proprio usare il modello sovraparametrizzato bisogna farlo: o sulla base del teorema 5, usando le funzioni stimabili (par.7.3), o riparametrizzarlo per farlo diventare full-rank (par. 7.5) come messo perfettamente in evidenza da Freund (1980) e nella fig.1; usando il modello sovraparametrizzato, uno deve subito decidere se usare le funzioni stimabili o se
170
riparametrizzare il modello (questultima la scelta preferita nei libri di Statistica e DOE): sono 2 strade distinte e ci portano agli stessi risultati come abbiamo visto; bisogna stare attenti a non confonderle. Galetto (1995 e 1996) non impone vincoli al modello dunque dovrebbe seguire la prima strada per lautore citato scrive i modelli ridotti senza derivarli dalle ipotesi nulle (par. 7.4) sulle funzioni stimabili e questa una procedura molto pericolosa perch alla fine non si conosce lipotesi nulla testata e si rischia di imbattersi nelle indesiderate ipotesi parzialmente testabili. chiaro adesso perch il modello sovraparametrizzato uninutile complicazione? We do not believe that the overparameterization is, per se, a source of serious difficulty; it is simply unnecessary...(Jennings e Ward 1982).
171
CAPITOLO 8
1 0 0 ... 0
Tabella 68
0 1 0 ... 0
0 0 1 ... 0
0 0 0 ... 0
0 0 0 ... 1
172
Se nello stato di prova i ci sono Ni replicazioni, bisogna replicare la riga relativa allo stato i Ni volte; in questo modo la matrice XT*X delle equazioni normali, di dimensione N*N e diagonale, e il vettore XT*Y sono i seguenti:
1 2 3
....
XT*Y
n1 0 0 .... 0
0 n2 0 ... 0
0 0 n3 ... 0
0 0 0 .... 0
0 0 0 ... nN
T1 T2 T3 ... TN
La matrice ha rango N, pari al numero dei parametri quindi, secondo ci che abbiamo visto nel capitolo precedente, il modello full-rank essendo ovviamente invertibile la matrice XT*X. La soluzione alle equazioni normali del modello completo semplicissima: 1 = T1/ n1 = y1. 2 = T2/ n2 = y2. .... N = TN/ nN = yN. Si ritrova la regola del Questo per questo infatti la SSreg del modello completo : SSreg = T * XT * Y = (y1.* T1 +y2.* T2 + ......+ yN.* TN) Questo approccio non dice quale ipotesi testare con procedure preconfezionate, obbliga lo sperimentatore a pensare quale combinazione lineare delle medie degli stati di prova lo interessa maggiormente. Per testare lipotesi nulla su queste combinazioni lineari, come al solito si sostituisce lipotesi nel modello. Per fissare le idee riprendiamo lesempio macchina - operatore: MACCHINA 0 OPERATORE 0 OPERATORE 1 64,67 39,35 MACCHINA 1 41,48 41
173
00
10
01
11
1 1 0 0 0 0 0
0 0 1 1 0 0 1
0 0 0 0 1 1 0
0 0 0 0 0 0 1
Se vogliamo testare quello che io ho definito essere leffetto della macchina: H0 : 11 + 10 - 01 - 00 = 0 dobbiamo scrivere, come al solito, un modello ridotto E(Y) = Z* ottenendo Z, sostituendo H0 in X; in questo caso:
1 1 0 0 0 0 1
0 0 1 1 0 0 -1
0 0 0 0 1 1 1
la matrice ZT*Z e il vettore ZT*Y delle equazioni normali del modello ridotto sono:
00
3 -1 1
10
-1 3 -1
01
1 -1 3
SSreg = (62,1*172+47,9*48+33,6*115) = 16844,4 che conferma il valore ottenuto con gli altri metodi che abbiamo visto: analisi dei contrast analisi della covarianza regressione col modello overparameterized, usando le funzioni stimabili regressione col modello overparameterized, riparametrizzato Potrei testare tutte le altre ipotesi gi testate con gli altri metodi e riotterrei (principio F1) gli stessi risultati; non lo faccio perch spero che ormai sia chiaro il modo corretto di procedere:
1. 2. 3. 4. 5. Si parte da unipotesi nulla sulle medie degli stati di prova88 La si sostituisce nel modello completo Si calcola la SSreg del modello ridotto Si fa la differenza fra la SSreg del modello completo meno quella del modello ridotto Questa differenza rappresenta il numeratore della F calcolata; il denominatore la stima della varianza della popolazione.
8.1.1 CELL MEANS: GLI ALIAS Con questo modello possibile vedere gli alias come li ho definiti nel par. 4.8: esattamente lo stesso discorso gi fatto per le funzioni stimabili (par. 7.6) perch queste ultime non sono nientaltro che combinazioni lineari delle medie degli stati di prova; sono stimabili solamente quelle combinazioni di medie degli stati che sono stati sperimentati. Con 3 fattori la combinazione lineare: A* = 111+110+101+100-000-001-010-011 stimabile solo se tutti gli 8 stati di prova sono sperimentati almeno una volta, esattamente per come accadeva con le funzioni stimabili. Se abbiamo solo gli stati (100), (010), (001), (111) e prendiamo per buone le mie definizioni di effetto, diciamo che non riesco a stimare gli effetti puri A* e BC*, ma solo lalias A*+BC*. Nulla e nessuno obbliga lo sperimentatore a prendere per buone le mie definizioni di effetto; egli pu costruirsi delle combinazioni lineari delle medie che rappresentano gli effetti dei fattori e interazioni come messo in evidenza da Speed et al.(1978), Searle et al. (1981), Freund (1980), Jennings e Ward (1982). Ad esempio in una situazione irregolare come quella esaminata nel par. 5.4
88
Le uniche che si possono testare come stato dimostrato nel capitolo precedente. 175
bc
abc
c b
ac ab
io assumo a priori (par. 4.8) che: A* = 111+110+101+100-000-001-010-011 e quindi dico che leffetto medio di A non stimabile perch mancano gli stati di prova (100) e (110), ma sono stimabili gli alias A* + AC* A* + C* ma lo sperimentatore pu benissimo fare altre assunzioni e dire ad esempio che: A* = 2*(111+101) - (000+001+010+011) e testare questa combinazione lineare. Limportante che egli sappia ci che sta testando e che in un piano come quello di figura 1 pu testare al massimo 6 (di cui una rappresenta la media I) combinazioni lineari indipendenti delle medie degli stati di prova. Lalias confonde in qualche modo gli effetti ma se non si definiscono gli effetti, come si fa a sapere quali fattori e interazioni e in che modo sono confusi? Quando si parla di alias bisogna decidere a priori cosa intendiamo per effetto e alias altrimenti si rischia di scrivere delle formule senza conoscerne pi il significato. Per il motivo sopra, ovvero la soggettivit nel decidere cosa rappresenta leffetto dei fattori e interazioni, Freund (1980) scrive: no universally acceptable or correct methodology for handling missing cells has been developed. Io proporr nel cap.9 quella che ritengo una soluzione adeguata ovvero luso del modello full-regression, unito alle mie definizioni di effetto e di alias.
176
(che in forma abbreviata potr essere scritto come Y = I + A+ B + AB) la variabile x0 vale sempre +1 perch la media; bisogna poi codificare le variabili x1 e x2: con 2 livelli universalmente accettata la codifica -1 quando il fattore rappresentato dalla variabile al livello basso e +1 quando il livello del fattore al livello alto; notiamo che -1 e +1 sono i coefficienti dei polinomi ortogonali per 2 livelli quando gli stati di prova sono equispaziati. I coefficienti delle variabili rappresentano i parametri da stimare e sono gli effetti dei fattori e interazioni; ad esempio nella (1) il parametro A rappresenta proprio leffetto di A. La (1), se le variabili sono quantitative, pu essere vista come unapprossimazione di una funzione f di 2 variabili x e y, con uno sviluppo di Taylor nellintorno x0 e y0: f ( x , y ) f ( x, y) = f ( x0 , y0 ) + x
2 1 f ( x, y) + * 2 x 2
x 0 , y0
* ( x x0 ) +
f ( x , y ) y
x0 , y0
* ( y y 0 ) +
x0 , y 0
2 * ( y y0 )
x0 , y 0
* ( x x0 )
2 f ( x, y) + x y
x0 , y 0
2 f ( x, y) * ( x x0 ) * ( y y0 ) + y 2
dove xx1 e yx2 nel nostro caso siamo nellintorno dellorigine ovvero: x0 = 0 y0 = 0 e x e y assumono solo i valori -1 e +1. Come si vede gli effetti dei fattori A e B possono essere assimilati alle derivate parziali prime, gli effetti quadratici89 alle derivate seconde, e leffetto dellinterazione alla derivata mista. Dallo sviluppo di Taylor vediamo che la variabile interazione x1x2 in effetti il prodotto fra x1 e x2 ma ci non significa che la derivata mista (AB) sia il prodotto di A e B. Come abbiamo gi visto (par. 6.2.2) il peso(effetto) dellinterazione
89
Nel modello (1) non ci sono perch con 2 livelli si possono testare solo gli effetti lineari. 177
pu essere alto anche quando i pesi (effetti medi) dei fattori sono bassi. Leffetto dellinterazione dunque, per variabili quantitative, di secondo ordine rispetto a quello (lineare) dei fattori alla stessa stregua degli effetti quadratici che sono secondari rispetto agli effetti lineari; penso che laffermazione riportata in Box et al.(1978) a pag.374, Ignoring, say, 3-factor interactions corresponds to ignoring terms of third order in the Taylor expansion, derivi da un ragionamento simile a quello che ho esposto io adesso. Nei piani a 2 livelli, oggetto principale della tesi, si trascurano forzatamente le componenti quadratiche dei fattori quindi uno potrebbe sentirsi legittimato a trascurare anche le interazioni che sono effetti del secondo ordine; a mio parere farebbe un grosso sbaglio perch: il concetto effetto del secondo ordine ha senso solo nellintorno dello sviluppo di Taylor: un concetto puramente puntuale mentre a noi, con i piani fattoriali, interessa studiare il fenomeno in un certo intervallo, se nellintervallo che ci interessa il fenomeno esponenziale, non pensabile trascurare gli effetti del secondo ordine (nemmeno del terzo, del quarto...90) nello sviluppo di Taylor, col modello FR con 2 fattori a 2 livelli si ha sempre: (x-x0) = 1 (y-y0) = 1 dunque: (x-x0)2 = 1 (y-y0)2 = 1 (x-x0)* (y-y0) = 1 il peso degli effetti del secondo ordine (quadratici e interazione) esattamente uguale a quello degli effetti lineari a parte il fattore (1/2) della formula di Taylor. I piani fattoriali a 2 livelli hanno gi il grosso svantaggio di non poter individuare gli effetti parabolici. Non ha quindi nessun senso trascurare le interazioni che invece sono individuabili con tali piani: sarebbe un modo di diminuire volontariamente (e inspiegabilmente) la potenza dei piani fattoriali a 2 livelli: ci pu produrre elevati costi della disqualit (Galetto 1995). Il fatto di usare proprio -1 e +1 pu derivare dai polinomi ortogonali (e in tal caso sarebbe limitato a piani bilanciati), ma anche dalla standardizzazione delle variabili secondo la seguente procedura: supponiamo che un fattore abbia i livelli a e b>a. La media dei 2 livelli (a+b)/2 mentre una misura della loro dispersione (b-a)/2 dunque si pu standardizzare i livelli delle variabili sottraendo la media e dividendo per la dispersione. Mason et al.(1989) e Khuri e Cornell (1987) raccomandano sempre di standardizzare perch diminuisce la correlazione fra le stime dei parametri e il termine costante I. Per i 2 livelli a e b si ottiene:
90
Potrei pensare di trasformare logaritmicamente i dati per rendere lineare la funzione. 178
a +b 2 a' = = 1 ba 2 a +b b 2 b' = =1 ba 2 a
Ovviamente il modello FR ammette, come gli altri, la forma matriciale: E(Y) = X * dove contiene i parametri effetti (I, A, B, AB, C, AC .....), quelli che si stimerebbero col metodo di Yates e X proprio la tabella dei segni che abbiamo introdotto nel par. 4.4, per piani bilanciati, in cui bisognerebbe91 ripetere le righe tante volte quanto la numerosit (costante) degli stati di prova; se la numerosit non pi costante si devono ripetere le righe secondo le numerosit degli stati. Notiamo che il modello FR giustifica pienamente lapplicazione del metodo inverso di Yates per stimare le medie degli stati di prova perch non nientaltro che la moltiplicazione della matrice X per il vettore delle stime di .
Per la prima volta scriviamo un modello i cui parametri sono proprio gli effetti che ci interessano; quindi possiamo sfruttare le propriet notevoli degli stimatori provenienti dalle equazioni normali su un modello full-rank: COV() = (XT*X)-1 * 2 VAR(Y/X0) = X0*(XT*X)-1*X0T
dunque la matrice (XT*X)-1 contiene le varianze e covarianze degli stimatori , a meno del fattore 2: da questa matrice si pu calcolare facilmente la matrice di correlazione ovvero quella contenente i coefficienti di correlazione fra le varie stime: questa matrice sar molto utile per misurare la non ortogonalit; abbiamo per ora un criterio semplicissimo per dire se il piano ortogonale oppure no: basta vedere se la matrice (XT*X)-1 diagonale. Inoltre sappiamo che gli stimatori sono combinazioni lineari delle variabili casuali Y e, guardando la matrice ((XT*X)-1 * XT), siamo in grado di sapere i coefficienti di queste combinazioni lineari (a parte la media le altre stimano tutte dei contrast); in altre parole siamo in grado di sapere come sono calcolati gli effetti:
= ((XT*X)-1 * XT) * Y La matrice ((XT*X)-1*XT) contiene i coefficienti dei contrast dunque, per calcolare la somma dei quadrati associata agli effetti, abbiamo davanti a noi 2 strade equivalenti:
91
In pratica non necessario se le numerosit degli stati sono uguali perch le equazioni normali si semplificano. 179
1. Applicare la formula: C2 SS (C ) = 2n 2 c ni i =1 i ai contrast contenuti nel vettore , dove i ci si capiscono dalla matrice ((XT*X)-1 * XT). 2. Trovare la SSreg del modello completo: SSreg1 = ((XT*X)-1 * XT)*Y e poi quella di un modello ridotto che contiene tutti parametri tranne quello C che ci interessa: SSreg2 = ((ZT*Z)-1 * ZT)*Y e poi fare la differenza: SS(C) = SSreg1 - SSreg2 tutto ci sulla base del teorema 5 del capitolo 7, adattato a modelli full-rank (in cui tutti parametri sono funzioni stimabili) La validit delle 2 strade gi stata dimostrata rispettivamente nei par. 4.3 e 7.2 dunque per il principio F1 dovr dare gli stessi risultati. Verifichiamo questa affermazione applicando il modello FR al solito esempio macchina - operatore. 8.2.1 ESEMPIO MACCHINA - OPERATORE Riportiamo i soliti dati: MACCHINA 0 OPERATORE 0 OPERATORE 1
Tabella 73
MACCHINA 1 41,48 41
64,67 39,35
e scriviamo il modello full-regression: yijr = x0 + x1 + O * x2 + MO * x1x2 + ijr x1 la variabile relativa alla macchina e vale -1 quando losservazione yijr riguarda la prima macchina e +1 quando relativa all seconda macchina; x2 la variabile relativa alloperatore e vale -1 quando losservazione yijr relativa al primo operatore e +1 quando relativa al secondo; la variabile x1x2 quella dellinterazione ed il prodotto di x1e x2. pi comodo usare la forma matriciale: E(Y) = X * contiene i parametri (I, M, O, MO); la matrice X e il vettore Y sono i seguenti:
180
X i i o o m m mo
MO
1 1 1 1 1 1 1
-1 -1 -1 -1 1 1 1
-1 -1 1 1 -1 -1 1
1 1 -1 -1 -1 -1 1
64 67 39 35 41 48 41
essendo il piano non bilanciato le covarianze fra gli stimatori sono non nulle: il fatto che gli stimatori sono correlati significa che le variabili inserite nel modello sono collineari ovvero che esiste una relazione lineare tra di esse: c una ridondanza di informazione secondo quanto spiegato in Mason et al. (1989) .
La non ortogonalit statistica dei piani fattoriali cos ricondotta al problema della multicollinearit nella regressione multipla. Se le variabili sono troppo correlate bisogna eliminare dei termini dal modello: in questo modo le covarianze tra i parametri rimasti diminuiscono e contemporaneamente diminuisce anche la varianza degli stimatori dei parametri rimasti: ci ovvio visto che in presenza di variabili collineari, la varianza di uno stimatore esprime anche la variabilit degli altri stimatori. Per vedere quando le variabili sono troppo correlate bisogna calcolare la matrice di correlazione: lo vedremo pi avanti. In generale per decidere quali variabili togliere dal modello si possono impiegare le tecniche descritte in Mason et al.(1989) (forward selection, backward selection, stepwise iteration). La matrice dei contrast :
181
i I M O MO
mo
La soluzione dunque92: I = (1/4) * (i + o + m + mo) = 47 M = (1/4) * (m + mo - i - o) = -4,25 O = (1/4) * (o + mo - i - m) = -8 MO = (1/4) * (i + mo - o - m) = 6,25 che corrisponde alle definizioni di effetto che ho dato nel par. 4.8 in cui si prende k=1/2n=1/4; le ipotesi testate sono infatti rispettivamente sui contrast: 11 + 10 - 01 - 00 11 + 01 - 10 - 00 11 + 00 - 01 - 10 Il fattore (1/4), come il lettore accorto ha ormai capito, non influenza la somma dei quadrati associata ai contrast. Tali somme di quadrati sono le seguenti: SS(M) = 115,6 SS(O) = 409,6 SS(MO) = 250 come avevamo gi visto nel par. 5.2 in tab.8. Per lennesima volta un metodo scientificamente corretto conferma i risultati ottenuti con altri metodi e conferma la bont delle definizioni che ho dato nel par. 4.8. Non ho considerato la media I: questa d una SS= 14137,6 diversa93 da quella di tab.4 e 8 del par. 5.2; in tale paragrafo viene fuori da unaltra combinazione lineare: I = 2i + 2m + 2o + mo
92
93
Era successo anche nellesempio a 3 fattori del par. 5.2.3; succede ogni volte che il piano non bilanciato; ci perch nellANOVA la media viene isolata prima dai trattamenti e quindi la somma di tutti dati non tenendo conto della stratificazione. 182
essendo isolata subito rispetto ai trattamenti; la cosa irrilevante tanto non ci interessa testare la media . Abbiamo detto che c unaltra strada per calcolare le somme dei quadrati dei 3 effetti. Bisogna usare dei modelli ridotti; ricordiamo che le somme dei quadrati testano sempre unipotesi lineare (sui contrast). In questo caso le 3 ipotesi nulle da testare sono: H0 : M = 0 H0 : O = 0 H0 : MO = 0 che richiedono dunque i 3 modelli ridotti: Y = I + O + MO Y = I + M + MO Y=I+M+O La SSreg del modello completo , come sempre: SSreg (I+M+O+MO)= T*XT*Y = (47*335 -4,25*(-75)-8*(-105)+6,25*9) = 16960 non pu che confermare il valore gi ottenuto con altri tipi di modello nei cap.6 e 7. 8.2.2 MODELLI RIDOTTI Iniziamo con il modello ridotto non gerarchico: Y = I + O + MO La matrice Z la seguente:
Z I O MO
i i o o m m mo
1 1 1 1 1 1 1
-1 -1 1 1 -1 -1 1
1 1 -1 -1 -1 -1 1
7 -1 -1
-1 7 -1
-1 -1 7
335 -105 9
183
Il lettore particolarmente attento avr notato che quello sopra un sistema equivalente a quello di tab.27 del cap.7: non un caso infatti stiamo testando la stessa ipotesi con un modello diverso. La soluzione numerica ovviamente la stessa: I = 47,85 M = 7,15 O = 7,1 ma il significato dei parametri stimati diverso. Comunque la somma dei quadrati : SSreg = 16844,4 Per cui si ha:
SS(M) = SSreg(I+M+O+MO)-SSreg(I+O+MO) = 115,6
Per quanto riguarda laltro modello ridotto (non gerarchico) Y=I+M+MO, la matrice Z la seguente:
Z I M MO
i i o o m m mo
1 1 1 1 1 1 1
-1 -1 -1 -1 1 1 1
1 1 -1 -1 -1 -1 1
7 -1 -1
-1 7 -1
-1 -1 7
335 -75 9
i i o o m m mo
Tabella 81
1 1 1 1 1 1 1
-1 -1 -1 -1 1 1 1
-1 -1 1 1 -1 -1 1
Confrontiamo i risultati sopra con quelli di tab.8, la varianza delle stime diminuita e cos anche la correlazione fra gli stimatori: ci accade perch abbiamo eliminato il parametro MO dal modello e dunque il suo contributo di variabilit alle varianze degli stimatori dei parametri rimasti; se avessimo scritto la matrice delle covarianze per i 2 modelli ridotti precedenti avremmo notato lo stesso fenomeno. Mi pare il caso di rimarcare il contenuto della nota 2 del capitolo 7 ovvero che, usando un modello ridotto, i parametri non sono pi quelli di partenza94 e infatti il loro valore numerico diverso: dunque nella tabella 15 dovremmo scrivere non I, M, O ma I, M, O: ci non fatto per non appesantire la notazione, comunque il lettore si ricordi che ci vale per tutti i modelli ridotti. La matrice ((ZT*Z)-1)*ZT, contenente i coefficienti dei contrast la seguente:
i I M O i o o m m mo
Tranne se il piano ortogonale: gli stimatori sarebbero indipendenti luno dallaltro e il loro valore non cambierebbe se qualche parametro venisse tolto dal modello. 185
I = 45,75 M = -5,5 O = -9,25 e la seguente somma dei quadrati: SSreg = 16710 che conferma i valori ottenuti con gli altri metodi (cap.6 e 7) e fornisce leffetto dellinterazione:
SS(MO) = SSreg(I+M+O+MO)-SSreg(I+M+O) = 250 che conferma i valori ottenuti nei cap.5, 6, 7 e 8. Osserviamo gli stimatori che danno luogo ai valori di M e O riportati sopra95:
M = (3/10)m + (1/5)mo - (1/5)o - (3/10)i = -5,5 O = (3/10)o + (1/5)mo - (1/5)m - (3/10)i = -9,25 e applicando la formula che associa ai contrast una somma di quadrati si trova che: SS(M) = 201,66666 SS(O) = 570,416666 li abbiamo gi incontrati nei cap.5 e 7: sono i contrast impliciti nella procedura di Galetto in cui si ragiona solo su delle somme di quadrati. Ecco come facevo a sapere le ipotesi nulle testate dal metodo di Galetto (1995 e 1996): le avevo gi ricavate usando il modello full-regression ridotto Y=I+M+O , che porta alla tabella 16. Come detto ripetutamente, non c motivo per usarle al posto dei contrast del modello principale (che testano gli effetti come li ho definiti nel par. 4.8) stimati da: M = (1/4) * (m + mo - i - o) = -4,25 O = (1/4) * (o + mo - i - m) = -8 Lunica ragione valida potrebbe essere quella che i contrast sopra sono troppo correlati quindi il loro valore numerico (e il conseguente test F o t) potrebbe essere senza significato. Con il modello full-regression si sa sempre lipotesi lineare testata, basta guardare la matrice ((ZT*Z)-1)*ZT e si capiscono subito i coefficienti dei contrast: molto meglio che usare le funzioni stimabili e il modello sovraparametrizzato. Provenendo da modelli ridotti, mi pare intuitivo pensare che le stime ottenute saranno distorte (biased) dai parametri cancellati dal modello anche se sono meno correlate fra di loro. In questo caso M e O sarebbero distorti dallinterazione MO cancellata dal modello . Bisogna quindi trovare un trade-off fra:
95
correlazione e conseguente aumento della varianza degli stimatori e perdita di precisione delle stime distorsione degli stimatori causata dalleliminazione dei termini nel modello Questo compromesso messo in evidenza anche in Hahn et al.(1978). Quando mancano degli stati di prova si costretti ad usare un modello ridotto: gli stimatori usati sono necessariamente distorti: il problema degli alias, messo perfettamente in evidenza dal metodo di Box-Wilson. Esaminiamo due ultimi modelli ridotti per far vedere le soluzioni derivanti dal Questo per questo: Y=I+M Y =I + O consideriamo solo il primo, tanto il discorso uguale per laltro. La matrice Z del primo modello :
Z i i o o m m mo I M
1 1 1 1 1 1 1
-1 -1 -1 -1 1 1 1
1/8 - 1/8
1/8 - 1/8
1/8 - 1/8
1/8 - 1/8
1/6 1/6
1/6 1/6
1/6 1/6
M = (1/6)mo + (1/3)m - (1/4)i - (1/4)o = (1/2)*(y1. - y0.) = -3,95833333 lavevamo gi incontrato nel par. 5.2 (moltiplicato per 2) quindi sappiamo quanto vale la sua somma dei quadrati: SS(M) = 107,4405 essa equivale ovviamente a: SS(I+M) - SS(I) = 16139,58333 - 16032,14286 = 107,4405 Con il modello Y = I+O avremmo trovato: O = (1/6)/mo + (1/3)o - (1/4)m - (1/4)i = (1/2)*(y.1 - y.0) = -8,33333
187
SS(O) = 476,19048 equivalente a: SS(I+O) - SS(I) = 16508,33333 - 16032,14286 = 476,19048 Il metodo del Questo per questo considera solo un fattore e vede i dati stratificati in dei macrostati individuati dai livelli dellunico fattore considerato: con 2 livelli il contrast la differenza (o un suo multiplo) fra le medie dei 2 macrostati. Non ha senso dire che il Questo per questo fornisce risultati sbagliati; fornisce dei risultati che testano una particolare ipotesi nulla, che ignora la presenza degli altri fattori; probabile che non sia di interessa per lo sperimentatore (in effetti coincide con la mia definizione di effetto solo in piani bilanciati): ci non autorizza Galetto (1996 pag. 289) a dire che: Quando la situazione non bilanciata il metodo del questo per questo non funziona Il metodo funziona sempre nel senso che testa sempre la stessa ipotesi sia in casi bilanciati che no. Ricordiamo che lo sperimentatore a decidere cosa vuole testare. Nei nested design lipotesi pi logica da testare sul fattore principale proprio quella derivante dal Questo per questo come affermano anche Speed et al.(1978). 8.2.3 ANALISI ORTOGONALE: A PRIORI ORDERING un argomento che avevamo gi visto nel par. 7.4.4 in cui per ci eravamo ristretti ad un ordine gerarchico fra i fattori. Con il modello full-regression si possono usare tranquillamente modelli non gerarchici quindi si pu scegliere qualsiasi ordine: nell caso macchina-operatore, se pensiamo ad esempio che linterazione MO sia pi importante di M, a sua volta pi importante di O, c un ordine preferenziale: I, MO, M, O e quindi si pu decomporre ortogonalmente la SStr: SStr = [SS(I+MO)-SS(I)]+[SS(I+M+MO)-SS(I+MO)]+[SS(I+M+O+MO)-SS(I+MO+O)] = SS(MO) + SS(M) + SS(O) = SS(I+M+O+MO)-SS(I) Osservando le matrici ((ZT*Z)-1)*ZT dei 3 modelli: Y = I + MO Y = I + M + MO Y = I + M + O + MO si capiscono quali sono i contrast MO, M, O associati alle somme dei quadrati nella decomposizione ortogonale; in questo modo si ottengono 3 contrast ortogonali. in questo
188
modo che ho trovato i 2 set di contrast ortogonali nel par. 5.2.1 derivanti il primo dallordine: M, O, MO e il secondo dallordine: O, M, MO Nellanalisi ortogonale il primo contrast sempre quello derivante dal Questo per questo. I 2 set di contrast del par.5.2.1 sono facilmente ricavabili numericamente dalle matrici ((ZT*Z)-1)*ZT dei modelli ridotti che abbiamo scritto nel par. 8.2.2.
Il modello full-regression da usare : yijkr = + x1 + x2 + Cx3 + ABx1x2 + Cx1x3 + BCx2x3 +ABCx1x2x3 + ijkr in forma matriciale: E(Y) = X * contiene gli 8 parametri (I, A, B, C, AB, AC, BC, ABC) e X piuttosto grande avendo sempre96 un numero di righe uguale a quello dei dati totali, in questo caso 24:
96
Come gi detto, se le numerosit degli stati sono uguali, la matrice si semplifica e ha un numero di righe pari a quello degli stati di prova. 189
I 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
A -1 -1 1 1 1 -1 -1 -1 1 1 1 1 1 -1 -1 -1 -1 1 1 -1 -1 1 1 1
B -1 -1 -1 -1 -1 1 1 1 1 1 1 1 1 -1 -1 -1 -1 -1 -1 1 1 1 1 1
AB 1 1 -1 -1 -1 -1 -1 -1 1 1 1 1 1 1 1 1 1 -1 -1 -1 -1 1 1 1
C -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 1 1 1 1 1 1 1 1 1 1 1
AC 1 1 -1 -1 -1 1 1 1 -1 -1 -1 -1 -1 -1 -1 -1 -1 1 1 -1 -1 1 1 1
BC 1 1 1 1 1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 1 1 1 1 1
ABC -1 -1 1 1 1 1 1 1 -1 -1 -1 -1 -1 1 1 1 1 -1 -1 -1 -1 1 1 1
Y 76 75 80 78 81 86 92 90 79 77 80 77 76 70 69 73 71 79 83 78 74 82 85 79
Il modello full-regression richiede, come tutti gli altri tipi di modelli, che si replichino le righe relative agli stati tante volte quanto la numerosit dello stato di prova; Fornasieri (1995), peraltro inconsapevole delle differenze fra modello sovraparametrizzato e full-regression, non si rende conto di questo importante fatto nelluso del metodo di BoxWilson e ragiona come se le numerosit degli stati fosse sempre costante. La matrice delle covarianze la seguente:
I I A B AB C AC BC ABC A B AB C AC BC ABC
0,046094 -0,00339 -0,00339 -0,00599 0,003385 0,00599 0,00599 -0,00703 -0,00339 0,046094 -0,00599 -0,00339 0,00599 0,003385 -0,00703 0,00599 -0,00339 -0,00599 0,046094 -0,00339 0,00599 -0,00703 0,003385 0,00599 -0,00599 -0,00339 -0,00339 0,046094 -0,00703 0,00599 0,00599 0,003385 0,003385 0,00599 0,00599 -0,00703 0,046094 -0,00339 -0,00339 -0,00599 0,00599 0,003385 -0,00703 0,00599 -0,00339 0,046094 -0,00599 -0,00339 0,00599 -0,00703 0,003385 0,00599 -0,00339 -0,00599 0,046094 -0,00339 -0,00703 0,00599 0,00599 0,003385 -0,00599 -0,00339 -0,00339 0,046094
190
Le covarianze sono ovviamente non nulle perch il piano non bilanciato. Non riporto la matrice dei contrast ((XT*X)-1)*XT perch troppo grande (dimensione 8*24) comunque facilmente calcolabile. Si pu vedere che le soluzioni delle equazioni normali: = ((XT*X)-1)*XT*Y sono97: I = (1/8)*(i+a+b+c+ab+bc+ac+abc) = 79,0063 A = (1/8)*(a+ab+ac+abc-i-b-c-bc) = 1,11042 B = (1/8)*(b+ab+bc+abc-i-a-c-ac) = 2,27708 C = (1/8)*(c+bc+ac+abc-i-b-a-ab) = -1,5688 AB = (1/8)*(ab+c+abc+i-a-b-ac-bc) = - 2,4937 AC = (1/8)*(ac+b+abc+i-a-c-ab-bc) = 2,95208 BC = (1/8)*(bc+a+abc+i-c-b-ac-ab) = -0,7146 ABC = (1/8)*(abc+a+b+c-i-ab-ac-bc) = 1,43125 sono esattamente i contrast prodotti dal metodo di Yates (tab.11 del par.5.2.3 nella IV colonna) a parte il fattore (1/8) che non influenza le somme dei quadrati associate ai contrast; si sono quindi stimati gli effetti cos come li ho definiti nel par. 4.8, ponendo k=1/2n=1/8 SS(A) SS(B) SS (AB) SS(C) SS(AC) SS(BC) SS(ABC)
Tabella 89
ai contrast forniti dal metodo di Yates. Questa volta in pi possiamo conoscere subito la correlazione fra i vari contrast dalla matrice (XT*X)-1 e, ricavando la matrice di correlazione, possiamo misurare la non ortogonalit, come vedremo in seguito.
97
I risultati di tabella 22 si possono anche ottenere facendo la differenza fra la SSreg del modello completo: SSreg = T*XT*Y = 149514,61666666 e la SSreg dei modelli ridotti che contengono tutti parametri tranne quello che si vuole calcolare; ad esempio: SS(AB) = SSreg(I+A+B+C+AB+AC+BC+ABC) - SSreg(I+A+B+C +AC+BC+ABC) gli effetti dei fattori e interazioni vengono calcolati a partire dal modello pi completo, come richiede il teorema 5 del cap.7. Ecco perch, a parte linterazione ABC tutti gli altri effetti sono diversi da quelli presentati in tabella 24 nel par. 7.4.4. Le somme di quadrati presentate in quella tabella sono tutte ottenute da modelli ridotti; usando i corrispondenti modelli full-regression si riesce a capire che cosa si sta testando. Ad esempio abbiamo le 3 interazioni del primo ordine calcolate, ad esempio, a partire dal modello Y=I+A+B+C+AB+AC+BC (ultima colonna della tab.24 del cap.7): (1) SS(AB) = SSreg(I+A+B+C+AB+AC+BC) - SSreg(I+A+B+C +AC+BC) = 147,3249 (2) SS(AC) = SSreg(I+A+B+C+AB+AC+BC) - SSreg(I+A+B+C +AB+BC) = 203,8711 (3) SS(BC) = SSreg(I+A+B+C+AB+AC+BC) - SSreg(I+A+B+C +AC+AB) = 8,1021 Nel cap.7 sono state ricavate con il metodo di Galetto quindi non sappiamo cosa testano. Usando il modello ridotto Y=I+A+B+C+AB+AC+BC in forma full-regression, calcoliamo la stima dei parametri con la solita formula: = ((ZT*Z)-1*ZT)*Y dalla matrice ((ZT*Z)-1*ZT)98 capiamo che la (1), la (2) e la (3) testano rispettivamente le seguenti ipotesi nulle: 82*111 + 95*110 + 82*001 + 95*000 - 95*100 -95*010 -82*101 -82*011 = 0 95*111 + 82*101 + 95*010 + 82*000 - 82*100 -82*001 -95*110 -95*011 = 0 95*111 + 82*011 + 95*100 + 82*000 - 82*010 -82*001 -95*110 -95*101 = 0 questo si pu verificare applicando la formula che associa una somma di quadrati al contrast. un contrast. Le 3 ipotesi sopra sono quelle implicite nellapplicazione del metodo experimental design (Cap.7), ma chi usa tale metodo sa che si stanno testando le 3 ipotesi sopra?...Facciamo ancora un esempio di risultato fornito dal metodo experimental design: la somma dei quadrati associata ad A, calcolata dal modello Y=I+A+B+C (III colonna della tab.24 del cap.7):
98
Non la scrivo perch troppo grossa ma penso di avere dato tutti gli elementi per ricavarla. 192
SS(A) = SSreg(I+A+B+C) - SSreg(I+B+C) = 3,87837 osservando la matrice ((ZT*Z)-1*ZT) del modello ridotto Y=I+A+B+C, vediamo che si sta testando il contrast: 1,3295*111+1,4772*101+1,3295*100+1,5625*110-1,8920*010-1,4772*001-000-011 = 0 si pu di nuovo verificare con la formula della somma dei quadrati del contrast. Scrivendo i modelli ridotti full-regression quindi possibile trovare tutte le ipotesi testate dalla tabella 24 del cap.7, come avevamo gi anticipato. 8.3.1 QUANTI MODI CI SONO PER CALCOLARE LEFFETTO DI A? ...e degli altri fattori e interazioni? Soffermiamoci sullesempio a 3 fattori e limitiamoci al fattore A visto che il ragionamento identico per gli altri fattori e interazioni. Il lettore che ha compreso lutilizzo del modello full-regression avr capito che ad ogni modello ridotto contenente leffetto A (e la media I), associato un particolare contrast rappresentante leffetto A: per conoscere il contrast sufficiente osservare la matrice ((ZT*Z)-1*ZT) del modello ridotto. Non bisogna prendere in considerazione i modelli che non contengono la media I perch in essi A sarebbe confuso con la media I, e quindi tali modelli non danno luogo a un contrast per A. Siamo dunque in grado di rispondere alla domanda:
Quanti contrast possono essere scelti a rappresentare leffetto di A? perch essa equivalente a: Quanti modelli si possono costruire, contenenti il fattore A (e la media I)? Proviamo a rispondere enumerando i vari modelli quando essi contengono 2,3....8 parametri; se nel modello ci sono solo 2 parametri, lunico modello contenente A : (1) Y = I+A Quando i modelli contengono 3 parametri, quanti modelli contenenti A si possono pensare? Posso aggiungere al modello (1) 1 dei 6 parametri non presenti quindi il numero equivalente a quello delle combinazioni di 1 elemento su 6, ovvero 6. Con 4 parametri il numero uguale alle combinazioni di 2 elementi su 6 e con k parametri uguale al numero di combinazioni di (k-2) elementi su 6. Dunque, indicando con COMB(i,j) il numero di combinazioni di j elementi su i, il numero totale di modelli contenenti A che si riescono a costruire :
COMB(6, i ) = (1+1)6 = 64
i =0
193
a ognuno di questi modelli associato un contrast che contrappone le medie degli stati di prova (a, ab, ac, abc) e (i, c, b, bc): la tabella 24 del cap.7 presentava 5 di questi 64 modi per calcolare leffetto di A, precisamente quelli che coinvolgono solo modelli gerarchici: usando anche quelli non gerarchici si arriva a 64 modelli, come dimostrato sopra. Vediamo da quali modelli derivano i contrast per A pi usati in letteratura: SS(I+A) SS(I+A+B) SS(I+A+C) SS(I+A+B+C) SS(I+A+B+C+BC) SS(I+A+B+C+AB+AC+BC+ABC) Questo per questo Metodo di Galetto??? Metodo di Galetto??? Experimental design Modo pi completo usando solo modelli gerarchici Full-regression (modo pi completo)
Spero che ormai sia chiaro che la mia definizione di effetto (par. 4.8) corrisponde alluso dellultimo dei modelli elencati sopra, usando k=2n=8.
Quando le numerosit degli stati sono uguali (piano ortogonale), questi 64 contrast diventano tutti uguali quindi non esiste il problema di definire chiaramente cosa intendiamo per effetto di A. Quando le numerosit degli stati sono diverse (piano non ortogonale), i 64 contrast sono, in generale, diversi99 fra di loro e quindi dobbiamo per forza definire cosa l effetto di A.
Solo dopo che si sono definiti chiaramente gli effetti, si pu dire che un contrast va bene e gli altri no; e comunque questultima affermazione subordinata alla validit della definizione di effetto data.
Il lettore che conosce lalgebra sa che per al massimo 8 di questi 64 contrast saranno algebricamente indipendenti. Mostreremo tutto ci nel capitolo 9. 194
100
applicare solo su modelli full-regression e, sostanzialmente, collega la struttura degli Alias al ben noto lack of fit della regressione. Tale metodo presuppone: luso del modello full-regression le definizioni di effetto e alias che ho dato nel par. 4.8 Y=X*+e E(Y) = X *
dove = E(b)
Effettuiamo una partizione dei parametri (e conseguentemente degli stimatori) del modello in [1, 2] e conseguentemente della matrice X in [X1, X2] e consideriamo il modello ridotto che contiene solo i parametri 1 a cui corrispondono gli stimatori b1: Y = X1* 1 + e rispetto a quello pi completo che, dopo la partizione, diventa: Y = X1* 1 + X2 * 2 + e Ci sono situazioni in cui siamo costretti a usare un modello ridotto: quando mancano degli stati di prova in un piano sperimentale; se ho p stati di prova posso usare solo p parametri nel modello perch se ne metto di pi non aggiungo comunque delle equazioni normali linearmente indipendenti al modello e quindi ottengo una SS di quel modello uguale a quella del modello con p parametri101: questo fatto molto importante, ribadito in Actis (1995) a pag.310 ma purtroppo ignorato da Fornasieri (1995) nellanalisi del caso Iveco. Continuiamo la spiegazione del metodo Box-Wilson scrivendo le equazioni normali sul modello ridotto (lunico che possiamo usare quando mancano stati di prova come spiegato sopra): b1 = (X1T * X1)-1 * X1T * Y ma qual il valore atteso degli stimatori dei parametri che crediamo di stimare? E(b1) = (X1T * X1)-1 * X1T * E(Y) noi sappiamo qual il valore atteso di Y, esso dipende anche dai parametri 2 attraverso la matrice X2, ignorati nel modello ridotto (ma essi esistono per il principio F1): E(Y) = X1* 1 + X2 * 2 per cui abbiamo che il valore atteso degli stimatori b1 : E(b1) = (X1T * X1)-1 * X1T * X1* 1 + (X1T * X1)-1 * X1T * X2 * 2
101
E(b1) = 1 + (X1T * X1)-1 * X1T * X2 * 2 dove (X1T*X1)-1*X1T*X2 la matrice degli Alias; questo un risultato di eccezionale importanza trovato da Box e Wilson nel 1951 e che ho visto citato da molti autori, a cominciare da Draper e Smith (1966) e per finire a Bisgaard (1993) che lo usa per trovare le colonne generatrici dei piani fattoriali frazionati. Fornasieri (1995), a mio parere con poco stile, cita questo risultato con un titolo ambiguo, Un metodo per definire la struttura degli alias (pag. 81) senza dire che il metodo di Box e Wilson. Inoltre a pag. 82 dimostra di non averne capito i fondamenti quando dice che X non la matrice derivante dalle equazioni normali: invece essa deriva proprio dalle equazioni normali se scrivo i modelli in forma full-regression, non un problema di codifica (-1 e +1 al posto di 0 e 1 come sostiene Fornasieri), i vettori e le matrici con cui lavoro non contengono affatto simboli ma numeri che derivano algebricamente dalle equazioni normali e che mi servono per effettuare le stime numeriche dei parametri; a seconda della forma che uso nel modello ottengo -1 e +1 oppure 0 e 1. La mancata comprensione del metodo di Box-Wilson porta Fornasieri (1995) a fornire unanalisi del caso Iveco (cap.10) completamente errata. Applichiamo il metodo BW a un piano ridotto molto semplice per far vedere che si riottiene la struttura degli alias, intesa in maniera tradizionale.
bc
abc
c b
ac ab
Siamo costretti a usare un modello ridotto, perch abbiamo solo 4 stati di prova: nel modello possiamo inserire solo 4 parametri di cui uno deve essere forzatamente la media I. Il modello completo sarebbe: Y = I+A+B+C+AB+BC+AC+ABC
196
Se provassimo a scrivere le equazioni normali full-regression sul modello completo troveremmo la matrice XT*X non invertibile, perch il modello full-regression completo usato in un piano ridotto diventa un modello non full-rank, quindi siamo costretti ad usare un modello ridotto; ad esempio: Y=I+A+B+C con la matrice X1, cos composta:
I a b c abc 1 1 1 1 A 1 -1 -1 1 B -1 1 -1 1 C -1 -1 1 1
La matrice X2 relativa ai parametri che sono stati cancellati dal modello (AB, AC, BC, ABC):
AB a b c abc -1 -1 1 1 AC -1 1 -1 1 BC 1 -1 -1 1 ABC 1 1 1 1
da cui si capisce che la struttura degli alias conferma quella ben nota, che abbiamo gi visto nel cap.4:
197
I +ABC A+BC B+AC C+AB quindi non si stimano i parametri del modello ridotto I, A, B, C ma i 4 alias sopra che sono combinazioni lineari degli 8 parametri originari del modello. Le stime degli alias possono essere calcolate numericamente (contrariamente a ci che afferma Fornasieri (1995) a pag.82) dal vettore: (X1T*X1)-1*X1T*Y Ho usato il modello Y=I+A+B+C, e se usassi un altro modello, ad esempio Y=I+A+B+AC? Fornasieri (1995) non si pone questa importante domanda e crede che ci sia un modello giusto, unico, da usare per ogni piano; ci vero se la frazione regolare come in questo caso: infatti se in questo caso (a,b,c,abc) si provasse ad applicare il metodo BW al modello Y=I+A+B+AC, si vedrebbe che la matrice (X1T*X1) non invertibile. Quando invece si hanno frazioni irregolari ci sono tanti modelli che vanno bene, ciascuno che fornisce una diversa struttura degli alias: queste considerazioni sono alla base della mia teoria degli alias del cap.9. 8.4.1 MODELLI RIDOTTI COL PIANO COMPLETO Nel paragrafo precedente abbiamo visto che siamo costretti ad usare un modello ridotto; quando il piano completo, possiamo sempre usare il modello completo ma se gli stimatori sono troppo correlati possiamo usare un modello ridotto; le stime saranno distorte dai parametri cancellati dal modello ridotto, quindi si stimano degli alias e non gli effetti puri di fattori e interazioni. Per chiarire questo importante punto rifacciamoci al solito esempio macchina operatore. Nella tabella 8 abbiamo scritto le covarianze (a meno del fattore 2) fra gli stimatori dei parametri del modello completo:
I I M O MO M O MO
Se cancelliamo il parametro MO, abbiamo visto che le covarianze fra gli stimatori e le loro varianze diminuiscono (tab.15):
198
I I M O
ma gli stimatori non sono pi quelli di partenza, essendo distorti dal parametro cancellato dal modello MO. Per vedere in che misura presente questa distorsione scriviamo la matrice X1 del modello ridotto Y = I+M+O
X1 I M O
i i o o m m mo
1 1 1 1 1 1 1
-1 -1 -1 -1 1 1 1
-1 -1 1 1 -1 -1 1
Labbiamo gi vista nella tabella 10, dove si chiamava Z. La matrice dei parametri cancellati X2:
MO
dunque le somme dei quadrati (che sono quelle che si troverebbero col metodo di Galetto): SS(M) = 201,66666 SS(O) = 570,416666
199
Tutto ci valido se si assumono le definizioni di effetto e alias che ho dato nel par. 4.8; il fatto di usare il metodo di Box-Wilson (BW) presuppone tali definizioni anche se non tutti se ne rendono conto. Le definizioni che ho dato consentono un uso algebrico degli effetti e degli alias; verifichiamolo numericamente. Con il modello completo abbiamo trovato nel par. 8.2.1 che: M = -4,25 O = = -8 MO = 6,25 mentre con quello ridotto Y=I+M+O M= M-(1/5)MO = -5,5 O= O-(1/5)MO = -9,25 Si vede che i risultati ottenuti sono perfettamente congruenti. Avendo il piano completo siamo in grado di stimare tutte gli effetti puri e quindi anche delle loro combinazioni lineari come mostrato sopra. Le somme dei quadrati calcolate con il Questo per questo sono: SS(M) = 107,4405 SS(O) = 476,1905 sono relative ai 2 alias: M= M - (1/6)O - (1/6)MO O = O - (1/6)M - (1/6)MO per verificarlo basta scrivere la matrice degli alias dei 2 modelli ridotti Y=I+M e Y=I+O. Riprendiamo anche lesempio con 3 fattori per fornire qualche altro dato numerico sugli alias senza peraltro scrivere le matrici che sarebbero un po troppo grandi e che comunque si possono calcolare facilmente con laiuto di un foglio elettronico. Ad esempio per sapere a quale alias associata la somma di quadrati: SS(A) = SS(I+A)-SS(I) = 25,18531 devo scrivere la matrice degli alias del modello ridotto Y=I+A; posso supporre che la stima di A sar distorta da tutti gli altri parametri cancellati dal modello ridotto e infatti si trova che: A = A+(23/143)B+(10/143)AB-(23/143)C-(10/143)AC+(14/143)BC-(25/143)ABC
200
Per sapere a quale alias si riferisce la somma dei quadrati: SS(A) = SS(I+A+B+C) - SS(I+A+B) bisogna scrivere la matrice degli alias del modello ridotto Y=I+A+B+C; si trova che: A = A+73/945AB-73/945AC+116/945BC-25/189ABC Per trovare le determinazioni gli stimatori degli alias scritti sopra bisogna calcolare il vettore (X1T*X1)-1*X1T*Y. A ogni modello ridotto contente il parametro X associato un alias contenente X, esattamente cos come vi associato un contrast (par. 8.3): ma gli alias non sono nientaltro che dei contrast (a parte la media I) come vedremo nel cap.9.
201
8.5.1 PIANI NON GEOMETRICI DI PLACKETT-BURMAN Iniziamo con quello a 12 stati di tabella 17 del cap.5, in cui abbiamo supposto di voler studiare 5 fattori. La matrice X1 del modello full-regression la tabella dei segni che avevamo visto nel capitolo 5 ovvero:
I ac abd bce acd abde abce bcd cde de ae b i A B C D E ? ? ? ? ? ?
1 1 1 1 1 1 1 1 1 1 1 1
1 1 -1 1 1 1 -1 -1 -1 1 -1 -1
-1 1 1 -1 1 1 1 -1 -1 -1 1 -1
1 -1 1 1 -1 1 1 1 -1 -1 -1 -1
-1 1 -1 1 1 -1 1 1 1 -1 -1 -1
-1 -1 1 -1 1 1 -1 1 1 1 -1 -1
-1 -1 -1 1 -1 1 1 -1 1 1 1 -1
1 -1 -1 -1 1 -1 1 1 -1 1 1 -1
1 1 -1 -1 -1 1 -1 1 1 -1 1 -1
1 1 1 -1 -1 -1 1 -1 1 1 -1 -1
-1 1 1 1 -1 -1 -1 1 -1 1 1 -1
1 -1 1 1 1 -1 -1 -1 1 -1 1 -1
Se ci fossero diverse ripetizioni per gli stati di prova bisognerebbe replicare le righe tante volte quanto la numerosit dello stato. Come avevamo gi detto, gli ultimi 6 contrast non rappresentano nessun fattore o interazione noti. E allora perch si usano quei contrast? Perch sono ortogonali fra di loro e con i contrast dei 5 fattori: luso di una matrice di Hadamard che garantisce questa propriet (cap.5). Nel cap.7 ho detto che bisogna stare molto attenti ortogonalizzazione perch si rischia di avere dei contrast ortogonali che non interessano lo sperimentatore. Applicando il metodo BW riusciamo a scoprire che alias rappresentano gli ultimi 6 contrast. Scriviamo la matrice X2, valida se la numerosit degli stati di prova costante:
A A A A B B B C C D A A A A A A B B B C A A A B C D E C D E D E E B B B C C D C C D D B B B C D E D E E D E E E C C D D E E A C D E 1 1 1 -1 -1 -1 1 -1 1 1 B C D E -1 1 -1 1 -1 -1 -1 -1 1 -1 A B C D E -1 1 1 1 -1 -1 1 1 -1 -1 202
-1 1 -1 -1 1 1 -1 1 1 -1
1 -1 -1 1 -1 1 -1 -1 1 -1
-1 1 1 1 1 -1 -1 -1 -1 -1
-1 -1 -1 -1 1 1 1 -1 -1 1
-1 -1 1 -1 -1 1 1 -1 1 1
1 1 -1 -1 1 -1 1 -1 -1 1
1 -1 1 1 1 1 -1 -1 -1 -1
-1 -1 -1 1 -1 -1 1 1 -1 1
-1 1 1 -1 -1 1 -1 1 -1 -1
1 -1 -1 -1 1 -1 -1 1 1 -1
-1 -1 -1 -1 -1 1 -1 1 -1 1
1 1 1 -1 1 -1 -1 1 1 1
1 -1 -1 1 1 1 1 1 1 -1
-1 -1 1 1 -1 -1 -1 -1 1 1
-1 1 -1 -1 -1 1 1 -1 1 -1
1 -1 1 -1 1 -1 1 -1 -1 -1
1 -1 -1 -1 -1 -1 1 -1 1 -1
1 1 1 1 -1 1 -1 -1 1 1
-1 -1 -1 1 1 -1 -1 -1 -1 1
1 1 -1 -1 -1 -1 -1 1 -1 1
1 -1 1 -1 -1 -1 -1 1 -1 -1
1 1 -1 1 -1 1 1 1 -1 1
-1 -1 1 1 1 -1 1 1 1 1
b i
-1 1 1 1 -1 -1 -1 1 1 1 1 1 1 -1 -1 -1 1 1 1 -1 -1 -1 -1 1 -1 1 1 1 1 1 1 1 1 1 1 1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 1 1 1 1 1 -1
Calcolando la matrice degli alias (X1T * X1)-1 * X1T * X2 si trova la seguente struttura degli alias, gi riportata in Fornasieri (1995) e in Box e Meyer (1993): I + interazioni di ordine superiore A + (1/3)*(-BC+BD+BE-CD-CE-DE) + interazioni di ordine superiore B + (1/3)*(-AC+AD+AE-CD+CE-DE) + interazioni di ordine superiore C + (1/3)*(-AB+AD+AE-CD+CE-DE) + interazioni di ordine superiore D + (1/3)*(AB-AC-AE-BC-BE-CE) + interazioni di ordine superiore E + (1/3)*(AB-AC-AD+BC-BD-CD) + interazioni di ordine superiore (1/3) * (-AB+AC-AD+AE+BC-BD-BE+CD-CE-DE) + interazioni di ordine superiore (1/3) * (-AB-AC-AD+AE-BC+BD-BE+CD-CE-DE) + interazioni di ordine superiore (1/3) * (AB+AC-AD-AE-BC-BD-BE-CD+CE+DE) + interazioni di ordine superiore (1/3) * (-AB-AC-AD-AE+BC+BD-BE-CD-CE-DE) + interazioni di ordine superiore (1/3) * (-AB-AC+AD-AE-BC-BD-BE+CD+CE-DE) + interazioni di ordine superiore (1/3) * (-AB+AC+AD-AE-BC-BD+BE-CD-CE+DE) + interazioni di ordine superiore La struttura completa la seguente, indipendente102 dalla numerosit dei 12 stati di prova:
A B A C A D A E B C B D B E C D C E D E A B C
-0 - 1/3 -0 0
A B D
1/3 0 0 0 1/3 1/3 1/3
A B E
A C D
A C E
A D E
B C D
B C E
B D E
C D E
A B C D
A B C E
1/3
A B D E
1/3
A C D E
B C D E
A B C D E
0 1/3 1/3 1/3 0 -0 -0 0 2/3 -0 0 - 1/3
I A B C D E 1 2 3 4 5 6
0 0 - 1/3
0 0
0 0 1/3
-0 1/3
-0 0
0 1/3 0
-0
1/3 - 1/3 - 1/3 - 1/3 - 1/3 0 1/3 1/3 0 1/3 -0 0 0 1/3 1/3 0 1/3 -0 1/3 0 -0 - 1/3 1/3 1/3 -0 -0 0 -0 - 1/3
1/3 - 1/3 - 1/3 - 1/3 1/3 0 1/3 1/3 - 1/3 -0 -0 1/3 1/3 1/3 1/3 1/3
0 - 1/3
1/3 - 1/3 - 1/3 - 1/3 0 - 1/3 1/3 0 1/3 - 1/3 0 - 1/3 0 0 1/3 1/3
0 - 1/3 -0 1/3
0 - 1/3 - 1/3
0 - 1/3
0 - 1/3
0 - 1/3
0 - 1/3
0 - 1/3 0 0 0 0
1/3 - 1/3
1/3 - 1/3
1/3 - 1/3 - 1/3 - 1/3 - 1/3 - 1/3 - 1/3 1/3 - 1/3 - 1/3 - 1/3 - 1/3 1/3 - 1/3 - 1/3 - 1/3 1/3
0 - 2/3
1/3 - 1/3 - 1/3 - 1/3 - 1/3 - 1/3 1/3 - 1/3 1/3 - 1/3 - 1/3 1/3 - 1/3
1/3 - 1/3
0 - 2/3
Come si vede i fattori sono parzialmente confusi con tutte le interazioni che non contengono i fattori in questione mentre gli ultimi 6 contrast della matrice X1 rappresentano la somma di tute le interazioni pesate per (1/3) o (2/3) : non credo che possano essere di interesse, ecco perch ritengo che i piani non geometrici PB sono non ortogonali secondo la mia definizione del par. 5.1. Daniel (1976) riferisce che il piano di
Il lettore pu verificarlo rendendo diverse le numerosit dei 12 stati, cambiando dunque le matrici X1 e X2; riotterr la stessa matrice degli alias. 203
102
Plackett-Burman a 12 stati ha sempre una struttura degli alias simile a quella sopra, qualunque sia il numero di fattori, anche 11 (saturated design). Per non specifica un punto importante ovvero che la struttura degli alias sopra presuppone la mia definizione di effetto e di alias deriva da un particolare modello in cui si sono usati 11 contrast ortogonali (1) Y = I + A + B + C + D + E + ?1+ ?2 + ?3 + ?4 + ?5 + ?6
e se si usa un altro modello, pi intelligente, che magari isoli le interazioni che pi interessano allo sperimentatore, al posto di sprecare 6 gradi di libert per testare dei contrast strani? ovvio che in questo modo si rinuncia allortogonalit dei contrast ma almeno si testano delle cose interessanti. Si otterrebbe una diversa struttura degli alias...ecco che riscopriamo una cosa molto interessante: usando il metodo BW, la struttura degli alias dipende dal modello con il quale si elaborano i dati; questo un punto importante che Fornasieri (1995) non esplicita nella sua tesi, credendo che il modello (1) sia quello giusto, lunico che si possa o si debba usare: questo porta Fornasieri fuori strada perch, anche quando esamina le frazioni 5/8, 6/8 e 7/8, cerca il modello giusto e non lo trova. Nei prossimi paragrafi, riprendendo le frazioni studiate nei par. 5.4 e 5.5, vediamo i problemi che ha incontrato Fornasieri. 8.5.2 FRAZIONI IRREGOLARI: 3/8 Questa frazione non stata studiata da Fornasieri. Il piano il seguente: bc
abc
c b
ac ab a
i
Figura 23: frazione irregolare 3/8
Se mi interessano i 2 fattori A e B, devo usare il modello ridotto Y=I+A+B quindi la matrice X1 la seguente:
I 1 1 1 A -1 1 -1 B -1 1 1
204
i ab bc
i ab bc
I A B
I-C+AB-ABC A+AB-C-BC B-AB+C-AC che conferma la struttura degli alias che abbiamo trovato nel par. 5.5.1; se si scrivesse la matrice dei contrast (X1T*X1)-1*X1T si vedrebbe che i 3 alias corrispondono a quelli di tab.20 del par. 5.5.1, mentre dalla matrice (X1T*X1)-1 si vedrebbe che i 3 stimatori degli alias sono correlati. Abbiamo supposto che ci interessino A e B; e se ci interessano altri 2 elementi, ad esempio B e C? Dobbiamo usare il modello ridotto Y=I+B+C; le matrice X1 e X2 sono:
X1 i ab bc X2 i ab bc I B C
1 1 1
A
-1 1 1
AB
-1 -1 1
AC BC ABC
-1 1 -1
1 1 -1
1 -1 -1
1 -1 1
-1 -1 -1
-1 1 -1
0 0 -1
0 -1 0
1 -1 1
-1 0 0
205
corrispondono a 3 degli alias che abbiamo gi trovato col ragionamento dei 3/4 di John. Non tutti modelli sono ammissibili, nel senso che alcuni danno luogo a una matrice (X1T*X1)-1 non invertibile; ci accade quando gli elementi che lanalista vuole che non si confondano non sono separabili per quel particolare piano. Ad esempio se per questo piano lanalista volesse conoscere C e AB (nel senso che non siano confusi fra di loro), troverebbe che i 2 elementi non possono appartenere a 2 alias diversi e la matrice (X1T*X1)-1 del modello ridotto Y=I+C+AB risulterebbe non invertibile: provare per credere. Il metodo BW per trovare la struttura degli alias quindi molto potente; dati 1. un insieme di stati di prova (piano sperimentale) 2. un insieme di elementi103 che lo sperimentatore non vuole che si confondano fa loro il metodo calcola (se possibile) la struttura degli alias che soddisfa le esigenze dello sperimentatore; le stime degli alias si trovano nel vettore (X1T*X1)-1*X1T*Y mentre la matrice (X1T*X1)-1 ci indica le varianze e covarianze fra gli stimatori degli alias che ci interessano. Se gli elementi che interessano allo sperimentatore non sono separabili, applicando il metodo BW troviamo la matrice (X1T*X1) non invertibile. 8.5.3 FRAZIONI IRREGOLARI: 5/8 Riprendiamo il piano del par.5.5.2, studiato da Fornasieri (1995):
bc
abc
c b
ac a
In numero pari a quello degli stati di prova: ovvio che lo sperimentatore con 3 stati di prova non pu pretendere di conoscere 8 elementi; al massimo pu conoscerne 3 (di cui uno riguarda la media I) e ricordarsi che non sono gli effetti puri ma alias che confondono gli effetti che vuole conoscere con altri che egli non ritiene importanti (ma che potrebbero anche esserlo). 206
103
Se ci interessano gli elementi A, B, C e AB, usiamo il modello ridotto Y=I+A+B+C+AB, che ha le seguenti matrici X1 e X2:
X1 i b ab ac bc I A B AB C
1 1 1 1 1
-1 -1 1 1 -1
-1 1 1 -1 1
1 -1 1 -1 -1
-1 -1 -1 1 1
X2 i b ab ac bc
AC
BC
ABC
1 1 -1 1 -1
1 -1 -1 -1 1
-1 1 -1 -1 -1
-0 0 -1 -1 -1
0 -1 0 1 1
-1 0 -0 -1 -1
I-ABC A-BC B-AC AB - AC + BC - ABC C-AC+BC-ABC e conferma la struttura degli alias gi trovata nel par.5.5.2; la matrice (X1T*X1)-1*X1T confermerebbe la tabella 21 del paragrafo citato, dove si indicavano i coefficienti dei contrast per trovare i 5 alias sopra. Il lettore avr ormai capito che quella ottenuta sopra una delle tante strutture degli alias che si possono avere per questo piano, a seconda del modello ridotto che uso, che, a sua volta, dipende dalle esigenze dello sperimentatore.
207
Fornasieri (1995) non si rende conto di questo fatto, credendo che debba esistere ununica struttura degli alias per un piano sperimentale. Questa errata convinzione la porta ad usare un modello con solo 4 parametri (non saturated): Y = I+A+B+AB, che fornisce la seguente struttura degli alias: I - (1/4)C + (1/4)AC - (1/4)BC - (3/4)ABC A + (1/4)C - (1/4)AC - (3/4)BC - (1/4)ABC B - (1/4)C - (3/4)AC - (1/4)BC + (1/4)ABC AB - (3/4)C - (1/4)AC + (1/4)BC - (1/4)ABC La struttura degli alias per quel modello ridotto calcolata correttamente (solo se la numerosit delle celle costante) per prima di usare lapproccio di Fornasieri, conviene meditare sui seguenti problemi: con 5 stati di prova mi accontento di stimare 4 alias .... allora tanto vale fare solo 4 stati di prova in cui almeno la struttura degli alias semplice usando solo 4 parametri non si ottengono comunque 4 alias ortogonali; basta guardare la matrice delle covarianze (X1T*X1)-1:
I I A B AB A B AB
1/32 - 1/32
gli alias contengono effetti con coefficienti frazionari: questo complica lanalisi, soprattutto se un effetto escluso dal modello ridotto in realt significativo se le numerosit degli stati fossero diverse non si otterrebbero pi i 4 alias sopra ma altri 4 mentre se si usa un numero di parametri pari a quelli degli stati di prova, la struttura degli alias fornita dal modello non cambia; purtroppo Fornasieri non si preoccupa mai delle numerosit degli stati; io ho provato a replicare una volta lo stato i e 2 volte lo stato bc; ho ottenuto la seguente struttura degli alias, diversa dalla precedente:
C I A B AB AC BC ABC
Tabella 93: matrice degli alias per frazione 5/8 non saturated, con numerosit diverse 208
in ogni caso resta il problema che, per avere i 4 alias della tabella 26, tanto vale sperimentare solo i 4 stati di prova (i, ab, ac, bc) e avere i 4 alias senza coefficienti frazionari: I-ABC A-BC B-AC C-AB Se invece si usa un numero dei parametri pari a quello degli stati di prova, come ho fatto io, si vede che la situazione migliora perch riesco a non confondere 5 elementi di interesse per lo sperimentatore. 8.5.4 FRAZIONI IRREGOLARI: 3/4 (JOHN) Riprendiamo il piano sperimentale del par. 5.4, quello usati nel caso Iveco (cap.10):
bc
abc
c b
ac ab
i
Figura 25: 3/4 di John
Come negli altri casi, prima di applicare il metodo BW, bisogna far capire allo sperimentatore che, avendo 6 stati di prova, pu stimare 6 quantit che non rappresentano pi 6 degli 8 effetti puri che si avrebbero avuti con il piano completo ma sono distorte dagli effetti che lui decider essere trascurabili. Ad esempio, se lo sperimentatore decide che le interazioni AC e ABC sono trascurabili, usiamo il modello Y = I+A+B+C+AB+BC, che ha le seguenti matrici X1 e X2 (se la numerosit costante):
X1 i b c ac bc abc X2 I A B C AB BC
1 1 1 1 1 1 AC
-1 -1 -1 1 -1 1 ABC
-1 1 -1 -1 1 1
-1 -1 1 1 1 1
1 -1 1 -1 -1 1
1 -1 -1 -1 1 1
209
i b c ac bc abc
1 1 -1 1 -1 1
-1 1 1 -1 -1 1
I A B C AB BC
Conferma quella trovata nel par. 5.4 e anche la matrice (X1T*X1)-1*X1T conferma i contrast della tab.19; come detto, la struttura degli alias indipendente dalla numerosit degli stati di prova. Se ci interessano 5 effetti diversi da quelli sopra, otteniamo altri alias, sempre fra i 12 elencati nel par. 5.4; alcuni set di effetti restano inseparabili ad esempio I, A, B, C, AB, AC. Il modello ridotto Y = I+A+B+C+AB+AC d luogo a una matrice (X1T*X1) non invertibile: provare per credere. In particolare si trova che, se vogliamo mantenere la risoluzione IV (fattori e interazioni del primo ordine non confusi fra di loro) lunico modello possibile quello che abbiamo usato per la struttura degli alias di tab.29, ovvero quello che esclude AC e ABC. Il fatto che il metodo di Box-Wilson, che deriva dalle equazioni normali, confermi i 3/4 di John, legittima lidea di considerare le frazioni irregolari come intersezione di frazioni regolari. Fornasieri (1995) esamina i piani a 6 stati ma di nuovo mette solo 4 parametri nel modello (non saturated), ottenendo quindi solo 4 alias con coefficienti frazionari: per un tale approccio valgono tutte le critiche fatte nel paragrafo precedente pi unaltra, visto che lautrice citata usa 2 modelli diversi ottenendo quindi 2 set diversi (anche se di struttura simile) di 4 alias ciascuno; da questo avrebbe dovuto capire che la struttura degli alias varia con il modello usato per elaborare i dati.
210
8.5.5 FRAZIONI IRREGOLARI: 7/8 Riprendiamo il piano sperimentale del par. 5.5.3, studiato anche da Fornasieri (1995):
bc c b ac
abc
ab a
i
Figura 26: frazione 7/8
Si possono stimare 7 alias e lelemento naturale da trascurare ABC104 per cui il modello ridotto Y=I+A+B+C+AB+BC+AC Il lettore ha ormai capito come si scrivono le matrici X1 e X2 dunque scrivo direttamente la matrice degli alias (X1T*X1)-1*X1T*X2:
ABC -1 1 1 -1 -1 1 1
I A B C AB AC BC
non pu che confermare la struttura degli alias (risoluzione IV) vista gi nel par. 5.5.3; notiamo che Daniel (1976) a pag.65, pur non formalizzando il problema della frazione 7/8 come ho fatto io, giunge in maniera implicita alla stessa struttura degli alias. I 7 alias utilizzano solo 4 dei 7 stati di prova come si vede dalla matrice (X1T*X1)-1* X1T:
i 1/4 - 1/4 - 1/4 0 1/4 0 a 0 1/4 0 - 1/4 - 1/4 0 b 0 0 1/4 - 1/4 - 1/4 1/4 ab 1/4 0 0 0 1/4 - 1/4 ac 1/4 0 - 1/4 1/4 0 0 bc 1/4 - 1/4 0 1/4 0 - 1/4 abc 0 1/4 1/4 0 0 1/4
I A B C AB AC
104
BC
1/4
- 1/4
- 1/4
1/4
La tabella 27 lequivalente della tab.22 del par. 5.5.3; nessun alias utilizza gli stessi stati di prova di un altro e gli stimatori degli alias sono tutti correlati, come si pu vedere dalla matrice (X1T*X1)-1:
I 1/4 - 1/8 - 1/8 1/8 1/8 - 1/8 - 1/8 A - 1/8 1/4 1/8 - 1/8 - 1/8 1/8 1/8 B - 1/8 1/8 1/4 - 1/8 - 1/8 1/8 1/8 C 1/8 - 1/8 - 1/8 1/4 1/8 - 1/8 - 1/8 AB 1/8 - 1/8 - 1/8 1/8 1/4 - 1/8 - 1/8 AC - 1/8 1/8 1/8 - 1/8 - 1/8 1/4 1/8 BC - 1/8 1/8 1/8 - 1/8 - 1/8 1/8 1/4
I A B C AB AC BC
Fornasieri (1995) continua a usare solo 4 parametri anche per questo piano; ottiene 4 alias con coefficienti frazionari: come al solito sono calcolati correttamente ma servono a poco come detto nei paragrafi precedenti e soprattutto non fanno capire il miglioramento che si avuto nel passare da 4 stati di prova a 7, ma 7 stati di prova sono indubbiamente meglio di 4 dunque il miglioramento deve esserci (principio F1). Finora abbiamo sempre accettato la non ortogonalit ovvero la correlazione fra gli stimatori degli effetti (puri nei piani completi e aliased in quelli ridotti) che ci interessano; a volte ci pu essere fatto e a volte no: bisogna in qualche modo misurare la non ortogonalit del piano sperimentale.
(x
j
2 * Rii 1
ij
xi
(1 R ) * ( x
2
2
j
ij
xi
dove la sommatoria estesa a tutti i valori di xi presenti nella matrice X; Rii-1 li-mo elemento diagonale dellinversa della matrice di correlazione mentre Ri il coefficiente di correlazione multipla dello stimatore bi con gli altri stimatori. Se il piano ortogonale la matrice di correlazione ortogonale e dunque Ri = 0 e -1 Rii = 1 i. Man mano che cresce la correlazione di bi con gli altri stimatori, la varianza di bi aumenta, come abbiamo gi detto altre volte: ora siamo in grado di quantificare questo aumento della varianza dello stimatore, dato da Rii-1 che Marquardt (1970) chiama Variance Inflation Factor (VIFi) dello stimatore bi e che dunque li-mo elemento diagonale dellinversa della matrice di correlazione.
VIFi = Rii-1 = 1 / (1-Ri2)
Il VIF misura direttamente laumento della varianza degli stimatori, causato dalla non ortogonalit. Da ci che abbiamo detto, quando il piano ortogonale VIFi = 1 i, dunque 1 il limite inferiore per il VIF. Marquardt (1970) afferma che, quando il VIF supera il valore 10, meglio cancellare dei parametri dal modello (accettando la distorsione) o non usare pi i minimi quadrati, ma altri metodi. Snee (1973) dice di poter accettare la non ortogonalit quando il VIF si mantiene al di sotto di 4. In ogni caso bisogna considerare anche il residuo 2: se molto piccolo, si possono accettare anche dei grandi VIF (fino a 100, Snee 1973); bisogna dunque sempre considerare tutti gli elementi che determinano lampiezza dellintervallo di fiducia dello stimatore bi. Notiamo che il VIF, derivando dalla matrice di correlazione, non dipende dalla numerosit dei dati ma solo dalla struttura del piano sperimentale. Dalla matrice di correlazione R si possono estrarre altre informazioni Se il piano ortogonale, det(R) = 1 tr (R-1) = p gli autovalori i di R sono tutti uguali a 1 e dunque min/max = 1 dove p il numero dei parametri del modello. Con un piano non ortogonale det(R)<1 tr (R-1) > p gli autovalori di R possono essere molto grandi quindi min/max < 1; se min/max << 1 allora la matrice R (e di riflesso anche XT*X) mal condizionata: possono esserci dei
213
problemi di calcolo numerico delle stime dei parametri che in effetti ho riscontrato personalmente anche con Excel che lavora con 15 cifre decimali (pu capitare che inverta una matrice non invertibile). A parte un fattore di scala, gli autovalori di R sono collegati a quelli di (XT*X)-1 e Hoerl e Kennard (1970) riportano una propriet che collega il mean squared error degli stimatori b delle equazioni normali e tali autovalori:
MSE(b) = E[(b-)T*(b-)] = tr[(XT*X)-1]2 + (b-E(b))T*(b-E(b))
essendo gli stimatori delle equazioni normali BLUE il secondo termine dellespressione nullo.
MSE(b) = tr[(XT*X)-1]2
i =1
Se il piano molto non ortogonale max >>1 e dunque MSE(b)>>0; ecco perch le stime ottenute possono esse molto lontane dai parametri reali; la non ortogonalit aumenta media e varianza della distanza [(b-)T*(b-)] fra gli stimatori e i parametri veri. Cosa si pu fare quando la non ortogonalit rende prive di senso le stime ottenute con i minimi quadrati? Si possono eliminare dei termini dal modello oppure si pu usare la ridge regression. Questo metodo discusso in gran dettaglio da Hoerl e Kennard (1970) e Marquardt (1970) e consiste nellaggiungere una piccola quantit k agli elementi diagonali della matrice XT*X cos che gli stimatori non sono pi: b = (XT*X)-1*XT*Y ma: b = ( XT*X + k*I )-1 * XT * Y essi sono distorti ma k scelto in modo da rendere la matrice (XT*X + k*I) ben condizionata, e quindi da stabilizzare la grandezza degli autovalori per ridurre MSE(b). In
214
Marquardt (1970) spiegato un altro metodo, Generalized Inverse, che porta sempre a degli stimatori distorti ma che diminuiscono MSE(b). Un altro metodo alternativo ai minimi quadrati spiegato in Gunst et al. (1976) e si chiama Latent root regression e lobiettivo sempre lo stesso: ridurre MSE(b) a spese della non distorsione. Io non mi occupo di questi metodi alternativi ai minimi quadrati ma penso che varrebbe la pena studiarli visto che gli studiosi citati (Marquardt, Gunst, Hoerl e Kennard) li hanno applicati a problemi reali mal condizionati (alta non ortogonalit, misurata ad esempio col VIF) e hanno verificato e dimostrato teoricamente la superiorit delluso di stimatori leggermente distorti ma che riducono molto lerrore quadratico medio MSE(b). 8.6.1 MISURIAMO LA NON ORTOGONALIT DEGLI ESEMPI FATTI gi capitato negli esempi fatti che gli stimatori che raccomandavo di usare erano correlati; ora siamo in grado di vedere se potevamo effettivamente trascurare la correlazione oppure no; in questa analisi user solo il VIF ma come abbiamo visto sarebbe opportuno studiare anche i determinanti, le tracce, gli autovalori (e anche gli autovettori, vedi Gunst et al. 1976, Hahn et al. 1976) della matrice di correlazione. Nellesempio macchina-operatore, la matrice delle covarianze quella di tabella 8:
I I M O MO M O MO
Per passare alla matrice di correlazione, basta dividere le covarianze per gli s.q.m degli stimatori; si ottiene R:
I I M O MO M O MO
la cui inversa :
I I M O MO M O MO
1,09375 -0,15625 -0,15625 -0,15625 -0,15625 1,09375 -0,15625 -0,15625 1,09375 -0,15625 1,09375
215
-0,15625 -0,15625
si vede che il VIF dei 3 stimatori M, O, MO vicinissimo a 1 dunque possiamo tranquillamente trascurare la non ortogonalit del piano macchina - operatore; la tabella 5 del par.5.2.1 che faceva lANOVA sui contrast corrispondenti agli stimatori M, O, MO pu quindi considerarsi corretta in quanto le somme dei quadrati rispecchiano quasi del tutto leffettiva variabilit dei 3 stimatori usati. Per quanto riguarda lesempio con 3 fattori, la matrice delle covarianze quella della tab.21.del cap.8
I I A B AB C AC BC ABC A B AB C AC BC ABC
Il VIF di nuovo piccolissimo per tutti gli stimatori, dunque legittimata lANOVA fatta nella tab.12 del par. 5.2.3. Esaminiamo infine qualcuna delle frazioni irregolari del par.8.5: in quella sede abbiamo sempre scritto le matrici come se ci fosse un solo dato negli stati di prova; questo non un problema perch la matrice di correlazione R (e dunque il VIF) indipendente dalla numerosit degli stati di prova, purch questa sia costante: se varia, cambia la struttura del piano e quindi R. Prendiamo ad esempio il piano a 5 stati del par. 8.5.3:
bc
abc
c b
ac ab
I A B AB C
dove sappiamo che, i 5 stimatori sopra non stimano gli effetti puri ma gli alias indicati nel par. 8.5.3. Il coefficiente di correlazione fra lo stimatore dellalias di AB e quello di C abbastanza elevato (3/4) quindi bisogna stare attenti nelluso di un simile piano, anche se i VIF dei 2 stimatori non sono particolarmente elevati (5/2), come si vede da R-1:
I 1,25 -0,25 0,25 -0,35355 -0,35355 A -0,25 1,25 -0,25 0,35355 0,35355 B 0,25 -0,25 1,25 -0,35355 -0,35355 AB -0,353553 0,353553 -0,353553 2,5 -1,5 C -0,354 0,3536 -0,354 -1,5 2,5
I A B AB C
217
Per quanto riguarda il piano a 7 stati del par. 8.5.5, si vede che i coefficienti ci correlazione fra gli stimatori dei 7 alias sono tutti uguali a 0,5 e i VIF tutti uguali a 1,75 dunque, seguendo i valori limite indicati da Marquardt (1970) e Snee (1973), anche in questo caso possiamo trascurare la non ortogonalit. Non scrivo pi le matrici di correlazione e linversa: il lettore ha ormai capito come si ricavano, dunque pu verificare i valori che ho dato sopra; pu altres verificare che per il piano a 3 stati (par. 8.5.2), a 6 stati (par.8.5.4), e il piano di Webb a 6 stati (par. 5.4.1), quando la numerosit costante, i VIF degli stimatori degli alias (sono tutti piani ridotti) sono sempre uguali a 1,5 quindi si pu trascurare la non ortogonalit specie se riusciamo a ottenere un residuo molto basso cos da restringere lintervallo di fiducia per gli stimatori degli alias
In Searle (1987) sono riportati altri 3 metodi che elenco; weighted least squares (WLSE) o generalized least squares, che introduce una matrice W con cui pesare i parametri: si minimizza allora [(Y-X*b)T*W*(Y-X*b)] ottenendo:
WLSE(b) = (XT*W*X)-1*XT*W*Y
Se si abbandona lipotesi di varianza costante per tutti gli stati di prova, dobbiamo introdurre la matrice delle varianze e covarianze delle Y negli stati di prova, VAR(Y) = V; in questo caso gli stimatori best linear unbiased (BLUE) sono:
BLUE(b) = (XT*V-1*X)-1*XT*V-1*Y
Se inoltre si conosce la distribuzione delle Y, si pu usare il metodo maximum likelihood (MLE); se il vettore stocastico Y segue una normale con media X* e varianza V:
MLE(b) = (XT*V-1*X)-1*XT*V-1*Y
come si vede uguale a BLUE(b). evidente che se in WLSE(b) si pone W=V-1, WLSE(b)=BLUE(b). Se si assume la varianza delle Y costante, V=I*2, OLSE, MLSE, BLUE e MLE (con lipotesi di normalit) sono uguali. Infine Searle (1987) riporta che il
218
metodo dei minimi quadrati classico (OLSE) e quello BLUE portano agli stessi risultati quando esiste una matrice Q tale che:
V*X = X*Q (anche se V singolare)
Quando si usa un modello non full-rank, nelle formule di questo paragrafo, al posto delle inverse si usano le inverse generalizzate.
8.8 CONCLUSIONI
Il vasto contenuto del capitolo dovrebbe orami aver convinto il lettore della grande potenze del metodo full-regression in confronto a quello sovraparametrizzato. Il fatto che la matrice (XT*X) invertibile solo uno dei tanti vantaggi; il vettore degli stimatori b contiene direttamente le stime degli effetti (o degli alias se il modello ridotto) che ci interessano; con il metodo di Box-Wilson stabiliamo la distorsione degli stimatori che abbiamo usato per gli effetti aliased; dalla matrice (XT*X)-1 indaghiamo la correlazione fra gli stimatori e misuriamo la non ortogonalit del piano con il VIF: se troppo elevata eliminiamo alcuni termini dal modello; dalla matrice (XT*X)-1*XT vediamo qual il contrast che stiamo testando, anche quando si usano dei modelli ridotti per diminuire la non ortogonalit. Il modello full-regression fornisce gli stessi risultati dellanalisi dei contrast per come detto aggiunge molte pi informazioni. Quali sono le possibili limitazioni di un tale modello? presuppone le mie definizioni di effetto e di alias (par.4.8) che ribadisco, in generale sono le pi logiche perch tengono conto di tutta la stratificazione fatta, pesando ugualmente le medie degli stati di prova. Comunque chi volesse usare altre definizioni pu usare il modello cell-means (equivalente allanalisi dei contrast) e costruirsi dei contrast che ritiene pi idonei a rappresentare effetti e interazioni dei fattori: non pu ovviamente sfruttare i vantaggi computazionali e di informazione del modello FR esposti sopra le matrici in gioco aumentano molto di dimensione, allaumentare del numero dei dati; se le numerosit sono uguali, si possono usare delle matrici semplificate, altrimenti no; questa una caratteristica in comune a tutti tipi di modello; con N fattori a K livelli si hanno KN parametri e un numero di alias stimabili pari al numero di stati di prova. se ci sono pi di 2 livelli, entra in gioco il problema della codifica: si possono usare i coefficienti dei polinomi ortogonali oppure coefficienti che rispecchiamo dei confronti fra gli stati di prova che ci interessano; nel cap.10, esaminando 2 casi presentati in Galetto (1995 e 1996) e un caso taguchiano presentato (pi volte) da Byrne e Taguchi
219
(1987) ed esaminato in modo errato da Galetto (1989), vedremo come si pu applicare il modello full-regression e il metodo di Box-Wilson a fattori con pi di 2 livelli. Uno dei vantaggi pi grossi la possibilit di sfruttare il metodo di Box-Wilson per esaminare la struttura degli alias di qualsiasi piano fattoriale, con qualunque numerosit degli stati. Nel prossimo capitolo vediamo come questo metodo ci consente di ottenere una teoria generale per gli alias.
220
CAPITOLO 9
La tesi di Fornasieri (1995) uno dei pochi riferimenti (per quanto ne so io) per le frazioni irregolari; il lettore ricorder che nei capitoli precedenti ho spesso criticato lapproccio di Fornasieri al problema della non ortogonalit; per almeno ha provato a studiare il problema quindi il suo lavoro deve comunque essere tenuto in considerazione. E la tesi di Fornasieri pone un problema, gi accennato nel cap.8, a cui bisogna dare risposta: Partendo dal piano ridotto regolare (I-ABC) e dal conseguente modello: (1) Y=I+A+B+AB aggiunge degli stati di prova, arrivando alle frazioni irregolari 5/8, 6/8, 7/8. Il problema di Fornasieri che, allaggiunta di uno stato, non sa quale parametro aggiungere nel modello (1), perch laggiunta di un parametro modifica gli alias ottenuti applicando il metodo BW al modello (1). Invece logico che si modifichi perch gli stimatori dei 4 alias sono correlati, basta guardare la matrice (XT*X)-1. Il problema di Fornasieri nasce principalmente dal fatto di non aver definito chiaramente i concetti base con cui ella opera: effetto, alias, struttura degli alias. Nel capitolo 8 il lettore abituato a ragionare sui piani regolari, pu essere rimasto stupito dal fatto che per uno stesso piano si ottenevano diverse strutture degli alias a seconda del modello che si usava: questo fatto deve essere giustificato e soprattutto bisogna capire il rapporto fra le varie strutture degli alias. I 3 problemi sono correlati fra di loro e vanno comunque risolti. La prima cosa da fare definire gli oggetti matematici principali.
C =
c
i =1
2n
* i
c
i =1
2n
=0
Il contrast, essendo una combinazione lineare di parametri, egli stesso un parametro caratteristico del fenomeno sotto indagine: a noi interessa scoprire se significativamente diverso da zero. La definizione di contrast di Galetto (1995 e 1996)
222
sbagliata, e cos la condizione di ortogonalit e dei contrast e la loro somma dei quadrati, come spiegato nel par. 4.2. Notiamo che i contrast sono definiti indipendentemente dalle equazioni normali (metodo G); il teorema di Gauss-Markov introduce le funzioni stimabili ovvero qualsiasi combinazione lineare delle medie: allora per definizione si ha che ogni contrast una funzione stimabile ma non tutte le funzioni stimabili sono contrast. Gli stimatori C dei contrast C* possono essere espressi in forma di totali e medie degli stati di prova, o dei singoli dati; usiamo la forma che preferiamo purch stiamo attenti ad avere uno stimatore corretto. Dalla non correlazione fra gli stimatori C deriva la condizione di ortogonalit dei contrast Dallipotesi nulla che E(C)=0, deriva la somma dei quadrati associata al contrast
EFFETTO Il termine effetto pu essere riferito alla media I, a un fattore o interazione. Leffetto della media , per n fattori a 2 livelli:
I = k* j
*
j =1
2n
evidente che una funzione stimabile, ma non un contrast. Leffetto di un fattore la sommatoria delle medie degli stati in cui il fattore al livello alto meno quella delle medie degli stati in cui il fattore al livello basso. Ei = k* bij* j
*
j =1
2n
Leffetto di un interazione fra i fattori 1,2....t rappresentati dagli effetti E1, E2...Et, :
E
*
12 ...t
t = k* bij * j j = 1 i =1
2n
Gli effetti di fattori e interazioni sono dei contrast. Avr ripetuto almeno una decina di volte che la costante k, se influenza il valore assoluto del contrast (della sua stima e della varianza dello stimatore), non modifica la sua somma dei quadrati e quindi lanalisi di significativit del contrast non cambia. Nel capitolo precedente abbiamo visto che i parametri del modello full-regression sono gli effetti, definiti come sopra, ponendo k=(1/2n) quindi visto che: si pu usare un k qualsiasi la mia teoria sugli alias si basa sulluso del modello full-regression
223
j =1
Allalias pu essere associato un vettore (i1, i2, .... in) le cui componenti sono gli ij. Un effetto puro un alias particolare in cui ij relativo alleffetto uguale a 1 e tutti gli altri ij sono nulli: agli effetti sono dunque associati dei vettori unitari. Notiamo che per definizione gli alias sono una trasformazione lineare delle funzioni stimabili. Nei piani frazionati gli effetti puri non sono pi stimabili ma lo sono alcune loro combinazioni lineari, gli alias, come stato chiarito nel cap.4. Il problema degli alias quindi un problema di distorsione, non di correlazione, degli stimatori del modello full-regression105. Il concetto di alias come combinazione lineare degli effetti. non in contrasto con la classe di equivalenza di Galetto (1995 e 1996): semplicemente ne rappresenta unevoluzione perch la classe di equivalenza dice che gli effetti sono confusi ma non dice in che modo ovvero quale funzione lega gli effetti nella classe di equivalenza. Il mio concetto di alias dice che la funzione che lega gli effetti lineare e questa affermazione stata verificata anche numericamente nel cap.4. Gli alias sono dei contrast a meno che il coefficiente ij relativo alla media, non sia diverso da zero; ad esempio lalias I*+ABC* non un contrast perch compare la media I* mentre lalias A*+BC* un contrast. E importante notare che, dato un Alias, trovo immediatamente il contrast corrispondente, mentre non vero il contrario: nel solito esempio a 3 fattori, dato A*-BC*, so che corrisponde al contrast (1/23) * (110 + 101 +011 +000) * 2 basta sviluppare gli effetti A* e BC* in contrast; mentre non so a quale alias possa corrispondere, ad esempio, il contrast: 4110 + 5100 - 9111 + 4010 - 6000 + 2011
Questa affermazione subordinata alle definizioni che ho dato. Nel par. 9.7 spiegher che gli alias possono anche essere considerati un problema di correlazione, se si cambia la definizione di effetto. 224
105
Dato un piano sperimentale, alcuni alias sono stimabili, altri no; questo ci porta alla prossima, importantissima, definizione.
STRUTTURA DEGLI ALIAS La struttura degli alias di un dato piano sperimentale linsieme di tutti gli alias stimabili per quel piano. Dunque abbandono la definizione classica di struttura degli alias che la vuole composta da un numero finito di termini; peraltro il concetto classico di struttura degli alias si rivela inadeguato nello studio di piani irregolari (Plackett-Burman, 3/4 di John, 3/8...), come abbiamo ampiamente visto nei cap.5 e 8. La struttura degli alias non quindi un insieme finito ma infinito. Di che genere? Lo vediamo nel prossimo paragrafo in cui abbandono la restrizione dei 2 livelli, per fare una trattazione generale; bisogna per stare attenti alle definizioni di effetto per pi livelli: se la variabile quantitativa, uso i coefficienti dei polinomi ortogonali che hanno limportante propriet di rendere le componenti degli effetti algebricamente ortogonali nello spazio dei contrast106. se qualitativa i coefficienti dei polinomi ortogonali potrebbero non testare dei contrast interessanti quindi bisogna costruirsi dei contrast appositi; luso del modello fullregresson in questo caso da verificare.
a
j =1
Si stimano dunque k effetti. Gli alias stimabili coincidono con i k effetti. Gli alias sono identificati univocamente dagli ij che formano un vettore di dimensione k; considerando gli alias come vettori abbiamo che:
i vettori associati alla struttura degli alias del piano di riferimento formano uno spazio vettoriale dotato di prodotto scalare di dimensione pari a k. La base canonica di tale spazio vettoriale linsieme dei vettori associati agli effetti, ordinati secondo lordine canonico o di Yates ed quindi la base canonica di k.
106
Consideriamo ora il piano sperimentale effettivo in cui non detto che si sperimentino tutti i k stati di prova: nel piano effettivo si hanno p ( k) stati di prova. Se p=k, il piano effettivo e quello di riferimento coincidono dunque il piano effettivo completo. Se p<k abbiamo un piano ridotto e
i vettori associati alla struttura degli alias del piano ridotto formano un sottospazio vettoriale della struttura degli alias del piano di riferimento sullinsieme dei numeri reali di dimensione pari a p
Una base di tale sottospazio si trova con il metodo di Box-Wilson applicato a un modello con un numero di parametri pari a p. Modelli diversi danno basi differenti. Nei piani regolari la scelta della base pi idonea (interessante per lo sperimentatore) evidente; nei piani irregolari dipende dalle esigenze dello sperimentatore. La base trovata in questo modo indipendente dalla numerosit degli stati di prova. Se i parametri del modello (in numero pari a p) sono reali e non fittizi, come accadeva nei piani non geometrici di Plackett-Burman (dove, per mantenere lortogonalit dei contrast, ho messo nel modello dei parametri che non rappresentavano nessun fattore o interazione noti, par. 8.5.1), con 3 fattori ho visto che i coefficienti (ovvero gli elementi dei vettori base) degli alias ottenuti col metodo BW sono in modulo uguali a 1; ma questa non una situazione generale, nemmeno per i piani a 2 livelli, infatti nella frazione non geometrica 12/32 di Plackett-Burman (par. 9.5) la base presenta dei coefficienti frazionari, anche maggiori di 1. 9.3.1 DIMOSTRAZIONE Il teorema 2 del cap.7 dice che esistono tante funzioni stimabili linearmente indipendenti quanti sono gli stati di prova dunque i vettori associati alle funzioni stimabili generano uno spazio vettoriale di dimensione pari a p. In generale si dimostra facilmente che linsieme degli alias non nientaltro che un isomorfismo dellinsieme delle funzioni stimabili dunque in un piano con p stati di prova, esistono p alias indipendenti e i vettori associati a quegli alias (struttura degli alias) generano uno spazio vettoriale, ovviamente di dimensione p. Dimostriamo lisomorfismo107 fra funzioni stimabili e alias ovvero che a una funzione stimabile corrisponde uno e un solo alias.
Ricordo che lisomorfismo indica la corrispondenza biunivoca fra 2 insiemi (in questo caso lo spazio delle funzioni stimabili e quello degli alias) sui quali definita unapplicazione lineare (in questo caso abbiamo detto che gli alias, per costruzione, rappresentano una trasformazione lineare delle funzioni stimabili). Per dimostrare lisomorfismo quindi sufficiente dimostrare la corrispondenza biunivoca. 226
107
F * h = hi * i A * i = ij * E * j
j =1 k i =1 k
E * j = b jt * t
t =1
dove ho inglobato in bjt la costante moltiplicativa e la produttoria dei coefficienti nel caso di effetti delle interazioni. Le sommatorie si estendono alla produttoria k del numero dei livelli dei fattori: k=
a
j =1
Dato un alias, esso corrisponde a una sola funzione stimabile; infatti dato: k k k k k * * A 1 = 1 j * E j = 1 j * b jt * t = 1 j * b jt * t t =1 t =1 j = 1 j =1 j =1
che ha: k 1t = 1 j * b jt j =1
Data una funzione stimabile
F *1 = 1t * t
t =1
A * 1 = 1 j * E * j
j =1
avremmo che :
k k k k k A *1 = 1 j * E * j = 1 j * b jt * t = 1 j * b jt * t t =1 j = 1 t =1 j =1 j =1 k k k k k A * 2 = 2 j * E * j = 2 j * b jt * t = 2 j * b jt * t t =1 j = 1 t =1 j =1 j =1
k k 1t = 1 j * b jt = 2 j * b jt j =1 j =1
per t=1,2,...k
Quello sopra rappresenta un sistema di k equazioni indipendenti nelle k incognite (1j - 2j), con termine noto il vettore nullo, la cui soluzione : (1j - 2j) = 0 1j = 2j per j=1,2...k dunque:
A*1 = A*2 quindi a una funzione stimabile corrisponde uno e un solo alias C.V.D. Dal teorema 2 del cap.7 segue che in un piano con p stati di prova, vi sono dunque p alias indipendenti.
9.3.2 OSSERVAZIONI Notiamo che in questo capitolo parliamo di indipendenza vettoriale in senso algebrico; lindipendenza (ortogonalit) statistica invece legata alla correlazione fra gli stimatori dei contrast, ovvero allortogonalit dei contrast; per verificare lortogonalit statistica bisogna per forza ragionare sui contrast: questo non un problema perch, applicando il metodo BW, la correlazione fra gli stimatori si vede subito dalla matrice (X1T*X1)-1. Lo spazio vettoriale che ho introdotto dotato di prodotto scalare, dunque si pu parlare anche di ortogonalit, in senso algebrico, nuovamente da non confondere con lortogonalit statistica; se lalias A1 calcolato usando un insieme U degli stati, e lalias A2 usa un insieme V, due condizioni sufficienti a rendere A1 e A2 ortogonali algebricamente, sono: UVUV UV Un esempio del primo caso pu essere costituito dai 2 alias A-BC e B-AC; un esempio del secondo caso sono i 2 alias A+BC e A-BC. Questa propriet si mantiene ovviamente sui contrast (particolari funzioni stimabili) dato lisomorfismo fra alias e funzioni stimabili. Spero che sia chiaro che lortogonalit algebrica degli alias implica quella statistica (e viceversa) solo se la numerosit degli stati di prova costante. Se le numerosit sono diverse, i 2 tipi di ortogonalit non hanno alcun legame di implicazione causale comunque lortogonalit algebrica resta una propriet importante (par. 10.2). Lo spazio degli alias che ho introdotto si pu considerare una novit (per quel che ho letto io) anche se non rappresenta altro che una trasformazione del ben noto spazio vettoriale dei contrast (Fontana 1995); in Fontana (1995) per lo studio si limita ai piani ortogonali mentre la mia teoria sugli alias serve apposta a spiegare le situazioni non ortogonali, con lausilio del metodo BW, che Fontana non usa. Secondo me, la trasformazione contrast-alias che ho fatto utile perch penso che per lo sperimentatore sia pi facile ragionare sugli alias che sui contrast.
228
In ogni caso penso che il lettore non abbia problemi a passare dal mio spazio degli alias a quello dei contrast per il quale valgono le stesse nozioni di indipendenza e ortogonalit algebrica contrapposta allortogonalit statistica108. Il concetto di dimensione dello spazio pari al numero degli stati di prova non costituisce una novit visto che questo concetto deriva direttamente dal teorema 2 del cap.7 che ho preso da Mood e Graybill (1963) e che rientra comunque nellambito del teorema di Gauss-Markov, noto da anni e anni. Per un fatto che non viene puntualizzato nella letteratura DOE, come notano anche Pistone e Wynn (1996), The dimension of the vector space....is exactly equal to the number n of distinct points in our case the experimental design points....This important point does not seem to be stated explicitly in the statistical literature: in any particular problem we expect to find a maximal of n basis functions.... Utilizzando altri concetti, molto pi avanzati dei miei dal punto di vista algebrico, Pistone e Wynn sottolineano il fatto che con p stati di prova si stimano p quantit indipendenti. Il lavoro dei 2 studiosi citati utilizza dei concetti a me sconosciuti per ho capito poco del contenuto dellarticolo; da quel che dicono anche loro vogliono studiare piani irregolari ...algebraic geometry is the right framework for answering questions about confounding in general or certainly for problems which do not fall into a classical framework such as he theory of orthogonal fractions. Dunque sembrerebbe che Pistone e Wynn abbiano trovato una teoria per studiare i piani non ortogonali in modo indubbiamente pi elegante e formalizzato (anche se molto pi complicato) del mio; per mi sembra che negli esempi che i 2 studiosi fanno, siano trattati solo casi regolari, classici; inoltre, proprio in un esempio di questi, un piano 26-3 si dice: Only one interaction is estimable together with all main effects . (!!!!!!) Io invece ho detto e ripetuto che nei piani ridotti, anche se manca solo uno stato di prova, non si stimano pi gli effetti di fattori e interazioni ma solo delle loro combinazioni lineari, gli alias o le classi di equivalenza (come direbbe Galetto); evidente che Pistone e Wynn sono partiti da definizioni di effetto diverse dalle mie.
108
Approfondir questo discorso nel par. 10.2 in un esempio di ANOVA one-way a 5 livelli. 229
che generato dalla somma del secondo e dal terzo elemento della base con coefficienti 1 e 1/4. Dunque in questo piano la base potrebbe benissimo essere costituita dai vettori associati ai 4 alias: I-ABC A-BC A-BC+(1/4)B-(1/4)AC AB-C Perch ci non fatto nella pratica? 1. Perch lo sperimentatore sempre pi interessato alla prima base perch separa 3 effetti mentre la seconda no. 2. Perch i 4 alias della prima base sono ortogonali algebricamente e statisticamente se le numerosit degli stati sono uguali mentre ci non vero per i 4 alias della seconda base. Ecco perch nelle frazioni regolari immediata la scelta della base; se ci limitiamo alle frazioni regolari ammetto che serve a poco considerare la struttura degli alias associata a un sottospazio vettoriale. 9.4.1 FRAZIONE 3/8 Nel piano a 3 stati:
bc
abc
c b
ac ab
Nel par. 8.5.2 abbiamo studiato il piano, applicando il metodo BW ai 2 modelli Y=I+A+B Y=I+B+C trovando 2 strutture degli alias. La prima:
231
I-AC+AB-ABC A+AB-C-BC B-AB+C-AC e la seconda: I-A+BC-ABC B+A-AC-BC C-A-AB+BC Qualcuno pu essere stupito che ci siano 2 strutture degli alias; in realt se si pensa alla struttura degli alias come un insieme finito, la struttura degli alias dipende dal modello dunque ci sono tante strutture quanti i modelli che si possono costruire; ma se si accetta la mia definizione di sottospazio vettoriale non c nessun problema perch le strutture degli alias derivanti dal metodo di BW applicato a modelli diversi, costituiscono solo una base del sottospazio vettoriale degli alias stimabili. Prendiamo come base la prima: I-AC+AB-ABC A+AB-C-BC B-AB+C-AC in forma vettoriale, rispetto alla base del piano di riferimento completo 23: e1 = (1,0,0,1,0,-1,0,-1) e2 = (0,1,0,1,-1,0,-1,0) e3 = (0,0,1,-1,1,-1,0,0) La seconda struttura degli alias: I-A+BC-ABC B+A-AC-BC C-A-AB+BC rappresenta semplicemente un cambio della base: e1 = e1 - e 2 e2 = e2 + e 3 e3 = - e2 Chi vuole pu inventarsi dei dati per i 3 stati di prova e verificare, anche numericamente col modello full-regression, la dipendenza (esplicitata dal cambio di base sopra) delle stime dei 2 set di alias. Allora quale base conviene adottare (e conseguentemente quale set di alias indipendenti conviene stimare)? Come si era gi capito nei cap.5 e 8, dipende dalle esigenze dello sperimentatore e da quali elementi egli non vuole confondere fra di loro (in questo caso pu sceglierne solo 2): planned confounding...in which important effects
232
either are uncounfounded or are only confounded with effects that are believed to be negligible, is the basis for the statistical constructions of fractional factorial experiments (Mason et a1. 1989). Dunque in questo caso, come gi detto nel cap.8, se ci interessano A e B scegliamo la prima base, se ci interessano B e C scegliamo la seconda. 9.4.2 MET IRREGOLARE Quando si fraziona a met un piano, si possono prendere solo alcune met se si vuole avere un piano regolare con una certa defining relation; esistono per delle met irregolari che non derivano da ununica defining relation e che nessuno prende in considerazione, ad esempio:
bc
abc
c b
ac ab
i
Figura 28: 4/8 irregolare
Lanalista pu scegliere 4 effetti che non vuole confusi fra di loro, ad esempio I, A, B, AB ; di conseguenza usiamo il modello Y=I+A+B+AB, la cui matrice X1, se la numerosit degli stati costante, :
109
I i a b abc
AB
1 1 1 1
-1 1 -1 1
-1 -1 1 1
1 -1 -1 1
Applicando il metodo BW, si ha che la matrice di correlazione fra i 4 alias diagonale dunque il piano della figura 2 ortogonale.
Il lettore potrebbe obbiettare che questa una situazione irrealistica in quanto se interessano A,B,AB si potrebbe fare il piano regolare (i,a,b,ab) ma se per vincoli fisici lo stato ab non sperimentabile e lo invece lo stato abc, il piano diventa interessante. 233
109
I I A B AB
AB
0,25 0 0 0
0 0,25 0 0
0 0 0,25 0
0 0 0 0,25
La base del sottospazio struttura degli alias si capisce dalla matrice degli alias:
C I A B AB AC BC ABC
Una base, sempre riferita alle componenti del piano di riferimento, costituita dai vettori associati agli alias: I-1/2C+1/2AC+1/2BC+1/2ABC A+1/2C-1/2AC+1/2BC+1/2ABC B+1/2C+1/2AC-1/2BC+1/2ABC AB+1/2C+1/2AC+1/2BC-1/2ABC Verifichiamo ad esempio che lultimo alias richiede solo i 4 stati di questo piano irregolare (i,a,b,abc). AB =(1/8)*(111+001+000+110-010-011-100-101) C = (1/8)*(111+001+011+101-010-000-100-110) AC = (1/8)*(111+010+000+101-110-011-100-001) BC = (1/8)*(100+000+111+011-010-001-101-110) ABC = (1/8)*(111+001+010+100-110-000-101-011) AB+1/2C+1/2AC+1/2BC-1/2ABC = (1/4)*( 111+000-010-100) Il piano ortogonale (se le numerosit delle celle costante) ma il confounding estremamente pesante; in effetti questo piano non considerato da nessun autore anche se, come ho spiegato nella nota potrebbe avere la sua utilit nella pratica.
234
9.4.3 FRAZIONE 5/8 Alla met regolare I-ABC, si aggiunge lo stato di prova b.
bc
abc
c b
ac ab
Come gi detto la base pi interessante del piano I-ABC : (1,0,0,0,0,0,0,-1) corrispondente allalias I-ABC (0,1,0,0,0,0,-1,0) corrispondente allalias A-BC (0,0,1,0,0,-1,0,0) corrispondente allalias B-AC (0,0,0,1,-1,0,0,0) corrispondente allalias AB-C laggiunta dello stato b rende stimabile in pi lalias I-C-A+AC che corrisponde al vettore (1,-1,0,0,-1,1,0,0) esso linearmente indipendente dai 4 vettori sopra dunque una base del nuovo piano a 5 stati pu essere: e1 = (1,0,0,0,0,0,0,-1) e2 =(0,1,0,0,0,0,-1,0) e3 =(0,0,1,0,0,-1,0,0) e4 =(0,0,0,1,-1,0,0,0) e5 =(1,-1,0,0,-1,1,0,0) corrispondente allalias I-ABC corrispondente allalias A-BC corrispondente allalias B-AC corrispondente allalias AB-C corrispondente allalias I-C-A+AC
La base sopra non molto intelligente perch ha 2 alias che coinvolgono la media; il nostro scopo invece quello di confondere la media con gli effetti ritenuti non interessanti e non confondere fra loro gli effetti che interessano. Nel par. 8.5.3 avevamo ricavato una base110 pi sensata col metodo di Box-Wilson, corrispondente ai 5 alias:
110
I-ABC A-BC B-AC AB-AC+ BC-ABC C-AC+BC-ABC essa non rappresenta altro che un cambio di base di (e1, e2, e3, e4, e5) e precisamente: e 1 = e1 e2 = e2 e3 = e3 e4 = e1 + e 4 - e 2 - e 5 e5 = e1 - e 2 - e 5 Questa base va bene se, lo ripeto, ci interessano gli elementi A,B,C,AB perch con tale base questi elementi non sono confusi fra di loro ma solo con gli altri ovvero AC,BC,ABC. Fornasieri (1995), applicando il metodo BW a un modello con soli 4 parametri, trova solamente 4 elementi di una base: (1,0,0,0,-1/4,1/4,-1/4,-3/4) (0,1,0,0,1/4,-1/4,-3/4,-1/4) (0,0,1,0,-1/4,-3/4,-1/4,1/4) (0,0,0,1,-3/4,-1/4,1/4,-1/4) essi rappresentano 4 elementi di una base che ne deve contenere 5 e per di pi sono 4 elementi abbastanza complicati. Fornasieri dichiara di non sapere quale parametro aggiungere al modello: (1) Y=I+A+B+AB
perch laggiunta di un parametro modifica i 4 alias trovati col modello (1); ma chi ha detto che gli alias non possono cambiare? Il fatto che gli alias cambino dovuto alla non ortogonalit dei contrast; basta guardare la matrice (X1T*X1)-1 del modello ridotto (1):
I I A B AB A B AB
Aggiungi quello che ritieni pi importante per motivi fisici e tecnici, tanto qualunque parametro si aggiunge, si ottengono risultati congruenti che portano alle stesse decisioni, compatibilmente con la struttura degli alias Nel nostro esempio abbiamo aggiunto un solo stato arrivando a 5, ma la risposta sopra di carattere generale; tanti stati di prova si aggiungono al piano, tanti parametri bisogna aggiungere al modello, secondo le esigenze che si hanno. 9.4.4 FRAZIONE 6/8 (3/4 DI JOHN) Al piano di prima si aggiunge, come fa Fornasieri (1995), lo stato di prova abc.
bc
abc
c b
ac ab
Il lettore attento riconosce che il piano un 3/4 di John derivante dallintersezione dei 3 piani: I+AC I+B I-ABC che portano a 12 alias stimabili (ma solo 6 indipendenti). Alla base che avevamo prima: e1 = (1,0,0,0,0,0,0,-1) corrispondente allalias I-ABC e2 =(0,1,0,0,0,0,-1,0) corrispondente allalias A-BC e3 =(0,0,1,0,0,-1,0,0) corrispondente allalias B-AC e4 =(0,0,0,1,-1,0,0,0) corrispondente allalias AB-C e5 =(1,-1,0,0,-1,1,0,0) corrispondente allalias I-A-C+AC quale elemento possiamo aggiungere, ora che si aggiunto lo stato abc, per trovare una base del piano? Ad esempio il vettore corrispondente allalias I+B: e6 = (1,0,1,0,0,0,0,0) Come succedeva prima tale base non intelligente perch 3 alias contengono la media I. Per ottenere una base interessante bisogna applicare il metodo BW a un modello che abbia
237
i parametri richiesti dallo sperimentatore. Se ad esempio richiede gli effetti A,B,C,AB e AC, usiamo il modello Y=I+A+B+C+AB+AC, la matrice degli alias :
BC 0 -1 0 1 1 0 ABC -1 0 1 0 0 1
I A B C AB AC
Gli alias di tabella 1 corrispondono al cambio di base: e1 = e1 e2 = e2 e3 = e6 - e1 e4 = e6 - e2 - e3 - e5 e5 = e6 + e4 - e2 - e3 - e5 e6 = e6 - e1 - e3 Come ormai chiaro, se si applicasse il metodo BW su un altro modello, corrispondente ad altre esigenze, si otterrebbe unaltra base della struttura degli alias; pu anche capitare che non esista una base che soddisfi le esigenze dello sperimentatore, in tal caso la matrice (X1T*X1) risulta non invertibile come detto nel par. 8.5.2. 9.4.5 FRAZIONE 7/8 Aggiungiamo lo stato a al piano del paragrafo precedente e ritorniamo al piano gi esaminato nel par. 8.5.5: bc c b abc
ac ab
i
Figura31: frazione 7/8
Rispetto al sottospazio vettoriale del piano a 6 stati abbiamo un elemento indipendente in pi, che ad esempio pu essere il vettore:
238
e7 = (1,0,0,0,-1,0,0,0)
Il lettore pu verificare, come ho fatto io nei paragrafi precedenti, che la base associata ai seguenti alias trovati nel par. 8.5.5, applicando il metodo BW al modello Y=I+A+B+C+AB+AC+BC:
ABC I A B C AB AC BC
-1 1 1 -1 -1 1 1
corrisponde a un cambio di base111 di: e1 = (1,0,0,0,0,0,0,-1) e2 =(0,1,0,0,0,0,-1,0) e3 =(0,0,1,0,0,-1,0,0) e4 =(0,0,0,1,-1,0,0,0) e5 =(1,-1,0,0,-1,1,0,0) e6 = (1,0,1,0,0,0,0,0) e7 = (1,0,0,0,-1,0,0,0) corrispondente allalias I-ABC corrispondente allalias A-BC corrispondente allalias B-AC corrispondente allalias AB-C corrispondente allalias I-A-C+AC corrispondente allalias I+B corrispondente allalias I-C
Se aggiungessimo anche lo stato c, arriveremo al piano completo e conosceremmo tutti gli effetti e la base sarebbe quella canonica di 8. 9.4.6 E SE ABBIAMO DIMENTICATO UN FATTORE? Ora che siamo al piano completo 8/8, immaginiamo di avere trascurato un quarto fattore D e che gli stati che abbiamo sperimentato siano tutti al livello basso di D. Il piano di riferimento, ora che abbiamo 4 fattori, dunque composto dal cubo precedente con D al livello basso, pi un nuovo cubo con D al livello alto, come illustrato in figura 6. Leffetto di D si ottiene confrontando le medie dei 2 cubi fra di loro. In questa situazione tutti gli effetti che credevamo di stimare prima sono in realt confusi con delle interazioni riguardanti il fattore D e in particolare la media I confusa con il fattore D.
111
il cambio di base pi conveniente perch quello che porta a una risoluzione maggiore. 239
abcd
abd
La frazione sopra assolutamente regolare, corrispondente alla defining relation I-D che porta alla base (non la scrivo pi in forma vettoriale perch comincia ad essere lunga): e1 I-D e2 A-AD e3 B-BD e4 C-CD e5 AB-ABD e6 AC-ACD e7 BC-BCD e8 ABC-ABCD Se aggiungiamo lo stato di prova d, otteniamo una frazione irregolare 9/16; siamo in grado di aggiungere un elemento alla base: quale? Ad esempio con la coppia (i,d) derivante dalla defining relation I-A-B-C+AB+AC+BC-ABC possiamo stimare, in pi rispetto a prima (8/16), lalias e9 D-AD-BD-CD+ABD+ACD+BCD-ABCD Se applico il metodo BW al modello con 9 parametri (perch ci sono 9 stati di prova): Y=I+A+B+C+AB+BC+AC+ABC+D
240
BD
CD
ABD
ACD
BCD ABCD
-1 -1 0 0 0 0 0 0 -1
-1 0 -1 0 0 0 0 0 -1
-1 0 0 -1 0 0 0 0 -1
1 0 0 0 -1 0 0 0 1
1 0 0 0 0 -1 0 0 1
1 0 0 0 0 0 -1 0 1
-1 0 0 0 0 0 0 -1 -1
I primi 8 alias sono ortogonali (algebricamente) fra loro, lultimo no: la non ortogonalit un problema comune alle frazioni irregolari. Come si vede, gli alias di tabella 2 rappresentano gli elementi della base che abbiamo indicato sopra a parte lalias della media che cambiato e1 = e1 + e9 ci ovvio visto che in e1 la media I confusa con D, ma noi abbiamo applicato il metodo BW apposta per separare D, e infatti I e D vengono fuori in 2 alias separati come si vede dalla tabella 2.
ovvio perch in genere prima si stimano i fattori e poi, se possibile, le interazioni. 241
alias dei possibili piani alternativi P+1 (se si vuole separare un effetto), P+2 (se si vogliono separare 2 effetti).....e scegliere la base che pi si adatta alle esigenze dello sperimentatore, tenendo anche conto della correlazione fra gli stimatori degli alias e del fatto che certe basi non ammissibili (matrice X1T*X1 non invertibile). Dunque nella scelta della base bisogna tenere conto di 2 esigenze contrapposte: una base interessante per lo sperimentatore una base ortogonale Ricordo che lortogonalit della base implica la non correlazione fra gli stimatori degli alias se la numerosit degli stati costante. Quale delle 2 esigenze primaria? Secondo me la prima. Ecco perch dico che nei piani non geometrici non saturated di PlackettBurman, come quello del par. 8.5.1, ha poco senso la base ortogonale: I + interazioni di ordine superiore A + (1/3)*(-BC+BD+BE-CD-CE-DE) + interazioni di ordine superiore B + (1/3)*(-AC+AD+AE-CD+CE-DE) + interazioni di ordine superiore C + (1/3)*(-AB+AD+AE-CD+CE-DE) + interazioni di ordine superiore D + (1/3)*(AB-AC-AE-BC-BE-CE) + interazioni di ordine superiore E + (1/3)*(AB-AC-AD+BC-BD-CD) + interazioni di ordine superiore (1/3) * (-AB+AC-AD+AE+BC-BD-BE+CD-CE-DE) + interazioni di ordine superiore (1/3) * (-AB-AC-AD+AE-BC+BD-BE+CD-CE-DE) + interazioni di ordine superiore (1/3) * (AB+AC-AD-AE-BC-BD-BE-CD+CE+DE) + interazioni di ordine superiore (1/3) * (-AB-AC-AD-AE+BC+BD-BE-CD-CE-DE) + interazioni di ordine superiore (1/3) * (-AB-AC+AD-AE-BC-BD-BE+CD+CE-DE) + interazioni di ordine superiore (1/3) * (-AB+AC+AD-AE-BC-BD+BE-CD-CE+DE) + interazioni di ordine superiore perch gli ultimi 6 alias sono sprecati visto che non rappresentano niente di interessante; inoltre tolgono 6 gradi di libert che potrebbero essere attribuiti pi utilmente a 6 interazioni che i tecnici ritengono di interesse. Ad esempio se si applica il metodo BW al modello: Y=I+A+B+C+D+E+AB+AC+AD+BD+DE
242
B C D
B C E
B D E
C D E
A B C D
A B C E
0,33
A B D E
A C D E
B C D E
A B C D E
0,00 0,00 0,00 0,00 0,00
0,00 0,00 0,00 0,00 -0,33 0,33 0,33 -0,33 -0,33 -0,33 -0,33 0,33 -0,33 -0,33 -0,33 -1,00 0,00 0,00 0,00 0,67 0,33 0,33 -0,33 -0,33 -0,33 -0,33 0,33 0,67 0,67 -0,33
0,00 0,00 -1,00 0,00 -0,33 0,33 0,33 -0,33 0,67 0,67 0,67 0,33 -0,33 -0,33 -0,33 -0,67 -0,67 0,33 -0,33 0,00 1,00 0,00 0,00 -0,33 -0,67 0,33 -0,33 -0,33 0,67 -0,33 -0,67 -0,33 -0,33 0,67 0,33 0,33 -0,67 -0,33 0,67 -0,33 1,00 0,00 0,33
0,00 0,00 0,00 -1,00 -0,67 -0,33 0,67 0,33 0,33 0,33 0,33 -0,33 0,33 -0,67 -0,67 -0,33 1,00 1,00 -1,00 -1,00 -1,00 0,00 0,00 1,00 0,00 1,00 0,00 0,00 0,00 -1,00 0,00 0,00 0,00 1,00 0,33 -0,33 -0,33 -0,67 0,33 -0,67 -0,67 -0,33 -0,67 0,33 0,00 -1,00 0,33
1,00 1,00 -1,00 -1,00 -1,33 -0,67 0,33 0,67 0,67 0,67 0,67 0,33 -0,33 -1,33 -0,33 -0,67 0,00 1,00 0,00 0,00 -0,67 -0,33 -0,33 0,33 -0,67 0,33 -0,67 -0,33 0,33 -0,67 0,33 -0,33 0,33
0,00 0,00 1,00 0,00 0,67 -0,67 0,33 -0,33 -0,33 -0,33 -0,33 -0,67 0,67 -0,33 -0,33 1,00 1,00 -1,00 -1,00 -1,67 -0,33 -0,33 0,33 0,33 1,33 0,33 -0,33 -0,67 -0,67 -1,00 0,00 0,00 0,00 0,33 0,67 0,67 -0,67 -0,67 0,33 0,33 -0,33 0,33 0,33
0,33 -0,33
Trascurando i termini di ordine superiore al primo, la base diventa molto pi semplice ed interpretabile di prima: I+ interazioni di ordine superiore A-BC+ interazioni di ordine superiore B-CD+ interazioni di ordine superiore C+BE+ interazioni di ordine superiore D-CE+ interazioni di ordine superiore E+BC+BE-CD-CE+ interazioni di ordine superiore AB+CE+ interazioni di ordine superiore AC+BC+BE-CD-CE+ interazioni di ordine superiore AD+BE+ interazioni di ordine superiore AE+CD+ interazioni di ordine superiore BD+BC+BE-CD-CE+ interazioni di ordine superiore DE-BC+ interazioni di ordine superiore anche se non sono ortogonali, si separano 6 interazioni in pi di quando avevo una base ortogonale; nel capitolo 10 vedremo un esempio numerico per far vedere che il mio approccio (maggior risoluzione a scapito dellortogonalit) decisamente superiore nellindividuazione degli effetti (aliased) significativi, anche se i VIF degli stimatori degli alias di E, AC e BD, sono attorno al valore non piccolo di 5.
243
Maggior risoluzione a scapito dellortogonalit (precisione delle stime): ecco uno dei messaggi che ritengo pi importante lanciare. Nei libri e articoli che ho letto, solo in un articolo di Steinberg e Hunter (1984) ho ritrovato questo concetto: Another direction worthy of consideration, suggested by Tukey, is the use of designs that are not orthogonal, but in which the correlations of the parameter estimates are quite small. The idea here is that by sacrificing some orthogonality, it may be possible to gain much in terms of the number of factors that can be studied.
bc
abc
c b
ac ab
Figura 33: proiezione di una frazione 8/16 sul cubo in cui D al livello basso
Supponiamo che in ogni stato di prova vi siano 4 dati (di cui 2 presi al livello alto di D e 2 al livello basso). I 4 alias stimati, dalla defining relation I+ABC, sono: I+ABC A+BC B+AC C+AB La tabella ANOVA sarebbe:
244
16 1 1 1 1 12
In questo modo il residuo comprende anche gli effetti (aliased) del fattore D e delle sue interazioni; se vogliamo ripulire il residuo da questi effetti, dobbiamo considerare anche il fattore D; la defining relation non cambia come si pu vedere dallipercubo: rimane
I+ABC
abcd
abd
Aggiungendo il fattore D allanalisi, i 4 alias di prima non cambiano, se ne aggiungono altri 4 riguardanti il fattore D e le sue interazioni; infatti la struttura degli alias (o meglio una la base pi interessante che esiste) ora : I+ABC A+BC
245
B+AC C+AB D+ABCD AD+BCD BD+ACD CD+ABD Il residuo diminuisce ora di 4 gradi di libert, quelli relativi ai nuovi 4 alias che riguardano tutti il fattore aggiunto e alle sue interazioni. La nuova tabella ANOVA, indubbiamente pi corretta perch tiene conto di tutta la stratificazione, la seguente:
d.f.
Totale I+ABC A+BC B+AC C+AB D+ABCD AD+BCD BD+ACD CD+ABD Residuo
16 1 1 1 1 1 1 1 1 8
Il residuo SSe calcolabile per differenza solo perch il piano bilanciato; in generale con 8 stati sarebbe la varianza pooled delle varianze degli 8 stati di prova, moltiplicata per 8. Aggiungendo un fattore allanalisi abbiamo quindi guadagnato dei gradi di libert da attribuire agli elementi con cui abbiamo stratificato i dati (ovvero i trattamenti); chi non li attribuisse a D e alle sue interazioni (aliased), ma ad esempio a AB,BC,AC,ABC, scrivendo dunque la tabella ANOVA:
d.f.
16 1 1 1 1 1 1 1 1 8
farebbe un grosso errore, e un errore ancora pi grave farebbe nel calcolare il residuo per differenza di componenti non indipendenti. Quando nella tabella ANOVA si ripartiscono i
246
gradi di libert, bisogna attribuirli a delle componenti indipendenti, altrimenti lANOVA stessa perde significato; questa affermazione vale sempre (vedere par. 3.7), anche con un numero di livelli di fattori superiore a 2, nel qual caso la struttura degli alias notevolmente pi complicata rispetto ai piani 2n-p. In una tabella ANOVA i gradi di libert devono essere attribuiti a componenti (alias) indipendenti e vi sono tanti alias indipendenti quanti sono gli stati di prova del piano, come predice la mia teoria sugli alias (che deriva dal teorema di Gauss-Markov).
degli alias viene ricondotto alla correlazione: in questo caso la notazione A@BC significherebbe che A totalmente correlato con BC. In situazioni irregolari come nella frazione 5/8
bc
abc
c b
ac ab
i
Figura 35: frazione 5/8
1 1 1 1
-2 3 3 -2
2 2 -3 2
-2 3 -2 -2
-2 -2 3 3
2 -3 2 -3
-2 -2 -2 3
4 -1 -1 -1
e i conseguenti coefficienti di correlazione fra gli stimatori sarebbero (se la numerosit costante):
I A B AB C 1 0 0 0 0 0 1 - 1/6 1/6 1/6 0 - 1/6 1 - 1/6 - 1/6 0 1/6 - 1/6 1 - 2/3 0 1/6 - 1/6 - 2/3 1 0 - 1/6 - 2/3 - 1/6 - 1/6 0 - 2/3 - 1/6 1/6 1/6 0 - 198/485 198/485 - 198/485 - 198/485 AC 0 1/6 2/3 1/6 1/6 1 1/6 BC 0 - 2/3 - 1/6 1/6 1/6 - 1/6 1 - 198/485 ABC 0 - 198/485 198/485 - 198/485 - 198/485 198/485 - 198/485 1
I A B AB C AC BC ABC
Tabella 102: correlazione fra gli stimatori (BLUE) degli effetti proposti
Visto che abbiamo 5 stati solamente 5 effetti sono indipendenti. Se scegliamo ad esempio i primi 5, avremmo le seguenti classi di equivalenza:
248
I A-1/6B+1/6AB+1/6C-1/6AC-2/3BC-198/485ABC B-1/6A-1/6AB-1/6C-2/3AC-1/6BC+198/485ABC AB+1/6A-1/6B-2/3C-1/6AC+1/6BC-198/485ABC C+1/6A-16B-2/3AB-1/6AC+1/6BC+198/485ABC dove i + e - non rappresentano pi segni algebrici ma dei simboli. Se per un piano scegliamo una base i cui alias sono ortogonali algebricamente e statisticamente, la struttura degli alias, individuata dai 2 approcci uguale simbolicamente: ricordiamo per che dietro i simboli vi sono significati differenti. Io sono molto critico verso lapproccio illustrato in questo paragrafo perch secondo me non ha senso adattare la definizione di effetto a seconda del piano che si fa, tuttavia lho illustrato per completezza di trattazione; per me gli effetti si stimano solo con il piano completo e il confounding resta un problema di distorsione e cos anche trattato il letteratura (Box e Meyer 1993, Barrantine 1996, Bisgaard 1993, Daniel 1976, Montgomery 1991,.....); in letteratura (quella che ho esaminato) lidea di vedere gli alias come fenomeno di correlazione non presente esplicitamente ma forse implicitamente s: infatti quando Pistone e Wynn (1996) dichiarano che in un piano 26-3 Only one interaction is estimable together with all main effects . stanno assumendo delle definizioni di effetto del tipo riportate in questo paragrafo, ovvero che si adattano a seconda del tipo di frazionamento che si fa.
249
CAPITOLO 10
Ricordo che essa rappresenta la somma dei quadrati dovuta alla stratificazione dei dati. 250
piuttosto onerosa. Il modello sovraparametrizzato chiaramente meno efficiente di quello full-regression: inoltre questultimo offre la possibilit di esplicitare agevolmente la struttura degli alias in ogni situazione. Il modello cell-means utile quando non si condividono le mie definizioni di effetto e alias, perch consente di testare le combinazioni lineari delle medie degli stati di prova, che pi si ritengono utili: equivalente allanalisi dei contrast. Nei casi presentati in seguito io applicher il modello full-regression, e la teoria sugli alias, per far vedere la grande potenza di questi 2 strumenti nellinterpretazione di qualunque tipo di piano fattoriale con fattori fissi114. Il capitolo non solo applicativo ma contiene anche dei contenuti teorici molto importanti che ho ritenuto di proporre solo adesso perch si capiscono meglio con dei dati gi analizzati da altri.
Vediamo che il tipo di pneumatico influenza significativamente con un CL=0,95, la risposta, nel senso che la variabilit della risposta per i 5 tipi di pneumatico non pu essere
114
Ripeto ci che avevo gi detto nel cap.3; la tesi si limita allo studio di fattori fissi. 251
attribuita al caso. Sappiamo che almeno un pneumatico si comporta in modo significativamente diverso dagli altri e a noi interessa capire quali sono le effettive sorgenti di variabilit messe in luce solo in modo aggregato dalla SStr. Ecco perch dico che, anche quando si hanno tanti livelli, conviene sempre dividere la somma dei quadrati del fattore in tante componenti ciascuna con un grado di libert. Anche Galetto mette in evidenza questo importante punto e infatti scompone la SStr in 4 componenti riguardanti 4 contrast ortogonali e precisamente: C1* = 1 - 2 C2* = 1 + 2 -23 C3* = 4 - 5 C4* = 21 + 22 + 23 - 34 - 35 I risultati ottenuti applicando la formula: C2 SS (C ) = 5 c ni i =1 i portano alla seguente tabella:
SS df MS F calcolata F0,95(1,22)
Trattamenti C1
C2
C3
C4
Residuo
Vediamo come possiamo riottenere gli stessi risultati col modello full-regression, per la prima volta applicato ad un fattore con pi di 2 livelli: Y = I + C1*x1 + C2*x2 + C3*x3 + C4*x4 le variabili sono codificate in modo da rappresentare i confronti che ci interessano fra i vari livelli: essendo la variabile qualitativa, ha poco senso la codifica dei polinomi ortogonali. Mettiamo invece gli stessi coefficienti dei contrast proposti da Galetto: ad esempio la variabile x1 assumer i valori (1,-1,0,0,0), x2 sar (1,1,-2,0,0).... In forma vettoriale abbiamo la matrice X:
252
1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 4 4 4 4 4 4 5 5 5 5 5 5
I 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
A1 1 1 1 1 1 -1 -1 -1 -1 -1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
A2 1 1 1 1 1 1 1 1 1 1 -2 -2 -2 -2 -2 0 0 0 0 0 0 0 0 0 0 0 0
A3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 -1 -1 -1 -1 -1 -1
A4 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 -3 -3 -3 -3 -3 -3 -3 -3 -3 -3 -3 -3
Essa porta alla soluzione contenente C1, C2, C3, C4: = (XT*X)-1*XT*Y Le stime sono le seguenti;
C C1 C2 C3 C4 SS(C)
-2,646667 1167,474
Questa una congettura che faccio io, derivante dalle molte elaborazioni fatte col modello full-regression e sempre confermata anche in tutti gli esempi illustrati nella tesi. 253
115
particolare i coefficienti dei polinomi ortogonali forniscono sempre contrast ortogonali algebricamente, ecco perch sono cos importanti. Lortogonalit algebrica implica quella statistica (e viceversa) solo se la numerosit degli stati costante, altrimenti non c nessun legame causale come accadeva per gli alias (par. 9.3.2). Per far vedere questo facciamo un esempio con 3 livelli di numerosit 1,4,4; i contrast: 1 + 2 -23 1 -22 +3 non sono ortogonali algebricamente perch il prodotto scalare dei vettori associati : 1-2-2 = -3 0 tuttavia sono ortogonali statisticamente perch: 1-2/4-2/4 = 0 Se vogliamo continuare a usare il modello full-regression con fattori a pi livelli, dobbiamo usare delle codifiche associate a dei contrast algebricamente ortogonali. Ci sono tante codifiche ortogonali: scegliamo quella che rispecchia i confronti che ci interessano maggiormente. In questo esempio dei pneumatici, essendo i primi 2 non radiali e gli altri radiali, riterrei utile un confronto fra questi 2 gruppi; non ritengo quindi tanto utile il quarto contrast usato da Galetto: C4* = 21 + 22 + 23 - 34 - 35 Peraltro lautore citato lo usa solo per lesigenza didattica di spiegare la decomposizione ortogonale della devianza dei trattamenti. Ma nella realt penso che il contrast: C4* = 31 + 32 - 23 - 24 - 25 sarebbe pi utile; esso algebricamente ortogonale a: C1* = 1 - 2 C3* = 4 - 5 ma non a: C2* = 1 + 2 -23 che dunque va sostituito, per mantenere lortogonalit algebrica (che fa s, lo ripeto, che la soluzione delle equazioni normali FR stimi correttamente questi contrast) da: C2* = 23 - 4 -5 Cambia dunque la codifica di x2 (oltre che di x4), prima era (1,1,-2,0,0) ora (0,0,2,-1,-1); la matrice X diventa:
I A1 A2 A3 A4 254
In questo caso gli stimatori dei 4 contrast non sono completamente scorrelati fra di loro come si vede dalla matrice (XT*X)-1:
I I C1 C2 C3 C4 C1 C2 C3 C4
0 0 0 0,083333 0
255
ma questo non assolutamente un problema visto che i VIF sono praticamente uguali a 1 (chi vuole verificarlo pu scrivere la matrice di correlazione e invertirla). I risultati sono:
C C1 C2 C3 C4 SOMMA SS(C)
1,4
19,6
La differenza fra pneumatici radiali e non (C4) dunque non significativa116 in media, ma la differenza fra il tipo 3 e 4 e 5 molto significativo: il tipo 3 decisamente migliore, dunque possiamo supporre che i pneumatici 1 e 2 siano migliori del 4 e 5. Queste considerazioni si potrebbero capire anche tracciando un diagramma delle medie, con i rispettivi intervalli di fiducia, come viene fatto in Galetto (1995 e 1996). Si vede che la somma delle SS(C) dei 4 contrast diversa da SStr = 1812,607407 e ci dovuto al fatto che i 4 contrast non sono pi ortogonali statisticamente ma, come il lettore ha ormai capito, io preferisco sacrificare lortogonalit (in questo esempio poi il sacrificio quasi nullo visto che i VIF1) per fare dei test pi interessanti.
116
Si vede a occhio anche senza dividere per il residuo e confrontare con la F (tali dati sono nella tab.3). 256
SS
MS F calcolata F0,95(5,10)
16 1 15 5 10
58433129,12 58423856,6 9272,5175 4898,240833 4374,276667 618,1678333 1,4131887 979,6481667 2,2395661 3,325837 437,4276667
Guardando la tabella sembrerebbe che la stratificazione fatta non significativa e la variabilit della risposta nei 6 stati di prova da attribuirsi al caso; infatti il test F sopra sta testando lipotesi nulla: 11 = 12 = 21 = 22 = 31 = 32 dove il primo indice relativo alla bobina e il secondo al lotto. Ci significa che le 6 medie, quando vengono considerate insieme, non sono significativamente diverse; quindi gi sappiamo che ogni contrast che abbia tutti coefficienti diversi da zero, sar non significativo. Ci non toglie che potrebbero esserci dei contrast che non coinvolgono tutte le 6 medie, che potrebbero risultare significativi: conviene comunque sempre scomporre la SStr in tante componenti indipendenti quanti sono i suoi gradi di libert: in questo caso avremo 1 componente per il lotto, 2 per la bobina e altre 2 per linterazione fra lotto e bobina. Si pone di nuovo il problema della codifica dei livelli per la bobina; in questo caso in cui abbiamo un fattore a 3 livelli, la codifica pi ragionevole per le 2 componenti della bobina che d luogo a dei contrast algebricamente ortogonali quella dei polinomi ortogonali: (-1,0,1) e (1,-2,1)117; ci non assolutamente restrittivo perch se ci fosse un confronto privilegiato, ad esempio fra le bobina 2 e 3, la codifica sarebbe nellordine (0,1,1) e (-2,1,1). In questo caso non c niente che ci indichi quali bobine confrontare quindi possiamo assegnare la codifica dei polinomi ortogonali a piacimento; a seconda della codifica testiamo contrast diversi che forniranno diverse somme dei quadrati: limportante, come sempre essere consapevoli di ci che testiamo. Il modello FR : Y = I + L*x1 + B1*y1 + B2*y2 + LB1*x1*y1 + LB2*x1*y2 La codifica dellinterazione sempre il prodotto delle codifiche delle variabili coinvolte nellinterazione. Per le 2 variabili della bobina uso la codifica (-1,1,0) e (1,1,-2) per
117
Il lettore che abbia capito il ragionamento fatto al capoverso precedente (e il concetto di ortogonalit algebrica) sa in partenza che la componente codificata (1,-2,1) risulter non significativa. 257
ritrovare alcuni risultati riportati in Galetto (1995 e 1996). Le soluzioni alle equazioni normali testeranno dunque i seguenti contrast: L B1 B2 LB1 LB2 12 + 22 + 32 - 11 - 21 - 31 = 0 31 + 32 - 21 - 22 = 0 -211 - 212 + 21 + 22 + 31 + 32 = 0 11 + 22 - 12 - 21 = 0 12 + 22 + 31 - 11 - 21 - 32 = 0 (non significativo a priori) (non significativo a priori) (non significativo a priori)
La matrice X la seguente:
I 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 B1 -1 -1 -1 -1 -1 1 1 1 1 1 0 0 0 0 0 0 B2 1 1 1 1 1 1 1 1 1 1 -2 -2 -2 -2 -2 -2 L -1 -1 -1 1 1 -1 -1 1 1 1 -1 -1 -1 1 1 1 LB1 1 1 1 -1 -1 -1 -1 1 1 1 0 0 0 0 0 0 LB2 -1 -1 -1 1 1 -1 -1 1 1 1 2 2 2 -2 -2 -2
b1l1 b1l1 b1l1 b1l2 b1l2 b2l1 b2l1 b2l2 b2l2 b2l2 b3l1 b3l1 b3l1 b3l2 b3l2 b3l2
La matrice delle covarianze fra gli stimatori delle 5 componenti (pi la media che non ci interessa perch viene sempre isolata prima nellANOVA):
I I B1 B2 L LB1 LB2 B1 B2 L LB1 LB2
0 0 0
Notiamo che gli stimatori delle 2 componenti della bobina sono scorrelate e cos quelle dellinterazione; questo un caso puramente fortuito dovuto alla particolare codifica
258
che ho scelto; chi vuole pu verificare che i VIF sono piccolissimi e quasi uguali a 1 dunque la non ortogonalit (ovvero la diminuzione di precisione delle stime) di questo modello trascurabile. La soluzione delle equazioni normali contenente, a meno di una costante moltiplicativa, gli stimatori dei 5 contrast: L B1 B2 LB1 LB2 12 + 22 + 32 - 11 - 21 - 31 = 0 31 + 32 - 21 - 22 = 0 -211 - 212 + 21 + 22 + 31 + 32 = 0 11 + 22 - 12 - 21 = 0 12 + 22 + 31 - 11 - 21 - 32 = 0 (non significativo a priori) (non significativo a priori) (non significativo a priori)
la seguente:
C SS(C)
0,561111111 4,857619048 6,466666667 401,4506667 2,613888889 227,0464103 0,955555556 30,3425641 B=B1+B2 628,4970769 4389,175231
Le 2 componenti della bobina e dellinterazione si possono sommare solo perch i rispettivi contrast sono ortogonali. Lanalisi di significativit dei contrast fatta nella tabella: Trattamenti L B1 B2 B LB1 LB2
LB
4898,2408 5 4,857619
1
4,857619 0,011105 4,96459 401,4507 0,9177533 4,96459 227,0464 0,519049 4,96459 314,2485 0,7184011 4,10282 4358,833 9,9646936 4,96459 30,34256 0,0693659 4,96459 2194,588 5,0170297 4,10282 437,4277
Residuo
Come sapevamo gi, il primo, il terzo e il quinto effetto non sono significativi; lunico significativo quello relativo allinterazione LB1 fra lotto e primo confronto della bobina: 11 + 22 - 12 - 21 = 0
259
e se si osservano le stime delle medie contrapposte dal contrast si capisce subito perch significativo; se si fosse fatta lANOVA solo sugli stati 11,12,21,22 i trattamenti sarebbero risultati significativi: provare per credere. Parlare genericamente di interazione fra lotto e bobina serve a poco secondo me; mettiamo invece in luce qual la componente dellinterazione che genera variabilit come fatto in tab.11; il modello full-regression permette tutto ci in pochissimo tempo. Lunico risultato uguale a quelli (presentati come risultati corretti) in Galetto (1995 e 1996) quello dellinterazione; come spiegato nel cap.7, il metodo di Galetto ha il difetto di non partire da delle ipotesi nulle formalizzate; in questo caso lipotesi nulla implicita nella scrittura del modello additivo di Galetto : 11 = k 12 = k 21 = k 22 = k 31 = k 33 = k dove la bobina e il lotto; lipotesi sopra equivalente a: 11 + 22 -12 - 21 = 0 12 + 22 + 31 - 11 - 21 - 32 = 0 11 -12 = 0 31 - 11 = 0 che solo parzialmente testabile perch solo le prime 2 sono funzioni stimabili e sono proprio quelle che ho testato io, ecco perch il risultato dellinterazione numericamente uguale. I risultati dei fattori in Galetto, si possono ritrovare usando un modello fullregression ridotto in cui non ci sono le componenti dellinterazione: Y = I + L*x1 + B1*y1 + B2*y2 in forma matriciale Y = X1*; non riscrivo la matrice Z di questo modello perch assolutamente identica a quella di tab.9 senza le ultime 2 colonne LB1 e LB2; queste 2 colonne formano la matrice X2 nella terminologia che ho introdotto circa il metodo di BoxWilson; infatti con luso di questo modello si creano degli alias perch gli effetti del lotto e della bobina saranno distorti dallinterazione cancellata dal modello. La matrice (X1T*X1)-1 la seguente:
260
I B1 B2 L
I 0,062963
B1 B2 0 0,003704
L 0
Come si vede le varianze degli stimatori sono diminuite rispetto a quelle del modello completo (tab.10): ovvio visto che non sono pi gli stessi stimatori (anche se li indico con la stessa lettera, confidando nellintelligenza del lettore). Si riottengono i risultati corretti presentati in Galetto (1995 e 1996), infatti la soluzione delle equazioni normali la seguente:
C B1 B2 L SS(C)
ma cosa stanno testando quelle somme di quadrati? Col modello full-regression facile scoprirlo; basta guardare la matrice (X1T*X1)-1*X1T; si capisce che i contrast testati, in forma tabellare, sono:
11
B1 B2 L
12
21
22
31
32
-7 3 -4
-6 2 4
6 2 -4
7 3 4
1 -5 -5
-1 -5 5
Coinvolgendo tutti gli stati di prova, sappiamo gi che i 3 contrast non sono significativi. Come avevamo gi visto nellesempio macchina-operatore, il metodo di Galetto introduce dei pesi delle medie veramente strani, che non hanno alcuna apparente giustificazione; in pi se si osserva il primo contrast che dovrebbe fornirci un confronto fra le bobine, si vede che le 2 medie della bobina 3 sono pesate una volta positivamente e una volta negativamente118 (!!!!): penso che questo sia pi che sufficiente a metterci in guardia contro i metodi che nascondono le ipotesi nulle testate; non per niente Searle et al.
In realt si potrebbe obbiettare che i 2 contrast di Galetto rappresentanti la bobina (trovati col modello FR ridotto) generano un sottospazio di contrast di dimensione 2 quindi SS(B)=484,056 sta testando non necessariamente i contrast B1 e B2 della tab.13 ma qualunque coppia di contrast da essi generata. 261
118
(1981) affermano For models with interaction with all cells filled, R(/,)119 tests
nothing of use or interest. Questo succede perch gli effetti calcolati a partire dal modello additivo, sono distorti dallinterazione che trascurata in tale modello. E infatti se applichiamo il metodo BW a questo modello ridotto, troviamo la matrice degli alias (X1T*X1)-1*X1T*X2: LB1 B1 B2 L LB2
0 1/15 0
3/13 -0 - 2/13
Col metodo di Galetto si testano dunque inconsapevolmente non gli effetti dei fattori ma i seguenti alias: B1+3/13LB2 B2+1/15 L-2/13LB2 Questo confounding implicito nel metodo di Galetto riferito ovviamente alle mie definizioni di effetto per questo piano: L B1 B2 LB1 LB2 = = = = = 12 + 22 + 32 - 11 - 21 - 31 31 + 32 - 21 - 22 -211 - 212 + 21 + 22 + 31 + 32 11 + 22 - 12 - 21 12 + 22 + 31 - 11 - 21 - 32
Come ho detto, gli effetti si potevano definire diversamente (purch in modo sensato ) e avrebbero portato a risultati diversi ma congruenti con quelli ottenuti da me, perch ovviamente si sarebbero testate diverse ipotesi nulle. Cambiando definizioni, cambierebbero i numeri nella matrice degli alias ma il concetto che il metodo di Galetto conduce a una distorsione degli stimatori dei fattori resta sempre valido. Gli effetti si devono definire prima dellanalisi e poi si costruisce il modello conseguente.
120
119
il modo con cui Galetto calcola gli effetti dei fattori, nella notazione di Searle.
120
Cosa vuol dire sensato? Ad esempio leffetto del lotto deve sempre e comunque contrapporre le medie del primo lotto con quelle del secondo. Un altro esempio si pu vedere nella tab.13: il primo contrast non ha nessun senso per testare una componente della bobina perch la terza bobina pesata una volta positivamente e una volta negativamente (!!!). 262
Se il lettore prova a scrivere i contrast della tab.13 in termini dei parametri del modello sovraparametrizzato, otterrebbe delle espressioni lunghe e apparentemente121 prive di senso: chi pensava che SS(A) = SS(I+A+B) - SS(I+B) SS(B) = SS(I+A+B) - SS(I+A) testassero le ipotesi (in realt non testabili come stato chiarito nel cap.7): 1 = 2 2 = 3 1 = 2 rimarrebbe molto deluso. Galetto (11995 e 1996) presenta anche i risultati sbagliati ottenuti con il Questo per questo; essi si potrebbero riottenere con i 2 modelli full-regression ridotti: Y = I + L*x1 Y = I + B1*y1 + B2*y2 Lo lascio come utile esercizio al lettore che scoprir che i risultati sbagliati: SS(B) = 505,39 SS(L) = 25 testano delle cose pi interessanti (secondo me) dei risultati corretti: SS(B) = 484,07 SS(L) = 2,67 In particolare il lettore trover che: SS(B) = 505,39 testa le 2 ipotesi nulle: 2. - 1. 23.- 2.-1. Le ipotesi sono, a mio parere, pi interessanti di quelle di tab.13, presentando per il solito inconveniente del Questo per questo ovvero di ignorare la presenza degli altri fattori. La somma dei quadrati dovuta al lotto: SS(L) = 24 testa invece: .2 - .1 Questo esempio ha messo in luce la grande potenza del modello full-regression, anche con fattori a pi livelli; nel prossimo esempio introduciamo gli alias.
Il primo contrast della tab.15 assolutamente inadeguato a rappresentare una componente della bobina; gli altri devono giustificare i differenti pesi per le medie. 263
121
A i a b ab c ac bc abc
Tabella 116
0 1 0 1 0 1 0 1
0 0 1 1 0 0 1 1
0 0 0 0 1 1 1 1
35,9 37,2
36,6 36,5
36,7 35,6
36,7 36,6
38,3 39,7
38,5 38,4
38,8 37,5
40,7 40
Media*totale 10643,405 12160,20125 6496,36 13219,38 7430,44 15312,5 65262,28625 258,38 M*T= 65003,90625
40 M= 40,3125 T=
SStr= S-M*T=
Tabella 117
40 39 5 34
65301,05 297,14375 7,619070513 6,6827486 258,38 51,676 45,325439 2,4936142 38,76375 1,140110294
1 65003,90625
Vediamo che la stratificazione fatta molto significativa, anche perch con 40 prove si riuscito a tenere il residuo molto basso. Come sempre dobbiamo scomporre la SStr in 5 componenti che mettano in luce le effettive sorgenti di variabilit; queste 5 componenti non saranno 5 effetti puri ma necessariamente aliased secondo i concetti esposti nel cap.9. Prima di affrontare lanalisi in modo corretto, col modello full-regression e la teoria degli alias, usiamo la procedura di Galetto usata (non correttamente) da Fornasieri (1995), per spiegare alcuni errori contenuti nella sua elaborazione del caso Iveco. 10.4.1 ERRORI NELLANALISI DI FORNASIERI (1995) Il lettore avr notato che in precedenza ho spesso criticato Fornasieri per i seguenti motivi: non ha capito la differenza fra il modello full-regression e quello sovraparametrizzato non ha capito che il metodo di Box-Wilson si basa sulluso del modello full-regression (e su delle particolari definizioni di effetto e alias: quelle che ho dato io) non considera la numerosit degli stati di prova
265
Inoltre anche con 6 stati di prova, usa dei modelli ridotti con soli 4 parametri ma questo fatto meno grave degli altri, perch per metterne 6 avrebbe dovuto intuire la natura di spazio vettoriale della struttura degli alias. Comunque questi difetti nellapproccio di Fornasieri, non possono ovviamente condurla a dei risultati corretti anche perch in pi: commette degli errori di calcolo non trascurabili dimostra di non aver capito del tutto le equazioni normali Giustifichiamo queste affermazioni; intanto calcolo la SSreg di tutti modelli (gerarchici visto che per ora uso il metodo di Galetto) possibili; in generale ho usato il metodo delle soluzioni basiche (cap.7): per alcuni modelli (quelli segnati in neretto) la matrice del sistema ridotto a cui porta tale metodo diagonale per cui si pu usare il Questo per questo. 1 2 3 4 5 6 7 8 9
SS (I) SS (I+A) SS (I+B) SS (I+C)
65003,90625 65098,91042 65082,5865 65181,58229 65177,59067 65182,91563 65260,26254 65178,17083 65182,91563 65260,83292 65261,59588 65262,17604 65261,59588 65262,16625 65262,17604 65262,28625 65262,16625 65262,28625 65262,28625
SS (I+A+B)
SS (I +A+C)
SS (I+B+C)
SS (I+A+B+AB) SS (I+ A+C+AC)
10 SS (I+B+C+BC) 11 SS (I+A+B+C) 12 SS (I+A+B+C+AB) 13 SS (I+A+B+C+AC) 14 SS (I+A+B+C+BC) 15 SS (I+A+B+C+AB+AC) 16 SS (I +A+B+C+AB+BC) 17 SS (I+A+B+C+AC+BC) 18 SS (I+A+B+C+AB+AC+BC) 19 SS( I+A+B+C+AB+AC+BC+ABC)
Solitamente non si sarebbe potuta applicare la regola del Questo per questo ai modelli:
SS (I +A+C) SS (I +A+B+C+AB+BC) SS (I+A+B+C+AB+AC+BC) In questo caso si pu perch i modelli sopra sono indistinguibili (in termini di SSreg) rispettivamente da: SS (I +A+C+AC)
266
SS (I +A+B+C+AB+BC+AC) SS (I+A+B+C+AB+AC+BC+AC) per i quali si pu applicare sempre la regola del Questo per questo; come mai c questa indistinguibilit? Semplice: mancano i 2 stati di prova a e ab dunque gi nel modello ridotto 9:
Y=I+A+C+AC nascono degli alias; infatti il modello 9 ignora il fattore B e corrisponde alla proiezione degli stati in cui B al livello alto sugli stati in cui B al livello basso (o viceversa). Proiettando, si ottiene un piano irregolare (3/4 di John) ridotto con 3 stati di prova dunque nel modello solo 3 parametri potranno essere indipendenti. Presentiamo il piano sperimentale, avvalendoci del solito cubo:
bc
abc
c b
ac ab
Figura 36: proiezione del piano originario sugli stati (i,c,ac) che ignora il fattore B
evidente che il piano proiettato ridotto perch manca lo stato di prova a dunque assolutamente ovvio che in questo caso:
SS(I+A+C+AC) SS(I+A+C) perch il primo modello non aggiunge delle equazioni normali linearmente indipendenti al secondo; Fornasieri non si rende conto di questo fatto e pag.136 scrive:
SS(AC) = SS(I+A+C+AC) - SS(I+A+C) = 0,025 visto che fa degli errori di calcolo nel risolvere le equazioni normali, non trova un risultato nullo, ma avrebbe dovuto capire a priori che i 2 modelli avevano la stessa SSreg.
267
Per lo stesso motivo sono indistinguibili anche altre coppie di modelli: riferendomi ai numeri di tab.19, si vede che sono indistinguibili le coppie di modelli (6,9), (11,13), (12,15), (14,17) e (16,18) indicati sopra. In pi la coppia (16,18) indistinguibile dal modello completo 19 ovvero: SS(I+A+B+C+AB+BC+AC+ABC)=SS(I+A+B+C+AB+BC+AC)=SS(I+A+B+C+AB+BC ) questo dovuto al fatto che abbiamo 6 stati di prova dunque nei modelli possiamo mettere anche 10000 parametri ma le equazioni normali indipendenti restano al massimo 6, dunque i modelli con 6 parametri (stimabili indipendentemente) hanno tutti la stessa SSreg. Fornasieri di nuovo non si rende conto di ci e scrive a pag.139: SS(ABC)=SS(I+A+B+C+AB+BC+AC+ABC)-SS(I+A+B+C+AB+BC+AC)=0,26626
(!!!)
c di nuovo un errore di calcolo ma chi ha capito la teoria delle equazioni normali dovrebbe sapere a priori che in questo piano quella differenza identicamente nulla quindi se trova un risultato diverso dovrebbe capire di aver fatto un errore di calcolo e rimediare. Actis (1995) invece consapevole di questo problema e a pag.310 della sua tesi spiega ci che ho esposto io qua. Una volta che abbiamo le SSreg dei modelli possiamo calcolare l effetto (aliased) dei fattori e interazioni in vari modi, senza peraltro sapere cosa stiano testando le varie differenze di somme di quadrati (per saperlo dobbiamo applicare FR).
SS (A) 2-1 95,00416667 3-1 78,68025 4-1 177,6760417 8-5 0,580166667 9-6 0 10-7 0,570375 19-18 0 5-3 95,00416667 7-4 78,68025 6-2 84,00520833 12-11 0,580166667 13-11 0 14-11 0,570375 6-4 1,333333333 5-2 78,68025 7-3 177,6760417 16-14 0,12 15-12 0 17-13 0,570375 11-7 1,333333333 11-6 78,68025 11-5 84,00520833 15-13 0,580166667 17-14 0 16-12 0,110208333 14-10 1,333333333 13-9 78,68025 12-8 84,00520833 18-17 0,12 18-16 0 18-15 0,110208333
SS (B)
SS (C)
SS (AB)
SS (AC)
SS (BC)
SS (ABC)
Tabella 120: modi per calcolare gli effetti aliased di fattori e interazioni usando modelli gerarchici 268
La tab.21 molto interessante perch vediamo che molti risultati degli effetti(aliased) sono uguali: in generale, questo non capita con differenti ripetizioni, (ricordiamoci della tab. 24 del cap.7 dove tutti i risultati venivano diversi); ci dovuto a 2 motivi: mancano degli stati di prova, dunque, come gi detto, alcuni modelli sono indistinguibili da altri e dunque sono ridondanti alcune proiezioni del piano sperimentale risultano bilanciate o particolari (numerosit proporzionali): ad esempio se consideriamo i 2 macrostati di B al livello alto e basso, abbiamo che entrambi i macrostati hanno 20 dati; oppure se consideriamo la proiezione sui 2 fattori A e B n i = 12 n a =8 n b =12 n ab =8 vediamo che le numerosit sono proporzionali e lo stesso vale per la proiezione sui fattori B e C ni=8 n b =8 n c =12 n bc =12 non quindi un caso che l effetto (aliased) del fattore B sia uguale in qualunque modo venga calcolato (in ogni modo ricordiamoci che non sappiamo cosa stiamo testando)...Invece leffetto (aliased) di A passa da 95 a 1,3333 e col modello FR e il metodo BW vedremo perch. Per ora proseguiamo ad illustrare gli errori di Fornasieri: lautrice citata usa il modello: Y=I+A+B+AB e vi applica il metodo BW, non replicando le righe delle matrici X1 e X2 : ci va bene solo se la numerosit delle celle costante e in questo esempio non lo ; le classi di equivalenza che Fornasieri calcola: I+1/2C+1/2BC A+1/2C+1/2BC B+1/2AC+1/2ABC AB+1/2AC+1/2ABC sono dunque errate122.
Gli alias che calcola sono stimabili, nel senso che appartengono al sottospazio vettoriale degli alias di questo piano, ma non sono associati a quel modello (in questo senso sono errate). 269
122
Col modello FR si vede che gli alias associati a quel modello in realt sono: I+1/3C+2/3AC, A+2/3C+1/3AC B+1/3BC+2/3ABC AB+2/3BC+1/3ABC Ma anche se li avesse calcolate correttamente, avrebbe sbagliato dopo (pag.122) quando associa gli alias calcolati col metodo BW (full-regression) a delle differenze fra delle somme di quadrati123 (modello sovraparametrizzato) della tabella 19: come se non bastasse, Fornasieri fa degli errori di calcolo nel risolvere le equazioni normali sovraparametrizzate. In realt i 4 alias sopra vanno associati alle somme di quadrati dei contrast contenuti nel vettore soluzione delle equazioni normali full-regression sul modello Y=I+A+B+AB, il che equivalente a fare: SS(A) = SS(I+A+B+AB)-SS(I+B+AB) SS(B) = SS(I+A+B+AB)-SS(I+A+AB) SS(AB) = SS(I+A+B+AB)-SS(I +A+B) coi modelli scritti in forma FR. Un altro errore che considerando un modello ridotto con 4 parametri, il residuo viene ad avere 36 gradi di libert al posto di 34 e quindi in esso vi una parte dei parametri trascurati nel modello ridotto. Fornasieri usa poi un altro modello, Y=I+B+C e ripete tutti gli errori illustrati al capoverso precedente. Lerrore pi grosso per lo fa quando usa lultimo modello a pag.132: (1) Y=I+A+B+C+AB+AC+BC+ABC
Allinizio dice ..con 6 stati di prova potremmo stimare la significativit di 6 classi di equivalenza. Poi per afferma che col modello (1) possiamo stimare le 8 quantit presenti nel modello completo(!!!!!!); invece nel modello (1) solo 6 parametri sono indipendenti quindi 2 devono essere per forza nulli e gli altri non rappresentano gli effetti puri ma aliased. Non avendo capito questo, Fornasieri fa gli errori gi citati: SS(AC) = SS(I+A+C+AC) - SS(I+A+C) = 0,025 SS(ABC)=SS(I+A+B+C+AB+BC+AC+ABC)-SS(I+A+B+C+AB+BC+AC)=0,26626
Lalias dellinterazione AB+2/3BC+1/3ABC lunico che pu essere associato alla somma di quadrati calcolata col metodo di Galetto, perch con questo metodo lunico effetto calcolato a partire dal modello Y=I+A+B+AB 270
123
e nella tabella ANOVA assegna 8 gradi di libert (con 6 stati di prova!!!!!) ai parametri del modello (1) e solo 32 al residuo: il lettore che conosce lanalisi della varianza si rende conto che ci completamente sbagliato. Il caso Iveco stato esaminato invece con molta lucidit da Actis (1995) che giustamente assegna 6 gradi di libert ai parametri del modello e 34 al residuo. Actis dichiara che i 6 parametri del modello sono aliased ammettendo di non sapere trovare il confounding di un piano cos irregolare. 10.4.2 FULL-REGRESSION In una situazione del genere:
bc
abc
c b
ac ab
la prima cosa che lanalista dovrebbe fare rivolgersi allo sperimentatore con onest intellettuale, facendogli capire che con 6 stati di prova pu stimare solo 5 parametri (pi la media) aliased con i parametri non considerati. Quindi lo sperimentatore deve indicare 5 effetti che non vuole confusi fra di loro (come in tutti piani ridotti, anche quelli regolari); i 2 effetti trascurati andranno necessariamente a distorcere le stime dei 5 effetti principali. Uno degli svantaggi nelluso (in questo caso forzato) di una frazione irregolare come questa, che i parametri cancellati dal modello distorcono le stime di tanti parametri mentre nelle frazioni regolari un parametro cancellato dal modello distorce solo una stima; per poter affrontare adeguatamente lo studio delle frazioni irregolari dunque assolutamente necessario conoscere la struttura degli alias. Supponiamo che lo sperimentatore ci abbia detto che non vuole confondere A, B, C, AB e BC. In questo caso usiamo il modello Y=I+A+B+C+AB+BC, le cui matrici X1 e X2 sono:
271
I 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
A -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 1 1 1 1 1 1 1 1 -1 -1 -1 -1 1 1 1 1 1 1 1 1
B -1 -1 -1 -1 -1 -1 -1 -1 1 1 1 1 1 1 1 1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 1 1 1 1 1 1 1 1 1 1 1 1
C -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
AB 1 1 1 1 1 1 1 1 -1 -1 -1 -1 -1 -1 -1 -1 1 1 1 1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 1 1 1 1 1 1 1 1
BC 1 1 1 1 1 1 1 1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 1 1 1 1 1 1 1 1 1 1 1 1
AC 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 -1 -1 -1 -1 1 1 1 1 1 1 1 1 -1 -1 -1 -1 1 1 1 1 1 1 1 1
ABC -1 -1 -1 -1 -1 -1 -1 -1 1 1 1 1 1 1 1 1 1 1 1 1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 1 1 1 1 1 1 1 1
I A B C AB BC
Da essa ricaviamo linversa della matrice di correlazione e dunque i VIF, che vediamo essere tutti compresi fra 1 e 2 dunque la non ortogonalit124 del piano non preoccupante. 1,25 -0,3062 0 0,30619 0 0 -0,3062 1,875 0 1,125 0 0 0 0 1,25 0 -0,3062 0,30619 0,30619 1,125 0 1,875 0 0 0 0 -0,3062 0 1,875 1,125 0 0 0,30619 0 1,125 1,875
Tabella 123: inversa della matrice di correlazione
I A B C AB BC
La base che abbiamo scelto corrispondente ai seguenti alias: I+AC A+AC B+ABC C-AC AB+ABC BC-ABC le cui somme di quadrati si calcolano con la solita formula SS(C): per sapere i coefficienti del contrast, si guarda come sempre la matrice (X1T*X1)-1*X1. Si ottiene:
C I+AC A+AC B+ABC C-AC AB+ABC BC-ABC SS(C)
39,965625 51112,0378 0,25 1,33333333 1,403125 63,0003125 1,984375 84,0052083 0,075 0,12 0,071875 0,11020833
Spero che a questo punto il lettore abbia capito che la non ortogonalit statistica si riflette in una diminuzione di precisione della stima puntuale (perch aumenta la varianza del relativo stimatore...) 273
124
Abbiamo cos ritrovato alcuni dei risultati della tab.21 e gli altri si potrebbero ritrovare tutti scrivendo opportuni modelli ridotti, come ho mostrato nel par. 8.4.1. Vediamo quale alias significativo:
SS(C) df MS F calcolata F0,95(1,34)
Trattamenti A+AC
B+ABC C-AC
5 1 1 1 1 1 34 1,33333333 63,0003125 84,0052083 0,12 0,11020833 1,1401103 1,1694775 4,130015441 55,258086 4,130015441 73,681651 4,130015441 0,105253 4,130015441 0,0966646 4,130015441
Possiamo avere 2 possibili interpretazioni: Se A ha un effetto significativo positivo, anche AC ha uninterazione significativa negativa (visto che importante considerare il segno?) e il loro alias non significativo; in questo caso AC aumenta di molto il valore di C e infatti lalias C-AC molto significativo Se A non significativo, nemmeno AC lo e gli unici effetti significativi sembrerebbero B e C Per confermare lanalisi, soprattutto il poter trascurare AB, BC e ABC, si possono usare modelli ridotti che testano altri alias, sempre generati comunque da quelli di tab.25; a questo riguarda bisogna stare molto attenti perch le congetture che si fanno devono utilizzare sempre degli alias indipendenti. Coi modelli ridotti si ritrovano tutti risultati (quando ci avviene, li segno in neretto) della tab.19. Dal modello Y =I+A+B+AB si trovano gli alias: A+2/3C+1/3AC SS= 95,00416 B+1/3BC+2/3ABC SS=78,20416 AB+2/3BC+1/3ABC SS=0,58016 Dal modello Y=I+B+C+BC si trovano gli alias: B-1/3AB+2/3ABC SS=72,93037 C+2/3A-1/3AC SS=177,67604 BC+2/3AB-1/3ABC SS=0,57037 Dal modello Y=I+A A+2/3C+1/3AC
SS=95,00416
274
SS=78,68025
SS=177,667604
In particolare questo ultimo risultato conferma la prima ipotesi ovvero che sia A che AC siano significativi e infatti con laggiunta di A (per 2/3) si passa da SS(C-AC) = 84,00521 a SS(C+2/3A-1/3AC)= 177,667604 Questo confermato anche da: SS(A+2/3C+1/3AC) = 95,00416 perch sappiamo che A+AC non significativo, A+1/3AC gi pi significativo125 e con laggiunta di 2/3C diventa molto significativo. La mia analisi su tutti gli effetti (forzatamente qualitativa visto che il piano ridotto) dunque la seguente: La potenza del motore (A), e la portata (C) aumentano significativamente con CL95% il consumo di carburante e cos pure il tratto in montagna (B) rispetto alla sola autostrada; linterazione fra potenza del motore e portata (AC) lo riduce in modo significativo: ci cosa vuol dire? Pensiamo al significato dellinterazione (uso il simbolo << per dire significativamente negativo): AC = 101 + 000 +111 + 010 - 100 - 001 - 110 - 011 << 0 Quindi, visto che si vuole ridurre il consumo, conviene usare un veicolo con potenza minore quando la portata minore e potenza maggiore con portata maggiore: questa una scoperta che pu portare dei notevoli vantaggi economici; le altre interazioni sembrano esercitare unazione quasi irrilevante sul consumo. Visto che linterazione AC sembra significativa qualcuno potrebbe essere tentato di applicare il metodo BW su un modello contenente AC: rimarrebbe deluso perch troverebbe la matrice (X1T*X1) non invertibile perch, per questo piano, non esiste un modello che ponga in alias separati i 4 parametri che ritengo essere significativi (A,B,C,AC); dobbiamo quindi accontentarci dellanalisi fatta con gli altri modelli. Questo un caso fortunato in cui con 5 gradi di libert si riesce a fare uninferenza abbastanza convincente (e comunque non rigorosa, perch ci vorrebbero 8 stati di prova) su 7 effetti; ci dovuto anche al fatto che lanalisi dei VIF ci dice di poter trascurare la non ortogonalit del piano.
125
10.4.3 ESPERIMENTO COMPLETO Abbiamo detto che in realt non vi erano solo 2 livelli della potenza ma 4 (P=330CV, P=360CV, P=380CV, P=420CV) per cui la stratificazione completa del piano era:
Potenza (A) Percorso (B) 1 1 1 1 2 2 2 2
Tabella 125: esperimento completo
1 1
1 2
2 1
2 2
3 1
3 2
4 1
4 2
Portata (C)
39,7 38,4 37,5 40 43,4 42,6 42,5 43,9 39,2 39,6 40,4 40,7 41,9 42,5 44,5 44,8 40 42,2 41,5 41,6 41,3 44,5 45,5 45
In realt le 4 replicazioni nei 10 stati di prova sono sempre state fatte nellordine da 4 autisti diversi, per cui, volendo tenere conto anche di questo fattore, non si avrebbero pi gradi di libert per il residuo; bisogna dunque forzatamente trascurare il fattore autista anche se ci potrebbe essere non appropriato. Le medie per ogni stato di prova sono riportate nella tabella sotto:
Potenza (A) Percorso (B) Portata (C) 1 2
Tabella 126: medie negli stati di prova
1 1
1 2
2 1
2 2
3 1
3 2
4 1
4 2
Inizialmente non cera il veicolo a potenza 2 (360CV) e si vede dunque che non erano sperimentati gli stati di prova con: alta potenza (380 e 420) e bassa portata bassa potenza (330) e alta portata perch non esistevano fisicamente i veicoli per sperimentarli. Come mai ci? Pu darsi che da prove precedenti fosse risultato che simili veicoli consumassero troppo: se cos fosse, sarebbe confermata linterazione significativamente negativa fra potenza e portata che ho trovato nel paragrafo precedente (considerando per anche il veicolo 2). Si era aggiunto il veicolo a potenza 2 proprio per valutare lintroduzione di un veicolo a potenza bassa (360) ma, se giusta lanalisi semplificata del paragrafo
276
precedente, linterazione AC resta significativa, dunque per portate maggiori una potenza minore non ridurr significativamente il consumo. Ora che abbiamo a disposizione la stratificazione completa (10 stati), possiamo vedere se la stratificazione semplificata (5 macrostati) del paragrafo precedente rappresentava adeguatamente la realt. Rifacciamo la tabella ANOVA con 10 trattamenti: SS Totale Media Totale corretto Trattamenti Residuo 65301,05 65003,90625 297,14375 262,93125 34,2125 df 40 1 39 7,619071 9 29,21458 25,617464 30 1,140417 2,210697 MS F calcolata F0,95(10,30)
La differenza fra SStr_c (completo) e SStr_s (semplificato), ha 4 gradi di libert e va confrontata col nuovo residuo per vedere se la semplificazione fatta prima era ammissibile: SStr_c - SStr_s = 262,93125 - 258,38 = 4,55125
F calc. = (4,55125/4) / 1,140417 = 0,997716 < F0,95 (4,30) = 2,689632
dunque la conglobazione dei 4 livelli di potenza in 2 livelli era ammissibile; spero che il lettore si renda conto che lipotesi nulla testa sopra, posta nei parametri del modello, cos formalizzata: 111 = 211 121 = 221 312 = 412 322 = 422 inutile, quindi a questo punto costruire un modello FR con 10 parametri e ricavare la struttura degli alias col metodo BW perch sarebbe di difficile interpretazione, visto che: il piano irregolare ci sono 3 componenti per il fattore potenza Si possono per fare altre considerazioni interessanti; ad esempio sul nuovo veicolo 2 (P=360CV), si pu verificare il fatto che non vi sia interazione significativa fra percorso e portata, visto che lunico veicolo provato sia con 40t che 44t.
277
16 1 15 3 1 1 1 12 6,725958 30,61396 64,40063 27,30062 0,140625 0,753958 85,41669 4,7472212 36,20973 4,7472212 0,186516 4,7472212
Come si vede linterazione BC irrilevante per il veicolo 2: questo conferma ci che ho trovato nel paragrafo precedente con unanalisi approssimata (perch ci sono solo 6 stati su 8). Possiamo ancora fare qualche verifica: ad esempio nel caso dei 4 stati a 40t di portata, possiamo verificare che linterazione AB non significativa
SS df MS F calcolata F0,95 (.,12)
16 1 15 3 1 1 1 12 2,318292 8,437292 25,25063 0,030625 0,030625 0,788542 10,69987 32,02193 0,038838 0,038838 4,747221 4,747221 4,747221
In questo caso, oltre a confermare il fatto che AB non significativo (limitatamente a basse portate) scopriamo una cosa molto interessante: che per le basse potenze, laumento di potenza non comporta un aumento significativamente maggiore di consumo. Una tabella simile a quella sopra si ha se confrontiamo i veicoli 2 e 3 con 44t di portata: la potenza A e linterazione AB fra potenza e percorso restano non significative; se si confrontano invece i veicoli 3 e 4 si trova che la potenza A aumenta il consumo in modo significativo. Non presento i risultati di questi ultimi 2 confronti, ottenibili, come quelli di tab. 26 e 27, con il metodo di Yates.
278
Alla fine possiamo dire che: il tratto in montagna aumenta regolarmente il consumo la portata aumenta regolarmente il consumo linterazione fra portata e potenza aumenterebbe ulteriormente il consumo e infatti io penso che per questo motivo non fossero stati realizzati veicoli a bassa potenza per portate alte e ad alta potenza per portate basse; infatti il nuovo veicolo (P=360CV) non diminuisce il consumo in modo significativo da quello con P=380CV proprio per linterazione fra portata e potenza la potenza aumenta significativamente il consumo solo per potenze alte, dunque il nuovo veicolo (P=360CV) pu essere utilmente utilizzato per portate basse in alternativa al veicolo con P=330CV; se si preferisce usare veicoli a potenza minore, si pu usare il veicolo 2 anche per portate a 44t al posto di quello a P=380CV: il consumo non significativamente diverso le altre interazioni non sembrano significative
Questo caso, pi vicino alla realt, ci fa capire che per casi complessi meglio condurre delle analisi semplificate e parziali, piuttosto che scrivere dei modelli lunghi che danno luogo a delle matrici enormi e che forniscono risultati difficilmente interpretabili. In questo caso poi lobiettivo primario dellesperimento reale non era tanto scoprire la significativit dei fattori quanto vedere se il nuovo veicolo con P=360CV poteva essere pi efficiente degli altri.
279
I 1 1 1 1 1 1 1 1 1 1 1 1
A 1 1 -1 1 1 1 -1 -1 -1 1 -1 -1
B -1 1 1 -1 1 1 1 -1 -1 -1 1 -1
C 1 -1 1 1 -1 1 1 1 -1 -1 -1 -1
D -1 1 -1 1 1 -1 1 1 1 -1 -1 -1
E -1 -1 1 -1 1 1 -1 1 1 1 -1 -1
? -1 -1 -1 1 -1 1 1 -1 1 1 1 -1
? 1 -1 -1 -1 1 -1 1 1 -1 1 1 -1
? 1 1 -1 -1 -1 1 -1 1 1 -1 1 -1
? 1 1 1 -1 -1 -1 1 -1 1 1 -1 -1
? -1 1 1 1 -1 -1 -1 1 -1 1 1 -1
? 1 -1 1 1 1 -1 -1 -1 1 -1 1 -1
Y 56 93 67 60 77 65 95 49 44 63 63 61
Gi sappiamo che, usando il metodo BW sul modello corrispondente alla matrice sopra, otteniamo la base ortogonale: I + interazioni di ordine superiore A + (1/3)*(-BC+BD+BE-CD-CE-DE) + interazioni di ordine superiore B + (1/3)*(-AC+AD+AE-CD+CE-DE) + interazioni di ordine superiore C + (1/3)*(-AB+AD+AE-CD+CE-DE) + interazioni di ordine superiore D + (1/3)*(AB-AC-AE-BC-BE-CE) + interazioni di ordine superiore E + (1/3)*(AB-AC-AD+BC-BD-CD) + interazioni di ordine superiore (1/3) * (-AB+AC-AD+AE+BC-BD-BE+CD-CE-DE) + interazioni di ordine superiore (1/3) * (-AB-AC-AD+AE-BC+BD-BE+CD-CE-DE) + interazioni di ordine superiore (1/3) * (AB+AC-AD-AE-BC-BD-BE-CD+CE+DE) + interazioni di ordine superiore (1/3) * (-AB-AC-AD-AE+BC+BD-BE-CD-CE-DE) + interazioni di ordine superiore (1/3) * (-AB-AC+AD-AE-BC-BD-BE+CD+CE-DE) + interazioni di ordine superiore (1/3) * (-AB+AC+AD-AE-BC-BD+BE-CD-CE+DE) + interazioni di ordine superiore Se trascuriamo i termini di ordine superiore al primo (come viene fatto anche in Box e Meyer 1993), possiamo stimare i seguenti alias: A + (1/3)*(-BC+BD+BE-CD-CE-DE) B + (1/3)*(-AC+AD+AE-CD+CE-DE) C + (1/3)*(-AB+AD+AE-CD+CE-DE) D + (1/3)*(AB-AC-AE-BC-BE-CE) E + (1/3)*(AB-AC-AD+BC-BD-CD) (1/3) * (-AB+AC-AD+AE+BC-BD-BE+CD-CE-DE) (1/3) * (-AB-AC-AD+AE-BC+BD-BE+CD-CE-DE) (1/3) * (AB+AC-AD-AE-BC-BD-BE-CD+CE+DE) (1/3) * (-AB-AC-AD-AE+BC+BD-BE-CD-CE-DE) (1/3) * (-AB-AC+AD-AE-BC-BD-BE+CD+CE-DE) (1/3) * (-AB+AC+AD-AE-BC-BD+BE-CD-CE+DE) = 2,916667 = 10,58333 = -0,75 = 3,583333 = -5,25 = -1,083333 = 1,083333 = -4,416667 = 3,583333 = -0,25 = -4,916667
280
I numeri sopra sono delle stime dei contrast; da essi posso passare alle somme dei quadrati elevando al quadrato e moltiplicando per 12 e poi dovrei confrontare con il residuo col test F. C per un problema: lesperimento reale non replicato nei 32 stati dunque non si ha una stima del residuo infatti Box et al. (1978) lo analizzano ricorrendo alle carte di probabilit seminormali, senza fare lANOVA. Io per ho bisogno di una stima del residuo per confrontare i 2 approcci alla struttura degli alias, quello tradizionale con la base ortogonale e quello mio con la base non ortogonale trovata nel par. 9.6. Come stimo allora il residuo? Guardo tutto il piano completo con i 32 stati di cui fornisco i dati nella tab. 27
i a b ab c ac bc abc
61 53 63 61 53 56 54 61
69 61 94 93 66 60 95 98
56 63 70 65 59 55 67 65
44 45 78 77 49 42 81 82
Da questa si calcolano facilmente tutti gli effetti; nella tab. 28 riporto le 32 somme dei quadrati:
I A B C D E AB AC
Tabella 132
6,125 ABC 6,125 ABD 1404,5 ACD 36,125 BCD 0,125 ABE 32 ACE 6,125 ADE 968 BCE
18 BDE 15,125 CDE 4,5 ABCD 10,125 ABCE 28,125 ABDE 50 ACDE 3,125 BCDE 0,125 ABCDE
Visto che le 16 interazioni di ordine superiore al primo sono trascurabili (secondo lanalisi di Box et al. 1978), posso conglobare nel residuo le loro 16 somme dei quadrati (la somma 164); il residuo cos costruito avr quindi 16 gradi di libert: la stima numerica della varianza della popolazione vale 10,25. Vediamo i risultati che otteniamo con la base ortogonale:
ALIAS
SS=MS
df
I A + (1/3)*(-BC+BD+BE-CD-CE-DE) B + (1/3)*(-AC+AD+AE-CD+CE-DE) C + (1/3)*(-AB+AD+AE-CD+CE-DE) D + (1/3)*(AB-AC-AE-BC-BE-CE) E + (1/3)*(AB-AC-AD+BC-BD-CD) (1/3) * (-AB+AC-AD+AE+BC-BD-BE+CD-CE-DE) (1/3) * (-AB-AC-AD+AE-BC+BD-BE+CD-CE-DE) (1/3) * (AB+AC-AD-AE-BC-BD-BE-CD+CE+DE) (1/3) * (-AB-AC-AD-AE+BC+BD-BE-CD-CE-DE) (1/3) * (-AB-AC+AD-AE-BC-BD-BE+CD+CE-DE) (1/3) * (-AB+AC+AD-AE-BC-BD+BE-CD-CE+DE)
52404,0833 102,083333 1344,08333 6,75 154,083333 330,75 14,0833333 14,0833333 234,083333 154,083333 0,75 290,083333
1 1 1 1 1 1 1 1 1 1 1 1 9,95934959 131,130081 0,65853659 15,0325203 32,2682927 1,37398374 1,37398374 22,8373984 15,0325203 0,07317073 28,300813 4,4939981 4,4939981 4,4939981 4,4939981 4,4939981 4,4939981 4,4939981 4,4939981 4,4939981 4,4939981 4,4939981
Dalla tabella si vede che qualche interazione significativa perch 3 degli alias che contengono la somma delle interazioni sono significativi, ma non siamo in grado di individuare quali e non sappiamo se qualche interazione responsabile delle SS degli alias di A,B,D,E. Un risultato del genere lascia molto a desiderare; ci dovuto al fatto che, per mantenere lortogonalit e la semplicit di calcolo, abbiamo messo nel modello 6 parametri fittizi per cui sprechiamo 6 g.l. per avere quelle somme di interazioni (pesate per 1/3) molto difficili da interpretare. Se per abbandoniamo la base ortogonale e la matrice di Hadamard per analizzare i dati e passiamo a un modello che contenga 12 parametri reali possiamo aggiungere 6 interazioni che i tecnici ritengono interessanti; supponiamo che vogliano valutare le interazioni AB, AC,AD,AE,AE,BD,BE; il modello diventa Y = I+A+B+C+D+E+AB+AC+AD+AE+BD+DE la base completa per questo modello gi stata trovata nella tab.3 del par. 9.5; essa molto pi semplice rispetto a prima e per di pi offre la possibilit di studiare 6 interazioni in pi. Fra le 6 interazioni ho messo nel modello le due (BD, DE) che sapevo significative gi in partenza dal piano completo: ci non , a mio parere, restrittivo perch nella realt penso che i tecnici abbiano delle conoscenze sul fenomeno che gli permettano di scegliere, su 10 interazioni, 6 di esse fra le quali vi sono quelle importanti; anche se ci non fosse vero, il confounding fra gli effetti comunque pi semplice rispetto a quello generato dallanalisi classica con la matrice di Hadamard. La base, tralasciando le interazioni di ordine pi elevato, :
282
I A-BC B-CD C+BE D-CE E+BC+BE-CD-CE AB+CE AC+BC+BE-CD-CE AD+BE AE+CD BD+BC+BE-CD-CE DE-BC Scrivendo le equazioni normali full-regression si trovano le stime numeriche dei 12 alias sopra, = (X1T*X1)-1*X1T*Y da cui si passa alle somme dei quadrati (con la solita formula guardando i coefficienti nella matrice (X1T*X1)-1*X1T); dalla matrice delle covarianze si ricava la matrice di correlazione e la sua inversa:
I I A B C D E A B C D E AB AC AD AE BD DE
1,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
0,000 2,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 1,054 -0,667 0,000 0,000 2,000 0,000 0,000 0,000 0,000 -1,054 0,667 0,667 0,000 -0,667 0,000 0,000 0,000 2,000 0,000 0,000 -0,667 0,000 -0,667 -0,667 -1,054 -0,667 0,000 0,000 0,000 0,000 2,000 0,000 0,667 -1,054 0,000 -0,667 0,000 0,000 0,000 0,000 0,000 0,000 0,000 4,500 1,000 -1,581 -1,000 0,000 -1,581 0,000
AB 0,000 0,000 0,000 -0,667 0,667 1,000 2,000 0,000 0,000 0,000 0,000 0,667 AC 0,000 0,000 -1,054 0,000 -1,054 -1,581 0,000 5,000 0,000 0,000 -1,667 1,054 AD 0,000 0,000 0,667 -0,667 0,000 -1,000 0,000 0,000 2,000 0,000 0,000 0,000 AE 0,000 0,000 0,667 -0,667 -0,667 0,000 0,000 0,000 0,000 2,000 1,054 0,000 BD 0,000 1,054 0,000 -1,054 0,000 -1,581 0,000 -1,667 0,000 1,054 5,000 0,000 DE 0,000 -0,667 -0,667 -0,667 0,000 0,000 0,667 1,054 0,000 0,000 0,000 2,000
Tabella 134: inversa della matrice di correlazione
Notiamo che i VIF degli stimatori non sono molto piccoli, comunque restano al di sotto del valore limite (10) consigliato da Marquardt (1970) quindi possiamo fare lanalisi di significativit classica. Ricordiamo che il VIF misura lincremento della varianza dovuto alla non ortogonalit: in un piano ortogonale a 12 stati non replicati la varianza degli stimatori del modello FR dovrebbe essere 1/122, il fatto che il VIF dello stimatore
283
dellalias di AC sia 5 vuol dire che la varianza di tale stimatore 5/122: il lettore pu verificare questo risultato, cos come quelli degli altri stimatori, scrivendo la matrice (X1T*X1)-1. Per lANOVA, come prima, usiamo il residuo pooled di 10,25 con 16 gradi di libert. La tabella la seguente:
SS=MS df F calcolata F0,95 (1,16)
I A-BC
B-CD
52404,08 2,666667 368,1667 0,666667 51,04167 48,16667 5,041667 11,26667 0,166667 7,041667 84,01667 140,1667
1 1 1 1 1 1 1 1 1 1 1 1 0,260163 35,9187 0,065041 4,979675 4,699187 0,49187 1,099187 0,01626 0,686992 8,196748 13,6748 4,493998 4,493998 4,493998 4,493998 4,493998 4,493998 4,493998 4,493998 4,493998 4,493998 4,493998
C+BE
D-CE E+BC+BE-CD-CE
Come si vede, si individuano tutti gli alias contenenti gli effetti che a priori sapevamo essere significativi ovvero B,D,E,BD e DE. Pur nella limitatezza di questo esempio che simulato a partire dal piano completo e non replicato, mi sembra evidente la superiorit di questo approccio; abbiamo sacrificato un po di ortogonalit (precisione) ma abbiamo potuto studiare 6 elementi in pi rispetto a prima. Questo un caso in cui un piano sperimentale, tradizionalmente ritenuto ortogonale (solo perch si elaborava con la matrice di Hadamard che ortogonale), beneficia parecchio di unanalisi non ortogonale, che permette di testare delle quantit molto pi interessanti. Questo ci fa capire che in generale lortogonalit una propriet che non riguarda il piano ma il tipo di modello che viene adottato nellanalisi, ecco perch sarebbe meglio parlare di analisi ortogonale che di piano ortogonale (sebbene nel resto della tesi io stesso abbia usato spesso questa locuzione); ovvio che quando la struttura del piano regolare lanalisi ortogonale quella da preferirsi.
284
10.6 PIANO SPERIMENTALE CON 4 FATTORI DI CONTROLLO A 3 LIVELLI E 3 FATTORI DI RUMORE A 2 LIVELLI
Questo caso, analizzato da Byrne e S.Taguchi, stato pubblicato su Quality Progress nel 1987 ma a quanto riferisce Galetto (1989a) era gi stato presentato nel 1984 a un convegno sui metodi Taguchi e nel 1986 alla conferenza ASQC; questo un segno molto chiaro della martellante pubblicit riguardo i metodi Taguchi: la stessa relazione stat ripubblicata 3 volte in 4 anni. Lasciamo da parte per ora lanalisi secondo le tecniche taguchiane; lo scopo di questo paragrafo usare i concetti del cap.8 e 9 per evidenziare alcuni errori condotti da Galetto (1989a) nellanalisi del caso di Byrne e Taguchi. Vi sono 4 fattori di controllo a 3 livelli e 3 fattori di rumore a 2 livelli; Taguchi introduce i fattori di rumore non perch gli interessi valutarne leffetto sulla risposta ma per vedere la variabilit che essi inducono nelle varie combinazioni dei fattori di controllo per scegliere la combinazione che massimizza la risposta e, nel contempo, minimizza la variabilit. Per ogni combinazione dei fattori di controllo viene quindi sperimentata una combinazione dei fattori di rumore; si hanno quindi 2 matrici dellesperimento: linner array che contiene le combinazioni dei fattori di controllo e louter array che contiene quelle dei fattori di rumore: le 2 matrici sono frazionate indipendentemente. In questo caso linner array ha dimensione 3*3 (2 tagli), e louter array ha dimensione 2*2*2 (nessun taglio): il piano sperimentale risultante quello della cosiddetta product array con 72 stati di prova, contrapposta alla combined array che non distingue fra fattori di controllo e di rumore. Si ottiene una tabella come quella sotto in cui sulle righe vengono poste le combinazioni dei fattori di controllo (CF) e sulle colonne quelle dei fattori di rumore (NF):
1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8
Tabella 136: product array, combinazioni dei CF sulle righe e quelle dei NF sulle colonne
Per analizzare il piano abbiamo 2 strade davanti a noi: trascurare i fattori di rumore: avremmo quindi un piano ridotto 34-2 in cui i 9 stati sperimentali vengono replicati 8 volte; in questo caso il residuo avrebbe 63 gradi di libert non trascurare i fattori di rumore: si ha un piano ridotto 23*34-2 con 72 stati sperimentali senza replicazioni per cui il residuo avrebbe 0 gradi di libert; in questo caso per si possono trascurare le interazioni di ordine pi elevato ed attribuirne i gradi di libert al residuo.
285
La cosa da capire subito che in ogni caso siamo davanti a un piano ridotto quindi gli effetti che stimiamo sono forzatamente aliased. I dati sulla risposta Y sono indicati nella tabella sotto:
Fattori di E rumore Fattori di controllo
2 2 2
2 2 1
2 1 2
2 1 1
1 2 2
1 2 1
1 1 2
1 1 1
G C 1 2 3 2 3 1 3 1 2 D 1 2 3 3 1 2 2 3 1
A 1 1 1 2 2 2 3 3 3
B 1 2 3 1 2 3 1 2 3
19,1
21,9 24,2 19,8 19,7 19,6 19,4 16,2 24,7 23,2 18,9
20,4 23,3 18,2 22,6 15,6 19,1 16,7 16,3 21 18,6 18,9 17,4 18,3 20 16,3 16,2 25,3 27,5 21,4 25,6 25,1 19,4 18,6 19,7 24,7 22,5 19,6 14,7 19,8 21,6 24,3 18,6 16,8 23,6 18,4 19,1 16,4 24,4 23,2 19,6 17,8 16,8 15,1 15,6 14,2 28,6 22,6 22,7 23,1 17,3 19,3 19,9 16,1
Tabella 137
Analizziamo i dati trascurando i fattori di rumore, trattiamo dunque le 8 osservazioni per le diverse combinazioni dei fattori di rumore, come replicazioni nello stesso stato sperimentale dei fattori di controllo. Si ha la tabella ANOVA:
SS df MS F calcolata F0,95 (8,63)
La SSreg dovuta ai fattori di controllo (aliased) sono al limite della significativit ma ci dovuto al fatto che nel residuo vi sono gli effetti dei fattori di rumore dunque in realt MSe pi basso. Per ora occupiamoci di scomporre i trattamenti in 8 componenti: logico assegnare gli 8 gradi di libert ai 4 fattori (aliased), ciascuno dei quali ha 2 gradi di libert, uno per la componente lineare (Al, Bl,...) e uno per quella quadratica (Aq, Bq,...). Le componenti dellinterazione sono confuse con quelle dei fattori, quindi non possono essere studiate con questo piano; non per niente questo piano progettato secondo le tecniche preconfezionate di Taguchi che ignorano le interazioni.
286
Per trovare il confounding presente in tale piano sperimentale, applichiamo il metodo di Box-Wilson al modello: Y = I+Al+Aq+Bl+Bq+Cl+Cq+Dl+Dq Y = X1* Per le componenti lineari e quadratiche uso la codifica dei polinomi ortogonali. La matrice X1 la seguente:
I 1 1 1 2 2 2 3 3 3 1 2 3 1 2 3 1 2 3 1 2 3 2 3 1 3 1 2 1 2 3 3 1 2 2 3 1 Al Aq Bl Bq Cl Cq Dl Dq
1 1 1 1 1 1 1 1 1
-1 -1 -1 0 0 0 1 1 1
1 1 1 -2 -2 -2 1 1 1
-1 0 1 -1 0 1 -1 0 1
1 -2 1 1 -2 1 1 -2 1
-1 0 1 0 1 -1 1 -1 0
1 -2 1 -2 1 1 1 1 -2
-1 0 1 1 -1 0 0 1 -1
1 -2 1 1 1 -2 -2 1 1
Nella matrice X2 non metto tutte le possibili interazioni (in tutto sarebbero 72 componenti) ma solo le 16 componenti delle interazioni del primo ordine : Al Al Aq Aq Al Al Aq Aq Al Al Aq Aq Bl Bl Bq Bq Bl Bl Bq Bq Cl Cl Cq Cq * * * * * * * * * * * * * * * * * * * * * * * * Bl Bq Bl Bq Cl Cq Cl Cq Dl Dq Dl Dq Cl Cq Cl Cq Dl Dq Dl Dq Dl Dq Dl Dq 1 -1 -1 0 0 0 0 -1 1 2 0 0 -1 -1 1 0 1 1 -1 -1 0 0 0 0 1 2 0 0 1 1 0 1 1 -1 -1 0 0 0 0 1 2 1 1 1 1 -1 -1 0 1 0 0 0 1 2 0 1 1 4 1 1 -1 -1 0 1 0 0 0 0 1 0 2 0 1 1 1 4 1 1 1 -1 -1 0 1 0 0 0 1 0 1 1 4 1 1 0 -2 2 -2 4 1 1 0 -2 4 0 -2
1 -1 -1
1 -1 -1 0 0 1
0 -2 -2 2 -2 0 1
0 -2 -1 -1 1 1 0 -2
0 -2 -2 1 -1 2 0 -2 0 -2 1 1 2 -2
0 -2 -2 2 -2 1 1 1
0 -2 -2 1 -1 1 0
2 -2 -1 0 -2 0 -2 1
0 -2 -2 1 -1 1 1
4 -1 1 1 0
0 -2
0 -2 -1 -1 0 -2
0 -2 0 0
0 -2
0 -2 -1
1 -1
2 -2
0 -2 -2 -1 -1 1 -1
0 -2
0 -2 -1
1 -1
0 -2 -1
Tabella 140: matrice X2 ridotta alle sole interazioni del primo ordine
Il confounding trovato col metodo BW sar ovviamente limitato a questa 16 componenti. La matrice delle covarianze (X1T*X1)-1 diagonale quindi il piano
287
ortogonale (in realt lanalisi che facciamo che ortogonale) e ci lo sapevo gi in partenza visto che Taguchi usa sempre piani per cui comoda unanalisi ortogonale:
I Al Aq Bl Bq Cl Cq Dl Dq
I Al Aq Bl Bq Cl Cq Dl Dq
0,11111 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0
0 0 0
0 0 0 0
0 0 0 0 0
0 0 0 0 0 0
0 0 0 0 0 0 0 0,05556
0,16667 0 0 0 0 0 0 0
0,05556 0 0 0 0 0 0
0,16666 0 0 0 0 0
0,05556 0 0 0 0
0,16667 0 0 0
0,05556 0 0
0,16667 0
sono ovviamente le stime dei contrast coi coefficienti dei polinomi ortogonali (a parte il solito fattore moltiplicativo che non influenza lanalisi); dai contrast passiamo alla somma dei quadrati per fare il test di significativit, che non un test del tutto corretto perch per ora stiamo trascurando i fattori di rumore e quindi il residuo (denominatore del test F) contiene leffetto dei attori di rumore. Essendo ortogonali, le 2 componenti dei fattori, si possono sommare le rispettive somme dei quadrati, ottenendo una somma dei quadrati associata al fattore con 2 gradi di libert. La decomposizione (ortogonale) di SStr quindi:
288
Trattamenti Al Aq A Bl Bq B Cl Cq C Dl Dq D Residuo
SS 156,2277 15,07521 35,50174 50,57694 5,07 8,313611 13,38361 58,30021 10,2934 68,59361 22,00521 1,668403 23,67361 689,3088
df 8 1 1 2 1 1 2 1 1 2 1 1 2 63
MS 19,52847 15,07521 35,50174 25,28847 5,07 8,313611 6,691806 58,30021 10,2934 34,29681 22,00521 1,668403 11,83681 10,94141
F calcolata
1,377812 3,244713 2,311263 0,463377 0,75983 0,611604 5,328401 0,940775 3,134588 2,011186 0,152485 1,081836
F0,95
3,993364 3,993364 3,142809 3,993364 3,993364 3,142809 3,993364 3,993364 3,142809 3,993364 3,993364 3,142809
Per i fattori di controllo si ritrovano le stesse SS calcolate in Galetto (1989a); solo che bisogna rendersi conto che gli effetti dei fattori sono aliased con quelli delle interazioni: infatti se scriviamo la matrice degli alias (trasposta per comodit di impaginazione):
I Al*Bl 0,000 Al*Bq 0,000 Aq*Bl 0,000 Aq*Bq 0,000 Al*Cl 0,000 Al*Cq 0,000 Aq*Cl 0,000 Aq*Cq 0,000 Al*Dl 0,000 Al*Dq 0,000 Aq*Dl 0,000 Aq*Dq 0,000 Bl*Cl 0,000 Bl*Cq 0,000 Bq*Cl 0,000 Bq*Cq 0,000 Bl*Dl 0,000 Bl*Dq 0,000 Bq*Dl 0,000 Bq*Dq 0,000 Cl*Dl 0,000 Cl*Dq 0,000 Cq*Dl 0,000 Cq*Dq 0,000 Al 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 -0,500 -0,500 0,500 -1,500 -0,500 0,500 -0,500 -1,500 -0,500 -0,500 0,500 -1,500 Aq 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,167 -0,500 0,500 0,500 0,167 0,500 -0,500 0,500 0,167 -0,500 0,500 0,500 Bl 0,000 0,000 0,000 0,000 -0,500 -0,500 0,500 -1,500 -0,500 0,500 0,500 1,500 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 1,000 1,000 0,000 Bq 0,000 0,000 0,000 0,000 0,167 -0,500 0,500 0,500 -0,167 -0,500 -0,500 0,500 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,333 0,000 0,000 -1,000 Cl -0,500 0,500 0,500 1,500 0,000 0,000 0,000 0,000 -0,500 -0,500 0,500 -1,500 0,000 0,000 0,000 0,000 0,000 1,000 1,000 0,000 0,000 0,000 0,000 0,000 Cq -0,167 -0,500 -0,500 0,500 0,000 0,000 0,000 0,000 0,167 -0,500 0,500 0,500 0,000 0,000 0,000 0,000 0,333 0,000 0,000 -1,000 0,000 0,000 0,000 0,000 Dl -0,500 -0,500 0,500 -1,500 -0,500 0,500 0,500 1,500 0,000 0,000 0,000 0,000 0,000 1,000 1,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 Dq 0,167 -0,500 0,500 0,500 -0,167 -0,500 -0,500 0,500 0,000 0,000 0,000 0,000 0,333 0,000 0,000 -1,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
289
2 - LApproccio Scientifico alla Qualit Tabella 142: matrice degli alias del piano taguchiano
Vediamo che tutte le interazioni sono confuse con i fattori non coinvolti nellinterazione: ad esempio le 4 componenti dellinterazione AB sono confuse nelle componenti di C e D, le 4 di AC sono confuse con B e D, AD con B e C.... E infatti se sommiamo la somma dei quadrati di C e D, otteniamo la SS che Galetto (1989a) attribuisce allinterazione AB e cos per tutte le altre interazioni si ritrovano i risultati presentati da Galetto: AB = C+D AC = B+D AD = B+C BC = A+D BD = A+C CD = A+B 92,2672 37,0572 81,9772 74,2506 119,171 63,9606
Tabella 143: dipendenza delle interazioni dai fattori generata dal confounding
ma quelle di tab.41 non sono le somme dei quadrati delle interazioni; come abbiamo gi chiarito in questo piano le interazioni non possono essere testate perch Taguchi costruisce dei piani che testano solo i fattori. Le SS di tab.41 sono le interazioni aliased con i fattori quindi servono a ben poco e infatti si vede chiaramente che sono dipendenti dalle somme dei quadrati dei fattori (aliased con le interazioni): assolutamente sbagliato (come detto nel par. 7.6) porre in una tabella ANOVA i fattori con 2 gradi di libert e le interazioni con 4 gradi di libert e calcolare il residuo per differenza di questa componenti non indipendenti (!!!), ovvero scrivere la seguente tabella:
SS df
Totale corretto 845,5365 A B C D AB AC AD BC BD CD Residuo 50,57694 13,38361 68,59361 23,67361 92,26722 37,05722 81,97722 74,25056 119,1706 63,96056 220,6254
71 2 2 2 2 4 4 4 4 4 4 39
290
invece possibile diminuire i gradi libert del residuo introducendo i fattori di rumore; se introduciamo il fattore E, ci equivale a sdoppiare (par.9.6) i 9 stati sperimentali, arrivando quindi a 18 e diminuendo contemporaneamente i gradi di libert del residuo da 63 a 54. Si aggiungono 9 gradi di libert ma questi non possono essere attribuiti alle interazioni AB,AC,AD,BC,BD,CD perch queste restano confuse con i fattori A,B,C,D; come chiarito nel par. 9.6, aggiungendo un fattore allanalisi, gli alias non cambiano; i nuovi 9 gradi di libert vanno dunque attribuiti a E e alle sue interazioni con i fattori di controllo per un totale di 9 componenti (aliased con quelle trascurate). Se si aggiungesse un altro fattore di rumore (F), si passerebbe da 18 a 36 stati di prova e i 18 gradi di libert in pi riguarderebbero le componenti di F e le sue interazioni; il residuo passerebbe a 36 gradi di libert e dovrebbe tenere conto della variabilit (2 replicazioni) allinterno dei nuovi 36 stati di prova. Se infatti aggiungiamo anche lultimo fattore di rumore (G) abbiamo 72 stati di prova distinti non replicati e il residuo ha zero gradi di libert per cui bisogna attribuire ad esso le interazioni di ordine elevato che coinvolgono i 3 fattori di rumore. evidente che questa una situazione molto insoddisfacente per gli obbiettivi della sperimentazione classica perch il piano non permette di testare le interazioni fra i fattori pi importanti (quelli di controllo) e si sprecano tantissimi gradi di libert per analizzare delle interazioni poco interessanti; ma Taguchi, come detto nel cap.3, si propone degli obiettivi diversi (senza peraltro raggiungerli, cap.11): trovare la combinazione dei fattori di controllo che massimizza la risposta e nel contempo minimizzi la variabilit allinterno degli stati, dovuta ai fattori di rumore, che non possono essere controllati nelle normali condizioni di uso e di esercizio. Per raggiungere un obiettivo del genere bisognerebbe fare molte prova in pi ecco perch Taguchi costretto a trascurare le interazioni fra i fattori di controllo. Ecco perch sono abbastanza critico, in generale, verso unanalisi classica ex-post dei risultati di un piano progettato secondo criteri taguchiani in cui impossibile rilevare leffetto delle interazioni. Il confronto fra metodologia classica e quella di Taguchi va fatto gi dalla costruzione del piano sperimentale, a parit di stati sperimentali126; in questo caso con la metodologia classica sarebbe convenuto considerare tutti 7 fattori allo stesso modo (non distinguendo fra controllo e rumore) e progettare le prove in modo che fossero testabili le 6 interazioni AB,AC,AD,BC,CD.
In realt, pi che sul numero delle prove, bisognerebbe ragionare sul costo di esse perch alcuni fattori possono essere variati pi facilmente (economicamente) di altri: questo per dipende da problema a problema. 291
126
CAPITOLO 11
degli esperimenti e cos nasce il famigerato signal-to-noise ratio per lanalisi dei risultati dellesperimento. In Occidente, fra gli anni 70 e 80 si diffonde il mito della Qualit giapponese e, come riportato in Steinberg e Hunter (1984), nascono delle leggende come quella che i giapponesi, grazie a Taguchi, riescono ad eseguire esperimenti con 100 fattori (!!!). Taguchi viene quindi invitato da grosse aziende americane negli Stati Uniti a tenere delle conferenze sui suoi metodi; allinizio le sue idee suscitano molto scetticismo proprio perch ignorano ci che la base della sperimentazione scientifica occidentale ma Taguchi riesce a catturare linteresse delle persone che contano nelle grosse aziende come la AT&T, la Ford, la ITT e la Xerox; in aggiunta a questo, potenti organizzazioni come l American Supplier Institute (ASI) danno una grande promozione allapplicazione delle sue idee nellindustria. Galetto (1995) riferisce che i metodi Taguchi sono stati presentati127 in Europa nel 1986 a Stoccolma durante il congresso EOQC. La pubblicit data a questi metodi stata quindi martellante (il caso del par. 10.6, fatto pubblicare dallASI 3 volte in 4 anni un esempio lampante): seguita unincredibile diffusione dei metodi Taguchi, anche a causa del rinnovato interesse per la Qualit come mezzo strategico di competizione per le aziende. La diffusione dei metodi Taguchi ha sortito 2 effetti, il primo positivo e il secondo negativo: molti ingegneri che prima sapevano poco o niente di DOE hanno iniziato a conoscere limportanza della pianificazione e analisi degli esperimenti, in particolar modo nei problemi della Qualit proprio perch hanno sentito parlare del DOE per la prima volta nellambito della metodologia di Taguchi, essi credono che Taguchi abbia inventato lexperimental design; la maggior parte degli ingegneri rimane quindi ignorante128 circa la Statistica sperimentale sviluppata in Occidente: la teoria dei piani fattoriali, il planned confounding, i 3 principi di Fisher, le equazioni normali, il concetto di significativit di un fattore, limportanza delle interazioni.... American engineers are learning about designed experiments...many of them are hearing about these things for the first time in the framework of the Taguchi methodology. Unfortunately, some of the more zealous disciples of Taguchi get overhead and proclaim that all the ideas of multifactor experimentation are Japanese, and were invented by Taguchi himself...(John 1990). Come mai allora la Statistica classica ha stentato ad imporsi nellindustria, mentre i metodi Taguchi in pochi anni hanno conquistato il mercato? Dai documenti che ho letto, credo di poter individuare 3 motivi fondamentali:
Lautore citato peraltro non afferma che stata la prima volta che i metodi Taguchi sono sbarcati in Europa quindi non escludo che si siano diffusi prima del 1986. La maggior parte degli utilizzatori dei metodi Taguchi rimangono ignoranti della Statistica classica, non Taguchi che, credo, abbia una certa competenza statistica. 293
128 127
1. Il preconcetto che le cose giapponesi siano migliori delle cose occidentali 2. La travolgente pubblicit di cui hanno goduto i metodi Taguchi 3. La metodologia di Taguchi non richiede allo sperimentatore di pensare allesperimento e di conoscere la Statistica Infatti per la pianificazione, Taguchi mette a disposizione un catalogo con le sue orthogonal array o lattices, per vari numeri di fattori e livelli; per lanalisi, ha inventato un SN ratio con cui elaborare (???) i dati per diversi tipi di problemi (esistono pi di 80 SN). Il tutto senza spiegare perch: le formula proposte spesso non hanno giustificazione statistica; non a caso Senturia (1989), uno dei reviewer della rivista Technometrics, suggerisce check your mathematical rigor at the door , prima di leggere i libri di Taguchi. Scopo dichiarato delle metodologie di Taguchi trovare la combinazione dei livelli dei fattori che ottimizza la loss function (che combina media e varianza della risposta), non avanzare nella conoscenza del fenomeno secondo lapproccio scientifico di Box di cui ho parlato nel cap.3. In Nair (1992), Shin Taguchi afferma che il ruolo dellingegnere non discover the causal relationships and to understand the mechanics of how things happen; lo scopo dellingegnere deve essere quello di achieve robust function ... to satisfy the consumer: tale filosofia in chiaro contrasto con lapproccio scientifico occidentale della sperimentazione.
11.2
SYSTEM,
PARAMETER,
...everyone can judge...whether the recent fascination with Taguchi methods is a panicked reaction by people looking for a miracle cure (Bisgaard 1989) Linsieme delle tecniche statistiche per raggiungere la Qualit chiamato da Taguchi, Quality Engineering; esso si compone di 3 fasi da applicare sia al progetto del prodotto che a quello del processo di produzione. SD: System design. la fase di sviluppo del prodotto e processo in cui fondamentale la capacit tecnologica e di innovazione degli ingegneri: bisogna scegliere materiali, parti e componenti; il prodotto deve avere le caratteristiche richieste dal mercato con la minima variabilit verso un certo target. PD: Parameter design. Si identificano i parametri pi importanti e bisogna trovare la loro combinazione ottimale, che consente di raggiungere il target specificato nella prima
294
fase con la minima variabilit verso fattori di rumore, che si incontrano nelle condizioni di produzione (PD di processo) e di uso del prodotto (PD di prodotto). TD: Tolerance design. Se la riduzione della variabilit attuata col PD non ancora sufficiente per raggiungere il target di mercato, allora bisogna usare dei componenti e macchinari di Qualit migliore; come dicono Byrne e Shin Taguchi (1987), Tolerance design typically means spending money. Queste 3 fasi rappresentano l off-line quality control (cap.3), ovvero il momento in cui si dovrebbe costruire la Qualit nel prodotto e nel processo produttivo; una volta che la produzione entra a regime, ci sono le tecniche on-line quality control, ovvero le carte di controllo, i diagrammi di causa-effetto, i diagrammi di Pareto... Come si vede non c nulla di fondamentalmente nuovo nella filosofia di Taguchi; egli ripropone i concetti di riduzione della variabilit introdotti da Shewart negli anni 20. La novit pi grossa costituita dal parameter design, che quello che io ho chiamato robust design nel cap.3: si vuole cercare la miglior combinazione dei livelli per cui la risposta operi su un certo valore (target) con una dispersione minima. per assurdo credere che Taguchi abbia inventato il robust design; come dice Box (in Nair 1992) Like most good ideas, designing for robustness has a considerable history: gi Gosset e Fisher avevano studiato allinizio del secolo il problema della robustezza; lindustria dolciaria ha sempre usato il robust design per rendere le ricette delle torte in scatola insensibili a variazioni dovute alla persona che legge le istruzioni. Lorenzen sostiene (in Nair 1992) che negli anni 40 si cercava di rendere i prodotti agricoli insensibili alle variazioni del tempo e alle condizioni del suolo (fattori di rumore) in modo che assicurassero il massimo raccolto (target) sfruttando linterazione fra questi 2 fattori di rumore e i prodotti agricoli (fattore di controllo). dunque evidente che Taguchi non ha inventato il robust design, tuttavia ha linnegabile merito di avere applicato questi principi alla sperimentazione industriale e di averli propagandati in tutto il mondo. I punti pi importanti evidenziati da Taguchi sono i seguenti: analizzare la varianza oltre che la media della risposta per ogni combinazione dei fattori di controllo, minimizzare la variabilit rispetto ai fattori di rumore, minimizzare la sensibilit del prodotto alle variazioni trasmesse dai suoi componenti Purtroppo these very important engineering ideas are however accompanied by proposed statistical procedures that are often unnecessarily complicated and inefficient, and sometimes naive (Box, in Kacker 1985)
295
Ecco perch, anche se L(y) pu essere pi complessa, viene di solito usata una lossfunction quadratica: essa fornisce sempre una buona approssimazione se si opera vicino al target. L(y) = K*(y-T)2 K la costante che lega i costi alla variabilit rispetto al target. L(Y) una funzione stocastica quindi a noi interessa il suo valore atteso, in funzione del valore atteso E(Y) = e della sua varianza VAR (Y) = Y2. R = E(L(Y)) = K * (Y - T)2 = k*[E(Y) - 2* E(Y) * T + E(T2)] R = K*[E(Y2) - 2 * * T + T2] = K* [VAR(Y) + ( T)2] = K* [ Y2 + ( T)2] La sperimentazione classica un caso particolare di minimizzazione del valore atteso della loss-function in cui si fa lipotesi di omoschedasticit ovvero Y2 = cost, e si considera solo la media delle risposte. La minimizzazione della loss-function, tenendo conto della media e della dispersione, quindi un obiettivo pi ambizioso e quindi, per il principio F1,
296
si capisce che richieder un numero pi elevato di prove, rispetto al DOE classico che considera solo la media: invece i taguchiani dicono che minimizzano la loss-function e risparmiano molte prove: la contraddizione evidente. Sia che 2 dipendono dai fattori di controllo ovvero i parametri di cui si vuole trovare la combinazione ottimale per minimizzare R. Se si vuole minimizzare R, innanzitutto bisogna trovarne uno stimatore corretto: Wheeler (1988), col metodo dei momenti ha trovato lo stimatore: MSD = s2 + (y. - T)2 dove s lo scarto quadratico medio campionario di Y e y. la media campionaria di Y, per una particolare combinazione dei fattori di controllo (trattamento). Per ogni trattamento possiamo dunque stimare il valore della loss-function. A qualcuno potrebbe venire in mente di fare lANOVA, considerano come funziona di risposta la loss-function. Sarebbe una buona idea? Io sono daccordo con Wheeler (1988) che dice di no, perch i fattori che influenzano significativamente la media potrebbero avere un effetto contrario a quelli che influenzano la varianza, e cos non si capirebbe quali sono i fattori importanti. ..it is rarely a good idea to use composite response variables.. (Wheeler 1988); molto meglio analizzare separatamente media e varianza dei trattamenti con 2 ANOVA: la prima su y. come risposta la seconda su s2 o meglio129 su log (s2), come risposta; il lettore si rende conto che in questo caso non si ha nessuna replicazione, dunque per capire i fattori che influenzano log (s2) bisogna o decidere a priori su quali effetti fare il pooling per stimare il residuo di log (s2) oppure usare tecniche grafiche come le carte di probabilit seminormali di Daniel (1976) o usare la distribuzione maxF, presentata in Wheeler (1988): sono tutte tecniche che io non conosco a fondo quindi non le esporr. C ancora un altro problema da considerare di cui parla Levi (1991), ovvero la scarsa precisione in generale delle stime di dispersione; Levi (1991) afferma che per stimare la dispersione con CL=90% in modo che lintervallo di fiducia abbia ampiezza pari allo scarto quadratico medio, ci vogliono 12 replicazioni130. Dunque la stima congiunta della media e di una misura di dispersione risulta estremamente costosa in termini di prove da effettuare, anche accontentandosi di precisioni molto modeste. E' per questo motivo che i fondatori della statistica sperimentale hanno sempre propugnato con molta cautela l'uso di
129
Wheeler sostiene che usare il logaritmo si s2 una procedura efficiente nota dal 1937 (Bartlett). Consideriamo per che se Y segue una normale, s2 non pi normale quindi non so se abbia senso fare unANOVA standard su s2.
Purtroppo non sono riuscito a capire come Levi abbia trovato questo numero; io ho trovato 9 al posto di 12, usando la distribuzione 2: rimane comunque un numero elevato. 297
130
stime di dispersione: tali stime costano moltissimo in termini di prove se si vuole seguire un approccio scientifico131; inoltre consideriamo che per la grande maggioranza delle applicazioni sufficiente valutare leffetto dei fattori e interazioni sulla media e non sulla dispersione della risposta (Levi 1991). Finora abbiamo visto come andrebbe condotto scientificamente il ragionamento sulla loss-function. Ora vediamo come invece ragiona Taguchi.
Ovvero se non si vogliono fare assunzioni assolutamente arbitrarie come quelle di Taguchi. 298
In questo modo si pu anche replicare le osservazioni nei vari stati sperimentali, ottenendo quindi una stima del residuo; con la product array di Taguchi non si ha nessuna replicazione perch le ripetizioni nei vari trattamenti sono fatte secondo condizioni prestabilite dei fattori di rumore, sono ben lungi dallessere indipendenti: non c mai nessun grado di libert per il residuo e dunque bisogna sempre fare il pooling di qualche effetto. Lerrore sperimentale non leffetto dei fattori di rumore: forse i taguchiani non se ne rendono conto. Nel prossimo paragrafo vediamo come Taguchi analizza i risultati che vengono fuori dalle inner e outer array.
299
dove n il numero dei trattamenti, y e s2Y sono la media e la varianza campionaria dei trattamenti. Le 3 formule sopra sono quelle degli stimatori delle corrispondenti funzioni dei parametri SN*. Dunque Taguchi esegue lANOVA132 sui signal to noise per vedere quali sono i fattori di controllo che influenzano significativamente SN: visto che fa il test F, fa lassunzione implicita che le sue statistiche SN seguano la distribuzione normale; i fattori di controllo che non influenzano significativamente SN ma influiscono sulla media vengono denominati fattori di aggiustamento; in letteratura i fattori di aggiustamento sono a volte confusi con i fattori di segnale (signal factors): questi sono invece dei fattori che regolano il target nei pi difficili problemi di parameter design dinamico; in questo capitolo (e nella maggior parte della letteratura) trattato solo il parameter design statico in cui il target T fisso e non vi sono dunque fattori di segnale. La procedura taguchiana di ottimizzazione avviene in 2 passi: 1. Scegliere la combinazione dei livelli dei fattori di controllo che influiscono su SN in modo da massimizzare SN 2. Scegliere i livelli dei fattori di aggiustamento che portano la media della risposta pi vicina al target Come riferito in Leon et al. (1987), Taguchi non esplicita il collegamento fra questa procedura di ottimizzazione in 2 stati e la minimizzazione della loss-function: nel paragrafo successivo vedremo che, solo sotto delle assunzioni abbastanza restrittive la procedura di Taguchi conduce alla minimizzazione della loss-function. Per ora concentriamoci sui signal to noise.
11.5.1 ON TARGET Questo SN si trova in letteratura in 2 diverse forme del tutto equivalenti:
y2 SN T = 10 * log 10 2 sY y 2 1 SN T = 10 * log 10 2 n sY
Visto che sono equivalenti per quanto riguarda la minimizzazione della loss-function, consideriamo il primo, che pi semplice; vediamo che largomento del logaritmo lo stimatore del reciproco del coefficiente di variazione al quadrato
stimato da:
A volte (Byrne e S.Taguchi 1986) si cerca di capire la significativit semplicemente dai grafici marginali delle medie del tipo che io ho usato nel cap.6; Taguchi li chiama marginal means, e usa la regola pick the winner ovvero scegli il livello che d SN pi alto: inutile dire che tale regola trascura le interazioni come evidenziato in Montgomery (1991). 300
132
$ =
s y
che usato quando si vuole definire la dispersione in modo adimensionato. gode di una propriet notevole, quando si opera la trasformazione Z=ln Y:
2 =
2 1 2 = e
2
Z
la relazione sopra riportata in Box (1988) che dice che esatta quando Z normale e approssimata in altri casi. Abbiamo dunque:
ln (1+2) = 2lnY
= Y / = lnY
dunque, analizzare il signal to noise on target di Taguchi equivale ad analizzare il logaritmo della varianza della variabile trasformata Z=lnY; SNT* = -20 * log(Y /) = -k * ln (lnY /) ci pu essere utile se la trasformazione logaritmica serve a stabilizzare la varianza o a verificare lipotesi di normalit. Box (1988) afferma che un conto trovare delle relazioni matematiche sui parametri della popolazione, un conto stimare tali parametri; nel caso di sopra, s2lnY una s (come SNT di Taguchi) statistica sufficiente per 2lnY ma qualunque funzione di $ = y necessariamente meno efficiente133.
11.5.2 THE LARGER THE BETTER Nei casi in cui si vuole massimizzare la risposta Y, Taguchi propone la statistica: n 1 2 i =1 y i SN L = 10 * log 10 n
come tutti i signal to noise, una misura che confonde la posizione e la dispersione dei dati. Box (1988) ha fatto delle simulazioni misurando lefficienza di SNL con la numerosit campionaria che garantirebbe lo stessa potenza (complementare a 1 dellerrore di seconda specie) della media campionaria, diviso la numerosit effettiva dei dati. Box ha trovato per 2 valori di lefficienza di SNL come misura di posizione 58% e 70%: in altre parole, usare SNL al posto della media campionaria come misura di posizione, equivale a buttare
133
via dal 30% al 42% dei dati: ricordiamo che i dati costano parecchi soldi alle aziende e non usarli al meglio provoca i costi della disqualit. Tutto questo vale quando sono verificate le ipotesi classiche dellANOVA senza trasformare la Y; se fosse necessaria la trasformazione Z=1/Y, SNL potrebbe essere pi efficiente della media campionaria ma Taguchi non giustifica luso di SNL con la necessit di trasformare i dati. Montgomery riporta che i risultati di altre simulazioni (Schnidt e Boudot) hanno mostrato che SNL completamente inefficiente nellidentificare la dispersione.
11.5.3 THE SMALLER THE BETTER Quando si vuole minimizzare la risposta, Taguchi usa la statistica: n 2 yi SN S = 10 * log 10 i =1 n
anchessa confonde posizione e dispersione, infatti pu essere scritta in funzione della media e varianza campionaria. n 1 2 SN S = 10 * log 10 y 2 + *s n Luso di SNS al posto della media campionaria come misura di posizione, corrisponde a sprecare il 30% dei dati, secondo la simulazione di Box (1988). Montgomery (1991) riporta che delle simulazioni hanno mostrato la completa inefficienza di SNS nel misurare la dispersione. Anche le simulazioni numeriche di Galetto (1995) Actis (1995) e Stephens (1994 e 1996), svolte sia in condizioni di omogeneit della varianza che di non omogeneit, confermano la perdita di potenza dei 3 signal to noise nellindividuazione della posizione delle caratteristiche studiate: non pu essere altrimenti visto che i signal to noise confondono posizione e dispersione dei dati. il problema che abbiamo gi accennato nella stima della loss-function per i vari trattamenti: visto che ci interessa sia la posizione che la dispersione dei dati, qualsiasi funzione che combina le 2 caratteristiche inefficiente perch in essa possono elidersi gli effetti dei fattori significativi. Se proprio si vuole esaminare anche la dispersione (ricordiamo che la sua stima molto pi imprecisa della media), conviene farlo separatamente dalla media. I agree ... that the variance s2 as well as y is important. So lets look at s2 ... and not just at some hard-to-understand mixture of s2 e y 2 (Box 1988).
302
VAR (Y ) =
f (Y ) * (Y E (Y ) ) dY
2
ma poich sappiamo che: E(Y) = (d, a) E( (N, d)) = 1 VAR() = 2 (d) e sappiamo che la parte aleatoria di Y sta solo in (N, d) possiamo considerare la densit di e non quella di Y; dunque:
+
VAR(Y ) =
f ( ) * ( * ) d =
2
* 2
Allora il valore atteso della funzione di perdita, per le ipoteesi che abbiamo fatto, : R(d,a) = 2(d, a) * 2(d) + ((d, a) - T)2 Troviamo il luogo dei punti di minimo su a di R(d, a):
(d , a ) R ( d , a ) = 2* * { ( d , a ) * [1 + 2 ( d ) ] T } a a
Ponendo uguale a zero tale derivata abbiamo che:
( d , a * (d )) =
(1 + 2 ( d ) )
Sostituendo in R troviamo la nostra P(d) ovvero, ripeto, il luogo dei punti di minimo (rispetto ad a) di R in funzione di d. P( d ) =
min R(d , a ) =
a
(1 +
T 2 * 2 (d )
2
( d ))
Quindi qualunque trasformazione monotona di P(d) pu essere usata per la procedura di ottimizzazione a 2 stadi. E il rapporto signal-to-noise on target SNT di Taguchi, per le ipotesi fatte, rappresenta proprio una trasformazione monotona decrescente della P(d) trovata: SN = 10 * log10 ( E2(Y) / VAR(Y) ) Ricordando che: E(Y) = VAR(Y) = ( )2
304
SN = - 10 * log10 2 decrescente con P(d) dunque assumendo: 1. 2. 3. 4. una loss function quadratica un modello moltiplicativo l'esistenza di fattori di aggiustamento i fattori di rumore non influenzano la media della risposta
il signal-to-noise di Taguchi rappresenta una PERMIA e pu dunque essere usato nella procedura di ottimizzazione in 2 passi: 1. Trovare la combinazione di fattori d* che massimizza il rapporto SN, 2. Trovare la combinazione dei fattori di aggiustamento a* tale che T ( d * , a * (d ) ) = 1 + 2 (d * )
In realt Taguchi al secondo passo vuole la combinazione di a tale che (d, a) = T; ci pu essere giustificato se poniamo il vincolo (d, a) = T nel problema di ottimizzazione. Leon, Shoemaker e Kacker (1987) hanno quindi fornito una base teorica alle procedure sperimentali di Taguchi, ma sotto assunzioni abbastanza restrittive, come ricordano gli stessi autori che sottolineano il fatto che, se il modello non moltiplicativo il SN pu condurre molto lontani dall'ottimo: ...blanket use of the SN ratio in static problems, as Taguchi and Phadke seem to have advocated, could lead to far from optimal design-parameter settings. In particolare se il modello additivo (che probabilmente pi comune di quello moltiplicativo) facile vedere, ripercorrendo il ragionamento di prima, che:
P(d) = 2(d)
e che il rapporto SNT: SNT = 10 * log10 ( 2(d, a) / 2(d)) non pi indipendente dai fattori di aggiustamento a. I 3 autori si mostrano molto critici verso le procedure preconfezionate di Taguchi, sostenendo la superiorit dell'approccio dei -plots di Box per i problemi di parameter design.
305
E se la conferma avviene per caso? Il confirmation experiment molto criticato in letteratura (ad esempio Wheeler 1988). 306
134
assenza di interazioni). Questo pu essere vero o falso: ammettiamo che sia vero. Mi vengono in mente due domande: Bisogna rifare lesperimento e sostenere i relativi costi (della disqualit) fino a che non si trova la variabile che presenta assenza di interazioni? Se uno interessato in una certa caratteristica Y della Qualit e deve usare unaltra variabile Y, come fa a sapere se le conclusioni fatte su Y rimangono valide per Y? Tutte queste complicazioni solo perch a priori non si vogliono studiare le interazioni. Forse meglio pensarci 2 volte prima di abbandonare le solide tecniche statistiche occidentali... Taguchi vuole dunque minimizzare le interazioni e per far questo suggerisce di: 1. Scegliere variabili di risposta monotoniche e continue: per individuarle bisogna pensare a qual il meccanismo attraverso il quale avviene un trasferimento di energia (Phadke e S.Taguchi in Nair 1992) 2. Scegliere i livelli dei fattori in modo da attenuare le interazioni Il motivo principale che Taguchi adduce nel voler minimizzare le interazioni il seguente (Taguchi 1987, pag.149): se in laboratorio si trovano forti interazioni vuol dire che la variabile di risposta Y tende ad essere influenzata dalle interazioni e quindi se si trovasse lottimo tenendo conto delle interazioni, questo ottimo non sarebbe pi tale nelle condizioni di produzione e di utilizzo (downstream conditions) perch i fattori controllati in la laboratorio interagirebbero con i fattori ambientali modificando cos la condizione ottimale. Questo motivo non mi sembra del tutto irragionevole se lobiettivo dellesperimento estendere i risultati trovati in laboratorio su larga scala. Per resta il problema che se a me interessa una certa caratteristica Y, se la devo sostituire con Y dovrei conoscere la relazione matematica fra Y e Y. Inoltre anche se in laboratorio analizzo una caratteristica monotonica, chi mi dice che nelle condizioni di utilizzo tale caratteristica resta monotonica? Purtroppo negli articoli non ho mai visto delle discussioni su questo punto fondamentale che Taguchi richiama sempre, ovvero la reproducibility of design optimization ... from laboratory to manufacturing and eventually to the field (Taguchi 1996). Taguchi che una persona competente, pu avere i suoi motivi, giusti, sbagliati o di comodo, per minimizzare le interazioni negli esperimenti, ma almeno sa che esistono; il problema che, trascurandole, induce i suoi seguaci a credere che le interazioni non esistano. Some rabid disciples also go so far to deny the existence of interactions, arguing that they do not exist in the real world. Such blind partisanship by zealots is regrettable.(John 1990).
307
1. fra fattori di controllo (C*C), 2. fra fattori di rumore (N*N), 3. fra fattori di controllo e rumore (C*N), Le ultime (C*N) sono assolutamente necessarie nel parameter design affinch esistano dei livelli dei fattori di controllo per cui la risposta meno sensibile ai fattori di rumore: anche Phadke e S.Taguchi lo dicono chiaramente (interactions C*N are used to reduce variability) nella panel discussion sul parameter design organizzata da Nair su Technometrics nel 1992. Le interazioni N*N non servono per la robustezza e quindi possono essere considerate nellerrore sperimentale; e le interazioni C*C ? Il commento di Phadke in Nair (1992), a mio parere, sfiora il ridicolo; allinizio Phadke la mette sul filosofico: Taguchis robust design method addresses the problem of interaction among control factors in a way that is philosophically different from the classical approach to experimental design. Presence of large C*C interactions is considered highly undesirable for several reasons. Poi si mette a spiegare perch vuole minimizzare le interazioni C*C ma le ragioni che adduce hanno ben poco di filosofico essendo invece dettate dal tentativo di ridurre i costi dellesperimento. Ecco cosa dice: ... presence of interactions implies that a much large number of experiments would be needed to study the same number of control factors. Come a dire: non studiamo le interazioni se no dovremmo fare molte prove in pi. ...the presence of of large C*C interaction makes it difficult to divide the task of designing a complex product ... This is highly undesirable for shortening the development interval and for improving R&D productivity. Ovvero: non studiamo le interazioni se no molto pi difficile progettare un prodotto complesso e si allungano i tempi di sviluppo. I motivi per tralasciare le interazioni addotti da Phadke sono quindi essenzialmente di carattere economico e commerciale: esse non hanno niente a che vedere con la filosofia o col pensiero scientifico. Questa anche la ragione per cui molti manager della Qualit sono entusiasti dei metodi Taguchi: fanno crede di risparmiare prove, accorciare i tempi di sviluppo del prodotto, inoltre forniscono piani e metodi di analisi preconfezionati buoni per ogni situazione: essi soddisfano molto il cliente (azienda che li usa) che crede di risparmiare soldi e lutente (manager della Qualit) che non deve pensare troppo ma soddisfano le loro esigenze ? No perch lazienda e la sua funzione Qualit hanno bisogno di metodi scientifici che riescano a stimare adeguatamente la realt: un qualsiasi metodo che trascura le interazioni solo per ragioni di comodo non tale. La cosa pi ridicola che quando la risposta effettivamente monotonica, ad esempio con 2 fattori di controllo X1 e X2 e un fattore di rumore Z:
308
Y = X1 + X2 + Z sono proprio i signal to noise ad introdurre le interazioni fra X1 e X2. Lorenzen in Nair (1992) fa notare che i taguchiani stessi affermano limportanza delle interazioni fra i fattori di controllo CF e quelli di rumore NF mentre trascurano quelle fra fattori di controllo; ma la differenza fra i CF e NF non ha alcun significato fisico, dipende solo dal fatto che un fattore possa essere controllato facilmente o no: allora sar avvertire i fattori di non interagire fra di loro quando in un esperimento taguchiano siano stati definiti control factors, mentre essi potranno interagire quando uno sia stato definito control factor e laltro noise factor.....non assurdo tutto ci?..... Do C*C interaction exist? (Phadke in Nair 1992) : alla sconcertante domanda di Phadke si pu rispondere esaurientemente con un racconto di Lorenzen (in Nair 1992): ...an engineer modeled expensive computer runs following a course offered by ASI....I heard this presentation and talked him into running a higher resolution design requiring the same number of runs. The best point from this model also confirmed, with a 30% improvement!
End of claim and an engineer who now believes in interactions
11.8 CONCLUSIONI
I believe that Taguchis engineering ideas are important... but it would be foolish to learn the details of many of the statistical methods that he has proposed (Box in Kacker 1985) Taguchi propone altri metodi che ha inventato come laccumulation analyisis o la minute laccumulation analyisis che Wu, in Nair (1992), giudica unnecessarily complicated and often invalid. I linear graphs per costruire le matrici ortogonali, ma come dice Box (in Nair 1992), gi per 16 combinazioni sperimentali, the graphs are complicated and even in their authors hands can produce designs that are demonstrably inferior I beta coefficients rappresentano un altra invenzione taguchiana, destinata secondo lingegnere giapponese (1987, pag.560) a sostituire la teoria dei test dipotesi di Neymann-Pearson: Whether Taguchis prophesy will be fulfilled, we will have to wait and see(Bisgaard 1989). Dagli articoli che ho letto mi pare che la comunit statistica mondiale (Box, Bisgaard, Nelder, Lucas, Hunter J.S., John P.W.M., Lorenzen, Myers, Montogomery, Wheeler, Nair, Miller, Shoemaker, Stephens, Wu C.F.......), pur riconoscendo i contributi di Taguchi:
309
propaganda dellimportanza della sperimentazione uso del DOE per rendere prodotti e processi robusti alle condizioni ambientali critica decisamente i metodi statistici con cui Taguchi supporta le sue idee: gli statistici hanno dimostrato linefficienza e gli errori concettuali dei metodi Taguchi e una parte di questi errori stata presentata in questo capitolo. Daltronde lo stesso Taguchi (1987, pag120) dichiara che per promuovere lefficienza nellattivit di ricerca, bisogna valutare i metodi con cui si intende raggiungere gli obiettivi: ebbene i suoi metodi sono stati valutati... Eppure molti utilizzatori (che probabilmente si sono avvicinati solo recentemente al DOE) dei metodi Taguchi continuano a dire they work e pubblicano dei casi in cui il parameter design ha fatto risparmiare un sacco di soldi; ammettiamo che essi siano in buona fede: il merito non dei metodi Taguchi ma merito proprio dellattivit sperimentale, che quello di evidenziare comunque determinati meccanismi di causalit e/o di associazione di effetti(Levi 1991). Non dimentichiamo infatti che nellindustria si sono sempre usati gli inefficienti piani OFAT (un fattore alla volta): solo il fatto di usare i piani fattoriali, anche se nel modo taguchiano inefficiente, produce risultati migliori dei piani OFAT. ...the factorial design is so powerful that even when it is used inefficiently, it will work better than almost anything else.(Montogmery 1991). Chiudo il capitolo con i commenti molto significativi di 2 studiosi italiani di DOE, che hanno studiato i metodi Taguchi da quando sono apparsi sulla scena, rendendosi subito conto degli enormi rischi connessi a un loro cieco utilizzo: Non pu che rammaricare il fatto che lautore abbia scelto di ignorare, o di utilizzare malamente, quanto noto grazie ad unintensa e fruttuosa attivit di ricerca svolta in Occidente(Levi 1991). ...la critica pi pesante va rivolta senzaltro allapproccio metodologico: i metodi Taguchi non si fondano su alcuna base scientifica; sovente, infatti, nei libri non viene fornita alcuna giustificazione di quello che viene detto o fatto... (Galetto 1995).
310
BIBLIOGRAFIA
ACTIS E. (1995), DOE: Analisi comparativa di piani frazionati, Tesi di laurea, Politecnico di Torino. ADDELMAN S. (1972), Recent Developments in the Design of Factorial Experiments, Journal of the American Statistical Association, 67, 103-111. ALLEN L.E. (1985), Multiple regression and the analysis of covariance, Freeman & Co., New York. BARRANTINE L.B. (1996), Illustration of confounding in Plackett-Burman Designs, Quality Engineering, 9, 11-20. BISGAARD S. (1989), Review of Taguchi, Technometrics, 31, 257-260. BISGAARD S. (1993), A Method for Identifying Defining Contrasts for 2k-p Experiments, Journal of Quality Technology, 25, 28-35. BOX G.E.P. (1966), Use and Abuse of Regression, Technometrics, 10. BOX G.E.P. (1976), Science and Statistics, Journal of the American Statistical Association, 71, 791-799. BOX G.E.P. (1984), The importance of Practice in the Development of Statistics, Technometrics, 26, 1-8. BOX G.E.P. (1988), Signal to Noise Ratios, Performance Criteria, and Transformations, Technometrics, 30, 1-17. BOX G.E.P., HUNTER W.G, HUNTER J.S. (1978), Statistics for experimenters, J. Wiley, New York. BOX G.E.P., MEYER R.D. (1993), Finding the Active Factors in Fractional Screening Experiments, Journal of Quality Technology, 25, 94-105. BYRNE D.M., TAGUCHI S. (1987), The Taguchi approach to Parameter Design, Quality Progress, 20, 19-26. CROSBY P.B. (1986), La Qualit facile, Mc Graw-Hill, New York. DANIEL C. (1976), Applications of Statistics to Industrial Experimentation, J. Wiley, New York DE RISI P. (1996), Progettare in Qualit, Il Sole 24 Ore, Milano. DEMING W.E. (1986), Out of the crisis, MIT CAES, Cambridge. DIAMOND W.J. (1981), Practical Experimental Designs, Wadsworth, Belmont.
311
DRAPER N.R., SMITH H. (1966), Applied Regression Analysis, J. Wiley, New York. ERTO P. (1995), La Qualit Totale in cui credo, Tessere, Napoli. FEIGENBAUM A.V. (1991), Total Quality Control, III edizione revisionata, Mc GrawHill, New York. FONTANA R. (1995), Teoria e algoritmi per la generazione di piani fattoriali frazionari, Tesi di dottorato, Politecnico di Torino. FORNASIERI S. (1995), DOE: Piani di prova frazionati non ortogonali. Considerazioni teoriche e pratiche, Tesi di laurea, Politecnico di Torino. FREUND R.A. (1974), Contrast Analysis of Experiments, Journal of Quality Technology, 6, 2-21. FREUND R.J. (1980), The Case of Missing Cell, The American Statistician, 34, 94-98. GALETTO F. (1981), Affidabilit, vol.1, CLEUP, Padova. GALETTO F. (1982), Affidabilit, vol.2, CLEUP, Padova. GALETTO F. (1987), Quality and Reliability: the Iveco way, The International Management Development Review. GALETTO F. (1988), Quality and Reliability, a must for the industry. Basic ideas for the development cycle, ISATA, Monte Carlo. GALETTO F. (1989a), Qualit dei metodi: il metodo G meglio dei metodi Taguchi, ATA, 42, 202-209. GALETTO F. (1989b), Elementi strategici per la qualit, ATA, 42, 415-425. GALETTO F. (1989c), Quality of Methods for Quality is Important, EOQC Conference, Vienna. GALETTO F. (1995), Qualit: alcuni Metodi Statistici da Manager, I edizione CUSL, Torino. GALETTO F. (1996), Qualit: alcuni Metodi Statistici da Manager, II edizione, CUSL, Torino. GALGANO A. (1990), La Qualit Totale, Il Sole 24 Ore, Milano. GUNST R.F., MASON R.L., WEBSTER J.T. (1976), A Comparison of Least Squares and Latent Root Regression Estimators, Technometrics, 18, 75-83. HAHN G.J. (1977), Some Things Engineers Should Know About Experimental Design, Journal of Quality Technology, 9, 13-20. HAHN G.J. (1984), Experimental design in the complex World, Technometrics, 26, 1931. HAHN G.J., MEEKER W.Q., FEDER P.I. (1976), The Evaluation and Comparison of Experimental Designs for Fitting Regression Relationships, Journal of Quality Technology, 8, 140-157. HAHN G.J., MEEKER W.Q., FEDER P.I. (1978a), Evaluating the Effect of Incorrect Specification of a Regression Model, part 1, Journal of Quality Technology, 10, 6172.
312
HAHN G.J., MEEKER W.Q., FEDER P.I. (1978b), Evaluating the Effect of Incorrect Specification of a Regression Model, part 2, Journal of Quality Technology, 10, 9398. HAMADA M., WU C.F.J. (1992), Analysis of Designed Experiments with Complex Aliasing, Journal of Quality Technology, 24, 130-137. HOCKING R.R., SPEED F.M. (1975), A Full Rank Analysis of Some Linear Model Problems, Journal of the American Statistical Association, 70, 706-712. HOERL A.E., KENNARD R.W. (1970), Ridge Regression: Biased Estimation for Nonortogonal Problems, Technometrics, 12, 55-67. HUNTER J.S. (1985), Statistical Design Applied to Product Design, Journal of Quality Technology, 17, 210-221. HUNTER J.S. (1988), Design and Analysis of experiments, Section 26 del Jurans Quality Control Handbook, Mc Graw-Hill, New York. JENNINGS E., WARD J.H. (1982), Hypothesis Identification in the case of the Missing Cell, The American Statistician, 36, 25-27. JOHN P.W.M. (1966), Augmenting 2n-1 designs, Technometrics, 10, 291-300. JOHN P.W.M. (1969), Some non-orthogonal fractions of 2n designs, Journal of the Royal Statistical Society, B, 31, 270-275. JOHN P.W.M. (1979), Missing points in 2n and 2n-k Factorial Designs, Technometrics, 21, 225-228. JOHN P.W.M. (1990), Statistical methods in Engineering and Quality Assurance, J. Wiley, New York JURAN J.M. (1988), Jurans Quality Control Handbook, Mc Graw-Hill, New York. JURAN J.M. (1995), A History of Managing for Quality, Quality progress, 28, 125-129. KACKER R.N. (1985), Off-line Quality Control, Parameter Design, and the Taguchi Method, Journal of Quality Technology, 17, 176-190 (con commento di BOX G.E.P.). KHURI A.I., CORNELL J.A. (1987), Response Surface Methodology, M. Dekker, New York. KRISHNAIAH P.R. (1980), Analysis of Variance, North Holland Publishing Company, Amsterdam. LEON R.V., SHOEMAKER A.C., KACKER R.N. (1987), Performance Measures Indipendent of Adjustment, Technometrics, 29, 253-265. LEVI R. (1991), Piani sperimentali e metodi Taguchi: luci e ombre, ATA, 44, 777-781. LIN D.K.J., DRAPER N.R. (1992), Projection Properties of Plackett and Burman Designs, Technometrics, 34, 423-428. LITTLE R.J.A. (1982), Direct Standardization: A Tool for Teaching Linear Models for Unbalanced Data, The American Statistician, 36, 38-43. LORENZEN T.J., ANDERSON V.L. (1993), Design of experiments: a no-name approach, M. Dekker, New York.
313
MARGOLIN B.H. (1969), Resolution IV Fractional Factorial Designs, Journal of the Royal Statistical Society, B, 31, 514-523. MARGOLIN B.H. (1972), Non orthogonal Main-effect Designs for Asymmetrical Factorial Experiments, Journal of the Royal Statistical Society, B, 34, 431-440. MARQUARDT D.W. (1970), Generalized Inverses, Ridge Regression, Biased Linear Estimation and nonlinear Estimation, Technometrics, 12, 591-612. MASON R.L, GUNST R.F., HESS J.L. (1989), Statistical Design & Analysis of experiments, J. Wiley, New York. MATTANA G.U. (1994), Qualit, Affidabilit, Certificazione, F. Angeli, Milano. MILLER I., FREUND J.E., JOHNSON R.A. (1990), Probability and Statistics for Engineers, Prentice Hall, Englewood Cliffs. MILLER A., WU C.F.J. (1996), Commentary on Taguchi Parameter Design with Dynamic Characteristics, Quality and Reliability Engineering International, 12, 7477. MONTGOMERY D.C. (1991), Design and Analysis of Experiments, Wiley, New York. MOOD A.M., GRAYBILL F.A. (1963), Introduction to the Theory of Statistics, Mc GrawHill, New York. NAIR V.N. (1992), Taguchi Parameter Design: A Panel Discussion, Technometrics, 34, 127-161. NELDER J.A. (1974), Letter to editor, Journal of the Royal Statistical Society, C, 23, 232. NGUYEN N.K. (1996), A Note on the Construction of Near-Orthogonal Arrays With Mixed Levels and Economic Run Size, Technometrics, 38, 279-283. NOGUCHI J. (1995), The legacy of W. Edwards Deming, Quality Progress, 28, 35-37. PISTONE G., WYNN H.P. (1995), Generalized confounding with Grobner bases, Biometrika, 73. PLACKETT R.L., BURMAN J.P. (1946), The Design of Optimum Multifactorial Experiments, Biometrika, 33, 305-325. RASMUSEN E. (1993), Teoria dei giochi e informazione, Hoepli, Milano. RUELLE D. (1992), Caso e caos, Bollati Borlinghieri, Torino. SCHEFFE H. (1959), The Analysis of Variance, Wiley, New York. SCHILLING E.G. (1974), The Relationship of Analysis of Variance to Regression. Part II: Unbalanced Designs, Journal of Quality Technology, 6, 146-153. SEARLE S.R. (1971), Linear models, Wiley, New York. SEARLE S.R. (1987), Linear models for unbalanced data, Wiley, New York. SEARLE S.R., SPEED F.M., HENDERSON H.V. (1981), Some Computational and Model Equivalencies in Analyses of Variance of Unequal-Subclass-Number Data, The American Statistician, 35, 16-33. SENTURIA J. (1989), Review of Taguchi, Technometrics, 31, 256-257. SHEWART W.A. (1931), Economic Control of Quality of Manufactured Products, D. Van Nostrand Company, New York.
314
SNEE R.D. (1973), Some Aspects of Nonorthogonal Datya Analysis. Part I: Developing Prediction Equations, Journal of Quality Technology, 5, 67-79. SNEE R.D. (1973), Some Aspects of Nonorthogonal Datya Analysis. Part II: Comparison of Means, Journal of Quality Technology, 5, 109-122. SPEED F.M., HOCKING R.R., HACNEY O.P. (1978), Methods of Analysis of Linear Models with Unbalanced Data, Journal of the American Statistical Association, 73, 105-112. STEINBERG D.M., HUNTER W.G. (1984), Experimental Design: Review and Comment, Technometrics, 26, 71-97. STEPHENS M.P. (1994), A Comparison of Robustness of Taguchis Methods with Classical ANOVA Under Conditions of Homogeneous Variances, Quality Engineering, 7, 147-167. STEPHENS M.P. (1996), Effects of Heterogeneity of Variance on the Analysis of Designed Experiments: A Comparison of Robustness of Classical ANOVA with the use of S/N Ratios, Quality Engineering, 8, 411-417. TAGUCHI G. (1987), System of Experimental Design, Unipub Kraus, White Plains. TAGUCHI G. (1996), The role of DOE for Robust Engineering: a commentary, Quality and Reliability Engineering International, 12, 73-74. URQUHART N.S., WEEKS D.L. (1978), Linear Models in Messy Data: Some Problems and Alternatives, Biometrics, 34, 696-705. VICARIO G. (1993), Fondamenti teorici del DOE, Tutorial DEINDE, Torino. WANG J.C. (1993), Sense and nonsense in statistical inference, M. Dekker, New York. WEBB S.R. (1971), Small incomplete factorial designs for two and three level factors, Technometrics, 13, 243-256. WHEELER D.J. (1988), Understanding Industrial Experimentation, Statistical Process Control Inc., Knoxville. WHEELER D.J., CHAMBERS D.S. (1990), Understanding Statistical Process Control, Addison-Wesley, Workingham. ZYSKIND G., MARTIN F.B. (1969), On best linear estimation and a general GaussMarkov theorem in linear models with arbitrary nonnegative covariance structure, SIAM Journal of Applied Mathematics, 17, 1190-1202.
315