Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Manuale d’uso
STATGRAPHICS ® CENTURION XVI
MANUALE D’USO
Traduzione, revisione tecnica e realizzazione editoriale: Ing. Carmelo Giarratana - Villasanta (MB)
Tutti i diritti sono riservati a norma di legge e a norma delle convenzioni internazionali. Nessuna
parte di questo manuale può essere riprodotta con sistemi elettronici, meccanici o altri, senza
l’autorizzazione scritta di Adalta snc.
Nomi e marchi citati nel manuale sono generalmente depositati o registrati dalle rispettive case
produttrici.
Ogni cura è stata posta nella verifica della documentazione contenuta in questo manuale. Tuttavia né
gli autori, né Adalta snc possono assumersi alcuna responsabilità derivante dall’utilizzo della stessa. Lo
stesso dicasi per ogni persona o società coinvolta nella creazione, nella produzione e nella
distribuzione di questo manuale.
Indice
Prefazione ......................................................................................................................... vii
Introduzione ........................................................................................................................1
1.1 Installazione........................................................................................................................................1
1.2 Eseguire il programma......................................................................................................................8
1.3 Immettere i dati................................................................................................................................14
1.4 Leggere i dati di un file ...................................................................................................................18
1.5 Analizzare i dati ...............................................................................................................................20
1.6 Utilizzare la barra degli strumenti di analisi .................................................................................24
1.7 Diffondere i risultati........................................................................................................................29
1.8 Salvare il proprio lavoro .................................................................................................................30
Gestione dei dati ............................................................................................................... 31
2.1 Il DataBook......................................................................................................................................32
2.2 Accedere ai dati................................................................................................................................34
2.2.1 Leggere i dati da un file di STATGRAPHICS Centurion..................................................35
2.2.2 Leggere i dati da un file di Excel, ASCII, XML o di un’altra applicazione esterna........36
2.2.3 Trasferire i dati con il metodo copia-e-incolla.....................................................................37
2.2.4 Leggere i dati di un database ODBC.....................................................................................38
2.3 Manipolare i dati ..............................................................................................................................39
2.3.1 Copiare e incollare i dati..........................................................................................................39
2.3.2 Creare nuove variabili da colonne esistenti ..........................................................................39
2.3.3 Trasformare i dati.....................................................................................................................43
2.3.4 Ordinare i dati...........................................................................................................................46
2.3.5 Ricodificare i dati......................................................................................................................48
2.3.6 Combinare più colonne...........................................................................................................49
2.4 Generare i dati..................................................................................................................................51
2.4.1 Generare strutture di dati........................................................................................................51
2.4.2 Generare numeri casuali..........................................................................................................54
2.5 Proprietà del DataBook..................................................................................................................55
2.6 Visualizzatore dei dati .....................................................................................................................56
Analisi statistica ................................................................................................................ 59
3.1 Finestre di input dei dati.................................................................................................................61
3.2 Finestre di analisi .............................................................................................................................63
3.2.1 Pulsante Finestra di input .......................................................................................................65
3.2.2 Pulsante Opzioni di analisi .....................................................................................................65
3.2.3 Pulsante Tabelle e grafici.........................................................................................................66
3.2.4 Pulsante Opzioni per il pannello............................................................................................68
iii Indice
3.2.5 Pulsante Salva i risultati...........................................................................................................70
3.2.6 Pulsanti per i grafici .................................................................................................................72
3.2.7 Pulsante Escludi .......................................................................................................................73
3.3 Stampare i risultati...........................................................................................................................74
3.4 Pubblicare i risultati.........................................................................................................................76
Grafici ............................................................................................................................... 73
4.1 Modificare i grafici ..........................................................................................................................78
4.1.1 Opzioni per il layout................................................................................................................79
4.1.2 Opzioni per la griglia ...............................................................................................................81
4.1.3 Opzioni per le linee .................................................................................................................83
4.1.4 Opzioni per i punti ..................................................................................................................85
4.1.5 Opzioni per il titolo principale...............................................................................................87
4.1.6 Opzioni per la scala degli assi.................................................................................................89
4.1.7 Opzioni per il riempimento delle aree ..................................................................................91
4.1.8 Opzioni per testi, etichette e legende....................................................................................92
4.1.9 Aggiungere nuovi testi.............................................................................................................92
4.2 Jittering di un grafico a dispersione ..............................................................................................93
4.3 Brushing di un grafico a dispersione ............................................................................................95
4.4 Smoothing di un grafico a dispersione.........................................................................................97
4.5 Identificare i punti...........................................................................................................................99
4.6 Copiare i grafici in altre applicazioni ..........................................................................................102
4.7 Salvare un grafico in un file .........................................................................................................103
Statfolio ............................................................................................................................ 105
5.1 Salvare una sessione ......................................................................................................................105
5.2 Script di StatFolio..........................................................................................................................106
5.3 Aggiornamento automatico delle analisi statistiche..................................................................110
5.4 Pubblicare i dati nel formato HTML..........................................................................................111
StatGallery........................................................................................................................ 115
6.1 Configurare una pagina di StatGallery .......................................................................................115
6.2 Copiare i grafici in StatGallery.....................................................................................................117
6.3 Sovrapporre i grafici......................................................................................................................118
6.4 Modificare un grafico di StatGallery...........................................................................................119
6.4.1 Aggiungere nuovi elementi...................................................................................................119
6.4.2 Modificare gli elementi..........................................................................................................120
6.4.3 Cancellare gli elementi...........................................................................................................120
6.5 Stampare StatGallery.....................................................................................................................121
StatReporter ..................................................................................................................... 123
7.1 La finestra di StatReporter ...........................................................................................................123
7.2 Copiare l’output in StatReporter.................................................................................................124
iv Indice
7.3 Modificare l’output in StatReporter............................................................................................125
7.4 Salvare StatReporter......................................................................................................................125
StatWizard ....................................................................................................................... 127
8.1 Accedere ai dati o creare un nuovo studio statistico................................................................128
8.2 Scegliere il tipo di analisi per i dati ..............................................................................................132
8.3 Ricerca delle statistiche e dei test desiderati ..............................................................................137
Preferenze del sistema ..................................................................................................... 141
9.1 Comportamento generale del sistema ........................................................................................141
9.2 Stampa.............................................................................................................................................144
9.3 Grafici .............................................................................................................................................144
Tutorial 1 – Analisi di un singolo campione................................................................... 147
10.1 Procedura di analisi a una variabile...........................................................................................148
10.2 Statistiche di sintesi .....................................................................................................................151
10.3 Diagramma a scatola e baffi.......................................................................................................154
10.4 Verifica degli outlier....................................................................................................................156
10.5 Istogramma ..................................................................................................................................160
10.6 Grafico dei quantili e percentili .................................................................................................165
10.7 Intervalli di confidenza...............................................................................................................166
10.8 Verifica di ipotesi.........................................................................................................................168
10.9 Limiti di tolleranza ......................................................................................................................170
Tutorial 2 – Confrontare due campioni .......................................................................... 173
11.1 Eseguire la procedura di confronto di due campioni.............................................................173
11.2 Statistiche di sintesi .....................................................................................................................175
11.3 Istogramma duale ........................................................................................................................176
11.4 Diagramma duale a scatola e baffi ............................................................................................177
11.5 Confrontare le deviazioni standard...........................................................................................179
11.6 Confrontare le medie ..................................................................................................................180
11.7 Confrontare le mediane..............................................................................................................181
11.8 Grafico dei quantili .....................................................................................................................182
11.9 Test di Kolmogorov-Smirnov per due campioni ...................................................................183
11.10 Grafico quantili-quantili ...........................................................................................................184
Tutorial 3 – Confrontare più di due campioni................................................................ 185
12.1 Eseguire la procedura di confronto di più campioni .............................................................186
12.2 Analisi della varianza...................................................................................................................190
12.3 Confrontare le medie ..................................................................................................................192
12.4 Confrontare le mediane..............................................................................................................194
12.5 Confrontare le deviazioni standard...........................................................................................196
12.6 Grafico dei residui.......................................................................................................................196
12.7 Grafico per l’analisi delle medie (ANOM) ..............................................................................198
v Indice
Tutorial 4 – Analisi della regressione .............................................................................. 199
13.1 Analisi della correlazione............................................................................................................200
13.2 Regressione semplice ..................................................................................................................204
13.3 Adattare un modello non lineare ..............................................................................................207
13.4 Analisi dei residui ........................................................................................................................209
13.5 Regressione multipla...................................................................................................................211
Tutorial 5 – Analisi dei dati qualitativi ............................................................................ 219
14.1 Sintetizzare i dati qualitativi .......................................................................................................220
14.2 Analisi di Pareto ..........................................................................................................................221
14.3 Tabulazione incrociata................................................................................................................224
14.4 Confrontare due o più campioni...............................................................................................231
14.5 Tabelle di contingenza................................................................................................................235
Tutorial 6 – Analisi della capacità di un processo.......................................................... 237
15.1 Rappresentazione dei dati ..........................................................................................................238
15.2 Procedura di analisi della capacità.............................................................................................240
15.3 Caso di dati non normali............................................................................................................243
15.4 Indici di capacità..........................................................................................................................250
15.5 Calcolatrice Six Sigma.................................................................................................................253
Tutorial 7 – Disegno di esperimenti (DOE) .................................................................. 255
16.1 Realizzare il disegno....................................................................................................................256
Passo 1: Definire le risposte...........................................................................................................257
Passo 2: Definire i fattori sperimentali.........................................................................................258
Passo 3: Selezionare il disegno sperimentale ...............................................................................259
Passo 4: Specificare il modello.......................................................................................................266
Passo 5: Selezionare i run...............................................................................................................267
Passo 6: Valutare il disegno............................................................................................................267
Passo 7: Salvare l’esperimento.......................................................................................................269
16.2 Analizzare i risultati.....................................................................................................................269
Passo 8: Analizzare i dati ................................................................................................................270
Passo 9: Ottimizzare le risposte ....................................................................................................282
Passo 10: Salvare i risultati .............................................................................................................285
16.3 Ulteriore sperimentazione..........................................................................................................285
Passo 11: Ampliare il disegno........................................................................................................286
Passo 12: Estrapolare......................................................................................................................287
Libri consigliati............................................................................................................... 289
Dataset ............................................................................................................................ 290
Indice analitico ................................................................................................................ 291
vi Indice
Prefazione
Scopo di questo manuale è descrivere agli utenti di STATGRAPHICS Centurion XVI
il funzionamento di base del programma e il suo utilizzo per analizzare i dati. Il libro offre una
panoramica completa del sistema, incluse le procedure di installazione, la gestione dei dati, la
preparazione delle analisi statistiche, la stampa e la pubblicazione dei risultati. Poiché il libro è stato
ideato per mettere rapidamente in azione gli utenti, esso si concentra sulle funzionalità più importanti
del programma, evitando di soffermarsi su ogni dettaglio. Il menu Guida di STATGRAPHICS
Centurion XVI consente di accedere a una ricca raccolta di informazioni aggiuntive, incluso un file
PDF distinto per ciascuna delle oltre 160 procedure statistiche.
I primi nove capitoli di questo libro trattano l’utilizzo di base di STATGRAPHICS Centurion XVI.
È probabile che riusciate a capire da soli gran parte di questi argomenti mentre utilizzate il
programma; tuttavia, la lettura di questi capitoli accelererà il vostro processo di apprendimento
e avrete la certezza di non avere tralasciato alcun elemento importante.
Vi consigliamo di esaminare i tutorial, perché rendono meglio l’idea della grande efficienza di
STATGRAPHICS Centurion XVI nell’analizzare i dati reali.
NOTA: il programma include una copia di questo manuale nel formato PDF; per accedervi,
selezionate Manuale d’uso dal menu Guida. Nel documento PDF tutti i grafici sono a colori. Il
programma include anche i file di dati e gli StatFolio citati nel manuale.
vii Prefazione
Capitolo
Introduzione
1
Installare STATGRAPHICS Centurion XVI, eseguire il programma
e creare un semplice file di dati
1.1 Installazione
STATGRAPHICS Centurion XVI viene distribuito in due modi: su Internet, in un unico file che
potete scaricare sul vostro computer, e su CD-ROM. Per eseguire il programma, occorre
installarlo sul disco fisso. Come altri programmi Windows, l’installazione è estremamente
semplice:
Passo 1: se avete ricevuto il programma su un CD, inserite il CD nel lettore del computer.
Dopo pochi istanti, il programma di installazione dovrebbe avviarsi automaticamente. In caso
contrario, aprite la finestra Risorse del computer ed eseguite il file sgcinstall.exe nella cartella
principale del CD-ROM.
Se avete scaricato il programma da Internet, trovate il corrispondente file sul disco fisso e fate
doppio clic sul nome del file per avviare la procedura di installazione.
Passo 2: sullo schermo saranno visualizzate in sequenza alcune finestre di dialogo. Se state
eseguendo il programma da un CD, la prima finestra vi chiederà di specificare la lingua o le
lingue in cui dovrà essere installato Statgraphics:
1 Introduzione
Figura 1-1. La finestra per scegliere la lingua o le lingue di installazione del software
Scegliete la lingua principale e una o più lingue addizionali. La lingua principale sarà utilizzata
durante l’installazione e come lingua di default quando avviate il programma per la prima volta.
Se scegliete delle lingue addizionali, potrete passare da una lingua all’altra mentre utilizzate il
programma selezionando Modifica – Preferenze.
NOTA: durante il periodo di valutazione gli utenti possono accedere a una qualsiasi delle lingue
disponibili in STATGRAPHICS Centurion XVI. Dopo l’acquisto, vi sarà chiesto di specificare la
lingua principale e le eventuali lingue addizionali; notate che potrete accedere soltanto alle lingue
che avrete scelto di utilizzare con STATGRAPHICS Centurion XVI.
2 Introduzione
Passo 3: STATGRAPHICS Centurion XVI usa InstallShield per installare il programma sul
vostro computer. InstallShield controlla l’intallazione tramite una serie di finestre di dialogo. La
prima finestra è quella di benvenuto in STATGRAPHICS Centurion XVI:
NOTA: per installare e attivare STATGRAPHICS Centurion XVI, dovrete avere i diritti di
amministratore sul vostro computer. Nel caso aveste bisogno della presenza di un amministratore
di sistema durante la procedura di installazione, vi raccomandiamo di installare e attivare
il software mentre è presente l’amministratore.
3 Introduzione
Passo 4: la seconda finestra visualizza il contratto di licenza del software:
4 Introduzione
Passo 5: la successiva finestra chiede alcune informazioni sulla persona che dovrà utilizzare il
programma:
5 Introduzione
Passo 6: la successiva finestra indica la cartella in cui sarà installato il programma:
6 Introduzione
Passo 7: la successiva finestra vi consente di scegliere il tipo di installazione:
Tipica – Installa il programma, i file della guida, la documentazione e i file degli esempi.
Lo spazio richiesto sul disco fisso è un po’ più di 60 MB.
Minima – Installa soltanto il programma e i file della guida. È sufficiente uno spazio
sul disco fisso di circa 30 MB.
Se scegliete l’installazione minima, risparmierete spazio sul disco, ma non potrete accedere
alla documentazione on-line e ai file degli esempi.
7 Introduzione
Passo 8: seguite le restanti istruzioni per completare l’installazione. Quando l’installazione sarà
completata, sullo schermo apparirà la finestra finale:
Fate clic su Fine per completare l’installazione. Selezionate l’opzione Avvia il programma per
avviare subito STATGRAPHICS Centurion XVI, oppure seguite le seguenti istruzioni.
8 Introduzione
Passo 2: quando il programma STATGRAPHICS Centurion XVI è caricato in memoria, sullo
schermo appare una nuova finestra. La prima volta che eseguite il programma, sarà visualizzata
la finestra Benvenuti:
9 Introduzione
Se fate clic sul pulsante Valuta, sarà visualizzata la seguente finestra:
10 Introduzione
2. Il pulsante 2. Fate clic qui accede al vostro programma di posta elettronica, inserendo le
informazioni in una e-mail che potrete spedire a StatPoint. Questa e-mail sarà elaborata
durante le normali ore di lavoro.
Per evitare ritardi, utilizzate il primo metodo, se possibile.
NOTA: gli utenti che stanno attivando delle copie ottenute da licenze per siti di enti o
istituzioni devono utilizzare il primo metodo. I codici di attivazione saranno trasmessi
agli indirizzi e-mail indicati dagli enti/istituzioni che hanno acquistato la licenza.
I responsabili informatici degli enti/istituzioni dovrebbero avvisare gli utenti di questa
prassi.
Passo 3: dopo che la vostra richiesta sarà stata elaborata, riceverete una e-mail contenete il
codice di attivazione. Digitate il codice nel campo sotto il Passo 3 e premete il pulsante Attiva.
Se il codice di attivazione corrisponde al codice di prodotto, vedrete il seguente messaggio:
NOTA 1: se state utilizzando Microsoft Vista o Windows 7, quando fate doppio clic
sull’icona STATGRAPHICS del desktop per avviare il programma, l’operazione
potrebbe non riuscire. In questo caso, fate clic con il pulsante destro del mouse e
selezionate Run as Administrator dalla lista delle opzioni.
11 Introduzione
Passo 4: la prima volta che eseguite il programma, dovrete anche scegliere il sistema di menu
che intendete utilizzare:
Potete scegliere il sistema classico di STATGRAPHICS Centurion XVI (facendo clic sul
pulsante No), che organizza le procedure statistiche nei menu Grafici, Descrivi, Confronta, Relazione,
Previsione, SPC e DOE, oppure il sistema Six Sigma (facendo clic sul pulsante Sì), che organizza le
procedure nei menu Define, Measure, Analyze, Improve, Control e Previsione. Entrambi i sistemi di
menu includono le stesse procedure; cambia soltanto la loro organizzazione. Successivamente,
potrete cambiare la vostra scelta iniziale selezionando Preferenze dal menu Modifica del
programma.
12 Introduzione
Passo 5: sarà creata la finestra principale di STATGRAPHICS Centurion XVI:
I prossimi paragrafi spiegano come utilizzare StatWizard per creare un file contenente i dati del
censimento della popolazione degli Stati Uniti d’America nel 2000.
13 Introduzione
1.3 Immettere i dati
I dati da analizzare con STATGRAPHICS Centurion XVI devono essere posti nel DataBook,
che è formato da 26 fogli (datasheet), identificati dalle lettere da A a Z, ciascuno dei quali contiene
un array rettangolare di righe e colonne:
14 Introduzione
Stato Populazione Età media % Donne Reddito pro capite
Alabama 4.447.100 35,8 51,7 $18.819
Alaska 626.932 32,4 48,3 $22.660
Arizona 5.130.632 34,2 50,1 $20.275
Arkansas 2.673.400 36,0 51,2 $16.904
California 33.871.648 33,3 50,2 $22.711
Colorado 4.301.261 34,3 49,6 $24.049
Figura 1-14. I dati estratti dal censimento della popolazione USA nel 2000
Quando questi dati vengono inseriti in un foglio di STATGRAPHICS Centurion XVI,
le informazioni relative a ciascuno Stato dovranno essere poste in una riga distinta; inoltre,
dovranno essere create cinque colonne per contenere i nomi degli Stati e i dati del censimento.
Per inserire dati come questi in un foglio di STATGRAPHICS Centurion XVI, avete due
alternative:
In questo paragrafo descriveremo il primo metodo. Per iniziare, fate doppio clic sull’intestazione
della prima colonna, il cui nome è Col_1. Sullo schermo sarà visualizzata una finestra che potete
utilizzare per modificare importanti proprietà di questa colonna:
15 Introduzione
Figura 1-15. La finestra per definire le colonne
16 Introduzione
Figura 1-16. Il foglio con i nomi delle colonne
Adesso inserite i dati come in qualsiasi altro spreadsheet, utilizzando i tasti con le frecce per
spostarvi da una cella all’altra. NON digitate i simboli di separazione delle migliaia quando
inserite grandi numeri. Alla fine dovreste ottenere un foglio simile a questo:
17 Introduzione
A questo punto, dovreste salvare i dati in un file. Selezionate File – Salva – Salva il file di dati
dal menu principale. Scegliete il nome del file in cui salvare i dati:
I file di dati in STATGRAPHICS Centurion XVI vengono salvati su disco con l’estensione di
default “.sgd”, che memorizza i dati nel formato XML. Quando salvate un file, potete cambiare
l’impostazione del campo Salva come in un altro formato di file.
18 Introduzione
Figura 1-19. La finestra per specificare l’origine dei dati da analizzare
La scelta di default è corretta in questo caso. Poi, selezionate il nome del file che contiene i dati:
Il file dell’esempio in esame si trova nella cartella di default dei dati (di solito,
C:\Programmi\Statgraphics\STATGRAPHICS Centurion XVI\Data).
19 Introduzione
Una volta aperto il file, vengono riempite 51 righe di dati:
2. Facendo clic su uno dei pulsanti di scelta rapida nella barra degli strumenti.
3. Avviando StatWizard tramite il pulsante con il cappello del mago che si trova nella barra
degli strumenti.
20 Introduzione
Iniziamo a sintetizzare la variabilità del reddito pro capite (colonna Per capita Income) degli Stati.
La migliore procedura di sintesi dei dati numerici di una singola colonna è Analisi a una variabile.
Questa procedura calcola le statistiche di sintesi, come la media e la deviazione standard del
campione. Inoltre, crea vari grafici, tra cui un istogramma e un diagramma a scatola e baffi.
La posizione della procedura Analisi a una variabile dipende dal sistema di menu che state
utilizzando:
Come tutte le procedure statistiche, anche Analisi a una variabile inizia visualizzando una finestra
di input dei dati:
Figura 1-22. La finestra di input dei dati della procedura Analisi a una variabile
Il riquadro a sinistra visualizza i nomi di tutte le colonne del foglio che contengono dati. Per analizzare
i dati della colonna Per Capita Income, fate clic sul suo nome e poi sul pulsante con la freccia nera
accanto al campo Dati. Così facendo, il nome della colonna che contiene i valori dei redditi sarà posto
nel campo Dati. Lasciate vuoto il campo Seleziona (serve solo per analizzare un sottoinsieme di righe
del foglio, anziché tutte le righe).
Quando fate clic su OK, sarà visualizzata la finestra Tabelle e grafici. Questa finestra mostra le tabelle e i
grafici che sono disponibili per la procedura Analisi a una variabile. Per adesso, accettiamo le
impostazioni di default:
21 Introduzione
Figura 1-23. La finestra Tabelle e grafici
Se fate clic di nuovo su OK, sarà creata una nuova finestra di analisi:
22 Introduzione
La finestra contiene quattro pannelli, separati da barre divisorie mobili. I due pannelli a sinistra
visualizzano un output in forma tabellare, mentre i due pannelli a destra visualizzano un output
grafico. Se fate doppio clic sul pannello in basso a sinistra, sarà ingrandita la tabella con le
statistiche di sintesi:
Sotto la tabella è riportato l’output di StatAdvisor, che fornisce una breve interpretazione dei
risultati. In questo caso, StatAdvisor si concentra sulle due statistiche visualizzate in rosso, che
misurano l’asimmetria e la curtosi dei dati. Come spiega StatAdvisor, i dati con distribuzione
normale o gaussiana hanno valori di asimmetria e curtosi standard compresi tra –2 e +2. In
questo caso, entrambe le statistiche sono all’interno di questo intervallo; ciò significa che per le
osservazioni in esame possiamo accettare come modello una curva normale a forma di campana,
sebbene l’asimmetria sia molto prossima a essere statisticamente significativa.
23 Introduzione
Se fate di nuovo doppio clic sulla tabella delle statistiche di sintesi, ripristinerete i quattro
pannelli originali. Facendo doppio clic sul pannello in basso a destra, sarà ingrandito il
diagramma a scatola e baffi:
24 Introduzione
I pulsanti della barra di analisi sono molto importanti. Le azioni dei primi sei pulsanti sono
descritte nel seguente prospetto:
Nome Funzione
Finestra di input Visualizza la finestra di input dei dati in modo che sia
possibile modificare i dati delle colonne selezionate.
Opzioni di analisi Seleziona le opzioni che si applicano alle tabelle
e ai grafici dell’analisi corrente.
Tabelle e grafici Visualizza l’elenco di altri grafici e tabelle che è possibile
creare.
Opzioni per il pannello Seleziona le opzioni che si applicano soltanto alla tabella
o al grafico correntemente ingrandito.
Salvare i risultati Salva le statistiche calcolate nelle colonne di un foglio.
Opzioni per il grafico Consente di modificare i titoli, la scala e altre
caratteristiche del grafico correntemente ingrandito.
Figura 1-28. Sei importanti pulsanti della barra degli strumenti di analisi
Altri pulsanti a destra di questi agiscono sul grafico correntemente ingrandito, come è descritto
nel Capitolo 5.
Per esempio, se fate clic sul pulsante Tabelle e grafici , sarà visualizzata una finestra di dialogo
che elenca gli altri grafici disponibili nella procedura Analisi a una variabile:
Figura 1-29. Elenco di tabelle e grafici disponibili nella procedura Analisi a una variabile
Facendo clic sulla casella accanto a Istogramma delle frequenze e poi sul pulsante OK, viene aggiunto
un terzo pannello nel lato destro della finestra di analisi:
25 Introduzione
Figura 1-30. La finestra Analisi a una variabile con il nuovo istogramma delle frequenze
Se fate doppio clic sull’istogramma per ingrandirlo e poi fate clic sul pulsante Opzioni per il
pannello, sarà visualizzata una finestra con le opzioni specifiche per l’istogramma:
26 Introduzione
Figura 1-31. La finestra con le opzioni specifiche per l’istogramma delle frequenze
Questa finestra consente di cambiare il numero di barre dell’istogramma, come pure l’intervallo
di valori che esse rappresentano. Impostate a 15 il campo Numero di classi e fate clic su OK;
l’istogramma varierà per rispecchiare questa nuova impostazione:
Figura 1-32. L’istogramma delle frequenze dopo la modifica del numero di classi
27 Introduzione
È anche possibile modificare il tipo di riempimento e il colore delle barre dell’istogramma
utilizzando il pulsante Opzioni per il grafico. Questo pulsante visualizza una finestra che permette di
cambiare molti elementi del grafico. Se fate clic sulla scheda Riempimenti, avrete accesso alle
seguenti opzioni di riempimento:
Figura 1-33. La finestra con le opzioni di riempimento degli elementi del grafico
Fate clic sul pulsante radio 1 e poi selezionate un nuovo tipo di riempimento o colore per
modificare l’aspetto delle barre dell’istogramma.
NOTA: le operazioni di molti pulsanti della barra degli strumenti di analisi possono essere
eseguite facendo clic con il pulsante destro del mouse nel pannello che contiene una tabella o un
grafico. Sarà visualizzato un menu popup che elenca le operazioni disponibili.
28 Introduzione
1.7 Diffondere i risultati
Una volta completata l’analisi, i risultati possono essere diffusi in vari modi:
Azione Metodo
Stampare i risultati dell’analisi. Fate clic sul pulsante con la stampante
nella barra degli strumenti principali per
stampare tutti i grafici e le tabelle, oppure
fate clic su un pannello con il pulsante
destro del mouse e selezionate Stampa dal
menu popup per stampare un solo grafico
o una sola tabella.
Pubblicare i risultati per visualizzarli Selezionate StatPublish dal menu File. Sarà
in un browser del Web. visualizzata una finestra dove potrete
specificare la cartella in cui salvare il
documento HTML.
Copiare i risultati in un’altra Fate clic sulla tabella o sul grafico da
applicazione. copiare e selezionate Copia dal menu
Modifica. Poi, attivate l’altra applicazione e
selezionate Modifica – Incolla.
Salvare i risultati in un report. Premete il pulsante destro del mouse e
selezionate Copia l’analisi in StatReporter.
StatReporter, descritto nel Capitolo 7,
consente di salvare i risultati dell’analisi in
un file RTF, che potrà essere importato in
altri programmi, come Microsoft Word.
Salvare un grafico in un file. Ingrandite la finestra del grafico da salvare.
Poi selezionate Salva grafico dal menu File.
Figura 1-34. Metodi per diffondere i risultati dell’analisi
29 Introduzione
1.8 Salvare il proprio lavoro
Per salvare la sessione corrente di lavoro con STATGRAPHICS Centurion XVI, selezionate Salva
StatFolio dal menu File e digitate il nome da assegnare al file:
NOTA 2: i dati e StatFolio vengono registrati in file differenti. Se avete bisogno di spostare uno
StatFolio in un altro computer, ricordatevi di spostare anche i file dei dati.
30 Introduzione
Capitolo
2.1 Il DataBook
Ogni colonna di un foglio di STATGRAPHICS Centurion XVI rappresenta una variabile. Le
variabili di solito sono proprietà o misure degli elementi che definiscono le righe del foglio. Per
esempio, il foglio 93cars ha una colonna che identifica la marca di ogni automobile, una colonna
che ne identifica il tipo, le colonne che riportano i consumi di carburante in città e in autostrada,
le colonne che indicano la lunghezza, l’altezza e il peso dell’automobile, e altre informazioni.
Ogni colonna è associata a un nome e un tipo. Il nome serve a identificare i dati da utilizzare in
un’analisi statistica. Il tipo influisce sul modo in cui i dati saranno analizzati. A ogni colonna è
anche associato un commento facoltativo, che serve a fornire informazioni aggiuntive sul
contenuto di una colonna. Nota: i dati provengono dal Journal of Statistical Education Data
Archive (www.amstat.org/publications/jse/jse_data_archive.html) e siamo stati autorizzati a
utilizzarli.
Per visualizzare o modificare le proprietà di una colonna, fate doppio clic sul nome della colonna
per visualizzare la finestra Modifica colonna:
3. Tipo: specifica il tipo di dati che è possibile inserire nella colonna. I tipi di dati
disponibili sono i seguenti:
Quando inserite una data, dovrete utilizzare il formato specificato nella finestra Modifica –
Preferenze di STATGRAPHICS Centurion: Anni a 4 cifre (per esempio, 4/30/2005) o a 2 cifre (per
esempio, 4/30/05). Se utilizzate il secondo formato, potrete specificare soltanto gli anni
compresi tra il 1950 e il 2049.
Per ulteriori informazioni sulle formule, consultate il paragrafo successivo Manipolare i dati.
Sullo schermo saranno visualizzate in sequenza alcune finestre che vi permetteranno di:
A questo punto, viene creata ed eseguita una query SQL, i cui risultati vengono posti nel foglio
attivo di STATGRAPHICS. Per avere informazioni dettagliate sul modo in cui vengono
predisposte le query ODBC, consultate il file PDF Data Files and StatLink.
5. I dati possono essere ricodificati per formare gruppi o per altri scopi.
6. I dati che si estendono su più colonne possono essere disposti in una sola colonna, se
così è richiesto da una procedura statistica.
Queste importanti operazioni sono descritte nei prossimi paragrafi.
1. Direttamente “al volo” utilizzando i campi delle finestre di input dei dati, senza salvare le
variabili nel foglio.
2. Creando una nuova colonna in uno dei 26 fogli del DataBook.
Quando fate clic su OK, il programma esegue l’analisi dei valori risultanti dalla formula
“100 * MPG City / MPG Highway”, senza modificare i dati del foglio:
Il rapporto medio è 76.3% circa; il rapporto minimo è 64.0% e il massimo 93.9%. La possibilità
di eseguire le procedure statistiche senza modificare i fogli è molto importante perché semplifica
notevolmente l’analisi dei dati.
Se serve, potete creare una nuova colonna contenente i valori trasformati. Per esempio, ritornate
alla finestra con i dati del file 93cars, fate doppio clic sull’intestazione della colonna Col_27. Sarà
visualizzata la finestra Modifica colonna che potrete utilizzare per definire una nuova variabile di
tipo Formula con i dati della trasformazione richiesta:
Le parentesi sono necessarie per garantire che le sottrazioni siano eseguite prima della divisione.
Il programma non fa distinzione fra lettere maiuscole e minuscole nelle espressioni e ignora gli
spazi vuoti.
A destra c’è l’elenco di tutti gli operatori di STATGRAPHICS Centurion, con un punto
interrogativo (?) per ogni argomento da specificare. Se fate clic sul nome di un operatore, questo
sarà inserito nel campo Espressione. Dopo avere sostituito i punti interrogativi con i numeri o
i nomi di colonne appropriati, fate clic sul pulsante Visualizza per vedere i primi valori generati
dall’espressione o sul pulsante OK per inserire l’espressione nella finestra di input.
La trasformazione impostata nella finestra di input (come quella della Figura 2-13) sarà utilizzata
dalla procedura di analisi:
Gli operatori di STATGRAPHICS Centurion possono essere utilizzati anche per creare colonne
di formule, simili a quelle descritte nel precedente paragrafo.
Per disporre questi dati nella stessa colonna, potreste eseguire più operazioni copia-e-incolla.
Una soluzione più semplice consiste nell’utilizzare la procedura Unisci colonne, che è un’opzione
del menu Modifica. Questa procedura presenta innanzitutto una finestra di input che richiede i
nomi delle colonne con i dati da analizzare:
Per analizzare questi dati utilizzando la procedura ANOVA a più fattori, è necessario disporli nel
foglio nel seguente formato:
Per creare questa struttura, la soluzione più semplice, di solito, consiste nel digitare i dati
nelle prime due colonne. Tuttavia, poiché i dati delle colonne ricalcano un semplice schema,
è possibile generarli utilizzando gli operatori speciali di STATGRAPHICS Centurion.
Per esempio, i numeri della colonna Blend possono essere generati facendo clic sull’intestazione
della prima colonna e poi selezionando Genera dati dal menu Modifica. Sarà visualizzata una
finestra, dove potrete inserire un’espressione appropriata:
COUNT(inizio; fine; incremento) – Genera i valori compresi tra inizio e fine, con l’incremento
specificato. Per esempio, COUNT(1;4;1) genera i numeri interi 1, 2, 3 e 4. Nota: come
detto alla fine del Paragrafo 2.1, il formato dei dati immessi deve essere conforme alle
impostazioni correnti del vostro sistema; per esempio, se avete impostato la virgola come
simbolo di separazione degli argomenti delle funzioni, questa formula dovrà essere
digitata così: COUNT(1,4,1).
I numeri della colonna Treatment possono essere generati in maniera analoga facendo clic
sull’intestazione della seconda colonna, selezionando Genera dati dal menu Modifica e digitando la
seguente formula:
Questi generatori di schemi possono essere utili quando il file dei dati da creare è grande.
2. Per altre distribuzioni, i numeri casuali devono essere generati con la procedura
Distribuzioni di probabilità.
Fate clic su OK per generare i numeri casuali e inserirli nella colonna selezionata.
La sintassi degli altri generatori di numeri casuali è descritta nel documento PDF
STATGRAPHICS Centurion Operators.
Questa finestra mostra l’origine dei dati di ciascun foglio. Per evitare che i dati di un foglio
possano essere modificati accidentalmente, attivate l’attributo Lettura soltanto in corrispondenza
del foglio. L’opzione Acquisire consente di rileggere periodicamente il file dei dati di origine in
modo che le procedure statistiche siano automaticamente aggiornate. Questa importante
funzionalità è descritta nel Capitolo 5.
Analisi statistica
3
Eseguire analisi statistiche, selezionare tabelle e grafici addizionali, scegliere le
opzioni, modificare i dati di input e salvare i risultati
Il menu principale di STATGRAPHICS Centurion XVI include oltre 160 procedure di analisi
statistica; la modalità di utilizzo di tutte queste procedure è essenzialmente identica:
1. Quando selezionate una procedura dal menu, sullo schermo viene visualizzata una finestra di
input dei dati. I campi di questa finestra sono utilizzati per specificare le variabili da analizzare.
2. Se la procedura selezionata ha delle opzioni che influiscono su tutte le tabelle e i grafici
all’interno della procedura, viene visualizzata la finestra Opzioni di analisi per selezionare le
impostazioni desiderate.
3. Se la procedura selezionata ha più di una tabella o più di un grafico, viene visualizzata la
finestra Tabelle e grafici nel quale potrà essere selezionato l’output desiderato.
4. I dati specificati vengono letti e analizzati, e viene creata una nuova finestra di analisi.
5. Le opzioni selezionate possono essere modificate utilizzando il pulsante Opzioni di analisi nella
barra degli strumenti di analisi; le vostre modifiche saranno automaticamente riportate nelle
tabelle e nei grafici della finestra di analisi.
6. Per aggiungere altri grafici e tabelle a quelli standard, utilizzate il pulsante Tabelle e grafici nella
barra degli strumenti di analisi.
7. Per modificare un grafico o una tabella, ingrandite il corrispondente pannello e selezionate
Opzioni per il pannello nella barra degli strumenti di analisi.
59 Analisi statistica
8. Per modificare il titolo, la scala, i caratteri, il tipo di indicatore e altri elementi di un grafico,
prima fate doppio clic sul grafico per ingrandirlo e poi selezionate Opzioni per il grafico nella
barra degli strumenti di analisi.
9. Le tabelle e i grafici possono essere stampati, pubblicati come file HTML, copiati in altre
applicazioni, come Microsoft PowerPoint, o salvati in StatReporter.
10. I risultati numerici possono essere salvati nelle colonne di un foglio qualsiasi utilizzando
il pulsante Salva i risultati nella barra degli strumenti di analisi.
11. Un’intera analisi può essere salvata su disco in uno StatFolio per essere riutilizzata
successivamente.
Questo capitolo descrive dettagliatamente una tipica procedura di analisi. L’obiettivo dell’analisi è
trovare un modello statistico che mette in relazione il consumo di carburante in città con il peso di 93
automobili. I dati da analizzare si trovano nel file 93cars.sgd. I consumi sono espressi in miglia per
gallone (MPG) e i pesi in libbre (pound). Un grafico a dispersione dei dati è illustrato qui di seguito:
Figura 3-1. Grafico a dispersione XY che rappresenta i consumi di carburante in città in funzione del peso delle automobili
Come era prevedibile, la distanza percorsa in città (MPG City) ha una correlazione inversa con
il peso (Weight) del veicolo. Il grafico mette in evidenza una certa non-linearità nella relazione;
inoltre almeno un punto può essere considerato un potenziale outlier.
60 Analisi statistica
La Regressione semplice è la procedura principale di STATGRAPHICS Centurion XVI che consente
di trovare un modello statistico che mette in relazione due variabili. Questa procedura è in grado
di determinare sia i modelli lineari sia quelli non lineari. Il modello più semplice che mette in
relazione una variabile dipendente Y con una variabile indipendente X è la linea retta, espressa
dalla seguente equazione
Y=a+bX
dove b è il coefficiente angolare (o pendenza) della retta e a è l’intercetta. Se la relazione tra le
variabili non è lineare, è possibile utilizzare un modello curvilineo, come quello esponenziale
Y = exp(a + b X)
Figura 3-2. La finestra di input dei dati della procedura Regressione semplice
61 Analisi statistica
I primi due campi sono obbligatori:
Y: la variabile dipendente o risposta;
X: la variabile indipendente o esplicativa.
Nei campi di input potete inserire il nome di una colonna come MPG City o un’espressione di
STATGRAPHICS Centurion come LOG(MPG City) . Se più fogli contengono una colonna con
il nome specificato, anteponete la lettera del foglio desiderato al nome della colonna. Per esempio,
se i fogli A e B contenessero una colonna Weight, per utilizzare la colonna del foglio A, dovreste
specificare il nome A.Weight.
Il campo Seleziona può essere utilizzato per selezionare un sottoinsieme di righe del foglio. Per
esempio, se in questo campo digitate un’istruzione come FIRST(50), saranno utilizzate soltanto le
prime 50 righe del foglio. Il seguente prospetto elenca le tipiche espressioni del campo Seleziona:
Espressione Utilizzo Esempio
FIRST(k) Seleziona le prime k righe. FIRST(50)
LAST(k) Seleziona le ultime k righe. LAST(50)
ROWS(inizio;fine) Seleziona le righe comprese tra ROWS(21;70)
inizio e fine, estremi inclusi.
RANDOM(k) Seleziona un insieme casuale di k RANDOM(50)
righe.
colonna < valore Seleziona soltanto le righe dove Passengers < 5
colonna è minore di valore.
colonna <= valore Seleziona soltanto le righe dove Passengers <= 5
colonna è minore o uguale a valore.
colonna > valore Seleziona soltanto le righe dove Passengers > 5
colonna è maggiore di valore.
colonna >= valore Seleziona soltanto le righe dove Passengers >= 5
colonna è maggiore o uguale a valore.
colonna = valore Seleziona soltanto le righe dove Cylinders = 6
colonna è uguale a valore.
colonna <> valore Seleziona soltanto le righe dove Cylinders <> 4
colonna è diverso da valore.
condizione1 & condizione2 Seleziona le righe che soddisfano Cylinders = 6 &
entrambe le condizioni. Make = “Ford”
condizione1 | condizione2 Seleziona le righe che soddisfano Cylinders = 6 |
almeno una delle condizioni. Make = “Ford”
binarycolumn Seleziona le righe dove il valore Domestic
di binarycolumn è diverso da 0.
Figura 3-3. Espressioni ammesse nel campo Seleziona
62 Analisi statistica
Quando specificate una condizione che fa riferimento a una variabile non numerica, valore deve essere
racchiuso tra parentesi; in questo caso, il programma fa distinzione fra lettere maiuscole e minuscole.
È possibile combinare più condizioni utilizzando i simboli AND (&) e OR (|).
Ciascuna delle espressioni ammesse nel campo Seleziona, in effetti, genera una sequenza di valori
booleani 0 e 1, dove 0 sta per falso e 1 sta per vero. Quando un’espressione viene utilizzata nel campo
Seleziona di una finestra di input, il suo effetto è selezionare tutte le righe per le quali la condizione è
vera, escludendo tutte quelle per le quali la condizione è falsa.
La finestra è formata da più pannelli divisi da barre mobili. Le tabelle si trovano sul lato sinistro della
finestra, i grafici sul lato destro.
63 Analisi statistica
Per ingrandire il pannello di una tabella o di un grafico, fate doppio al suo interno; il pannello
occuperà tutto lo spazio della finestra:
Figura 3-5. Un pannello ingrandito della finestra di analisi della Regressione semplice
Per ripristinare la visualizzazione degli altri pannelli, fate doppio clic di nuovo sul pannello ingrandito.
Quando è attiva una finestra di analisi, viene visualizzata una seconda barra di strumenti sotto la barra
degli strumenti principali di STATGRAPHICS Centurion XVI. La barra degli strumenti di analisi si
presenta in questo modo:
64 Analisi statistica
3.2.1 Pulsante Finestra di input
Questo pulsante visualizza la finestra di input dei dati originariamente utilizzata per
specificare le variabili, come illustra la Figura 3-2. Se modificate le variabili e fate clic su OK,
i risultati dell’analisi saranno automaticamente aggiornati. Questo vi consente di provare diverse
combinazioni di dati senza bisogno di avviare una nuova analisi.
Di solito, le analisi hanno numerose opzioni. La prima volta che eseguite un’analisi, vengono
automaticamente selezionati i valori di default per queste opzioni, che sono appropriati alla maggior
parte dei casi. Tuttavia, se volete modificare queste impostazioni di default, utilizzate il pulsante
Opzioni di analisi all’interno di una procedura. Per la Regressione semplice, la finestra Opzioni di analisi
specifica il tipo di modello da trovare e il metodo per determinare i coefficienti incogniti del modello:
Figura 3-6. La finestra con le opzioni di analisi per la procedura Regressione semplice
Esaminando la tabella dei metodi alternativi della Figura 3-7, è possibile notare che molti modelli
curvilinei presentano un valore di R-quadrato più grande rispetto al modello lineare. Il primo
della lista è il modello Curva S. Se avete selezionato questo modello nella finestra con le opzioni
di analisi e fate clic su OK, l’intera analisi cambierà conformemente a questa nuova scelta. Come
potete notare esaminando il grafico del nuovo modello, Curva S approssima molto bene la
curvatura dei dati:
65 Analisi statistica
Figura 3-7. Il modello Curva S
Figura 3-8. La finestra con le tabelle e i grafici della procedura Regressione semplice
66 Analisi statistica
Per esempio, se decidete di aggiungere le tabelle che riportano i modelli alternativi e i residui
anomali, saranno aggiunti nuovi pannelli alla finestra di analisi:
Figura 3-9. La finestra di analisi della Regressione semplice con le nuove tabelle
Se selezionate un grafico dei residui, sarà aggiunto un nuovo grafico nella finestra di analisi:
67 Analisi statistica
Figura 3-10. La finestra di analisi della Regressione semplice con un nuovo grafico
Oltre alle opzioni che si applicano all’intera analisi, è possibile scegliere delle opzioni per singoli
grafici o tabelle. Per accedere a queste opzioni, innanzitutto bisogna ingrandire il grafico o la tabella e
poi utilizzare il pulsante Opzioni per il pannello. Per un grafico del modello adattato, le opzioni disponibili
sono le seguenti:
68 Analisi statistica
Figura 3-11. Le opzioni per un grafico del modello adattato
Per esempio, se disattivate la casella Limiti di confidenza e fate clic su OK, il grafico sarà
rappresentato senza i limiti di confidenza interni:
69 Analisi statistica
Figura 3-12. Il grafico del modello approssimato senza i limiti di confidenza
Questo pulsante consente di salvare i risultati numerici di un’analisi statistica nelle colonne di un
foglio di STATGRAPHICS Centurion. Per la procedura Regressione semplice sono disponibili le seguenti
opzioni:
70 Analisi statistica
Figura 3-13. Le opzioni di salvataggio dei risultati della procedura Regressione semplice
Per salvare i risultati, attivate gli elementi preferiti nel riquadro Salva. Per ogni elemento da
salvare scegliete un nome di colonna nel riquadro Variabili target e specificate il foglio nel
riquadro Datasheet. Se intendete salvare i commenti insieme ai dati, attivate la casella
Salva commenti.
La casella Salvataggio automatico consente di salvare automaticamente gli elementi selezionati ogni
volta che ripetete l’analisi. Ciò è utile se intendete salvare i risultati dell’analisi in uno StatFolio,
perché le analisi vengono ripetute ogni volta che viene caricato uno StatFolio. Se attivate la
casella Salvataggio automatico, potete configurare uno StatFolio per calcolare e salvare
automaticamente i risultati statistici desiderati. Combinando questa funzionalità con quelle di
scripting descritte nel Capitolo 5, potrete automatizzare molte operazioni.
71 Analisi statistica
3.2.6 Pulsanti per i grafici
Quando un grafico è ingrandito nella finestra di analisi, si rendono disponibili vari pulsanti addizionali,
tra i quali figurano:
Opzioni per il grafico – Visualizza una finestra che permette di cambiare i colori, le etichette, la scala
degli assi e altri elementi.
Jitter – Distribuisce casualmente lo spazio tra i punti del grafico nelle direzioni orizzontale e
verticale per impedire che si sovrappongano.
Brush – Colora i punti di un grafico a dispersione in funzione del valore della variabile selezionata.
Identifica – Visualizza un’etichetta che identifica un punto quando fate clic su di esso con il mouse.
Localizza per nome – Colora di rosso tutti i punti che hanno un valore uguale a quello immesso nel
campo Etichetta (da utilizzare insieme al pulsante Identifica).
Localizza per riga – Colora di rosso tutti i punti che hanno un numero di riga uguale a quello
immesso nel campo Riga.
72 Analisi statistica
3.2.7 Pulsante Escludi
Alcune procedure statistiche vi consentono di eliminare gli outlier sospetti dai dati da
analizzare; per fare ciò, ingrandite il grafico, fate clic su un punto sospetto e poi sul pulsante
Escludi. Per esempio, il grafico della Figura 3-12 mostra un punto che è ben oltre i limiti di
previsione. Se fate clic su questo punto e poi sul pulsante Escludi, il modello sarà ricalcolato
senza tenere conto di questo outlier. Il grafico risultante rappresenta il nuovo modello, indicando
con un simbolo × il punto o i punti che sono stati esclusi dall’analisi:
È possibile escludere più punti da un modello facendo clic su un punto alla volta e poi sul
pulsante Escludi. Per reinserire nell’analisi un punto escluso, fate clic sul corrispondente
simbolo × e poi sul pulsante Escludi.
73 Analisi statistica
3.3 Stampare i risultati
I risultati di un’analisi statistica possono essere stampati in due modi:
1. Per stampare tutti i grafici e le tabelle della finestra di analisi, fate clic sul pulsante Stampa
nella barra degli strumenti principali oppure selezionate Stampa dal menu File.
2. Per stampare un particolare grafico o tabella, fate clic sul corrispondente pannello con il
pulsante destro del mouse e selezionate Stampa dal menu popup.
Specificate i pannelli da stampare nel riquadro Stampa. Se attivate la casella Tutte le analisi, potete
stampare contemporaneamente i risultati di altre finestre di analisi.
È possibile accedere ad altre opzioni di stampa selezionando Imposta pagina dal menu File:
74 Analisi statistica
Figura 3-16. La finestra per impostare la pagina
4. Specificare le dimensioni relative dei grafici come percentuali delle dimensioni della pagina.
75 Analisi statistica
Altre opzioni, come il formato o l’orientamento del foglio (orizzontale o verticale), sono disponibili
selezionando Imposta stampante dal menu File; in questo caso, sarà visualizzata la finestra associata al
driver della vostra stampante.
I risultati di un’analisi statistica possono essere anche copiati e commentati in una finestra di
StatReporter e, infine, salvati in un file RTF (rich text format); questo file potrà essere letto
direttamente da programmi come Microsoft Word. StatReporter è descritto nel Capitolo 7.
76 Analisi statistica
Capitolo
Grafici
4
Modificare i grafici, salvare i profili dei grafici, interagire con i grafici, salvare
i grafici in file distinti e copiare i grafici in altre applicazioni
Le 160 procedure statistiche di STATGRAPHICS Centurion XVI generano centinaia di tipi di grafici.
Per agevolare il processo di analisi dei dati, ogni volta che viene creato un grafico vengono utilizzate
le impostazioni di default dei titoli, delle scale e di altri parametri. Nella maggior parte dei casi, le
impostazioni di default sono sufficienti per completare l’analisi. Ma per pubblicare i risultati finali, è
importante realizzare grafici di qualità.
Questo capitolo descrive tutto ciò che bisogna conoscere per elaborare i grafici di STATGRAPHICS
Centurion XVI. Imparerete a migliorare il loro aspetto e a copiarli in altre applicazioni, come
Microsoft Word e PowerPoint. Sarete in grado di interagire con i grafici; per esempio, se c’è un punto
interessante nel grafico, potrete ottenere varie informazioni su di esso. Potrete anche ruotare un
grafico 3D per rilevare eventuali relazioni tra le variabili rappresentate sugli assi X, Y e Z.
Come esempio considereremo ancora i dati del file 93cars.sgd. Per illustrare le principali operazioni con
i grafici, utilizzeremo il grafico del modello approssimato che mette in relazione il consumo di
carburante in città con il peso delle automobili.
77 Grafici
4.1 Modificare i grafici
La procedura Regressione semplice, di solito, viene utilizzata per trovare un modello curvilineo che mette
in relazione una variabile risposta Y con una variabile esplicativa X. Come detto nel precedente
capitolo, il modello Curva S approssima bene la relazione tra il consumo di carburante in città
(colonna MPG City) e il peso delle automobili (Weight), i cui valori sono inclusi nel file 93cars.sgd.
La prima volta che viene creato, un grafico del modello approssimato Curva S si presenta così:
Figura 4-1. Grafico del modello approssimato con titoli e scale di default
I titoli, le scale, i tipi di punti e linee, i colori e altri attributi del grafico sono stati generati
automaticamente.
78 Grafici
4.1.1 Opzioni per il layout
Per modificare un grafico, innanzitutto fate doppio clic su di esso per ingrandirlo; poi fate clic
sul pulsante Opzioni per il grafico nella barra degli strumenti di analisi. Sarà visualizzata una
finestra con le schede corrispondenti ai vari elementi del grafico.
La scheda Layout della finestra Opzioni per i grafici consente di modificare alcune caratteristiche
principali del grafico:
È possibile modificare la posizione dei segni di graduazione degli assi, lo spessore degli assi e il
colore dello sfondo e della cornice del grafico. Per esempio, scegliendo il colore giallo per lo
Sfondo e aggiungendo gli Effetti 3D, si ottiene un grafico simile a quello illustrato nella pagina
successiva:
79 Grafici
Figura 4-3. Il grafico con un nuovo colore di sfondo e l’effetto tridimensionale
80 Grafici
4.1.2 Opzioni per la griglia
La scheda Griglia consente di aggiungere una griglia al grafico:
81 Grafici
Figura 4-5. Il grafico con la griglia
82 Grafici
4.1.3 Opzioni per le linee
La scheda Linee consente di specificare il tipo, il colore e lo spessore delle linee di un grafico:
Un grafico come quello del modello approssimato ha tre linee distinte (1, 15 e 16 nel riquadro Linee):
la linea della migliore approssimazione, i limiti di confidenza interni e i limiti di previsione esterni. Per
modificare uno di questi tipi di linee, fate clic sul pulsante da 1 a 20 e poi selezionate gli attributi
preferiti. Aumentando lo spessore della linea centrale e modificando gli altri due tipi di linee si ottiene:
83 Grafici
Figura 4-7. Il grafico dopo aver modificato i tipi di linee
84 Grafici
4.1.4 Opzioni per i punti
La scheda Punti consente di specificare il tipo, il colore e la dimensione dei punti di un grafico:
Il pulsante 1 controlla gli attributi del primo gruppo di punti di un grafico. Nell’esempio in esame c’è
uno solo gruppo di punti. Impostando il rombo pieno nel riquadro Tipi di punti, si ottiene il seguente
grafico:
85 Grafici
Figura 4-9. Il grafico con un nuovo tipo di punto
86 Grafici
4.1.5 Opzioni per il titolo principale
La scheda Titolo principale consente di specificare il testo e il tipo di caratteri del titolo principale
del grafico:
Il titolo di un grafico può occupare due righe. Un codice “{3}” in un campo del titolo indica che
il testo sarà automaticamente generato dalla procedura di analisi; di solito, il titolo automatico
contiene nomi di variabili o i valori di alcune statistiche. Potete modificare i titoli, inclusi quelli
automatici. Potete anche spostare un titolo trascinandolo con il mouse:
87 Grafici
Figura 4-11. Il grafico con il titolo principale modificato
88 Grafici
4.1.6 Opzioni per la scala degli assi
La finestra Opzioni per i grafici contiene anche le schede che consentono di modificare il titolo e la scala
degli assi:
89 Grafici
5. Scala: traccia gli assi utilizzando due scale logaritmiche in base 10.
6. Quando i dati cambiano: specifica se la scala dovrà restare costante oppure no quando nel grafico
vengono rappresentati nuovi dati.
7. Font …: questi pulsanti consentono di modificare il colore, la dimensione e lo stile dei caratteri
del titolo e dei segni di graduazione.
Il risultato ottenuto con le precedenti impostazioni e con analoghe modifiche all’asse Y è il seguente:
Figura 4-13. Il grafico dopo la modifica dei titoli e della scala degli assi X e Y
90 Grafici
4.1.7 Opzioni per il riempimento delle aree
Alcuni grafici sono formati da elementi (barre, poligoni o fette di torta) le cui aree possono essere
colorate o riempite mediante la scheda Riempimenti nella finestra Opzioni per i grafici:
Per i grafici, come gli istogrammi, è consigliabile scegliere un tipo di riempimento non uniforme
quando si stampa in bianco e nero:
91 Grafici
Figura 4-15. Istogramma delle frequenze con un tipo di riempimento personalizzato
92 Grafici
Il testo sarà posizionato inizialmente sotto il titolo principale; per spostarlo, trascinatelo con il mouse:
Per modificare il testo che avete aggiunto al grafico, fate clic su di esso e poi sul pulsante Opzioni per
il grafico.
93 Grafici
Figura 4-18. Grafico a dispersione del consumo di carburante in funzione del numero di cilindri
Sebbene ci siano 93 righe nel foglio, il numero di punti visibili nel grafico è molto più piccolo.
Se fate clic sul pulsante Jitter, sarà visualizzata una finestra che vi consentirà di aggiungere casualmente
un piccolo spazio tra i punti del grafico:
94 Grafici
Figura 4-20. L’effetto del jittering orizzontale sul grafico a dispersione
Ogni punto è stato spostato di una piccola quantità casuale lungo l’asse orizzontale. Il jittering di
un grafico influisce soltanto sulla visualizzazione dei punti; non ha alcun effetto sui dati del
foglio né su eventuali calcoli.
95 Grafici
Figura 4-21. La matrice di grafici per i dati del file 93cars.sgd
Il grafico a dispersione in ogni cella della matrice rappresenta i valori delle variabili
corrispondenti ai suoi identificatori di riga e colonna.
Supponete di voler visualizzare la relazione tra la potenza delle automobili (Horsepower) e le
cinque variabili rappresentate in questa matrice di grafici. Se fate clic sul pulsante Brush nella
barra degli strumenti di analisi, sarà visualizzata la seguente finestra:
Selezionate la variabile quantitativa da utilizzare per codificare i punti. Dopo avere selezionato la
variabile, sarà visualizzata la seguente finestra:
96 Grafici
Figura 4-23. La finestra per selezionare l’intervallo di colorazione
I due cursori servono a specificare i limiti inferiore e superiore della variabile. Tutti i punti del
grafico sono colorati di blu se cadono nell’intervallo specificato. Per esempio, nel seguente
grafico tutte le automobili di potenza compresa tra 55,0 e 121,5 sono colorate di blu:
97 Grafici
Figura 4-25. La finestra con le opzioni per smussare un grafico a dispersione
Il processo di smoothing di un grafico a dispersione avviene selezionando una serie di posizioni
lungo l’asse X e rappresentando in corrispondenza di ciascuna posizione una media ponderata
della frazione specificata dei punti che sono più vicini a quella posizione. Uno dei migliori
metodi di smoothing è LOWESS (LOcally WEighted Scatterplot Smoothing), che di solito viene
utilizzato con una frazione di smoothing tra 40% e 60%. Il risultato di questo metodo di
smoothing applicato ai grafici dei dati delle automobili è illustrato nella seguente figura:
Figura 4-26. I grafici a dispersione smussati applicando il metodo Lowess con una frazione di smoothing del 50%
Le versioni smussate dei grafici illustrano meglio il tipo di relazione tra le variabili.
98 Grafici
4.5 Identificare i punti
Per visualizzare il numero di riga e le coordinate di un punto del grafico, posizionate il puntatore
del mouse sul punto e poi tenete premuto il pulsante. Nell’angolo superiore destro del grafico
sarà visualizzato un piccolo riquadro che indica il numero di riga e le coordinate X e Y del
punto:
Figura 4-27. Il riquadro con le informazioni sul punto selezionato del grafico
Contemporaneamente, il numero di riga del punto sarà posto nel campo Riga della barra degli
strumenti di analisi:
Figura 4-28. Il campo Riga mostra il numero di riga del punto selezionato
Per ottenere altre informazioni su un punto del grafico, fate clic sul pulsante Identifica ; poi
selezionate una colonna del DataBook nella successiva finestra:
99 Grafici
Figura 4-29. La finestra di identificazione dei punti del grafico
Dopo avere selezionato una variabile, se fate clic su un punto qualsiasi del grafico, il
corrispondente valore della variabile sarà visualizzato nel campo Etichetta della barra degli
strumenti di analisi:
Figura 4-30. Il campo Etichetta mostra il valore della variabile Make per il punto selezionato
I pulsanti Localizza posti a destra dei campi Etichetta e Riga possono essere utilizzati per
localizzare i punti su un grafico. Se digitate un valore in uno di questi campi e poi fate clic sul
corrispondente pulsante Localizza, saranno selezionati tutti i punti del grafico che hanno il valore
digitato. Per esempio, il seguente grafico colora di blu tutti i punti delle automobili Honda:
100 Grafici
Figura 4-31. Il grafico mette in evidenza tutti i punti delle automobili Honda
Questa tecnica è molto efficace con una matrice di grafici. Per esempio, la successiva figura
mette in evidenza tutti i punti corrispondenti alla riga 42:
101 Grafici
Figura 4-32. Nei grafici sono messi in evidenza i punti della riga 42
Localizzando un punto in una matrice di grafici, è più facile capire se si tratta di un outlier per
più variabili.
NOTA: il colore utilizzato per mettere in evidenza i punti è impostato nella scheda
Grafici della finestra Preferenze, accessibile dal menu Modifica.
102 Grafici
Per copiare i risultati di un’intera analisi in un’altra applicazione, inclusi tutti i grafici e le tabelle,
prima copiate l’analisi in StatReporter utilizzando il menu popup associato al pulsante destro del
mouse, poi copiate StatReporter nell’applicazione di destinazione. Questa tecnica è descritta nel
Capitolo 7.
Per copiare il grafico e la finestra che lo contiene, come illustra la Figura 4-31, vi consigliamo di
utilizzare un’applicazione specifica per catturare le immagini dello schermo. Le figure di questo
manuale sono state catturate con il programma SnagIt, che può essere acquistato presso il sito
www.techsmith.com. Se utilizzate SnagIt, vi suggeriamo di impostare l’opzione Input a “Window” e
l’opzione Output a “Clipboard”; in questo modo potrete incollare le immagini direttamente in
qualsiasi documento.
103 Grafici
Capitolo
StatFolio
5
Salvare una sessione di lavoro, pubblicare i risultati delle analisi nel formato
HTML e automatizzare le analisi utilizzando gli script di avviamento
Ogni volta che selezionate un’analisi statistica dal menu di STATGRAPHICS Centurion XVI,
viene creata una nuova finestra di analisi. In qualsiasi momento potete salvare tutte le finestre di
analisi in uno StatFolio: un file che contiene la definizione di tutte le analisi statistiche che sono
state create, inclusi i puntatori ai dati. Salvando uno StatFolio e riaprendolo successivamente, in
effetti salvate e ripristinate la sessione corrente di lavoro con STATGRAPHICS Centurion XVI.
Quando salvate una sessione in uno StatFolio, viene salvata la definizione delle analisi, non il
loro output. Quando riaprite uno StatFolio, i dati nei corrispondenti file di origine vengono
riletti e tutte le analisi ricalcolate. StatFolio quindi fornisce un semplice metodo per ripetere
le analisi in un momento successivo utilizzando dati che potrebbero essere cambiati.
È anche possibile creare uno script che viene eseguito ogni volta che viene caricato uno
StatFolio. I dettagli di questa e di altre funzionalità di StatFolio sono descritti in questo capitolo.
105 StatFolio
Figura 5-1. La finestra per salvare la sessione corrente in uno StatFolio
Gli StatFolio vengono salvati in file con estensione .sgp e contengono:
1. Una definizione di tutte le analisi che sono state create, le variabili di input, le tabelle e
i grafici, le impostazioni di tutte le opzioni, le modifiche apportate ai grafici e così via.
Quando riaprite uno StatFolio, le analisi vengono ripetute e tutti i grafici e le tabelle
vengono aggiornati.
2. Collegamenti con i file dei dati di origine contenuti nel DataBook. Se i dati cambiano tra
l’istante in cui salvate lo StatFolio e quello in cui lo riaprite, la finestra di analisi riporterà
tali cambiamenti.
106 StatFolio
StatFolio dal menu Modifica. Sarà visualizzata una finestra i cui campi vi consentono di definire la
sequenza delle operazioni da svolgere:
107 StatFolio
Operazione Argomento Target Descrizione
Esegui Titolo dell’analisi da eseguire Aggiorna l’analisi indicata.
Assegna Espressione di Nome di una Calcola l’espressione e la
STATGRAPHICS Centurion colonna assegna alla colonna indicata.
Stampa Finestre da stampare Stampa il contenuto delle
finestre indicate.
Pubblica Esegue StatPublish per
pubblicare il contenuto dello
StatFolio in un file HTML.
Shell Comando di Windows da Argomento Esegue un comando di
eseguire del comando Windows.
Ritardo Numero di secondi Pausa della durata specificata.
Carica Nome dello StatFolio Specifica lo StatFolio da
caricare dopo l’esecuzione dello
script. L’operatore Carica
consente di aprire in sequenza
più StatFolio.
Esci Esce da STATGRAPHICS
Centurion XVI.
Figura 5-3. Gli operatori degli script di avviamento
Nell’esempio illustrato nella Figura 5-2 viene eseguita la procedura Regressione semplice. All’interno
di questa analisi, si suppone che Salva i risultati sia stato impostato per salvare automaticamente i
residui del modello approssimato nella colonna RESIDUI. I residui vengono poi divisi per i
valori originali dei dati e moltiplicati per 100 per ottenere gli errori percentuali, che vengono
assegnati alla nuova variabile PERROR. I valori di PERROR sono poi sintetizzati tramite la
procedura Analisi a una variabile; infine, vengono stampati i risultati di entrambe le analisi.
Notate che gli StatFolio possono essere aperti in sequenza inserendo nello script di uno
StatFolio l’operatore Carica che chiede di caricare un altro StatFolio. Potete anche chiudere
automaticamente STATGRAPHICS Centurion XVI tramite l’operatore Esci.
NOTA: per escludere l’esecuzione degli script, selezionate Disabilita gli script di avviamento nella
scheda Generale della finestra Preferenze, accessibile dal menu Modifica:
108 StatFolio
Figura 5-4. Disabilitare l’esecuzione degli script di avviamento
109 StatFolio
5.3 Aggiornamento automatico delle analisi statistiche
Una volta creato uno StatFolio contenente diverse analisi, i dati dei file di origine possono essere
riletti periodicamente in modo da aggiornare tutte le analisi. Per fare questo, utilizzate la finestra
Proprietà DataBook del menu Modifica o selezionate StatLink dal menu File:
110 StatFolio
Includendo l’operatore Pubblica nello script di avviamento di uno StatFolio, STATGRAPHICS
Centurion XVI invierà automaticamente l’output a un server di rete.
111 StatFolio
• URL del sito FTP: tutto l’output pubblicato viene posto nella cartella precedentemente
specificata. L’output include i file HTML, i file dei grafici e altri file di supporto. Se
specificate l’indirizzo di un sito web nel campo URL del sito FTP, tutti i file saranno anche
inviati al server specificato da questo indirizzo. Notate che per fare questo dovrete avere
l’autorizzazione ad accedere in modalità scrittura al sito; tale autorizzazione viene concessa
dall’amministratore della rete.
• Larghezza e altezza del grafico in pixel: le dimensioni dei grafici quando vengono
incorporati nei file HTML.
• Formato delle immagini: i grafici possono essere incorporati nei file HTML in uno di
questi tre formati:
1. JPEG – Immagini statiche salvate nel formato JPEG. I file creati hanno nomi come
pubexample_analysis1_graph1.jpg.
2. PNG – Immagini statiche salvate nel formato PNG. I file creati hanno nomi come
pubexample_analysis1_graph1.png.
3. Applet Java – Immagine dinamica che può essere aggiornata mentre è visualizzata nel
browser. Un grafico sarà aggiornato periodicamente (dopo il numero di secondi
specificato) attraverso la lettura di un file ausiliario che ha un nome come
pubexample_analysis1_graph1.sgz. Questa opzione è stata ideata per essere utilizzata
in combinazione con la rilettura periodica dei dati tramite StatLink, come descritto nel
documento PDF Dynamic Data Processing and Analysis. Nota: non tutti i grafici vengono
pubblicati appropriatamente con questa opzione. Se uno o più grafici non sono
visualizzati correttamente dal browser, scegliete un’altra opzione.
• Applet interattive: per un grafico pubblicato come applet, questa opzione consente al
browser di visualizzare i valori dei dati quando l’utente fa clic con il mouse sui punti del
grafico.
112 StatFolio
Dopo aver definito i campi di input di questa finestra, fate clic su OK per pubblicare lo
StatFolio.
Per vedere lo StatFolio pubblicato, avviate il browser e utilizzate il suo menu File per aprire il file
specificato nel primo campo della Figura 5-6. In alternativa, selezionate Visualizza risultati di
Published dal menu File di STATGRAPHICS Centurion XVI.
NOTA: le tabelle e i grafici vengono incorporati nei file HTML di output con nomi
generati automaticamente da StatPublish. Se utilizzate il browser per vedere lo StatFolio
pubblicato, potete esaminare il codice sorgente HTML e determinare facilmente i nomi
dei file. Potete incorporare questi file nelle vostre pagine web, se preferite.
113 StatFolio
Capitolo
StatGallery
6
Visualizzare i grafici affiancandoli o sovrapponendoli
StatGallery è una finestra speciale di STATGRAPHICS Centurion XVI dove è possibile affiancare o
sovrapporre i grafici creati da procedure diverse. Affiancare i grafici è un ottimo metodo per
confrontare due insiemi di dati, due modelli statistici o due livelli di un diagramma a contorno.
Sovrapponendo i grafici è possibile creare delle rappresentazioni uniche, non ottenibili con altre
funzioni del sistema.
I contenuti di StatGallery vengono salvati in file con estensione .sgg. Se inserite dei risultati statistici in
StatGallery, un puntatore al file di StatGallery sarà salvato nello StatFolio corrente. Quando riaprirete
lo StatFolio, sarà automaticamente caricato il corrispondente file di StatGallery.
115 StatGallery
Figura 6-1. La finestra di StatGallery
I pulsanti di questa finestra vi consentono di sfogliare le pagine della galleria. Se volete
cambiare il numero di grafici visualizzati in una pagina, fate clic con il pulsante destro del
mouse all’interno di un pannello e selezionate Configurazione pannelli dal menu popup. Potete
scegliere la configurazione che può contenere fino a 9 grafici:
116 StatGallery
Le sette configurazioni a sinistra corrispondono a disposizioni rettangolari di righe e colonne.
L’opzione Per colonne consente di ottenere una disposizione con un numero di righe diverso in
ciascuna delle tre colonne.
Per ottenere la configurazione preferita, potete anche trascinare con il mouse le barre di
separazione dei pannelli di una pagina di StatGallery.
1. Configurate una pagina di StatGallery per visualizzare i grafici nella disposizione Sinistra e
destra (due pannelli).
3. Attivate la finestra di StatGallery. Fate clic con il pulsante destro del mouse sul pannello
a sinistra e selezionate Incolla dal menu popup per inserire il diagramma a contorno in
StatGallery.
4. Ritornate nella finestra Analizza il disegno e create un secondo diagramma a contorno per
un altro livello del fattore sperimentale. Copiate il diagramma negli Appunti di Windows.
5. Attivate di nuovo la finestra di StatGallery. Fate clic con il pulsante destro del mouse sul
pannello a destra e selezionate Incolla dal menu popup. Il secondo diagramma a contorno
sarà inserito accanto al primo nella pagina di StatGallery.
117 StatGallery
Figura 6-3. Due grafici affiancati nella finestra di StatGallery
In questo esempio, confrontando la successione dei colori all’interno di ciascun diagramma,
si nota una riduzione della resistenza (strength) all’aumentare del polietilene.
Quando copiate un grafico in StatGallery, potete selezionare l’opzione Incolla collegamento, anziché
Incolla, dal menu popup associato al pulsante destro del mouse. Se selezionate Incolla collegamento,
il grafico in StatGallery viene collegato dinamicamente alla finestra di analisi dove è stato
generato, quindi esso cambierà automaticamente ogni volta che il grafico originale sarà
modificato.
118 StatGallery
Figura 6-4. Grafici sovrapposti in StatGallery
Quando un grafico viene sovrapposto a quello esistente in StatGallery, vengono aggiunti
soltanto i contenuti all’interno degli assi del secondo grafico. I testi del secondo grafico non
vengono inclusi.
Nota: se i due grafici hanno scale diverse, il secondo grafico sarà adattato al primo.
1. Fate doppio clic sul grafico desiderato per ingrandire il suo pannello.
119 StatGallery
2. Fate clic con il pulsante destro del mouse sul grafico e selezionate l’opzione Aggiungi
elemento dal menu popup. Sarà visualizzata la seguente finestra:
Per utilizzare i primi 5 pulsanti della Figura 6-5, tenete premuto il pulsante del mouse per
tracciare la linea o la figura geometrica fino a ottenere le dimensioni desiderate. L’ultimo pulsante
attiva la modalità testo, che vi consentirà di accedere a una finestra di input del testo quando
farete clic sul grafico. Utilizzate il mouse per trascinare il nuovo testo nella posizione desiderata.
1. Fate doppio clic sul grafico desiderato per ingrandire il suo pannello.
3. Premete il pulsante destro del mouse e selezionate l’opzione Modifica elemento dal menu
popup.
120 StatGallery
3. Premete il pulsante destro del mouse e selezionate l’opzione Cancella elemento dal menu
popup.
2. Fate clic sull’icona Stampa nella barra degli strumenti principali oppure premete il
pulsante destro del mouse e selezionate l’opzione Stampa dal menu popup.
121 StatGallery
Capitolo
StatReporter
7
Copiare le analisi in StatReporter, commentando l’output e salvando
i risultati in un file RTF da importare in Microsoft Word
StatReporter è una finestra dove è possibile integrare in un report formale l’output generato
da varie procedure statistiche. È una versione distinta di WordPad che viene eseguita all’interno
di STATGRAPHICS Centurion XVI. StatReporter consente di:
2. Salvare il contenuto di StatReporter in un file RTF (Rich Text Format), che può essere
letto direttamente da altri programmi, come Microsoft Word.
123 StatReporter
Figura 7-1. La finestra di StatReporter
In questa finestra potete digitare direttamente dei testi o incollare l’output creato in altre finestre
di STATGRAPHICS Centurion XVI.
1. Per copiare un solo grafico (o una tabella) in StatReporter, prima copiatelo negli Appunti
di Windows (clipboard) ingrandendo il suo pannello e selezionando Copia dal menu
Modifica. Poi attivate la finestra di StatReporter, spostate il cursore nella posizione
desiderata e selezionate Modifica – Incolla.
3. Per copiare tutto l’output di una finestra di analisi, premete il pulsante destro del mouse e
selezionate Copia l’analisi in StatReporter dal menu popup. Tutti i grafici e le tabelle della
finestra di analisi saranno copiati in StatReporter.
124 StatReporter
Ciascuna delle precedenti operazioni crea una copia statica dell’originale (nel senso che l’output
in StatReporter non cambierà mai). Per creare una copia collegata dinamicamente al grafico o
alla tabella originale utilizzando il metodo 1, selezionate Incolla speciale (anziché Incolla) e poi
attivate l’opzione Incolla collegamento. La copia del grafico o della tabella in StatReporter cambierà
automaticamente ogni volta che sarà modificato l’originale nella finestra di analisi.
Quando aprite uno StatFolio, viene automaticamente caricata la finestra di StatReporter che era
presente quando avete salvato lo StatFolio. È possibile aprire soltanto la finestra di StatReporter
utilizzando il menu File – Apri.
125 StatReporter
Capitolo
StatWizard
8
Scegliere l’analisi statistica appropriata, cercare le statistiche e i test desiderati
e generare più finestre per vari fattori esplicativi
4. Può aiutarvi a definire le trasformazioni dei dati o a scegliere i sottoinsiemi dei dati.
5. Può ripetere le analisi desiderate per ogni valore unico in una colonna di dati.
Potete avviare StatWizard in qualsiasi momento facendo clic sul pulsante con il cappello del
mago nella barra degli strumenti principali.
127 StatWizard
8.1 Accedere ai dati o creare un nuovo studio statistico
Se il DataBook è vuoto quando avviate StatWizard, sarà visualizzata una finestra che vi chiederà
informazioni sulle operazioni da svolgere:
128 StatWizard
3. Eseguire un’analisi che non richiede dati. In questo caso, StatWizard elencherà tutte
queste analisi, vi chiederà di sceglierne una e vi presenterà immediatamente l’analisi
scelta.
Per esempio, supponete di voler impostare un nuovo studio per valutare la ripetitività e la
riproducibilità di un processo di misurazioni. Se selezionate la seconda opzione nella Figura 8-1 e
fate clic su OK, accederete alla seguente finestra:
Selezionate Preparare uno studio di Gage R&R e fate clic su OK per visualizzare una terza finestra
che vi chiederà informazioni sul tipo di studio:
129 StatWizard
Figura 8-3. La finestra di StatWizard per impostare il nuovo tipo di studio
Digitate il numero di operatori che saranno coinvolti nello studio, il numero di pezzi che saranno
misurati e il numero di volte che ciascun operatore misurerà i singoli pezzi. Potete anche
specificare l’intestazione dello studio.
L’ultima finestra vi chiederà i nomi degli operatori, periti o laboratori che effettueranno le
misurazioni:
130 StatWizard
Figura 8-4. La finestra per specificare i nomi degli operatori
StatWizard crea lo studio desiderato e lo inserisce in un foglio del DataBook:
Una volta effettuate le misurazioni, i loro valori dovranno essere inseriti nel foglio; dopodiché
potrete avviare di nuovo StatWizard per selezionare una procedura di analisi (oppure potete
selezionare direttamente una delle analisi del menu principale).
131 StatWizard
8.2 Scegliere il tipo di analisi per i dati
Se i dati sono già caricati nel DataBook, facendo clic sul pulsante StatWizard, sarà visualizzata
una finestra dalla quale potrete selezionare una o più analisi da eseguire:
132 StatWizard
3. Selezionare una SnapStat: vi consente di selezionare una SnapStat. Le SnapStats sono
procedure di analisi snelle che producono una sola pagina di output. Hanno meno
opzioni delle altre analisi, ma sono molto più semplici da definire.
4. Ricerca: visualizza una lista di statistiche, test, grafici e altri output che possono essere
creati da STATGRAPHICS Centurion XVI. Se selezionate un elemento della lista,
cambierà automaticamente il contenuto del campo Selezionare un’analisi per nome, dove
saranno elencate soltanto quelle analisi che calcolano l’elemento desiderato.
5. Scegliere una delle seguenti Opzioni rapide: elenca alcune delle analisi più
frequentemente utilizzate. Selezionando un’analisi e facendo clic su OK, accederete
direttamente alla finestra di input dei dati per l’analisi selezionata.
Se selezionate l’opzione 1, StatWizard visualizzerà una finestra dove dovrete indicare i dati
da analizzare. Per esempio, se avete caricato il file 93cars.sgd nel DataBook, la finestra si
presenterà così:
133 StatWizard
I campi di questa finestra sono:
• Variabili risposta o dati (Y): una o più variabili risposta contenenti i valori da analizzare. Se
i dati da analizzare si trovano in una sola colonna, questa deve essere specificata qui.
• Tipo: il tipo di dati contenuti nelle variabili risposta. Le analisi visualizzate nelle successive
finestre dipendono da questa scelta.
• Fattori esplicativi quantitativi (X): i fattori quantitativi da utilizzare per prevedere le variabili
risposta. In una regressione, qui vanno specificate le variabili indipendenti.
• Fattori esplicativi categoriali (X): i fattori non quantitativi da utilizzare per prevedere le
variabili risposta. In un’ANOVA, qui vanno specificati i fattori esplicativi.
• Etichette dei casi: una colonna contenente le etichette delle varie osservazioni (righe).
Le procedure presentate nelle successive finestre dipendono dalle scelte fatte nella Figura 8-7.
134 StatWizard
Figura 8-8. La finestra di StatWizard per selezionare le righe del foglio
Le prime sei opzioni presumono che intendiate eseguire una sola analisi. L’ultima opzione genera
più finestre di analisi, una per ogni valore unico contenuto nella colonna specificata. Questo è un
semplice metodo per specificare una variabile “BY” per una serie di analisi.
135 StatWizard
Figura 8-9. La finestra di StatWizard per selezionare il tipo di trasformazione delle variabili
Potete selezionare una trasformazione per una o più variabili. Se scegliete una trasformazione,
il programma creerà l’espressione appropriata. Per esempio, se richiedete la radice quadrata di
MPG City, il programma creerà l’espressione SQRT(MPG City) che sarà utilizzata dalle procedure
di analisi.
L’ultima finestra di StatWizard elenca le analisi appropriate al tipo di dati che avete specificato:
136 StatWizard
Figura 8-10. La finestra di StatWizard per selezionare le analisi da eseguire
Selezionate una o più analisi dalla lista e fate clic su OK; sarà creata una finestra per ogni analisi
selezionata.
137 StatWizard
Figura 8-11. Utilizzare l’opzione Search di StatWizard
Se selezionate un elemento della lista Ricerca, nel campo Selezionare un’analisi per nome saranno
visualizzate tutte le analisi che calcolano l’elemento selezionato:
138 StatWizard
Figura 8-12. La lista delle analisi associate all’elemento selezionato nel riquadro Ricerca
2. Selezionate un’analisi.
Accederete direttamente alla finestra di input dei dati per l’analisi selezionata, bypassando i
consueti menu.
139 StatWizard
Capitolo
2. Opzioni di stampa: sono impostate nella finestra Imposta pagina accessibile dal menu
File.
3. Grafici: le opzioni relative ai grafici sono impostate selezionando Opzioni per il grafico
mentre è visualizzato un grafico qualsiasi. La scheda Profilo della finestra Opzioni per il
grafico consente di salvare vari gruppi di opzioni per i grafici.
o Usa il menu Six Sigma: visualizza i menu secondo lo schema DMAIC (Define, Measure,
Analyze, Improve, Control) del sistema Six Sigma. Il sistema classico dei menu di
STATGRAPHICS offre le stesse opzioni con nomi differenti.
• Intestazioni di analisi: usa un font blu per visualizzare il titolo dell’analisi all’inizio del
pannello Sintesi dell’analisi.
• StatFolio: attivate la casella Disabilita gli script di avviamento per impedire che gli script di
avviamento siano eseguiti quando vengono caricati gli StatFolio.
• Cartella dei file temporanei: gli StatFolio, i file di dati e altri file saranno temporaneamente
memorizzati in questa directory prima di essere copiati in quella definitiva. Specificando un
drive locale, è possibile ridurre notevolmente il tempo necessario per salvare un file in alcune
reti, perché si riduce il numero di richieste delle reti.
Il documento PDF Preferences descrive le opzioni delle altre schede.
1. Imposta stampante: accede alla finestra con le opzioni di stampa del driver della vostra
stampante. Tipicamente, questa finestra consente di impostare il formato e
l’orientamento del foglio (orizzontale o verticale).
2. Imposta pagina: accede a una finestra specifica di STATGRAPHICS Centurion XVI che
consente di impostare i margini, le testatine e altre opzioni. Questa finestra è descritta nel
Paragrafo 3.3.
9.3 Grafici
Se ingrandite un pannello che contiene un grafico all’interno di una finestra di analisi, viene
abilitato il pulsante Opzioni per il grafico nella barra degli strumenti di analisi. Questo pulsante
visualizza una finestra che consente di modificare l’aspetto di un grafico, come è descritto
dettagliatamente nel Capitolo 4. Questa finestra include anche la scheda Profilo, che consente di
salvare gruppi di opzioni per i grafici in profili personalizzati e di modificare il profilo di default
che viene utilizzato quando viene creato un nuovo grafico:
4. Selezionate uno dei 12 profili utente e fate clic sul pulsante Salva con nome (i profili
di sistema sono di sola lettura).
6. Fate clic su OK per salvare nel nuovo profilo l’insieme delle impostazioni correnti dei
grafici (colori, tipi di caratteri, punti, linee ecc.).
A un nuovo grafico è possibile applicare anche altri profili precedentemente salvati; per farlo,
create il grafico con le impostazioni di default e poi:
1. Fate clic sul pulsante Opzioni per il grafico nella barra degli strumenti di analisi e poi attivate
la scheda Profilo.
Il grafico corrente sarà immediatamente aggiornato con le impostazioni del profilo selezionato.
10
Tutorial 1 – Analisi di un
singolo campione
Statistiche di sintesi, istogramma, diagramma a scatola e baffi, intervalli
di confidenza e verifica di ipotesi
Per analizzare tutte le 130 righe, lasciate vuoto il campo Seleziona. Fate clic su OK.
Sullo schermo sarà visualizzata la finestra Tabelle e grafici. Questa finestra mostra le tabelle e i
grafici disponibili. Per il momento, accettate le impostazioni di default.
Il primo pannello in alto a sinistra indica che il campione ha n = 130 valori compresi fra 96,3 e
100,8 gradi. Il pannello in alto a destra contiene un grafico a dispersione dei dati, con i punti
distribuiti casualmente nella direzione verticale. Notate che la densità dei punti è maggiore fra 98
e 99 gradi e minore alle due estremità. Questo tipo di comportamento è tipico di un campione di
dati scelto da una popolazione la cui distribuzione ha un picco centrale ben definito.
I pannelli in basso mostrano le statistiche di sintesi e un diagramma a scatola e baffi, che sono
descritti nei prossimi paragrafi.
∑x
i =1
i
1. La media del campione x = = 98.25 , che determina il centro della distribuzione.
n
n
∑ (x − x)
2
i
i =1
2. La deviazione standard del campione s = = 0.733 , che esprime la variabilità
n −1
della distribuzione.
In una distribuzione normale il 68% circa di tutti i valori è compreso all’interno di una
deviazione standard della media della popolazione, il 95% circa all’interno di due deviazioni
standard e il 99,73% circa all’interno di tre deviazioni standard.
La deviazione standard e la media sono sufficienti a descrivere completamente il campione
soltanto se questo appartiene a una distribuzione normale. Due statistiche che possono essere
utilizzate per verificare questa ipotesi sono l’asimmetria e la curtosi standardizzate. Queste
statistiche misurano la forma delle distribuzioni:
1. L’asimmetria misura il grado di simmetria di una distribuzione. Una distribuzione
simmetrica, come quella normale, ha un’asimmetria nulla. Le distribuzioni in cui
prevalgono i valori estremamente grandi hanno asimmetria positiva. Le distribuzioni in
cui prevalgono i valori estremamente piccoli hanno asimmetria negativa.
2. La curtosi misura la forma di una distribuzione simmetrica. Una curva normale o a
campana ha curtosi nulla. Una distribuzione che è più appuntita di quella normale ha
curtosi positiva. Una distribuzione che è più appiattita di quella normale ha curtosi
negativa.
Se i dati provengono da una distribuzione normale, l’asimmetria e la curtosi standardizzate sono
comprese tra –2 e +2. La distribuzione normale è un modello accettabile per i dati del campione
in esame.
Un altro utile strumento di sintesi, ideato da John Tukey, è detto “sintesi a cinque numeri” (five
number summary):
Minimo (il valore più piccolo) = 96,3
Primo quartile (25° percentile) = 97,8
Mediana (50° percentile) = 98,3
Terzo quartile (75° percentile) = 98,7
Massimo (il valore più grande) = 100,8
Questi cinque numeri dividono il campione in quattro parti e formano la base del diagramma a
scatola e baffi, descritto nel prossimo paragrafo.
1. Una scatola centrale che si estende dal primo al terzo quartile. Il 50% dei valori centrali
della distribuzione si trova all’interno della scatola.
2. Una linea verticale in corrispondenza della mediana del campione divide a metà i dati. Se
i dati provengono da una distribuzione simmetrica, questa linea dovrebbe essere vicina al
centro della scatola.
4. Due baffi che si estendono dai quartili verso i valori minimo e massimo delle
osservazioni, a meno che alcuni valori non siano talmente lontani dalla scatola da essere
classificati punti esterni (outside); in questo caso, i baffi si estendono fino ai punti più
estremi che non sono classificati esterni. STATGRAPHICS Centurion XVI,
conformemente al metodo di Tukey, identifica due tipi di punti anomali:
a. Punti molto esterni (far outside): sono quelli che si trovano a più di 3 volte il range
interquartile prima o dopo i confini della scatola (nota: il range interquartile è la
distanza tra i quartili, che è uguale alla larghezza della scatola). Un punto molto
esterno è indicato dal simbolo del punto (di solito un piccolo quadrato) con un
segno più sovrapposto. Se i dati provengono da una distribuzione normale, la
probabilità che un punto sia così lontano dalla scatola da essere classificato molto
lontano è soltanto di 1 su 300 circa in un campione della dimensione corrente. A
meno che non ci siano migliaia di osservazioni nel campione, i punti molto lontani
di solito indicano la presenza di veri outlier (o di una distribuzione non normale).
b. Punti esterni (outside): sono quelli che si trovano a più di 1,5 volte il range
interquartile prima o dopo i confini della scatola. I punti esterni sono indicati dal
simbolo del punto, senza il segno più. Anche quando i dati provengono da una
distribuzione normale, la probabilità di osservare 1 o 2 punti esterni in un
campione di n = 100 osservazioni è di circa il 50% e non indica necessariamente
la presenza di un vero outlier. Questi punti richiedono un’indagine più
approfondita.
Il diagramma a scatola e baffi della Figura 10-8 può essere considerato simmetrico. I baffi hanno
approssimativamente la stessa lunghezza, la media e la mediana sono simili e vicine al centro
della scatola. Sono rappresentati tre punti esterni, ma nessun punto è molto lontano. Se fate clic con
il mouse sull’outlier di destra, il programma vi segnalerà che il punto corrisponde alla riga 15
del file.
Se fate clic sul pulsante Opzioni per il pannello nella barra degli strumenti di analisi, potete
aggiungere al diagramma la Tacca della mediana:
L’opzione Tacca della mediana aggiunge al grafico una tacca di ampiezza pari approssimativamente
a un intervallo di confidenza per la mediana della popolazione, al livello di confidenza di default
del sistema (95%, di solito). Questa tacca indica il margine di errore che si ha quando si stima la
mediana delle temperature della popolazione da cui è estratto il campione. In questo caso,
l’errore di campionamento è di circa 0,15 gradi in entrambe le direzioni. Con un campione più
grande si avrebbe un margine di errore più piccolo.
Valori ordinati
Valori studentizzati Valori studentizzati Z-score
Riga Valore senza eliminazione con eliminazione modificati con MAD
95 96,3 -2,65859 -2,74567 -2,698
55 96,4 -2,52219 -2,59723 -2,5631
23 96,7 -2,11302 -2,15912 -2,1584
30 96,7 -2,11302 -2,15912 -2,1584
73 96,8 -1,97663 -2,01521 -2,0235
...
99 99,4 1,56955 1,59096 1,4839
13 99,5 1,70594 1,7323 1,6188
97 99,9 2,25151 2,30628 2,1584
120 100,0 2,3879 2,45231 2,2933
15 100,8 3,47903 3,67021 3,3725
Il dato più insolito è quello della riga 15, evidenziato in rosso, cui corrisponde il valore 3,479
nella colonna Valori studentizzati senza eliminazione. I valori studentizzati sono calcolati con la
seguente formula:
xi − x
zi =
s
Il valore 3,479 indica che un’osservazione è 3,479 deviazioni standard sopra la media del
campione, se l’osservazione viene inclusa nel calcolo di x ed s. La colonna Valori studentizzati
con eliminazione indica di quante deviazioni standard un’osservazione si discosta dalla media del
campione se l’osservazione non viene utilizzata nei calcoli. Se non viene incluso nei calcoli, il
valore della riga 15 si discosta dalla media di 3,67 deviazioni standard.
Nell’esempio in esame, la statistica test è uguale 3,479, che è il massimo assoluto dei Valori
studentizzati senza eliminazione. Il P-value è 0,0484 ed essendo minore di 0,05, possiamo rifiutare
l’ipotesi nulla, concludendo che il valore della riga 15 è un outlier rispetto agli altri valori del
campione.
Potete eliminare la riga 15 facendo clic sul pulsante Finestra di input nella barra degli strumenti
di analisi e digitando nel campo Seleziona un’espressione come questa:
Figura 10-11. La finestra Identificazione degli outlier con l’espressione che elimina l’outlier
Valori ordinati
Valori studentizzati Valori studentizzati Z-score
Riga Valore senza eliminazione con eliminazione modificati con MAD
95 96,3 -2,75487 -2,85205 -2,698
55 96,4 -2,61209 -2,6956 -2,5631
23 96,7 -2,18375 -2,23455 -2,1584
30 96,7 -2,18375 -2,23455 -2,1584
73 96,8 -2,04097 -2,08332 -2,0235
...
119 99,4 1,6713 1,69652 1,4839
99 99,4 1,6713 1,69652 1,4839
13 99,5 1,81408 1,84516 1,6188
97 99,9 2,3852 2,44992 2,1584
120 100,0 2,52798 2,60411 2,2933
Il valore più estremo tra le restanti osservazioni è quello della riga 95. Poiché il P-value del test di
Grubbs è molto più grande di 0,05, è ragionevole supporre che tutte le restanti osservazioni
provengano dalla stessa popolazione.
In teoria, si dovrebbe riesaminare lo studio originale per tentare di scoprire la causa del valore
anomalo della riga 15. Poiché questo non può essere fatto adesso, accettiamo i risultati del test
di Grubbs ed escludiamo la riga15 da tutti i successivi calcoli. Modificando la finestra di input
dei dati per la procedura Analisi a una variabile nel modo indicato nella Figura 10-11, si ottengono
le seguenti statistiche di sintesi:
10.5 Istogramma
Un altro tipico metodo grafico per rappresentare un campione di dati misurati è l’istogramma
delle frequenze. Ritornando alla procedura Analisi a una variabile, per creare un istogramma, fate
clic sul pulsante Tabelle e grafici nella barra degli strumenti di analisi e selezionate Istogramma
delle frequenze. Otterrete il seguente istogramma di default:
Se si usa la regola di Sturges, il numero di barre è pari al numero intero più piccolo che non è
minore di 1+3,322log10(n). Le altre regole, come 10log10(n), tendono a produrre più barre e sono
da preferire con i grandi insiemi di dati.
Una volta creato l’istogramma, per modificarne le impostazioni di default, fate doppio clic
sull’istogramma per ingrandire il suo pannello e poi fate clic sul pulsante Opzioni per il pannello:
Per impostare le classi, bisogna considerare il numero di cifre significative dei dati. Per esempio,
poiché le temperature corporee sono state approssimate al decimo di grado, la larghezza delle
barre dovrebbe essere un multiplo intero di 0,1. Così facendo, ciascuna barra copre lo stesso
numero di misure possibili. Il seguente istogramma è composto da 25 intervalli compresi tra 96 e
101 gradi, ciascuno dei quali copre 0,2 gradi:
I dati dell’istogramma possono essere rappresentati in forma tabellare, facendo clic sul pulsante
Tabelle e grafici nella barra degli strumenti di analisi e selezionando l’opzione Tabulazione delle
frequenze:
L’ultima colonna a destra è di notevole interesse, perché indica la probabilità cumulata che un
valore di temperatura cada in una determinata classe o nelle classi precedenti. Per esempio,
l’89,92% di tutti i valori è minore o uguale a 99,0 gradi.
La Figura 10-19 include anche due cursori incrociati, che potete visualizzare premendo il tasto
destro del mouse sul grafico e selezionando Localizza dal menu popup. Utilizzate il mouse per
trascinare questi cursori in un’altra posizione. I numeri che appaiono alle estremità dei cursori
Una tabella di percentili può essere creata selezionando Percentili dalla lista del pulsante Tabelle:
Percentili per Temperature
Percentili Limite inferiore Limite superiore
1,0% 96,4 96,34 96,811
5,0% 97,0 96,8727 97,2473
10,0% 97,2 97,1538 97,4829
25,0% 97,8 97,6152 97,8846
50,0% 98,3 98,1082 98,3508
75,0% 98,7 98,5743 98,8437
90,0% 99,1 98,9761 99,3051
95,0% 99,3 99,2116 99,5862
99,0% 99,9 99,6479 100,119
Gli intervalli di confidenza forniscono un limite al potenziale errore nella stima della media e
della deviazione standard della popolazione. Date le restanti 129 osservazioni, possiamo
Facendo clic sul pulsante Opzioni per il pannello, potete richiedere altri intervalli di confidenza
utilizzando il metodo bootstrap:
Intervalli bootstrap
Media: [98,1147; 98,3372]
Deviazione standard: [0,608285; 0,788895]
Mediana: [98,2; 98,4]
NOTA: la notazione E-8 dopo un numero significa che il numero deve essere
moltiplicato per 10–8. Pertanto, il P-value 1,81264E-8 è pari a 0,0000000181264.
È importante notare che l’intervallo di confidenza per la media, dato nel Paragrafo 10.7, non
includeva il valore 98,6. Qualsiasi valore esterno all’intervallo di confidenza viene scartato
dal test t qui considerato. Pertanto l’intervallo di confidenza può essere considerato come
quell’intervallo che contiene tutti i possibili valori della popolazione che possono essere
supportati dal campione di dati.
1. selezionate Descrivi – Dati numerici – Limiti di tolleranza statistici, se state utilizzando il menu
classico;
2. selezionate Analyze – Variabili – Analisi della capacità – Limiti di tolleranza statistici, se state
utilizzando il menu Six Sigma.
La procedura inizia con una finestra nella quale dovrete specificare la dimensione, la media e la
deviazione standard del campione. Utilizzando i risultati della Figura 10-13, i valori da immettere
sono i seguenti:
Quando fate clic su OK, prima appare la finestra Opzioni e poi la finestra Tabelle e grafici. L’output
risultante è il seguente:
StatAdvisor
Supponendo che i dati provengano da una distribuzione normale, i limiti di tolleranza stabiliscono che possiamo
essere confidenti al 95,0% che il 99,0% della distribuzione è compresa tra 96,2093 e 100,25. Questo intervallo è
calcolato prendendo la media dei dati +/-2,88436 volte la deviazione standard.
Possiamo prevedere, con un livello di confidenza del 95%, che non più di un individuo su 100
avrà una temperatura oltre i limiti di tolleranza calcolati.
11
Tutorial 2 – Confrontare
due campioni
Confronto grafico e verifica di ipotesi
Spesso, i dati da analizzare sono formati da due campioni, che potrebbero provenire da
popolazioni differenti. In questi casi, è utile:
Per analizzare le temperature corporee, aprite il file bodytemp.sgd selezionando File – Apri – Apri
Sorgente dati.
Il riquadro Input indica come devono essere immessi i dati dei due campioni:
2. Colonne di dati e codici – i dati di entrambi i campioni nella stessa colonna; una seconda
colonna contiene i codici che distinguono i due campioni.
Il file bodytemp.sgd ha il secondo tipo di struttura, con tutte le n = 130 osservazioni in un’unica
colonna, chiamata Temperature, mentre una seconda colonna, Gender, contiene l’etichetta
“Female” (femmina) o “Male” (maschio). Nel campo Seleziona è stata inserita un’espressione per
selezionare soltanto le righe il cui valore di temperatura è minore o uguale a 100 gradi
Fahrenheit. L’espressione escluderà dall’analisi il valore della riga 15, perché è un outlier, come
determinato nel Capitolo 10.
Figura 11-5. Diagramma duale a scatola e baffi con le tacche delle mediane
Notate che questo test è stato fatto supponendo che le varianze delle due popolazioni fossero
uguali; ciò è stato confermato dal test F nel precedente paragrafo. Se le varianze fossero state
significativamente differenti, avreste potuto eseguire un test t approssimato, facendo clic sul
pulsante Opzioni per il pannello e deselezionando la casella Supponi sigma uguali.
Sembra dunque che le temperature delle femmine provengano da una popolazione con una
temperatura media più alta di quella dei maschi.
Selezionando Confronto di mediane dalla finestra Tabelle e grafici, eseguirete il test W di Mann-
Whitney (Wilcoxon). In questo test, innanzitutto i dati dei due campioni vengono combinati. I
dati risultanti vengono poi ordinati per rango, da 1 a n1 + n2, e i valori dei dati originali vengono
sostituiti dai rispettivi ranghi. Poi viene costruito un test statistico W confrontando i ranghi medi
delle osservazioni nei due campioni:
Nel precedente grafico è evidente che la distribuzione delle femmine è spostata a destra di quella
dei maschi. Complessivamente, però, le pendenze sono simili.
La distanza verticale massima, indicata con DN, è uguale approssimativamente a 0,24 per le
temperature corporee.
Il P-value è utilizzato per determinare se le distribuzioni sono significativamente diverse tra loro.
Un valore P piccolo porta alla conclusione che la differenza è significativa. Poiché il valore P per
il campione è minore di 0,05, c’è una differenza significativa tra le distribuzioni dei maschi e delle
femmine al livello di significatività del 5%.
12
Tutorial 3 – Confrontare più
di due campioni
Confrontare le medie e le deviazioni standard, ANOVA a una via,
ANOM e metodi grafici
Quando i dati da analizzare appartengono a più di due gruppi, bisogna utilizzare una serie di
tecniche diverse da quelle del precedente capitolo. Per esempio, supponete di dover confrontare
la resistenza di un dispositivo realizzato con 4 materiali differenti. In un tipico esperimento,
potreste estrarre 12 dispositivi per ciascuno dei quattro materiali per confrontarli. I seguenti dati
rappresentano i risultati di tale esperimento:
2. Utilizzare un’unica colonna per tutti i dati e creare una seconda colonna dove inserire
i codici che identificano il campione da cui proviene ciascuna osservazione.
In questo esempio abbiamo utilizzato il primo metodo. I dati dei dispositivi sono stati inseriti in
quattro colonne del file widgets.sgd, che potete aprire selezionando File – Apri – Apri Sorgente dati.
1. selezionate Confronta – Più campioni – Confronto di più campioni, se utilizzate il menu classico;
In questo caso, i dati sono stati posti in più colonne del foglio.
Nel file dei dati campione, le osservazioni sono state poste in quattro colonne, chiamate A, B,
C e D.
Quando fate clic su OK, appare la finestra Tabelle e grafici. Le impostazioni di default possono
essere accettate per questo tutorial.
Ipotesi nulla: µA = µB = µC = µD
dove µj rappresenta la media della popolazione da cui proviene il campione j. Rifiutare l’ipotesi
nulla significa che i campioni provengono da popolazioni le cui medie non sono tutte uguali.
L’output dell’ANOVA è contenuto nella tabella ANOVA, che viene visualizzata inizialmente nel
pannello in basso a sinistra della finestra di analisi:
Le coppie di mediane possono essere confrontate anche selezionando Diagramma a scatola e baffi
nella finestra Tabelle e grafici e poi utilizzando la finestra Opzioni per il pannello per aggiungere le
tacche delle mediane:
NOTA: il fenomeno del ripiegamento osservato nella Figura 12-12 si verifica quando
una tacca si estende oltre il limite della scatola.
In sintesi, sembra che la resistenza media dei dispositivi sia diversa per materiali differenti.
Tuttavia, la variabilità tra dispositivi fatti dello stesso materiale è approssimativamente la stessa
per i quattro materiali.
La finestra Grafici contiene un’opzione per generare automaticamente i Grafici dei residui. In base
all’impostazione della finestra Opzioni per il pannello, potete rappresentare i residui per gruppo, in
funzione dei valori previsti, o in ordine di riga come si trovano nel foglio. Il seguente grafico
rappresenta i residui in funzione del valore previsto della resistenza dei dispositivi (opzione
Residui vs Previsti nella finestra Opzioni per il pannello):
13
Tutorial 4 – Analisi
della regressione
Adattare modelli lineari e non lineari ai dati, scegliere il modello migliore,
analizzare i residui e rappresentare graficamente i risultati
Una delle parti più utilizzate di STATGRAPHICS Centurion XVI è la serie delle procedure che
adatta i modelli di regressione ai dati. In un modello di regressione, una variabile risposta Y è
espressa come una funzione di una o più variabili esplicative X, più il rumore. In molti casi (ma
non in tutti, la funzione è lineare nei coefficienti incogniti, quindi il modello può essere espresso
come:
Yi = β0 + β1X1,i + β2x2,i + β3X3,i + … + βkXk,i + εi
dove l’indice i rappresenta l’i-esima osservazione nel campione dei dati, i coefficienti β sono le
incognite del modello ed ε è una deviazione casuale, che di solito si suppone provenire da una
distribuzione normale con media 0 e deviazione standard σ.
Dato un insieme di dati con una variabile risposta Y e una o più possibili variabili esplicative,
l’obiettivo dell’analisi di regressione è costruire un modello che:
1. descrive le relazioni che esistono tra le variabili, in modo da potere fare una buona
previsione del valore di Y, noti i valori delle variabili X;
2. non contiene più variabili X di quelle necessarie per fare una buona previsione.
L’ultima considerazione a volte è detta parsimonia. I modelli che richiedono poche variabili
esplicative ben selezionate, di solito, danno i migliori risultati.
Figura 13-1. Finestra di input dei dati della procedura Analisi a più variabili
Sono state selezionate sei possibili variabili esplicative, oltre a MPG City. Le potenziali variabili
esplicative sono:
Se fate clic su OK, vedrete prima il menu Opzioni, poi la finestra Tabelle e grafici e infine la
seguente finestra di analisi:
La matrice nel pannello a destra visualizza i grafici X-Y per ciascuna coppia di variabili:
Per interpretare il grafico, identificate l’etichetta di una variabile, come MPG City. La variabile
indicata viene rappresentata sull’asse verticale di ciascun grafico di quella riga e sull’asse
orizzontale di ciascun grafico di quella colonna. Pertanto, ogni coppia di variabili è rappresentata
due volte, una volta sopra e una volta sotto la diagonale.
A ciascun grafico della Figura 13-3 è stata aggiunta la versione livellata applicando il metodo di
smoothing LOWESS. Per ottenere lo stesso risultato, ingrandite il pannello che contiene i
grafici, fate clic sul pulsante Smussa/Ruota nella barra degli strumenti di analisi e selezionate
l’opzione LOWESS robusto. I grafici più interessanti si trovano nella prima riga, perché
rappresentano MPG City in funzione di ciascuna delle sei variabili esplicative. Tutte le variabili
sono chiaramente correlate con il consumo di carburante (MPG City), alcune in modo non
lineare. Si nota anche una significativa multicollinearità (correlazione tra variabili esplicative);
questo significa che è possibile utilizzare varie combinazioni di variabili per fare delle buone
previsioni di Y.
La tabella nel pannello in basso a sinistra mostra una matrice di coefficienti di correlazione
stimati per ciascuna coppia di variabili dell’analisi:
Per determinare se due variabili sono significativamente correlate tra loro, si calcola un P-value
per ciascun coefficiente di correlazione. Una coppia di variabili il cui P-value è minore di 0,05
presenta una correlazione lineare statisticamente significativa al livello di significatività del 5%.
La prima riga mostra le correlazioni tra la variabile MPG City e le sei variabili esplicative.
La correlazione più forte è con la variabile Weight, a –0,8431. Il segno meno significa che
all’aumentare di Weight, MPG City diminuisce, e questo non è affatto sorprendente.
Figura 13-5. La finestra di input dei dati della procedura Regressione semplice
Dopo il menu Opzioni e la finestra Tabelle e grafici, sarà visualizzata la finestra di analisi con
quattro pannelli che forniscono informazioni sul modello e sui residui:
Coefficienti
Minimi quadrati Standard T
Parametro Stima Errore Statistica P-value
Intercetta 47,0484 1,67991 28,0064 0,0000
Pendenza -0,00803239 0,000536985 -14,9583 0,0000
Fra tutte le statistiche della precedente tabella queste sono le più importanti:
3. P-value: verifica l’ipotesi nulla che il modello approssimato non sia migliore di
un modello che non include Weight. Un P-value minore di 0,05, come nell’esempio in
esame, indica che Weight è un’utile variabile esplicativa di MPG City.
I modelli all’inizio della lista spiegano la percentuale più grande della variazione della variabile
risposta. R-quadrato è soltanto un criterio che può essere utilizzato per facilitare la scelta di un
modello. I modelli con valori di R-quadrato molto più piccoli di quello all’inizio della lista
potrebbero essere preferiti se avessero più senso nel contesto dei dati.
Nell’esempio in esame, un modello interessante tra i primi della lista è Reciproco Y. Questo
modello ha la forma:
1
= β0 + β1Weight + ε
MPGCity
Residui anomali
Previsto Residuo
Riga X Y Y Residuo studentizzato
5 3640,0 22,0 18,0808 3,91924 -2,38
36 3735,0 15,0 17,6366 -2,63658 2,41
42 2350,0 42,0 27,4778 14,5222 -3,11
57 2895,0 17,0 22,5306 -5,53064 3,60
91 2810,0 18,0 23,1816 -5,18157 3,04
Errore Statistica
Parametro Stima standard T P-value
COSTANTE 0,0155897 0,0177088 0,880334 0,3811
Engine Size 0,00072849 0,000980504 0,742974 0,4595
Horsepower 0,0000132632 0,000014911 0,889485 0,3762
Length -0,000101355 0,0000608857 -1,66468 0,0996
Weight 0,0000149727 0,00000242804 6,1666 0,0000
Wheelbase -0,000148122 0,000163073 -0,908321 0,3662
Width 0,000223526 0,00028967 0,771658 0,4424
NOTA: sarebbe sbagliato a questo punto pensare di potere escludere dal modello tutte
le variabili esplicative che hanno un P-value maggiore di 0,05. A causa dell’elevata
multicollinearità dei dati, tutti i P-value possono cambiare drasticamente anche se viene
rimossa una sola variabile dal modello.
Un metodo efficace per semplificare il modello consiste nell’eseguire una regressione graduale.
In una regressione graduale, le variabili vengono aggiunte o rimosse da un modello di
regressione una alla volta, con l’obiettivo di ottenere un modello che contiene soltanto le
variabili esplicative significative, senza escludere alcuna variabile utile. Per eseguire la regressione
graduale, fate clic sul pulsante Opzioni di analisi:
Una volta trovata l’equazione matematica, è utile analizzare la sua rappresentazione grafica.
Se il modello contiene due variabili esplicative, l’equazione rappresenta una superficie
tridimensionale, detta anche superficie risposta. Nel caso in esame, l’equazione corrisponde
a un piano, perché Horsepower e Weight entrano nel modello in modo lineare.
Per rappresentare il modello, potete utilizzare la procedura Grafici a superficie e a contorno copiando
la funzione da rappresentare e definire i titoli e le scale in uno dei seguenti modi:
2. Se state utilizzando il menu Six Sigma, selezionate Strumenti – Grafici a superficie e a contorno.
Nella finestra di input, digitate l’equazione del modello, indicando le due variabili esplicative con
X e Y. Il modo più semplice per fare questo consiste nell’incollare l’equazione generata dalla
procedura Regressione multipla, cambiando Horsepower in X e Weight in Y:
Se fate clic su OK, sarà visualizzata la finestra Tabelle e grafici. Facendo di nuovo clic su OK, sarà
generato un grafico a superficie. Il grafico iniziale assume la forma di una superficie a rete:
Utilizzate il pulsante Opzioni per il grafico nella barra degli strumenti di analisi e cambiate
le etichette e le scale degli assi nelle schede Titolo principale, Asse X, Asse Y e Asse Z.
In particolare:
Fate clic sul pulsante Opzioni per il pannello e modificate il tipo di grafico visualizzato:
Le auto che consumano più benzina si trovano nell’angolo posteriore destro del grafico:
auto grandi con motori potenti.
14
Tutorial 5 – Analisi dei dati
qualitativi
Tabella delle frequenze, tabelle di contingenza e analisi di Pareto
I primi quattro tutorial trattano dati quantitativi, dove le osservazioni sono rappresentate
da numeri variabili su scala continua. Questo tutorial esamina un insieme di dati qualitativi o
attributi, dove ciascuna osservazione rappresenta una categoria nella quale è stato classificato
un attributo, anziché una misura.
Come esempio consideriamo i dati contenuti nel file defects.sgd. Una porzione di questo file è
riportata qui di seguito:
Defect Facility
Misaligned Virginia
Contaminated Texas
Contaminated Virginia
Contaminated Texas
Missing parts Texas
Misaligned Virginia
Contaminated Texas
Leaking Texas
Damaged Virginia
Contaminated Texas
La finestra di input richiede una sola colonna che contiene i dati qualitativi:
La procedura esamina la colonna, identificando i valori unici. Dopo la finestra Tabelle e grafici,
viene visualizzata una finestra di analisi simile alla seguente:
Il pannello in alto a sinistra indica che sono stati trovati 9 valori unici nelle 120 righe. Nei
pannelli a destra, i grafici a barre e a torta illustrano le frequenze osservate per i vari tipi di difetti,
che sono riportati anche nel pannello in basso a sinistra. Il tipo di difetto più comune è
“Contaminated”, che rappresenta il 44% circa di tutti i difetti.
1. Osservazioni – Non tabulate, per i dati che richiedono di essere contati, come nell’esempio
in esame.
2. Conteggi - Tabulati, per i dati che sono già stati raggruppati per tipo di difetto. Questo
formato si può applicare se i dati sono su due colonne, una che identifica i tipi di difetti e
l’altra che contiene il numero di volte che si verifica ciascun difetto.
1. Fate doppio clic in un punto del grafico per ingrandire il pannello che lo contiene.
2. Fate clic prima sul pulsante Opzioni per il grafico nella barra degli strumenti di analisi e poi
sulla scheda X-Axis; selezionate l’opzione Ruotare le etichette.
3. Una volta chiusa la finestra Opzioni per il grafico, se le etichette non si adattano
perfettamente allo schermo, tenendo premuto il pulsante del mouse, trascinate la parte
principale del grafico verso l’alto oppure trascinate l’asse X verso l’alto per ridurre la
dimensione dell’asse verticale.
Il principio di base dell’analisi di Pareto stabilisce che la grande maggioranza dei difetti di solito è
dovuta a un piccolo numero di cause. In questo caso, i tre tipi di difetti più frequenti
rappresentano oltre l’80% di tutti i difetti.
Dopo le finestre Opzioni e Tabelle e grafici, sarà generata la seguente finestra di analisi:
La tabella nel pannello in basso a sinistra riporta i dati per tipo di difetto e stabilimento:
Ogni cella della tabella indica il numero delle righe nel file di dati che corrispondono a una
particolare combinazione riga-colonna; ogni cella indica anche la percentuale dell’intera tabella
che rappresenta. Per esempio, ci sono 36 elementi contaminati prodotti nello stabilimento del
Texas, che rappresentano il 30% di tutti gli elementi difettosi nel campione.
Il pulsante Opzioni per il pannello consente di selezionare altri elementi da visualizzare in ciascuna
cella:
Una scelta interessante per i dati correnti è quella di visualizzare le Percentuali di riga, anziché
quelle di tabella:
È utile esaminare anche varie rappresentazioni grafiche. Per esempio, il grafico a barre mostra
i dati per tipo di difetto e stabilimento:
La differenza tra i due stabilimenti è evidente. È interessante esaminare un altro tipo di grafico,
detto grafico a mosaico:
Se necessario, le frequenze delle celle possono essere visualizzate anche in tre dimensioni,
selezionando Grafico sky nella finestra Tabelle e grafici:
In un grafico sky l’altezza di ciascuna barra rappresenta la frequenza di una cella nella tabella
di contingenza.
Test di indipendenza
Test Statistica G.l. P-value
Chi-quadrato 18,438 8 0,0182
Attenzione: alcuni conteggi < 5.
Figura 14-14. Risultato del test chi-quadrato per la procedura Test di indipendenza
Il test chi-quadrato è utilizzato per verificare due ipotesi:
Ipotesi nulla: le classificazioni di righe e colonne sono indipendenti.
Ipotesi alternativa: le classificazioni di righe e colonne non sono indipendenti.
Per il test chi-quadrato, un piccolo P-value indica che le classificazioni di righe e colonne non
sono indipendenti. In questo caso, il P-value è minore di 0,05, indicando al livello di significatività
del 5% che la distribuzione dei tipi di difetti nello stabilimento del Texas è diversa da quella dello
stabilimento della Virginia.
Il programma visualizza anche un avvertimento, perché alcuni numeri nelle celle della tabella a
doppia entrata sono minori di 5 (tecnicamente, il messaggio di avvertimento si verifica se il
numero atteso in una cella è minore di 5, supponendo che l’ipotesi nulla sia vera). Con piccoli
numeri nelle celle, il P-value potrebbe essere inaffidabile. Una soluzione di questo problema
consiste nel raggruppare tutti i tipi di difetti meno frequenti in una singola classe e nel ripetere il
test. Questo può essere fatto facilmente in STATGRAPHICS Centurion XVI nel modo
seguente:
1. Ritornate al DataBook e fate clic sull’intestazione della colonna Defect per selezionarla.
2. Premete il pulsante destro del mouse e selezionate Ricodifica dati dal menu popup.
3. Completate la finestra Ricodifica dati come mostra la seguente illustrazione per combinare
i tipi di difetti meno comuni in un’unica classe chiamata “Altro”:
Le voci nella finestra Ricodifica dati indicano al programma di ricercare i valori nella colonna
Defect che cadono all’interno di ciascun intervallo. Qualsiasi etichetta che cade alfabeticamente
tra i limiti indicati in una data riga viene ricodificata con il valore specificato nella colonna
Nuovo valore.
Dopo avere eseguito l’operazione di ricodifica, ritornate alla finestra di analisi Tabulazione
incrociata. L’analisi sarà automaticamente aggiornata conformemente alle modifiche del foglio.
La nuova classe Altro adesso ha una frequenza relativamente elevata, come mostra il nuovo
grafico a mosaico:
Test di indipendenza
Test Statistica G.l. P-value
Chi-quadrato 11,874 3 0,0078
StatAdvisor
Questa tabella mostra i risultati di un test di ipotesi eseguito per determinare se rifiutare o no l'ipotesi che le classificazioni
di righe e colonne siano indipendenti. Poiché il P-value è minore di 0,05, possiamo rifiutare l'ipotesi che righe e colonne
siano indipendenti al livello di confidenza del 95,0%. Quindi, il valore osservato di Defect per un particolare caso è in
relazione con il suo valore per Facility.
Figura 14-17. Test chi-quadrato dopo la ricodifica dei dati
Sembra quindi che il tipo di difetto sia in relazione con lo stabilimento dove è stato prodotto
l’elemento.
È importante notare che il precedente test confronta la distribuzione dei tipi di difetti tra i due
stabilimenti; non confronta i numeri o le percentuali degli elementi difettosi in ciascuno
stabilimento. Tale confronto richiede un test differente, che è descritto nel prossimo paragrafo.
Sia θ1 la proporzione degli elementi difettosi prodotti in Texas. Sia θ2 la proporzione degli
elementi difettosi prodotti in Virginia. Le proporzioni stimate sono date da:
67 53
θˆ1 = = 0.0107 θˆ2 = = 0.0072
6237 7343
In base a questi dati, sembra che la percentuale degli elementi difettosi prodotti in Texas sia
maggiore di quella degli elementi difettosi prodotti in Virginia. Per determinare se questa
differenza apparente sia statisticamente significativa, create il seguente foglio:
Le righe contengono il numero degli elementi difettosi e quello degli elementi senza difetti.
Selezionate Tabelle di contingenza dallo stesso menu di Tabulazione incrociata; poi completate la
finestra di input:
Test di indipendenza
Test Statistica G.l. P-value
Chi-quadrato 4,783 1 0,0287
Poiché il P-value nella precedente tabella è minore di 0,05, l’ipotesi di indipendenza viene rifiutata
al livello di significatività del 5%. Possiamo quindi concludere che le proporzioni dei difetti nei
due stabilimenti sono significativamente differenti.
15
Tutorial 6 – Analisi
della capacità di un processo
Determinare il valore dei difetti per milione o la percentuale di difetti
oltre i limiti di specifica
I dati presentano un’evidente asimmetria positiva, in quanto si estendono più a destra che
a sinistra del picco.
Se fate clic su OK, prima appare la finestra Opzioni e poi la finestra Tabelle e grafici. Per
semplificare, accettate le impostazioni di default in entrambe le finestre.
La finestra di analisi iniziale riporta una sintesi dei dati, una tabella di indici di capacità e un
grafico della capacità:
La prima volta che eseguite la procedura Analisi della capacità, il programma adatta ai dati una
distribuzione normale. Il grafico della capacità mostra l’istogramma dei dati insieme alla
distribuzione normale che si adatta meglio ai dati:
In questo grafico le linee verticali più lunghe indicano la posizione dei limiti della specifica
e del valore nominale. La prima delle due linee verticali più corte indica la media meno
3 deviazioni standard; la seconda indica la media più 3 deviazioni standard. È importante
osservare che:
1. La distribuzione normale non approssima molto bene i dati. Sebbene la curva a campana
abbia la stessa media e deviazione standard dei dati, l’asimmetria dei dati fa sì che la
curva non possa adattarsi bene alle barre dell’istogramma.
3. Sebbene nessuna delle osservazioni sia più piccola del limite inferiore della specifica,
una buona parte della coda inferiore della distribuzione normale è sotto tale limite.
4. Le linee a più e meno 3 sigma sono abbastanza vicine da rientrare nei limiti della
specifica, anche se sono spostate a sinistra.
Trasformazione: nessuno
Distribuzione: Normale
dimensione del campione = 100
media = 202,809
dev. std. = 6,23781
Nella precedente tabella, il test di Shapiro-Wilk indica chiaramente di rifiutare l’ipotesi che i dati
provengano da una distribuzione normale. Di conseguenza, qualsiasi stima di DPM o indice di
capacità basata sull’ipotesi di normalità non è valida.
Per utilizzare la distribuzione Valore estremo massimo, fate clic sul pulsante Opzioni di analisi:
Trasformazione: nessuna
Figura 15-11. Sintesi della procedura Analisi della capacità con la distribuzione approssimata Valore estremo massimo
La percentuale stimata del prodotto oltre i limiti della specifica adesso è soltanto 0,23%, o 2256
DPM, un decimo di quella ottenuta utilizzando la distribuzione normale. In questo caso,
supporre erroneamente che la distribuzione sia normale fa apparire il processo peggiore di
quanto non sia effettivamente.
NOTA: a seconda dei limiti della specifica e della distribuzione reale, supponendo erro-
neamente che la distribuzione sia normale, il processo può apparire significativamente
peggiore o migliore di quando si usa la distribuzione appropriata.
Figura 15-12. La finestra con le opzioni per scegliere una trasformazione dei dati
Le opzioni includono il logaritmo naturale, l’elevamento a potenza dei singoli valori e una
trasformazione secondo i metodi di Box e Cox. Quest’ultimo approccio valuta diverse
trasformazioni del tipo Yp utilizzando i metodi di Box e Cox e sceglie un valore ottimale per p.
A questo grafico è stata applicata una trasformazione inversa per mostrare la distribuzione
approssimata nella metrica originale. La trasformazione ha avuto un effetto simile sulla forma
della distribuzione, sebbene non così forte come nel caso della distribuzione Valore estremo
massimo. Il valore stimato di DPM è 4169, che è circa due volte quello della distribuzione Valore
estremo massimo, ma ancora molto più piccolo di quello ottenuto nell’ipotesi di distribuzione
normale.
Per confrontare i due metodi, copiate il Grafico di probabilità nella finestra Tabelle e grafici di ciascun
metodo e incollate i due grafici affiancandoli nella finestra di StatGallery:
Se la distribuzione ipotizzata è corretta, i punti dovrebbero disporsi lungo una diagonale quando
sono rappresentati in questo grafico. Entrambi i metodi hanno interpretato bene la non
normalità dei dati, quindi è difficile sceglierne uno. Indipendentemente dal metodo utilizzato, è
importante stabilire un protocollo per gestire una particolare variabile (come Strength) e applicare
lo stesso protocollo ogni volta che i dati vengono analizzati. Sarebbe un errore ripetere il tipo di
analisi esplorativa che abbiamo descritto in questo capitolo ogni volta che viene raccolto un
insieme di dati simile a quello in esame. Questo tipo di analisi dovrebbe essere eseguito una sola
volta per determinare come deve essere elaborata una particolare variabile; poi dovrebbe essere
applicato il metodo selezionato a tale variabile ogni volta che viene analizzata.
In sostanza, Cpk è la distanza tra la media stimata del processo e il limite di specifica più vicino,
divisa per 3 volte il valore stimato di sigma per il processo.
La procedura Analisi della capacità visualizza gli indici di capacità nel grafico Capacità del processo e
anche nella tabella Indici di capacità. Se si suppone che la distribuzione sia normale, vengono
calcolati gli indici a breve e a lungo termine:
La scheda Capacità nella finestra Preferenze, accessibile dal menu Modifica di STATGRAPHICS
Centurion XVI, consente di specificare gli indici da calcolare e anche altre importanti opzioni:
Nella parte sinistra della finestra sono elencati gli indici che possono essere calcolati. Oltre a Cpk,
gli indici disponibili includono:
3. Livello di Qualità Sigma – È utilizzato in Six Sigma per indicare il livello di qualità associato
al processo. Un Livello di Qualità Sigma pari a 6, di solito, è associato a un DPM pari a 3,4.
La finestra Preferenze consente anche di scegliere gli indici da visualizzare nel grafico Capacità del
processo e le loro etichette. Per maggiori dettagli sui vari indici, consultate il documento PDF
Capability Analysis (Variable Data).
Oltre agli indici di capacità, la tabella nella Figura 15-15 include gli intervalli di confidenza che
rappresentano il margine di errore nella stima di tali indici. Per esempio, la precedente tabella
indica un Cpk pari a 0,74; l’intervallo di confidenza al 95% varia da 0,62 a 0,86. Questo significa
che il vero Cpk nel processo dal quale sono stati campionati i dati può variare da 0,62 a 0,86.
Se i dati non seguono una distribuzione normale, gli indici di capacità devono essere modificati.
L’opzione di default nella finestra Preferenze calcola gli indici non normali, determinando prima gli
Z-score equivalenti per la distribuzione non normale approssimata. Per una distribuzione
normale, Z-score misura il numero di deviazioni standard tra la media del processo e un limite
di specifica ed è direttamente correlato alla probabilità che un’osservazione sia oltre quel limite.
Per una distribuzione non normale, uno Z-score equivalente viene calcolato determinando prima
la probabilità di superare il limite e poi trovando quel valore di Z-score che è pari a tale
probabilità. Dopo avere calcolato gli Z-score equivalenti per i limiti inferiore e superiore della
specifica, Cpk può essere calcolato con la seguente formula:
La finestra per i dati di input della Calcolatrice Six Sigma è illustrata qui di seguito:
1. Selezionate uno dei pulsanti di input e digitate un valore nella corrispondente casella.
2. Se preferite calcolare i valori in base al limite di specifica più vicino, selezionate la casella
Limite inferiore soltanto o Limite superiore soltanto.
3. Indicate il valore che intendete assumere come spostamento a lungo termine (Shift di
sigma) della media del processo. In Six Sigma spesso si suppone che la media del processo
oscilli attorno al suo valore di lungo termine di 1,5 sigma.
4. Fate clic sul pulsante Calcola per visualizzare i valori associati delle altre statistiche.
Supponendo che la media del processo non si sposti, un Cpk di 1.33 corrisponde a circa 33 difetti
per milione oltre il limite di specifica più vicino.
16
Tutorial 7 – Disegno
di esperimenti (DOE)
Disegnare un esperimento per migliorare un processo
I dati non vengono creati tutti uguali. Spesso, un piccolo, ma ben progettato, studio fornisce maggiori
informazioni di un grande studio, mal progettato. Quest’ultimo tutorial esamina alcune delle capacità
di STATGRAPHICS Centurion XVI per creare e analizzare esperimenti.
Consideriamo il caso di un ingegnere che vuole determinare quale delle numerose variabili di processo
ha il maggiore impatto sul prodotto finale. In particolare, intende studiare l’impatto di 5 fattori:
la temperatura, il flusso, la concentrazione, la velocità di agitazione e la percentuale del catalizzatore.
Questo problema può essere risolto in vari modi:
1. Per tentativi: scegliere arbitrariamente una diversa combinazione di fattori ogni volta che viene
eseguito un esperimento. Questo approccio raramente fornisce utili informazioni.
2. Provando un fattore alla volta: mantenere costanti tutti i fattori, tranne uno, per determinare
l’effetto di quel fattore. Questo approccio è estremamente inefficiente e può portare a errate
conclusioni se alcuni fattori interagiscono tra di loro.
3. Utilizzando un esperimento statisticamente disegnato: selezionando opportunamente la sequenza degli
esperimenti da eseguire, si otterrà il maggior numero di informazioni sui fattori e le loro
interazioni nel minor numero di esperimenti possibile.
Questo tutorial descrive come costruire un esperimento utilizzando il terzo approccio e come
analizzare i dati risultanti.
1. selezionate DOE – Wizard del disegno sperimentale, se state utilizzando il menu classico;
2. selezionate Improve – Wizard del disegno sperimentale, se state utilizzando il menu Six Sigma.
Sarà visualizzata una nuova finestra che contiene una barra di strumenti che vi guiderà attraverso una
sequenza di 12 passi:
Figura 16-1. La finestra iniziale del wizard per il disegno sperimentale con una barra di strumenti di 12 passi
I primi 7 passi della sequenza costruiscono il disegno sperimentale e vengono compiuti prima di
eseguire l’esperimento. Gli ultimi 5 passi vengono compiuti dopo che l’esperimento è stato
completato e riguardano l’analisi dei dati ottenuti.
Nell’esempio in esame ci sono due variabili risposta: il rendimento in grammi e la resistenza in psi (pounds
per square inch). L’obiettivo dell’esperimento è massimizzare il rendimento mantenendo il valore della
resistenza quanto più possibile vicino a 250. Le quattro colonne più a destra servono a bilanciare i
requisiti delle due risposte, che potrebbero essere in conflitto. La colonna Impatto specifica
l’importanza di ciascuna risposta su una scala da 1 a 5, in ordine crescente di importanza. Le colonne
Minimo e Massimo specificano l’intervallo desiderato per ciascuna risposta, mentre la colonna Sensibilità
indica quanto sia importante che una risposta sia prossima alla migliore posizione all’interno di tale
intervallo. In questo caso, la resistenza è più importante del rendimento, e quindi ha un Impatto maggiore.
Entrambe le risposte sono impostate con un valore medio di sensibilità; ciò significa che la
desiderabilità di ciascuna risposta aumenta in modo lineare nell’intervallo specificato.
In questo esempio, sono stati impostati 5 fattori controllabili che varieranno durante l’esperimento.
Digitate i nomi dei fattori, le loro unità di misura e gli intervalli di variazione. Tutti i fattori sono
continui, in quanto possono assumere qualsiasi valore compreso tra gli estremi Basso e Alto.
Per creare un disegno per i 5 fattori di processo, fate clic sul pulsante Opzioni. Sarà visualizzata la lista
dei vari tipi di disegni che potrebbero essere appropriati ai 5 fattori continui:
2. Run: il numero di prove nel disegno base, prima di aggiungere punti centrali o repliche.
4. G. l. dell’errore: il numero dei gradi di libertà disponibili per stimare l’errore sperimentale.
La potenza dei test statistici è correlata al numero dei gradi di libertà e anche al numero
totale di prove nell’esperimento. Di solito, dovrebbero essere disponibili almeno 3 gradi
di libertà, sebbene sia preferibile un numero maggiore.
In questo caso, l’ingegnere ha scelto il disegno Frazione 1/2 in 2 blocchi di 8 prove ciascuno.
1. Punti centrali: il numero di prove eseguite nel centro della regione sperimentale. Aggiungere
punti centrali è un buon metodo per aumentare i gradi di libertà per l’errore sperimentale.
2. Posizione: la posizione dei punti centrali. Le scelte più comuni sono Casuale, che distribuisce i
punti centrali casualmente tra le altre prove, e Distanza uniforme, che distribuisce i punti centrali
equamente in tutto il disegno.
3. Replica il disegno: il numero di volte aggiuntive che ciascuna serie di condizioni sperimentali
deve essere eseguita. Replicando l’intero disegno in questo modo, potrebbe aumentare il
numero di prove da eseguire molto rapidamente.
4. Randomizzare: le prove sono elencate in ordine casuale. Se possibile, questa opzione dovrebbe
essere utilizzata sempre, per impedire che variabili esterne nascoste (come le variazioni nel
tempo del processo) influiscano sui risultati.
Per l’esperimento in esame, sono stati richiesti 4 punti centrali, che portano il disegno finale a 20
prove. È stato richiesto anche che il disegno sia realizzato in ordine casuale, nel senso che l’ordine
delle 10 prove all’interno di ciascun blocco sarà generato a caso.
A questo punto viene visualizzata la finestra con gli attributi del disegno:
Se queste impostazioni vi soddisfano, fate clic su OK per ritornare alla finestra del Wizard del
disegno sperimentale che riassume le scelte finora fatte:
Il foglio contiene una colonna con i numeri dei blocchi, 5 colonne con le impostazioni dei fattori
sperimentali e 2 colonne per inserire le risposte, una volta che le prove sperimentali sono state
eseguite.
Un’utile opzione per i disegni di screening è la Matrice di correlazione, che mostra se ci sono
eventuali confondimenti tra i termini nel modello da adattare:
CE DE
blocco 0,0000 0,0000
A 0,0000 0,0000
B 0,0000 0,0000
C 0,0000 0,0000
D 0,0000 0,0000
E 0,0000 0,0000
AB 0,0000 0,0000
AC 0,0000 0,0000
AD 0,0000 0,0000
AE 0,0000 0,0000
BC 0,0000 0,0000
BD 0,0000 0,0000
BE 0,0000 0,0000
CD 0,0000 0,0000
CE 1,0000 0,0000
DE 0,0000 1,0000
I disegni sperimentali creati con il wizard vengono salvati in file con estensione .sgx. Questi file
sono simili ai file di dati standard, con la differenza che contengono informazioni aggiuntive sul
disegno sperimentale e sul modello statistico selezionato.
Se necessario, è possibile specificare una trasformazione per una o più variabili. Poiché stiamo
analizzando variabili risposta continue, le trasformazioni potrebbero essere necessarie se la varianza
della risposta aumentasse con la media. Nell’esempio in esame, le trasformazioni non sono necessarie.
Se fate clic su OK, sarà visualizzata una nuova finestra di analisi per ogni risposta. La finestra di
analisi per il Rendimento inizialmente presenta il seguente output:
1. Sintesi dell’analisi: elenca le stime degli effetti principali e delle loro interazioni.
2. Tabella ANOVA: contiene i P-value che possono essere utilizzati per verificare il
significato statistico di ciascun effetto.
4. Grafico degli effetti principali: rappresentazione grafica delle variazioni stimate della risposta
quando ciascuno dei fattori passa dal livello più basso a quello più alto.
Il grafico degli effetti principali nel pannello in basso a destra mostra come ciascun fattore
influisce sul Rendimento:
Le linee indicano le stime delle variazioni del Rendimento quando ciascun fattore passa dal livello
più basso a quello più alto, mentre tutti gli altri fattori restano costanti a un valore intermedio tra
i loro minimi e massimi. Notate che i tre fattori con gli effetti principali significativi hanno un
impatto sulla risposta maggiore degli altri. Per esempio, il valore medio del Rendimento a bassa
temperatura è circa 82, mentre ad alta temperatura è circa 85,4. La differenza di 3,4 è detta
“effetto principale” della temperatura.
Per creare il grafico dell’interazione fra Temperatura e Flusso, selezionate Grafici delle interazioni dalla
finestra Grafici; poi utilizzate il pulsante Opzioni per il pannello per selezionare soltanto questi due
fattori:
Il grafico risultante mostra il valore medio del Rendimento al variare della Temperatura, per ciascun
livello di Flusso:
1. Fate clic sul pulsante Opzioni di analisi nella barra degli strumenti di analisi.
2. Fate clic sul tasto Escludi nella finestra Opzioni per stimare gli effetti.
3. Nella finestra Opzioni per escludere gli effetti fate doppio clic sugli effetti da escludere; questi
effetti passeranno automaticamente dalla colonna Includi alla colonna Escludi:
2. Escludere gli effetti principali poco significativi che non sono coinvolti in interazioni
significative.
Nell’esempio in esame, questo significa eliminare tutto ciò che non era significativo nel
diagramma di Pareto, tranne l’effetto principale di B. Questo effetto viene conservato perché è
coinvolto in una interazione significativa con il fattore A.
Una volta rimossi gli effetti, il diagramma di Pareto dovrebbe avere il seguente aspetto:
StatAdvisor
Questo pannello visualizza l'equazione di regressione che è stata adattata ai dati. L'equazione del modello adattato è
In questo grafico, l’altezza della superficie rappresenta il valore previsto del Rendimento nello
spazio Temperatura-Flusso, con gli altri tre fattori che restano costanti ai loro valori intermedi. I
valori più grandi del Rendimento si hanno per valori elevati di Temperatura e Flusso.
Il tipo di grafico e i fattori utilizzati per rappresentare la variabile risposta possono essere
cambiati tramite il pulsante Opzioni per il pannello:
Il tasto Fattori serve a selezionare i fattori che definiscono gli assi dei grafici e i valori costanti
(Mantenere) che assumeranno gli altri fattori:
Per creare il prossimo grafico, impostate Continui nel campo Contorni, Contorni sotto e Uniforme nel
campo Superficie; poi modificate la scala del campo Contorni da 81 a 86 con incrementi di 1:
Notate che la velocità di agitazione ha un impatto sulla resistenza, sebbene non abbia un effetto
significativo sul rendimento. Il diagramma a contorno per i due fattori più importanti sono
riportati qui di seguito:
Contemporaneamente, il seguente output sarà aggiunto alla finestra principale del wizard:
Passo 9: ottimizzare le risposte
Valori di risposta ottimale
Risposta Previsione Limite 95,0% inferiore Limite 95,0% superiore Desiderabilità
rendimento 88,7829 75,5887 101,977 0,878286
resistenza 250,0 187,508 312,492 1,0
Desiderabilità totale = 0,952497
Come potete notare dalle impostazioni dei fattori, si stima che il rendimento sarà pari a circa 88,7
grammi, quando la resistenza sarà 250 psi. Il rendimento risultante ha un quoziente di
“desiderabilità” di 0,878, in quanto è pari all’87,8% dell’intervallo compreso tra 80 e 90 grammi.
La resistenza ha un quoziente di desiderabilità pari a 1, in quanto è esattamente nel target.
La desiderabilità totale è 0,952; essa viene calcolata prendendo la desiderabilità di ciascuna
risposta, elevandola alla potenza specificata dal suo impatto, moltiplicando i risultati ed elevando il
prodotto a una potenza pari a 1 diviso la somma degli impatti. Il risultato è un numero compreso
tra 0 e 1, con un maggior peso dato alla risposta con l’impatto maggiore.
Se fate clic sul pulsante Tabelle e grafici, potrete creare due ulteriori grafici. I Grafici a contorno
sovrapposti mostrano i contorni delle due variabili risposta sovrapposti uno sull’altro:
Il punto ottimale si trova nell’angolo superiore destro, dove il rendimento è massimo lungo la linea
con resistenza = 250. Il Grafico della desiderabilità può essere utilizzato per visualizzare la
desiderabilità totale in funzione di due o tre fattori alla volta. Selezionate il Grafico a rete 3-D per
ottenere il seguente risultato:
2. Aggiungi una frazione: aggiunge altri 20 run per rendere il disegno completamente
fattoriale.
Se fate clic sul pulsante 12) Estrapola, sarà visualizzata la seguente finestra:
Figura 16-39. Dati di riepilogo dell’estrapolazione aggiunti alla finestra del wizard
Il rendimento può essere aumentato al suo target di 90 grammi, mantenendo una resistenza di
250 psi con un incremento della temperatura fino a 180,6 gradi, aumentando il flusso a 12,46
litri/min, la concentrazione all’8,42% e il catalizzatore all’1,56%. Poiché questa è
un’estrapolazione del modello statistico che avviene al di fuori della regione sperimentale
originale, occorre eseguire dei run aggiuntivi per verificare questo risultato.
Statistica di base: Applied Statistics and Probability for Engineers, 4rd edition, Douglas C. Montgomery e
George C. Runger (2006). John Wiley and Sons, New York.
Analisi della varianza: Applied Linear Statistical Models, 5th edition, Michael H. Kutner, Christopher J.
Nachtsheim e John Neter (2004). McGraw-Hill.
Analisi della regressione: Applied Linear Regression, 3rd edition, Sanford Weisberg (2005). John Wiley
and Sons, New York.
Controllo statistico dei processi: Introduction to Statistical Quality Control, 6th edition, Douglas C.
Montgomery (2008). John Wiley and Sons, New York.
Disegno di esperimenti: Statistics for Experimenters: Design, Innovation and Discovery, 2nd edition, George
E. P. Box, William G. Hunter e J. Stuart Hunter (2005). John Wiley and Sons, New York.
Questi dati sono stati scaricati dal Journal of Statistical Education Data Archive. Sono stati
compilati da Robin Lock del Dipartimento di Matematica della St. Lawrence University e sono
utilizzati con la sua autorizzazione. Un articolo associato al dataset appare nel Journal of Statistics
Education, Volume 1, Numero 1 (luglio 1993).
bodytemp.sgd
Anche questi dati sono stati scaricati dal Journal of Statistical Education Data Archive. Sono stati
compilati da Allen Shoemaker del Dipartimento di Psicologia del Calvin College e sono utilizzati
con la sua autorizzazione. I dati erano riportati in un articolo del Journal of the American Medical
Association (1992, vol. 268, pp. 1578-1580) intitolato “A Critical Appraisal of 98.6 Degrees F, the
Upper Limit of the Normal Body Temperature, and Other Legacies of Carl Reinhold August
Wunderlich” di P. A. Mackowiak, S. S. Wasserman e M. M. Levine. Un articolo associato al
dataset appare nel Journal of Statistics Education, Volume 4, Numero 2 (luglio 1996).
http://www.amstat.org/publications/jse/jse_data_archive.html
290 Dataset
Indice analitico
ABS; 44 contingenza, tabella di; 225; 235
Aggiorna formule; 43 contorno, diagramma a; 278
ampliare il disegno; 286 correlazione, matrice di; 203
analisi COUNT; 53
aggiornamento automatico; 110 Cp; 252
delle medie; 198 Cpk; 250
finestra di; 23 DataBook; 31
scegliere il tipo di; 132 date; 143
Analisi a una variabile; 21; 148; 238 dati
Analisi della capacità; 240 cancellare; 39
AND; 63 combinare; 49
ANOM; 198 copiare; 39
ANOVA; 190; 271 foglio; 14
grafica; 191 generare; 51
ASCII, file; 36 immettere; 14
AVG; 44 incollare; 39
bibliografia; 289 inserire; 39
booleana, espressione; 63 ordinare; 46
bootstrap, intervalli; 167 qualitativi; 219
Box-Cox, trasformazione; 247 ricodificare; 48
brushing; 95 strutture; 51
BY, variabile; 135 tagliare; 39
Calcolatrice Six Sigma; 253 trasformare; 43
capacità, grafico della; 241 deviazione standard; 152
cifre significative, default; 142 diagramma a scatola e baffi; 24; 154
colonna di dati Diagramma a scatola e baffi; 195
commento; 16; 33 DIFF; 44
modificare; 32 disegno di esperimenti; 255
nome; 16; 33 disegno, ampliamento; 286
tipo; 16; 33 distribuzione
Confronta due campioni; 173 normale; 152
Confronto di più campioni; 186 valore estremo massimo; 244