Sei sulla pagina 1di 302

StatPoint Technologies, Inc.

STATGRAPHICS® Centurion XVI

Manuale d’uso
STATGRAPHICS ® CENTURION XVI
MANUALE D’USO

Titolo originale: STATGRAPHICS® Centurion XVI User Manual

© 2009 by StatPoint Technologies, Inc.


www.STATGRAPHICS.com
All rights reserved. No portion of this document may be reproduced, in any form or by any means,
without the express written consent of StatPoint Technologies, Inc.

STATGRAPHICS is a registered trademark. STATGRAPHICS Centurion XVI, StatPoint, StatFolio,


StatGallery, StatReporter, StatPublish, StatWizard, StatLink, and SnapStats are trademarks.
All products or services mentioned in this book are the trademarks or service marks of their
respective owners.

Via Giambologna 19 - 52100 Arezzo (Italy)


Telefono: 0575.333.297 - Fax: 0575.333.284
Email: info@adalta.it
Web: www.adalta.it

Copyright per l’edizione italiana © 2009 - Adalta snc


Codice: stp-mit-116

Traduzione, revisione tecnica e realizzazione editoriale: Ing. Carmelo Giarratana - Villasanta (MB)

Tutti i diritti sono riservati a norma di legge e a norma delle convenzioni internazionali. Nessuna
parte di questo manuale può essere riprodotta con sistemi elettronici, meccanici o altri, senza
l’autorizzazione scritta di Adalta snc.
Nomi e marchi citati nel manuale sono generalmente depositati o registrati dalle rispettive case
produttrici.
Ogni cura è stata posta nella verifica della documentazione contenuta in questo manuale. Tuttavia né
gli autori, né Adalta snc possono assumersi alcuna responsabilità derivante dall’utilizzo della stessa. Lo
stesso dicasi per ogni persona o società coinvolta nella creazione, nella produzione e nella
distribuzione di questo manuale.
Indice
Prefazione ......................................................................................................................... vii
Introduzione ........................................................................................................................1
1.1 Installazione........................................................................................................................................1
1.2 Eseguire il programma......................................................................................................................8
1.3 Immettere i dati................................................................................................................................14
1.4 Leggere i dati di un file ...................................................................................................................18
1.5 Analizzare i dati ...............................................................................................................................20
1.6 Utilizzare la barra degli strumenti di analisi .................................................................................24
1.7 Diffondere i risultati........................................................................................................................29
1.8 Salvare il proprio lavoro .................................................................................................................30
Gestione dei dati ............................................................................................................... 31
2.1 Il DataBook......................................................................................................................................32
2.2 Accedere ai dati................................................................................................................................34
2.2.1 Leggere i dati da un file di STATGRAPHICS Centurion..................................................35
2.2.2 Leggere i dati da un file di Excel, ASCII, XML o di un’altra applicazione esterna........36
2.2.3 Trasferire i dati con il metodo copia-e-incolla.....................................................................37
2.2.4 Leggere i dati di un database ODBC.....................................................................................38
2.3 Manipolare i dati ..............................................................................................................................39
2.3.1 Copiare e incollare i dati..........................................................................................................39
2.3.2 Creare nuove variabili da colonne esistenti ..........................................................................39
2.3.3 Trasformare i dati.....................................................................................................................43
2.3.4 Ordinare i dati...........................................................................................................................46
2.3.5 Ricodificare i dati......................................................................................................................48
2.3.6 Combinare più colonne...........................................................................................................49
2.4 Generare i dati..................................................................................................................................51
2.4.1 Generare strutture di dati........................................................................................................51
2.4.2 Generare numeri casuali..........................................................................................................54
2.5 Proprietà del DataBook..................................................................................................................55
2.6 Visualizzatore dei dati .....................................................................................................................56
Analisi statistica ................................................................................................................ 59
3.1 Finestre di input dei dati.................................................................................................................61
3.2 Finestre di analisi .............................................................................................................................63
3.2.1 Pulsante Finestra di input .......................................................................................................65
3.2.2 Pulsante Opzioni di analisi .....................................................................................................65
3.2.3 Pulsante Tabelle e grafici.........................................................................................................66
3.2.4 Pulsante Opzioni per il pannello............................................................................................68

iii Indice
3.2.5 Pulsante Salva i risultati...........................................................................................................70
3.2.6 Pulsanti per i grafici .................................................................................................................72
3.2.7 Pulsante Escludi .......................................................................................................................73
3.3 Stampare i risultati...........................................................................................................................74
3.4 Pubblicare i risultati.........................................................................................................................76
Grafici ............................................................................................................................... 73
4.1 Modificare i grafici ..........................................................................................................................78
4.1.1 Opzioni per il layout................................................................................................................79
4.1.2 Opzioni per la griglia ...............................................................................................................81
4.1.3 Opzioni per le linee .................................................................................................................83
4.1.4 Opzioni per i punti ..................................................................................................................85
4.1.5 Opzioni per il titolo principale...............................................................................................87
4.1.6 Opzioni per la scala degli assi.................................................................................................89
4.1.7 Opzioni per il riempimento delle aree ..................................................................................91
4.1.8 Opzioni per testi, etichette e legende....................................................................................92
4.1.9 Aggiungere nuovi testi.............................................................................................................92
4.2 Jittering di un grafico a dispersione ..............................................................................................93
4.3 Brushing di un grafico a dispersione ............................................................................................95
4.4 Smoothing di un grafico a dispersione.........................................................................................97
4.5 Identificare i punti...........................................................................................................................99
4.6 Copiare i grafici in altre applicazioni ..........................................................................................102
4.7 Salvare un grafico in un file .........................................................................................................103
Statfolio ............................................................................................................................ 105
5.1 Salvare una sessione ......................................................................................................................105
5.2 Script di StatFolio..........................................................................................................................106
5.3 Aggiornamento automatico delle analisi statistiche..................................................................110
5.4 Pubblicare i dati nel formato HTML..........................................................................................111
StatGallery........................................................................................................................ 115
6.1 Configurare una pagina di StatGallery .......................................................................................115
6.2 Copiare i grafici in StatGallery.....................................................................................................117
6.3 Sovrapporre i grafici......................................................................................................................118
6.4 Modificare un grafico di StatGallery...........................................................................................119
6.4.1 Aggiungere nuovi elementi...................................................................................................119
6.4.2 Modificare gli elementi..........................................................................................................120
6.4.3 Cancellare gli elementi...........................................................................................................120
6.5 Stampare StatGallery.....................................................................................................................121
StatReporter ..................................................................................................................... 123
7.1 La finestra di StatReporter ...........................................................................................................123
7.2 Copiare l’output in StatReporter.................................................................................................124

iv Indice
7.3 Modificare l’output in StatReporter............................................................................................125
7.4 Salvare StatReporter......................................................................................................................125
StatWizard ....................................................................................................................... 127
8.1 Accedere ai dati o creare un nuovo studio statistico................................................................128
8.2 Scegliere il tipo di analisi per i dati ..............................................................................................132
8.3 Ricerca delle statistiche e dei test desiderati ..............................................................................137
Preferenze del sistema ..................................................................................................... 141
9.1 Comportamento generale del sistema ........................................................................................141
9.2 Stampa.............................................................................................................................................144
9.3 Grafici .............................................................................................................................................144
Tutorial 1 – Analisi di un singolo campione................................................................... 147
10.1 Procedura di analisi a una variabile...........................................................................................148
10.2 Statistiche di sintesi .....................................................................................................................151
10.3 Diagramma a scatola e baffi.......................................................................................................154
10.4 Verifica degli outlier....................................................................................................................156
10.5 Istogramma ..................................................................................................................................160
10.6 Grafico dei quantili e percentili .................................................................................................165
10.7 Intervalli di confidenza...............................................................................................................166
10.8 Verifica di ipotesi.........................................................................................................................168
10.9 Limiti di tolleranza ......................................................................................................................170
Tutorial 2 – Confrontare due campioni .......................................................................... 173
11.1 Eseguire la procedura di confronto di due campioni.............................................................173
11.2 Statistiche di sintesi .....................................................................................................................175
11.3 Istogramma duale ........................................................................................................................176
11.4 Diagramma duale a scatola e baffi ............................................................................................177
11.5 Confrontare le deviazioni standard...........................................................................................179
11.6 Confrontare le medie ..................................................................................................................180
11.7 Confrontare le mediane..............................................................................................................181
11.8 Grafico dei quantili .....................................................................................................................182
11.9 Test di Kolmogorov-Smirnov per due campioni ...................................................................183
11.10 Grafico quantili-quantili ...........................................................................................................184
Tutorial 3 – Confrontare più di due campioni................................................................ 185
12.1 Eseguire la procedura di confronto di più campioni .............................................................186
12.2 Analisi della varianza...................................................................................................................190
12.3 Confrontare le medie ..................................................................................................................192
12.4 Confrontare le mediane..............................................................................................................194
12.5 Confrontare le deviazioni standard...........................................................................................196
12.6 Grafico dei residui.......................................................................................................................196
12.7 Grafico per l’analisi delle medie (ANOM) ..............................................................................198

v Indice
Tutorial 4 – Analisi della regressione .............................................................................. 199
13.1 Analisi della correlazione............................................................................................................200
13.2 Regressione semplice ..................................................................................................................204
13.3 Adattare un modello non lineare ..............................................................................................207
13.4 Analisi dei residui ........................................................................................................................209
13.5 Regressione multipla...................................................................................................................211
Tutorial 5 – Analisi dei dati qualitativi ............................................................................ 219
14.1 Sintetizzare i dati qualitativi .......................................................................................................220
14.2 Analisi di Pareto ..........................................................................................................................221
14.3 Tabulazione incrociata................................................................................................................224
14.4 Confrontare due o più campioni...............................................................................................231
14.5 Tabelle di contingenza................................................................................................................235
Tutorial 6 – Analisi della capacità di un processo.......................................................... 237
15.1 Rappresentazione dei dati ..........................................................................................................238
15.2 Procedura di analisi della capacità.............................................................................................240
15.3 Caso di dati non normali............................................................................................................243
15.4 Indici di capacità..........................................................................................................................250
15.5 Calcolatrice Six Sigma.................................................................................................................253
Tutorial 7 – Disegno di esperimenti (DOE) .................................................................. 255
16.1 Realizzare il disegno....................................................................................................................256
Passo 1: Definire le risposte...........................................................................................................257
Passo 2: Definire i fattori sperimentali.........................................................................................258
Passo 3: Selezionare il disegno sperimentale ...............................................................................259
Passo 4: Specificare il modello.......................................................................................................266
Passo 5: Selezionare i run...............................................................................................................267
Passo 6: Valutare il disegno............................................................................................................267
Passo 7: Salvare l’esperimento.......................................................................................................269
16.2 Analizzare i risultati.....................................................................................................................269
Passo 8: Analizzare i dati ................................................................................................................270
Passo 9: Ottimizzare le risposte ....................................................................................................282
Passo 10: Salvare i risultati .............................................................................................................285
16.3 Ulteriore sperimentazione..........................................................................................................285
Passo 11: Ampliare il disegno........................................................................................................286
Passo 12: Estrapolare......................................................................................................................287
Libri consigliati............................................................................................................... 289
Dataset ............................................................................................................................ 290
Indice analitico ................................................................................................................ 291

vi Indice
Prefazione
Scopo di questo manuale è descrivere agli utenti di STATGRAPHICS Centurion XVI
il funzionamento di base del programma e il suo utilizzo per analizzare i dati. Il libro offre una
panoramica completa del sistema, incluse le procedure di installazione, la gestione dei dati, la
preparazione delle analisi statistiche, la stampa e la pubblicazione dei risultati. Poiché il libro è stato
ideato per mettere rapidamente in azione gli utenti, esso si concentra sulle funzionalità più importanti
del programma, evitando di soffermarsi su ogni dettaglio. Il menu Guida di STATGRAPHICS
Centurion XVI consente di accedere a una ricca raccolta di informazioni aggiuntive, incluso un file
PDF distinto per ciascuna delle oltre 160 procedure statistiche.

I primi nove capitoli di questo libro trattano l’utilizzo di base di STATGRAPHICS Centurion XVI.
È probabile che riusciate a capire da soli gran parte di questi argomenti mentre utilizzate il
programma; tuttavia, la lettura di questi capitoli accelererà il vostro processo di apprendimento
e avrete la certezza di non avere tralasciato alcun elemento importante.

Gli ultimi sette capitoli sono tutorial che hanno lo scopo di

1. presentare alcune delle più comuni analisi statistiche;

2. dimostrare come le funzionalità uniche di STATGRAPHICS Centurion XVI agevolino


il processo di analisi dei dati.

Vi consigliamo di esaminare i tutorial, perché rendono meglio l’idea della grande efficienza di
STATGRAPHICS Centurion XVI nell’analizzare i dati reali.

NOTA: il programma include una copia di questo manuale nel formato PDF; per accedervi,
selezionate Manuale d’uso dal menu Guida. Nel documento PDF tutti i grafici sono a colori. Il
programma include anche i file di dati e gli StatFolio citati nel manuale.

StatPoint Technologies, Inc.


agosto 2009

vii Prefazione
Capitolo

Introduzione
1
Installare STATGRAPHICS Centurion XVI, eseguire il programma
e creare un semplice file di dati

1.1 Installazione
STATGRAPHICS Centurion XVI viene distribuito in due modi: su Internet, in un unico file che
potete scaricare sul vostro computer, e su CD-ROM. Per eseguire il programma, occorre
installarlo sul disco fisso. Come altri programmi Windows, l’installazione è estremamente
semplice:

Passo 1: se avete ricevuto il programma su un CD, inserite il CD nel lettore del computer.
Dopo pochi istanti, il programma di installazione dovrebbe avviarsi automaticamente. In caso
contrario, aprite la finestra Risorse del computer ed eseguite il file sgcinstall.exe nella cartella
principale del CD-ROM.

Se avete scaricato il programma da Internet, trovate il corrispondente file sul disco fisso e fate
doppio clic sul nome del file per avviare la procedura di installazione.

Passo 2: sullo schermo saranno visualizzate in sequenza alcune finestre di dialogo. Se state
eseguendo il programma da un CD, la prima finestra vi chiederà di specificare la lingua o le
lingue in cui dovrà essere installato Statgraphics:

1 Introduzione
Figura 1-1. La finestra per scegliere la lingua o le lingue di installazione del software

Scegliete la lingua principale e una o più lingue addizionali. La lingua principale sarà utilizzata
durante l’installazione e come lingua di default quando avviate il programma per la prima volta.
Se scegliete delle lingue addizionali, potrete passare da una lingua all’altra mentre utilizzate il
programma selezionando Modifica – Preferenze.

Se avete scaricato il programma da Internet, dovrete eseguire un programma di installazione


distinto per ogni lingua.

NOTA: durante il periodo di valutazione gli utenti possono accedere a una qualsiasi delle lingue
disponibili in STATGRAPHICS Centurion XVI. Dopo l’acquisto, vi sarà chiesto di specificare la
lingua principale e le eventuali lingue addizionali; notate che potrete accedere soltanto alle lingue
che avrete scelto di utilizzare con STATGRAPHICS Centurion XVI.

2 Introduzione
Passo 3: STATGRAPHICS Centurion XVI usa InstallShield per installare il programma sul
vostro computer. InstallShield controlla l’intallazione tramite una serie di finestre di dialogo. La
prima finestra è quella di benvenuto in STATGRAPHICS Centurion XVI:

Figura 1-2. La finestra di benvenuto

Fate clic sul pulsante Avanti.

NOTA: per installare e attivare STATGRAPHICS Centurion XVI, dovrete avere i diritti di
amministratore sul vostro computer. Nel caso aveste bisogno della presenza di un amministratore
di sistema durante la procedura di installazione, vi raccomandiamo di installare e attivare
il software mentre è presente l’amministratore.

3 Introduzione
Passo 4: la seconda finestra visualizza il contratto di licenza del software:

Figura 1-3. La finestra con il contratto di licenza

Leggete con attenzione il contratto di licenza. Se ne accettate i termini, selezionate l’opzione


Accetto i termini … e fate clic su Avanti per continuare. Se non lo accettate, fate clic su Annulla; in
questo caso, non potrete utilizzare il programma.

4 Introduzione
Passo 5: la successiva finestra chiede alcune informazioni sulla persona che dovrà utilizzare il
programma:

Figura 1-4. La finestra con le informazioni sull’utente del programma

Inserite le informazioni richieste. Se volete consentire a chiunque usi il computer di accedere a


STATGRAPHICS Centurion XVI, selezionate l’opzione appropriata.

5 Introduzione
Passo 6: la successiva finestra indica la cartella in cui sarà installato il programma:

Figura 1-5. La finestra per scegliere la cartella di installazione del programma

Per default, STATGRAPHICS Centurion XVI viene installato nella sottocartella


\Statgraphics\STATGRAPHICS Centurion XVI di Programmi. Se state installando il programma in
un server di rete, scegliete una cartella cui tutti i potenziali utenti possono accedere in lettura. Non è
richiesto l’accesso in scrittura. Per informazioni dettagliate sull’installazione in rete del programma,
consultate il file Reame.txt nel CD di STATGRAPHICS Centurion XVI oppure scaricate il file con
i dettagli sull’installazione della rete.

6 Introduzione
Passo 7: la successiva finestra vi consente di scegliere il tipo di installazione:

Figura 1-6. La finestra per scegliere il tipo di installazione

Selezionate una delle seguenti opzioni:

Tipica – Installa il programma, i file della guida, la documentazione e i file degli esempi.
Lo spazio richiesto sul disco fisso è un po’ più di 60 MB.

Minima – Installa soltanto il programma e i file della guida. È sufficiente uno spazio
sul disco fisso di circa 30 MB.

Personalizzata – Installa soltanto i componenti che selezionate.

Se scegliete l’installazione minima, risparmierete spazio sul disco, ma non potrete accedere
alla documentazione on-line e ai file degli esempi.

7 Introduzione
Passo 8: seguite le restanti istruzioni per completare l’installazione. Quando l’installazione sarà
completata, sullo schermo apparirà la finestra finale:

Figura 1-7. La finestra di fine installazione

Fate clic su Fine per completare l’installazione. Selezionate l’opzione Avvia il programma per
avviare subito STATGRAPHICS Centurion XVI, oppure seguite le seguenti istruzioni.

1.2 Eseguire il programma


Alla fine del processo di installazione, viene inserita un’icona di collegamento a STATGRAPHICS
Centurion XVI nel menu Start di Windows e sul desktop. Per avviare il programma:
Passo 1: fate doppio clic su questa nuova icona del desktop oppure aprite il menu Start di
Windows posto nell’angolo inferiore sinistro dello schermo e fate clic sull’icona Statgraphics. In
alternativa, potete utilizzare la finestra Risorse del computer: aprite in sequenza le cartelle Programmi –
Statgraphics – STATGRAPHICS Centurion XV.II, poi fate clic sull’icona del programma sgwin.

8 Introduzione
Passo 2: quando il programma STATGRAPHICS Centurion XVI è caricato in memoria, sullo
schermo appare una nuova finestra. La prima volta che eseguite il programma, sarà visualizzata
la finestra Benvenuti:

Figura 1-8. La finestra di benvenuto

Avete due opzioni:


1. Iniziare un periodo di prova di 30 giorni per valutare il programma prima di acquistarlo;
in questo caso, fate clic sul pulsante Valuta.
2. Se avete già acquistato il programma e avete ricevuto il numero di serie, fate clic sul
pulsante Attiva.

9 Introduzione
Se fate clic sul pulsante Valuta, sarà visualizzata la seguente finestra:

Figura 1-9. La finestra per l’attivazione del periodo di prova


La finestra visualizza un Codice di prodotto di 16 caratteri che è unico per il vostro computer.
Per iniziare il periodo di prova, dovrete digitare il corrispondente Codice di attivazione. Per ricevere
il Codice di attivazione, potete premere uno dei due pulsanti sotto il Passo 2:
1. Il pulsante 1. Fate clic qui invia automaticamente un messaggio a StatPoint Technologies
tramite Internet per richiedere il codice di attivazione. Un web service risponderà
immediatamente a questa richiesta, inviando il codice di attivazione all’indirizzo e-mail
che avete specificato.

10 Introduzione
2. Il pulsante 2. Fate clic qui accede al vostro programma di posta elettronica, inserendo le
informazioni in una e-mail che potrete spedire a StatPoint. Questa e-mail sarà elaborata
durante le normali ore di lavoro.
Per evitare ritardi, utilizzate il primo metodo, se possibile.

NOTA: gli utenti che stanno attivando delle copie ottenute da licenze per siti di enti o
istituzioni devono utilizzare il primo metodo. I codici di attivazione saranno trasmessi
agli indirizzi e-mail indicati dagli enti/istituzioni che hanno acquistato la licenza.
I responsabili informatici degli enti/istituzioni dovrebbero avvisare gli utenti di questa
prassi.

Passo 3: dopo che la vostra richiesta sarà stata elaborata, riceverete una e-mail contenete il
codice di attivazione. Digitate il codice nel campo sotto il Passo 3 e premete il pulsante Attiva.
Se il codice di attivazione corrisponde al codice di prodotto, vedrete il seguente messaggio:

Figura 1-10. Il messaggio che segnala l’inizio del periodo di attivazione

Premete OK per avviare il programma.

NOTA 1: se state utilizzando Microsoft Vista o Windows 7, quando fate doppio clic
sull’icona STATGRAPHICS del desktop per avviare il programma, l’operazione
potrebbe non riuscire. In questo caso, fate clic con il pulsante destro del mouse e
selezionate Run as Administrator dalla lista delle opzioni.

NOTA 2: se installate STATGRAPHICS Centurion XVI su un altro computer, dovrete


ripetere la procedura di installazione per ottenere un codice di attivazione, in quanto il
codice di prodotto è unico per ciascun computer.

11 Introduzione
Passo 4: la prima volta che eseguite il programma, dovrete anche scegliere il sistema di menu
che intendete utilizzare:

Figura 1-11. La finestra per scegliere il sistema di menu

Potete scegliere il sistema classico di STATGRAPHICS Centurion XVI (facendo clic sul
pulsante No), che organizza le procedure statistiche nei menu Grafici, Descrivi, Confronta, Relazione,
Previsione, SPC e DOE, oppure il sistema Six Sigma (facendo clic sul pulsante Sì), che organizza le
procedure nei menu Define, Measure, Analyze, Improve, Control e Previsione. Entrambi i sistemi di
menu includono le stesse procedure; cambia soltanto la loro organizzazione. Successivamente,
potrete cambiare la vostra scelta iniziale selezionando Preferenze dal menu Modifica del
programma.

12 Introduzione
Passo 5: sarà creata la finestra principale di STATGRAPHICS Centurion XVI:

Figura 1-12. La finestra principale di STATGRAPHICS

I prossimi paragrafi spiegano come utilizzare StatWizard per creare un file contenente i dati del
censimento della popolazione degli Stati Uniti d’America nel 2000.

13 Introduzione
1.3 Immettere i dati
I dati da analizzare con STATGRAPHICS Centurion XVI devono essere posti nel DataBook,
che è formato da 26 fogli (datasheet), identificati dalle lettere da A a Z, ciascuno dei quali contiene
un array rettangolare di righe e colonne:

Figura 1-13. Il DataBook di STATGRAPHICS

In un tipico foglio, ogni riga contiene le informazioni su un singolo campione, osservazione o


caso, mentre ogni colonna rappresenta una variabile.
Per esempio, supponete di utilizzare STATGRAPHICS Centurion XVI per analizzare i dati del
censimento della popolazione degli USA nel 2000. Una piccola parte dei risultati del censimento
è riportata qui di seguito:

14 Introduzione
Stato Populazione Età media % Donne Reddito pro capite
Alabama 4.447.100 35,8 51,7 $18.819
Alaska 626.932 32,4 48,3 $22.660
Arizona 5.130.632 34,2 50,1 $20.275
Arkansas 2.673.400 36,0 51,2 $16.904
California 33.871.648 33,3 50,2 $22.711
Colorado 4.301.261 34,3 49,6 $24.049
Figura 1-14. I dati estratti dal censimento della popolazione USA nel 2000
Quando questi dati vengono inseriti in un foglio di STATGRAPHICS Centurion XVI,
le informazioni relative a ciascuno Stato dovranno essere poste in una riga distinta; inoltre,
dovranno essere create cinque colonne per contenere i nomi degli Stati e i dati del censimento.

Per inserire dati come questi in un foglio di STATGRAPHICS Centurion XVI, avete due
alternative:

1. Digitare i dati direttamente nel DataBook di STATGRAPHICS Centurion XVI.

2. Digitare i dati in un altro programma, come Excel, e poi leggerli o copiarli in


STATGRAPHICS Centurion XVI.

In questo paragrafo descriveremo il primo metodo. Per iniziare, fate doppio clic sull’intestazione
della prima colonna, il cui nome è Col_1. Sullo schermo sarà visualizzata una finestra che potete
utilizzare per modificare importanti proprietà di questa colonna:

15 Introduzione
Figura 1-15. La finestra per definire le colonne

Ogni colonna in un foglio di STATGRAPHICS Centurion XVI è associata a un nome, un


commento e un tipo di dati:
• Nome – Assegnate a ogni colonna un nome unico composto da 1 a 32 caratteri. Questi
nomi sono utilizzati dal programma per identificare le variabili da analizzare quando
selezionate una procedura statistica. Sono utilizzati anche come etichette di default nella
maggior parte dei grafici. I nomi possono contenere qualsiasi carattere. Il programma non
fa distinzione fra lettere maiuscole e minuscole nei nomi. Sono ammessi gli spazi all’interno
dei nomi. Se tentate di specificare lo stesso nome a più colonne dello stesso foglio, sebbene
sia possibile assegnare lo stesso nome a colonne di fogli differenti.
• Commento – Digitate un commento che descrive il contenuto della colonna. I commenti non
possono contenere più di 64 caratteri e sono facoltativi. Una volta immessi, i commenti
appaiono nella seconda riga della colonna.
• Tipo – Specificate il tipo di dati da attribuire ai contenuti della colonna. In questo caso, la
prima colonna che contiene i nomi degli Stati deve essere di tipo Carattere. Per le altre
colonne, lasciate il tipo Numerico o, se volete limitare il tipo di dati che possono essere
immessi, scegliete Intero o Cifre decimali. Per informazioni dettagliate sui tipi di dati delle
colonne, consultate il Capitolo 2.
Quando avete definito una colonna, fate clic su OK. Create cinque colonne, come indicato qui di
seguito:

16 Introduzione
Figura 1-16. Il foglio con i nomi delle colonne

Adesso inserite i dati come in qualsiasi altro spreadsheet, utilizzando i tasti con le frecce per
spostarvi da una cella all’altra. NON digitate i simboli di separazione delle migliaia quando
inserite grandi numeri. Alla fine dovreste ottenere un foglio simile a questo:

Figura 1-17. Il foglio dopo l’inserimento di 6 righe di dati

17 Introduzione
A questo punto, dovreste salvare i dati in un file. Selezionate File – Salva – Salva il file di dati
dal menu principale. Scegliete il nome del file in cui salvare i dati:

Figura 1-18. La finestra per salvare i file

I file di dati in STATGRAPHICS Centurion XVI vengono salvati su disco con l’estensione di
default “.sgd”, che memorizza i dati nel formato XML. Quando salvate un file, potete cambiare
l’impostazione del campo Salva come in un altro formato di file.

1.4 Leggere i dati di un file


Una volta che i dati sono stati immessi in un foglio di STATGRAPHICS Centurion, possono
essere analizzati. Per rendere più interessante l’esempio, carichiamo i dati del censimento di tutti
i 50 Stati e del District of Columbia (D. C.), che sono forniti insieme a STATGRAPHICS
Centurion XVI in un file chiamato census2000.sgd. Per aprire questo file, selezionate File – Apri –
Apri Sorgente dati dal menu principale. Innanzitutto, il programma vi chiederà di specificare
l’origine dei dati da analizzare:

18 Introduzione
Figura 1-19. La finestra per specificare l’origine dei dati da analizzare

La scelta di default è corretta in questo caso. Poi, selezionate il nome del file che contiene i dati:

Figura 1-20. La finestra per selezionare il file da aprire

Il file dell’esempio in esame si trova nella cartella di default dei dati (di solito,
C:\Programmi\Statgraphics\STATGRAPHICS Centurion XVI\Data).

19 Introduzione
Una volta aperto il file, vengono riempite 51 righe di dati:

Figura 1-21. Il foglio con i dati del file census2000.sgd

1.5 Analizzare i dati


Una volta che i dati sono stati caricati nel DataBook di STATGRAPHICS Centurion, è possibile
applicare loro una delle oltre 160 procedure statistiche in uno dei seguenti modi:

1. Selezionando la procedura desiderata dal menu principale.

2. Facendo clic su uno dei pulsanti di scelta rapida nella barra degli strumenti.

3. Avviando StatWizard tramite il pulsante con il cappello del mago che si trova nella barra
degli strumenti.

20 Introduzione
Iniziamo a sintetizzare la variabilità del reddito pro capite (colonna Per capita Income) degli Stati.
La migliore procedura di sintesi dei dati numerici di una singola colonna è Analisi a una variabile.
Questa procedura calcola le statistiche di sintesi, come la media e la deviazione standard del
campione. Inoltre, crea vari grafici, tra cui un istogramma e un diagramma a scatola e baffi.

La posizione della procedura Analisi a una variabile dipende dal sistema di menu che state
utilizzando:

1. Menu classico: selezionate Descrivi – Dati numerici – Analisi a una variabile.

2. Menu Six-Sigma: selezionate Analyze – Variabili – Analisi a una variabile.

Come tutte le procedure statistiche, anche Analisi a una variabile inizia visualizzando una finestra
di input dei dati:

Figura 1-22. La finestra di input dei dati della procedura Analisi a una variabile

Il riquadro a sinistra visualizza i nomi di tutte le colonne del foglio che contengono dati. Per analizzare
i dati della colonna Per Capita Income, fate clic sul suo nome e poi sul pulsante con la freccia nera
accanto al campo Dati. Così facendo, il nome della colonna che contiene i valori dei redditi sarà posto
nel campo Dati. Lasciate vuoto il campo Seleziona (serve solo per analizzare un sottoinsieme di righe
del foglio, anziché tutte le righe).

Quando fate clic su OK, sarà visualizzata la finestra Tabelle e grafici. Questa finestra mostra le tabelle e i
grafici che sono disponibili per la procedura Analisi a una variabile. Per adesso, accettiamo le
impostazioni di default:

21 Introduzione
Figura 1-23. La finestra Tabelle e grafici

Se fate clic di nuovo su OK, sarà creata una nuova finestra di analisi:

Figura 1-24. La finestra della procedura Analisi a una variabile

22 Introduzione
La finestra contiene quattro pannelli, separati da barre divisorie mobili. I due pannelli a sinistra
visualizzano un output in forma tabellare, mentre i due pannelli a destra visualizzano un output
grafico. Se fate doppio clic sul pannello in basso a sinistra, sarà ingrandita la tabella con le
statistiche di sintesi:

Figura 1-25. Il pannello ingrandito con le statistiche di sintesi


La tabella contiene diverse statistiche interessanti. Il reddito pro capite nei 51 Stati, incluso D.C.,
varia da 15.853 a 28.766 dollari. Il reddito medio è 20.934,50 dollari.

Sotto la tabella è riportato l’output di StatAdvisor, che fornisce una breve interpretazione dei
risultati. In questo caso, StatAdvisor si concentra sulle due statistiche visualizzate in rosso, che
misurano l’asimmetria e la curtosi dei dati. Come spiega StatAdvisor, i dati con distribuzione
normale o gaussiana hanno valori di asimmetria e curtosi standard compresi tra –2 e +2. In
questo caso, entrambe le statistiche sono all’interno di questo intervallo; ciò significa che per le
osservazioni in esame possiamo accettare come modello una curva normale a forma di campana,
sebbene l’asimmetria sia molto prossima a essere statisticamente significativa.

23 Introduzione
Se fate di nuovo doppio clic sulla tabella delle statistiche di sintesi, ripristinerete i quattro
pannelli originali. Facendo doppio clic sul pannello in basso a destra, sarà ingrandito il
diagramma a scatola e baffi:

Figura 1-26. Il pannello ingrandito con il diagramma a scatola e baffi


Il diagramma a scatola e baffi, ideato da John Tukey, fornisce una rappresentazione grafica del
campione di dati sulla base di cinque numeri di sintesi. La scatola rappresenta la metà centrale dei
dati, che si estende dal quartile inferiore a quello superiore. Le linee che si estendono a sinistra e a
destra (i baffi) della scatola terminano, rispettivamente, in corrispondenza del minimo e del
massimo della distribuzione dei dati. La mediana dei dati è indicata dalla linea verticale all’interno
della scatola, mentre il segno più (+) rappresenta la posizione della media del campione. Il fatto
che il baffo destro è leggermente più lungo di quello sinistro, mentre la media è un po’ più grande
della mediana, indica che la distribuzione dei dati è asimmetrica o obliqua a destra.

1.6 Utilizzare la barra degli strumenti di analisi


La prima volta che viene visualizzata una finestra di analisi come Analisi a una variabile, vengono
inclusi soltanto alcuni dei grafici e delle tabelle disponibili. Per visualizzare altri risultati
dell’analisi, bisogna utilizzare gli appositi pulsanti nella barra degli strumenti di analisi che appare
subito sopra il titolo dell’analisi:

Figura 1-27. I pulsanti della barra degli strumenti di analisi

24 Introduzione
I pulsanti della barra di analisi sono molto importanti. Le azioni dei primi sei pulsanti sono
descritte nel seguente prospetto:

Nome Funzione
Finestra di input Visualizza la finestra di input dei dati in modo che sia
possibile modificare i dati delle colonne selezionate.
Opzioni di analisi Seleziona le opzioni che si applicano alle tabelle
e ai grafici dell’analisi corrente.
Tabelle e grafici Visualizza l’elenco di altri grafici e tabelle che è possibile
creare.
Opzioni per il pannello Seleziona le opzioni che si applicano soltanto alla tabella
o al grafico correntemente ingrandito.
Salvare i risultati Salva le statistiche calcolate nelle colonne di un foglio.
Opzioni per il grafico Consente di modificare i titoli, la scala e altre
caratteristiche del grafico correntemente ingrandito.
Figura 1-28. Sei importanti pulsanti della barra degli strumenti di analisi
Altri pulsanti a destra di questi agiscono sul grafico correntemente ingrandito, come è descritto
nel Capitolo 5.

Per esempio, se fate clic sul pulsante Tabelle e grafici , sarà visualizzata una finestra di dialogo
che elenca gli altri grafici disponibili nella procedura Analisi a una variabile:

Figura 1-29. Elenco di tabelle e grafici disponibili nella procedura Analisi a una variabile

Facendo clic sulla casella accanto a Istogramma delle frequenze e poi sul pulsante OK, viene aggiunto
un terzo pannello nel lato destro della finestra di analisi:

25 Introduzione
Figura 1-30. La finestra Analisi a una variabile con il nuovo istogramma delle frequenze

Se fate doppio clic sull’istogramma per ingrandirlo e poi fate clic sul pulsante Opzioni per il
pannello, sarà visualizzata una finestra con le opzioni specifiche per l’istogramma:

26 Introduzione
Figura 1-31. La finestra con le opzioni specifiche per l’istogramma delle frequenze
Questa finestra consente di cambiare il numero di barre dell’istogramma, come pure l’intervallo
di valori che esse rappresentano. Impostate a 15 il campo Numero di classi e fate clic su OK;
l’istogramma varierà per rispecchiare questa nuova impostazione:

Figura 1-32. L’istogramma delle frequenze dopo la modifica del numero di classi

27 Introduzione
È anche possibile modificare il tipo di riempimento e il colore delle barre dell’istogramma
utilizzando il pulsante Opzioni per il grafico. Questo pulsante visualizza una finestra che permette di
cambiare molti elementi del grafico. Se fate clic sulla scheda Riempimenti, avrete accesso alle
seguenti opzioni di riempimento:

Figura 1-33. La finestra con le opzioni di riempimento degli elementi del grafico
Fate clic sul pulsante radio 1 e poi selezionate un nuovo tipo di riempimento o colore per
modificare l’aspetto delle barre dell’istogramma.

NOTA: le operazioni di molti pulsanti della barra degli strumenti di analisi possono essere
eseguite facendo clic con il pulsante destro del mouse nel pannello che contiene una tabella o un
grafico. Sarà visualizzato un menu popup che elenca le operazioni disponibili.

28 Introduzione
1.7 Diffondere i risultati
Una volta completata l’analisi, i risultati possono essere diffusi in vari modi:
Azione Metodo
Stampare i risultati dell’analisi. Fate clic sul pulsante con la stampante
nella barra degli strumenti principali per
stampare tutti i grafici e le tabelle, oppure
fate clic su un pannello con il pulsante
destro del mouse e selezionate Stampa dal
menu popup per stampare un solo grafico
o una sola tabella.
Pubblicare i risultati per visualizzarli Selezionate StatPublish dal menu File. Sarà
in un browser del Web. visualizzata una finestra dove potrete
specificare la cartella in cui salvare il
documento HTML.
Copiare i risultati in un’altra Fate clic sulla tabella o sul grafico da
applicazione. copiare e selezionate Copia dal menu
Modifica. Poi, attivate l’altra applicazione e
selezionate Modifica – Incolla.
Salvare i risultati in un report. Premete il pulsante destro del mouse e
selezionate Copia l’analisi in StatReporter.
StatReporter, descritto nel Capitolo 7,
consente di salvare i risultati dell’analisi in
un file RTF, che potrà essere importato in
altri programmi, come Microsoft Word.
Salvare un grafico in un file. Ingrandite la finestra del grafico da salvare.
Poi selezionate Salva grafico dal menu File.
Figura 1-34. Metodi per diffondere i risultati dell’analisi

Queste operazioni saranno descritte nei successivi capitoli.

29 Introduzione
1.8 Salvare il proprio lavoro
Per salvare la sessione corrente di lavoro con STATGRAPHICS Centurion XVI, selezionate Salva
StatFolio dal menu File e digitate il nome da assegnare al file:

Figura 1-35. La finestra per salvare in uno StatFolio la sessione di lavoro


Uno StatFolio è formato dalle istruzioni che indicano come eseguire le analisi della vostra
sessione corrente, con i puntatori ai file o database che contengono i dati da analizzare. Ogni
volta che caricate lo StatFolio che avete salvato, vengono automaticamente riletti i dati e
rieseguite le analisi. Tutte le opzioni che avevate scelto per le analisi saranno mantenute.
NOTA 1: se i dati di origine cambiano tra l’istante in cui avete salvato uno StatFolio e l’istante in
cui questo viene caricato di nuovo in STATGRAPHICS Centurion, le analisi saranno diverse
perché faranno riferimento ai nuovi valori. Questo fornisce un semplice metodo per rieseguire le
analisi che devono essere ripetute periodicamente, senza bisogno di ricostruirle.

NOTA 2: i dati e StatFolio vengono registrati in file differenti. Se avete bisogno di spostare uno
StatFolio in un altro computer, ricordatevi di spostare anche i file dei dati.

30 Introduzione
Capitolo

Gestione dei dati


2
Accedere ai dati di file e database, trasformarli e organizzarli in strutture
idonee all’analisi
Per analizzare i dati con STATGRAPHICS Centurion XVI, innanzitutto bisogna inserirli nel
DataBook, che è una finestra formata da 26 fogli (datasheet). Un foglio è un array rettangolare
di righe e colonne. Ogni colonna di un foglio rappresenta una variabile. Ogni riga rappresenta
un caso o un’osservazione. Per esempio, il seguente foglio contiene i dati su un certo numero
di marche e modelli di automobili.

Figura 2-1. Il foglio con i dati da analizzare

31 Gestione dei dati


Questo capitolo descrive tutto ciò che bisogna sapere sui dati e STATGRAPHICS Centurion
XVI, incluse le tecniche per accedere ai dati, per manipolarli e per utilizzarli nelle analisi
statistiche.

2.1 Il DataBook
Ogni colonna di un foglio di STATGRAPHICS Centurion XVI rappresenta una variabile. Le
variabili di solito sono proprietà o misure degli elementi che definiscono le righe del foglio. Per
esempio, il foglio 93cars ha una colonna che identifica la marca di ogni automobile, una colonna
che ne identifica il tipo, le colonne che riportano i consumi di carburante in città e in autostrada,
le colonne che indicano la lunghezza, l’altezza e il peso dell’automobile, e altre informazioni.
Ogni colonna è associata a un nome e un tipo. Il nome serve a identificare i dati da utilizzare in
un’analisi statistica. Il tipo influisce sul modo in cui i dati saranno analizzati. A ogni colonna è
anche associato un commento facoltativo, che serve a fornire informazioni aggiuntive sul
contenuto di una colonna. Nota: i dati provengono dal Journal of Statistical Education Data
Archive (www.amstat.org/publications/jse/jse_data_archive.html) e siamo stati autorizzati a
utilizzarli.

Per visualizzare o modificare le proprietà di una colonna, fate doppio clic sul nome della colonna
per visualizzare la finestra Modifica colonna:

Figura 2-2. La finestra per modificare le proprietà di una colonna

32 Gestione dei dati


È possibile specificare:

1. Nome: da 1 a 32 caratteri. Quando eseguite le analisi statistiche, le colonne sono


identificate da questi nomi. Ogni colonna di un foglio deve avere un nome unico, mentre
colonne di fogli differenti possono avere lo stesso nome. I nomi possono includere
qualsiasi carattere, inclusi gli spazi. Il programma non fa distinzione fra lettere maiuscole e
minuscole nei nomi delle variabili.

2. Commento: da 0 a 64 caratteri; fornisce informazioni aggiuntive sul contenuto di una


colonna.

3. Tipo: specifica il tipo di dati che è possibile inserire nella colonna. I tipi di dati
disponibili sono i seguenti:

Tipo Contenuto Esempio


Numerico Qualsiasi numero valido 3,14
Carattere Una stringa alfanumerica Chevrolet
Intero Un numero intero 105
Data Mese, giorno e anno 4/30/05
Mese Mese e anno 4/05
Trimestre Trimestre e anno Q2/05
Ora (HH:MM) Ora e minuti 3:15
Ora (HH:MM:SS) Ora, minuti e secondi 3:15:53
Data-Ora Mese, giorno, anno, ora e 4/30/05 3:15
(HH:MM) minuti
Data-Ora Mese, giorno, anno, ora, minuti 4/30/05 3:15:53
(HH:MM:SS) e secondi
Cifre decimali Numero con cifre decimali 34,10
fisse (da 1 a 9)
Formula Calcolato da altre colonne MPG City/MPG Highway
Figura 2-3. Tipi di dati delle colonne

33 Gestione dei dati


Quando inserite dei dati in una colonna, il loro formato dovrà essere conforme al tipo di dati che
avete specificato per la colonna. Per esempio, se tentate di digitare un nome in una colonna di
tipo numerico, il dato non sarà accettato. Il formato dei dati immessi deve essere conforme
anche alle impostazioni correnti di Windows. In particolare, STATGRAPHICS Centurion XVI
mantiene le impostazioni correnti di Windows relative ai seguenti elementi:
1. simbolo di separazione dei numeri decimali
2. formato e separatori dell’ora
3. formato e separatori della data
Per verificare le impostazioni correnti del vostro computer, utilizzate il Pannello di controllo
di Windows.

Quando inserite una data, dovrete utilizzare il formato specificato nella finestra Modifica –
Preferenze di STATGRAPHICS Centurion: Anni a 4 cifre (per esempio, 4/30/2005) o a 2 cifre (per
esempio, 4/30/05). Se utilizzate il secondo formato, potrete specificare soltanto gli anni
compresi tra il 1950 e il 2049.

Per ulteriori informazioni sulle formule, consultate il paragrafo successivo Manipolare i dati.

2.2 Accedere ai dati


Il Capitolo 1 ha descritto come inserire manualmente i dati in un foglio. Spesso, gli utenti hanno
accesso a dati che esistono già in altri file o applicazioni. Ci sono tre tecniche fondamentali per
inserire questi dati in un foglio di STATGRAPHICS Centurion XVI:
1. Leggere il file dei dati: se i dati sono stati precedentemente inseriti in un file, potete
leggerli direttamente con STATGRAPHICS Centurion selezionando File – Apri – Apri
Sorgente dati. Questa tecnica vi consente di leggere i dati memorizzati in file di vari
formati, inclusi i file di Excel, i file di testo ASCII con campi delimitati, i file XML, i file
di STATGRAPHICS e quelli di altre applicazioni di statistica.
2. Copiare e incollare i dati tramite gli Appunti di Windows: se avete caricato i dati in
un programma come Excel, potete facilmente copiarli negli Appunti (clipboard) di
Windows e poi incollarli in STATGRAPHICS selezionando Modifica – Incolla.
3. Eseguire una query SQL per caricare i dati da un database: se i dati si trovano in un
database compatibile ODBC, come Oracle o Microsoft Access, potete caricarli in
STATGRAPHICS selezionando File – Apri – Apri Sorgente dati e poi scegliendo l’opzione
Interrogazione ODBC.

34 Gestione dei dati


2.2.1 Leggere i dati da un file di STATGRAPHICS Centurion
Per leggere i dati che sono stati già salvati in un file di STATGRAPHICS Centurion, attivate uno
dei 26 fogli del DataBook facendo clic sulla sua scheda. Poi, selezionate File – Apri –
Apri Sorgente dati e specificate File di dati STATGRAPHICS nella successiva finestra:

Figura 2-4. La finestra Apri sorgente di dati


Dopo aver fatto clic su OK, scegliete un file di STATGRAPHICS:

Figura 2-5. Selezionare un file di STATGRAPHICS


Potete leggere i file di STATGRAPHICS Centurion XVI o di versioni precedenti di
STATGRAPHICS, come STATGRAPHICS Plus. I dati del file selezionato sostituiranno
il contenuto del foglio attivo.

35 Gestione dei dati


2.2.2 Leggere i dati da un file di Excel, ASCII, XML
o di un’altra applicazione esterna
Per leggere i dati che sono stati salvati in un file creato da un’altra applicazione, attivate uno dei
26 fogli del DataBook facendo clic sulla sua scheda. Poi, selezionate File – Apri –
Apri Sorgente dati e specificate File di dati esterno nella successiva finestra:

Figura 2-6. La finestra Apri sorgente di dati


Dopo aver fatto clic su OK, vedrete una finestra nella quale dovrete specificare il file
da importare e altre importanti informazioni:

Figura 2-7. La finestra per selezionare un file di dati esterno

36 Gestione dei dati


I campi di questa finestra sono:
1. Tipo di file di input – Tipo di file da importare. STATGRAPHICS Centurion XVI può
importare i dati da molte altre applicazioni, fra cui Excel, Matlab, Minitab, JMP, SPSS,
SAS e molti altri programmi di statistica.
2. Nome del file – Nome del file da importare. Premete il pulsante SFOGLIA per
selezionare il file desiderato.
3. Worksheet – Nome del worksheet da importare. Può essere letto un solo worksheet alla
volta.
4. Larghezze delle colonne – Larghezze delle colonne, separate da virgole (soltanto per i
file ASCII formattati).
5. Delimitatore – Delimitatore delle colonne (soltanto per i file ASCII delimitati).
6. Righe – L’intervallo di righe all’interno del worksheet da leggere. Questo intervallo
include i nomi delle variabili e i commenti, se presenti.
7. Intestazione – Le informazioni contenute nelle prime 2 righe dell’intervallo specificato
(per i programmi per fogli elettronici come Excel). Le due righe immediatamente sopra i
dati da leggere possono contenere i nomi delle colonne e/o i commenti. Se i nomi non
sono contenuti nel file, saranno generati i nomi di default.
8. Identificatore dei valori mancanti – Qualsiasi simbolo speciale utilizzato nel file
esterno per indicare i dati mancanti, come NA. Le celle che contengono il valore
specificato saranno trasformate in celle vuote quando vengono poste nel foglio di
STATGRAPHICS Centurion XVI.
Fate clic su OK per caricare i dati del file esterno in STATGRAPHICS Centurion XVI. Saranno
analizzati i dati di ogni colonna e a ciascuna di queste sarà assegnato il tipo di dati appropriato.
A questo punto i dati sono pronti per essere analizzati.

2.2.3 Trasferire i dati con il metodo copia-e-incolla


Il modo più semplice per trasferire i dati di un’altra applicazione in STATGRAPHICS Centurion
XVI consiste nell’utilizzare gli Appunti (clipboard) di Windows. Per esempio, se i dati si trovano
in un file di Excel, avviate Excel, selezionate i dati da copiare negli Appunti, poi scegliete
l’opzione Copia dal menu Modifica di Excel. Per incollare i dati degli Appunti direttamente in un
foglio di STATGRAPHICS Centurion XVI, selezionate Incolla dal menu Modifica
di STATGRAPHICS. Quando i dati vengono incollati in una colonna del foglio corrente,
STATGRAPHICS li esamina e sceglie il tipo di dati appropriato per la colonna.

37 Gestione dei dati


Quando copiate e incollate i dati, potete trasferire anche i nomi e i commenti delle colonne. Per
farlo, includete i nomi e i commenti delle colonne di Excel, prima di copiare i dati negli Appunti.
Attivate STATGRAPHICS Centurion XVI, fate clic sulla riga delle intestazioni del foglio prima
di selezionare Incolla. I primi dati degli Appunti saranno copiati nella riga delle intestazioni.

2.2.4 Leggere i dati di un database ODBC


STATGRAPHICS Centurion XVI consente anche di utilizzare ODBC per leggere i dati di un
database Oracle, Access o di altro tipo. Per accedere a un database, innanzitutto selezionate
File – Apri – Apri Sorgente dati. Poi attivate l’opzione Interrogazione ODBC nella seguente finestra:

Figura 2-8. La finestra Apri sorgente di dati

Sullo schermo saranno visualizzate in sequenza alcune finestre che vi permetteranno di:

1. Selezionare il nome del database da leggere.

2. Selezionare i campi da trasferire.

3. Specificare un filtro per limitare i record da caricare.

4. Specificare il tipo di ordinamento dei risultati.

A questo punto, viene creata ed eseguita una query SQL, i cui risultati vengono posti nel foglio
attivo di STATGRAPHICS. Per avere informazioni dettagliate sul modo in cui vengono
predisposte le query ODBC, consultate il file PDF Data Files and StatLink.

38 Gestione dei dati


2.3 Manipolare i dati
Una volta che i dati sono stati inseriti in un foglio di STATGRAPHICS Centurion XVI,
è possibile manipolarli in vari modi:

1. I dati possono essere copiati e incollati in altre parti.

2. È possibile creare nuove colonne da quelle esistenti.

3. I dati possono essere trasformati utilizzando espressioni algebriche o funzioni


matematiche.

4. Il foglio può essere ordinato in base al contenuto di una o più colonne.

5. I dati possono essere ricodificati per formare gruppi o per altri scopi.

6. I dati che si estendono su più colonne possono essere disposti in una sola colonna, se
così è richiesto da una procedura statistica.
Queste importanti operazioni sono descritte nei prossimi paragrafi.

2.3.1 Copiare e incollare i dati


Il foglio STATGRAPHICS Centurion XVI supporta molte operazioni tipiche dei fogli
elettronici, come Taglia, Copia, Incolla, Inserisci e Cancella. La cosa importante da ricordare quando
eseguite queste operazioni è che ogni colonna ha un proprio tipo di dati. Se incollate
inavvertitamente delle stringhe di caratteri in una colonna numerica, STATGRAPHICS cambierà
il tipo di dati della colonna per accogliere i nuovi dati. Se non ricordate il tipo di dati di una
colonna, fate clic sulla sua intestazione per accedere alla finestra Modifica Colonna. Questa finestra
vi consente di modificare il tipo di dati della colonna.

2.3.2 Creare nuove variabili da colonne esistenti


STATGRAPHICS Centurion XVI dispone di vari operatori che semplificano i calcoli
matematici. Una delle principali applicazioni di questi operatori consiste nel creare nuove
variabili utilizzando i dati di colonne esistenti. In STATGRAPHICS Centurion XVI, le nuove
variabili possono essere create:

1. Direttamente “al volo” utilizzando i campi delle finestre di input dei dati, senza salvare le
variabili nel foglio.
2. Creando una nuova colonna in uno dei 26 fogli del DataBook.

39 Gestione dei dati


Per esempio, supponete che siano richiesti i valori del rapporto tra il consumo di carburante in
città e quello in autostrada per ogni automobile del file 93cars. Questo file contiene due colonne
distinte: MPG City (miglia per gallone in città) e MPG Highway (miglia per gallone in autostrada).
Per sintetizzare la distribuzione dei rapporti, potreste selezionare la procedura Analisi a una
variabile e specificare il rapporto direttamente nel campo Dati della finestra di input dei dati:

Figura 2-9. Creare una trasformazione “al volo”

Quando fate clic su OK, il programma esegue l’analisi dei valori risultanti dalla formula
“100 * MPG City / MPG Highway”, senza modificare i dati del foglio:

40 Gestione dei dati


Figura 2-10. Risultati della procedura Analisi a una variabile applicata ai dati trasformati

Il rapporto medio è 76.3% circa; il rapporto minimo è 64.0% e il massimo 93.9%. La possibilità
di eseguire le procedure statistiche senza modificare i fogli è molto importante perché semplifica
notevolmente l’analisi dei dati.

Se serve, potete creare una nuova colonna contenente i valori trasformati. Per esempio, ritornate
alla finestra con i dati del file 93cars, fate doppio clic sull’intestazione della colonna Col_27. Sarà
visualizzata la finestra Modifica colonna che potrete utilizzare per definire una nuova variabile di
tipo Formula con i dati della trasformazione richiesta:

41 Gestione dei dati


Figura 2-11. Creare una colonna di formule
In questo modo, sarà creata una nuova colonna i cui valori sono calcolati dalle due colonne
originali che contengono i dati sui consumi (MPG). I dati delle colonne di tipo Formula sono
visualizzati in grigio, per indicare che sono stati calcolati automaticamente da altre colonne:

Figura 2-12. Rappresentazione dei valori ottenuti da una formula

42 Gestione dei dati


Se i valori delle colonne MPG City e MPG Highway cambiano, i dati della colonna MPG Ratio
saranno ricalcolati.

NOTA: di solito le formule vengono automaticamente ricalcolate quando i loro dati


sono utilizzati in altri calcoli oppure vengono salvati o stampati. Per ricalcolare
immediatamente le formule, selezionate Aggiorna formule dal menu Modifica.

2.3.3 Trasformare i dati


STATGRAPHICS Centurion XVI include anche numerose funzioni matematiche che possono
essere utilizzate per trasformare i dati esistenti. Analogamente alla creazione di nuove variabili, le
trasformazioni possono essere effettuate direttamente all’interno dei campi di una finestra di
input oppure creando nuove colonne in un foglio.
Per esempio, supponete che sia richiesto un diagramma per rappresentare il consumo (in miglia
per gallone) di un’automobile in funzione del logaritmo naturale del peso del veicolo. Selezionate
la procedura Grafico X-Y facendo clic sul pulsante nella barra degli strumenti principali; viene
visualizzata la seguente finestra di input:

Figura 2-13. Trasformare i dati in una finestra di input

43 Gestione dei dati


Anziché digitare il nome di una colonna in un campo di dati, digitate un’espressione di
STATGRAPHICS Centurion. Queste espressioni sono formule che operano sui dati tramite
simboli algebrici e operatori speciali. Potete disporre di una vasta gamma di operatori, il cui
funzionamento è descritto nel file PDF STATGRAPHICS Operators. La seguente tabella riporta
gli operatori più comuni:

Operatore Utilizzo Esempio


+ Addizione X+100
- Sottrazione X-100
/ Divisione X/100
* Moltiplicazione X*100
^ Elevamento a potenza X^2
ABS Valore assoluto ABS(X)
AVG Media AVG(X)
DIFF Differenze all’indietro DIFF(X)
EXP Funzione esponenziale EXP(10)
LAG Ritardo di k periodi LAG(X;k)
LOG Logaritmo naturale LOG(X)
LOG10 Logaritmo in base 10 LOG10(X)
MAX Massimo MAX(X)
MIN Minimo MIN(X)
SD Deviazione standard SD(X)
SQRT Radice quadrata SQRT(X)
STANDARDIZE Conversione in valori Z STANDARDIZE(X)
Figura 2-14. Operatori più utilizzati di STATGRAPHICS

Quando create un’espressione di STATGRAPHICS Centurion, potete combinare più operatori


utilizzando le regole di precedenza dell’algebra. Per esempio, la seguente espressione sottrae a
ogni valore della colonna Weight il valore minimo della colonna e divide il risultato per la
differenza tra i pesi minimo e massimo di tutte le automobili:

( Weight – MIN(Weight) ) / ( MAX(Weight) – MIN(Weight) )

Le parentesi sono necessarie per garantire che le sottrazioni siano eseguite prima della divisione.
Il programma non fa distinzione fra lettere maiuscole e minuscole nelle espressioni e ignora gli
spazi vuoti.

44 Gestione dei dati


Tutte le finestre di input includono un pulsante Trasforma, come illustra la Figura 2-13. Questo
pulsante è molto utile durante la creazione delle espressioni di STATGRAPHICS Centurion.
Per esempio, se non ricordate il nome dell’operatore da utilizzare, posizionate il cursore in
un campo di dati e poi fate clic su Trasforma; sarà visualizzata una finestra simile a questa:

Figura 2-15. La finestra visualizzata dal pulsante Trasforma

A destra c’è l’elenco di tutti gli operatori di STATGRAPHICS Centurion, con un punto
interrogativo (?) per ogni argomento da specificare. Se fate clic sul nome di un operatore, questo
sarà inserito nel campo Espressione. Dopo avere sostituito i punti interrogativi con i numeri o
i nomi di colonne appropriati, fate clic sul pulsante Visualizza per vedere i primi valori generati
dall’espressione o sul pulsante OK per inserire l’espressione nella finestra di input.

NOTA: non è necessario utilizzare il pulsante Trasforma se digitate direttamente


l’espressione nella finestra di input.

La trasformazione impostata nella finestra di input (come quella della Figura 2-13) sarà utilizzata
dalla procedura di analisi:

45 Gestione dei dati


Figura 2-16. La procedura Grafico X-Y ha utilizzato i valori trasformati dei pesi delle automobili

Gli operatori di STATGRAPHICS Centurion possono essere utilizzati anche per creare colonne
di formule, simili a quelle descritte nel precedente paragrafo.

2.3.4 Ordinare i dati


Il contenuto di un foglio può essere ordinato selezionando la colonna o le colonne da utilizzare
per definire il criterio di ordinamento e poi utilizzando l’opzione Ordina dati del menu Modifica.
Per esempio, per ordinare i dati del file 93cars in base ai consumi delle automobili, selezionate le
colonne MPG City e MPG Highway e poi scegliete l’opzione Ordina dati. Sullo schermo sarà
visualizzata la seguente finestra:

46 Gestione dei dati


Figura 2-17. La finestra con le opzioni di ordinamento
Potete specificare una o due colonne come base di ordinamento del contenuto del foglio.
Per esempio, se scegliete MPG City come colonna primaria di ordinamento e MPG Highway
come colonna secondaria, i dati saranno ordinati prima in funzione dei consumi in città e, poi,
per le automobili che hanno lo stesso valore di MPG City, in funzione dei consumi in autostrada:

Figura 2-18. Il file 93cars.sgd dopo l’ordinamento

47 Gestione dei dati


NOTA: non occorre ordinare i dati prima di eseguire una procedura statistica, perché
ciò sarà fatto automaticamente dalla procedura, se necessario. Il file sul disco non viene
modificato quando eseguite un’operazione di ordinamento, a meno che non salviate i
dati ordinati. Tale operazione influisce soltanto sull’ordine in cui le righe vengono
visualizzate nel foglio di STATGRAPHICS Centurion.

2.3.5 Ricodificare i dati


A volte conviene ricodificare i dati raggruppandoli in gruppi omogenei o modificando le loro
etichette. Per ricodificare una colonna di dati, innanzitutto fate clic sull’intestazione della colonna
da ricodificare; poi selezionate Ricodifica dati dal menu Modifica. Sarà visualizzata la seguente
finestra:

Figura 2-19. La finestra per ricodificare i dati

48 Gestione dei dati


Per esempio, la colonna Domestic del file 93cars contiene il codice 1 per le automobili prodotte
negli Stati Uniti e il codice 0 per tutte le altre. Per cambiare il codice 0 in “Foreign” e il codice 1
in “U.S.”, potete utilizzare la finestra precedente. È possibile ricodificare fino a 7 intervalli di
valori alla volta.

Il documento PDF Edit Menu descrive dettagliatamente due esempi di ricodifica.

2.3.6 Combinare più colonne


Molte procedure statistiche di STATGRAPHICS Centurion XVI richiedono che i dati da
analizzare siano disposti in un’unica colonna. A volte i dati non sono organizzati in questo
modo. Per esempio, supponete di avere un piccolo campione di 12 osservazioni, disposte in
4 colonne, così:

Figura 2-20. Un campione di dati disposti su più colonne

Per disporre questi dati nella stessa colonna, potreste eseguire più operazioni copia-e-incolla.
Una soluzione più semplice consiste nell’utilizzare la procedura Unisci colonne, che è un’opzione
del menu Modifica. Questa procedura presenta innanzitutto una finestra di input che richiede i
nomi delle colonne con i dati da analizzare:

49 Gestione dei dati


Figura 2-21. La finestra di input per combinare le colonne

I campi di questa finestra sono:


1. Dati – Le colonne da combinare.
2. Seleziona – Permette di selezionare il sottoinsieme di righe da includere nella nuova
colonna.
3. Poni nel datasheet – Il foglio di destinazione dei dati combinati.
4. Ordine delle colonne – Impila i dati per colonne (una colonna dopo l’altra) o per righe.
5. Crea colonna con numeri di riga – Crea una seconda colonna che identifica le righe
originali che contenevano i singoli dati.
6. Crea colonna con identificatori – Crea una seconda colonna che identifica le colonne
originali che contenevano i singoli dati.
7. Elimina i valori mancanti – Ignora i valori mancanti, anziché lasciare una cella vuota per
ciascuno di essi.

50 Gestione dei dati


Dopo aver fatto clic su OK, vedrete i dati combinati in un’unica colonna:

Figura 2-22. I dati combinati in un’unica colonna

2.4 Generare i dati


STATGRAPHICS Centurion XVI è in grado di generare dati e di inserirli nelle colonne di un
foglio. Questo paragrafo descrive due importanti esempi:

1. Generare semplici strutture di dati.


2. Generare numeri casuali.

2.4.1 Generare strutture di dati


Molte procedure di STATGRAPHICS Centurion XVI, in particolare quelle che eseguono
l’analisi della varianza, richiedono che i dati da analizzare siano posti in un’unica colonna del
foglio, insieme a una o due colonne di codici che identificano i fattori esplicativi. Per esempio,
considerate i dati della seguente tabella a doppia entrata:

51 Gestione dei dati


Blend Treatment 1 Treatment 2 Treatment 3
1 75 82 91
2 78 85 93
3 77 84 92
4 75 85 96

Per analizzare questi dati utilizzando la procedura ANOVA a più fattori, è necessario disporli nel
foglio nel seguente formato:

Figura 2-23. La struttura richiesta


Le prime due colonne indicano i livelli dei fattori corrispondenti a ciascun dato da analizzare.
La terza colonna contiene tutte le osservazioni.

Per creare questa struttura, la soluzione più semplice, di solito, consiste nel digitare i dati
nelle prime due colonne. Tuttavia, poiché i dati delle colonne ricalcano un semplice schema,
è possibile generarli utilizzando gli operatori speciali di STATGRAPHICS Centurion.
Per esempio, i numeri della colonna Blend possono essere generati facendo clic sull’intestazione
della prima colonna e poi selezionando Genera dati dal menu Modifica. Sarà visualizzata una
finestra, dove potrete inserire un’espressione appropriata:

52 Gestione dei dati


Figura 2-24. Generare i numeri della colonna Blend
L’opzione Genera dati calcola un’espressione di STATGRAPHICS Centurion e inserisce i risultati
nella colonna selezionata. Nella precedente espressione, i due operatori utilizzati sono:

COUNT(inizio; fine; incremento) – Genera i valori compresi tra inizio e fine, con l’incremento
specificato. Per esempio, COUNT(1;4;1) genera i numeri interi 1, 2, 3 e 4. Nota: come
detto alla fine del Paragrafo 2.1, il formato dei dati immessi deve essere conforme alle
impostazioni correnti del vostro sistema; per esempio, se avete impostato la virgola come
simbolo di separazione degli argomenti delle funzioni, questa formula dovrà essere
digitata così: COUNT(1,4,1).

REP(X; ripetizioni) – Ripete ciascun valore di X per il numero di volte specificato da


ripetizioni, in gruppi. In questo caso, ogni numero intero compreso tra 1 e 4 viene
ripetuto 3 volte.

I numeri della colonna Treatment possono essere generati in maniera analoga facendo clic
sull’intestazione della seconda colonna, selezionando Genera dati dal menu Modifica e digitando la
seguente formula:

53 Gestione dei dati


Figura 2-25. Generare i numeri della colonna Treatment

Questa espressione usa un operatore aggiuntivo:

RESHAPE(X; dimensione) – Ripete i valori di X in modo circolare, finché non avrà


generato un numero di valori pari a dimensione. In questo caso, la sequenza 1, 2, 3 viene
ripetuta 4 volte.

Questi generatori di schemi possono essere utili quando il file dei dati da creare è grande.

2.4.2 Generare numeri casuali


I numeri casuali possono essere generati in STATGRAPHICS Centurion XVI in due modi:

1. Se i numeri appartengono a una distribuzione esponenziale, gamma, lognormale,


normale, uniforme o di Weibull, possono essere generati facendo clic sull’intestazione
di una colonna, selezionando Genera dati dal menu Modifica e digitando l’espressione
appropriata di STATGRAPHICS Centurion.

2. Per altre distribuzioni, i numeri casuali devono essere generati con la procedura
Distribuzioni di probabilità.

54 Gestione dei dati


Per esempio, supponete che siano richiesti 100 numeri casuali di una distribuzione normale con
una media di 20 e una deviazione standard pari a 2. Fate clic sull’intestazione di una colonna
vuota per attivarla. Poi selezionate Genera dati dal menu Modifica e completate la seguente finestra:

Figura 2-26. Generare i numeri casuali di una distribuzione normale

La sintassi dell’operatore RNORMAL è:

RNORMAL(n; mu; sigma) – Genera n numeri pseudo-casuali di una distribuzione


normale con una media mu e una deviazione standard sigma.

Fate clic su OK per generare i numeri casuali e inserirli nella colonna selezionata.

La sintassi degli altri generatori di numeri casuali è descritta nel documento PDF
STATGRAPHICS Centurion Operators.

2.5 Proprietà del DataBook


Questo capitolo ha descritto vari aspetti importanti della gestione dei dati di STATGRAPHICS
Centurion XVI. In particolare, ha spiegato come leggere i dati di file e database e come
manipolarli dopo che sono stati inseriti in un foglio di STATGRAPHICS. In qualsiasi momento
è possibile visualizzare lo stato dei fogli attivando la finestra del DataBook e selezionando
Proprietà DataBook dal menu Modifica o StatLink dal menu File:

55 Gestione dei dati


Figura 2-27. La finestra con le proprietà del DataBook

Questa finestra mostra l’origine dei dati di ciascun foglio. Per evitare che i dati di un foglio
possano essere modificati accidentalmente, attivate l’attributo Lettura soltanto in corrispondenza
del foglio. L’opzione Acquisire consente di rileggere periodicamente il file dei dati di origine in
modo che le procedure statistiche siano automaticamente aggiornate. Questa importante
funzionalità è descritta nel Capitolo 5.

2.6 Visualizzatore dei dati


In STATGRAPHICS Centurion XVI è stata introdotta una nuova procedura per visualizzare i
file di dati. La procedura, accessibile selezionando Visualizzatore dei dati dal menu Strumenti,
genera un prospetto sintetico con i valori non mancanti, unici, minimi e massimi delle variabili
selezionate:

56 Gestione dei dati


Visualizzatore dei dati
Numero di colonne: 26
Numero di righe: 93
Numero di casi completi: 82

Colonna Valori Valori


Nome Commento Tipo non mancanti unici Minimo Massimo
Make Carattere 93 32
Model Carattere 93 93
Type Carattere 93 6
Min Price price for basic version in $1,000 Numerico 93 79 6,7 45,4
Mid Price average of min and max prices in $1,000 Numerico 93 81 7,4 61,9
Max Price price for a premium version in $1,000 Numerico 93 79 7,9 80,0
MPG City miles per gallon in city driving Numerico 93 21 15,0 46,0
MPG Highway miles per gallon in highway driving Numerico 93 22 20,0 50,0
Air Bags 0=none, 1=driver only, 2=driver and passenger Numerico 93 3 0 2,0
Drive Train Carattere 93 3
Cylinders Numerico 92 5 3,0 8,0
Engine Size liters Numerico 93 26 1,0 5,7
Horsepower maximum Numerico 93 57 55,0 300,0
RPM revs per minute at maximum horsepower Numerico 93 24 3800,0 6500,0
Revs per Mile revs per mile in highest gear Numerico 93 78 1320,0 3755,0
Manual 0=no, 1=yes Numerico 93 2 0 1,0
Fueltank gallons Numerico 93 38 9,2 27,0
Passengers persons Numerico 93 6 2,0 8,0
Length inches Numerico 93 51 141,0 219,0
Wheelbase inches Numerico 93 27 90,0 119,0
Width inches Numerico 93 16 60,0 78,0
U Turn Space feet Numerico 93 14 32,0 45,0
Rear seat inches Numerico 91 24 19,0 36,0
Luggage cu. ft. Numerico 82 16 6,0 22,0
Weight pounds Numerico 93 81 1695,0 4105,0
Domestic 1=U.S. manufacturer Numerico 93 2 0 1,0
Figura 2-28. Il prospetto sintetico del Visualizzatore dei dati

57 Gestione dei dati


Capitolo

Analisi statistica
3
Eseguire analisi statistiche, selezionare tabelle e grafici addizionali, scegliere le
opzioni, modificare i dati di input e salvare i risultati

Il menu principale di STATGRAPHICS Centurion XVI include oltre 160 procedure di analisi
statistica; la modalità di utilizzo di tutte queste procedure è essenzialmente identica:

1. Quando selezionate una procedura dal menu, sullo schermo viene visualizzata una finestra di
input dei dati. I campi di questa finestra sono utilizzati per specificare le variabili da analizzare.
2. Se la procedura selezionata ha delle opzioni che influiscono su tutte le tabelle e i grafici
all’interno della procedura, viene visualizzata la finestra Opzioni di analisi per selezionare le
impostazioni desiderate.
3. Se la procedura selezionata ha più di una tabella o più di un grafico, viene visualizzata la
finestra Tabelle e grafici nel quale potrà essere selezionato l’output desiderato.
4. I dati specificati vengono letti e analizzati, e viene creata una nuova finestra di analisi.
5. Le opzioni selezionate possono essere modificate utilizzando il pulsante Opzioni di analisi nella
barra degli strumenti di analisi; le vostre modifiche saranno automaticamente riportate nelle
tabelle e nei grafici della finestra di analisi.
6. Per aggiungere altri grafici e tabelle a quelli standard, utilizzate il pulsante Tabelle e grafici nella
barra degli strumenti di analisi.
7. Per modificare un grafico o una tabella, ingrandite il corrispondente pannello e selezionate
Opzioni per il pannello nella barra degli strumenti di analisi.

59 Analisi statistica
8. Per modificare il titolo, la scala, i caratteri, il tipo di indicatore e altri elementi di un grafico,
prima fate doppio clic sul grafico per ingrandirlo e poi selezionate Opzioni per il grafico nella
barra degli strumenti di analisi.
9. Le tabelle e i grafici possono essere stampati, pubblicati come file HTML, copiati in altre
applicazioni, come Microsoft PowerPoint, o salvati in StatReporter.
10. I risultati numerici possono essere salvati nelle colonne di un foglio qualsiasi utilizzando
il pulsante Salva i risultati nella barra degli strumenti di analisi.
11. Un’intera analisi può essere salvata su disco in uno StatFolio per essere riutilizzata
successivamente.
Questo capitolo descrive dettagliatamente una tipica procedura di analisi. L’obiettivo dell’analisi è
trovare un modello statistico che mette in relazione il consumo di carburante in città con il peso di 93
automobili. I dati da analizzare si trovano nel file 93cars.sgd. I consumi sono espressi in miglia per
gallone (MPG) e i pesi in libbre (pound). Un grafico a dispersione dei dati è illustrato qui di seguito:

Figura 3-1. Grafico a dispersione XY che rappresenta i consumi di carburante in città in funzione del peso delle automobili
Come era prevedibile, la distanza percorsa in città (MPG City) ha una correlazione inversa con
il peso (Weight) del veicolo. Il grafico mette in evidenza una certa non-linearità nella relazione;
inoltre almeno un punto può essere considerato un potenziale outlier.

60 Analisi statistica
La Regressione semplice è la procedura principale di STATGRAPHICS Centurion XVI che consente
di trovare un modello statistico che mette in relazione due variabili. Questa procedura è in grado
di determinare sia i modelli lineari sia quelli non lineari. Il modello più semplice che mette in
relazione una variabile dipendente Y con una variabile indipendente X è la linea retta, espressa
dalla seguente equazione
Y=a+bX
dove b è il coefficiente angolare (o pendenza) della retta e a è l’intercetta. Se la relazione tra le
variabili non è lineare, è possibile utilizzare un modello curvilineo, come quello esponenziale
Y = exp(a + b X)

3.1 Finestre di input dei dati


La procedura Regressione semplice si trova nel menu principale:
1. selezionate Relazione – Un fattore, se state utilizzando il menu classico;
2. selezionate Improve – Analisi della regressione – Un fattore, se state utilizzando il menu
Six Sigma.
La procedura inizia con una tipica finestra di input dei dati:

Figura 3-2. La finestra di input dei dati della procedura Regressione semplice

61 Analisi statistica
I primi due campi sono obbligatori:
Y: la variabile dipendente o risposta;
X: la variabile indipendente o esplicativa.
Nei campi di input potete inserire il nome di una colonna come MPG City o un’espressione di
STATGRAPHICS Centurion come LOG(MPG City) . Se più fogli contengono una colonna con
il nome specificato, anteponete la lettera del foglio desiderato al nome della colonna. Per esempio,
se i fogli A e B contenessero una colonna Weight, per utilizzare la colonna del foglio A, dovreste
specificare il nome A.Weight.
Il campo Seleziona può essere utilizzato per selezionare un sottoinsieme di righe del foglio. Per
esempio, se in questo campo digitate un’istruzione come FIRST(50), saranno utilizzate soltanto le
prime 50 righe del foglio. Il seguente prospetto elenca le tipiche espressioni del campo Seleziona:
Espressione Utilizzo Esempio
FIRST(k) Seleziona le prime k righe. FIRST(50)
LAST(k) Seleziona le ultime k righe. LAST(50)
ROWS(inizio;fine) Seleziona le righe comprese tra ROWS(21;70)
inizio e fine, estremi inclusi.
RANDOM(k) Seleziona un insieme casuale di k RANDOM(50)
righe.
colonna < valore Seleziona soltanto le righe dove Passengers < 5
colonna è minore di valore.
colonna <= valore Seleziona soltanto le righe dove Passengers <= 5
colonna è minore o uguale a valore.
colonna > valore Seleziona soltanto le righe dove Passengers > 5
colonna è maggiore di valore.
colonna >= valore Seleziona soltanto le righe dove Passengers >= 5
colonna è maggiore o uguale a valore.
colonna = valore Seleziona soltanto le righe dove Cylinders = 6
colonna è uguale a valore.
colonna <> valore Seleziona soltanto le righe dove Cylinders <> 4
colonna è diverso da valore.
condizione1 & condizione2 Seleziona le righe che soddisfano Cylinders = 6 &
entrambe le condizioni. Make = “Ford”
condizione1 | condizione2 Seleziona le righe che soddisfano Cylinders = 6 |
almeno una delle condizioni. Make = “Ford”
binarycolumn Seleziona le righe dove il valore Domestic
di binarycolumn è diverso da 0.
Figura 3-3. Espressioni ammesse nel campo Seleziona

62 Analisi statistica
Quando specificate una condizione che fa riferimento a una variabile non numerica, valore deve essere
racchiuso tra parentesi; in questo caso, il programma fa distinzione fra lettere maiuscole e minuscole.
È possibile combinare più condizioni utilizzando i simboli AND (&) e OR (|).

Ciascuna delle espressioni ammesse nel campo Seleziona, in effetti, genera una sequenza di valori
booleani 0 e 1, dove 0 sta per falso e 1 sta per vero. Quando un’espressione viene utilizzata nel campo
Seleziona di una finestra di input, il suo effetto è selezionare tutte le righe per le quali la condizione è
vera, escludendo tutte quelle per le quali la condizione è falsa.

3.2 Finestre di analisi


Una volta specificati i dati, viene creata una nuova finestra di analisi:

Figura 3-4. La finestra di analisi della procedura Regressione semplice

La finestra è formata da più pannelli divisi da barre mobili. Le tabelle si trovano sul lato sinistro della
finestra, i grafici sul lato destro.

63 Analisi statistica
Per ingrandire il pannello di una tabella o di un grafico, fate doppio al suo interno; il pannello
occuperà tutto lo spazio della finestra:

Figura 3-5. Un pannello ingrandito della finestra di analisi della Regressione semplice

Per ripristinare la visualizzazione degli altri pannelli, fate doppio clic di nuovo sul pannello ingrandito.

Quando è attiva una finestra di analisi, viene visualizzata una seconda barra di strumenti sotto la barra
degli strumenti principali di STATGRAPHICS Centurion XVI. La barra degli strumenti di analisi si
presenta in questo modo:

Ogni icona (pulsante) di questa barra svolge una funzione importante.

64 Analisi statistica
3.2.1 Pulsante Finestra di input
Questo pulsante visualizza la finestra di input dei dati originariamente utilizzata per
specificare le variabili, come illustra la Figura 3-2. Se modificate le variabili e fate clic su OK,
i risultati dell’analisi saranno automaticamente aggiornati. Questo vi consente di provare diverse
combinazioni di dati senza bisogno di avviare una nuova analisi.

3.2.2 Pulsante Opzioni di analisi

Di solito, le analisi hanno numerose opzioni. La prima volta che eseguite un’analisi, vengono
automaticamente selezionati i valori di default per queste opzioni, che sono appropriati alla maggior
parte dei casi. Tuttavia, se volete modificare queste impostazioni di default, utilizzate il pulsante
Opzioni di analisi all’interno di una procedura. Per la Regressione semplice, la finestra Opzioni di analisi
specifica il tipo di modello da trovare e il metodo per determinare i coefficienti incogniti del modello:

Figura 3-6. La finestra con le opzioni di analisi per la procedura Regressione semplice
Esaminando la tabella dei metodi alternativi della Figura 3-7, è possibile notare che molti modelli
curvilinei presentano un valore di R-quadrato più grande rispetto al modello lineare. Il primo
della lista è il modello Curva S. Se avete selezionato questo modello nella finestra con le opzioni
di analisi e fate clic su OK, l’intera analisi cambierà conformemente a questa nuova scelta. Come
potete notare esaminando il grafico del nuovo modello, Curva S approssima molto bene la
curvatura dei dati:

65 Analisi statistica
Figura 3-7. Il modello Curva S

3.2.3 Pulsante Tabelle e grafici


Questo pulsante visualizza la lista delle tabelle e dei grafici che possono essere aggiunti alla
finestra di analisi. Per la procedura Regressione semplice le tabelle e i grafici disponibili sono i seguenti:

Figura 3-8. La finestra con le tabelle e i grafici della procedura Regressione semplice

66 Analisi statistica
Per esempio, se decidete di aggiungere le tabelle che riportano i modelli alternativi e i residui
anomali, saranno aggiunti nuovi pannelli alla finestra di analisi:

Figura 3-9. La finestra di analisi della Regressione semplice con le nuove tabelle

Se selezionate un grafico dei residui, sarà aggiunto un nuovo grafico nella finestra di analisi:

67 Analisi statistica
Figura 3-10. La finestra di analisi della Regressione semplice con un nuovo grafico

3.2.4 Pulsante Opzioni per il pannello

Oltre alle opzioni che si applicano all’intera analisi, è possibile scegliere delle opzioni per singoli
grafici o tabelle. Per accedere a queste opzioni, innanzitutto bisogna ingrandire il grafico o la tabella e
poi utilizzare il pulsante Opzioni per il pannello. Per un grafico del modello adattato, le opzioni disponibili
sono le seguenti:

68 Analisi statistica
Figura 3-11. Le opzioni per un grafico del modello adattato

Per esempio, se disattivate la casella Limiti di confidenza e fate clic su OK, il grafico sarà
rappresentato senza i limiti di confidenza interni:

69 Analisi statistica
Figura 3-12. Il grafico del modello approssimato senza i limiti di confidenza

3.2.5 Pulsante Salva i risultati

Questo pulsante consente di salvare i risultati numerici di un’analisi statistica nelle colonne di un
foglio di STATGRAPHICS Centurion. Per la procedura Regressione semplice sono disponibili le seguenti
opzioni:

70 Analisi statistica
Figura 3-13. Le opzioni di salvataggio dei risultati della procedura Regressione semplice

Per salvare i risultati, attivate gli elementi preferiti nel riquadro Salva. Per ogni elemento da
salvare scegliete un nome di colonna nel riquadro Variabili target e specificate il foglio nel
riquadro Datasheet. Se intendete salvare i commenti insieme ai dati, attivate la casella
Salva commenti.
La casella Salvataggio automatico consente di salvare automaticamente gli elementi selezionati ogni
volta che ripetete l’analisi. Ciò è utile se intendete salvare i risultati dell’analisi in uno StatFolio,
perché le analisi vengono ripetute ogni volta che viene caricato uno StatFolio. Se attivate la
casella Salvataggio automatico, potete configurare uno StatFolio per calcolare e salvare
automaticamente i risultati statistici desiderati. Combinando questa funzionalità con quelle di
scripting descritte nel Capitolo 5, potrete automatizzare molte operazioni.

71 Analisi statistica
3.2.6 Pulsanti per i grafici
Quando un grafico è ingrandito nella finestra di analisi, si rendono disponibili vari pulsanti addizionali,
tra i quali figurano:

Opzioni per il grafico – Visualizza una finestra che permette di cambiare i colori, le etichette, la scala
degli assi e altri elementi.

Aggiungi testo – Permette di aggiungere dei testi al grafico.

Jitter – Distribuisce casualmente lo spazio tra i punti del grafico nelle direzioni orizzontale e
verticale per impedire che si sovrappongano.

Brush – Colora i punti di un grafico a dispersione in funzione del valore della variabile selezionata.

Smussa/Ruota – Applica un metodo di smoothing a un grafico bidimensionale o ruota un grafico


tridimensionale.

Zoom e Panoramica – Ingrandisce o rimpicciolisce il grafico nella direzione X, Y o Z.

Esplora – Esplora dinamicamente i grafici a superficie e a contorno.

Identifica – Visualizza un’etichetta che identifica un punto quando fate clic su di esso con il mouse.

Localizza per nome – Colora di rosso tutti i punti che hanno un valore uguale a quello immesso nel
campo Etichetta (da utilizzare insieme al pulsante Identifica).

Localizza per riga – Colora di rosso tutti i punti che hanno un numero di riga uguale a quello
immesso nel campo Riga.

Questi pulsanti sono descritti dettagliatamente nel Capitolo 4.

72 Analisi statistica
3.2.7 Pulsante Escludi
Alcune procedure statistiche vi consentono di eliminare gli outlier sospetti dai dati da
analizzare; per fare ciò, ingrandite il grafico, fate clic su un punto sospetto e poi sul pulsante
Escludi. Per esempio, il grafico della Figura 3-12 mostra un punto che è ben oltre i limiti di
previsione. Se fate clic su questo punto e poi sul pulsante Escludi, il modello sarà ricalcolato
senza tenere conto di questo outlier. Il grafico risultante rappresenta il nuovo modello, indicando
con un simbolo × il punto o i punti che sono stati esclusi dall’analisi:

Figura 3-14. Il modello Curva S dopo l’esclusione di un outlier sospetto


Anche gli altri grafici e le tabelle della finestra di analisi saranno automaticamente adattati al
nuovo modello.

È possibile escludere più punti da un modello facendo clic su un punto alla volta e poi sul
pulsante Escludi. Per reinserire nell’analisi un punto escluso, fate clic sul corrispondente
simbolo × e poi sul pulsante Escludi.

73 Analisi statistica
3.3 Stampare i risultati
I risultati di un’analisi statistica possono essere stampati in due modi:

1. Per stampare tutti i grafici e le tabelle della finestra di analisi, fate clic sul pulsante Stampa
nella barra degli strumenti principali oppure selezionate Stampa dal menu File.

2. Per stampare un particolare grafico o tabella, fate clic sul corrispondente pannello con il
pulsante destro del mouse e selezionate Stampa dal menu popup.

Nel primo caso, sarà visualizzata la seguente finestra:

Figura 3-15. La finestra per stampare i risultati di un’analisi

Specificate i pannelli da stampare nel riquadro Stampa. Se attivate la casella Tutte le analisi, potete
stampare contemporaneamente i risultati di altre finestre di analisi.

È possibile accedere ad altre opzioni di stampa selezionando Imposta pagina dal menu File:

74 Analisi statistica
Figura 3-16. La finestra per impostare la pagina

Questa finestra consente di:

1. Impostare i margini delle pagine stampate.

2. Indicare le informazioni da stampare nelle intestazioni di ciascuna pagina.

3. Specificare se ciascun pannello (tabella o grafico) deve essere stampato su una


pagina distinta (1 Pannello/Pagina) o se più pannelli possono essere stampati sulla stessa
pagina (Più pannelli/Pagina).

4. Specificare le dimensioni relative dei grafici come percentuali delle dimensioni della pagina.

5. Stampare in bianco e nero, anche se la vostra stampante è a colori.

6. Stampare l’eventuale sfondo a colori dei grafici.

7. Raddoppiare il numero di pixel per stampare le linee e i punti di un grafico.


L’opzione Linee spesse potrebbe rendere più scuri i grafici stampati con una stampante
ad alta risoluzione.

75 Analisi statistica
Altre opzioni, come il formato o l’orientamento del foglio (orizzontale o verticale), sono disponibili
selezionando Imposta stampante dal menu File; in questo caso, sarà visualizzata la finestra associata al
driver della vostra stampante.

3.4 Pubblicare i risultati


I risultati di un’analisi statistica possono essere pubblicati nel formato HTML per essere
visualizzati con un browser del Web; per fare questo, selezionate l’opzione StatPublish dal
menu File. Otterrete un documento HTML che potrà essere utilizzato da tutti, anche da
coloro che non hanno STATGRAPHICS Centurion XVI nei loro computer. Questo
procedimento è descritto nel Capitolo 5.

I risultati di un’analisi statistica possono essere anche copiati e commentati in una finestra di
StatReporter e, infine, salvati in un file RTF (rich text format); questo file potrà essere letto
direttamente da programmi come Microsoft Word. StatReporter è descritto nel Capitolo 7.

76 Analisi statistica
Capitolo

Grafici
4
Modificare i grafici, salvare i profili dei grafici, interagire con i grafici, salvare
i grafici in file distinti e copiare i grafici in altre applicazioni

Le 160 procedure statistiche di STATGRAPHICS Centurion XVI generano centinaia di tipi di grafici.
Per agevolare il processo di analisi dei dati, ogni volta che viene creato un grafico vengono utilizzate
le impostazioni di default dei titoli, delle scale e di altri parametri. Nella maggior parte dei casi, le
impostazioni di default sono sufficienti per completare l’analisi. Ma per pubblicare i risultati finali, è
importante realizzare grafici di qualità.

Questo capitolo descrive tutto ciò che bisogna conoscere per elaborare i grafici di STATGRAPHICS
Centurion XVI. Imparerete a migliorare il loro aspetto e a copiarli in altre applicazioni, come
Microsoft Word e PowerPoint. Sarete in grado di interagire con i grafici; per esempio, se c’è un punto
interessante nel grafico, potrete ottenere varie informazioni su di esso. Potrete anche ruotare un
grafico 3D per rilevare eventuali relazioni tra le variabili rappresentate sugli assi X, Y e Z.

Come esempio considereremo ancora i dati del file 93cars.sgd. Per illustrare le principali operazioni con
i grafici, utilizzeremo il grafico del modello approssimato che mette in relazione il consumo di
carburante in città con il peso delle automobili.

77 Grafici
4.1 Modificare i grafici
La procedura Regressione semplice, di solito, viene utilizzata per trovare un modello curvilineo che mette
in relazione una variabile risposta Y con una variabile esplicativa X. Come detto nel precedente
capitolo, il modello Curva S approssima bene la relazione tra il consumo di carburante in città
(colonna MPG City) e il peso delle automobili (Weight), i cui valori sono inclusi nel file 93cars.sgd.

La prima volta che viene creato, un grafico del modello approssimato Curva S si presenta così:

Figura 4-1. Grafico del modello approssimato con titoli e scale di default
I titoli, le scale, i tipi di punti e linee, i colori e altri attributi del grafico sono stati generati
automaticamente.

78 Grafici
4.1.1 Opzioni per il layout
Per modificare un grafico, innanzitutto fate doppio clic su di esso per ingrandirlo; poi fate clic
sul pulsante Opzioni per il grafico nella barra degli strumenti di analisi. Sarà visualizzata una
finestra con le schede corrispondenti ai vari elementi del grafico.

La scheda Layout della finestra Opzioni per i grafici consente di modificare alcune caratteristiche
principali del grafico:

Figura 4-2. La scheda Layout nella finestra Opzioni per i grafici

È possibile modificare la posizione dei segni di graduazione degli assi, lo spessore degli assi e il
colore dello sfondo e della cornice del grafico. Per esempio, scegliendo il colore giallo per lo
Sfondo e aggiungendo gli Effetti 3D, si ottiene un grafico simile a quello illustrato nella pagina
successiva:

79 Grafici
Figura 4-3. Il grafico con un nuovo colore di sfondo e l’effetto tridimensionale

80 Grafici
4.1.2 Opzioni per la griglia
La scheda Griglia consente di aggiungere una griglia al grafico:

Figura 4-4. La scheda Griglia nella finestra Opzioni per i grafici


Aggiungendo una griglia grigia tratteggiata in Entrambe le direzioni, si ottiene il seguente grafico:

81 Grafici
Figura 4-5. Il grafico con la griglia

82 Grafici
4.1.3 Opzioni per le linee
La scheda Linee consente di specificare il tipo, il colore e lo spessore delle linee di un grafico:

Figura 4-6. La scheda Linee nella finestra Opzioni per i grafici

Un grafico come quello del modello approssimato ha tre linee distinte (1, 15 e 16 nel riquadro Linee):
la linea della migliore approssimazione, i limiti di confidenza interni e i limiti di previsione esterni. Per
modificare uno di questi tipi di linee, fate clic sul pulsante da 1 a 20 e poi selezionate gli attributi
preferiti. Aumentando lo spessore della linea centrale e modificando gli altri due tipi di linee si ottiene:

83 Grafici
Figura 4-7. Il grafico dopo aver modificato i tipi di linee

NOTA: lo spessore può essere modificato soltanto nelle linee continue.

84 Grafici
4.1.4 Opzioni per i punti
La scheda Punti consente di specificare il tipo, il colore e la dimensione dei punti di un grafico:

Figura 4-8. La scheda Punti nella finestra Opzioni per i grafici

Il pulsante 1 controlla gli attributi del primo gruppo di punti di un grafico. Nell’esempio in esame c’è
uno solo gruppo di punti. Impostando il rombo pieno nel riquadro Tipi di punti, si ottiene il seguente
grafico:

85 Grafici
Figura 4-9. Il grafico con un nuovo tipo di punto

86 Grafici
4.1.5 Opzioni per il titolo principale
La scheda Titolo principale consente di specificare il testo e il tipo di caratteri del titolo principale
del grafico:

Figura 4-10. La scheda per definire il titolo principale di un grafico

Il titolo di un grafico può occupare due righe. Un codice “{3}” in un campo del titolo indica che
il testo sarà automaticamente generato dalla procedura di analisi; di solito, il titolo automatico
contiene nomi di variabili o i valori di alcune statistiche. Potete modificare i titoli, inclusi quelli
automatici. Potete anche spostare un titolo trascinandolo con il mouse:

87 Grafici
Figura 4-11. Il grafico con il titolo principale modificato

88 Grafici
4.1.6 Opzioni per la scala degli assi
La finestra Opzioni per i grafici contiene anche le schede che consentono di modificare il titolo e la scala
degli assi:

Figura 4-12. La scheda Asse X nella finestra Opzioni per i grafici

Ci sono molti campi importanti in questa finestra:


1. Titolo: il titolo dell’asse.
2. Da, A, Incremento e Omettere: impostano la scala dei segni di graduazione degli assi. Il campo
Omettere consente di escludere la visualizzazione di alcune etichette dei segni di graduazione, se
sono troppo ravvicinate. Per esempio, per visualizzare un’etichetta sì e una no, impostate a 1 il
campo Omettere.
3. Ruotare le etichette dell’asse: visualizza verticalmente le etichette dei segni di graduazione.
4. Senza potenza: impedisce che i numeri grandi e piccoli siano rappresentati da etichette
come (X 1000).

89 Grafici
5. Scala: traccia gli assi utilizzando due scale logaritmiche in base 10.

6. Quando i dati cambiano: specifica se la scala dovrà restare costante oppure no quando nel grafico
vengono rappresentati nuovi dati.

7. Font …: questi pulsanti consentono di modificare il colore, la dimensione e lo stile dei caratteri
del titolo e dei segni di graduazione.

Il risultato ottenuto con le precedenti impostazioni e con analoghe modifiche all’asse Y è il seguente:

Figura 4-13. Il grafico dopo la modifica dei titoli e della scala degli assi X e Y

90 Grafici
4.1.7 Opzioni per il riempimento delle aree
Alcuni grafici sono formati da elementi (barre, poligoni o fette di torta) le cui aree possono essere
colorate o riempite mediante la scheda Riempimenti nella finestra Opzioni per i grafici:

Figura 4-14. La scheda Riempimenti nella finestra Opzioni per i grafici


Il pulsante 1 controlla il primo tipo di riempimento del grafico. In un istogramma, tutte le barre usano
il primo tipo di riempimento. In alcuni grafici, come quelli a torta, vengono utilizzati vari tipi di
riempimento. In questi casi, i pulsanti da 2 a 20 controllano gli altri tipi di riempimento.

Per i grafici, come gli istogrammi, è consigliabile scegliere un tipo di riempimento non uniforme
quando si stampa in bianco e nero:

91 Grafici
Figura 4-15. Istogramma delle frequenze con un tipo di riempimento personalizzato

4.1.8 Opzioni per testi, etichette e legende


Per i grafici che contengono legende o etichette aggiuntive, la finestra Opzioni per il grafico include delle
schede che consentono di modificare i testi e i tipi di caratteri di tali elementi.

4.1.9 Aggiungere nuovi testi


Per inserire nuovi testi in un grafico, fate clic sul pulsante Aggiungi testo nella barra degli
strumenti di analisi. Sarà visualizzata una finestra dove potrete digitare il nuovo testo:

Figura 4-16. La finestra per inserire nuovi testi nel grafico

92 Grafici
Il testo sarà posizionato inizialmente sotto il titolo principale; per spostarlo, trascinatelo con il mouse:

Figura 4-17. Il grafico con una nuova stringa di testo

Per modificare il testo che avete aggiunto al grafico, fate clic su di esso e poi sul pulsante Opzioni per
il grafico.

4.2 Jittering di un grafico a dispersione


Se una o entrambe le variabili di un grafico a dispersione sono discrete, la probabilità che i punti
si trovino esattamente nella stessa posizione oscurandosi a vicenda è alta. Il pulsante Jitter nella
barra degli strumenti di analisi risolve questo problema distribuendo casualmente lo spazio tra i
punti del grafico nelle direzioni orizzontale e verticale. Per esempio, considerate il seguente
grafico dei dati del file 93cars.sgd:

93 Grafici
Figura 4-18. Grafico a dispersione del consumo di carburante in funzione del numero di cilindri

Sebbene ci siano 93 righe nel foglio, il numero di punti visibili nel grafico è molto più piccolo.

Se fate clic sul pulsante Jitter, sarà visualizzata una finestra che vi consentirà di aggiungere casualmente
un piccolo spazio tra i punti del grafico:

Figura 4-19. La finestra per sparpagliare casualmente i punti del grafico


In questo caso, aggiungendo un piccolo spazio orizzontale, si avrà una migliore rappresentazione
della posizione dei punti:

94 Grafici
Figura 4-20. L’effetto del jittering orizzontale sul grafico a dispersione
Ogni punto è stato spostato di una piccola quantità casuale lungo l’asse orizzontale. Il jittering di
un grafico influisce soltanto sulla visualizzazione dei punti; non ha alcun effetto sui dati del
foglio né su eventuali calcoli.

4.3 Brushing di un grafico a dispersione


Un metodo interessante per rappresentare le relazioni tra le variabili consiste nel colorare i punti
di un grafico a dispersione in funzione del valore di un’altra variabile. Per esempio, considerate la
seguente matrice di grafici per le variabili selezionate dal file 93cars.sgd (il grafico si ottiene
utilizzando il pulsante Matrice di grafici nella barra degli strumenti principali):

95 Grafici
Figura 4-21. La matrice di grafici per i dati del file 93cars.sgd
Il grafico a dispersione in ogni cella della matrice rappresenta i valori delle variabili
corrispondenti ai suoi identificatori di riga e colonna.
Supponete di voler visualizzare la relazione tra la potenza delle automobili (Horsepower) e le
cinque variabili rappresentate in questa matrice di grafici. Se fate clic sul pulsante Brush nella
barra degli strumenti di analisi, sarà visualizzata la seguente finestra:

Figura 4-22. La finestra per selezionare la variabile di brushing

Selezionate la variabile quantitativa da utilizzare per codificare i punti. Dopo avere selezionato la
variabile, sarà visualizzata la seguente finestra:

96 Grafici
Figura 4-23. La finestra per selezionare l’intervallo di colorazione
I due cursori servono a specificare i limiti inferiore e superiore della variabile. Tutti i punti del
grafico sono colorati di blu se cadono nell’intervallo specificato. Per esempio, nel seguente
grafico tutte le automobili di potenza compresa tra 55,0 e 121,5 sono colorate di blu:

Figura 4-24. La matrice di grafici dopo la colorazione


È evidente da questi grafici che la variabile Horsepower è strettamente correlata con le altre
variabili.

4.4 Smoothing di un grafico a dispersione


Per visualizzare meglio la relazione tra le variabili in un grafico a dispersione, è possibile
aggiungere una versione livellata del grafico applicando un metodo di smoothing. Per ottenere la
versione livellata di un grafico a dispersione, fate clic sul pulsante Smussa/Ruota nella barra
degli strumenti di analisi; sarà visualizzata la seguente finestra:

97 Grafici
Figura 4-25. La finestra con le opzioni per smussare un grafico a dispersione
Il processo di smoothing di un grafico a dispersione avviene selezionando una serie di posizioni
lungo l’asse X e rappresentando in corrispondenza di ciascuna posizione una media ponderata
della frazione specificata dei punti che sono più vicini a quella posizione. Uno dei migliori
metodi di smoothing è LOWESS (LOcally WEighted Scatterplot Smoothing), che di solito viene
utilizzato con una frazione di smoothing tra 40% e 60%. Il risultato di questo metodo di
smoothing applicato ai grafici dei dati delle automobili è illustrato nella seguente figura:

Figura 4-26. I grafici a dispersione smussati applicando il metodo Lowess con una frazione di smoothing del 50%
Le versioni smussate dei grafici illustrano meglio il tipo di relazione tra le variabili.

98 Grafici
4.5 Identificare i punti
Per visualizzare il numero di riga e le coordinate di un punto del grafico, posizionate il puntatore
del mouse sul punto e poi tenete premuto il pulsante. Nell’angolo superiore destro del grafico
sarà visualizzato un piccolo riquadro che indica il numero di riga e le coordinate X e Y del
punto:

Figura 4-27. Il riquadro con le informazioni sul punto selezionato del grafico
Contemporaneamente, il numero di riga del punto sarà posto nel campo Riga della barra degli
strumenti di analisi:

Figura 4-28. Il campo Riga mostra il numero di riga del punto selezionato

Per ottenere altre informazioni su un punto del grafico, fate clic sul pulsante Identifica ; poi
selezionate una colonna del DataBook nella successiva finestra:

99 Grafici
Figura 4-29. La finestra di identificazione dei punti del grafico
Dopo avere selezionato una variabile, se fate clic su un punto qualsiasi del grafico, il
corrispondente valore della variabile sarà visualizzato nel campo Etichetta della barra degli
strumenti di analisi:

Figura 4-30. Il campo Etichetta mostra il valore della variabile Make per il punto selezionato

I pulsanti Localizza posti a destra dei campi Etichetta e Riga possono essere utilizzati per
localizzare i punti su un grafico. Se digitate un valore in uno di questi campi e poi fate clic sul
corrispondente pulsante Localizza, saranno selezionati tutti i punti del grafico che hanno il valore
digitato. Per esempio, il seguente grafico colora di blu tutti i punti delle automobili Honda:

100 Grafici
Figura 4-31. Il grafico mette in evidenza tutti i punti delle automobili Honda

Questa tecnica è molto efficace con una matrice di grafici. Per esempio, la successiva figura
mette in evidenza tutti i punti corrispondenti alla riga 42:

101 Grafici
Figura 4-32. Nei grafici sono messi in evidenza i punti della riga 42

Localizzando un punto in una matrice di grafici, è più facile capire se si tratta di un outlier per
più variabili.

NOTA: il colore utilizzato per mettere in evidenza i punti è impostato nella scheda
Grafici della finestra Preferenze, accessibile dal menu Modifica.

4.6 Copiare i grafici in altre applicazioni


Una volta creato un grafico in STATGRAPHICS Centurion XVI, potete facilmente copiarlo in
altre applicazioni, come Microsoft Word o PowerPoint, seguendo questo procedimento:
1. Ingrandite il pannello che contiene il grafico.
2. Selezionate Copia dal menu Modifica di STATGRAPHICS Centurion XVI.
3. Selezionate Incolla dal menu Modifica dell’altra applicazione.
Per default, i grafici vengono incollati nel formato “Picture”, che corrisponde a un metafile di
Windows. Se volete incollare il grafico in un altro formato, selezionate l’opzione Incolla speciale,
anziché Incolla nell’applicazione di destinazione.

102 Grafici
Per copiare i risultati di un’intera analisi in un’altra applicazione, inclusi tutti i grafici e le tabelle,
prima copiate l’analisi in StatReporter utilizzando il menu popup associato al pulsante destro del
mouse, poi copiate StatReporter nell’applicazione di destinazione. Questa tecnica è descritta nel
Capitolo 7.
Per copiare il grafico e la finestra che lo contiene, come illustra la Figura 4-31, vi consigliamo di
utilizzare un’applicazione specifica per catturare le immagini dello schermo. Le figure di questo
manuale sono state catturate con il programma SnagIt, che può essere acquistato presso il sito
www.techsmith.com. Se utilizzate SnagIt, vi suggeriamo di impostare l’opzione Input a “Window” e
l’opzione Output a “Clipboard”; in questo modo potrete incollare le immagini direttamente in
qualsiasi documento.

4.7 Salvare un grafico in un file


Ogni grafico può essere salvato in un file; per farlo, ingrandite il grafico e selezionate Salva grafico
dal menu File. La seguente finestra vi chiederà di specificare il nome e il formato del file:

Figura 4-33. La finestra per salvare un grafico in un file


Se il grafico deve essere utilizzato da Word o PowerPoint, salvatelo nel formato Windows
Metafiles, per ottenere la massima flessibilità. Se il grafico deve essere visualizzato in una pagina
web, salvatelo nel formato JPEG.

103 Grafici
Capitolo

StatFolio
5
Salvare una sessione di lavoro, pubblicare i risultati delle analisi nel formato
HTML e automatizzare le analisi utilizzando gli script di avviamento

Ogni volta che selezionate un’analisi statistica dal menu di STATGRAPHICS Centurion XVI,
viene creata una nuova finestra di analisi. In qualsiasi momento potete salvare tutte le finestre di
analisi in uno StatFolio: un file che contiene la definizione di tutte le analisi statistiche che sono
state create, inclusi i puntatori ai dati. Salvando uno StatFolio e riaprendolo successivamente, in
effetti salvate e ripristinate la sessione corrente di lavoro con STATGRAPHICS Centurion XVI.

Quando salvate una sessione in uno StatFolio, viene salvata la definizione delle analisi, non il
loro output. Quando riaprite uno StatFolio, i dati nei corrispondenti file di origine vengono
riletti e tutte le analisi ricalcolate. StatFolio quindi fornisce un semplice metodo per ripetere
le analisi in un momento successivo utilizzando dati che potrebbero essere cambiati.

È anche possibile creare uno script che viene eseguito ogni volta che viene caricato uno
StatFolio. I dettagli di questa e di altre funzionalità di StatFolio sono descritti in questo capitolo.

5.1 Salvare una sessione


Per salvare lo stato corrente della sessione di lavoro con STATGRAPHICS Centurion XVI,
selezionate File – Salva – Salva StatFolio dal menu principale. Digitate il nome da assegnare allo
StatFolio nella seguente finestra:

105 StatFolio
Figura 5-1. La finestra per salvare la sessione corrente in uno StatFolio
Gli StatFolio vengono salvati in file con estensione .sgp e contengono:

1. Una definizione di tutte le analisi che sono state create, le variabili di input, le tabelle e
i grafici, le impostazioni di tutte le opzioni, le modifiche apportate ai grafici e così via.
Quando riaprite uno StatFolio, le analisi vengono ripetute e tutti i grafici e le tabelle
vengono aggiornati.

2. Collegamenti con i file dei dati di origine contenuti nel DataBook. Se i dati cambiano tra
l’istante in cui salvate lo StatFolio e quello in cui lo riaprite, la finestra di analisi riporterà
tali cambiamenti.

3. Collegamenti con StatGallery e StatReporter, se li avete utilizzati prima di salvare lo


StatFolio. Il programma vi chiederà di specificare i nomi di StatGallery e StatReporter
quando salvate lo StatFolio.

5.2 Script di StatFolio


La prima volta che viene caricato uno StatFolio, vengono ripristinate tutte le finestre di analisi.
Se lo StatFolio è stato salvato con uno script di avviamento, STATGRAPHICS Centurion XVI
lo esegue automaticamente. Uno script può essere creato selezionando Script di avviamento di

106 StatFolio
StatFolio dal menu Modifica. Sarà visualizzata una finestra i cui campi vi consentono di definire la
sequenza delle operazioni da svolgere:

Figura 5-2. Un semplice script di StatFolio

Le operazioni desiderate vanno specificate nell’ordine in cui devono essere eseguite. Le


operazioni disponibili sono elencate nel successivo prospetto.

107 StatFolio
Operazione Argomento Target Descrizione
Esegui Titolo dell’analisi da eseguire Aggiorna l’analisi indicata.
Assegna Espressione di Nome di una Calcola l’espressione e la
STATGRAPHICS Centurion colonna assegna alla colonna indicata.
Stampa Finestre da stampare Stampa il contenuto delle
finestre indicate.
Pubblica Esegue StatPublish per
pubblicare il contenuto dello
StatFolio in un file HTML.
Shell Comando di Windows da Argomento Esegue un comando di
eseguire del comando Windows.
Ritardo Numero di secondi Pausa della durata specificata.
Carica Nome dello StatFolio Specifica lo StatFolio da
caricare dopo l’esecuzione dello
script. L’operatore Carica
consente di aprire in sequenza
più StatFolio.
Esci Esce da STATGRAPHICS
Centurion XVI.
Figura 5-3. Gli operatori degli script di avviamento
Nell’esempio illustrato nella Figura 5-2 viene eseguita la procedura Regressione semplice. All’interno
di questa analisi, si suppone che Salva i risultati sia stato impostato per salvare automaticamente i
residui del modello approssimato nella colonna RESIDUI. I residui vengono poi divisi per i
valori originali dei dati e moltiplicati per 100 per ottenere gli errori percentuali, che vengono
assegnati alla nuova variabile PERROR. I valori di PERROR sono poi sintetizzati tramite la
procedura Analisi a una variabile; infine, vengono stampati i risultati di entrambe le analisi.

Notate che gli StatFolio possono essere aperti in sequenza inserendo nello script di uno
StatFolio l’operatore Carica che chiede di caricare un altro StatFolio. Potete anche chiudere
automaticamente STATGRAPHICS Centurion XVI tramite l’operatore Esci.

NOTA: per escludere l’esecuzione degli script, selezionate Disabilita gli script di avviamento nella
scheda Generale della finestra Preferenze, accessibile dal menu Modifica:

108 StatFolio
Figura 5-4. Disabilitare l’esecuzione degli script di avviamento

109 StatFolio
5.3 Aggiornamento automatico delle analisi statistiche
Una volta creato uno StatFolio contenente diverse analisi, i dati dei file di origine possono essere
riletti periodicamente in modo da aggiornare tutte le analisi. Per fare questo, utilizzate la finestra
Proprietà DataBook del menu Modifica o selezionate StatLink dal menu File:

Figura 5-5. La finestra per specificare i file di origine da rileggere periodicamente

Per rileggere periodicamente i file di origine:


1. Selezionate la casella Acquisire in corrispondenza dei file di origine da rileggere.
2. Attivate il pulsante Sì nel riquadro Acquisire da StatLink.
3. Specificate la frequenza di rilettura di ogni file di origine nel campo Aggiorna ogni.
4. Selezionate la casella Esegui script per eseguire lo script di StatFolio ogni volta che
vengono letti i dati.

110 StatFolio
Includendo l’operatore Pubblica nello script di avviamento di uno StatFolio, STATGRAPHICS
Centurion XVI invierà automaticamente l’output a un server di rete.

5.4 Pubblicare i dati nel formato HTML


L’output di uno StatFolio può essere pubblicato in un formato che può essere visualizzato
soltanto con un browser standard; per farlo, selezionate StatPublish dal menu File. Sarà
visualizzata una finestra che vi chiederà di specificare dove salvare l’output da pubblicare e
quali elementi includere nell’output:

Figura 5-6. La finestra StatPublish per creare un documento HTML


I campi di questa finestra vi consentono di specificare:
• File HTML nella cartella locale: in questo campo dovrete indicare il nome del file HTML
che conterrà l’indice degli argomenti dello StatFolio. Il file elenca i contenuti dello StatFolio
e include i collegamenti con altri file HTML, uno per ogni finestra dello StatFolio. Per
default, il file HTML viene posto nella stessa cartella dello StatFolio, con lo stesso nome
dello StatFolio, ma con estensione .htm, anziché .sgp. Per vedere uno StatFolio così
pubblicato, basta aprire questo file con un browser.

111 StatFolio
• URL del sito FTP: tutto l’output pubblicato viene posto nella cartella precedentemente
specificata. L’output include i file HTML, i file dei grafici e altri file di supporto. Se
specificate l’indirizzo di un sito web nel campo URL del sito FTP, tutti i file saranno anche
inviati al server specificato da questo indirizzo. Notate che per fare questo dovrete avere
l’autorizzazione ad accedere in modalità scrittura al sito; tale autorizzazione viene concessa
dall’amministratore della rete.

• Nome utente FTP: il nome utente per accedere al sito specificato.

• Password FTP: la password per accedere al sito specificato.

• Includi: in questo campo selezionate le finestre da pubblicare.

• Larghezza e altezza del grafico in pixel: le dimensioni dei grafici quando vengono
incorporati nei file HTML.

• Formato delle immagini: i grafici possono essere incorporati nei file HTML in uno di
questi tre formati:

1. JPEG – Immagini statiche salvate nel formato JPEG. I file creati hanno nomi come
pubexample_analysis1_graph1.jpg.

2. PNG – Immagini statiche salvate nel formato PNG. I file creati hanno nomi come
pubexample_analysis1_graph1.png.

3. Applet Java – Immagine dinamica che può essere aggiornata mentre è visualizzata nel
browser. Un grafico sarà aggiornato periodicamente (dopo il numero di secondi
specificato) attraverso la lettura di un file ausiliario che ha un nome come
pubexample_analysis1_graph1.sgz. Questa opzione è stata ideata per essere utilizzata
in combinazione con la rilettura periodica dei dati tramite StatLink, come descritto nel
documento PDF Dynamic Data Processing and Analysis. Nota: non tutti i grafici vengono
pubblicati appropriatamente con questa opzione. Se uno o più grafici non sono
visualizzati correttamente dal browser, scegliete un’altra opzione.

• Applet interattive: per un grafico pubblicato come applet, questa opzione consente al
browser di visualizzare i valori dei dati quando l’utente fa clic con il mouse sui punti del
grafico.

112 StatFolio
Dopo aver definito i campi di input di questa finestra, fate clic su OK per pubblicare lo
StatFolio.

Per vedere lo StatFolio pubblicato, avviate il browser e utilizzate il suo menu File per aprire il file
specificato nel primo campo della Figura 5-6. In alternativa, selezionate Visualizza risultati di
Published dal menu File di STATGRAPHICS Centurion XVI.

NOTA: le tabelle e i grafici vengono incorporati nei file HTML di output con nomi
generati automaticamente da StatPublish. Se utilizzate il browser per vedere lo StatFolio
pubblicato, potete esaminare il codice sorgente HTML e determinare facilmente i nomi
dei file. Potete incorporare questi file nelle vostre pagine web, se preferite.

113 StatFolio
Capitolo

StatGallery
6
Visualizzare i grafici affiancandoli o sovrapponendoli

StatGallery è una finestra speciale di STATGRAPHICS Centurion XVI dove è possibile affiancare o
sovrapporre i grafici creati da procedure diverse. Affiancare i grafici è un ottimo metodo per
confrontare due insiemi di dati, due modelli statistici o due livelli di un diagramma a contorno.
Sovrapponendo i grafici è possibile creare delle rappresentazioni uniche, non ottenibili con altre
funzioni del sistema.

I contenuti di StatGallery vengono salvati in file con estensione .sgg. Se inserite dei risultati statistici in
StatGallery, un puntatore al file di StatGallery sarà salvato nello StatFolio corrente. Quando riaprirete
lo StatFolio, sarà automaticamente caricato il corrispondente file di StatGallery.

6.1 Configurare una pagina di StatGallery


La finestra di StatGallery viene creata all’avviamento di STATGRAPHICS Centurion XVI. È
formata da una o più pagine, ciascuna delle quali può contenere fino a 9 grafici. Per default, ogni
pagina della galleria è configurata per visualizzare 4 grafici, come illustra la prossima figura.

115 StatGallery
Figura 6-1. La finestra di StatGallery
I pulsanti di questa finestra vi consentono di sfogliare le pagine della galleria. Se volete
cambiare il numero di grafici visualizzati in una pagina, fate clic con il pulsante destro del
mouse all’interno di un pannello e selezionate Configurazione pannelli dal menu popup. Potete
scegliere la configurazione che può contenere fino a 9 grafici:

Figura 6-2. Le varie configurazioni di una pagina di StatGallery

116 StatGallery
Le sette configurazioni a sinistra corrispondono a disposizioni rettangolari di righe e colonne.
L’opzione Per colonne consente di ottenere una disposizione con un numero di righe diverso in
ciascuna delle tre colonne.

Per ottenere la configurazione preferita, potete anche trascinare con il mouse le barre di
separazione dei pannelli di una pagina di StatGallery.

6.2 Copiare i grafici in StatGallery


Per inserire un grafico nella finestra di StatGallery, innanzitutto copiatelo negli Appunti di
Windows (clipboard) mentre è attiva la finestra di analisi dove è stato generato il grafico. Per
esempio, supponete di voler visualizzare i diagrammi a contorno creati con la procedura DOE
Analizza il disegno per due diversi livelli di un determinato fattore sperimentale. Il procedimento
da seguire è questo:

1. Configurate una pagina di StatGallery per visualizzare i grafici nella disposizione Sinistra e
destra (due pannelli).

2. Generate un diagramma a contorno all’interno di Analizza il disegno per un livello del


fattore sperimentale e copiatelo negli Appunti di Windows.

3. Attivate la finestra di StatGallery. Fate clic con il pulsante destro del mouse sul pannello
a sinistra e selezionate Incolla dal menu popup per inserire il diagramma a contorno in
StatGallery.

4. Ritornate nella finestra Analizza il disegno e create un secondo diagramma a contorno per
un altro livello del fattore sperimentale. Copiate il diagramma negli Appunti di Windows.

5. Attivate di nuovo la finestra di StatGallery. Fate clic con il pulsante destro del mouse sul
pannello a destra e selezionate Incolla dal menu popup. Il secondo diagramma a contorno
sarà inserito accanto al primo nella pagina di StatGallery.

Il risultato ottenuto sarà simile a quello illustrato nella prossima figura.

117 StatGallery
Figura 6-3. Due grafici affiancati nella finestra di StatGallery
In questo esempio, confrontando la successione dei colori all’interno di ciascun diagramma,
si nota una riduzione della resistenza (strength) all’aumentare del polietilene.

Quando copiate un grafico in StatGallery, potete selezionare l’opzione Incolla collegamento, anziché
Incolla, dal menu popup associato al pulsante destro del mouse. Se selezionate Incolla collegamento,
il grafico in StatGallery viene collegato dinamicamente alla finestra di analisi dove è stato
generato, quindi esso cambierà automaticamente ogni volta che il grafico originale sarà
modificato.

6.3 Sovrapporre i grafici


Quando incollate un grafico in un pannello di StatGallery che ne contiene già uno, potete
scegliere di sostituire il grafico o di sovrapporre il nuovo grafico a quello esistente.
La sovrapposizione dei grafici può essere utile per confrontare due modelli statistici differenti:

118 StatGallery
Figura 6-4. Grafici sovrapposti in StatGallery
Quando un grafico viene sovrapposto a quello esistente in StatGallery, vengono aggiunti
soltanto i contenuti all’interno degli assi del secondo grafico. I testi del secondo grafico non
vengono inclusi.

Nota: se i due grafici hanno scale diverse, il secondo grafico sarà adattato al primo.

6.4 Modificare un grafico di StatGallery


È possibile modificare alcuni elementi di un grafico dopo che è stato incollato in StatGallery.

6.4.1 Aggiungere nuovi elementi


Per aggiungere un nuovo elemento a un grafico:

1. Fate doppio clic sul grafico desiderato per ingrandire il suo pannello.

119 StatGallery
2. Fate clic con il pulsante destro del mouse sul grafico e selezionate l’opzione Aggiungi
elemento dal menu popup. Sarà visualizzata la seguente finestra:

Figura 6-5. La finestra per aggiungere nuovi elementi


3. Selezionate il tipo di elemento da aggiungere al grafico.

Per utilizzare i primi 5 pulsanti della Figura 6-5, tenete premuto il pulsante del mouse per
tracciare la linea o la figura geometrica fino a ottenere le dimensioni desiderate. L’ultimo pulsante
attiva la modalità testo, che vi consentirà di accedere a una finestra di input del testo quando
farete clic sul grafico. Utilizzate il mouse per trascinare il nuovo testo nella posizione desiderata.

6.4.2 Modificare gli elementi


Per modificare un elemento di StatGallery:

1. Fate doppio clic sul grafico desiderato per ingrandire il suo pannello.

2. Fate clic sull’elemento da modificare per selezionarlo. L’elemento selezionato sarà


circondato da piccoli rettangoli.

3. Premete il pulsante destro del mouse e selezionate l’opzione Modifica elemento dal menu
popup.

Sarà visualizzata la finestra corrispondente al tipo di elemento selezionato, dove potrete


selezionare le modifiche desiderate.

6.4.3 Cancellare gli elementi


Per cancellare un elemento da StatGallery:
1. Fate doppio clic sul grafico desiderato per ingrandire il suo pannello.
2. Fate clic sull’elemento da cancellare per selezionarlo.

120 StatGallery
3. Premete il pulsante destro del mouse e selezionate l’opzione Cancella elemento dal menu
popup.

6.5 Stampare StatGallery


Per stampare gli elementi di StatGallery:

1. Attivate la finestra di StatGallery facendo clic su di essa con il mouse.

2. Fate clic sull’icona Stampa nella barra degli strumenti principali oppure premete il
pulsante destro del mouse e selezionate l’opzione Stampa dal menu popup.

È possibile stampare tutte le pagine o soltanto un gruppo di pagine selezionate.

121 StatGallery
Capitolo

StatReporter
7
Copiare le analisi in StatReporter, commentando l’output e salvando
i risultati in un file RTF da importare in Microsoft Word

StatReporter è una finestra dove è possibile integrare in un report formale l’output generato
da varie procedure statistiche. È una versione distinta di WordPad che viene eseguita all’interno
di STATGRAPHICS Centurion XVI. StatReporter consente di:

1. Creare un report completo all’interno di STATGRAPHICS Centurion XVI, senza


bisogno di utilizzare altre applicazioni. Questo può essere particolarmente utile quando le
risorse del sistema sono limitate.

2. Salvare il contenuto di StatReporter in un file RTF (Rich Text Format), che può essere
letto direttamente da altri programmi, come Microsoft Word.

7.1 La finestra di StatReporter


StatReporter opera in una finestra separata di STATGRAPHICS Centurion XVI, che viene
creata automaticamente quando avviate il programma. È formato da un controllo Rich Edit e da
una barra di strumenti:

123 StatReporter
Figura 7-1. La finestra di StatReporter

In questa finestra potete digitare direttamente dei testi o incollare l’output creato in altre finestre
di STATGRAPHICS Centurion XVI.

7.2 Copiare l’output in StatReporter


STATGRAPHICS Centurion XVI vi offre tre metodi per copiare i risultati delle procedure di
analisi nella finestra di StatReporter:

1. Per copiare un solo grafico (o una tabella) in StatReporter, prima copiatelo negli Appunti
di Windows (clipboard) ingrandendo il suo pannello e selezionando Copia dal menu
Modifica. Poi attivate la finestra di StatReporter, spostate il cursore nella posizione
desiderata e selezionate Modifica – Incolla.

2. In alternativa, ingrandite il pannello che contiene il grafico (o la tabella) da copiare


facendo doppio clic su di esso. Poi premete il pulsante destro del mouse e selezionate
Copia il pannello in StatReporter dal menu popup. Il grafico (o la tabella) sarà copiato in
StatReporter nella posizione corrente del cursore.

3. Per copiare tutto l’output di una finestra di analisi, premete il pulsante destro del mouse e
selezionate Copia l’analisi in StatReporter dal menu popup. Tutti i grafici e le tabelle della
finestra di analisi saranno copiati in StatReporter.

124 StatReporter
Ciascuna delle precedenti operazioni crea una copia statica dell’originale (nel senso che l’output
in StatReporter non cambierà mai). Per creare una copia collegata dinamicamente al grafico o
alla tabella originale utilizzando il metodo 1, selezionate Incolla speciale (anziché Incolla) e poi
attivate l’opzione Incolla collegamento. La copia del grafico o della tabella in StatReporter cambierà
automaticamente ogni volta che sarà modificato l’originale nella finestra di analisi.

7.3 Modificare l’output in StatReporter


La barra degli strumenti di StatReporter vi consente di modificare l’output delle analisi che avete
inserito nella finestra. Per modificare un testo, selezionatelo e poi fate clic su uno dei pulsanti
della barra degli strumenti. Per inserire la data e l’ora correnti, fate clic sul pulsante Data/Ora.

7.4 Salvare StatReporter


Per salvare il contenuto della finestra di StatReporter, selezionate File – Salva – Salva StatReporter
dal menu principale e digitate il nome da assegnare al file da salvare. I file di StatReporter hanno
estensione .rtf e possono essere letti direttamente da altri programmi, come Microsoft Word.

Quando aprite uno StatFolio, viene automaticamente caricata la finestra di StatReporter che era
presente quando avete salvato lo StatFolio. È possibile aprire soltanto la finestra di StatReporter
utilizzando il menu File – Apri.

125 StatReporter
Capitolo

StatWizard
8
Scegliere l’analisi statistica appropriata, cercare le statistiche e i test desiderati
e generare più finestre per vari fattori esplicativi

StatWizard è un’applicazione speciale di STATGRAPHICS Centurion XVI appositamente ideata


per assistervi in vari modi:

1. Può aiutarvi a creare un nuovo foglio o leggere un file di dati.

2. Può suggerirvi l’analisi da eseguire in funzione del tipo di dati da analizzare.

3. Può cercare particolari statistiche o test e indicarvi le procedure statistiche che


li calcolano.

4. Può aiutarvi a definire le trasformazioni dei dati o a scegliere i sottoinsiemi dei dati.

5. Può ripetere le analisi desiderate per ogni valore unico in una colonna di dati.

Potete avviare StatWizard in qualsiasi momento facendo clic sul pulsante con il cappello del
mago nella barra degli strumenti principali.

127 StatWizard
8.1 Accedere ai dati o creare un nuovo studio statistico
Se il DataBook è vuoto quando avviate StatWizard, sarà visualizzata una finestra che vi chiederà
informazioni sulle operazioni da svolgere:

Figura 8-1. La finestra iniziale di StatWizard

Ci sono tre opzioni:


1. Caricare nuovi dati nel Databook di STATGRAPHICS Centurion XVI. StatWizard vi
aiuterà, tramite una serie di finestre, a definire le colonne di un foglio o a selezionare un
file di origine, come descritto nel primo capitolo di questo manuale.
2. Progettare un nuovo studio prima di caricare i dati. In questo caso, StatWizard vi
chiederà il tipo di studio da realizzare e vi aiuterà a definirlo tramite una serie di finestre.

128 StatWizard
3. Eseguire un’analisi che non richiede dati. In questo caso, StatWizard elencherà tutte
queste analisi, vi chiederà di sceglierne una e vi presenterà immediatamente l’analisi
scelta.

Per esempio, supponete di voler impostare un nuovo studio per valutare la ripetitività e la
riproducibilità di un processo di misurazioni. Se selezionate la seconda opzione nella Figura 8-1 e
fate clic su OK, accederete alla seguente finestra:

Figura 8-2. La finestra di StatWizard per definire il tipo di studio

Selezionate Preparare uno studio di Gage R&R e fate clic su OK per visualizzare una terza finestra
che vi chiederà informazioni sul tipo di studio:

129 StatWizard
Figura 8-3. La finestra di StatWizard per impostare il nuovo tipo di studio

Digitate il numero di operatori che saranno coinvolti nello studio, il numero di pezzi che saranno
misurati e il numero di volte che ciascun operatore misurerà i singoli pezzi. Potete anche
specificare l’intestazione dello studio.

L’ultima finestra vi chiederà i nomi degli operatori, periti o laboratori che effettueranno le
misurazioni:

130 StatWizard
Figura 8-4. La finestra per specificare i nomi degli operatori
StatWizard crea lo studio desiderato e lo inserisce in un foglio del DataBook:

Figura 8-5. Il nuovo studio creato da StatWizard

Una volta effettuate le misurazioni, i loro valori dovranno essere inseriti nel foglio; dopodiché
potrete avviare di nuovo StatWizard per selezionare una procedura di analisi (oppure potete
selezionare direttamente una delle analisi del menu principale).

131 StatWizard
8.2 Scegliere il tipo di analisi per i dati
Se i dati sono già caricati nel DataBook, facendo clic sul pulsante StatWizard, sarà visualizzata
una finestra dalla quale potrete selezionare una o più analisi da eseguire:

Figura 8-6. La finestra di StatWizard per selezionare le analisi

Ci sono cinque opzioni:


1. Selezionare un’analisi in base al tipo di dati: visualizza altre finestre che richiedono
informazioni sui dati da analizzare; poi viene presentata una lista di procedure.
2. Selezionare un’analisi per nome: visualizza tutte le analisi in ordine alfabetico.
Selezionando un’analisi e facendo clic su OK, accederete direttamente alla finestra di
input dei dati per l’analisi selezionata, bypassando i consueti menu.

132 StatWizard
3. Selezionare una SnapStat: vi consente di selezionare una SnapStat. Le SnapStats sono
procedure di analisi snelle che producono una sola pagina di output. Hanno meno
opzioni delle altre analisi, ma sono molto più semplici da definire.
4. Ricerca: visualizza una lista di statistiche, test, grafici e altri output che possono essere
creati da STATGRAPHICS Centurion XVI. Se selezionate un elemento della lista,
cambierà automaticamente il contenuto del campo Selezionare un’analisi per nome, dove
saranno elencate soltanto quelle analisi che calcolano l’elemento desiderato.
5. Scegliere una delle seguenti Opzioni rapide: elenca alcune delle analisi più
frequentemente utilizzate. Selezionando un’analisi e facendo clic su OK, accederete
direttamente alla finestra di input dei dati per l’analisi selezionata.
Se selezionate l’opzione 1, StatWizard visualizzerà una finestra dove dovrete indicare i dati
da analizzare. Per esempio, se avete caricato il file 93cars.sgd nel DataBook, la finestra si
presenterà così:

Figura 8-7. La finestra di StatWizard per selezionare i dati da analizzare

133 StatWizard
I campi di questa finestra sono:

• Variabili risposta o dati (Y): una o più variabili risposta contenenti i valori da analizzare. Se
i dati da analizzare si trovano in una sola colonna, questa deve essere specificata qui.

• Tipo: il tipo di dati contenuti nelle variabili risposta. Le analisi visualizzate nelle successive
finestre dipendono da questa scelta.

• Fattori esplicativi quantitativi (X): i fattori quantitativi da utilizzare per prevedere le variabili
risposta. In una regressione, qui vanno specificate le variabili indipendenti.

• Fattori esplicativi categoriali (X): i fattori non quantitativi da utilizzare per prevedere le
variabili risposta. In un’ANOVA, qui vanno specificati i fattori esplicativi.

• Etichette dei casi: una colonna contenente le etichette delle varie osservazioni (righe).

Le procedure presentate nelle successive finestre dipendono dalle scelte fatte nella Figura 8-7.

La prossima finestra vi chiederà di specificare le righe del file da analizzare:

134 StatWizard
Figura 8-8. La finestra di StatWizard per selezionare le righe del foglio

Le prime sei opzioni presumono che intendiate eseguire una sola analisi. L’ultima opzione genera
più finestre di analisi, una per ogni valore unico contenuto nella colonna specificata. Questo è un
semplice metodo per specificare una variabile “BY” per una serie di analisi.

Successivamente vi sarà chiesto se intendete trasformare le variabili indicate. Se rispondete


affermativamente, sarà visualizzata la seguente finestra:

135 StatWizard
Figura 8-9. La finestra di StatWizard per selezionare il tipo di trasformazione delle variabili

Potete selezionare una trasformazione per una o più variabili. Se scegliete una trasformazione,
il programma creerà l’espressione appropriata. Per esempio, se richiedete la radice quadrata di
MPG City, il programma creerà l’espressione SQRT(MPG City) che sarà utilizzata dalle procedure
di analisi.

L’ultima finestra di StatWizard elenca le analisi appropriate al tipo di dati che avete specificato:

136 StatWizard
Figura 8-10. La finestra di StatWizard per selezionare le analisi da eseguire

Selezionate una o più analisi dalla lista e fate clic su OK; sarà creata una finestra per ogni analisi
selezionata.

8.3 Ricerca delle statistiche e dei test desiderati


Se volete calcolare i valori di particolari statistiche o test, ma non ricordate quali analisi utilizzare
per ottenerli, digitate i dati in un foglio e poi fate clic sul pulsante StatWizard nella barra degli
strumenti principali. Nella finestra iniziale di StatWizard, selezionate Ricerca e aprite il menu a
tendina. Saranno elencati tutti i test, le statistiche e altri calcoli svolti da STATGRAPHICS
Centurion XVI:

137 StatWizard
Figura 8-11. Utilizzare l’opzione Search di StatWizard

Se selezionate un elemento della lista Ricerca, nel campo Selezionare un’analisi per nome saranno
visualizzate tutte le analisi che calcolano l’elemento selezionato:

138 StatWizard
Figura 8-12. La lista delle analisi associate all’elemento selezionato nel riquadro Ricerca

Per eseguire un’analisi:

1. Fate clic sull’opzione Selezionare un’analisi per nome.

2. Selezionate un’analisi.

3. Fate clic su OK.

Accederete direttamente alla finestra di input dei dati per l’analisi selezionata, bypassando i
consueti menu.

139 StatWizard
Capitolo

Preferenze del sistema


9
Impostare i parametri funzionali del sistema

STATGRAPHICS Centurion XVI contiene centinaia di opzioni, ciascuna delle quali ha un


valore di default che è stato selezionato per soddisfare le esigenze della maggior parte degli
utenti. Se preferite, potete modificare le impostazioni di molte di queste opzioni. Ciò può essere
fatto da tre diversi punti del programma:

1. Comportamento generale del sistema: i parametri funzionali del sistema sono


impostati nella finestra Preferenze accessibile dal menu Modifica.

2. Opzioni di stampa: sono impostate nella finestra Imposta pagina accessibile dal menu
File.

3. Grafici: le opzioni relative ai grafici sono impostate selezionando Opzioni per il grafico
mentre è visualizzato un grafico qualsiasi. La scheda Profilo della finestra Opzioni per il
grafico consente di salvare vari gruppi di opzioni per i grafici.

9.1 Comportamento generale del sistema


Le impostazioni di default relative al comportamento generale del sistema e alle procedure
statistiche selezionate possono essere modificate selezionando Preferenze dal menu Modifica. Viene
visualizzata una finestra che contiene una scheda Generale per il comportamento generale del
sistema e altre schede per le opzioni di default delle analisi statistiche:

141 Preferenze del sistema


Figura 9-1. La finestra con le preferenze del sistema

Alcune delle principali opzioni sono descritte qui di seguito:

• Livello di confidenza: percentuale di default utilizzata per i limiti di confidenza, i limiti di


previsione, le verifiche di ipotesi e l’interpretazione dei P-value (o valore P) da parte di
StatAdvisor.

• Cifre significative: numero di cifre significative utilizzato per visualizzare i risultati


numerici; gli zeri non significativi vengono troncati. È disponibile un campo distinto per
salvare i risultati numerici nel foglio.

• Opzioni del sistema: queste opzioni si applicano all’intero sistema.

o Usa il menu Six Sigma: visualizza i menu secondo lo schema DMAIC (Define, Measure,
Analyze, Improve, Control) del sistema Six Sigma. Il sistema classico dei menu di
STATGRAPHICS offre le stesse opzioni con nomi differenti.

142 Preferenze del sistema


o Ordina i nomi delle variabili: se selezionate questa opzione, i nomi delle colonne
saranno elencati in ordine alfabetico nelle finestre di input dei dati, altrimenti saranno
elencati nello stesso ordine che hanno nel foglio.
o Anni a 4 cifre: le date saranno visualizzate con gli anni di 4 cifre, anziché 2. Per default,
si suppone che gli anni di 2 cifre, come 2/1/05, rappresentino date comprese tra il 1950
e il 2049. La modifica di questa opzione avrà effetto soltanto dopo che avrete riavviato
il programma.
o Salvataggio automatico: abilita il salvataggio automatico in background dello StatFolio
corrente e dei file di dati; potete impostare l’intervallo di tempo tra i salvataggi. Se questa
funzione è abilitata e si verifica un malfunzionamento del computer o del programma,
avrete la possibilità di ripristinare lo stato dello StatFolio e dei fogli quando riavvierete il
programma.
o Aggiorna link per ciascun valore: ricalcola tutte le statistiche ogni volta che cambia un
valore in un foglio. Di solito, le statistiche non vengono ricalcolate finché non attivate,
stampate o pubblicate un’analisi statistica o non salvate lo StatFolio.

• StatAdvisor: imposta il comportamento di default di StatAdvisor.

o Aggiungi ai pannelli di testo: l’output di StatAdvisor viene automaticamente aggiunto


in fondo ai pannelli di testo. Questo output è sempre disponibile facendo clic sul
pulsante con il cappello della laurea nella barra degli strumenti principali.

o Evidenzia i riferimenti in …: visualizza in un colore speciale quei valori nei pannelli di


testo cui fa riferimento StatAdvisor.

• Intestazioni di analisi: usa un font blu per visualizzare il titolo dell’analisi all’inizio del
pannello Sintesi dell’analisi.
• StatFolio: attivate la casella Disabilita gli script di avviamento per impedire che gli script di
avviamento siano eseguiti quando vengono caricati gli StatFolio.
• Cartella dei file temporanei: gli StatFolio, i file di dati e altri file saranno temporaneamente
memorizzati in questa directory prima di essere copiati in quella definitiva. Specificando un
drive locale, è possibile ridurre notevolmente il tempo necessario per salvare un file in alcune
reti, perché si riduce il numero di richieste delle reti.
Il documento PDF Preferences descrive le opzioni delle altre schede.

143 Preferenze del sistema


9.2 Stampa
Due opzioni del menu File controllano la stampa dell’output:

1. Imposta stampante: accede alla finestra con le opzioni di stampa del driver della vostra
stampante. Tipicamente, questa finestra consente di impostare il formato e
l’orientamento del foglio (orizzontale o verticale).

2. Imposta pagina: accede a una finestra specifica di STATGRAPHICS Centurion XVI che
consente di impostare i margini, le testatine e altre opzioni. Questa finestra è descritta nel
Paragrafo 3.3.

9.3 Grafici
Se ingrandite un pannello che contiene un grafico all’interno di una finestra di analisi, viene
abilitato il pulsante Opzioni per il grafico nella barra degli strumenti di analisi. Questo pulsante
visualizza una finestra che consente di modificare l’aspetto di un grafico, come è descritto
dettagliatamente nel Capitolo 4. Questa finestra include anche la scheda Profilo, che consente di
salvare gruppi di opzioni per i grafici in profili personalizzati e di modificare il profilo di default
che viene utilizzato quando viene creato un nuovo grafico:

144 Preferenze del sistema


Figura 9-2. La scheda Profilo della finestra Opzioni per il grafico

Per cambiare le impostazioni di default del sistema:


1. Modificate le caratteristiche di un grafico in una finestra di analisi qualsiasi. Impostate i
colori, i tipi di caratteri e le altre opzioni da applicare ai grafici futuri.
2. Fate clic sul pulsante Opzioni per il grafico nella barra degli strumenti di analisi e poi attivate
la scheda Profilo.

3. Selezionate la casella Profilo di default.

4. Selezionate uno dei 12 profili utente e fate clic sul pulsante Salva con nome (i profili
di sistema sono di sola lettura).

5. Digitate il nome del profilo da salvare:

145 Preferenze del sistema


Figura 9-3. La finestra per salvare un profilo

6. Fate clic su OK per salvare nel nuovo profilo l’insieme delle impostazioni correnti dei
grafici (colori, tipi di caratteri, punti, linee ecc.).

Il prossimo grafico che sarà creato utilizzerà questo nuovo profilo.

A un nuovo grafico è possibile applicare anche altri profili precedentemente salvati; per farlo,
create il grafico con le impostazioni di default e poi:

1. Fate clic sul pulsante Opzioni per il grafico nella barra degli strumenti di analisi e poi attivate
la scheda Profilo.

2. Selezionate uno dei 15 profili e fate clic sul pulsante Carica.

Il grafico corrente sarà immediatamente aggiornato con le impostazioni del profilo selezionato.

146 Preferenze del sistema


Capitolo

10
Tutorial 1 – Analisi di un
singolo campione
Statistiche di sintesi, istogramma, diagramma a scatola e baffi, intervalli
di confidenza e verifica di ipotesi

Un tipico problema di statistica consiste nell’analizzare un campione di n osservazioni estratto da


una popolazione. Per esempio, considerate le seguenti temperature corporee (in gradi
Fahrenheit) misurate su n = 130 individui:

98,4 98,4 98,2 97,8 98 97,9 99 98,5 98,8 98


97,4 98,8 99,5 98 100,8 97,1 98 98,7 98,9 99
98,6 97,7 96,7 98,8 98,2 97,5 97,2 97,4 97,1 96,7
99,2 97,9 98,8 97,6 98,6 98,8 98,5 98,7 97,5 97,9
97,1 98,4 97,4 98,6 97,8 98,2 98 98 98,3 98,6
98,8 98,7 98,8 98,1 96,4 98,8 98,7 97,9 98,6 99,2
98,6 98 99,1 97,8 97,2 98,2 98,7 98,4 98,2 97,7
98,3 98,7 96,8 98 97,2 97,9 96,9 98,3 97,8 97
98,6 98,4 98,2 98 98 98,2 97,8 99 98,1 97,7
97,4 98,8 99,3 98,9 96,3 97,8 99,9 98,4 99,4 98,7
98,4 98,2 99,3 98,5 98,3 99 99,2 97,6 99,1 97,6
98,4 97,6 98,4 98 98,8 97,3 98,7 98,6 99,4 100
98,6 98,3 98,6 97,4 98,1 97,8 98,2 99 99,1 98,2

I dati provengono dal Journal of Statistical Education Data Archive


(www.amstat.org/publications/jse/jse_data_archive.html) e siamo stati autorizzati a utilizzarli.

147 Analisi di un singolo campione


Li abbiamo memorizzati nel file bodytemp.sgd, nella colonna Temperature che contiene 130 righe,
una per ogni persona oggetto dello studio.

Analisi a una variabile è la procedura principale di STATGRAPHICS Centurion XVI che


sintetizza un campione scelto da una popolazione. Questa procedura sintetizza i dati in forma
numerica e grafica e verifica le ipotesi sulla media, la mediana e la deviazione standard della
popolazione.

10.1 Procedura di analisi a una variabile


Per analizzare i dati delle temperature, innanzitutto caricate il file bodytemp.sgd in un foglio:

1. Selezionate File – Apri – Apri Sorgente dati dal menu principale.


2. Nella finestra Apri Sorgente dati selezionate l’opzione File di dati STATGRAPHICS.
3. Selezionate bodytemp.sgd dalla lista dei file nella finestra Apri file di dati.

I dati dovrebbero presentarsi in questo modo:

Figura 10-1. Il foglio con i valori delle temperature corporee


Le temperature corporee si trovano nella prima colonna a sinistra e sono espresse in gradi
Fahrenheit.

148 Analisi di un singolo campione


La procedura Analisi a una variabile può essere avviata dal menu principale in questo modo:
1. Se state utilizzando il menu classico, selezionate Descrivi – Dati numerici – Analisi a una
variabile.
2. Se state utilizzando il menu Six Sigma, selezionate Analyze – Variabili – Analisi a una
variabile.
Nella finestra successiva indicate la colonna con i dati da analizzare:

Figura 10-2. La finestra di input della procedura Analisi a una variabile

Per analizzare tutte le 130 righe, lasciate vuoto il campo Seleziona. Fate clic su OK.
Sullo schermo sarà visualizzata la finestra Tabelle e grafici. Questa finestra mostra le tabelle e i
grafici disponibili. Per il momento, accettate le impostazioni di default.

Figura 10-3. La finestra Tabelle e grafici

149 Analisi di un singolo campione


Sarà visualizzata una finestra di analisi con quattro pannelli:

Figura 10-4. La finestra della procedura Analisi a una variabile

Il primo pannello in alto a sinistra indica che il campione ha n = 130 valori compresi fra 96,3 e
100,8 gradi. Il pannello in alto a destra contiene un grafico a dispersione dei dati, con i punti
distribuiti casualmente nella direzione verticale. Notate che la densità dei punti è maggiore fra 98
e 99 gradi e minore alle due estremità. Questo tipo di comportamento è tipico di un campione di
dati scelto da una popolazione la cui distribuzione ha un picco centrale ben definito.

I pannelli in basso mostrano le statistiche di sintesi e un diagramma a scatola e baffi, che sono
descritti nei prossimi paragrafi.

150 Analisi di un singolo campione


10.2 Statistiche di sintesi
La tabella nel pannello inferiore sinistro riporta varie statistiche relative ai dati del campione. Se
volete aggiungere altre statistiche, ingrandite il pannello facendo doppio clic su di esso; poi fate
clic sul pulsante Opzioni per il pannello nella barra degli strumenti di analisi:

Figura 10-5. La finestra con le statistiche di sintesi


Se selezionate le statistiche Mediana, Quartile inferiore, Quartile superiore e Range interquartile, otterrete
i seguenti risultati:
Statistiche di sintesi per Temperature
Conteggio 130
Media 98,2492
Mediana 98,3
Deviazione standard 0,733183
Coeff. di variazione 0,746248%
Minimo 96,3
Massimo 100,8
Range 4,5
Quartile inferiore 97,8
Quartile superiore 98,7
Range interquartile 0,9
Asimmetria std. -0,0205699
Curtosi std. 1,81642

Figura 10-6. La tabella con le statistiche di sintesi


Di solito si suppone che i valori misurati abbiano una distribuzione normale o gaussiana, che ha
la caratteristica forma di campana. I dati di una distribuzione normale sono descritti da due
statistiche:

151 Analisi di un singolo campione


n

∑x
i =1
i
1. La media del campione x = = 98.25 , che determina il centro della distribuzione.
n
n

∑ (x − x)
2
i
i =1
2. La deviazione standard del campione s = = 0.733 , che esprime la variabilità
n −1
della distribuzione.
In una distribuzione normale il 68% circa di tutti i valori è compreso all’interno di una
deviazione standard della media della popolazione, il 95% circa all’interno di due deviazioni
standard e il 99,73% circa all’interno di tre deviazioni standard.
La deviazione standard e la media sono sufficienti a descrivere completamente il campione
soltanto se questo appartiene a una distribuzione normale. Due statistiche che possono essere
utilizzate per verificare questa ipotesi sono l’asimmetria e la curtosi standardizzate. Queste
statistiche misurano la forma delle distribuzioni:
1. L’asimmetria misura il grado di simmetria di una distribuzione. Una distribuzione
simmetrica, come quella normale, ha un’asimmetria nulla. Le distribuzioni in cui
prevalgono i valori estremamente grandi hanno asimmetria positiva. Le distribuzioni in
cui prevalgono i valori estremamente piccoli hanno asimmetria negativa.
2. La curtosi misura la forma di una distribuzione simmetrica. Una curva normale o a
campana ha curtosi nulla. Una distribuzione che è più appuntita di quella normale ha
curtosi positiva. Una distribuzione che è più appiattita di quella normale ha curtosi
negativa.
Se i dati provengono da una distribuzione normale, l’asimmetria e la curtosi standardizzate sono
comprese tra –2 e +2. La distribuzione normale è un modello accettabile per i dati del campione
in esame.
Un altro utile strumento di sintesi, ideato da John Tukey, è detto “sintesi a cinque numeri” (five
number summary):
Minimo (il valore più piccolo) = 96,3
Primo quartile (25° percentile) = 97,8
Mediana (50° percentile) = 98,3
Terzo quartile (75° percentile) = 98,7
Massimo (il valore più grande) = 100,8
Questi cinque numeri dividono il campione in quattro parti e formano la base del diagramma a
scatola e baffi, descritto nel prossimo paragrafo.

152 Analisi di un singolo campione


NOTA: le statistiche di sintesi che selezionate mediante il pulsante Opzioni per il pannello
vengono utilizzate soltanto nell’analisi in corso. Per cambiare le statistiche di default delle
analisi future, utilizzate l’opzione Preferenze del menu Modifica. La scheda Statistiche nella
finestra Preferenze vi consente di cambiare le statistiche che vengono calcolate per default
quando eseguite la procedura Analisi a una variabile (e molte altre procedure che
visualizzano statistiche di sintesi):

Figura 10-7. La finestra Preferenze per selezionare le statistiche di default

153 Analisi di un singolo campione


10.3 Diagramma a scatola e baffi
Il diagramma a scatola e baffi, ideato da John Tukey, è un metodo grafico efficace per
sintetizzare i dati; l’esempio rappresentato nell’angolo in basso a destra della Figura 10-4 è
ingrandito nella seguente illustrazione:

Figura 10-8. Il diagramma a scatola e baffi per le temperature corporee

Un diagramma a scatola e baffi è composto dai seguenti elementi:

1. Una scatola centrale che si estende dal primo al terzo quartile. Il 50% dei valori centrali
della distribuzione si trova all’interno della scatola.

2. Una linea verticale in corrispondenza della mediana del campione divide a metà i dati. Se
i dati provengono da una distribuzione simmetrica, questa linea dovrebbe essere vicina al
centro della scatola.

154 Analisi di un singolo campione


3. Un segno più in corrispondenza della media del campione. Una differenza significativa
tra la mediana e la media, di solito, segnala la presenza di un outlier (un valore che si
discosta notevolmente dagli altri) o una distribuzione asimmetrica. Nel caso di
distribuzione asimmetrica, la media tende a spingersi nella direzione della coda più lunga.

4. Due baffi che si estendono dai quartili verso i valori minimo e massimo delle
osservazioni, a meno che alcuni valori non siano talmente lontani dalla scatola da essere
classificati punti esterni (outside); in questo caso, i baffi si estendono fino ai punti più
estremi che non sono classificati esterni. STATGRAPHICS Centurion XVI,
conformemente al metodo di Tukey, identifica due tipi di punti anomali:

a. Punti molto esterni (far outside): sono quelli che si trovano a più di 3 volte il range
interquartile prima o dopo i confini della scatola (nota: il range interquartile è la
distanza tra i quartili, che è uguale alla larghezza della scatola). Un punto molto
esterno è indicato dal simbolo del punto (di solito un piccolo quadrato) con un
segno più sovrapposto. Se i dati provengono da una distribuzione normale, la
probabilità che un punto sia così lontano dalla scatola da essere classificato molto
lontano è soltanto di 1 su 300 circa in un campione della dimensione corrente. A
meno che non ci siano migliaia di osservazioni nel campione, i punti molto lontani
di solito indicano la presenza di veri outlier (o di una distribuzione non normale).

b. Punti esterni (outside): sono quelli che si trovano a più di 1,5 volte il range
interquartile prima o dopo i confini della scatola. I punti esterni sono indicati dal
simbolo del punto, senza il segno più. Anche quando i dati provengono da una
distribuzione normale, la probabilità di osservare 1 o 2 punti esterni in un
campione di n = 100 osservazioni è di circa il 50% e non indica necessariamente
la presenza di un vero outlier. Questi punti richiedono un’indagine più
approfondita.

Il diagramma a scatola e baffi della Figura 10-8 può essere considerato simmetrico. I baffi hanno
approssimativamente la stessa lunghezza, la media e la mediana sono simili e vicine al centro
della scatola. Sono rappresentati tre punti esterni, ma nessun punto è molto lontano. Se fate clic con
il mouse sull’outlier di destra, il programma vi segnalerà che il punto corrisponde alla riga 15
del file.

Se fate clic sul pulsante Opzioni per il pannello nella barra degli strumenti di analisi, potete
aggiungere al diagramma la Tacca della mediana:

155 Analisi di un singolo campione


Figura 10-9. Il diagramma a scatola e baffi con una tacca per la mediana

L’opzione Tacca della mediana aggiunge al grafico una tacca di ampiezza pari approssimativamente
a un intervallo di confidenza per la mediana della popolazione, al livello di confidenza di default
del sistema (95%, di solito). Questa tacca indica il margine di errore che si ha quando si stima la
mediana delle temperature della popolazione da cui è estratto il campione. In questo caso,
l’errore di campionamento è di circa 0,15 gradi in entrambe le direzioni. Con un campione più
grande si avrebbe un margine di errore più piccolo.

10.4 Verifica degli outlier


Prima di calcolare altre statistiche, è bene verificare se il punto della riga 15 è un vero outlier e, in
tal caso, escluderlo dai dati in esame. STATGRAPHICS Centurion XVI ha una procedura che
esegue un test formale per determinare se un’osservazione possa provenire da una distribuzione
normale. Il test è accessibile dal menu principale selezionando:

156 Analisi di un singolo campione


1. Descrivi – Dati numerici – Identificazione degli outlier, se utilizzate il menu classico.
2. Analyze – Variabili – Identificazione degli outlier, se utilizzate il menu Six Sigma.
Specificando Temperature nel campo Dati, si aprirà la finestra Opzioni; poi visualizzerete la finestra
Tabelle e grafici. Dopo che avrete selezionato le opzioni desiderate, otterrete un’ampia tabella di
statistiche che sarà visualizzata nella seconda metà del pannello a sinistra. Particolarmente
interessante è la parte della tabella che mostra i 5 valori più piccoli e i 5 valori più grandi del
campione:

Valori ordinati
Valori studentizzati Valori studentizzati Z-score
Riga Valore senza eliminazione con eliminazione modificati con MAD
95 96,3 -2,65859 -2,74567 -2,698
55 96,4 -2,52219 -2,59723 -2,5631
23 96,7 -2,11302 -2,15912 -2,1584
30 96,7 -2,11302 -2,15912 -2,1584
73 96,8 -1,97663 -2,01521 -2,0235
...
99 99,4 1,56955 1,59096 1,4839
13 99,5 1,70594 1,7323 1,6188
97 99,9 2,25151 2,30628 2,1584
120 100,0 2,3879 2,45231 2,2933
15 100,8 3,47903 3,67021 3,3725

Test di Grubbs (suppone la normalità)


Statistica del test = 3,47903
P-value = 0,0484379
Figura 10-10. Valori selezionati dall’output della procedura Identificazione degli outlier

Il dato più insolito è quello della riga 15, evidenziato in rosso, cui corrisponde il valore 3,479
nella colonna Valori studentizzati senza eliminazione. I valori studentizzati sono calcolati con la
seguente formula:
xi − x
zi =
s
Il valore 3,479 indica che un’osservazione è 3,479 deviazioni standard sopra la media del
campione, se l’osservazione viene inclusa nel calcolo di x ed s. La colonna Valori studentizzati
con eliminazione indica di quante deviazioni standard un’osservazione si discosta dalla media del
campione se l’osservazione non viene utilizzata nei calcoli. Se non viene incluso nei calcoli, il
valore della riga 15 si discosta dalla media di 3,67 deviazioni standard.

157 Analisi di un singolo campione


Le osservazioni che si discostano dalla media di oltre 3 deviazioni standard sono rare, a meno
che la dimensione n del campione non sia molto grande o la distribuzione non sia normale.
È possibile eseguire un test formale per verificare le seguenti ipotesi:
Ipotesi nulla: il valore più estremo proviene dalla stessa distribuzione normale delle altre
osservazioni.
Ipotesi alternativa: il valore più estremo non proviene dalla stessa distribuzione
normale delle altre osservazioni.
Un tipico test per verificare queste ipotesi è quello di Grubbs, detto anche test di deviazione
studentizzata estrema. STATGRAPHICS Centurion XVI esegue questo test e fornisce un P-value.
In generale, un P-value (o valore P) indica la probabilità che una statistica assuma un valore tanto
estremo o anche più estremo di quello osservato nel campione, se l’ipotesi nulla fosse vera.
Se il P-value è sufficientemente piccolo, l’ipotesi nulla può essere rifiutata, perché il valore del
campione sarebbe un evento estremamente raro. Con “sufficientemente piccolo” di solito
s’intende un P-value minore di 0,05, che è detto “livello di significatività” o “rischio α (alpha)”
della procedura del test. Se c’è una probabilità minore del 5% che venga raggiunto il valore
estremo del campione, supponendo vera l’ipotesi nulla, allora questa ipotesi viene rifiutata.

Nell’esempio in esame, la statistica test è uguale 3,479, che è il massimo assoluto dei Valori
studentizzati senza eliminazione. Il P-value è 0,0484 ed essendo minore di 0,05, possiamo rifiutare
l’ipotesi nulla, concludendo che il valore della riga 15 è un outlier rispetto agli altri valori del
campione.

Potete eliminare la riga 15 facendo clic sul pulsante Finestra di input nella barra degli strumenti
di analisi e digitando nel campo Seleziona un’espressione come questa:

Figura 10-11. La finestra Identificazione degli outlier con l’espressione che elimina l’outlier

158 Analisi di un singolo campione


Poiché la riga 15 è l’unica osservazione che supera i 100 gradi, l’espressione del campo Seleziona
considera soltanto le altre 129 righe. Il nuovo output della procedura Identificazione degli outlier è
riportato nel seguente prospetto:

Valori ordinati
Valori studentizzati Valori studentizzati Z-score
Riga Valore senza eliminazione con eliminazione modificati con MAD
95 96,3 -2,75487 -2,85205 -2,698
55 96,4 -2,61209 -2,6956 -2,5631
23 96,7 -2,18375 -2,23455 -2,1584
30 96,7 -2,18375 -2,23455 -2,1584
73 96,8 -2,04097 -2,08332 -2,0235
...
119 99,4 1,6713 1,69652 1,4839
99 99,4 1,6713 1,69652 1,4839
13 99,5 1,81408 1,84516 1,6188
97 99,9 2,3852 2,44992 2,1584
120 100,0 2,52798 2,60411 2,2933

Test di Grubbs (suppone la normalità)


Statistica del test = 2,75487
P-value = 0,676064
Figura 10-12. L’output della procedura Identificazione degli outlier dopo avere eliminato la riga 15

Il valore più estremo tra le restanti osservazioni è quello della riga 95. Poiché il P-value del test di
Grubbs è molto più grande di 0,05, è ragionevole supporre che tutte le restanti osservazioni
provengano dalla stessa popolazione.
In teoria, si dovrebbe riesaminare lo studio originale per tentare di scoprire la causa del valore
anomalo della riga 15. Poiché questo non può essere fatto adesso, accettiamo i risultati del test
di Grubbs ed escludiamo la riga15 da tutti i successivi calcoli. Modificando la finestra di input
dei dati per la procedura Analisi a una variabile nel modo indicato nella Figura 10-11, si ottengono
le seguenti statistiche di sintesi:

Statistiche di sintesi per Temperature


Conteggio 129
Media 98,2295
Mediana 98,3
Deviazione standard 0,70038
Coeff. di variazione 0,713004%
Minimo 96,3
Massimo 100,0
Range 3,7

159 Analisi di un singolo campione


Quartile inferiore 97,8
Quartile superiore 98,7
Range interquartile 0,9
Asimmetria std. -1,40217
Curtosi std. 0,257075

Figura 10-13. Statistiche di sintesi dopo avere eliminato la riga 15

10.5 Istogramma
Un altro tipico metodo grafico per rappresentare un campione di dati misurati è l’istogramma
delle frequenze. Ritornando alla procedura Analisi a una variabile, per creare un istogramma, fate
clic sul pulsante Tabelle e grafici nella barra degli strumenti di analisi e selezionate Istogramma
delle frequenze. Otterrete il seguente istogramma di default:

Figura 10-14. L’istogramma delle frequenze con le classi di default

160 Analisi di un singolo campione


L’altezza delle barre dell’istogramma rappresenta il numero di osservazioni che cadono
nell’intervallo delle temperature coperto dalle varie barre. Il numero e la larghezza delle barre
sono impostati per default in base alla dimensione n del campione, applicando la regola
selezionata nella scheda EDA (Exploratory Data Analysis) della finestra Modifica – Preferenze:

Figura 10-15. La scheda EDA della finestra Preferenze

Se si usa la regola di Sturges, il numero di barre è pari al numero intero più piccolo che non è
minore di 1+3,322log10(n). Le altre regole, come 10log10(n), tendono a produrre più barre e sono
da preferire con i grandi insiemi di dati.

Una volta creato l’istogramma, per modificarne le impostazioni di default, fate doppio clic
sull’istogramma per ingrandire il suo pannello e poi fate clic sul pulsante Opzioni per il pannello:

161 Analisi di un singolo campione


Figura 10-16. La finestra con le opzioni per l’istogramma delle frequenze

Per impostare le classi, bisogna considerare il numero di cifre significative dei dati. Per esempio,
poiché le temperature corporee sono state approssimate al decimo di grado, la larghezza delle
barre dovrebbe essere un multiplo intero di 0,1. Così facendo, ciascuna barra copre lo stesso
numero di misure possibili. Il seguente istogramma è composto da 25 intervalli compresi tra 96 e
101 gradi, ciascuno dei quali copre 0,2 gradi:

162 Analisi di un singolo campione


Figura 10-17. L’istogramma delle frequenze con un nuovo numero di classi

Aumentando il numero di classi, si mettono in evidenza maggiori dettagli. La forma generale


della distribuzione è simile a quella di una curva normale a campana.

I dati dell’istogramma possono essere rappresentati in forma tabellare, facendo clic sul pulsante
Tabelle e grafici nella barra degli strumenti di analisi e selezionando l’opzione Tabulazione delle
frequenze:

163 Analisi di un singolo campione


Tabulazione delle frequenze per Temperature
Limite Limite Frequenza Frequenza Frequenza
Classe inferiore superiore Punto medio Frequenza relativa cumulata rel. cum.
a o sotto 96,0 0 0,0000 0 0,0000
1 96,0 96,2 96,1 0 0,0000 0 0,0000
2 96,2 96,4 96,3 2 0,0155 2 0,0155
3 96,4 96,6 96,5 0 0,0000 2 0,0155
4 96,6 96,8 96,7 3 0,0233 5 0,0388
5 96,8 97,0 96,9 2 0,0155 7 0,0543
6 97,0 97,2 97,1 6 0,0465 13 0,1008
7 97,2 97,4 97,3 6 0,0465 19 0,1473
8 97,4 97,6 97,5 6 0,0465 25 0,1938
9 97,6 97,8 97,7 10 0,0775 35 0,2713
10 97,8 98,0 97,9 16 0,1240 51 0,3953
11 98,0 98,2 98,1 13 0,1008 64 0,4961
12 98,2 98,4 98,3 14 0,1085 78 0,6047
13 98,4 98,6 98,5 13 0,1008 91 0,7054
14 98,6 98,8 98,7 18 0,1395 109 0,8450
15 98,8 99,0 98,9 7 0,0543 116 0,8992
16 99,0 99,2 99,1 6 0,0465 122 0,9457
17 99,2 99,4 99,3 4 0,0310 126 0,9767
18 99,4 99,6 99,5 1 0,0078 127 0,9845
19 99,6 99,8 99,7 0 0,0000 127 0,9845
20 99,8 100,0 99,9 2 0,0155 129 1,0000
21 100,0 100,2 100,1 0 0,0000 129 1,0000
22 100,2 100,4 100,3 0 0,0000 129 1,0000
23 100,4 100,6 100,5 0 0,0000 129 1,0000
24 100,6 100,8 100,7 0 0,0000 129 1,0000
25 100,8 101,0 100,9 0 0,0000 129 1,0000
sopra 101,0 0 0,0000 129 1,0000
Media = 98,2295 Deviazione standard = 0,70038

Figura 10-18. Forma tabellare delle frequenze dell’istogramma

Notate che un’osservazione appartiene a un intervallo se è maggiore del limite inferiore


dell’intervallo e minore o uguale al limite superiore.

L’ultima colonna a destra è di notevole interesse, perché indica la probabilità cumulata che un
valore di temperatura cada in una determinata classe o nelle classi precedenti. Per esempio,
l’89,92% di tutti i valori è minore o uguale a 99,0 gradi.

164 Analisi di un singolo campione


10.6 Grafico dei quantili e percentili
Un altro metodo per visualizzare le probabilità cumulate consiste nel selezionare Grafico dei
quantili dalla lista del pulsante Grafici nella procedura Analisi a una variabile:

Figura 10-19. Il grafico dei quantili


In questo grafico, i dati vengono prima ordinati dal più piccolo al più grande. Il j-esimo valore più
grande viene poi rappresentato in Y = (j+0,5)/n, che è una stima della proporzione della
popolazione le cui temperature sono minori o uguali al valore osservato. Come l’ultima colonna
a destra nella tabella delle frequenze, la curva rappresenta la probabilità cumulata che un
individuo abbia una temperatura minore o uguale a quella indicata nell’asse orizzontale. Poiché i
valori delle temperature sono stati approssimati al decimo di grado, ci sono dei salti verticali nel
grafico.

La Figura 10-19 include anche due cursori incrociati, che potete visualizzare premendo il tasto
destro del mouse sul grafico e selezionando Localizza dal menu popup. Utilizzate il mouse per
trascinare questi cursori in un’altra posizione. I numeri che appaiono alle estremità dei cursori

165 Analisi di un singolo campione


indicano la posizione del loro punto di incrocio. Nel precedente grafico, i cursori sono stati
utilizzati per localizzare la mediana o 50° percentile, che è il valore della temperatura in
corrispondenza della quale la proporzione visualizzata sull’asse verticale è uguale a 0,5.

Una tabella di percentili può essere creata selezionando Percentili dalla lista del pulsante Tabelle:
Percentili per Temperature
Percentili Limite inferiore Limite superiore
1,0% 96,4 96,34 96,811
5,0% 97,0 96,8727 97,2473
10,0% 97,2 97,1538 97,4829
25,0% 97,8 97,6152 97,8846
50,0% 98,3 98,1082 98,3508
75,0% 98,7 98,5743 98,8437
90,0% 99,1 98,9761 99,3051
95,0% 99,3 99,2116 99,5862
99,0% 99,9 99,6479 100,119

L'output include limiti di confidenza normali al 95,0%.


Figura 10-20. La tabella dei percentili
Il p-esimo percentile rappresenta una stima del valore di temperatura al di sotto del quale si trova
il p% della popolazione. Utilizzate il pulsante Opzioni per il pannello per aggiungere ai percentili i
limiti di confidenza al 95%, supponendo che il campione provenga da una distribuzione
normale.
Per esempio, il 90° percentile è il valore di temperatura che è superato soltanto dal 10% degli
individui della popolazione. La stima migliore di questo percentile basata sul campione dei dati è
99,1 gradi. Tuttavia, considerando la dimensione limitata del campione, il 90° percentile
potrebbe trovarsi tra 98,98 e 99,31 gradi, con un livello di confidenza al 95%.

10.7 Intervalli di confidenza


Una volta eliminato l’outlier dal campione, potete stimare i parametri definitivi della
distribuzione da cui provengono i dati. Se selezionate Intervalli di confidenza dalla finestra Tabelle e
grafici, otterrete i seguenti risultati:
Intervalli di confidenza per Temperature
intervallo di confidenza al 95,0% per la media: 98,2295 +/- 0,122015 [98,1074; 98,3515]
intervallo di confidenza al 95,0% per la deviazione standard: [0,624081; 0,798114]

Figura 10-21. Intervalli di confidenza al 95% per la media e la deviazione standard

Gli intervalli di confidenza forniscono un limite al potenziale errore nella stima della media e
della deviazione standard della popolazione. Date le restanti 129 osservazioni, possiamo

166 Analisi di un singolo campione


affermare di essere confidenti al 95% che la temperatura media della popolazione è compresa tra
98,11 e 98,35 gradi. Analogamente, la deviazione standard della popolazione è compresa tra
0,624 e 0,798 gradi.

Facendo clic sul pulsante Opzioni per il pannello, potete richiedere altri intervalli di confidenza
utilizzando il metodo bootstrap:

Figura 10-22. La finestra con le opzioni per gli intervalli di confidenza


Gli intervalli bootstrap, diversamente da quelli della Figura 10-21, non si basano sull’ipotesi che
la popolazione abbia una distribuzione normale. Dai dati vengono selezionati campioni casuali
di n = 129 osservazioni (il campionamento è con ripetizione, nel senso che le stesse osservazioni
possono essere selezionate più di una volta). Il processo si ripete 500 volte, vengono calcolate le
statistiche dei campioni e il 95% centrale dei risultati viene utilizzato per calcolare gli intervalli di
confidenza. La seguente tabella riporta gli intervalli bootstrap per la media, la deviazione
standard e la mediana della popolazione:

Intervalli di confidenza per Temperature


intervallo di confidenza al 95,0% per la media: 98,2295 +/- 0,122015 [98,1074; 98,3515]
intervallo di confidenza al 95,0% per la deviazione standard: [0,624081; 0,798114]

Intervalli bootstrap
Media: [98,1147; 98,3372]
Deviazione standard: [0,608285; 0,788895]
Mediana: [98,2; 98,4]

Figura 10-23. Intervalli di confidenza al 95%

NOTA: i vostri risultati potrebbero essere leggermente diversi da quelli mostrati.

167 Analisi di un singolo campione


I primi intervalli, calcolati utilizzando le distribuzioni t di Student e chi-quadrato, sono molto
vicini agli intervalli bootstrap. Questo era prevedibile perché i dati non presentano una
significativa asimmetria o curtosi.

10.8 Verifica di ipotesi


È anche possibile eseguire delle verifiche di ipotesi formali. Per esempio, sappiamo che la
temperatura normale del corpo umano è 98,6 gradi Fahrenheit. Per verificare se i dati in esame
provengono da una distribuzione normale con tale media, possiamo definire le seguenti ipotesi:
Ipotesi nulla: µ = 98,6 gradi
Ipotesi alternativa: µ ≠ 98,6 gradi
Per eseguire la verifica all’interno della procedura Analisi a una variabile, selezionate Verifica di
ipotesi dalla lista del pulsante Tabelle e grafici. Prima di esaminare i risultati, fate clic sul pulsante
Opzioni per il pannello e specificate le opzioni della verifica desiderata:

Figura 10-24. Opzioni per la verifica delle ipotesi

168 Analisi di un singolo campione


Il valore immesso nel campo Media/Mediana rappresenta l’ipotesi nulla. Sotto Ipotesi altern. potete
scegliere una delle tre ipotesi alternative:
1. Diverso: µ ≠ 98,6
2. Minore: µ < 98,6
3. Maggiore: µ > 98,6
Anche se il campione in esame suggerisce una temperatura media inferiore, abbiamo scelto
un’alternativa bilaterale (Diverso). Un test unilaterale con l’ipotesi alternativa
µ < 98,6 gradi, a questo punto dell’analisi, sarebbe soltanto un modo per “curiosare tra i dati”,
perché formuleremmo l’ipotesi dopo avere esaminato i dati.

I risultati della verifica sono i seguenti:

Verifica di ipotesi per Temperature


Media del campione = 98,2295
Mediana del campione = 98,3
Deviazione standard del campione = 0,70038
test t
Ipotesi nulla: media = 98,6
Alternativa: diversa
Statistica t calcolata = -6,00896
P-Value = 1,81264E-8
Rifiutare l'ipotesi nulla per alfa = 0,05.
test per ranghi con segno
Ipotesi nulla: mediana = 98,6
Alternativa: diversa
Rango medio di valori sotto la mediana ipotizzata: 67,7099
Rango medio di valori sopra la mediana ipotizzata: 43,5658
Statistica di test per grandi campioni = 5,07771 (applicata la correzione di continuità)
P-Value = 3,82663E-7
Rifiutare l'ipotesi nulla per alfa = 0,05.

Figura 10-25. Risultati delle verifiche di ipotesi

Sono stati effettuati due test:


1. Un test t standard: suppone che i dati provengano da una distribuzione normale
(sebbene non sia eccessivamente sensibile alle partenze da questa ipotesi).
2. Un test (non parametrico) per ranghi con segno: si basa sui ranghi della distanza di
ciascuna osservazione dalla mediana ipotizzata. Questo test non suppone che la
distribuzione sia normale ed è meno sensibile agli outlier rispetto al test t.

169 Analisi di un singolo campione


In entrambi i casi, il P-value è ben al di sotto di 0,05, e questo suggerisce di rifiutare l’ipotesi che il
campione provenga da una popolazione con una media di 98,6 gradi.

NOTA: la notazione E-8 dopo un numero significa che il numero deve essere
moltiplicato per 10–8. Pertanto, il P-value 1,81264E-8 è pari a 0,0000000181264.

È importante notare che l’intervallo di confidenza per la media, dato nel Paragrafo 10.7, non
includeva il valore 98,6. Qualsiasi valore esterno all’intervallo di confidenza viene scartato
dal test t qui considerato. Pertanto l’intervallo di confidenza può essere considerato come
quell’intervallo che contiene tutti i possibili valori della popolazione che possono essere
supportati dal campione di dati.

10.9 Limiti di tolleranza


Il campione delle temperature del corpo umano richiede un’ulteriore analisi per ottenere i limiti
di tolleranza normali; sono i limiti entro i quali si prevede di trovare una determinata percentuale
della popolazione con un certo livello di confidenza. La procedura per ottenere i limiti di
tolleranza è accessibile dal menu principale:

1. selezionate Descrivi – Dati numerici – Limiti di tolleranza statistici, se state utilizzando il menu
classico;
2. selezionate Analyze – Variabili – Analisi della capacità – Limiti di tolleranza statistici, se state
utilizzando il menu Six Sigma.

La procedura inizia con una finestra nella quale dovrete specificare la dimensione, la media e la
deviazione standard del campione. Utilizzando i risultati della Figura 10-13, i valori da immettere
sono i seguenti:

170 Analisi di un singolo campione


Figura 10-26. La finestra per i limiti di tolleranza

Quando fate clic su OK, prima appare la finestra Opzioni e poi la finestra Tabelle e grafici. L’output
risultante è il seguente:

Limiti di tolleranza statistici


Dimensione del campione = 129
Media del campione = 98,2295
Deviazione standard del campione = 0,70038

Intervallo di tolleranza al 95,0% per 99,0% della popolazione


Xbar +/- 2,88436 sigma
Superiore: 100,25
Inferiore: 96,2093

StatAdvisor
Supponendo che i dati provengano da una distribuzione normale, i limiti di tolleranza stabiliscono che possiamo
essere confidenti al 95,0% che il 99,0% della distribuzione è compresa tra 96,2093 e 100,25. Questo intervallo è
calcolato prendendo la media dei dati +/-2,88436 volte la deviazione standard.

Figura 10-27. Risultati della procedura Limiti di tolleranza statistici

L’interpretazione di StatAdvisor sintetizza in modo conciso i risultati della procedura. Il livello


di confidenza e la percentuale della popolazione possono essere cambiati utilizzando il pulsante
Opzioni per il pannello.
La procedura Limiti di tolleranza statistici genera anche un grafico che mostra i limiti di tolleranza:

171 Analisi di un singolo campione


Figura 10-28. Il grafico con i limiti di tolleranza

Possiamo prevedere, con un livello di confidenza del 95%, che non più di un individuo su 100
avrà una temperatura oltre i limiti di tolleranza calcolati.

172 Analisi di un singolo campione


Capitolo

11
Tutorial 2 – Confrontare
due campioni
Confronto grafico e verifica di ipotesi

Spesso, i dati da analizzare sono formati da due campioni, che potrebbero provenire da
popolazioni differenti. In questi casi, è utile:

1. Rappresentare graficamente i dati in modo che sia possibile un confronto visivo.

2. Verificare le ipotesi per determinare se ci sono differenze statisticamente significative


tra i campioni.

Il Tutorial 1 nel precedente capitolo ha analizzato un campione di temperature corporee


misurate su 130 soggetti, di cui 65 erano femmine e 65 maschi. In questo tutorial, confronteremo
i dati delle femmine con quelli dei maschi.

Per analizzare le temperature corporee, aprite il file bodytemp.sgd selezionando File – Apri – Apri
Sorgente dati.

11.1 Eseguire la procedura di confronto di due campioni


La procedura principale per confrontare i dati di due campioni è Confronta due campioni, che può
essere eseguita in questo modo:

173 Confrontare due campioni


1. selezionate Confronta – Due campioni – Campioni indipendenti, se utilizzate il menu classico;

2. selezionate Analyze – Variabili – Confronto di due campioni – Campioni indipendenti, se


utilizzate il menu Six Sigma.

Sarà visualizzata la finestra di input di questa procedura:

Figura 11-1. La finestra di input della procedura Confronto di due campioni

Il riquadro Input indica come devono essere immessi i dati dei due campioni:

1. Due colonne di dati – i dati di ciascun campione in una colonna distinta.

2. Colonne di dati e codici – i dati di entrambi i campioni nella stessa colonna; una seconda
colonna contiene i codici che distinguono i due campioni.

Il file bodytemp.sgd ha il secondo tipo di struttura, con tutte le n = 130 osservazioni in un’unica
colonna, chiamata Temperature, mentre una seconda colonna, Gender, contiene l’etichetta
“Female” (femmina) o “Male” (maschio). Nel campo Seleziona è stata inserita un’espressione per
selezionare soltanto le righe il cui valore di temperatura è minore o uguale a 100 gradi
Fahrenheit. L’espressione escluderà dall’analisi il valore della riga 15, perché è un outlier, come
determinato nel Capitolo 10.

174 Confrontare due campioni


Dopo la finestra Tabelle e grafici, sarà visualizzata la finestra di analisi che contiene quattro
pannelli, con una sintesi dei dati, un istogramma duale, le statistiche di sintesi per gruppo e un
diagramma duale a scatola e baffi:

Figura 11-2. La finestra di analisi della procedura Confronto di due campioni


Dopo avere escluso l’outlier, ci sono n1 = 64 osservazioni per le femmine, che variano da 96,4 a
100,0 gradi, ed n2 = 65 osservazioni per gli uomini, che variano da 96,3 a 99,5 gradi.

11.2 Statistiche di sintesi


La tabella Statistiche di sintesi contiene le statistiche calcolate per ciascun campione:

175 Confrontare due campioni


Statistiche di sintesi per Temperature
Gender=Female Gender=Male
Conteggio 64 65
Media 98,3562 98,1046
Mediana 98,4 98,1
Deviazione standard 0,684262 0,698756
Coeff. di variazione 0,695697% 0,712256%
Minimo 96,4 96,3
Massimo 100,0 99,5
Range 3,6 3,2
Quartile inferiore 98,0 97,6
Quartile superiore 98,8 98,6
Range interquartile 0,8 1,0
Asimmetria std. -1,35246 -0,702297
Curtosi std. 1,49635 -0,610877

Figura 11-3. Statistiche di sintesi per campione

Diverse cose sono particolarmente interessanti:


1. La temperatura media delle femmine è di circa 0,25 gradi più alta di quella dei maschi. La
differenza tra le mediane è 0,30 gradi.
2. La deviazione standard delle femmine è leggermente più piccola di quella dei maschi;
questo indica che le temperature corporee delle femmine potrebbero avere una variabilità
più ridotta di quelle dei maschi.
3. Entrambi i campioni hanno valori di asimmetria e curtosi standardizzate compresi tra –2
e 2. Come spiegato nel Capitolo 10, se i valori di asimmetria e curtosi standardizzate
sono compresi in tale intervallo, si può supporre che i dati provengano da una
distribuzione normale.
Resta da determinare se la differenza apparente tra femmine e maschi sia statisticamente
significativa.

11.3 Istogramma duale


L’istogramma delle frequenze offre un confronto diretto tra i due campioni. Se utilizzate il
pulsante Opzioni per il pannello per modificare il numero di classi in modo che ci siano 25 intervalli
tra 96 e 101 gradi, otterrete il seguente grafico:

176 Confrontare due campioni


Figura 11-4. Istogramma duale delle frequenze
L’istogramma delle femmine è rappresentato sopra la linea orizzontale. L’istogramma dei maschi
è invertito e rappresentato sotto la linea orizzontale. Le forme delle distribuzioni sono simili, con
un possibile spostamento della distribuzione delle femmine a destra di quella dei maschi.

11.4 Diagramma duale a scatola e baffi


La finestra di analisi visualizza anche i diagrammi a scatola e baffi per i due campioni. Come
spiegato nel Capitolo 10, le scatole centrali coprono la metà centrale di ciascun campione. I baffi
si estendono fino ai valori minimo e massimo di ciascun campione, esclusi eventuali punti che
sono eccessivamente distanti dalle scatole. Una linea verticale viene tracciata all’interno di
ciascuna scatola in corrispondenza della mediana del campione, mentre un piccolo segno più
indica la posizione della media del campione.

177 Confrontare due campioni


In questo caso, è particolarmente utile aggiungere le tacche delle mediane tramite il pulsante
Opzioni per il pannello. Il grafico risultante è il seguente:

Figura 11-5. Diagramma duale a scatola e baffi con le tacche delle mediane

Questo diagramma mette in evidenza:


1. uno spostamento apparente del centro della distribuzione delle femmine a destra di
quella dei maschi. Entrambe le medie e le mediane presentano una differenza simile;
2. l’intervallo coperto dalle femmine è più ampio di quello coperto dai maschi, ma soltanto
se si include il punto esterno più piccolo;
3. la tacca della mediana delle femmine si sovrappone leggermente a quella dei maschi.
Le tacche sono tracciate in modo tale che, se le due tacche non si sovrapponessero, si
potrebbe affermare che le due mediane sono significativamente differenti, al livello di
significatività di default del sistema (correntemente pari al 5%). Un confronto più
formale è descritto nel prossimo paragrafo.
Sebbene questo diagramma mostri una differenza tra i centri dei due campioni, resta
indeterminata la significatività statistica di tale differenza.

178 Confrontare due campioni


11.5 Confrontare le deviazioni standard
Il primo confronto formale tra i due campioni consiste nel verificare l’ipotesi che le deviazioni
standard (σ) delle popolazioni da cui provengono i dati siano uguali, contro l’ipotesi che siano
differenti, ovvero:
Ipotesi nulla: σ1 = σ2
Ipotesi alternativa: σ1 ≠ σ2
Questo ci consente di determinare se la differenza apparente tra la variabilità dei maschi e delle
femmine sia statisticamente significativa o se invece sia entro i limiti normali di variabilità casuale
per campioni della dimensione corrente.
Per eseguire la verifica, fate clic sul pulsante Tabelle e grafici nella barra degli strumenti di
analisi e selezionate Confronto di deviazioni standard. I risultati sono i seguenti:

Confronto di deviazioni standard per Temperature


Gender=Female Gender=Male
Deviazione standard 0,684262 0,698756
Varianza 0,468214 0,48826
G.l. 63 64
Rapporto delle varianze = 0,958945

Intervalli di confidenza al 95,0%


Deviazione standard di Gender=Female: [0,582853; 0,828723]
Deviazione standard di Gender=Male: [0,595887; 0,844885]
Rapporto delle varianze: [0,584028; 1,57609]

Test F per confrontare le deviazioni standard


Ipotesi nulla: sigma1 = sigma2
Ipotesi alt.: sigma1 diversa da sigma2
F = 0,958945 P-value = 0,8684
Non rifiutare l'ipotesi nulla per alfa = 0,05.

Figura 11-6. Confronto delle deviazioni standard di due campioni

L’output più importante di questa tabella è evidenziato in rosso:


1. Rapporto delle varianze: visualizza un intervallo di confidenza al 95% per il rapporto tra la
varianza della popolazione delle femmine, σ12, e la varianza della popolazione dei maschi,
σ22. La varianza è una misura della variabilità calcolata elevando al quadrato la deviazione
standard (nota: il confronto della variabilità tra più campioni di solito si basa sulle
varianze, anziché sulle deviazioni standard, perché hanno proprietà matematiche più
interessanti). I valori del rapporto σ12 / σ22 variano da 0,58 a 1,58. Questo indica che la

179 Confrontare due campioni


varianza delle femmine potrebbe essere compresa tra il 58% e il 158% circa della
varianza dei maschi. Questa mancanza di precisione è tipica quando si confrontano
variabilità di campioni relativamente piccoli.
2. Il P-value associato a un test F dell’ipotesi precedentemente definita. Un P-value minore di
0,05 indica una differenza statisticamente significativa tra la varianza delle femmine e
quella dei maschi a un livello di significatività del 5%. Poiché il P-value è molto più grande
di 0,05, non c’è una prova evidente per rifiutare l’ipotesi di varianze uguali e, quindi, di
deviazioni standard uguali.
Dunque, non esiste una prova significativa per concludere che la variabilità delle temperature
corporee delle femmine sia diversa da quella dei maschi.
È importante notare che questo test è molto sensibile all’ipotesi che i campioni provengano
da popolazioni con distribuzioni normali, un’ipotesi che è accettabile in base ai valori di
asimmetria e curtosi standardizzate.

11.6 Confrontare le medie


Il secondo confronto tra i due campioni consiste nel verificare l’ipotesi che le medie (µ) delle due
popolazioni siano uguali:
Ipotesi nulla: µ1 = µ2
Ipotesi alternativa: µ1 ≠ µ2
Per eseguire questa verifica, fate clic di nuovo sul pulsante Tabelle e selezionate Confronto di medie.
I risultati sono i seguenti:

Confronto di medie per Temperature


Intervallo di confidenza al 95,0% per la media di Gender=Female: 98,3562 +/- 0,170924 [98,1853; 98,5272]
Intervallo di confidenza al 95,0% per la media di Gender=Male: 98,1046 +/- 0,173144 [97,9315; 98,2778]
Intervallo di confidenza al 95,0% per la differenza tra le medie
supponendo le varianze uguali: 0,251635 +/- 0,240998 [0,0106371; 0,492632]

test t per confrontare le medie


Ipotesi nulla: media1 = media2
Ipotesi alt.: media1 diversa da media2
supponendo le varianze uguali: t = 2,06616 P-value = 0,040846
Rifiutare l'ipotesi nulla per alfa = 0,05.

Figura 11-7. Confronto delle medie di due campioni

180 Confrontare due campioni


L’output più importante di questa tabella è evidenziato in rosso:

1. Differenza tra le medie (supponendo le varianze uguali): visualizza un intervallo di confidenza


al 95% per la media della popolazione delle femmine meno la media della popolazione
dei maschi. I valori di µ1 – µ2 variano da 0,01 a 0,49. Questo indica che la temperatura
media corporea delle femmine è tra 0,01 e 0,49 gradi più alta di quella dei maschi.

2. Il P-value associato a un test t dell’ipotesi precedentemente definita. Poiché il P-value è più


piccolo di 0,05, c’è una prova sufficiente per rifiutare l’ipotesi di medie uguali e quindi
per dichiarare che le medie delle due popolazioni sono statisticamente diverse a un livello
di significatività del 5%.

Notate che questo test è stato fatto supponendo che le varianze delle due popolazioni fossero
uguali; ciò è stato confermato dal test F nel precedente paragrafo. Se le varianze fossero state
significativamente differenti, avreste potuto eseguire un test t approssimato, facendo clic sul
pulsante Opzioni per il pannello e deselezionando la casella Supponi sigma uguali.

Sembra dunque che le temperature delle femmine provengano da una popolazione con una
temperatura media più alta di quella dei maschi.

11.7 Confrontare le mediane


Se sospettate che i dati possano contenere degli outlier, potete eseguire un test non parametrico
per confrontare le mediane, anziché le medie. I test non parametrici non suppongono che i dati
provengano da distribuzioni normali e tendono a essere meno influenzati da eventuali outlier.

Selezionando Confronto di mediane dalla finestra Tabelle e grafici, eseguirete il test W di Mann-
Whitney (Wilcoxon). In questo test, innanzitutto i dati dei due campioni vengono combinati. I
dati risultanti vengono poi ordinati per rango, da 1 a n1 + n2, e i valori dei dati originali vengono
sostituiti dai rispettivi ranghi. Poi viene costruito un test statistico W confrontando i ranghi medi
delle osservazioni nei due campioni:

181 Confrontare due campioni


Confronto di mediane per Temperature
Mediana del campione 1: 98,4
Mediana del campione 2: 98,1

Test W di Mann-Whitney (Wilcoxon) per confrontare le mediane


Ipotesi nulla: mediana1 = mediana2
Ipotesi alt.: mediana1 diversa da mediana2

Rango medio del campione 1: 71,9219


Rango medio del campione 2: 58,1846

W = 1637,0 P-value = 0,0368312


Rifiutare l'ipotesi nulla per alfa = 0,05.

Figura 11-8. Confronto delle mediane di due campioni


L’interpretazione del test di Mann-Whitney (Wilcoxon) è simile a quella del test t descritto nel
precedente paragrafo, con un P-value piccolo che porta a concludere che le mediane delle due
popolazioni sono significativamente diverse.

11.8 Grafico dei quantili


Per illustrare la differenza tra le due distribuzioni, è possibile affiancare i grafici dei quantili
di ciascun campione selezionando Grafico dei quantili dalla finestra Grafici:

Figura 11-9. I grafici dei quantili affiancati

182 Confrontare due campioni


Il grafico dei quantili illustra la proporzione dei dati in ciascun campione che è minore di un dato
valore di X, come una funzione di X. Se i campioni provengono dalla stessa popolazione, i
grafici dei quantili sono molto vicini. Lo spostamento di un grafico a destra o a sinistra dell’altro
grafico indica una differenza tra le medie dei due campioni. Una differenza nella pendenza delle
curve indica una differenza tra le deviazioni standard.

Nel precedente grafico è evidente che la distribuzione delle femmine è spostata a destra di quella
dei maschi. Complessivamente, però, le pendenze sono simili.

11.9 Test di Kolmogorov-Smirnov per due campioni


Un altro test non parametrico che può essere eseguito se non è sostenibile l’ipotesi di
distribuzione normale è il test di Kolmogorov-Smirnov per due campioni. Questo test si basa sul
calcolo della distanza verticale massima tra le funzioni di distribuzione cumulata (FDC) dei due
campioni, che è pari approssimativamente alla distanza massima tra i due grafici dei quantili della
Figura 11-9. Se la distanza massima è sufficientemente grande, si può affermare che i due
campioni provengono da popolazioni significativamente differenti.
Se selezionate Kolmogorov-Smirnov Test nella finestra Tabelle e grafici, otterrete i seguenti risultati:

Test di Kolmogorov-Smirnov per Temperature


Statistica DN stimata= 0,242548
Statistica K-S bilaterale per grandi campioni = 1,37737
P-value approssimato = 0,0449985

Figura 11-10. L’output del test di Kolmogorov-Smirnov

La distanza verticale massima, indicata con DN, è uguale approssimativamente a 0,24 per le
temperature corporee.
Il P-value è utilizzato per determinare se le distribuzioni sono significativamente diverse tra loro.
Un valore P piccolo porta alla conclusione che la differenza è significativa. Poiché il valore P per
il campione è minore di 0,05, c’è una differenza significativa tra le distribuzioni dei maschi e delle
femmine al livello di significatività del 5%.

Attenzione: se i dati sono eccessivamente arrotondati, questo test potrebbe risultare


inaffidabile, in quanto la FDC (funzione di distribuzione cumulata) empirica potrebbe
variare con notevoli salti. Se possibile, è meglio affidarsi a confronti che si basano su
parametri selezionati delle distribuzioni, come la media, la deviazione standard o la
mediana.

183 Confrontare due campioni


11.10 Grafico quantili-quantili
Un ultimo grafico (accessibile selezionando Grafico quantili-quantili nella finestra Grafici)
rappresenta i quantili stimati di un campione in funzione dei quantili dell’altro campione:

Figura 11-11. Il grafico quantili-quantili delle temperature corporee


In questo grafico c’è un punto che corrisponde a ciascuna osservazione nel più piccolo dei due
campioni. Nell’altro asse è riportato il quantile stimato del campione più grande. Se i campioni
provengono da popolazioni identiche, i punti sono vicini alla diagonale. Uno spostamento
costante a sinistra o a destra indica che c’è una differenza significativa tra i centri delle due
distribuzioni. I punti che divergono dalla retta con una pendenza diversa da quella della
diagonale indicano una differenza significativa nella variabilità. In questo caso, la differenza tra le
popolazioni può essere un po’ più complicata di un semplice spostamento nella media, in quanto
i punti sono più vicini alla retta alle temperature alte e basse che alle temperature centrali.
Sembra che la distribuzione delle temperature delle femmine sia più concentrata al centro
rispetto a quella dei maschi.

184 Confrontare due campioni


Capitolo

12
Tutorial 3 – Confrontare più
di due campioni
Confrontare le medie e le deviazioni standard, ANOVA a una via,
ANOM e metodi grafici

Quando i dati da analizzare appartengono a più di due gruppi, bisogna utilizzare una serie di
tecniche diverse da quelle del precedente capitolo. Per esempio, supponete di dover confrontare
la resistenza di un dispositivo realizzato con 4 materiali differenti. In un tipico esperimento,
potreste estrarre 12 dispositivi per ciascuno dei quattro materiali per confrontarli. I seguenti dati
rappresentano i risultati di tale esperimento:

Materiale A Materiale B Materiale C Materiale D


64,7 60,4 58,3 60,8
64,8 61,8 62,1 60,2
66,8 63,3 62,4 59,8
67,0 61,6 60,3 58,3
64,9 61,0 60,6 56,4
63,7 63,8 60,0 61,6
61,8 60,9 60,3 59,5
64,3 65,1 62,4 62,0
64,3 61,5 61,9 61,4
65,9 60,0 63,1 58,6
63,6 62,9 60,2 59,5
64,6 60,6 58,6 60,0

185 Confrontare più di due campioni


È estremamente importante determinare quale dei materiali produce il dispositivo più resistente
e quali materiali sono statisticamente diversi dagli altri.

Ci sono due metodi per inserire i dati di più campioni in un foglio:

1. Utilizzare una colonna per ciascun campione.

2. Utilizzare un’unica colonna per tutti i dati e creare una seconda colonna dove inserire
i codici che identificano il campione da cui proviene ciascuna osservazione.

In questo esempio abbiamo utilizzato il primo metodo. I dati dei dispositivi sono stati inseriti in
quattro colonne del file widgets.sgd, che potete aprire selezionando File – Apri – Apri Sorgente dati.

12.1 Eseguire la procedura di confronto di più campioni


La procedura Confronto di più campioni è accessibile dal menu principale:

1. selezionate Confronta – Più campioni – Confronto di più campioni, se utilizzate il menu classico;

2. selezionate Analyze – Variabili – Confronto di più campioni – Confronto di più campioni, se


utilizzate il menu Six Sigma.

La finestra iniziale serve a indicare come sono strutturati i dati da analizzare:

Figura 12-1. La finestra iniziale della procedura Confronto di più campioni

In questo caso, i dati sono stati posti in più colonne del foglio.

La seconda finestra richiede i nomi delle colonne che contengono i dati:

186 Confrontare più di due campioni


Figura 12-2. La finestra di input dei dati della procedura Confronto di più campioni

Nel file dei dati campione, le osservazioni sono state poste in quattro colonne, chiamate A, B,
C e D.

Quando fate clic su OK, appare la finestra Tabelle e grafici. Le impostazioni di default possono
essere accettate per questo tutorial.

La finestra di analisi contiene quattro pannelli:

187 Confrontare più di due campioni


Figura 12-3. La finestra di analisi della procedura Confronto di più campioni

Il pannello in alto a sinistra riporta la dimensione e l’intervallo di variazione di ciascun campione.


Il pannello in alto a destra contiene un grafico a dispersione dei dati, qui di seguito ingrandito:

188 Confrontare più di due campioni


Figura 12-4. Grafico a dispersione della resistenza dei dispositivi in funzione del materiale
Notate che molte delle osservazioni si sovrappongono sul grafico. Per risolvere questo
problema, fate doppio clic sul grafico per ingrandire il pannello che lo contiene, poi fate clic sul
pulsante Jitter nella barra degli strumenti di analisi e aggiungete una piccola quantità di spazio
orizzontale spostando verso destra il cursore superiore:

Figura 12-5. La finestra per sparpagliare casualmente i punti del grafico


In questo modo, ciascun punto del grafico sarà spostato di una piccola quantità casuale nella
direzione orizzontale, rendendo più visibili i singoli punti:

189 Confrontare più di due campioni


Figura 12-6. Il grafico a dispersione dopo il jittering
Il jittering influisce soltanto sulla visualizzazione dei punti; non ha alcun effetto sui dati del foglio
né su eventuali calcoli.

12.2 Analisi della varianza


Il primo passo per confrontare più campioni, di solito, consiste nell’eseguire l’analisi della
varianza a una via (ANOVA a una via). L’ANOVA è utilizzata per verificare l’uguaglianza di più
medie scegliendo tra le seguenti ipotesi:

Ipotesi nulla: µA = µB = µC = µD

Ipotesi alternativa: le medie non sono tutte uguali

dove µj rappresenta la media della popolazione da cui proviene il campione j. Rifiutare l’ipotesi
nulla significa che i campioni provengono da popolazioni le cui medie non sono tutte uguali.

L’output dell’ANOVA è contenuto nella tabella ANOVA, che viene visualizzata inizialmente nel
pannello in basso a sinistra della finestra di analisi:

190 Confrontare più di due campioni


Tabella ANOVA
Sorgente Somma dei quadrati G.l. Media dei quadrati Rapporto F P-value
Tra i gruppi 157,882 3 52,6272 22,76 0,0000
Intra-gruppo 101,728 44 2,31201
Totale (Corr.) 259,61 47

Figura 12-7. Tabella dell’analisi della varianza


L’analisi della varianza scompone la variabilità dei dati osservati in due componenti:
la variabilità tra i gruppi, che quantifica le differenze tra i dispositivi fatti di materiali differenti, e
la variabilità all’interno dei gruppi (intra-gruppo), che quantifica le differenze tra dispositivi fatti
dello stesso materiale. Se la variabilità stimata tra i gruppi è significativamente più grande di
quella all’interno dei gruppi, c’è una prova evidente che le medie del gruppo non sono tutte le
stesse.
La quantità chiave nella Figura 12-7 è P-value. Se il P-value è piccolo (minore di 0,05, se si opera al
livello di significatività del 5%), viene rifiutata l’ipotesi che le medie siano uguali. Nell’esempio in
esame, è piccolo il dubbio che le medie siano significativamente differenti.
Nell’ultima edizione di Statistics for Experimenters di Box, Hunter e Hunter (John Wiley and Sons,
2005), gli autori descrivono una nuova forma grafica di rappresentare i risultati dell’ANOVA.
Questa nuova forma, ANOVA grafica, è riportata nel pannello in basso a destra:

Figura 12-8. ANOVA grafica

191 Confrontare più di due campioni


Nella parte inferiore del grafico c’è un diagramma a punti dei residui del modello. Nell’ANOVA
a una via, i residui sono uguali alla differenza tra ciascuna osservazione e la media di tutte le
osservazioni del suo gruppo. Nell’esempio in esame, la variabilità osservata nei residui è
indicativa della variabilità naturale tra dispositivi fatti dello stesso materiale. Sopra la linea
centrale sono rappresentate le deviazioni scalate delle medie dei gruppi dalla media globale
di tutte le n = 48 osservazioni. Queste deviazioni sono scalate in modo che la loro variabilità
possa essere confrontata con quella dei residui. I gruppi i cui punti sono troppo distanti per
provenire da una distribuzione con una dispersione simile a quella dei residui probabilmente
corrispondono a popolazioni differenti.
Nella Figura 12-8, il gruppo A sembra nettamente separato dagli altri gruppi. La separazione
delle altre tre medie appare meno evidente. Un confronto più formale delle quattro medie dei
campioni è descritto nel prossimo paragrafo.

12.3 Confrontare le medie


Se il P-value nella tabella ANOVA è piccolo, allora bisogna analizzare le medie dei campioni per
determinare quali medie sono significativamente diverse dalle altre. Un grafico efficace per
svolgere questo compito è Grafico delle medie, che è accessibile tramite il pulsante Tabelle e grafici:

Figura 12-9. Il grafico delle medie

192 Confrontare più di due campioni


Questo grafico mostra le media dei campioni insieme a un intervallo di incertezza attorno a
ciascuna media. L’interpretazione degli intervalli dipende dal tipo di intervallo rappresentato, che
può essere modificato tramite il pulsante Opzioni per il pannello. I due tipi di intervalli più utilizzati
sono:
1. Intervalli LSD (Least Significant Difference) di Fisher. Questi intervalli sono scalati in modo
tale che si possa scegliere una coppia di campioni e dichiarare le loro medie sono
significativamente differenti se gli intervalli non si sovrappongono nella direzione
verticale. Sebbene la probabilità di dichiarare erroneamente differenti due campioni con
questo metodo sia fissata al 5%, se si confrontano molte coppie di medie, la probabilità
di commettere un errore per almeno una coppia aumenta notevolmente.
2. Intervalli HSD (Honestly Significant Difference) di Tukey. Questi intervalli sono scalati per
mantenere il tasso di errore al 5% sull’intero esperimento. Applicando il metodo di
Tukey, non dichiarerete erroneamente che due medie sono significativamente differenti
se esse non si sono in più del 5% delle analisi che avete eseguito.
Gli intervalli nella Figura 12-9 usano il metodo di Tukey. Poiché l’intervallo per il campione A
non si sovrappone a nessun altro intervallo, la media del campione A è significativamente
differente da quella degli altri 3 campioni. Anche il campione B è significativamente differente
dal campione D, perché i loro intervalli non si sovrappongono. Il campione C, invece, non è
significativamente differente da B o D.
La stessa analisi può essere rappresentata in forma tabellare selezionando Test dei range multipli
nella finestra Tabelle e grafici:

Test dei range multipli

Metodo: HSD di Tukey al 95,0%


Conteggio Media Gruppi omogenei
D 12 59,8417 X
C 12 60,85 XX
B 12 61,9083 X
A 12 64,7 X

Contrasto Sig. Differenza +/- Limiti


A–B * 2,79167 1,65755
A–C * 3,85 1,65755
A–D * 4,85833 1,65755
B–C 1,05833 1,65755
B–D * 2,06667 1,65755
C–D 1,00833 1,65755
* indica una differenza statisticamente significativa.

Figura 12-10. Output della procedura Test dei range multipli

193 Confrontare più di due campioni


La parte inferiore dell’output mostra le varie coppie di medie. La colonna Differenza indica
la media del primo gruppo meno quella del secondo. La colonna +/- Limiti indica un intervallo
di incertezza per la differenza. Una coppia per la quale il valore assoluto della differenza supera il
limite è statisticamente significativa al livello di significatività selezionato ed è indicata con un
asterisco (*) nella colonna Sig. Nell’esempio in esame, quattro delle sei coppie di medie
presentano differenze significative.
Nella parte superiore dell’output, i campioni sono ordinati in gruppi omogenei, indicati da una
serie di X. Un gruppo è omogeneo se al suo interno non ci sono differenze significative. In
questo caso, il campione A è un gruppo a sé stante, perché è significativamente differente da
tutti gli altri. Il campione C appartiene a due gruppi, uno con B e uno con D. Occorrerebbero
altri dati per determinare a quale gruppo appartiene effettivamente il campione C.

12.4 Confrontare le mediane


Se sospettate che i dati contengano degli outlier, potete eseguire un test non parametrico in
alternativa all’analisi standard della varianza, selezionando i test di Kruskal-Wallis e Friedman nella
finestra Tabelle. Questi test confrontano le mediane dei campioni, anziché le medie:
Ipotesi nulla: le mediane sono tutte uguali
Ipotesi alternativa: le mediane non sono tutte uguali
Il tipo di test da eseguire può essere scelto tramite il pulsante Opzioni per il pannello. Sono
disponibili due tipi di test:
1. Test di Kruskal-Wallis – Appropriato quando ciascuna colonna contiene un campione
casuale della sua popolazione. In questo caso, le righe non hanno un significato
intrinseco.
2. Test di Friedman – Appropriato quando ciascuna riga rappresenta un blocco, ovvero
il livello di qualche altra variabile. Tipiche variabili di blocco sono i giorni della settimana,
i turni di lavoro o i luoghi di fabbricazione.
Nell’esempio in esame, la riga non ha significato, quindi è appropriato il test di Kruskal-Wallis:
Test di Kruskal-Wallis
Dimensione del campione Rango medio
A 12 40,7917
B 12 25,7917
C 12 19,25
D 12 12,1667
Statistica di test = 27,3735 P-value = 0,00000491592

Figura 12-11. Output del test di Kruskal-Wallis

194 Confrontare più di due campioni


Il dato importante di questa tabella è P-value; poiché questo valore è piccolo (minore di 0,05),
l’ipotesi di mediane uguali viene rifiutata.

Le coppie di mediane possono essere confrontate anche selezionando Diagramma a scatola e baffi
nella finestra Tabelle e grafici e poi utilizzando la finestra Opzioni per il pannello per aggiungere le
tacche delle mediane:

Figura 12-12. Il diagramma a scatola e baffi con le tacche delle mediane


L’intervallo coperto da ciascuna tacca indica l’incertezza associata alla stima della mediana
del corrispondente gruppo. Le tacche sono scalate in modo da poter affermare che due campioni
hanno mediane significativamente differenti, al livello di significatività di default del sistema (5%
di solito), se le loro tacche non si sovrappongono. Nel precedente grafico, le tacche delle
mediane dei campioni B, C e D si sovrappongono, ma la mediana del campione A
è significativamente più grande di quella degli altri 3 campioni.

NOTA: il fenomeno del ripiegamento osservato nella Figura 12-12 si verifica quando
una tacca si estende oltre il limite della scatola.

195 Confrontare più di due campioni


12.5 Confrontare le deviazioni standard
È anche possibile verificare l’ipotesi che le deviazioni standard siano uguali:
Ipotesi nulla: σA = σB = σC = σD
Ipotesi alternativa: le deviazioni standard non sono tutte uguali
Questo può essere fatto selezionando Test delle varianze nella finestra Tabelle e grafici:

Test delle varianze


Test P-value
Test di Levene 0,143286 0,933432

Figura 12-13. Confronto delle varianze


Viene riportato l’output di uno dei quattro test disponibili, in base alle impostazioni della finestra
Opzioni per il pannello. Tre di questi test, incluso quello di Levene, forniscono il P-value. Un P-value
minore di 0,05 porta a rifiutare l’ipotesi di sigma uguali al livello di significatività del 5%. In
questo caso, le deviazioni standard non sono significativamente differenti l’una dall’altra, in
quanto il P-value è molto più grande di 0,05.

In sintesi, sembra che la resistenza media dei dispositivi sia diversa per materiali differenti.
Tuttavia, la variabilità tra dispositivi fatti dello stesso materiale è approssimativamente la stessa
per i quattro materiali.

12.6 Grafico dei residui


Quando si adatta un modello statistico ai dati, è importante esaminare i residui del modello
approssimato. In questa analisi, c’è un residuo in corrispondenza di ciascuno degli n = 48
dispositivi, definito come la differenza tra la resistenza di un dispositivo e la resistenza media
di tutti i dispositivi fatti dello stesso materiale.

La finestra Grafici contiene un’opzione per generare automaticamente i Grafici dei residui. In base
all’impostazione della finestra Opzioni per il pannello, potete rappresentare i residui per gruppo, in
funzione dei valori previsti, o in ordine di riga come si trovano nel foglio. Il seguente grafico
rappresenta i residui in funzione del valore previsto della resistenza dei dispositivi (opzione
Residui vs Previsti nella finestra Opzioni per il pannello):

196 Confrontare più di due campioni


Figura 12-14. Grafico dei residui in funzione dei valori previsti di resistenza dei dispositivi

In questi tipi di grafici dovreste ricercare:


1. Outlier – Residui molto distanti da tutti gli altri. Questi punti richiedono un’indagine
più approfondita per scoprire se esiste una causa che spiega il loro comportamento
anomalo.
2. Eteroschedasticità – Una variazione sistematica della varianza all’aumentare o al diminuire
dei valori previsti. Questa condizione si manifesta nella tipica forma a imbuto del grafico
e potrebbe richiedere la trasformazione delle osservazioni originali, prendendo i logaritmi
dei dati prima di eseguire l’analisi. Procedure come Test dei range multipli non operano
correttamente quando la variabilità all’interno dei gruppi differisce significativamente
tra i gruppi.
Se necessario, i residui possono essere salvati in una colonna di un foglio qualsiasi facendo clic
sul pulsante Salva i risultati nella barra degli strumenti di analisi.

197 Confrontare più di due campioni


12.7 Grafico per l’analisi delle medie (ANOM)
Un metodo alquanto diverso per confrontare più medie consiste nell’utilizzare il grafico generato
dall’opzione Grafico dell’analisi delle medie (ANOM) della finestra Tabelle e grafici:

Figura 12-15. Grafico per l’analisi delle medie


Ideato per essere simile a un diagramma di controllo, questo grafico visualizza la media di
ciascun campione insieme a una linea verticale tracciata fino alla media globale di tutte le
osservazioni. I limiti di decisione sono rappresentati sopra e sotto la media globale. Le medie che
cadono oltre i limiti possono essere dichiarate significativamente differenti dalla media globale.

Nell’esempio in esame, l’interpretazione è che i dispositivi del campione A sono


significativamente più resistenti della media, mentre quelli dei campioni C e D sono
significativamente più deboli della media. In alcuni casi, questo tipo di interpretazione può essere
molto utile.

198 Confrontare più di due campioni


Capitolo

13
Tutorial 4 – Analisi
della regressione
Adattare modelli lineari e non lineari ai dati, scegliere il modello migliore,
analizzare i residui e rappresentare graficamente i risultati

Una delle parti più utilizzate di STATGRAPHICS Centurion XVI è la serie delle procedure che
adatta i modelli di regressione ai dati. In un modello di regressione, una variabile risposta Y è
espressa come una funzione di una o più variabili esplicative X, più il rumore. In molti casi (ma
non in tutti, la funzione è lineare nei coefficienti incogniti, quindi il modello può essere espresso
come:
Yi = β0 + β1X1,i + β2x2,i + β3X3,i + … + βkXk,i + εi
dove l’indice i rappresenta l’i-esima osservazione nel campione dei dati, i coefficienti β sono le
incognite del modello ed ε è una deviazione casuale, che di solito si suppone provenire da una
distribuzione normale con media 0 e deviazione standard σ.
Dato un insieme di dati con una variabile risposta Y e una o più possibili variabili esplicative,
l’obiettivo dell’analisi di regressione è costruire un modello che:

1. descrive le relazioni che esistono tra le variabili, in modo da potere fare una buona
previsione del valore di Y, noti i valori delle variabili X;

2. non contiene più variabili X di quelle necessarie per fare una buona previsione.

L’ultima considerazione a volte è detta parsimonia. I modelli che richiedono poche variabili
esplicative ben selezionate, di solito, danno i migliori risultati.

199 Analisi della regressione


Questo capitolo esamina vari tipi di modelli di regressione. Nel nostro esempio utilizzeremo
come variabile risposta Y il consumo di carburante in città (in miglia per gallone) delle
automobili del file 93cars.sgd. L’obiettivo è costruire un modello dalle altre colonne del file
che permette di prevedere con buona approssimazione il consumo di un’automobile.

13.1 Analisi della correlazione


Per iniziare a costruire un modello di regressione è consigliabile partire dalla procedura Analisi
a più variabili. Questa procedura è accessibile dal menu principale:
1. selezionate Descrivi – Dati numerici – Analisi a più variabili, se utilizzate il menu classico;
2. selezionate Analyze – Variabili – Metodi multivariati – Analisi a più variabili, se utilizzate il
menu Six Sigma.
L’analisi inizia con la seguente finestra di input dei dati:

Figura 13-1. Finestra di input dei dati della procedura Analisi a più variabili

Sono state selezionate sei possibili variabili esplicative, oltre a MPG City. Le potenziali variabili
esplicative sono:

200 Analisi della regressione


X1: Engine Size (litri)
X2: Horsepower (valore massimo)
X3: Length (inch o pollici)
X4: Weight (pound o libbre)
X5: Wheelbase (inch o pollici)
X6: Width (inch o pollici)

Se fate clic su OK, vedrete prima il menu Opzioni, poi la finestra Tabelle e grafici e infine la
seguente finestra di analisi:

Figura 13-2. La finestra di analisi della procedura Analisi a più variabili


Il pannello in alto a sinistra elenca le variabili di input, mentre quello centrale contiene le
statistiche di sintesi. Ci sono in tutto 93 righe nel file 93cars.sf6 che contengono informazioni
complete su tutte le variabili da analizzare.

La matrice nel pannello a destra visualizza i grafici X-Y per ciascuna coppia di variabili:

201 Analisi della regressione


Figura 13-3. La matrice dei grafici con l’aggiunta delle curve di smoothing

Per interpretare il grafico, identificate l’etichetta di una variabile, come MPG City. La variabile
indicata viene rappresentata sull’asse verticale di ciascun grafico di quella riga e sull’asse
orizzontale di ciascun grafico di quella colonna. Pertanto, ogni coppia di variabili è rappresentata
due volte, una volta sopra e una volta sotto la diagonale.
A ciascun grafico della Figura 13-3 è stata aggiunta la versione livellata applicando il metodo di
smoothing LOWESS. Per ottenere lo stesso risultato, ingrandite il pannello che contiene i
grafici, fate clic sul pulsante Smussa/Ruota nella barra degli strumenti di analisi e selezionate
l’opzione LOWESS robusto. I grafici più interessanti si trovano nella prima riga, perché
rappresentano MPG City in funzione di ciascuna delle sei variabili esplicative. Tutte le variabili
sono chiaramente correlate con il consumo di carburante (MPG City), alcune in modo non
lineare. Si nota anche una significativa multicollinearità (correlazione tra variabili esplicative);
questo significa che è possibile utilizzare varie combinazioni di variabili per fare delle buone
previsioni di Y.
La tabella nel pannello in basso a sinistra mostra una matrice di coefficienti di correlazione
stimati per ciascuna coppia di variabili dell’analisi:

202 Analisi della regressione


Correlazioni
MPG City Engine Size Horsepower Length Weight Wheelbase Width
MPG City -0,7100 -0,6726 -0,6662 -0,8431 -0,6671 -0,7205
(93) (93) (93) (93) (93) (93)
0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
Engine Size -0,7100 0,7321 0,7803 0,8451 0,7325 0,8671
(93) (93) (93) (93) (93) (93)
0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
Horsepower -0,6726 0,7321 0,5509 0,7388 0,4869 0,6444
(93) (93) (93) (93) (93) (93)
0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
Length -0,6662 0,7803 0,5509 0,8063 0,8237 0,8221
(93) (93) (93) (93) (93) (93)
0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
Weight -0,8431 0,8451 0,7388 0,8063 0,8719 0,8750
(93) (93) (93) (93) (93) (93)
0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
Wheelbase -0,6671 0,7325 0,4869 0,8237 0,8719 0,8072
(93) (93) (93) (93) (93) (93)
0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
Width -0,7205 0,8671 0,6444 0,8221 0,8750 0,8072
(93) (93) (93) (93) (93) (93)
0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
Correlazione
(dimensione del campione)
P-value

Figura 13-4. La matrice di correlazione

La tabella riporta il coefficiente di correlazione per ciascuna coppia di variabili, il numero di


osservazioni utilizzato per ottenere la stima e un P-value. Un coefficiente di correlazione r è
un numero compreso tra –1 e +1 e misura l’intensità della relazione lineare tra due variabili.
Quanto più la correlazione è vicina a –1 o a +1, tanto più forte è la relazione. Il segno della
correlazione indica la direzione della relazione. Un valore positivo significa che Y aumenta
quando X aumenta. Un valore negativo significa che Y diminuisce quando X aumenta.

Per determinare se due variabili sono significativamente correlate tra loro, si calcola un P-value
per ciascun coefficiente di correlazione. Una coppia di variabili il cui P-value è minore di 0,05
presenta una correlazione lineare statisticamente significativa al livello di significatività del 5%.

La prima riga mostra le correlazioni tra la variabile MPG City e le sei variabili esplicative.
La correlazione più forte è con la variabile Weight, a –0,8431. Il segno meno significa che
all’aumentare di Weight, MPG City diminuisce, e questo non è affatto sorprendente.

203 Analisi della regressione


13.2 Regressione semplice
Il primo modello statistico è una linea retta avente la forma:
MPG City = β0 + β1Weight + ε
In questa equazione, β1 è la pendenza della retta (in miglia per gallone per libbra), mentre βo è
l’intercetta. Per trovare questo modello, selezionate:
1. Relazione – Un fattore – Regressione semplice, se utilizzate il menu classico;
2. Improve – Analisi della regressione – Un fattore – Regressione semplice, se utilizzate il menu
Six Sigma.
La finestra di input dei dati dovrà essere completata in questo modo:

Figura 13-5. La finestra di input dei dati della procedura Regressione semplice

Dopo il menu Opzioni e la finestra Tabelle e grafici, sarà visualizzata la finestra di analisi con
quattro pannelli che forniscono informazioni sul modello e sui residui:

204 Analisi della regressione


Figura 13-6. La finestra di analisi della procedura Regressione semplice

Il pannello in alto a sinistra sintetizza il modello:

205 Analisi della regressione


Regressione semplice - MPG City vs. Weight
Variabile dipendente: MPG City (miles per gallon in city driving)
Variabile indipendente: Weight (pounds)
Modello lineare: Y = a + b*X

Coefficienti
Minimi quadrati Standard T
Parametro Stima Errore Statistica P-value
Intercetta 47,0484 1,67991 28,0064 0,0000
Pendenza -0,00803239 0,000536985 -14,9583 0,0000

Analisi della varianza


Sorgente Somma dei quadrati G.l. Media dei quadrati Rapporto F P-value
Modello 2065,52 1 2065,52 223,75 0,0000
Residuo 840,051 91 9,23133
Totale (Corr.) 2905,57 92

Coefficiente di correlazione = -0,843139


R-quadrato = 71,0883 percento
R-quadrato (adattato per g.l.) = 70,7705 percento
Errore standard della stima = 3,03831
Errore assoluto medio = 1,99274
Statistica di Durbin-Watson = 1,64586 (P=0,0405)
Autocorrelazione residua al lag 1 = 0,176433

Figura 13-7. Statistiche di sintesi della procedura Regressione semplice

Fra tutte le statistiche della precedente tabella queste sono le più importanti:

1. Coefficienti: i coefficienti stimati del modello. Il modello da utilizzare per fare le


previsioni è:
MPG City = 47,0484 – 0,00803239Weight
2. R-quadrato: la percentuale della variabilità di Y che è spiegata dal modello.
Nell’esempio in esame, una regressione lineare con Weight spiega il 71,1% circa
della variabilità di MPG City.

3. P-value: verifica l’ipotesi nulla che il modello approssimato non sia migliore di
un modello che non include Weight. Un P-value minore di 0,05, come nell’esempio in
esame, indica che Weight è un’utile variabile esplicativa di MPG City.

Il grafico nel pannello in alto a destra rappresenta il modello approssimato:

206 Analisi della regressione


Figura 13-8. Il grafico del modello lineare
Il grafico mostra la retta di regressione dei minimi quadrati e due serie di limiti. I limiti interni
rappresentano gli intervalli di confidenza al 95% per il valore medio di Y, per qualsiasi variabile
X. Sono un indice dell’accuratezza con la quale è stata stimata la posizione della retta,
supponendo che la relazione sia lineare. Quanto più è grande il campione, tanto più stretti
sono i limiti. Le rette esterne rappresentano i limiti di previsione al 95% per le nuove
osservazioni. Si stima che il 95% delle osservazioni aggiuntive, simili a quelle del campione,
ricadrà entro questi limiti.
Notate che tre osservazioni, in corrispondenza di piccoli valori di Weight, cadono ben oltre i
limiti di previsione al 95%. Questo potrebbe indicare la presenza di outlier o che il modello non
tiene conto della non linearità della relazione effettiva tra MPG City e Weight.

13.3 Adattare un modello non lineare


La procedura Regressione semplice è anche in grado di adattare vari modelli non lineari ai dati.
Per valutare il miglioramento relativo che è possibile ottenere con i vari modelli, selezionate
Confronto di modelli alternativi dalla finestra Tabelle e grafici. Il programma determinerà tutti i possibili
modelli e li elencherà in ordine decrescente di R-quadrato:

207 Analisi della regressione


Confronto dei modelli alternativi
Modello Correlazione R-quadrato
Curva S 0,9016 81,29%
Reciproco Y, Radice quadrata X 0,8995 80,92%
Reciproco Y, Log X 0,8995 80,90%
Radice quadrata Y, Reciproco X 0,8988 80,78%
Moltiplicativo -0,8981 80,65%
Reciproco Y 0,8969 80,44%
Log Y, Radice quadrata X -0,8919 79,54%
Doppio reciproco -0,8896 79,14%
Reciproco X 0,8888 79,00%
Radice quadrata Y, Log X -0,8879 78,83%
Reciproco Y, X quadrato 0,8852 78,35%
Esponenziale -0,8833 78,03%
Doppia radice quadrata -0,8784 77,16%
Log X -0,8705 75,78%
Radice quadrata Y -0,8668 75,14%
Log Y, X quadrato -0,8611 74,15%
Radice quadrata X -0,8577 73,56%
Y quadrato, Reciproco X 0,8472 71,77%
Lineare -0,8431 71,09%
Radice quadrata Y, X quadrato -0,8393 70,44%
Y quadrato, Log X -0,8146 66,35%
X quadrato -0,8106 65,71%
Y quadrato, Radice quadrata X -0,7957 63,31%
Y quadrato -0,7758 60,18%
Doppio quadrato -0,7346 53,96%
Logistico <nessun adattamento>
Log probit <nessun adattamento>

Figura 13-9. Modelli non lineari alternativi

I modelli all’inizio della lista spiegano la percentuale più grande della variazione della variabile
risposta. R-quadrato è soltanto un criterio che può essere utilizzato per facilitare la scelta di un
modello. I modelli con valori di R-quadrato molto più piccoli di quello all’inizio della lista
potrebbero essere preferiti se avessero più senso nel contesto dei dati.

Nell’esempio in esame, un modello interessante tra i primi della lista è Reciproco Y. Questo
modello ha la forma:

1
= β0 + β1Weight + ε
MPGCity

208 Analisi della regressione


Qui il reciproco delle miglia per gallone (galloni per miglia) è espresso come una funzione
lineare del peso. A volte, le trasformazioni delle variabili Y e X possono portare a modelli
migliori. Per trovare un modello Reciproco Y, fate clic sul pulsante Opzioni di analisi e selezionate
l’opzione Reciproco Y nella successiva finestra. Il modello risultante è il seguente:

Figura 13-10. Il modello Reciproco Y


Sebbene lineare nel reciproco di MPG City, il modello è non lineare nella metrica originale.
Notate inoltre che i limiti di previsione per Weight diventano più grandi al crescere dei valori
previsti. Ciò ha senso nel contesto dei dati, perché significa che la variabilità tra le automobili
più leggere è maggiore di quella delle automobili più pesanti.

13.4 Analisi dei residui


Una volta trovato un modello soddisfacente, bisogna analizzare i suoi residui. In generale,
un residuo può essere immaginato come la differenza tra il valore osservato di Y e il valore
previsto dal modello:
residuo = Y osservato – Y previsto
La procedura Regressione semplice genera automaticamente il grafico dei residui in funzione della
variabile X:

209 Analisi della regressione


Figura 13-11. Grafico dei residui studentizzati
Utilizzando il pulsante Opzioni per il pannello, potete scegliere di rappresentare i residui semplici o
quelli studentizzati; questi ultimi esprimono i residui ordinari precedentemente definiti
dividendoli per i loro errori standard. Un residuo studentizzato quindi indica la distanza
(espressa in numero di errori standard) del valore di un dato dal modello approssimato.
STATGRAPHICS Centurion XVI in effetti usa i residui studentizzati con esclusione. Questi residui
sono calcolati escludendo un’osservazione alla volta, ricalcolando il modello e determinando la
distanza (in numero di errori standard) dell’osservazione esclusa dal nuovo modello. Ciò
permette di ridurre l’influenza degli outlier sul modello quando vengono calcolati i loro residui.
L’opzione Residui anomali nella finestra Tabelle elenca tutti i residui studentizzati che sono
maggiori di 2 in valore assoluto:

Residui anomali
Previsto Residuo
Riga X Y Y Residuo studentizzato
5 3640,0 22,0 18,0808 3,91924 -2,38
36 3735,0 15,0 17,6366 -2,63658 2,41
42 2350,0 42,0 27,4778 14,5222 -3,11
57 2895,0 17,0 22,5306 -5,53064 3,60
91 2810,0 18,0 23,1816 -5,18157 3,04

Figura 13-12. La tabella dei residui anomali

210 Analisi della regressione


I residui studentizzati maggiori di 3, come nella riga 57, sono potenziali outlier perché sono
anomali rispetto agli altri dati. La riga 57 corrisponde a una Mazda RX-7, il cui record indica che
può percorrere soltanto 17 miglia per gallone in città, nonostante il valore previsto dal modello
sia 22.5 mpg. Poiché nel prossimo paragrafo saranno aggiunte altre variabili al modello, per
migliorare la capacità di previsione per queste auto sportive, la riga 57 non sarà esclusa dai
calcoli, sebbene richieda un’attenzione particolare.

13.5 Regressione multipla


Per migliorare il modello, occorre aggiungere altre variabili esplicative. Questo può essere fatto
agevolmente utilizzando la procedura Regressione multipla, che è accessibile dal menu principale:
1. selezionate Relazione – Più fattori – Regressione multipla, se utilizzate il menu classico;
2. selezionate Improve – Analisi della regressione – Più fattori – Regressione multipla, se utilizzate
il menu Six Sigma.
La finestra di input dei dati ha la seguente forma:

Figura 13-13. La finestra di input della procedura Regressione multipla

211 Analisi della regressione


Inizialmente, saranno utilizzate come variabili indipendenti tutte le variabili esplicative
considerate nella procedura Analisi a più variabili, precedentemente descritta. La variabile
dipendente è il reciproco di MPG City, che esprime il consumo in galloni per miglia. Prima viene
visualizzato il menu Opzioni, poi appare la finestra Tabelle e grafici. I risultati dell’analisi sono
elencati qui di seguito:

Regressione multipla - 1/MPG City


Variabile dipendente: 1/MPG City
Variabili indipendenti:
Engine Size (liters)
Horsepower (maximum)
Length (inches)
Weight (pounds)
Wheelbase (inches)
Width (inches)

Errore Statistica
Parametro Stima standard T P-value
COSTANTE 0,0155897 0,0177088 0,880334 0,3811
Engine Size 0,00072849 0,000980504 0,742974 0,4595
Horsepower 0,0000132632 0,000014911 0,889485 0,3762
Length -0,000101355 0,0000608857 -1,66468 0,0996
Weight 0,0000149727 0,00000242804 6,1666 0,0000
Wheelbase -0,000148122 0,000163073 -0,908321 0,3662
Width 0,000223526 0,00028967 0,771658 0,4424

Analisi della varianza


Sorgente Somma dei quadrati G.l. Media dei quadrati Rapporto F P-value
Modello 0,00705967 6 0,00117661 67,64 0,0000
Residuo 0,001496 86 0,0000173954
Totale (Corr.) 0,00855567 92
R-quadrato = 82,5145 percento
R-quadrato (adattato per g.l.) = 81,2946 percento
Errore standard della stima = 0,00417077
Errore assoluto medio = 0,00304978
Statistica di Durbin-Watson = 1,6264 (P=0,0306)
Autocorrelazione residua al lag 1 = 0,186005
StatAdvisor
L'output mostra i risultati dell'adattamento di un modello di regressione lineare multipla per descrivere la
relazione tra 1/MPG City e 6 variabili indipendenti. L'equazione del modello adattato è
1/MPG City = 0,0155897 + 0,00072849*Engine Size + 0,0000132632*Horsepower - 0,000101355*Length +
0,0000149727*Weight - 0,000148122*Wheelbase + 0,000223526*Width
Poiché il P-value nella tabella ANOVA è minore di 0,05, c'è una relazione statisticamente significativa tra le
variabili al livello di confidenza del 95,0%.
Figura 13-14. Risultati della procedura Regressione multipla con 6 variabili esplicative

212 Analisi della regressione


Notate che la statistica R-quadrato è aumentata all’82.5%. Tuttavia, il modello si è inutilmente
complicato. Nella prima tabella c’è la colonna P-value. Questi valori P verificano l’ipotesi
che il coefficiente corrispondente a una determinata variabile sia 0, supponendo che tutte
le altre variabili restino nel modello. I P-value maggiori di 0,05 indicano che una variabile
non contribuisce significativamente al processo di approssimazione del modello, in presenza
di tutte le altre variabili.
Tranne Weight, tutte le altre variabili esplicative hanno P-value maggiori di 0,05. Questo significa
che almeno una di queste variabili esplicative può essere esclusa senza danneggiare
significativamente il modello.

NOTA: sarebbe sbagliato a questo punto pensare di potere escludere dal modello tutte
le variabili esplicative che hanno un P-value maggiore di 0,05. A causa dell’elevata
multicollinearità dei dati, tutti i P-value possono cambiare drasticamente anche se viene
rimossa una sola variabile dal modello.

Un metodo efficace per semplificare il modello consiste nell’eseguire una regressione graduale.
In una regressione graduale, le variabili vengono aggiunte o rimosse da un modello di
regressione una alla volta, con l’obiettivo di ottenere un modello che contiene soltanto le
variabili esplicative significative, senza escludere alcuna variabile utile. Per eseguire la regressione
graduale, fate clic sul pulsante Opzioni di analisi:

Figura 13-15. La finestra con le opzioni della procedura Regressione multipla

213 Analisi della regressione


Sono disponibili due opzioni per la regressione graduale:
1. Selezione in avanti – Inizia con un modello che contiene soltanto una costante e introduce
le variabili una alla volta se migliorano significativamente il modello.
2. Selezione all’indietro – Inizia con un modello che contiene tutte le variabili e le esclude una
alla volta finché non resteranno tutte le variabili statisticamente significative.
In entrambi i metodi, le variabili rimosse potranno essere reinserite successivamente,
se dovessero rivelarsi utili, e le variabili inizialmente incluse nel modello potranno essere rimosse,
se dovessero risultare poco significative.
Se scegliete l’opzione Selezione all’indietro, otterrete il seguente modello:

Regressione multipla - 1/MPG City


Variabile dipendente: 1/MPG City
Variabili indipendenti:
Engine Size (liters)
Horsepower (maximum)
Length (inches)
Weight (pounds)
Wheelbase (inches)
Width (inches)
Errore Statistica
Parametro Stima standard T P-value
COSTANTE 0,0034427 0,00243602 1,41325 0,1610
Horsepower 0,0000260839 0,0000124356 2,09752 0,0388
Weight 0,0000129513 0,0000011041 11,7302 0,0000
Analisi della varianza
Sorgente Somma dei quadrati G.l. Media dei quadrati Rapporto F P-value
Modello 0,00696044 2 0,00348022 196,35 0,0000
Residuo 0,00159524 90 0,0000177249
Totale (Corr.) 0,00855567 92
R-quadrato = 81,3546 percento
R-quadrato (adattato per g.l.) = 80,9403 percento
Errore standard della stima = 0,00421009
Errore assoluto medio = 0,00313061
Statistica di Durbin-Watson = 1,62892 (P=0,0338)
Autocorrelazione residua al lag 1 = 0,184113
StatAdvisor
L'output mostra i risultati dell'adattamento di un modello di regressione lineare multipla per descrivere la relazione tra
1/MPG City e 6 variabili indipendenti. L'equazione del modello adattato è
1/MPG City = 0,0034427 + 0,0000260839*Horsepower + 0,0000129513*Weight
Poiché il P-value nella tabella ANOVA è minore di 0,05, c'è una relazione statisticamente significativa tra le variabili al
livello di confidenza del 95,0%.
Figura 13-16. Output della procedura Regressione multipla con l’opzione Selezione all’indietro

214 Analisi della regressione


Soltanto due variabili sono rimaste nel modello: Horsepower e Weight. Entrambe hanno un P-value
minore di 0,05.

Una volta trovata l’equazione matematica, è utile analizzare la sua rappresentazione grafica.
Se il modello contiene due variabili esplicative, l’equazione rappresenta una superficie
tridimensionale, detta anche superficie risposta. Nel caso in esame, l’equazione corrisponde
a un piano, perché Horsepower e Weight entrano nel modello in modo lineare.

Per rappresentare il modello, potete utilizzare la procedura Grafici a superficie e a contorno copiando
la funzione da rappresentare e definire i titoli e le scale in uno dei seguenti modi:

1. Se state utilizzando il menu classico, selezionate Grafici – Grafici a superficie e a contorno.

2. Se state utilizzando il menu Six Sigma, selezionate Strumenti – Grafici a superficie e a contorno.

Nella finestra di input, digitate l’equazione del modello, indicando le due variabili esplicative con
X e Y. Il modo più semplice per fare questo consiste nell’incollare l’equazione generata dalla
procedura Regressione multipla, cambiando Horsepower in X e Weight in Y:

Figura 13-17 La finestra di input della procedura Grafici a superficie e a contorno

215 Analisi della regressione


Dovrete modificare anche le scale degli assi X e Y per adattarle ai dati utilizzati per trovare
il modello.

Se fate clic su OK, sarà visualizzata la finestra Tabelle e grafici. Facendo di nuovo clic su OK, sarà
generato un grafico a superficie. Il grafico iniziale assume la forma di una superficie a rete:

Figura 13-18. Il grafico a superficie con etichette e scale di default

Potete migliorare l’aspetto di questo grafico:

Utilizzate il pulsante Opzioni per il grafico nella barra degli strumenti di analisi e cambiate
le etichette e le scale degli assi nelle schede Titolo principale, Asse X, Asse Y e Asse Z.
In particolare:

• Cambiate il titolo dell’asse X in Horsepower.

• Cambiate il titolo dell’asse Y in Weight.

216 Analisi della regressione


• Cambiate la scala dell’asse Y in modo che vari da 1500 a 4500 con incrementi
di 1000.

• Cambiate il titolo dell’asse Z in 1/MPG City.

Fate clic sul pulsante Opzioni per il pannello e modificate il tipo di grafico visualizzato:

Figura 13-19. Opzioni per il grafico a superficie

Impostate il campo Tipo in Contornata e il campo Contorni in Continui. Il risultato finale


è il seguente:

217 Analisi della regressione


Figura 13-20. Grafico del modello

Le auto che consumano più benzina si trovano nell’angolo posteriore destro del grafico:
auto grandi con motori potenti.

218 Analisi della regressione


Capitolo

14
Tutorial 5 – Analisi dei dati
qualitativi
Tabella delle frequenze, tabelle di contingenza e analisi di Pareto

I primi quattro tutorial trattano dati quantitativi, dove le osservazioni sono rappresentate
da numeri variabili su scala continua. Questo tutorial esamina un insieme di dati qualitativi o
attributi, dove ciascuna osservazione rappresenta una categoria nella quale è stato classificato
un attributo, anziché una misura.

Come esempio consideriamo i dati contenuti nel file defects.sgd. Una porzione di questo file è
riportata qui di seguito:

Defect Facility
Misaligned Virginia
Contaminated Texas
Contaminated Virginia
Contaminated Texas
Missing parts Texas
Misaligned Virginia
Contaminated Texas
Leaking Texas
Damaged Virginia
Contaminated Texas

219 Analisi dei dati qualitativi


I dati sono formati da n = 120 righe, ciascuna delle quali riporta il tipo di difetto che è stato
osservato in un elemento prodotto nello stabilimento della Virginia o del Texas.

14.1 Sintetizzare i dati qualitativi


Ignorando per il momento lo stabilimento dove ciascun elemento è stato prodotto, i dati sul tipo
di difetto possono essere sintetizzati, selezionando:

1. Descrivi – Dati categoriali – Tabulazione, se utilizzate il menu classico;

2. Analyze – Attributi – Un fattore – Tabulazione, se utilizzate il menu Six Sigma.

La finestra di input richiede una sola colonna che contiene i dati qualitativi:

Figura 14-1. Finestra di input della procedura Tabulazione

La procedura esamina la colonna, identificando i valori unici. Dopo la finestra Tabelle e grafici,
viene visualizzata una finestra di analisi simile alla seguente:

220 Analisi dei dati qualitativi


Figura 14-2. La finestra di analisi della procedura Tabulazione

Il pannello in alto a sinistra indica che sono stati trovati 9 valori unici nelle 120 righe. Nei
pannelli a destra, i grafici a barre e a torta illustrano le frequenze osservate per i vari tipi di difetti,
che sono riportati anche nel pannello in basso a sinistra. Il tipo di difetto più comune è
“Contaminated”, che rappresenta il 44% circa di tutti i difetti.

14.2 Analisi di Pareto


La procedura Tabulazione delle frequenze elenca i tipi di difetti in ordine alfabetico. Per ordinare i
difetti dal tipo più frequente a quello meno frequente, utilizzate la procedura Analisi di Pareto. Per
eseguire questa analisi, selezionate:

1. SPC – Stima della qualità – Analisi di Pareto, se utilizzate il menu classico.

2. Analyze – Attributi – Un fattore – Analisi di Pareto, se utilizzate il menu Six Sigma.

221 Analisi dei dati qualitativi


La finestra di input dovrà essere completata in questo modo:

Figura 14-3. La finestra di input della procedura Analisi di Pareto


La procedura Analisi di Pareto accetta i dati in due formati:

1. Osservazioni – Non tabulate, per i dati che richiedono di essere contati, come nell’esempio
in esame.

2. Conteggi - Tabulati, per i dati che sono già stati raggruppati per tipo di difetto. Questo
formato si può applicare se i dati sono su due colonne, una che identifica i tipi di difetti e
l’altra che contiene il numero di volte che si verifica ciascun difetto.

La finestra di analisi visualizza una tabella di sintesi e un diagramma di Pareto:

222 Analisi dei dati qualitativi


Figura 14-4. La finestra dell’analisi di Pareto
Particolarmente interessante è il diagramma di Pareto nel pannello a destra, che rappresenta le
frequenze dei vari tipi di difetti, dal più comune al meno comune. Inizialmente, le etichette delle
barre si sovrappongono perché troppo numerose e lunghe. Per risolvere questo problema:

1. Fate doppio clic in un punto del grafico per ingrandire il pannello che lo contiene.

2. Fate clic prima sul pulsante Opzioni per il grafico nella barra degli strumenti di analisi e poi
sulla scheda X-Axis; selezionate l’opzione Ruotare le etichette.

3. Una volta chiusa la finestra Opzioni per il grafico, se le etichette non si adattano
perfettamente allo schermo, tenendo premuto il pulsante del mouse, trascinate la parte
principale del grafico verso l’alto oppure trascinate l’asse X verso l’alto per ridurre la
dimensione dell’asse verticale.

Alla fine, il diagramma di Pareto dovrebbe essere simile al seguente:

223 Analisi dei dati qualitativi


Figura 14-5. Il diagramma di Pareto ingrandito
Le barre verticali nel diagramma di Pareto hanno un’altezza che è proporzionale al numero
di volte che si verifica un tipo di difetto. La poligonale sopra le barre rappresenta le frequenze
cumulate da sinistra a destra. Sopra ogni barra è riportata la percentuale dei difetti che si
verificano in una particolare classe o nelle classi a sinistra.

Il principio di base dell’analisi di Pareto stabilisce che la grande maggioranza dei difetti di solito è
dovuta a un piccolo numero di cause. In questo caso, i tre tipi di difetti più frequenti
rappresentano oltre l’80% di tutti i difetti.

14.3 Tabulazione incrociata


Il file defects.sgd contiene un’identificazione dello stabilimento dove è stato prodotto l’elemento
difettoso. Per sintetizzare i dati per tipo di difetto e stabilimento, selezionate:
1. Descrivi – Dati categoriali – Tabulazione incrociata, se utilizzate il menu classico;
2. Analyze – Attributi – Più fattori – Tabulazione incrociata, se utilizzate il menu Six Sigma.

224 Analisi dei dati qualitativi


La finestra di input richiede due colonne di dati, una che definisce le righe di una tabella a doppia
entrata o tabella di contingenza e l’altra che definisce le colonne:

Figura 14-6. La finestra di input della procedura Tabulazione incrociata

Dopo le finestre Opzioni e Tabelle e grafici, sarà generata la seguente finestra di analisi:

225 Analisi dei dati qualitativi


Figura 14-7. La finestra di analisi della procedura Tabulazione incrociata

La tabella nel pannello in basso a sinistra riporta i dati per tipo di difetto e stabilimento:

226 Analisi dei dati qualitativi


Tabella delle frequenze per Defect per Facility
Texas Virginia Totale di riga
Contaminated 36 17 53
30,00% 14,17% 44,17%
Damaged 10 6 16
8,33% 5,00% 13,33%
Leaking 2 1 3
1,67% 0,83% 2,50%
Misaligned 8 20 28
6,67% 16,67% 23,33%
Misshapen 0 3 3
0,00% 2,50% 2,50%
Missing parts 2 1 3
1,67% 0,83% 2,50%
Poor color 6 2 8
5,00% 1,67% 6,67%
Rusted 2 3 5
1,67% 2,50% 4,17%
Wrong size 1 0 1
0,83% 0,00% 0,83%
Totale di colonna 67 53 120
55,83% 44,17% 100,00%
Contenuto delle celle:
Frequenza osservata
Percentuale di tabella

Figura 14-8. Tabella a doppia entrata con le percentuali di tabella

Ogni cella della tabella indica il numero delle righe nel file di dati che corrispondono a una
particolare combinazione riga-colonna; ogni cella indica anche la percentuale dell’intera tabella
che rappresenta. Per esempio, ci sono 36 elementi contaminati prodotti nello stabilimento del
Texas, che rappresentano il 30% di tutti gli elementi difettosi nel campione.

Il pulsante Opzioni per il pannello consente di selezionare altri elementi da visualizzare in ciascuna
cella:

227 Analisi dei dati qualitativi


Figura 14-9. La finestra con le opzioni per la procedura Tabulazione incrociata

Una scelta interessante per i dati correnti è quella di visualizzare le Percentuali di riga, anziché
quelle di tabella:

Tabella delle frequenze per Defect per Facility


Texas Virginia Totale di riga
Contaminated 36 17 53
67,92% 32,08% 44,17%
Damaged 10 6 16
62,50% 37,50% 13,33%
Leaking 2 1 3
66,67% 33,33% 2,50%
Misaligned 8 20 28
28,57% 71,43% 23,33%
Misshapen 0 3 3
0,00% 100,00% 2,50%
Missing parts 2 1 3
66,67% 33,33% 2,50%
Poor color 6 2 8
75,00% 25,00% 6,67%
Rusted 2 3 5
40,00% 60,00% 4,17%
Wrong size 1 0 1
100,00% 0,00% 0,83%
Totale di colonna 67 53 120
55,83% 44,17% 100,00%
Contenuto delle celle:
Frequenza osservata
Percentuale di riga

Figura 14-10. Tabella a doppia entrata con le percentuali di riga

228 Analisi dei dati qualitativi


Adesso la tabella riporta la percentuale che ciascuna cella rappresenta della propria riga. Per
esempio, il 67,92% di tutti gli elementi contaminati sono stati prodotti in Texas, mentre il
71,43% di tutti gli elementi disallineati sono stati prodotti in Virginia. Questo indica che alcuni
tipi di difetti possono verificarsi più frequentemente in uno stabilimento che in un altro,
un’ipotesi che sarà verificata formalmente nel prossimo paragrafo.

È utile esaminare anche varie rappresentazioni grafiche. Per esempio, il grafico a barre mostra
i dati per tipo di difetto e stabilimento:

Figura 14-11. Il grafico a barre per tipo di difetto e stabilimento

La differenza tra i due stabilimenti è evidente. È interessante esaminare un altro tipo di grafico,
detto grafico a mosaico:

229 Analisi dei dati qualitativi


Figura 14-12. Grafico a mosaico

In questo grafico l’altezza di una barra è proporzionale al numero totale di difetti di un


particolare tipo. La larghezza delle barre è proporzionale alla percentuale relativa di un tipo di
difetto in un determinato stabilimento. Di conseguenza, l’area totale di un rettangolo è
proporzionale alla frequenza della corrispondente cella nella tabella a doppia entrata.

Se necessario, le frequenze delle celle possono essere visualizzate anche in tre dimensioni,
selezionando Grafico sky nella finestra Tabelle e grafici:

230 Analisi dei dati qualitativi


Figura 14-13. Il grafico sky tridimensionale

In un grafico sky l’altezza di ciascuna barra rappresenta la frequenza di una cella nella tabella
di contingenza.

14.4 Confrontare due o più campioni


Per determinare se le differenze apparenti tra gli stabilimenti del Texas e della Virginia sono
statisticamente significative, selezionate Test di indipendenza nella finestra Tabelle e grafici. Per una
tabella di queste dimensioni, la procedura visualizza i risultati di un test chi-quadrato:

Test di indipendenza
Test Statistica G.l. P-value
Chi-quadrato 18,438 8 0,0182
Attenzione: alcuni conteggi < 5.

Figura 14-14. Risultato del test chi-quadrato per la procedura Test di indipendenza
Il test chi-quadrato è utilizzato per verificare due ipotesi:
Ipotesi nulla: le classificazioni di righe e colonne sono indipendenti.
Ipotesi alternativa: le classificazioni di righe e colonne non sono indipendenti.

231 Analisi dei dati qualitativi


L’indipendenza implica che il tipo di difetto trovato in un elemento non ha nulla a che fare con
lo stabilimento dove è stato fabbricato l’elemento.

Per il test chi-quadrato, un piccolo P-value indica che le classificazioni di righe e colonne non
sono indipendenti. In questo caso, il P-value è minore di 0,05, indicando al livello di significatività
del 5% che la distribuzione dei tipi di difetti nello stabilimento del Texas è diversa da quella dello
stabilimento della Virginia.

Il programma visualizza anche un avvertimento, perché alcuni numeri nelle celle della tabella a
doppia entrata sono minori di 5 (tecnicamente, il messaggio di avvertimento si verifica se il
numero atteso in una cella è minore di 5, supponendo che l’ipotesi nulla sia vera). Con piccoli
numeri nelle celle, il P-value potrebbe essere inaffidabile. Una soluzione di questo problema
consiste nel raggruppare tutti i tipi di difetti meno frequenti in una singola classe e nel ripetere il
test. Questo può essere fatto facilmente in STATGRAPHICS Centurion XVI nel modo
seguente:

1. Ritornate al DataBook e fate clic sull’intestazione della colonna Defect per selezionarla.

2. Premete il pulsante destro del mouse e selezionate Ricodifica dati dal menu popup.

3. Completate la finestra Ricodifica dati come mostra la seguente illustrazione per combinare
i tipi di difetti meno comuni in un’unica classe chiamata “Altro”:

232 Analisi dei dati qualitativi


Figura 14-15. Ricodifica dei difetti meno frequenti

Le voci nella finestra Ricodifica dati indicano al programma di ricercare i valori nella colonna
Defect che cadono all’interno di ciascun intervallo. Qualsiasi etichetta che cade alfabeticamente
tra i limiti indicati in una data riga viene ricodificata con il valore specificato nella colonna
Nuovo valore.

Dopo avere eseguito l’operazione di ricodifica, ritornate alla finestra di analisi Tabulazione
incrociata. L’analisi sarà automaticamente aggiornata conformemente alle modifiche del foglio.
La nuova classe Altro adesso ha una frequenza relativamente elevata, come mostra il nuovo
grafico a mosaico:

233 Analisi dei dati qualitativi


Figura 14-16. Il grafico a mosaico per i dati ricodificati
Dopo la ricodifica, il test chi-quadrato indica ancora una differenza statisticamente significativa
tra gli stabilimenti del Texas e della Virginia:

Test di indipendenza
Test Statistica G.l. P-value
Chi-quadrato 11,874 3 0,0078

StatAdvisor
Questa tabella mostra i risultati di un test di ipotesi eseguito per determinare se rifiutare o no l'ipotesi che le classificazioni
di righe e colonne siano indipendenti. Poiché il P-value è minore di 0,05, possiamo rifiutare l'ipotesi che righe e colonne
siano indipendenti al livello di confidenza del 95,0%. Quindi, il valore osservato di Defect per un particolare caso è in
relazione con il suo valore per Facility.
Figura 14-17. Test chi-quadrato dopo la ricodifica dei dati

Sembra quindi che il tipo di difetto sia in relazione con lo stabilimento dove è stato prodotto
l’elemento.

È importante notare che il precedente test confronta la distribuzione dei tipi di difetti tra i due
stabilimenti; non confronta i numeri o le percentuali degli elementi difettosi in ciascuno
stabilimento. Tale confronto richiede un test differente, che è descritto nel prossimo paragrafo.

234 Analisi dei dati qualitativi


14.5 Tabelle di contingenza
Per determinare se uno stabilimento produce più elementi difettosi di un altro, bisogna
conoscere la produzione totale di ciascuno stabilimento. Supponete che il seguente prospetto
riporti la produzione di un mese:

Stabilimento Numero di Numero di elementi


elementi difettosi prodotti
Texas 67 6,237
Virginia 53 7,343

Sia θ1 la proporzione degli elementi difettosi prodotti in Texas. Sia θ2 la proporzione degli
elementi difettosi prodotti in Virginia. Le proporzioni stimate sono date da:

67 53
θˆ1 = = 0.0107 θˆ2 = = 0.0072
6237 7343

In base a questi dati, sembra che la percentuale degli elementi difettosi prodotti in Texas sia
maggiore di quella degli elementi difettosi prodotti in Virginia. Per determinare se questa
differenza apparente sia statisticamente significativa, create il seguente foglio:

Figura 14-18. Il foglio per confrontare due proporzioni

Le righe contengono il numero degli elementi difettosi e quello degli elementi senza difetti.
Selezionate Tabelle di contingenza dallo stesso menu di Tabulazione incrociata; poi completate la
finestra di input:

235 Analisi dei dati qualitativi


Figura 14-19. La finestra di input della procedura Tabelle di contingenza

L’analisi fornisce un test chi-quadrato della tabella 2 per 2:

Test di indipendenza
Test Statistica G.l. P-value
Chi-quadrato 4,783 1 0,0287

Figura 14-20. Test chi-quadrato della tabella 2 per 2


Ricordiamo che il test chi-quadrato determina se le classificazioni di righe e colonne sono
indipendenti. In questo caso, indipendenza significa che la presenza o l’assenza di difetti in un
elemento non ha nulla a che fare con lo stabilimento dove l’elemento è stato prodotto.

Poiché il P-value nella precedente tabella è minore di 0,05, l’ipotesi di indipendenza viene rifiutata
al livello di significatività del 5%. Possiamo quindi concludere che le proporzioni dei difetti nei
due stabilimenti sono significativamente differenti.

236 Analisi dei dati qualitativi


Capitolo

15
Tutorial 6 – Analisi
della capacità di un processo
Determinare il valore dei difetti per milione o la percentuale di difetti
oltre i limiti di specifica

STATGRAPHICS Centurion XVI è largamente utilizzato dalle persone che hanno la


responsabilità di garantire che i loro prodotti e servizi siano di altissima qualità. Un tipico
compito di queste persone è raccogliere i dati dal processo e verificare che siano entro i limiti
imposti dalle specifiche. L’output di questo tipo di analisi della capacità è una stima di come il
processo sia capace di soddisfare le specifiche. Six Sigma, che è una metodologia ampiamente
adottata per raggiungere livelli di qualità eccellente, impone un limite di non conformità pari a
3,4 difetti per milione (DPM).
Come esempio, consideriamo un prodotto la cui resistenza deve essere compresa tra 190 e
230 psi. Supponiamo di estrarre n = 100 campioni da un processo di produzione e di misurare
la loro resistenza, i cui valori sono riportati nella seguente tabella:
213,5 203,3 191,3 197,1 205,7 215,6 193,7 201,7 201,5 207,1
207,0 200,4 197,2 202,4 205,2 211,0 214,5 201,5 200,9 206,8
205,8 200,3 196,1 205,9 195,1 203,9 192,9 199,0 195,5 203,1
197,4 194,8 201,0 202,5 199,0 200,7 197,6 198,5 205,3 197,1
202,8 201,6 197,4 200,9 203,3 209,4 201,4 199,5 207,8 204,9
205,5 203,0 208,1 200,2 218,2 202,0 209,3 201,2 200,4 201,0
195,7 229,5 199,9 208,1 210,3 202,0 202,6 213,6 198,0 197,8
196,7 216,0 211,6 208,7 199,4 200,8 201,1 195,3 206,8 211,3
201,5 200,0 211,8 195,6 201,9 199,0 200,3 197,8 200,8 194,8
199,5 195,5 201,0 206,0 215,3 202,6 199,9 200,6 197,6 207,4

237 Analisi della capacità di un processo


Questo capitolo descrive come eseguire una tipica analisi di capacità per questo tipo di dati
quantitativi.

15.1 Rappresentazione dei dati


Il primo passo per esaminare un insieme di dati consiste nel rappresentarli in un grafico. Per un
insieme di dati come quello della precedente tabella, la procedura Analisi a una variabile descritta
nel Capitolo 10 offre diversi strumenti di analisi. Per analizzare questi dati:
1. Aprite il file items.sgd.
2. Eseguite la procedura Analisi a una variabile utilizzando la colonna Strength.
La finestra di analisi iniziale è illustrata qui di seguito:

Figura 15-1. La finestra della procedura Analisi a una variabile

Molti fattori interessanti sono immediatamente evidenti:

238 Analisi della capacità di un processo


1. I dati sono tutti entro i limiti della specifica, anche se per poco, perché variano da 191,3
a 229,5.
2. Il diagramma a scatola e baffi mostra un punto molto distante (un piccolo quadrato con
un segno più all’interno). Punti come questo, di solito, vengono considerati outlier, se il
resto dei dati appartiene a una distribuzione normale. Nell’esempio in esame, però, pur
ignorando questo outlier sospetto, la forma della scatola non è molto simmetrica. Il baffo
a destra è più lungo di quello a sinistra e la scatola si estende più a destra che a sinistra
della mediana (la linea verticale all’interno della scatola).
3. Se ingrandite il pannello Statistiche di sintesi, noterete che l’asimmetria standardizzata è pari
a 4,94. Se i dati provengono da una distribuzione normale, questo valore è compreso tra
–2 e +2. Anche se si elimina il valore più grande, l’asimmetria standardizzata si riduce
soltanto a 2,81.
È anche utile esaminare l’istogramma delle frequenze; per ottenerlo, fate clic sul pulsante Tabelle e
grafici nella barra degli strumenti di analisi e selezionate Istogramma delle frequenze nella finestra
Grafici; ingrandite il grafico e utilizzate Opzioni per il pannello per modificare il numero e i limiti
delle classi, come indica la seguente figura:

Figura 15-2. Istogramma delle frequenze

I dati presentano un’evidente asimmetria positiva, in quanto si estendono più a destra che
a sinistra del picco.

239 Analisi della capacità di un processo


I dati non normali come quelli in esame sono comuni. Un semplice approccio per trattarli
consiste nell’ignorare la non normalità e nel calcolare gli indici, come Cpk, utilizzando le formule
progettate per i dati di una distribuzione normale. Come vedremo in questo tutorial, ignorando
la non normalità, si possono ottenere risultati errati, sovrastimando o sottostimando la
percentuale dei prodotti che cadono oltre i limiti della specifica.

15.2 Procedura di analisi della capacità


STATGRAPHICS Centurion XVI include delle procedure che eseguono l’analisi della capacità
sui dati raccolti uno alla volta (dati singoli) o in sottogruppi (5 osservazioni ogni ora, per
esempio). Supponendo che i dati del campione siano individuali, l’analisi della capacità del
processo può essere eseguita in questo modo:
1. Selezionate SPC – Analisi della capacità – Variabili – Dati singoli, se utilizzate il menu
classico.
2. Selezionate Analyze – Variabili – Analisi della capacità – Dati singoli, se utilizzate il menu
Six Sigma.
La finestra di input richiede il nome della colonna che contiene i dati da analizzare. La colonna
Strength del file items.sgd contiene i dati del campione:

Figura 15-3. La finestra di input della procedura Analisi della capacità

240 Analisi della capacità di un processo


Devono essere indicati anche il limite superiore (LSS), il valore nominale (o target) e il limite
inferiore (LSI) della specifica.

Se fate clic su OK, prima appare la finestra Opzioni e poi la finestra Tabelle e grafici. Per
semplificare, accettate le impostazioni di default in entrambe le finestre.

La finestra di analisi iniziale riporta una sintesi dei dati, una tabella di indici di capacità e un
grafico della capacità:

Figura 15-4. La finestra di analisi della procedura Analisi della capacità

La prima volta che eseguite la procedura Analisi della capacità, il programma adatta ai dati una
distribuzione normale. Il grafico della capacità mostra l’istogramma dei dati insieme alla
distribuzione normale che si adatta meglio ai dati:

241 Analisi della capacità di un processo


Figura 15-5. Il grafico della capacità con la distribuzione normale

In questo grafico le linee verticali più lunghe indicano la posizione dei limiti della specifica
e del valore nominale. La prima delle due linee verticali più corte indica la media meno
3 deviazioni standard; la seconda indica la media più 3 deviazioni standard. È importante
osservare che:

1. La distribuzione normale non approssima molto bene i dati. Sebbene la curva a campana
abbia la stessa media e deviazione standard dei dati, l’asimmetria dei dati fa sì che la
curva non possa adattarsi bene alle barre dell’istogramma.

2. La media del campione è 202,8, che è significativamente minore del valore


nominale (210).

3. Sebbene nessuna delle osservazioni sia più piccola del limite inferiore della specifica,
una buona parte della coda inferiore della distribuzione normale è sotto tale limite.

4. Le linee a più e meno 3 sigma sono abbastanza vicine da rientrare nei limiti della
specifica, anche se sono spostate a sinistra.

Il pannello in alto a sinistra quantifica l’approssimazione:

242 Analisi della capacità di un processo


Analisi della capacità del processo (dati singoli) - Strength
Variabile: Strength (specs are 190-230)

Trasformazione: nessuno

Distribuzione: Normale
dimensione del campione = 100
media = 202,809
dev. std. = 6,23781

6,0 Limiti di sigma


+3,0 sigma = 221,522
media = 202,809
-3,0 sigma = 184,096

Osservato Stimato Difetti


Specifiche Oltre le spec. Z-score Oltre le spec. Per milione
LSS = 230,0 0,000000% 4,36 0,000654% 6,54
Nominale = 210,0 1,15
LSI = 190,0 0,000000% -2,05 2,001465% 20014,65
Totale 0,000000% 2,002119% 20021,19

Figura 15-6. Sintesi della procedura Analisi della capacità


La tabella in basso è molto interessante, perché riporta la stima della percentuale del prodotto
che probabilmente sarà oltre i limiti della specifica. In base alla distribuzione normale che
approssima i dati, la percentuale stimata del prodotto oltre i limiti della specifica è il 2% circa,
pari a 20021 difetti per milione (DPM).

15.3 Caso di dati non normali


Il precedente valore stimato di DPM si basa sull’ipotesi che i dati provengano da una
distribuzione normale. Un controllo formale di questa ipotesi può essere effettuato selezionando
la procedura Test di normalità nella finestra Tabelle e grafici:
Test di normalità per Strength
Test Statistica P-Value
Shapiro-Wilk W 0,931784 0,0000321356

Figura 15-7. Output della procedura Test di normalità


A seconda delle impostazioni del vostro sistema, saranno visualizzati i risultati di uno o più test
di normalità. I test disponibili si basano sulle seguenti ipotesi:
Ipotesi nulla: i dati provengono da una distribuzione normale.
Ipotesi alternativa: i dati non provengono da una distribuzione normale.

243 Analisi della capacità di un processo


Un P-value minore di 0,05 porta a rifiutare l’ipotesi di distribuzione normale al livello di
significatività del 5%.

Nella precedente tabella, il test di Shapiro-Wilk indica chiaramente di rifiutare l’ipotesi che i dati
provengano da una distribuzione normale. Di conseguenza, qualsiasi stima di DPM o indice di
capacità basata sull’ipotesi di normalità non è valida.

Se i dati non sono normali, applicate uno dei seguenti metodi:


1. Scegliete una distribuzione diversa da quella normale su cui basare l’analisi.
2. Trasformate i dati in modo che seguano una distribuzione normale nella metrica
trasformata.
Per aiutarvi a scegliere un’altra distribuzione, STATGRAPHICS Centurion XVI include
l’opzione Confronto di distribuzioni alternative nella finestra Tabelle e grafici. Questa opzione fornisce
varie distribuzioni approssimate e le elenca in funzione della loro bontà di approssimazione.
Utilizzando la selezione di default delle distribuzioni si ottiene il seguente output:

Confronto di distribuzioni alternative


Distribuzione Parametri stim. Log verosimiglianza KS D
Valore estremo massimo 2 -314,65 0,0675422
Laplace 2 -320,055 0,0920985
Loglogistica 2 -320,271 0,0913779
Logistica 2 -321,236 0,0941708
Lognormale 2 -322,763 0,13213
Gamma 2 -323,306 0,134136
Normale 2 -324,457 0,138628
Weibull 2 -348,002 0,177886
Valore estremo minimo 2 -351,782 0,189989
Esponenziale 1 -631,226 0,61064
Pareto 1 -798,174 0,628084

Figura 15-8. Distribuzioni ordinate in funzione della loro bontà di approssimazione


Le distribuzioni sono elencate in funzione del valore della statistica di Kolmogorov-Smirnov,
che misura la distanza massima tra la distribuzione cumulata dei dati e quella approssimata. In
questo caso, la migliore distribuzione approssimata è Valore estremo massimo.

Per utilizzare la distribuzione Valore estremo massimo, fate clic sul pulsante Opzioni di analisi:

244 Analisi della capacità di un processo


Figura 15-9. La finestra con le opzioni per la procedura Analisi della capacità

La distribuzione approssimata risultante è la seguente:

Figura 15-10. La distribuzione approssimata Valore estremo massimo

245 Analisi della capacità di un processo


Notate che la distribuzione è asimmetrica a destra e approssima i dati osservati molto meglio
della distribuzione normale. Le linee verticali più corte sono state posizionate nei limiti 3 sigma
“equivalenti”, ovvero nei limiti entro i quali si trova lo stesso 99,73% della distribuzione
approssimata, come nel caso della media più e meno 3 sigma di una distribuzione normale.
Notate che questi limiti non sono simmetricamente distanti rispetto al picco, a causa
dell’asimmetria positiva della distribuzione.
Il prospetto di sintesi mostra una differenza notevole tra la stima della percentuale del prodotto
che probabilmente sarà oltre i limiti della specifica e quella della precedente distribuzione
normale approssimata:

Analisi della capacità del processo (dati singoli) - Strength


Variabile: Strength (specs are 190-230)

Trasformazione: nessuna

Distribuzione: Valore estremo massimo


dimensione del campione = 100
moda = 200,036
scala = 4,80179
(media = 202,808)
(sigma = 6,15853)

Equivalente 6,0 Limiti di sigma


99,865 percentile = 231,761
mediana = 201,796
0,134996 percentile = 190,969

Osservato Stimato Difetti


Specifiche Oltre le spec. Z-score Oltre le spec. Per milione
LSS = 230,0 0,000000% 2,89 0,194758% 1947,58
Nominale = 210,0 1,19
LSI = 190,0 0,000000% -3,42 0,030805% 308,05
Totale 0,000000% 0,225563% 2255,63

Figura 15-11. Sintesi della procedura Analisi della capacità con la distribuzione approssimata Valore estremo massimo
La percentuale stimata del prodotto oltre i limiti della specifica adesso è soltanto 0,23%, o 2256
DPM, un decimo di quella ottenuta utilizzando la distribuzione normale. In questo caso,
supporre erroneamente che la distribuzione sia normale fa apparire il processo peggiore di
quanto non sia effettivamente.

NOTA: a seconda dei limiti della specifica e della distribuzione reale, supponendo erro-
neamente che la distribuzione sia normale, il processo può apparire significativamente
peggiore o migliore di quando si usa la distribuzione appropriata.

246 Analisi della capacità di un processo


Anziché scegliere una distribuzione diversa da quella normale, è possibile trasformare i dati.
La finestra Opzioni di analisi offre vari tipi di trasformazione dei dati:

Figura 15-12. La finestra con le opzioni per scegliere una trasformazione dei dati

Le opzioni includono il logaritmo naturale, l’elevamento a potenza dei singoli valori e una
trasformazione secondo i metodi di Box e Cox. Quest’ultimo approccio valuta diverse
trasformazioni del tipo Yp utilizzando i metodi di Box e Cox e sceglie un valore ottimale per p.

Se scegliete una trasformazione, il programma adatterà una distribuzione normale ai dati


trasformati. Il seguente grafico mostra i risultati della trasformazione Box-Cox:

247 Analisi della capacità di un processo


Figura 15-13. Il grafico della capacità dopo la trasformazione Box-Cox dei dati

A questo grafico è stata applicata una trasformazione inversa per mostrare la distribuzione
approssimata nella metrica originale. La trasformazione ha avuto un effetto simile sulla forma
della distribuzione, sebbene non così forte come nel caso della distribuzione Valore estremo
massimo. Il valore stimato di DPM è 4169, che è circa due volte quello della distribuzione Valore
estremo massimo, ma ancora molto più piccolo di quello ottenuto nell’ipotesi di distribuzione
normale.

NOTA: la media e la deviazione standard rappresentate nel grafico corrispondono ai


dati trasformati e, in generale, non sono molto utili. STATGRAPHICS Centurion XVI
converte automaticamente tutto nelle unità originali.

Per confrontare i due metodi, copiate il Grafico di probabilità nella finestra Tabelle e grafici di ciascun
metodo e incollate i due grafici affiancandoli nella finestra di StatGallery:

248 Analisi della capacità di un processo


Figura 15-14. I grafici della probabilità in StatGallery

Se la distribuzione ipotizzata è corretta, i punti dovrebbero disporsi lungo una diagonale quando
sono rappresentati in questo grafico. Entrambi i metodi hanno interpretato bene la non
normalità dei dati, quindi è difficile sceglierne uno. Indipendentemente dal metodo utilizzato, è
importante stabilire un protocollo per gestire una particolare variabile (come Strength) e applicare
lo stesso protocollo ogni volta che i dati vengono analizzati. Sarebbe un errore ripetere il tipo di
analisi esplorativa che abbiamo descritto in questo capitolo ogni volta che viene raccolto un
insieme di dati simile a quello in esame. Questo tipo di analisi dovrebbe essere eseguito una sola
volta per determinare come deve essere elaborata una particolare variabile; poi dovrebbe essere
applicato il metodo selezionato a tale variabile ogni volta che viene analizzata.

249 Analisi della capacità di un processo


15.4 Indici di capacità
L’essenza dell’analisi della capacità è stimare la percentuale del prodotto che cade oltre i limiti
della specifica (o equivalentemente DPM, i difetti per milione). Per sintetizzare la capacità del
processo, gli esperti hanno anche elaborato vari indici di capacità. L’indice più utilizzato è Cpk,
così definito:
⎛ µˆ − LSL USL − µˆ ⎞
C pk = min ⎜ , ⎟
⎝ 3σˆ 3σˆ ⎠

In sostanza, Cpk è la distanza tra la media stimata del processo e il limite di specifica più vicino,
divisa per 3 volte il valore stimato di sigma per il processo.

La procedura Analisi della capacità visualizza gli indici di capacità nel grafico Capacità del processo e
anche nella tabella Indici di capacità. Se si suppone che la distribuzione sia normale, vengono
calcolati gli indici a breve e a lungo termine:

Indici di capacità per Strength


Specifiche
LSS = 230,0
Nom = 210,0
LSI = 190,0

Breve termine Lungo termine


Capacità Prestazioni
Sigma 5,75525 6,23781
Cp/Pp 1,15836 1,06875
Cpk/Ppk 0,741874 0,684481
Cpk/Ppk (superiore) 1,57485 1,45302
Cpk/Ppk (inferiore) 0,741874 0,684481
K -0,35955
DPM 13020,9 20021,2
Livello di Qualità Sigma 3,72559 3,55332
In base ai limiti di 6,0 sigma. Sigma di breve termine stimata dal range mobile medio. Il Livello di Qualità Sigma include
una deriva di 1,5 sigma nella media.

Intervalli di confidenza al 95,0%


Indice Limite inferiore Limite superiore
Cp 0,997149 1,31931
Pp 0,920008 1,21725
Cpk 0,619618 0,864129
Ppk 0,568904 0,800059

Figura 15-15. Tabella degli indici di capacità

250 Analisi della capacità di un processo


Gli indici a breve termine, che sono calcolati utilizzando la stima del sigma ottenuta da
osservazioni vicine nel tempo, descrivono che cosa il processo è “capace” di fare se la media
resta costante. Gli indici a lungo termine, che sono calcolati utilizzando la stima del sigma
ottenuta dalla variabilità totale delle osservazioni nel periodo di campionatura, descrivono
le prestazioni effettive del processo. Un processo fuori controllo, la cui media si sposta
significativamente nel corso della raccolta dei dati, può avere prestazioni considerevolmente
peggiori di quelle che sarebbe in grado di fornire se fosse riportato sotto controllo. Per default,
STATGRAPHICS Centurion XVI indica gli indici di capacità con la lettera “C” e gli indici delle
prestazioni con la lettera “P”.

La scheda Capacità nella finestra Preferenze, accessibile dal menu Modifica di STATGRAPHICS
Centurion XVI, consente di specificare gli indici da calcolare e anche altre importanti opzioni:

Figura 15-16. Preferenze del sistema per gli indici di capacità

Nella parte sinistra della finestra sono elencati gli indici che possono essere calcolati. Oltre a Cpk,
gli indici disponibili includono:

251 Analisi della capacità di un processo


1. Cp – Indice di capacità bilaterale, così calcolato:
USL − LSL
Cp =
6σˆ
Questo indice misura la distanza tra i limiti di specifica rispetto alla distanza coperta da
sei deviazioni standard. Cp è sempre maggiore o uguale a Cpk. Una sostanziale differenza
tra i due indici indica che il processo non è centrato bene.

2. K – Misura la posizione del centro del processo; si calcola in questo modo:


µˆ − NOM
K=
(USL − LSL ) / 2
Dove NOM è il valore nominale o target. Un valore K prossimo a 0 indica un processo
centrato bene.

3. Livello di Qualità Sigma – È utilizzato in Six Sigma per indicare il livello di qualità associato
al processo. Un Livello di Qualità Sigma pari a 6, di solito, è associato a un DPM pari a 3,4.

La finestra Preferenze consente anche di scegliere gli indici da visualizzare nel grafico Capacità del
processo e le loro etichette. Per maggiori dettagli sui vari indici, consultate il documento PDF
Capability Analysis (Variable Data).

Oltre agli indici di capacità, la tabella nella Figura 15-15 include gli intervalli di confidenza che
rappresentano il margine di errore nella stima di tali indici. Per esempio, la precedente tabella
indica un Cpk pari a 0,74; l’intervallo di confidenza al 95% varia da 0,62 a 0,86. Questo significa
che il vero Cpk nel processo dal quale sono stati campionati i dati può variare da 0,62 a 0,86.

Se i dati non seguono una distribuzione normale, gli indici di capacità devono essere modificati.
L’opzione di default nella finestra Preferenze calcola gli indici non normali, determinando prima gli
Z-score equivalenti per la distribuzione non normale approssimata. Per una distribuzione
normale, Z-score misura il numero di deviazioni standard tra la media del processo e un limite
di specifica ed è direttamente correlato alla probabilità che un’osservazione sia oltre quel limite.
Per una distribuzione non normale, uno Z-score equivalente viene calcolato determinando prima
la probabilità di superare il limite e poi trovando quel valore di Z-score che è pari a tale
probabilità. Dopo avere calcolato gli Z-score equivalenti per i limiti inferiore e superiore della
specifica, Cpk può essere calcolato con la seguente formula:

C pk = min (Z lsl , Z usl ) /3

252 Analisi della capacità di un processo


NOTA: sebbene la finestra Preferenze consenta di calcolare gli indici di capacità dai
percentili, anziché dagli Z-score equivalenti, così facendo si distrugge la relazione usuale
tra gli indici di capacità e DPM.

15.5 Calcolatrice Six Sigma


L’indice Cpk è un utile elemento di sintesi della capacità del processo. Se calcolato correttamente,
può essere correlato a DPM. Il menu Tools di STATGRAPHICS Centurion XVI permette di
utilizzare una speciale calcolatrice, Calcolatrice Six Sigma, che è in grado di convertire Cpk in DMP
e viceversa, a condizione che:
1. I dati provengano da una distribuzione normale.
2. Gli indici siano stati calcolati utilizzando gli Z-score equivalenti.

La finestra per i dati di input della Calcolatrice Six Sigma è illustrata qui di seguito:

Figura 15-17. La Calcolatrice Six Sigma

253 Analisi della capacità di un processo


Per utilizzare la calcolatrice:

1. Selezionate uno dei pulsanti di input e digitate un valore nella corrispondente casella.

2. Se preferite calcolare i valori in base al limite di specifica più vicino, selezionate la casella
Limite inferiore soltanto o Limite superiore soltanto.

3. Indicate il valore che intendete assumere come spostamento a lungo termine (Shift di
sigma) della media del processo. In Six Sigma spesso si suppone che la media del processo
oscilli attorno al suo valore di lungo termine di 1,5 sigma.

4. Fate clic sul pulsante Calcola per visualizzare i valori associati delle altre statistiche.

Figura 15-18. Valori equivalenti degli indici di qualità

Supponendo che la media del processo non si sposti, un Cpk di 1.33 corrisponde a circa 33 difetti
per milione oltre il limite di specifica più vicino.

254 Analisi della capacità di un processo


Capitolo

16
Tutorial 7 – Disegno
di esperimenti (DOE)
Disegnare un esperimento per migliorare un processo

I dati non vengono creati tutti uguali. Spesso, un piccolo, ma ben progettato, studio fornisce maggiori
informazioni di un grande studio, mal progettato. Quest’ultimo tutorial esamina alcune delle capacità
di STATGRAPHICS Centurion XVI per creare e analizzare esperimenti.

Consideriamo il caso di un ingegnere che vuole determinare quale delle numerose variabili di processo
ha il maggiore impatto sul prodotto finale. In particolare, intende studiare l’impatto di 5 fattori:
la temperatura, il flusso, la concentrazione, la velocità di agitazione e la percentuale del catalizzatore.
Questo problema può essere risolto in vari modi:
1. Per tentativi: scegliere arbitrariamente una diversa combinazione di fattori ogni volta che viene
eseguito un esperimento. Questo approccio raramente fornisce utili informazioni.
2. Provando un fattore alla volta: mantenere costanti tutti i fattori, tranne uno, per determinare
l’effetto di quel fattore. Questo approccio è estremamente inefficiente e può portare a errate
conclusioni se alcuni fattori interagiscono tra di loro.
3. Utilizzando un esperimento statisticamente disegnato: selezionando opportunamente la sequenza degli
esperimenti da eseguire, si otterrà il maggior numero di informazioni sui fattori e le loro
interazioni nel minor numero di esperimenti possibile.
Questo tutorial descrive come costruire un esperimento utilizzando il terzo approccio e come
analizzare i dati risultanti.

255 Disegno di esperimenti (DOE)


16.1 Realizzare il disegno
STATGRAPHICS Centurion XVI contiene un Wizard del disegno sperimentale (DOE Wizard) che
guida gli utenti nella creazione e analisi di un disegno sperimentale. Per accedere a questo wizard:

1. selezionate DOE – Wizard del disegno sperimentale, se state utilizzando il menu classico;

2. selezionate Improve – Wizard del disegno sperimentale, se state utilizzando il menu Six Sigma.

Sarà visualizzata una nuova finestra che contiene una barra di strumenti che vi guiderà attraverso una
sequenza di 12 passi:

Figura 16-1. La finestra iniziale del wizard per il disegno sperimentale con una barra di strumenti di 12 passi

I primi 7 passi della sequenza costruiscono il disegno sperimentale e vengono compiuti prima di
eseguire l’esperimento. Gli ultimi 5 passi vengono compiuti dopo che l’esperimento è stato
completato e riguardano l’analisi dei dati ottenuti.

256 Disegno di esperimenti (DOE)


Passo 1: Definire le risposte
Il primo passo per creare un disegno sperimentale è quello di specificare le variabili risposta che
saranno misurate durante l’esecuzione dell’esperimento. Se fate clic sul pulsante 1) Definisci le risposte
vedrete la seguente finestra:

Figura 16-2. Definizione delle variabili risposta

Nell’esempio in esame ci sono due variabili risposta: il rendimento in grammi e la resistenza in psi (pounds
per square inch). L’obiettivo dell’esperimento è massimizzare il rendimento mantenendo il valore della
resistenza quanto più possibile vicino a 250. Le quattro colonne più a destra servono a bilanciare i
requisiti delle due risposte, che potrebbero essere in conflitto. La colonna Impatto specifica
l’importanza di ciascuna risposta su una scala da 1 a 5, in ordine crescente di importanza. Le colonne
Minimo e Massimo specificano l’intervallo desiderato per ciascuna risposta, mentre la colonna Sensibilità
indica quanto sia importante che una risposta sia prossima alla migliore posizione all’interno di tale
intervallo. In questo caso, la resistenza è più importante del rendimento, e quindi ha un Impatto maggiore.
Entrambe le risposte sono impostate con un valore medio di sensibilità; ciò significa che la
desiderabilità di ciascuna risposta aumenta in modo lineare nell’intervallo specificato.

257 Disegno di esperimenti (DOE)


Passo 2: Definire i fattori sperimentali
Il secondo passo consente di inserire le informazioni sui fattori sperimentali che saranno modificati
durante il corso dell’esperimento. Se fate clic sul secondo pulsante, sarà visualizzata la seguente
finestra:

Figura 16-3. Definizione dei fattori sperimentali

In questo esempio, sono stati impostati 5 fattori controllabili che varieranno durante l’esperimento.
Digitate i nomi dei fattori, le loro unità di misura e gli intervalli di variazione. Tutti i fattori sono
continui, in quanto possono assumere qualsiasi valore compreso tra gli estremi Basso e Alto.

258 Disegno di esperimenti (DOE)


Passo 3: Selezionare il disegno sperimentale
Il terzo passo per creare un esperimento consiste nel selezionare il tipo di disegno. Se fate clic sul terzo
pulsante, sarà visualizzata la seguente finestra:

Figura 16-4. La finestra per scegliere il tipo di disegno

Per creare un disegno per i 5 fattori di processo, fate clic sul pulsante Opzioni. Sarà visualizzata la lista
dei vari tipi di disegni che potrebbero essere appropriati ai 5 fattori continui:

259 Disegno di esperimenti (DOE)


Figura 16-5. La lista dei tipi di disegni disponibili
Poiché vogliamo creare un disegno di screening, fate clic su OK.
La successiva finestra permette di selezionare il disegno desiderato da un insieme di disegni di
screening che sono appropriati per 5 fattori:

Figura 16-6. Scelta del disegno


Per vedere la lista dei disegni di screening disponibili per 5 fattori, fate clic sulla freccia rivolta in
basso. La lista contiene:

1. Nome: il nome dei disegni disponibili.

2. Run: il numero di prove nel disegno base, prima di aggiungere punti centrali o repliche.

260 Disegno di esperimenti (DOE)


3. Risoluzione: la risoluzione del disegno. I disegni con Risoluzione V possono stimare tutti
gli effetti principali e tutte le interazioni a due fattori. I disegni con Risoluzione IV
possono stimare tutti gli effetti principali, ma le interazioni a due fattori si
confonderanno tra loro o con gli effetti dei blocchi. I disegni con Risoluzione III
confondono le interazioni a due fattori con gli effetti principali.

4. G. l. dell’errore: il numero dei gradi di libertà disponibili per stimare l’errore sperimentale.
La potenza dei test statistici è correlata al numero dei gradi di libertà e anche al numero
totale di prove nell’esperimento. Di solito, dovrebbero essere disponibili almeno 3 gradi
di libertà, sebbene sia preferibile un numero maggiore.

5. Dimensione blocco: il numero di prove nel blocco più grande.

In questo caso, l’ingegnere ha scelto il disegno Frazione 1/2 in 2 blocchi di 8 prove ciascuno.

La finestra finale è utilizzata per aggiungere punti centrali o repliche:

Figura 16-7. Opzioni del disegno di screening a blocchi

261 Disegno di esperimenti (DOE)


I campi di input specificano:

1. Punti centrali: il numero di prove eseguite nel centro della regione sperimentale. Aggiungere
punti centrali è un buon metodo per aumentare i gradi di libertà per l’errore sperimentale.

2. Posizione: la posizione dei punti centrali. Le scelte più comuni sono Casuale, che distribuisce i
punti centrali casualmente tra le altre prove, e Distanza uniforme, che distribuisce i punti centrali
equamente in tutto il disegno.

3. Replica il disegno: il numero di volte aggiuntive che ciascuna serie di condizioni sperimentali
deve essere eseguita. Replicando l’intero disegno in questo modo, potrebbe aumentare il
numero di prove da eseguire molto rapidamente.

4. Randomizzare: le prove sono elencate in ordine casuale. Se possibile, questa opzione dovrebbe
essere utilizzata sempre, per impedire che variabili esterne nascoste (come le variazioni nel
tempo del processo) influiscano sui risultati.

Per l’esperimento in esame, sono stati richiesti 4 punti centrali, che portano il disegno finale a 20
prove. È stato richiesto anche che il disegno sia realizzato in ordine casuale, nel senso che l’ordine
delle 10 prove all’interno di ciascun blocco sarà generato a caso.

A questo punto viene visualizzata la finestra con gli attributi del disegno:

262 Disegno di esperimenti (DOE)


Figura 16-8. La finestra per scegliere il disegno con i run da eseguire

Se queste impostazioni vi soddisfano, fate clic su OK per ritornare alla finestra del Wizard del
disegno sperimentale che riassume le scelte finora fatte:

263 Disegno di esperimenti (DOE)


Figura 16-9. La finestra del wizard dopo la scelta del disegno

Contemporaneamente, il disegno è stato caricato nel foglio A del DataBook di


STATGRAPHICS Centurion XVI:

264 Disegno di esperimenti (DOE)


Figura 16-10. Il disegno finale

Il foglio contiene una colonna con i numeri dei blocchi, 5 colonne con le impostazioni dei fattori
sperimentali e 2 colonne per inserire le risposte, una volta che le prove sperimentali sono state
eseguite.

265 Disegno di esperimenti (DOE)


Passo 4: Specificare il modello
Il Wizard del disegno sperimentale valuta il disegno che avete creato rispetto a un modello statistico
sperimentale. Se premete il pulsante 4) Specifica il modello, sarà visualizzata la seguente finestra:

Figura 16-11. La finestra per selezionare il modello statistico


Dovreste scegliere il modello più complicato che volete considerare per i vostri dati. Nel caso di
un disegno fattoriale a due livelli, il modello più complicato che può essere adattato è il modello
di interazione a due fattori, che è definito in questo modo:
β 0 + β1 x1 + β 2 x 2 + β 3 x3 + β 4 x 4 + β 5 x5 + β12 x1 x 2 + β13 x1 x3 + β14 x1 x 4
Y=
+ β15 x1 x 5 + β 23 x 2 x3 + β 24 x 2 x 4 + β 25 x 2 x5 + β 34 x3 x 4 + β 35 x3 x5 + β 45 x 4 x5
È formato dai singoli fattori sperimentali (gli effetti principali) e da termini che riguardano le
varie coppie di fattori (interazioni a due fattori). Potete escludere i singoli termini dal modello
selezionato facendo doppio clic su di essi (i termini esclusi saranno visualizzati nel riquadro
Escludi). Per l’esempio in esame, selezionate il modello Interazioni a 2 fattori.

266 Disegno di esperimenti (DOE)


Passo 5: Selezionare i run
Per disegni più complessi, potrebbe essere preferibile eseguire soltanto un sottoinsieme dei run
che sono stati creati nel Passo 3. Se premete il pulsante 5) Seleziona i run, potrete accedere a un
algoritmo di selezione che vi consente di creare un sottoinsieme di run che è D-ottimo. In questo
caso, saranno eseguiti tutti i run e il Passo 5 può essere omesso.

Passo 6: Valutare il disegno


Se premete il pulsante 6) Valuta il disegno, sarà visualizzata una finestra che elenca le tabelle e i
grafici che possono essere aggiunti alla finestra del wizard:

Figura 16-12. Tabelle e grafici per valutare il disegno sperimentale scelto

Un’utile opzione per i disegni di screening è la Matrice di correlazione, che mostra se ci sono
eventuali confondimenti tra i termini nel modello da adattare:

267 Disegno di esperimenti (DOE)


Matrice di correlazione
blocco A B C D E AB AC AD AE BC BD BE CD
blocco 1,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,8944
A 0,0000 1,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
B 0,0000 0,0000 1,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
C 0,0000 0,0000 0,0000 1,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
D 0,0000 0,0000 0,0000 0,0000 1,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
E 0,0000 0,0000 0,0000 0,0000 0,0000 1,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
AB 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 1,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
AC 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 1,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
AD 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 1,0000 0,0000 0,0000 0,0000 0,0000 0,0000
AE 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 1,0000 0,0000 0,0000 0,0000 0,0000
BC 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 1,0000 0,0000 0,0000 0,0000
BD 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 1,0000 0,0000 0,0000
BE 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 1,0000 0,0000
CD 0,8944 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 1,0000
CE 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
DE 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

CE DE
blocco 0,0000 0,0000
A 0,0000 0,0000
B 0,0000 0,0000
C 0,0000 0,0000
D 0,0000 0,0000
E 0,0000 0,0000
AB 0,0000 0,0000
AC 0,0000 0,0000
AD 0,0000 0,0000
AE 0,0000 0,0000
BC 0,0000 0,0000
BD 0,0000 0,0000
BE 0,0000 0,0000
CD 0,0000 0,0000
CE 1,0000 0,0000
DE 0,0000 1,0000

Figura 16-13. Matrice di correlazione per il disegno sperimentale scelto


Un valore non nullo in qualsiasi cella fuori dalla diagonale della tabella indica che gli effetti della
corrispondente riga e colonna si confondono e non possono essere distinti con chiarezza. Nel
disegno in esame, l’interazione CD ha una grande correlazione con i blocchi. Notate che il
disegno ha arbitrariamente sacrificato la capacità di stimare l’interazione tra i fattori C e D, che
sono la concentrazione e la velocità di agitazione. Se l’ingegnere ritiene che questa interazione sia
importante, dovrebbe modificare l’ordine delle variabili in modo che C e D corrispondano a due
variabili che hanno poche probabilità di interagire.

268 Disegno di esperimenti (DOE)


Passo 7: Salvare l’esperimento
Il pulsante 7) Salva l’esperimento vi consente di salvare il disegno sperimentale in un file, tramite la
seguente finestra:

Figura 16-14. La finestra per salvare il disegno sperimentale in un file

I disegni sperimentali creati con il wizard vengono salvati in file con estensione .sgx. Questi file
sono simili ai file di dati standard, con la differenza che contengono informazioni aggiuntive sul
disegno sperimentale e sul modello statistico selezionato.

16.2 Analizzare i risultati


Dopo avere disegnato l’esperimento, l’ingegnere ha eseguito le 20 prove indicate; poi ha
riavviato il programma, ha aperto il file dell’esperimento salvato e ha inserito i valori misurati dei
campi yield e strength nel foglio dell’esperimento. Per replicare la sua analisi, caricate il file
tutorial7.sgx come se fosse un file di dati di STATGRAPHICS, selezionando Apri Sorgente dati dal
menu File. Quando aprite il file di un esperimento, viene automaticamente aperta la finestra del
Wizard del disegno sperimentale.

269 Disegno di esperimenti (DOE)


Passo 8: Analizzare i dati
Per analizzare i dati sperimentali, fate clic sul pulsante 8) Analizza i dati. L’analisi inizia con la
seguente finestra:

Figura 16-15. La finestra per analizzare i dati

Se necessario, è possibile specificare una trasformazione per una o più variabili. Poiché stiamo
analizzando variabili risposta continue, le trasformazioni potrebbero essere necessarie se la varianza
della risposta aumentasse con la media. Nell’esempio in esame, le trasformazioni non sono necessarie.

Se fate clic su OK, sarà visualizzata una nuova finestra di analisi per ogni risposta. La finestra di
analisi per il Rendimento inizialmente presenta il seguente output:

270 Disegno di esperimenti (DOE)


Figura 16-16. La finestra di analisi dell’esperimento per la variabile Rendimento

La finestra presenta quattro pannelli:

1. Sintesi dell’analisi: elenca le stime degli effetti principali e delle loro interazioni.

2. Tabella ANOVA: contiene i P-value che possono essere utilizzati per verificare il
significato statistico di ciascun effetto.

3. Diagramma di Pareto standardizzato: visualizza gli effetti in ordine decrescente di


significatività, con una linea che permette di determinare quali effetti sono
statisticamente significativi.

4. Grafico degli effetti principali: rappresentazione grafica delle variazioni stimate della risposta
quando ciascuno dei fattori passa dal livello più basso a quello più alto.

271 Disegno di esperimenti (DOE)


Il diagramma di Pareto standardizzato può essere utilizzato per identificare rapidamente gli
effetti più importanti:

Figura 16-17. Diagramma di Pareto standardizzato


La lunghezza di ciascuna barra è proporzionale al valore di una statistica t calcolata per il
corrispondente effetto. Tutte le barre oltre la linea verticale sono statisticamente significative al
livello di significatività selezionato (5%, per default). In questo caso, ci sono 3 effetti principali
significativi: Temperatura, Concentrazione e Catalizzatore. C’è anche un’interazione significativa fra
Temperatura e Flusso.

Il grafico degli effetti principali nel pannello in basso a destra mostra come ciascun fattore
influisce sul Rendimento:

272 Disegno di esperimenti (DOE)


Figura 16-18. Grafico degli effetti principali

Le linee indicano le stime delle variazioni del Rendimento quando ciascun fattore passa dal livello
più basso a quello più alto, mentre tutti gli altri fattori restano costanti a un valore intermedio tra
i loro minimi e massimi. Notate che i tre fattori con gli effetti principali significativi hanno un
impatto sulla risposta maggiore degli altri. Per esempio, il valore medio del Rendimento a bassa
temperatura è circa 82, mentre ad alta temperatura è circa 85,4. La differenza di 3,4 è detta
“effetto principale” della temperatura.

Per creare il grafico dell’interazione fra Temperatura e Flusso, selezionate Grafici delle interazioni dalla
finestra Grafici; poi utilizzate il pulsante Opzioni per il pannello per selezionare soltanto questi due
fattori:

273 Disegno di esperimenti (DOE)


Figura 16-19. La finestra con le opzioni per creare il grafico delle interazioni

Il grafico risultante mostra il valore medio del Rendimento al variare della Temperatura, per ciascun
livello di Flusso:

Figura 16-20. Grafico delle interazioni per le variabili Flusso e Temperatura


Notate che a un basso Flusso, la Temperatura ha un piccolo effetto sul Rendimento. A un alto Flusso,
la Temperatura è un fattore molto importante.

274 Disegno di esperimenti (DOE)


Prima di utilizzare il modello statistico che sta alla base di questa analisi, è importante eliminare
gli effetti poco significativi:

1. Fate clic sul pulsante Opzioni di analisi nella barra degli strumenti di analisi.

2. Fate clic sul tasto Escludi nella finestra Opzioni per stimare gli effetti.

3. Nella finestra Opzioni per escludere gli effetti fate doppio clic sugli effetti da escludere; questi
effetti passeranno automaticamente dalla colonna Includi alla colonna Escludi:

Figura 16-21. La finestra per escludere gli effetti

Le regole da seguire per escludere gli effetti sono:

1. Escludere qualsiasi interazione poco significativa tra due fattori.

2. Escludere gli effetti principali poco significativi che non sono coinvolti in interazioni
significative.

Nell’esempio in esame, questo significa eliminare tutto ciò che non era significativo nel
diagramma di Pareto, tranne l’effetto principale di B. Questo effetto viene conservato perché è
coinvolto in una interazione significativa con il fattore A.

Una volta rimossi gli effetti, il diagramma di Pareto dovrebbe avere il seguente aspetto:

275 Disegno di esperimenti (DOE)


Figura 16-22. Diagramma di Pareto standardizzato dopo l’esclusione degli effetti poco significativi
Ad eccezione dell’effetto principale del fattore B, tutti gli altri effetti sono statisticamente
significativi. Il modello finale può essere esaminato selezionando Coefficienti di regressione nella
finestra Tabelle:

Coeff. di regressione per Rendimento - Tutorial 7


Coefficiente Stima
costante 250,074
A:Temperatura -1,0595
B:Flusso -17,4475
C:Concentrazione 0,555417
E:Catalizzatore 2,6175
AB 0,106625

StatAdvisor
Questo pannello visualizza l'equazione di regressione che è stata adattata ai dati. L'equazione del modello adattato è

Rendimento = 250,074 - 1,0595*Temperatura - 17,4475*Flusso + 0,555417*Concentrazione + 2,6175*Catalizzatore +


0,106625*Temperatura*Flusso

Figura 16-23. Il modello di regressione finale


Notate che il modello ha la forma di un modello di regressione lineare multipla. Ciascun effetto
principale viene incluso separatamente nel modello, mentre l’interazione tra due fattori è
rappresentata dal prodotto di Temperatura e Flusso.

276 Disegno di esperimenti (DOE)


Per capire bene il modello approssimato, è meglio rappresentarlo in un grafico. L’opzione Grafici
di risposta nella finestra Tabelle e grafici consente di generare vari tipi di grafici. Per default, viene
visualizzato un grafico a superficie:

Figura 16-24. Il grafico a superficie della variabile risposta

In questo grafico, l’altezza della superficie rappresenta il valore previsto del Rendimento nello
spazio Temperatura-Flusso, con gli altri tre fattori che restano costanti ai loro valori intermedi. I
valori più grandi del Rendimento si hanno per valori elevati di Temperatura e Flusso.

Il tipo di grafico e i fattori utilizzati per rappresentare la variabile risposta possono essere
cambiati tramite il pulsante Opzioni per il pannello:

277 Disegno di esperimenti (DOE)


Figura 16-25. Opzioni per il grafico della variabile risposta

I tipi di grafici che possono essere creati sono:


1. Superficie: rappresenta l’equazione approssimata come una superficie 3-D rispetto a due
fattori sperimentali. La superficie può essere a rete, a un colore uniforme o mostrare i
livelli dei contorni della variabile risposta. L’opzione Contorni sotto mostra i contorni nella
base del grafico.
2. Contorno: crea un diagramma a contorno 2-D rispetto a due fattori sperimentali. I
contorni possono essere rappresentati da Linee curve, come nelle mappe topografiche, da
Aree colorate o da colori uniformi con una griglia (Continui con griglia).
3. Quadrato: rappresenta la regione sperimentale per due fattori sperimentali e visualizza la
risposta prevista nei quattro angoli di un quadrato.

278 Disegno di esperimenti (DOE)


4. Cubo: rappresenta la regione sperimentale per tre fattori sperimentali e visualizza la
risposta prevista negli angoli di un cubo. Prima di creare questo grafico, è necessario
utilizzare il tasto Fattori e selezionare un terzo fattore.
5. Contorni 3-D: traccia i contorni per la risposta rispetto ai 3 fattori sperimentali.
6. Rete 3-D: crea un grafico a rete che mostra il valore della variabile risposta in una regione
sperimentale tridimensionale.

Il tasto Fattori serve a selezionare i fattori che definiscono gli assi dei grafici e i valori costanti
(Mantenere) che assumeranno gli altri fattori:

Figura 16-26. La finestra per i fattori del grafico della risposta

Per creare il prossimo grafico, impostate Continui nel campo Contorni, Contorni sotto e Uniforme nel
campo Superficie; poi modificate la scala del campo Contorni da 81 a 86 con incrementi di 1:

279 Disegno di esperimenti (DOE)


Figura 16-27. Grafico a superficie della risposta con i contorni alla base
Lo stesso grafico può essere visualizzato come un diagramma a contorno:

Figura 16-28. Diagramma a contorno della risposta

280 Disegno di esperimenti (DOE)


I valori più grandi del Rendimento si trovano nell’angolo in alto a destra.
La seconda variabile risposta misurata durante l’esperimento era resistenza. La finestra di analisi
per questa variabile mostra il seguente diagramma di Pareto:

Figura 16-29. Diagramma standardizzato di Pareto per la variabile Resistenza

Dopo avere escluso gli effetti insignificanti, il modello adattato è il seguente:

resistenza = –317,288 + 1,02083*temperatura – 1,3125*flusso + 3,005*velocità di agitazione

Notate che la velocità di agitazione ha un impatto sulla resistenza, sebbene non abbia un effetto
significativo sul rendimento. Il diagramma a contorno per i due fattori più importanti sono
riportati qui di seguito:

281 Disegno di esperimenti (DOE)


Figura 16-30. Diagramma a contorno della superficie di risposta per la variabile Resistenza

Passo 9: Ottimizzare le risposte


Avendo costruito dei modelli statistici per entrambe le risposte, adesso è possibile determinare le
impostazioni ottimali dei fattori. Ricordiamo che l’obiettivo dell’esperimento è quello di
massimizzare il rendimento, mantenendo il valore della resistenza quanto più possibile vicino a
250 psi. Se fate clic sul pulsante 9) Ottimizza le risposte, sarà visualizzata la seguente finestra:

Figura 16-31. La finestra con le opzioni di ottimizzazione delle risposte

282 Disegno di esperimenti (DOE)


Poiché il programma utilizza una ricerca numerica per trovare la posizione migliore all’interno
della regione sperimentale, è bene iniziare la ricerca da più punti per evitare di trovare una
posizione ottimale locale.
Fate clic su OK per avviare la ricerca. Dopo alcuni istanti apparirà il seguente messaggio:

Figura 16-32. Il messaggio visualizzato dopo l’ottimizzazione delle risposte

Contemporaneamente, il seguente output sarà aggiunto alla finestra principale del wizard:
Passo 9: ottimizzare le risposte
Valori di risposta ottimale
Risposta Previsione Limite 95,0% inferiore Limite 95,0% superiore Desiderabilità
rendimento 88,7829 75,5887 101,977 0,878286
resistenza 250,0 187,508 312,492 1,0
Desiderabilità totale = 0,952497

Impostazioni dei fattori ottimali


Fattore Impostazione
temperatura 179,998
flusso 12,0
concentrazione 7,99995
velocità di agitazione 132,947
catalizzatore 1,5

Figura 16-33. Output dell’ottimizzazione delle risposte

Come potete notare dalle impostazioni dei fattori, si stima che il rendimento sarà pari a circa 88,7
grammi, quando la resistenza sarà 250 psi. Il rendimento risultante ha un quoziente di
“desiderabilità” di 0,878, in quanto è pari all’87,8% dell’intervallo compreso tra 80 e 90 grammi.
La resistenza ha un quoziente di desiderabilità pari a 1, in quanto è esattamente nel target.
La desiderabilità totale è 0,952; essa viene calcolata prendendo la desiderabilità di ciascuna
risposta, elevandola alla potenza specificata dal suo impatto, moltiplicando i risultati ed elevando il
prodotto a una potenza pari a 1 diviso la somma degli impatti. Il risultato è un numero compreso
tra 0 e 1, con un maggior peso dato alla risposta con l’impatto maggiore.
Se fate clic sul pulsante Tabelle e grafici, potrete creare due ulteriori grafici. I Grafici a contorno
sovrapposti mostrano i contorni delle due variabili risposta sovrapposti uno sull’altro:

283 Disegno di esperimenti (DOE)


Figura 16-34. Grafico a contorno per le due risposte

Il punto ottimale si trova nell’angolo superiore destro, dove il rendimento è massimo lungo la linea
con resistenza = 250. Il Grafico della desiderabilità può essere utilizzato per visualizzare la
desiderabilità totale in funzione di due o tre fattori alla volta. Selezionate il Grafico a rete 3-D per
ottenere il seguente risultato:

Figura 16-35. Grafico a rete 3-D della desiderabilità totale

284 Disegno di esperimenti (DOE)


La posizione migliore è illustrata in rosso, dove la temperatura e il flusso sono elevati, mentre la
velocità di agitazione resta a un valore medio.

Passo 10: Salvare i risultati


Per salvare i risultati dell’analisi e dell’ottimizzazione in uno StatFolio, fate clic sul pulsante 10)
Salva i risultati:

Figura 16-36. La finestra per salvare i risultati

16.3 Ulteriore sperimentazione


Se occorre un’ulteriore sperimentazione, STATGRAPHICS Centurion XVI può aiutarvi in due
modi: ampliando il disegno esistente o generando dei punti lungo il cammino di massima
pendenza.

285 Disegno di esperimenti (DOE)


Passo 11: Ampliare il disegno
Se fate clic sul pulsante 11) Amplia il disegno, potete aggiungere altri run all’esperimento corrente.
Viene visualizzata la seguente finestra:

Figura 16-37. La finestra per ampliare il disegno

Sono disponibili le seguenti opzioni:


1. Aggiungi repliche: aggiunge al disegno altri 20 run, che sono identici ai primi 20. Questo
creerà altri gradi di libertà per stimare l’errore sperimentale.

2. Aggiungi una frazione: aggiunge altri 20 run per rendere il disegno completamente
fattoriale.

286 Disegno di esperimenti (DOE)


Passo 12: Estrapolare
Potete generare dei punti lungo il cammino di massima pendenza nel tentativo di spostarvi
rapidamente verso regioni con valori più alti di rendimento. Questo cammino inizia da un punto
specifico nella regione sperimentale e va nella direzione di massima variazione della risposta
stimata per le variazioni più piccole dei fattori sperimentali. Seguendo tale cammino è possibile
ottenere notevoli miglioramenti molto rapidamente.

Se fate clic sul pulsante 12) Estrapola, sarà visualizzata la seguente finestra:

Figura 16-38. La finestra con le opzioni di estrapolazione

Le impostazioni di questa finestra indicano al programma di iniziare dall’ottimo derivato e di


lasciare che i 5 fattori varino tra i valori Basso e Alto che raddoppiano le dimensioni della regione
sperimentale. Viene anche specificato al programma di visualizzare le combinazioni dei fattori
quando la desiderabilità stimata varia di almeno lo 0,5%. Se fate clic su OK, la seguente tabella
sarà aggiunta alla finestra del wizard:

287 Disegno di esperimenti (DOE)


Passo 12: estrapolare il modello
Valori di risposta estrapolati
Passo Desiderabilità rendimento resistenza
0 0,948018 88,6734 250,001
1 0,953289 88,81 249,974
2 0,959294 88,9548 249,987
3 0,964593 89,0926 249,97
4 0,970278 89,2319 249,984
5 0,975933 89,3718 249,997
6 0,981395 89,5155 250,012
7 0,986799 89,6578 250,018
8 0,991955 89,7919 249,985
9 0,997518 89,9366 250,008
10 0,999936 90,0113 249,995

Impostazioni dei fattori per l'estrapolazione


Passo temperatura flusso concentrazione velocità di agitazione catalizzatore
0 179,999 12,0 8,0 132,875 1,5
1 180,037 12,05 8,04539 132,875 1,50594
2 180,114 12,1 8,08944 132,875 1,51171
3 180,162 12,15 8,13255 132,875 1,51735
4 180,239 12,2 8,16866 132,875 1,52208
5 180,317 12,25 8,20457 132,875 1,52678
6 180,396 12,3 8,24335 132,875 1,53186
7 180,466 12,35 8,28218 132,875 1,53694
8 180,497 12,4 8,32249 132,875 1,54222
9 180,585 12,45 8,3575 132,875 1,5468
10 180,585 12,46 8,41739 132,875 1,55572

Figura 16-39. Dati di riepilogo dell’estrapolazione aggiunti alla finestra del wizard

Il rendimento può essere aumentato al suo target di 90 grammi, mantenendo una resistenza di
250 psi con un incremento della temperatura fino a 180,6 gradi, aumentando il flusso a 12,46
litri/min, la concentrazione all’8,42% e il catalizzatore all’1,56%. Poiché questa è
un’estrapolazione del modello statistico che avviene al di fuori della regione sperimentale
originale, occorre eseguire dei run aggiuntivi per verificare questo risultato.

288 Disegno di esperimenti (DOE)


Libri consigliati
I seguenti libri sono eccellenti fonti di informazioni sulle tecniche statistiche descritte in questo
manuale:

Statistica di base: Applied Statistics and Probability for Engineers, 4rd edition, Douglas C. Montgomery e
George C. Runger (2006). John Wiley and Sons, New York.

Analisi della varianza: Applied Linear Statistical Models, 5th edition, Michael H. Kutner, Christopher J.
Nachtsheim e John Neter (2004). McGraw-Hill.

Analisi della regressione: Applied Linear Regression, 3rd edition, Sanford Weisberg (2005). John Wiley
and Sons, New York.

Controllo statistico dei processi: Introduction to Statistical Quality Control, 6th edition, Douglas C.
Montgomery (2008). John Wiley and Sons, New York.

Disegno di esperimenti: Statistics for Experimenters: Design, Innovation and Discovery, 2nd edition, George
E. P. Box, William G. Hunter e J. Stuart Hunter (2005). John Wiley and Sons, New York.

289 Libri consigliati


Dataset
93cars.sgd

Questi dati sono stati scaricati dal Journal of Statistical Education Data Archive. Sono stati
compilati da Robin Lock del Dipartimento di Matematica della St. Lawrence University e sono
utilizzati con la sua autorizzazione. Un articolo associato al dataset appare nel Journal of Statistics
Education, Volume 1, Numero 1 (luglio 1993).

bodytemp.sgd

Anche questi dati sono stati scaricati dal Journal of Statistical Education Data Archive. Sono stati
compilati da Allen Shoemaker del Dipartimento di Psicologia del Calvin College e sono utilizzati
con la sua autorizzazione. I dati erano riportati in un articolo del Journal of the American Medical
Association (1992, vol. 268, pp. 1578-1580) intitolato “A Critical Appraisal of 98.6 Degrees F, the
Upper Limit of the Normal Body Temperature, and Other Legacies of Carl Reinhold August
Wunderlich” di P. A. Mackowiak, S. S. Wasserman e M. M. Levine. Un articolo associato al
dataset appare nel Journal of Statistics Education, Volume 4, Numero 2 (luglio 1996).

Sito web del Journal of Statistical Education (JSE) Data Archive:

http://www.amstat.org/publications/jse/jse_data_archive.html

290 Dataset
Indice analitico
ABS; 44 contingenza, tabella di; 225; 235
Aggiorna formule; 43 contorno, diagramma a; 278
ampliare il disegno; 286 correlazione, matrice di; 203
analisi COUNT; 53
aggiornamento automatico; 110 Cp; 252
delle medie; 198 Cpk; 250
finestra di; 23 DataBook; 31
scegliere il tipo di; 132 date; 143
Analisi a una variabile; 21; 148; 238 dati
Analisi della capacità; 240 cancellare; 39
AND; 63 combinare; 49
ANOM; 198 copiare; 39
ANOVA; 190; 271 foglio; 14
grafica; 191 generare; 51
ASCII, file; 36 immettere; 14
AVG; 44 incollare; 39
bibliografia; 289 inserire; 39
booleana, espressione; 63 ordinare; 46
bootstrap, intervalli; 167 qualitativi; 219
Box-Cox, trasformazione; 247 ricodificare; 48
brushing; 95 strutture; 51
BY, variabile; 135 tagliare; 39
Calcolatrice Six Sigma; 253 trasformare; 43
capacità, grafico della; 241 deviazione standard; 152
cifre significative, default; 142 diagramma a scatola e baffi; 24; 154
colonna di dati Diagramma a scatola e baffi; 195
commento; 16; 33 DIFF; 44
modificare; 32 disegno di esperimenti; 255
nome; 16; 33 disegno, ampliamento; 286
tipo; 16; 33 distribuzione
Confronta due campioni; 173 normale; 152
Confronto di più campioni; 186 valore estremo massimo; 244

291 Indice analitico


DPM; 246 font; 90
effetti modificare; 78
escludere gli; 275 modificare l’aspetto di default; 144
grafico degli; 271 rotazione; 97
Escludi; 73 ruotare le etichette degli assi; 89
eseguire il programma; 8 scala degli assi; 89
eteroschedasticità; 197 grafico a barre; 229
Excel, file; 36; 37 Grubbs, test; 158
EXP; 44 HSD, intervalli; 193
F, test; 179 Imposta pagina; 74
file di dati Imposta stampante; 144
lettura soltanto; 56 input, finestra di; 61
FIRST; 62 installazione; 1
formule interazione; 273
conversione in valori Z; 44 intervalli di confidenza
differenze all’indietro; 44 deviazione standard; 166
funzione esponenziale; 44 media; 166
logaritmo in base 10; 44 mediana; 167
logaritmo naturale; 44 intestazioni di analisi; 143
massimo; 44 jittering; 93; 189
media; 44 K, indice; 252
minimo; 44 Kolmogorov-Smirnov, test; 183; 244
radice quadrata; 44 Kruskal-Wallis, test; 194
ritardo di k periodi; 44 LAG; 44
valore assoluto; 44 LAST; 62
frequenze, istogramma delle; 26; 160; 239 Levene, test; 196
Friedman, test; 194 Limiti di tolleranza statistici; 170
FTP; 112 livello di confidenza; 142
Genera dati; 45; 52 Livello di Qualità Sigma; 252
gestore licenze; 9 LOG; 44
grafici LOG10; 44
a mosaico; 229 LOWESS, metodo di smoothing; 98; 202
a scatola e baffi; 154 LSD, intervalli; 193
a superficie; 278 Mann-Whitney (Wilcoxon), test; 181; 194
aggiungere testi; 92 massimo; 152
copiare in altre applicazioni; 102 matrice di grafici; 101
degli effetti; 271 MAX; 44
effetti 3D; 79 media; 152
escludere i punti; 73 mediana; 152

292 Indice analitico


medie, grafico delle; 192 Proprietà DataBook; 55
MIN; 44 punti centrali; 262
minimo; 152 quantili, grafico dei; 165; 182
Modifica colonna; 32 quantili-quantili, grafico; 184
non parametrici, metodi; 168; 181; 183; 194; quartili; 152
244 query SQL; 34
ODBC, interrogazione; 38 RANDOM; 62
operatori algebrici regressione
addizione; 44 analisi; 199
divisione; 44 coefficienti; 276
elevamento a potenza; 44 graduale; 213
moltiplicazione; 44 lineare; 207
sottrazione; 44 multipla; 211
Opzioni di analisi; 65 non lineare; 207
Opzioni per il grafico; 28 Regressione semplice; 61; 204
scheda Griglia; 81 REP; 53
scheda Layout; 79 RESHAPE; 54
scheda Linee; 83 residui; 196; 209
scheda Profili; 144 ricerca di test e statistiche; 137
scheda Punti; 85 Ricodifica dati; 48
scheda Riempimenti; 91 RNORMAL; 55
scheda Titolo principale; 87 ROWS; 62
testi, etichette e legende; 92 R-quadrato; 206; 208
Opzioni per il pannello; 26; 68 Salva i risultati; 70
OR; 63 Salvataggio automatico; 71
Ordina dati; 46 SD; 44
ordinare i nomi delle variabili; 143 sgcinstall.exe; 1
outlier; 156; 197 Shapiro-Wilks, test; 243
Pareto Six Sigma; 237
analisi; 221 menu; 12; 142
diagramma di; 271 sky, grafico; 230
parsimonia; 199 smoothing; 98; 202
percentili; 152; 166 SQRT; 44
Preferenze; 108; 141 stampa
scheda Capacità; 251 linee spesse; 75
scheda EDA; 161 margini; 75
scheda Statistiche; 153 risultati di un’analisi; 74
processo, analisi della capacità di un; 237 STANDARDIZE; 44

293 Indice analitico


StatAdvisor, default; 143 Sturges, regola di; 161
StatFolio t, test; 168; 180
pubblicare i dati; 111 tabella a doppia entrata; 227
salvare; 30; 105 Tabulazione; 220
script di avviamento; 106; 110; 143 Tabulazione delle frequenze; 163
StatGallery; 248 Tabulazione incrociata; 224
configurare; 115 Test dei range multipli; 193
copiare i grafici in; 117 test per ranghi con segno; 168
modificare i grafici; 119 verifica di ipotesi
sovrapporre i grafici; 118 coefficiente di correlazione; 203
statistiche confrontare le deviazioni standard; 179;
ricalcolo; 143 196
sintesi; 23 confrontare le distribuzioni; 183
Statistiche di sintesi; 151; 175; 239 confrontare le mediane; 181; 194
Statistiche per riga; 49 confrontare le medie; 180; 190
StatLink; 55; 110 confrontare le proporzioni; 236
StatPublish; 111 media; 168
StatReporter; 123 mediana; 168
copiare l’output in; 124 normalità; 243
modificare; 125 outlier; 158
StatWizard; 127 regressione; 206
studentizzati tabella a doppia entrata; 231
residui; 210 XML, file; 36
valori; 157 Z-score; 252

294 Indice analitico