Sei sulla pagina 1di 395

Indice

1. Introduzione a Microsoft Excel pag. 9


1. Generalità » 9
2. Menù e barre degli strumenti » 13
3. Spostamento e selezione » 14
4. Immissione dati » 16
5. Inserimento di celle, righe, colonne e fogli » 18
6. Formattazione » 20
7. Righe, colonne e fogli » 25
8. Formule » 27
8.1. Generalità » 27
8.2. Indirizzi e nomi di celle » 27
8.3. Immissioni di funzioni » 28

2. Rappresentazioni grafiche » 31
1. Generalità » 31
2. Grafico a barre » 31
3. Grafico a settori circolari (torta) » 42
4. Istogramma » 50
5. Diagramma cartesiano » 61
6. Diagramma di dispersione (scatter-plot) » 70
7. Altre rappresentazioni » 75
7.1. Diagramma logaritmico » 75
7.2. Diagramma di Pareto » 80
7.3. Diagramma a scatola e baffi (box-plot) » 93
7.4. Diagramma polare (radar) » 103

3. Misure di tendenza centrale » 109


1. Generalità » 109
2. Media aritmetica » 110
3. Media geometrica » 112
4. Media armonica » 114
5. Mediana » 115
6. Quartili e percentili » 117
7. Moda » 118

5
4. Misure di variabilità pag. 121
1. Generalità » 121
2. Campo di variazione (range) » 122
3. Varianza » 123
4. Scarto quadratico medio (deviazione standard) » 124

5. Misure di forma » 126


1. Generalità » 126
2. Asimmetria » 126
3. Curtosi » 128

6. Strumenti di analisi: statistica descrittiva » 130


1. Generalità » 130

7. Distribuzioni di probabilità » 141


1. Generalità » 141
2. Distribuzione binomiale » 144
3. Distribuzione ipergeometrica » 160
4. Distribuzione di Poisson » 162
5. Distribuzione normale » 166
6. Altre distribuzioni » 177
6.1. Distribuzione χ2 » 177
6.2. Distribuzione t di Student » 179
6.3. Distribuzione F di Snedecor-Fisher » 181

8. Inferenza statistica parametrica » 183


1. Generalità » 183
2. Stima puntuale dei parametri » 184
2.1. Stima puntuale di una media » 184
2.2. Stima puntuale di una frequenza » 186
2.3. Stima puntuale di una differenza tra medie » 186
3. Intervalli di confidenza » 189
3.1. Generalità » 189
3.2. Intervallo di confidenza per la media » 189
3.2.1. Popolazione normalmente distribuita con varianza nota » 190
3.2.2. Popolazione normalmente distribuita con varianza inco-
gnita » 194
3.3. Intervallo di confidenza per la differenza di valori medi » 200
3.4. Intervallo di confidenza per la varianza » 205
3.5. Dimensione del campione » 212
4. Verifiche di ipotesi » 215
4.1. Generalità » 215
4.2. I test statistici » 216
4.3. Verifiche di ipotesi sul valore medio » 217
4.3.1. Verifica di ipotesi sul valore medio (varianza nota) » 217
4.3.2. Verifica di ipotesi sul valore medio (varianza ignota) » 226

6
4.4. Verifiche di ipotesi sulle differenze tra valori medi pag. 233
4.4.1. Verifica di ipotesi sulla differenza tra valori medi (va-
rianze note) » 233
4.4.2. Verifica di ipotesi sulla differenza tra valori medi (va-
rianze ignote e uguali) » 240
4.4.3. Verifica di ipotesi sulla differenza tra valori medi (va-
rianze ignote e diverse) » 246
4.4.4. Verifica di ipotesi sulla differenza tra valori medi per
campioni appaiati » 251
4.5. Verifiche di ipotesi sulla varianza » 259
4.5.1. Verifica di ipotesi sul rapporto tra varianze » 261
4.6. Verifiche di ipotesi sulla frequenza » 267

9. Inferenza statistica non parametrica » 270


1. Generalità » 270
2. Test per la bontà dell’adattamento » 270
2.1. Adattamento di una distribuzione binomiale » 273
2.2. Adattamento di una distribuzione di Poisson » 279
2.3. Adattamento di una distribuzione normale » 283

10. Analisi della varianza (ANOVA) » 300


1. Generalità » 300
2. Analisi della varianza ad un fattore » 300
3. Analisi della varianza a due fattori senza replica » 314
4. Analisi della varianza a due fattori con replica » 325

11. Regressione e correlazione » 340


1. Generalità » 340
2. Regressione lineare » 342
3. Correlazione » 368
4. Regressione logaritmica » 374
5. Regressione polinomiale » 380
6. Regressione di potenza » 386
7. Regressione esponenziale » 392

Allegato multimediale online » 397

7
1. Introduzione a Microsoft Excel

1. Generalità

Il foglio elettronico Microsoft Excel è un programma per la gestione di dati


sotto forma di tabelle. Offre un insieme di comandi e utility di cui è possibile
avvalersi per risolvere problemi inerenti la gestione e la elaborazione di dati.
Il programma gestisce i dati sotto forma di tabelle utilizzando una griglia
predisposta, data dall’intersezione di linee orizzontali e verticali: l’insieme del-
le caselle ordinate una sull’altra formanti un’unità verticale viene chiamata co-
lonna; le caselle disposte una accanto all’altra sulla stessa linea orizzontale
formano una riga; l’intersezione fra una riga e una colonna viene detta cella.
Le colonne vengono contraddistinte da lettere poste in ordine alfabetico
dalla A alla Z o dalla combinazione di due lettere (AA – AB – AC, … ).
Le righe, invece, sono differenziate da numeri che procedono in ordine cre-
scente a partire ad 1, 2, … .
Le celle sono identificate dalla combinazione della lettera della colonna e
del numero della riga che si intersecano; tale combinazione viene chiamata in-
dirizzo della cella.
La cella nella quale è possibile lavorare viene detta cella attiva, all’apertura
del foglio è sempre quella con indirizzo A1 (fig. 1.1).

Fig. 1.1 – Il foglio di lavoro

9
Per muoversi fra le celle è possibile utilizzare il mouse, i pulsanti di dire-
zione o il tabulatore.
Le informazioni che è possibile inserire nelle celle del foglio elettronico
possono essere di due tipi: numeriche e alfanumeriche. Con le prime è possibi-
le realizzare operazioni aritmetiche, le seconde hanno uno scopo esclusivamen-
te descrittivo.
I dati alfanumerici vengono definiti etichette o testo e sono rappresentati da
stringhe che cominciano con una lettera o un carattere di punteggiatura (tran-
ne caratteri speciali quali /, +, -, $, o il punto).
I dati numerici vengono chiamati numeri o valori e consistono in una com-
binazione di cifre non precedute da un prefisso di testo.
Nel foglio elettronico è possibile visualizzare i numeri con formati diversi a
seconda delle necessità (valuta, percentuale, scientifico, ecc.).
La principale funzione di un foglio elettronico è quella di svolgere opera-
zioni con i dati contenuti nelle celle attraverso l’utilizzo di formule che vengo-
no inserite nelle celle stesse. Tali formule consistono in una combinazione di
dati e operatori che generano un nuovo dato in output.
In generale le formule sono equazioni che eseguono calcoli sui valori con-
tenuti nel foglio di lavoro.
Una formula può contenere anche: funzioni, riferimenti, operatori e costan-
ti (fig. 1.2):
n o p q p r
= pi * A2 ^ 2

Fig. 1.2 – Esempio di una formula

dove:

- n =: simbolo che deve essere utilizzato per la composizione della formu-


la;
- o funzione: è una formula definita a priori che esamina uno o più valori,
esegue un'operazione e restituisce uno o più valori;
- p operatore: segno o simbolo che specifica il tipo di calcolo da eseguire
in un’espressione;
- q riferimento: coppia di coordinate che individua la posizione di una
cella sul foglio di lavoro;
- r costante: valore non calcolato, che non cambia all’interno della formu-
la.

Le funzioni sono formule predefinite che eseguono calcoli utilizzando valo-


ri specifici, denominati argomenti, in un particolare ordine o struttura. Le fun-
zioni possono essere utilizzate per eseguire calcoli semplici o complessi.

10
Una funzione generalmente contiene il nome della funzione e gli argomenti
(fig. 1.3):
n o p
= ARROTONDA ( A2 , 2 )

Fig. 1.3 – Esempio di una funzione

dove:

- n = simbolo che deve essere utilizzato per la composizione della funzio-


ne;
- o nome della funzione: un elenco di funzioni è disponibile, dopo aver
cliccato su una cella, premendo MAIUSC+F3. Le funzioni disponibili nel
programma sono suddivise sulla base delle seguenti categorie:

- database;
- data e ora;
- esterne;
- ingegneristiche;
- finanziarie;
- informative;
- logiche;
- ricerca e riferimento;
- matematiche e trigonometriche;
- statistiche;
- testo e dati;

- p argomenti: possono essere numeri, testo, valori logici come VERO o


FALSO, matrici, codici di errore o riferimenti di cella. L'argomento desi-
gnato deve fornire un valore valido per tale argomento. Gli argomenti
possono anche essere costanti, formule o altre funzioni.

Con Microsoft Excel viene fornito un insieme di strumenti di analisi dei da-
ti, denominati Strumenti di analisi, che consente di ridurre i passaggi necessa-
ri allo sviluppo di complesse analisi statistiche o ingegneristiche. Una volta
forniti i dati e i parametri per ciascuna analisi, lo strumento utilizzerà le fun-
zioni macro statistiche o ingegneristiche appropriate, visualizzando i risultati in
una tabella di output. Alcuni strumenti generano anche dei grafici; tali stru-
menti sono:

- Strumento Analisi varianza: comprendono diversi tipi di analisi della


varianza (ANOVA). La scelta dello strumento più appropriato dipende
dal numero di fattori e di campioni relativi alle popolazioni da analizzare;

11
- Correlazione: consente di misurare la relazione fra due insiemi di dati;
- Covarianza: consente di determinare la relazione tra due intervalli di da-
ti;
- Statistica descrittiva: genera un rapporto di statistica univariata per i da-
ti dell'intervallo di input, fornendo informazioni sulla tendenza centrale e
la variabilità dei dati;
- Smorzamento esponenziale: consente di prevedere un valore sulla base
della previsione per il periodo precedente con la correzione dell'errore
della previsione precedente;
- Test F a due campioni per varianze: consente di eseguire un test F a due
campioni per confrontare le varianze di due popolazioni;
- Analisi di Fourier: consente di risolvere i problemi dei sistemi lineari e
di analizzare i dati periodici utilizzando il metodo Fast Fourier Tran-
sform (FFT) per la trasformazione dei dati. Questo strumento supporta
anche le trasformazioni inverse, in cui l'inversa dei dati trasformati resti-
tuisce i dati originali;
- Istogramma: consente di calcolare le frequenze individuali e cumulative
per un intervallo di celle e di classi di dati. Questo strumento genera dati
per il numero di occorrenze di un valore in un insieme di dati;
- Media mobile: consente di proiettare valori nel periodo di previsione sul-
la base del valore medio della variabile calcolata su un numero specifico
di periodi precedenti. Una media mobile fornisce le informazioni sulla
tendenza che una semplice media di tutti i dati cronologici non sarebbe in
grado di fornire;
- Generazione di un numero casuale: consente di riempire un intervallo
con numeri casuali indipendenti derivati da uno dei numerosi tipi di di-
stribuzione. È possibile caratterizzare i soggetti di una popolazione con
una distribuzione probabilistica;
- Rango e percentile: consente di generare una tabella contenente il rango
ordinale e percentuale di ciascun valore di un insieme di dati. È possibile
analizzare la posizione relativa dei valori in un insieme di dati;
- Regressione: consente di eseguire un’analisi lineare della regressione uti-
lizzando il metodo dei minimi quadrati per adattare una retta a un insie-
me di osservazioni. È possibile analizzare l'effetto di una o più variabili
indipendenti su una singola variabile dipendente;
- Campionamento: consente di creare un campione da una popolazione
trattando l'intervallo di input come una popolazione. Qualora una popola-
zione sia troppo vasta per elaborarla o tracciarla in un grafico, è possibile
utilizzarne un campione rappresentativo. È anche possibile creare un
campione contenente solo i valori di una determinata parte di un ciclo, se
si ritiene che i dati di input siano periodici;
- Test t: consente l'analisi della media di tipi di popolazioni differenti;

12
- Test z: consente di eseguire un test z a due campioni per medie con va-
rianze note.

2. Menù e barre degli strumenti

All’apertura di Excel ci si trova di fronte ad un documento vuoto, la cartel-


la di lavoro, composto da tre fogli (impostazione predefinita) (fig. 1.4):

Fig. 1.4 – Schermata iniziale

Ogni foglio è costituito da una griglia composta da un numero molto eleva-


to di righe (65.536) e colonne (256) identificate rispettivamente da numeri e
lettere (intestazione di riga e di colonna).
L’ambiente di lavoro presenta tre barre principali oltre a quella dei menù:
(fig. 1.5):

Fig. 1.5 – Barra dei menu

- Barra standard: che contiene gli strumenti comuni per lavorare con ogni
tipo di documento (Salva, Stampa, Taglia, Copia, Incolla, Elimina, ecc.) e
quelli più utilizzati per lavorare con un foglio elettronico (Somma, Incolla
funzione, Ordinamento, ecc.) (fig. 1.6);

13
Fig. 1.6 – Barra standard

- Barra della formattazione: consente di modificare la struttura dei dati


inseriti nelle celle attraverso pulsanti di scelta rapida (fig. 1.7);

Fig. 1.7 – Barra della formattazione

- Barra della formula: visualizza la formula contenuta in una cella (o, se


non vi sono formule, i dati stessi) nonché l’indirizzo della cella stessa (fig. 1.8):

Fig. 1.8 – Barra della formula

3. Spostamento e selezione

Per muoversi nel foglio di lavoro è possibile utilizzare le barre di scorri-


mento poste sul lato destro e inferiormente al foglio.
Per spostarsi da una cella all’altra è possibile utilizzare il mouse o la tastie-
ra, in particolare, se si utilizza:

- il mouse, basta cliccare sulla cella nella quale ci si vuole posizionare;


- la tastiera, è necessario utilizzare i tasti di direzione per muoversi tra le
celle, le frecce direzionali spostano il cursore di una cella, i tasti PagSu e
PagGiù lo spostano di una finestra, le combinazioni Ctrl+Home o
Ctrl+Fine portano il cursore rispettivamente alla prima e all’ultima cella
correntemente utilizzata.

Per quanto riguarda, invece, le modalità di selezione delle celle, abbiamo:

- una cella: cliccare sulla cella; apparirà con un contorno nero (fig. 1.9):

Fig. 1.9 – Selezione di una cella

14
- più celle: cliccare sulla prima e trascinare fino all’ultima. Le celle appari-
ranno contornate di nero. In più la prima cella resterà a fondo bianco (per indi-
care che è quella iniziale) e le altre avranno fondo scuro (fig. 1.10):

Fig. 1.10 – Selezione di un gruppo di celle

- una riga o una colonna: cliccare sulla rispettiva intestazione. Tutte le cel-
le appariranno su fondo scuro (fig. 1.11, 1.12):

Fig. 1.11 – Selezione di una riga

Fig. 1.12 – Selezione di una colonna

- più righe o colonne: cliccare sulla intestazione della prima e trascinare fi-
no all’ultima. Anche qui tutte le celle selezionate appariranno su fondo
scuro (fig. 1.13, 1.14):

Fig. 1.13 – Selezione di più righe

15
Fig. 1.14 – Selezione di più colonne

- elementi non consecutivi: cliccare sul primo e poi sui successivi tenendo
premuto tasto CTRL; in questo caso l’ultima cella selezionata è in fondo
chiaro (per indicare che è quella finale) (fig. 1.15):

Fig. 1.15 – Selezione di elementi non consecutivi

4. Immissione dati

Per immettere dati nelle celle è sufficiente attivarle e iniziare a digitare.


Per modificarne il contenuto è possibile utilizzare due strade:

- fare doppio clic, inserire i cambiamenti e premere il tasto Invio;


- attivare la casella, modificarne il contenuto e cliccare sul segno di spunta
verde ( );

16
Per cancellare l’intero contenuto di una cella (o di più celle) selezionare
l’area interessata e premere il tasto Canc.
Va notato che Excel pretende che ogni dato immesso vada convalidato, per
questo motivo occorre premere Invio dopo l’immissione del dato.
In fase di immissione, il testo viene allineato a sinistra nella cella e si e-
stende anche sulle celle adiacenti, se la sua lunghezza va oltre la cella attiva, fin
quando nelle celle adiacenti non verrà inserito del testo a sua volta. In questo
caso il contenuto delle celle verrà troncato, anche se è sempre possibile aumen-
tare la larghezza delle celle per visualizzarlo per intero.
Per modificare le dimensioni delle celle, senza utilizzare i comandi, è pos-
sibile posizionare il puntatore del mouse tra l’etichetta di colonna (o di riga)
della colonna che si vuole modificare e la successiva (o precedente); il puntato-
re diventa una doppia freccia; a questo punto basta cliccare e trascinare. Oppure
effettuare un doppio clic quando il puntatore diventa una doppia freccia: in
questo modo si adatta la dimensione della cella al suo contenuto.
Se si vuole andare a capo all’interno della stessa cella si deve premere i ta-
sti Alt + Invio.
I numeri immessi nella cella vengono allineati a destra, se sono più lunghi
di questa al loro posto verranno visualizzati dei simboli di cancelletto (###) al-
largando la colonna verrà restituito il valore digitato per intero.
Le date vengono allineate a destra e per essere riconosciute come tali de-
vono essere separate dal carattere barra (/) dal trattino (-) o da uno spazio. Al-
cuni valori riconosciuti come date vengono automaticamente visualizzati in
modo differente da come sono stati scritti. Se una cella che contiene una data
viene formattata come Numero: al posto della data compare un numero, che
corrisponde al numero progressivo del giorno considerando che il giorno 1° è il
1° gennaio del 1900.
L’orario viene allineato anch’esso a destra e deve essere separato dai due
punti (:) o da un punto singolo (.), ma nella visualizzazione verrà utilizzato il
punto come divisore.
Excel, inoltre, consente di creare una serie di elementi predefiniti (giorni
della settimana, mesi, … ) semplicemente digitandone il primo. Significa che è
possibile scrivere “Lunedì” e poi far scrivere a Excel il resto; oppure scrivere
“1 ott.” e poi lasciar fare al programma. Per far ciò basta attivare la cella conte-
nente il primo dato (generatore della serie), quindi posizionarsi sull’angolo in-
feriore destro (si noterà un quadratino nero: si chiama maniglia di trascina-
mento) e, quando il puntatore assume la forma di una croce nera, cliccare e tra-
scinare il riquadro che si formerà fino alla cella in cui si desidera completare la
serie. Se si trascina a sinistra o in alto dalla casella di origine si ottiene il risul-
tato di immettere i valori antecedenti il primo, se ci porta a destra o in basso,
invece, si ottengono dei valori successivi nella serie.

17
5. Inserimento di celle, righe, colonne e fogli

In qualsiasi fase del lavoro ci si trovi, vi è sempre la possibilità di inserire o


eliminare righe e/o colonne.
Per inserire una colonna posizionare il cursore a destra del punto in cui si
vuole che la colonna appaia ed attivare il comando Inserisci Colonne (fig.
1.16):

Fig. 1.16 – Inserimento di una colonna

Se, invece, si vuole inserire una riga, basta posizionare il cursore in quella
immediatamente sotto al punto di inserimento ed attivare il comando Inserisci
Righe (fig. 1.17):

Fig. 1.17 – Inserimento di una riga

18
Infine, per inserire solo una cella, ci si posizioni nel punto in cui inserirla
ed attivare il comando Inserisci Celle, (fig. 1.18):

Fig. 1.18 – Inserimento di una cella

successivamente verrà visualizzata la finestra Inserisci celle dove sarà poi


possibile scegliere dove inserire la cella attiva (fig. 1.19):

Fig. 1.19 – Inserisci celle

Infine, è possibile aumentare i fogli di lavoro con il comando Inserisci Fo-


glio di lavoro (fig. 1.20):

19
Fig. 1.20 – Inserisci Foglio di lavoro

6. Formattazione

Una parte davvero importante di Excel è la formattazione. Infatti, come già


detto, il programma viene soprattutto utilizzato per elaborare i dati inseriti nelle
celle al fine di produrre dei risultati che possono essere prospetti contabili o
statistici o similari. Risulta abbastanza ovvio pensare quindi che è di vitale im-
portanza informare sempre Excel sul tipo di dati che si sta trattando: ad esem-
pio per eseguire una somma è necessario aver immesso dei dati numerici, per
eseguire una somma di ore (che è sessagesimale e non decimale) bisogna aver
immesso i dati in formato orario, ecc. Per questo motivo il menù Formato me-
rita particolare attenzione.
La finestra Formato Celle presenta diverse schede (fig. 1.21):

20
Fig. 1.21 – Formato celle

Dalla scheda Numero è possibile assegnare un formato particolare ai dati


numerici:

- Generale: è il formato di default per i dati numerici e non corrisponde ad


un formato particolare;
- Numero: consente la visualizzazione generale dei numeri e di specificare
il numero di cifre decimali, nonché il tipo di visualizzazione per i numeri
negativi;
- Valuta: mette a disposizione una vasta gamma di simboli per la visualiz-
zazione di formati valutari generici;
- Contabilità: allinea i simboli di valuta a sinistra e gli importi a destra;
- Data: consente di scegliere un particolare formato da assegnare alle date;
- Ora: permette di dare un certo formato ai dati di tipo time;
- Percentuale: moltiplica il valore della cella per 100 e inserisce il simbolo
di percentuale;
- Frazione: specifica il formato da assegnare alle frazioni;
- Scientifico: visualizza il numero in notazione scientifica;
- Testo: valuta i dati della cella come testo;
- Speciale: permette di considerare il numero inserito come facente parte di
un tipo particolare (C.A.P., Codice Fiscale, Numero telefonico, Codice
Previdenza Sociale, ecc.);
- Personalizzato: permette di dare particolari formati fra quelli elencati do-
ve il cancelletto indica i numeri che vengono immessi. Tra le parentesi
quadre è possibile invece indicare un colore per i caratteri.

21
La scheda Allineamento permette di scegliere il tipo di allineamento,
l’orientamento ed effettuare alcuni controlli sul testo (fig. 1.22):

Fig. 1.22 – Formato celle: Allineamento

È possibile allineare il testo nella cella sia orizzontalmente che verticalmen-


te.
Nel primo caso è possibile scegliere una delle seguenti modalità:

- Standard: mantiene le impostazioni del tipo di dati che vengono inseriti;


- Sinistro: porta il contenuto della cella a sinistra ed è possibile applicarvi
un rientro;
- Al centro: centra i dati rispetto alla cella;
- A destra: dispone i dati sulla destra della cella;
- Riempi: ripete il contenuto della cella tante volte fino a riempire lo spazio
disponibile;
- Giustifica: dispone, nelle celle dove vi sia del testo portato a capo, che le
righe inizino all’estrema sinistra e si concludano all’estrema destra, allar-
gando la dimensione degli spazi divisori delle parole;
- Centra nelle colonne: centra il testo rispetto ad un certo numero di co-
lonne.

L’allineamento verticale consente quattro scelte:

- In alto: posiziona i dati superiormente nella cella;


- In basso: posiziona i dati inferiormente nella cella;
- Al centro: posiziona i dati centralmente nella cella;

22
- Giustifica: nel caso del ritorno a capo o quando gli elementi sono orienta-
ti verticalmente, consente sempre di occupare pienamente lo spazio della
cella allargando la distanza fra le righe o le parole.

Abilitando le caselle del Controllo testo è possibile ottenere il ritorno a ca-


po del testo, adattarlo riducendone le dimensioni in base alla larghezza della
cella, unire più celle.
Infine, grazie alle funzioni di Orientamento è possibile scrivere vertical-
mente o in diagonale assegnando un valore in gradi di rotazione al testo.
La scheda Carattere consente di definire le formattazioni del carattere (fig.
1.23):

Fig. 1.23 – Formato celle: Carattere

- Tipo di carattere;
- Stile;
- Dimensioni;
- Sottolineatura;
- Colore;
- Effetti.

Questo tipo di formattazione può essere applicata all’intero contenuto delle


celle o a parte di esse facendo doppio clic sulla cella e selezionando la porzione
di testo.
La scheda Bordo permette di assegnare una bordatura esterna o interna al-
le celle selezionate (fig. 1.24):

23
Fig. 1.24 – Formato celle: Bordo

La scheda Motivo permette di attribuire un colore o un motivo particolare


alle celle (fig. 1.25):

Fig. 1.25 – Formato celle: Motivo

La scheda Protezione permette di bloccare delle celle o nascondere delle


formule in modo da impedirne la modifica o la rimozione accidentale (fig.
1.26):

24
Fig. 1.26 – Formato celle: Protezione

7. Righe, colonne e fogli

La formattazione delle righe, delle colonne e dei fogli è piuttosto semplice.


Abbiamo già visto come sia possibile modificare alcune dimensioni con il
mouse. Vediamo ora cosa si può fare con i comandi.
Il comando Formato Riga (fig. 1.27):

Fig. 1.27 – Formato Riga

presenta il seguente sottomenù:

- Altezza: visualizza una finestra di dialogo dove impostare l’altezza in


punti della riga;
- Adatta: adatta la dimensione della riga alla dimensione del contenuto;
- Nascondi: nasconde la riga selezionata;
- Scopri: scopre una riga nascosta.

Il comando Formato Colonna (fig. 1.28):

25
Fig. 1.28 – Formato Colonna

presenta un sottomenù:

- Larghezza: visualizza una finestra di dialogo dove impostare la larghezza


in pixel delle colonne;
- Adatta: adatta la dimensione della colonna alla dimensione della cella
più grande;
- Nascondi: nasconde la colonna selezionata;
- Scopri: scopre una colonna nascosta;
- Larghezza Standard: attraverso una finestra di dialogo permette di im-
postare una larghezza standard per le colonne.

Il comando Formato Foglio (fig. 1.29):

Fig. 1.29 – Formato Foglio

presenta un sottomenù:

- Rinomina: permette di rinominare il foglio attivo;


- Nascondi: permette di nascondere il foglio attivo;
- Scopri: permette di rivisualizzare un foglio precedentemente nascosto, at-
traverso una finestra di dialogo;
- Sfondo: permette di impostare uno sfondo per il foglio attivo.

26
8. Formule

8.1. Generalità

Il vero punto di forza del programma Excel è dato dalla gestione delle for-
mule.
È possibile immettere nelle celle formule di ogni tipo, dove i parametri so-
no i dati contenuti in altre celle (dello stesso foglio, della stessa cartella o anche
di altre cartelle) e lasciare fare a Excel i conti e visualizzare il risultato.
Quando si utilizza una formula semplice o costituita da una funzione, nella
casella che la ospita non vedremo i suoi parametri, bensì il risultato
dell’operazione effettuata.
Per visualizzarne gli elementi costituenti bisogna selezionare la cella che li
contiene e guardare la barra della formula, oppure fare doppio clic sulla stessa.
Il primo carattere di una formula deve essere sempre l’uguale ( = ) a cui
devono seguire gli elementi che la completano.
È possibile inserire una formula direttamente in una cella o sulla barra della
formula utilizzando l’apposito pulsante Modifica formula (rappresentato da un
uguale), nel qual caso comparirà una finestra che visualizzerà il risultato man
mano che vengono inseriti i parametri.
I parametri delle formule sono costituiti da indirizzi di cella, operatori e
valori.
Per indicare che la formula è terminata è necessario premere sempre il pul-
sante di Invio.
Per immettere gli indirizzi di cella non è necessario digitarli: è possibile
semplicemente cliccare sulla cella contenente il dato che interessa, inserire gli
operatori e cliccare sulle altre celle fino ad ottenere la formula desiderata.

8.2. Indirizzi e nomi di celle

Se ci si trova di fronte ad una formula con degli indirizzi di cella, si noterà


che se questa viene copiata da una cella ad un’altra gli indirizzi che conteneva
come argomenti variano a seconda di dove questa viene copiata e di conse-
guenza anche il risultato cambia. In altri termini, se si sposta una formula da
una cella ad un’altra anche gli indirizzi della formula si spostano.
Se invece desideriamo che ovunque venga copiata la formula i suoi para-
metri non cambino, dobbiamo far diventare i riferimenti da relativi ad assoluti.
Per far ciò sarà sufficiente aggiungere il simbolo del dollaro ($) davanti ad ogni
lettera ed ogni numero che costituiscono il riferimento.
Anche nella copia da un foglio all’altro ci si trova di fronte ad uno sposta-
mento di riferimenti. Se si rendono i riferimenti assoluti, un’operazione di co-
pia da un foglio all’altro riprodurrà la stessa formula ma applicata al nuovo fo-

27
glio. Per ottenere questo risultato è necessario far precedere i riferimenti asso-
luti di cella dai riferimenti assoluti del foglio. Ciò si ottiene facendo seguire al
nome del foglio un punto esclamativo (!).
Inoltre è possibile avere anche dei riferimenti misti, vale a dire assoluto per
una colonna e relativo per una riga o viceversa, semplicemente anteponendo il
simbolo $ alla sola etichetta che si desidera assoluta.
Infine c’è da ricordare che attraverso la maniglia di trascinamento Excel
copia le formule adattandole relativamente. In altre parole se al termine della
prima colonna di una tabella si esegue un totale, trascinando per la maniglia
questa cella nella cella a fianco comparirà il totale della seconda colonna. Excel
esegue il totale dei soli dati formattati come numeri, saltando automaticamente
i dati in formato testo.

8.3. Immissione di funzioni

Excel mette a disposizione diversi tipi di operatori per eseguire i calcoli


nelle formule o nelle funzioni. Nella tab. 1.1 vengono elencati quelli disponibili
con il loro significato:

Tab. 1.1 – Tipi di operatori utilizzabili con Excel


Simbolo Tipo di operatore Tipo di operazione
+ aritmetico addizione
- aritmetico sottrazione
- aritmetico negativo
* aritmetico prodotto
/ aritmetico divisione
% aritmetico percentuale
^ aritmetico elevamento a potenza
& testo concatenazione testo
= comparativo uguale
< comparativo minore
<= comparativo minore o uguale
> comparativo maggiore
>= comparativo maggiore o uguale
<> comparativo diverso
: riferimento intervallo fra celle
; riferimento unione di intervalli

Gli elementi delle funzioni possono essere costituiti da singole celle o da in-
tervalli, da numeri e testo; esse iniziano sempre col segno uguale ( = ) al quale
segue il nome della funzione e delle parentesi tonde entro le quali inserire i pa-
rametri che vengono separati fra loro da un punto e virgola (;). È possibile inse-

28
rire più funzioni in una stessa formula, ma il segno di uguale andrà soltanto da-
vanti alla prima.
Diversi possono essere i metodi di inserimento di una formula:

- digitarla direttamente nella casella o sulla barra della formula;


- cliccare sul pulsante Modifica formula della barra della formula (è il se-
gno di uguale) e scegliere dalla Casella funzioni quella che si vuole uti-
lizzare (fig. 1.30):

Fig. 1.30 – Modifica formula

cliccando sulla freccia a destra si apre la lista di quelle più usate di recen-
te; la voce Altre funzioni attiva invece la finestra Inserisci funzione;
- attivare la finestra Inserisci funzione mediante il pulsante della barra
della formula (fig. 1.31):

Fig. 1.31 – Inserisci funzione

In questa finestra, è possibile scegliere la funzione che si intende utilizza-


re nella formula.
Come si può facilmente notare le formule sono suddivise per categorie; se
non si sa bene a quale categoria appartiene una funzione cliccare su Tutte

29
per avere l’elenco completo, in ordine alfabetico, delle funzioni disponibi-
li.
Per ogni funzione viene spiegato in basso il suo funzionamento, vale a di-
re la sua sintassi.
È possibile digitare direttamente gli argomenti o cliccare sul pulsante a
destra degli appositi spazi e selezionarli con il mouse; la finestra scompa-
rirà e rimarrà un riquadro nel quale si potrà visualizzare gli indirizzi o in-
tervalli selezionati. Per tornare alla funzione si deve cliccare nuovamente
sul pulsante alla sua destra; quando è completata la fase di digitazione, si
deve preme il pulsante OK.

Infine, nel caso in cui si commettano degli errori, Excel visualizza, in alcu-
ni casi dei messaggi, per informarvi che le parentesi aperte non corrispondono
a quelle chiuse o che vi è un riferimento circolare (si utilizzando cioè la cella
che contiene il risultato anche come dato per ottenere il risultato stesso); in altri
casi Excel visualizza dei codici di errore:

- #####: una colonna non è sufficientemente larga oppure quando si usano


date o ore negative;
- #VALORE!: si utilizza il tipo errato di argomento o operando;
- #DIV/0!: si divide un numero per zero;
- #NOME?: non viene riconosciuto il testo in una formula;
- #N/D: il valore per una funzione o per una formula non è disponibile;
- #RIF!: un riferimento di cella non è valido;
- #NUM!: una formula o una funzione contengono valori numerici non va-
lidi.

30
2. Rappresentazioni grafiche

1. Generalità

La prima rappresentazione grafica di un fenomeno statistico fu un grafico a


nastri, ideato dal chimico e teologo inglese Priestley nel 1765 per rappresentare
la durata della vita di personaggi celebri vissuti tra il 1200 e il 1750.
L’inventore dei grafici statistici veri e propri può essere considerato Playfair
che nel 1801 pubblicò a Londra un libro in cui utilizzò grafici a disco e grafici
a settore per rappresentare le risorse economiche degli Stati Europei.
Nella prima metà del secolo XIX lo sviluppo e la diffusione dei metodi gra-
fici furono dovuti all’iniziativa degli statistici del campo demografico e
all’opera di ingegneri francesi addetti a lavori pubblici nel settore dei trasporti.
Verso la metà del secolo, le rappresentazioni grafiche avevano raggiunto
una discreta sistemazione scientifica come importante ausilio alla statistica de-
mografica e, nonostante le numerose critiche, erano già riconosciute come un
buon mezzo di presentazione dei dati e di indagine dei fenomeni statistici. Il
loro successo, infatti, rispetto alle tabelle di numeri è dovuto al fatto che le fi-
gure vengono percepite, dalla mente umana, con maggiore rapidità e vengono
meglio memorizzate.
Dalla sola osservazione dell’insieme dei dati, inoltre, non sarebbe possibile
cogliere gli elementi essenziali delle distribuzioni e confrontare fra loro più fe-
nomeni statistici come avviene in modo semplice utilizzando le rappresenta-
zioni grafiche. Si sottolinea, infine, che i grafici non sostituiscono le tabelle, ma
ne sono un utile complemento.

2. Grafico a barre

I grafici a barre costituiscono il primo strumento grafico utilizzato e sono


tuttora molto utilizzati per rappresentare variabili qualitative e variabili quanti-
tative discrete.

31
Per rappresentare una tabella si disegna, per ciascuna modalità del fenome-
no, un rettangolo di lunghezza proporzionale alla frequenza o all’intensità della
modalità e di larghezza arbitraria.
I rettangoli possono essere sia orizzontali (grafico a barre orizzontali) (fig.
2.7), sia verticali (grafico a barre verticali) (fig. 2.13).
Se si vogliono rappresentare graficamente i dati di tabelle a doppia entrata,
si possono utilizzare grafici a barre suddivise o a colonne suddivise (fig. 2.20).
In questo caso i rettangoli vengono suddivisi in tratti proporzionali alle fre-
quenze o intensità congiunte.
I grafici a barre possono inoltre riportare sia valori positivi sia valori nega-
tivi, nel caso in cui i valori siano negativi rispetto ad un valore di riferimento
(fig. 2.13).
Come si può facilmente intuire, l’utilizzo dei grafici a barre è molto vasto;
la diffusione di queste rappresentazioni è dovuta sia all’immediatezza di lettura
dell’andamento dei fenomeni rappresentati, sia dalla semplicità di costruzione
dei grafici stessi.

Esempio 2.1

Il proprietario di una catena di negozi vuole confrontare il reddito (in euro) dei
suoi 5 negozi che si trovano in località diverse nella stessa provincia (tab. 2.1):

Tab. 2.1 – Reddito mensile di alcuni negozi (in euro)


Negozio Reddito
Negozio 1 € 21.500,00
Negozio 2 € 16.800,00
Negozio 3 € 20.500,00
Negozio 4 € 21.100,00
Negozio 5 € 19.700,00

Partendo dalla cella A1, introdurre i dati della tab. 2.1, ottenendo il seguente
risultato (fig. 2.1):

Fig. 2.1 – Inserimento nel foglio elettronico dei dati di tab. 2.1

32
Selezionare le celle A1:B6, aprire il menu Inserisci e cliccare sulla voce Gra-
fico (fig. 2.2):

Fig. 2.2 – Creazione guidata grafico – Passaggio 1 di 4 – Tipo di grafico

Successivamente, cliccare tra i Tipi standard, il tipo Barre e tra le Scelte di-
sponibili mantenere il valore di default (fig. 2.3):

Fig. 2.3 – Selezione del tipo di grafico

Premere sul pulsante Avanti (fig. 2.4):

33
Fig. 2.4 – Creazione guidata grafico – Passaggio 2 di 4 – Dati di origine del grafico

Procedere ancora premendo il pulsante Avanti e nel Titolo del grafico digita-
re: Reddito mensile di alcuni negozi (in euro) (fig. 2.5):

Fig. 2.5 – Creazione guidata grafico – Passaggio 3 di 4 – Opzioni del grafico

Premendo ancora una volta sul pulsante Avanti e selezionando la voce Crea
nuovo foglio (fig. 2.6):

34
Fig. 2.6 – Creazione guidata grafico – Passaggio 4 di 4 – Posizione grafico

si ottiene il grafico desiderato (fig. 2.7):


Reddito mensile di alcuni negozi (in euro)

Negozio 5

Negozio 4

Negozio 3

Negozio 2

Negozio 1

€- € 5.000 € 10.000 € 15.000 € 20.000 € 25.000

Fig. 2.7 – Grafico a barre per il reddito mensile di alcuni negozi (in euro)

Esempio 2.2

La tab. 2.2 rappresenta gli arrivi (espressi sotto forma di variazioni percentuali
rispetto allo stesso periodo dell’anno precedente) negli esercizi alberghieri per
ripartizione geografica, durante il periodo di ferragosto 2001:

Tab. 2.2 – Arrivi negli esercizi alberghieri per ripartizione geografica ferragosto
2001 (fonte: ISTAT)
Zona geografica Italiani Stranieri
Nord – ovest 1,1 -7,6
Nord - est -1,0 -1,6
Centro -2,9 5,9
Sue e isole 6,5 -16,1

35
Partendo dalla cella A1, introdurre i dati della tab. 2.2, ottenendo il seguente
risultato (fig. 2.8):

Fig. 2.8 – Inserimento nel foglio elettronico dei dati di tab. 2.2

Selezionare le celle A1:C5, aprire il menu Inserisci e cliccare sulla voce Gra-
fico (fig. 2.9):

Fig. 2.9 – Creazione guidata grafico – Passaggio 1 di 4 – Tipo di grafico

Successivamente, cliccare tra i Tipi standard, il tipo Istogramma, tra le Scel-


te disponibili mantenere il valore di default e premere il pulsante Avanti (fig.
2.10):

36
Fig. 2.10 – Creazione guidata grafico – Passaggio 2 di 4 – Dati di origine del grafi-
co

Procedere ancora premendo il pulsante Avanti e nel Titolo del grafico digita-
re: Arrivi negli esercizi alberghieri per ripartizione geografica ferragosto 2001
(fonte: ISTAT) (fig. 2.11):

Fig. 2.11 – Creazione guidata grafico – Passaggio 3 di 4 – Opzioni del grafico

Premendo ancora una volta sul pulsante Avanti e selezionando la voce Crea
nuovo foglio (fig. 2.12):

37
Fig. 2.12 – Creazione guidata grafico – Passaggio 4 di 4 – Posizione grafico

si ottiene il grafico desiderato (fig. 2.13):


Arrivi negli esercizi alberghieri per ripartizione geografica ferragosto 2001
(fonte: ISTAT)
20

15

10

Nord - ovest Nord - est Centro Sud e isole


-5

Italiani
Stranieri
-10

Fig. 2.13 – Arrivi negli esercizi alberghieri per ripartizione geografica ferragosto
2001 (fonte: ISTAT)

Esempio 2.3

La tab. 2.3 rappresenta l’ammontare delle esportazioni ed importazioni per atti-


vità economica anno 2001 (fonte: ISTAT).

38
Tab. 2.3 – Esportazioni e importazioni per attività economica anno 2001 (fonte:
ISTAT)
Classi di attività economica Esportazioni Importazioni
Autoveicoli 11.681.377 24.736.864
Parti e accessori per autoveicoli 8.494.249 4.862.863
Calzature 8.394.356 3.062.063
Medicinali e preparati farmaceutici 6.988.249 6.483.934
Altre macchine per impieghi speciali 6.895.006 2.495.881
Elettrodomestici 6.011.183 1.119.915
Macchine utensili compresi parti e accessori 5.680.330 2.631.355
Altri indumenti esterni 5.669.565 2.612.787
Gioielli e articoli di oreficeria 5.382.526 941.905
Altre macchine di impiego generale 5.134.691 1.431.210

Partendo dalla cella A1, introdurre i dati della tab. 1.3, ottenendo il seguente
risultato (fig. 2.14):

Fig. 2.14 – Inserimento nel foglio elettronico dei dati di tab. 2.3

Selezionare le celle A1:C11, aprire il menu Inserisci e cliccare sulla voce Gra-
fico (fig. 2.15):

39
Fig. 2.15 – Creazione guidata grafico – Passaggio 1 di 4 – Tipo di grafico

Successivamente, cliccare tra i Tipi standard, il tipo Barre e tra le Scelte di-
sponibili selezionare Barre in pila (fig. 2.16):

Fig. 2.16 – Selezione del tipo di grafico

A questo punto premere sul pulsante Avanti (fig. 2.17):

40
Fig. 2.17 – Creazione guidata grafico – Passaggio 2 di 4 – Dati di origine del grafi-
co

Procedere ancora premendo il pulsante Avanti e nel Titolo del grafico digita-
re: Esportazioni e importazioni per attività economica anno 2001 (fonte: I-
STAT) (fig. 2.18):

Fig. 2.18 – Creazione guidata grafico – Passaggio 3 di 4 – Opzioni del grafico

Premendo ancora una volta sul pulsante Avanti e selezionando la voce Crea
nuovo foglio (fig. 2.19):

41
Fig. 2.19 – Creazione guidata grafico – Passaggio 4 di 4 – Posizione grafico

si ottiene il grafico desiderato (fig. 2.20):


Esportazioni e importazioni per attività economica anno 2001 (fonte: ISTAT)

Altre macchine di impiego Esportazioni


generale Importazioni

Gioielli e articoli di oreficeria

Altri indumenti esterni

Macchine utensili compresi parti


e accessori

Elettrodomestici

Altre macchine per impieghi


speciali

Medicinali e preparati
farmaceutici

Calzature

Parti e accessori per autoveicoli

Autoveicoli

- 5.000.000
10.000.000 15.000.000 20.000.000 25.000.000 30.000.000 35.000.000 40.000.000
Fig. 2.20 – Esportazioni e importazioni per attività economica anno 2001 (fonte:
ISTAT)

3. Grafico a settori circolari (torte)

L’utilizzo dei grafici a settori circolari (torte) è giustificato quando si vuo-


le mettere in evidenza come il fenomeno è suddiviso fra le varie modalità che
lo compongono.
La frequenza o l’intensità totale del fenomeno viene rappresentata da tutta
l’area del cerchio, mentre la frequenza o intensità di ciascuna modalità viene
rappresentata dall’area di un singolo settore. Naturalmente vi sono tanti settori
quante sono le modalità da rappresentare.

42
L’angolo al centro di ogni settore è proporzionale alla frequenza o intensità
della modalità che rappresenta.
Le ampiezze α i degli angoli dei settori vengono calcolate con la seguente
proporzione:
α i : 360 = fi : ftot
dove:

- 360 è l’angolo giro;


- f i è la frequenza della i-esima modalità;
- f tot indica la frequenza totale del fenomeno.

L’angolo α i del settore circolare si ottiene quindi moltiplicando la fre-


quenza relativa per 360.
Infine, se vi è la necessità di rappresentare più di una serie di dati, è consi-
gliabile l’utilizzo dei grafici ad anello che permettono la visualizzazione dei
dati tramite anelli concentrici (fig. 2.34).

Esempio 2.4

La tab. 2.4 rappresenta il numero complessivo di depositi bancari suddivisi per


aree geografiche al 31 dicembre 2003 (fonte: Banca d’Italia).

Tab. 2.4 – Depositi bancari per aree geografiche al 31 dicembre 2003 (fonte: Ban-
ca d’Italia)
Italia Nord-Occidentale 214.476
Italia Nord-Orientale 129.678
Italia Centrale 141.728
Italia Meridionale 85.614
Italia Insulare 40.817

Partendo dalla cella A1, introdurre i dati della tab. 2.4, in modo da ottenere il
seguente risultato (fig. 2.21):

Fig. 2.21 – Inserimento dati tab. 2.4

43
Selezionare le celle A1:B5, aprire il menu Inserisci e cliccare sulla voce Gra-
fico (fig. 2.22):

Fig. 2.22 – Creazione guidata grafico – Passaggio 1 di 4 – Tipo di grafico

Successivamente, cliccare tra i Tipi standard, il tipo Torta e tra le Scelte di-
sponibili mantenere l’impostazione di default (fig. 2.23):

Fig. 2.23 – Selezione del tipo di grafico

Premere sul pulsante Avanti (fig. 2.24):

44
Fig. 2.24 – Creazione guidata grafico – Passaggio 2 di 4 – Dati di origine del grafi-
co

Procedere ancora premendo il pulsante Avanti e nel Titolo del grafico digita-
re: Depositi bancari per aree geografiche al 31 dicembre 2003 (fonte: Banca
d’Italia) (fig. 2.25):

Fig. 2.25 – Creazione guidata grafico – Passaggio 3 di 4 – Opzioni del grafico

Premendo ancora una volta sul pulsante Avanti e selezionando la voce Crea
nuovo foglio (fig. 2.26):

45
Fig. 2.26 – Creazione guidata grafico – Passaggio 4 di 4 – Posizione grafico

si ottiene il grafico desiderato (fig. 2.27):


Depositi bancari per aree geografiche al 31 dicembre 2003
(fonte: Banca d'Italia)

6,67%

13,98%
35,03%
Italia Nord-Occidentale
Italia Nord-Orientale
Italia Centrale
Italia Meridionale
23,15% Italia Insulare

21,18%

Fig. 2.27 – Depositi bancari per aree geografiche al 31 dicembre 2003 (fonte: Ban-
ca d’Italia)

Esempio 2.5

La tab. 2.5 rappresenta le vendite effettuate da un negozio di una merce (in Kg)
rilevate in due settimane consecutive:

Tab. 2.5 – Quantità (in Kg) di merce venduta da un negozio in due settimane
Giorni Vendite I° settimana Vendite II° settimana
lunedì 250 180
martedì 420 320
mercoledì 175 230
giovedì 280 300
venerdì 350 235
sabato 250 200

46
Partendo dalla cella A1, introdurre i dati della tab. 2.4, in modo da ottenere il
seguente risultato (fig. 2.28):

Fig. 2.28 – Inserimento nel foglio elettronico dei dati di tab. 2.5

Selezionare le celle A1:C7, aprire il menu Inserisci e cliccare sulla voce Gra-
fico (fig. 2.29):

Fig. 2.29 – Creazione guidata grafico – Passaggio 1 di 4 – Tipo di grafico

Successivamente, cliccare tra i Tipi standard, il tipo Anello e tra le Scelte di-
sponibili mantenere l’impostazione di default (fig. 2.30):

47
Fig. 2.30 – Selezione del tipo di grafico

A questo punto premere sul pulsante Avanti (fig. 2.31):

Fig. 2.31 – Creazione guidata grafico – Passaggio 2 di 4 – Dati di origine del grafi-
co

48
Procedere ancora premendo il pulsante Avanti e nel Titolo del grafico digita-
re: Quantità (in Kg) di merce venduta da un negozio in due settimane (fig.
2.32):

Fig. 2.32 – Creazione guidata grafico – Passaggio 3 di 4 – Opzioni del grafico

Premendo ancora una volta sul pulsante Avanti e selezionando la voce Crea
nuovo foglio (fig. 2.33):

Fig. 2.33 – Creazione guidata grafico – Passaggio 4 di 4 – Posizione grafico

si ottiene il grafico desiderato (fig. 2.34):


Q u a n tità (in K g ) d i m e r c e v e n d u ta d a u n n e g o z io in d u e s e ttim a n e

V e n d it e II° V e n d it e II°
s e ttim a n a ; 1 3 ,6 5 % s e ttim a n a ; 1 2 ,2 9 %

V e n d it e I° s e t t im a n a ;
V e n d ite I° s e ttim a n a ; 1 4 ,4 9 %
1 4 ,4 9 %

V e n d it e II° V e n d it e II°
s e ttim a n a ; 1 6 ,0 4 % s e ttim a n a ; 2 1 ,8 4 %

V e n d ite I° s e ttim a n a ;
V e n d it e I° s e t t im a n a ; lu n e d ì
2 0 ,2 9 %
2 4 ,3 5 % m a rte d ì
m e r c o le d ì
g io v e d ì
V e n d it e I° s e t t im a n a ; ve n e rd ì
1 6 ,2 3 % V e n d ite I° s e ttim a n a ; s a b a to
1 0 ,1 4 %
V e n d it e II°
V e n d it e II°
s e ttim a n a ; 2 0 ,4 8 %
s e ttim a n a ; 1 5 ,7 0 %

Fig. 2.34 – Quantità (in Kg) di merce venduta da un negozio in due settimane

49
4. Istogramma

Gli istogrammi vengono generalmente utilizzati per rappresentare distribu-


zioni di variabili quantitative continue raggruppate in classi di valori.
Gli istogrammi, come i grafici a barre, sono costituiti da tanti rettangoli
quante sono le classi in cui sono stati raggruppati i dati del carattere; le basi dei
rettangoli, poste sull’asse delle ascisse, rappresentano le ampiezze delle classi,
mentre le altezze rappresentano le frequenze delle classi (fig. 1.43).
Quando le classi sono di uguale ampiezza, i rettangoli hanno le basi uguali
tra loro e le altezze proporzionali alle frequenze. Quando, invece, le classi sono
di ampiezza diversa, le altezze dei rettangoli sono proporzionali alla densità di
frequenza, vale a dire alla frequenza divisa per l’ampiezza della classe, ciò per
poter mantenere la proporzionalità tra le varie aree.
In particolare, quando le classi sono di uguale ampiezza, l’area complessiva
dei rettangoli è uguale alla frequenza totale moltiplicata per l’ampiezza della
classe, dato che l’area di ciascun rettangolo è data dall’ampiezza della classe
per la rispettiva frequenza. Se le frequenze sono espresse come frequenze rela-
tive percentuali e le basi dei rettangoli sono unitarie, l’area di ciascun rettango-
lo è uguale alla frequenza percentuale della classe e la somma delle aree di tutti
i rettangoli è esattamente 100; se invece le frequenze sono frequenze relative
non percentuali e le basi sono unitarie, la somma delle aree è 1.
Nel caso di classi di ampiezza diversa, i rettangoli, hanno come base
l’ampiezza delle classi, ma come altezza le densità di frequenza. L’area di cia-
scun rettangolo risulta pertanto uguale alla frequenza della classe, sia essa asso-
luta, relativa o percentuale; se le frequenze sono assolute, la somma delle aree
coincide con la somma delle frequenze di tutte le classi, se le frequenze sono
relative è 1, se sono relative percentuali è 100.
In pratica, per la costruzione dell’istogramma, per ciascuna classe di de-
termina l’ampiezza:
d = xi +1 − xi i = 1, 2, …, m
e la densità di frequenza:
fi
hi = i = 1, 2, …, m
xi +1 − xi
dove f i è la frequenza relativa per unità di classe.
Quindi, su un riferimento cartesiano ortogonale, in ascissa, si rappresentano
i valori compresi tra x1 e xm +1 ed in ordinata i valori positivi fino al valore più
elevato riscontrato per le densità hi . A questo punto, si costruiscono una serie
di rettangoli adiacenti aventi per basi le successive classi xi +1 − xi e per altezze
le densità di frequenza hi (fig. 2.43).

50
Operativamente, invece di calcolare manualmente ampiezza e densità di
frequenza, è possibile utilizzare gli Strumenti di analisi, che consentono di ri-
durre i passaggi necessari allo sviluppo di complesse analisi statistiche o inge-
gneristiche. Una volta forniti i dati e i parametri per ciascuna analisi, lo stru-
mento utilizzerà le funzioni macro statistiche o ingegneristiche appropriate, vi-
sualizzando i risultati in una tabella di output generando anche dei grafici.
Per accedere a questi strumenti, dal menu Strumenti selezionare la voce
Analisi Dati (fig. 2.35). Se il comando Analisi Dati non è disponibile, è neces-
sario caricare il programma di aggiuntivo Strumenti di analisi.

Fig. 2.35 – Strumenti di analisi di Microsoft Excel

Dopo aver selezionato la voce Istogramma e premuto il pulsante OK si ot-


tiene la seguente finestra (fig. 2.36):

Fig. 2.36 – Strumenti di analisi: Istogramma

dove:

- Intervallo di input: riferimenti di celle per l'intervallo di dati da analizza-


re;
- Intervallo della classe (facoltativo): intervallo di celle contenente un in-
sieme facoltativo di valori limite che definiscano gli intervalli delle classi
stesse. Questi valori devono essere disposti in ordine crescente. Verrà au-

51
tomaticamente conteggiato il numero di dati tra il numero della classe cor-
rente e la classe più elevata adiacente, se esiste. Un numero viene conteg-
giato in una particolare classe se è uguale o minore al numero di classe.
Vengono conteggiati insieme tutti i valori inferiori al primo valore della
classe e tutti i valori superiori all'ultimo valore della classe. Se non si spe-
cifica l'intervallo di classe, viene automaticamente creato un insieme di
classi distribuite uniformemente tra il valore minimo e il valore massimo
dei dati;
- Etichette: selezionare questa opzione se la prima riga o colonna dell'in-
tervallo di input contiene etichette. In caso contrario deselezionarla, in
quanto le etichette di dati appropriate per la tabella di output vengono cre-
ate automaticamente;
- Intervallo di output: immettere il riferimento della cella superiore sini-
stra della tabella di output. Le dimensioni dell'area di output vengono de-
terminate automaticamente e viene visualizzato un messaggio qualora la
tabella di output sostituisca i dati esistenti;
- Nuovo foglio di lavoro: selezionare tale opzione per inserire un nuovo
foglio di lavoro nella cartella di lavoro corrente e incollare i risultati a par-
tire dalla cella A1 del nuovo foglio di lavoro. Per assegnare un nome al
nuovo foglio di lavoro, digitarlo nella casella di testo;
- Nuova cartella di lavoro: selezionare tale opzione per creare una nuova
cartella di lavoro e incollare i risultati in un nuovo foglio della nuova car-
tella di lavoro;
- Pareto (istogramma ordinato): selezionare questa casella di controllo per
presentare i dati nella tabella di output in ordine di frequenza decrescente.
Se la casella è deselezionata, i dati vengono presentati in ordine crescente
e vengono omesse le tre colonne all'estremità destra contenenti i dati ordi-
nati;
- Percentuale cumulativa: selezionare questa opzione per generare nella
tabella di output una colonna per le percentuali cumulative e per includere
nel grafico di istogramma una riga per la percentuale cumulativa. Desele-
zionare l'opzione per omettere le percentuali cumulative;
- Grafico in output: selezionare questa opzione per generare automatica-
mente un istogramma incorporato nella tabella di output.

Esempio 2.6

La tab. 2.6 riporta 150 misure sperimentali (in volt) rilevate in un punto di un
circuito elettronico con un voltmetro digitale:

52
Tab. 2.6 – Valori di tensione (in volt) misurati da un voltmetro digitale in un punto
di un circuito elettronico (dati grezzi)
5,145 5,120 5,146 5,114 5,134 5,148 5,146 5,143 5,145 5,156
5,132 5,138 5,139 5,140 5,139 5,132 5,128 5,142 5,132 5,138
5,143 5,159 5,123 5,148 5,131 5,143 5,146 5,129 5,141 5,135
5,145 5,139 5,136 5,161 5,118 5,141 5,138 5,152 5,146 5,138
5,131 5,160 5,169 5,142 5,129 5,131 5,128 5,140 5,150 5,130
5,124 5,150 5,140 5,136 5,150 5,158 5,144 5,132 5,145 5,142
5,133 5,137 5,131 5,137 5,154 5,155 5,126 5,126 5,133 5,149
5,128 5,125 5,133 5,134 5,144 5,133 5,157 5,134 5,138 5,142
5,143 5,133 5,154 5,134 5,124 5,129 5,155 5,153 5,146 5,154
5,158 5,148 5,140 5,133 5,134 5,133 5,152 5,155 5,132 5,135
5,136 5,148 5,153 5,150 5,147 5,162 5,129 5,148 5,151 5,157
5,151 5,137 5,128 5,140 5,143 5,140 5,130 5,153 5,142 5,151
5,146 5,148 5,137 5,157 5,158 5,157 5,153 5,131 5,164 5,159
5,134 5,148 5,144 5,143 5,156 5,147 5,145 5,123 5,140 5,162
5,139 5,152 5,132 5,154 5,128 5,140 5,151 5,138 5,139 5,142

Partendo dalla cella A1, introdurre i dati della tab. 2.6, ottenendo il seguente
risultato (fig. 2.37):

Fig. 2.37 – Inserimento nel foglio elettronico dei dati di tab. 2.5

Dal menu Strumenti selezionare la voce Analisi Dati (fig. 2.38):

53
Fig. 2.38 – Strumenti di analisi di Microsoft Excel

Dopo aver selezionato la voce Istogramma e premuto il pulsante OK si ottiene


la seguente finestra (fig. 2.39):

Fig. 2.39 – Strumenti di analisi: Istogramma

Nella cella Intervallo di input digitare A1:J15, lasciare selezionata l’opzione


Nuovo foglio di lavoro e selezionare la voce Grafico in output (fig. 2.40):

Fig. 2.40 – Selezione opzioni per la composizione dell’istogramma

e dopo aver premuto il pulsante OK, si ottiene il seguente risultato (fig. 2.41):

54
90

80

70

60

50

40

30

20

10

0
14 33 67 ro
5,1 33 66 Alt
2 33 066
3 5
5,1 5,1
Fig. 2.41 – Istogramma della distribuzione dei valori di tensione (in volt) misurati
da un voltmetro digitale in un punto di un circuito elettronico

Il risultato non è però non è adeguato, in quanto le classi che ha determinato


Excel tramite lo strumento Analisi dati sono troppo esigue a rappresentare la
distribuzione dei dati di cui alla tab. 2.5.
Occorre, pertanto, calcolare separatamente le classi (fig. 2.42):

Fig. 2.42 – Attribuzione delle classi per i dati di tab. 2.6

e ripetendo le operazioni precedenti, con l’unica variante che all’interno della


cella Intervallo della classe si digita: A18:A29, si ottiene (fig. 2.43, 2.44):

55
30

25

20

15

10

0
5,115 5,120 5,125 5,130 5,135 5,140 5,145 5,150 5,155 5,160 5,165 5,170

Fig. 2.43 – Istogramma della distribuzione dei valori di tensione (in volt) misurati
da un voltmetro digitale in un punto di un circuito elettronico effettuata con la de-
terminazione manuale delle classi

Fig. 2.44 – Raggruppamento in classi dei valori di tensione (in volt) misurati da un
voltmetro digitale

56
Esempio 2.7

In un laboratorio chimico vengono effettuate su una sostanza 120 misure di as-


sorbimento utilizzando uno spettrofotometro ottenendo i seguenti risultati (tab.
2.7):

Tab. 2.7 – Misure di assorbimento con spettrofotometro (dati grezzi)


0,738 0,729 0,743 0,740 0,736
0,741 0,735 0,739 0,731 0,729
0,737 0,728 0,737 0,736 0,730
0,735 0,724 0,733 0,742 0,736
0,739 0,744 0,735 0,745 0,736
0,742 0,740 0,728 0,741 0,738
0,725 0,733 0,734 0,732 0,733
0,737 0,730 0,732 0,730 0,739
0,734 0,738 0,742 0,739 0,727
0,735 0,735 0,732 0,735 0,736
0,727 0,734 0,732 0,736 0,741
0,736 0,732 0,744 0,732 0,737
0,731 0,746 0,735 0,727 0,735
0,729 0,734 0,730 0,740 0,738
0,729 0,738 0,737 0,736 0,725
0,734 0,743 0,737 0,740 0,736
0,746 0,737 0,743 0,741 0,729
0,739 0,726 0,734 0,735 0,733
0,734 0,731 0,733 0,731 0,740
0,735 0,739 0,740 0,728 0,736
0,736 0,733 0,736 0,728 0,735
0,734 0,737 0,742 0,737 0,745
0,733 0,738 0,732 0,747 0,736
0,736 0,736 0,730 0,735 0,740

Partendo dalla cella A1, inserire i dati della tab. 2.7, ottenendo il seguente risul-
tato (fig. 2.45):

57
Fig. 2.45 – Inserimento nel foglio elettronico dei dati di tab. 2.7

successivamente posizionarsi nella cella H1 ed inserire le seguenti classi (fig.


2.46):

Fig. 2.46 – Definizione delle classi per i dati di tab. 2.6

58
Selezionato la voce Istogramma e premere il pulsante OK (fig. 2.47):

Fig. 2.47 – Strumenti di analisi: Istogramma

Nella cella Intervallo di input digitare A1:E24, nella cella Intervallo della
classe digitare H2:H13 e selezionare la voce Grafico in output (fig. 2.48):

Fig. 2.48 – Selezione opzioni per la composizione dell’istogramma

dopo aver premuto il pulsante OK, si ottiene il seguente risultato (fig. 2.49,
2.50):

59
30

25

20

15

10

0
0,726 0,728 0,730 0,732 0,734 0,736 0,738 0,740 0,742 0,744 0,746 0,748

Fig. 2.49 – Istogramma della distribuzione delle misure di assorbimento con spet-
trofotometro

Fig. 2.50 – Raggruppamento in classi delle misure di assorbimento con spettrofo-


tometro

60
5. Diagramma cartesiano

Quando si vuole rappresentare l’andamento di un fenomeno che varia in


funzione di un parametro, si possono utilizzare diagrammi in cui le frequenze
relative alla diverse modalità vengono congiunte con una spezzata per mostrare
l’andamento del fenomeno al variare delle modalità (fig. 2.58).
Per costruire un diagramma cartesiano di una serie statistica, si dispongono
le modalità sull’asse delle ascisse e le frequenze o le intensità del fenomeno
sull’asse delle ordinate. Riportando quindi sul piano così costituito i punti indi-
viduati dalla tabella dei dati che si vuole rappresentare e unendoli con delle
spezzate, si ottiene il diagramma della serie.
I diagrammi di questo tipo, mostrando l’andamento dei fenomeni al variare
delle modalità, risultano particolarmente utili quando si vogliono confrontare le
frequenze delle diverse modalità e non necessariamente esprimono la continui-
tà delle modalità.
Infine, se è necessario rappresentare il contributo che ogni serie statistica
fornisce al totale al variare del tempo, può essere utilizzato il diagramma ad
aree (fig. 2.66). In questo caso, più piccola è l’area della serie statistica più lie-
ve è il contributo apportato al totale.

Esempio 2.8

Un’impresa alimentare produttrice di gelato vuole controllare il processo di


riempimento delle vaschette di gelato da essa prodotto. Viene rilevato il peso di
5 vaschette ogni 4 ore per 15 giorni lavorativi. I dati osservati sono riportati
nella tabella seguente (tab. 2.8):

Tab. 2.8 – Peso (in grammi) di 30 lotti di 5 vaschette di gelato


Osservazioni
n. lotto
1 vaschetta 2 vaschetta 3a vaschetta 4a vaschetta
a a
5a vaschetta
1 101,5 98,5 97,0 102,3 99,4
2 101,1 100,2 100,4 97,0 101,8
3 98,8 99,9 98,2 101,4 99,1
4 100,4 99,8 99,4 99,1 97,3
5 99,2 101,7 101,6 100,0 100,5
6 96,8 101,9 98,0 102,3 100,0
7 102,9 98,1 102,3 100,1 99,9
8 97,5 100,1 101,9 95,5 101,1
9 98,3 98,4 96,3 98,8 100,2
10 98,5 97,0 100,6 103,2 102,7
11 100,8 98,2 101,3 102,1 101,3

61
12 103,2 101,0 97,6 100,1 100,8
13 99,5 100,1 101,2 100,2 99,6
14 100,2 94,9 99,4 103,7 103,0
15 97,3 101,8 99,2 101,0 100,7
16 100,9 99,6 102,9 100,8 99,4
17 99,8 97,9 100,7 100,3 99,3
18 99,9 99,3 100,6 101,1 103,3
19 96,1 101,1 104,1 97,4 102,1
20 98,3 99,2 100,7 98,2 100,9
21 98,4 104,7 100,0 98,2 99,2
22 101,9 97,8 98,1 103,4 99,0
23 101,7 96,8 100,9 100,8 101,8
24 101,8 102,9 102,9 98,8 101,5
25 102,3 100,9 100,1 99,4 101,1
26 100,8 102,3 98,5 100,8 102,4
27 100,3 101,9 102,3 100,4 99,5
28 100,2 103,4 102,1 100,8 104,0
29 103,7 105,4 101,5 103,2 103,4
30 102,8 101,9 104,5 103,4 104,7

Partendo dalla cella A1, inserire i dati della tab. 2.8, ottenendo il seguente risul-
tato (fig. 2.51):

Fig. 2.51 – Inserimento nel foglio elettronico dei dati di tab. 2.8

62
Selezionare le celle A1:F30, aprire il menu Inserisci e cliccare sulla voce Gra-
fico (fig. 2.52):

Fig. 2.52 – Creazione guidata grafico – Passaggio 1 di 4 – Tipo di grafico

Successivamente, cliccare tra i Tipi standard, il tipo Linee e tra le Scelte di-
sponibili mantenere il valore di default (fig. 2.53):

Fig. 2.53 – Selezione del tipo di grafico

A questo punto premere sul pulsante Avanti (fig. 2.54):

63
Fig. 2.54 – Creazione guidata grafico – Passaggio 2 di 4 – Dati di origine del grafi-
co
Selezionare la linguetta Serie e nella casella Etichette asse categoria (X) digi-
tare: A3:A32 per inserire le etichette identificative sull’asse delle ascisse (fig.
2.55):

Fig. 2.55 – Inserimento etichette identificate all’asse delle ascisse

64
Procedere ancora premendo il pulsante Avanti, nel Titolo del grafico digitare:
Peso di 30 lotti di 5 vaschette di gelato, nell’Asse delle categorie (X): n° lotto
e nell’Asse dei valori (Y): grammi (fig. 2.56):

Fig. 2.56 – Creazione guidata grafico – Passaggio 3 di 4 – Opzioni del grafico

Premendo ancora una volta sul pulsante Avanti e selezionando la voce Crea
nuovo foglio (fig. 2.57):

Fig. 2.57 – Creazione guidata grafico – Passaggio 4 di 4 – Posizione grafico

si ottiene il grafico desiderato (fig. 2.58):

65
Peso di 30 lotti di 5 vaschette di gelato

108,0

106,0

104,0

102,0

100,0
grammi

98,0

96,0
1a vaschetta
2a vaschetta
94,0
3a vaschetta
92,0 4a vaschetta
5a vaschetta
90,0

88,0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
n° lotto

Fig. 2.58 – Peso (in grammi) di 30 lotti di 5 vaschette di gelato

Esempio 2.9

La tab. 2.9 riporta la quantità venduta da un’azienda di due merci (A, B) negli
anni 1997 – 2003:

Tab. 2.9 – Quantità venduta delle merci A e B negli anni 1997 - 2003
Anno Merce A Merce B
1997 6000 2000
1998 6500 2400
1999 7000 3500
2000 8000 4200
2001 8350 4550
2002 8500 4600
2003 8900 4890

Partendo dalla cella A1, dopo aver inserito i dati della tab. 2.9, si ottiene (fig.
2.59):

66
Fig. 2.59 – Inserimento nel foglio elettronico dei dati di tab. 2.9

Selezionare le celle A1:C8, aprire il menu Inserisci e cliccare sulla voce Gra-
fico (fig. 2.60):

Fig. 2.60 – Creazione guidata grafico – Passaggio 1 di 4 – Tipo di grafico

Successivamente, cliccare tra i Tipi standard, il tipo Area e tra le Scelte di-
sponibili mantenere il valore di default (fig. 2.61):

67
Fig. 2.61 – Selezione del tipo di grafico

A questo punto premere sul pulsante Avanti (fig. 2.62):

Fig. 2.62 – Creazione guidata grafico – Passaggio 2 di 4 – Dati di origine del grafi-
co

68
Selezionare la linguetta Serie e nella casella Etichette asse categoria (X) digi-
tare: A3:A8 per inserire le etichette identificative sull’asse delle ascisse (fig.
2.63):

Fig. 2.63 – Inserimento etichette identificate all’asse delle ascisse

Procedere ancora premendo il pulsante Avanti, nel Titolo del grafico digitare:
Andamento vendite, nell’Asse delle categorie (X): anni e nell’Asse dei valori
(Y): Q.tà (fig. 2.64):

Fig. 2.64 – Creazione guidata grafico – Passaggio 3 di 4 – Opzioni del grafico

69
Premendo ancora una volta sul pulsante Avanti e selezionando la voce Crea
nuovo foglio (fig. 2.65):

Fig. 2.65 – Creazione guidata grafico – Passaggio 4 di 4 – Posizione grafico

si ottiene il grafico desiderato (fig. 2.66):


Andamento vendite
10000

9000

8000

7000

6000
Q.tà

5000 Merce A
Merce B
4000

3000

2000

1000

0
1997 1998 1999 2000 2001 2002 2003
anni

Fig. 2.66 – Andamento vendite (Q.tà) merci A e B anni 1997 - 2003

6. Diagramma di dispersione (scatter-plot)

Nel caso di una distribuzione statistica doppia in cui entrambi i caratteri


sono delle variabili, una rappresentazione grafica molto utilizzata è il dia-
gramma di dispersione (scatter-plot).
La nuvola dei punti (scatter) altro non è che un diagramma cartesiano in cui
sull’asse delle ascisse e su quello delle ordinate sono riportati, dopo aver scelto
una adeguata unità di misura per ciascun asse, i valori assunti dalle due variabi-
li; ciascun punto ( xi , yi ) del piano rappresenta l’unità statistica avente come
valori delle due variabili le coordinate ( xi , yi ).

70
Questa rappresentazione grafica viene utilizzata per vedere la dispersione
tra le unità statistiche ossia la loro vicinanza o distanza indicanti rispettivamen-
te la loro somiglianza o dissomiglianza rispetto ai due caratteri contemporane-
amente considerati. Inoltre, è importante considerare la forma assunta dalla nu-
vola dei punti perché può fornire indicazioni sul tipo di relazione esistente tra
le variabili.

Esempio 2.10

La tab. 2.10 riporta la concentrazione (mM/l) di alcuni reagenti in funzione del


tempo (sec.) verificatesi durante una reazione chimica:

Tab. 2.10 – Misure di concentrazione (mM/L) in funzione del tempo


tempo misure di concentrazione tempo misure di concentrazione
0 995,14 260 418,11
10 970,43 270 397,58
20 931,54 280 400,55
30 900,51 290 367,11
40 884,08 300 358,39
50 847,10 310 353,25
60 815,00 320 334,99
70 791,08 330 324,69
80 755,32 340 320,48
90 733,93 350 307,84
100 712,53 360 294,75
110 688,51 370 278,60
120 668,22 380 263,55
130 636,10 390 266,19
140 611,64 400 254,89
150 609,53 410 250,56
160 580,67 420 246,56
170 572,23 430 227,58
180 548,33 440 224,68
190 522,85 450 226,79
200 509,01 460 206,58
210 496,46 470 198,38
220 469,18 480 189,50
230 449,90 490 190,75
240 437,73 500 196,41
250 429,07

71
Inserire i dati della tab. 2.10, partendo dalla cella A1, utilizzando solamente le
colonne A e B (fig. 2.67):

Fig. 2.67 – Inserimento nel foglio elettronico dei dati di tab. 2.9

Selezionare le celle A1:B52, aprire il menu Inserisci e cliccare sulla voce Gra-
fico (fig. 2.68):

72
Fig. 2.68 – Creazione guidata grafico – Passaggio 1 di 4 – Tipo di grafico

Successivamente, cliccare tra i Tipi standard, il tipo Dispers. (XY) e tra le


Scelte disponibili mantenere il valore di default (fig. 2.69):

Fig. 2.69 – Selezione del tipo di grafico

Premere sul pulsante Avanti (fig. 2.70):

73
Fig. 2.70 – Creazione guidata grafico – Passaggio 2 di 4 – Dati di origine del grafi-
co

Procedere ancora premendo il pulsante Avanti, digitare nell’Asse delle catego-


rie (X): tempo (sec) e nell’Asse dei valori (Y): mM/L (fig. 2.71):

Fig. 2.71 – Creazione guidata grafico – Passaggio 3 di 4 – Opzioni del grafico

Premendo ancora una volta sul pulsante Avanti e selezionando la voce Crea
nuovo foglio (fig. 2.72):

74
Fig. 2.72 – Creazione guidata grafico – Passaggio 4 di 4 – Posizione grafico

si ottiene il grafico desiderato (fig. 2.73):


1000
misure di concentrazione
900

800

700

600
mM/L

500

400

300

200

100

0
0 50 100 150 200 250 300 350 400 450 500
tempo (sec)

Fig. 2.73 – Misure di concentrazione in funzione del tempo

7. Altre rappresentazioni

7.1. Diagramma logaritmico

Talvolta nella rappresentazione di una serie storica si suole rappresentare in


ordinata anziché i valori yt i logaritmi di tali valori. Ciò si giustifica o perché
la serie di valori yt comprende contemporaneamente sia valori piccoli sia valo-
ri grandi, pertanto non è possibile scegliere una scala che sia adeguata a rappre-
sentare entrambi, oppure per evidenziare le variazioni percentuali del fenome-
no, anziché quelle assolute che, come si è visto, sono evidenziate dal comune
diagramma cartesiano. Il tipo di diagramma che ne risulta si denomina dia-
gramma semilogaritmico o a scala logaritmica (fig. 2.81). Esso evidenzia le

75
variazioni percentuali in quanto la differenza tra due ordinate relative ai due
tempi t e t + h è pari al logaritmo del rapporto dei valori del fenomeno in detti
tempi:
⎛y ⎞
log ( yt + h ) − log ( yt ) = log ⎜⎜ t + h ⎟⎟
⎝ yt ⎠
e tale rapporto è indicativo della variazione percentuale in quanto:
yt + h y − yt
⋅ 100 = 100 + t + h ⋅ 100
yt yt

Esempio 2.11

La tab. 2.11 riporta il numero di passeggeri negli aeroporti italiani (fonte: I-


STAT)

Tab. 2.11 – Dinamica del traffico passeggeri negli aeroporti italiani (fonte: ISTAT)
Passeggeri
Anni
(migliaia)
1948 212
1953 324
1958 922
1963 2855
1968 5612
1973 10171
1978 12842
1983 14864

Partendo dalla cella A1, dopo aver inserito i dati della tab. 2.11, si ottiene (fig.
2.74):

Fig. 2.74 – Inserimento nel foglio elettronico dei dati di tab. 2.11

76
Selezionare le celle A1:B10, aprire il menu Inserisci e cliccare sulla voce Gra-
fico (fig. 2.75):

Fig. 2.75 – Creazione guidata grafico – Passaggio 1 di 4 – Tipo di grafico

Successivamente, cliccare tra i Tipi personalizzati e selezionare il tipo di gra-


fico Logaritmico (fig. 2.76):

Fig. 2.76 – Selezione del tipo di grafico

Premere sul pulsante Avanti (fig. 2.77):

77
Fig. 2.77 – Creazione guidata grafico – Passaggio 2 di 4 – Dati di origine del grafi-
co

Selezionare la linguetta Serie e nella casella Etichette asse categoria (X) digi-
tare: A3:A10 per inserire le etichette identificative sull’asse delle ascisse (fig.
2.78):

Fig. 2.78 – Inserimento etichette identificate all’asse delle ascisse

78
Procedere ancora premendo il pulsante Avanti, nel Titolo del grafico digitare:
Dinamica del traffico passeggeri negli aeroporti italiani (fonte: ISTAT) (fig.
2.79):

Fig. 2.79 – Creazione guidata grafico – Passaggio 3 di 4 – Opzioni del grafico

Premendo ancora una volta sul pulsante Avanti e selezionando la voce Crea
nuovo foglio (fig. 2.80):

Fig. 2.80 – Creazione guidata grafico – Passaggio 4 di 4 – Posizione grafico

si ottiene il grafico desiderato (fig. 2.81):

79
Dinamica del traffico passeggeri negli areoporti italiani (fonte: ISTAT)
100000

10000

1000

100

10

1
1948

1953

1958

1963

1968

1973

1978

1983
Fig. 2.81 – Dinamica del traffico passeggeri negli aeroporti italiani (fonte: ISTAT)

7.2. Diagramma di Pareto

Molti problemi aziendali si presentano sotto forma di perdita economica


(difettosità e loro costi). È pertanto molto importante comprendere come questa
perdita si distribuisce. La maggior parte della perdita economica è generalmen-
te dovuta a pochi difetti attribuibili ad un numero molto piccolo di cause. Così
se le cause di questi pochi, ma gravi difetti vengono identificate, è possibile
abbattere una gran parte dei costi legati alla difettosità concentrandosi su queste
particolari cause e lasciando momentaneamente da parte quelle di secondaria
importanza. Utilizzando il diagramma di Pareto si è in grado di risolvere effi-
cacemente questo tipo di problemi.
Nel 1897 l’economista italiano Vilfredo Pareto ha dimostrato con una for-
mula che la distribuzione del reddito non è uniforme. Una teoria simile è stata
espressa, sotto forma di diagramma, dall’economista americano Lorenz nel
1907. Nel frattempo, nel campo del controllo qualità, Juran ha applicato il me-
todo del diagramma di Lorenz (diagramma di Pareto) come strumento per
classificare i problemi della qualità in problemi primari, pochi, ma dai notevoli
effetti, e problemi secondari, numerosi, ma dagli effetti limitati.
Sul diagramma di Pareto viene riportata in ordinata la frequenza di ciascun
tipo di difetto considerato, ossia il numero di volte che il determinato difetto si
è riscontrato, in ascissa vengono riportate le diverse tipologie di difetto, in or-
dine di frequenza decrescente. Completa la costruzione del diagramma la curva
cumulativa, cioè i valori cumulativi per ciascun tipo di difetto; in tal modo è

80
possibile valutare quanto siano pesanti i primi due o tre difetti rispetto la globa-
lità dei difetti che si sono presentati (fig. 2.94).
Operativamente, per la costruzione del diagramma di Pareto, è necessario:

- decidere che tipo di problemi di vuole investigare;


- decidere quali dati saranno necessari e come classificarli;
- costruire una tabella riportando le voci, i loro totali parziali, i totali cumu-
lati e le percentuali cumulate;
- mettere le voci in ordine crescente/decrescente di quantità;
- costruire un diagramma a barre verticale;
- costruire sullo stesso grafico la curva cumulativa;
- completare il diagramma con altre informazioni (titolo, periodo, oggetto,
ecc.).

Esempio 2.12

La tab. 2.12 riporta la distribuzione, per tipologia di difetto, di 200 pezzi mec-
canici:

Tab. 2.12 – Distribuzione per tipologia di difetto di 200 pezzi meccanici


Numero di
Tipo di difetto
difetti
deformazione 104
graffio 20
foro 42
rottura 10
macchia 7
giuoco 14
altri 3

Partendo dalla cella A1, dopo aver inserito i dati della tab. 2.12, si ottiene (fig.
2.82):

81
Fig. 2.82 – Inserimento nel foglio elettronico dei dati di tab. 2.12

Per effettuare l’ordinamento in senso decrescente, rispetto al numero di difetti,


selezionare le celle A1:B9, aprire il menù Dati, selezionare la voce Ordina,
nella cella Ordina per selezionare Numero di difetti, ed infine tra le modalità
di ordinamento spuntare l’opzione Decrescente (fig. 2.83):

Fig. 2.83 – Impostazioni per l’ordinamento dei dati

Dopo aver premuto il pulsante OK, il risultato che si ottiene è (fig. 2.84):

82
Fig. 2.84 – Ordinamento dei dati in senso decrescente per numero di difetti

Posizionarsi con il cursore nella cella C1 e digitare: Totale cumulato e nella


cella D1: Percentuale cumulata (fig. 2.85):

Fig. 2.85 – Impostazioni per il calcolo dei valori cumulati

Per il calcolo dei valori totali cumulati, posizionarsi nella cella C3 e digitare:
= B3 , nella cella C4: = B 4 + C 3 , trascinare tale formula verticalmente fino alla
cella C9 (fig. 2.86):

Fig. 2.86 – Calcolo dei valori totali cumulati

83
Per il calcolo delle percentuali cumulate, posizionarsi nella cella D3 e digitare:
= C 3 / $C $9 (il carattere $ è stato ottenuto premendo il tasto funzione F4 dopo
la digitazione del riferimento di cella), trascinare tale formula verticalmente fi-
no alla cella D9 (fig. 2.87):

Fig. 2.87 – Calcolo delle percentuali cumulate

Selezionare le celle B1:B9 e D1:D9, aprire il menu Inserisci e cliccare sulla


voce Grafico (fig. 2.88):

Fig. 2.88 – Creazione guidata grafico – Passaggio 1 di 4 – Tipo di grafico

cliccare tra i Tipi personalizzati e selezionare il tipo di grafico Linee - Colon-


ne su 2 assi (fig. 2.89):

84
Fig. 2.89 – Selezione del tipo di grafico

premere il pulsante Avanti (fig. 2.90):

Fig. 2.90 – Creazione guidata grafico – Passaggio 2 di 4 – Dati di origine del grafi-
co

85
Selezionare la linguetta Serie e nella casella Etichette asse categorie (X) digi-
tare: A3:A10 per inserire le etichette identificative sull’asse delle ascisse (fig.
2.91):

Fig. 2.91 – Inserimento etichette identificate all’asse delle ascisse

Procedere ancora premendo il pulsante Avanti, nel Titolo del grafico digitare:
Diagramma di Pareto per i 200 pezzi meccanici (fig. 2.92):

Fig. 2.92 – Creazione guidata grafico – Passaggio 3 di 4 – Opzioni del grafico

Premendo ancora una volta sul pulsante Avanti e selezionando la voce Crea
nuovo foglio (fig. 2.93):

86
Fig. 2.93 – Creazione guidata grafico – Passaggio 4 di 4 – Posizione grafico

si ottiene il grafico desiderato (fig. 2.94):


Diagramma di Pareto per i 200 pezzi meccanici
120 100%

90%

100
80%

70%
80

60%

60 50%

40%

40
30%

20%
20

10%

0 0%
deformazione foro graffio giuoco rottura macchia altri

Fig. 2.94 – Diagramma di Pareto per i 200 pezzi meccanici

Esempio 2.13

Per avviare un’attività di stock reduction, si dispone della seguente giacenza di


magazzino (tab. 2.13):

Tab. 2.13 – Classificazione dei materiali in un magazzino


CLASSE VALORE
DESCRIZIONE
PRODOTTO (x 1.000)
100 Motori a benzina 100.000
101 Motori a gasolio 135.000
123 Scatole del cambio 25.000
134 Differenziali 56.000
145 Trasmissioni 22.000
230 Gruppo ottici 12.000

87
345 Sedili 25.000
450 Impianti frenante 5.000
451 Pastiglie freni 2.000

Partendo dalla cella A1, dopo aver inserito i dati della tab. 2.13, si ottiene (fig.
2.95):

Fig. 2.95 – Inserimento nel foglio elettronico dei dati di tab. 1.13

Per effettuare l’ordinamento in senso decrescente, rispetto al valore dei prodot-


ti, selezionare le celle A2:C10, aprire il menù Dati, selezionare la voce Ordi-
na, nella cella Ordina per selezionare Valore, ed infine tra le modalità di ordi-
namento spuntare l’opzione Decrescente (fig. 2.96):

Fig. 2.96 – Impostazioni per l’ordinamento dei dati

Dopo aver premuto il pulsante OK, il risultato che si ottiene è (fig. 2.97):

88
Fig. 2.97 – Ordinamento dei dati in senso decrescente per valore del prodotto

Posizionarsi con il cursore nella cella D1 e digitare: Totale cumulato e nella


cella E1: Percentuale cumulata (fig. 2.98):

Fig. 2.98 – Impostazioni per il calcolo dei valori cumulati

Per il calcolo dei valori totali cumulati, posizionarsi nella cella D2 e digitare:
= C 3 , nella cella D3: = C 3 + D 2 , trascinare tale formula verticalmente fino
alla cella D10 (fig. 2.99):

Fig. 2.99 – Calcolo dei valori totali cumulati

89
Per il calcolo delle percentuali cumulate, posizionarsi nella cella E2 e digitare:
= D3 / $ D$10 (il carattere $ è stato ottenuto premendo il tasto funzione F4 do-
po la digitazione del riferimento di cella), trascinare tale formula verticalmente
fino alla cella E10 (fig. 2.100):

Fig. 2.100 – Calcolo delle percentuali cumulate

Selezionare le celle C1:C10 e E1:E10, aprire il menu Inserisci e cliccare sulla


voce Grafico (fig. 2.101):

Fig. 2.101 – Creazione guidata grafico – Passaggio 1 di 4 – Tipo di grafico

cliccare tra i Tipi personalizzati e selezionare il tipo di grafico Linee - Colon-


ne su 2 assi (fig. 2.102):

90
Fig. 2.102 – Selezione del tipo di grafico

premere il pulsante Avanti (fig. 2.103):

Fig. 2.103 – Creazione guidata grafico – Passaggio 2 di 4 – Dati di origine del gra-
fico

91
Selezionare la linguetta Serie e nella casella Etichette asse categorie (X) digi-
tare: B2:B10 per inserire le etichette identificative sull’asse delle ascisse (fig.
2.104):

Fig. 2.104 – Inserimento etichette identificate all’asse delle ascisse

Procedere ancora premendo il pulsante Avanti, nel Titolo del grafico digitare:
Diagramma di Pareto giacenza di magazzino (fig. 2.105):

Fig. 2.105 – Creazione guidata grafico – Passaggio 3 di 4 – Opzioni del grafico

Premendo ancora una volta sul pulsante Avanti e selezionando la voce Crea
nuovo foglio (fig. 2.106):

92
Fig. 2.106 – Creazione guidata grafico – Passaggio 4 di 4 – Posizione grafico

si ottiene il grafico desiderato (fig. 2.107):


Diagramma di Pareto giacenza di magazzino

160000 100%

90%
140000
80%
120000
70%
100000
60%

80000 50%

40%
60000
30%
40000
20%
20000
10%

0 0%
Gruppo ottici

Pastiglie freni
Scatole del

Trasmissioni
Motori a gasolio

Motori a benzina

Differenziali

Sedili

Impianti frenante
cambio

Fig. 2.107 – Diagramma di Pareto giacenza di magazzino

7.3. Diagramma a scatola e baffi (box-plot)

La rappresentazione a scatola e baffi (box-plot) consente di visualizzare,


mediante una particolare rappresentazione grafica, le principali caratteristiche
di una distribuzione statistica semplice. In particolare sono visualizzati: il cam-
po di variazione, alcuni percentili o quartili (generalmente il primo e il terzo),
la media aritmetica, la mediana, il valore massimo e quello minimo (fig.
2.108).

93
Fig. 2.108 – Diagramma a scatola e baffi (box-plot)

Internamente alla scatola, vengono rappresentate la mediana e la media a-


ritmetica.
Le linee esterne della scatola rappresentano il primo e il terzo quartile. La
distanza tra il primo ed il terzo quartile, la distanza interquartilica, è una misu-
ra della dispersione della distribuzione.
Il 50% delle osservazioni si trovano comprese tra questi due valori. Se l’in-
tervallo interquartilico è piccolo, la metà delle osservazioni si trova fortemente
concentrata intorno alla media aritmetica e alla mediana; all’aumentare delle
distanza interquartilica aumenta la dispersione del 50% delle osservazioni cen-
trali intorno alla mediana.
Le distanze tra ciascun quartile e la mediana forniscono informazioni rela-
tivamente alla forma della distribuzione. Se la distanza è diversa una dall’altra,
allora la distribuzione è asimmetrica.
Le distanze tra i valori minimo e massimo e i quartili, indicano l’estensione
della distribuzione prima del 25% e dopo il 75%. Anche queste distanze forni-
scono informazioni sulla dispersione, in particolare sulla forma della coda della
distribuzione.
Nel caso di distribuzione normale, media aritmetica e mediana coincidono,
le distanze tra il primo quartile e la mediana e tra la mediana ed il terzo quarti-
le sono uguali così come è uguale la distanza tra il valore minimo ed il primo
quartile e tra il terzo quartile ed il valore massimo (fig. 2.109).

94
Fig. 2.109 – Diagramma a scatola e baffi nel caso di distribuzione normale

Esempio 2.14

La tab. 2.14 riporta il diametro (cm) di 25 tubi prodotti da tre macchinari diver-
si:

Tab. 2.14 – Diametro tubi prodotti da tre macchinari diversi


Macchina A Macchina B Macchina C
74,030 74,002 74,019
73,995 73,992 74,001
73,988 74,024 74,021
74,002 73,996 73,993
73,992 74,007 74,015
74,009 73,994 73,997
73,995 74,006 73,994
73,985 74,003 73,993
74,008 73,995 74,009
73,998 74,000 73,990
73,994 73,998 73,994
74,004 74,000 74,007
73,983 74,002 73,998
74,006 73,967 73,994
74,012 74,014 73,998
74,000 73,984 74,005
73,994 74,012 73,986
74,006 74,010 74,018
73,984 74,002 74,003
74,000 74,010 74,013
73,988 74,001 74,009
74,004 73,999 73,990

95
74,010 73,989 73,990
74,015 74,008 73,993
73,982 73,984 73,995

Partendo dalla cella A1, dopo aver inserito i dati della tab. 2.14, si ottiene (fig.
2.110):

Fig. 2.110 – Inserimento nel foglio elettronico dei dati di tab. 1.14

Per realizzare il diagramma a scatola e baffi è necessario, preliminarmente, de-


terminare alcune statistiche di base: il primo quartile, valore minimo, media a-
ritmetica, mediana, valore massimo e terzo quartile.
A tal fine posizionare il cursore nella cella G1 e riprodurre la seguente tabella
(fig. 2.111):

96
Fig. 2.111 – Predisposizione tabella per il calcolo delle statistiche di base

Posizionarsi con il cursore nella cella nella cella G3 digitare:


= QUARTILE( A2 : A26;1) e copiare tale formula nelle celle H3 e I3. Nella cella
G4 digitare: = MIN ( A2 : A26) e copiare tale formula nelle celle H4 e I4. Nella
cella G5 digitare: = MEDIA( A2 : A26) e copiare tale formula nelle celle H5 e
I5. nella cella G6 digitare: = MEDIANA( A2 : A26) e copiare tale formula nelle
celle H6 e I6. Nella cella G7 digitare: = MAX ( A2 : A26) e copiare tale formula
nelle celle H7 e I7. Infine, nella cella G8 digitare = QUARTILE( A2 : A26;3) e
copiare tale formula nelle celle H8 e I8 (fig. 2.112, 2.113):

Fig. 2.112 – Rappresentazione delle formule per il calcolo delle statistiche di base

97
Fig. 2.113 – Valori numerici delle statistiche di base calcolate a partire dai dati del-
la tab. 2.14

A questo punto, selezionare le celle F2:I8, aprire il menu Inserisci e cliccare


sulla voce Grafico (fig. 2.114):

Fig. 2.114 – Creazione guidata grafico – Passaggio 1 di 4 – Tipo di grafico

Tra i Tipi standard selezionare il tipo di grafico Linee e tra le Scelte disponi-
bili l’opzione Linee con indicatori assieme ai valori (fig. 2.115):

98
Fig. 2.115 – Selezione del tipo di grafico

Quindi, premere il pulsante Avanti (fig. 2.116):

Fig. 2.116 – Creazione guidata grafico – Passaggio 2 di 4 – Dati di origine del gra-
fico

Cambiare l’opzione Serie in: da Colonne a Righe (fig. 2.117):

99
Fig. 2.117 – Modifica disposizione dati

Procedere ancora premendo il pulsante Avanti e nel Titolo del grafico digita-
re: Box – Plot per il diametro di tubi prodotti da tre macchine diverse (fig.
2.118):

Fig. 2.118 – Creazione guidata grafico – Passaggio 3 di 4 – Opzioni del grafico

Premendo ancora una volta sul pulsante Avanti e selezionando la voce Crea
nuovo foglio (fig. 2.119):

100
Fig. 2.119 – Creazione guidata grafico – Passaggio 4 di 4 – Posizione grafico

si ottiene (fig. 2.120):


Box - Plot per il diametro di tubi prodotti da tre macchine
74,04 diverse
74,03

74,02

74,01

74,00

73,99

73,98

73,97 I° quartile
valore minimo
73,96
media
73,95 mediana
valore massimo
73,94
III° quartile
73,93
Macchina A Macchina B Macchina C
Fig. 2.120 – Box-Plot (diagramma non definitivo)

Nel grafico così realizzato, i valori massimi e minimi, i quartili, le mediane e le


medie sono connessi mediante linee, che però non hanno alcun interesse ai fini
della realizzazione del grafico. È necessario, quindi, rimuovere queste linee: a
tal fine, per ciascuna di esse, è necessario selezionare la linea, aprire il menu
Formato, selezionare la voce Serie dei dati selezionati (fig. 2.121):

101
Fig. 2.121 – Formato serie dati

Nel quadro Motivo attivare l’opzione Linea Assente (fig. 2.222):

Fig. 2.122 – Modifica linee di congiunzione dei punti nel grafico

Infine, nel quadro Opzioni, selezionare le voci Linee di Min-Max e Barre


cresc./decresc. (fig. 2.123):

102
Fig. 2.123 – Inserimento scatole nel digramma

Il risultato finale è visibile in fig. 2.124:


74,04 Box-Plot per il diametro di tubi prodotti da tre macchinari

74,03

74,02

74,01

74,00

73,99

73,98 I° quartile
valore minimo
media
73,97 mediana
valore massimo
III° quartile
73,96
Macchina A Macchina B Macchina C

Fig. 2.124 – Box-Plot relativo al diametro di tubi prodotti da tre macchinari

7.4. Diagramma polare (radar)

I diagrammi in coordinate polari sono rappresentazioni particolarmente


adatte a fenomeni che presentano una ciclicità.

103
Nei diagrammi in coordinati polari si considera una asse polare costituito
da una retta avente per origine un punto fisso, O, detto polo (fig. 2.125).

y P

θ
O x

Fig. 2.125 – Rappresentazione coordinate polari

Per rappresentare un punto, P, nel piano si unisce il polo, O, con il punto P


determinando un segmento detto raggio vettore ( ρ ) che forma con l’asse pola-
re un angolo, θ , detto angolo polare. Le coordinate polari che definiscono la
posizione di un punto P nel piano sono pertanto date dal raggio vettore, ρ , e
dall’angolo polare, θ , ossia P ≡ [ ρ , θ ] .
Com’è noto, la relazione tra diagramma cartesiano ortogonale e diagram-
ma polare, considerato rispettivamente un punto P ≡ ( x, y ) nel piano cartesia-
no o P ≡ ( ρ , θ ) in coordinate polari, è data da:
y = ρ sen θ x = ρ cos θ
oppure:
y
ρ = x2 + y 2 θ = tan g −1
x
Nel caso in esame, ossia di rappresentazione grafica mediante diagrammi in
coordinate polari di serie cicliche, la costruzione dei diagrammi avviene nel
modo seguente.
Si divide l’angolo giro (360°) in tante parti quante sono le modalità qualita-
tive del carattere ordinatore secondo la formula:
⎛ i −1⎞
α i = 360° ⎜ ⎟ per i = 1, 2, …, m
⎝ m ⎠
La suddivisione dà luogo a dei raggi vettori, tutti aventi per origine il polo
O, e lunghezza che sarà uguale o proporzionale all’intensità o frequenza (asso-
luta o relativa) assunta dalla modalità cui corrisponde.

104
Infine, si congiungono gli estremi dei raggi vettori al fine dare maggior ri-
lievo all’andamento del fenomeno.

Esempio 2.15

La tab. 2.15 riporta la distribuzione dei veicoli (in migliaia) transitati sulla rete
autostradale nei giorni dell’ultima settimana di luglio, negli anni 1996 e 1996
(fonte: IRI-ITALSTAT):

Tab. 2.15 – Distribuzione dei veicoli (in migliaia) transitati sulla rete autostradale
nei giorni dell’ultima settimana di luglio, negli anni 1996 e 1997 (fonte: IRI-
ITALSTAT)
Giorni 1996 1997
lunedì 960.000 950.000
martedì 1.100.000 1.259.000
mercoledì 1.020.000 1.110.000
giovedì 1.050.000 1.150.000
venerdì 1.052.000 1.210.000
sabato 1.080.000 1.168.000
domenica 1.000.000 1.130.000

Partendo dalla cella A1, dopo aver inserito i dati della tab. 2.15, si ottiene (fig.
2.126):

Fig. 2.126 – Inserimento nel foglio elettronico dei dati di tab. 1.15

Selezionare le celle A1:C8, aprire il menu Inserisci e cliccare sulla voce Gra-
fico (fig. 2.127):

105
Fig. 2.127 – Creazione guidata grafico – Passaggio 1 di 4 – Tipo di grafico

Tra i Tipi standard selezionare il tipo di grafico Radar e tra le Scelte dispo-
nibili l’opzione di default (fig. 2.128):

Fig. 2.128 – Selezione del tipo di grafico

Quindi, premere il pulsante Avanti (fig. 2.129):

106
Fig. 2.129 – Creazione guidata grafico – Passaggio 2 di 4 – Dati di origine del gra-
fico

Selezionare la linguetta Serie e nelle Etichette asse categorie (X): digitare:


A2:A8 (fig. 2.130):

Fig. 2.130 – Inserimento etichette identificative asse delle X

107
Premere due volte consecutive il pulsante Avanti e selezionare la voce Crea
nuovo foglio (fig. 2.131):

Fig. 2.131 – Creazione guidata grafico – Passaggio 4 di 4 – Posizione grafico

si ottiene il grafico desiderato (fig. 2.132):


lunedì
1.400.000
1.200.000
1.000.000
domenica martedì
800.000
600.000
400.000
200.000 1996
- 1997

sabato mercoledì

venerdì giovedì

Fig. 2.132 – Diagramma polare per la distribuzione dei veicoli transitati sulla rete
autostradale nei giorni dell’ultima settimana di luglio negli anni 1996 e 1997 (fon-
te: IRI-ITALSTAT)

108
3. Misure di tendenza centrale

1. Generalità

Abbiamo visto che i dati osservati, sia per la loro numerosità che per il fatto
di non essere ordinati, non consentono di percepire agevolmente le caratteristi-
che che seno presenti nel fenomeno indagato nel collettivo dei casi.
Le tabelle statistiche, ottenute dalla classificazione delle osservazioni, con-
tengono dati ordinati (in quanto scaturenti da una classificazione), e più sinteti-
ci (i casi caratterizzati dalla stessa modalità vengono messi assieme).
Spesso però è opportuno effettuare una sintesi più spinta dei dati, sì da ot-
tenere indici che misurino gli aspetti più rilevanti della serie di dati ottenuti dal-
la rilevazione o della relativa tabella.
Tra gli indici più importanti occorre considerare quelli di posizione, quelli
di variabilità e quelli di forma. Il primo tipo verrà esaminato in questo capitolo
gli altri due tipi verranno considerati nei capitoli seguenti.
Il concetto di media scaturisce dalla esigenza di esprimere, attraverso un
valore sintetico, l’entità del carattere unica che meglio può rappresentare una
serie di osservazioni diverse. La sintesi si rende opportuna specie quando si
vuole condurre agevolmente dei confronti tra collettivi diversi per i quali si è
osservato lo stesso carattere.
Atteso che in relazione alle caratteristiche peculiari della serie di osserva-
zioni (o della variabile statistica) ed alle esigenze interpretative che si vogliono
raggiungere, la sintesi può essere effettuata in maniera diversa, è possibile co-
struire vari tipi di medie.
Le medie possono essere analitiche o lasche.
Le medie analitiche dette anche di calcolo utilizzano tutti i valori della se-
rie indipendentemente dal loro ordine.
Le medie lasche o di posizione utilizzano solo alcune osservazioni ordinate.
Le principali medie analitiche sono: la media aritmetica, la media geome-
trica, la media armonica e la media armonica.
Le principali medie lasche sono: il valore centrale, la mediana, i valori
quantilici e la moda.

109
2. Media aritmetica

Considerate n unità statistiche sulle quali si sono rilevate le modalità:


x1 , x2 , x3 , …, xn
si definisce media aritmetica, il numero:
n
x + x + x + + xn xi
x= 1 2 3
n
∑=
i =1 n
In Excel, il calcolo della media aritmetica, risulta particolarmente agevole
utilizzando la funzione:
MEDIA(num1;num2;…)
dove num1; num2; …; sono da 1 a 30 argomenti numerici di cui si deside-
ra calcolare la media.
Gli argomenti devono essere numeri oppure nomi, matrici o riferimenti che
contengano numeri.
Se una matrice o un riferimento contiene testo, valori logici o celle vuote,
tali valori verranno ignorati.
Le celle contenenti il valore zero verranno invece incluse nel calcolo.
Quando si calcola la media di un intervallo di celle, è necessario tenere pre-
sente la distinzione tra celle vuote e celle contenenti il valore zero, soprattutto
se si è deselezionata la casella di controllo Zeri nella scheda Visualizza della
finestra di dialogo Opzioni, visualizzata scegliendo il corrispondente comando
dal menu Strumenti. A differenza delle celle contenenti il valore zero, le celle
vuote non vengono infatti conteggiate.
Se invece, si desidera calcolare la media aritmetica di numeri, valori di te-
sto e logici, la funzione da utilizzare è la seguente:
MEDIA.VALORI(val1;val2;...)
dove val1; val2; ...; sono da 1 a 30 celle, intervalli di celle o valori di cui si
desidera calcolare la media.
Anche in questo caso, gli argomenti devono essere rappresentati da numeri,
nomi, matrici o riferimenti.
Gli argomenti di matrice o di riferimento contenenti del testo vengono valu-
tati come 0 (zero). Il testo vuoto ("") viene valutato come 0 (zero). Gli argo-
menti contenenti il valore VERO vengono valutati come 1, mentre quelli con-
tenenti il valore FALSO vengono valutati come 0 (zero).

Esempio 3.1

Nella tab. 3.1 sono riportati i valori (in μg/m3) di biossido di azoto (NO2), mo-
nossido di carbonio (CO), biossido di zolfo (SO2), particelle totali sospese
(PST), ozono (O3) rilevate in 10 centraline in un giorno:

110
Tab. 3.1 – Valori di NO2, CO, SO2, PTS, O3, rilevati in 10 centraline in un giorno
centralina NO2 CO SO2 PTS O3
1 190 1430 70 70 120
2 208 2024 115 170 172
3 380 1800 180 95 145
4 150 1320 95 44 230
5 308 2560 255 145 215
6 407 3100 130 82 158
7 187 1200 310 80 167
8 241 1040 195 56 285
9 220 1900 90 115 135
10 420 2230 108 198 189

Partendo dalla cella A1, introdurre i dati della tab. 3.1, ottenendo il seguente
risultato (fig. 3.1):

Fig. 3.1 – Inserimento nel foglio elettronico dei dati di tab. 3.1

Posizionare il cursore nella cella A13 e digitare: valori medi; nella cella B13
digitare: =SOMMA(B2:B11), trascinare tale formula orizzontalmente fino alla
cella F13 ottenendo il seguente risultato (fig. 3.2):

Fig. 3.2 – Media aritmetica per i dati di tab. 3.1

111
Esempio 3.2

Nella tab. 3.2 è riportato il contenuto (in ml) di 18 flaconi antigelo:

Tab. 3.2 – Contenuto (in ml) di 18 flaconi antigelo


3,761 3,861 3,769 3,772 3,675 3,861
3,888 3,819 3,788 3,800 3,720 3,748
3,753 3,821 3,811 3,740 3,740 3,839

Partendo dalla cella A1, introdurre i dati della tab. 3.2 (fig. 3.3):

Fig. 3.3 – Inserimento nel foglio elettronico dei dati di tab. 3.2

Posizionare il cursore nella cella A5 e digitare: valore medio; nella cella B5 di-
gitare: =SOMMA(A1:F3) (fig. 3.4):

Fig. 3.4 – Media aritmetica per i dati di tab. 3.2

3. Media geometrica

Si consideri un insieme di n valori xi positivi e maggiori di zero; si defini-


sce media geometrica la formula:
n
M g = n x1 ⋅ x2 ⋅ … ⋅ xn = n ∏x
i =1
i

Viene generalmente utilizzata per determinare il tasso di incremen-


to/decremento medio di un bene o il tasso di accrescimento di una popolazione,
cioè in tutti quei casi in cui i dati variano in progressione geometrica.
La funzione di Excel che permette il calcolo della media geometrica è data
da:
MEDIA.GEOMETRICA(num1;num2;...)
dove num1; num2; …; sono da 1 a 30 argomenti di cui si desidera calcola-
re il valore medio.

112
È anche possibile utilizzare un'unica matrice o un riferimento a una matrice
anziché argomenti separati dal punto e virgola.
Da osservare che gli argomenti devono essere numeri oppure nomi, matrici
o riferimenti che contengono numeri.
Se una matrice o un riferimento contiene testo, valori logici o celle vuote,
tali valori verranno ignorati.
Le celle contenenti il valore zero verranno invece incluse nel calcolo.
Se uno qualsiasi dei dati è minore od uguale a 0 , la funzione restituirà il
valore di errore #NUM!.

Esempio 3.3

Un olio minerale viene sottoposto a un processo di raffinazione con 5 filtri che


riducono l’olio delle seguenti percentuali: un filtro lo riduce del 18%, i due fil-
tri successivi lo riducono ciascuno del 10%, gli ultimi due lo riducono ciascuno
del 5%. Si vuole determinare la quantità media ricavata dopo ogni filtraggio.

Partendo dalla cella A1, introdurre i dati ottenendo il seguente risultato (fig.
3.5):

Fig. 3.5 – Inserimento dati dell’esempio 3.3

dove la % di passaggio è stata calcolata sottraendo a 100% la percentuale di


perdita per ciascun filtro. Posizionarsi, a questo punto, nella cella B9 e digitare:
quantità media ricavata; nella cella C9 digitare:
=MEDIA.GEOMETRICA(C2:C6), ottenendo (fig. 3.6):

Fig. 3.6 – Media geometrica per i dati dell’esempio 3.3

113
Quindi, per ogni litro di olio minerale sottoposto al processo di raffinazione la
quantità media ricavata risulta essere del 90,27% e conseguentemente la perdita
media: 100% – 90,27% = 9,73%.

4. Media armonica

Si consideri un insieme di n valori xi non nulli; si definisce media armo-


nica la formula:
n n
Ma = = n
1 1 1 1
+ +…+
x1 x2 xn ∑
i =1 xi
Viene generalmente utilizzata per determinare il potere di acquisto medio
della moneta, per conoscere la velocità media, cioè in tutti quei casi in cui i dati
variano in progressione armonica.
La corrispondente funzione in Excel risulta essere:
MEDIA.ARMONICA(num1;num2;...)
dove num1; num2; ...; sono da 1 a 30 argomenti di cui si desidera calcolare
il valore medio.
È anche possibile utilizzare un’unica matrice o un riferimento a una matrice
anziché argomenti separati dal punto e virgola.
Gli argomenti devono essere numeri oppure nomi, matrici o riferimenti che
contengono numeri.
Se una matrice o un riferimento contiene testo, valori logici o celle vuote,
tali valori verranno ignorati.
Le celle contenenti il valore zero verranno invece incluse nel calcolo.
Se uno qualsiasi dei dati è minore od uguale a 0 , la funzione restituirà il
valore di errore #NUM!.

Esempio 3.4

Si vuole determinare il potere di acquisto medio (riferito ad un importo di €


1,00) sapendo che una merce è stata venduta nel corso di 5 periodi successivi ai
seguenti prezzi unitari (in euro): 0,14; 0,17; 0,18; 0,19; 0,21.

Partendo dalla cella A1, introdurre i dati ottenendo il seguente risultato (fig.
3.7):

Fig. 3.7 – Inserimento dati dell’esempio 3.4

114
Posizionarsi nella cella A3 e digitare: media armonica; nella cella C3 digitare:
=MEDIA.ARMONICA(A1:E1), ottenendo (fig. 3.8):

Fig. 3.8 – Media armonica per i dati dell’esempio 3.4

Quindi con € 1,00 il potere di acquisto medio, risulta essere:


€ 1,00
= 5,72 unità di merce.
€ 0,17

5. Mediana

In statistica descrittiva ci si avvale anche di valori medi che non dipendono


da tutti i valori osservati, ma si basano soltanto su alcuni valori particolari. Tra
questi valori medi troviamo la mediana.
Dato un insieme i cui elementi sono ordinati in senso crescente o decre-
scente si definisce valore mediano o mediana ( M e ), quel valore che lascia tanti
elementi a sinistra quanti a destra.
In particolare, se il numero delle osservazioni è dispari, la mediana coinci-
de con il valore della graduatoria che occupa la posizione centrale, ossia con il
valore che occupa il posto (n + 1) / 2 –esimo:
M e = x⎛ n +1 ⎞
⎜ ⎟
⎝ 2 ⎠
Se il numero di osservazioni è pari la mediana si assume uguale alla semi-
somma dei due valori che occupano le posizioni centrali, ossia dei valori che
occupano i posti (n / 2) -esimo e (n / 2 + 1) -esimo:
x⎛ n ⎞ + x⎛ n ⎞
⎜ ⎟ ⎜ +1 ⎟
⎝2⎠ ⎝2 ⎠
Me =
2
L’equivalente funzione di Excel, risulta essere:
MEDIANA(num1;num2;...)
dove num1; num2;...; sono da 1 a 30 numeri di cui si desidera calcolare la
mediana.
Gli argomenti devono essere numeri oppure nomi, matrici o riferimenti che
contengono numeri.
Vengono esaminati tutti i numeri contenuti in ogni argomento riferimento o
matrice.

115
Se una matrice o un riferimento contiene testo, valori logici o celle vuote,
tali valori verranno ignorati.
Le celle contenenti il valore zero verranno invece incluse nel calcolo.
Qualora l'insieme sia costituito da un numero pari di valori, la funzione cal-
colerà la media dei due numeri che occupano la posizione centrale.

Esempio 3.5

La tab. 3.3 mostra l’andamento del dollaro dalle ore 9 alle ore 20 del 26 giugno
1998 (fonte: IL SOLE 24 ORE):

Tab. 3.3 – Andamento del dollaro il 26 giugno 1998 (fonte: IL SOLE 24 ORE)
ore £/$
9 1170
10 1170
11 1772
12 1773
13 1773
14 1773
15 1774
16 1779
17 1784
18 1787
19 1786
20 1784

Partendo dalla cella A1, introdurre i dati ottenendo il seguente risultato (fig.
3.9):

Fig. 3.9 – Inserimento dati della tab. 3.3

116
Posizionarsi nella cella A15 e digitare: mediana; nella cella B15 digitare:
=MEDIANA(B2:B13), ottenendo (fig. 3.10):

Fig. 3.10 – Mediana per i dati della tab. 3.3

6. Quartili e percentili

Abbiamo visto che la mediana è quel valore al di sotto del quale vi è la me-
tà delle osservazioni. Talvolta vengono utilizzati anche altri valori di posizione
che dividono le distribuzioni in determinate percentuali, come ad esempio i
quartili ed i percentili.
I quartili, come dice il termine stesso, dividono la distribuzione in quarti ed
esattamente:

- il I quartile ( Q1 ) è il valore che lascia alla sua sinistra il 25% degli ele-
menti della distribuzione;
- il II quartile ( Q2 ) coincide con la mediana;
- il III quartile ( Q3 ) è il valore che lascia il 75% degli elementi a sinistra ed
il 25% a destra.

I percentili dividono, invece, la distribuzione in 100 parti.


In Excel la funzione quartile è data da:
QUARTILE(matrice;quarto)
dove matrice è la matrice o l’intervallo di celle a valori numerici per cui si
desidera calcolare il valore quartile; quarto indica il valore da restituire:

- 0 valore minimo;
- 1 I quartile;
- 2 II quartile (mediana);
- 3 III quartile;
- 4 valore massimo.

Se la matrice non contiene alcun dato, la funzione restituirà il valore di er-


rore #NUM!.
Se quarto non è un numero intero, la parte decimale verrà troncata.
Inoltre, se quarto è minore di 0 o superiore a 4, la funzione restituirà il va-
lore di errore #NUM!.

117
Per quanto concerne il calcolo dei percentili, la funzione in Excel risulta es-
sere:
PERCENTILE(matrice;k)
dove matrice è la matrice o l'intervallo di dati che definisce la condizione
relativa e k è il valore percentile nell'intervallo 0, 1 compresi.
Se matrice contiene più di 8.191 dati o nessun dato, la funzione restituirà il
valore di errore #NUM!.
Se k non è un valore numerico, la funzione restituirà il valore di errore
#VALORE!.
Se k è minore di 0 o maggiore di 1, la funzione restituirà il valore di errore
#NUM!.
Se k non è un multiplo di 1 / (n − 1) , la funzione effettuerà un’interpolazione
per determinare il valore al k-esimo percentile.

Esempio 3.6

Si vogliono calcolare i quartili partendo dai dati di tab. 3.2.

Posizionandosi nella cella B5 digitare: valore minimo, nella cella B6, I quartile,
nella cella B7, II quartile, nella cella B8 III quartile e nella cella B9 valore
massimo. Spostarsi nella cella C5 e digitare: =QUARTILE(A1:F3;0), nella cel-
la C6: =QUARTILE(A1:F3;1), nella cella C7: =QUARTILE(A1:F3;2), nella
cella B8: =QUARTILE(A1:F3;3) e nella cella B9: =QUARTILE(A1:F3;4) (fig.
3.11):

Fig. 3.11 – Quartili per i dati di tab. 3.2

7. Moda

La moda ( M o ) detta anche valore normale o valore dominante è il valore


che si presenta con la frequenza maggiore.

118
La moda può non esistere quando tutti i valori hanno la stessa frequenza e
se esiste può non essere unica. Se esiste ed è unica si parla di distribuzione u-
nimodale, se invece non è unica la distribuzione è detta plurimodale.
La corrispondente funzione in Excel risulta essere:
MODA(num1;num2;...)
dove num1; num2;...; sono da 1 a 30 argomenti di cui si desidera calcolare
la moda.
È anche possibile utilizzare un’unica matrice o un riferimento a una matrice
anziché argomenti separati dal punto e virgola.
Gli argomenti devono essere numeri, nomi, matrici o riferimenti che con-
tengono numeri.
Se una matrice o un riferimento contiene testo, valori logici o celle vuote,
tali valori verranno ignorati.
Le celle contenenti il valore zero verranno invece incluse nel calcolo.
Se l'insieme dei dati non contiene valori duplici, la funzione restituirà il va-
lore di errore #N/D.

Esempio 3.7

La tab. 3.4 riporta il numero di difetti di fabbricazione riscontrati in 20 rotoli di


tessuto oggetto di analisi di controllo qualità:

Tab. 3.4 – Numero di difetti riscontrati in 20 rotoli di tessuto


6 3
9 5
14 6
17 9
3 10
8 12
9 11
2 4
14 9
1 4

Partendo dalla cella A1, introdurre i dati della tab. 3.4, ottenendo il seguente
risultato (fig. 3.12):

119
Fig. 3.12 – Inserimento nel foglio elettronico dei dati di tab. 3.4

Posizionare il cursore nella cella A12 e digitare: moda, nella cella B12:
=MODA(A1:B10) (fig. 3.13):

Fig. 3.13 – Valore modale per i dati di tab. 3.4

120
4. Misure di variabilità

1. Generalità

Nel capitolo precedente si è visto come si possano utilizzare i valori medi


allo scopo di condensare l’insieme dei dati in un unico valore che possa rappre-
sentarli tutti. Tale valore viene spesso indicato come centro della distribuzione.
Purtroppo, un valore medio, comunque calcolato, non è sufficiente a rap-
presentare l’insieme delle osservazioni effettuate; è necessario quindi affianca-
re ad esso altri indici che siano in grado di fornire delle informazioni sulla di-
spersione, cioè sulla distanza delle varie osservazioni dal valore medio che rap-
presenta, appunto, il centro della distribuzione (fig. 4.1).

d1
d2 d n −1 dn
d3 di

x1 x2 x3 xi xn −1 xn
valore medio
(centro della distribuzione)

Fig. 4.1 – Rappresentazione della dispersione di un insieme di osservazioni

Quindi, tanto minore è la distanza ( d1 , d 2 , d 3 , …, d i , …, d n −1 , d n ) delle


osservazioni dal centro, tanto minore sarà la variabilità e tanto maggiore sarà
la rappresentatività del valore medio della distribuzione delle osservazioni.
Gli indici di variabilità assumono valore zero solo se la variabilità è nulla,
cioè se tutti i valori ( xi ) sono uguali fra di loro; all’aumentare della variabilità,
tali indici assumeranno valori sempre maggiori. Riassumendo, è possibile af-
fermare che un carattere saliente dei dati statistici è la variabilità.

121
Per analizzare una distribuzione, dopo aver calcolato uno o più valori medi,
è necessario studiare la dispersione dei dati, dispersione che caratterizza la va-
riabilità del fenomeno oggetto di studio.
È importante, quindi, conoscere sia di quanto i dati differiscono da un valo-
re medio, sia di quanto differiscono fra di loro. Tra i vari indici che misurano la
variabilità di un fenomeno si considereranno: il campo di variazione (range),
varianza e scarto quadratico medio (deviazione standard) e per concludere
l’errore standard.

2. Campo di variazione (range)

Il campo di variazione (range) è la differenza tra l’osservazione più grande


e l’osservazione più piccola di un insieme di dati:
ω = xmax − xmin
Il campo di variazione ha il pregio di essere calcolato con estrema sempli-
cità, ma ha il difetto di misurare la variabilità utilizzando solo due osservazioni
estreme e non anche gli altri valori.
Per il calcolo in Excel, pur non disponendo di una specifica funzione per il
calcolo del campo di variazione, è possibile utilizzare le funzioni MIN e MAX.
In particolare, la funzione MIN, restituisce il numero più piccolo di un in-
sieme di valori:
MIN(num1;num2;...)
dove num1; num2;...; sono da 1 a 30 numeri tra cui si desidera individuare
il valore minimo.
Gli argomenti devono essere numeri, celle vuote, valori logici o rappresen-
tazioni di numeri in formato testo.
Gli argomenti rappresentati da valori di errore o da testo non convertibile in
numeri generano degli errori.
Se un argomento è costituito da una matrice o da un riferimento, verranno
utilizzati solo i numeri presenti nella matrice o nel riferimento, mentre le celle
vuote, i valori logici o il testo verranno ignorati.
Se non si desidera che i valori logici e il testo vengano ignorati, utilizzare la
funzione MIN.VALORI.
Se gli argomenti non contengono numeri, la funzione restituirà 0.
La funzione MAX, restituisce il valore maggiore di una serie di dati:
MAX(num1;num2;...)
dove valgono le stesse prescrizioni indicate precedentemente per la funzio-
ne MIN.

122
Esempio 4.1

La tab. 4.1 riporta i valori delle temperature delle cinghie rilevate in un giorno
di lavoro da una macchina industriale:

Tab. 4.1 – Temperature cinghie di una macchina industriale


65,4 72,1 68,3 69,0 78,5
70,0 69,1 73,8 64,9 64,2

Partendo dalla cella A1, introdurre i dati della tab. 4.1, ottenendo il seguente
risultato (fig. 4.2):

Fig. 4.2 – Inserimento nel foglio elettronico dei dati di tab. 4.1

Posizionarsi con il cursore nella cella A4 e digitare: range, nella cella B4:
=MAX(A1:E2)-MIN(A1:E2) (fig. 4.3):

Fig. 4.3 – Campo di variazione per i dati di tab. 4.1

3. Varianza

Si definisce varianza di un insieme di dati, la media dei quadrati degli


scarti dalla media aritmetica:
n

∑( x − x)
i =1
i
2

sc2 =
n −1
L’analoga funzione in Excel, ha sintassi:
VAR(num1;num2;...)
dove num1;num2;...; sono da 1 a 30 argomenti numerici corrispondenti a
un campione della popolazione.
La funzione presuppone che gli argomenti siano un campione della popola-
zione. Se i dati rappresentano l’intera popolazione, la varianza dovrà essere cal-
colata utilizzando la funzione VAR.POP.
I valori logici come vero e falso e il testo vengono ignorati.

123
Se non si desidera che i valori logici e il testo vengano ignorati, è necessa-
rio utilizzare la funzione MEDIA.VALORI.
Per il calcolo della varianza Excel utilizza la seguente formula:
2
n
⎛ n ⎞
n ∑
i =1
xi2 ∑
− ⎜⎜ xi ⎟⎟
⎝ i =1 ⎠
sc2 =
n (n − 1)

Esempio 4.2

Per valutare il tempo di usura (espresso in ore) di un utensile per lavorazioni


speciali è stato esaminato un campione di 10 pezzi ottenendo i seguenti risulta-
ti: 122,4; 124,8; 123,2; 126,7; 122,9; 125,3; 125,9; 126,4; 126,8; 127,0.

Partendo dalla cella A1, introdurre i dati ottenendo il seguente risultato (fig.
4.4):

Fig. 4.4 – Inserimento nel foglio elettronico dei dati dell’esempio 4.2

Posizionarsi con il cursore nella cella A3 e digitare: varianza, nella cella B3:
=VAR(A1:J1) (fig. 4.5):

Fig. 4.5 – Varianza del tempo di usura di 10 utensili

4. Scarto quadratico medio (deviazione standard)

Per risolvere l’inconveniente legato al calcolo della varianza, cioè che tale
indice è espresso nel quadrato dell’unità di misura delle osservazioni, è preferi-
bile calcolare la radice quadrata della varianza stessa, cioè lo scarto quadratico
medio (deviazione standard):
n

∑( x − x)
i =1
i
2

sc =
n −1
L’analoga funzione in Excel, assume la seguente sintassi:
DEV.ST(num1;num2;...)
dove num1;num2;...; sono da 1 a 30 argomenti numerici corrispondenti a
un campione della popolazione.

124
Invece che argomenti separati da punti e virgole, è possibile utilizzare una
singola matrice o un riferimento a una matrice.
DEV.ST presuppone che gli argomenti siano un campione della popolazio-
ne. Se i dati rappresentano l’intera popolazione, la deviazione standard deve
essere calcolata utilizzando la funzione DEV.ST.POP.
I valori logici come vero e falso e il testo vengono ignorati.
Se non si desidera che i valori logici e il testo vengano ignorati, utilizzare la
funzione DEV.ST.VALORI.
In Excel, la deviazione standard viene calcolata utilizzando la seguente
formula:
2
n
⎛ n ⎞
n ∑
i =1
xi2 ∑
− ⎜⎜ xi ⎟⎟
⎝ i =1 ⎠
sc =
n (n − 1)

Esempio 4.3

Si è registrato per 10 volte il tempo (in secondi) necessario per la connessione


via modem ad un Internet Service Provider (ISP): 60, 50, 65, 83, 76, 55, 61, 57,
95, 71.

Partendo dalla cella A1, introdurre i dati ottenendo il seguente risultato (fig.
4.6):

Fig. 4.6 – Inserimento nel foglio elettronico dei dati dell’esempio 4.3

Posizionarsi con il cursore nella cella A3 e digitare: dev.st, nella cella B3:
=DEV.ST(A1:J1) (fig. 4.7):

Fig. 4.7 – Deviazione standard per tempi di collegamento via modem ad un ISP

125
5. Misure di forma

1. Generalità

Per caratterizzare in modo esauriente una distribuzione statistica sono utili,


oltre alle misure di tendenza centrale e di dispersione, anche altre misure che
mettono in evidenza se una distribuzione è simmetrica rispetto ad un determi-
nato valore e se risulta più o meno appiattita.
Nel presente capitolo verranno spiegati, nel dettaglio, i concetti di asimme-
tria e di curtosi (appiattimento) (rispetto ad esempio ad alcune distribuzioni te-
oriche note) analizzando alcuni indici di forma o disnormalità.

2. Asimmetria

L’asimmetria (skewness) è un termine che viene utilizzato per indicare


l’assenza di specularità di una distribuzione rispetto al suo asse di simmetria,
per cui i valori del carattere di una distribuzione asimmetrica sono distribuiti
con frequenze differenti attorno al suo valore centrale.
Rispetto, ad esempio, alla distribuzione Gaussiana (curva normale) è pos-
sibile evincere se una distribuzione presenta asimmetria, se ha una coda più
lunga; più precisamente, se la coda più lunga è a sinistra, la distribuzione pre-
senta una asimmetria negativa, se, invece, la coda più lunga è a destra, allora la
distribuzione presenta asimmetria positiva.
Le relazioni esistenti tra media aritmetica, moda e mediana consentono di
verificare se una distribuzione si presenta asimmetrica o meno; infatti, si parla
di:

- simmetria se risulta x = M e = M o ;
- asimmetria positiva se M o < M e < x , la distribuzione presenta il ramo de-
stro più allungato di quello sinistro, in altre parole presenta una coda ver-
so destra;

126
- asimmetria negativa se x < M e < M o , la distribuzione presenta il ramo si-
nistro più allungato di quello destro, quindi presenta una coda verso sini-
stra.

Diversi indici di asimmetria si basano sulle relazioni tra media, moda e me-
diana, alcuni sono espressi nella stessa unità di misura del fenomeno investiga-
to, altri sono numeri puri. Tra i secondi, Fisher ha proposto un indice di asim-
metria relativo nella formula:
3
n n
⎛ xi − x ⎞
αF = ∑ ⎜
(n − 1)(n − 2) i =1 ⎜⎝ sc ⎟⎠

Se risulta:

- α F = 0 , la distribuzione è simmetrica rispetto alla media aritmetica;


- α F > 0 , la distribuzione è asimmetrica a destra;
- α F < 0 , la distribuzione è asimmetrica a sinistra.

In Excel, la funzione deputata al calcolo della simmetria, è basata


sull’indice proposto da Fisher ed assume la seguente sintassi:
ASIMMETRIA(num1;num2;...)
dove num1; num2; ...; sono da 1 a 30 argomenti di cui si desidera calcolare
l'asimmetria.
È anche possibile utilizzare un'unica matrice o un riferimento a una matrice
anziché argomenti separati dal punto e virgola.
Gli argomenti devono essere numeri oppure nomi, matrici o riferimenti che
contengono numeri.
Se una matrice o un riferimento contiene testo, valori logici o celle vuote,
tali valori verranno ignorati.
Le celle contenenti il valore zero verranno invece incluse nel calcolo.
Se esistono meno di tre valori o se la deviazione standard sulla base di un
campione è uguale a zero, la funzione restituirà il valore di errore #DIV/0!.

Esempio 5.1

Da 50 prelievi di un particolare meccanico, relativamente ad una quota, si sono


ottenuti i seguenti valori (in mm) (tab. 5.1):

Tab. 5.1 – Quota (in mm) di un particolare meccanico


429,3 429,4 429,6 429,7 430,0 129,8 429,6 430,1 429,8 429,5
429,9 430,0 429,0 429,3 430,0 429,7 429,6 429,7 429,4 430,0
430,3 430,3 430,5 429,4 429,0 428,9 428,9 429,5 429,0 428,8
429,3 428,8 429,8 429,7 429,2 429,0 430,1 429,7 430,0 429,9
429,6 429,9 429,0 429,8 429,2 429,7 429,6 430,0 430,4 430,0

127
Partendo dalla cella A1, introdurre i dati della tab. 5.1, ottenendo il seguente
risultato (fig. 5.1):

Fig. 5.1 – Inserimento nel foglio elettronico dei dati di tab. 5.1

Posizionarsi con il cursore nella cella A7 e digitare: indice di asimmetria, nella


cella B7: =ASIMMETRIA(A1:J5) (fig. 5.2):

Fig. 5.2 – Indice di asimmetria per la quota dei particolari meccanici di tab. 5.1

3. Curtosi

La curtosi fa riferimento alla maggiore o minore gibbosità di una distribu-


zione in prossimità del suo massimo e, quindi, alla maggiore o minore lunghez-
za delle code. La curtosi assume rilievo per una distribuzione di frequenza u-
nimodale, la cui curva è a forma campanulare.
Per valutare l’aspetto della forma della curva, la stessa viene paragonata ad
una curva normale (detta anche mesocurtica) avente la stessa frequenza com-
plessiva, la stessa media e la stessa deviazione standard; precisamente si dice
che la curva è:

- platicurtica o iponormale se è più piatta della curva normale;


- leptocurtica o ipernormale se è più appuntita della curva normale.

Per misurare la curtosi è particolarmente utile l’indice proposto da Fisher:


n (n + 1) 3 (n − 1)
4
⎛ xi − x ⎞
n 2
γ2 =
(n − 1)(n − 2)(n − 3) ∑


i =1 ⎝ sc
⎟ −
⎟ (n − 2 )(n − 3)

Esso vale 0 per una curva normale, è positivo o negativo per una curva, ri-
spettivamente, più appuntita o meno appuntita di una curva normale.
In Excel, la funzione, basandosi anche in questo caso, sull’indice proposto
da Fisher, assume la forma:
CURTOSI(num1;num2;...)
dove num1; num2;...; sono da 1 a 30 argomenti di cui si desidera calcolare
la curtosi.

128
È anche possibile utilizzare un'unica matrice o un riferimento a una matrice
anziché argomenti separati dal punto e virgola.
Gli argomenti devono essere numeri oppure nomi, matrici o riferimenti che
contengono numeri.
Se una matrice o un riferimento contiene testo, valori logici o celle vuote,
tali valori verranno ignorati. Le celle contenenti il valore zero verranno invece
incluse nel calcolo.
Se sono presenti meno di quattro dati o se la deviazione standard del cam-
pione è uguale a zero, la funzione restituirà il valore di errore #DIV/0!.

Esempio 5.2

La tab. 5.2 contiene la velocità (in Mhz) rilevata da 50 processori:

Tab. 5.2 – Velocità (in Mhz) di 50 processori


799,023 792,943 794,111 791,317 794,053 781,308 794,181 786,852 795,960 798,084
803,074 791,204 790,415 795,897 793,581 793,723 804,668 795,231 794,105 806,220
791,134 802,792 794,906 794,605 804,870 797,223 797,679 793,559 799,189 794,579
790,488 788,272 796,249 788,984 806,890 794,220 785,268 792,945 800,868 792,652
790,992 786,624 796,938 793,996 798,502 791,093 792,878 796,753 792,971 796,301

Partendo dalla cella A1, si introduca i dati della tab. 1.2, ottenendo il seguente
risultato (fig. 5.3):

Fig. 5.3 – Inserimento nel foglio elettronico dei dati di tab. 5.2

Posizionarsi con il cursore nella cella A7 e digitare: curtosi, nella cella B7:
=CURTOSI(A1:J5) (fig. 5.4):

Fig. 5.4 – Curtosi per la velocità dei processori di tab. 5.2

129
6. Strumenti di analisi: statistica descrittiva

1. Generalità

Molti indici sintetici trattati nei capitoli precedenti vengono generati auto-
maticamente da Excel utilizzando la procedura Statistica descrittiva del menu
Analisi dati.
In particolare, le statistiche di sintesi utilizzate sono:

- media aritmetica;
- errore standard;
- mediana;
- moda;
- deviazione standard;
- varianza campionaria;
- curtosi;
- asimmetria;
- intervallo;
- minimo;
- massimo;
- somma;
- conteggio;
- più grande ( k );
- più piccolo ( k );
- confidenza.

Per quanto concerne la statistica errore standard, l'applicazione principale


riguarda il calcolo degli intervalli di confidenza (confidenza). Come la variabi-
lità di una misura è indicata dalla deviazione standard, così la variabilità di un
valore statistico (es. una percentuale, una media ecc.) è indicata dall'errore
standard.

130
L'errore standard è un numero che è direttamente correlato alla variabilità
della misura ottenuta: tanto più piccolo è l'errore standard, tanto minore è la
variabilità della misura e quindi tanto più attendibile è la statistica.
In Excel, la formula utilizzata per il calcolo dell’errore standard è:
m n

∑∑ y
s =1 i =1
2
is
S .E . =
n y (n y − 1)
dove:

- s è il numero della serie;


- i è il numero del dato nella serie s ;
- m è il numero della serie per i punti y del grafico;
- n è il numero di punti di ogni serie;
- yis è il valore dei dati nella serie s e i -esimo dato;
- n y è il numero totale dei valori dei dati di tutte le serie.

Con il termine intervallo si intende il range, cioè la differenza tra il valore


massimo ed il valore minimo di una serie di dati.
Minimo e massimo restituiscono rispettivamente il numero più piccolo e più
grande di un insieme di valori:
MIN(num1;num2;…)
MAX(num1;num2;…)
Conteggio conta il numero di celle contenenti numeri e i numeri presenti
nell’elenco degli argomenti:
CONTA.NUMERI(val1;val2;…)
dove val1;val2;...; sono da 1 a 30 argomenti che possono contenere o rife-
rirsi a più dati di diverso tipo, di cui vengono contati soltanto i numeri.
Nel conteggio vengono inclusi argomenti rappresentati da numeri, date op-
pure rappresentazioni di numeri in formato testo. Non vengono invece conside-
rati gli argomenti rappresentati da valori di errore o da testo che non può essere
convertito in numeri.
Se un argomento è una matrice o un riferimento, vengono contati soltanto i
numeri di tale matrice o riferimento.
Le celle vuote, i valori logici, il testo o i valori di errore della matrice o del
riferimento vengono ignorati.
Per attivare la procedura Strumenti di analisi: Statistica descrittiva, apri-
re il menu Strumenti e selezionare la voce Analisi dati (fig. 6.1):

131
Fig. 6.1 – Analisi dati: Statistica descrittiva

Selezionare la voce Statistica descrittiva e premere il pulsante OK (fig.


6.2):

Fig. 6.2 – Statistica descrittiva

dove:

- Intervallo di input: immettere il riferimento di cella per l'intervallo di da-


ti da analizzare che deve consistere in due o più intervalli di dati adiacenti
disposti in colonne o righe;
- Dati raggruppati per: per indicare se i dati nell'intervallo di input sono
disposti in righe o in colonne;
- Etichette nella prima riga/Etichette nella prima colonna: se la prima
riga dell'intervallo di input contiene etichette, selezionare la casella di
controllo Etichette nella prima riga. Se le etichette si trovano invece
nella prima colonna dell'intervallo di input, selezionare la casella di con-
trollo Etichette nella prima colonna. Se l'intervallo di input non contiene
etichette, queste caselle di controllo dovranno essere deselezionate, in

132
quanto le etichette di dati appropriate per la tabella di output verranno ge-
nerate automaticamente;
- Intervallo di output: immettere il riferimento della cella superiore sini-
stra della tabella di output. Questo strumento genera due colonne di in-
formazioni per ciascun insieme di dati. La colonna di sinistra contiene le
etichette di statistica, mentre quella di destra contiene le statistiche. Viene
scritta una tabella di statistiche a due colonne per ogni colonna o riga del-
l'intervallo di input, a seconda dell'opzione Raggruppato per seleziona-
ta;
- Nuovo foglio di lavoro: per inserire un nuovo foglio di lavoro nella car-
tella di lavoro corrente e incollare i risultati a partire dalla cella A1 del
nuovo foglio di lavoro. Per assegnare un nome al nuovo foglio di lavoro,
digitarlo nella casella di testo;
- Nuova cartella di lavoro: cliccare per creare una nuova cartella di lavoro
e incollare i risultati in un nuovo foglio della nuova cartella di lavoro;
- Riepilogo statistiche: selezionare se si desidera che venga generato nella
tabella di output un campo per ognuna delle seguenti statistiche: Media,
Errore standard (della media), Mediana, Modalità, Deviazione standard,
Varianza, Curtosi, Asimmetria, Intervallo, Minimo, Massimo, Somma,
Conteggio, Più grande (#), Più piccolo (#) e Livello di confidenza;
- Livello di confidenza per media: selezionare questa opzione se si deside-
ra includere nella tabella di output una riga per il livello di confidenza del-
la media (varianza ignota). Immettere quindi nella casella il livello di
confidenza che si desidera utilizzare;
- k -esimo più grande: selezionare questa opzione se si desidera includere
nella tabella di output una riga per il valore k -esimo più grande di cia-
scun intervallo di dati:
GRANDE(matrice;k)
dove matrice è una matrice o un intervallo di dati numerici di cui si desi-
dera determinare il k -esimo valore più grande e k è la posizione nella
matrice o nell'intervallo di celle dei dati da restituire (partendo dal più
grande). Immettere quindi nella casella il numero da utilizzare per k . Se
il numero assegnato è uguale a 1, questa riga conterrà il valore massimo
dell'insieme di dati;
- k -esimo più piccolo: selezionare questa opzione se si desidera includere
nella tabella di output una riga per il valore k -esimo più piccolo di cia-
scun intervallo di dati:
PICCOLO(matrice;k)
dove matrice è una matrice o un intervallo di dati numerici di cui si desi-
dera determinare il k -esimo valore più piccolo e k è la posizione nella
matrice o nell'intervallo di celle dei dati da restituire (partendo dal più
piccolo). Immettere quindi nella casella il numero da utilizzare per k . Se

133
il numero assegnato è uguale a 1, questa riga conterrà il valore minimo
dell'insieme di dati.

Esempio 6.1

La tab. 6.1 riporta il peso (in gr) di un campione di 100 tavolette di cioccolata:

Tab. 6.1 – Peso (in gr) di 100 tavolette di cioccolata


99,9 99,8 99,8 99,7 99,8 99,6 99,8 99,7 99,8 99,9
99,9 99,7 99,7 99,8 99,8 99,8 100,0 99,8 99,8 100,0
99,7 99,9 99,8 99,8 100,0 99,8 99,8 99,8 99,9 99,8
99,7 99,7 99,8 99,7 100,0 99,8 99,6 99,8 99,9 99,8
99,7 99,7 99,8 99,8 99,9 99,7 99,8 99,8 99,8 99,8
99,6 99,8 99,8 100,0 99,6 99,6 99,6 99,9 100,0 99,8
99,7 99,9 99,9 99,7 99,9 99,9 99,8 99,6 99,9 99,9
99,8 99,7 99,9 99,8 99,9 100,0 99,8 99,7 99,8 99,7
99,9 99,8 99,8 99,8 99,8 99,8 99,7 100,0 100,0 99,9
99,7 99,7 99,9 99,8 99,8 99,8 99,6 99,8 99,7 99,7

Partendo dalla cella A1, utilizzando una sola colonna, introdurre i dati della
tab. 6.1, ottenendo il seguente risultato (fig. 6.3):

Fig. 6.3 – Inserimento nel foglio elettronico dei dati di tab. 6.1

134
Aprire il menu Strumenti, selezionare la voce Analisi dati, Statistica descrit-
tiva e premere il pulsante OK (fig. 6.4):

Fig. 6.4 – Statistica descrittiva

Nella casella Intervallo di input digitare: A1:A100, selezionare Nuovo foglio


di lavoro e spuntare la casella Riepilogo statistiche (fig. 6.5):

Fig. 6.5 – Opzioni della Statistica descrittiva

Premendo successivamente il pulsante OK si ottiene (fig. 6.6):

135
Fig. 6.6 – Statistica descrittiva per il peso (in gr) di 100 barrette di cioccolato

Esempio 6.2

La tab. 6.2 riporta lo spessore (in mm) di 50 lastre di metallo:

Tab. 6.2 – Spessore (in mm) di 50 lastre di metallo


14,267 14,152 14,331 14,452 14,442 14,505 14,046 14,275 14,430 14,175
14,221 14,104 14,086 14,187 14,211 14,054 14,235 14,255 14,318 14,259
14,264 14,259 14,459 14,292 14,280 14,242 14,533 14,403 14,580 14,225
14,497 14,113 14,365 14,408 14,527 14,292 14,241 14,381 14,257 14,391
14,133 14,203 14,124 14,259 14,298 14,305 14,264 14,559 14,098 14,216

Partendo dalla cella A1, utilizzando una sola colonna, introdurre i dati della
tab. 6.2, ottenendo il seguente risultato (fig. 6.7):

Fig. 6.7 – Inserimento nel foglio elettronico dei dati di tab. 6.2

136
Aprire il menu Strumenti, selezionare la voce Analisi dati, Statistica descrit-
tiva e premere il pulsante OK (fig. 6.8):

Fig. 6.8 – Statistica descrittiva

Nella casella Intervallo di input digitare: A1:A50, selezionare Nuovo foglio di


lavoro e spuntare la casella Riepilogo statistiche (fig. 6.9):

Fig. 6.9 – Opzioni della Statistica descrittiva

Premendo successivamente il pulsante OK si ottiene (fig. 6.10):

137
Fig. 6.10 – Statistica descrittiva per lo spessore di 50 lastre di metallo
Esempio 6.3

La tab. 1.3 riporta la quantità (in quintali) di semilavorati stoccati in un magaz-


zino negli ultimi 9 anni:

Tab. 6.3 – Quantità (in q.li) di semilavorati stoccati in un magazzino negli ultimi 9
anni
1995 1996 1997 1998 1999 2000 2001 2002 2003
Gen 22 20 19 19 19 20 19 20 20
Feb 25 22 13 16 7 25 27 22 15
Mar 25 19 22 21 26 17 20 19 27
Apr 24 19 15 19 19 11 16 16 25
Mag 21 16 22 15 24 18 18 22 17
Giu 22 22 20 14 22 23 25 19 19
Lug 28 31 20 32 26 25 26 25 28
Ago 23 22 22 23 23 24 24 22 24
Set 19 17 21 20 14 17 17 18 20
Ott 25 25 19 24 18 21 25 20 19
Nov 23 14 21 21 19 16 15 16 20
Dic 15 21 16 15 18 17 17 17 20

Partendo dalla cella A1, introdurre i dati della tab. 1.3, ottenendo il seguente
risultato (fig. 6.11):

138
Fig. 6.11 – Inserimento nel foglio elettronico dei dati di tab. 6.3

Aprire il menu Strumenti, selezionare la voce Analisi dati, Statistica descrit-


tiva e premere il pulsante OK (fig. 6.12):

Fig. 6.12 – Statistica descrittiva

Nella casella Intervallo di input digitare: B1:J13, selezionare la casella Eti-


chette nella prima riga, selezionare Nuovo foglio di lavoro e spuntare la ca-
sella Riepilogo statistiche (fig. 6.13):

139
Fig. 6.13 – Opzioni della Statistica descrittiva

Premendo successivamente il pulsante OK si ottiene (fig. 6.14):

Fig. 6.14 – Statistica descrittiva per la quantità (in q.li) di semilavorati stoccati in
un magazzino negli ultimi 9 anni

140
7. Distribuzioni di probabilità

1. Generalità

I fenomeni collettivi sono tra gli oggetti di studio dell’analisi statistica; il


successivo raffronto dei casi reali con i modelli teorici è di grande utilizzazione
scientifica e pratica, anche perché permette degli approfondimenti e delle pre-
visioni che altrimenti non sarebbero possibili.
Questi modelli teorici (distribuzioni), come spesso succede nella matemati-
ca applicata, sono nati dall’esigenza di interpretare fenomeni reali mediante
modelli teorici di riferimento. Dall’analisi di queste distribuzioni si possono
dedurre le proprietà delle distribuzioni reali che si adattano ad esse. La distri-
buzione normale (Gaussiana), ad esempio, è molto importante sia perché di-
versi fenomeni sono approssimabili ad essa, sia per le sue applicazioni alla in-
ferenza statistica. Infatti, è possibile estendere all’intera popolazione, se nor-
malmente distribuito, i dati statistici osservati da un campione o verificare delle
ipotesi statistiche sui comportamenti dell’intera popolazione, mediante un
campione da essa estratta.
Le distribuzioni statistiche si possono essere discrete o continue. Una di-
stribuzione di dice discreta se i valori che assume sono in corrispondenza di un
insieme numerabile; continua se i valori che può assumere sono tutti quelli di
un intervallo reale.
Per definire in modo esauriente una distribuzione statistica è necessario de-
finire sia i valori che la grandezza può assumere sia con quale probabilità può
assumere tali valori, ovvero si deve definire la sua legge o distribuzione di pro-
babilità.
Nel caso di distribuzioni discrete tale legge, sovente chiamata densità di
probabilità, esprime la probabilità:
Ρ( X = x ) = p
di ogni valore assunto dalla distribuzione; essa è definita se e solo se:

- p(xi ) ≥ 0 per ogni i = 1, 2, … ;

141

- ∑ p(x ) = 1 .
i =1
i

Volendo rappresentare graficamente tale distribuzione, si pongono in ascis-


sa di un sistema di riferimento cartesiano i valori reali che essa assume e in or-
dinata le corrispondenti probabilità (fig. 7.1):

Ρ( X = x )

p2
p1

pi

x
x1 x2 xi

Fig. 7.1 – Rappresentazione grafica di una distribuzione discreta

Nel caso di distribuzioni continue, si parla di funzione di densità di proba-


bilità che è una funzione che, in relazione all’area sottesa alla curva, è propor-
zionale alla probabilità la distribuzione assuma valori in un intervallo infinite-
simo centrato su x , cioè:
Ρ( x ≤ X < x + dx ) = f ( x ) dx
Perché una funzione a valori reali possa essere una funzione di densità di
probabilità occorre che sia:

- f (x0 ) = 0 ;
+∞
- ∫ f (x ) dx = 1 .
−∞

Graficamente (fig. 7.2):

142
f (x )

x
Fig. 7.2 – Rappresentazione grafica di una distribuzione continua

In numerose applicazioni non è necessario definire completamente il mo-


dello (distribuzione), ma è sufficiente indicare alcuni parametri numerici che
ne caratterizzano i tratti essenziali.
Tali parametri, come il valore medio e la dispersione, esprimono, in modo
compatto e sintetico, tutte le informazioni sul modello e facilitano la soluzione
di gran parte dei problemi probabilistici.
La speranza matematica o valor medio di una distribuzione è un numero
che rappresenta il modello e può talvolta sostituirla, specie nel calcoli appros-
simati.
La speranza matematica indica dunque la posizione della variabile X
sull’asse numerico attorno alla quale si raggruppano tutti i valori, quindi indi-
vidua il valore atteso E ( X ) della variabile stessa; questo valore è la media a-
ritmetica ponderata di tutti i valori della variabile: ciascun valore risulta pesato
in base alla probabilità di verificarsi.
Nel caso di una distribuzione discreta, la speranza matematica ( μ ) è la
somma dei prodotti di tutti i possibili valori che può assumere la distribuzione
per le rispettive probabilità:
n
μ = E ( X ) = x1 ⋅ p1 + x2 ⋅ p2 + … + xn ⋅ pn = ∑ xi ⋅ pi
i =1
mentre, invece, nel caso di una distribuzione continua:
+∞
μ = E ( X ) = ∫ x ⋅ f (x ) dx
−∞
Infine, per valutare la dispersione dei valori attorno alla media viene utiliz-
zata la varianza ( σ 2 ):
σ 2 = Var ( X ) = E ( X − μ )2

143
che, nel caso di una distribuzione discreta, assume la forma:
n
σ 2 = Var ( X ) = ∑ (xi − μ )2 ⋅ pi
i =1
mentre, invece, nel caso di distribuzione continua:
+∞
σ 2 = Var ( X ) = ∫ (x − μ ) ⋅ f (x ) dx
2

−∞

2. Distribuzione binomiale

La distribuzione binomiale (o di Bernoulli) rappresenta la distribuzione di


probabilità di prove ripetute indipendenti quando i risultati di ciascuna prova
sono solo due.
Questa distribuzione può essere utilizzata per descrivere tutti i casi in cui
gli esiti possibili di una prova possono essere ridotti a due:

- in un controllo qualità un pezzo può risultare difettoso oppure no;


- in un sondaggio una persona può esprimere un parere favorevole o sfavo-
revole;
- la tensione erogata da una linea elettrica può essere sufficiente oppure no
per un certo numero di utenti;
- un elettrodomestico può funzionare o no.

In generale per prove ripetute indipendenti, dove i risultati possibili di cia-


scuna prova sono riconducibili a due, è possibile considerare uno dei due risul-
tati come successo e l’altro come insuccesso.
Si indichi con:

- X la variabile binomiale che indica il numero di successi in n prove;


quindi X può assumere i valori 0, 1, 2, …, n ;
- p la probabilità di successo in ciascuna prova, costante per tutte le pro-
ve;
- q = 1 − p la probabilità di insuccesso in ciascuna prova.

Si può dimostrare che la densità di probabilità della variabile X , cioè la


probabilità che X assuma un determinato valore x , risulta essere:
⎛n⎞
Ρ( X = x ) = ⎜⎜ ⎟⎟ p x q n − x
⎝ x⎠

144
⎛ n⎞
dove ⎜⎜ ⎟⎟ (coefficiente binomiale) rappresenta tutte le possibili sequenze di
⎝ x⎠
prove in cui si sono verificati x successi.
Il grafico rappresentativo della distribuzione binomiale presenta un anda-
mento diverso a seconda del valore assunto dai parametri n e p .
In particolare, per n costante, se:

- p < q la distribuzione assume una forma asimmetrica positiva (fig. 7.3);


- p > q la distribuzione assume una forma asimmetrica negativa (fig. 7.4);
- p = q la distribuzione è simmetrica rispetto al valore medio (fig. 7.5).

Fig. 7.3 – Andamento della distribuzione binomiale: p < q , n costante

Fig. 7.4 – Andamento della distribuzione binomiale: p > q , n costante

145
Fig. 7.5 – Andamento della distribuzione binomiale: p = q , n costante

All’aumentare del numero di prove ( n ), la distribuzione tende a diventare


sempre più simmetrica e, inoltre, quando n è elevato, la differenza della pro-
babilità di due valori consecutivi, Ρ( X = x ) e Ρ( X = x + 1) , tende a divenire
sempre minore (fig. 7.6, 7.7, 7.8):

Fig. 7.6 – Andamento della distribuzione binomiale: n = 5 , p costante

146
Fig. 7.7 – Andamento della distribuzione binomiale: n = 50 , p costante

Fig. 7.8 – Andamento della distribuzione binomiale: n = 200 , p costante

Per quanto riguarda i valori caratteristici, si può facilmente dimostrare che:

- il valor medio risulta essere pari a μ = E ( X ) = n ⋅ p ;


- e la varianza σ 2 = Var ( X ) = n ⋅ p ⋅ q .

In Excel, la densità di probabilità di una distribuzione binomiale può essere


calcolata a partire dalla funzione:
DISTRIB.BINOM(num_successi;prove;probabilità_s;cumulativo)
dove:

147
- num_successi è il numero di successi in prove ( x );
- prove è il numero di prove indipendenti ( n );
- probabilità_s è la probabilità di successo per ciascuna prova ( p );
- cumulativo è un valore logico che determina la forma assunta dalla fun-
zione. Se il valore cumulativo è vero, la formula restituirà la funzione di-
stribuzione cumulativa, ovvero la probabilità che venga restituito un nu-
mero massimo di successi pari al valore di num_successi:
n
⎛n⎞
∑ ⎜⎜⎝ x ⎟⎟⎠ p
x =0
x
qn − x

Se il valore cumulativo è falso, verrà restituita la funzione massa di pro-


babilità, ovvero la probabilità che venga restituito un numero massimo di
successi pari al valore di num_successi che è corrispondente alla densità
di probabilità.

num_successi e prove sono arrotondati in interi.


Se num_successi, prove o probabilità_s non sono valori numerici, la fun-
zione restituirà il valore di errore #VALORE!.
Se num_successi è minore di 0 o num_successi è maggiore di prove, la
funzione restituirà il valore di errore #NUM!.
Se probabilità_s è minore di 0 o maggiore di 1, la funzione restituirà il va-
lore di errore #NUM!.

Esempio 7.1

In una officina sono installate 5 macchine uguali; ciascuna ha la probabilità del


20% di guastarsi. Si vuole studiare la variabile X = n° di macchine guaste con-
temporaneamente.

Dal problema risulta che n = 5 , p = 0,2 e q = 1 − p = 1 − 0,2 = 0,8 .


Posizionandosi nella cella A1 digitare: n = , in A2: p = , A3: q = , B1: 5, B2:
0,2 e in B3: =1-B2 (fig. 7.9):

Fig. 7.9 – Inserimento nel foglio elettronico dei dati dell’esempio 7.1

148
Successivamente posizionarsi nella cella A5 e digitare: X , nella B5: Ρ( X ) ;
nelle celle A6, A7, A8, A9, A10, A11 rispettivamente: 0, 1, 2, 3, 4, 5 (fig.
7.10):

Fig. 7.10 – Predisposizione foglio elettronico per il calcolo della densità di proba-
bilità binomiale utilizzando i dati dell’esempio 1.1

Infine, posizionarsi nella cella B6 e digitare: =DISTRIB.BINOM


(A6;$B$1;$B$2;falso) (fig. 7.11):

Fig. 7.11 – Impostazione della formula per il calcolo della densità di probabilità
binomiale per i dati dell’esempio 7.1

A questo punto copiare la formula nelle celle B7:B11 ottenendo il seguente ri-
sultato (fig. 7.12):

149
Fig. 7.12 – Densità di probabilità binomiale per i dati dell’esempio 7.1

Per realizzare il grafico associato, selezionare le celle B6:B11, aprire il menu


Inserisci e cliccare sulla voce Grafico (fig. 7.13):

Fig. 7.13 – Creazione guidata grafico – Passaggio 1 di 4 – Tipo di grafico

Cliccare tra i Tipi standard, il tipo Istogramma, tra le Scelte disponibili man-
tenere il valore di default e premere il pulsante Avanti (fig. 7.14):

150
Fig. 7.14 – Creazione guidata grafico – Passaggio 2 di 4 – Dati di origine del grafi-
co

Selezionare la linguetta Serie e nella casella Etichette asse categoria (X) digi-
tare: A6:A11 per inserire le etichette identificative sull’asse delle ascisse (fig.
7.15):

Fig. 7.15 – Inserimento etichette identificate all’asse delle ascisse

151
Procedere ancora premendo il pulsante Avanti, nel Titolo del grafico digitare:
Densità di probabilità per il numero di macchine guaste (fig. 7.16):

Fig. 7.16 – Creazione guidata grafico – Passaggio 3 di 4 – Opzioni del grafico

Premendo ancora una volta sul pulsante Avanti e selezionando la voce Crea
nuovo foglio (fig. 7.17):

Fig. 7.17 – Creazione guidata grafico – Passaggio 4 di 4 – Posizione grafico

si ottiene il grafico desiderato (fig. 7.18):


D e n s it à d i p r o b a b ilit à p e r il n u m e r o d i m a c c h in e g u a s t e
0 ,4 5

0 ,4

0 ,3 5

0 ,3

0 ,2 5

0 ,2

0 ,1 5

0 ,1

0 ,0 5

0
0 1 2 3 4 5

Fig. 7.18 – Densità di probabilità per i dati dell’esempio 7.1

152
Esempio 7.2

In una ditta lavorano 12 operai che utilizzano apparecchiature collegate alla


stesserete elettrica. Ciascun operaio dispone di un’apparecchiatura che assorbe
un kilowatt e la usa, in modo indipendente dagli altri, mediamente per 10 minu-
ti ogni ora. Se la potenza della rete è di 5 kilowatt, qual è la probabilità che non
vi sia un sovraccarico?

La probabilità che in un determinato istante un operaio utilizzi


l’apparecchiatura elettrica è:
10 1
p= =
60 6
in quanto ciascun operaio utilizza mediamente l’apparecchiatura a sua disposi-
zione per 10 minuti in un’ora; mentre:
1 5
q =1− p = 1− =
6 6
La rete non risulta in sovraccarico se 5 operai o meno utilizzano le apparecchia-
ture contemporaneamente; pertanto:
n = 12
X =5
si deve calcolare:
x 12 − x
5
⎛12 ⎞ ⎛ 1 ⎞ ⎛ 5 ⎞

Ρ( X = 5) = ⎜⎜ ⎟⎟ ⎜ ⎟ ⎜ ⎟
x =0 ⎝ x ⎠ ⎝ 6 ⎠ ⎝ 6 ⎠
Posizionandosi nella cella A1 digitare: n = , in A2: p = , A3: q = , B1: 12, B2:
=1/6 e in B3: =1-B2 (fig. 7.19):

Fig. 7.19 – Inserimento nel foglio elettronico dei dati dell’esempio 7.2

Infine, posizionarsi nella cella B6 e digitare: =DISTRIB.BINOM


(5;$B$1;$B$2;vero) (fig. 7.20):

153
Fig. 7.20 – Impostazione della formula per il calcolo della probabilità che non vi
sia un sovraccarico nella rete elettrica

ottenendo infine il seguente risultato (fig. 7.21):

Fig. 7.21 – Probabilità che non vi sia un sovraccarico nella rete elettrica

Esempio 7.3

La distribuzione binomiale viene spesso utilizzata nel campo industriale per de-
terminare l’accettazione o il rifiuto di un lotto di pezzo lavorati. In genere, per
contenere i costi, non si analizzano tutti i pezzi che formano il lotto, ma sola-
mente un campione e si decide se respingere tutti i pezzi che formano, il lotto
in base alla percentuale di pezzi difettosi del campione. In questo contesto p
rappresenta la probabilità che un pezzo risulti difettoso ed n la numerosità del
campione.
Determinare la distribuzione di probabilità del numero X di pezzi difettosi se
si sono provati 20 pezzi di un lotto dove normalmente quelli difettosi sono il
10%.
Rappresentare graficamente la distribuzione ottenuta. Determinare, inoltre:
a) il numero medio di pezzi difettosi;
b) la deviazione standard;
c) la probabilità di trovare un numero di pezzi difettosi minore o uguale a
μ + 3σ .

Dal problema risulta:


n = 20
10 1
p= =
100 10
1 9
q =1− p =1− =
10 10
154
Si deve, pertanto, calcolare:
Ρ( X ) con 0 ≤ X ≤ 20
A tal proposito, posizionandosi nella cella A1 digitare: n = , in A2: p = , A3:
q = , B1: 20, B2: =1/10 e in B3: =1-B2 (fig. 7.22):

Fig. 7.22 – Inserimento nel foglio elettronico dei dati dell’esempio 7.3

Successivamente posizionarsi nella cella A5 e digitare: X , nella B5: Ρ( X ) ;


nelle celle A6:A26 inserire i numeri da 0 a 20 (fig. 7.23):

Fig. 7.23 – Predisposizione foglio elettronico per il calcolo della densità di proba-
bilità per i dati dell’esempio 7.3

Infine, posizionarsi nella cella B6 e digitare: =DISTRIB.BINOM


(A6;$B$1;$B$2;falso) (fig. 7.24):

155
Fig. 7.24 – Impostazione della formula per il calcolo della densità di probabilità
binomiale per i dati dell’esempio 7.3

A questo punto copiare la formula nelle celle B7:B26 ottenendo il seguente ri-
sultato (fig. 7.25):

Fig. 7.25 – Densità di probabilità binomiale per i dati dell’esempio 7.3

Per realizzare il grafico associato, selezionare le celle B6:B26, aprire il menu


Inserisci e cliccare sulla voce Grafico (fig. 7.26):

156
Fig. 7.26 – Creazione guidata grafico – Passaggio 1 di 4 – Tipo di grafico

Cliccare tra i Tipi standard, il tipo Istogramma, tra le Scelte disponibili man-
tenere il valore di default e premere il pulsante Avanti (fig. 7.27):

Fig. 7.27 – Creazione guidata grafico – Passaggio 2 di 4 – Dati di origine del grafi-
co

157
Selezionare la linguetta Serie e nella casella Etichette asse categoria (X) digi-
tare: A6:A26 per inserire le etichette identificative sull’asse delle ascisse (fig.
7.28):

Fig. 7.28 – Inserimento etichette identificate all’asse delle ascisse

Procedere ancora premendo il pulsante Avanti, nel Titolo del grafico digitare:
Densità di probabilità per il numero di pezzi difettosi (fig. 7.29):

Fig. 7.29 – Creazione guidata grafico – Passaggio 3 di 4 – Opzioni del grafico

Premendo ancora una volta sul pulsante Avanti e selezionando la voce Crea
nuovo foglio (fig. 7.30):

158
Fig. 7.30 – Creazione guidata grafico – Passaggio 4 di 4 – Posizione grafico

si ottiene il grafico desiderato (fig. 7.31):


Densità di probabilità per il numero di pezzi difettosi

0,30

0,25

0,20

0,15

0,10

0,05

0,00
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Fig. 7.31 – Densità di probabilità per il numero di pezzi difettosi

Posizionarsi, adesso, nella cella D2 e digitare media, nella cella D3: dev.st, E2:
=$B$1*$B$2 ed infine in E3: =RADQ($B$1*$B$2*$B$3), ottenendo (fig.
7.32):

Fig. 7.32 – Media e deviazione standard per i dati dell’esempio 7.3

159
Si può facilmente notare che per il calcolo della deviazione standard si è utiliz-
zata la funzione RADQ(num) che restituisce la radice quadrata del numero
positivo inserito tra le parentesi.
La probabilità di ottenere un numero di pezzi difettosi minore o uguale a
μ + 3 σ = 2 + 3 ⋅ 1,34 ≈ 6 , risulta:
x 20 − x
6
⎛ 20 ⎞ ⎛ 1 ⎞ ⎛ 9 ⎞

Ρ( X ≤ 6) = ⎜⎜ ⎟⎟ ⎜ ⎟ ⎜ ⎟
x = 0 ⎝ x ⎠ ⎝ 10 ⎠ ⎝ 10 ⎠
Ci si posizioni nella cella D5 e si digiti: Ρ( X ≤ 6) , nella cella E5:
=DISTRIB.BINOM(6;$B$1;$B$2;vero) (fig. 7.33):

Fig. 7.33 – Calcolo della probabilità di ottenere un numero di pezzi difettosi mino-
re o uguale a 6

3. Distribuzione ipergeometrica

La distribuzione ipergeometrica viene assume rilievo allorché si faccia rife-


rimento alla distribuzione di probabilità associata ad una estrazione senza ripe-
tizione da una popolazione di ampiezza finita N .
Se la popolazione è composta da k elementi di un tipo ed N − k elementi
di un altro tipo, la probabilità di trovare x elementi del primo tipo, da un cam-
pione di numerosità n , è data da:
⎛k ⎞ ⎛ N − k ⎞
⎜⎜ ⎟⎟ ⎜⎜ ⎟
⎝ x ⎠ ⎝ n − x ⎟⎠
Ρ( X = x ) =
⎛N⎞
⎜⎜ ⎟⎟
⎝n⎠
I valori sintetici della distribuzione ipergeometrica, ossia valore medio e
varianza, sono dati da:
⎛k ⎞
μ = E(X ) = n ⎜ ⎟
⎝N⎠
⎛ k ⎞⎛ N −k ⎞⎛ N −n⎞
σ 2 = Var ( X ) = n ⎜ ⎟ ⎜ ⎟⎜ ⎟
⎝ N ⎠ ⎝ N ⎠ ⎝ N −1 ⎠
La corrispondente funzione in Excel, risulta essere:
DISTRIB.IPERGEOM(successi_camp;num_campione;successi_pop;num_popolazione)
dove:

160
- successi_camp è il numero di successi nel campione ( x );
- num_campione è la dimensione del campione ( n );
- successi_pop è il numero di successi nella popolazione ( k );
- num_popolazione è la dimensione della popolazione ( N ).

La parte decimale di tutti gli argomenti viene troncata.


Se un qualsiasi argomento non è numerico, la funzione restituirà il valore di
errore #VALORE!.
Infine, la funzione restituirà il valore di errore #NUM!, se:

- x<0, x>n, x>k ;


- n<0, n > N ;
- k <0, k > N ;
- N < 0.

Esempio 7.4

Un lotto di 100 resistenze viene ispezionato con la seguente modalità: 5 resi-


stenze vengono scelte casualmente e provate per verificare se tutte hanno il va-
lore nominale dichiarato; in tal caso il lotto viene accettato. Qual è la probabili-
tà che il lotto venga accettato se questo contiene 20 resistenze difettose?

Dai dati del problema risulta che: N = 100 , n = 5 , k = 20 .


Poiché il lotto viene accettato solamente se non vi sono resistenze difettose, ciò
significa calcolare la probabilità:
⎛ 20 ⎞ ⎛100 − 20 ⎞
⎜⎜ ⎟⎟ ⎜⎜ ⎟
⎝ 0 ⎠ ⎝ 5 − 0 ⎟⎠
Ρ( X = 0 ) =
⎛100 ⎞
⎜⎜ ⎟⎟
⎝ 5 ⎠
Posizionandosi nella cella A1 e digitare: N = , in A2: n = , A3: k = , B1: 100,
B2: 5 e in B3: 20 (fig. 7.34):

Fig. 7.34 – Inserimento nel foglio elettronico dei dati dell’esempio 7.4

Nella cella A5 digitare: Ρ( X = 0) = e nella B5: =DISTRIB.IPERGEOM


(0;$B$2;$B$3;$B$1) (fig. 7.35):

161
Fig. 7.35 – Calcolo della probabilità di accettazione del lotto

Quindi la probabilità di accettare il lotto sapendo che contiene 20 resistenze di-


fettose è del 32% circa.

4. Distribuzione di Poisson

Si è visto che la distribuzione binomiale viene utilizzata quando:

- un esperimento è costituito da più prove indipendenti;


- il risultato di una prova può essere classificato in due soli modi: successo
e insuccesso;
- la probabilità p di successo è costante per tutte le prove.

Quando, oltre alle precedenti condizioni, si verifica che:

- la probabilità p di successo è molto piccola ( p → 0 );


- il numero n delle prove è molto elevato ( n → ∞ );
- il prodotto n p è una quantità finita.

La distribuzione binomiale può essere approssimata dalla distribuzione di


Poisson con una notevole semplificazione dei calcoli.
La densità di probabilità risulta essere:
λx
Ρ( X = x ) = e−λ
x!
dove:

- e è la base dei logaritmi naturali;


- λ = n ⋅ p è il valor medio.

I valori caratteristici risultano essere:

- valore medio μ = E ( X ) = λ ;

162
- varianza σ 2 = Var ( X ) = λ ;

dai quali si evince che la distribuzione di Poisson dipende da un unico pa-


rametro ( λ ).
Se λ < 1 , il massimo valore di probabilità si ha per x = 0 per il quale risul-
ta Ρ( X = 0) = e − λ , il rapporto al crescere di x risulta minore di 1, quindi la pro-
babilità è decrescente (fig. 7.36):

Fig. 7.36 – Andamento della distribuzione di Poisson con λ <1

Se λ = 1 , si hanno due massimi per x = 0 e x = 1 che valgono rispettiva-


mente Ρ( X = 0) = Ρ( X = 1) = e −1 ; al crescere di x la probabilità è decrescente
(fig. 7.37):

Fig. 7.37 – Andamento della distribuzione di Poisson per λ =1


163
Se λ > 1 , la distribuzione dapprima cresce, raggiunge un massimo, poi de-
cresce più lentamente di quanto sia cresciuta, presentando una simmetria posi-
tiva. Tale asimmetria diminuisce per valori di λ elevati e la distribuzione tende
a divenire simmetrica attorno al valore medio (fig. 7.38):

Fig. 7.38 – Andamento della distribuzione di Poisson per λ >1

La funzione di Excel per il calcolo della densità di probabilità risulta:


POISSON(x;media;cumulativo)
dove:

- x è il numero degli eventi;


- media è il valore numerico previsto ( λ );
- cumulativo è un valore logico che determina la forma per la distribuzione
di probabilità. Se cumulativo è vero, la funzione restituirà la probabilità
cumulativa di Poisson indicante la probabilità che il numero degli eventi
casuali sia compreso tra zero e x inclusi. Se cumulativo è falso, verrà re-
stituita la funzione massa di probabilità di Poisson indicante la probabilità
che il numero di eventi sia esattamente pari a x .

Se x non è un numero intero, la parte decimale verrà troncata.


Se x o media non è un valore numerico, la funzione restituirà il valore di
errore #VALORE!.
Se x ≤ 0 e/o λ ≤ 0 , la funzione restituirà il valore di errore #NUM!.

164
Esempio 7.5

Il 4% delle lampadine prodotte da una ditta risultano difettose; qual è la proba-


bilità che in una scatola contenente 50 lampadine ve ne siano 2 difettose?

Dai dati del problema risulta: n = 50 e p = 0,04 . Quindi:


λ = n ⋅ p = 50 ⋅ 0,04 = 2
La probabilità da calcolare è quindi:
22 − 2
Ρ( X = 2 ) = e
2!
Posizionandosi nella cella A1 digitare: n = , in A2: p = , A3: λ = , B1: 50, B2:
0,04 e in B3: =$A$1*$A$2 (fig. 7.39):

Fig. 7.39 – Inserimento nel foglio elettronico dei dati dell’esempio 7.5

Nella cella A5 digitare: Ρ( X = 2 ) = e nella B5: =POISSON(2;$B$3;falso) (fig.


7.40):

Fig. 7.40 – Calcolo della probabilità per l’esempio 7.5

Quindi, vi è una probabilità di circa il 27% che presa a caso una scatola di 50
lampadine ve ne siano due difettose.

Esempio 7.6

Una ditta deve provvedere ad assumere operai specializzati per il servizio ma-
nutenzione tenendo conto del numero di interventi che devono essere effettuati.
Se in un periodo di 45 giorni lavorativi (di 8 ore giornaliere) si sono contati 180
interventi, calcolare ogni quante ore ci si aspetta di dover effettuare, in un pe-
riodo di un’ora:
a) almeno un intervento;
b) almeno 3 interventi.

Le ore lavorative sono:


165
n = 45 ⋅ 8 = 360
pertanto il numero medio di interventi in un’ora è di:
180
λ= = 0,5
360
La probabilità che venga richiesto almeno un intervento in un’ora è:
Ρ( X ≥ 1) = 1 − Ρ( X < 1) = 1 − Ρ( X = 0)
mentre, la probabilità che si verifichino almeno 3 richieste di intervento in
un’ora è:
Ρ( X ≥ 3) = 1 − Ρ( X ≤ 2 ) =
Posizionarsi nella cella A1 e digitare: n = , in A2: λ = , B1: =45*8, B2:
=180/$B$1 (fig. 7.41):

Fig. 7.41 – Inserimento nel foglio elettronico dei dati dell’esempio 7.6

Nella cella A5 digitare: Ρ( X ≥ 1) = , B5: =1-POISSON(0;$B$2;vero), A7:


Ρ( X ≥ 3) = e nella cella B7: =1-POISSON(2;$B$2;vero) (fig. 7.42):

Fig. 7.42 – Calcolo delle probabilità per l’esempio 7.6

Quindi, il periodo in ore in cui ci si aspetta almeno un intervento è:


1
= 2,54 ore
0,39
mentre, il periodo in ore in cui ci si aspetta che si verifichino almeno 3 richieste
di intervento:
1
= 71,4 ore
0,014

5. Distribuzione normale

La distribuzione continua di gran lunga più utilizzata è la distribuzione


normale.

166
Questa distribuzione fu individuata per la prima volta da De Moivre nel
1733 come mezzo per da una valutazione approssimata della densità di proba-
bilità binomiale.
In seguito fu riscoperta da Gauss nel 1809 nell’ambito della teoria degli er-
rori e per tale motivo è spesso indicata come distribuzione di Gauss o distribu-
zione degli errori accidentali.
Il termine distribuzione normale deriva dalla convinzione, peraltro non del
tutto corretta, che i fenomeni sperimentali fisici e biologici abbiano una distri-
buzione di frequenza che si adatta bene a questa distribuzione teorica.
Il termine distribuzione degli errori accidentali deriva dal fatto che risulta
plausibile l’ipotesi che gli errori accidentali o casuali, commessi effettuando
misure ripetute, si distribuiscono secondo tale modello.
In ogni caso, questa distribuzione, è particolarmente importante sia perché
risulta utile in numerose applicazioni pratiche, sia perché può sovente essere
utilizzata come distribuzione limite in quanto è una distribuzione alla quale
tendono, sotto condizioni abbastanza generali, altre distribuzioni.
La funzione di probabilità della distribuzione normale risulta essere:
2
1 ⎛ x−μ ⎞
1 − ⎜ ⎟
f (x ) = e 2⎝ σ ⎠

σ 2π
mentre il grafico (fig. 7.43):

1
σ 2π

1
σ 2π e

μ −σ μ +σ
Fig. 7.43 – Funzione di probabilità della distribuzione normale

Dallo studio della funzione di probabilità normale si possono evidenziare le


seguenti caratteristiche:

167
- la curva è simmetrica rispetto alla retta x = μ ;
⎛ 1 ⎞
- ha un massimo nel punto ⎜⎜ μ , ⎟;

⎝ σ 2π ⎠
- quanto più x si allontana da μ tanto più la curva decresce e tende asinto-
ticamente a zero;
⎛ 1 ⎞ ⎛ 1 ⎞
- ha due flessi nei punti ⎜ μ − σ , ⎟ e ⎜μ +σ, ⎟.
⎜ σ 2 π e ⎟ ⎜ σ 2 π e ⎟
⎝ ⎠ ⎝ ⎠

Sovente il valor medio μ viene chiamato centro della distribuzione e carat-


terizza la posizione della curva sull’asse delle ordinate: al variare di μ la curva
si sposta lungo l’asse delle x , rimanendo invariata nella forma (fig. 7.44):

μ1 < μ2 < μ3

μ2 μ3
Fig. 7.44 – Modificazioni della curva normale al variare di μ, σ costante

Il parametro σ , invece, caratterizza la forma della curva. Al crescere di σ


la curva si appiattisce e si allarga, mentre al diminuire di σ la curva si restrin-
ge e si alza (fig. 7.45):
σ1 < σ 2 < σ 3

σ1

σ2

σ3

μ
Fig. 7.45 – Modificazioni della curva normale al variare di σ, μ costante

168
La funzione predisposta in Excel per il calcolo della funzione di probabilità
normale è:
DISTRIB.NORM(x;media;dev_standard;cumulativo)
dove:

- x è il valore per il quale si desidera la distribuzione;


- media è la media aritmetica della distribuzione ( μ );
- dev_standard è la deviazione standard della distribuzione ( σ );
- cumulativo è un valore logico che determina la forma assunta dalla fun-
zione. Se cumulativo è vero, DISTRIB.NORM restituirà la funzione di
distribuzione cumulativa:
2
x 1 ⎛ u −μ ⎞
1 − ⎜ ⎟
Ρ( X ≤ x ) = ∫σ e 2⎝ σ ⎠
du
−∞

graficamente (fig. 7.46):

Ρ( X ≤ x )

x
Fig. 7.46 – Funzione di distribuzione cumulativa normale

se, invece, è falso restituirà la funzione massa di probabilità:


2
1 ⎛ x −μ ⎞
1 − ⎜ 0 ⎟
Ρ( X = x0 ) = e 2⎝ σ ⎠

σ 2π
graficamente (fig. 7.47):

169
Ρ( X = x0 )

x0
Fig. 7.47 – Funzione massa di probabilità normale

Se μ o σ non sono valori numerici, la funzione restituirà il valore di erro-


re #VALORE!.
Se σ ≤ 0 , la funzione restituirà il valore di errore #NUM!.
Per risolvere alcuni problemi applicativi, può essere necessario ricorrere al
calcolo dell’inversa della distribuzione normale cumulativa:
2
x0 1 ⎛ u−μ ⎞
1 − ⎜ ⎟
Ρ ( X ≤ xo ) = ∫σ e 2⎝ σ ⎠
du = α
−∞ 2π
graficamente (fig. 7.48):

Ρ ( X ≤ x0 ) = α

x0
Fig. 7.48 – Inversa della distribuzione normale cumulativa

170
In Excel, la funzione ha sintassi:
INV.NORM(probabilità;media;dev_standard)
dove:

- probabilità è la probabilità corrispondente alla distribuzione normale


( α );
- media è la media aritmetica della distribuzione ( μ );
- dev_standard è la deviazione standard della distribuzione ( σ );

Se un qualsiasi argomento non è numerico, la funzione restituirà il valore di


errore #VALORE!.
Se α < 0 o α > 1 , la funzione restituirà il valore di errore #NUM!.
Se σ ≤ 0 , la funzione restituirà il valore di errore #NUM!.
INV.NORM utilizza una tecnica iterativa per il calcolo della funzione. Da-
to un valore di probabilità, la funzione applica il metodo delle iterazioni fino a
quando la precisione del risultato non rientra nel valore ± 3 ⋅ 10−7 . Se il risultato
non converge dopo 100 iterazioni, la funzione restituirà il valore di errore
#N/D.

Esempio 7.7

Una macchina produce tondini metallici il cui diametro è una variabile nor-
malmente distribuita con media 6 cm e deviazione standard 0,2 cm. Si vuole
determinare la probabilità che il diametro di un tondino differisca dal valore
medio (in più o in meno) almeno 0,5 cm.

Dai dati del problema si sa che: μ = 6 , σ = 0,2 .


La probabilità da calcolare è:
Ρ( X ≤ 5,5 ; X > 6,5)
graficamente (fig. 7.49):

5,5 6 6,5
Fig. 7.49 – Ρ( X ≤ 5,5 ; X > 6,5)

171
Utilizzando le proprietà della funzione di Excel, ciò equivale a calcolare:
Ρ( X ≤ 5,5 ; X > 6,5) = Ρ( X ≤ 5,5) + Ρ( X > 6,5) = Ρ( X ≤ 5,5) + [1 − Ρ( X ≤ 6,5)]
Posizionandosi nella cella A1 digitare: μ = , A2: σ = , B1: 6, B2: 0,2 (fig.
7.50):

Fig. 7.50 – Inserimento nel foglio elettronico dei dati dell’esempio 7.7

Quindi, nelle celle B4: Ρ( X ≤ 5,5) = , B6: Ρ( X ≤ 6,5) = , B8:


Ρ( X ≤ 5,5 ; X > 6,5) = e nelle celle C4: =DISTRIB.NORM
(5,5;$B$1;$B$2;vero), C6: =DISTRIB.NORM(6,5;$B$1;$B$2;vero), C8:
=$C$4+(1-$C$6) (fig. 7.51):

Fig. 7.51 – Calcolo della probabilità Ρ( X ≤ 5,5 ; X > 6,5)

Quindi, vi è circa 1,24% di probabilità che un tondino differisca dal valore me-
dio (in più o in meno) almeno di 0,5 cm.

Esempio 7.8

Una macchina produce un tipo di catene per bicicletta con lunghezza normal-
mente distribuita, con media pari a 150 cm e deviazione standard pari a 3 cm.
Per un certo tipo di biciclette si richiede che le catene abbiano lunghezza com-
presa tra 154 ± 2 cm, in caso contrario la catena, prima di poter essere utilizza-
ta, deve essere modificata.
Qual è la percentuale di catene prodotte dalla macchina che vengono utilizzate
senza essere modificate?
Se la macchina viene regolata in modo che la lunghezza delle catene abbia me-
dia pari a 154 cm (la deviazione standard rimane costante), qual è la percentua-
le di catene utilizzate senza modifiche? È conveniente la nuova regolazione?

172
Dal problema si conosce: μ = 150 , σ = 3 .
Si deve determinare Ρ(152 ≤ X ≤ 156) , cioè:
Ρ(152 ≤ X ≤ 156) = Ρ( X ≤ 156 ) − Ρ( X ≤ 152 )
Posizionandosi nella cella A1 digitare: μ = , A2: σ = , B1: 150, B2: 3 (fig.
7.52):

Fig. 7.52 – Inserimento nel foglio elettronico dei dati dell’esempio 7.8

Quindi, nelle celle B4: Ρ( X ≤ 152 ) = , B6: Ρ( X ≤ 156 ) = , B8:


Ρ(152 ≤ X ≤ 156) = e nelle celle C4: =DISTRIB.NORM(152;$B$1;$B$2;vero),
C6: =DISTRIB.NORM(156;$B$1;$B$2;vero), C8: =$C$6-$C$4 (fig. 7.53):

Fig. 7.53 – Calcolo della probabilità Ρ(152 ≤ X ≤ 156)

Vi è circa il 23% di probabilità che le catene prodotte dalla macchina vengano


utilizzate senza essere modificate.
Per calcolare la stessa probabilità nel caso della nuova regolazione, posizionar-
si nella cella D1 e digitare: μ = , D2: σ = , E1: 154, E2: 3 (fig. 7.54):

Fig. 7.54 – Inserimento nel foglio elettronico delle nuove regolazioni

Quindi, nelle celle E4: =DISTRIB.NORM(152;$E$1;$E$2;vero), E6:


=DISTRIB.NORM(156;$E$1;$E$2;vero), E8: =$E$6-$E$4 (fig. 7.55):

173
Fig. 7.55 – Calcolo della probabilità Ρ(152 ≤ X ≤ 156) con la nuova regolazione

Poiché il calcolo della probabilità risulta del 49,50%, la nuova regolazione ri-
sulta senz’altro conveniente.

Esempio 7.9

Si vuole stimare la media e la deviazione standard di un processo produttivo


per la produzione un particolare meccanico sapendo che le tolleranze dimen-
sionali devono essere comprese tra 429 ± 1 mm.

Per determinare quanto richiesto dal problema si utilizzi la formula:


⎧ (LIT ⋅ zLST ) − (LST ⋅ zLIT )
⎪μˆ = z LST − z LIT
⎪⎪

⎪ LST − LIT
⎪σˆ =
⎪⎩ z LST − z LIT
dove:

- LIT è il limite inferiore di tolleranza (o specifica);


- LST è il limite superiore di tolleranza (o specifica);
- LIT p0 è la percentuale di difetti ammessi a sinistra di LIT ;
- LST p0 è la percentuale di difetti ammessi a destra di LST ;
- z LIT , z LST sono scarti standardizzati.

La determinazione degli scarti standardizzati avviene utilizzando la funzione di


Excel che restituisce l’inversa della distribuzione normale cumulativa (fig.
7.56):

174
LIT p0 LST p0

z LIT zLST

LIT LST
Fig. 7.56 – Inversa della distribuzione normale cumulativa per i dati dell’esempio
7.9

A tal proposito posizionare il cursore nella cella A1 e digitare: Limite inferiore


di tolleranza (LIT), A2: Limite superiore di tolleranza (LST), E1: =429-1 e in
cella E2: =429+1 (fig. 7.57):

Fig. 7.57 – Inserimento nel foglio elettronico dei dati dell’esempio 7.9

Nelle celle A5, B5, C5, D5, F5 e G5 rispettivamente: LIT p0 , z LIT , LST p0 ,
z LST , μ e σ (fig. 7.58):

Fig. 7.58 – Predisposizione del foglio elettronico per il la stima dei parametri di
processo

Nelle celle A6:A17 e C6:C17 inserire rispettivamente i valori: 0,05%, 0,10%,


0,20%, 0,30%, 0,40%, 0,50%, 0,60%, 0,70%, 0,80%, 0,90%, 0,95%, 0,99%.
Nella cella B6 inserire: =INV.NORM(A6;0;1), mentre nella cella D6:
=INV.NORM(1-C6;0;1). Copiare tali formule fino alla riga 17 ottenendo il se-
guente risultato (fig. 7.59):

175
Fig. 7.59 – Predisposizione del foglio elettronico per il calcolo degli scarti stan-
dardizzati

Infine, per il calcolo delle stime dei parametri di processo, posizionarsi nella
cella F6 e digitare: =(($E$1*D6)-($E$3*B6))/(D6-B6), mentre nella cella G6:
=($E$3-$E$1)/(D6-B6), quindi copiare le formule fino alle celle F17 e G17
(fig. 7.60):

Fig. 7.60 – Predisposizione del foglio elettronico per il calcolo delle stime dei pa-
rametri di processo per i dati dell’esercizio 7.9

176
Come si può facilmente osservare, al variare dei parametri LIT p0 e LST p0 , la
stima della media ( μ̂ ) rimane costante, mentre invece la stima della deviazione
standard ( σ̂ ) aumenta all’aumentare delle percentuali di pezzi difettosi ammes-
si a sinistra e a destra delle tolleranze.

6. Altre distribuzioni

Oltre alla distribuzione normale esistono molte altre distribuzioni di proba-


bilità continue alcune delle quali particolarmente importanti dal punto di vista
applicativo.
In questo paragrafo si prenderanno in considerazione la distribuzione χ 2 ,
la distribuzione t di Student e la distribuzione F.
La applicazioni relative a tali distribuzioni saranno argomenti di capitoli
successivi; in questo contesto vengono presentate le funzioni di Excel relative a
tali distribuzioni.

6.1. Distribuzione χ 2

Una distribuzione continua che in statistica trova numerose ed interessanti


applicazioni è la distribuzione χ 2 studiata dal matematico inglese Pearson.
Si considerino ν variabili Z1 , Z 2 , …, Zν , indipendenti e distribuite se-
condo una legge normale con media 0 e varianza 1; si può dimostrare che:
Z12 + Z 22 + … + Zν2
ha una distribuzione χ 2 con ν gradi di libertà.
Le caratteristiche fondamentali di questa distribuzione sono:

- l’asimmetria;
- la dipendenza da un parametro intero ν ;
- la non negatività della funzione in quanto somma di quadrati.

La funzione di probabilità risulta alquanto complessa; al variare di ν esi-


stono infinite distribuzioni χ 2 fig. (7.61):

177
ν =2
ν =3

ν =6

Fig. 7.61 – Andamento della distribuzione χ2 al variare di ν

In Excel, la distribuzione può essere calcolata utilizzando la funzione:


DISTRIB.CHI(x;gradi_libertà)
dove:

- x è il valore in cui si desidera calcolare la distribuzione;


- gradi_libertà è il numero di gradi di libertà (ν ).

Se uno degli argomenti non è numerico, la funzione restituirà il valore di


errore #VALORE!.
Se x < 0 , la funzione restituirà il valore di errore #NUM!.
Se gradi_libertà non è un numero intero, la parte decimale verrà troncata.
Se gradi_libertà è minore di 1 o maggiore o uguale a 1010 , la funzione re-
stituirà il valore di errore #NUM!.
La funzione viene calcolata come DISTRIB.CHI = Ρ( X > x ) , dove X è
una variabile χ 2 .
Come nel caso della distribuzione normale, in Excel è disponibile la fun-
zione:
INV.CHI(probabilità;gradi_libertà)
che restituisce l'inversa della distribuzione a una coda del χ 2 .
In questo caso probabilità è la probabilità associata alla distribuzione del
χ .
2

Se un qualsiasi argomento non è numerico, la funzione restituirà il valore di


errore #VALORE!.

178
Se probabilità è minore di 0 o maggiore di 1, la funzione restituirà il valo-
re di errore #NUM!.
Se gradi_libertà non è un numero intero, la parte decimale verrà troncata.
Se gradi_libertà è minore di 1 o maggiore o uguale a 1010 , la funzione re-
stituirà il valore di errore #NUM!.
INV.CHI utilizza una tecnica iterativa per il calcolo della funzione. Dato
un valore di probabilità, la funzione applica il metodo delle iterazioni fino a
quando la precisione del risultato non rientra nel valore ± 3 ⋅ 10−7 . Se il risultato
di INV.CHI non converge dopo 100 iterazioni, la funzione restituirà il valore
di errore #N/D.

6.2. Distribuzione t di Student

Un’altra distribuzione continua che trova numerose applicazioni in statisti-


ca è quella ideata dal chimico inglese Gosset, sotto lo pseudonimo di Student.
Si considerino due variabili indipendenti:

- Z distribuita normalmente con media 0 e varianza 1;


- Y distribuita secondo un χ 2 con ν gradi di libertà.

Si può dimostrare che la variabile:


Z
Τ=
Y
ν
segue una distribuzione t di Student con ν gradi di libertà.
Le caratteristiche fondamentali di questa distribuzione sono:

- è simmetrica rispetto al valor medio μ = 0 ;


- dipende da un parametro intero ν ;
- tende alla distribuzione normale all’aumentare del valore ν (ν → ∞ );
- per ogni valore di ν si ha una diversa distribuzione.

L’andamento di questa distribuzione è riportato in fig. 7.62 per diversi va-


lori di ν .

179
ν = 12

ν =5

ν =1

Fig. 7.62 – Andamento della distribuzione t di Student al variare di ν

In Excel, la distribuzione risulta essere:


DISTRIB.T(x;gradi_libertà;coda)
dove:

- x è il valore numerico in cui calcolare la distribuzione;


- gradi_libertà è un intero che indica il numero di gradi di libertà (ν );
- coda specifica il numero di code di distribuzione da restituire. Se coda =
1, la funzione restituirà la distribuzione a una coda. Se coda = 2, DI-
STRIB.T restituirà la distribuzione a due code.

Se un qualsiasi argomento non è numerico, la funzione restituirà il valore di


errore #VALORE!.
Se gradi_libertà è minore di 1, la funzione restituirà il valore di errore
#NUM!.
La parte decimale di gradi_libertà e coda viene troncata.
Se coda è un valore diverso da 1 o 2, la funzione restituirà il valore di erro-
re #NUM!.
La funzione viene calcolata come DISTRIB.T = Ρ( X > x ) , dove X è una
variabile che segue la distribuzione t .
Anche in questo caso è disponibile la funzione che restituisce il valore t
della distribuzione t di Student come funzione della probabilità e dei gradi di
libertà:
INV.T(probabilità;gradi_libertà)
dove probabilità è la probabilità associata alla distribuzione t di Student
a due code.

180
Se un qualsiasi argomento non è numerico, la funzione restituirà il valore di
errore #VALORE!.
Se probabilità è minore di 0 o maggiore di 1, INV.T restituirà il valore di
errore #NUM!.
Se gradi_libertà non è un numero intero, la parte decimale verrà troncata.
Se gradi_libertà è minore di 1, la funzione restituirà il valore di errore
#NUM!.
La funzione viene calcolata come INV.T = Ρ( X > t ) , dove X è una varia-
bile che segue la distribuzione t .
È possibile restituire un valore t a una coda sostituendo probabilità con
2*probabilità.
INV.T utilizza una tecnica iterativa per il calcolo della funzione. Dato un
valore di probabilità, la funzione applica il metodo delle iterazioni fino a quan-
do la precisione del risultato non rientra nel valore ± 3 ⋅ 10−7 . Se il risultato di
INV.T non converge dopo 100 iterazioni, la funzione restituirà il valore di er-
rore #N/D.

6.3. Distribuzione F di Snedecor-Fisher

Distribuzione utilizzata per confrontare il grado di variabilità di due insie-


me di dati; inoltre, fondamentale importanza assume nello studio dell’analisi
della varianza (ANOVA).
Si considerino due variabili X 1 ed X 2 distribuite come due χ 2 con, ri-
spettivamente, ν 1 e ν 2 gradi di libertà.
Si può dimostrare che, la variabile:
X1
ν1
F=
X2
ν2
ha come distribuzione una F con ν 1 e ν 1 gradi di libertà.
In Excel, la corrispondente funzione, ha sintassi:
DISTRIB.F(x;gradi_libertà1;gradi_libertà2)
dove:

- x è il valore in cui calcolare la funzione;


- gradi_libertà1 sono i gradi di libertà al numeratore (ν 1 );
- gradi_libertà2 sono i gradi di libertà al denominatore (ν 1 ).

181
Se un qualsiasi argomento non è un valore numerico, la funzione restituirà
il valore di errore #VALORE!.
Se x è un valore negativo, DISTRIB.F restituirà il valore di errore
#NUM!.
Se gradi_libertà1/gradi_libertà2 non è un numero intero, la parte decima-
le verrà troncata.
Se gradi_libertà1/gradi_libertà2 è minore di 1 o maggiore o uguale a
10
10 , la funzione restituirà il valore di errore #NUM!.
La funzione è calcolata come DISTRIB.F = Ρ( X > F) , dove F è una varia-
bile associata a una distribuzione F .
Infine, la funzione:
INV.F(probabilità;gradi_libertà1;gradi_libertà2)
restituisce l'inversa della distribuzione di probabilità F .
Se p = DISTRIB.F(x;...), si avrà INV.F(p;...) = x.
Se un qualsiasi argomento non è un valore numerico, la funzione restituirà
il valore di errore #VALORE!.
Se probabilità è minore di 0 o maggiore di 1, INV.F restituirà il valore di
errore #NUM!.
Se gradi_libertà1/gradi_libertà2 non è un numero intero, la parte decima-
le verrà troncata.
Se gradi_libertà1/gradi_libertà2 è minore di 1 o maggiore o uguale a
10
10 , la funzione restituirà il valore di errore #NUM!.
La funzione INV.F può essere utilizzata per restituire i valori critici della
distribuzione F ; ciò risulta particolarmente importante nel calcoli dell’analisi
della varianza.
INV.F utilizza una tecnica iterativa per il calcolo della funzione. Dato un
valore di probabilità, la funzione applica il metodo delle iterazioni fino a quan-
do la precisione del risultato non rientra nel valore ± 3 ⋅ 10−7 . Se il risultato di
INV.F non converge dopo 100 iterazioni, la funzione restituirà il valore di er-
rore #N/D.

182
8. Inferenza statistica parametrica

1. Generalità

Talvolta motivi di contenimento del costo di un’indagine statistica, la ne-


cessità di abbreviare i tempi di svolgimento della stessa o altri motivi di oppor-
tunità consigliano di limitare l’indagine ad un campione, ossia ad una parte ra-
ppresentativa dell’intero collettivo da indagare (popolazione).
Atteso che si sia interessati ad ottenere risultati che si riferiscono all’intera
popolazione, nel caso di un’indagine campionaria, si pone il problema di valu-
tare se ed in quale misura i risultati ottenuti possono essere generalizzati
all’intera popolazione dalla quale il campione è stato ricavato.
L’inferenza statistica è quel complesso di metodi statistici, fondati sul cal-
colo delle probabilità, tendenti a valutare in che misura i risultati di
un’indagine campionaria possono essere utilizzati per l’intera popolazione dal-
la quale il campione è stato ricavato.
In altre parole, poiché, un’indagine campionaria non può che fornire risul-
tati che sono approssimativamente validi per l’intera popolazione, i metodi
dell’inferenza statistica consentono di precisare a posteriori i margini di tale
approssimazione, oppure di programmare a priori l’articolazione ed il dimen-
sionamento ottimale dell’indagine campionaria che consentano di ottenere i
suddetti margini di approssimazione entro limiti accettabili sotto il profilo pra-
tico.
I principali problemi inferenziali possono ricondursi ad uno dei seguenti tre
tipi:

a) stima dei parametri;


b) verifica di ipotesi sui parametri;
c) verifica di altre ipotesi.

I problemi di tipo a) e b) si dicono anche problemi inferenziali parametrici,


in quanto sulla base delle risultanze campionarie essi tendono a valutare i pa-

183
rametri che caratterizzano la distribuzione del carattere nella popolazione o a
vagliare delle congetture a priori sul valore di tali parametri.
I problemi di tipo c) si dicono problemi inferenziali non parametrici in
quanto attengono ad aspetti della distribuzione del carattere nella popolazione
non suscettibili di essere espressi dai parametri che compaiono nella forma fun-
zionale di tale distribuzione.
Della stima dei parametri si suole distinguere:

- stima puntuale dei parametri;


- stima intervallare dei parametri (intervalli di confidenza);
- dimensione del campione.

2. Stima puntuale dei parametri

Sia θ un parametro incognito della distribuzione di un carattere in una de-


terminata popolazione.
Il problema della stima puntuale consiste nella migliore valutazione di θ
ottenibile sulla base delle osservazioni campionarie, sintetizzate da
un’opportuna statistica. Tale statistica viene generalmente chiamata stimatore
del parametro θ .

2.1. Stima puntuale di una media

Il problema della stima puntuale di una media consiste nel valutare da un


campione il valore μ della popolazione.
Risulta ragionevole, quanto ovvio, stimare μ mediante il valore medio del
campione:
n
xi
x= ∑i =1 n
A questo valore si associa lo scarto quadratico medio delle medie dei cam-
pioni, detto errore medio di campionamento (errore standard della media), che
è dato da:
σ
SEμ =
n
Per calcolare lo scarto quadratico medio da associare al valore medio x
per valutare la dispersione delle medie campionarie da μ , bisogna conoscere la
varianza della popolazione ( σ 2 ), poiché non è nota in quanto si ha a disposi-
zione solo un campione di n elementi, si deve utilizzare una stima (varianza
campionaria corretta) data da:

184
n
(xi − x )2
sc2 = ∑n −1
i =1
Sostituendo nella formula dell’errore standard il valore della varianza
campionaria corretta al posto di σ 2 , si ottiene:
^ sc
SE x =
n −1
Per rendere minore l’errore medio di campionamento e avere quindi una
stima più precisa, occorre aumentare il numero di elementi del campione ( n );
poiché sc è inversamente proporzionale alla n , per dimezzare l’errore stan-
dard occorre quadruplicare la dimensione del campione.

Esempio 8.1

Un campione casuale di lampadine, estratto da una produzione di 2.000 lampa-


dine e sottoposto ad una prova di durata, ha presentato una durata media di 800
ore. Da esperienze precedenti si sa che lo scarto quadratico medio della durata
delle lampadine prodotte è di 120 ore.
Si vuole stimare l’errore medio di campionamento nei casi in cui:
a) il campione sia di 10 lampadine;
b) il campione sia di 100 lampadine.

Dal problema si sa che: x = 800 e σ = 120 .


Posizionandosi nella cella A1 digitare: x medio =, in A2: σ = , B1: 800, B2:
120 (fig. 8.1):

Fig. 8.1 – Inserimento nel foglio elettronico dei dati dell’esempio 8.1

Successivamente posizionarsi nella cella A4 e digitare: n e nelle celle B4 e C4


10 e 100. Nella cella A6: SE , nella cella B6: =$B$2/RADQ(B4); copiare tale
formula nella cella C6, ottenendo il seguente risultato (fig. 8.2):

Fig. 8.2 – Errore standard per i dati dell’esempio 8.1

185
Si nota immediatamente che con un campione di 100 lampadine il possibile er-
rore medio di campionamento è meno di un terzo di quello chi si ha conside-
rando un campione di 10 elementi.

2.2. Stima puntuale di una frequenza

Il problema della stima puntuale di una frequenza consiste nel valutare


quante unità di una popolazione posseggono una certa caratteristica, oppure
quale frazione della popolazione gode di un certo attributo.
Per stimare il parametro della popolazione:
K
p=
N
si calcola il valore della frequenza relativa del campione:
x
f =
n
L’errore standard della frequenza risulta essere:
p (1 − p )
SE p =
n
Ovviamente essendo p ignoto, si stima l’errore standard della frequenza
sostituendo nella precedente formula f al posto di p , ottenendo:
^ f (1 − f )
SE f =
n
Anche per l’errore standard della frequenza si può ottenere una stima più
accurata aumentando il numero n degli elementi che compongono il campione.

2.3. Stima puntuale di una differenza tra medie

Si estraggano due campioni, il primo di n1 elementi da una popolazione di


N1 elementi e il secondo di n2 elementi da una popolazione di N 2 elementi.
Si indichi con μ1 e μ 2 le medie del carattere oggetto di studio nelle due
popolazioni e con σ 12 e σ 22 le rispettive varianze.
Da due campioni di determinano le rispettive medie aritmetiche:
n1
x1i
x1 = ∑
i =1 n1
n2
x2i
x2 = ∑n
i =1 2
Per stimare la differenza tra le medie delle due popolazioni:

186
μ1 − μ 2
si utilizzano le medie campionarie:
x1 − x2
associato ad un errore standard dato da:
σ 12 σ 22
SEμ1 − μ 2 = +
n1 n2
Nel caso in cui σ 12 e σ 22 siano ignoti, indicando con:
n1
(x1i − x1 )2
s12c = ∑
i =1 n1 − 1
n2
(x2i − x2 )2
s22c = ∑
n2 − 1
i =1
le varianze campionarie corrette del primo e del secondo campione rispet-
tivamente, la stima dell’errore standard risulta essere:
^ s12c s2
SE x1 − x2 = + 2c
n1 − 1 n2 − 1

Esempio 8.2

Da un lotto di 2.000 anelli metallici è stato estratto un campione di 100 anelli


che presentava un diametro medio di 24 mm con una deviazione standard di 1,5
mm. Da un altro lotto di 3.000 anelli è stato estratto un campione di 200 anelli
che presentava un diametro medio di 22 mm con una deviazione standard di 2
mm. Si vuole stimare l’errore standard per la differenza tra le medie dei due
lotti.

Dal problema risulta che: N1 = 2000 , n1 = 100 , x1 = 24 , s1 = 1,5 , N 2 = 3000 ,


n2 = 200 , x2 = 22 , s 2 = 2 .
Posizionandosi nella cella A1 digitare: N1 = , in A2: n1 = , A3: media1=, A4:
dev.st1=, B1: 2000, B2: 100, B3: 24, B4: 1,5, D1: N 2 = , D2: n2 = , D3: me-
dia2=, D4: dev.st2=, E1: 3000, E2: 200, E3: 22, E4: 2 (fig. 8.3):

Fig. 8.3 – Inserimento nel foglio elettronico dei dati dell’esempio 8.2

187
Successivamente posizionarsi nella cella A6 e digitare: errore standard della
differenza tra le medie e nella cella F6: =RADQ(($B$4)^2/($B$2-
1)+($E$4^2)/($E$2-1)), ottenendo il seguente risultato (fig. 8.4):

Fig. 8.4 – Errore standard per i dati dell’esempio 8.2

Pertanto, si può affermare che si stima la differenza tra i diametri dei due lotti
di 2 mm, con un errore standard di 0,20 mm.

Esempio 8.3

Nella produzione di 800 oggetti con una macchina (A) si sono riscontrati 60
pezzi difettosi; con un’altra macchina (B) i pezzi difettosi, fra i 1000 prodotti,
sono stati 70. Stimare l’errore standard per la differenza fra le frazioni di pezzi
difettosi delle due macchine.

Dal problema risulta che: nA = 800 , f A = 60 / 800 , nB = 1000 , f B = 70 / 1000 .


Per il calcolo dell’errore standard richiesto, utilizzando le relazioni preceden-
temente introdotte, si ha che:
^ f A (1 − f A ) f B (1 − f B )
SE f A − f B = +
nA nB
Posizionandosi nella cella A1 digitare: n A = , A2: f A = , B1: 800; B2:
=60/$B$1, D1: nB = , D2: f B = , E1: 1000; E2: =70/$E$1 (fig. 8.5):

Fig. 8.5 – Inserimento nel foglio elettronico dei dati dell’esempio 8.3

Successivamente posizionarsi nella cella A6 e digitare: errore standard della


differenza tra le frazioni di pezzi difettosi e nella cella F6: =RADQ($B$2*(1-
$B$2)/$B$1+E2*(1-$E$2)/$E$1), ottenendo il seguente risultato (fig. 8.6):

Fig. 8.6 – Errore standard per i dati dell’esempio 8.3

188
3. Intervalli di confidenza

3.1. Generalità

I metodi di stima puntuale forniscono, per i parametri stimati, un unico va-


lore e non offrono alcuna informazione sulla precisione di tale valore.
Per questo motivo sovente si preferisce utilizzare stime intervallari che for-
niscono un intervallo di possibili valori.
Il metodo delle stime intervallari, dovuto a Neyman, permette di determina-
re, sulla base delle osservazioni campionarie, un intervallo detto intervallo di
confidenza, entro il quale di trova, con una prefissata probabilità detta livello di
confidenza ( 1 − α ), il vero ed ignoto parametro θ da stimare.
Scelto lo stimatore ( T ), poiché si conosce la sua distribuzione di probabili-
tà, è possibile determinare due valori (critici) tc' e tc" , tali che:
( )
Ρ tc' ≤ T ≤ tc" = 1 − α
Poiché T è funzione solamente di θ , si può risolvere la disuguaglianza in
funzione di θ ottenendo:
(
Ρ θ ' ≤θ ≤θ " =1−α )
dove θ ' e θ " sono i limiti dell’intervallo di confidenza. α è detto livello di
significatività e rappresenta la probabilità che il parametro θ non sia compreso
nell’intervallo ( θ ' , θ " ), ovvero la probabilità di compiere un errore affermando
che il valore del parametro θ è compreso nell’intervallo ( θ ' , θ " ).

3.2. Intervallo di confidenza per la media

Si consideri il caso in cui il parametro da stimare è la media aritmetica del-


la popolazione ( μ ). Il problema consiste nella individuazione, sulla base delle
osservazioni campionarie opportunamente sintetizzate da una statistica, di un
intervallo, detto intervallo di confidenza, il quale con prefissato livello di confi-
denza potrebbe essere uno dei possibili intervalli casuali che includono la vera
ed ignota media μ della popolazione.
Nel risolvere questo problema si considereranno i seguenti casi:

- carattere della popolazione normalmente distribuito con varianza nota;


- carattere della popolazione normalmente distribuito con varianza ignota.

189
3.2.1. Popolazione normalmente distribuita con varianza nota

Sia x1 , x2 , …, xn un campione casuale estratto da una popolazione nor-


malmente distribuita con media μ e varianza σ 2 ; la statistica media campio-
naria X ha distribuzione di probabilità normale con media μ e varianza
σ2 /n .
In virtù di una proprietà della distribuzione normale la variabile:
x−μ
Z=
σ
n
segue una distribuzione normale standardizzata (media 0 e varianza 1).
Fissato il valore α , è possibile determinare due valori − zc e zc , detti valo-
ri critici, tali che:
Ρ(− zc ≤ Z ≤ zc ) = 1 − α
graficamente (fig. 8.7):

1−α

α α
2 2

− zc 0 zc
Fig. 8.7 – Intervallo di confidenza per la media di una popolazione normale stan-
dardizzata

Sostituendo il valore di Z nella probabilità precedentemente determinata,


si ottiene:

190
⎛ ⎞
⎜ ⎟
x − μ
Ρ ⎜ − zc ≤ ≤ zc ⎟ = 1 − α
⎜ σ ⎟
⎜ ⎟
⎝ n ⎠
e risolvendo la doppia disuguaglianza in termini di μ :
⎛ σ σ ⎞
Ρ⎜⎜ x − zc ≤ μ ≤ x + zc ⎟⎟ = 1 − α
⎝ n n⎠
σ
la quale esprime che l’intervallo di confidenza x ± z c , con probabilità
n
1 − α potrà comprendere il vero ed ignoto valore medio della popolazione μ
(fig. 8.8).

1−α

α α
2 2

σ μ σ
μ − zc μ + zc
n n
Fig. 8.8 – Intervallo di confidenza per la media di una popolazione normale

La probabilità che la media della popolazione sia compresa nell’intervallo


di confidenza attorno alla media campionaria risulta essere pari a 1 − α , mentre
la probabilità che sia esclusa è α .
Questo significa che, si estraggono ad esempio 100 campioni dalla stessa
popolazione, si hanno circa ( 1 − α ) 100 casi in cui la media della popolazione è
σ
compresa nell’intervallo x ± z c e α 100 casi in cui è esclusa.
n

191
In Excel, la funzione che permette di calcolare l’intervallo di confidenza
per una popolazione normalmente distribuita con varianza nota è data da:
CONFIDENZA(alfa;dev_standard;dimens)
dove:

- alfa è il livello di significatività ( α ) utilizzato per calcolare il livello di


confidenza;
- dev_standard è la deviazione standard della popolazione ( σ );
- dimens è la dimensione del campione ( n ).

Se un qualsiasi argomento non è numerico, la funzione restituirà il valore di


errore #VALORE!.
Se α ≤ 0 o α ≥ 1 , la funzione restituirà il valore di errore #NUM!.
Se σ ≤ 0 , la funzione restituirà il valore di errore #NUM!.
Se n non è un numero intero, la parte decimale verrà troncata; infine, se
n < 1 , la funzione restituirà il valore di errore #NUM!.

Esempio 8.4

Sono state pesate 50 pastiglie di un farmaco ed è stato ottenuto un peso medio


di x = 3,7 gr; da esperienze precedenti si sa che la distribuzione dei pesi delle
pastiglie risulta normale con deviazione standard σ = 0,3 gr.
Si vuole determinare l’intervallo di confidenza ad un livello del 95% per il peso
medio di tutte le pastiglie prodotte.

Dal problema si sa che: n = 50 , x = 3,7 , σ = 0,3 , 1 − α = 0,95 .


Si deve calcolare la probabilità:
⎛ 0,3 0,3 ⎞
Ρ⎜⎜ 3,7 − zc ≤ μ ≤ 3,7 + zc ⎟⎟ = 0,95
⎝ 50 50 ⎠
Posizionarsi nella cella A1 e digitare: n = , nella cella A2: media=, A3:
dev.st=, A4: alfa=, B1: 50, B2: 3,7, B3: 0,3, B4: =1-0,95 (fig. 8.9):

Fig. 8.9 – Inserimento dati dell’esempio 8.4

192
Nella cella A6 digitare: intervallo di confidenza per la media, A7: estremo in-
feriore, C7: estremo superiore, A8: =$B$2-confidenza($B$4;$B$3;$B$1), C8:
=$B$2+confidenza($B$4;$B$3;$B$1) (fig. 8.10):

Fig. 8.10 – Intervallo di confidenza per la media del peso delle pastiglie di un far-
maco

Pertanto, con una probabilità del 95%, la vera ed ignota media del peso delle
pastiglie del farmaco sarà compresa tra 3,6 e 3,8 grammi.

Esempio 8.5

Una azienda produce una bibita frizzante. La caratteristica di qualità che risulta
importante per i processo produttivo è il contenuto di anidride carbonica. Sa-
pendo che la deviazione standard ideale è di 0,3 gr/litro, si vuole calcolare
l’intervallo di confidenza per il contenuto medio di anidride carbonica al livello
del 97% sapendo che dal processo produttivo si sono ottenuti i seguenti risultati
(tab. 8.1):

Tab. 8.1 – Contenuto di anidride carbonica (gr/litro) rilevato in 50 bibite


5,85 5,36 6,12 6,64 6,60 6,87 4,91 5,88 6,55 5,46
5,65 5,15 5,08 5,51 5,61 4,94 5,72 5,80 6,07 5,82
5,84 5,81 6,67 5,96 5,91 5,74 6,99 6,43 7,19 5,67
6,83 5,19 6,27 6,45 6,96 5,96 5,74 6,34 5,81 6,38
5,28 5,58 5,24 5,82 5,98 6,01 5,84 7,10 5,13 5,63

Partendo dalla cella A1, introdurre i dati della tab. 8.1, ottenendo il seguente
risultato (fig. 8.11):

Fig. 8.11 – Inserimento dati dell’esempio 8.5

193
Posizionarsi nella cella A7 e digitare: n = , nella cella A8: media=, A9: dev.st=,
A10: alfa=, B7: =conta.numeri($A$1:$J$5), B8: =media($A$1:$J$5), B9: 0,3,
B10: =1-0,97 (fig. 8.12):

Fig. 8.12 – Predisposizione dati per il calcolo dell’intervallo di confidenza

Nella cella A12 digitare: intervallo di confidenza per la media, A13: estremo
inferiore, C13: estremo superiore, A14: =$B$8-confidenza
($B$10;$B$9;$B$7), C14: =$B$8+confidenza($B$10;$B$9;$B$7) (fig. 8.13):

Fig. 8.13 – Intervallo di confidenza per il contenuto medio di anidride carbonica


presente in una bibita frizzante

Pertanto, con una probabilità del 97%, il vero ed ignoto contenuto medio di a-
nidride carbonica presente nella bibita frizzante è compreso tra 5,85 e 6,04
gr/litro.

3.2.2. Popolazione normalmente distribuita con varianza incognita

Ferma restando l’ipotesi che il campione provenga da una popolazione


normale, si consideri ora il caso in cui non si conosce σ 2 .
Per la costruzione dell’intervallo di confidenza la variabile da considerare
risulta essere:
x−μ
t=
sc
n −1
n
( xi − x )2
dove sc = ∑i =1 n −1
rappresenta la deviazione standard campionaria

corretta.
Si può dimostrate che tale variabile si distribuisce come una t di Student
con n − 1 gradi di libertà.

194
Procedendo in maniera analoga a quanto visto precedentemente, si può a-
gevolmente dimostrare che:
⎛ s s ⎞
Ρ⎜⎜ x − t c c ≤ μ ≤ x + t c c ⎟⎟ = 1 − α
⎝ n n⎠
esprime l’intervallo di confidenza per la media di una popolazione normale
con varianza ignota.
In Excel è possibile calcolare questo intervallo utilizzando una opzione di-
sponibile all’interno della procedura Statistica descrittiva del menu Analisi
dati.
Per attivare la procedura aprire il menu Strumenti e selezionare la voce
Analisi dati (fig. 8.14):

Fig. 8.14 – Analisi dati: Statistica descrittiva

Selezionare la voce Statistica descrittiva e premere il pulsante OK (fig.


8.15):

Fig. 8.15 – Statistica descrittiva

Il calcolo dell’intervallo di confidenza per la media quando la varianza non


è nota è possibile selezionando l’opzione Livello di confidenza per media:
indicando il valore percentuale del livello di confidenza ( 1 − α ).
195
Esempio 8.6

La distribuzione del tempo di vita di un certo modello di batterie per uso foto-
grafico è approssimativamente normale; un campione casuale di 50 batterie e-
stratte da un lotto di 2000, sottoposte ad una prova di usura accelerata, hanno
fornito i seguenti risultati (tab. 8.2):

Tab. 8.2 – Durata (in ore) di 50 batterie per uso fotografico


19,10 16,17 20,73 23,83 23,60 25,20 13,45 19,30 23,29 16,74
17,93 14,93 14,46 17,07 17,68 13,65 18,30 18,79 20,40 18,90
19,02 18,89 24,03 19,74 19,44 18,46 25,92 22,60 27,13 18,04
24,98 15,16 21,62 22,71 25,76 19,75 18,43 22,03 18,86 22,27
15,67 17,46 15,44 18,91 19,90 20,08 19,03 26,58 14,77 17,79

Partendo dalla cella A1, introdurre i dati della tab. 8.2, ottenendo il seguente
risultato (fig. 8.16):

Fig. 8.16 – Inserimento dati dell’esempio 8.6

Aprire il menu Strumenti, selezionare Analisi dati, Statistica descrittiva e


premere il pulsante OK. Nell’Intervallo di input: digitare $A$1:$A$51, spun-
tare la casella Etichette nella prima riga, nell’Intervallo di output: $C$1 ed
infine selezionare la casella Livello di confidenza per media: (fig. 8.17):

196
Fig. 8.17 – Impostazioni per il calcolo dell’intervallo di confidenza per i dati
dell’esempio 8.6

Dopo aver premuto il pulsante OK il risultato che si ottiene è (fig. 8.18):

Fig. 8.18 – Calcolo di tc per i dati dell’esempio 8.6

Nella cella C6 digitare: n = , C8: media=, C10: deviazione standard=, D6:


=CONTA.NUMERI($A$2:$A$51), D8: =MEDIA($A$2:$A$51), D10: =DEV.
ST ($A$2:$A$51) (fig. 8.19):

Fig. 8.19 – Calcolo di n , x , sc per i dati dell’esempio 8.6

Infine, nella cella C13 digitare: intervallo di confidenza per la media, C15: e-
stremo inferiore, C17: estremo superiore, D15: =$D$8-(($D$3
*$D$10)/RADQ($D$6)), D17: =$D$8+(($D$3*$D$10)/RADQ($D$6)) (fig.
8.20):

197
Fig. 8.20 – Intervallo di confidenza per la durata media di batterie per uso fotogra-
fico

Quindi, con una probabilità del 95%, la durata media delle batterie per uso fo-
tografico sarà compresa fra le 19,19 e le 20,17 ore.

Esempio 8.7

Si vuole stimare la precisione di una macchina che produce mine per matite;
misurando 10 mine si sono ottenuti i seguenti valori (tab. 8.3):

Tab. 8.3 – Lunghezza (in cm) di 10 mine per matite


12,21 12,33 12,84 12,97 13,22
12,93 13,07 13,52 13,23 13,01

Partendo dalla cella A1, introdurre i dati della tab. 8.3, ottenendo il seguente
risultato (fig. 8.21):

Fig. 8.21 – Inserimento dati dell’esempio 8.7

Aprire il menu Strumenti, selezionare Analisi dati, Statistica descrittiva e


premere il pulsante OK. Nell’Intervallo di input: digitare $A$1:$A$11, spun-
tare la casella Etichette nella prima riga, nell’Intervallo di output: $C$1 ed
infine selezionare la casella Livello di confidenza per media: (fig. 8.22):

198
Fig. 8.22 – Impostazioni per il calcolo dell’intervallo di confidenza per i dati
dell’esempio 8.7

Dopo aver premuto il pulsante OK il risultato che si ottiene è (fig. 8.23):

Fig. 8.23 – Calcolo di tc per i dati dell’esempio 8.7

Nella cella C6 digitare: n = , C8: media=, C10: deviazione standard=, D6:


=CONTA.NUMERI($A$2:$A$11), D8: =MEDIA($A$2:$A$11), D10: =DEV.
ST($A$2:$A$11) (fig. 8.24):

Fig. 8.24 – Calcolo di n , x , sc per i dati dell’esempio 8.7

Infine, nella cella C13 digitare: intervallo di confidenza per la media, C15: e-
stremo inferiore, C17: estremo superiore, D15: =$D$8-(($D$3*
$D$10)/RADQ($D$6)), D17: =$D$8+(($D$3*$D$10)/RADQ($D$6)) (fig.
8.25):

199
Fig. 8.25 – Intervallo di confidenza per la lunghezza delle mine per matite

Quindi, con una probabilità del 95%, la macchina produrrà mine di lunghezza
media compresa tra 12,90 e 12,97 cm.

3.3. Intervallo di confidenza per la differenza tra valori medi

Si presenta qualche volta il problema di confrontare due medie μ1 e μ 2 di


due popolazioni normali e per questo studio, generalmente si prende in consi-
derazione la loro differenza ( μ1 − μ 2 ).
Considerando, inizialmente, il caso in cui le varianze σ 12 e σ 22 delle due
popolazioni siano note, si estrae da ognuno di esse un campione di dimensione,
rispettivamente, n1 e n2 . Sapendo che la differenza delle medie campionarie
x1 − x2 costituisce un buon stimatore della differenza delle medie delle due po-
polazioni, si può dimostrare che la probabilità:
⎧⎪ σ 12 σ 22 σ 12 σ 22 ⎫⎪
Ρ ⎨(x1 − x2 ) − zc + ≤ (μ1 − μ 2 ) ≤ (x1 − x2 ) + zc + ⎬ =1−α
⎪⎩ n1 n2 n1 n2 ⎪

sta ad indicare che nel 100 ⋅ (1 − α ) % dei campioni dell’universo dei cam-
pioni la differenza tra le medie delle due popolazioni è compresa fra gli estremi
(intervallo di confidenza):
⎧⎪ σ 12 σ 22 σ 12 σ 22 ⎫⎪
( x
⎨ 1 2 − x ) − z c + ; ( x1 − x2 ) + z c + ⎬
⎪⎩ n1 n2 n1 n2 ⎪

con z c = z α .
2

Nel caso in cui σ 12 e σ 22 siano ignoti, indicando con:


n1
(x1i − x1 )2
s12c = ∑
i =1 n1 − 1
n2
(x2i − x2 )2
s22c = ∑
i =1 n2 − 1

200
le varianze campionarie corrette del primo e del secondo campione rispet-
tivamente, la stima della varianza delle due popolazioni si ottiene applicando la
formula:
(n − 1) s12c + (n2 − 1) s22c
S2 = 1
n1 + n2 − 2
Quindi, la probabilità:
⎧⎪ 1 1 1 1 ⎫⎪
Ρ ⎨(x1 − x2 ) − tc S + ≤ (μ1 − μ 2 ) ≤ (x1 − x2 ) + tc S + ⎬ = 1−α
⎪⎩ n1 n2 n1 n2 ⎪⎭
sta ad indicare che nel 100 ⋅ (1 − α ) % dell’universo dei campioni, la diffe-
renza tra le medie delle due popolazioni considerando le varianze ignote è
compresa fra gli estremi (intervallo di confidenza):
⎪⎧ 1 1 1 1 ⎫⎪
⎨(x1 − x2 ) − tc S + ; (x1 − x2 ) + tc S + ⎬
⎪⎩ n1 n2 n1 n2 ⎪⎭
con t c = t α .
; n1 + n2 − 2
2

Esempio 8.8

La tab. 8.4 contiene i risultati del funzionamento efficiente (in giorni) di 100
pneumatici per auto prodotti da due fabbriche A e B. Si vuole costruire un in-
tervallo di confidenza al 99% per la differenza delle medie, supposto che la va-
rianza sia la stessa per le due popolazioni e sia pari a 29.

Tab. 8.4 – Durata (in ore) di 100 pneumatici per auto prodotte da due fabbriche
fabbrica A
167 142 181 208 206 220 118 169 203 147
157 131 127 150 155 120 160 164 179 165
166 165 210 173 170 162 226 198 237 158
218 133 189 198 225 173 161 193 165 195
137 153 135 166 174 176 167 232 130 156
108 213 142 158 195 187 198 190 139 146
193 183 151 169 178 190 179 151 224 188
177 197 197 158 151 204 144 134 193 192
232 213 209 178 175 187 174 148 129 197
187 191 181 148 207 167 153 154 164 163

201
fabbrica B
182 156 161 149 161 107 162 130 169 178
199 149 146 169 159 160 206 166 161 213
149 198 165 163 207 174 176 159 183 163
146 136 170 139 215 162 124 156 190 155
148 129 173 161 180 148 156 172 156 171
101 163 171 220 125 124 105 195 227 155
139 179 182 143 186 182 160 125 191 185
156 147 187 174 179 219 172 136 177 133
180 161 173 174 168 158 130 220 207 192
127 136 179 167 165 169 116 158 141 139

Partendo dalla cella A1, introdurre i dati della tab. 8.4, ottenendo il seguente
risultato (fig. 8.26):

Fig. 8.26 – Inserimento dati dell’esempio 8.8

Posizionarsi nella cella D1 e digitare n A = , D3: mediaA=, D5: dev.stA=, D7:


(1 − α ) = , E1: =CONTA.NUMERI($A$2:$A$101), E3: =MEDIA
($A$2:$A$101), E5: 29, E7: 0,99, F1: nB = , F3: mediaB=, F5: dev.stB=, F7:
z c = , G1: =CONTA.NUMERI($B$2:$B$101), G3: =MEDIA($B$2:$B$101),
G5: 29, G7: =ASS(INV.NORM.ST((1-$E$7)/2)) (fig. 8.27):

202
Fig. 8.27 – Calcolo di x A , xB , zc per i dati dell’esempio 8.8

Infine, nella cella D8: intervallo di confidenza per la differenza tra medie, E10:
limite inferiore, G10: limite superiore, E11: =($E$3-$G$3)-$G$7*RADQ
(($E$5/$E$1)+($G$5/$G$1)), G11: =($E$3-$G$3)+$G$7*RADQ(($E$5
/$E$1)+($G$5/$G$1)) (fig. 8.28):

Fig. 8.28 – Intervallo di confidenza per la differenza tra durate medie di pneumatici
per auto prodotti da due fabbriche

Esempio 8.9

La tab. 8.5 contiene i risultati sul funzionamento (in ore) di 10 componenti elet-
tronici non sottoposti a stress (A) e di 15 sottoposti ad una prova accelerata (B);
determinare un intervallo di confidenza per la differenza di durata tra i compo-
nenti sottoposti ai due diversi trattamenti, utilizzando un livello del 97%.

Tab. 8.5 – Durata (in ore) di componenti elettronici


componenti elettronici non sottoposti a stress (A)
3368 2938 3607 4062 4027 4263 2539 3397 3982 3022
componenti elettronici sottoposti a stress (B)
2901 1517 2997 3039 3232 3669 1769 2683 2959 2425
2850 1889 3505 1760 2684

Partendo dalla cella A1, introdurre i dati della tab. 8.5, ottenendo il seguente
risultato (fig. 8.29):

203
Fig. 8.29 – Inserimento dati dell’esempio 8.9

Posizionarsi nella cella D1 e digitare n A = , D3: mediaA=, D5: dev.stA=, D7:


stima della varianza delle due popolazioni, D10: (1 − α ) = , E1: =CONTA.
NUMERI($A$2:$A$11), E3: =MEDIA($A$2:$A$11), E5: =DEV.ST
($A$2:$A$11), F1: nB = , F3: mediaB=, F5: dev.stB=, G1: =CONTA.NUMERI
($B$2:$B$11), G3: =MEDIA($B$2:$B$16), G5: =DEV.ST($B$2:$B$16), F8:
=(($E$1-1)*$E$5+($G$1-1)*$G$5)/($E$1+$G$1-2), F10: t c = , G10:
=ASS(INV.T(2*((1-$E$10)/2);$E$1+$G$1-2)) (fig. 8.30):

Fig. 8.30 – Calcolo di x A , xB , s Ac , s Bc , S 2 , tc per i dati dell’esempio 8.8

Infine, nella cella D12: intervallo di confidenza per la differenza tra medie,
E13: limite inferiore, G13: limite superiore, E14: =($E$3-$G$3)-$G$10*
$F$8*RADQ((1/$E$1)+(1/$G$1)), G14: =($E$3-$G$3)+$G$10*$F$8*RADQ
((1/$E$1)+(1/$G$1)) (fig. 8.31):

204
Fig. 8.31 – Intervallo di confidenza per la differenza tra durate medie di compo-
nenti elettronici sottoposti a due diversi trattamenti

Pertanto la differenza di vita media tra i componenti elettronici non sottoposti a


stress e quelli sottoposti a prova accelerata potrà variare al 97% da 273 a 1450
ore.

3.4. Intervallo di confidenza per la varianza

Per fornire una stima di una varianza di una popolazione con distribuzione
normale, nel caso in cui sia nota la media del carattere nella popolazione, si
considera la statistica:
n ⋅ s2
σ2
che ha distribuzione χ 2 con n gradi di libertà.
Fissato un livello di confidenza 1 − α , si può scrivere che:
⎧⎪ n ⋅ s2 ⎫⎪
Ρ⎨χ 2 α ≤ 2 ≤ χ 2 α ⎬ = 1 − α
⎪⎩ n ; 2 σ n ; 1− ⎪
2⎭
graficamente (fig. 8.32):

1−α

α α
2 2

χ2 α χ2 α
n; n ; 1−
2 2
Fig. 8.32 – Intervallo di confidenza per la varianza di una popolazione normale

Invertendo i tre membri della disuguaglianza ed i versi della stessa e molti-


plicando per n ⋅ s 2 si perviene alla:

205
⎧ ⎫
⎪ n ⋅ s2 n ⋅ s2 ⎪
Ρ⎨ 2 ≤ σ ≤ 2 ⎬ =1−α
2
χ
⎪ n ; 1− α χ α⎪
n;
⎩ 2 2 ⎭
la quale esprime che l’intervallo di confidenza:
⎧ n n

⎪ ∑
⎪ i =1
( x i − μ )2
∑ (xi − μ )2 ⎪

⎨ ; i =1 2 ⎬
⎪ χ n ; 1− α χ α
2
n;

⎪⎩ 2 2 ⎪⎭
con probabilità 1 − α , potrebbe essere uno di quelli che comprendono la ve-
ra ed ignota varianza della popolazione σ 2 .
Se, invece, la media del carattere nella popolazione μ non è nota la stati-
stica da considerare è:
(n − 1) ⋅ sc2
σ2
che ha distribuzione χ 2 con n − 1 gradi di libertà.
In questo caso si perviene alla:
⎧ ⎫
⎪ (n − 1) ⋅ sc2 (n − 1) ⋅ sc2 ⎪
Ρ⎨ 2 ≤σ ≤2
⎬ =1−α
⎪ χ n −1 ; 1− α χ2 α ⎪
n −1 ;
⎩ 2 2 ⎭
la quale esprime l’intervallo di confidenza:
⎧ n n


⎪ (xi − x )
⎪ i =1
2
∑ (xi − x )2 ⎪

⎨ 2 ; i =1 2 ⎬
⎪ χ n −1; 1− α χ α ⎪
n −1 ;
⎪⎩ 2 2 ⎪⎭

Esempio 8.10

Si vuole determinare l’intervallo di confidenza al livello del 99% per la varian-


za dei pesi di tutte le sigarette prodotte da una determinata macchina sapendo
che il peso di una sigaretta deve essere di 5,00g e che da un campione di
n = 50 sigarette si sono ottenuti i seguenti risultati (tab. 8.6):

206
Tab. 8.6 – Peso (in grammi) di 50 sigarette
5,27 4,55 5,38 5,47 5,30 5,04 4,35 5,20 4,50 5,21
4,37 5,53 5,21 5,02 4,70 5,12 5,16 4,81 4,38 5,00
4,83 4,79 5,31 5,20 4,40 4,88 4,83 4,89 4,62 5,00
4,93 5,28 4,80 4,85 5,17 4,96 5,14 4,75 4,36 5,22
4,96 5,10 5,24 5,05 5,54 5,04 4,52 4,97 5,44 5,20

Partendo dalla cella A1, si introducano i dati della tab. 8.6, ottenendo il seguen-
te risultato (fig. 8.33):

Fig. 8.33 – Inserimento dati dell’esempio 8.10

Posizionarsi nella cella F1 e digitare n = , F3: media popolazione =, F5: de-


vianza =, F7: (1 − α ) = , F9: χ α2 / 2 ; n = , F11: χ12−α / 2 ; n = (fig. 8.34):

207
Fig. 8.34 – Predisposizione foglio dati per il calcolo dell’intervallo di confidenza
per la varianza

Nella cella G1: =CONTA.VALORI($A$2:$A$51) e in G3: 5,00 (fig. 8.35):

Fig. 8.35 – Inserimento valori neμ

n
Per il calcolo della devianza ∑ (x − μ )
i =1
i
2
posizionarsi nella cella B1 e digitare

(xi – media), nella cella C1: (xi – media)2, B2: =A2-$G$3, C2: =B2^2, infine
copiare tali formule nelle celle B3:B51 e C3:C51 rispettivamente, ottenendo
(fig. 8.36):

Fig. 8.36 – Predisposizione formule per il della devianza

208
Sistemarsi nella cella G5 ed inserire =SOMMA($C$2:$C$51) ottenendo così il
valore della devianza cercato (fig. 8.37):

Fig. 8.37 – Determinazione della devianza per i dati dell’esempio 8.10

Nella cella G7 inserire 0,99, in G9: =INV.CHI((1-(1-$G$7)/2);($G$1)) e in


G11: =INV.CHI((1-$G$7)/2;($G$1)) (fig. 8.38):

Fig. 8.38 – Calcolo dei valori critici χ α2 / 2 ; n e χ12−α / 2 ; n

Infine, collocarsi nella cella G13 e digitare intervallo di confidenza per la va-
rianza, F14: limite inferiore, H14: limite superiore, F15: =$G$5/$G$11, H15:
=$G$5/$G$9, G17: intervallo di confidenza per la deviazione standard, F18:
limite inferiore, H18: limite superiore, F19: =RADQ($F$15), H19:
=RADQ($H$15) (fig. 8.39):

Fig. 8.39 – Intervallo di confidenza per la varianza dei pesi di tutte le sigarette
prodotte da una determinata macchina

Esempio 8.11

Un distributore automatico di caffè è regolato in modo che la quantità (in


grammi) di zucchero erogata per ogni tazza sia normalmente distribuita. Si
vuole determinare l’intervallo di confidenza al 97% per la varianza dello zuc-
chero erogato sapendo che da un campione di 20 tazze si sono ottenuti i se-
guenti valori (tab. 8.7):

209
Tab. 8.7 – Quantità di zucchero contenuta in un campione di 20 tazze di caffè
11,97 11,89 12,02 12,11 12,10 12,15 11,81 11,98 12,10 11,91
11,94 11,85 11,84 11,92 11,93 11,82 11,95 11,96 12,01 11,97

Partendo dalla cella A1, si introducano i dati della tab. 8.7, ottenendo (fig.
8.40):

Fig. 8.40 – Inserimento dati dell’esempio 8.11

Posizionarsi nella cella F1 e digitare n = , F3: media =, F5: devianza =, F7:


(1 − α ) = , F9: χα2 / 2 ; n −1 = , F11: χ12−α / 2 ; n −1 = (fig. 8.41):

Fig. 8.41 – Predisposizione foglio dati per il calcolo dell’intervallo di confidenza


per la varianza

Nella cella G2: =CONTA.VALORI($A$2:$A$21) e in G3: =MEDIA($A$2


:$A$21) (fig. 8.42):

210
Fig. 8.42 – Calcolo dei valori ne x

n
Per il calcolo della devianza ∑ (x − μ )
i =1
i
2
posizionarsi nella cella B1 e digitare

(xi – media), nella cella C1: (xi – media)2, B2: =A2-$G$3, C2: =B2^2, infine
copiare tali formule nelle celle B3:B51 e C3:C51 rispettivamente, ottenendo
(fig. 8.43):

Fig. 8.43 – Predisposizione formule per il calcolo della devianza

Sistemarsi nella cella G5 ed inserire =SOMMA($C$2:$C$21) ottenendo così il


valore della devianza campionaria (fig. 8.44):

Fig. 8.44 – Determinazione della devianza per i dati dell’esempio 8.10

Nella cella G7 inserire 0,97, in G9: =INV.CHI((1-(1-$G$7)/2);($G$1-1)) e in


G11: =INV.CHI((1-$G$7)/2;($G$1-1)) (fig. 8.45):

211
Fig. 8.45 – Calcolo dei valori critici χ α2 / 2 ; n −1 e χ12−α / 2 ; n −1

Infine, collocarsi nella cella G13 e digitare intervallo di confidenza per la va-
rianza, F14: limite inferiore, H14: limite superiore, F15: =$G$5/$G$11, H15:
=$G$5/$G$9, G17: intervallo di confidenza per la deviazione standard, F18:
limite inferiore, H18: limite superiore, F19: =RADQ($F$15), H19:
=RADQ($H$15) (fig. 8.46):

Fig. 8.46 – Intervallo di confidenza per la varianza dei pesi di tutte le sigarette
prodotte da una determinata macchina

Quindi, con una probabilità del 97%, il distributore di caffè erogherà una quan-
tità di zucchero con una deviazione standard compresa tra 0,07 e 0,15 grammi.

3.5. Dimensione del campione

In tutte le stime intervallari considerate precedentemente, l’ampiezza


dell’intervallo stimato dipende sempre dalla dimensione del campione, pertanto
la precisione della stima è direttamente proporzionale alla dimensione del cam-
pione.
Si consideri il caso della stima del valore medio e si indichi con ε l’errore
massimo che si vuole commettere. In altri termini ε indica lo scostamento
massimo (positivo o negativo) tra x e μ ad un prefissato livello di confidenza
( 1 − α ):
Ρ( x − μ ≤ ε ) = 1 − α
Poiché lo scostamento massimo dal valore medio risulta:
s
zc c
n

212
deve essere verificata la disuguaglianza:
s
zc c ≤ ε
n
dalla quale, risolvendo rispetto ad n , si ottiene:
2
⎛ s ⎞
n ≥ ⎜ zc c ⎟
⎝ ε ⎠
Tale formula viene generalmente utilizzata quando la numerosità della po-
polazione ( N ) è molto elevata (infinita); in campo aziendale/industriale, inve-
ce, la numerosità del campione deve essere determinata tenendo conto anche
della dimensione della popolazione, in questo caso, considerando la relazione:
s n
zc c 1 −
n N
e risolvendo rispetto ad n , si ottiene:
2
⎛ sc ⎞
⎜ zc ⎟
ε ⎠
n≥ ⎝ 2
1⎛ s ⎞
1 + ⎜ zc c ⎟
N⎝ ε ⎠
dove: zc = zα / 2 .

Esempio 8.12

Da una produzione continua di cavi di acciaio si vuole estrarre un campione da


sottoporre ad una prova di carico di rottura. Sapendo da esperienze precedenti
che sc = 4 kg, calcolare quante unità si devono estrarre per formare il campio-
ne, avendo stabilito di lavorare con un livello di confidenza del 95% ed essendo
disposti a tollerare un errore massimo di 0,5 kg.

Dai dati del problema risulta:


sc = 4
1 − α = 0,95
ε = 0,5
Posizionarsi con il cursore nella cella A1 e digitare sc , nella cella B1: 1 − α ,
C1: ε , A2: 4, B2: 0,95, C2: 0,5, D1: zc , B4: numerosità del campione (fig.
8.47):

213
Fig. 8.47 – Predisposizione del foglio per il calcolo della numerosità del campione

Nella cella D2: =ASS(INV.NORM.ST((1-$B$2)/2)) e nella cella B5:


=($D$2*($A$2/$C$2))^2 (fig. 8.48):

Fig. 8.48 – Calcolo della numerosità del campione per i dati dell’esempio 8.12

Quindi, ammettendo un errore massimo di 0,5 kg e lavorando con un livello di


confidenza del 95%, la numerosità del campione deve essere di almeno 246 ca-
vi.

Esempio 8.13

Si vuole determinare la numerosità del campione per il monitoraggio di un pro-


cesso produttivo per il riempimento di barattoli sapendo che il processo è sotto
controllo se la deviazione standard è di 0,04 (litri), che la produzione giornalie-
ra è di 10.000 barattoli, che il livello di confidenza è fissato al 97% e che si è
disposti a tollerare un errore massimo di 0,01 (litri).

Dai dati del problema risulta:


sc = 0,04
1 − α = 0,97
N = 10000
ε = 0,01

Posizionarsi con il cursore nella cella A1 e digitare sc , nella cella B1: 1 − α ,


C1: N , D1: ε , A2: 0,04, B2: 0,97, C2: 10000, D2: 0,01, E1: zc , B4: numero-
sità del campione (fig. 8.49):

Fig. 8.49 – Predisposizione del foglio per il calcolo della numerosità del campione

214
Nella cella E2: =ASS(INV.NORM.ST((1-$B$2)/2)) e nella cella B5:
=($E$2*($A$2/$D$2))^2/1+(1/$C$2)*($E$2*($A$2/$D$2))^2 (fig. 8.50):

Fig. 8.50 – Calcolo della numerosità del campione per i dati dell’esempio 8.13

Quindi, ammettendo un errore massimo di 0,01 litri e considerando un livello


di confidenza del 95%, da una popolazione di 10.000 barattoli, la numerosità
del campione deve essere di almeno 75 unità.

4. Verifiche di ipotesi

4.1. Generalità

Nell’inferenza statistica parametrica si formulano delle assunzioni sui va-


lori di un parametro incognito (media, varianza, frequenza, ecc.) di una distri-
buzione di probabilità di funzione nota. La verifica statistica delle ipotesi va-
glia il grado di attendibilità che può essere loro attribuito; appura se le stesse
possono ritenersi o no, compatibili con l’evidenza empirica rappresentata delle
osservazioni campionarie disponibili e si fonda sugli strumenti tipici di
quell’area dell’inferenza statistica nota come teoria delle prove di ipotesi.
Nella prova di ipotesi si distingue tra ipotesi nulla ( H 0 ) e ipotesi alternati-
va ( H1 ); la prima generalmente rispecchia la situazione acquisita prima
dell’osservazione campionaria, mentre la seconda ne attesta una diversa speci-
ficazione.
Le ipotesi statistiche, nulla e alternativa, possono essere:

- semplici se specificano in modo univoco un parametro incognito della di-


stribuzione della popolazione oggetto di osservazione;
- composte se specificano diversi valori del parametro. A loro volta posso-
no essere unidirezionali o bidirezionali.

La tab. 8.8 indica, in corrispondenza a diverse tipologie di ipotesi nulla


H 0 , l’ipotesi alternativa H1 :

215
Tab. 8.8 – Specificazioni di diverse tipologie di ipotesi nulla H 0 e alternativa H1

H0 θ = θ0 θ = θ0 θ ≥ θ0 θ ≤ θ0

H1 θ = θ1 θ ≠ θ0 θ < θ0 θ > θ0

4.2. I test statistici

La verifica di una ipotesi, che comporta la sua accettazione o il suo rifiuto


ad un prestabilito livello di probabilità, viene effettuata utilizzando una statisti-
ca-test o semplicemente test, funzione delle osservazioni campionarie avente
distribuzione nota con la condizione che l’ipotesi enunciata sia vera.
Il test è, quindi, una procedura inferenziale atta a valutare la conformità
probabilistica tra un campione e la popolazione da cui è stato estratto. Esso de-
termina il grado di attendibilità delle osservazioni campionarie, allo scopo di
stabilire se le differenze risultanti rispetto alla popolazione siano significative
oppure dovute ad errore campionario.
La procedura può essere schematizzata in tre fasi:

- si formula una ipotesi nulla ( H 0 ) ed una ipotesi alternativa ( H1 ) sulla


popolazione;
- attraverso i risultati campionari ovvero mediante una conveniente statisti-
ca;
- si decide se accettare o meno l’ipotesi nulla ( H 0 ).

Nel dettaglio, la problematica dei test implica una suddivisione dello spazio
campionario in due regioni esclusive:

- una regione di accettazione che indica l’insieme dei valori campionari che
implicano l’accettazione dell’ipotesi nulla, ossia è tale che se il test per
quell’osservazione campionaria ricade in essa si accetta l’ipotesi nulla;
- una regione critica (o di rifiuto) che indica l’insieme dei valori campiona-
ri che implicano il rifiuto dell’ipotesi nulla, ossia è tale che se il test sud-
detto ricade in essa si rigetta l’ipotesi nulla.

La regola di decisione consiste nello stabilire se la differenza tra il valore


stimato del parametro, specificato dall’ipotesi nulla, e quello ottenuto
dall’osservazione campionaria sia o meno significativa; stabilito, quindi, un li-
vello di significatività ( α ), rappresentante l’ampiezza della regione critica, si
fissa il valore o i valori critici del test e si rifiuta l’ipotesi nulla se il valore spe-
rimentale del test cade all’interno della regione critica.

216
Essendo fondata su un risultato campionario, la regola di decisione deve
presupporre la possibilità di commettere degli errori ed, essendo H 0 ed H1
due alternative che si escludono tra loro logicamente, si distinguono due tipo-
logie di errori:

- errore di primo tipo (o di prima specie) che si commette con probabilità


α quando, cedendo il valore test nella regione di rifiuto dell’ipotesi nulla,
la stessa viene rifiutata pur essendo essa vera. Il complemento a 1 della
probabilità α rappresenta il livello di confidenza, ossia la fiducia che si
ha nel non commettere alcun errore nell’accettare l’ipotesi nulla, quando i
risultati campionari avvalorano tale ipotesi;
- errore di secondo tipo (o di seconda specie) che si commette con probabi-
lità β quando, cadendo il valore del test nella regione di accettazione
dell’ipotesi nulla, la stessa viene accettata pur essendo essa falsa. Il com-
plemento a 1 della probabilità β , ossia γ = 1 − β è detto potenza del test
e indica la probabilità di rifiutare l’ipotesi nulla quando essa è falsa.

Quindi, per determinare la regione critica si ricorre al lemma di Neyman -


Pearson attraverso il valore α che renda massima la potenza del test; in so-
stanza, si stabilisce a priori un valore della probabilità di commettere un errore
di primo tipo molto piccolo, garantendosi in questo modo intorno al risultato
dell’esperimento.
Sulla base dell’ipotesi nulla formulata si stabilisce il livello di significativi-
tà α , tale che le regioni di rifiuto dell’ipotesi nulla siano rappresentate dai va-
lori di coda del test utilizzato. Per questo, se si tratta della coda di sinistra, la
regione di rifiuto viene rappresentata dall’insieme di valori inferiori ad un valo-
re critico molto basso, se, invece, si tratta della coda di destra, essa viene rap-
presentata dall’insieme di valori superiori ad un valore critico molto elevato;
ovviamente se l’ipotesi alternativa è bidirezionale, ossia se si considerano en-
trambe le code, le regioni di rifiuto sono rappresentate dagli insiemi di valori
inferiori ad un valore critico molto basso e superiori ad un valore critico molto
elevato.

4.3. Verifiche di ipotesi sul valore medio

4.3.1. Verifica di ipotesi sul valor medio (varianza nota)

La verifica di ipotesi sulla media μ di una popolazione normale con va-


rianza σ 2 , passa attraverso la formulazione della seguente ipotesi nulla:
H 0 : μ = μ0
La statistica-test da utilizzare è:
217
x − μ0
Z=
σ
n
che, al variare del campione, se l’ipotesi nulla è vera, si distribuisce secon-
do una legge normale standardizzata (cioè con μ = 0 e σ 2 = 1 ).
La regione critica ( RC ) è diversa a seconda del tipo di ipotesi alternativa
formulata.
In particolare, con un’ipotesi alternativa del tipo:
H1: μ < μ0
la regione critica riguarda la coda sinistra della distribuzione normale stan-
dardizzata per cui risulta:
σ
RC : x ≤ μ0 − zc
n
dove: zc = zα .
Quindi, si accetta l’ipotesi nulla se risulta:
x − μ0
Z= > − zc
σ
n
graficamente (fig. 8.51):
Regione di accettazione

Regione critica

− zc
Fig. 8.51 – Regione critica nel caso di ipotesi alternativa del tipo: H1: μ < μ0

Con una ipotesi alternativa del tipo:


H1: μ > μ0
la regione critica riguarda la coda destra della distribuzione normale stan-
dardizzata:
σ
RC : x ≥ μ0 + zc
n
dove: zc = zα .

218
Pertanto, si accetterà l’ipotesi nulla se:
x − μ0
Z= < zc
σ
n
graficamente (fig. 8.52):
Regione di accettazione

Regione critica

zc
Fig. 8.52 – Regione critica nel caso di ipotesi alternativa del tipo: H1: μ > μ0

Infine, con una ipotesi del tipo:


H1: μ ≠ μ0
la regione critica riguarda entrambe le code della distribuzione normale
standardizzata:
⎧ σ
⎪ x ≤ μ 0 − zc n

RC : ⎨
⎪x ≥ μ + z σ
⎪⎩ 0 c
n
dove: z c = z α .
2
Quindi, si accetterà l’ipotesi nulla se:
x − μ0
− zc < Z = < zc
σ
n
graficamente (fig. 8.53):

219
Regione di accettazione

Regione critica Regione critica

− zc zc
Fig. 8.53 – Regione critica nel caso di ipotesi alternativa del tipo: H1: μ ≠ μ0

Esempio 8.14

L’etichetta di una bibita frizzante dichiara che il contenuto di ciascuna lattina è


di 300 ml. La tab. 8.9 riporta il contenuto in ml di un campione di 10 lattine.
Sapendo da studi precedenti che la distribuzione del contenuto segue una legge
normale con deviazione standard nota e pari a 3 ml, si vuole verificare, ad un
livello di significatività del 5%, se il contenuto in media del campione non sia
minore di quanto dichiarato in etichetta.

Tab. 8.9 – Contenuto in ml di un campione di 10 lattine


300,26 296,00 300,55 300,68 301,28
302,62 296,77 299,59 300,44 298,80

Dal problema il sistema di ipotesi risulta essere:


⎧ H 0 : μ = 300

⎩ H1 : μ < 300
σ =3
α = 0,05
Posizionandosi con il cursore nella cella B1 digitare: μ 0 = , B2: μ1 < , B3:
σ = , B4: α = , C1: 300,00, C2: 300,00, C3: 3, C4: 0,05 (fig. 8.54):

Fig. 8.54 – Impostazione del sistema di ipotesi per l’esempio 8.14

220
Partendo dalla cella B5 inserire i dati della tab. 8.9 ottenendo il seguente risul-
tato (fig. 8.55):

Fig. 8.55 – Inserimento valori della tab. 8.9

A questo punto posizionarsi nella cella A17 e digitare: n = , A18: x medio =,


A20: zc = (valore critico), A22: Z = (funzione-test), A24: risultato: . Nella
cella B17: =CONTA.VALORI($B$6:$B$15), B18: =MEDIA($B$6:$B$15),
B20: =INV.NORM.ST($C$4), B22: =($B$18-$C$1)/($C$3/RADQ($B$17)).
Infine, per sintetizzare il risultato della verifica di ipotesi, si può utilizzare la
funzione SE:
SE(test;se_vero;se_falso)
dove:
- test è un valore o un'espressione qualsiasi che può dare come risultato VERO
o FALSO;
- se_vero è il valore che viene restituito se test è VERO;
- se_falso è il valore che viene restituito se test è FALSO.
Quindi, nella cella B24 digitare: =SE($B$22>$B$20;"si accetta l'ipotesi nul-
la";"si rifiuta l'ipotesi nulla") fig. (8.56):

221
Fig. 8.56 – Predisposizione formule per l’esempio 8.14

Pertanto, dai dati osservati (tab. 8.9), le variazioni del contenuto nelle lattine
non sono così significative per affermare che il contenuto in media del campio-
ne non sia minore di quanto dichiarato in etichetta.

Esempio 8.15

La tab. 8.10 contiene i valori rilevati di emissioni di CO2 (gr/Km) di 10 motori


ad uso industriale. Sapendo il carattere in considerazione si distribuisce come
una variabile normale con deviazione standard di 4 gr/Km, è possibile afferma-
re al livello di significatività dell’1%, che il campione garantisce un livello me-
dio di emissione di CO2 di 130 gr/Km?

Tab. 8.10 – Emissioni di CO2 di 10 motori ad uso industriale


131,299 128,366 132,932 136,029 135,795
137,399 125,649 131,497 135,485 128,939

Dal problema il sistema di ipotesi risulta essere:


⎧ H 0 : μ = 130

⎩ H 1 : μ > 130
σ =4
α = 0,01
Posizionandosi con il cursore nella cella B1 digitare: μ 0 = , B2: μ1 < , B3:
σ = , B4: α = , C1: 130,00, C2: 130,00, C3: 4, C4: 0,01 (fig. 8.57):

222
Fig. 8.57 – Impostazione del sistema di ipotesi per l’esempio 8.15

Partendo dalla cella B5 inserire i dati della tab. 8.10 ottenendo il seguente risul-
tato (fig. 8.58):

Fig. 8.58 – Inserimento valori della tab. 8.10

Nella cella A17: n = , A18: x medio =, A20: zc = (valore critico), A22: Z =


(funzione-test), A24: risultato: .
Nella cella B17: =CONTA.VALORI ($B$6:$B$15), B18: =MEDIA
($B$6:$B$15), B20: =ASS(INV.NORM.ST ($C$4)), B22: =($B$18-
$C$1)/($C$3/RADQ($B$17)), B24: =SE($B$22< $B$20;"si accetta l'ipotesi
nulla";"si rifiuta l'ipotesi nulla") fig. (8.59):

223
Fig. 8.59 – Predisposizione formule per l’esempio 8.15

È pertanto possibile affermare, al livello di significatività dell’1%, che il cam-


pione di motori selezionato garantisce un livello medio di emissione di CO2
non superiore a 130 gr/Km.

Esempio 8.16

Un’azienda produce anelli per i pistoni delle automobili. È noto che il diametro
di tali anelli segue approssimativamente una distribuzione normale con devia-
zione standard σ = 0,001 mm. La tab. 8.11 riporta la dimensione del diametro
di un campione di 20 anelli; si vuole testare l’ipotesi che la media del diametro
degli anelli sia pari a 74,035 mm ad un livello di significatività del 3%.

Tab. 8.11 – Diametro (mm) di 20 anelli per pistoni di automobili


74,036 74,036 74,032 74,038 74,037 74,033 74,036 74,037 74,038 74,035
74,035 74,035 74,034 74,036 74,035 74,039 74,035 74,032 74,032 74,042

Dal problema il sistema di ipotesi risulta essere:


⎧ H 0 : μ = 74,035

⎩ H1 : μ ≠ 74,035
σ = 0,001
α = 0,03
Posizionandosi con il cursore nella cella B1 digitare: μ 0 = , B2: μ1 ≠ , B3:
σ = , B4: α = , C1: 74,035, C2: 74,035, C3: 0,001, C4: 0,03 (fig. 8.60):

224
Fig. 8.60 – Impostazione del sistema di ipotesi per l’esempio 8.16

Partendo dalla cella B5 inserire i dati della tab. 8.11 ottenendo il seguente risul-
tato (fig. 8.61):

Fig. 8.61 – Inserimento valori della tab. 8.11

Nella cella A17: n = , A18: x medio =, A20: zc = (valore critico), A22: Z =


(funzione-test), A24: risultato: .
Nella cella B17: =CONTA.VALORI($B$6:$C$15), B18: =MEDIA
($B$6:$C$15), B20: =INV.NORM.ST($C$4/2), C20: =ASS(INV.NORM.ST
($C$4/2)), B22: =($B$18-$C$1)/($C$3/RADQ($B$17)), B24: =SE($B$22<
$B$20;"si rifiuta l'ipotesi nulla";SE($B$22>$C$20;"si rifiuta l'ipotesi nul-
la";"si accetta l'ipotesi nulla")) fig. (8.62):

225
Fig. 8.62 – Predisposizione formule per l’esempio 8.16

Poiché, il valore della funzione-test (2,907) cade al di fuori della regione di ac-
cettazione (-2,170 ; 2,170), allora non è possibile accettare l’ipotesi nulla al li-
vello di significatività del 3%.

4.3.2. Verifica di ipotesi sul valor medio (varianza ignota)

La verifica di ipotesi sulla media μ di una popolazione normale con va-


rianza σ 2 non nota, passa attraverso la formulazione della seguente ipotesi
nulla:
H 0 : μ = μ0
La statistica-test da utilizzare è:
x − μ0
T=
sc
n
che, al variare del campione, se l’ipotesi nulla è vera, si distribuisce secon-
do una legge t di Student con n − 1 gradi di libertà.
La regione critica ( RC ) è diversa a seconda del tipo di ipotesi alternativa
formulata.
In particolare, con un’ipotesi alternativa del tipo:
H1: μ < μ0
la regione critica è:
s
RC : x ≤ μ0 − tc c
n
dove: t c = tα ; n −1 .
Si accetta l’ipotesi nulla se risulta:

226
T > −tc
Con una ipotesi alternativa del tipo:
H1: μ > μ0
la regione critica è:
sc
RC : x ≥ μ0 + tc
n
dove: t c = tα ; n −1 .
Si accetterà l’ipotesi nulla se:
T < tc
Infine, con una ipotesi del tipo:
H1: μ ≠ μ0
la regione critica risulta essere:
⎧ sc
⎪ x ≤ μ 0 − tc n

RC : ⎨
⎪ x ≥ μ + t sc
⎪⎩ 0 c
n
dove: t c = t α .
; n −1
2
Quindi, si accetterà l’ipotesi nulla se:
− t c < T < tc

Esempio 8.17

Nella produzione di semiconduttori non è possibile controllare esattamente la


resistenza prodotta. La tab. 8.12 riporta i valori della resistenza (in Ohm) di 80
semiconduttori. È possibile affermare, ad un livello di significatività del 5%,
che la resistenza media sia pari ad 1,3 Ohm?

Tab. 8.12 – Resistenza (in Ohm) di 80 semiconduttori


1,0 0,6 1,2 1,7 1,6 1,8 0,3 1,1
1,6 0,7 0,9 0,5 0,4 0,8 0,8 0,3
0,9 1,0 1,2 1,0 1,0 1,0 1,7 1,1
1,1 0,9 1,9 1,5 2,1 0,9 1,8 0,5
1,4 1,5 1,9 1,1 0,9 1,4 1,0 1,5
0,6 0,8 0,5 1,0 1,1 1,2 1,0 2,0
0,5 0,9 0,1 1,7 0,6 0,9 1,5 1,3
1,5 1,4 0,6 0,7 1,4 1,3 0,8 1,1
1,2 1,4 1,2 0,8 1,9 1,3 1,2 1,5
1,5 0,9 0,8 1,6 0,7 0,5 1,4 1,4

227
Dai dati del problema il sistema di ipotesi risulta essere:
⎧ H 0 : μ = 1,3

⎩ H 1 : μ ≠ 1,3
α = 0,05
Posizionandosi con il cursore nella cella B1 digitare: μ 0 = , B2: μ1 ≠ , B3:
α = , C1: 1,3, C2: 1,3, C3: 0,05 (fig. 8.63):

Fig. 8.63 – Impostazione del sistema di ipotesi per l’esempio 8.17

Partendo dalla cella B4 inserire i dati della tab. 8.12 ottenendo il seguente risul-
tato (fig. 8.64):

Fig. 8.64 – Inserimento valori della tab. 8.17

Nella cella A16: n = , A17: x medio =, A18: dev.st =, A20: tc = (valore criti-
co), A22: T = (funzione-test), A24: risultato:.
Nella cella B16: =CONTA.VALORI($B$5:$I$14), B17: =MEDIA($B$5:$I$14),
B18: =DEV.ST($B$5:$I$14), B20: =-INV.T($C$3/2;$B$16-1), C20:
=INV.T($C$3/2;$B$16-1), B22: =($B$17-$C$1)/($B$18/RADQ($B$16)), B24:
=SE($B$22<$B$20;"si rifiuta l'ipotesi nulla";SE($B$22>$C$20;"si rifiuta l'i-
potesi nulla";"si accetta l'ipotesi nulla")) fig. (8.65):

228
Fig. 8.65 – Predisposizione formule per l’esempio 8.17

Quindi, poiché il valore della statistica test (-3,693) cade all’esterno della re-
gione di accettazione (-2,285 ; 2,285), non è possibile affermare, ad un livello
di significatività del 5%, che la resistenza media sia pari ad 1,3 Ohm.

Esempio 8.18

La tab. 8.13 riporta la durata (in migliaia di km) di 15 convertitori catalitici per
automobili. Si vuole verificare, ad un livello di significatività del 5%, che la
durata media non sia superiore a 100.

Tab. 8.13 – Durata (in migliaia di km) di 15 convertitori catalitici per automobili
115,4 85,2 89,1 118,3 88,4 109,3 104,3 69,3 105,5 106,8
103,1 101,6 102,9 89,6 109,3

Dai dati del problema il sistema di ipotesi risulta essere:


⎧ H 0 : μ = 100

⎩ H 1 : μ < 100
α = 0,05

Posizionandosi con il cursore nella cella B1 digitare: μ 0 = , B2: μ1 < , B3:


α = , C1: 100, C2: 100, C3: 0,05 (fig. 8.66):

229
Fig. 8.66 – Impostazione del sistema di ipotesi per l’esempio 8.18

Partendo dalla cella B4 inserire i dati della tab. 8.13 ottenendo il seguente risul-
tato (fig. 8.67):

Fig. 8.67 – Inserimento valori della tab. 8.13

Nella cella A16: n = , A17: x medio =, A18: dev.st =, A20: tc = (valore criti-
co), A22: T = (funzione-test), A24: risultato: .
Nella cella B16: =CONTA.VALORI($B$5:$C$14), B17:
=MEDIA($B$5:$C$14), B18: =DEV.ST($B$5:$C$14), B20: =-INV.T(2*
$C$3;$B$16-1), B22: =($B$17-$C$1)/($B$18/RADQ($B$16)), B24: =SE
($B$22>$B$20;"si accetta l'ipotesi nulla";"si rifiuta l'ipotesi nulla") fig.
(8.68):

230
Fig. 8.68 – Predisposizione formule per l’esempio 8.18

Pertanto, al livello di significatività del 5%, si può affermare che la durata me-
dia dei catalizzatori esaminati non è superiore a 100.

Esempio 8.19

Un laboratorio biologico analizza il contenuto di batteri nell’acqua minerale. Il


limite di legge è di 4500 batteri per ml. La tab. 8.14 registra il numero di batteri
rilevato in 10 campioni di acqua minerale. Si vuole verificare, al livello di si-
gnificatività dell’1%, se il contenuto medio di batteri presenti nel campione
rientra nei limiti previsti dalla legge.

Tab. 8.14 – Contenuto di batteri (per ml) in 10 campioni di acqua minerale


4777 3819 4844 4873 5007 5309 3994 4627 4818 4448

Dai dati del problema il sistema di ipotesi risulta essere:


⎧ H 0 : μ = 4500

⎩ H1 : μ > 4500
α = 0,01

Posizionandosi con il cursore nella cella B1 digitare: μ 0 = , B2: μ1 > , B3:


α = , C1: 4500, C2: 4500, C3: 0,01 (fig. 8.69):

231
Fig. 8.69 – Impostazione del sistema di ipotesi per l’esempio 8.19

Partendo dalla cella B4 inserire i dati della tab. 8.14 ottenendo il seguente risul-
tato (fig. 8.70):

Fig. 8.70 – Inserimento valori della tab. 8.14

Nella cella A16: n = , A17: x medio =, A18: dev.st =, A20: tc = (valore criti-
co), A22: T = (funzione-test), A24: risultato: .
Nella cella B16: =CONTA.VALORI($B$5:$B$14), B17:
=MEDIA($B$5:$B$14), B18: =DEV.ST($B$5:$B$14), B20: =INV.T(2*
$C$3;$B$16-1), B22: =($B$17-$C$1)/$B$18/RADQ($B$16), B24: =SE($B$22
<$B$20;"si accetta l'ipotesi nulla";"si rifiuta l'ipotesi nulla") fig. (8.71):

232
Fig. 8.71 – Predisposizione formule per l’esempio 8.19

Quindi, al livello di significatività dell’1%, si può affermare che il contenuto


medio di batteri presenti nel campione rientra nei limiti previsti dalla legge.

4.4. Verifiche di ipotesi sulle differenze tra valori medi

In molte applicazioni è utile confrontare se due popolazioni, da cui sono


stati estratti due campioni distinti, possono essere ritenute uguali oppure se tra
di esse è possibile riscontrare una differenza significativa.
Questi problemi possono essere risolti effettuando un test sulla differenza
dei valori medi; in questo caso l’ipotesi nulla risulta:
H 0 : μ1 = μ 2
dove 1e 2 indicano le due popolazioni.
Le ipotesi alternavate possono essere:

- H 1 : μ1 < μ 2 ;
- H 1 : μ1 > μ 2 ;
- H 1 : μ1 ≠ μ 2 .

4.4.1. Verifica di ipotesi sulla differenza tra valori medi (varianze


note)

In questo caso la statistica-test risulta essere:


x1 − x2
Z=
σ 12 σ 22
+
n1 n2

233
dove:

- x1 media aritmetica del campione proveniente dalla popolazione 1;


- σ 12 varianza della popolazione 1;
- n1 numerosità del campione proveniente dalla popolazione 1;
- x2 media aritmetica del campione proveniente dalla popolazione 2 ;
- σ 22 varianza della popolazione 2 ;
- n2 numerosità del campione proveniente dalla popolazione 2 ;

Si può dimostrare che al variare del campione, se l’ipotesi nulla è vera, la


statistica-test di distribuisce seguendo una legge normale standardizzata.
Si utilizzano, di conseguenza, le medesime regole di decisione viste per i
casi precedenti.
In Excel all’interno del menu Strumenti Analisi dati troviamo Test z: due
campioni per medie che consente di eseguire un test z a due campioni per me-
die con varianze note. Questo strumento viene utilizzato per verificare le ipote-
si sulla differenza tra due medie di popolazione (fig. 8.72).

Fig. 8.72 – Strumento Analisi dati Test z: due campioni per medie

Premendo il pulsante OK comparirà le seguente finestra (fig. 8.73):

234
Fig. 8.73 – Test z: due campioni per medie (input)

dove:

- Intervallo variabile 1: riferimento di cella per il primo intervallo di dati


da analizzare che deve consistere in una singola colonna o riga di dati;
- Intervallo variabile 2: riferimento di cella per il secondo intervallo di da-
ti da analizzare che deve consistere in una singola colonna o riga di dati;
- Differenza ipotizzata per le medie: numero desiderato per la variazione
delle medie campione. Il valore 0 indica che si ipotizzano le stesse medie
campione;
- Varianza variabile 1: varianza di popolazione nota per l'intervallo di in-
put Variabile 1;
- Varianza variabile 2: varianza di popolazione nota per l'intervallo di in-
put Variabile 2;
- Etichette: selezionare questa casella di controllo se la prima riga o colon-
na dell'intervallo di input contiene etichette, in caso contrario deselezio-
narla. Vengono generate delle etichette dati appropriate per la tabella di
output;
- Alfa: livello di confidenza per il test che deve essere un valore compreso
nell'intervallo 0÷1. Il livello alfa è un livello di significatività correlato al-
la probabilità di riscontrare un errore di tipo I, ossia il rifiuto di un'ipotesi
vera;
- Intervallo di output: riferimento della cella superiore sinistra della tabel-
la di output. Le dimensioni dell'area di output vengono determinate auto-
maticamente e viene visualizzato un messaggio qualora la tabella di
output sostituisca i dati esistenti;
- Nuovo foglio di lavoro: inserimento di un nuovo foglio di lavoro nella
cartella di lavoro corrente e copia dei risultati a partire dalla cella A1 del

235
nuovo foglio di lavoro. Per assegnare un nome al nuovo foglio di lavoro,
digitarlo nella casella di testo;
- Nuova cartella di lavoro: creazione di una nuova cartella di lavoro e co-
pia dei risultati in un nuovo foglio della nuova cartella di lavoro.

Per quanto concerne la tabella di output (fig. 8.74):

Fig. 8.74 – Test z: due campioni per medie (output)

abbiamo:

- le medie aritmetiche della Variabile 1 nella cella C3 e Variabile 2 nella


cella D3;
- le varianze note nelle celle C4 e D4 rispettivamente della Variabile 1 e
Variabile 2;
- il numero di osservazioni della Variabile 1 e Variabile 2 nelle celle C5 e
D5 rispettivamente;
- la differenza ipotizzata per la media nella cella C6;
- Z, il valore della statistica-test, nella cella C7;
- z critico una coda, z critico due code rispettivamente nelle celle C9 e
C11;
- P(Z<=z) una coda e P(Z<=z) due code rispettivamente nelle celle C8 e
C10, rappresentano le probabilità (p-value, livello di significatività osser-
vato) di ottenere una statistica-test uguale a oppure più estrema del risul-
tato osservato, se l’ipotesi nulla è vera.

Il risultato della fig. 8.74 si interpreta nel seguente modo:

- se la differenza ipotizzata per le medie > 0, si accetta l’ipotesi nulla se il


valore della statistica-test Z < z critico una coda; oppure se P(Z<=z) una
coda > α ;
- se la differenza ipotizzata per le medie < 0, si accetta l’ipotesi nulla se il
valore della statistica-test Z < - z critico una coda; oppure se P(Z<=z)
una coda > α ;

236
- se la differenza ipotizzata per le medie ≠ 0, si accetta l’ipotesi nulla se il
valore della statistica-test - z critico una coda < Z < - z critico una coda;
oppure se P(Z<=z) due code > α .

Esempio 8.20

La tab. 8.15 riporta il peso (in mg) di un campione di 50 pastiglie prodotte da


due macchine (A e B). Si vuole sottoporre a test che le due macchine produca-
no pastiglie con lo stesso peso medio ad un livello di significatività del 5% sa-
pendo che la deviazione standard della macchina A è di 7 mg e quella della
macchina B di 6,5 mg.

Tab. 8.15 – Pesi (in mg) delle pastiglie prodotte da due macchine
peso pastiglie macchina A peso pastiglie macchina B
327 321 331 338 338 336 320 314 314 314
342 314 328 337 322 320 321 308 317 320
325 318 317 323 324 315 320 322 334 307
315 326 327 330 327 319 332 322 321 314
327 327 339 329 328 315 321 329 323 331
326 343 336 346 325 314 319 322 324 314
341 318 333 336 343 327 331 320 329 315
329 326 334 327 335 322 322 315 320 320
319 324 319 327 329 314 325 315 325 319
330 327 345 317 324 319 319 324 331 322

Dai dati del problema, il sistema di ipotesi risulta essere:


⎧H 0 : μ A = μ B

⎩ H1 : μ A ≠ μ B
cioè:
⎧H 0 : μ A − μ B = 0

⎩ H1 : μ A − μ B ≠ 0
σA =7
σ B = 6,5
α = 0,05
Partendo dalla cella A1 inserire i valori utilizzando una sola colonna ottenendo
il seguente risultato (fig. 8.75):

237
Fig. 8.75 – Inserimento valori della tab. 8.15

Per attivare la procedura Strumenti di analisi: Test z: due campioni per me-
die, aprire il menu Strumenti e selezionare la voce Analisi dati (fig. 8.76):

Fig. 8.76 – Analisi dati: Test z: due campioni per medie

Selezionare la voce Test z: due campioni per medie e premere il pulsante OK


(fig. 8.77):

238
Fig. 8.77 – Test z: due campioni per medie

Nell’Intervallo variabile 1 digitare: $A$1:$A$51, Intervallo variabile 2:


$C$1:$C$51, Differenza ipotizzata per le medie: 0, Varianza variabile 1
(nota): 7, Varianza variabile 2 (nota): 6,5, attivare l’opzione Etichette, Alfa:
0,05 e nelle Opzioni di output Intervallo di output: $E$2 (fig. 8.78):

Fig. 8.78 – Inserimento valori Test z: due campioni per medie per l’esempio 8.20

Infine, premendo il pulsante OK si ottiene (fig. 8.79):

239
Fig. 8.79 – Test z: due campioni per medie per i dati dell’esempio 8.20

Al livello di significatività del 5%, il valore della statistica-test Z (15,511) ri-


sulta essere esterno all’intervallo z critico due code (-1,959 ; 1,959), pertanto
l’ipotesi nulla non può essere accettata e si deve concludere che dai campioni
esaminati i pesi delle pastiglie prodotte dalle due macchine sono significativa-
mente diversi.

4.4.2. Verifica di ipotesi sulla differenza tra valori medi (varianze


ignote ma uguali)

Se si rende possibile ritenere che il carattere nelle due popolazioni si distri-


buisca normalmente con la stessa varianza, la statistica-test sarà del tipo:
x1 − x2
T=
1 1
sc +
n1 n2
dove:
n1 n2


i =1
( x1i − x1 ) 2 + ∑(x
i =1
2i − x2 ) 2
sc =
n1 + n2 − 2
la quale, se è vera l’ipotesi nulla, segue una distribuzione t di Student con
n1 + n2 − 2 gradi di libertà.
Per quanto riguarda la regola di decisione, si avrà che, se:

- H1 : μ1 < μ 2 , si accetta l’ipotesi nulla se risulta T > −tc con t c = tα ; n1 + n2 − 2 ;


- H1 : μ1 > μ 2 , si accetta l’ipotesi nulla se risulta T < tc con t c = tα ; n1 + n2 − 2 ;
- H1 : μ1 ≠ μ 2 , si accetta l’ipotesi nulla se risulta − tc < T < tc con
tc = tα .
; n1 + n2 − 2
2

240
In Excel all’interno del menu Strumenti Analisi dati troviamo Test t: due
campioni assumendo uguale varianza che consente di eseguire un test t di
Student a due campioni. Questa forma del test t, definito test t omoschedastico,
presuppone che le medie dei due insiemi di dati siano uguali. È possibile utiliz-
zare i test t per determinare se le medie di due campioni sono uguali (fig. 8.80).

Fig. 8.80 – Strumento Analisi dati Test t: due campioni assumendo uguale varian-
za

Premendo il pulsante OK comparirà le seguente finestra (fig. 8.81):

Fig. 8.81 – Test t: due campioni assumendo uguale varianza (input)

dove:

- Intervallo variabile 1: riferimento di cella per il primo intervallo di dati


da analizzare che deve consistere in una singola colonna o riga di dati;
- Intervallo variabile 2: riferimento di cella per il secondo intervallo di da-
ti da analizzare che deve consistere in una singola colonna o riga di dati;
- Differenza ipotizzata per le medie: numero desiderato per la variazione
delle medie campione. Il valore 0 indica che si ipotizzano le stesse medie
campione;
- Etichette: selezionare questa casella di controllo se la prima riga o colon-
na dell'intervallo di input contiene etichette, in caso contrario deselezio-

241
narla. Vengono generate delle etichette dati appropriate per la tabella di
output;
- Alfa: livello di confidenza per il test che deve essere un valore compreso
nell'intervallo 0÷1. Il livello alfa è un livello di significatività correlato al-
la probabilità di riscontrare un errore di tipo I, ossia il rifiuto di un'ipotesi
vera;
- Intervallo di output: riferimento della cella superiore sinistra della tabel-
la di output. Le dimensioni dell'area di output vengono determinate auto-
maticamente e viene visualizzato un messaggio qualora la tabella di
output sostituisca i dati esistenti;
- Nuovo foglio di lavoro: inserimento di un nuovo foglio di lavoro nella
cartella di lavoro corrente e copia dei risultati a partire dalla cella A1 del
nuovo foglio di lavoro. Per assegnare un nome al nuovo foglio di lavoro,
digitarlo nella casella di testo;
- Nuova cartella di lavoro: creazione di una nuova cartella di lavoro e co-
pia dei risultati in un nuovo foglio della nuova cartella di lavoro.

Per quanto concerne la tabella di output (fig. 8.82):

Fig. 8.82 – Test t: due campioni assumendo uguale varianza (output)

abbiamo:

- le medie aritmetiche della Variabile 1 nella cella C3 e Variabile 2 nella


cella D3;
- le varianze campionarie nelle celle C4 e D4 rispettivamente della Varia-
bile 1 e Variabile 2;
- il numero di osservazioni della Variabile 1 e Variabile 2 nelle celle C5 e
D5 rispettivamente;
- nella cella C6 la varianza complessiva derivata dalla seguente formula:
n S 2 + n2 S 22
S2 = 1 1
n1 + n2 − 2

242
- la differenza ipotizzata per la media nella cella C7;
- nella cella C8 il calcolo dei gradi di libertà (gdl);
- Stat T, il valore della statistica-test, nella cella C9;
- t critico una coda, t critico due code rispettivamente nelle celle C11 e
C13;
- P(T<=t) una coda e P(T<=t) due code rispettivamente nelle celle C10 e
C12.

Il risultato della fig. 8.82 si interpreta nel seguente modo:

- se la differenza ipotizzata per le medie > 0, si accetta l’ipotesi nulla se il


valore della statistica-test T < t critico una coda; oppure se P(T<=t) una
coda > α ;
- se la differenza ipotizzata per le medie < 0, si accetta l’ipotesi nulla se il
valore della statistica-test T < - t critico una coda; oppure se P(T<=t) una
coda > α ;
- se la differenza ipotizzata per le medie ≠ 0, si accetta l’ipotesi nulla se il
valore della statistica-test - t critico una coda < T < - t critico una coda;
oppure se P(T<=t) due code > α .

Esempio 8.21

Si consideri una macchina da imballaggio in una ditta che produce pomodori in


scatola. La tab. 8.16 riporta il peso (in gr) di due campioni di 50 scatole ciascu-
no prelevati in due giorni differenti. Ad un livello di significatività del 5% si
vuole verificare che in media nelle due date non vi sia stato alcun cambiamento
nella regolazione della macchina.

Tab. 8.16 – Pesi (in gr) di due campioni di 50 scatole


campione 1 campione 2
393 377 408 432 418 461 453 461 484 418
454 417 378 367 421 434 476 445 450 416
411 442 378 398 406 462 486 434 413 472
350 418 403 373 431 458 384 490 482 446
407 401 368 387 425 465 421 465 449 428
399 377 396 398 375 448 398 428 478 469
392 396 458 431 425 413 498 490 455 455
408 425 405 400 357 448 474 429 451 451
434 373 401 416 412 442 460 451 456 450
394 442 407 375 382 448 457 430 440 479

Dai dati del problema, il sistema di ipotesi risulta essere:

243
⎧ H 0 : μ1 = μ 2

⎩ H 1 : μ1 ≠ μ 2
cioè:
⎧ H 0 : μ1 − μ 2 = 0

⎩ H1 : μ1 − μ2 ≠ 0
α = 0,05
Partendo dalla cella A1 inserire i valori utilizzando una sola colonna ottenendo
il seguente risultato (fig. 8.83):

Fig. 8.83 – Inserimento valori della tab. 8.16

Per attivare la procedura Strumenti di analisi: Test t: due campioni assu-


mendo uguale varianza, aprire il menu Strumenti e selezionare la voce Ana-
lisi dati (fig. 8.84):

244
Fig. 8.84 – Analisi dati: Test t: due campioni assumendo uguale varianza

Selezionare la voce Test t: due campioni assumendo uguale varianza e pre-


mere il pulsante OK (fig. 8.85):

Fig. 8.85 – Test t: due campioni assumendo uguale varianza

Nell’Intervallo variabile 1 digitare: $A$1:$A$51, Intervallo variabile 2:


$C$1:$C$51, Differenza ipotizzata per le medie: 0, attivare l’opzione Eti-
chette, Alfa: 0,05 e nelle Opzioni di output Intervallo di output: $E$2 (fig.
8.86):

Fig. 8.86 – Inserimento valori Test t: due campioni assumendo uguale varianza
per l’esempio 8.21

245
Infine, premendo il pulsante OK si ottiene (fig. 8.87):

Fig. 8.87 – Test t: due campioni assumendo uguale varianza per i dati
dell’esempio 8.21

Poiché il valore della statistica-test Stat T (-9,854) risulta essere esterno


all’intervallo t critico due code (-1,984; 1,984), al livello di significatività del
5%, vi è stato un cambiamento nella regolazione della macchina tra le due date.

4.4.3. Verifica di ipotesi sulla differenza tra valori medi (varianze


ignote e diverse)

In questo caso si è condotti a sostituire σ 12 e σ 22 con le loro stime campio-


narie corrette:
n1

∑(x 1i − x1 ) 2
s12 = i =1
n1 + −1
n2

∑(x 2i − x2 ) 2
s22 = i =1
n2 − 1
In questo caso la statistica-test risulta essere:
x −x
T= 1 2
s12 s22
+
n1 n2

246
la quale, se è vera l’ipotesi nulla, segue una distribuzione t di Student con i
seguenti gradi di libertà (Welch):
2
⎡ s12 s22 ⎤
⎢ + ⎥
n n
ν = ⎣ 12 2 ⎦ 2
⎡ s12 ⎤ ⎡ s22 ⎤
⎢ ⎥ ⎢ ⎥
⎣ n1 ⎦ + ⎣ n2 ⎦
n1 − 1 n2 − 1
Per quanto concerne le regole di decisione valgono le stesse considerazioni
fatte al paragrafo precedente.
In Excel all’interno del menu Strumenti Analisi dati troviamo Test t: due
campioni assumendo varianze diverse consente di eseguire un test t di Stu-
dent a due campioni. Questa forma del test, definito test t eteroschedastico,
presuppone che le varianze dei due intervalli di dati siano diverse. È possibile
utilizzare un test t per determinare se le medie di due campioni sono uguali
(fig. 8.88).

Fig. 8.88 – Strumento Analisi dati Test t: due campioni assumendo varianze di-
verse

Premendo il pulsante OK comparirà le seguente finestra (fig. 8.89):

Fig. 8.89 – Test t: due campioni assumendo varianze diverse (input)

247
dove:

- Intervallo variabile 1: riferimento di cella per il primo intervallo di dati


da analizzare che deve consistere in una singola colonna o riga di dati;
- Intervallo variabile 2: riferimento di cella per il secondo intervallo di da-
ti da analizzare che deve consistere in una singola colonna o riga di dati;
- Differenza ipotizzata per le medie: numero desiderato per la variazione
delle medie campione. Il valore 0 indica che si ipotizzano le stesse medie
campione;
- Etichette: selezionare questa casella di controllo se la prima riga o colon-
na dell'intervallo di input contiene etichette, in caso contrario deselezio-
narla. Vengono generate delle etichette dati appropriate per la tabella di
output;
- Alfa: livello di confidenza per il test che deve essere un valore compreso
nell'intervallo 0÷1. Il livello alfa è un livello di significatività correlato al-
la probabilità di riscontrare un errore di tipo I, ossia il rifiuto di un'ipotesi
vera;
- Intervallo di output: riferimento della cella superiore sinistra della tabel-
la di output. Le dimensioni dell'area di output vengono determinate auto-
maticamente e viene visualizzato un messaggio qualora la tabella di
output sostituisca i dati esistenti;
- Nuovo foglio di lavoro: inserimento di un nuovo foglio di lavoro nella
cartella di lavoro corrente e copia dei risultati a partire dalla cella A1 del
nuovo foglio di lavoro. Per assegnare un nome al nuovo foglio di lavoro,
digitarlo nella casella di testo;
- Nuova cartella di lavoro: creazione di una nuova cartella di lavoro e co-
pia dei risultati in un nuovo foglio della nuova cartella di lavoro.

Per quanto concerne la tabella di output (fig. 8.90):

Fig. 8.90 – Test t: due campioni assumendo varianze diverse (output)

abbiamo:

248
- le medie aritmetiche della Variabile 1 nella cella C3 e Variabile 2 nella
cella D3;
- le varianze campionarie nelle celle C4 e D4 rispettivamente della Varia-
bile 1 e Variabile 2;
- il numero di osservazioni della Variabile 1 e Variabile 2 nelle celle C5 e
D5 rispettivamente;
- la differenza ipotizzata per la media nella cella C6;
- nella cella C7 il calcolo dei gradi di libertà (gdl);
- Stat T, il valore della statistica-test, nella cella C8;
- t critico una coda, t critico due code rispettivamente nelle celle C10 e
C12;
- P(T<=t) una coda e P(T<=t) due code rispettivamente nelle celle C9 e
C11.

Il risultato della fig. 8.90 si interpreta come già trattato nel paragrafo prece-
dente.

Esempio 8.22

Si vogliono confrontare due tipi di vernici fosforescenti utilizzate per strumenti


di misura. A questo fine vengono verniciati 5 strumenti con la vernice di tipo A
e altri 5 con la vernice di tipo B. In seguito gli strumenti vengono illuminati
con luce ultravioletta e viene misurato il tempo di fosforescenza (in minuti) do-
po che la sorgente luminosa è stata rimossa; i valori registrati sono contenuti
nella tab. 8.17. Si vuole verificare se le due vernici risultano avere lo stesso
tempo di fosforescenza ad un livello di significatività del 5%.

Tab. 8.17 – Tempo (in minuti) di fosforescenza di due tipi di vernici


Vernice A 65 70 59 62 64
Vernice B 64 65 71 75 73

Dai dati del problema, il sistema di ipotesi risulta essere:


⎧H 0 : μ A = μ B

⎩ H1 : μ A ≠ μ B
cioè:
⎧H 0 : μ A − μ B = 0

⎩ H1 : μ A − μ B ≠ 0
α = 0,05
Partendo dalla cella A1 inserire i valori ottenendo il seguente risultato (fig.
8.91):

249
Fig. 8.91 – Inserimento valori della tab. 8.17

Per attivare la procedura Strumenti di analisi: Test t: due campioni assu-


mendo varianze diverse, aprire il menu Strumenti e selezionare la voce Ana-
lisi dati (fig. 8.92):

Fig. 8.92 – Analisi dati: Test t: due campioni assumendo varianze diverse

Selezionare la voce Test t: due campioni assumendo varianze diverse e


premere il pulsante OK (fig. 8.93):

Fig. 8.93 – Test t: due campioni assumendo varianze diverse

Nell’Intervallo variabile 1 digitare: $A$1:$A$6, Intervallo variabile 2:


$C$1:$C$6, Differenza ipotizzata per le medie: 0, attivare l’opzione Etichet-
te, Alfa: 0,05 e nelle Opzioni di output Intervallo di output: $E$2 (fig. 8.94):

250
Fig. 8.94 – Inserimento valori Test t: due campioni assumendo varianze diverse
per l’esempio 8.22

Infine, premendo il pulsante OK si ottiene (fig. 8.95):

Fig. 8.95 – Test t: due campioni assumendo varianze diverse per i dati
dell’esempio 8.22

Poiché il valore della statistica-test Stat T (-1,972) è interno all’intervallo di


accettazione dell’ipotesi nulla t critico due code (-2,306; 2,306), si può con-
cludere che tra le due vernici non sono state riscontrate differenze significative.

4.4.4. Verifica di ipotesi sulla differenza tra valori medi per campio-
ni appaiati

In alcune applicazioni può essere utile verificare una variazione di un valo-


re medio prima e dopo un dato trattamento.
Si consideri una stessa variabile X osservata sulle stesse unità della popo-
lazione, ad esempio prima X 1 e dopo X 2 un dato trattamento. Si supponga,

251
inoltre, che X 1 si distribuisca secondo una legge normale con media μ1 e va-
rianza σ 12 e X 2 come una normale con media μ 2 e varianza σ 22 .
Scelto un campione casuale di n unità (coppie) del tipo:
(x11, x21 ), (x12 , x22 ), (x13 , x23 ), …, (x1n , x2 n )
si consideri la differenza tra ogni coppia di osservazioni:
di = ( x2i − x1i ) i = 1,…, n
Sia μ D = μ 2 − μ1 la differenza tra le medie della variabile nella popolazio-
ne, l’ipotesi nulla prevede che il trattamento sia inefficace e l’ipotesi alternativa
che il trattamento sia efficace, cioè:

- H 0 : μ 2 − μ1 = 0 ;
- H1 : μ 2 − μ1 < 0 ;
- H1 : μ 2 − μ1 > 0 ;
- H1 : μ 2 − μ1 ≠ 0 .

La statistica-test risulta essere:


d
Z=
σd
n
dove:

- d è la media aritmetica delle differenze appaiate;


- σ d è la deviazione standard delle differenze appaiate.

Se l’ipotesi nulla è vera, la statistica-test si distribuisce secondo una norma-


le standardizzata.
Purtroppo, molto spesso, σ d non è nota e di rende pertanto necessario sti-
marla. Uno stimatore corretto di σ d si può ottenere tramite sd che indica la
deviazione standard corretta delle differenze campionarie:
n
(d − d )
2

sd = ∑
i =1
i
n −1
In questo caso, la statistica-test risulta essere:
d
T=
sd
n

252
che sotto l’ipotesi nulla segue una legge t di Student con n − 1 gradi di li-
bertà.
Le regole di decisione hanno la struttura analoga a quelle già viste prece-
dentemente.
In Excel all’interno del menu Strumenti Analisi dati troviamo Test t: due
campioni accoppiati per medie che consente di eseguire un test t di Student a
due campioni accoppiati per determinare se le medie di un campione sono di-
stinte. Questa forma del test t non presuppone che le varianze delle due popola-
zioni siano uguali. È possibile utilizzare un test accoppiato quando vi è un natu-
rale appaiamento tra le osservazioni dei campioni, come nel caso di una duplice
verifica di un gruppo campione, prima e dopo un esperimento (fig. 8.96).

Fig. 8.96 – Strumento Analisi dati Test t: due campioni accoppiati per medie

Premendo il pulsante OK comparirà le seguente finestra (fig. 8.97):

Fig. 8.97 – Test t: due campioni accoppiati per medie (input)

dove:

- Intervallo variabile 1: riferimento di cella per il primo intervallo di dati


da analizzare che deve consistere in una singola colonna o riga di dati;
- Intervallo variabile 2: riferimento di cella per il secondo intervallo di da-
ti da analizzare che deve consistere in una singola colonna o riga di dati;

253
- Differenza ipotizzata per le medie: numero desiderato per la variazione
delle medie campione. Il valore 0 indica che si ipotizzano le stesse medie
campione;
- Etichette: selezionare questa casella di controllo se la prima riga o colon-
na dell'intervallo di input contiene etichette, in caso contrario deselezio-
narla. Vengono generate delle etichette dati appropriate per la tabella di
output;
- Alfa: livello di confidenza per il test che deve essere un valore compreso
nell'intervallo 0÷1. Il livello alfa è un livello di significatività correlato al-
la probabilità di riscontrare un errore di tipo I, ossia il rifiuto di un'ipotesi
vera;
- Intervallo di output: riferimento della cella superiore sinistra della tabel-
la di output. Le dimensioni dell'area di output vengono determinate auto-
maticamente e viene visualizzato un messaggio qualora la tabella di
output sostituisca i dati esistenti;
- Nuovo foglio di lavoro: inserimento di un nuovo foglio di lavoro nella
cartella di lavoro corrente e copia dei risultati a partire dalla cella A1 del
nuovo foglio di lavoro. Per assegnare un nome al nuovo foglio di lavoro,
digitarlo nella casella di testo;
- Nuova cartella di lavoro: creazione di una nuova cartella di lavoro e co-
pia dei risultati in un nuovo foglio della nuova cartella di lavoro.

Per quanto concerne la tabella di output (fig. 8.98):

Fig. 8.98 – Test t: due campioni accoppiati per medie (output)

abbiamo:

- le medie aritmetiche della Variabile 1 nella cella C3 e Variabile 2 nella


cella D3;
- le varianze campionarie nelle celle C4 e D4 rispettivamente della Varia-
bile 1 e Variabile 2;

254
- il numero di osservazioni della Variabile 1 e Variabile 2 nelle celle C5 e
D5 rispettivamente;
- nella cella C6 l’indice di correlazione di Pearson, indice adimensionale
compreso tra -1 e 1 inclusi che riflette l'estensione di una relazione linea-
re tra due insiemi di dati calcolato sulla base della seguente formula:
⎛ n ⎞ ⎛ n ⎞⎛ n ⎞
∑ ∑ ∑
n ⎜⎜ x1i x2i ⎟⎟ − ⎜⎜ x1i ⎟⎟ ⎜⎜ x2i ⎟⎟
⎝ i =1 ⎠ ⎝ i =1 ⎠ ⎝ i =1 ⎠
r=
⎡ n ⎞ ⎤ ⎡⎡ n 2 ⎛ n ⎞ ⎤⎤
2 2
⎛ n
⎢n∑
⎢ i =1

x1i − ⎜⎜ x1i ⎟⎟ ⎥ ⎢n
2



⎢ ⎢

⎝ i =1 ⎠ ⎦ ⎣ ⎣ i =1

x2i − ⎜⎜ x2i ⎟⎟ ⎥ ⎥
⎝ i =1 ⎠ ⎥⎦ ⎥⎦

- la differenza ipotizzata per la media nella cella C7;
- nella cella C8 il calcolo dei gradi di libertà (gdl);
- Stat T, il valore della statistica-test, nella cella C9;
- t critico una coda, t critico due code rispettivamente nelle celle C11 e
C13;
- P(T<=t) una coda e P(T<=t) due code rispettivamente nelle celle C10 e
C12.

Il risultato della fig. 8.98 si interpreta come già trattato nei paragrafi prece-
denti.

Esempio 8.23

Al fine di valutare la validità di un corso di videoscrittura viene estratto un


campione di 24 soggetti di sesso maschile e di età compresa tra 22 e 26 anni
forniti dello stesso titolo di studio. A tal fine viene conteggiato prima e dopo il
corso il numero di frasi digitate; i risultati sono riportati nella tab. 8.18. Al li-
vello di significatività del 5% si vuole verificare se il corso ha comportato un
miglioramento in termini di velocità.

Tab. 8.18 – Risultati di un corso di videoscrittura


prima del corso dopo il corso
soggetti
x1i x2i
1 10 20
2 15 18
3 8 10
4 10 11
5 6 8
6 10 10
7 12 13
8 13 15

255
9 7 22
10 2 6
11 8 12
12 9 13
13 11 12
14 6 8
15 5 9
16 10 12
17 11 14
18 19 23
19 12 16
20 11 15
21 8 10
22 9 12
23 17 25
24 14 15

Dai dati del problema, il sistema di ipotesi risulta essere:


⎪⎧ H 0 : μ dopo − μ prima = 0

⎪⎩ H1 : μ dopo − μ prima ≠ 0
α = 0,05
Partendo dalla cella A1 inserire i valori della tab. 8.18 ottenendo il seguente ri-
sultato (fig. 8.99):

256
Fig. 8.99 – Inserimento valori della tab. 8.18

Per attivare la procedura Strumenti di analisi: Test t: due campioni accop-


piati per medie, aprire il menu Strumenti e selezionare la voce Analisi dati
(fig. 8.100):

Fig. 8.100 – Analisi dati: Test t: due campioni accoppiati per medie

Selezionare la voce Test t: due campioni accoppiati per medie e premere il


pulsante OK (fig. 8.101):

257
Fig. 8.101 – Test t: due campioni accoppiati per medie

Nell’Intervallo variabile 1 digitare: $B$1:$B$25, Intervallo variabile 2:


$C$1:$C$25, Differenza ipotizzata per le medie: 0, attivare l’opzione Eti-
chette, Alfa: 0,05 e nelle Opzioni di output Intervallo di output: $E$2 (fig.
8.102):

Fig. 8.102 – Inserimento valori Test t: due campioni accoppiati per medie per
l’esempio 8.23

Infine, premendo il pulsante OK si ottiene (fig. 8.103):

258
Fig. 8.103 – Test t: due campioni accoppiati per medie per i dati dell’esempio 8.23

Poiché il valore della statistica-test Stat T (-5,347) si trova all’esterno


dell’intervallo di accettazione dell’ipotesi nulla t critico due code (-2,068;
2,068), si rifiuta l’ipotesi nulla e quindi si può affermare che il corso di dattilo-
grafia è risultato efficace.

4.5. Verifiche di ipotesi sulla varianza

Per verificare l’ipotesi nulla che una popolazione normale abbia varianza
σ :
2
0

H 0 : σ 2 = σ 02
la statistica-test da utilizzare è:
2
⎛s ⎞
Χ = (n − 1) ⎜⎜ c ⎟⎟
2

⎝σ0 ⎠
la quale, se è vera l’ipotesi nulla, si distribuisce secondo una distribuzione
χ con n − 1 gradi di libertà.
2

Per quanto riguarda la regola di decisione, si avrà che, se:

- H1 : σ 2 < σ 02 , si accetta l’ipotesi nulla se risulta Χ 2 < χα2 ; n −1 ;


- H1 : σ 2 > σ 02 , si accetta l’ipotesi nulla se risulta Χ 2 > χ12−α ; n −1 ;
- H1 : σ 2 ≠ σ 02 , si accetta l’ipotesi nulla se risulta χ 2 α < Χ 2 < χ α2 .
1− ; n −1 ; n −1
2 2

259
Esempio 8.24

La tab. 8.19 registra il contenuto di grassi insaturi (in percentuale) di un cam-


pione di 10 confezioni di margarina. Si vuole verificare ad un livello di signifi-
catività del 5% che il processo produttivo fornisca margarina con una varianza
di grassi insaturi pari a 1,0.

Tab. 8.19 – Livello di grassi insaturi (in percentuale) in un campione di 10 confe-


zioni di margarina
16,6 17,1 17,4 16,8 16,4 17,1 16,6 17,1 16,6 16,4

Dal problema il sistema di ipotesi risulta essere:


⎧⎪ H 0 : σ 2 = 1,0

⎪⎩ H1 : σ 2 ≠ 1,0
α = 0,05
Posizionandosi con il cursore nella cella B1 digitare: H 0 : σ 2 = , B2: H1 : σ 2 ≠ ,
B3: α = , C1: 1,0, C2: 1,0, C3: 0,05 (fig. 8.104):

Fig. 8.104 – Impostazione del sistema di ipotesi per l’esempio 8.24

Partendo dalla cella B5 inserire i dati della tab. 8.24 ottenendo il seguente risul-
tato (fig. 8.105):

Fig. 8.105 – Inserimento valori della tab. 8.19

260
A questo punto posizionarsi nella cella A16 e digitare: n = , A17: s = , A19:
χ c2 = (valore critico), A21: Χ 2 = (funzione-test), A23: risultato:. Nella cella
B16: =CONTA.VALORI($B$5:$B$14), B17: =DEV.ST($B$5:$B$14), B19:
=INV.CHI(1-($C$3/2);$B$16-1), C19: =INV.CHI($C$3/2;$B$16-1), B21:
=((B17^2)/$C$1)*($B$16-1), B23: =SE($B$21<$B$19;"si rifiuta l'ipotesi nul-
la";SE($B$21>$C$19;"si rifiuta l'ipotesi nulla";"si accetta l'ipotesi nulla"))
fig. (8.106):

Fig. 8.106 – Predisposizione formule per l’esempio 8.24

Poiché il valore della statistica-test Χ 2 (1,069) è esterno alla regione di accet-


tazione (2,700; 19,023), si può concludere che il processo produttivo non forni-
sce, ad un livello di significatività del 5%, margarina con una varianza di grassi
insaturi pari a 1,0.

4.5.1. Verifica di ipotesi sul rapporto tra varianze

Si è visto che il confronto tra medie si articola in modo diverso, a seconda


delle informazioni che si hanno sulle varianze. Nel caso in cui non abbiano co-
noscenze sulle varianze delle popolazioni è necessario effettuare un test per ve-
rificare se esse sono uguali o differenti e dunque applicare, poi, il test sul con-
fronto tra medie più appropriato.
Si considerino due campioni casuali:
x11 , x12 , …, x1n1
e:
x21, x22 , …, x2 n2
estratti rispettivamente da una legge normale con media μ1 e varianza σ 12
e da una legge normale con media μ 2 e varianza σ 22 .

261
Se le medie delle due popolazioni ( μ1 , μ 2 ) sono note la statistica-test da
utilizzare è:
2
⎛s ⎞
F = ⎜⎜ 1 ⎟⎟
⎝ s2 ⎠
dove:

n1
(x1i − μ1 )2
- s12 = ∑
i =1 n1
;

n2
(x2i − μ2 )2 ;
- s22 = ∑
i =1 n2

che si distribuisce come una F di Snedecor-Fisher con n1 e n2 gradi di li-


bertà; altrimenti si utilizza la funzione-test:
2
⎛ sˆ ⎞
F = ⎜⎜ 1 ⎟⎟
⎝ sˆ2 ⎠
dove:

n1
(x1i − x1 )2 ;
- sˆ12 = ∑
i =1 n1 − 1
n2
(x2i − x2 )2
- sˆ22 = ∑
i =1 n2 − 1
;

che si distribuisce come una F di Snedecor-Fisher con n1 − 1 e n2 − 1 gradi


di libertà.
Per quanto riguarda la regola di decisione, si avrà che, se:

- H1 : σ 12 < σ 12 , si accetta l’ipotesi nulla se risulta F 2 > Fα2; (n1 −1, n2 −1) ;
- H1 : σ 12 > σ 22 , si accetta l’ipotesi nulla se risulta F 2 < Fα2; (n1 −1, n2 −1) ;
- H1 : σ 12 ≠ σ 22 , si accetta l’ipotesi nulla se risulta
F 2α < F 2 < Fα2 .
1− ; ( n1 −1, n2 −1) ; ( n1 −1, n2 −1)
2 2

In Excel all’interno del menu Strumenti Analisi dati troviamo Test F a


due campioni per varianze che consente di eseguire un test F a due campioni
per confrontare le varianze di due popolazioni (fig. 8.107).
262
Fig. 8.107 – Strumento Analisi dati Test F a due campioni per varianze

Premendo il pulsante OK comparirà le seguente finestra (fig. 8.108):

Fig. 8.108 – Test F a due campioni per varianze (input)

dove:

- Intervallo variabile 1: riferimento di cella per il primo intervallo di dati


da analizzare che deve consistere in una singola colonna o riga di dati;
- Intervallo variabile 2: riferimento di cella per il secondo intervallo di da-
ti da analizzare che deve consistere in una singola colonna o riga di dati;
- Etichette: selezionare questa casella di controllo se la prima riga o colon-
na dell'intervallo di input contiene etichette, in caso contrario deselezio-
narla. Vengono generate delle etichette dati appropriate per la tabella di
output;
- Alfa: livello di confidenza per il test che deve essere un valore compreso
nell'intervallo 0÷1. Il livello alfa è un livello di significatività correlato al-
la probabilità di riscontrare un errore di tipo I, ossia il rifiuto di un'ipotesi
vera;
- Intervallo di output: riferimento della cella superiore sinistra della tabel-
la di output. Le dimensioni dell'area di output vengono determinate auto-
maticamente e viene visualizzato un messaggio qualora la tabella di
output sostituisca i dati esistenti;

263
- Nuovo foglio di lavoro: inserimento di un nuovo foglio di lavoro nella
cartella di lavoro corrente e copia dei risultati a partire dalla cella A1 del
nuovo foglio di lavoro. Per assegnare un nome al nuovo foglio di lavoro,
digitarlo nella casella di testo;
- Nuova cartella di lavoro: creazione di una nuova cartella di lavoro e co-
pia dei risultati in un nuovo foglio della nuova cartella di lavoro.

Per quanto concerne la tabella di output (fig. 8.109):

Fig. 8.109 – Test F a due campioni per varianze (output)

abbiamo:

- le medie aritmetiche della Variabile 1 nella cella C3 e Variabile 2 nella


cella D3;
- le varianze campionarie nelle celle C4 e D4 rispettivamente della Varia-
bile 1 e Variabile 2;
- il numero di osservazioni della Variabile 1 e Variabile 2 nelle celle C5 e
D5 rispettivamente;
- nella cella C6 ed D6 il calcolo dei gradi di libertà (gdl);
- il valore della statistica-test F, nella cella C7;
- P(F<=f) una coda nella celle C8;
- F critico una coda, nella celle C9.

Il risultato della fig. 8.109 si interpreta come già trattato nei paragrafi pre-
cedenti fatto salvo che la procedura considera solamente ipotesi alternative u-
nidirezionali cioè H1 : σ 12 > σ 22 .

Esempio 8.25

La tab. 8.20 riporta la dimensione esterna (in mm) di due campioni di 10 dischi
metallici prodotti con due tipi diversi di procedimenti (A, B). Si vuole verifica-
re ad un livello di significatività dell’1% se la variabilità dei diametri esterni
dei dischi è maggiore con il procedimento A rispetto al procedimento B.

264
Tab. 8.20 – Dimensione esterna (in mm) di due campioni di 10 dischi metallici
diametro dischi procedimento A diametro dischi procedimento B

48,832 52,478
45,029 43,919
50,950 53,075
54,965 53,332
54,661 54,528
56,741 57,230
41,505 45,476
49,089 51,130
54,259 52,837
45,772 49,538

Dal problema il sistema di ipotesi risulta essere:


⎧⎪ H 0 : σ A2 = σ B2

⎪⎩ H1 : σ A2 > σ B2
α = 0,01
Partendo dalla cella A1 inserire i valori della tab. 8.20 ottenendo il seguente ri-
sultato (fig. 8.110):

Fig. 8.110 – Inserimento valori della tab. 8.20

Per attivare la procedura Strumenti di analisi: Test F a due campioni per va-
rianze, aprire il menu Strumenti e selezionare la voce Analisi dati (fig.
8.111):

265
Fig. 8.111 – Analisi dati: Test F a due campioni per varianze

Selezionare la voce Test F a due campioni per varianze e premere il pulsante


OK (fig. 8.112):

Fig. 8.112 – Test F a due campioni per varianze

Nell’Intervallo variabile 1 digitare: $A$1:$A$11, Intervallo variabile 2:


$C$1:$C$11, Differenza ipotizzata per le medie: 0, attivare l’opzione Eti-
chette, Alfa: 0,01 e nelle Opzioni di output Intervallo di output: $E$2 (fig.
8.113):

Fig. 8.113 – Inserimento valori Test F a due campioni per varianze per l’esempio
8.25

Infine, premendo il pulsante OK si ottiene (fig. 8.114):

266
Fig. 8.114 – Test F a due campioni per varianze per i dati dell’esempio 8.25

Quindi, poiché il valore della statistica-test F (1,535) risulta essere inferiore a


F critico una coda (5,351), si può concludere che non vi è alcuna differenza in
termini di variabilità tra i due procedimenti produttivi.

4.6. Verifiche di ipotesi sulla frequenza

Si consideri una popolazione le cui unità posseggono o meno una certa ca-
ratteristica, ovvero le unità statistiche possono essere classificate secondo un
carattere qualitativo dicotomico.
Si estragga un campione di ampiezza n e si indichi con f = x / n , (dove x
è il numero di successi nel campione) la proporzione (frequenza) dei soggetti
che posseggono la caratteristica in esame, stima della vera ed ignota frequenza
p nella popolazione; supponendo che l’ipotesi nulla oggetto di confronto sia:
H 0 : p = p0
per n sufficientemente grande la statistica-test:
f − p0
Z=
p0 (1− p0 )
n
se è vera l’ipotesi nulla, distribuisce seguendo una distribuzione normale
standardizzata.
Per quanto concerne le regole di decisione si può fare riferimento a quanto
già visto per i test sul valor medio.

Esempio 8.26

Un’azienda che assembla computers rileva difetti di assemblaggio nel 20% dei
casi; si decide pertanto di utilizzare un nuovo procedimento. Da un campione
di 100 computer assemblati, estratti casualmente da un lotto di 1.000, si rileva

267
che 18 presentano difetti. Si vuole verificare, ad un livello di significatività del
5%, se è significativo il decremento nella proporzione dei difetti.

Dall’esempio, il sistema di ipotesi risulta essere:


⎧ H 0 : p = 0,2

⎩ H1 : p < 0,2
α = 0,05
Posizionarsi con il cursore nella cella B1 e digitare n° difetti =, B2: p0 = , B3:
p1 < , B4: n = , B5: α = , C1: 18, C2: 0,2, C3: 0,2, C4: 100, C5: 0,05 (fig.
8.115):

Fig. 8.115 – Inserimento dati esempio 8.26

Nella cella C7: f = , C9: zc = , C11: statistica-test =, C13: risultato:, B7:


=$C$1/$C$4, B9: =INV.NORM.ST($C$5), B11: =($B$7-$C$2)/RADQ
(($C$2*(1-$C$2))/$C$4), B13: =SE($B$11>$B$9;"si accetta l'ipotesi nul-
la";"si rifiuta l'ipotesi nulla") (fig. 8.116):

Fig. 8.116 – Predisposizione formule per l’esempio 8.26

Pertanto, al livello di significatività del 5%, non risulta essere significativo il


decremento nella proporzione dei difetti tra i due procedimenti produttivi
nell’assemblaggio dei computers.

268
Esempio 8.27

Mediante indagini di mercato una azienda ha rilevato che la quota di mercato di


un suo prodotto è del 35%. Dopo aver fatto una campagna pubblicitaria vuole
sapere se vi è stato un aumento delle vendite. Da un campione ( n = 50 ) si rileva
che il 42% delle persone intervistate acquista il suo prodotto. Verificare, al li-
vello di significatività del 5%, se la campagna pubblicitaria è stata efficace.

Dall’esempio, il sistema di ipotesi risulta essere:


⎧ H 0 : p = 0,35

⎩ H1 : p > 0,35
α = 0,05 .
Posizionarsi con il cursore nella cella B1 e digitare n° di persone intervistate
che acquistano il prodotto, B2: p0 = , B3: p1 > , B4: n = , B5: α = , C1:
=42%*C4, C2: 0,35, C3: 0,35, C4: 50, C5: 0,05 (fig. 8.117):

Fig. 8.117 – Inserimento dati esempio 8.27

Nella cella A7: f = , A9: zc = , A11: statistica-test =, A13: risultato:, B7:


=$C$1/$C$4, B9: =ASS(INV.NORM.ST($C$5)), B11: =($B$7-$C$2)/RADQ
(($C$2*(1-$C$2))/$C$4), B13: =SE($B$11<$B$9;"si accetta l'ipotesi nul-
la";"si rifiuta l'ipotesi nulla") (fig. 8.118):

Fig. 8.118 – Predisposizione formule per l’esempio 8.27

Pertanto, al livello di significatività del 5%, la campagna pubblicitaria non ha


aumentato significativamente la quota di mercato del suo prodotto.

269
9. Inferenza statistica non parametrica

1. Generalità

Un criterio alternativo all’utilizzo dei test parametrici, per assumere delle


decisioni statistiche, consiste nell’utilizzare tecniche che non utilizzino alcuna
informazione sulla distribuzione di probabilità; tali metodologie vengono co-
munemente indicate come metodi non parametrici e i relativi test come test non
parametrici.
Tali metodi risultano particolarmente utili quando la distribuzione di pro-
babilità della popolazione è sconosciuta e non è possibile utilizzare test che
coinvolgano ipotesi sui parametri della popolazione.
Genericamente si può affermare che un test non parametrico di significati-
vità è un test che può essere utilizzato per qualsiasi forma della distribuzione
del carattere nella popolazione.
In generale i test non parametrici possono essere suddivisi in due grandi
categorie; nella prima rientrano quelli basati sulle frequenze, nella seconda
quelli basati sull’ordinamento delle informazioni.
In questo capitolo verrà presentato solamente il test del χ 2 , per la verifica
della bontà di adattamento di distribuzioni teoriche a distribuzioni empiriche,
basato sulle frequenze.

2. Test per la bontà dell’adattamento

Il test del χ 2 viene utilizzato per confrontare un insieme di frequenze os-


servate in un campione con le analoghe quantità teoriche desunte da un model-
lo ipotizzato per la popolazione. Si tratta, in altri termini, di una procedura di
confronto tra le frequenze empiriche, osservate e le frequenze teoriche, ipotiz-
zate, per valutare la bontà dell’adattamento tra i due insiemi di valori. Median-
te il test è possibile misurare quantitativamente il grado di deviazione tra i due
insiemi di valori.

270
Si consideri una variabile X con distribuzione di probabilità da verificare
(ad esempio binomiale, Poisson, normale, ecc.); se si effettuano n misure della
variabile e si raggruppano i valori, si ottiene una distribuzione empirica di fre-
quenze. Tale distribuzione viene successivamente confrontata con una distribu-
zione teorica ipotetica valutando in questo modo il grado di adattamento tra le
due distribuzioni.
Si indichi genericamente con:

- ai le modalità o classi della distribuzione empirica;


- n il numero totale di elementi del campione;
- f i le frequenze assolute empiriche osservate dell’i-esima modalità;
- fri = f i / n le frequenze relative empiriche dell’i-esima modalità;
- pi le probabilità teoriche dell’i-esima modalità;
- n ⋅ pi le frequenze assolute teoriche dell’i-esima modalità;

e si riportino i valori come in tab. 9.1:

Tab. 9.1 – Tabella dati per il calcolo del test χ2


Frequenze Frequenze
Modalità Probabilità Frequenze
assolute relative
o classi teoriche teoriche
campionarie campionarie
a1 f1 fr1 = f1 / n p1 n ⋅ p1
a2 f2 fr2 = f 2 / n p2 n ⋅ p2

ai fi fri = f i / n pi n ⋅ pi

ak fk frk = f k / n pk n ⋅ pk
totale n 1 1 n

Si tratta di confrontare fra loro le frequenze empiriche e quelle teoriche ef-


fettuando in test per verificare l’ipotesi nulla che tra le probabilità teoriche e le
frequenze relative empiriche vi sia un buon accordo; in simboli:
H 0 : p = pi 0 i = 1, 2, …, k
L’ipotesi alternativa risulta essere:
H 1 : la distribuzione teorica non si adatta alla distribuzione empirica
La funzione da utilizzare per effettuare il test, introdotta da K. Pearson, è
data da:

271
k
( f i − n ⋅ pi )2
Χ= ∑ i =1 n ⋅ pi
che, se è vera l’ipotesi nulla, si distribuisce secondo una distribuzione χ 2
con:

- ν = k − 1 gradi di libertà, se sono noti i parametri della distribuzione teo-


rica;
- ν = k − 1 − r gradi di libertà, se gli r parametri della distribuzione teorica
devono essere stimati utilizzando i dati campionari.

La regione critica del test è definita dalla coda di destra della distribuzione,
in quanto in tale regione vi sono i valori più grandi di χ 2 , che indicano diffe-
renze significativamente elevate tra frequenze teoriche e frequenze empiriche.
La regione di accettazione dell’ipotesi nulla è invece quella in cui si hanno
bassi valori di χ 2 che indicano accordo tra le frequenze.
Fissato il livello di significatività α per un determinato ν , si determina
dalla tabella della distribuzione χ 2 , il valore critico χ c2 che stabilisce la soglia
della regione critica (fig. 9.1):

χ c2
Fig. 9.1 – Regione critica e di accettazione per il test χ2

(
P χ 2 ≥ χ c2 = α )
272
Le regole di decisione sono:

- si accetta l’ipotesi nulla se: X < χ c2 ;


- si rifiuta l’ipotesi nulla se: X ≥ χ c2 .

2.1. Adattamento di una distribuzione binomiale

Per adattare una distribuzione binomiale ad una distribuzione empirica oc-


corre conoscere il valore del parametro p .
Se p è noto, utilizzando legge di distribuzione di probabilità binomiale:
⎛n⎞
Ρ( X = k ) = ⎜⎜ ⎟⎟ p k q n − k
⎝k ⎠
dove k è il numero di successi, si ricavano le probabilità teoriche che,
moltiplicate per il numero n delle osservazioni, permettono di calcolare le fre-
quenze assolute teoriche.
Nel caso in cui p non sia noto, si determina il valor medio della distribu-
zione empirica e successivamente utilizzando la relazione μ = n p si determina
la stima del parametro p .
Infine, nel caso in cui, in n prove indipendenti, l’evento A si sia presenta-
to k volte e l’evento contrario A , n − k volte e nell’ipotesi che P( A) = p e
( )
P A = 1 − p = q , la funzione test risulterà essere data da:

Χ =
(k − n p )2 + [(n − k ) − n q ] 2 = (k − n p )2
np nq n pq
che, se è vera l’ipotesi nulla, si distribuisce secondo un χ 2 con
ν = k − 1 = 2 − 1 = 1 gradi di libertà.

Esempio 9.1

Un produttore afferma che solo l’1% dei pezzi prodotti sono difettosi. Ad un
controllo, su 500 pezzi ne risultano difettosi 9. Si vuole verificare
l’affermazione del produttore ad un livello di significatività del 5%.

Le ipotesi a confronto sono:


⎧ H 0 : p = 0,01

⎩ H 1 : p ≠ 0,01
α = 0,05
k =9

273
ν = 1.
Posizionarsi con il cursore nella cella B1 e digitare p = , B2: p ≠ , B3: n = ,
B4: α = , B5: ν = , B6: k = , C1: =0,01, C2: 0,01, C3: 500, C4: 0,05, C5: 1,
C6: 9 (fig. 9.2):

Fig. 9.2 – Inserimento dati esempio 9.1

Nella cella A8: n p = , A10: χ c = , A12: statistica-test (X) =, A14: risultato:,


B8: =$C$3*$C$1, B10: =INV.CHI($C$4;$C$5), B12: =($C$6-
$B$8)^2/($C$3*$C$1*(1-$C$1)), B14: =SE($B$12<$B$10;"si accetta l'ipote-
si nulla";"si rifiuta l'ipotesi nulla") (fig. 9.3):

Fig. 9.3 – Predisposizione formule per l’esempio 9.1

Pertanto, ad un livello di significatività del 5%, si può ritenere valida


l’affermazione del produttore.

Esempio 9.2

Durante un certo periodo un’apparecchiatura è stata sottoposta a controllo; in


100 lotti (ciascuno composto di 5 pezzi) è stata registrata la seguente distribu-
zione di pezzi difettosi (tab. 8.2):

274
Tab. 8.2 – Distribuzione di pezzi difettosi in 100 lotti
Pezzi difettosi 0 1 2 3 4 5 6
Lotti 11 32 26 14 12 4 1

Si vuole verificare, ad un livello del 5%, se è possibile adattare una distribuzio-


ne binomiale a questa distribuzione empirica.

Partendo dalla cella A1, introdurre i dati della tab. 8.2, nella cella A10: n = e
in B10: =SOMMA($B$2:$B$8) (fig. 9.4):

Fig. 9.4 – Inserimento dati dell’esempio 9.2

Per stimare p è necessario calcolare il valor medio della distribuzione empiri-


ca.
Nella cella C1 digitare k ⋅ f e (modalità · frequenze empiriche), C2: =A2*B2,
copiare tale formula nelle celle C3:C8.
Nella C10: =SOMMA($C$2:$C$8), B12: μ = , B14: p = , C12: =$C$10/
$B$10, C14: =$C$12/$B$10 (fig. 9.5):

275
Fig. 9.5 – Calcolo di μ e p per i dati dell’esempio 9.2

Per il calcolo delle probabilità teoriche si utilizza la densità di probabilità della


distribuzione binomiale di parametri n = 100 , pˆ = 0,02 . Posizionarsi nella cel-
la D1, digitare probabilità teoriche, nella cella D2:
=DISTRIB.BINOM(A2;$B$10;$C$14;FALSO), quindi copiare tale formula
nelle celle D3:D8 ottenendo il seguente risultato (fig. 9.6):

Fig. 9.6 – Calcolo delle probabilità teoriche per e dati dell’esempio 9.2

276
Le frequenze teoriche sono ottenute moltiplicando le varie probabilità teoriche
per n ; nella cella E1 digitare frequenze teoriche, nella cella E2: =D2*$B$10,
quindi copiare tale formula nelle celle E3:E8, ottenendo il seguente risultato
(fig. 9.7):

Fig. 9.7 – Calcolo delle frequenze teoriche per i dati dell’esempio 9.2

A questo punto il calcolo della funzione test risulta immediato in quanto:


( frequenza empirica − frequenza teorica )2
X = ∑ frequenza teorica
Posizionarsi nella cella F1 e digitare ( f e − f t ) 2 / f t , F2: =(B2-E2)^2/E2, copia-
re tale formula nelle celle F3:F8.
Nella E10: funzione test = e nella cella F10: =SOMMA($F$2:$F$8) (fig. 9.8):

277
Fig. 9.8 – Calcolo della funzione test per i dati dell’esempio 9.2

Infine, posizionarsi nella cella E12: α = , E14: ν = , E16: χ c = , E18: risultato,


F12: 0,05, F14: =CONTA.VALORI($A$2:$A$8)-1-1, F16: =INV.CHI($F$12;
$F$14), F18: =SE($F$10<$F$16;"si accetta l'ipotesi nulla";"si rifiuta l'ipotesi
nulla") (fig. 9.9):

Fig. 9.9 – Impostazione delle regole di decisione per il test di adattamento ad una
distribuzione binomiale per i dati dell’esempio 9.2

Quindi, ad un livello di significatività del 5%, è possibile adattare una distribu-


zione binomiale alla distribuzione empirica dei pezzi difettosi
dell’apparecchiatura sottoposta a controllo.

278
2.2. Adattamento di una distribuzione di Poisson

Per adattare una distribuzione di Poisson a una distribuzione empirica oc-


corre conoscere il valore del parametro λ .
Se λ è noto, utilizzando legge di distribuzione di probabilità di Poisson:
λk
Ρ( X = k ) = e −λ
k!
dove k è il numero di successi e λ = n p ; si ricavano le probabilità teori-
che che, moltiplicate per il numero n delle osservazioni, permettono di calcola-
re le frequenze assolute teoriche.
Se λ non è noto, basta ricavare il valore medio μ della distribuzione em-
pirica, in quanto, come si è visto nel capitolo 7, per una distribuzione di Pois-
son si ha λ = μ .
Infine, nel caso in cui l’evento A sia un evento raro, la funzione test risulte-
rà essere:

Χ ==
(k − λ )2
λ
che se è vera l’ipotesi nulla, si distribuisce secondo una legge χ 2 con 1
grado di libertà.

Esempio 9.3

Si sono esaminati 500 frigoriferi e si è annotata nella tab. 9.3 la distribuzione


del numero di difetti per ciascun pezzo:

Tab. 9.3 – Distribuzione del numero di difetti in 500 frigoriferi


N. difetti 0 1 2 3 4
N. pezzi 225 182 66 22 5

Si vuole verificare, ad un livello di significatività del 5%, la bontà


dell’adattamento ad una distribuzione di Poisson.

Partendo dalla cella A1 inserire i dati della tab. 8.3; nella A8: n = e nella cella
B8: =SOMMA($B$2:$B$6) (fig. 9.10):

279
Fig. 9.10 – Inserimento dati dell’esempio 9.3

Nella cella C1 digitare k ⋅ f e , C2: =A2*B2, copiare tale formula nelle celle
C3:C6.
Nella C8: =SOMMA($C$2:$C$6), B10: μ = λ = , C10: =$C$8/$B$8, (fig.
9.11):

Fig. 9.11 – Calcolo di λ per i dati dell’esempio 9.3

Nella cella D1: digitare probabilità teoriche, D2: =POISSON


(A2;$C$10;FALSO), quindi copiare la formula nelle celle D3:D6 (fig. 9.12):

280
Fig. 9.12 – Calcolo delle probabilità teoriche per i dati dell’esempio 9.3

Nella cella E1: frequenze teoriche, E2: =D2*$B$8, copiare tale formula nelle
celle E:E6 (fig. 9.13):

Fig. 9.13 – Calcolo delle frequenze teoriche per i dati dell’esempio 9.3

Nella cella F1: ( f e − f t ) 2 / f t , F2: =(B2-E2)^2/E2, copiarla nelle celle F3:F6.


Nella E8: funzione test = e nella F8: =SOMMA($F$2:$F$6) (fig. 9.14):

281
Fig. 9.14 – Calcolo della funzione test per i dati dell’esempio 9.3

Infine, nella cella E12: α = , E14: ν = , E16: χ c = , E18: risultato, F12: 0,05,
F14: =CONTA.VALORI($A$2:$A$6)-1-1, E16: =INV.CHI($F$10;$F$12),
E18: =SE($F$8<$F$14;"si accetta l'ipotesi nulla";"si rifiuta l'ipotesi nulla")
(fig. 9.15):

Fig. 9.15 – Impostazione delle regole di decisione per il test di adattamento ad una
distribuzione di Poisson per i dati dell’esempio 9.3

Quindi, ad un livello di significatività del 5%, è possibile adattare una distribu-


zione di Poisson alla distribuzione empirica del numero di difetti per i 500 fri-
goriferi esaminati.

282
2.3. Adattamento di una distribuzione normale

Per adattare una distribuzione normale ad una distribuzione empirica con


dati raggruppati in classi, per prima cosa si devono calcolare valore medio e va-
rianza della distribuzione empirica.
Il calcolo delle frequenze teoriche per ogni classe si articola nei seguenti
passi:

- si trasformano gli intervalli della variabile X in intervalli della variabile


normale standardizzata Z utilizzando la nota trasformazione:
X −μ
Z=
σ
- si calcolano le aree di probabilità per ogni intervallo della classe;
- si moltiplicano i valori di probabilità così ottenuti per il numero totale del-
le frequenze.

Esempio 9.4

Nella tab. 9.4 sono riportati i tempi di vita, in ore di funzionamento, di un cam-
pione di 60 componenti elettronici. Si vuole verificare, al livello di significati-
vità del 5%, se la distribuzione empirica risulta ben approssimata da una legge
normale.

Tab. 9.4 – Durata in ore del tempo di vita di 60 componenti elettronici


9 10 15 18 20 25
30 32 37 48 50 103
160 290 449 52 108 180
299 461 58 109 180 300
550 63 114 200 310 570
70 121 209 316 600 72
130 210 318 629 73 140
219 371 668 83 149 220
219 419 809 86 151 229
442 989 101 153 270 438

Posizionandosi nella cella A1 inserire i valori ottenendo il seguente risultato


(fig. 9.16):

283
Fig. 9.16 – Inserimento dati esempio 9.4

Per la verifica dell’adattamento alla distribuzione normale è necessario rag-


gruppare i dati in classi di frequenza; a tal fine è necessario utilizzare lo stru-
mento di Analisi dati Istogramma (cap. 2).
Posizionarsi nella cella A1 (in un nuovo foglio di lavoro) digitare classi, suc-
cessivamente introdurre i valori come da fig. 9.17:

Fig. 9.17 – Inserimento delle classi per i dati dell’esempio 9.4

Dal menu Strumenti selezionare la voce Analisi Dati (fig. 9.18):

284
Fig. 9.18 – Strumenti di analisi

Dopo aver selezionato la voce Istogramma e premuto il pulsante OK si ottiene


la seguente finestra (fig. 9.19):

Fig. 9.19 – Strumenti di analisi: Istogramma

Nella cella Intervallo di input digitare Foglio1!$A$1:$F$10, nella cella In-


tervallo della classe $B$2:$B$11 e nell’Intervallo di output $C$2 (fig. 9.20):

Fig. 9.20 – Selezione opzioni per la composizione dell’istogramma

dopo aver premuto il pulsante OK, si ottiene il seguente risultato (fig. 9.21):

285
Fig. 9.21 – Raggruppamento in classi della durata in ore del tempo di vita per 60
componenti elettronici

completando la tabella così ottenuta con il totale delle frequenze osservate.


Per il calcolo del valor medio della distribuzione empirica posizionarsi nella
cella D1 e digitare centro classe, nella cella D2: =(B2+A2)/2, quindi copiare la
formula nelle celle D3:D11.
A questo punto è necessario moltiplicare il valore del centro classe per la fre-
quenza empirica; quindi, nella cella E1 digitare Ccl ⋅ f , E2: =C2*D2 e succes-
sivamente copiare la formula nelle celle E3:E11.
Infine, nella cella E13 effettuare la somma dei valori così ottenuti
(=SOMMA($E$2:$E$11)), nella cella D15 digitare media = e nella cella E15:
=$E$13/$C$13 (fig. 9.22):

286
Fig. 9.22 – Calcolo del valor medio per i dati dell’esempio 9.4

Per quanto concerne il calcolo della varianza e della deviazione standard, de-
vono essere innanzitutto calcolati gli scarti al quadrato, come differenza tra il
centro classe e la media e successivamente moltiplicati per la frequenza empiri-
ca.
Posizionarsi con il cursore nella cella F1 e digitare scarto2 · f, nella cella F2:
=(D2-$E$15)^2*C2, copiare tale formula nelle celle F3:F11, quindi nella cella
F13 calcolare la somma dei valori così ottenuti (=SOMMA($F$2:$F$11)).
Infine, nella cella E17: varianza =, E19: dev.st =, F17: =$F$13/$C$13, F19:
=RADQ($F$17) (fig. 9.23):

287
Fig. 9.23 – Calcolo della varianza e della deviazione standard per i dati
dell’esempio 9.4

A questo punto è possibile trasformare gli intervalli delle classi della variabile
X in intervalli della variabile normale standardizzata Z .
Nella cella G1 digitare zinf , G2: =(A2-$E$15)/$F$19 e copiare tale formula
nelle celle G3:G11.
Infine nella H1: zsup , H2: =(B2-$E$15)/$F$19, quindi copiare la formula nelle
celle H3:H11 (fig. 9.24):

288
Fig. 9.24 – Calcolo di zinf e z sup per i dati dell’esempio 9.4

Per il calcolo delle probabilità teoriche è necessario dapprima calcolare le pro-


babilità associate ai valori z inf e z sup e quindi farne la differenza. Posizionarsi
nella cella I1 e digitare P(z inf ) , nella I2: =DISTRIB.NORM.ST(G2), copiare la
( )
formula nelle celle I3:I11. Nella cella J1: P z sup , J2: =DISTRIB.NORM.
ST(H2), copiare la formula nelle celle J3:J11. Infine, nella K1: probabilità teo-
riche, K2: =J2-I2 e copiare la formula nelle celle K3:K11 fig. (9.25):

Fig. 9.25 – Calcolo delle probabilità teoriche per i dati dell’esempio 9.4

289
Moltiplicando le probabilità teoriche così ottenute per n si ottengono le fre-
quenze teoriche (fig. 9.26):

Fig. 9.26 – Calcolo delle frequenze teoriche per i dati dell’esempio 9.4

Nella cella M1: ( f e − f t ) 2 / f t , M2: , copiarla nelle celle F3:F6.


Nella E8: funzione test = e nella F8: =SOMMA($F$2:$F$6) (fig. 9.27):

Fig. 9.27 – Calcolo della funzione test per i dati dell’esempio 9.4

Infine, nella cella L15: α = , L17: ν = , L19: χ c = , L21: risultato, M15: 0,05,
M17: =CONTA.VALORI($B$2:$B$11)-1-2, M19: =INV.CHI($M$15;$M$17),
M21: =SE($M$13<$M$19;"si accetta l'ipotesi nulla";"si rifiuta l'ipotesi nul-
la") (fig. 9.28):

290
Fig. 9.28 – Impostazione delle regole di decisione per il test di adattamento ad una
distribuzione normale per i dati dell’esempio 9.4

Quindi, ad un livello di significatività del 5%, non è possibile adattare una di-
stribuzione normale alla distribuzione empirica della durata in ore del tempo di
vita di 60 componenti elettronici.

Esempio 9.5

In un laboratorio chimico vengono effettuate 120 misure di assorbimento con


uno spettrofotometro ottenendo i seguenti risultati (tab. 9.5):

Tab. 9.5 – Misure di assorbimento con spettrofotometro


0,738 0,729 0,743 0,740 0,736
0,741 0,735 0,739 0,731 0,729
0,737 0,728 0,737 0,736 0,730
0,735 0,724 0,733 0,742 0,736
0,739 0,744 0,735 0,745 0,736
0,742 0,740 0,728 0,741 0,738
0,725 0,733 0,734 0,732 0,733
0,737 0,730 0,732 0,730 0,739
0,734 0,738 0,742 0,739 0,727
0,735 0,735 0,732 0,735 0,736
0,727 0,734 0,732 0,736 0,741
0,736 0,732 0,744 0,732 0,737
0,731 0,746 0,735 0,727 0,735
0,729 0,734 0,730 0,740 0,738
0,729 0,738 0,737 0,736 0,725
0,734 0,743 0,737 0,740 0,736
0,746 0,737 0,743 0,741 0,729
0,739 0,726 0,734 0,735 0,733
0,734 0,731 0,733 0,731 0,740

291
0,735 0,739 0,740 0,728 0,736
0,736 0,733 0,736 0,728 0,735
0,734 0,737 0,742 0,737 0,745
0,733 0,738 0,732 0,747 0,736
0,736 0,736 0,730 0,735 0,740

Ad un livello di significatività del 3% si vuole verificare la bontà di adattamen-


to della distribuzione empirica alla legge normale.

Posizionandosi nella cella A1 inserire i valori ottenendo il seguente risultato


(fig. 9.29):

Fig. 9.29 – Inserimento dati esempio 9.5

Per la definizione delle classi, si può operare in questo modo: considerando che
il valore più piccolo è xmin = 0,724 e il valore più grande è xmax = 0,747 e che
il range è pari a ϖ = xmax − xmin = 0,747 − 0,724 = 0,0023 ≈ 0,002 , partendo dal
valore 0,724 ed aggiungendo 0,002 , si ottiene (fig. 9.30):

292
Fig. 9.30 – Inserimento delle classi per i dati dell’esempio 9.5

Dal menu Strumenti selezionare la voce Analisi Dati (fig. 9.31):

Fig. 9.31 – Strumenti di analisi di Microsoft Excel

Dopo aver selezionato la voce Istogramma e premuto il pulsante OK si ottiene


la seguente finestra (fig. 9.32):

293
Fig. 9.32 – Strumenti di analisi: Istogramma

Nella cella Intervallo di input digitare Foglio1!$A$1:$E$24, nella cella In-


tervallo della classe $B$2:$B$13 e nell’Intervallo di output $C$2 (fig. 9.33):

Fig. 9.33 – Selezione opzioni per la composizione dell’istogramma

dopo aver premuto il pulsante OK, si ottiene il seguente risultato (fig. 9.34):

294
Fig. 9.34 – Raggruppamento in classi delle misure con spettrofotometro

completando la tabella così ottenuta con il totale delle frequenze osservate.


Posizionarsi nella cella D1 e digitare centro classe, nella cella D2:
=(B2+A2)/2, quindi copiare la formula nelle celle D3:D13.
Nella cella E1 digitare Ccl ⋅ f , E2: =C2*D2 e successivamente copiare la for-
mula nelle celle E3:E13.
Infine, in E15 effettuare la somma dei valori così ottenuti (=SOMMA
($E$2:$E$13)), nella cella D17 digitare media = e nella cella E15:
=$E$15/$C$15 (fig. 9.35):

295
Fig. 9.35 – Calcolo del valor medio per i dati dell’esempio 9.5

Posizionarsi con il cursore nella cella F1 e digitare scarto2 · f, nella cella F2:
=(D2-$E$17)^2*C2, copiare tale formula nelle celle F3:F13, quindi nella cella
F13 calcolare la somma dei valori così ottenuti (=SOMMA($F$2:$F$13)). In-
fine, nella cella E19: varianza =, E21: dev.st =, F19: =$F$15/$C$15, F21:
=RADQ($F$19) (fig. 9.36):

Fig. 9.36 – Calcolo della varianza e della deviazione standard per i dati
dell’esempio 9.5

296
Nella cella G1 e H1 digitare zinf , z sup e nelle celle G2 e H2 =(A2-$E$17)
/$F$21, =(B2-$E$17)/$F$21. Quindi copiare tali formule nelle celle G3:G13 e
H3:H13 rispettivamente (fig. 9.37):

Fig. 9.37 – Calcolo di z inf e z sup per i dati dell’esempio 9.5

Posizionarsi nella cella I1 e digitare P(z inf ) , nella I2: =DISTRIB.NORM.ST


(G2), copiare la formula nelle celle I3:I13. Nella cella J1: P z sup , J2: ( )
=DISTRIB.NORM.ST(H2), copiare la formula nelle celle J3:J13. Infine, nella
K1: probabilità teoriche, K2: =J2-I2 e copiare la formula nelle celle K3:K13
fig. (9.38):

Fig. 9.38 – Calcolo delle probabilità teoriche per i dati dell’esempio 9.5

297
Moltiplicando le probabilità teoriche così ottenute per n si ottengono le fre-
quenze teoriche (fig. 9.39):

Fig. 9.39 – Calcolo delle frequenze teoriche per i dati dell’esempio 9.5

Nella cella M1: ( f e − f t ) 2 / f t , M2: , copiarla nelle celle M3:M13.


Nella L15: funzione test = e nella M15: =SOMMA($M$2:$M$11) (fig. 9.40):

Fig. 9.40 – Calcolo della funzione test per i dati dell’esempio 9.5

Infine, nella cella L17: α = , L19: ν = , L21: χ c = , L23: risultato, M17: 0,03,
M19: =CONTA.VALORI($B$2:$B$11)-1-2, M21: =INV.CHI($M$17;$M$19),

298
M21: =SE($M$15<$M$21;"si accetta l'ipotesi nulla";"si rifiuta l'ipotesi nul-
la") (fig. 9.41):

Fig. 9.41 – Impostazione delle regole di decisione per il test di adattamento ad una
distribuzione normale per i dati dell’esempio 9.5

Quindi, ad un livello di significatività del 5%, è possibile adattare una distribu-


zione normale alla distribuzione empirica degli assorbimenti su una sostanza.

299
10. Analisi della varianza (ANOVA)

1. Generalità

Si è visto nel capitolo 8 come sia possibile effettuare il confronto tra valori
medi di due campioni.
Sovente, però, risulta necessario effettuare il confronto tra due o più cam-
pioni; ad esempio ci si può chiedere:

- quale, fra diversi metodi di insegnamento, permette di ottenere i migliori


risultati nell’apprendimento;
- quale, fra diversi medicinali dello stesso tipo, permette di ottenere il mi-
gliore effetto terapeutico;
- quale, fra le diverse strategie di mercato, permette di ottenere le vendite
maggiori;
- quale, fra i diversi processi produttivi, permette di ottenere rese migliori.

Per effettuare il confronto tra più campioni contemporaneamente è utile


l’analisi della varianza (ANalysis Of VAriance) introdotta da R. A. Fisher co-
me applicazione della distribuzione F, la quale viene utilizzata per effettuare il
confronto simultaneo tra più quantità omogenee ottenute in una serie di espe-
rimenti consentendo di separare le cause di variabilità dei valori misurati du-
rante l’esperimento in diversi componenti dovuti a fattori indipendenti.

2. Analisi della varianza ad un fattore

Si consideri una popolazione i cui elementi possono essere suddivisi in base


ad un solo fattore (o criterio) di classificazione.
L’analisi della varianza ha come obiettivo l’esame della popolazione i cui
elementi sono stati suddivisi secondo una determinata classificazione: i valori
degli elementi estratti da una singola classe costituiscono un insieme di misure

300
effettuate nelle stesse condizioni, ovvero misure di elementi sottoposti allo
stesso trattamento.
Nel linguaggio proprio dell’ANOVA, il termine trattamento sostituisce il
termine classe; in base a questa definizione, esaminare i dati relativi ad m trat-
tamenti significa esaminare m campioni ciascuno dei quali, costituito da n os-
servazioni, è stato estratto da una specifica sottopopolazione.
I risultati di un esperimento ad un fattore vengono generalmente presentati
come in tabella seguente (tab. 10.1):

Tab. 10.1 – Tabella dati per l’ANOVA ad un fattore


Osservazioni
Trattamenti 1 2 … j … n

1 x11 x12 … x1 j … x1n

2 x21 x22 … x2 j … x2 n
… … … … … … …
i xi1 xi 2 … xij … xin
… … … … … … …
m xm1 xm 2 … xmj … xmn

dove il termine xij indica, per l’i-esimo trattamento, la j-esima misurazio-


ne.
Per stabilire se i trattamenti sono significativamente differenti, si analizza
la variazione totale ( SST ) dei dati separandola in due componenti:

- variazione entro i trattamenti (o variazione nei trattamenti) ( SSW );


- variazione tra i trattamenti ( SS B ).

Per determinare le variazioni è necessario, in primo luogo, calcolare le me-


die di trattamento:
1 m n
xi ⋅ = ∑∑
n i =1 j =1
xij

e, in secondo luogo, la grande media, cioè la media di tutte le medie di tratta-


mento (fig. 10.1):

301
m n
1
x=
mn
∑∑ x
i =1 j =1
ij

Fig. 10.1 – Medie di trattamento e grande media per l’ANOVA ad un fattore


Osservazioni Medie di
Trattamenti 1 2 … j … n trattamento

1 x11 x12 … x1 j … x1n x1⋅

2 x21 x22 … x2 j … x2 n x2⋅


… … … … … … … …
i xi1 xi 2 … xij … xin xi ⋅
… … … … … … … …
m xm1 xm 2 … xmj … xmn x m⋅

Grande media x

Si definisce variazione totale ν ( SST ) la somma dei quadrati degli scarti di


ciascuna misurazione dalla grande media:
m n
ν = ∑∑ ( xij − x ) 2
i =1 j =1

Tale quantità può essere scomposta in due parti; infatti, sapendo che:
(
xij − x = xij − xi⋅ + (xi⋅ − x ))
risulta:
m n m n
ν = ∑∑ ( xij − x j ⋅ ) 2 + ∑∑ ( x j ⋅ − x ) 2
i =1 j =1 i =1 j =1

dove:
m n
ν w = ∑∑ ( xij − x j ⋅ ) 2
i =1 j =1

indica la variazione entro i trattamenti ed è la somma dei quadrati delle dif-


ferenze tra i valori e le medie di trattamento;
m n
ν b = ∑∑ ( x j ⋅ − x ) 2
i =1 j =1

302
indica la variazione tra i trattamenti ed è la somma dei quadrati delle diffe-
renze tra le medie di trattamento e la grande media.
Il modello più utilizzato per l’analisi della varianza è il modello lineare; in
questo modello si presuppone che la popolazione sia omogenea rispetto al fat-
tore secondo cui vengono determinati i trattamenti (classi).
Questo significa ipotizzare che i diversi trattamenti abbiano le stesse carat-
teristiche, in quanto campioni casuali rappresentativi di una stessa popolazione.
Ogni riga della tab. 10.1 rappresenta un campione casuale di grandezza n
estratto dalla sottopopolazione soggetta a quel particolare trattamento; i valori
xij del campione sono valori osservati delle variabili X ij .
Se si ammette che le variabili X ij siano indipendenti, con la stessa distri-
buzione di probabilità e varianza della popolazione, ciascuna variabile X ij può
essere espressa come:
X ij = μ 2j + Δ ij = μ + α j + Δ ij
dove μ è il valor medio della popolazione; Δ ij rappresentano le compo-
nenti casuali e α j sono variabili indipendenti con valor medio nullo e varianza
σ2.
Se i diversi trattamenti sono equivalenti, quindi influenzano i dati del cam-
pione nello stesso modo, le diverse medie di trattamento sono uguali tra loro;
allora l’ipotesi nulla sarà del tipo:
H 0 : μ1 = μ 2 = … = μ m
contro l’ipotesi alternativa che vi sia almeno una μ i di versa da μ .
Per poter sottoporre a test l’ipotesi di omogeneità dei trattamenti si deve
assumere che:

- ognuno dei campioni che rappresenta un trattamento provenga da una sot-


topopolazione normalmente distribuita;
- ogni campione sia casuale e indipendente dagli altri;
- i campioni provengano da trattamenti aventi tutti, approssimativamente, la
stessa varianza.

Se l’ipotesi H 0 è vera, la variazione tra i trattamenti è nulla; mentre se H 0


è falsa, la variazione tra i trattamenti è positiva e tanto maggiore quanto più ci
si allontana dall’ipotesi H 0 .
Per effettuare il test, cioè per verificare l’ipotesi μ1 = μ 2 = … = μ m , è ne-
cessario confrontare tra loro la variazione tra i trattamenti (ν b ) con la varia-
zione entro i trattamenti (ν w ): la prima rappresenta il contributo alla variazione

303
totale dato dal fattore secondo cui è stata suddivisa la popolazione, mentre la
seconda rappresenta la variazione casuale intrinseca nella misure.
Se la variazione tra i trattamenti è significativamente maggiore di quella in-
terna ai trattamenti (o classi) si può concludere che il fattore di classificazione
influenza i valori della variabile e la popolazione non può essere ritenuta omo-
genea secondo il fattore analizzato.
Sarà pertanto necessario conoscere le distribuzioni campionarie della varia-
zione entro i trattamenti Vw , la variazione tra i trattamenti Vb e la variazione
totale V .
Sapendo che:
Vw V
Sˆw2 = Sˆb2 = b
m ⋅ (n − 1) m −1
rappresentano, rispettivamente, le migliori stime campionarie della varia-
zione entro i trattamenti e della variazione tra i trattamenti della popolazione,
la funzione test, risulterà essere:
Sˆ 2
F = b2
Sˆw
che, se è vera l’ipotesi nulla, è una variabile F con ν 1 = (m − 1) e
ν 2 = m ⋅ (n − 1) gradi di libertà.
Le regole di decisione sono:

- se il valore campionario F è minore del valore critico Fα ; [( m −1),m ( n −1) ] , si


accetta l’ipotesi nulla;
- se il valore campionario F è maggiore del valore critico Fα ; [( m −1),m ( n −1) ] ,
si rifiuta l’ipotesi nulla.

Generalmente, i calcoli richiesti per svolgere il test vengono riassunti in


una tabella (tab. 10.2):

Tab. 10.2 – Tabella calcoli per l’ANOVA ad un fattore


Variazione Gradi di libertà Media dei quadrati F
Tra i trattamenti
m n ν Sˆb2
ν b = ∑∑ ( x j ⋅ − x ) 2 m −1 Sˆb2 = b
m −1 Sˆ 2
w
i =1 j =1

Entro i trattamenti
νw
m ⋅ (n − 1) Sˆ w2 =
m n
ν w = ∑∑ ( xij − x j ⋅ ) 2
m ⋅ (n − 1)
i =1 j =1

304
Totale
m ⋅ n −1
ν = ν b +ν w

In Excel all’interno del menu Strumenti Analisi dati troviamo Analisi va-
rianza: ad un fattore che consente di eseguire una semplice analisi della va-
rianza per verificare l'ipotesi secondo cui i valori medi di due o più campioni,
estratti da popolazioni con gli stessi valori medi, sono uguali.
Questo strumento esegue una semplice analisi di varianza su dati relativi a
due o più campioni.
L'analisi verifica l'ipotesi secondo cui ogni campione viene estratto dalla
stessa distribuzione probabilistica sottostante in confronto all'ipotesi alternativa
secondo cui le distribuzioni probabilistiche sottostanti non sono uguali per tutti
i campioni.
Se si desidera analizzare due soli campioni, è possibile utilizzare anche la
funzione TEST.T.
Se si desidera analizzare più di due campioni, la generalizzazione del
TEST.T non risulta utile ed è invece consigliabile utilizzare il modello Analisi
varianza ad un fattore (fig. 10.2).

Fig. 10.2 – Strumento Analisi dati Analisi varianza: ad un fattore

Premendo il pulsante OK comparirà le seguente finestra (fig. 10.3):

Fig. 10.3 – Analisi varianza: ad un fattore (input)

305
dove:

- Intervallo di input: riferimento di cella per l'intervallo di dati da analiz-


zare che deve consistere in due o più intervalli di dati adiacenti disposti in
colonne o righe;
- Dati raggruppati per: indica se i dati nell'intervallo di input sono dispo-
sti in righe o in colonne, fare clic su Righe o Colonne;
- Etichette nella prima riga/Etichette nella prima colonna: se la prima
riga dell'intervallo di input contiene etichette, selezionare la casella di
controllo Etichette nella prima riga. Se le etichette si trovano invece nella
prima colonna dell'intervallo di input, selezionare la casella di controllo
Etichette nella prima colonna. Se l'intervallo di input non contiene eti-
chette, le caselle di controllo dovranno essere deselezionate, in quanto le
etichette di dati appropriate per la tabella di output verranno generate au-
tomaticamente;
- Alfa: livello di valutazione dei valori critici per la statistica F . Il livello
α è un livello di significatività correlato alla probabilità di riscontrare un
errore di tipo I, ossia il rifiuto di un'ipotesi vera;
- Intervallo di output: riferimento della cella superiore sinistra della tabel-
la di output. Le dimensioni dell'area di output vengono determinate auto-
maticamente e viene visualizzato un messaggio qualora la tabella di
output sostituisca i dati esistenti o si estenda oltre i limiti del foglio di la-
voro;
- Nuovo foglio di lavoro: inserimento un nuovo foglio di lavoro nella car-
tella di lavoro corrente e incollare i risultati a partire dalla cella A1 del
nuovo foglio di lavoro. Per assegnare un nome al nuovo foglio di lavoro,
digitarlo nella casella di testo;
- Nuova cartella di lavoro: creazione di una nuova cartella di lavoro e co-
pia dei risultati in un nuovo foglio della nuova cartella di lavoro.

Per quanto concerne la tabella di output (fig. 10.4):

306
Fig. 10.4 – Analisi varianza: ad un fattore (output)
abbiamo:

- Gruppi: i trattamenti considerati nell’analisi della varianza;


- Conteggio: numero di osservazioni ( n ) per ciascun trattamento;
- Somma: somma dei valori osservati per ciascun trattamento;
- Media: medie di trattamento ( xi⋅ );
- Varianza: varianze dei trattamenti;
- SQ tra gruppi: somma dei quadrati delle differenze tra le medie di trat-
tamento e la grande media (ν b );
- SQ in gruppi: somma dei quadrati delle differenze tra i valori e le medie
di trattamento (ν w );
- SQ totale: variazione totale (ν );
- gdl tra gruppi: gradi di libertà tra i trattamenti ( m − 1 );
- gdl in gruppi: gradi di liberta entro i trattamenti [m ⋅ (n − 1)] ;
- gdl totale: gradi di libertà totali ( m ⋅ n − 1 );
- MQ tra gruppi: media dei quadrati tra i trattamenti ( Sˆb2 );
- MQ in gruppi: media dei quadrati entro i trattamenti ( Sˆ 2 );
w
- F: valore della statistica test;
- valore di significatività: livello di significatività osservato (p-value),
rappresenta il livello di significatività più basso a cui H 0 può essere ri-
fiutata per un dato insieme di dati;
- F crit: valore critico della funzione test ( Fα ; [( m −1), m ( n −1) ] ).

307
Esempio 10.1

Nella tab. 10.3 è riportata la durata (in ore) di funzionamento ininterrotto (fino
al guasto) di un macchinario sottoposto a 5 diverse prove di durata, per ciascu-
no dei quali sono state effettuate 4 osservazioni. Ad un livello si significatività
del 5% si vuole valutare se vi sono differenze significative nelle prove di dura-
ta.

Tab. 10.3 – Durata (in ore) di funzionamento ininterrotto di un macchinario


Prove di durata Osservazioni
1 18 16 15 21
2 20 16 18 23
3 19 15 17 16
4 19 15 20 22
5 22 20 19 24

Posizionandosi con il cursore nella cella A1 introdurre i dati ottenendo il se-


guente risultato (fig. 10.5):

Fig. 10.5 – Inserimento dati esempio 10.1

Aprire il menu Strumenti, selezionare Analisi dati, Analisi varianza: ad un


fattore e premere il pulsante OK (fig. 10.6):

Fig. 10.6 – Strumento Analisi dati Analisi varianza: ad un fattore

Premendo il pulsante OK comparirà le seguente finestra (fig. 10.7):

308
Fig. 10.7 – Analisi varianza: ad un fattore (input)

Nell’Intervallo di input: digitare $A$2:$E$6, spuntare le caselle Dati rag-


gruppati per: Righe, Etichette nella prima riga e Nuovo foglio di lavoro
(fig. 10.8):

Fig. 10.8 – Impostazioni per il calcolo dell’Analisi varianza: ad un fattore

Dopo aver premuto il pulsante OK il risultato che si ottiene è (fig. 10.9):

Fig. 10.9 – Analisi varianza: ad un fattore per i dati dell’esempio 10.1

309
Poiché il valore della funzione test ( 1,870 ) è inferiore al valore critico ( 3,055 ),
al livello di significatività del 5%, si può affermare che non vi sono differenze
significativamente rilevanti nelle 5 prove di durata del macchinario.

Esempio 10.2

Quattro macchine dovrebbero effettuare lo stesso tipo di produzione di pezzi


meccanici con eguale precisione. Per un controllo della produzione, per ogni
macchina sono stati prelevati casualmente alcuni pezzi prodotti e ne è stata mi-
surata la differenza di lunghezza rispetto a quella nominale (in decimi di milli-
metro) ottenendo la seguente tabella (tab. 10.4):

Tab. 10.4 – Differenze di lunghezza (in decimi di millimetro) rispetto a quella no-
minale di alcuni pezzi prodotti da 4 macchinari
Macchine Osservazioni
A 77 71 79 72 74 69
B 51 54 59 64 74 49
C 54 67 71 56 60 65
D 55 60 44 54 49 49

Utilizzando l’analisi della varianza ad un fattore quali conclusioni statistiche si


possono trarre ad un livello di significatività dell’1%?

Posizionandosi con il cursore nella cella A1 introdurre i dati ottenendo il se-


guente risultato (fig. 10.10):

Fig. 10.10 – Inserimento dati esempio 10.2

Aprire il menu Strumenti, selezionare Analisi dati, Analisi varianza: ad un


fattore e premere il pulsante OK (fig. 10.11):

310
Fig. 10.11 – Strumento Analisi dati Analisi varianza: ad un fattore

Premendo il pulsante OK comparirà le seguente finestra (fig. 10.12):

Fig. 10.12 – Analisi varianza: ad un fattore (input)

Nell’Intervallo di input: digitare $A$2:$G$5, spuntare le caselle Dati rag-


gruppati per: Righe, nella casella Alfa: 0,01, Etichette nella prima riga e
Nuovo foglio di lavoro (fig. 10.13):

Fig. 10.13 – Impostazioni per il calcolo dell’Analisi varianza: ad un fattore

Dopo aver premuto il pulsante OK il risultato che si ottiene è (fig. 10.14):

311
Fig. 10.14 – Analisi varianza: ad un fattore per i dati dell’esempio 10.2

Poiché il valore della funzione test (11,321) è superiore al valore critico


(4,938), al livello di significatività dell’1%, non si può assumere la stessa pre-
cisione per tutte e 4 le macchine.

Esempio 10.3

Una eccessiva presenza di ozono nell'aria è indice di inquinamento atmosferi-


co. In relazione a ciò, sono stati raccolti ed esaminati sei campioni di aria per
quattro luoghi diversi. I quantitativi di ozono misurati (in parti per milione) so-
no risultati essere (tab. 10.5):

Tab. 10.5 – Quantitativo di ozono (in parti per milione) misurati in quattro luoghi
diversi
Luoghi Osservazioni
A 0,08 0,10 0,09 0,07 0,09 0,06
B 0,15 0,09 0,11 0,10 0,08 0,13
C 0,13 0,10 0,15 0,09 0,09 0,17
D 0,05 0,11 0,07 0,09 0,11 0,08

Si vuole verificare, ad un livello di significatività dell’1%, se vi sono differenze


nei livelli di ozono nell’aria per i quattro luoghi.

Posizionandosi con il cursore nella cella A1 introdurre i dati ottenendo il se-


guente risultato (fig. 10.15):

312
Fig. 10.15 – Inserimento dati esempio 10.3

Aprire il menu Strumenti, selezionare Analisi dati, Analisi varianza: ad un


fattore e premere il pulsante OK (fig. 10.16):

Fig. 10.16 – Strumento Analisi dati Analisi varianza: ad un fattore

Premendo il pulsante OK comparirà le seguente finestra (fig. 10.17):

Fig. 10.17 – Analisi varianza: ad un fattore (input)

Nell’Intervallo di input: digitare $A$2:$G$5, spuntare le caselle Dati rag-


gruppati per: Righe, nella casella Alfa: 0,01, Etichette nella prima riga e
Nuovo foglio di lavoro (fig. 10.18):

313
Fig. 10.18 – Impostazioni per il calcolo dell’Analisi varianza: ad un fattore

Dopo aver premuto il pulsante OK il risultato che si ottiene è (fig. 10.19):

Fig. 10.19 – Analisi varianza: ad un fattore per i dati dell’esempio 10.3

Poiché il valore della funzione test (3,498) è inferiore al valore critico (4,938),
al livello di significatività dell’1%, si può affermare che i livelli di ozono
nell’aria delle quattro zone non sono significativamente diversi.

3. Analisi della varianza a due fattori senza replica

Vi sono casi in cui è utile classificare le osservazioni effettuate sulla popo-


lazione secondo due fattori di classificazione: ad esempio, i prezzi di un pro-
dotto possono essere classificati in base al luogo e alla stagione in cui vengono
rilevati, la produzione di un cereale può essere classificata secondo la varietà
del seme e del tipo di fertilizzante utilizzato, la produttività di macchine diverse
può essere classificata in base al tipo di macchina e all’operatore.
Se le osservazioni possono essere suddivise sulla base di due fattori con-
giunti, dove un fattore determina m classi (trattamenti), mentre l’altro determi-

314
na n classi (blocchi), i dati possono essere rappresentati in una tabella con m
righe ed n colonne di valori (tab. 10.6):

Tab. 10.6 – Tabella dati per l’ANOVA a due fattori senza replica
Blocchi
Trattamenti 1 2 … j … n

1 x11 x12 … x1 j … x1n

2 x21 x22 … x2 j … x2 n
… … … … … … …
i xi1 xi 2 … xij … xin
… … … … … … …
m xm1 xm 2 … xmj … xmn

dove il dato xij indica il valore rilevato per l’i-esimo trattamento e per il j-
esimo blocco supponendo inoltre che per ciascun trattamento di ciascun blocco
venga rilevato un solo dato.
Le medie marginali di riga sono le medie di trattamento:
1 m n
xi ⋅ = ∑∑
n i =1 j =1
xij

Le medie marginali di colonna sono le medie di blocco:


1 m n
x⋅ j = ∑∑
m i =1 j =1
xij

La media complessiva è la grande media (fig. 10.20):


1 m n
x=
m n i =1 j =1
∑∑
xij

Fig. 10.20 – Medie di trattamento, di blocco e grande media per l’ANOVA a due fat-
tori senza replica
Blocchi Medie di
Trattamenti 1 2 … j … n trattamento

1 x11 x12 … x1 j … x1n x1⋅

315
2 x21 x22 … x2 j … x2 n x2⋅
… … … … … … … …
i xi1 xi 2 … xij … xin xi ⋅
… … … … … … … …
m xm1 xm 2 … xmj … xmn x m⋅

Grande
Medie di blocco x⋅1 x⋅2 … x⋅ j … x⋅n media
x

Per stabilire se i trattamenti e i blocchi sono significativamente differenti


fra loro, si analizza la variazione totale dei dati, separandola in diverse compo-
nenti:

- variazione tra i trattamenti (o tra le righe) ν r ;


- variazione tra i blocchi (o tra le colonne) ν c ;
- variazione residua (dovuta all’errore) ν e .

La variazione totale ν è la somma dei quadrati degli scarti di ciascuna mi-


surazione dalla grande media:
m n
ν = ∑∑ ( xij − x ) 2
i =1 j =1

La variazione tra i trattamenti è la somma dei quadrati degli scarti di cia-


scuna media di trattamento (media marginale di riga) dalla grande media:
m
ν r = n∑ (xi⋅ − x )2
i =1
La variazione tra i blocchi è la somma dei quadrati degli scarti di ciascuna
media di blocco (media marginale di colonna) dalla grande media:
n
ν c = m∑ (x⋅ j − x )2
j =1

La variazione residua è la variazione dovuta agli errori casuali, cioè:


m n
ν e = ∑∑ (xij − xi⋅ − x⋅ j − x )2
i =1 j =1

Quindi, sapendo che la variazione totale può essere scomposta nei termini:

316
ν = ∑∑ [(xij − xi⋅ − x⋅ j + x ) + (xi⋅ − x ) + (x⋅ j − x )]
m n

i =1 j =1

si ottiene:
ν = ν e +ν r +ν c
In base al modello lineare, le variabili X ij che nel campione assumono i
valori xij , possono essere espresse come una combinazione lineare di termini:
X ij = μ + α i + β j + Δ ij
dove:

- μ rappresenta la vera ed ignota media della popolazione;


- α i rappresenta il valor medio delle deviazioni tra le medie di trattamento
e le media della popolazione;
- β j rappresenta il valor medio delle deviazioni tra le medie di blocco e la
media della popolazione;
- Δ ij rappresentano le componenti casuali del modello e sono variabili a
distribuzione normale con media nulla e varianza σ 2 .

Come per il caso dell’analisi della varianza ad un fattore, si vuole verificare


l’omogeneità della popolazione rispetto ai trattamenti e ai blocchi; quindi il si-
stema di ipotesi a confronto è:
H 0(1) : α1 = α 2 = … = α m = 0
H 0( 2 ) : β1 = β 2 = … = β n = 0
Per effettuare il test, ovvero per verificare l’ipotesi che la popolazione sia
omogenea tanto rispetto alle righe quanto rispetto alle colonne, si possono con-
frontare la variazione tra i trattamenti e la variazione tra i blocchi con la va-
riazione residua.
Infatti, sapendo che:
V V Ve
Sˆ r2 = r Sˆc2 = c Sˆe2 =
m −1 n −1 (m − 1) (n − 1)
rappresentano rispettivamente, la migliore stima della variazione tra i trat-
tamenti, tra i blocchi e quella residua; quindi, se è vera l’ipotesi H 0(1) , il rap-
porto:
Sˆ 2
F ( r ) = r2
Sˆe

317
ha una distribuzione F con ν 1 = (m − 1) e ν 2 = (m − 1) ⋅ (n − 1) gradi di li-
bertà.
Se è vera l’ipotesi H 0( 2) , il rapporto:
Sˆ 2
F ( c ) = c2
Sˆe
segue una distribuzione F con ν 1 = (n − 1) e ν 2 = (m − 1) ⋅ (n − 1) gradi di
libertà.
L’ipotesi nulla di omogeneità complessiva deve essere rifiutata quando an-
che uno dei due valori campionari delle funzioni test risulta essere significati-
vo, cioè appartenente alla regione critica della distribuzione F al prefissato
livello di significatività.
La tab. 10.7 riassume i dati necessari per l’analisi della varianza a due fatto-
ri senza replica.

Tab. 10.7 – Tabella calcoli per l’ANOVA a due fattori senza replica
Variazione Gradi di libertà Media dei quadrati F
Tra i trattamenti ν Sˆr2
m −1 Sˆ r2 = r F (r ) =
νr m −1 Sˆ 2
e

Tra i blocchi νc Sˆ 2
n −1 Sˆc2 = F (c ) = c2
νc (n − 1) Sˆ e

Residua νe
νe
(m − 1)⋅ (n − 1) Sˆe2 =
(m − 1) ( n − 1)
Totale
m ⋅ n −1
ν

In Excel all’interno del menu Strumenti Analisi dati troviamo Analisi va-
rianza: a due fattori senza replica (fig. 10.21).

Fig. 10.21 – Strumento Analisi dati Analisi varianza: a due fattori senza replica

Premendo il pulsante OK comparirà le seguente finestra (fig. 10.22):

318
Fig. 10.22 – Analisi varianza: a due fattori senza replica (input)

dove:

- Intervallo di input: riferimento di cella per l'intervallo di dati da analiz-


zare che deve consistere in due o più intervalli di dati adiacenti disposti in
colonne o righe;
- Etichette: se l'intervallo di input non contiene etichette, questa casella di
controllo dovrà essere deselezionata, in quanto le etichette dati appropria-
te per la tabella di output verranno generate automaticamente;
- Alfa: livello di valutazione dei valori critici per la statistica F . Il livello
α è un livello di significatività correlato alla probabilità di riscontrare un
errore di tipo I, ossia il rifiuto di un'ipotesi vera;
- Intervallo di output: riferimento della cella superiore sinistra della tabel-
la di output. Le dimensioni dell'area di output vengono determinate auto-
maticamente e viene visualizzato un messaggio qualora la tabella di
output sostituisca i dati esistenti o si estenda oltre i limiti del foglio di la-
voro;
- Nuovo foglio di lavoro: inserimento un nuovo foglio di lavoro nella car-
tella di lavoro corrente e incollare i risultati a partire dalla cella A1 del
nuovo foglio di lavoro. Per assegnare un nome al nuovo foglio di lavoro,
digitarlo nella casella di testo;
- Nuova cartella di lavoro: creazione di una nuova cartella di lavoro e co-
pia dei risultati in un nuovo foglio della nuova cartella di lavoro.

Per quanto concerne la tabella di output (fig. 10.23):

319
Fig. 10.23 – Analisi varianza: a due fattori senza replica (output)

abbiamo:

- Conteggio, Somma, Media e Varianza dei trattamenti e dei blocchi;


- SQ righe: somma dei quadrati delle differenze tra le medie di trattamento
e la grande media (ν r );
- SQ colonne: somma dei quadrati delle differenze tra le medie di blocco e
la grande media (ν c );
- SQ errore: variazione residua o casuale (ν e );
- SQ totale: variazione totale (ν );
- gdl righe: gradi di libertà tra i trattamenti ( m − 1 );
- gdl colonne: gradi di liberta tra i blocchi ( n − 1 );
- gdl errore: gradi di libertà dovuti all’errore [(m − 1)(n − 1)] ;
- gdl totale: gradi di libertà totali ( m ⋅ n − 1 );
- MQ righe: media dei quadrati tra i trattamenti ( Sˆ r2 );
- MQ colonne: media dei quadrati tra i blocchi ( Sˆ 2 ); c

- MQ errore: media dei quadrati dei residui ( Sˆe2 );


- F righe: valore della statistica test per l’ipotesi H 0(1) ( F (r ) );
- F colonne: valore della statistica test per l’ipotesi H 0( 2) ( F (c ) );
- valore di significatività righe: livello di significatività osservato (p-
value) per l’ipotesi H 0(1) ; rappresenta il livello di significatività più basso
a cui H 0(1) può essere rifiutata per un dato insieme di dati;

320
- valore di significatività colonne: livello di significatività osservato (p-
value) per l’ipotesi H 0( 2) ; rappresenta il livello di significatività più basso
a cui H 0( 2) può essere rifiutata per un dato insieme di dati;
- F crit righe: valore critico della funzione test per l’ipotesi H 0(1)
( Fα(1; )[( m −1),( m −1)( n −1) ] );
- F crit colonne: valore critico della funzione test per l’ipotesi H 0( 2)
( Fα( ;2[)( n −1),( m −1)( n −1) ] ).

Esempio 10.4

Un prodotto chimico viene realizzato in 4 impianti di produzione utilizzando


materie prime fornite da 3 diverse ditte. In un controllo per la caratteristica del-
la composizione sono stati riscontrati i seguenti valori (tab. 10.8):

Tab. 10.8 – Valori della caratteristica di un prodotto chimico fabbricato in 4 im-


pianti utilizzando materie prime di 3 fornitori
Fornitori
Impianti
I II II
A 228 226 231
B 228 230 229
C 230 231 231
D 229 232 231

Si vuole verificare, ad un livello di significatività del 5%, se vi sono differenze


di omogeneità nei prodotti.

Posizionandosi con il cursore nella cella A1 introdurre i dati ottenendo il se-


guente risultato (fig. 10.24):

Fig. 10.24 – Inserimento dati esempio 10.4

321
Aprire il menu Strumenti, selezionare Analisi dati, Analisi varianza: a due
fattori senza replica e premere il pulsante OK (fig. 10.25):

Fig. 10.25 – Strumento Analisi dati Analisi varianza: a due fattori senza replica

Premendo il pulsante OK comparirà le seguente finestra (fig. 10.26):

Fig. 10.26 – Analisi varianza: a due fattori senza replica (input)

Nell’Intervallo di input: digitare $A$2:$D$6, spuntare la casella Etichette e


Nuovo foglio di lavoro (fig. 10.27):

Fig. 10.27 – Impostazioni per il calcolo dell’Analisi varianza: a due fattori senza
replica

Dopo aver premuto il pulsante OK il risultato che si ottiene è (fig. 10.28):

322
Fig. 10.28 – Analisi varianza: a due fattori senza replica per i dati dell’esempio
10.4

Poiché entrambi i valori delle funzioni test sono inferiori dei corrispondenti va-
lori critici, si può accettare, ad un livello di significatività del 5%, l’ipotesi di
omogeneità dei prodotti.

Esempio 10.5

La tab. 10.9 registra la resa (in grammi) di un certo prodotto chimico al variare
del livello di concentrazione di solvente e della temperatura.

Tab. 10.9 – Resa (in gr) di un prodotto chimico al variare del livello di concentra-
zione di solvente e della temperatura
Concentrazione di solvente
Temperature
30% 40% 50%
60° C 46,2 46,7 45,9
70° C 45,8 46,8 45,7

Si vuole verificare, ad un livello di significatività del 5%, se vi sono differenze


significative nella resa sia per il variare del livello di concentrazione di solvente
sia per la temperatura.

Posizionandosi con il cursore nella cella A1 introdurre i dati ottenendo il se-


guente risultato (fig. 10.29):

323
Fig. 10.29 – Inserimento dati esempio 10.5

Aprire il menu Strumenti, selezionare Analisi dati, Analisi varianza: a due


fattori senza replica e premere il pulsante OK (fig. 10.30):

Fig. 10.30 – Strumento Analisi dati Analisi varianza: a due fattori senza replica

Premendo il pulsante OK comparirà le seguente finestra (fig. 10.31):

Fig. 10.31 – Analisi varianza: a due fattori senza replica (input)

Nell’Intervallo di input: digitare $A$2:$D$4, spuntare la casella Etichette e


Nuovo foglio di lavoro (fig. 10.32):

324
Fig. 10.32 – Impostazioni per il calcolo dell’Analisi varianza: a due fattori senza
replica

Dopo aver premuto il pulsante OK il risultato che si ottiene è (fig. 10.33):

Fig. 10.33 – Analisi varianza: a due fattori senza replica per i dati dell’esempio
10.5

Poiché entrambi i valori delle funzioni test sono inferiori dei corrispondenti va-
lori critici, ad un livello di significatività del 5%, non risultano esservi differen-
ze significative nella resa sia per il variare del livello di concentrazione di sol-
vente sia per la temperatura.

4. Analisi della varianza a due fattori con replica

Nel paragrafo precedente è stato considerato, per semplicità, un solo valore


corrispondente a ciascun trattamento di ciascun blocco. Se l’esperimento fosse
invece ripetuto più volte, si otterrebbero molti valori, che, analizzati nel loro
complesso, porterebbero a informazioni più precise sull’influenza dei fattori
considerati.
In questo caso le variabili da considerare sono X ijk dove l’indice:

325
- i indica il trattamento;
- j indica il blocco;
- k indica la ripetizione (replicazione).

L’analisi di tutti i valori può essere impostata in modo del tutto analogo a
quanto visto in precedenza, introducendo un ulteriore termine nella scomposi-
zione della variazione: quello relativo alle ripetizioni.
Il modello lineare di analisi considera la variabile X ijk come combinazione
dei termini:
X ijk = μ + α i + β j + γ k + Δ ijk
dove γ k indica l’effetto interazione (tra trattamenti e blocchi) e gli altri
simboli hanno il significato descritto nei paragrafi precedenti.
Per mezzo del test F si possono verificare le ipotesi che:

- le medie dei trattamenti siano uguali;


- le medie dei blocchi siano uguali;
- le interazioni (tra trattamenti e blocchi) siano nulle.

La procedura di analisi è simile a quella già esposta: si separa la variazione


totale in variazioni dovute ai singoli fattori e si confrontano tali variazioni con
la variazione residua utilizzando il test F con i gradi di libertà stabiliti dalle
corrispondenti variazioni.
In Excel all’interno del menu Strumenti Analisi dati troviamo Analisi va-
rianza: a due fattori con replica (fig. 10.34).

Fig. 10.34 – Strumento Analisi dati Analisi varianza: a due fattori con replica

Premendo il pulsante OK comparirà le seguente finestra (fig. 10.35):

326
Fig. 10.35 – Analisi varianza: a due fattori con replica (input)

dove:

- Intervallo di input: riferimento di cella per l'intervallo di dati da analiz-


zare; consiste in due o più intervalli di dati adiacenti disposti in colonne o
righe;
- Righe per campione: numero di righe contenute in ciascun campione che
deve contenere esattamente tale numero di righe, poiché ciascuna riga
rappresenta una replica dei dati;
- Alfa: livello di valutazione dei valori critici per la statistica F . Il livello
α è un livello di significatività correlato alla probabilità di riscontrare un
errore di tipo I, ossia il rifiuto di un'ipotesi vera;
- Intervallo di output: riferimento della cella superiore sinistra della tabel-
la di output. Le dimensioni dell'area di output vengono determinate auto-
maticamente e viene visualizzato un messaggio qualora la tabella di
output sostituisca i dati esistenti o si estenda oltre i limiti del foglio di la-
voro;
- Nuovo foglio di lavoro: inserimento di un nuovo foglio di lavoro nella
cartella di lavoro corrente e copia dei risultati a partire dalla cella A1 del
nuovo foglio di lavoro. Per assegnare un nome al nuovo foglio di lavoro,
digitarlo nella casella di testo;
- Nuova cartella di lavoro: creazione di una nuova cartella di lavoro e co-
pia dei risultati in un nuovo foglio della nuova cartella di lavoro.

Per quanto concerne la tabella di output, considerando solamente la tabella


dell’analisi della varianza, si ha (fig. 10.36):

327
Fig. 10.36 – Analisi varianza: a due fattori con replica (output)

dove l’origine della variazione:

- Campione: rappresenta la variazione dovuta ai trattamenti;


- Colonne: rappresenta la variazione dovuta ai blocchi;
- Interazione: rappresenta la variazione dovuta alle interazioni tra tratta-
menti e blocchi;
- In: rappresenta la variazione dovuta agli effetti casuali;
- Totale: rappresenta la variazione totale.

Esempio 10.6

La tab. 10.10 registra i risultati di un esperimento di fabbricazione di un pro-


dotto chimico (rendimenti percentuali in prodotto) considerando come variabi-
li, nel processo produttivo, temperature e tempi di reazione.

Tab. 10.10 – Rendimenti percentuali di un prodotto chimico considerando come


variabili temperature e tempi di reazione
Tempo di reazione
Temperatura di reazione
15 min. 30 min.
60,8 65,3
63,1 61,2
60°C
60,4 64,3
60,9 63,6
67,9 67,3
67,7 64,9
70°C
66,8 60,8
63,8 62,3

Si vuole verificare, ad un livello del 5%, se vi sono differenze significative nel-


le variabili del processo produttivo.
Posizionandosi con il cursore nella cella A1 introdurre i dati ottenendo il se-
guente risultato (fig. 10.37):

328
Fig. 10.37 – Inserimento dati esempio 10.6

Aprire il menu Strumenti, selezionare Analisi dati, Analisi varianza: a due


fattori senza replica e premere il pulsante OK (fig. 10.38):

Fig. 10.38 – Strumento Analisi dati Analisi varianza: a due fattori con replica

Premendo il pulsante OK comparirà le seguente finestra (fig. 10.39):

Fig. 10.39 – Analisi varianza: a due fattori con replica (input)

Nell’Intervallo di input: digitare $A$2:$C$10, nella cella Righe per campio-


ne: digitare 4 (perché 4 sono i valori rilevati per ciascuna temperatura e tempo
di reazione) e spuntare la casella Nuovo foglio di lavoro: (fig. 10.40):

329
Fig. 10.40 – Impostazioni per il calcolo dell’Analisi varianza: a due fattori con re-
plica

Dopo aver premuto il pulsante OK il risultato che si ottiene è (fig. 10.41):

Fig. 10.41 – Analisi varianza: a due fattori con replica per i dati dell’esempio 10.6

Dall’analisi della fig. 10.41 risulta che l’effetto della variabile temperatura e
dell’interazione tra temperatura e tempo di reazione sono significativi (si rifiu-
tano cioè le ipotesi nulle); l’effetto del tempo di reazione è invece non signifi-
cativo (si accetta in questo caso l’ipotesi nulla).

330
Esempio 10.7

La direzione di uno stabilimento vuole effettuare uno studio per accertare gli
effetti che il turno di lavoro e la linea di produzione possono avere sul tempo di
assemblaggio di un certo prodotto. Per l’analisi è stato scelto, per ogni combi-
nazione del turno di lavoro con la linea di produzione, un campione di 5 osser-
vazioni i cui risultati, espressi in numero di parti assemblate per minuto, sono
riportate nella tab. 10.11. Si vuole condurre l’analisi della varianza per il mo-
dello con effetti principali e interazione, verificando le ipotesi di interesse al
livello di significatività del 5%.

Tab. 10.11 – Numero di parti assemblate per minuto al variare del turno e della li-
nea produttiva
Linea produttiva
Turno
A B C D
26 43 40 44
33 34 34 45
1 37 31 33 51
40 36 33 49
27 38 20 43
34 25 39 41
37 43 35 50
2 33 32 38 49
28 33 25 39
35 30 33 50
21 21 34 28
27 21 28 33
3 14 31 21 33
23 21 28 23
30 27 18 35

Posizionandosi con il cursore nella cella A1 introdurre i dati ottenendo il se-


guente risultato (fig. 10.42):

331
Fig. 10.42 – Inserimento dati esempio 10.7

Aprire il menu Strumenti, selezionare Analisi dati, Analisi varianza: a due


fattori senza replica e premere il pulsante OK (fig. 10.43):

Fig. 10.43 – Strumento Analisi dati Analisi varianza: a due fattori con replica

Premendo il pulsante OK comparirà le seguente finestra (fig. 10.44):

332
Fig. 10.44 – Analisi varianza: a due fattori con replica (input)

Nell’Intervallo di input: digitare $A$2:$E$17, nella cella Righe per campio-


ne: digitare 5 e spuntare la casella Nuovo foglio di lavoro: (fig. 10.45):

Fig. 10.45 – Impostazioni per il calcolo dell’Analisi varianza: a due fattori con re-
plica

Dopo aver premuto il pulsante OK il risultato che si ottiene è (fig. 10.46):

Fig. 10.46 – Analisi varianza: a due fattori con replica per i dati dell’esempio 10.7

333
Dall’analisi della fig. 10.46 risultano significativi sia gli effetti del fattore linea
produttiva sia quelli del fattore turno, mentre l’interazione linea produttiva tur-
no è da ritenersi trascurabile.

Esempio 10.8

Si vuole condurre un esperimento tendente ad accertare l’effetto di due fattori


sui risultati relativi alla rilevazione del contenuto di zolfo nel carbone: il labo-
ratorio che conduce l’analisi ed il metodo di analisi. L’esperimento è consistito
nell’assegnare casualmente 28 campioni di carbone, tutti della stessa origine,
alle diverse combinazioni dei livelli dei due fattori. I risultati dell’analisi sono
riportati nella tab. 10.12. Si vuole verificare che non vi sia interazione tra effetti
principali ed interazione al livello di significatività dell’1%.

Tab. 10.12 – Rilevazioni del contenuto di zolfo al variare dei laboratori e del meto-
do di analisi
Metodo di Laboratorio
analisi 1 2 3 4 5 6 7
0,107 0,127 0,115 0,108 0,097 0,114 0,155
A
0,105 0,122 0,112 0,108 0,096 0,119 0,145
0,105 0,127 0,109 0,117 0,110 0,116 0,164
B
0,103 0,124 0,111 0,115 0,097 0,122 0,160

Posizionandosi con il cursore nella cella A1 introdurre i dati ottenendo il se-


guente risultato (fig. 10.47):

Fig. 10.47 – Inserimento dati esempio 10.8

Aprire il menu Strumenti, selezionare Analisi dati, Analisi varianza: a due


fattori senza replica e premere il pulsante OK (fig. 10.48):

334
Fig. 10.48 – Strumento Analisi dati Analisi varianza: a due fattori con replica

Premendo il pulsante OK comparirà le seguente finestra (fig. 10.49):

Fig. 10.49 – Analisi varianza: a due fattori con replica (input)

Nell’Intervallo di input: digitare $A$2:$H$6, nella cella Righe per campio-


ne: digitare 2, Alfa: 0,01, spuntare la casella Nuovo foglio di lavoro: (fig.
10.50):

Fig. 10.50 – Impostazioni per il calcolo dell’Analisi varianza: a due fattori con re-
plica

Dopo aver premuto il pulsante OK il risultato che si ottiene è (fig. 10.51):

335
Fig. 10.51 – Analisi varianza: a due fattori con replica per i dati dell’esempio 10.8

Dall’analisi della fig. 10.49 risultano non significativi gli effetti del fattore me-
todo di analisi e dell’interazione metodo di analisi laboratori, mentre risulta non
significativo l’effetto laboratorio.

Esempio 10.9

Si vuole condurre un esperimento tendente ad accertare l’effetto di due fattori


sui risultati relativi alla rilevazione dimensionale di un pezzo meccanico.
L’esperimento è consistito nel far effettuare a 3 operatori diversi (Op1, Op2,
Op3), con lo stesso strumento di misura, 10 misurazioni dimensionali sugli
stessi 10 pezzi tenendo conto di 3 diverse tipologie di precisione (M1, M2,
M3). I risultati dell’analisi sono riportati nella tab. 10.13. Si vuole verificare, al
livello di significatività del 5%, se vi sono differenze significative tra gli opera-
tori, le tipologie di precisione e l’interazione operatore tipologia di precisione.

336
Tab. 10.13 – Misurazioni dimensionali (in mm) effettuate da 3 operatori con 3 tipo-
logie di precisione
Precisione misura
Operatore
M1 M2 M3
0,7 0,60 0,550
1,0 1,00 1,050
0,9 0,80 0,800
0,9 0,95 0,800
0,6 0,45 0,400
Op1
1,0 1,00 1,000
1,0 0,95 0,950
0,9 0,80 0,750
1,0 1,00 1,000
0,6 0,70 0,550
0,6 0,55 0,750
0,9 0,95 0,700
0,8 0,75 0,550
0,9 0,75 0,700
0,6 0,40 0,950
Op2
0,8 1,05 0,750
0,8 0,90 0,850
0,9 0,70 0,950
0,8 0,95 0,850
0,8 0,50 0,850
0,5 0,55 0,700
1,1 0,10 0,850
0,8 0,80 0,550
0,8 0,80 0,850
0,5 0,50 0,950
Op3
1,0 1,05 0,850
1,0 0,95 0,550
0,8 0,80 0,750
1,1 1,05 0,850
0,9 0,80 0,750

Posizionandosi con il cursore nella cella A1 introdurre i dati ottenendo il se-


guente risultato (fig. 10.52):

337
Fig. 10.52 – Inserimento dati esempio 10.9

Aprire il menu Strumenti, selezionare Analisi dati, Analisi varianza: a due


fattori senza replica e premere il pulsante OK (fig. 10.53):

Fig. 10.53 – Strumento Analisi dati Analisi varianza: a due fattori con replica

Premendo il pulsante OK comparirà le seguente finestra (fig. 10.54):

Fig. 10.54 – Analisi varianza: a due fattori con replica (input)

338
Nell’Intervallo di input: digitare $A$2:$D$32, nella cella Righe per campio-
ne: digitare 10 e spuntare la casella Nuovo foglio di lavoro: (fig. 10.55):

Fig. 10.55 – Impostazioni per il calcolo dell’Analisi varianza: a due fattori con re-
plica

Dopo aver premuto il pulsante OK il risultato che si ottiene è (fig. 10.56):

Fig. 10.56 – Analisi varianza: a due fattori con replica per i dati dell’esempio 10.9

Dall’analisi della fig. 10.56 emerge chiaramente che risultano non significativi
gli effetti del fattore operatore, precisione e dell’interazione operatore metodo
di precisione.

339
11. Regressione e correlazione

1. Generalità

Nella statistica applicata come nelle scienze sperimentali si osserva (o si


ipotizza) l’esistenza di relazioni fra due o più grandezze.
Sorge allora il problema di determinare una funzione che, in base ai dati ri-
cavati mediante esperimenti o rilevazioni statistiche, rappresenti questi relazio-
ni permettendo, in questo modo, di analizzare meglio i fenomeni osservati.
Limitando lo studio a problemi che stabiliscono relazioni fra due sole va-
riabili, si tratta, partendo dalle coppie ( xi , yi ) di dati corrispondenti rilevati, di
determinare una funzione y = f (x) che rappresenti il fenomeno.
Per trovare una funzione che rappresenti il fenomeno si può procedere in
due modi:

- determinare una funzione che assuma esattamente i valori ( xi , yi ) rileva-


ti; questo procedimento viene detto interpolazione per punti noti;
- determinare una funzione che si accosti il più possibile ai punti ( xi , yi );
questo procedimento viene detto interpolazione (o perequazione) fra pun-
ti noti.

La ricerca di una funzione, generalmente espressa da un polinomio, che


passi esattamente per i punti ( xi , yi ) è piuttosto laboriosa; nelle applicazioni
statistiche si preferisce determinare una funzione il cui grafico si avvicini ai
punti rilevati.
Osservando l’andamento del fenomeno si sceglie il tipo di funzione inter-
polatrice: lineare, quadratica, esponenziale, ecc. e quindi si procede alla de-
terminazione dei parametri, ossia delle costanti che compaiono nella funzione
scelta in modo che sia soddisfatta una condizione di accostamento prefissata.

340
Per conseguire questo scopo il metodo più utilizzato è il metodo dei minimi
quadrati che costituisce un’applicazione della ricerca del minimo di una fun-
zione di più variabili mediante gli strumenti dell’analisi infinitesimale.
Si considerino due variabili X e Y sulle quali si sono effettuate n rileva-
zioni:
( x1 , y1 ), ( x2 , y 2 ), … , ( xi , yi ), … , ( xn , y n )
Sia:
y = f ( x ; a , b, c , … , k )
la funzione interpolatrice scelta.
Siano inoltre ŷi i valori teorici sulla curva corrispondenti ai valori xi rile-
vati.
La condizione di accostamento data dal metodo dei minimi quadrati è quel-
la di determinare i valori dei parametri in modo che sia minima la somma dei
quadrati delle differenze fra i valori osservati yi e i valori teorici ŷi (fig.
11.1):
y

( xi , y i )
yi

di

ŷ i ( x i , ŷ i )

x
xi

Fig. 11.1 – Condizione dei minimi quadrati

n
ϕ ( a, b, c, …, k ) = ∑ [ yi − f ( xi ; a, b, c, …, k )]2
i =1
dove i valori xi e yi sono noti, mentre sono incogniti i parametri a , b , c ,
… , k della funzione.
La condizione necessaria, supposta che la funzione sia derivabile rispetto a
tutti i parametri, è data dall’annullarsi delle derivate parziali prime della fun-
zione ϕ ( a, b, c, …, k ) rispetto ai parametri a , b , c , … , k , cioè deve essere:
∂ϕ ∂ϕ ∂ϕ ∂ϕ
= 0, = 0, = 0 , …, =0
∂a ∂b ∂c ∂k

341
Si perviene, quindi, alla soluzione del sistema di k equazioni in k inco-
gnite:
⎧ n 2 ∂ f
⎪ [ yi − f ( xi ; a, b, c, … , k )]
∑ =0
⎪ i =1 ∂a
⎪ n ∂f
⎪ [ yi − f ( xi ; a, b, c, … , k )]2
∑ =0
⎪ i =1 ∂b
⎪ n
⎪ 2 ∂ f
⎨ [ yi − f ( xi ; a, b, c, … , k )]
∑ =0
⎪ i =1 ∂c
⎪………………………………………

⎪ n 2 ∂ f
⎪ [ yi − f ( xi ; a, b, c, … , k )]
∑ =0
⎪ i =1 ∂k


che una volta risolto fornisce i valori di a , b , c , … , k .

2. Regressione lineare

Si consideri una funzione lineare a due variabili:


y = a+bx
In questo caso si deve rendere minima la funzione:
n
ϕ ( a, b) = ∑ [ yi − ( a + b xi )]2
i =1
Annullando le derivate parziali prime rispetto ad a e b si ha il sistema:
⎧ n
⎪ 2 [ yi − ( a + b xi )]( −1) = 0

⎪ i =1
⎨ n
⎪ 2 [ y − ( a + b x ) ]( − x ) = 0


⎩ i =1
i i i

che risolto, fornisce i valori dei parametri:


⎧aˆ = y − b x
⎪ n
⎪⎪

⎨ ˆ i =1
(xi − x )( yi − y )
⎪b = n

⎪⎩
∑ i =1
(xi − x )2
dove x e y indicano le medie aritmetiche, rispettivamente di xi e yi .

342
La stima del parametro b , coefficiente angolare della funzione lineare, può
essere rappresentato nella forma:
n
(xi − x )( yi − y )
∑ n
bˆ = i =1 n
(xi − x )2
∑i =1 n
dove il denominatore è la varianza di X ( σ X2 ), mentre il numeratore è det-
to covarianza di X e Y ( σ XY ) e misura la variabilità congiunta delle coppie
( xi , yi ) di valori corrispondenti, rispetto al proprio valor medio; quindi, il co-
efficiente b della retta interpolante esprime la variabilità congiunta delle va-
riabili X e Y rapportata alla variabilità della sola X .
Excel mette a disposizione alcuni strumenti per l’interpolazione di una retta
di regressione:

- Aggiungi linea di tendenza;


- Strumenti Analisi dati Regressione;
- REGR.LIN.

Per quanto concerne il primo metodo, dopo aver selezionato i dati di inte-
resse escludendo le etichette, aprire il menu Inserisci e cliccare sulla voce Gra-
fico quindi seguire i passaggi fino a comporre un grafico a dispersione [Di-
spers. (XY)].
Dopo aver selezionato la serie dei dati sul grafico appena composto, sele-
zionare il comando Aggiungi linea di tendenza dal menu Grafico (fig. 11.2):

Fig. 11.2 – Aggiungi linea di tendenza

343
Dopo aver selezionato tra il Tipo di tendenza/regressione quello Lineare,
la scheda Opzioni di tale comando, fornisce le seguenti informazioni (fig.
11.3):

Fig. 11.3 – Opzioni del comando Aggiungi linea di tendenza: Lineare

dove:

- Nome linea di tendenza: selezionare la casella Personalizzato per asse-


gnare un nome (della lunghezza massima 256 caratteri) personalizzato a
una linea di tendenza (nome che verrà visualizzato nella legenda);
- Previsione: digitare i numeri desiderati in una delle due caselle per speci-
ficare il modo in cui si desidera prevedere le linee di tendenza di regres-
sione. Questa opzione non è disponibile per linee di tendenza a media
mobile. In particolare la casella Avanti specifica per quanti periodi o per
quante unità si desidera tracciare in avanti una linea di tendenza; la casel-
la Precedente specifica, invece, per quanti periodi o per quante unità si
desidera tracciare all’indietro una linea di tendenza;
- Imposta intercetta =: digitare un valore per specificare il punto in cui si
desidera che la linea di tendenza incroci l'asse Y . È possibile applicare
questa opzione a linee di tendenza lineari, polinomiali ed esponenziali
mentre non è disponibile per linee di tendenza logaritmiche, di potenza e
a media mobile;
- Visualizza l’equazione sul grafico: spuntando questa casella si visualizza
un'equazione di regressione per la linea di tendenza nell'etichetta della li-
nea di tendenza del grafico;

344
- Visualizza il valore di R al quadrato sul grafico: spuntando questa ca-
sella si visualizza un valore di R al quadrato per la linea di tendenza nel-
l'etichetta della linea di tendenza del grafico.

Per quanto concerne il secondo metodo, all’interno del menu Strumenti


Analisi dati troviamo Regressione che consente di eseguire un'analisi lineare
della regressione utilizzando il metodo dei minimi quadrati per adattare una ret-
ta a un insieme di osservazioni (fig. 11.4).

Fig. 11.4 – Strumento Analisi dati Regressione

Premendo il pulsante OK comparirà le seguente finestra (fig. 11.5):

Fig. 11.5 – Regressione (input)

dove:

- Intervallo di input Y: immettere il riferimento dell'intervallo di dati di-


pendenti. L'intervallo deve consistere in un'unica colonna di dati;

345
- Intervallo di input X: immettere il riferimento dell'intervallo di dati in-
dipendenti. Le variabili indipendenti di questo intervallo vengono dispo-
ste in ordine crescente da sinistra a destra. È possibile immettere un mas-
simo di 16 variabili indipendenti;
- Etichette: selezionare questa opzione se la prima riga o colonna dell'in-
tervallo o degli intervalli di input contiene etichette. In caso contrario de-
selezionarla, in quanto le etichette di dati appropriate per la tabella di
output vengono generate automaticamente;
- Livello di confidenza: selezionare questa opzione per calcolare un inter-
vallo di confidenza per le stime dei coefficienti della retta di regressione.
Immettere nella casella il livello di confidenza che si desidera applicare
oltre al livello predefinito del 95%.
Una volta che sia stata stimata la retta di regressione, potrebbe essere inte-
ressante conoscere l’insieme dei valori in cui si dovrebbero trovare i veri
ed ignoti parametri del modello ad un prefissato livello di significatività.
Nell’ipotesi che gli stimatori â e b̂ si distribuiscano normalmente, si può
dimostrare che l’intervallo di confidenza all’( 1 − α ) 100 per l’intercetta a
risulta essere:
[aˆ − tc ⋅ saˆ ; aˆ − tc ⋅ saˆ ]
mentre, l’intervallo di confidenza all’( 1 − α ) 100 per il coefficiente ango-
lare b è:
[ bˆ − t ⋅ s ; bˆ − t ⋅ s
c bˆ c bˆ
]
dove:

- s aˆ è le deviazione standard di â :
⎛ ⎞
⎜ 2

⎜1 x ⎟
s aˆ = s y x ⎜n+ n ⎟




i =1
(xi − x )2 ⎟⎟

- sbˆ è la deviazione standard di b̂ :
1
sbˆ = s y x n

∑ (x − x )
i =1
i
2

- s y x è la deviazione standard (o errore standard) della stima, cioè lo


scostamento dei valori yi rispetto ai corrispondenti valori determinati sul-
la retta di regressione:

346
n

∑ (y
i =1
i − yˆ i )
2

sy x =
n−2
- t c è il valore critico di una distribuzione t di Student con n − 2 gradi di
libertà;
- Passa per l'origine: selezionare questa opzione per far fare in modo che
la linea di regressione passi per l'origine;
- Intervallo di output: immettere il riferimento della cella superiore sini-
stra della tabella di output. Impostare almeno sette colonne per la tabella
di output di riepilogo, in modo da includere la tabella di analisi varianza,
i coefficienti, la stima dell'errore standard di y , i valori r 2 , il numero di
osservazioni e l'errore standard dei coefficienti;
- Nuovo foglio di lavoro: selezionare la casella per inserire un nuovo fo-
glio di lavoro nella cartella di lavoro corrente e incollare i risultati a parti-
re dalla cella A1 del nuovo foglio di lavoro. Per assegnare un nome al
nuovo foglio di lavoro, digitarlo nella casella di testo;
- Nuova cartella di lavoro: selezionare la casella per creare una nuova car-
tella di lavoro e incollare i risultati in un nuovo foglio della nuova cartella
di lavoro;
- Residui: selezionare questa opzione per includere i residui nella corri-
spondente tabella di output. In particolare si calcolano i valori approssi-
mati ( ŷi ) e i residui cioè la differenza tra valori osservati ( yi ) e valori
stimati ( ŷi ):
ε i = yi − yˆ i
- Residui standardizzati: selezionare questa opzione per includere i resi-
dui standardizzati nella corrispondente tabella di output; tali valori sono
ottenuti dal rapporto tra i residui e l’errore standard di regressione:
εi
ε i* =
sy x
- Tracciati dei residui: selezionare questa opzione per generare automati-
camente un grafico per ciascuna variabile indipendente contrapposta al
residuo. Si tratta di un grafico di dispersione in cui l’asse delle ordinate è
riferito ai residui ( ε i ) e l’asse delle ascisse ai valori stimati ( ŷi ). Se il
modello è ben specificato, i residui tenderanno a distribuirsi in modo ca-
suale attorno alla retta ε i = 0 senza mostrare valori anomali né tendenze
di fondo o comportamenti sistematici. Quando, invece, sul grafico i resi-
dui si dispongono in modo non casuale è il segnale che il modello di re-
gressione non rappresenta in modo appropriato la relazione statistica tra le
due variabili ed è necessario, pertanto, ricercare un nuovo modello. Attra-

347
verso questo grafico è possibile valutare se: la funzione di regressione è
lineare; se la distribuzione delle ε i presenta varianza costante per tutti i
valori della variabile X ; se le ε i sono variabili indipendenti; se la distri-
buzione delle ε i è normale;
- Tracciati delle approssimazioni: selezionare questa opzione per genera-
re un grafico per i valori previsti contrapposti ai valori osservati. Trattasi
di un grafico a dispersione simile al precedente nel quale al posto dei re-
sidui ( ε i ) vengono visualizzati i valori stimati ( ŷi ) consentendo, in que-
sto modo, di valutare la distanza esistente tra i valori osservati ed i valori
stimati;
- Tracciati delle probabilità normali: selezionare questa opzione per ge-
nerare un grafico relativo alla probabilità normale. In questo grafico la
proporzione cumulata per una singola variabile numerica, nel nostro caso
il residuo standardizzato ( ε i* ) vene messa a confronto con la proporzione
cumulata attesa nel caso in cui il campione provenga da una distribuzione
normale. Se il campione proviene da una distribuzione normale, i punti ri-
sulteranno allineati lungo la bisettrice.

Per quanto concerne la tabella di output di riepilogo, abbiamo (fig. 11.6):

Fig. 11.6 – Regressione (output)

dove, per quanto concerne la sezione relativa alla Statistica della regres-
sione le statistiche calcolate, sono:

348
- R multiplo: è il coefficiente di correlazione lineare di Pearson ( r ) (di cui
si discuterà nel § 3);
- R al quadrato: è il coefficiente di determinazione ( r 2 ) (di cui si discuterà
nel § 3);
- R al quadrato corretto: è il coefficiente di determinazione corretto ( rc2 )
utilizzato nel caso della regressione multipla, per riflettere sia il numero
di variabili esplicative sia la dimensione campionaria:
⎡ m ⎤
rc2 = r 2 − ⎢(1 − r 2 )
⎣ n − m − 1⎥⎦
dove m è il numero di variabili esplicative.
Nel caso della regressione lineare la statistica diventa:
⎡ n −1 ⎤
rc2 = 1 − ⎢(1 − r 2 )
⎣ n − 2 ⎥⎦
- Errore standard: restituisce l'errore standard ( s y x ) del valore previsto
per y per ciascun valore di x nella regressione. È una misura che indica
la quantità di errori commessi nella previsione del valore di y per cia-
scun valore di x e viene calcolato utilizzando la formula seguente:
⎡ ⎡ n ⎤ ⎤
2


1 ⎢ n ⎣ i =1

⎢ ( xi − x ) ( y i − y ) ⎥ ⎥
⎦ ⎥
sy x = ∑ 2
⎢ ( yi − y ) −
(n − 2) ⎢ i =1 n ⎥
⎢ i =1

( xi − x ) 2 ⎥

⎣ ⎦
- Osservazioni: è il numero di osservazioni ( n ).

Per quando concerne la sezione relativa all’Analisi varianza, si ottiene:

- gdl regressione: gradi di libertà associati alla somma dei quadrati della
regressione ( SS R );
- gdl residuo: gradi di liberta associati alla somma dei quadrati dei residui
( SS E );
- gdl totale: gradi di libertà associati alla somma dei quadrati totali ( SST );
- SQ regressione: somma dei quadrati della regressione, cioè la somma dei
quadrati delle differenze dei valori stimati ŷi dalla media y :
n
SS R = ∑ ( yˆ
i =1
i − y)2

349
- SQ residuo: somma dei quadrati dei residui, cioè la somma dei quadrati
delle differenze tra i valori osservati yi e i valori stimati ŷi :
n
SS E = ∑(y
i =1
i − yˆ i ) 2

- SQ totale: somma totale dei quadrati, cioè la somma dei quadrati delle
differenze dei valori osservati yi dalla loro media ŷi :
n
SST = ∑(y
i =1
i − y)2

che si può dimostrare essere scomponibile in:


SST = SS R + SS E
- MQ regressione: media dei quadrati della regressione;
- MQ residui: media dei quadrati dei residui;
- F : valore della statistica test;
- Significatività F : livello di significatività osservato (p-value), rappresen-
ta il livello di significatività più basso a cui H 0 può essere rifiutata per un
dato insieme di dati. Viene confrontato con il livello di significatività α ,
se risulta che p-value < α , allora si rifiuta l’ipotesi nulla H 0 : b = 0 che
non vi sia una relazione lineare tra le variabili X ed Y .

La porzione sottostante contiene le seguenti informazioni:

- Coefficienti intercetta: è il valore dell’intercetta ( â );


- Coefficienti X: è il valore dell’inclinazione ( b̂ );
- Errore standard intercetta: è l’errore standard dell’intercetta ( s aˆ );
- Errore standard X: è l’errore standard dell’inclinazione ( sbˆ );
- Stat t intercetta: valore della statistica test per la verifica dell’ipotesi
H0 : a = 0 ;
- Stat t X: valore della statistica test per la verifica dell’ipotesi H 0 : b = 0 ;
- Valore di significatività intercetta: livello di significatività osservato (p-
value) per la verifica d’ipotesi H 0 : a = 0 ;
- Valore di significatività X: livello di significatività osservato (p-value)
per la verifica d’ipotesi H 0 : b = 0 ;
- Inferiore 95% intercetta: limite inferiore dell’intervallo di confidenza, al
livello di significatività del 95%, per a ;
- Inferiore 95% X: limite inferiore dell’intervallo di confidenza, al livello
di significatività del 95%, per b ;

350
- Superiore 95% intercetta: limite superiore dell’intervallo di confidenza,
al livello di significatività del 95%, per a ;
- Superiore 95% X: limite superiore dell’intervallo di confidenza, al livel-
lo di significatività del 95%, per b .

La sezione relativa agli Output residui, contiene, per ciascuna osservazio-


ne:

- Previsto Y: fornisce il calcolo dei valori approssimati ( ŷi );


- Residui: dà il calcolo dei residui ( ε i );
- Residui standard: valori dei residui standardizzati ( ε i* );

infine, la parte relativa agli Output dati contengono i valori per la realizza-
zione del grafico dei Tracciati delle probabilità normali.
Un’alternativa all’utilizzo dello strumento Analisi dati Regressione, è rap-
presentato dalla funzione:
REGR.LIN(y_nota;x_nota;cost;stat)
che calcola le statistiche di una linea utilizzando il metodo dei minimi qua-
drati per calcolare la linea retta che si adatti meglio ai dati, quindi restituisce
una matrice che descrive la linea. Poiché la funzione restituisce una matrice di
valori, deve essere immessa come formula in forma di matrice.
Il significato dei parametri è:

- y_nota è l'insieme dei valori noti y . Se la matrice y_nota è in una singo-


la colonna, ogni colonna di x_nota verrà interpretata come una variabile
distinta. Se la matrice y_nota è in una singola riga, ogni riga di x_nota
verrà interpretata come una variabile distinta;
- x_nota è un insieme facoltativo di valori x che possono essere già noti
dalla relazione lineare. La matrice x_nota può includere uno o più insiemi
di variabili. Se viene utilizzata una sola variabile, y_nota e x_nota po-
tranno essere intervalli di forma qualsiasi, purché con dimensioni uguali.
Se vengono utilizzate più variabili, y_nota dovrà essere un vettore, ovvero
un intervallo con altezza di una riga o larghezza di una colonna. Se
x_nota è omesso, verrà considerato uguale alla matrice {1; 2; 3; …} che ha
le stesse dimensioni di y_nota;
- cost è un valore logico che specifica se la costante b deve essere pari a 0.
Se cost è VERO o è omesso, b verrà calcolata secondo la normale pro-
cedura. Se cost è FALSO, b verrà impostata a 0 è i valori verranno cor-
retti in modo che l’equazione passi per l’origine degli assi cartesiani;
- Stat è un valore logico che specifica se restituire statistiche aggiuntive di
regressione. Se stat è VERO, REGR.LIN restituirà le statistiche aggiun-
351
tive di regressione. Se stat è FALSO o è omesso, REGR.LIN restituirà
solo a e b .

Le statistiche aggiuntive di regressione sono le seguenti:

- s1 , sm , … , sm : i valori degli errori standard per gli m parametri del


modello lineare;
- sb : l’errore standard per l’intercetta b ; sb = #N/D quando cost è
FALSO;
- r 2 : coefficiente di determinazione;
- s y : errore standard per la stima di y ;
- F : statistica F o valore osservato di F . Utilizzare la statistica F per
determinare se la relazione osservata tra le variabili dipendenti e indi-
pendenti è casuale;
- gdl : gradi di libertà. Utilizzare i gradi di libertà per determinare i valo-
ri critici di F in una tabella statistica. Confrontare i valori trovati nella
tabella con la statistica F restituita dalla funzione REGR.LIN, per sta-
bilire un livello di confidenza per il modello;
- sqreg : somma della regressione dei quadrati;
- sqres : somma residua dei quadrati.

La tab. 11.1 mostra l'ordine in cui vengono restituite le statistiche aggiunti-


ve di regressione:

Tab. 11.1 – Statistiche aggiuntive di regressione per la funzione REGR.LIN


mn mn −1 … m2 m1 b
sm s m −1 … s2 s1 sb
r2 sy
F gdl
sqreg sqres

dove: mn , mn −1 , … , m2 , m1 , b sono i coefficienti di un modello lineare


di regressione multipla:
y = m1 x1 + m2 x2 + … + mn −1 xn −1 + mn xn + b
La precisione della retta calcolata dalla funzione REGR.LIN dipende dal
grado di dispersione nei dati. Più i dati sono lineari, più il modello di
REGR.LIN risulterà accurato. REGR.LIN utilizza il metodo dei minimi qua-
drati per determinare la retta che meglio rappresenti i dati.

352
Nell'analisi di regressione, per ogni punto viene calcolato il quadrato della
differenza tra il valore di y stimato per quel punto e il valore reale di y corri-
spondente. La somma dei quadrati delle differenze viene denominata somma
residua dei quadrati, sqres. Viene quindi calcolata la somma totale dei quadra-
ti, sqtot.
Se cost = VERO o è omesso, la somma totale dei quadrati è la somma del
quadrato della differenza tra i valori reali di y e la media dei valori y .
Se cost = FALSO, la somma totale dei quadrati è la somma dei quadrati
dei valori reali di y senza la sottrazione della media dei valori y da ogni valo-
re y . La somma della regressione dei quadrati, sqreg, si ottiene da:
sqreg = sqtot − sqres .
Minore è la somma residua rispetto alla somma totale dei quadrati, mag-
giore sarà il valore del coefficiente di determinazione, r 2 , il quale è un indica-
tore del livello di precisione con cui l'equazione ottenuta dall'analisi di regres-
sione spiega la relazione tra le variabili. r 2 è uguale a:
sqreg
sqtot
In alcuni casi, a una o più colonne di x (partendo dal presupposto che i va-
lori y e x siano disposti in colonne) potrebbero non corrispondere valori di
previsione aggiuntivi in presenza di altre colonne x . L'eliminazione di una o
più colonne x può risultare in valori y previsti altrettanto precisi. In questo
caso le colonne x ridondanti vanno omesse dal modello di regressione. Questo
fenomeno viene denominato collinearità poiché ogni colonna x ridondante
può essere espressa come somma di multipli delle colonne x non ridondanti.
REGR.LIN verifica la collinearità e rimuove le colonne x ridondanti dal mo-
dello di regressione, dopo averle individuate. Le colonne x rimosse vengono
indicate nell'output di REGR.LIN con il coefficiente 0 e con s = 0 . Se una o
più colonne vengono rimosse perché ridondanti, il grado di libertà cambia in
base al numero di colonne x effettivamente utilizzato per le previsioni. Se i
gradi di libertà vengono modificati in seguito alla rimozione delle colonne x
ridondanti, cambieranno anche i valori s y ed F . La collinearità si verifica ra-
ramente, ad eccezione che nel caso in cui le colonne x contengano soltanto 0 e
1 a indicare se il soggetto di un esperimento è membro di un determinato grup-
po o meno.
Se cost = VERO o è omesso, REGR.LIN inserisce effettivamente una co-
lonna x aggiuntiva di 1 per creare il modello dell'intercetta.
Se in una colonna viene indicato il numero 1 per ogni individuo di sesso
maschile e 0 per ogni individuo di sesso femminile ed è presente una colonna
in cui viene inserito il numero 1 per ogni individuo di sesso femminile e 0 per

353
ogni individuo di sesso maschile, quest'ultima colonna viene considerata come
ridondante, poiché i dati contenuti in essa possono essere ottenuti dalla sottra-
zione dei valori presente nella colonna dell'indicatore di sesso maschile dai va-
lori nella colonna che contiene con tutti i valori 1 aggiunta da REGR.LIN.
Infine, gdl viene calcolato nel seguente modo quando non viene rimossa al-
cuna colonna x dal modello a causa della collinearità.
Se sono presenti k colonne di x note e cost = VERO o è omesso, allora
gdl = n − k − 1 . Se cost = FALSO, allora gdl = n − k . In entrambi i casi, per
ogni colonna rimossa a causa della collinearità, il valore gdl aumenta di 1.
Quando si immette come argomento una costante matrice come x_nota,
utilizzare il punto e virgola (;) per separare i valori nella stessa riga e la barra
rovesciata (\) per separare le righe.
I caratteri separatori possono variare a seconda delle impostazioni della fi-
nestra di dialogo Impostazioni internazionali nel Pannello di controllo.
Si noti che i valori y stimati dall'equazione di regressione possono non es-
sere validi qualora siano al di fuori dell'intervallo dei valori y utilizzati per de-
terminare l'equazione.

Esempio 11.1

In un esperimento si sono misurate le lunghezze (in cm) di una molla sottopo-


sta a successivi carichi (in kg) ottenendo i seguenti risultati (tab. 11.2):

Tab. 11.2 – Lunghezze (in cm) di una molla sottoposta a successivi carichi (in kg)
Pesi 1 2 3 4 5
Lunghezze 12,0 13,5 14,8 16,5 18,2

Posizionarsi con il cursore nella cella A1 ed introdurre i dati ottenendo il se-


guente risultato (fig. 11.7):

Fig. 11.7 – Inserimento dati esempio 11.1

Selezionare le celle A2:B6, aprire il menu Inserisci e cliccare sulla voce Gra-
fico (fig. 11.8):

354
Fig. 11.8 – Creazione guidata grafico – Passaggio 1 di 4 – Tipo di grafico

Nella scheda Tipi standard selezionare Dispers. (XY) (fig. 11.9):

Fig. 11.9 – Selezione del tipo di grafico

Premere il pulsante Avanti (fig. 11.10):

355
Fig. 11.10 – Creazione guidata grafico – Passaggio 2 di 4 – Dati di origine del gra-
fico

Premere ancora il pulsante Avanti (fig. 11.11):

Fig. 11.11 – Creazione guidata grafico – Passaggio 3 di 4 – Opzioni del grafico

Nell’Asse dei valori (X) digitare Pesi, nell’Asse dei valori (Y): Lunghezze, ed
infine premendo ancora una volta il pulsante Avanti (fig. 11.12):

356
Fig. 11.12 – Creazione guidata grafico – Passaggio 4 di 4 – Posizione del grafico

Dopo aver selezionato la casella Crea nuovo foglio e premuto il pulsante Fine,
si ottiene (fig. 11.13):
19,0

18,0

17,0

16,0
Lunghezze

15,0

14,0

13,0

12,0

11,0
0 1 2 3 4 5
Pesi

Fig. 11.13 – Grafico di dispersione per i dati dell’esempio 11.1

Dopo aver selezionato la serie dei dati sul grafico, aprire il menu Grafico e se-
lezionare il comando Aggiungi linea di tendenza (fig. 11.14):

Fig. 11.14 – Aggiungi linea di tendenza

357
Selezionare nella scheda Tipo di tendenza/regressione Lineare, nella scheda
Opzioni spuntare le caselle Visualizza l’equazione sul grafico e Visualizza il
valore R al quadrato sul grafico (fig. 11.15):

Fig. 11.15 – Opzioni del comando Aggiungi linea di tendenza: Lineare

Quindi, premere il pulsante OK, ottenendo il seguente risultato (fig. 11.16):


19,0

y = 10,38 + 1,54 x
18,0 2
R = 0,99731
17,0

16,0
Lunghezze

15,0

14,0

13,0

12,0

11,0
0 1 2 3 4 5
Pesi

Fig. 11.16 – Retta di regressione per i dati dell’esempio 11.1

Aprire il menu Strumenti, selezionare la voce Analisi dati e il comando Re-


gressione (fig. 11.17).

358
Fig. 11.17 – Strumento Analisi dati Regressione

Dopo aver premuto il pulsante OK comparirà le seguente finestra (fig. 11.18):

Fig. 11.18 – Regressione (input)

Nella casella Intervallo di input Y digitare $B$1:$B$6, nell’Intervallo di in-


put X: A1:A6, spuntare le caselle Etichette, Residui, Residui standardizzati,
Tracciati dei residui, Tracciati delle approssimazioni, Tracciati delle pro-
babilità normali (fig. 11.19):

359
Fig. 11.19 – Immissione delle informazioni per i dati dell’esempio 11.1

Quindi, dopo aver premuto il pulsante OK, si ottiene (fig. 11.20, 11.21, 11.22,
11.23):

Fig. 11.20 – Output di riepilogo Analisi dati Regressione per i dati dell’esempio
11.1

360
Tracciato dei residui

0,15

0,1

0,05

0
0 1 2 3 4 5 6
Residui

-0,05

-0,1

-0,15

-0,2

-0,25
Pesi

Fig. 11.21 – Tracciato dei residui relativi alla regressione per i dati dell’esempio
11.1
Tracciato delle approssimazioni

19,0

18,0

17,0

16,0
Lunghezze

Lunghezze
15,0
Previsto Lunghezze

14,0

13,0

12,0

11,0
0 1 2 3 4 5
Pesi

Fig. 11.22 – Tracciato delle approssimazioni relative alla regressione per i dati
dell’esempio 11.1

361
Tracciato della probabilità normale

19,0

18,0

17,0

16,0
Lunghezze

15,0

14,0

13,0

12,0

11,0
0 10 20 30 40 50 60 70 80 90 100
Percentile campionaria

Fig. 11.23 – Tracciato della probabilità normale relativa alla regressione per i dati
dell’esempio 11.1

Dall’analisi dell’output di riepilogo (fig. 11.20) si osserva, nella sezione Stati-


stica della regressione, come il modello lineare si adatti bene ai valori della
tab. 11.1: il valore di R multiplo (coefficiente di correlazione lineare) indica
una forte correlazione positiva tra le variabili pesi ( X ) e lunghezze ( Y ) mentre
il valore di r 2 (coefficiente di determinazione) mostra che il 99,73% della va-
riazione della lunghezza della molla è attribuibile alla variazione del peso ap-
plicatogli.
Per quanto riguarda l’Analisi varianza, essendo il valore di significatività F
molto piccolo, si concludere che l’ipotesi che non vi sia una relazione lineare
tra pesi e lunghezze delle molle può essere decisamente scartata.
L’analisi della fig. 11.21 (tracciato dei residui) non evidenzia andamenti parti-
colari; la fig. 11.22 (tracciato delle approssimazioni) permette di verificare
immediatamente la bontà del modello lineare valutando; infine il fig. 11.23
(tracciato della probabilità normale) evidenza certamente la normalità dei re-
sidui.

Esempio 11.2

Il materiale grezzo utilizzato per la produzione di una fibra sintetica viene im-
magazzinato in un ambiente che non dispone di controllo dell’umidità. Per 15
giorni vengono prese misurazioni abbinate dell’umidità atmosferica (in %) pre-

362
sente nel magazzino e dell’acqua assorbita (in %) dal materiale, ottenendo i se-
guenti risultati (tab. 11.3):

Tab. 11.3 – Percentuale di acqua assorbita da un materiale al variare della percen-


tuale di umidità atmosferica presente nel magazzino
Temperatura 100 110 120 130 140 150 160 170 180 190
Rendimento 45 52 54 63 62 68 75 76 92 88

Posizionarsi con il cursore nella cella A1 ed introdurre i dati ottenendo il se-


guente risultato (fig. 11.24):

Fig. 11.24 – Inserimento dati esempio 11.2

Aprire il menu Strumenti, selezionare la voce Analisi dati e il comando Re-


gressione (fig. 11.25):

Fig. 11.25 – Strumento Analisi dati Regressione

dopo aver premuto il pulsante OK comparirà le seguente finestra (fig. 11.26):

363
Fig. 11.26 – Regressione (input)

Nella casella Intervallo di input Y digitare $B$1:$B$11, nell’Intervallo di


input X: $A$1:$A$11, spuntare le caselle Etichette, Residui, Residui stan-
dardizzati, Tracciati dei residui, Tracciati delle approssimazioni, Tracciati
delle probabilità normali (fig. 11.27):

Fig. 11.27 – Immissione delle informazioni per i dati dell’esempio 11.2

quindi, dopo aver premuto il pulsante OK, si ottiene (fig. 11.28, 11.29, 11.30,
11.31):

364
Fig. 11.28 – Output di riepilogo Analisi dati Regressione per i dati dell’esempio
11.2
Tracciato dei residui
9

3
Residui

90 110 130 150 170 190 210


-1

-3

-5
Temperatura

Fig. 11.29 – Tracciato dei residui relativi alla regressione per i dati dell’esempio
11.2

365
Tracciato delle approssimazioni
100

90

80
Rendimento

70 Rendimento
Previsto Rendimento

60

50

40
90 110 130 150 170 190 210
Temperatura

Fig. 11.30 – Tracciato delle approssimazioni relative alla regressione per i dati
dell’esempio 11.2
Tracciato della probabilità normale
100

90

80
Rendimento

70

60

50

40
0 10 20 30 40 50 60 70 80 90 100
Percentile campionaria

Fig. 11.31 – Tracciato della probabilità normale relativa alla regressione per i dati
dell’esempio 11.2

Dall’analisi dell’output di riepilogo (fig. 11.28) si osserva, nella sezione Stati-


stica della regressione, come il modello lineare si adatti bene ai valori della
tab. 11.3: il valore di R multiplo (coefficiente di correlazione lineare) indica

366
una forte correlazione positiva tra le variabili temperatura e rendimento mentre
il valore di r 2 (coefficiente di determinazione) mostra che il 95,5% della varia-
zione del rendimento è attribuibile alla variazione della temperatura.
Per quanto riguarda l’Analisi varianza, essendo il valore di significatività F
molto piccolo, si concludere che l’ipotesi che non vi sia una relazione lineare
tra pesi e lunghezze delle molle può essere decisamente scartata.
L’analisi della fig. 11.29 (tracciato dei residui) non evidenzia andamenti parti-
colari anche se per valori elevati della temperatura vi è certamente un aumento
della variabilità; la fig. 11.30 (tracciato delle approssimazioni) permette di ve-
rificare immediatamente la bontà del modello lineare valutando; infine il fig.
11.31 (tracciato della probabilità normale) evidenza una quasi normalità dei
residui.

Esempio 11.3

La tab. 11.4 riporta i prezzi al lotto (in euro) di un prodotto rispetto al numero
di pezzi difettosi contenuti:

Tab. 11.4 – Prezzi al lotto di un prodotto al variare del numero di pezzi difettosi
contenuti
N° pezzi difettosi 2 5 10 13 20
Prezzo al lotto € 77,50 € 64,50 € 54,00 € 52,00 € 44,00

Posizionarsi con il cursore nella cella A1 ed introdurre i dati ottenendo il se-


guente risultato (fig. 11.32):

Fig. 11.32 – Inserimento dati esempio 11.3

Selezionare le celle D2:E6 quindi digitare =REGR.LIN(B2:B6;A2:A6;VE-


RO;VERO) e premere, in sequenza, i tasti Ctrl, Maiusc, Invio ottenendo il se-
guente risultato (fig. 11.33):

367
Fig. 11.33 – Statistiche aggiuntive di regressione della funzione REGR.LIN per i
dati dell’esempio 11.3

Le celle D2 e E2 riportano il valore del coefficiente angolare ( b ) e


dell’intercetta ( a ), del modello lineare; quindi la retta di regressione ha equa-
zione: y = 75,9 − 1,75 x .
Le celle D3 ed E3 presentano gli errori standard per i parametri b ed a rispet-
tivamente.
La cella D4 calcola il coefficiente di determinazione ( r 2 ); mentre nella cella
E4 abbiamo il valore dell’errore standard ( s y ) per la stima di y .
La cella D5 calcola il valore osservato di F ; mentre nella cella E5 gli associati
gradi di libertà ( gdl ).
Infine, nelle celle D6 ed E6 troviamo il valore della somma della regressione
dei quadrati ( sqreg ) e della somma residua dei quadrati ( sqres ).

3. Correlazione

La teoria della correlazione permette di misurare il grado di interdipenden-


za di due caratteri statistici.
Quando la dipendenza tra le due variabili è lineare, si parla di correlazione
lineare, che può essere valutata mediante il coefficiente di correlazione lineare
( r ):
n

∑ (x − x) ( y
i =1
i i − y)
r=
n n

∑ (x − x) ∑ ( y
i =1
i
2

i =1
i − y)2

dove il termine al numeratore rappresenta la covarianza di X ed Y cioè la


variabilità congiunta delle coppie ( xi , yi ) di valori corrispondenti, rispetto al
proprio valor medio; mentre, il denominatore rappresenta il prodotto delle de-
viazioni standard di X ed Y .
368
Il coefficiente di correlazione lineare gode di importanti proprietà:

- − 1 ≤ r ≤ +1 ;
- risulta r = +1 quando tutti i dati sono allineati lungo una retta crescente
(fig. 11.34);
y

Fig. 11.34 – r = +1

- risulta r = −1 quando tutti i dati sono allineati lungo una retta decrescente
(fig. 11.35);
y

Fig. 11.35 – r = −1

- risulta r = 0 quando non esiste una relazione lineare tra i due caratteri
(fig. 11.36).

369
y

x
Fig. 11.36 – r=0

Sapendo che la varianza ( σ y2 ) della variabile Y si può scomporre in una


parte ( σ ŷ2 ), detta varianza spiegata, in quanto la variabilità della Y è dovuta
alla dipendenza di Y dalla variabile X , e in una parte ( σ e2 ), detta varianza
non spiegata, in quanto la variabilità della Y non dipende dalla variabile X ,
ma da altri fattori; si può introdurre un secondo indicatore, dato dal rapporto tra
la varianza spiegata e la varianza totale, chiamato coefficiente di determina-
zione:
2
σ y2ˆ
r =
σ y2
che indica quale frazione di varianza totale è dovuta alla dipendenza fra le
variabili Y e X , ossia quale frazione della variazione della variabile Y è
spiegata dalle variazioni della variabile X .
Sapendo che:
σ y2 = σ y2ˆ + σ e2
allora:
2
σ y2ˆ
r =
σ y2ˆ + σ e2
è evidente, quindi, che se la variabilità non spiegata è trascurabile, σ e2 ten-
de ad annullarsi ed r 2 avrà un valore prossimo ad 1, mentre diverrà via via mi-
nore di 1 al diminuire dell’accordo tra la funzione calcolata e le osservazioni
sperimentali.
In Excel, la covarianza è determinabile tramite la funzione:

370
COVARIANZA(matrice1; matrice2)
dove:

- matrice1 è il primo intervallo di celle costituito da interi;


- matrice2 è il secondo intervallo di celle costituito da interi.

Gli argomenti devono essere numeri oppure nomi, matrici o riferimenti che
contengano numeri.
Se una matrice o un riferimento contiene testo, valori logici o celle vuote,
tali valori verranno ignorati. Le celle contenenti il valore zero verranno invece
incluse nel calcolo.
Se matrice1 e matrice2 contengono numeri diversi di dati, COVARIAN-
ZA restituirà il valore di errore #N/D.
Se matrice1 o matrice2 non contiene alcun dato, COVARIANZA restitui-
rà il valore di errore #DIV/0!.
Per quanto concerne il coefficiente di correlazione lineare, la funzione inte-
ressata è:
PEARSON(matrice1;matrice2)
dove:

- matrice1 è un insieme di valori indipendenti;


- matrice2 è un insieme di valori dipendenti.

Gli argomenti devono essere numeri oppure nomi, matrici o riferimenti che
contengono numeri.
Se una matrice o un riferimento contiene testo, valori logici o celle vuote,
tali valori verranno ignorati. Le celle contenenti il valore zero verranno invece
incluse nel calcolo.
Se matrice1 e matrice2 contengono un numero differente di dati o nessun
dato, PEARSON restituirà il valore di errore #N/D.
Infine, per quanto riguarda il coefficiente di determinazione:
RQ(y_nota;x_nota)
dove:

- y_nota è una matrice o un intervallo di valori;


- x_nota è una matrice o un intervallo di valori.

Gli argomenti devono essere numeri oppure nomi, matrici o riferimenti che
contengono numeri.
Se una matrice o un riferimento contiene testo, valori logici o celle vuote,
tali valori verranno ignorati. Le celle contenenti il valore zero verranno invece
incluse nel calcolo.

371
Se y_nota e x_nota contengono un numero differente di valori o nessun
valore, RQ restituirà il valore di errore #N/D.

Esempio 11.4

Mediante uno spettrofotofluorimetro vengono studiate alcune soluzioni acquo-


se di fluorosceina la cui concentrazione viene espressa in psicodrammi ( pg )
per cm3 di soluzione (tab. 11.5).

Tab. 11.5 – Intensità di fluorescenza al variare della concentrazione di fluoroscei-


na
concentrazione 0 2 4 6 8 10 12
intensità 2,1 5,0 9,0 12,6 17,3 21,0 24,7

Posizionarsi con il cursore nella cella A1 ed introdurre i dati ottenendo il se-


guente risultato (fig. 11.37):

Fig. 11.37 – Inserimento dati esempio 11.4

Posizionarsi nella cella A11 e digitare: covarianza =, A13: Pearson (r) =, A15:
R quadrato =, B11: =COVARIANZA($A$2:$A$8;$B$2:$B$8), B13:
=PEARSON($A$2:$A$8;$B$2:$B$8), B15: =RQ($B$2:$B$8;$A$2:$A$8) ot-
tenendo (fig. 11.38):

Fig. 11.38 – Calcolo della covarianza, coefficiente di correlazione lineare e coeffi-


ciente di determinazione per i dati dell’esempio 11.4

372
Esempio 11.5

Si vuole stabilire la relazione tra il costo per la produzione in serie di laminati e


le dimensioni del processo (il numero di pezzi prodotti). La tab. 11.6 riporta al-
cuni valori, da produzioni passate, di quantitativi di laminati prodotti e il costo
relativo sostenuto per produrli.

Tab. 11.6 – Quantità di laminati prodotti e relativi costi di produzione


n° pezzi prodotti costo di produzione
1.213 € 13.474
1.518 € 16.497
3.050 € 29.349
852 € 11.314
1.550 € 17.224
1.215 € 14.459
2.120 € 22.186
2.207 € 23.483
2.175 € 24.095
1.128 € 15.982

Posizionarsi con il cursore nella cella A1 ed introdurre i dati ottenendo il se-


guente risultato (fig. 11.39):

Fig. 11.39 – Inserimento dati esempio 11.5

Posizionarsi nella cella A14 e digitare: covarianza =, A16: Pearson (r) =, A18:
R quadrato =, B14: =COVARIANZA($A$2:$A$11;$B$2:$B$11), B16: =PEA-

373
RSON($A$2:$A$11;$B$2:$B$11), B15: =RQ($B$2:$B$11;$A$2:$A$11) otte-
nendo (fig. 11.40):

Fig. 11.40 – Calcolo della covarianza, coefficiente di correlazione lineare e coeffi-


ciente di determinazione per i dati dell’esempio 11.5

4. Regressione logaritmica

Si consideri una funzione logaritmica di equazione:


y = b + a ln( x)
Le equazioni ai minimi quadrati che possono essere applicate in questo ca-
so sono:
⎧ n n

⎪a
⎪ i =1

ln( xi ) + bn = ∑ i =1
yi
⎨ n n n
⎪a [ ] [ln( xi )] yi

⎩ i =1
ln( x i )∑ 2
+ b ∑i =1
ln( x ∑
i ) =
i =1

che, risolto, fornisce i seguenti valori:


⎧aˆ = y − b *x

∑( )
n


*
xi − *x ( yi − y )
⎨ ˆ i =1
⎪b =
∑( )
n
2
⎪ *
xi − *x
⎪⎩ i =1

dove si è posto:

- * xi = ln( xi ) ;
n
1
- *x =
n
∑ ln( x ) ;
i =1
i

n
1
- y=
n
∑y
i =1
i .

374
La funzione logaritmica può essere definita utilizzando i logaritmi decimali
o i logaritmi naturali. In entrambi i casi, la funzione può essere utilizzata con
insieme di dati in cui i valori della variabile indipendente sono positivi, in
quanto i logaritmi di valori nulli o negativi non sono numericamente definiti.

Esempio 11.6

La tab. 11.7 registra le temperature (in °C) misurate a varie profondità (in cm)
all’interno di una vasca contenente una soluzione chimica:

Tab. 11.7 – Temperature (in °C) al variare della profondità (in cm) di una vasca
contenente una soluzione chimica
Profondità 0,1 0,8 3,6 12 120 390 710 1200 1800 2400
Temperatura 21,2 27,3 31,8 35,6 42,3 45,9 47,7 49,2 50,2 51,4

Posizionarsi con il cursore nella cella A1 ed introdurre i dati ottenendo il se-


guente risultato (fig. 11.41):

Fig. 11.41 – Inserimento dati esempio 11.6

Selezionare le celle A2:B11, aprire il menu Inserisci e cliccare sulla voce Gra-
fico (fig. 11.42):

375
Fig. 11.42 – Creazione guidata grafico – Passaggio 1 di 4 – Tipo di grafico

Nella scheda Tipi standard selezionare Dispers. (XY) (fig. 11.43):

Fig. 11.43 – Selezione del tipo di grafico

Premere il pulsante Avanti (fig. 11.44):

376
Fig. 11.44 – Creazione guidata grafico – Passaggio 2 di 4 – Dati di origine del gra-
fico

Premere ancora il pulsante Avanti (fig. 11.45):

Fig. 11.45 – Creazione guidata grafico – Passaggio 3 di 4 – Opzioni del grafico

ed ancora una volta il pulsante Avanti (fig. 11.46):

377
Fig. 11.46 – Creazione guidata grafico – Passaggio 4 di 4 – Posizione del grafico

Dopo aver selezionato la casella Crea nuovo foglio e premuto il pulsante Fine,
si ottiene (fig. 11.47):
55

50

45

40

35

30

25

20

15
0 500 1.000 1.500 2.000 2.500

Fig. 11.47 – Grafico di dispersione per i dati dell’esempio 11.6

Dopo aver selezionato la serie dei dati sul grafico, aprire il menu Grafico e se-
lezionare il comando Aggiungi linea di tendenza (fig. 11.48):

378
Fig. 11.48 – Aggiungi linea di tendenza

Selezionare nella scheda Tipo di tendenza/regressione Logaritmica, nella


scheda Opzioni spuntare le caselle Visualizza l’equazione sul grafico e Vi-
sualizza il valore R al quadrato sul grafico (fig. 11.49):

Fig. 11.49 – Opzioni del comando Aggiungi linea di tendenza: Logaritmica

Quindi, premere il pulsante OK, ottenendo il seguente risultato (fig. 11.50):

379
55

50

45
y = 28,043 + 2,9851Ln(x)
2
R = 0,9999
40

35

30

25

20

15
0 500 1.000 1.500 2.000 2.500

Fig. 11.50 – Regressione logaritmica per i dati dell’esempio 11.6

5. Regressione polinomiale

Il metodo dei minimi quadrati può essere utilizzato anche per adattare una
funzione polinomiale a un insieme di dati.
Si consideri un polinomio di grado k :
y = a0 + a1 x + a2 x 2 + a3 x 3 + … + ak x k
Utilizzando il metodo dei minimi quadrati il sistema di equazioni da risol-
vere è:
⎧ n n n n
na
⎪ 0 1 + a∑ x i + a∑2 x 2
i + ∑
+ a k∑ x k
i = yi
⎪ i =1 i =1 i =1 i =1
⎪ n n n n


⎨ i =1

⎪⎪a1 xi + a2 xi + + ak
i =1
2
∑ ∑
i =1
xik =
i =1
xi y i
⎪…

⎪ n k n n n

∑ ∑
⎪a1 xi + a2 xi + + ak
⎪⎩ i =1 i =1
k +1
∑ ∑
i =1
xi2 k =
i =1
xik yi

che, risolto, permette di ricavare i parametri a0 , a1 , a2 , … , ak .

380
Esempio 11.7

Si vuole verificare se esiste una relazione tra lo spessore di una fibra sintetica e
la sua resistenza alla trazione. La tab. 11.8 riporta la resistenza alla trazione (in
%) in funzione dello spessore (in cm) per un campione di 8 fibre.

Tab. 11.8 – Temperature (in °C) al variare della profondità (in cm) di una vasca
contenente una soluzione chimica
Spessore 31 34 36 40 41 44 49 50
Resistenza alla trazione 74,77 72,69 73,12 71,33 69,96 70,22 73,63 75,94

Posizionarsi con il cursore nella cella A1 ed introdurre i dati ottenendo il se-


guente risultato (fig. 11.51):

Fig. 11.51 – Inserimento dati esempio 11.7

Selezionare le celle A2:B11, aprire il menu Inserisci e cliccare sulla voce Gra-
fico (fig. 11.52):

381
Fig. 11.52 – Creazione guidata grafico – Passaggio 1 di 4 – Tipo di grafico

Nella scheda Tipi standard selezionare Dispers. (XY) (fig. 11.53):

Fig. 11.53 – Selezione del tipo di grafico

Premere il pulsante Avanti (fig. 11.54):

382
Fig. 11.54 – Creazione guidata grafico – Passaggio 2 di 4 – Dati di origine del gra-
fico

Premere ancora il pulsante Avanti (fig. 11.55):

Fig. 11.56 – Creazione guidata grafico – Passaggio 3 di 4 – Opzioni del grafico

ed ancora una volta il pulsante Avanti (fig. 11.57):

383
Fig. 11.57 – Creazione guidata grafico – Passaggio 4 di 4 – Posizione del grafico

Dopo aver selezionato la casella Crea nuovo foglio e premuto il pulsante Fine,
si ottiene (fig. 11.58):
77

76

75

74

73

72

71

70

69
30 35 40 45 50

Fig. 11.58 – Grafico di dispersione per i dati dell’esempio 11.7

Dopo aver selezionato la serie dei dati sul grafico, aprire il menu Grafico e se-
lezionare il comando Aggiungi linea di tendenza (fig. 11.59):

384
Fig. 11.59 – Aggiungi linea di tendenza

Selezionare nella scheda Tipo di tendenza/regressione Polinomiale, nella ca-


sella Ordine: 6, nella scheda Opzioni spuntare le caselle Visualizza
l’equazione sul grafico e Visualizza il valore R al quadrato sul grafico e
premere il pulsante OK (fig. 11.60):
77

6 5 4 3 2
76 y = 0,0000218x - 0,0053963x + 0,5542653x - 30,2025186x + 920,6039106x - 14879,4341335x + 99684,1604592
R2 = 0,9896124

75

74

73

72

71

70

69
30 35 40 45 50

Fig. 11.60 – Regressione polinomiale per i dati dell’esempio 11.7

385
6. Regressione di potenza

Si consideri la funzione di potenza di equazione:


y = a xb
con a > 0 .
Applicando i logaritmi ad entrambi i membri, si ottiene:
ln( y ) = ln(a ⋅ x b ) = ln(a) + b ln( x)
ponendo:

- y * = ln( y ) ;
- a * = ln(a) ;
- x * = ln( x) ;

si ottiene:
y * = a* + b x*
Poiché questa è l’equazione di una retta, il sistema di equazioni ai minimi
quadrati sarà dato da:
⎧ * n * n

⎪a ∑
⎪ i =1
xi + b n =∑ i =1
yi*
⎨ n n n
⎪a *
⎪ ∑
⎩ i =1
( x * 2
i ) ∑
+ b
i =1
∑xi
*
=
i =1
xi* yi*

che, risolto, fornisce i seguenti valori:


⎧aˆ * = y * − b x *

∑( )( )
n

⎪ xi* − x * yi* − y *
⎨ ˆ i =1
⎪b =
∑( )
n
2
⎪ xi* − x *
⎪⎩ i =1

infine si calcola il parametro a , dalla relazione:


*
a = ea

Esempio 11.8

Sono stati provati vari computer allo scopo di mettere a confronto i prezzi con
le prestazioni. La tab. 11.9 riporta le prestazioni (in %) ottenute con un noto

386
software di benchmarking in relazione al prezzo di vendita (in euro) del prodot-
to:

Tab. 11.9 – Prezzi dei computer in relazione alle prestazioni


Prezzo Prestazioni
€ 1.750,00 78,964628
€ 1.980,00 92,500000
€ 2.000,00 94,632408
€ 2.200,00 105,847566
€ 2.210,00 103,234180
€ 2.240,00 107,877897
€ 2.260,00 105,953466
€ 2.482,00 118,155316
€ 2.500,00 119,900000
€ 2.570,00 126,976242

Posizionarsi con il cursore nella cella A1 ed introdurre i dati ottenendo il se-


guente risultato (fig. 11.61):

Fig. 11.61 – Inserimento dati esempio 11.8

Selezionare le celle A2:B11, aprire il menu Inserisci e cliccare sulla voce Gra-
fico (fig. 11.62):

387
Fig. 11.62 – Creazione guidata grafico – Passaggio 1 di 4 – Tipo di grafico

Nella scheda Tipi standard selezionare Dispers. (XY) (fig. 11.63):

Fig. 11.63 – Selezione del tipo di grafico

Premere il pulsante Avanti (fig. 11.64):

388
Fig. 11.64 – Creazione guidata grafico – Passaggio 2 di 4 – Dati di origine del gra-
fico

Premere ancora il pulsante Avanti (fig. 11.65):

Fig. 11.65 – Creazione guidata grafico – Passaggio 3 di 4 – Opzioni del grafico

ed ancora una volta il pulsante Avanti (fig. 11.66):

389
Fig. 11.66 – Creazione guidata grafico – Passaggio 4 di 4 – Posizione del grafico

Dopo aver selezionato la casella Crea nuovo foglio e premuto il pulsante Fine,
si ottiene (fig. 11.67):
135

125

115

105

95

85

75
€ 1.700,00 € 1.800,00 € 1.900,00 € 2.000,00 € 2.100,00 € 2.200,00 € 2.300,00 € 2.400,00 € 2.500,00 € 2.600,00

Fig. 11.67 – Grafico di dispersione per i dati dell’esempio 11.8

Dopo aver selezionato la serie dei dati sul grafico, aprire il menu Grafico e se-
lezionare il comando Aggiungi linea di tendenza (fig. 11.68):

390
Fig. 11.68 – Aggiungi linea di tendenza

Selezionare nella scheda Tipo di tendenza/regressione Potenza, nella scheda


Opzioni spuntare le caselle Visualizza l’equazione sul grafico e Visualizza il
valore R al quadrato sul grafico e premere il pulsante OK (fig. 11.69):
135

125 1,16611
y = 0,01319 x
2
R = 0,98996

115

105

95

85

75
€ 1.700,00 € 1.800,00 € 1.900,00 € 2.000,00 € 2.100,00 € 2.200,00 € 2.300,00 € 2.400,00 € 2.500,00 € 2.600,00

Fig. 11.69 – Regressione di potenza per i dati dell’esempio 11.8

391
7. Regressione esponenziale

Si consideri la funzione esponenziale di equazione:


y = a eb x
Applicando i logaritmi ad entrambi i membri, si ottiene:
ln( y ) = ln(a ⋅ e b x ) = ln(a ) + ln(e b x ) = ln(a) + b x
ponendo:

- y * = ln( y ) ;
- a * = ln(a) ;

si ottiene:
y* = a* + b x
Poiché questa è l’equazione di una retta, il sistema di equazioni ai minimi
quadrati sarà dato da:
⎧ * n n

⎪a
⎪ i =1
∑ xi + b n = ∑i =1
yi*
⎨ n n n
⎪a *

⎩ i =1
∑ x 2
i + b ∑i =1
x i = ∑i =1
xi yi*

che, risolto, fornisce i seguenti valori:


⎧aˆ * = y * − b x

( )
n


⎨ ˆ i =1
∑ (xi − x ) yi* − y *
⎪b = n

⎪⎩ ∑
i =1
(xi − x )2

infine si calcola il parametro a , dalla relazione:


*
a = ea

Esempio 11.9

Il regime transitorio di un condensatore viene studiato misurando la caduta di


tensione ai capi di questo componente in funzione del tempo. La tab. 11.10 ri-
porta la caduta di tensione (in volt) in funzione del tempo (in sec.):

392
Tab. 11.10 – Caduta di tensione (in volt) in funzione del tempo (in sec)
Tempo 0 1 2 3 4 5 6 7 8 9 10 12
Tensione 10,00 6,10 3,70 2,20 1,40 0,80 0,50 0,30 0,20 0,10 0,07 0,03

Posizionarsi con il cursore nella cella A1 ed introdurre i dati ottenendo il se-


guente risultato (fig. 11.70):

Fig. 11.70 – Inserimento dati esempio 11.9

Selezionare le celle A2:B13, aprire il menu Inserisci e cliccare sulla voce Gra-
fico (fig. 11.71):

Fig. 11.71 – Creazione guidata grafico – Passaggio 1 di 4 – Tipo di grafico

393
Nella scheda Tipi standard selezionare Dispers. (XY) (fig. 11.72):

Fig. 11.72 – Selezione del tipo di grafico

Premere il pulsante Avanti (fig. 11.73):

Fig. 11.73 – Creazione guidata grafico – Passaggio 2 di 4 – Dati di origine del gra-
fico

394
Premere ancora il pulsante Avanti (fig. 11.74):

Fig. 11.74 – Creazione guidata grafico – Passaggio 3 di 4 – Opzioni del grafico

ed ancora una volta il pulsante Avanti (fig. 11.75):

Fig. 11.75 – Creazione guidata grafico – Passaggio 4 di 4 – Posizione del grafico

Dopo aver selezionato la casella Crea nuovo foglio e premuto il pulsante Fine,
si ottiene (fig. 11.76):
7

0
0,5 2,5 4,5 6,5 8,5 10,5 12,5

Fig. 11.76 – Grafico di dispersione per i dati dell’esempio 11.10

395
Dopo aver selezionato la serie dei dati sul grafico, aprire il menu Grafico e se-
lezionare il comando Aggiungi linea di tendenza (fig. 11.77):

Fig. 11.77 – Aggiungi linea di tendenza

Selezionare nella scheda Tipo di tendenza/regressione Esponenziale, nella


scheda Opzioni spuntare le caselle Visualizza l’equazione sul grafico e Vi-
sualizza il valore R al quadrato sul grafico e premere il pulsante OK (fig.
11.78):
7

6
-0,4923 x
y = 9,7534 e
2
5
R = 0,9988

0
0,5 2,5 4,5 6,5 8,5 10,5 12,5

Fig. 11.78 – Regressione esponenziale per i dati dell’esempio 11.9

396
Allegato multimediale online

All’interno del sito internet http://www.francoangeli.it/ (area Biblioteca


Multimediale) è possibile scaricare i file degli esercizi utilizzati nel volume.
Tali file sono stati raggruppati per capitoli e per comodità compressi in formato
zip. Per scaricarli è necessario cliccare con il pulsante destro del mouse sul link
e scegliere di salvare sul proprio PC. In seguito decomprimere.
I file degli esercizi non contengono macro; per utilizzarli è necessario avere
Microsoft Excel 97 o versioni superiori ed aver installato gli strumenti di anali-
si statistica.
Per installare gli Strumenti di analisi, dal menu Strumenti cliccare sulla
voce Componenti aggiuntivi:

ottenendo la visualizzazione della seguente finestra:

397
selezionare le voci Strumenti di analisi e Strumenti di analisi – VBA e
premere sul pulsante OK. A questo punto il programma attiverà gli Strumenti
di analisi che saranno disponibili dal menu Strumenti tramite la voce Analisi
dati:

398

Potrebbero piacerti anche