Sei sulla pagina 1di 252

ELEMENTI DI STATISTICA

Stefania Naddeo
(anno accademico 2013/14)

INDICE
1. NOZIONI INTRODUTTIVE
1.1 Cenni storici
1.2 I fenomeni collettivi
1.3 Variabili statistiche
1.4 Universo e campione

4
6
9
12

2. LA SISTEMAZIONE DEI DATI


2.1 Le distribuzioni di frequenza
2.2 Frequenze assolute, percentuali e relative
2.3 La funzione di densit
2.4 Rappresentazioni grafiche
2.5 Le frequenze cumulate e la funzione di ripartizione
2.6 I modelli matematici

15
20
22
25
31
41

3. VALORI CARATTERISTICI DELLE DISTRIBUZIONI


3.1 I quantili
3.2 Il valore normale o modale
3.3 La media aritmetica

52
57
58

3.4 I momenti

64

3.5 Valori caratteristici dei modelli teorici

65

4. INDICI DI VARIABILITA E DI FORMA


4.1 Introduzione
4.2 Indici di dispersione
4.3 L'asimmetria e la curtosi

70
70
75

5. LE DISTRIBUZIONI BIVARIATE
5.1 Generalit
5.2 Le tabelle a doppia entrata
5.3 Distribuzioni marginali e condizionate
5.4 Valori caratteristici delle distribuzioni bivariate

81
82
87
91

6. LA CORRELAZIONE E LA REGRESSIONE
6.1 Introduzione
6.2 La connessione e lindipendenza
6.3 Modelli teorici di regressione
6.4 La regressione lineare
6.5 Il coefficiente di correlazione lineare

98
102
109
111
115

7. CENNI SUL CALCOLO DELLE PROBABILITA'


7.1 Introduzione
7.2 Eventi
7.3 Probabilit
7.4 Operazioni sugli eventi
7.5 Eventi condizionati
7.6 La formula di Bayes
7.7 Cenni di calcolo combinatorio
7.8 Alcuni esempi di calcolo delle probabilit

119
122
124
128
133
139
143
148

8. VARIABILI CASUALI
8.1 Variabili casuali semplici
8.2 Alcuni modelli teorici di variabili casuali semplici discrete
8.3 Alcuni modelli teorici di variabili casuali semplici continue

153
161
172

9. RILEVAZIONI CAMPIONARIE E STATISTICHE CAMPIONARIE


9.1 La scelta del campione
9.2 La distribuzione dell'ennupla campionaria
9.3 Le statistiche campionarie
9.4 Media e varianza dei momenti campionari
9.5 Propriet degli stimatori
9.6 Cenni sui metodi di stima

175
179
182
189
191
196

10. FUNZIONI DI DISTRIBUZIONE DELLE STATISTICHE CAMPIONARIE


10.1 Introduzione
10.2 La media campionaria
10.3 La varianza campionaria
10.4 La quota campionaria

203
204
208
211

11. CENNI SUGLI INTERVALLI DI CONFIDENZA E SULLA VERIFICA DI IPOTESI


11.1 Generalit sugli intervalli di confidenza
11.2 Alcuni esempi di stime per intervalli
11.2.1 Intervallo di confidenza della media
11.2.2 Intervallo di confidenza della varianza
11.2.3 Intervallo di confidenza della quota
11.3 Generalit sui tests di significativit
11.4 Alcuni tests di uso pi comune
11.4.1 Verifica di ipotesi sulla media
11.4.2 Verifica di ipotesi sulla varianza
11.4.3 Verifica di ipotesi sulla quota
11.4.4 Verifica delluguaglianza fra le medie di due popolazioni
11.4.5 Test sulla bont di adattamento
11.4.6 Test di indipendenza
APPENDICE
Tavola A:
Tavola B:
Tavola C:
Tavola D:

Funzione di ripartizione della variabile casuale


normale standardizzata
Quantili della variabile casuale normale standardizzata
Quantili della variabile casuale chi-quadrato con g gradi di libert
Quantili della variabile casuale t di Student con g gradi di libert

213
217
220
222
223
227
232
233
234
237
243

248
249
250
252

CAPITOLO 1
NOZIONI INTRODUTTIVE

1.1 Cenni storici


Letimologia del termine Statistica sembra derivi dal vocabolo Stato, a sottolineare il
fatto che le prime rilevazioni di tipo statistico vennero effettuate dagli Stati, sin dai tempi
pi antichi, al fine di ottenere informazioni sulla popolazione nel suo complesso, sul
numero di uomini in grado di combattere, sullestensione del territorio, sulla ripartizione
delle superfici coltivabili e cos via. Gli obiettivi principali di queste rilevazioni erano
principalmente fiscali, per la stima dei tributi dovuti in base ai beni posseduti, e militari, per
il calcolo degli uomini da destinare alle attivit belliche.
I primi esempi di rilevazioni statistiche sono costituiti dai cosiddetti censimenti (dal
latino censere, che significa recitare, dichiarare solennemente), ossia da indagini su vasta
scala, estese a tutta la popolazione, che vennero effettuati per la prima volta dalle antiche
civilt della Mesopotamia. In particolare gi a partire dal IV millennio a.C. i Sumeri
annotavano su apposite tavolette di argilla gli elenchi di uomini e beni che quasi
certamente venivano utilizzati per fini fiscali.
Anche presso lantico Egitto vennero effettuate numerose rilevazioni per ottenere, in
un'epoca di continue guerre e carestie, informazioni sulla popolazione utili a fini fiscali e
militari e per conoscere la consistenza della manodopera necessaria per costruire le opere
per il Faraone.
In Cina ed in India gi dal III millennio a.C. furono effettuati i primi conteggi della
popolazione anche al fine di valutare le risorse finanziarie delle famiglie. In particolare, si
hanno notizie di un censimento effettuato in Cina nel 2.200 a.C. dopo una grave
inondazione al fine di conoscere lestensione del territorio, la ripartizione delle terre
coltivabili ed il numero degli abitanti, classificati secondo lattivit ed il mestiere esercitato.
Come si vede i primi censimenti furono effettuati nelle terre storicamente pi popolate,
in cui la densit demografica, la natalit e la mobilit, erano indicatori importanti per la
sopravvivenza stessa di intere popolazioni.
Nella Bibbia troviamo le notizie di vari censimenti, a partire da quello effettuato da Mos
nel XIII secolo a.C., nel deserto del Sinai, dopo lesodo dallEgitto, nonch le modalit di

queste rilevazioni. E proprio il censimento effettuato da Mos che rilev i capifamiglia, per
distinzione del mestiere e del censo, e tutti i componenti di sesso maschile (il Signore
parl a Mos, (), e disse: << Fate il censimento di tutta la comunit degli Israeliti,
secondo le loro famiglie, secondo il casato dei loro padri, contando i nomi di tutti i maschi,
testa per testa, (). >>) il primo censimento di cui si conoscano i risultati ottenuti.
Per quanto riguarda popolazioni a noi pi vicine, diversi censimenti vennero effettuati
anche dai Greci e dai Romani gi alcuni secoli prima della nascita di Cristo. Si hanno
notizie di un censimento effettuato da Solone (Atene, 638 a.C. 558 a.C.) al fine di stilare
una lista degli elettori basata sul valore della terra in loro possesso. Successivamente
vennero effettuate altre rilevazioni ed in Tucidide (Atene, 460 a.C. 400 a.C.) troviamo i
primi esempi di elaborazioni statistiche, in particolare la media aritmetica.
Presso lantica Roma i cittadini dovevano dichiarare allo Stato il proprio nome, la
discendenza paterna, il nome della moglie e dei figli, lentit dei propri beni. Risale al 709
a.C. la Tabula Heracleensis, nella quale furono annotatati i risultati dellattivit censuaria
conteggiando la popolazione per prenome, nome, cognome, appartenenza alla famiglia, il
reddito, il censo. Tutti i romani, quindi, venivano registrati insieme ai propri beni nelle liste
del cosiddetto census, da cui deriva il termine censimento. Risale al 443 a.C. listituzione
dei censores, magistrati incaricati di censire la popolazione, che venivano eletti ogni
cinque anni. La finalit principale della loro attivit di conteggio e classificazione risiedeva
nellordinamento delle liste elettorali, delle milizie e dei tributi per cui questa attivit
giocava un ruolo decisivo nellorganizzazione politica ed economica di Roma. E da questo
momento che viene introdotta la periodicit del censimento, gettando cos le basi
fondamentali per il censimento moderno.
La

disgregazione

dellImpero

Romano

le

invasioni

barbariche

causarono

uninterruzione delle rilevazioni censuarie. Rilevazioni della popolazione, solo parzialmente


paragonabili ai moderni censimenti, si ebbero per tutto il medioevo. Queste rilevazioni
furono eseguite sempre per scopi militari e fiscali, ma furono tutte contraddistinte da una
certa occasionalit ed incompletezza strutturale. Carlo Magno (742814), re dei Franchi e
dei Longobardi e imperatore del Sacro Romano Impero, ordin un censimento nel suo
impero rivolto inizialmente alla rilevazione del numero di persone libere, ma in seguito
esteso anche al numero e alla qualit di beni posseduti, al numero complessivo dei
vassalli e dei servi della gleba.
Nel XIII secolo vennero effettuate rilevazioni periodiche della popolazione appartenente
ai Comuni ed alle Repubbliche italiane. La Repubblica di Venezia istitu il primo
5

censimento universale verso la met del 1300, effettuando una rilevazione della propria
popolazione secondo let, la professione, il sesso, la nazionalit e la condizione sociale. Il
censimento venne ripetuto periodicamente nei secoli successivi giungendo, nel 1600,
alluso di formulari prestampati molto simili ai questionari attualmente utilizzati
Il primo censimento in senso moderno si ebbe nel 1701 in Islanda. Successivamente in
Svezia, in Germania, in Norvegia, in Spagna e, sul finire del secolo, negli Stati uniti. Nel
1800 il censimento demografico ebbe luogo in quasi tutti gli stati europei.
In Italia il primo censimento ufficiale risale al 1861, cio subito dopo l'Unit dItalia. Da
quel momento, con cadenza decennale, sono state eseguite tutte le rilevazioni successive
(a parte il 1891, per mancanza di fondi, ed il 1941, a causa della II Guerra Mondiale).
Da diversi decenni i censimenti italiani sono effettuati dall'ISTAT (Istituto Nazionale di
Statistica).

1.2 I fenomeni collettivi


In numerose situazioni e per motivi diversi, si presenta spesso la necessit di disporre
di informazioni sui soggetti che fanno parte di un qualche gruppo ben determinato.
Un amministratore pubblico, per esempio, pu avere bisogno di informazioni di diverso
tipo sugli abitanti di una certa zona per decidere gli interventi pi opportuni in campo
sanitario, scolastico, di trasporti pubblici; una banca pu essere interessata a conoscere le
caratteristiche dei suoi clienti per migliorare i servizi offerti; una societ ha bisogno di
informazioni sui potenziali acquirenti per aprire un supermercato in una determinata zona;
i responsabili di un parco naturale hanno bisogno di avere notizie sugli animali che vivono
nel parco e cos via.
Indagini su gruppi di soggetti sono ancora necessarie quando si vuole valutare
l'efficacia di un farmaco, l'effetto di un fertilizzante su una particolare coltivazione, i tempi
di conservazione di un alimento in scatola, la quota di articoli difettosi prodotti da un certo
tipo di macchinario e cos via.
In tutti gli esempi precedenti i fenomeni oggetto di indagine si manifestano in modo
variabile sui diversi componenti del gruppo ed proprio questa variabilit che rende
necessaria l'utilizzazione di metodi statistici per la loro descrizione e la loro analisi.
Questi metodi, infatti, sono stati predisposti per la raccolta, l'organizzazione,
l'elaborazione di dati relativi ad insiemi di individui ed hanno lo scopo di evidenziare quei
particolari aspetti del fenomeno che interessano in una determinata situazione.
6

I metodi statistici che, come abbiamo visto nel paragrafo precedente, erano stati
inizialmente

predisposti

per

la

descrizione

di

popolazioni

umane

ed

applicati

prevalentemente in campo demografico, prescindono, in realt, dalla natura dei fenomeni


che di volta in volta vengono indagati, tanto che ormai sono utilizzati negli ambiti pi
diversi quali, per esempio, l'economia, la sociologia, la biologia, la medicina, la fisica ed, in
genere, in tutte quelle scienze che si basano sull'osservazione della realt.
L'indagine statistica pu riguardare, quindi, gruppi di persone, di animali, di piante, di
imprese e, pi in generale, gruppi di oggetti o enti qualsiasi, mentre le caratteristiche dei
soggetti che di volta in volta possono essere prese in considerazione sono le pi varie e
dipendono dallo scopo dell'indagine.
Su un gruppo di persone si pu essere interessati, per esempio, ad esaminare l'et, lo
stato civile, la posizione nella professione, il reddito; su un gruppo di alberi da frutto dello
stesso tipo, la resa produttiva, la dimensione dei frutti, le malattie; su un insieme di
imprese, il fatturato, la produttivit, il numero di dipendenti e cos via.
La Statistica quindi pu essere definita, almeno provvisoriamente, come quell'insieme
di metodi utilizzati per l'analisi dei cosiddetti fenomeni collettivi, quei fenomeni, cio, che
si manifestano in modo variabile sui diversi componenti di un gruppo. Pi in generale la
Statistica si occupa del trattamento di insiemi di dati che possono derivare, oltre che da
indagini su gruppi di individui, anche dall'osservazione di un fenomeno su uno stesso
individuo in occasioni o in tempi diverse. Questa definizione, che necessariamente risulta
piuttosto generica ed incompleta, verr precisata ed ampliata nelle pagine seguenti
attraverso la descrizione di alcuni argomenti tipici della Statistica e dei suoi principali
strumenti di analisi.
Occupiamoci ora della definizione dei termini statistici di uso pi comune con lo scopo
di precisare il senso in cui vengono utilizzati in questo contesto.
Con il termine collettivit statistica si indica un gruppo di soggetti qualsiasi i cui
componenti siano esattamente individuabili. Una collettivit statistica, quindi, ben definita
quando sia disponibile un elenco delle unit che la compongono, oppure quando siano
chiaramente specificate le caratteristiche che i soggetti devono possedere per far parte
della collettivit stessa. Cos, per esempio, una collettivit di neonati pu essere definita
indicando il luogo e la data di nascita, specificando se si intende considerare i soli figli
legittimi o anche quelli naturali, i soli nati vivi o anche i nati morti e cos via.

Le collettivit vengono indicate indifferentemente anche con i termini, equivalenti in


Statistica, collettivo, universo, popolazione, cosicch si pu parlare, per esempio, di
collettivi di piante, di popolazioni di animali o di universi di oggetti qualsiasi.
I componenti di una collettivit sono detti anche unit statistiche o unit di
rilevazione e costituiscono gli individui su cui viene rilevata la caratteristica oggetto di
studio. Si osservi che la singola unit statistica pu essere anche costituita da un gruppo
di pi soggetti se lo scopo dell'indagine lo studio di una qualche caratteristica
complessiva del gruppo stesso. Se, per esempio, l'oggetto dell'indagine il reddito delle
famiglie italiane, l'unit statistica la famiglia; se il numero di dipendenti di un certo
gruppo di aziende, l'unit di rilevazione l'azienda; se la numerosit dei branchi di una
certa specie, l'unit statistica il branco e cos via.
Il carattere, o la variabile, quella particolare caratteristica (et, stato civile, fatturato,
resa produttiva e cos via) dei componenti della collettivit che costituisce l'oggetto
dell'indagine statistica.
Le diverse manifestazioni che la variabile assume sui singoli individui sono dette invece
modalit, attributi o pi genericamente determinazioni, cosicch, per esempio, le
modalit o modi di essere che la variabile "stato civile" pu assumere su un gruppo di
persone di sesso maschile sono celibe, coniugato, separato, divorziato, vedovo.
Nell'analisi statistica di un qualsiasi fenomeno su una collettivit tutto quello che
interessa conoscere il numero di individui che manifestano una particolare modalit del
carattere oggetto di studio per ciascuna delle modalit possibili, mentre in genere
irrilevante sapere su quale individuo stata rilevata una determinata modalit. Tutto quello
che interessa, in altri termini, la classificazione dei componenti della collettivit sulla
base delle diverse modalit della variabile.
Per esempio, tutte le informazioni statisticamente rilevanti sul carattere "tipo di edizione"
per la popolazione delle opere pubblicate in Italia nellanno 2005 sono quelle contenute
nella successiva tabella 1.2.1, dalla quale risulta che sul totale di 59.743 opere pubblicate
durante quellanno, 37.694 sono quelle pubblicate in prima edizione, 3.453 in unedizione
successiva e 18.596 sono le ristampe.
Il numero di individui associato ad ogni modalit la cosiddetta frequenza con cui la
modalit stessa compare nella popolazione.

Tabella 1.2.1
Opere pubblicate per tipo di edizione nellanno 2005 (Fonte ISTAT)
Tipo Edizione
Prime edizioni
Edizioni successive
Ristampe
Totale

Numero di opere
37.694
3.453
18.596
59.743

Le informazioni su un fenomeno in una collettivit vengono abitualmente organizzate in


tabelle di questo tipo in cui sono elencate le diverse modalit del carattere esaminato e le
frequenze con cui ogni modalit si presenta nella popolazione. Le informazioni contenute
in queste tabelle costituiscono la cosiddetta distribuzione di frequenza della variabile
esaminata. Per quanto abbiamo detto in precedenza evidente che conoscere la
distribuzione di frequenza di un carattere in una certa collettivit equivale a definirlo
completamente da un punto di vista statistico.
L'indagine pu avere per oggetto lo studio di un solo carattere oppure, per i motivi che
saranno chiariti in seguito, di pi caratteri diversi rilevati su ciascun individuo della
popolazione. In questo secondo caso la descrizione dei fenomeni considerati
congiuntamente si ottiene associando ad ogni combinazione delle modalit dei diversi
caratteri la frequenza con cui quella combinazione si presenta sugli individui della
collettivit. Nel primo caso si parla di variabili statistiche semplici e di relative
distribuzioni univariate e nel secondo caso di variabili statistiche multiple e di
distribuzioni multivariate.
Nelle pagine seguenti verranno considerate solo le distribuzioni del primo tipo, mentre
l'esame di quelle del secondo tipo rinviato ai capitoli successivi.

1.3 Variabili statistiche


Tutte le variabili statistiche possono essere suddivise in variabili qualitative e variabili
quantitative. Sono dette qualitative quelle variabili che assumono modalit espresse
mediante aggettivi o sostantivi.
Per esempio, alcuni dei caratteri qualitativi rilevabili sugli individui sono il sesso, lo stato
civile, il gruppo sanguigno, il colore degli occhi e dei capelli, il titolo di studio, la posizione
nella professione.

Le variabili qualitative si suddividono ulteriormente in ordinabili e non ordinabili (o


sconnesse) in relazione alla possibilit di stabilire o meno una successione oggettiva
delle modalit. Nel primo caso naturale elencare le modalit in modo ordinato, come per
esempio nel caso della tabella 1.3.1 che riporta la distribuzione degli occupati in Italia nel
2001 a seconda del grado di istruzione".
Altri esempi di caratteri ordinabili sono il ceto sociale, l'anno del corso di studi, la
qualifica funzionale degli impiegati, il parametro di stipendio, il grado nella gerarchia
militare, la "dimensione" delle imprese (piccola, media e grande), il livello di
disaggregazione territoriale (comune, provincia, regione, nazione).

Tabella 1.3.1
Distribuzione degli occupati in Italia per grado di istruzione
(fonte ISTAT, 14 Censimento generale della popolazione e delle abitazioni)
Grado di istruzione
Laurea
Diploma universitario o terziario di tipo non universitario
Diploma di scuola secondaria superiore
Licenza di scuola media inferiore o di avviamento professionale
Licenza di scuola elementare
Nessun titolo di studio
Totale

Numero individui
2.407.992
397.401
8.284.656
7.406.981
2.259.960
236.742
20.993.732

Se un carattere sconnesso, come nel caso della tabella 1.3.2, l'ordinamento delle
sue modalit non pu che essere arbitrario.

Tabella 1.3.2
Distribuzione degli occupati in Italia per attivit economica
(fonte ISTAT, 14 Censimento generale della popolazione e delle abitazioni)
Attivit economica
Agricoltura
Industria
Commercio
Trasporti e comunicazioni
Credito e assicurazioni, servizi alle imprese, noleggio
Altre attivita
Totale

10

Numero individui
1.153.678
7.028.981
3.986.538
979.029
2.052.681
5.792.825
20.993.732

Sono quantitative, invece, quelle variabili le cui modalit, che in questo caso sono dette
pi propriamente intensit, derivano da operazioni di misurazione o di conteggio e sono,
quindi, espresse mediante valori numerici.
Queste variabili si suddividono in discrete e continue e spesso le prime assumono
intensit corrispondenti a numeri interi, come, per esempio, quando sono il risultato di un
conteggio. Pi in generale, sono dette discrete quelle variabili che, in un intervallo limitato,
possono assumere solo un numero finito di valori diversi.
Esempi di caratteri discreti sono il numero dei componenti delle famiglie, quello degli
sportelli bancari, dei vani degli appartamenti, dei dipendenti delle aziende, dei veicoli
circolanti, delle copie di quotidiani vendute. Una distribuzione relativa ad una variabile
discreta riportata nella tabella 1.3.3, in cui le famiglie italiane residenti nel territorio
nazionale il 21 ottobre del 2001 sono classificate in base al numero dei componenti.

Tabella 1.3.3
Distribuzione delle famiglie in abitazione per numero di componenti
(fonte ISTAT, 14 Censimento generale della popolazione e delle abitazioni)
Componenti
1
2
3
4
5
6 o pi
totale

Numero delle famiglie


5.409.180
5.900.965
4.703.320
4.133.369
1.263.934
367.460
21.778.228

Si osservi che nellultima riga della tabella prima del totale riportato il numero
complessivo delle famiglie composte almeno da 6 componenti. In questo caso si ritenuto
inutile riportare le frequenze associate alle singole intensit maggiori o uguali a 6 e fornire,
quindi, uninformazione pi dettagliata.
Sono continue, invece, quelle variabili che derivano da una misurazione e che in un
intervallo di ampiezza qualsiasi possono assumere, quindi, un numero infinito di valori
diversi. Caratteri quantitativi continui sono, per esempio, la temperatura, che pu

11

corrispondere ad un qualsiasi livello della colonnina di mercurio, la statura, il peso,


laltitudine, la superficie coltivabile.
E bene tenere presente comunque che lintensit di un carattere continuo pu essere
misurata, in pratica, solo in modo approssimato. I valori della temperatura, della statura,
del peso di una persona vengono espressi di solito mediante un numero intero di gradi,
centimetri o chilogrammi seguito, al pi, da una cifra decimale ed chiaro che
uneccessiva precisione, in questi come in altri casi, potrebbe essere anche priva di senso.
La distinzione fra variabili discrete e continue, quindi, non dipende dai valori effettivamente
utilizzati nella pratica, ma piuttosto dalla natura stessa della variabile e, come vedremo in
seguito, questa distinzione pu essere importante soprattutto nella organizzazione dei dati
rilevati e nella loro successiva elaborazione.
Esistono caratteri le cui modalit, pur essendo espresse di solito mediante valori
numerici, non sono in realt di tipo quantitativo. Lanno di nascita, lanno del corso di studi,
la categoria degli esercizi alberghieri, la classe di stipendio, per esempio, sono variabili
qualitative, dato che non derivano da una misurazione o da un conteggio. Nei casi dubbi si
pu tenere presente che per i caratteri quantitativi deve avere senso, per esempio,
calcolarne la media ed evidente che la media degli anni di nascita di un gruppo di
individui, cos come quella delle altre variabili appena elencate, del tutto priva di
significato.

1.4 Universo e campione


Nei paragrafi precedenti abbiamo riportato la distribuzione di frequenza di alcune
variabili rilevate dallIstituto Nazionale di Statistica (ISTAT) su tutti i componenti della
popolazione italiana residente sul territorio nazionale il 21 ottobre 2001 nel corso del 14
Censimento generale della popolazione.
Le indagini di questo tipo, estese a tutte le unit che compongono la popolazione
oggetto di studio, vengono indicate generalmente con il termine censimento.
Altre importanti rilevazioni totali tenute periodicamente in Italia sono il Censimento delle
abitazioni, che generalmente abbinato a quello della popolazione, il Censimento
industriale e commerciale ed il Censimento dellagricoltura.
Si osservi per che nella quasi totalit delle situazioni concrete, per tutta una serie di
motivi, non possibile rilevare il carattere su tutte le unit statistiche che compongono la
collettivit, cosicch diventa necessario, in questi casi, limitarsi a delle rilevazioni estese
12

ad un numero ridotto di individui. E ovvio che le indicazioni sulla struttura complessiva del
fenomeno ottenute mediante queste indagini parziali risultano necessariamente pi o
meno approssimate, ma queste informazioni, come vedremo, si rivelano comunque utili e,
sotto certe condizioni, anche sufficienti in relazione agli scopi dellindagine.
Se la popolazione composta da un numero elevato di elementi, fra le cause che
possono impedire in pratica leffettuazione di una rilevazione totale vi sono i costi
dellindagine, le eventuali difficolt di reperimento delle unit statistiche (come, per
esempio, nel caso di animali selvatici) o di rilevazione dei dati (come, per esempio, in caso
di misurazioni su microrganismi), il tempo necessario per poter disporre dei risultati finali e
cos via.
Altri casi in cui sono possibili solo rilevazioni parziali si presentano quando le unit
statistiche per poter essere esaminate devono essere distrutte, come pu accadere, per
esempio, nei controlli di qualit dei prodotti (durata delle batterie di un telefono cellulare,
resistenza alla rottura dei fogli di carta, tempo di ossidazione di una certa sostanza e cos
via). Vi sono, infine, situazioni in cui lindagine non pu che basarsi sui soli materiali che si
rendono

effettivamente

disponibili,

come

avviene,

per

esempio,

nelle

ricerche

paleontologiche o archeologiche.
Nelle ricerche sperimentali linteresse pu rivolgersi addirittura a collettivit di tipo
virtuale e non essere limitato, quindi, ad un particolare gruppo di individui effettivamente
presenti in un certo luogo ed in certo tempo, ma esteso a tutti i potenziali individui che, per
certi aspetti, possono essere considerati di uno stesso tipo. Se, per esempio, si vogliono
valutare gli effetti di un farmaco sulluomo o di un fertilizzante su un certo tipo di pianta,
chiaro che non ha senso pensare di somministrare il farmaco a tutti gli individui che hanno
una stessa malattia o il fertilizzante a tutte le piante di quella determinata specie.
Si osservi, daltra parte, che in questi casi le informazioni ottenute su un gruppo
ragionevolmente numeroso sembrano intuitivamente sufficienti per una adeguata
descrizione del fenomeno nel suo complesso, mentre pu sembrare addirittura superfluo
un aumento delle informazioni oltre un certo limite.
Anche per le popolazioni virtuali, cos come per le popolazioni finite, lesame di un
fenomeno su un gruppo limitato di individui consente di estendere i risultati ottenuti, nei
modi e con le cautele che vedremo, a tutti gli individui dello stesso tipo.
Le indagini parziali che considerano solo un numero limitato degli individui che
compongono lintera popolazione sono dette indagini campionarie e gli individui
effettivamente esaminati costituiscono un campione della popolazione oggetto di studio.
13

Nella seconda parte di queste dispense vedremo come le informazioni ottenute


attraverso unindagine campionaria possano essere utilizzate per delineare la struttura del
fenomeno nella collettivit di provenienza del campione.
I metodi di questo procedimento induttivo, che sono basati sul calcolo delle probabilit,
costituiscono loggetto della cosiddetta inferenza statistica.

14

CAPITOLO 2
LA SISTEMAZIONE DEI DATI

2.1 Le distribuzioni di frequenza


Come si visto in precedenza, lorganizzazione dei dati rilevati su una collettivit si
ottiene mediante unoperazione di classificazione, che consiste nel suddividere gli individui
esaminati in gruppi omogenei i cui componenti presentano tutti una stessa determinazione
del carattere. Il risultato di questa sistemazione delle informazioni d luogo ad una tabella
statistica, in cui la prima colonna, a seconda della natura della variabile rilevata, contiene
le modalit o le intensit osservate e la seconda le frequenze corrispondenti, cio il
numero degli individui che presentano quella particolare modalit o intensit.
Questa organizzazione dei dati del tutto ovvia quando le variabili esaminate sono di
tipo qualitativo o quantitativo discreto. In questo caso la rilevazione stessa pu essere
effettuata in forma tabellare mediante un prospetto in cui sono elencate le possibili
modalit o intensit del carattere, a fianco delle quali viene posta unindicazione ogni volta
che su un individuo si rileva quella particolare modalit o intensit.
Se la variabile invece di tipo continuo ed il carattere viene misurato con un elevato
livello di precisione, le intensit rilevate sugli individui della collettivit possono risultare
anche tutte diverse fra di loro, cosicch, in questi casi, non possibile utilizzare una
tabella con valori predeterminati e la rilevazione viene di solito effettuata annotando le
intensit mano a mano che vengono misurate sui diversi individui.
Nella tabella 2.1.1, per esempio, sono elencati secondo lordine di rilevazione i valori
della superficie coltivabile misurata in ettari su un gruppo di 25 aziende agricole.

Tabella 2.1.1
Valori della superficie coltivabile di 25 aziende agricole secondo lordine di rilevazione
16,8
5,1
60,4

0,8
6,1
81,9

1,2
31,2
14,7

17,3
27,8
12,4

2,4
7,5
10,8

3,0
33,3

15

24,3
8,9

20,2
38,5

25,0
10,1

4,2
45,9

Una prima sistemazione delle informazioni consiste, in generale, nellordinare i valori


rilevati in modo non decrescente. Questa operazione non comporta alcuna perdita di
informazione, dato che in statistica, come si detto, non interessa sapere quali individui
presentano una determinata intensit n lordine della rilevazione. Questa operazione
rende meno confuso linsieme dei dati e consente, tra laltro, di evidenziare la pi piccola e
la pi grande fra le intensit rilevate, che costituiscono gli estremi del cosiddetto campo di
variazione, cio dellintervallo entro cui sono comprese tutte le intensit della variabile
nella collettivit esaminata.
Si osservi che la sequenza dei dati ordinati in modo non decrescente riportata nella
tabella 2.1.2, descrive esattamente la distribuzione della variabile nella collettivit oggetto
di studio ed perfettamente analoga alle distribuzioni di frequenza che abbiamo
esaminato finora, dato che si tratta di una distribuzione con frequenze tutte uguali ad 1.

Tabella 2.1.2
Serie ordinata dei valori riportati nella tabella 2.1.1
0,8
10,8
33,3

1,2
12,4
38,5

2,4
14,7
45,9

3,0
16,8
60,4

4,2
17,3
81,9

5,1
20,2

6,1
24,3

7,5
25,0

8,9
27,8

10,1
31,2

La serie dei valori ordinati, soprattutto per collettivit numerose, pu risultare per
troppo dispersa cosicch, per evidenziare le caratteristiche pi rilevanti della struttura
distributiva del fenomeno nel suo complesso, pu essere utile sintetizzare in qualche
modo i dati originali, dividendo il campo di variazione della variabile in intervalli o classi di
valori ed associando ad ogni classe il numero di unit statistiche che presentano
unintensit compresa fra i suoi estremi.
Una possibile presentazione sintetica dei dati precedenti riportata nella tabella 2.1.3
da cui risulta che 5 aziende hanno una superficie coltivabile fino a 5 ettari, 4 aziende
hanno una superficie compresa fra 5 e 10 ettari e cos via. E evidente che questa
distribuzione non contiene pi tutte le informazioni originarie, dato che dalla tabella non
risulta, per esempio, quale sia lesatta superficie coltivabile delle 5 aziende pi piccole, ma
solo che ognuna di queste ha una superficie non superiore a 5 ettari.

16

Tabella 2.1.3
Distribuzione in classi dei dati della tabella 2.1.1
Superficie
0 -| 5
5 -| 10
10 -| 20
20 -| 50
50 -| 100
Totale

frequenza
5
4
6
8
2
25

Questa operazione di sintesi comporta, quindi, una certa perdita di informazione, ma


nello stesso tempo consente, proprio in virt delle approssimazioni introdotte, di
comprendere meglio la struttura distributiva del carattere nella collettivit esaminata. Se
per sulla distribuzione devono essere effettuate ulteriori elaborazioni, preferibile
utilizzare i dati originari (se ancora disponibilia) per una maggiore precisione dei risultati.
Nella costruzione di una distribuzione sintetica non possibile stabilire regole valide in
ogni caso per quanto riguarda il numero di classi da utilizzare, la loro ampiezza o i loro
estremi. I criteri con cui effettuare questa operazione di sintesi dipendono innanzitutto dal
grado di approssimazione ritenuto sufficiente in una particolare situazione, ma dato che la
suddivisione in classi si effettua per evidenziare la struttura distributiva del fenomeno,
necessario evitare sia uneccessiva concentrazione delle unit in poche classi, sia
uneccessiva dispersione in un numero troppo elevato di intervalli. E necessario inoltre
utilizzare classi in cui non siano addensate troppe frequenze, n classi troppo povere o
addirittura vuote, cosicch spesso conviene costruire intervalli di ampiezza diversa a
seconda della densit delle osservazioni. Per esempio, nella tabella 2.1.3 lultima classe
quella di maggiore ampiezza dato lesiguo numero di aziende agricole con una superficie
coltivabile superiore a 50 ettari, mentre le prime due classi sono quelle di ampiezza minore
perch in esse cade complessivamente il 36% delle osservazioni.
Un ulteriore aspetto rilevante nella costruzione di una distribuzione sintetica la scelta
degli estremi delle classi. Anche in questo caso non esistono regole fisse ma in generale,
perch le informazioni contenute nella tabella risultino pi indicative, preferibile utilizzare
i valori di uso pi comune, come per esempio i numeri interi o i multipli di 5 o di 10.

a Si osservi che talvolta la raccolta di dati relativi ad una variabile quantitativa viene effettuata mediante classi di valori predeterminate.
In questo caso preferibile utilizzare un elevato numero di classi che pu essere eventualmente ridotto in un secondo momento.

17

In ogni caso, una volta fissati il numero, lampiezza delle classi ed i loro estremi, ovvio
che tutte le intensit rilevate devono essere contenute nelle classi e che nessuna di esse
deve comparire in due classi diverse. E necessario stabilire inoltre dove inserire le
eventuali intensit della variabile che risultano esattamente uguali agli estremi dei diversi
intervalli. Il tipo di intervallo pi comune quello utilizzato nella tabella 2.1.3, che aperto
a sinistra e chiuso a destra e che comprende, quindi, gli eventuali valori uguali allestremo
superiore, ma non quelli uguali allestremo inferiore, che sono contenuti nella classe
precedente.
Si osservi che anche la distribuzione di un carattere discreto pu essere data mediante
classi di valori, soprattutto se il numero delle possibili intensit diverse fra di loro elevato.
Cos, per esempio, nella tabella 2.1.4 riportata la distribuzione delle abitazioni in edifici
ad uso abitativo per numero di abitazioni nell'edificio.

Tabella 2.1.4
Distribuzione delle abitazioni in edifici ad uso abitativo per numero di abitazioni nell'edificio
(fonte ISTAT, 14 Censimento generale della popolazione e delle abitazioni)
numero abitazioni
nell'edificio
1
2
3o4
Da 5 a 8
Da 9 a 15
16 e pi
Totale

frequenze
6.902.088
4.560.856
3.478.593
3.223.761
3.117.717
5.985.865
27.268.880

Un ulteriore esempio di suddivisione in classi riportato nella tabella 2.1.5, relativa


allet degli italiani in cerca di prima occupazione residenti in Italia al 21 ottobre 2001. In
questo caso let espressa in anni compiuti.
In alcuni casi, infine, in una distribuzione di una variabile continua pu figurare, per
semplicit, il solo valore centrale di ciascuna classe, pari alla semisomma dei suoi estremi.
In questo caso la frequenza corrispondente indica quindi il numero di individui che
presentano unintensit della variabile uguale allincirca o in media a quel valore centrale.

18

Tabella 2.1.5
Distribuzione della popolazione residente in cerca di prima occupazione per classe di et
(fonte ISTAT, 14 Censimento generale della popolazione e delle abitazioni)
classi di et
15 19
20 24
25 29
30 34
35 44
45 e pi
Totale

frequenze
180.060
300.530
227.230
122.404
100.208
32.778
963.210

E utile a questo punto introdurre unopportuna simbologia che consenta di trattare gli
argomenti successivi in modo generale senza fare riferimento necessariamente ad una
qualche situazione particolare.
In seguito indicheremo con X una qualsiasi variabile oggetto di studio, con x una sua
generica modalit o intensit e con n il numero totale delle osservazioni. Indicheremo
inoltre con k il numero di modalit o intensit diverse fra di loro, dove ovviamente k n. Il
generico termine della sequenza e la frequenza corrispondente verranno indicati
rispettivamente mediante i simboli xi e ni , dove i = 1, 2, ..., k ed ni 1. Si osservi che
ovviamente deve risultare
k

ni n .

i1

Se il carattere di tipo quantitativo supporremo sempre che le xi siano poste in ordine


non decrescente.
Se la distribuzione data mediante classi di valori indicheremo con x0 -| x1,..., xi-1 -| xi,
..., xk-1 -| xk le k classi chiuse a destra ed ancora con n1,..., ni, ..., nk le frequenze
corrispondenti, dove lindice i si riferisce, quindi, alli-esimo intervallo.
Le informazioni sul carattere X saranno presentate, generalmente, mediante prospetti
analoghi a quelli indicati nella tabella 2.1.6.

b Il primo termine dell'uguaglianza indica la somma dei valori n ed detto sommatoria delle n per i che va da 1 a k.
i
i

19

Tabella 2.1.6
Esempi di distribuzioni di frequenza
X

frequenze

frequenze

x1
x2
.
xi
.
xk
totale

n1
n2
.
ni
.
nk
n

x0 -| x1
x1 -| x2
.
xi-1 -| xi
.
xk-1 -| xk
totale

n1
n2
.
ni
.
nk
n

2.2 Frequenze assolute, percentuali e relative


Nelle distribuzioni esaminate finora, in corrispondenza delle varie modalit o intensit
della variabile, sono riportati i valori ni che sono anche detti frequenze assolute per
distinguerle da frequenze di altro tipo che sono ricavate dalle precedenti e che
costituiscono la prima e pi usuale elaborazione dei dati.
Quelle di uso pi comune sono le cosiddette frequenze percentuali che corrispondono
ai rapporti fra le frequenze assolute ed il numero totale delle unit esaminate moltiplicati
per cento, cosicch la percentuale corrispondente ad ogni ni

ni
n

100 .

E ovvio che la somma delle frequenze percentuali uguale a 100, dato che
k

ni

i 1 n

100 =

100 k
n i = 100 .
n i =1

Le frequenze percentuali risultano utili per evidenziare la composizione della collettivit


in relazione alle diverse determinazioni della variabile senza tener conto della numerosit
complessiva e vengono utilizzate soprattutto quando si vogliono confrontare le strutture
distributive di uno stesso carattere per collettivit con un diverso numero di componenti.
Nella tabella 2.2.1a e 2.2.1b sono riportati dati analoghi a quelli della 1.3.2 riferiti questa
volta distintamente agli occupati di sesso maschile e femminile (fonte ISTAT, 14

20

Censimento generale della popolazione e delle abitazioni), mentre nella 2.2.2 sono indicati
i corrispondenti valori percentuali per entrambi i sessi.

Tabella 2.2.1a
Distribuzione degli occupati di sesso maschile in Italia per attivit economica
Attivit economica

Numero individui
739.903
5.316.779
2.298.682
780.240
1.168.507
2.537.860
12.841.971

Agricoltura
Industria
Commercio
Trasporti e comunicazioni
Credito e assicurazioni, servizi alle imprese, noleggio
Altre attivita
Totale

Tabella 2.2.1b
Distribuzione degli occupati di sesso femminile in Italia per attivit economica
Attivit economica

Numero individui
413.775
1.712.202
1.687.856
198.789
884.174
3.254.965
8.151.761

Agricoltura
Industria
Commercio
Trasporti e comunicazioni
Credito e assicurazioni, servizi alle imprese, noleggio
Altre attivita
Totale

Tabella 2.2.2
Distribuzione degli occupati per settore di attivit economica
Attivit economica
Agricoltura
Industria
Commercio
Trasporti e comunicazioni
Credito e assicurazioni, servizi alle imprese, noleggio
Altre attivita
Totale

Maschi
6,76
41,40
17,90
6,08
9,10
19,76
100,00

Femmine
5,08
21,00
20,71
2,44
10,84
39,93
100,00

Dalle tabelle 2.2.1a e 2.2.1b risulta, per esempio, che le femmine occupate nel settore
"Commercio" sono poco meno dei tre quarti dei maschi occupati nello stesso settore. Se

21

facciamo riferimento, invece, alla tabella 2.2.2 notiamo che la percentuale dei maschi
impiegati nel commercio sul totale inferiore al 18%, mentre la percentuale delle
femmine superiore al 20%, cosicch, in proporzione, le femmine occupate in questo
settore sono pi numerose.
Informazioni identiche a quelle fornite dalle frequenze percentuali possono essere
espresse anche mediante le cosiddette frequenze relative,
fi

ni
,
n

che sono date, come si vede, dai rapporti fra le frequenze assolute ed il loro totale ed
esprimono, anzich le percentuali, le quote di unit statistiche che presentano una
k

determinata modalit o intensit. In questo caso ovviamente risulta fi 1 .


i1

Nelle pagine successive per descrivere la distribuzione di un carattere faremo


riferimento in genere alle frequenze relative. E' ovvio per che i diversi tipi di frequenza
forniscono informazioni identiche sulla struttura della distribuzione e che le considerazioni
basate sulle frequenze relative valgono anche per quelle assolute o percentuali, dato che
queste ultime si ottengono semplicemente moltiplicando i valori delle f i per la numerosit
complessiva della popolazione o per 100.

2.3 La funzione di densit


Quando le informazioni disponibili su un certo carattere sono solo quelle fornite da una
distribuzione di frequenza data mediante classi di valori, la distribuzione del carattere
all'interno delle singole classi ovviamente non nota e pu essere eventualmente stimata
solo in modo approssimato.
Con riferimento alla tabella 2.1.4 non noto, per esempio, il numero di edifici con un
numero di abitazioni pari a 3, a 4 e cos via.
Se la distribuzione, come in questo caso, si riferisce ad una variabile discreta si pu
adottare in prima approssimazione l'ipotesi di equiripartizione, in base alla quale la
frequenza associata ad una classe ripartita in modo uguale fra tutte le intensit che la
variabile pu assumere all'interno della classe stessa. In base a questa ipotesi, per
esempio, le quote che competono "in media" a ciascuna intensit del carattere nella
collettivit descritta dalla tabella 2.1.4 sono quelle riportate nella successiva tabella 2.3.1,

22

dove non sono stati indicati i dati relativi ai valori della variabile maggiori di 15, dato che
l'ultima classe della 2.1.4. aperta.

Tabella 2.3.1
Distribuzione delle abitazioni in edifici ad uso abitativo per numero di abitazioni nell'edificio
(fonte ISTAT, 14 Censimento generale della popolazione e delle abitazioni)
numero abitazioni
nell'edificio
1
2
3o4
Da 5 a 8
Da 9 a 15

numero intensit della classe


1
1
2
4
7

quota media per


ogni intensit
6.902.088,00
4.560.856,00
1.739.296,50
805.940,25
445.388,14

Allo stesso modo, dai dati della tabella 2.1.3 non nota, per esempio, la quota di
aziende con una superficie coltivabile compresa fra 10 e 15 ettari, oppure fra 15 e 20 e
cos via.
Nel caso di una variabile continua si adotta in genere l'ipotesi, in un certo senso
equivalente alla precedente, di distribuzione uniforme all'interno di ogni singola classe,
in base alla quale la quota complessiva della classe viene ripartita sui suoi sottointervalli in
maniera proporzionale alla loro ampiezza. In questo modo a due qualsiasi sottointervalli di
pari ampiezza attribuita una stessa quota della frequenza complessiva della classe, ad
un sottointervallo con un'ampiezza doppia dei precedenti viene attribuita una quota doppia
e cos via. Se indichiamo con i l'ampiezza della i-esima classe, la frequenza attribuita ad
un qualsiasi sottointervallo ab della classe xi1xi data quindi da

fi
x i x i 1

b a =

fi
i

b a

2.3.1

ed uguale, come si vede, al prodotto della f i per il rapporto fra l'ampiezza di ab e quella
della classe che lo contiene.
Si osservi che il rapporto

f i (x) =

fi

2.3.2

23

fra la frequenza e l'ampiezza della i-esima classe misura il grado di addensamento delle
frequenze in questa classe ed detto densit di frequenza, cosicch la frequenza
assegnata ad un qualsiasi sottointervallo pari al prodotto della densit di frequenza della
classe per l'ampiezza del sottointervallo stesso
f i f i (x) i .

2.3.3

La frequenza assegnata all'intervallo ab, perci, risulta pari a


f i (x)b - a .

2.3.4

Nella tabella 2.3.2 sono riportati i dati relativi a 100 individui classificati in base alla
statura e sono indicate le ampiezze delle classi e le densit di frequenza corrispondenti.
Tabella 2.3.2
Distribuzione di 100 individui secondo la statura in centimetri
statura

quote

140 150
150 155
155 160
160 165
165 170
170 180
180 190

0,04
0,08
0,16
0,22
0,20
0,25
0,05

ampiezza delle
classi
10
5
5
5
5
10
10

densit di
frequenza
0,004
0,016
0,032
0,044
0,040
0,025
0,005

Dalla 2.3.4 risulta che la frequenza attribuita, per esempio, all'intervallo 167 170
pari a 0,043=0,12, quella attribuita all'intervallo 167 175 data dalla somma delle
frequenze associate ai due intervalli 167 170 e 170 175 ed pari, quindi, a
0,043+0,0255=0,245 e cos via.
In base all'ipotesi di distribuzione uniforme, la densit di frequenza risulta costante
all'interno di un qualsiasi sottointervallo comunque piccolo di una data classe, cosicch
possibile definire la cosiddetta funzione di densit (f.d.) come quella funzione f(x) che
associa ad ogni singolo valore della variabile X la densit di frequenza della classe che lo
contiene. Dalla definizione risulta ovviamente

24

f(x) 0.

La struttura distributiva di una variabile continua data mediante classi di valori pu


essere descritta, quindi, mediante le frequenze relative oppure, in modo equivalente,
tenendo presente la 2.3.3, per mezzo della f.d. corrispondente.
Si osservi che

f i (x) i 1

2.3.5

i 1

e che, in base alla 2.3.4, la frequenza associata ad un qualsiasi valore singolo, cio ad un
qualsiasi intervallo di ampiezza nulla, sempre uguale a zero. E' chiaro, quindi, che la
quota di frequenza corrispondente ad un dato intervallo di estremi a e b sempre la
stessa, sia che l'intervallo sia considerato aperto (a, b), chiuso a, b, oppure chiuso ad un
solo estremo (a, b o a, b).

2.4 Rappresentazioni grafiche


I dati riportati nelle distribuzioni di frequenza possono essere illustrati anche attraverso
la costruzione di grafici che hanno lo scopo di rendere immediatamente evidente la
struttura distributiva del fenomeno nel suo complesso.
Le rappresentazioni grafiche di questo tipo che, come vedremo in seguito, sono solo
alcune di quelle che vengono utilizzate in Statistica per scopi illustrativi o di analisi dei dati,
risultano facilmente comprensibili e non richiedono conoscenze particolari, tanto che sono
largamente utilizzate anche dai pi comuni mezzi di comunicazione.
Il criterio generale per la costruzione di grafici relativi a distribuzioni di frequenza
quello di associare a ciascuna modalit o intensit del carattere esaminato un segmento di
lunghezza proporzionale alla frequenza corrispondente. Un esempio riportato nella
figura 2.4.1 che illustra i dati della tabella 1.3.3 relativi alla distribuzione di una variabile
quantitativa discreta.

25

Figura 2.4.1
Rappresentazione grafica della distribuzione
delle famiglie in abitazione per numero di componenti

numero famiglie

5000000
4000000
3000000
2000000
1000000
0
0

componenti

Per il grafico si utilizza, quindi, un sistema cartesiano e le diverse intensit rilevate sono
riportate sull'asse delle ascisse nella posizione determinata dalla scala di misura adottata.
Questo tipo di rappresentazione viene comunemente denominato diagramma per
ordinate e consente, come si vede, una percezione immediata della distribuzione delle
unit statistiche fra le diverse intensit della variabile.
Si osservi che nel grafico non sono riportati i dati relativi alle famiglie con pi di 5
componenti, dato che nella tabella 1.3.3 non specificata la suddivisione delle frequenze
fra le varie intensit del carattere.
Lo stesso criterio vale, ovviamente, anche per la costruzione dei grafici relativi a
distribuzioni di variabili qualitative, le cui modalit, in genere, sono riportate sull'asse delle
ascisse ad una stessa distanza l'una dall'altra.
Per esigenze di evidenza grafica sono utilizzati talvolta, al posto dei segmenti, dei
rettangoli (oppure dei parallelepipedi) la cui altezza proporzionale alla frequenza
associata a ciascuna modalit, come, per esempio, nella figura 2.4.2a che si riferisce ai
dati della tabella 1.3.2.
Questo tipo di rappresentazione prende il nome di grafico a colonne. Dato che la
variabile dell'esempio sconnessa, le sue modalit potrebbero essere rappresentate in un
ordine qualsiasi ma, per una maggiore leggibilit, vengono in genere riportate in modo che
le altezze dei rettangoli risultino in ordine crescente o decrescente.
Se, invece, la variabile di tipo qualitativo ordinabile i rettangoli vengono posizionati
sulla base dell'ordine naturale delle modalit.

26

Figura 2.4.2a
Rappresentazione grafica della distribuzione
degli occupati in Italia per attivit economica
8000000
7000000

occupati

6000000
5000000
4000000
3000000
2000000
1000000
0
Industria

altre attivit

commercio

cred., ass., serv.


imp., nol.

agricoltura

trasp. e com.

attivit economica

Una distribuzione pu essere illustrata anche mediante un grafico analogo ai precedenti


in cui le ascisse vengono scambiate con le ordinate. Questa rappresentazione, che ha
evidentemente la stessa struttura del grafico a colonne, viene usualmente denominata
grafico a nastri. Ad esempio, i dati della tabella 1.3.2 potrebbero essere rappresentati
mediante il grafico riportato nella figura successiva.

Figura 2.4.2b
Rappresentazione grafica della distribuzione
degli occupati in Italia per attivit economica

trasp. e co m.

a
t
t
i
v
i
t

e
c
o
n
o
m
i
c
a

agrico ltura
cred., ass., serv. imp., no l.
co mmercio

altre attivit
Industria
0

1000000

2000000

3000000

4000000

occupati

27

5000000

6000000

7000000

8000000

Unaltra comune rappresentazione il cosiddetto grafico a torta (o diagramma


circolare), di cui si d un esempio nella figura successiva, che si riferisce ai dati della
tabella 2.2.1a. In questo caso, come si vede, la rappresentazione grafica consiste nel
suddividere larea complessiva di un cerchio in parti che sono proporzionali alla frequenza
associata a ciascuna modalit.

Figura 2.4.3
Rappresentazione grafica della distribuzione
degli occupati di sessso maschile in Italia per attivit economica

agricoltura

trasp. e com.

cred., ass., serv. imp.,


nol.

Industria

commercio

altre attivit

E' ovvio che in tutti i casi si otterrebbe un grafico identico ai precedenti se si


utilizzassero, anzich le frequenze assolute, quelle percentuali o relative, dato che i tre tipi
di frequenze differiscono solo per una costante moltiplicativa.
Quando la distribuzione raggruppata in classi di valori la rappresentazione grafica pi
adatta ad illustrare la struttura del fenomeno nella collettivit esaminata assume
configurazioni diverse a seconda della natura del carattere.
Se il carattere continuo, per evidenziare il fatto che le frequenze non sono concentrate
su singoli valori, ma sono diffuse su intervalli, la sua distribuzione viene rappresentata
mediante un grafico analogo a quello riportato nella figura 2.4.4, che si riferisce ai dati
della tabella 2.3.2.

28

Figura 2.4.4
Rappresentazione grafica della distribuzione di 100 individui secondo la statura
0,05
0,04
0,03

f(x)
0,02
0,01
0
130

140

150

160

170

180

190

200

In questi casi la frequenza di ciascuna classe viene rappresentata, in base all'ipotesi di


distribuzione uniforme sui suoi sottointervalli, mediante un rettangolo con una base pari
all'ampiezza della classe ed un'altezza pari al valore della funzione di densit all'interno di
quella stessa classe. L'area di ciascun rettangolo data, quindi, dalla 2.3.3. In questo
modo, evidentemente, a due sottointervalli della stessa ampiezza all'interno di una classe
sono associate aree uguali, all'intero intervallo associata un'area uguale alla frequenza
relativa della classe, mentre ad intervalli di ampiezza diversa ma con la stessa frequenza
associata una stessa area.
L'insieme dei rettangoli d luogo ad una rappresentazione grafica, che prende il nome
di istogramma, le cui ordinate corrispondono ai valori della f.d. della variabile X e la cui
area complessiva evidentemente pari ad 1, come risulta dalla 2.3.5.
Se la distribuzione in classi si riferisce ad una variabile discreta la rappresentazione
grafica viene effettuata in base all'ipotesi di equiripartizione delle frequenze fra i valori che
la variabile pu effettivamente assumere all'interno di ciascuna classe. La distribuzione
riportata nella tabella 2.3.1, per esempio, pu essere rappresentata mediante un grafico
come quello della figura 2.4.5.

29

Figura 2.4.5
Rappresentazione grafica della distribuzione delle abitazioni in edifici ad uso abitativo
per numero di abitazioni nell'edificio

7000000

quota media edifici

6000000
5000000
4000000
3000000
2000000
1000000
0
0

9 10 11 12 13 14 15 16

numero abitazioni

In pratica, tuttavia, se le possibili intensit sono molto numerose, anche la distribuzione


di una variabile discreta raggruppata in classi pu essere rappresentata, per semplicit,
mediante un istogramma.
Cos, per esempio, la distribuzione della popolazione italiana residente per classe di
ampiezza demografica dei comuni, fino a 20.000 abitanti, che riportata nella tabella
2.4.1, pu essere rappresentata mediante il grafico della figura 2.4.6.

Tabella 2.4.1
Distribuzione della popolazione residente per classe di ampiezza demografica dei comuni
(fonte ISTAT, 14 Censimento generale della popolazione e delle abitazioni)
classi ampiezza
demografica comuni
Fino a 500
501 1.000
1.001 2.000
2.001 3.000
3.001 4.000
4.001 5.000
5.001 10.000
10.001 15.000
15.001 20.000
Totale

frequenze

quote

densit*100

258.097
843.374
2.457.057
2.392.333
2.473.123
2.166.744
8.040.885
5.403.935
3.265.182
27.300.730

0,0095
0,0309
0,0900
0,0876
0,0906
0,0794
0,2945
0,1979
0,1196
1,0000

0,0019
0,0062
0,0090
0,0088
0,0091
0,0079
0,0059
0,0040
0,0024

30

Figura 2.4.6
Rappresentazione grafica della distribuzione della popolazione residente per classe di
ampiezza demografica dei comuni
0,01
0,009
0,008
0,007
0,006

f(x) 0,005
0,004
0,003
0,002
0,001
0
0

2000

4000

6000

8000 10000 12000 14000 16000 18000 20000

2.5 Le frequenze cumulate e la funzione di ripartizione


Le informazioni sulla distribuzione di un carattere quantitativo X possono essere
espresse in un modo equivalente anche mediante le cosiddette frequenze cumulate, che
corrispondono alle somme progressive delle frequenze associate a ciascuna intensit di X.
Se xi l'i-esima intensit del carattere ordinato in modo non decrescente, la frequenza
relativa cumulata corrispondente assume il valore
i

Fi f j
j 1

i = 1, 2, ..., k

2.5.1

ed esprime la quota di individui della popolazione che presentano un'intensit della


variabile X inferiore o uguale a xi.
Nella tabella 2.5.1, per esempio, sono indicate le frequenze relative cumulate calcolate
in base ai dati della tabella 1.3.3 ed i valori riportati nellultima colonna in corrispondenza
dei diversi valori x della X indicano la quota di famiglie con un numero di componenti non
superiore a x. Cos, per esempio, 0,735 la quota di famiglie con un numero di
componenti inferiore o uguale a 3; 0,925 la quota delle famiglie con un numero di
componenti non superiore a 4 e cos via.

31

Tabella 2.5.1
Frequenze cumulate delle famiglie in abitazione per numero di componenti
Componenti
1
2
3
4
5
6 o pi
totale

Numero famiglie
5.409.180
5.900.965
4.703.320
4.133.369
1.263.934
367.460
21.778.228

quote
0,248
0,271
0,216
0,190
0,058
0,017
1,000

Frequenze cumulate
0,248
0,519
0,735
0,925
0,983
1,000

Le informazioni sulla distribuzione di una variabile descritte dalle F i sono equivalenti a


quelle fornite dalle fi, dato che dalle prime si possono sempre ottenere le seconde e
viceversa. E' chiaro infatti che dalle Fi possibile ottenere le fi mediante loperazione
differenza. Cos, per esempio, la quota di famiglie con 3 componenti corrisponde alla
differenza fra 0,735 e 0,519, mentre quella delle famiglie con 2 o 3 componenti
corrisponde alla differenza 0,735 0,248.
E' evidente inoltre che dalle frequenze relative cumulate si possono ottenere i
corrispondenti valori delle frequenze percentuali o assolute moltiplicando le f i per 100 o
per la numerosit complessiva. L'uso delle frequenze cumulate piuttosto frequente
anche nel linguaggio comune, dato che per fornire informazioni sulla distribuzione di un
carattere vengono usate spesso espressioni come "la percentuale di individui con un
reddito non superiore a..." oppure " la quota di aziende con un numero di dipendenti non
superiore a..." e cos via.
Si osservi che ovviamente risulta
F1 f1
Fk 1

dove k il numero delle intensit della variabile diverse fra di loro.


Se le intensit della X sono tutte diverse fra di loro e si fa riferimento alla serie ordinata
dei dati, il numero di termini inferiori o uguali a xi ovviamente uguale ad i, cosicch il
valore della frequenza relativa cumulata in corrispondenza di questa intensit corrisponde
a

32

i
Fi , i 1,2,..., n .
n

2.5.2

La distribuzione di frequenza di una variabile quantitativa pu essere descritta anche


mediante la cosiddetta funzione di ripartizione (f.r.), che cominceremo ad esaminare nel
caso di variabili continue e che definita nel modo seguente
F(x) f i
xi x

x .

2.5.3

Pertanto i valori F(xi) della f.r. in corrispondenza dei diversi xi della X sono identici alle
frequenze relative cumulate Fi, ma dalla definizione 2.5.3 risulta che la f.r. definita per
qualsiasi valore reale x di X.
In corrispondenza di un qualsiasi valore x la F(x) pari infatti alla somma delle
frequenze relative associate a tutte le intensit xi inferiori o uguali ad x ed indica quindi la
quota di unit statistiche che presentano una intensit della X inferiore o uguale ad x.
Supponiamo, per semplicit, che un pescatore abbia pescato 5 trote il cui peso,
espresso in grammi, risultato il seguente: 232,8; 278,0; 253,2; 218,6; 290,4. Indicata con
X la variabile "Peso" i dati possono essere sistemati in una tabella analoga alla 2.5.2 in cui
la seconda colonna indica le frequenze relative cumulate.
Tabella 2.5.2
Distribuzione di 5 trote secondo il peso
X

Frequenze
cumulate
0,2
0,4
0,6
0,8
1,0

218,6
232,8
253,2
278,0
290,4

Dalla tabella si ricava che fra le trote pescate una quota pari a 0,2 ha un peso uguale a
218,6 grammi, una quota pari a 0,4 ha un peso inferiore o uguale a 232,8 grammi e cos
via. Si osservi per che la quota di trote con un peso inferiore o uguale ad x risulta
determinata in corrispondenza di un x qualsiasi. Cos, per esempio, la quota di trote con
un peso inferiore o uguale a 250 grammi pari a 0,4, la quota di trote con un peso
inferiore o uguale a 275 grammi 0,6 e cos via.

33

La f.r. definita anche per valori inferiori alla pi piccola o superiori alla pi grande fra le
intensit rilevate ed infatti la quota di trote con un peso inferiore a 218,6 grammi uguale
a zero, mentre la quota di trote con un peso inferiore a qualunque valore maggiore di
290,4 grammi sempre uguale a 1.
E' chiaro quindi che la F(x) del nostro esempio ha la forma riportata nella figura 2.5.1,
dove, come si gi detto, il valore dell'ordinata in corrispondenza di ogni x rappresenta la
quota di trote con un peso inferiore o uguale a x.

Figura 2.5.1
Rappresentazione grafica della funzione di ripartizione della tabella 2.5.2
1

0,8

0,6

F(x)
0,4

0,2

200

210

220

230

240

250

260

270

280

290

300

peso

Le ordinate, ovviamente, sono pari a zero per i valori di X inferiori a 218,6 grammi
mentre assumono un valore pari a 0,2 per x=218,6 ed in tutti i valori successivi inferiori a
232,8 grammi e cos via.
Dalla 2.5.3 risulta quindi che la F(x) una funzione definita per qualsiasi valore della X,
non decrescente, costante a tratti ed assume valori compresi fra 0 ed 1. In particolare
uguale a 0 in tutti i valori inferiori all'estremo sinistro del campo di variazione di X ed
uguale ad 1 in tutti i valori maggiori o uguali allestremo destro. Dalla definizione risulta
inoltre che la f.r. nei punti di salto continua a destrac.
In base a tutte queste considerazioni risulta che l'espressione formale della f.r. relativa
alla tabella 2.5.2 la seguente

cSe la F(x) fosse definita come la quota di individui con un valore di X inferiore ad x la funzione sarebbe continua a sinistra.

34

0
0,2

0,4
F(x)
0,6
0,8

x 218,6
218,6 x 232,8
232,8 x 253,2
253,2 x 278,0
278,0 x 290,4
290,4 x

Un altro esempio grafico di f.r. riportato nella figura 2.5.2 che si riferisce alla serie di
valori della superficie coltivabile riportati nella tabella 2.1.2.
Figura 2.5.2
Funzione di ripartizione relativa alla tabella 2.1.2

1
0,8
0,6
0,4
0,2
0
0

20

40

60

80

100

La differenza F(xb)- F(xa) fra i valori della f.r. calcolata in due punti qualsiasi xa ed xb
(con xbxa) corrisponde alla quota di unit statistiche con un valore di X compreso
nell'intervallo xa -| xb. Cos, per esempio, per quanto riguarda la tabella 2.5.2, la quota di
trote con un peso compreso nell'intervallo 230-|275 corrisponde alla differenza

F(275)-F(230) =0,6-0,2=0,4.

Nel caso di una distribuzione in classi, i valori della f.r., cos come quelli delle frequenze
cumulate, risultano esattamente definiti solo in corrispondenza dei loro estremi.
Per esempio, per la tabella 2.5.3, che deriva dai dati della 2.3.2, i valori della F(x) si
riferiscono all'estremo superiore di ciascuna classe ed indicano la quota di individui che

35

hanno un'altezza inferiore o uguale all'estremo stesso, cosicch 0,04 la quota di individui
con una statura non superiore a 150, 0,12 quella degli individui con una statura non
superiore a 155 e cos via.

Tabella 2.5.3
Distribuzione di 100 individui secondo la statura in centimetri
statura

frequenze
cumulate
0,04
0,12
0,28
0,50
0,70
0,95
1,00

140 150
150 155
155 160
160 165
165 170
170 180
180 190

In base alle informazioni fornite dalla tabella non noto il valore della F(x) in
corrispondenza delle diverse intensit all'interno delle classi, n la quota di individui
compresi in un qualsiasi sottointervallo di una classe. Il valore della f.r. in un punto x
compreso nell'intervallo xi-1-|xi pu essere per approssimato sommando alla F(xi-1), che
risulta dalla distribuzione, la frequenza attribuita all'intervallo xi-1-|x in base all'ipotesi di
distribuzione uniforme.
Dalla 2.3.4 risulta che ad ogni sottointervallo xi-1 -| x della i-esima classe attribuita una
frequenza pari a

fi(x)(xxi-1),

cosicch si had

F(x) = F(xi-1) + fi(x)(xxi-1)

xi-1 x xi.

2.5.4

Si osservi che l'espressione precedente l'equazione della retta

dSi osservi che per semplicit si utilizza la stessa notazione F(x) sia per indicare la f.r. originaria, sia quella approssimata in base allipotesi di distribuzione
uniforme.

36

F(x) = a+bx

dove
a = F(xi-1) fi(x)xi-1

b fi x

F(x i ) F(x i-1 )


fi
.

i x
x i x i-1

Questa retta passa per i due punti individuati dagli estremi della classe e dai
corrispondenti valori della f.r., come si pu controllare mediante il grafico riportato nella
figura 2.5.3.

Figura 2.5.3
Esempio di funzione di ripartizione approssimata nella i-esima classe

F(xi )

F(xi-1 )

xi-1

xi

Come si vede, il coefficiente angolare della retta corrisponde al valore della f.d.
all'interno della i-esima classe.
In base ai valori dei parametri a e b rimane determinata l'espressione formale della f.r.
di una variabile continua data mediante classi di valori. Qui di seguito riportata per
esempio l'espressione formale della f.r. relativa alla tabella 2.3.2

37

0
0,004 (x 140)

0,04 0,016 (x 150)

0,12 0,032 (x 155)

F(x) 0,28 0,044 (x 160)


0,50 0,040 (x 165)

0,70 0,025 (x 170)


0,95 0,005 (x 180)

x 140
140 x 150
150 x 155
155 x 160
160 x 165
165 x 170
170 x 180
180 x 190
190 x

2.5.5

La rappresentazione grafica di tale funzione riportata nella figura 2.5.4 dalla quale
risulta che la f.r. approssimata relativa ad una distribuzione in classi assume la forma di
una spezzata ed ha tutte le caratteristiche di una funzione di ripartizione vista in
precedenza (per una serie di valori relativa a una variabile continua) con l'unica differenza
che presenta un andamento crescente piuttosto che costante a tratti.
E evidente che se la distribuzione presenta delle classi vuote la f.r. risulta costante
allinterno degli intervalli corrispondenti.

Figura 2.5.4
Grafico della f.r. approssimata relativa alla distribuzione
di 100 individui secondo la statura
1,2

0,8

F(x) 0,6
0,4

0,2

0
140

150

160

170

statura

38

180

190

200

Mediante la 2.5.4 possibile calcolare in modo approssimato la f.r. in corrispondenza di


ogni valore x della X ed anche la quota associata ad un qualsiasi intervallo xa-|xb della
variabile mediante la differenza F(xb)-F(xa). Cos, per esempio, tenendo presenti i dati
delle tabelle 2.3.2 e 2.5.3, la quota di individui con una statura non superiore a 162,5
data da

F(162,5) = F(160) + fi(162,5)(162,5160) = 0,28 + 0,044(162.5160) = 0,39.

In maniera analoga si ottiene la quota di individui con una statura compresa


nellintervallo 175-|190, che risulta uguale a 0,175 dato che si ottiene dalla differenza
1-F(175), dove

F(175) = 0,70 + 0,025(175170) = 0,825.

Si osservi che il valore F(x) corrisponde sempre all'area dell'istogramma fino all'intensit
x, come risulta dalla figura 2.5.5 in cui riportato il grafico della distribuzione descritta
nella tabella 2.3.2 e dove si posto x=162,5.

Figura 2.5.5
Istogramma della distribuzione di 100 individui secondo la statura
0,05

f(x)

0,04

0,03

0,02

0,01

0
140

x
145

150

155

160

165

39

170

175

180

185 X

190

La quota di individui che hanno una statura non superiore a 162,5 equivale alla somma
delle aree dei primi 3 rettangoli e dell'area parziale del rettangolo successivo fino
all'intensit 162,5. Questultima area data dal prodotto fra la densit della classe, pari a
0,044, e la lunghezza della base, pari a 162,5160=2,5.
In generale, quindi, il valore della f.r. in un punto x compreso nell'i-esima classe pu
essere anche espresso nella forma seguente
i 1

F(x) f j (x) j f i (x)(x x i1 ) .

2.5.6

j 1

Consideriamo infine il caso di una variabile quantitativa discreta. Come sappiamo le


variabili di questo tipo possono assumere un numero limitato di valori diversi allinterno di
un qualsiasi intervallo di ampiezza finita ma, per una questione di semplicit, la sua
funzione di ripartizione viene considerata definita su tutto l'asse reale e conserva le stesse
caratteristiche viste a proposito di una variabile continua.
Data, per esempio, la seguente serie relativa al numero di battute al minuto di un
gruppo di persone che ha seguito un corso di dattilografia

242, 245, 244, 248, 247, 242, 248, 244, 246, 242,
lespressione analitica della f.r. data da

0
3/10

5/10

F(x) 6/10
7/10

8/10
1

x 242
242 x 244
244 x 245
245 x 246
246 x 247
247 x 248
x 248

In base a questa funzione, per esempio, la quota di persone che riescono a fare fino a
243 battute al minuto risulta pari a 0,3, mentre la quota di individui con un numero di
battute superiore a 245 1F(245)=0,5. Il grafico della f.r. assume la forma ripoprtata nella
figura successiva.
40

Figura 2.5.6
Grafico della funzione di ripartizione relativa alla serie di numero di battute al minuto
1

0,8

0,6

F(x)
0,4

0,2

240

241

242

243

244

245

246

247

248

249

250

peso

Se la distribuzione della variabile discreta data in classi, come quella riportata nella
tabella 2.1.5, il valore approssimato della f.r. in corrispondenza delle intensit all'interno di
una classe si pu ottenere facilmente mediante l'ipotesi di equiripartizione della quota di
frequenza fra tutte le intensit comprese nella classe stessa.

2.6 I modelli matematici


Abbiamo visto nelle pagine precedenti come, per evidenziare la struttura distributiva di
una variabile che assume un elevato numero di intensit diverse fra di loro, i dati originari
vengano spesso sintetizzati mediante un raggruppamento in classi.
Cos, per esempio, i dati della tabella 2.1.2 sono stati sintetizzati mediante la
distribuzione della tabella 2.1.3 e quindi la f.r. originaria, costante a tratti, stata
approssimata mediante una linea spezzata. Le funzioni di ripartizione relative alle due
distribuzioni sono riportate nella figura 2.6.1 dalla quale si nota come che fra i due grafici
non vi siano differenze particolarmente rilevanti.

41

Figura 2.6.1
Funzioni di ripartizione delle distribuzioni delle tabelle 2.1.2 e 2.1.3
1

0,8

0,6

0,4

0,2

0
0

10

20

30

40

50

60

70

80

90

100

Questa operazione di sintesi pu anche essere effettuata in modo alternativo


utilizzando una qualche funzione matematica che sia in grado di approssimare in modo
sufficientemente preciso i valori della funzione di ripartizione della variabile X nella
collettivit, come illustrato nella figura 2.6.2, che si riferisce sempre ai dati precedenti.

Figura 2.6.2
Funzione di ripartizione della distribuzione della tabella 2.1.2 e modello matematico 2.6.1
1,0
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0,0
0

20

40

60

80

100

La funzione utilizzata in questo caso assume la forma seguentee

eAnche in questo caso la f.r. approssimata mediante una funzione matematica viene indicata per semplicit con la stessa notazione F(x).

42

F(x) 1 e

x
20

2.6.1

e, come si vede dal grafico, i suoi valori in corrispondenza dei diversi valori di X risultano
molto vicini a quelli della f.r. vera.
I valori approssimati della f.r. si ottengono semplicemente calcolando la funzione 2.6.1
in corrispondenza dei diversi valori della variabile, cosicch, per esempio, la quota
approssimata di aziende con una superficie inferiore o uguale a 12,4 ettari risulta pari a

F(12,4) 1 e

12,4
20

0,462 .

La stessa funzione consente di calcolare in modo approssimato anche la quota di


frequenza associata ad un qualsiasi intervallo xa-|xb mediante la differenza F(xb)F(xa).
Cos, per esempio, la quota di aziende con una superficie compresa fra 17,3 e 45,9 ettari
si ottiene dalla differenza F(45,9) F(17,3) = 0,899 0,579 = 0,32. Tutti questi valori
risultano abbastanza prossimi a quelli che si ricavano dalla tabella dei dati originari,
cosicch la conoscenza della funzione matematica equivale in pratica alla conoscenza
della distribuzione della variabile nella collettivit esaminata.
Si osservi per che la f.r. vera uguale ad 1 in corrispondenza dell'ultima intensit 81,9,
mentre il valore della funzione matematica 2.6.1 tende ad uno solo per x che tende ad
infinito e nel punto 81,9 pari a 0,9834. In base alla 2.6.1, quindi, vi sarebbe circa l'1,7%
di aziende con una superficie superiore a 81,9. Si tratta evidentemente di una
imprecisione

di

scarsa

importanza

che

risulta

ampiamente

compensata

dalla

semplificazione che la funzione consente nella descrizione del fenomeno reale.


L'approssimazione della distribuzione mediante una funzione matematica consente
quindi in genere una descrizione pi accurata di quella ottenuta mediante un
raggruppamento in classi e permette di sintetizzare in modo estremamente compatto le
informazioni disponibili.
In questo modo infatti tutte le informazioni essenziali sulla distribuzione del carattere
sono contenute nella espressione matematica della f.r. che descrive il modello teorico di
distribuzione della variabile in esame.
Per l'approssimazione delle f.r. di variabili continue in seguito ci limiteremo a prendere
in considerazione solo funzioni matematiche continue e derivabili su tutto il campo di
variazione della variabile. Si fa presente comunque che possono essere utilizzate anche

43

funzioni con caratteristiche pi generali come, per esempio, nel caso della 2.5.5, che
una funzione lineare all'interno dei singoli intervalli, continua, ma non derivabile ovunque.
La f.r. 2.6.1, come avviene per tutti i modelli teorici, ha caratteristiche analoghe a quelle
che sono state illustrate per le f.r. esaminate nel paragrafo precedente. Si tratta infatti di
una funzione che assume il valore zero per x0, tende ad 1 per x che tende ad infinito ed
monotona crescente per x0.
Si osservi inoltre che la 2.6.1 risulta derivabile ovunque, con derivata prima non
negativa, eccetto che nel punto x = 0. Anche in questo caso la frequenza associata ad un
qualsiasi valore singolo uguale a zero, cosicch la quota di frequenza associata ad un
determinato intervallo sempre la stessa sia che l'intervallo sia considerato aperto,
chiuso, oppure chiuso ad un solo estremo.
L'espressione matematica della f.r. teorica consente di calcolare, oltre alla quota di
frequenza associata ad un qualsiasi intervallo chiuso [x, x+x] comunque piccolo, anche la
densit media di frequenza f(x) nello stesso intervallo mediante il rapporto, analogo al
2.3.2,
f(x)

F(x x) F(x)
.
x

2.6.2

Il limite della 2.6.2 per x che tende a zero uguale, com' noto, alla derivata della F(x)
nel punto x e corrisponde alla densit di frequenza in questo stesso punto.
La funzione derivata, che verr indicata con f(x), corrisponde alla funzione di densit del
modello teorico F(x) ed ovviamente risulta sempre
f(x) 0,
dato che la f.r. una funzione non decrescentef.
La f(x) quindi quella funzione che approssima la vera densit di frequenza della
variabile nella collettivit.
Nel caso di una distribuzione in classi, quindi, la f(x) approssima il profilo
dellistogramma, come si vede dalla figura 2.6.3 che riporta le funzioni di densit
corrispondenti al modello 2.6.1 e alla distribuzione della tabella 2.1.3.

fAnche in questo caso, per semplicit, la notazione f(x) viene usata indifferentemente per indicare la f.d. calcolata sotto ipotesi di distribuzione uniforme e
quella corrispondente ad un modello matematico.

44

Figura 2.6.3
Distribuzione approssimata delle aziende secondo la superficie coltivabile
0,05

0,04

0,03

0,02

0,01

0,00
0

10

20

30

40

50

60

70

80

90

100

Anche nel caso di modelli teorici, quindi, la distribuzione di una variabile continua pu
essere descritta in modo equivalente mediante la funzione di ripartizione F(x) o la
corrispondente funzione di densit f(x).
La frequenza relativa associata ad un intervallo x-|x+x pu essere approssimata, per
x sufficientemente piccolo, dal prodotto della densit per l'ampiezza dell'intervallo
f(x) x.

2.6.3

Si osservi che per ogni f.r. relativa ad una variabile continua con una distribuzione in
classi (come nel caso della f.r. 2.5.5) la derivata allinterno di ogni intervallo corrisponde
alla funzione di densit di frequenza. In questo caso il prodotto 2.6.3 esattamente uguale
alla frequenza associata all'intervallo stesso, come risulta anche dalla 2.3.3.
Dalla figura 2.6.3 si vede subito che la quota di frequenza del modello teorico associata
ad un qualsiasi intervallo xa-|xb corrisponde, come nel caso dell'istogramma, all'area
sottostante la curva della f.d. delimitata dagli estremi dell'intervallo stesso. Questa quota di
frequenza, pari a F(xb)F(xa), nelle nostre condizioni corrisponde anche all'integrale della
f.d. nello stesso intervallo, ossia
xb

F(x b ) F(x a ) f(x)dx .


xa

45

Se sono a e b gli estremi del campo di variazione della variabile, la f.r. in un punto x
corrisponde all'integrale nellintervallo [a, x] della f.d.

F(x) = f(t)dt

2.6.4

e si ha anche

f(x)dx F(b) F(a) 1.

2.6.5

La 2.6.4 e la 2.6.5 sono ovviamente espressioni analoghe rispettivamente alla 2.5.6 ed


alla 2.3.5.
Dato che la f.d. definita anche all'esterno del campo di variazione della variabile, dove
vale sempre zero, per una questione di semplicit, la 2.6.4 viene espressa di solito nel
modo seguente

Fx

f(t)dt ,

mentre per la 2.6.5 si utilizza la notazione

f(x)dx 1

e, quando non esistono dubbi sul campo di integrazione, i suoi limiti possono essere
anche omessi.
Supponiamo, per esempio, che la distribuzione di una certa variabile X possa essere
approssimata dal seguente modello teorico

12x(1 x) 2
f(x)

0 x 1
altrove

2.6.6

46

la cui rappresentazione grafica riportata nella figura successiva.

Figura 2.6.4
Esempio di modello teorico

1,8
1,5
1,2
0,9
0,6
0,3
0,0
0,0

0,2

0,4

0,6

0,8

1,0

Sulla base della 2.6.4 la f.r. di X corrisponde a

x0

0
x

F(x) 12t1 t 2 dt 3x 4 8x 3 6x 2
0
1

0 x 1

2.6.7

x 1

Oltre ai modelli distributivi continui esistono anche modelli per variabili discrete che per
una variabile X vengono descritti usualmente attraverso una funzione matematica f(x),
detta funzione di massa, che associa ad ognuna delle possibili intensit xi della X la
quota di frequenza corrispondente. Dalla funzione di massa si ricavano ovviamente,
attraverso somme successive, le frequenze cumulate e la funzione di ripartizione.
Il ricorso ad un modello teorico per descrivere un fenomeno costituisce spesso anche
un tentativo di interpretarlo e cio di individuare le cause per le quali quel dato fenomeno
presenta proprio quella particolare struttura. La costruzione del modello parte in questo
caso da considerazioni sulla natura del fenomeno e da congetture sulle caratteristiche dei
principali processi che influenzano le sue realizzazioni. Queste ipotesi, esplicitate in modo
47

formale, consentono quindi di dedurre lespressione matematica del modello distributivo.


Alcuni semplici esempi di questo procedimento verranno esaminati nel capitolo dedicato
alle variabili casuali, quando ci occuperemo della genesi dei principali modelli distributivi.
Si osservi per che spesso lo scopo del modello non tanto quello di descrivere nel
modo pi accurato possibile il fenomeno cos come stato osservato in una particolare
situazione, quanto quello di descriverlo, compatibilmente con la sua complessit, nel modo
pi semplice possibile per metterne in luce quelle regolarit di fondo che si manifestano
quando viene rilevato in collettivit o comunque in situazioni diverse. E chiaro quindi che
in generale non solo non possibile, ma soprattutto non interessa, tenere presenti nella
formulazione delle ipotesi tutti i possibili fattori che hanno una qualche influenza sulle
manifestazioni contingenti del fenomeno. Il tentativo piuttosto quello di individuare i soli
fattori fondamentali in modo da ottenere una descrizione semplificata della realt, ma che
sia in grado di riassumerne gli aspetti pi significativi.
Si fa osservare infine che esistono numerosi manualig in cui sono descritte le funzioni di
massa oppure le funzioni di densit e le corrispondenti funzioni di ripartizione di un gran
numero di modelli teorici anche attraverso le loro rappresentazioni grafiche, che risultano
particolarmente utili per individuare il modello in grado di approssimare una particolare
distribuzione osservata.
E' utile per anticipare che il pi importante fra tutti senz'altro il modello normale o di
Gauss la cui f.d. assume la forma

f(x)

1
2

1 x

2
e

x +; +; 0

2.6.8

in cui compaiono i due parametri (mi) e (sigma).


Questa funzione stata utilizzata, a titolo di esempio, per sintetizzare la distribuzione
riportata nella tabella 2.3.2, ponendo =165 e =9 ed assume quindi la forma

f(x)

1
9 2

1 x 165

2 9
e

, x +.

g Johnson N.L., Kotz S. e Kemp A.W. (1992), Univariate Discrete Distributions, second edition, Wiley & Sons, New York.
Johnson N.L., Kotz S. e Balakrishnan N. (1994), Continuous Univariate Distributions, second edition, 2 vol., Wiley & Sons, New York.

48

2.6.9

L'approssimazione ottenuta risulta soddisfacente, come si vede dalla figura 2.6.5 in cui
sono riportati i grafici delle due funzioni di densit relative alla distribuzione in classi ed al
modello matematico.
Si osservi che la f.d. normale risulta simmetrica intorno a e che i valori delle ordinate
della funzione diminuiscono rapidamente allaumentare della distanza da , anche se il
campo di variazione della variabile coincide con tutto lasse reale.

Figura 2.6.5
Distribuzione approssimata di 100 individui secondo la statura
0,05
0,04
0,03
0,02
0,01
0
130

140

150

160

170

180

190

200

La funzione di ripartizione del modello 2.6.8,

F(x)

1
2

1 t

2
e

dt

2.6.10

non ha unespressione esplicita semplice, ma i suoi valori possono essere ricavati


facilmente mediante una trasformazione di variabile.
Consideriamo la trasformazione

2.6.11

Scala C. (1988), Funzioni di densit di probabilit: atlante descrittivo. Universit di Siena.

49

che corrisponde ad una variabile con f.d. normale di parametri = 0 e = 1, che anche
detta variabile normale standardizzata.
Si pu dimostrare che il valore della funzione di ripartizione 2.6.10 della variabile X per
x, e qualsiasi si ottengono semplicemente dal valore della funzione di ripartizione della
variabile U calcolata in corrispondenza del valore

dove la funzione di ripartizione della U assume la forma

1
2

1
t2
2
e
dt

2.6.12

ed i suoi valori sono riportati in apposite tavole statistiche, analoghe alla Tavola A in
Appendice.
In questa tavola sono elencati sulla prima colonna alcuni valori di u con una cifra
decimale e sulla seconda colonna i corrispondenti valori di (u) cosicch, per esempio, in
corrispondenza del valore u=0,7 sulla seconda colonna riportato il valore (0,7)=0,758
che corrisponde evidentemente allintegrale 2.6.12 nellintervallo (-, 0,7]. Il valore della
f.r. per u uguale per esempio a 0,72 si determina procedendo verso destra sulla stessa
riga di u = 0,7 fino ad incontrare la colonna che ha sullintestazione il valore 0,02. Il valore
di (0,72) risulta quindi pari a 0,764.
Nel caso della distribuzione 2.6.9, per esempio, la F(170), ossia la quota approssimata
di individui con una statura inferiore o uguale a x=170, si ottiene calcolando il valore

170 165
0,56 a cui corrisponde (0,56) = 0,712.
9

I valori della f.r. per valori di u negativi si ottengono sempre dalla tavola A, tenendo
presente che, a causa della simmetria della variabile intorno allo zero, si ha
( u) 1 (u) .

50

Cos, per esempio, la quota di individui con una statura X inferiore o uguale a 155 si
ottiene calcolando il valore u

155 165
1,11 a cui corrisponde
9

F(155) = (1,11) = 1 (1,11) = 10,867 = 0,133.

In entrambi i casi, come si vede, i valori della f.r. teorica risultano molto prossimi a quelli
calcolati sulla distribuzione originaria. In generale lapprossimazione ottenuta con il
modello normale risulta soddisfacente, come si vede dalla figura 2.6.6 in cui sono riportati i
grafici delle due funzioni di ripartizione relative alla distribuzione in classi ed al modello
matematico.

Figura 2.6.6
Grafici delle f.r. approssimate di 100 individui secondo la statura
1,00

0,80

0,60

0,40

0,20

0,00
140

145

150

155

160

165

51

170

175

180

185

190

CAPITOLO 3
VALORI CARATTERISTICI DELLE DISTRIBUZIONI

3.1 I quantili
Nel capitolo precedente abbiamo visto come la distribuzione di una variabile in una
collettivit possa essere descritta utilizzando i valori della f.r. o delle frequenze cumulate,
cio le quote di individui che presentano un valore della variabile inferiore o uguale ad una
intensit predeterminata. Informazioni analoghe sulla distribuzione si possono ottenere
mediante i cosiddetti quantili.
In generale, detto quantile di ordine p (con 0<p<1) il valore xp della variabile X in
corrispondenza del quale la f.r. uguale a p, quel valore, cio, per il quale risulta
F(xp) p.

3.1.1

Come si vede, dire che un valore x il quantile di ordine p equivale a dire che nella
collettivit esaminata una quota pari a p di individui ha un valore della variabile inferiore o
uguale a x. Se, per esempio, in una distribuzione di redditi annui il quantile di ordine 0,25
pari ad 5 mila euro, questo vuol dire che un quarto degli individui ha un reddito inferiore o
uguale a 5 mila euro; se in una distribuzione di stature x0,8 vale 178 centimetri, questo vuol
dire che l'80% degli individui ha una statura inferiore o uguale a 178 centimetri e cos via.
Tutti i termini della serie, ovviamente, sono quantili della distribuzione, ma fra questi
alcuni sembrano pi indicativi di altri perch fanno riferimento a quei valori di p di uso pi
comune e sono considerati, quindi, come altrettanti valori caratteristici della distribuzione
stessa. Fra questi, particolarmente significativi sembrano quelli in corrispondenza dei quali
la F(x) vale un quarto, un mezzo e tre quarti, cio i quantili x0,25, x0,5 e x0,75. Questi ultimi,
per la loro importanza nella descrizione della distribuzione, hanno anche un nome
particolare e, dato che suddividono la distribuzione in quattro parti di uguale numerosit,
vengono detti quartili. Fra questi il pi utilizzato quello di ordine 0,5 che detto anche
mediana e che ovviamente suddivide la serie ordinata delle osservazioni in due parti di
uguale numerosit. Altri quantili di uso frequente sono i nove decili x0,1, x0,2, ..., x0,9 in

52

corrispondenza dei quali la F(x) assume rispettivamente i valori 0,1; 0,2; ...; 0,9 ed i
novantanove centili x0,01; x0,02; ...; x0,99.
Nel caso di una serie di n valori distinti relativi ad una variabile continua, la
determinazione dei quantili pu essere effettuata solo in modo convenzionale, come si pu
vedere facilmente attraverso alcuni esempi. Nella figura 3.1.1 riportato il grafico della f.r.
relativa ai pesi della tabella 2.5.2.

Figura 3.1.1
Rappresentazione grafica della funzione di ripartizione della tabella 2.5.2
1

0,8

0,6

F(x)
0,4

0,2

0
200

210

220

230

240

250

260

270

280

290

300

peso

Come si vede dalla figura, in questa distribuzione non esiste nessuna intensit in
corrispondenza della quale la f.r. assume un valore pari a 0,5 e questa circostanza si
verifica per tutte le serie con un numero dispari di termini. Se, infatti, facciamo riferimento
ad una serie ordinata di n osservazioni tutte diverse fra di loro, in corrispondenza del
valore xi, che si trova all'i-esimo posto della serie, la f.r. uguale ad i/n, come risulta dalla
2.5.2, ma se n dispari la quantit i/n non pu essere mai uguale a 0,5.
In tutti questi casi, per convenzione, si stabilisce di considerare quale mediana della
distribuzione l'intensit centrale della successione ordinata dei termini, anche se in realt,
in corrispondenza di questa intensit, la f.r. assume un valore sempre superiore a 0,5. Nel
nostro esempio, quindi, si considera come intensit mediana il valore 253,2 anche se
F(253,2) = 0,6.
In generale, quindi, se n un numero dispari, si assume quale mediana della
distribuzione l'intensit che nella serie ordinata occupa il posto

53

i=(n+1)/2, in

corrispondenza della quale la f.r., in realt, pari a

i 1 n +1
. Si osservi per che al

n 2 n

crescere di n il valore i/n tende rapidamente ad 1/2 e che quindi il termine centrale, se la
collettivit numerosa, tende a coincidere con il quantile di ordine 0,5.
Esaminiamo ora il caso in cui gli individui della collettivit siano in numero pari, facendo
riferimento ad una collettivit di 6 piantine di cui si misurata laltezza in centimetri
ottenendo i seguenti valori:

23,4; 18,2; 21,0; 22,7; 19,1; 21,5. Le frequenze relative

cumulate assumono i valori indicati nella seconda colonna della tabella 3.1.1

Tabella 3.1.1
Distribuzione di 6 piantine secondo laltezza (espressa in centimetri)
X
18,2
19,1
21,0
21,5
22,7
23,4

freq. cumulate
0,167
0,333
0,500
0,667
0,833
1,000

La f.r. corrispondente, illustrata nella figura 3.1.2, pari a 0,5 per tutti i valori compresi
fra l'intensit 21,0 e l'intensit 21,5 esclusa.

Figura 3.1.2
Grafico della f.r. della distribuzione 3.1.1
1
0,8
0,6
F(x)
0,4
0,2
0
18

18,5

19

19,5

20

20,5

21
altezza

54

21,5

22

22,5

23

23,5

24

Ciascuno dei valori di questo intervallo, quindi, potrebbe essere considerato come il
valore mediano della distribuzione, ma per convenzione in questo caso si assume come
mediana la semisomma degli estremi dell'intervallo stesso. Nel nostro esempio, quindi, si
considera come mediana il valore (21,0+21,5)/2 = 21,25.
Questa stessa convenzione si utilizza tutte le volte in cui la collettivit di numerosit
pari, perch in questo caso esistono due valori centrali che occupano i posti di ordine n/2 e
n/2+1 che costituiscono gli estremi del cosiddetto intervallo mediano. La f.r. in
corrispondenza del primo termine vale ovviamente (n/2)/n = 1/2 e continua a valere 1/2
fino al secondo termine escluso.
In generale, quindi, per una collettivit di numerosit pari, si assume quale mediana
della distribuzione la semisomma delle intensit che occupano i due posti centrali.
Questi stessi problemi si presentano evidentemente anche nella determinazione dei
quantili di qualsiasi ordine, ma in tutti i casi si usano le stesse convenzioni adottate per la
mediana.
In generale, quindi, per individuare il valore del quantile di ordine p, si controlla se nella
serie esiste unintensit in corrispondenza della quale la f.r. vale esattamente p. Se questo
termine esiste, dato che la f.r. continua a valere p fino al termine successivo escluso, si
considera come valore di xp la semisomma delle due intensit cos individuate. Se, invece,
non esiste alcuna intensit in corrispondenza della quale la f.r. vale p, si considera come
valore di xp il termine in corrispondenza del quale la f.r. assume per la prima volta un
valore superiore a p.
Supponiamo di voler calcolare il primo ed il terzo quartile della della distribuzione
riportata nella tabella 2.1.2. In questo caso la quota associata a ogni intensit pari a
1/25=0,04 e quindi la f.r. non assume mai i valori 0,25 e 0,75. Si considera quindi come
primo quartile l'intensit 6,1, in corrispondenza della quale la f.r. vale

F6,1

7
0,28
25

e come terzo quartile l'intensit 27,8, in cui la f.r. pari a

F27,8

19
0,76.
25

55

Per quanto riguarda le variabili discrete, i quantili che possono essere presi in
considerazione sono solo quelli di ordine corrispondente ai valori effettivamente assunti
dalla f.r. nella collettivit esaminata. Infatti, se a queste variabili si applicasse lo stesso
criterio seguito per quelle continue, un quantile potrebbe corrispondere ad un valore che la
variabile non pu assumere, e questo sarebbe evidentemente del tutto privo di senso,
oppure uno stesso valore che si presentasse pi volte corrisponderebbe a pi quantili
diversi.
Se la distribuzione di una variabile discreta data mediante classi di valori, la
determinazione dei quantili approssimati pu basarsi sulla ipotesi di equiripartizione delle
frequenze all'interno delle singole classi, mentre per una variabile continua si utilizza
l'espressione 2.5.4 della funzione di ripartizione.
In questo caso, per determinare il quantile di ordine p necessario individuare
innanzitutto la classe che lo contiene. Per esempio, il quantile di ordine 0,25 della
distribuzione riportata nella tabella 2.5.3 compreso nella classe 155-|160, dato che
F(155) = 0,12 e F(160) = 0,28, mentre x0,75 compreso nella classe 170-|180 e cos via.
Se xp contenuto nella classe i-esima, il suo valore si ottiene ponendo
F(xp) = F(xi1) + fi(x) (xp xi1) = p,

da cui si ricava
x p x i 1

p F(x i 1 )
.
f i (x)

3.1.2

Il terzo quartile della distribuzione delle altezze riportata nella tabella 2.5.3, per
esempio, dato da

x 0,75 = 170

0,75 - 0,70 = 172.


0,025

Con riferimento alla rappresentazione grafica della F(x) per distribuzioni di variabili
continue date mediante classi di valori, il quantile di ordine p pu essere determinato
individuando semplicemente il valore dell'ascissa in corrispondenza del valore dell'ordinata

56

pari a p, cos come mostrato nella figura successiva, che si riferisce al terzo quartile per la
distribuzione delle stature.

Figura 3.1.3
Grafico della f.r. relativa alla distribuzione di 100 individui secondo la statura
1,2

0,8

F(x) 0,6
0,4

0,2

0
140

150

160

170

180

190

200

statura

3.2 Il valore normale o modale


La prima caratteristica che si nota esaminando una distribuzione di frequenza di una
variabile qualitativa o quantitativa discreta si riferisce alla modalit o intensit del carattere
a cui associata la frequenza pi alta, che detta determinazione normale o modale ed
anche norma o moda. Per esempio, con riferimento alla tabella 1.2.1 la modalit normale
"prime edizioni", mentre nella 1.3.3 il valore modale 2 componenti.
Si osservi che i termini valore normale o norma sono utilizzati anche nel linguaggio
comune, dato che, per esempio, la distribuzione della tabella 1.3.3 potrebbe essere
commentata dicendo che le famiglie di norma sono composte da due persone. E' chiaro
che il termine valore normale nel linguaggio comune tanto pi spontaneo quanto pi
l'intensit o la modalit prevalente ha una frequenza elevata rispetto a quella delle altre
intensit o modalit del carattere esaminato.
Nel caso di una variabile qualitativa o quantitativa discreta la moda, sulla base della
definizione precedente, perfettamente determinata e corrisponde, come si detto, alla

57

modalit o intensit che presenta la frequenza pi alta. Ovviamente se in una distribuzione


ci sono pi intensit a cui associata la stessa frequenza massima, il carattere presenta
pi valori modali, mentre non c' alcun valore modale se tutte le frequenze sono uguali fra
di loro.
Una distribuzione che presenta una sola moda viene detta unimodale, mentre detta
plurimodale se presenta pi mode. In particolare, se esistono due mode, la distribuzione
detta bimodale, se ne esistono tre detta trimodale e cos via.
Nelle distribuzioni di variabili continue date mediante classi di valori, detto modale
quell'intervallo che, a parit di ampiezza, contiene la quota maggiore di osservazioni e
presenta quindi la massima densit di frequenza. Nel caso della tabella 2.3.2, per
esempio, l'intervallo modale della distribuzione la classe 160 165 in corrispondenza
della quale si ha il massimo valore del rapporto fra frequenza e ampiezza. E' chiaro
tuttavia che la determinazione dell'intervallo modale risente di tutte le arbitrariet di una
suddivisione in classi.
Una volta individuata la classe modale, si pu considerare come valore normale
lintensit centrale della classe cosicch, per esempio, nel caso precedente si pu
considerare come valore modale lintensit 162,5.
Se la distribuzione viene approssimata mediante un modello teorico, come valore
normale della distribuzione si assume in genere il valore corrispondente determinato sul
modello. Del calcolo della moda di un modello teorico ci occuperemo nellultimo paragrafo
di questo capitolo.
In una distribuzione possono essere individuati anche valori modali che sono detti
secondari o locali. In questo caso lintensit della distribuzione a cui associata la
frequenza massima detta anche moda principale.

3.3 La media aritmetica


Una importante caratteristica di una variabile quantitativa costituita dal suo valore
medio, espressione che fa parte anch'essa del linguaggio comune dato che, con
riferimento a gruppi di individui, si parla abitualmente, per esempio, di reddito medio, voto
medio, et media e cos via. Questo valore serve ad indicare in modo sintetico l'ordine di
grandezza del fenomeno nel gruppo considerato e pu essere utilizzato per confrontare in
modo sommario le intensit di una stessa variabile rilevata su collettivit diverse. Sono di

58

uso comune, per esempio, espressioni quali "le donne in media vivono pi a lungo degli
uomini" oppure "i neonati maschi pesano in media pi delle femmine" e cos via.
L'espressione "valore medio" piuttosto generica perch si pu fare riferimento in realt
a pi valori medi che in genere risultano diversi fra di loro. Nel linguaggio comune, per,
con il termine media ci si riferisce quasi sempre alla cosiddetta media aritmetica che, fra
tutti i possibili valori medi, senz'altro il pi importante, tanto che in Statistica, quando si
parla di media senza ulteriori specificazioni, ci si riferisce sempre a quest'ultima.
La media aritmetica di una variabile X viene indicata di solito con uno dei simboli m, m x,
m1, M1, x , E(X).
Data la serie delle n intensit di una variabile X, la media aritmetica uguale alla
somma di tutte le intensit divisa per n.
Cos, per esempio, la media aritmetica della serie di valori della tabella 3.3.1 risulta
uguale a 10, quella della distribuzione riportata nella tabella 2.1.1 uguale a 20,392,
mentre la media della 2.5.2 uguale a 254,6.

Tabella 3.3.1
Numero di dipendenti di un gruppo di 10 aziende cooperative
1

15

18

20

23

Se facciamo ricorso al simbolo di sommatoria, la definizione di media aritmetica quindi


n

xi

i 1

3.3.1

dove la somma delle intensit rilevate

i x i , che detta anche ammontare del carattere,

pari ovviamente a

i x i nm .
Come si vede dalla figura 3.3.1, relativa alle intensit della tabella 3.3.1, il valore della
media aritmetica, indicato dal simbolo

risulta interno al campo di definizione della

variabile e, cos come la mediana, pu essere considerato in qualche modo come un

59

valore "centrale" della distribuzione, un valore cio intorno al quale sono pi o meno
addensate le intensit della variabile rilevate sugli individui della collettivit. Per
sottolineare questa "centralit", la media aritmetica, la mediana e, in generale, tutte le altre
medie, sono dette anche indici della tendenza centrale.

Figura 3.3.1
Grafico dei dati della tabella 3.3.1

10

15

20

25

Unimportante propriet della media aritmetica quella di essere quel particolare valore
che, sostituito a ciascuna delle intensit effettivamente rilevate, lascia inalterato
l'ammontare del carattere ed proprio questa la caratteristica a cui ci si riferisce
intuitivamente quando su un insieme di dati si calcola la media aritmetica.
Supponiamo, per esempio, di aver acquistato una stessa quantit di un certo bene in
due occasioni diverse e di aver pagato rispettivamente i prezzi p1 e p2. La media aritmetica
di queste due intensit (p1 + p2)/2 quel prezzo che, se fosse risultato identico nelle due
occasioni, ci avrebbe fatto spendere la stessa somma complessiva.
Si osservi che se di uno stesso bene vengono acquistate, invece, due quantit diverse
q1 e q2 pagando rispettivamente i prezzi unitari p1 e p2, l'ammontare complessivo della
spesa dato evidentemente dalla somma dei prezzi per le rispettive quantit p 1q1+p2q2,
cosicch il prezzo medio pm corrisponde al rapporto fra questo ammontare e la quantit
totale q1+q2. Si ha, in altri termini

pm

p1q1 p 2 q2
q1 q2

3.3.2

ed il valore cos ottenuto soddisfa la propriet della media aritmetica (lascia inalterato
lammontare complessivo della spesa), dato che

p1q1+p2q2 = pm(q1+q2).

60

La 3.3.2 un esempio di media aritmetica ponderata, ossia di una media dove ogni
singola intensit contribuisce alla determinazione dell'ammontare complessivo in maniera
proporzionale ad un qualche "peso" associato all'intensit stessa.
E' evidente che se in una distribuzione ogni intensit xi compare ni volte e vi sono solo k
intensit diverse fra di loro, la media pu essere definita mediante l'espressione

i x i ni
i ni

i x i ni
n

, i = 1, 2, ..., k n,

3.3.3

equivalente alla 3.3.1, in cui l'ammontare complessivo dato dalla somma dei prodotti fra
ciascuna intensit e la frequenza corrispondente.
Nel caso della tabella 1.3.3, per esempio, il numero medio di componenti delle famiglie
italiane formate da non pi di 5 componenti si ottiene mediante la 3.3.3 e risulta pari a

1 5.409.180 2 5.900.995 ... 5 1.263.934


2,53 .
21.410.768

Se si utilizzano le frequenze relative, la media aritmetica pu essere definita anche


mediante l'espressione

m i x i fi ,

i = 1, 2, ..., k n

3.3.4

che equivale alla 3.3.3, dato che

i x i ni
n

i x i

ni
i x i fi
n

ed ovviamente anche alla 3.3.1, dato che in questultimo caso f i = 1/n.


Se i dati disponibili sono raggruppati in k classi, per il calcolo della media aritmetica si fa
l'ipotesi che i valori all'interno della i-esima classe siano tutti uguali al valore centrale, che
dato dalla semisomma dei suoi estremi e che indicheremo con il simbolo x i . La media,
quindi, si calcola mediante la 3.3.4 dove al posto dei valori xi si utilizzano i valori centrali

61

delle singole classi ed ovviamente il risultato ottenuto in questo modo solo


un'approssimazione della media vera calcolata sui dati originari.
E' chiaro che il valore medio approssimato risulta tanto pi preciso quanto minore
l'ampiezza delle diverse classi della distribuzione ed ovvio che se si dispone anche dei
valori originari oppure degli ammontari esatti per le singole classi, il calcolo della media va
effettuato in base a questi ultimi.
Calcoliamo, a titolo di esempio, la media aritmetica della distribuzione riportata nella
tabella 3.3.2, che stata costruita in base ai dati contenuti nella 2.1.3.

Tabella 3.3.2
Distribuzione di 25 aziende agricole secondo la superficie coltivabile
X
0 -| 5
5 -| 10
10 -| 20
20 -| 50
50 -| 100
totale

quote
0,20
0,16
0,24
0,32
0,08
1,00

valore centrale
2,5
7,5
15,0
35,0
75,0

In questo caso la media, che si ottiene dalla somma dei prodotti delle frequenze relative
per i valori centrali, uguale a 22,5 ettari e risulta quindi abbastanza diversa da quella
vera, calcolata sui dati originali, che era pari a 20,392.
Si osservi che per le distribuzioni di variabili continue raggruppate in classi la 3.3.4,
tenendo presente la 2.3.3, pu essere definita anche utilizzando la funzione di densit nel
modo seguente

m i x i fi (x)i x ,

i = 1, 2, ..., k n .

3.3.5

Se nella distribuzione compaiono una o pi classi aperte, per il calcolo della media
necessario approssimare in qualche modo i valori degli estremi, utilizzando altre eventuali
informazioni disponibili sul fenomeno esaminato.
Per quanto riguarda la media di una trasformata lineare di X

62

Y = a + bX,

3.3.6

my = E(Y) = E(a + bX) = a + bE(X) = a + bmx ,

3.3.7

si ha

come si vede facilmente tenendo presenti le propriet della sommatoria, cosicch la media
di una trasformazione lineare pari alla trasformazione lineare della media.
Una importante trasformazione lineare di una variabile X la cosiddetta variabile scarto

= (Xmx)
X

3.3.8

le cui intensit corrispondono alle differenze fra le intensit della X e la loro media. In base
alla 3.3.7 si controlla subito che

) = E(Xmx) = 0
E( X

3.3.9

e cio che la media degli scarti sempre uguale a zero.


Si osservi che in qualche situazione particolare per determinare l'ordine di grandezza di
un fenomeno pu risultare pi opportuno utilizzare dei valori medi diversi dalla media
aritmetica. Questultima, infatti, solo un caso particolare della cosiddetta famiglia delle
medie potenziate, il cui generico elemento, indicato con Ms, detto media potenziata di
ordine s ed assume la forma

Ms (i x is fi )1/s ,

< s < +.

L'espressione precedente definita per qualsiasi valore di s solo se tutte le xi sono


maggiori di zero e, come si vede, di questa famiglia fa parte la media aritmetica per s=1.

63

3.4 I momenti
Sulla distribuzione di una variabile quantitativa X sono definiti i cosiddetti momenti di
ordine r, indicati di solito mediante il simbolo mr, la cui espressione data da

m r i x ri fi E Xr ,

r = 0, 1, 2, ...

3.4.1

da cui si vede che il momento di ordine r corrisponde alla media aritmetica delle potenze resime delle intensit.
Il momento di ordine zero evidentemente sempre uguale ad 1, mentre per r=1 si
ottiene la media aritmetica

m1 = m = E(X),
mentre per r=2 si ottiene il secondo momento dallorigine,

m2 i x i2 fi E X 2 .

I valori definiti nella 3.4.1 sono detti anche momenti dall'origine per distinguerli dai
cosiddetti momenti centrali, il cui generico elemento di ordine r indicato con il simbolo
mr e la cui espressione data da

mr i x i mr fi E X mr .

3.4.2

I momenti centrali corrispondono alle medie delle potenze r-esime della variabile scarto
3.3.9 ed evidente che per la nota propriet della media aritmetica risulta m1 0 .
Si osservi che tutti i valori dei momenti centrali possono essere ricavati da quelli dei
momenti dall'origine. Il secondo momento centrale, per esempio, risulta uguale a

m2 E X m2 E X 2 2mX m2 E X 2 2mEX m2 m2 m2

e corrisponde quindi al secondo momento dall'origine meno la media al quadrato.

64

3.4.3

I momenti centrali di ordine 2, 3 e 4, come vedremo nel prossimo capitolo, forniscono


alcune importanti informazioni su diverse caratteristiche della distribuzione.
Tutti i momenti esaminati rientrano nella cosiddetta famiglia dei momenti di ordine r da
h, il cui generico termine che indichiamo con il simbolo h m r , assume la forma

h mr

i x i hr fi E X hr ,

3.4.4

da cui per h=0 si ottengono le espressioni dei momenti dall'origine e per h=m le
espressioni dei momenti centrali.

3.5 Valori caratteristici dei modelli teorici


Le principali caratteristiche dei modelli teorici di variabili sia discrete che continue sono
descritte mediante gli stessi indici esaminati per le distribuzioni osservate.
Per i modelli di variabili discrete valgono le stesse espressioni utilizzate nelle pagine
precedenti, mentre per quelli di variabili continue sono necessarie alcune precisazioni di
carattere formale.
I quantili di una variabile continua si ricavano direttamente dallespressione della
funzione matematica che descrive la funzione di ripartizione ponendo
F(x p ) p ,

3.5.1

da cui si ottiene
x p F 1(p) ,

3.5.2

dove il simbolo F 1( ) indica la funzione inversa di F( ) .


Per esempio, i valori dei quantili del modello

x0
0
2
Fx x 0 x 1
1
x 1

65

si ottengono dallespressione

x p2 p

da cui risulta

xp p

per cui il primo quartile pari a x 0,25 0,25 0,5 , la mediana a x 0,5 0,5 0,7071 e
cos via.
Si osservi che, se non esiste una espressione esplicita della F 1( ) , come nel caso del
modello normale, il calcolo dei quantili, che in ogni caso sono esattamente determinati
dalla 3.5.1, pu essere effettuato con la precisione desiderata mediante opportune
procedure numeriche. Per i principali modelli teorici, come vedremo, esistono comunque
delle tavole che forniscono i valori dei quantili di uso pi comune. Nel caso del modello
2.6.8 questi valori sono definiti formalmente dallequazione

xp
p,

da cui si ricava
x p 1(p) ,

dove 1(p) il quantile di ordine p della normale standardizzata 2.6.11. In altri termini
questo significa che, data una variabile X la cui distribuzione pu essere approssimata da
una normale di media e s.q.m. , i suoi quantili possono essere sempre ottenuti dai
corrispondenti quantili della normale standardizzata che sono riportati in tavole analoghe
alla Tavola B, in Appendice.

66

In questa tavola la prima colonna riporta alcuni valori di p, mentre la seconda riporta i
corrispondenti valori dei quantili di ordine p, up 1(p) .
Nel caso del modello 2.6.8 in cui si posto =165 e =9, il primo quartile corrisponde a

x0,25 165 9 (0,674) 158,934


e nello stesso modo si ottiene, per esempio, lottavo decile

x0,8 165 9 (0,842) 172,578 .

In base al modello teorico, quindi, il 25% degli individui ha una statura inferiore o uguale
a 158,9, l80% ha una statura non superiore a 172,6 e cos via.
Nei modelli teorici di variabili continue il valore modale definito come quel valore in
corrispondenza del quale la f.d. f(x) presenta il suo massimo.
L'intensit modale, se non coincide con uno degli estremi del campo di definizione della
variabile, pu essere determinato, com' noto, attraverso le derivate della f(x). Il modello
teorico 2.6.6, per esempio, ha il valore modale uguale ad 1/3, che corrisponde al valore di
X in cui la derivata prima uguale a zero e la derivata seconda negativa.
Per quanto riguarda la f.d. normale 2.6.8 si pu controllare facilmente che il valore
modale pari a , come risulta anche dalla figura 2.6.5.
Esistono ovviamente modelli che presentano pi valori modali come per esempio nel
caso della f.d. riportata nella figura 3.5.1, in cui i valori modali sono pari a 4 e a 8.

Figura 3.5.1
Esempio di distribuzione bimodale

67

12

Nella figura 3.5.2 illustrato, invece, un modello che presenta una moda principale pari
a 8 ed una secondaria pari a 4. In corrispondenza di quest'ultimo valore, evidentemente, la
funzione di densit ha un massimo relativo

Figura 3.5.2
Esempio di distribuzione con una moda principale ed una secondaria

12

La media aritmetica del modello teorico di una variabile X viene indicata in genere con
i simboli E(X), o x e la sua espressione, se la f(x) una funzione di massa, identica
alla 3.3.4. Se la X invece una variabile continua definita nell'intervallo a, b la sua media
corrisponde a

x xf(x)dx

3.5.3

che, come si vede, analoga alla 3.3.5.


Nel caso del modello 2.6.6, per esempio, la media della variabile X data da

x3
x 4 x5
2
x 12x 1 x dx 12 x 2x x dx 12
2

.
4
5
5
3
0
0
0
2

In generale, i momenti di ordine r da h, che vengono indicati con il simbolo


assumono la forma, analoga alla 3.4.4,

68

h r ,

r
h r x h f(x)dx ,

3.5.4

da cui si ricavano facilmente le espressioni dei momenti dall'origine r e dei momenti


centrali r h.
Cos, per esempio, il secondo momento dalla media aritmetica del modello 2.6.6 pari
a

2
4 4

2 12 x x1 x 2 dx 12x x 2
x 1 x 2 2x dx
5
25 5

0
0
1

x 6 14 5 69 4 28 3 4 2
1
12

x
x
x
x
.
100
75
50
25
6 25
0

h Molti manuali riportano tra laltro anche le espressioni dei momenti delle distribuzioni.

69

CAPITOLO 4
INDICI DI VARIABILITA' E DI FORMA

4.1 Introduzione
L'aspetto che caratterizza un qualsiasi fenomeno collettivo la variabilit delle
determinazioni che il fenomeno assume sui diversi componenti di un gruppo ed proprio
questa pluralit di modalit o intensit che rende necessaria l'utilizzazione dei metodi
statistici per una sua adeguata descrizione. Lo studio dei fenomeni statistici singolarmente
considerati, cos come quello delle relazioni fra fenomeni diversi di cui ci occuperemo in
seguito, essenzialmente, quindi, un'analisi della loro variabilit.
Con riferimento alla distribuzione di frequenza di un carattere qualitativo o quantitativo
discreto, si dice che la collettivit omogenea rispetto a quel carattere quando la maggior
parte degli individui presenta una stessa modalit o una stessa intensit.
La situazione limite di massima omogeneit o di assenza di variabilit si avrebbe
quando tutti gli individui presentassero una stessa determinazione del carattere alla quale
sarebbe associata, quindi, una frequenza relativa pari ad 1, mentre tutte le altre frequenze
sarebbero nulle. In casi come questi evidente che per la descrizione del fenomeno i
metodi statistici risulterebbero del tutto superflui.
Nelle situazioni concrete le distribuzioni sono sempre caratterizzate da un grado pi o
meno elevato di variabilit che pu essere valutato mediante opportuni indici che
permettono di confrontare la variabilit di fenomeni diversi rilevati su una medesima
collettivit o di uno stesso fenomeno rilevato in luoghi o in tempi diversi con lo scopo, per
esempio, di studiare la sua evoluzione nel tempo o le sue caratteristiche in situazioni
diverse.

4.2 Indici di dispersione


Per misurare la variabilit dei caratteri di tipo quantitativo in genere si fa riferimento alla
grandezza delle differenze fra le diverse osservazioni e, quindi, alla dispersione dei dati
all'interno del campo di variazione della variabile.

70

Con riferimento alla figura 3.3.1, per esempio, evidente che la variabilit tanto pi
bassa quanto pi le osservazioni sono concentrate intorno ad un unico valore e, quindi,
quanto pi piccole sono le differenze fra le diverse intensit, cosicch la situazione limite
di assenza di variabilit si ha quando queste differenze sono tutte uguali a zero.
L'importanza della variabilit delle osservazioni in una collettivit pu essere illustrata,
per esempio, con riferimento alla distribuzione del reddito di un gruppo di individui: a parit
di reddito complessivo un basso livello di variabilit corrisponde ad una situazione in cui i
redditi individuali sono non molto diversi fra di loro, mentre una variabilit elevata
corrisponde alla situazione in cui pochi individui detengono una quota rilevante del reddito
totale.
Un altro caso in cui risulta evidente l'importanza del grado di variabilit di un fenomeno
si ha con riferimento ai rendimenti di diverse forme di investimento. A parit di rendimento
medio, infatti, essenziale tenere presente anche la variabilit, che pu essere
considerata come una misura del rischio connesso con i diversi tipi di investimento.
Fra gli indici di variabilit, i cosiddetti indici di dispersione si basano, in generale, sulle
differenze fra le singole intensit rilevate ed un qualche indice della tendenza centrale
della distribuzione. Lordine di grandezza di queste differenze, sintetizzato mediante un
opportuno valore medio, evidentemente in grado di fornire una valutazione complessiva
della variabilit del carattere.
Si osservi che per quanto riguarda la misura della variabilit di un fenomeno una
differenza di segno negativo ha la stessa rilevanza di una di segno positivo ed quindi
necessario che nel calcolo della media gli scarti di segno diverso non si compensino fra di
loro. Per questo motivo gli indici di dispersione si basano in generale sugli scarti
considerati in valore assoluto oppure sugli scarti elevati ad una potenza pari.
Uno degli indici di variabilit pi utilizzati in statistica la varianza che corrisponde alla
media aritmetica dei quadrati degli scarti dalla media aritmetica.
La varianza di una variabile quantitativa X, usualmente indicata con s 2, s 2x o V(X),
data da

s 2 (x i m)2 fi E (X m)2
i 1

4.2.1

e, tenendo presente la 3.4.3, corrisponde al secondo momento centrale della distribuzione

71

s 2 m2 m2 m2 .

Questo indice, come d'altra parte tutti gli indici di dispersione, uguale a zero se e solo
se tutte le osservazioni sono uguali fra di loro (ed uguali quindi alla loro media), mentre il
suo valore cresce al crescere dell'ampiezza degli scarti.
Se, per esempio, su 5 individui sono state rilevate le seguenti intensit: 7, 8, 12, 15, 18,

la media dei quadrati sar uguale a m 2 E X 2


il quadrato della media a m EX
2

7 2 8 2 122 152 182 806

161,2 ,
5
5
2

7 8 12 15 18

144 e la varianza risulter


5

quindi uguale a 17,2.


Data la variabile Y definita nella 3.3.6, funzione lineare di una variabile X con media m x
e varianza s 2x , la varianza di Y, tenendo presente la 3.3.7, assume la forma

V(Y) E Y m y

2 Ea bX a bmx 2 b2EX mx 2 b2 s2x ,

4.2.2

ed quindi uguale alla varianza della X moltiplicata per il quadrato del coefficiente b.
Data lunit di misura utilizzata per rilevare la variabile di interesse, si osservi che la
varianza sempre espressa nell'unit di misura al quadrato, cosicch, per esempio, in una
distribuzione di stature misurate in centimetri la varianza risulter espressa in centimetri
quadrati. Per questo motivo spesso si utilizza, al posto della varianza, la sua radice
quadrata. Questo indice, detto scarto quadratico medio o scostamento quadratico
medio (s.q.m.), fornisce le stesse informazioni della varianza, dato che conoscere la
varianza di una distribuzione equivale a conoscerne lo s.q.m. e viceversa.
Lo s.q.m. di una variabile quantitativa X viene comunemente indicato mediante i simboli
s oppure sx ed assume ovviamente la forma

i(x i m)2 fi

m2 m2 .

4.2.3

Se la distribuzione data mediante classi di valori, gli scarti considerati ai fini del
calcolo della varianza o dello s.q.m. sono quelli fra i valori centrali delle classi e la media
aritmetica. Per la distribuzione riportata nella tabella 2.1.3, per esempio, la media dei

72

quadrati risulta pari a 906,25 ed il quadrato della media aritmetica a 506,25, cosicch la
varianza risulta uguale a 400 e lo s.q.m. a 20.
Una importante trasformazione lineare di una variabile X con media mx e s.q.m. sx, che
verr spesso utilizzata in seguito, la sua trasformazione di standardizzazione

X mx
.
sx

4.2.4

La variabile U cos definita detta variabile standardizzata ed i singoli valori

ui

xi mx
sx

sono detti scarti standardizzati. Si osservi che risulta in ogni caso

EU

1
EX m x 0
sx

V U EU2

1
s 2x

EX m 1,
2

4.2.5

cos come si visto per la normale standardizzata, per cui i valori u i non dipendono
dall'ordine di grandezza del fenomeno n dall'unit di misura adottata.
In alcune situazioni si pu avere interesse a confrontare la variabilit di fenomeni diversi
come, per esempio, la variabilit dei pesi corporei e delle stature di un gruppo di individui
oppure di fenomeni espressi in unit di misure diverse come, per esempio, nel caso in cui
si voglia valutare la variabilit di distribuzioni di redditi espressi in valute diverse (Lire ed
Euro, oppure Dollari ed Euro e cos via). In queste situazioni necessario utilizzare un
qualche indice di variabilit che sia un numero puro (ovvero non riferito ad alcuna unit di
misura). Lindice pi utilizzato a questo scopo il cosiddetto coefficiente di variazione
(c.v.) che dato dal rapporto fra lo s.q.m. e la media e che, quindi, una grandezza
adimensionale, espresso cio mediante un numero svincolato dalla unit di misura del
fenomeno.

73

Questo coefficiente, cos come ogni indice di variabilit relativo dato dal rapporto fra un
indice di variabilit ed uno di tendenza centrale, viene utilizzato solo se le intensit rilevate
sono tutte non negative.
Dati, per esempio, i valori riportati nella tabella successiva che si riferiscono ai risultati
ottenuti dai primi 10 atleti classificati in tre diverse prove di decathlon nelle Olimpiadi del
1988i (i tempi sono misurati in secondi e le distanze in metri), supponiamo che si sia
interessati a determinare la specialit sportiva nella quale si rileva la maggiore variabilit
dei risultati.

Tabella 4.2.1
Risultati ottenuti dai primi 10 atleti classificati in tre prove di decathlon (Olimpiadi del 1988)
salto in alto
400 metri
giavellotto

2,27 1,97 1,97 2,03 1,97 2,12 2,06 2,00 2,03 1,97
48,90 47,71 48,29 49,06 47,44 48,34 49,34 48,21 49,15 48,60
61,32 61,76 64,16 64,04 57,46 52,18 61,60 63,00 66,46 59,48

Indicata con X la variabile salto in alto, con Y la variabile 400 metri e con Z la
variabile lancio del giavellotto i coefficienti di variazione risultano pari a

sx
0,0441 ,
mx
sy
my

0,0122 ,

sz
0,0626 ,
mz
per cui la maggiore variabilit dei risultati ottenuti dai 10 atleti esaminati si ha per il lancio
del giavellotto.
Tutte le considerazioni svolte in questo paragrafo si applicano anche alla varianza, allo
s.q.m. ed al c.v. dei modelli teorici di variabili continue, la cui espressione si ricava da
quella generale dei momenti riportata nel paragrafo 3.5.
Dato, per esempio, il seguente modello distributivo teorico di una variabile X

i International Athletic Federation, London. Quoted in Lunn A.D. and McNeil D.R. (1991), Computer-interactive data analysis, Chichester: John
Wiley & Sons, 276.

74

0 x 1
altrove

2x
f(x)
0

il generico momento di ordine r dato da


1

r x 2xdx 2 x
r

xr 2
2
,
dx 2

r 2 0 r 2

r 1

per cui si ha

2
,
3

2 1
.
4 2

La varianza, quindi, pari a

1 4 1

,
2 9 18

per cui il coefficiente di variazione risulta

1/ 18

0,3536 .

2/3

4.3 L'asimmetria e la curtosi


L'asimmetria e la curtosi sono altri aspetti che caratterizzano l'assetto distributivo di una
variabile quantitativa in una collettivit e, pi precisamente, si riferiscono alla forma della
distribuzione.
Una serie ordinata di intensit si dice simmetrica se gli scarti negativi rispetto al suo
valore centrale, oppure alla semisomma dei due valori centrali, risultano tutti
ordinatamente uguali, in valore assoluto, ai corrispondenti scarti positivi. Come abbiamo
visto nel paragrafo 3.1, per le variabili continue questo valore centrale coincide con la

75

mediana della distribuzione, ma in ogni caso, per semplicit, questo centro di simmetria
verr indicato qui di seguito con il simbolo x0,5 anche con riferimento a variabili discrete.
Nel caso di distribuzioni date mediante classi di valori o di modelli teorici di variabili
continue, la distribuzione simmetrica se ad ogni coppia di intervalli della stessa
ampiezza equidistanti dalla mediana associata la stessa frequenza. Esempi di
distribuzioni simmetriche sono la distribuzione normale riportata nella figura 2.6.5 ed
anche la distribuzione rappresentata nella figura 3.5.1.
Una valutazione numerica del grado di asimmetria di una distribuzione si pu ottenere
dallindice

a1 (x i x 0,5 )fi ,

4.3.1

i 1

che dato dalla media degli scarti dal valore centrale.


In caso di distribuzioni simmetriche questo indice risulta pari a zero, mentre assume
valori positivi se la somma degli scarti positivi maggiore di quella degli scarti negativi. In
questo caso si dice che la distribuzione presenta un'asimmetria positiva. Lasimmetria
invece negativa quando a1 minore di zero.
Si osservi che dalla 4.3.1 risulta
k

i 1

i 1

a1 x i fi x 0,5 fi m x 0,5

e che quindi a1 uguale semplicemente alla differenza tra la media aritmetica dei dati e la
loro mediana, cosicch una media maggiore, uguale o minore della mediana indica
rispettivamente unasimmetria positiva, nulla o negativa. E importante sottolineare, per,
che la media e la mediana possono risultare uguali fra di loro anche se la distribuzione
asimmetrica e che quindi un valore di a1 uguale a zero una condizione necessaria ma
non sufficiente per la simmetria.
I dati della tabella 3.3.1, riportati nella figura 3.3.1, presentano unasimmetria positiva
con un valore di a1 uguale a 3. Altri esempi di distribuzioni con unasimmetria positiva sono
illustrati nelle figure 2.4.5, 2.6.3, 2.6.4, mentre nella figura 3.5.2 riportato un esempio di
asimmetria negativa.

76

Per valutare il grado di asimmetria viene utilizzato anche il rapporto fra a 1 e lo s.q.m.
della distribuzione che evidentemente ha lo stesso significato di a1, ma che un indice
adimensionale e non dipende quindi dallunit di misura utilizzata nella rilevazione.
L'indice di asimmetria pi comunemente utilizzato, indicato in genere con a 3, dato dal
rapporto fra il terzo momento centrale e lo s.q.m. al cubo

a3 =

m3
s3

X m 3
x
E
E U3

s x

4.3.2

e corrisponde quindi al terzo momento della variabile standardizzata U, cosicch anche a 3


un indice adimensionale.
Come per lindice precedente chiaro che se una distribuzione simmetrica il terzo
momento centrale risulta uguale a zero, mentre un valore di a 3 uguale a zero non significa
necessariamente che la distribuzione sia simmetrica. Valori positivi oppure negativi
dell'indice forniscono indicazioni sul tipo di asimmetria identiche a quelle fornite da a1.
Date, per esempio, le due seguenti serie di dati che si riferiscono alla lunghezza (in
millimetri) delle mandibole di 20 sciacalli, 10 di sesso maschile e 10 di sesso femminile,
contenute nel British Museumj

Maschi:

120, 107, 110, 116, 114, 111, 113, 117, 114, 112

Femmine: 110, 111, 107, 108, 110, 105, 107, 106, 111, 111

il risultato dell'indice di asimmetria 4.3.2 risulta pari a


Ma3

0,0777

per le mandibole degli sciacalli di sesso maschile ed a


Fa30,2569

j Manly B.F.J. (1991), Randomization and Monte Carlo methods in biology, London: Chapman and Hall, 4.

77

per le mandibole degli sciacalli di sesso femminile. In questo caso, quindi, la prima serie
presenta una leggera asimmetria positiva, mentre la seconda caratterizzata da una
leggera asimmetria negativa.
Nel caso dei modelli teorici l'indice di asimmetria corrispondente ad a3 viene indicato
con il simbolo 3 ed il suo valore viene determinato utilizzando le espressioni dei momenti
gi note.
Dato, per esempio, il seguente modello distributivo teorico
3 2
x
f(x) 2
0

1 x 1

4.3.3

altrove

la media di X pari a

3
3 1
xf(x) dx x 3 dx x 4 0 ,
2
2 4 1
1
1

per cui i momenti dalla media aritmetica coincidono con i momenti dall'origine. In
particolare si ha

3 2
3 x6
3 x
x dx 0
2
2 6
1
1
3

e quindi l'indice di asimmetria pari a zero (ed in questo caso la distribuzione


effettivamente simmetrica).
Un'altra caratteristica dellassetto distributivo di una variabile in una collettivit la
cosiddetta curtosi, che fa riferimento alla forma delle code della distribuzione, nel senso
che dipende dal valore delle frequenze relative in corrispondenza degli estremi del campo
di variazione della variabile.
Lindice di curtosi pi utilizzato, indicato con il simbolo a4 per le distribuzioni statistiche e
con 4 per i modelli teorici, dato dal rapporto fra il quarto momento centrale ed il
quadrato della varianza

78

a4 =

m4
s4

X m 4
4
E
EU
s

4.3.4

e corrisponde al quarto momento della variabile standardizzata U.


Nel caso del modello teorico 4.3.3 il quarto momento dalla media coincide con il quarto
momento dallorigine ed pari a
1

3
3 x7
3
4 x 4 x 2 dx
2
2 7
7
1
1

per cui l'indice di curtosi risulta

3/7
(3/5)2

1,1905 .

Nella figura 4.3.1 sono riportati i grafici di tre distribuzioni che hanno tutte uno stesso
valore di m e di 3, entrambi nulli, uno stesso valore della varianza, pari a 0,25, e differenti
valori di 4.
Figura 4.3.1
Esempio di distribuzioni con diversi valori dellindice di curtosi

4>3

4=3

4<3

Le distribuzioni che hanno un valore di a4 vicino a 3 sono dette mesocurtiche, quelle


con valori inferiori a 3 sono dette platicurtiche e presentano frequenze relative minori sulle

79

code ed, infine, quelle con valori superiori a 3 sono dette leptocurtiche ed hanno frequenze
relative pi elevate in prossimit degli estremi del campo di variazione.
Si dimostra facilmente che in ogni caso verificata la disuguaglianza di Wilkins

a 4 a 32 1,
dalla quale risulta che il valore minimo dell'indice di curtosi uguale ad 1 e che il suo
valore cresce al crescere dell'asimmetria.
Gli indici di asimmetria e di curtosi a3 ed a4, oltre che per confrontare le distribuzioni di
uno stesso fenomeno rilevato in collettivit diverse oppure nella stessa collettivit in tempi
diversi, vengono utilizzati spesso anche per controllare se la forma della distribuzione di
una variabile statistica simile a quella del modello normale. Quest'ultimo simmetrico ed
ha un valore di 4 uguale a 3.
La distribuzione riportata nella tabella 2.3.2, per esempio, ha un valore di a 3 uguale a
0,01 ed un valore di a4 uguale a 2,67 ed in effetti questa distribuzione, come abbiamo
visto nel grafico 2.6.5, pu essere approssimata in maniera soddisfacente mediante il
modello normale. Si osservi, comunque, che l'indice di curtosi pu assumere un valore
uguale a 3 anche per distribuzioni molto diverse dalla normale.
Pi in generale questi due indici possono essere utilizzati per indirizzare la scelta di un
modello matematico che sia in grado di approssimare la distribuzione di una variabile
statistica. Per facilitare questa scelta, basata sul confronto fra i valori di a 3 e a4 della
distribuzione con quelli del modello, esistono anche apposite mappe k nelle quali, per i
diversi valori di 3 ed 4, sono indicati i corrispondenti modelli teorici.

80

CAPITOLO 5
LE DISTRIBUZIONI BIVARIATE

5.1 Generalit
Nei capitoli precedenti sono stati esaminati alcuni degli strumenti che vengono
comunemente utilizzati per descrivere la distribuzione di un certo fenomeno in una
collettivit statistica e per metterne in evidenza le caratteristiche principali. Il materiale di
base in questo caso costituito da un'ennupla di osservazioni di una qualche variabile
effettuate sugli n individui componenti la collettivit. Scopo delle prossime pagine sar,
invece, quello di estendere l'analisi statistica a quei casi in cui su ogni individuo vengono
rilevate pi variabili contemporaneamente.
L'osservazione contemporanea di pi variabili su ognuna delle unit statistiche
consente, come si vedr, oltre che di studiare con gli strumenti gi noti la distribuzione e le
caratteristiche delle singole variabili, di estendere lo studio alle relazioni che nella
collettivit esaminata possono esistere fra le variabili stesse.
Nel corso di questo capitolo verr preso in considerazione il caso di due variabili e,
quindi, delle cosiddette distribuzioni bivariate.
Le due variabili statistiche oggetto dell'indagine saranno indicate genericamente con le
lettere maiuscole X e Y e si parler o di due variabili X e Y o di una variabile (X,Y) a due
dimensioni. Le due variabili considerate possono essere di qualsiasi tipo, possono essere,
cio, sia variabili qualitative che quantitative e queste ultime possono essere sia discrete
che continue. Le due variabili possono essere entrambe dello stesso tipo, oppure una di
un tipo e l'altra di un altro. Con le lettere minuscole x e y saranno indicate le diverse
determinazioni delle variabili stesse.
Sugli individui di una collettivit di persone pu essere rilevato, per esempio, il tipo di
diploma (perito chimico, ragioniere, geometra, ...) ed il tipo di occupazione (occupato,
studente, disoccupato, ...). In questo caso si tratta evidentemente di due variabili di tipo
qualitativo. Su una collettivit di imprese pu essere rilevato per ogni impresa il ramo di
attivit economica (commercio, trasporti, credito e cos via) ed il numero di addetti, per cui
si tratta di una variabile qualitativa e di una variabile quantitativa discreta. Su una
kcfr. C. Scala, op cit.

81

collettivit di famiglie pu essere rilevato il reddito ed il consumo annuo di ogni singola


famiglia ed in questo caso le due variabili prese in considerazione sono entrambe di tipo
quantitativo e possono essere considerate come variabili continue.
Il risultato dell'osservazione delle due variabili su ognuno degli n individui componenti la
collettivit esaminata costituito, perci, da una sequenza di n coppie di determinazioni
delle variabili, in cui ogni coppia di determinazioni si riferisce ad uno stesso individuo.
Queste n coppie di determinazioni, indicate genericamente nel modo seguente

( x1, y1), ( x2, y2), ..., ( xi, yi), ..., ( xn, yn),
possono essere sistemate in una tabella analoga alla 5.1.1 in cui con xi e yi vengono
indicate le determinazioni delle variabili X e Y rilevate sull'i-esimo individuo

Tabella 5.1.1
Esempio di distribuzione bivariata
X
Y

x1
y1

x2
y2

...
...

xi
yi

...
...

xn
yn

Se le determinazioni di una o di tutte e due le variabili possono essere ordinate, poich


l'ordine di rilevazione irrilevante, le coppie vengono generalmente presentate nella
tabella precedente ordinate sulla base dei valori di una o dell'altra variabile.

5.2 Le tabelle a doppia entrata


Come si gi visto per le variabili statistiche ad una dimensione, anche i risultati della
rilevazione di una coppia di variabili sono presentati di solito, per una maggiore leggibilit,
sotto forma di distribuzioni di frequenza mediante delle tabelle, dette tabelle a doppia
entrata, simili a quella riportata nella 5.2.1 che si riferisce ad una coppia di variabili
qualitative o quantitative discrete.
I simboli xi (i=1,2,...,k) che compaiono sulla prima colonna rappresentano le k
determinazioni diverse che la variabile X assume nella collettivit oggetto di indagine,
mentre i simboli yj (j=1,2,...,q) sulla prima riga rappresentano le q determinazioni diverse

82

che la variabile Y assume nella stessa collettivit. Se le variabili sono ordinabili le modalit
sono riportate secondo il loro ordine naturale.

Tabella 5.2.1
Esempio di distribuzione bivariata
Y

y1

y2

...

yj

...

yq

totale

n11
n21
.
ni1
.
nk1
n.1

n12
n22
.
ni2
.
nk2
n.2

...
...
.
...
.
...
...

n1j
n2j
.
nij
.
nkj
n.j

...
...
.
...
.
....
...

n1q
n2q
.
niq
.
nkq
n.q

n1.
n2.
.
ni.
.
nk.
n

X
x1
x2
.
xi
.
xk
totale

Il simbolo nij, segnato all'incrocio fra la riga xi e la colonna yj, indica il numero di individui
della collettivit sui quali sono state rilevate contemporaneamente le determinazioni xi e yj
delle due variabili X e Y.

Tabella 5.2.2
Arrivi negli esercizi ricettivi in Italia per residenza dei clienti e mese Anno 2007
Fonte ISTAT- Movimento dei clienti negli esercizi ricettivi
Residenza
Mese
Gennaio
Febbraio
Marzo
Aprile
Maggio
Giugno
Luglio
Agosto
Settembre
Ottobre
Novembre
Dicembre
Totale

Italiani

Stranieri

2.863.439
2.898.551
3.518.301
4.782.364
4.091.207
6.212.762
6.566.385
7.818.714
4.647.082
3.318.629
2.924.948
3.398.903
53.041.285

1.509.739
1.951.340
2.660.268
3.662.612
4.677.447
4.992.022
5.963.598
5.232.409
5.246.572
3.718.105
1.768.584
1.446.432
42.829.128

83

Totale
4.373.178
4.849.891
6.178.569
8.444.976
8.768.654
11.204.784
12.529.983
13.051.123
9.893.654
7.036.734
4.693.532
4.845.335
95.870.413

Cos, per esempio, nella tabella 5.2.2 la frequenza 1.951.340 posta all'incrocio fra la
terza riga e la terza colonna corrisponde al numero di stranieri arrivati negli esercizi
ricettivi italiani durante il mese di febbraio del 2007.
I simboli n.1, n.2, ..., n.q riportati nell'ultima riga della tabella 5.2.1 indicano i totali delle
diverse colonne e, quindi, il numero di individui della collettivit sui quali sono state rilevate
le determinazioni y1, y2, ..., yq della variabile Y, senza tener conto delle modalit della
variabile X. Risulta perci,

n.1 ni1

, ..., n.j ni j
i 1

i 1

, ..., n.q niq .


i 1

Con riferimento alla tabella 5.2.2, per esempio, le coppie costituite dagli elementi della
prima e dell'ultima riga costituiscono la distribuzione degli arrivi negli esercizi ricettivi
italiani durante lanno 2007 per residenza dei clienti senza tener conto del mese.
Un significato analogo hanno i simboli ni., per cui risulta
q

j 1

j 1

j 1

n1. n1j , ..., ni. n i j , ..., nk. nk j .

Cos, per esempio, il valore 4.373.178 che compare nell'ultima casella della seconda
riga della tabella 5.2.2 indica il numero di arrivi negli esercizi ricettivi in Italia nel gennaio
2007 senza tenere conto della residenza dei clienti.
Nel quadratino in basso a destra della tabella 5.2.1 la lettera n indica, infine, il numero
totale delle unit statistiche della collettivit esaminata.
Si ha, quindi,
k

k q

i 1

j 1

i 1 j 1

n ni. n.j nij .

Si osservi che i dati sulla distribuzione congiunta delle due variabili contenuti nella
tabella a doppia entrata sono identici a quelli della sequenza originaria e che questa
organizzazione dei dati non comporta quindi alcuna perdita di informazioni.
Anche nel caso di distribuzioni doppie le informazioni possono essere sintetizzate
utilizzando per una o per entrambe le variabili delle classi di valori per le quali valgono

84

tutte le considerazioni fatte a proposito delle distribuzioni univariate. In questo caso sulla
prima riga della tabella, sulla prima colonna o su entrambe vengono indicati non i singoli
valori xi o yj ma degli intervalli. Se, per esempio, si utilizzano classi di valori sia per la X
che per la Y, all'incrocio fra la riga indicata con l'intervallo xi1-|xi e la colonna indicata con
l'intervallo yj1-|yj il simbolo nij rappresenta il numero di individui sui quali sono stati rilevati
contemporaneamente valori della X compresi fra xi1 e xi e valori della Y compresi fra yj1 e
yj.
Date, per esempio, le due seguenti serie di dati che si riferiscono ai livelli di colesterolo,
misurati in mg per 100 ml, di due diversi gruppi di individui

Gruppo 1
233, 291, 312, 250, 246, 197, 268, 224, 239, 239,
254, 276, 234, 181, 248, 252, 202, 218, 212, 325

Gruppo 2
344, 185, 263, 246, 224, 212, 188, 250, 148, 169,
226, 175, 242, 252, 153, 183, 137, 202, 194, 213

si vogliano organizzare i dati in una tabella a doppia entrata in cui la variabile X identifica il
gruppo ed assume le modalit x1 ed x2, mentre la variabile Y indica i livelli di colesterolo ed
raggruppata nelle classi 130-|180, 180-|220, 220-|250, 250-|350.
La distribuzione delle variabili X ed Y cos definite assume la forma indicata nella tabella
successiva.
Tabella 5.2.3
Distribuzione di 40 individui per gruppo di appartenenza e livelli di colesterolo
Y

130 -| 180

180 -| 220

220 -| 250

250 -| 350

totale

X
x1

20

x2

20

totale

12

13

10

40

Nelle tabelle 5.2.4 e 5.2.5 sono riportati alcuni esempi di distribuzioni bivariate con
variabili di diverso tipo.

85

Tabella 5.2.4
Produzione di vino per regione e marchio di qualit - Anno 2007
Fonte ISTAT
Marchio qualit
Regione
Piemonte
Valle d'Aosta
Lombardia
Trentino-Alto Adige
Veneto
Friuli-Venezia Giulia
Liguria
Emilia-Romagna
Toscana
Umbria
Marche
Lazio
Abruzzo
Molise
Campania
Puglia
Basilicata
Calabria
Sicilia
Sardegna
totale

D.O.C. e
D.O.C.G.
2.276.353
11.500
670.701
1.019.845
2.329.132
669.450
45.078
1.480.163
1.749.601
307.090
272.580
888.984
769.150
187.595
235.045
827.925
29.359
84.454
153.015
239.947
14.246.967

I.G.T.

0
0
181.578
179.730
4.541.373
203.881
7.957
2.300.051
711.084
399.637
362.615
323.870
130.330
0
256.206
1.058.798
24.007
28.292
1.147.173
177.775
12.034.357

Da tavola

447.593
6.000
246.785
21.820
808.550
156.159
36.019
1.976.967
357.891
291.683
121.470
605.219
1.246.985
131.665
1.161.104
3.499.152
167.874
293.361
2.641.120
444.514
14.661.931

totale

2.723.946
17.500
1.099.064
1.221.395
7.679.055
1.029.490
89.054
5.757.181
2.818.576
998.410
756.665
1.818.073
2.146.465
319.260
1.652.355
5.385.875
221.240
406.107
3.941.308
862.236
40.943.255

Tabella 5.2.5
Fallimenti dichiarati dalle societ per classe di ampiezza demografica dei comuni
e forma giuridica (Anno 2006) - Fonte ISTAT
amp. demog. Comuni fino
forma giur.
50.000
abitanti
Societ di fatto
In nome collettivo
A resp. limitata
Per azioni
In acc. semplice
In acc. per azioni
Cooperative
totale

17
472
3.152
80
691
20
119
4.551

Comuni da
50.001 a
100.000
abitanti
2
88
818
21
196
0
40
1.165

86

Comuni da
100.001 a
500.000
abitanti
5
102
1.006
24
125
2
32
1.296

Comuni
oltre
500.000
abitanti
11
95
1.843
40
280
5
46
2.320

totale

35
757
6.819
165
1.292
27
237
9.332

Nelle tabelle 5.2.6 e 5.2.7 sono invece riportate la sequenza originaria di coppie dei
valori del reddito e del consumo annui di 25 famiglie e la relativa distribuzione di frequenza
espressa mediante intervalli di valori.

Tabella 5.2.6
Reddito e consumo annui di una collettivit di 25 famiglie (dati in migliaia di euro)
Reddito
Consumo
Reddito
Consumo
Reddito
Consumo

22,2
18,4
25,8
21,0
30,2
23,4

22,6
19,0
26,2
21,6
30,6
24,2

23,2
19,8
26,8
22,2
31,2
23,6

23,4
19,4
27,2
21,8
32,0
24,4

23,8
20,2
27,6
22,0
34,2
25,8

24,2
20,6
28,0
23,0

24,6
22,2
28,4
24,0

25,0
22,2
28,6
23,6

25,2
20,0
29,0
24,2

25,6
21,4
29,4
22,0

Tabella 5.2.7
Distribuzione sintetica ottenuta dalla tabella 5.2.6
consumo
reddito
22 -| 25
25 -| 27
27 -| 29
29 -| 35
totale

18 -| 20

20 -| 22

22 -| 24

24 -| 26

4
1
0
0
5

2
3
2
1
8

2
1
3
2
8

0
0
1
3
4

totale
8
5
6
6
25

5.3 Distribuzioni marginali e condizionate


Analogamente a quanto visto per le tabelle univariate, anche la distribuzione congiunta
delle due variabili X ed Y pu essere descritta mediante le frequenze relative
f ij

n ij
n

che si calcolano dividendo tutte le frequenze della tabella per il numero totale di
osservazioni e che indicano le quote di individui che presentano una stessa coppia di
modalit delle due variabili. Anche in questo caso tutte le successive analisi su una
distribuzione bivariata verranno effettuate, per semplicit, con riferimento alle frequenze
relative. Si ha evidentemente

87

q k

f ij 1,

5.3.1

i 1 j 1

mentre le frequenze relative riportate nellultima riga e nellultima colonna della tabella a
doppia entrata corrispondono rispettivamente a

f ij
i1

f.j

5.3.2

fi. .

5.3.3

f ij
j1

Nella tabella 5.3.1 riportata, a titolo desempio, la stessa distribuzione della tabella
5.2.7 dove le frequenze assolute sono state sostituite con quelle relative.

Tabella 5.3.1
Distribuzione espressa mediante frequenze relative ottenuta dalla tabella 5.2.7
consumo
reddito
22 -| 25
25 -| 27
27 -| 29
29 -| 35
totale

18 -| 20

20 -| 22

22 -| 24

24 -| 26

0,16
0,04
0,00
0,00
0,20

0,08
0,12
0,08
0,04
0,32

0,08
0,04
0,12
0,08
0,32

0,00
0,00
0,04
0,12
0,16

totale
0,32
0,20
0,24
0,24
1,00

Le coppie di valori (yj, f.j) per j=1,2,...,q e (xi, fi.) per i=1,2,...,k che rappresentano
rispettivamente le distribuzioni di frequenza delle due variabili Y ed X considerate
separatamente, sono dette distribuzioni marginali della distribuzione bivariata.
La distribuzione congiunta di due variabili fornisce, evidentemente, informazioni pi
ricche di quelle che si avrebbero prendendo in considerazione le due variabili
separatamente, perch consente di analizzare e confrontare fra di loro gli assetti
distributivi di una variabile rilevata allinterno dei diversi gruppi omogenei nellaltra.
Si osservi che le diverse righe del riquadro interno di ogni tabella a doppia entrata
rappresentano, in associazione con la prima riga, altrettante distribuzioni univariate della
variabile Y. I valori fi1, fi2, ..., fiq della i-esima riga indicano la distribuzione della variabile Y
88

limitatamente al gruppo di individui che presentano tutti la stessa intensit xi oppure


unintensit compresa nella i-esima classe della variabile X.
Ogni riga, in altri termini, rappresenta la distribuzione della Y per un gruppo di individui
omogenei rispetto alla variabile X.
La prima riga del riquadro interno della tabella 5.3.1, per esempio, rappresenta la
distribuzione del consumo delle sole famiglie con un reddito compreso fra 22 e 25 mila
euro annui, mentre la seconda riga fornisce informazioni sulla distribuzione del consumo
per le famiglie con un reddito fra 25 e 27 mila euro e cos via. Uno degli scopi dellindagine
pu consistere nel confrontare le diverse distribuzioni del consumo fra gruppi di famiglie
che siano omogenee rispetto al reddito. Questo confronto risulta agevolato se non si tiene
conto della numerosit di ciascun gruppo, ossia se si dividono le frequenze che
compaiono su ciascuna riga per il totale di riga corrispondente, ottenendo le cosiddette
frequenze relative di riga. Nel caso dei dati delle tabelle 5.2.7 o 5.3.1, per esempio, si
ottiene la tabella successiva

Tabella 5.3.2
Frequenze relative di riga ottenute dalla tabella 5.2.7 o 5.3.1
consumo
reddito
22 -| 25
25 -| 27
27 -| 29

18 -| 20

20 -| 22

22 -| 24

24 -| 26

0,50
0,20
0,00

0,25
0,60
0,1 6

0,25
0,20
0,50

29 -| 35

0,00

0,0 3

0,1 6

0,00
0,00
0,0 3
0,50

Totale
1,00
1,00
1,00
1,00

Le distribuzioni di frequenza della Y per i diversi gruppi omogenei in X, se posta


uguale ad 1 la quota complessiva di individui di ciascun gruppo, sono dette distribuzioni
condizionate della Y alle diverse modalit xi della X.
Nella tabella 5.3.3 riportato un altro esempio di distribuzioni condizionate. Si tratta,
come si vede, della distribuzione delle visite mediche specialistiche a cui si sono
sottoposte pazienti di sesso femminile per tipo di specializzazione del medico condizionate
a classi di et delle pazienti. Dai dati contenuti nella tabella risulta, per esempio, che per le
pazienti con un'et inferiore a 20 anni le visite sono soprattutto di tipo odontoiatrico, per
quelle con un'et compresa fra 20 e 40 anni sono ostetriche e ginecologiche ed infine, per
quelle con un'et superiore a 50, sono cardiologiche. Per questultimo tipo di visita, inoltre,

89

si nota un incremento dell'incidenza al crescere dell'et delle pazienti, mentre per quelle
oculistiche la maggiore incidenza si ha per gli individui con un'et inferiore a 20 anni e
superiore a 60.

Tabella 5.3.3
Distribuzione delle visite mediche specialistiche per tipo specializzazione del medico ed
et del pazientel - Femmine - Frequenze relative di riga
special.
et
14
1419
2029
3039
4049
5059
6064
65 e +

Cardiologiche

ostetriche
ginecologiche

oculistiche

odontoiatriche

0,062
0,060
0,064
0,072
0,160
0,208
0,388
0,371

0,019
0,090
0,615
0,549
0,363
0,226
0,048
0,075

0,158
0,129
0,073
0,054
0,069
0,066
0,214
0,157

0,442
0,527
0,164
0,201
0,224
0,203
0,126
0,177

otorinolaringoiatriche

0,146
0,050
0,048
0,044
0,059
0,091
0,044
0,049

ortopediche

totale

0,173
0,144
0,036
0,080
0,125
0,206
0,180
0,171

1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000

Quando ci si vuole riferire alla distribuzione della variabile Y condizionata ad xi si utilizza


la notazione

Y|xi,

i = 1, 2, ..., k,

mentre le frequenze associate ad ogni valore yj|xi corrispondono evidentemente a

f ij
fi.

5.3.4

dove

f ij

1,

i = 1, 2, ..., k.

5.3.5

j1 i.

lFonte: ISTAT (1986) Indagine statistica sulle condizioni di salute della popolazione e sul ricorso ai servizi sanitari. Note e relazioni n.1

90

Un significato analogo hanno le frequenze relative di colonna che si riferiscono, quindi,


alle k distribuzioni della X condizionate ad yj
X | yj

j = 1, 2, ..., q

e che si ottengono dai rapporti

f ij
f.j

5.3.6

5.4 Valori caratteristici delle distribuzioni bivariate


Sulle diverse distribuzioni condizionate e sulle due marginali singolarmente considerate
possono essere calcolate tutte quelle grandezze (media, varianza, mediana, moda, ecc.)
che sono normalmente utilizzate per la descrizione delle distribuzioni univariate, ma lo
scopo delle pagine successive sar quello di analizzare il significato dei nuovi indici che
possono essere calcolati su una distribuzione doppia.
Se riprendiamo la distribuzione doppia della tabella 5.2.3, per esempio, le distribuzioni
di Y | x1 e di Y | x 2 sono
Tabella 5.4.1
Distribuzioni condizionate della Y in base alla distribuzione congiunta della tabella 5.2.3
Y

130 -| 180

180 -| 220

220 -| 250

250 -| 350

totale

0,00
0,25

0,25
0,35

0,40
0,25

0,35
0,15

1,00
1,00

X
x1
x2

Le medie delle distribuzioni condizionate risultano quindi

m y | x1 = 200 0,25 235 0,4 300 0,35 = 249,00,


m y | x2 = 155 0,25 200 0,35 235 0,25 300 0,15 = 212,50,

mentre le varianze sono

91

s 2y | x = (2002 0,25 2352 0,4 3002 0,35) 2492 = 1589,00 ,


1

s 2y | x = (1552 0,25 2002 0,35 2352 0,25 3002 0,15) 212,52 = 2156,25.
2

Analogamente a quanto visto per una distribuzione univariata, anche su una


distribuzione doppia restano definiti i cosiddetti momenti misti di ordine (r, s) con r,s=0,1,
... , la cui espressione generale

m r,s x ri y sj f ij E Xr Y s .
i

Questi sono i momenti misti rispetto all'origine o momenti ordinari, mentre sono detti
centrali ed indicati con il simbolo m r,s i momenti calcolati sugli scarti delle due variabili
dalle rispettive medie

m r,s x i m x 2 y j m y 2 f ij E X - m x 2 Y - m y
i

2 .

Se si fa riferimento alla sequenza originaria di coppie di valori le due espressioni


precedenti assumono la forma

m r,s

1 n r s
xi yi ,
n i1

m r,s

1
x i m x r y j m y

n i1

s .

Fra i possibili momenti misti di una distribuzione bivariata, quello che ha un'importanza
del tutto particolare il momento centrale misto d'ordine 1,1, che detto anche
covarianza e che indicato, oltre che con il simbolo m1,1, anche con sx,y e Cov(X,Y). Si
osservi che

s xy E X m x Y m y E XY Xm y Ym x m x m y m1,1 m x m y

92

5.4.1

e cio che la covarianza uguale al momento misto di ordine 1,1 meno il prodotto delle
medie delle due variabili.
Consideriamo, per esempio, i seguenti valori delle variabili X contenuto di umidit e Y
solidit rilevate su 10 assi di legno che sono riportati nella tabella seguente.

Tabella 5.4.2
Valori del contenuto di umidit (X) e della solidit (Y) rilevati su 10 assi di legno
X
11,1
8,9
8,8
8,9
8,8
9,9
10,7
10,5
10,5
10,7

Y
11,14
12,74
13,13
11,51
12,38
12,60
11,13
11,70
11,02
11,41

In questo caso le medie delle due variabili risultano pari a

mx = 9,8800,

5.4.2

my = 11,8760,

5.4.3

il momento misto di ordine 1,1 dato da

m1,1 = 116,8445,
per cui la covarianza fra le due variabili risulta pari a
sxy = 116,8445 9,8811,876 = 0,49038.

5.4.4

Nel caso della tabella 5.2.7 le medie delle due variabili risultano

mx = 27,12,

5.4.5

my = 21,88,

5.4.6

93

il momento misto di ordine 1,1 dato da

m1,1 = 597, 44,


per cui la covarianza fra le due variabili risulta pari a
sxy = 597,44 27,1221,88 = 4,0544.

5.4.7

Data una coppia di variabili X ed Y, in seguito vedremo limportanza di un indice che


dato dalla covarianza fra le corrispondenti variabili standardizzate. Se si indicano
rispettivamente con U e V queste ultime due variabili, si ha

X mx Y my
s
1 E X m x Y m y xy ,
CovU, V EUV E
sx
s y s x s y
sxsy

da cui si vede che la covarianza fra le variabili standardizzate data dal rapporto fra la
covarianza delle variabili originarie ed il prodotto dei loro scarti quadratici medi. Questo
rapporto, che viene detto coefficiente di correlazione lineare fra X ed Y, indicato con
la lettera r per cui si ha

s xy

5.4.8

sxsy

da cui si ottiene anche


s xy rs x s y .

5.4.9

Per la tabella 5.4.2, per esempio, il secondo momento della variabile X pari a
E(X2)=98,40,

il momento di ordine 2 della Y

94

E(Y2)=141,57,

per cui le due varianze, sulla base delle medie 5.4.2 e 5.4.3, sono pari a
V(X) = 98,409,882 0,79
V(Y) = 141,5711,8762 0,53.

Il coefficiente di correlazione lineare, in base alla covarianza 5.4.4, quindi pari a

- 0,49038
0,79 0,53

0,76.

Nel caso della tabella 5.2.7 i secondi momenti delle variabili X ed Y assumono i valori
E(X2)=745,84
E(Y2)=482,60

per cui, tenendo presenti le medie 5.4.5 e 5.4.6, le due varianze sono pari a
V(X)=745,8427,122 = 10,3456
V(Y)=482,6021,882 = 3,8656

ed il coefficiente di correlazione lineare, in base alla covarianza 5.4.7, quindi pari a

4,0544
10,3456 3,8656

0,6411.

Date due variabili X e Y con medie e varianze rispettivamente uguali a m x, s 2x e my, s 2y


si ottengono facilmente la media e la varianza della variabile somma S = X + Y
ES = ms = E(X + Y) m x m y

95

V S = E S - m s

2 = EX + Y - m x m y 2 EX - m x Y m y 2

s 2x 2s xy s 2y .

5.4.10

e della variabile differenza D = X Y

ED m x m y

5.4.11

V D s 2x 2s xy s 2y .

Come si vede, la media e la varianza della somma di due variabili sono uguali
rispettivamente alla somma delle medie ed alla somma delle varianze pi due volte la
covarianza, mentre la media e la varianza della differenza sono uguali alla differenza delle
medie ed alla somma delle varianze meno due volte la covarianza.
Nello stesso modo si ricavano le espressioni analoghe per una qualsiasi combinazione
lineare delle variabili X ed Y. In particolare, consideriamo le due variabili standardizzate U
eV

U
V

X mx
,
sx
Y my
sy

e le due variabili U+V e UV. Tenendo presenti le 5.4.8, 5.4.10 e 5.4.11, la varianza di
queste due ultime variabili, di media pari a zero, risulta

EU V s

E U V 2 su2 s 2v 2suv 2(1 r) ,


2

2
u

s 2v 2suv 2(1 r) .

Dato che le due espressioni precedenti sono varianze e quindi non possono assumere
valori negativi, dalle due disuguaglianze
2(1 r) 0 ,

96

2(1 r) 0 ,

si ottiene
1 r 1

5.4.12

da cui risulta che il coefficiente di correlazione lineare un valore sempre compreso fra 1
e 1.

97

CAPITOLO 6
LA CORRELAZIONE E LA REGRESSIONE

6.1 Introduzione
Nel precedente capitolo si detto che l'osservazione contemporanea di due variabili
sugli individui di una collettivit consente di evidenziare le eventuali relazioni esistenti fra
le due variabili e di valutare il loro grado di correlazione.
Due fenomeni si dicono correlati quando fra di loro esiste una certa regolarit di
rapporti, nel senso che ad una particolare manifestazione di uno di essi si accompagna, in
genere, una determinata manifestazione dellaltro.
Fra gli innumerevoli fenomeni che risultano pi o meno correlati fra di loro possiamo
citare, solo a titolo di esempio, la posizione geografica di una zona ed il tipo di vegetazione
presente in quella zona, le condizioni igieniche e le malattie, la pressione atmosferica ed il
livello di inquinamento, oppure la quantit di fertilizzante impiegata e la resa produttiva
delle coltivazioni, l'ammontare di prestiti ed il tasso di interesse, i livelli di reddito e di
consumo delle famiglie, let dei bambini e la classe che frequentano a scuola, la
professione ed il titolo di studio e cos via.
In tutti questi casi, come si vede, la modalit o l'intensit con cui si presenta un
fenomeno su un individuo o in una data situazione in grado di fornire indicazioni pi o
meno precise sulla modalit o sull'ordine di grandezza dellaltro. Cos, per esempio, l'et di
un bambino fornisce un'indicazione sulla classe che molto probabilmente frequenta a
scuola, la professione di un individuo adulto fornisce informazioni sul suo probabile titolo di
studio, sul suo reddito e cos via.
Come si vede dagli esempi, i casi che interessano da un punto di vista statistico si
riferiscono a fenomeni che consentono di fare delle valutazioni pi o meno attendibili sulle
modalit o intensit di altri, ma che, in genere, non consentono di conoscerle esattamente.
Una situazione limite, definita di correlazione o connessione perfetta invece quella
in cui a ciascuna delle modalit con cui pu manifestarsi un fenomeno associata in ogni
caso una sola delle diverse modalit dellaltro. Con riferimento agli esempi precedenti una
situazione di connessione perfetta si avrebbe quando, in una collettivit di bambini di et
diverse ed iscritti a classi diverse, tutti quelli di una stessa et frequentassero una stessa
98

classe oppure quando tutti gli individui con una stessa professione avessero lo stesso
titolo di studio o lo stesso reddito. In questi casi, evidentemente, conoscere l'et o la
professione equivarrebbe a conoscere esattamente anche la classe o il titolo di studio o il
reddito.
Nelle situazioni concrete due fenomeni possono essere pi o meno correlati fra di loro e
la loro correlazione risulta elevata quando a ciascuna delle modalit con cui pu
manifestarsi un fenomeno associata nella maggior parte dei casi una stessa modalit
dell'altro. La correlazione fra et e classe frequentata dai bambini probabilmente molto
elevata, mentre in generale lo di meno quella fra professione e titolo di studio o reddito.
E evidente quindi che in situazioni di correlazione elevata la conoscenza della modalit
di un fenomeno consente di prevedere con una qualche precisione quale sar la
manifestazione dellaltro e di stimare la sua modalit oppure lordine di grandezza della
sua intensit. Il legame fra due fenomeni risulta tanto pi stretto e, quindi, la loro
correlazione o connessione tanto pi elevata, quanto maggiore l'attendibilit di questa
stima.
Una situazione limite opposta quella in cui i fenomeni risultano indipendenti fra di
loro, nel senso che la conoscenza della modalit o dell'intensit dell'uno non fornisce
alcuna informazione sulla probabile modalit o intensit dell'altro. Esistono anche
fenomeni che sono correlati fra di loro per un gruppo di individui, ma non per un altro,
come per esempio nel caso dellet e dellaltezza che risultano correlati per i bambini, ma
evidentemente non per gli adulti.
Nelle pagine seguenti ci occuperemo dei metodi predisposti per evidenziare, sulla base
delle informazioni su due fenomeni diversi rilevati in una stessa collettivit, l'esistenza di
un eventuale legame fra i fenomeni, per descrivere il tipo di relazione e misurarne
l'intensit.
Con riferimento ad uno degli esempi precedenti supponiamo di essere interessati a
verificare se esiste una qualche relazione fra gli ammontari del reddito e del consumo di
una collettivit di famiglie. E' ovvio che una relazione fra queste due variabili esiste se ad
un determinato ammontare di reddito corrisponde, in genere, uno stesso livello
dell'ammontare del consumo o in altri termini se, prese in considerazione tutte le famiglie
con uno stesso reddito, la maggior parte di queste presenta livelli non molto diversi di
consumo. In questo caso la conoscenza del reddito di una famiglia fornisce evidentemente
una qualche indicazione sul probabile valore del consumo corrispondente.

99

Se disponiamo della serie originaria di coppie di osservazioni relative a variabili


quantitative, uno strumento che si rivela particolarmente utile per indagare sul tipo e
sull'intensit del legame esistente fra le variabili il cosiddetto diagramma di dispersione
o "scatter diagram". Questo diagramma consiste semplicemente in un grafico sul quale
ognuna delle n coppie di determinazioni (xi, yi) delle due variabili viene rappresentata
mediante un punto le cui coordinate sono proporzionali ai valori xi ed yi, cosicch ad ogni
punto corrisponde una unit statistica della collettivit.
Il grafico risultante mette in evidenza il campo di variazione delle due variabili, i punti
intorno ai quali sono concentrati i loro valori, il legame che pu esistere tra le variabili e
lintensit di questo legame. Nella figura 6.1.1, per esempio, sono riportate le coppie di
valori della tabella 5.2.6.

Figura 6.1.1
Diagramma di dispersione dei dati della tabella 5.2.6
26

consumo

24

22

20

18
20

25

reddito

30

35

Dal grafico si nota che al crescere del reddito il consumo, sia pur con oscillazioni pi o
meno ampie, tende complessivamente a crescere, che i punti tendono a disporsi intorno
ad una retta e che quindi ad incrementi di reddito corrispondono incrementi proporzionali
di consumo. In questo caso possiamo quindi concludere che la conoscenza del valore di
una variabile per un individuo in grado di fornire informazioni sull'ordine di grandezza
dell'altra variabile.
E' chiaro che le forme che possono assumere gli insiemi di punti dello scatter sono le
pi varie. Nella figura 6.1.2, per esempio, rappresentata una situazione in cui al crescere

100

della variabile X la Y tende a decrescere sempre pi lentamente. Nella figura 6.1.3,


invece, al crescere della X la variabile Y prima tende a crescere e poi a decrescere.

Figura 6.1.2
Esempio di diagramma di dispersione
10
8
6

Y
4
2
0
0

Figura 6.1.3
Esempio di diagramma di dispersione
10
8
6

Y
4
2
0
0

Come vedremo nelle prossime pagine, la disposizione dei punti dello scatter pu essere
spesso descritta mediante delle curve regolari generate da semplici funzioni matematiche
le quali comportano una notevole semplificazione nellanalisi dellassociazione fra le
variabili.

101

6.2 La connessione e l'indipendenza


Da quanto si detto finora risulta evidente che in una situazione di connessione
perfetta la distribuzione di frequenza doppia assumerebbe una forma analoga a quella
riportata nella tabella 6.2.1 dove, come si vede, gli individui con una determinata modalit
o intensit di una variabile presentano tutti una ed una sola determinata modalit o
intensit dell'altra e viceversa.

Tabella 6.2.1
Esempio di perfetta connessione bilaterale
Y

y1

y2

y3

x1

f12

x2

f21

x3

f33

In questo caso, quindi, sapere che un individuo presenta, per esempio, la modalit y 2
della Y consente di affermare con certezza che lo stesso individuo presenta la modalit x 1
della X e cos via. In questa situazione, detta di perfetta connessione bilaterale, tutte le
distribuzioni di X condizionate ad Y (e di Y condizionate ad X) presentano un'unica
modalit con frequenza pari ad 1.
In una distribuzione bivariata l'interesse pu essere rivolto non tanto al grado di
connessione bilaterale quanto, piuttosto, a quello di connessione unilaterale, con cui si
intende valutare in che misura una variabile "dipende" dall'altra. Se, per esempio,
interessa la dipendenza della Y dalla X oppure della X dalla Y, la prima variabile viene
detta variabile dipendente, mentre la seconda detta variabile indipendente, anche se con
l'uso del termine "dipendenza" non si intende affermare, in generale, che l'intensit di un
fenomeno sia la causa o una delle cause dell'intensit dell'altro. E' chiaro, d'altra parte,
che una relazione di causa-effetto non potrebbe in ogni caso essere provata con i soli
metodi statistici.
Una misura statistica della dipendenza indica soltanto che tra due variabili esiste di fatto
una associazione pi o meno stretta, mentre la natura di questa associazione pu essere

102

messa in luce solo con gli strumenti propri della Scienza che si occupa di quei particolari
fenomeni.
Nella tabella 6.2.2, per esempio, illustrata una situazione di perfetta dipendenza
unilaterale della Y dalla X.

Tabella 6.2.2
Esempio di dipendenza perfetta unilaterale della Y dalla X
Y

y1

y2

x1

f12

x2

f21

x3

f31

In questo caso, come si vede, gli individui che presentano una determinata modalit o
intensit della variabile X presentano tutti una stessa modalit o intensit di Y, cosicch
conoscere la determinazione della X per un componente della collettivit significa
conoscere con certezza anche la corrispondente modalit della Y. E' evidente che in
questo caso tutte le distribuzioni delle variabili Y|x presentano un'unica modalit con
frequenza pari ad 1. Non esiste invece una perfetta dipendenza della X dalla Y dato che,
mentre alla modalit y2 corrisponde l'unica modalit x1, ad y1 corrispondono le due
modalit x2 e x3 .
Nella tabella 6.2.3 illustrata invece una situazione di perfetta dipendenza della X dalla
Y.
Tabella 6.2.3
Esempio di perfetta dipendenza unilaterale della X dalla Y
Y

Y1

y2

y3

x1

f12

x2

f21

f23

103

Si osservi che quando le due variabili assumono un uguale numero di modalit diverse
fra di loro, la situazione di dipendenza perfetta, se esiste, necessariamente bilaterale,
mentre quando questo numero differente la dipendenza perfetta pu essere solo
unilaterale.
Nei casi concreti, la relazione fra le variabili pi o meno lontana da queste situazioni
limite, cosicch le frequenze delle diverse distribuzioni condizionate sono pi o meno
concentrate in corrispondenza di alcune modalit della distribuzione, mentre alle altre
sono associate quote di frequenza minori, come risulta per esempio dalla tabella 5.3.3.
L'altra situazione limite, opposta alla connessione perfetta, quella che viene detta di
indipendenza assoluta. Due variabili sono indipendenti in senso assoluto quando ad ogni
modalit delluna sono associate le diverse modalit dellaltra sempre nelle stesse
proporzioni o, in altri termini, quando le distribuzioni condizionate sono tutte uguali fra di
loro ed uguali quindi alla distribuzione marginale. Se facciamo riferimento alle distribuzioni
condizionate della Y, la situazione di indipendenza si pu esprimere nel modo seguente

fij
fi.

f.j

i 1,2,...,k, j 1,2,...,q ,

6.2.1

da cui si vede che a qualsiasi modalit x della X associata una distribuzione di Y che
identica a quella di qualsiasi altra. Questo, per esempio, significa che l'eventuale modalit
prevalente della Y sempre la stessa per ognuno dei gruppi omogenei in X, cosicch, in
questo caso, sapere che un individuo ha una modalit x1 oppure x2 della variabile X
irrilevante per avere indicazioni sulla determinazione modale di Y, dato che questa
informazione si pu ricavare direttamente dalla sua distribuzione marginale.
Supponiamo, per esempio, di avere rilevato i dati per due variabili X ed Y ottenendo la
distribuzione riportata nella tabella successiva.

Tabella 6.2.4
Esempio di distribuzione bivariata
Y

y1

y2

y3

0,30
0,20
0,50

0,18
0,12
0,30

0,12
0,08
0,20

totale

X
x1
x2
totale

104

0,60
0,40
1,00

In questo caso le distribuzioni della variabile Y condizionata alle due diverse


determinazioni della X risultano quelle riportate nella tabella successiva e coincidono,
come si vede, con la distribuzione marginale della Y della tabella 6.2.4.

Tabella 6.2.5
Distribuzioni della variabile Y|x ottenute dalla tabella 6.2.4
Y

y1

y2

y3

0,50
0,50

0,30
0,30

0,20
0,20

totale

X
x1
x2

1,00
1,00

In una situazione di indipendenza, quindi, le informazioni fornite dalle distribuzioni


condizionate non aggiungono nulla a quelle fornite dalla marginale.
Se la 6.2.1 verificata per tutti i valori di i e di j, si ha anche

fij
f.j

fi. ,

6.2.2

da cui risulta subito che se la Y indipendente dalla X anche la X indipendente dalla Y.


Dalle 6.2.1 e 6.2.2 si vede che la condizione di indipendenza fra due variabili si pu
anche esprimere nel modo seguente
fij fi.f.j

i 1,2,...,k , j 1,2,...,q

6.2.3

cosicch due variabili X ed Y sono indipendenti se e solo se la frequenza relativa


associata ad ogni coppia di valori (xi, yj) uguale al prodotto delle frequenze relative
marginali associate a xi e yj.
Nel caso della tabella 6.2.4, per esempio, le f ij corrispondono al prodotto delle
frequenze marginali e abbiamo verificato nella tabella 6.2.5 come le due variabili risultino
effettivamente indipendenti fra di loro in senso assoluto.
L'indice pi comunemente usato nei casi concreti per valutare il grado di dipendenza fra
due variabili si basa sul cosiddetto chi-quadrato di Pearson, indicato con il simbolo 2, che
assume la forma

105

q k

(fij fi. f.j )2

i 1 j 1

fi. f.j

n
2

6.2.4

e che si basa, come si vede, sulle differenze fra le frequenze osservate e quelle calcolate
sotto ipotesi di indipendenza.
Il 2, quindi, una funzione delle differenze (dette anche contingenze) fra le frequenze
osservate fij ed i prodotti fi.f.j delle corrispondenti frequenze marginali.
E' evidente che lindice 2 pu assumere solo valori positivi ed uguale a zero se e solo
se tutte le contingenze sono uguali a zero e quindi in caso di indipendenza, mentre cresce
al crescere del grado di dipendenza.
In molte situazioni si usa anche lindice 2/n, ossia lindice 6.2.4 diviso per la numerosit
totale, che pu essere anche scritto nella forma

q k (f 2 2f f f f 2 f 2 )
fij2
2
ij
i. .j ij
i. .j

2 fij fi. f.j


n i 1 j 1
fi. f.j
i j fi. f.j
i j
i
j

e quindi

fij2
2

1.
n
i j fi. f.j

6.2.5

Quest'ultima espressione consente di calcolare pi rapidamente l'indice e di


determinare facilmente il suo valore massimo che si ha nei casi di perfetta dipendenza
unilaterale o bilaterale. Si tenga presente infatti che per ogni i e j si ha sempre
fij f.j

i = 1,2,,k, j = 1,2,,q

e che il segno di uguaglianza vale solo nel caso in cui ad ogni modalit di Y corrisponde
una sola modalit di X, ossia quando c' una perfetta dipendenza della X dalla Y. Se si
moltiplicano entrambi i termini della disuguaglianza per f ij, si ottiene

106

fij2 f y .jfij

e quindi, dalla 6.2.5,


k q f f
k q f
k
2
.j ij
ij

1 1 1 1 k 1,

n i 1 j 1 fi. f.j
i 1 j 1 fi.
i 1

6.2.6

da cui risulta che in caso di perfetta dipendenza della X dalla Y il valore dell'indice
uguale al numero di modalit della X meno 1.
In maniera analoga, a partire dalla disuguaglianza

fij fi.

si vede facilmente che

2
q 1,
n

6.2.7

dove il segno di uguaglianza si ha solo in caso di perfetta dipendenza della Y dalla X.


I due indici di dipendenza unilaterale normalizzati che possono essere calcolati su una
tabella a doppia entrata e che qui indichiamo con il simbolo 2 (csi quadrato) assumono
quindi la forma

2x
2y

2
nk 1

nq 1

e misurano rispettivamente la dipendenza di X da Y e di Y da X. Nel caso in cui le due


variabili hanno uno stesso numero di modalit i due indici, ovviamente, coincidono.

107

Si osservi che viene anche utilizzato un indice di dipendenza bilaterale normalizzato


che si ottiene dividendo 2/n per il valore minore fra (k1) e (q1).
Tutti questi indici, essendo basati sulle sole frequenze, possono essere calcolati per le
distribuzioni relative a variabili di qualunque tipo, come quella riportata nella tabella 6.2.6
che si riferisce a due variabili qualitative sconnesse.

Tabella 6.2.6
Distribuzione degli occupati dipendenti per rapporto di lavoro e sesso
(Anno 2001) - Fonte ISTAT
Sesso
Rapporto di lavoro
A tempo determinato
A tempo indeterminato
Totale

Maschi

Femmine

Totale

0,0790
0,4992
0,5782

0,0815
0,3403
0,4218

0,1605
0,8395
1,0000

Questa distribuzione molto prossima a quella che si avrebbe in caso di indipendenza,


come risulta dalla tabella 6.2.7, in cui le frequenze interne sono state ottenute dal prodotto
delle frequenze marginali.
Tabella 6.2.7
Distribuzione degli occupati dipendenti per rapporto di lavoro e sesso
in caso di indipendenza
Sesso
Rapporto di lavoro
A tempo determinato
A tempo indeterminato
Totale

Maschi

Femmine

Totale

0,0928
0,4854
0,5782

0,0677
0,3541
0,4218

0,1605
0,8395
1,0000

Gli indici di dipendenza assoluta unilaterale in questo caso coincidono con lindice di
dipendenza bilaterale ed assumono i valori

Y= X=

2/n 0,0058. Gli indici di dipendenza

fra il consumo ed il reddito calcolati sulla tabella 5.2.7 risultano invece pari a 2/n = 0,6067
e

= 0,2022.

Si osservi che se X ed Y sono due variabili quantitative indipendenti fra di loro si ha

m1,1 i j xi y j fi. f.j i xi fi. j y j f.j mx my

108

6.2.8

cosicch in questo caso la media del prodotto di due variabili uguale al prodotto delle
loro medie.
Dalla 5.4.1 si vede quindi che se due variabili sono indipendenti la loro covarianza
uguale a zero. Inoltre, dalle 5.4.10 e 5.4.11, risulta anche che la varianza della loro somma
o della loro differenza uguale semplicemente alla somma delle loro varianze.

6.3 Modelli teorici di regressione


Oltre ai modelli teorici di distribuzione, se tutte e due le variabili sono di tipo quantitativo,
vengono comunemente utilizzati anche dei modelli teorici di regressione, descritti in
genere da semplici funzioni matematiche, che in corrispondenza dei diversi valori della
variabile indipendente, indicata anche come variabile esplicativa o regressore, forniscono
dei valori approssimati dei valori dell'altra variabile, detta variabile dipendente.
Nella figura 6.3.1, per esempio, riportato lo scatter relativo ai valori delle variabili
reddito e consumo della tabella 5.2.6 ed il grafico di una retta che fornisce una descrizione
sintetica dell'associazione fra le due variabili e le cui ordinate, calcolate in corrispondenza
dei valori del reddito X, approssimano i valori della variabile consumo Y.

Figura 6.3.1
Retta di regressione calcolata sulla distribuzione 5.2.6

consumo

25

20

15
20

25

30

reddito

109

35

L'utilizzazione di modelli teorici, come nel caso dei modelli distributivi, non ha tanto lo
scopo di approssimare nel modo pi accurato possibile i dati rilevati, quanto quello di
rappresentare il tipo di dipendenza fra le due variabili in un modo semplice e regolare.
Vengono quindi utilizzati modelli semplici che hanno lo scopo di rendere evidenti gli aspetti
pi rilevanti dell'associazione fra le due variabili, che nei dati originari si presentano in
genere in modo confuso.
Nella figura 6.3.1, come si vede, i punti sono distribuiti in modo irregolare intorno ad una
retta, cosicch in questo caso ad incrementi di una variabile corrispondono, in media,
incrementi proporzionali dell'altra. L'utilizzazione di un modello lineare consente anche di
quantificare questo tipo di relazione facendo corrispondere ad un dato incremento x di X
un incremento y di Y. Un modello di questo tipo, se adeguato, rende estremamente
agevole il confronto dell'associazione fra due fenomeni rilevati in tempi o luoghi diversi,
dato che in questo caso sufficiente fare riferimento ai valori dellintercetta e del
coefficiente angolare delle diverse funzioni lineari.
La scelta del tipo di modello pu essere effettuata con criteri empirici che si basano
sulla disposizione dei dati evidenziati dal grafico della funzione di regressione o dallo
scatter, ma in genere questa scelta non univoca dato che esistono pi funzioni
matematiche in grado di descrivere uno stesso insieme di dati. Come nel caso dei modelli
distributivi, i modelli teorici di associazione fra le variabili possono anche derivare da
conoscenze ed ipotesi sulla natura dei fenomeni che anche in questo caso, esplicitate in
modo formale, conducono alla individuazione del modello di regressione.
In generale, considerato un modello teorico di regressione a p parametri, si avr

Y* x; 1,2 ,..., p

6.3.1

dove Y* il valore teorico della variabile Y che si ottiene calcolando il valore della funzione

x; 1, 2 ,..., p

in corrispondenza di un qualsiasi valore x di X. Nel modello teorico,

quindi, compaiono alcuni parametri 1, 2 ,..., p i cui valori devono essere determinati di
volta in volta sulla base dei dati rilevati per adattare il modello alla situazione osservata.
Il metodo normalmente utilizzato per il calcolo dei valori di questi parametri il
cosiddetto metodo dei minimi quadrati, che consiste nel determinare quei particolari
valori di 1, 2 ,..., p per i quali risulta minima la quantit

110

1
(y i y i *)2

n i 1

6.3.2

che corrisponde alla media delle differenze al quadrato fra i valori osservati della variabile
dipendente ed i valori teorici corrispondenti.

6.4 La regressione lineare


La funzione che ha un'importanza predominante nella descrizione del legame esistente
fra due variabili senz'altro, per il suo significato e per la sua semplicit, la funzione
lineare che di fatto si rivela adeguata in un gran numero di situazioni concrete. In questo
caso il modello teorico di regressione 6.3.1 assume la forma
Y* x

6.4.1

dove i valori dei parametri e si determinano facilmente utilizzando il metodo dei minimi
quadrati. In questo caso lapplicazione della 6.3.2 porta a scegliere, come valori dei due
parametri incogniti, quei valori a e b per i quali risulta minima la funzione

(,)

1
y i x i 2 .

n i

6.4.2

La 6.4.2 una funzione delle due variabili e , dove i valori yi e xi, data una certa
ennupla di coppie di osservazioni, sono quantit fisse. Si tratta perci di trovare quei valori
delle due variabili per i quali la funzione assume il suo valore minimo.
Come sappiamo, una funzione in pi variabili ha un massimo o un minimo nei punti in
cui si annullano le derivate parziali rispetto alle variabili stesse. Le derivate della 6.4.2
rispetto ad e , tenendo conto che la derivata di una somma uguale alla somma delle
derivate, sono rispettivamente

(, )
2
i y i x i

n
(, )
2
i y i x i x i

n
111

ed i valori a e b delle variabili e per i quali le due derivate sono uguali a zero si
ottengono dal sistema

2
n i y i a bx i 0

2 y a bx x 0
i i
n i i

Dalla prima equazione risulta


a = my bmx.

6.4.3

Sostituendo questo risultato nella seconda equazione, si ha

2
y i m y bx i m x x i 0
n i

che pu essere posta nella forma equivalente

1
1
y m y x i b ix i m x x i 0

i i
n
n
1
1

x y m x m y b ix i2 m 2x 0

i i i
n
n

da cui si ottiene

s xy bs2x 0

e quindi

s xy
s 2x

6.4.4

112

Il coefficiente angolare della retta che approssima la funzione di regressione della Y


sulla X pari quindi al rapporto fra la covarianza e la varianza della X.
Sostituendo questo risultato nella 6.4.3 si ottiene il valore dell'intercetta che dato da

a my

s xy
s 2x

mx .

6.4.5

La funzione teorica della di regressione della Y sulla X assume dunque la forma


seguente

Y* m y m x

s xy
s 2x

s xy
s 2x

x my

s xy
s 2x

x m x

6.4.6

oppure, tenendo presente la 5.4.9, la forma equivalente

Y* m y r

sy
sx

x m x .

6.4.7

La funzione 6.4.6 o 6.4.7, determinata con il metodo dei minimi quadrati, fornisce quindi
per ogni valore della variabile X il valore "teorico" della variabile Y.
Per quanto riguarda, per esempio, i dati contenuti nella tabella 5.2.6, la retta di
regressione del consumo Y sul reddito X la seguente
Y* 7,0317 0,5544x

e la sua rappresentazione grafica riportata nella figura 6.4.1 insieme con lo scatter dei
dati originari.
Sulla base della retta cos determinata risulta, per esempio, che il consumo medio
teorico in corrispondenza di un reddito di 24 mila euro annui pari a 20,3373 mila euro.
Dalla retta risulta anche che ad un incremento del reddito pari a x corrisponde un
incremento del consumo y = 0,5544x, cosicch, per esempio, ad un incremento di mille
euro del reddito corrisponde un incremento di 554 euro circa del consumo.

113

Figura 6.4.1
Retta di regressione calcolata sulla distribuzione 5.2.6

consumo

25

20

15
20

25

30

35

reddito

In questo caso il coefficiente angolare della retta positivo per cui si parla di
correlazione lineare positiva fra le variabili, mentre si ha una correlazione lineare
negativa quando il coefficiente angolare risulta minore di zero.
Si osservi che il segno del coefficiente angolare dipende dal segno della covarianza e
quindi dal segno di r, come si vede dalla 6.4.7, e che il coefficiente angolare zero se e
solo se r uguale a zero. In questo caso la funzione stimata risulta uguale a
Y* m y

e i valori stimati risultano quindi tutti uguali fra di loro ed uguali alla media della Y.
Se i dati sono organizzati in una tabella con classi di valori, gli scarti da prendere in
considerazione nella 6.4.2 sono ovviamente quelli fra i valori centrali delle singole classi e
la retta. E chiaro che in questo caso i risultati ottenuti sono approssimati perch
dipendono dalla suddivisione in classi, per cui preferibile utilizzare le coppie di valori
originari, quando sono disponibili.

114

6.5 Il coefficiente di correlazione lineare


Abbiamo visto come mediante la retta dei minimi quadrati si faccia corrispondere ad
ognuno degli n valori originari yi il valore teorico

y i m y r

sy
sx

x i - m x

6.5.1

la cui media risulta uguale alla media dei valori originari yi


sy
s

X m x m y r y EX m x m y ,
E(Y*) Em y r
sx
sx

mentre la loro varianza risulta pari a

2
sy

2 sy
X m x r 2 EX m x 2 r 2 s 2y
V(Y*) E(Y * m y ) Er
sx
sx

6.5.2

e corrisponde quindi al prodotto della varianza della Y per il quadrato del coefficiente di
correlazione lineare. Questa varianza detta varianza spiegata sotto ipotesi di
linearit.
Consideriamo ora la variabile differenza fra i valori originari e stimati, ossia la variabile
W = Y Y*

i cui valori wi vengono detti anche residui. La media e la varianza di questa variabile
risultano rispettivamente pari a

E(W) E(Y Y ) E(Y) E(Y ) m y - m y 0 ,

V(W) V(Y Y ) V(Y) V(Y ) 2Cov(Y, Y ) ,

dove, tenendo presente la 6.4.7,

115

sy
sy

s xy r 2 s 2y .
Cov(Y, Y ) E (Y m y )(Y m y ) E(Y m y )r
(X m x ) r
s
s
x
x

Pertanto la varianza dei residui pari a


V(W) V(Y) V(Y ) s 2y r 2 s 2y (1 r 2 )s2y

6.5.3

ed detta varianza residua sotto ipotesi di linearit.


Dalle 6.5.2 e 6.5.3 risulta che la varianza della variabile dipendente uguale alla
varianza spiegata pi la varianza residua

s 2y r 2 s 2y (1 r 2 )s 2y .

6.5.4

Si osservi che il valore della varianza residua, come si vede dalla figura 6.5.1,
corrisponde alla media dei quadrati degli scarti di tipo AB, mentre la varianza della Y la
media dei quadrati degli scarti di tipo AC, cosicch il criterio dei minimi quadrati equivale
ad individuare quei parametri della retta di regressione per i quali risulta minimo il valore
della varianza residua.

Figura 6.5.1
Esempio di retta di regressione
Y

A
B

my

C
1

0
0

mx

116

E evidente che la varianza residua risulta uguale a zero se e solo se tutti i punti sono
esattamente allineati, cio quando la Y una funzione lineare di X e quindi se fra le due
variabili esiste una perfetta correlazione lineare. Il suo valore massimo invece si ha
quando il coefficiente della retta di regressione uguale a zero e cio quando i valori della
Y stimati sono tutti uguali a my. In questo caso si ha assenza di correlazione lineare, dato
che la conoscenza del valore di X non fornisce alcuna informazione sul corrispondente
valore di Y stimato sotto ipotesi di linearit.
Dalla 6.5.3 risulta che fra le variabili c correlazione lineare perfetta se e solo se r2
uguale ad 1, mentre c assenza di correlazione lineare se e solo se r2 uguale a zero. In
questo caso, infatti, la varianza residua uguale alla varianza totale e la varianza spiegata
uguale a zero.
Lintensit del legame lineare fra le variabili pu essere quindi valutata mediante lindice
r2 che detto coefficiente di determinazione lineare e che assume la forma

r 2 1

V(W) V(Y )

.
V(Y)
V(Y)

6.5.5

Questo coefficiente pu essere interpretato come la quota della varianza totale s 2y che
viene "spiegata" dalla relazione lineare fra le variabili. E chiaro che lintensit del legame
lineare pu essere valutata anche mediante il valore del coefficiente di correlazione lineare
che, come abbiamo gi visto, indica anche se la correlazione positiva o negativa.
I valori di r e di r2 calcolati sui dati della tabella 5.2.6 sono

5,2848
0,92 ,
3,0875 1,8590

r 2 0,85 ,

da cui risulta che per la collettivit esaminata l'85% della variabilit totale della Y dipende o
viene spiegata dalla relazione lineare che lega il reddito ed il consumo.
Considerazioni analoghe alle precedenti valgono per la retta di regressione della X sulla
Y che, come si potrebbe controllare facilmente, assume la forma

117

X* m x r

sx
(y m y )
sy

6.5.6

e non coincide con la 6.4.7 se non in caso di perfetta correlazione lineare. E' unica, invece,
la misura della correlazione lineare della Y sulla X e della X sulla Y che misurata sempre
da r o da r2.
Si pu controllare facilmente inoltre che il valore del coefficiente di determinazione
lineare invariante rispetto a trasformazioni lineari delle variabili. In altri termini, se due
variabili X ed Y hanno un dato valore di r2, le variabili

T = a0+b0X
e
Z = a1+b1Y,
trasformate lineari delle prime due, hanno lo stesso valore di r2.
Si osservi che se due variabili X ed Y sono indipendenti in senso assoluto il loro
coefficiente di correlazione lineare risulta uguale a zero, dato che uguale a zero la loro
covarianza, mentre un valore del coefficiente uguale a zero non implica necessariamente
che le variabili siano indipendenti in senso assoluto. Il valore di questo coefficiente pu
infatti risultare molto basso o addirittura uguale a zero anche in presenza di una elevata
correlazione di tipo non lineare, cosicch se r = 0 questo significa solo che vi assenza di
correlazione lineare.
Nelle situazioni reali non sempre una funzione lineare risulta adeguata a descrivere
l'associazione fra le variabili. In questi casi vengono utilizzate funzioni di forma diversa
come, per esempio, un polinomio di grado non troppo elevato, i cui parametri
corrispondono sempre a quei valori che rendono minima la media delle differenze al
quadrato fra i valori yi osservati ed i corrispondenti valori teorici.

118

CAPITOLO 7
CENNI SUL CALCOLO DELLE PROBABILITA'

7.1 Introduzione
Abbiamo visto nel primo capitolo come, nella generalit dei casi, per ottenere
informazioni su una collettivit di N individui si debba necessariamente ricorrere ad una
indagine campionaria nel corso della quale le variabili oggetto di studio vengono rilevate
solo su una parte dei componenti la collettivit. Una rilevazione parziale consiste quindi
nell'esaminare solo un certo numero n (nN) di individui scelti fra tutti quelli che
compongono la popolazione con lo scopo di farsi un'idea della distribuzione del fenomeno,
utilizzando i dati rilevati su ciascuno degli n individui esaminati. Questi n individui
costituiscono quello che noto come "campione" della popolazione oggetto di studio.
E' ovvio che le informazioni fornite da un campione non consentono di conoscere
esattamente la struttura distributiva delle variabili considerate, ma permettono solo di
delinearla in modo pi o meno approssimato. La struttura descritta dal campione, come
facile immaginare e come sar dimostrato in seguito, tende per a somigliare sempre di
pi a quella della popolazione se il campione sufficientemente numeroso.
In unindagine campionaria il primo problema da risolvere si riferisce al criterio con cui
devono essere scelte, fra le unit statistiche della popolazione, quelle su cui effettuare le
rilevazioni che interessano. Ovviamente questa scelta pu essere effettuata con criteri
diversi, ma in seguito verr esaminato solo il metodo di campionamento basato sul criterio
di scelta casuale che quello pi adatto a fornire risultati soddisfacenti, dato che consente
di definire dei metodi adeguati non solo per stimare, sulla base dei dati campionari, le
caratteristiche ignote della popolazione, ma anche per ottenere, come vedremo, una
valutazione della precisione delle stime.
In questo caso si parla di campione casuale, ma la scelta delle unit statistiche pu
essere fatta anche con altri criteri. In alcune situazioni la rilevazione viene effettuata su un
certo numero di unit statistiche che il ricercatore, in base alle sue conoscenze, considera
come tipiche e, quindi, rappresentative dell'intera collettivit. Cos, per esempio, per avere
informazioni sulla situazione economica in una certa regione si potrebbero intervistare
delle aziende-tipo per i diversi settori economici, per ottenere indicazioni su consumi,
119

redditi o risparmio si potrebbero utilizzare famiglie-tipo dei diversi ceti sociali e cos via. In
altri casi la scelta delle unit campionarie in qualche modo obbligata, come per esempio
nella sperimentazione di nuovi farmaci sull'uomo, che pu basarsi solo su volontari,
oppure nei controlli di qualit di prodotti immagazzinati, che vengono effettuati di solito su
quelle unit che sono pi facilmente accessibili e cos via. I dati cos ottenuti presentano in
ogni caso una loro utilit, dal momento che forniscono informazioni sulle variabili che
interessano, ma in tutti questi casi risulta problematica l'estensione dei risultati alla
popolazione nel suo complesso.
Il metodo di campionamento di cui ci occuperemo nelle prossime pagine pu essere
assimilato all'estrazione casuale di palline da un'urna. Se per esempio la collettivit
oggetto di studio costituita da due sottogruppi di individui distinti tra di loro per la
presenza o l'assenza di una qualche caratteristica (uomini-donne, occupati-disoccupati,
cattolici-non cattolici, favorevoli o contrari ad un qualche provvedimento legislativo e cos
via), la situazione pu essere schematizzata assimilando la popolazione ad un'urna
contenente palline bianche e nere e l'indagine campionaria consiste semplicemente
nell'estrarre in modo casuale un certo numero di palline per avere una valutazione del
numero (o della quota) di palline bianche e nere contenute nell'urna. In generale, per
schematizzare situazioni pi complesse, si possono immaginare urne contenenti palline di
diversi colori oppure palline numerate e cos via.
Indagini di questo tipo, come si detto, sono di uso comune in tutti i campi di ricerca ed
in particolare vengono effettuate per conoscere le opinioni, gli orientamenti politici, i gusti
delle persone. In questi casi, anche se l'indagine estesa solo ad alcune centinaia di
individui, i risultati ottenuti vengono presentati, in genere, come se si riferissero all'intera
collettivit.
Questa estensione di informazioni parziali viene accettata senza particolari difficolt,
perch intuitivamente sembra ragionevole che un campione casuale, specie se
moderatamente numeroso, sia in qualche modo una miniatura abbastanza precisa della
popolazione da cui il campione stesso stato estratto, mentre sembra poco probabile che
il campione abbia una struttura molto diversa da quella della collettivit. Si osservi che
queste considerazioni sembrano ragionevoli anche quando il numero n di unit
effettivamente esaminate molto pi piccolo del numero totale N e quindi anche se la
cosiddetta frazione di campionamento n/N molto bassa.
Si intuisce anche che un secondo o un terzo campione provenienti dalla medesima
popolazione ed estratti ognuno in modo indipendente dall'altro darebbero, con ogni
120

probabilit, risultati diversi tra di loro, ma con differenze scarsamente rilevanti e che,
quindi, un aumento delle informazioni oltre un certo limite comporterebbe in generale un
aumento scarsamente significativo della precisione delle stime.
Tutte queste considerazioni intuitive e piuttosto generiche, che saranno confermate e
precisate da una analisi pi rigorosa delle questioni connesse con le indagini campionarie,
sembrano meno scontate se si fa riferimento a piccoli campioni. In questo caso, infatti,
sembra ovvio che le informazione fornite da campioni diversi presentino una maggiore
variabilit e che quindi un singolo campione possa fornire informazioni meno precise sulla
collettivit. D'altra parte un aumento della numerosit del campione, anche quando
possibile, comporta almeno un aumento di costi, cosicch in generale necessario trovare
un compromesso fra costi e precisione delle informazioni.
In ogni caso, per utilizzare in modo corretto le informazioni fornite dal campione
effettivamente osservato, di fondamentale importanza tenere presente che questo solo
uno dei campioni che possibile ottenere, dato che osservare un certo campione o un
altro qualsiasi dipende unicamente dal caso e che, quindi, il campione osservato
costituisce un evento che dipende da un esperimento casuale. Un evento casuale anche
l'insieme delle informazioni fornite dal campione, la cui valutazione, quindi, non pu
prescindere da considerazioni di carattere probabilistico.
Facciamo riferimento, per semplicit, ad un'urna contenente solo palline bianche e nere
e pensiamo di estrarre un campione di n palline, una alla volta, di esaminarne il colore e di
reinserire la pallina nell'urna prima di procedere ad una nuova estrazione. Prima di
effettuare materialmente la prova, sappiamo che il campione potr essere formato da tutte
palline nere, da 1 pallina bianca e n1 palline nere, ..., da tutte palline bianche. Questi
appena elencati, quale che sia la composizione dell'urna, sono tutti risultati campionari
possibili e, come si vede, tra i risultati possibili vi sono campioni con una composizione
anche molto diversa da quella dell'urna. E' evidente, per, che i singoli risultati hanno
probabilit diverse di verificarsi e che queste probabilit dipendono dalla composizione
dell'urna.
Il calcolo delle probabilit, data una popolazione di composizione nota, consente di
determinare la probabilit di ognuno dei possibili campioni di n elementi e di individuare i
risultati pi probabili, quelli meno probabili, quelli estremamente improbabili e cos via. Una
volta effettuata l'estrazione, per, noi avremo a disposizione solo uno dei campioni
possibili ma, basandoci sulle informazioni fornite da quest'unico campione e su
considerazioni di carattere probabilistico, saremo in grado di fare delle congetture sulla
121

struttura pi verosimile della popolazione da cui il campione stato estratto e di stimare


con una qualche precisione le caratteristiche ignote della popolazione stessa.

7.2 Eventi
Come si detto, il campione effettivamente osservato costituisce un evento generato
da un esperimento casuale. Pi in generale con il termine evento viene indicato il risultato
di una qualche prova che pu consistere, per esempio, in un esperimento scientifico,
nell'osservazione di un fenomeno, nell'estrazione di un individuo da una popolazione o,
con riferimento ai problemi da cui ha avuto origine il calcolo delle probabilit,
nell'estrazione di una pallina da un'urna o di una carta da un mazzo, nel lancio di un dado
o di una moneta e cos via. Le prove che qui ci interessano sono quelle in cui il risultato
non pu essere previsto con certezza prima che la prova stessa sia stata effettuata e che
quindi possono produrre, con maggiore o minore probabilit, eventi diversi.
Data una popolazione di N individui, ognuno identificato con un numero da 1 a N,
supponiamo che la prova consista nell'estrarre un individuo in modo casuale. In occasione
di questa prova supponiamo che ci interessi prendere in considerazione gli N eventi Ei
(i=1,2,N) dove Ei l'evento "estrazione dell'individuo i-esimo". Questa situazione pu
essere schematizzata assimilando la popolazione ad un'urna contenente delle palline
numerate. Se, per esempio, l'urna contiene 5 palline numerate da 1 a 5, gli eventi
considerati in una estrazione casuale possono essere E 1 "uscita della pallina numero 1",
E2 "uscita della pallina numero 2", ..., E5 "uscita della pallina numero 5".
Gli eventi di questo esempio sono detti eventi necessari e incompatibili, nel senso
che in una prova uno di questi certamente si verifica e che il verificarsi dell'uno esclude il
verificarsi di un qualsiasi altro. Effettuata la prova, quindi, uno degli N eventi risulter vero
e tutti gli altri falsi.
Gli eventi con queste caratteristiche sono detti anche eventi elementari o punti
campionari, mentre l'insieme di tutti i punti campionari detto spazio campionario (o
spazio fondamentale) e verr indicato con (omega).
Se consideriamo per esempio un esperimento che consiste nel lancio di una moneta, lo
spazio campionario risulta quindi costituito dai due eventi elementari: T uscita della faccia
testa e C uscita della faccia croce

122

T, C .

Supponiamo, per esempio, che un'urna contenga 5 palline bianche, 3 palline nere e 2
gialle e che in occasione dellesperimento a noi interessi solo il colore della pallina
estratta. Gli eventi elementarim considerati in questo caso sono quindi solo tre: E1
"estrazione di una pallina bianca", E2 "estrazione di una pallina nera" ed E3 "estrazione di
una pallina gialla", per cui lo spazio campionario dato da

E1,E 2 ,E3 .
In occasione di un esperimento linteresse pu essere rivolto, oltre che agli eventi
elementari, anche ad altri eventi, che dipendono logicamente dagli Ei.
Con riferimento all'estrazione dallurna contenente palline numerate potremmo essere
interessati, per esempio, all'evento A "uscita di una pallina con un numero superiore a 2",
oppure all'evento B "uscita di una pallina con un numero dispari". Questi eventi dipendono
logicamente dagli eventi elementari, nel senso che possibile stabilire se sono veri
oppure falsi quando noto l'evento elementare che si verificato. L'evento A vero
quando la pallina estratta presenta il numero 3 o 4 o 5, mentre l'evento B vero quando la
pallina ha il numero 1 o 3 o 5.
Gli eventi A e B considerati in questo caso costituiscono due esempi di eventi
composti, che corrispondono a sottoinsiemi dellinsieme degli eventi elementari e che
si definiscono a partire da quelli elementari mediante una operazione che detta unione o
somma.
Dati i due eventi Ei ed Ej la loro somma quell'evento, indicato con il simbolo EiEj (che
si legge Ei o Ej), che si verifica quando si verifica Ei oppure Ej.
Cos, per esempio, con riferimento all'urna con le palline numerate, l'evento "pallina con
un numero pari" corrisponde all'evento somma E 2E4 "pallina con il numero 2 o pallina
con il numero 4". La somma pu estendersi evidentemente a pi di due eventi come,
sempre nello stesso esempio, nel caso dell'evento "pallina con un numero superiore a 2",
che corrisponde alla somma E3E4E5.

mSi osservi che un evento pu essere considerato come elementare anche se potrebbe essere scomposto in pi eventi diversi. La definizione di evento
elementare dipende quindi dal grado di dettaglio che interessa in una particolare occasione. Cos, per esempio, in una collettivit di persone pu
interessarci rilevare qual lattivit svolta da un individuo oppure semplicemente se l'individuo disoccupato o occupato senza tener conto del tipo di
attivit.

123

Dato un qualunque spazio campionario resta definito anche quell'insieme (teta),


detto classe degli eventi, che l'insieme di tutti i sottoinsiemi di .
In pratica la classe degli eventi comprende lo stesso e l'insieme vuoto , un
insieme, cio, che non contiene alcun punto campionario e che corrisponde quindi
all'evento impossibile.
Per esempio, nel caso del lancio della moneta gli elementi dell'insieme sono
= , T, C, TC n,
mentre nel caso dell'urna con palline di tre colori diversi gli elementi dell'insieme sono
= , E1, E2, E3, E1E2, E1E3, E2E3 , E1E2E3,
dove l'elemento E1E2 corrisponde all'evento "pallina bianca o nera", l'elemento
E1E2E3 all'evento "pallina di un colore qualsiasi" e cos via.
Se composto da N eventi elementari si pu dimostrare che il numero di elementi di
sempre pari a 2N, come risulta anche dai due esempi appena riportati.

7.3 Probabilit
A ciascuno degli N eventi elementari Ei dello spazio campionario pu essere
associata una probabilit il cui valore numerico, indicato con P(Ei), misura in generale il
grado di fiducia che l'evento Ei si verifichi in quella prova. In analogia con i valori delle
frequenze relative delle distribuzioni statistiche, si pone
0 P(Ei) 1

i=1,2,,N

7.3.1

e
N

PEi = 1,

7.3.2

i 1

n Per specificare un insieme Z si possono elencare i suoi elementi tra parentesi graffe in questo modo z , z , ... oppure indicare le caratteristiche che un
1 2
elemento deve avere per fare parte dell'insieme: Z = z | z ha la caratteristica.... . Per indicare che un elemento zi appartiene ad un insieme Z si utilizza la
notazione zi Z.

124

cosicch la probabilit di un evento espressa da un valore numerico compreso fra zero


ed uno, mentre la somma delle probabilit di tutti gli eventi elementari associati ad una
prova sempre uguale ad uno.
Con riferimento all'esempio dell'urna, se pensiamo ad un meccanismo di sorteggio che
non privilegia l'uscita di alcune palline rispetto alle altre (come per esempio nel gioco del
lotto) sembra ragionevole assegnare a ciascuna pallina la stessa probabilit di essere
estratta in una prova. Nel caso dell'urna con le palline numerate potremo dire quindi che i
cinque eventi Ei sono equiprobabili e che la probabilit di ogni evento , date le condizioni
7.3.1 e 7.3.2, uguale ad 1/5.
Come si vede, la valutazione numerica P(Ei) associata all'evento Ei (per i=1,2,,N) che
stata effettuata in base a considerazioni sul meccanismo di sorteggio, non costituisce
una misura oggettiva della probabilit degli eventi, ma semplicemente una valutazione
sulla quale abbastanza facile trovarsi daccordo. Ci sono molte altre situazioni in cui gli
eventi elementari possono essere ragionevolmente considerati equiprobabili come, per
esempio, nel caso dellestrazione di una carta da un mazzo oppure nel gioco della
roulette. E su eventi di questo tipo che si basa la cosiddetta definizione classica di
probabilit, secondo la quale la probabilit di un evento data dal rapporto fra i casi
favorevoli a quell'evento ed i casi possibili, purch tutti equiprobabili.
Nellesempio dell'urna con 5 palline bianche, 3 palline nere e 2 gialle, se indichiamo con
E1 levento "estrazione di una pallina bianca", con E2 levento "estrazione di una pallina
nera" e con E3 levento "estrazione di una pallina gialla", in base alla definizione classica
(che solo una regola di calcolo in presenza di eventi equiprobabili) le probabilit da
assegnare ai tre eventi elementari risultano P(E1)=0,5, P(E2)=0,3 e P(E3)=0,2.
Si osservi che questa definizione di probabilit, spesso attribuita a Pierre Simon
Laplace e quindi identificata come definizione classica di Laplace, in realt una
definizione circolare, nel senso che richiede lequiprobabilit di tutti i casi possibili,
quando proprio la medesima probabilit a dover essere definita. Oltre a questo aspetto
negativo c da considerare il fatto che la sua apllicabilit ristretta alle sole situazioni in
cui la conoscenza preliminare del fenomeno (o dellesperimento) consente di ritenere che
tutti i risultati siano effettivamente equiprobabili. Questa definizione non consente infatti di
calcolare la probabilit in caso di eventi non equiprobabili e presuppone un numero finito
di risultati possibili anche se, come vedremo fra breve, i risultati di un esperimento
possono essere in numero infinito.

125

Per superare questi inconvenienti Richard von Mises propose una definizione diversa di
probabilit di un evento, detta definizione frequentista, che pu essere utilizzata per
eventi ripetibili, ossia nelle situazioni in cui un determinato esperimento pu essere
ripetuto un numero qualsiasi di volte.
Prendiamo in considerazione, per esempio, lesperimento che consiste nel lancio di una
moneta. I due risultati connessi con questa prova vengono considerati equiprobabili
quando si fa riferimento ad una moneta ideale perfettamente bilanciata. In realt, con
riferimento ad una specifica moneta, le probabilit degli eventi testa e croce non sono
note ed in questo caso si pensa intuitivamente di poter effettuare una valutazione di
queste probabilit utilizzando i risultati ottenuti in un numero elevato di lanci. Si pu
constatare infatti che la frequenza relativa con cui si presenta un evento, al crescere del
numero delle prove, si stabilizza in prossimit di un dato valore che viene considerato
come unapprossimazione della probabilit di quellevento.
Su queste considerazioni si basa la definizione frequentista in base alla quale la
probabilit di un evento il limite a cui tende la frequenza relativa di quellevento
allaumentare del numero delle prove.
Si osservi che in questa definizione lesistenza del limite non pu essere dimostrata e
quindi viene semplicemente postulata.
Si osservi inoltre che secondo alcuni studiosi, come per esempio de Finetti e Savage,
nessun fenomeno o esperimento pu essere considerato ripetibile e che valutazioni di
probabilit vengono comunque abitualmente effettuate anche per eventi connessi con
prove che non possono essere ripetute, come per esempio nel caso dei risultati di una
partita di calcio o di una corsa di cavalli.
Le prove di questo tipo possono effettuarsi una sola volta, ma ci nonostante in
occasione di ciascuna prova vengono effettuate delle valutazioni quantitative delle
probabilit associate ai diversi risultati in base alle quali uno scommettitore decide se
partecipare o meno al gioco.
Altre valutazioni numeriche di probabilit associate ad eventi non ripetibili vengono
effettuate sul possibile futuro rialzo o ribasso del prezzo di un bene, di un titolo o di una
valuta e da queste valutazioni dipende la decisione di vendere o di acquistare.
Le probabilit associate ad eventi di questo tipo vengono ovviamente assegnate
tenendo presenti tutte le informazioni che si hanno su quel fenomeno, sulle frequenze con
cui le modalit di quel fenomeno o di fenomeni analoghi si sono manifestate in passato e
cos via.
126

E evidente che in questi casi individui diversi danno ad uno stesso evento valutazioni di
probabilit che possono risultare diverse fra di loro.
Lestensione della nozione di probabilit anche ad eventi di questo tipo avviene
attraverso la definizione soggettivista, secondo la quale la probabilit di un evento E la
misura del grado di fiducia che un individuo coerenteo attribuisce, secondo le sue
informazioni e opinioni, allavverarsi di E.
Per sottolineare il fatto che una valutazione soggettiva della probabilit non significa che
si tratti di una valutazione arbitraria, la probabilit viene anche definita come il prezzo p
che un individuo ritiene equo pagare per ricevere un importo unitario al verificarsi di E. Lo
stesso individuo deve essere disposto a pagare un importo unitario al verificarsi di E
contro il pagamento dello stesso prezzo p.
Una definizione pi generale di probabilit, detta definizione assiomatica, infine
dovuta a Kolmogorov. Con questa definizione vengono stabilite le regole generali, dette
appunto assiomi, che devono essere rispettate da una qualsiasi probabilit, a prescindere
dalla definizione adottata. La definizione assiomatica non una definizione operativa e
non fornisce indicazioni su come calcolare la probabilit e, proprio per questo motivo,
risulta utilizzabile sia nell'ambito di un approccio oggettivista sia in un approccio
soggettivista.
In base a tale impostazione, si definisce probabilit ogni funzione P che rispetta le tre
propriet seguenti:
a) PEi 0 per qualsiasievento Ei
b) P 1

c) P Ei E j PEi P E j

per tutti gli eventi Ei , E j

La propriet c) in base alla quale, dati due qualsiasi eventi incompatibili Ei ed Ej, la
probabilit della loro somma uguale alla somma delle loro probabilit
P(EiEj) = P(Ei) + P(Ej)

costituisce il cosiddetto teorema delle probabilit totali.

o Il concetto di coerenza riveste unimportanza fondamentale nella definizione soggettivista della probabilit. Si veda, per esempio, de Finetti B. (1970),
Teoria delle probabilit, Einaudi, Torino.

127

Questa regola di calcolo si giustifica immediatamente nel caso della definizione classica
e di quella frequentista, mentre nella definizione soggettivista viene imposta dalla
coerenza, cos com definita da de Finettip.
Nel caso dell'urna con 5 palline bianche, 3 palline nere e 2 gialle, la probabilit di
estrarre una pallina bianca o gialla , per esempio,

P(E1) + P(E3) = 0,5 + 0,2 = 0.7.


Nel caso di 3 eventi Ei (i = 1, 2, 3) incompatibili a due a due evidentemente si ha

PE1 E2 E3 PE1 PE2 PE3 ,


dato che per loperazione di somma vale la propriet associativa

E1 E2 E3 E1 E2 E3 E1 E2 E3 .

Le propriet precedenti si estendono ad un numero qualsiasi di eventi a due a due


incompatibili, cosicch risulta anche

P PE1 E2 ... EN PE1 PE2 ... PEN 1.

In questo modo, a partire dalla probabilit degli eventi elementari, risulta definita anche
la probabilit di tutti gli eventi corrispondenti ad un qualsiasi sottoinsieme di . Si osservi
che la probabilit dellevento impossibile ovviamente sempre pari a zero.

7.4 Operazioni sugli eventi


Le principali operazioni sugli eventi verranno illustrate con l'aiuto dei diagrammi di Venn
in cui lo spazio campionario rappresentato da un rettangolo, mentre un evento A,
corrispondente ad un sottoinsieme di , rappresentato da una superficie tratteggiata
all'interno di , come nella figura 7.4.1.

pde Finetti B. (1970), Teoria delle probabilit, Einaudi, Torino.

128

Figura 7.4.1
Rappresentazione di un evento mediante diagramma di Venn

Una prima operazione, quella di unione o somma di eventi, stata gi considerata nel
paragrafo precedente con riferimento ad eventi elementari. In generale, dati due qualsiasi
eventi A e B, la loro somma quell'evento che vero quando vero l'evento A oppure
l'evento B. Il sottoinsieme corrispondente all'evento somma di due eventi A e B contiene,
quindi, tutti i punti campionari del sottoinsieme A e del sottoinsieme B, come risulta dalla
figura 7.4.2 in cui l'evento AB rappresentato, come al solito, dall'area tratteggiata.

Figura 7.4.2
Rappresentazione della somma di due eventi incompatibili

Si osservi che in questa figura i due sottoinsiemi corrispondenti agli eventi A e B non
hanno alcun elemento in comune e sono quindi disgiunti, cosicch i due eventi risultano
incompatibili, come accade per tutti gli eventi elementari.
Nel caso delle 5 palline numerate, due eventi composti incompatibili sono per esempio
gli eventi "pallina con un numero inferiore a 3" e "pallina con un numero superiore a 3", la
cui somma equivale ovviamente all'evento E1E2E4E5 .
Nella figura 7.4.3 rappresentata, invece, la somma di due eventi compatibili.

129

Figura 7.4.3
Rappresentazione della somma di due eventi compatibili

Con riferimento alla stessa urna, gli eventi "pallina con un numero pari" e "pallina con
un numero superiore a 2" sono un esempio di eventi compatibili, dato che entrambi
possono verificarsi in una stessa estrazione e che questo accade quando si verifica
l'evento elementare E4. La somma di questi due eventi corrisponde, evidentemente,
all'evento E2E3E4E5.
Si osservi che se due eventi sono compatibili la loro somma pu essere anche definita
come quell'evento che si verifica quando vero almeno uno dei due eventi considerati.
Una seconda operazione la cosiddetta negazione. Dato un evento A, si indica con A
(che si legge non A) l'evento negazione di A, che quell'evento che si verifica quando
non si verifica A. Il sottoinsieme corrispondente a A comprende, quindi, tutti gli elementi di
che non appartengono ad A e corrisponde all'area tratteggiata della figura 7.4.4.
Con riferimento all'esempio precedente, se A l'evento "pallina con un numero pari"
l'evento A l'evento "pallina con un numero dispari", mentre se A l'evento "pallina con
un numero superiore a 3", A l'evento "pallina con un numero inferiore o uguale a 3" e
cos via. Gli eventi A e A sono ovviamente sempre incompatibili fra di loro e la loro unione
corrisponde allevento certo.

Figura 7.4.4
Rappresentazione della negazione di un evento

130

Si osservi che mediante le operazioni di somma e negazione si possono definire, a


partire dagli eventi elementari, tutti i sottoinsiemi di .
Una terza operazione l'intersezione o prodotto. Dati i due eventi A e B, il loro
prodotto quell'evento, indicato con il simbolo AB (che si legge A e B), che si verifica
quando sono veri contemporaneamente sia A sia B. Il sottoinsieme corrispondente
all'evento prodotto comprende quindi gli eventi elementari che appartengono sia ad A che
a B e corrisponde all'area tratteggiata della figura 7.4.5.
Si noti che se due eventi sono incompatibili, il loro prodotto corrisponde evidentemente
all'evento impossibile .

Figura 7.4.5
Rappresentazione del prodotto di due eventi

Per esempio, dati gli eventi A "pallina con un numero superiore a 2" e B "pallina con un
numero dispari", l'evento prodotto AB corrisponde all'evento E3E5. Anche il prodotto
pu estendersi a pi di due eventi, cosicch se oltre ai due precedenti consideriamo anche
l'evento C "pallina con un numero inferiore a 5" si ha ABC = E3.
Lultima operazione la cosiddetta differenza. Dati i due eventi A e B, la loro differenza
quell'evento, indicato con il simbolo AB, che si verifica quando vero l'evento A senza
che sia vero contemporaneamente B. Il sottoinsieme corrispondente all'evento differenza
comprende, quindi, tutti gli eventi elementari di A che non appartengono anche a B e
corrisponde all'area tratteggiata della figura 7.4.6.
Se, per esempio, A e B sono gli eventi considerati nell'esempio precedente levento
AB = E4.

131

Figura 7.4.6
Rappresentazione della differenza fra due eventi

Dati due eventi A e B si dice che B implica A, in simboli BA quando, se vero B,


vero necessariamente anche A. Questa situazione si verifica quando tutti gli elementi di B
sono contenuti nel sottoinsieme corrispondente ad A, come si vede nella figura 7.4.7.
Con riferimento all'esempio precedente, E4 implica l'evento A pallina con un numero
superiore a 2, mentre E3B pallina con un numero dispari.

Figura 7.4.7
Rappresentazione di un evento B che implica un evento A

B
A

Quando valgono contemporaneamente le relazioni BA e AB, i due insiemi


coincidono e gli eventi si dicono equivalenti, dato che sono costituiti dai medesimi eventi
elementari.
Per le operazioni sugli eventi valgono, tra le altre, le seguenti regole, il cui significato
facilmente comprensibile
A A = A
AA = A
AB = BA
AB = BA

132

ABC = (AB)C = A(BC)


ABC = (AB)C = A(BC)
A(BC) = (AB)(AC)
A(BC) = (AB)(AC)

AA
A B A B
A B A B .

7.5 Eventi condizionati


Dati due eventi qualsiasi A e B, definiamo ora l'evento A condizionato a B, indicato con
il simbolo A|B, che corrisponde allevento A considerato sotto la condizione che sia vero
l'evento B.
Con riferimento all'urna contenente le 5 palline numerate consideriamo l'evento A
"pallina con un numero superiore a 2". I 5 eventi elementari associati alla prova sono
equiprobabili, per cui la probabilit di A pari a 3/5. Se per abbiamo uninformazione
supplementare, per esempio sappiamo che si verificato levento B "pallina con un
numero dispari", gli eventi elementari possibili ora sono solo 3 e corrispondono alle palline
contrassegnate con i numeri 1, 3 e 5. Fra questi tre eventi solo due (pallina 3 e pallina 5)
sono favorevoli ad A. E' evidente, quindi, che la probabilit dell'evento A|B, ossia
dellevento A una volta che sia noto che si verificato B, uguale a 2/3. In questo caso
linformazione sul verificarsi dellevento B ha fatto aumentare la probabilit dellevento A.
In generale, supponiamo che sia F1, F2, ..., Fh il sottoinsieme di eventi elementari di B
e indichiamo con P(F1), P(F2), ..., P(Fh) le corrispondenti probabilit iniziali. Se noto che
l'evento B vero, gli eventi elementari possibili sono i soli h eventi Fi (i=1,2,...,h) cosicch
per

determinare

la

loro

probabilit

in

questa

situazione

occorre

modificare

proporzionalmente le P(Fi) iniziali in modo che la somma delle nuove probabilit P'(Fi)
risulti uguale ad 1. Evidentemente questo risultato si ottiene dividendo le probabilit iniziali
per la probabilit di B

P' Fi

PFi
P(B)

133

dato che
h
h PF
1 h
P' Fi P(B)i P(B) PFi 1.

i 1

i 1

i 1

Nellesempio considerato i 3 eventi F1 uscita della pallina 1, F2 uscita della pallina 3


e F3 uscita della pallina 5 avevano tutti una probabilit iniziale pari a 1/5 ma, una volta
che noto che levento B si verificato, le nuove probabilit diventano

P' Fi

PFi 1/5 1

P(B) 3/5 3

i=1,2,3

Levento A|B si verifica se si verifica levento F2 oppure F3 per cui la sua probabilit
data da

PA | B P' F2 P' F3

2
.
3

Il sottoinsieme connesso con l'evento A|B composto dai soli eventi Fi che risultano in
comune fra A e B e corrisponde perci al prodotto (AB) di questi due eventi. La
probabilit dell'evento A|B sar quindi uguale alla somma delle probabilit P'(Fi) degli
eventi elementari in comune fra A e B determinate sotto la condizione che B sia vero. Si
ottiene quindi che la probabilit dell'evento condizionato uguale alla probabilit iniziale
del prodotto divisa per la probabilit dellevento condizionante

PA | B

PA B
.
PB

7.5.1

Riprendiamo lesempio considerato, facendo riferimento ai cinque eventi elementari E i


uscita della pallina contrassegnata con il numero i. Dato levento A|B pallina con un
numero superiore a 2 quando noto che la pallina estratta dispari la sua probabilit
data quindi da

134

PA | B

PE 3 PE 5
PA B
2/5 2

.
PB
PE1 PE 3 PE 5 3/5 3

E' ovvio che oltre all'evento A|B possiamo considerare anche l'evento B|A la cui
probabilit, in analogia alla 7.5.1, risulta

PB | A

PA B
.
PA

7.5.2

Dalle 7.5.1 e 7.5.2 si ottiene anche

PA B PB PA | B PA PB | A

7.5.3

che costituisce il cosiddetto teorema delle probabilit composte, secondo il quale la


probabilit del prodotto di due eventi uguale alla probabilit di uno dei due eventi per la
probabilit dell'altro condizionato al primo.
Questo teorema che si dimostra facilmente con riferimento alle definizioni classica o
frequentista, condizione necessaria e sufficiente per la coerenza nella definizione
soggettivista, mentre nellimpostazione assiomatica costituisce un postulato.
Si osservi che se due eventi A e B sono incompatibili la probabilit del loro prodotto
uguale a zero, mentre se sono compatibili la probabilit della loro somma uguale alla
somma delle probabilit associate ai due eventi meno la probabilit del loro prodotto
P(AB) = P(A) + P(B) P(AB).

7.5.4

E chiaro infatti che se si sommassero semplicemente le probabilit di due eventi


compatibili la probabilit del loro prodotto verrebbe conteggiata due volte. La 7.5.4
costituisce unestensione del teorema delle probabilit totali.
In genere la probabilit dellevento A condizionato a B risulta diversa dalla probabilit di
A e quindi laumento di informazione che deriva dal fatto di sapere che B vero fa
aumentare o diminuire la probabilit di A. Nellesempio precedente linformazione su B ha
fatto aumentare la probabilit di A, dato che P(A) = 3/5 e P(A|B) = 2/3. Se B fosse stato

qSi noti lanalogia con la definizione di frequenza condizionata.

135

levento pallina con un numero pari, la probabilit di A|B sarebbe risultata P(A|B) =
P(AB)/P(B) = (1/5)/(2/5) = 1/2, e quindi minore di P(A).
Si osservi ora che se la probabilit di A|B risulta uguale alla probabilit di A,
linformazione su B non modifica la probabilit di A ed in questo caso l'evento A si dice
indipendente in senso stocastico da B. Dalla 7.5.3 si ha

P(AB) = P(B) P(A),

7.5.5

e si vede subito che se A indipendente da B anche B indipendente da A dato che

P(AB) = P(A) P(B) = P(A) P(B|A)

e che quindi P(B) deve essere uguale a P(B|A).


Dalla 7.5.5 risulta che, se due eventi sono indipendenti, la probabilit del loro prodotto
uguale al prodotto delle loro probabilit. Questa condizione necessaria e sufficiente per
lindipendenza stocasticar di A e di B.
Data per esempio unurna che contiene 6 palline numerate da 1 a 6, levento A pallina
con un numero inferiore o uguale a 2 e levento B pallina con un numero dispari
risultano indipendenti fra di loro, dato che P(A)=1/3, P(B)=1/2 e P(AB) =1/6=P(A)P(B).
La probabilit del prodotto di tre eventi A1, A2, A3, in base al teorema delle probabilit
composte, pu essere espressa nel modo seguente

P(A 1 A 2 A 3 ) P(A1 A 2 ) | A 3 P(A 1 A 2 )PA 3 | (A1 A 2 )


P(A 1 )P(A 2 | A 1 )PA 3 | (A1 A 2 )

per cui in generale per h eventi Ai (i = 1,2,,h) si ha

P(A 1 A 2 ... A h )

P(A1 )P(A 2 | A 1 )PA 3 | (A1 A 2 )...P A h | (A1 A 2 ... A h 1 ),

7.5.6

mentre se gli eventi sono tutti indipendenti fra di loro, la probabilit del loro prodotto si
riduce semplicemente al prodotto delle probabilit dei singoli eventi
rQuesta condizione, come si vede, analoga a quella di indipendenza assoluta per le variabili statistiche.

136

P(A1 A 2 ... A h ) P(A1)P(A 2 )...P(A h ) .

7.5.7

Si fa notare che questultima espressione condizione necessaria ma non sufficiente


per lindipendenza stocastica fra tutti gli h eventi, la quale richiede invece che la probabilit
del prodotto di un qualsiasi sottogruppo degli h eventi sia uguale al prodotto delle
probabilit degli eventi stessi.
Per esempio, nel caso di tre eventi la condizione di indipendenza sussiste se gli eventi
risultano indipendenti due a due

P(A1 A 2 ) P(A1 )P(A 2 ) ,


P(A1 A 3 ) P(A1 )P(A 3 ) ,
P(A 2 A 3 ) P(A 2 )P(A 3 )
e se verificata luguaglianza

P(A1 A 2 A 3 ) P(A1 )P(A 2 )P(A 3 ) .

Dato, per esempio, un esperimento che consiste nel lancio di un dado bilanciato,
verificare se gli eventi E1=1, 2, 3, 4, E2=4, 5, 6 ed E3=2, 4, 6 sono completamente
indipendenti fra di loro. In questo caso occorre siano verificate contemporaneamente le
condizioni
i) P(E1E2) = P(E1)P(E2),
ii) P(E1E3) = P(E1)P(E3),
iii) P(E2E3) = P(E2)P(E3),
iv) (E1E2E3) = P(E1)P(E2)P(E3).
Per quanto riguarda la condizione i) si osservi che l'evento (E 1E2) costituito
dall'evento elementare "uscita della faccia 4" che ha probabilit pari ad 1/6, mentre
P(E1)=4/6 e P(E2)=1/2 e di conseguenza P(E1)P(E2)=1/3 e la condizione i), quindi, non

137

verificata. I tre eventi considerati, quindi, non sono completamente indipendenti, dato che
non lo sono gli eventi E1 ed E2.
Per quanto riguarda le rimanenti condizioni facile verificare che risulta
ii) P(E1E3) =

1
= P(E1)P(E3),
3

iii) P(E2E3) =

1
1
P(E2)P(E3) = ,
4
3

iv) P(E1E2E3) =

1
= P(E1)P(E2)P(E3).
6

Finora abbiamo considerato solo spazi campionari finiti, ossia spazi campionari
costituiti da un numero finito di eventi elementari. In alcune situazioni, per, gli eventi
elementari che possibile considerare in relazione ad un determinato esperimento
possono essere infiniti.
Con riferimento allurna contenente 5 palline numerate si pensi per esempio di estrarre
una pallina e, dopo aver annotato il risultato, di rimettere la pallina nellurna e di procedere
ad una seconda estrazione e cos via. Consideriamo levento E i la pallina con il numero 1
compare per la prima volta alla i-esima estrazione. E chiaro che la pallina con il numero 1
pu comparire per la prima volta alla prima estrazione, alla seconda, ..., alla i-esima, ....
cosicch gli eventi Ei (i=1,2,...) costituiscono una infinit numerabile, dato che possono
essere messi in corrispondenza biunivoca con linsieme dei numeri naturali.
In questo caso detto spazio campionario infinito numerabile in quanto contiene
una infinit numerabile di punti campionari ed possibile considerare eventi composti
corrispondenti a sottoinsiemi che contengono anch'essi infiniti punti. Con riferimento
allesperimento precedente, un evento composto di questo tipo , per esempio, levento A
"la pallina con il numero 1 compare per la prima volta in unestrazione di ordine pari".
Si osservi infine che anche possibile che linsieme degli eventi elementari connessi
con un esperimento o un fenomeno costituisca un insieme con la potenza del continuo e
che sia quindi uno spazio campionario infinito non numerabile. Cos, per esempio, il
prezzo di un titolo di Borsa un fenomeno caratterizzato da uno spazio campionario non
numerabile, i cui eventi elementari corrispondono ai numeri reali positivi.
In questo caso gli eventi elementari possono essere messi, in generale, in
corrispondenza biunivoca con i punti di un intervallo [a, b] dellasse dei numeri reali e la
probabilit pu essere assegnata sui sottointervalli di [a, b].

138

7.6 La formula di Bayes


Dagli ultimi due termini della 7.5.3 si ottiene luguaglianza

PA | B PA

PB | A
,
PB

7.6.1

che costituisce la pi semplice formulazione del teorema di Bayes.


Supponiamo di avere un'urna che contiene 100 palline composte da materiali diversi e
indistinguibili fra di loro se non per il colore, che indichiamo con E 1 ed E2. Indichiamo con
C1, C2 e C3 le tre composizioni di materiali e supponiamo che le palline composte di C1
siano 50, di cui 9 di colore E1 e 41 di colore E2, le palline di C2 siano 45, di cui 15 di colore
E1 e 30 di colore E2, mentre quelle di C3 siano 5, di cui 2 di colore E1 e 3 di colore E2.
L'esperimento consiste nell'estrarre una pallina dall'urna e nell'esaminarne il colore allo
scopo di individuare il materiale di cui composta la pallina estratta. Dato che le palline
sono indistinguibili per quanto riguarda la loro composizione, in generale il materiale non
potr essere individuato esattamente, ma sar solo possibile valutare la probabilit che la
pallina estratta sia composta di un dato materiale quando noto il suo colore. Le
probabilit associate ai diversi colori e composizioni di materiali sono

P(E1 )

9 15 2
0,26 ,
100

P(E 2 )

41 30 3
0,74
100

P(C1 )

50
0,50 ,
100

P(C 2 )

45
0,45 ,
100

P(C3 )

5
0,05 .
100

Da questi valori si nota come, senza conoscere il colore della pallina, la composizione
di materiale pi probabile di una pallina estratta in modo casuale dallurna sia C1 e,
successivamente, C2, mentre pari solo al 5% la probabilit che la composizione sia C3.
La probabilit di estrarre una pallina del colore j e composta del materiale i

139

P(E j Ci ) P(Ci )P(E j | Ci ) P(E j )P(Ci | E j ) ,

i=1,2,3, j=1,2,

come risulta dalla 7.5.3.


Quello che interessa determinare, nellesempio considerato, P(C i|Ej), ossia la
probabilit che la pallina abbia la composizione Ci quando noto che il suo colore Ej.
Sulla base delluguaglianza precedente questa probabilit risulta pari a

P(Ci | E j ) P(Ci )

P(E j | Ci )
P(E j )

i = 1,2,3, j = 1,2.

7.6.2

Tenendo presente che, in base ai dati, le probabilit P(Ej|Ci) sono

P(E1 | C1 )

9
0,18 ,
50

P(E 2 | C1 )

41
0,82 ,
50

P(E1 | C 2 )

15
0,3 ,
45

P(E 2 | C 2 )

30
0,6 ,
45

P(E1 | C3 )

2
0,40 ,
5

P(E 2 | C3 )

3
0,60 ,
5

supponiamo che nel corso dell'esperimento venga estratta una pallina di colore E 1.
Sulla base della 7.6.2 le probabilit che la pallina estratta sia composta dai 3 diversi
materiali sono uguali a

P(C1 | E1 ) 0,50

0,18
0,3462 ,
0,26

P(C 2 | E1 ) 0,45

0,3
0,5769 ,
0,26

P(C3 | E1 ) 0,05

0,40
0,0769 .
0,26

7.6.3

Come si vede, una volta noto il colore della pallina estratta, si modificano le probabilit
associate ai diversi materiali. Nell'esempio considerato, infatti, la composizione pi
probabile senza conoscere il colore della pallina C1 mentre, se la pallina risulta di colore
E1, la composizione pi probabile diventa C2.

140

Si osservi che la somma delle probabilit riportate nella 7.6.3 ovviamente pari ad 1,
perch i tre eventi (Ci|E1), i = 1,2,3, sono necessari ed incompatibili. Di conseguenza, dalla
7.6.2 la probabilit che la pallina estratta sia del colore Ej risulta pari a

P(E j ) P(Ci )P(E j | Ci ) ,

j = 1,2

7.6.4

i 1

e questa uguaglianza pu risultare particolarmente utile nei casi reali perch non sempre
si conosce il valore di queste probabilit.
In generale, la formula di Bayes consente di aggiornare la probabilit associata ad un
certo evento quando vengono acquisite informazioni supplementari. In questo contesto la
probabilit P(Ci) associata all'evento Ci viene detta probabilit a priori, la probabilit
P(Ci|Ej) associata all'evento Ci una volta noto levento Ej viene detta probabilit a
posteriori, mentre la probabilit P(Ej|Ci), considerata dopo che levento Ej si verificato,
costituisce la verosimiglianza dell'ipotesi Ci.
La formula di Bayes ha delle applicazioni rilevanti quando, per esempio, si vuole
determinare la probabilit che un individuo sia affetto da una certa malattia sulla base di
alcuni sintomi, che per sono comuni anche ad altre malattie, oppure quando si vuole
determinare la probabilit che una certa pianta o un certo animale appartenga ad una
certa variet sulla base di alcune sue caratteristiche.
Pi in generale, in presenza di un certo evento E j (colore delle palline, sintomi,
caratteristiche individuali), j = 1,2,,k, che pu verificarsi in situazioni o per cause diverse
Ci (materiale delle palline, malattie, variet), i = 1,2,,h, la formula di Bayes consente di
determinare la probabilit che levento Ej sia stato prodotto dalla causa Ci.
Se ciascuna delle h cause Ci pu produrre gli stessi k eventi Ej necessario che sia
valutata la probabilit che la causa Ci produca uno qualsiasi degli eventi Ej.
Le cause devono essere necessarie e incompatibili, cio deve risultare

P(Ci ) 1,

i 1

il che significa che un qualsiasi evento Ej che si verifica stato prodotto necessariamente
da una delle cause Ci. E' necessario inoltre che sia nota per ogni Ci la probabilit P(Ej|Ci)

141

con cui la causa Ci produce levento Ej. Non invece necessario che sia nota la probabilit
P(Ej), come abbiamo visto con la 7.6.4.
Consideriamo, per esempio, il caso di una ditta che commissiona una serie di spot ad
una televisione locale. Supponiamo che successivamente la ditta intervisti ciascun cliente
per rilevare se ha visto lo spot e se ha effettuato l'acquisto. Se si indica con C l'evento "il
cliente ha visto lo spot" e con E l'evento "il cliente ha effettuato l'acquisto", supponiamo
che in base alle registrazioni sia risultato

P(E) = 6/10,
P(C|E) = 7/10,
P(C| E ) = 2/10.
Linteresse della ditta sar quello di verificare se la pubblicit risultata efficace e, a
tale scopo, sar interessata a calcolare le probabilit che il cliente, avendo visto lo spot,
abbia effettuato lacquisto oppure no.

Poich la probabilit P E che il cliente non abbia effettuato lacquisto pari a 4/10,
dalla 7.6.4 la probabilit che il cliente abbia visto lo spot risulta

P(C) PC | EP(E) P C | E P(E)

7 6
2 4 1

.
10 10 10 10 2

Dal teorema di Bayes 7.6.1, la probabilit che il cliente abbia effettuato lacquisto
avendo visto lo spot risulta

PE | C

PC | EPE 0,7 0,6

0,84 ,
PC
0,5

mentre la probabilit che non abbia effettuato lacquisto avendo visto lo spot

0,4
PCP| ECP E 0,20,5
0,16 .

PE|C

Si pu quindi concludere che la serie di spot stata molto efficace, dato che fra i clienti
che hanno visto la pubblicit una quota molto elevata ha effettuato l'acquisto.

142

7.7 Cenni di calcolo combinatorio


Vedremo in questo paragrafo come, in alcune situazioni, per determinare la probabilit
di un evento possa risultare conveniente ricorrere alle nozioni di calcolo combinatorio.
Questa branca della matematica consente infatti di determinare i modi per raggruppare ed
ordinare, secondo regole prestabilite, gli elementi di un insieme finito di oggetti. In pratica,
con il calcolo combinatorio, si pu determinare facilmente il numero di possibili
configurazioni che possono assumere k oggetti estratti da numero finito di n oggetti.
Nei problemi di calcolo della probabilit le nozioni di calcolo combinatorio ci consentono
di elencare in modo semplice tutti gli eventi elementari associati ad un determinato
esperimento.
Qui di seguito ne richiameremo le principali definizioni facendo riferimento a due diversi
tipi di estrazione delle palline dall'urna: se ciascuna delle palline estratte viene reintrodotta
nell'urna prima di procedere ad una nuova estrazione si dice che le estrazioni vengono
effettuate con reimbussolamento o con ripetizione. In caso contrario lo schema di
estrazione viene detto senza reimbussolamento o senza ripetizione.

- Permutazioni
Supponiamo di avere unurna contenente 5 palline numerate da 1 a 5 e che la prova
consista nellestrarre tutte le palline una alla volta senza rimetterle nellurna. Si vuole
determinare la probabilit che le palline estratte si presentino in ordine crescente.
Il numero dei possibili risultati della prova, e cio il numero degli ordinamenti possibili,
pari a 120, come si ottiene facilmente tenendo presente che al primo posto pu
presentarsi una qualsiasi delle 5 palline, al secondo posto una delle 4 rimaste nellurna e
cos via. Il numero dei diversi ordinamenti quindi pari a 54321 =120.
Nellesempio considerato l'estrazione delle palline in ordine crescente solo uno dei
possibili ordinamenti e, dato che un qualsiasi risultato ha la stessa probabilit di verificarsi
di un qualsiasi altro, la probabilit cercata pari a 1/120.
In generale, dati n oggetti o elementi qualsiasi, distinti fra di loro, tutti i possibili
ordinamenti diversi per lordine con cui compaiono gli n oggetti sono detti permutazioni di n
elementi ed il loro numero, pari a
n(n1)(n2)... 21,

viene indicato sinteticamente dal simbolo n! (n fattoriale).


143

Consideriamo ora le quattro lettere A, B, C, D e supponiamo di voler determinare la


probabilit che la lettera B si presenti al primo posto. Le possibili permutazioni di queste
lettere pari a 4!=24

ABCD BACD CABD DABC


ABDC BADC CADB DACB
ACBD BCAD CBAD DBAC
ACDB BCDA CBDA DBCA
ADBC BDAC CDAB DCAB
ADCB BDCA CDBA DCBA

ed il numero di ordinamenti in cui la B compare al primo posto 6, cosicch la probabilit


cercata pari a 6/24=0,25. Come si vede tutti i gruppi considerati sono composti sempre
dai medesimi elementi e differiscono fra di loro solo per lordine degli stessi.

- Disposizioni senza ripetizione


Consideriamo nuovamente lurna contenente 5 palline numerate da 1 a 5 e un
esperimento che consiste nellestrarre 2 palline senza ripetizione. Vogliamo determinare la
probabilit di ottenere una pallina pari in occasione di entrambe le estrazioni ossia,
indicato con Ai levento uscita di una pallina pari alla i-esima estrazione la probabilit
dell'evento (A1 A 2 ) . Se le estrazioni sono solo due, il numero dei risultati possibili
uguale a 20, dato che nella prima estrazione si pu presentare una qualsiasi delle 5
palline e nella seconda una delle 4 palline rimanenti. I casi favorevoli allevento (A1 A 2 )
sono solo 2 e cio le due coppie (2,4) e (4,2) composte dalle palline numero 2 e numero 4,
cosicch la probabilit associata allevento considerato pari a P(A1 A 2 ) 0,1.
In generale, dati n elementi distinti, tutti i gruppi di k elementi (con k n) estratti senza
ripetizione che possibile formare a partire dagli n, che risultano diversi per gli oggetti che
li compongono o per lordine con cui questi si presentano, sono detti disposizioni di n
elementi di classe k (indicate con Dn,k) ed il loro numero corrisponde a
Dn,k = n(n1)(n2)... (nk+1).

144

Se usiamo i fattoriali lo stesso numero pu essere espresso in modo sintetico mediante


la notazione

Dn,k =

n!
.
n k !

Supponiamo di considerare uno scaffale a due posti e 3 diversi prodotti A, B e C. Il


numero di modi in cui i prodotti possono essere disposti sullo scaffale risulta pari a 3*2=6
dato che le possibili coppie di prodotti presenti sullo scaffale sono le seguenti

AB

BA

CA AC BC CB.

- Combinazioni senza ripetizione


Consideriamo lurna contenente le 5 palline numerate e un esperimento che consiste
sempre nellestrarre due palline senza ripetizione. Vogliamo determinare la probabilit che
la somma dei numeri che compaiono sulle due palline estratte sia uguale a 6. In questo
caso conviene fare riferimento al numero di risultati possibili indipendentemente dallordine
con cui compaiono le palline, dato che l'ordine dei risultati irrilevante per quanto riguarda
il valore della loro somma.
Il numero delle possibili coppie diverse fra di loro per almeno un elemento pari al
numero delle disposizioni senza ripetizione di 5 elementi di classe 2 diviso per 2, dato che
nelle disposizioni ciascuna coppia composta dagli stessi elementi compare in due modi
diversi.
Con riferimento allesperimento considerato, il numero dei casi possibili pari quindi a

5!
10 , mentre le coppie a cui corrisponde una somma pari a 6 sono solo quelle
3!2!
costituite dai numeri (1,5) oppure (2,4) per cui la probabilit cercata uguale a 2/10 = 0,2.
In generale, dati n elementi distinti, tutti i gruppi che possibile formare con k (con kn)
di questi elementi, estratti senza ripetizione, diversi per gli oggetti che li compongono,
sono detti combinazioni di n elementi di classe k (indicate con Cn,k) ed il loro numero
corrisponde a

145

Cn,k =

n (n 1) ... (n k 1)
n!
.

k!
k!n k !

Il numero delle combinazioni di n elementi di classe k viene indicato sinteticamente

n
anche con la notazione .
k
Supponiamo che da un gruppo di 9 persone, di cui 6 uomini e 3 donne, siano estratti
casualmente 3 nominativi per eleggere una commissione e che si voglia determinare la
probabilit degli eventi: A la commissione composta da sole donne, B la commissione
composta da un uomo e due donne, C nella commissione c almeno un uomo.
In questo caso, dato che nella commissione non pu comparire due volte uno stesso
individuo, lesperimento assimilabile ad una estrazione senza ripetizione. Il numero di
terne diverse fra di loro per almeno un elemento corrisponde al numero di combinazioni di

9
9 elementi di classe 3 ed uguale a C 9,3 84 . Nel nostro caso le terne sono
3
equiprobabili e vi una sola terna che corrisponde allevento A. Si ha quindi

PA

1
0,0119 .
84

Per quanto riguarda levento B la commissione composta da un uomo e due donne


si osservi che la coppia di donne pu essere formata in tre modi diversi (prima e seconda
donna, prima e terza oppure seconda e terza), pari al numero delle combinazioni di 3
elementi di classe 2, e che ad ognuna di queste coppie pu essere associato uno
qualsiasi fra i 6 uomini presenti nel gruppo.

3
Il numero di terne favorevoli allevento considerato pari quindi a 6 18 e la
2
probabilit dellevento B quindi

PB

18
0,2143 .
84

Per determinare la probabilit dellevento C nella commissione c almeno un uomo


occorre calcolare il numero di terne composte da due donne ed un uomo, da una donna e

146

3
due uomini e da tre uomini, che corrispondono rispettivamente a 6 18 , a
2
6
3 45 ed a
2

PC

6
20 . Si ha quindi
3

18 45 20 83

0,9881.
84
84

Dagli esempi fatti si vede quindi che i gruppi presi in considerazione nel caso delle
combinazioni senza ripetizione differiscono fra di loro per almeno un elemento e non per
lordine in cui tali elementi si presentano.

- Disposizioni con ripetizione


Consideriamo nuovamente lurna con le 5 palline numerate, ma supponiamo questa
volta che lestrazione sia fatta con ripetizione. Vogliamo valutare la probabilit degli eventi
Ai (i = 1, 2, 3, ...) nella i-esima estrazione compare una pallina pari.
In questo caso la probabilit di ottenere una pallina pari alla i-esima prova, per il
meccanismo di estrazione utilizzato, non dipende dai risultati ottenuti nelle prove
precedenti, dato che in occasione di una qualsiasi estrazione la composizione dellurna
sempre identica a quella iniziale. La probabilit P(Ai) in ogni caso uguale a 2/5, dato che
nellurna ci sono sempre due palline contrassegnate con un numero pari. La probabilit di
ottenere un dato risultato alla i-esima estrazione quindi sempre la stessa, sia nello
schema con ripetizione, sia in quello senza ripetizione.
Supponiamo ora di effettuare due estrazioni con ripetizione e di voler valutare la
probabilit di ottenere in entrambe le prove una pallina pari. Il numero di eventi possibili, in
questo caso, dato dal prodotto 55 = 25, perch possiamo ottenere una qualunque delle
palline contenute nell'urna sia nella prima sia nella seconda estrazione.
In generale se si effettuano k estrazioni con ripetizione da un'urna che contiene n
palline distinte (con k qualsiasi), il numero di eventi elementari associato all'esperimento
corrisponde al numero delle disposizioni con ripetizione di n elementi di classe k (indicato
con rDn,k) ed dato da

rDn,k

= n n ... n nk .

147

Il numero di coppie che possibile costituire in questo caso con le due palline numero 2
e numero 4 uguale evidentemente a 4, e pi precisamente alle coppie (2, 2), (2, 4), (4, 2)
e (4, 4), cosicch la probabilit cercata pari a 4/25.
Per esempio, la probabilit di fare 13 al totocalcio corrisponde alla probabilit di scrivere
lunica colonna di risultati corretti sui 313 risultati possibili ed pari quindi a

1
313

1
.
1.594.323

In questo caso, come si vede dagli esempi fatti, i gruppi che vengono presi in
considerazione differiscono fra di loro per almeno un elemento oppure per lordine in cui si
presentano gli elementi.
Consideriamo infine un esperimento che consiste nel lancio di 4 dadi equilibrati e
supponiamo di voler calcolare la probabilit che si ottenga un risultato differente su
ciascuno di essi. I possibili risultati associati a questo esperimento corrispondono alle
disposizioni con ripetizione di 6 elementi di classe 4 e sono quindi 6 4, mentre i casi
favorevoli corrispondono alle disposizioni senza ripetizione di 6 elementi di classe 4 e sono
quindi pari a 6543. La probabilit associata allevento in esame, quindi, risulta pari a
6543
64

5
0,28 .
18

7.8 Alcuni esempi di calcolo delle probabilit


Riprendiamo alcuni degli esempi gi esaminati per vedere come le probabilit di tali
eventi possano essere valutate anche sulla base di alcune definizioni date nei paragrafi
precedenti.
La probabilit di estrarre 2 palline con punteggio pari dallurna contenente 5 palline
numerate quando lestrazione effettuata con ripetizione, per esempio, pu essere
ottenuta anche, e pi semplicemente, in un altro modo. Indicato con (A1 A 2 ) levento
considerato, la sua probabilit in base alla 7.5.3 uguale a

148

P(A1 A 2 ) P(A1)P(A 2 | A1 ) .

7.8.1

In questo caso levento A2 pu essere considerato indipendente da A1 dato che il


risultato della prima estrazione non ha influenza sulla probabilit di quello della seconda.
Per la 7.5.5 si ha, quindi,

P(A1 A 2 ) P(A1 )P(A 2 )

4
.
25

Queste considerazioni possono essere estese ad un qualsiasi numero k di estrazioni


con ripetizione. La probabilit del risultato della i-esima estrazione (i = 1, 2, ..., k) non
dipende dai risultati ottenuti in precedenza ed uguale alla probabilit di quello stesso
risultato nella prima prova. La probabilit di una data successione di risultati, quindi,
uguale semplicemente al prodotto delle probabilit dei singoli risultati.
Calcoliamo ora mediante la 7.8.1 la probabilit dellevento (A1 A 2 ) quando
lestrazione senza ripetizione. In questo caso P(A1 ) vale sempre 2/5, mentre la
probabilit P(A 2 | A1 ) uguale ad 1/4, dato che in occasione della seconda estrazione
nellurna vi una sola pallina bianca su 4, cosicch P(A1 A 2 ) 2 / 5 1/ 4 2 / 20 0,1.
Consideriamo ora nuovamente il gruppo di 9 persone (6 uomini e 3 donne) dal quale
vengono estratti casualmente 3 nominativi per eleggere una commissione e valutiamo la
probabilit dellevento A la commissione composta da sole donne. Se si indica con D i
(con i = 1, 2, 3) levento estrazione di una donna nella i-esima prova, si ha

A D1 D2 D3

e quindi, in base alla 7.5.6,

PA PD1 D 2 D3 PD1 PD 2 | D1 PD3 | D1 D 2

3 2 1 1

,
9 8 7 84

dato che la probabilit che nella prima estrazione si ottenga una delle 3 donne presenti nel
gruppo pari a 3/9, la probabilit che nella seconda estrazione si abbia una delle due

149

donne fra gli 8 individui rimasti 2/8, mentre la probabilit che nella terza estrazione si
abbia lunica donna rimasta 1/7.
L'evento B la commissione composta da un uomo e due donne, se si considerano
gli eventi Ui (i = 1, 2, 3) estrazione di un uomo alla i-esima prova, corrisponde a

B (U1 D2 D3 ) (D1 U2 D3 ) (D1 D2 U3 ) .

Dato che i tre eventi prodotto sono a due a due incompatibili, la probabilit della loro
unione pari alla somma delle loro probabilit per cui si ha

PB

6 3 2 3 6 2 3 2 6
0,2143 .
9 8 7 9 8 7 9 8 7

Per quanto riguarda la probabilit dell'evento C nella commissione c almeno un


uomo, si osservi che in questo caso P(C) pu essere ottenuta immediatamente tenendo
presente che levento C corrisponde alla negazione di A la commissione composta da

sole donne, ossia C A . La probabilit P A quindi uguale a 1P(A), dato che

P A A PA P A 1,

per cui si ha

PC P A 1 PA

83
0,9881.
84

Sempre con riferimento allo stesso gruppo di 9 persone determiniamo ora la probabilit
associata allevento D2 "estrazione di una donna nella seconda prova" supponendo che
lestrazione avvenga senza ripetizione. La probabilit di questo evento potrebbe essere
effettuata semplicemente mediante il rapporto fra il numero di casi favorevoli ed il numero
di casi possibili oppure tenendo presente che D2 pu essere espresso nel modo seguente

D2 (D1 D1 ) D2

150

dato che levento estrazione di una donna nella seconda prova equivalente allevento
estrazione di un uomo oppure di una donna nella prima prova ed estrazione di una donna
nella seconda prova. E chiaro infatti che in generale un qualsiasi evento A pu anche
essere espresso come lintersezione di A con levento certo. Si ha quindi

P(D2 ) P (D1 D1) D2 P (D1 D2 ) ( D1 D2 )


P(D1 D2 ) P( D1 D2 ) P(D1 )P(D2 | D1 ) P( D1 )P(D2 | D1 )

32 63 1

98 98 3

che conferma il risultato che la probabilit di ottenere un dato evento alla i-esima prova
in ogni caso uguale alla probabilit di ottenere lo stesso evento in unaltra prova qualsiasi.
Questo stesso procedimento basato sulla probabilit di un prodotto di eventi pu essere
utilizzato anche per determinare la probabilit di ottenere la sequenza 1,2,3,4,5 dallurna
contenente 5 palline numerate quando si estraggono tutte e 5 le palline senza ripetizione.
La probabilit di ottenere la pallina numero 1 alla prima prova infatti pari a 1/5, quella di
ottenere la pallina numero 2 alla seconda prova 1/4 e cos via, per cui si ha

1 1 1 1
1
.
1
5 4 3 2
120
Infine, sempre con riferimento allurna contenente 5 palline numerate, determiniamo la
probabilit che estraendo due palline senza ripetizione entrambe le palline risultino pari
quando noto che almeno una pari. Si tratta, come si vede, di determinare la probabilit
dellevento F = (A1 A 2 ) | (A1 A 2 ) dove Ai, i = 1, 2, indica levento pallina pari nella iesima prova.
I casi favorevoli allevento F sono solo 2, mentre il numero dei casi possibili uguale a
quello delle coppie nelle quali almeno una delle palline pari. Questultimo numero
uguale a 14 dato che il numero di tutte le coppie 54=20, mentre quello delle coppie
composte da soli numeri dispari 32=6. La probabilit cercata, quindi, pari a 2/14=1/7.
La stessa probabilit pu essere determinata utilizzando lespressione 7.5.1. Si tenga
presente che in questo caso levento prodotto ( A1 A 2 ) (A1 A 2 ) corrisponde a

151

(A1 A 2 ) (A1 A 2 ) (A1 A 2 A 1 ) (A1 A 2 A 2 )


(A1 A 2 ) (A1 A 2 ) A 1 A 2 .

Si ha quindi

P(A1 A 2 ) | (A1 A 2 )

P(A 1 A 2 )
P(A 1 A 2 )
0,1 1

.
P(A 1 A 2 ) P(A 1 ) P(A 2 ) P(A 1 A 2 ) 0,7 7

152

CAPITOLO 8
VARIABILI CASUALI

8.1 Variabili casuali semplici


In molte situazioni, dato un certo esperimento, si pu essere interessati non tanto agli
eventi (elementari o composti) che possono verificarsi nel corso dellesperimento stesso,
quanto ad un valore numerico che associato a ciascun evento elementare. Cos, per
esempio, nel caso del lancio di un dado si pu avere interesse a conoscere il valore
numerico della faccia uscita, mentre in un esperimento che consiste nel lancio di due dadi
si pu essere interessati a conoscere il punteggio totale realizzato oppure il valore
massimo fra i due risultati ottenuti.
In unindagine sulle famiglie si pu essere interessati a rilevare il numero dei
componenti, il numero di automobili possedute o il reddito mensile, cos come nei controlli
di qualit si generalmente interessati a determinare il numero di elementi difettosi che
sono stati estratti oppure la loro durata di funzionamento.
In generale quindi le indagini reali hanno spesso lo scopo di conoscere la distribuzione
di una qualche variabile in una collettivit e quello che interessa in questi casi il valore di
tale variabile assunto sugli individui selezionati.
Data una popolazione composta da N individui, ciascuno identificato con un numero
intero da 1 a N, supponiamo che la prova consista nellestrarre un individuo in modo
casuale per rilevare il valore di un certo carattere Z e che il meccanismo di sorteggio
assegni ad ogni individuo la stessa probabilit di essere estratto.
Per semplicit supponiamo che la popolazione sia composta da N=5 persone adulte,
che la variabile Z sia il numero di libri letti nellultimo anno e che i valori di Z siano quelli
riportati nella tabella successiva.

Tabella 8.1.1
Identificativo degli individui e numero di libri letti in un anno
numero assegnato allindividuo
numero di libri letti

1
7

2
10

153

3
5

4
2

5
18

I possibili risultati della prova, che corrispondono ai 5 eventi elementari E i estrazione


dellindividuo i-esimo (i=1,2,...,5), possono essere descritti in modo equivalente mediante
il valore di Z rilevato sullindividuo estratto. Come si vede dalla tabella infatti dire che si
verifica, per esempio, levento E2 estrazione del secondo individuo equivale a dire che il
valore di Z sullindividuo estratto pari a 10.
Se indichiamo con X la variabile numero di libri letti nellultimo anno dallindividuo
estratto, possiamo vedere che in una prova questa variabile potr assumere solo uno dei
valori della variabile Z. Gli eventi elementari, quindi, possono essere descritti anche
utilizzando la X, che assume il valore xi quando viene estratto li-esimo individuo. In altri
termini questo significa che levento Ei pu essere identificato anche con la notazione X=xi
e la probabilit che la variabile X assuma un valore uguale a xi corrisponde alla probabilit
che si verifichi levento Ei.
I possibili risultati della prova e le corrispondenti probabilit sono descritti nella tabella
successiva che riporta nella prima colonna le possibili determinazioni di X elencate in
ordine crescente e nella seconda colonna le probabilit associate a ciascuna
determinazione.

Tabella 8.1.2
Distribuzione della variabile X
X
2
5
7
10
18
totale

probabilit
0,2
0,2
0,2
0,2
0,2
1,0

In generale, a ciascuno degli N eventi elementari Ei (i = 1, 2, ..., N) connessi con una


prova sempre possibile associare un valore numerico xi di una qualche variabile X in
modo che levento Ei possa essere identificato anche con la notazione X = xi. Mediante
questa associazione fra eventi e determinazioni della X, dire che in una prova si verifica
levento Ei equivale a dire che in quella stessa prova la variabile X assume il valore xi.
La X cos definita viene detta variabile casuale (v.c.), o anche variabile aleatoria o
variabile stocastica, dato che il valore assunto da tale variabile non noto a priori, ma il

154

risultato di un esperimento casuale, ossia dipende da quale evento elementare si


realizzato in una data prova.
Analogamente a quanto visto per una variabile statistica, una qualsiasi variabile casuale
completamente definita quando si conoscono tutte le possibili determinazioni che la
variabile pu assumere e la probabilit corrispondente.
Una v.c. pu essere quindi definita come una variabile che in una prova assume il
valore xi con probabilit pi PX x i .
Il ricorso ad una v.c. per descrivere i risultati di un esperimento del tutto naturale
quando lesperimento consiste in un conteggio come, per esempio, quando si effettua
unindagine campionaria per ottenere informazioni sul numero di componenti delle famiglie
di una certa regione, sul numero di dipendenti delle aziende di un certo settore, sul
numero dei musei presenti nei diversi comuni o, pi in generale, su una qualche
caratteristica quantitativa dei componenti di una collettivit. In questo caso allevento E i
viene estratto li-esimo individuo della collettivit associata lintensit che la variabile
presa in esame assume sulli-esimo individuo.
Si osservi che in generale possibile che a pi eventi Ei corrisponda uno stesso valore
della v.c. X, come risulta evidente dallesempio relativo alle indagini campionarie, dato che
pi individui della collettivit possono presentare una stessa intensit del carattere oggetto
di indagine.
Se per esempio abbiamo 5 eventi elementari E i (i=1,2,...,5) ed agli eventi E1 ed E2
associato uno stesso valore x1, mentre a E3, E4 ed E5 associato il valore x2 e si fa
riferimento ai soli valori della X, in pratica si stanno considerando i due soli eventi
composti A1 (E1 E2 ) ed A 2 (E3 E 4 E5 ) .
La probabilit associata ai valori xi (i=1,2) sar in questo caso

P(X x1) P(A1 ) P(E1) P(E2 ) ,


P(X x 2 ) P(A 2 ) P(E3 ) P(E 4 ) P(E5 )

e si calcola quindi sommando le probabilit degli eventi elementari ai quali associato il


valore xi di X.
Si osservi che in questo caso la v.c. non identifica in modo univoco levento
corrispondente ma, cos come abbiamo visto per le variabili statistiche, in occasione di un

155

esperimento generalmente sufficiente conoscere la distribuzione di probabilit della


variabile presa in considerazione.
Supponendo che la variabile di interesse nella collettivit assuma solo k determinazioni
diverse, la distribuzione di probabilit di una v.c. X valore di Z sullindividuo estratto
descritta mediante una tabella analoga alla 8.1.3 che, come si vede, ha la stessa struttura
di quella della distribuzione di frequenza di una variabile statistica.

Tabella 8.1.3
Esempio di distribuzione di probabilit
X
x1
x2
.
xi
.
xk
totale

probabilit
p1
p2
.
pi
.
pk
1

Si ha evidentemente

pi 0
k

pi

i 1,2,..., k

8.1.1

i1

Quella riportata nella tabella 8.1.3 una generica funzione di probabilit (f.p.) di una
variabile casuale discreta, una funzione cio che concentra masse di probabilit in
corrispondenza dei k valori della X, mentre altrove sempre uguale a zero. In questo caso
la funzione di probabilit detta anche funzione di massa (f.m.).
La stessa distribuzione pu essere descritta anche mediante la corrispondente
funzione di ripartizione

F(x) P(X x)

pi

8.1.2

xi x

156

che per ciascun valore x fornisce la probabilit che in una prova la v.c. X assuma un
valore inferiore o uguale ad x. Si osservi che mediante la funzione di ripartizione, la
probabilit viene assegnata quindi a tutti i sottointervalli (, x].
Dalla definizione precedente risulta che, come nel caso delle variabili statistiche
discrete, la f.r. di una v.c. discreta X definita su tutto lasse reale, assume valori compresi
fra zero ed uno, non decrescente e costante a tratti e nei punti di salto continua a
destra.
La differenza F(xb)F(xa) fra i valori della funzione calcolata in due punti qualsiasi xa ed
xb, con xaxb, corrisponde alla probabilit che la variabile X assuma in una prova un valore
compreso nell'intervallo xa -| xb. Si ha cio

F(x b ) F(x a ) = P(x a X x b ) .

Se i possibili eventi elementari connessi con un esperimento costituiscono una infinit


numerabile, una v.c. X associata agli eventi potrebbe anche assumere una infinit
numerabile di valori xi (i = 1,2,) diversi fra di loro a ciascuno dei quali associato il
valore pi della probabilit corrispondente.
Consideriamo per esempio unurna contenente palline bianche e palline nere ed
effettuiamo unestrazione con ripetizione allo scopo di vedere a quale estrazione si
presenta la prima pallina nera. In questo caso la v.c. X numero di estrazione alla quale si
presenta la prima pallina nera pu assumere evidentemente linfinit numerabile di valori
1, 2, 3, ... .
In altre situazioni la variabile casuale X pu assumere una infinit pi che numerabile di
determinazioni diverse come quando, per esempio, il fenomeno che interessa la durata
di funzionamento di un certo macchinario, la resistenza di un materiale, la quantit di un
gas disciolto nellacqua e cos via. Come si vede, le variabili considerate in questi esempi
sono di tipo continuo e le loro intensit possono essere messe in corrispondenza con tutti i
punti di un intervallo.
In questi casi, in generale, la probabilit non viene assegnata a singole determinazioni
della variabile X, ma ad intervalli di valori, come si gi visto per le distribuzioni di
frequenza di variabili statistiche continue raggruppate in classi.
La funzione di probabilit di una v.c. continua, quindi, assegna la probabilit sui
sottointervalli del campo di variazione della variabile X ed indica la probabilit che la

157

variabile stessa assuma un valore compreso in un determinato sottointervallo. Se la


probabilit non risulta concentrata su singole intensit x di X, ma diffusa su intervalli, la
probabilit associata ad ogni singolo valore uguale a zero, anche se nessuno di questi
corrisponde allevento impossibile.
In generale, anche in questo caso, la probabilit assegnata ai sottointervalli del tipo
(, x] mediante la funzione di ripartizione che risulta quindi definita per qualsiasi valore x
di X, assume valori compresi fra zero ed uno ed non decrescente. Se la variabile non
concentra masse di probabilit in alcun punto, come accade in generale nei casi che
prenderemo in considerazione, la f.r. risulta assolutamente continua e derivabile quasi
ovunque.
Supponiamo, per esempio, che un punto possa assumere una posizione qualsiasi
all'interno di un cerchio di raggio unitario. Se facciamo riferimento a tutti i punti geometrici
compresi nel cerchio, chiaro che la probabilit che il punto in una prova assuma una
posizione predeterminata pari a zero.
Consideriamo ora la v.c. X distanza del punto dal centro del cerchio. I valori di questa
variabile, come si vede, possono essere messi in corrispondenza con tutti i punti di un
segmento di lunghezza unitaria e costituiscono quindi uninfinit pi che numerabile. E
chiaro che anche in questo caso la probabilit che la X assuma un dato valore x ancora
uguale a zero (0 x 1).
Facendo per una qualche ipotesi sulle modalit dellesperimento possibile
determinare la probabilit che la variabile X assuma in una prova un valore inferiore o
uguale a x e quindi attribuire la probabilit a tutti gli intervalli del tipo [0, x] mediante la
funzione di ripartizione. Questa probabilit corrisponde evidentemente alla probabilit
P(X x) che il punto cada allinterno del cerchio di raggio x.
Supponiamo per esempio che lesperimento avvenga con modalit tali per cui il punto
abbia una stessa probabilit di cadere in due qualsiasi zone del cerchio della stessa
ampiezza. In questa situazione, dato che larea del cerchio di raggio x uguale a x2
mentre larea complessiva del cerchio di raggio unitario uguale a , risulta
evidentemente

P(X x)

x 2
x2 .

Abbiamo ottenuto in questo modo la f.r. della v.c. X che assume quindi la forma

158

F(x) x 2
1

x0
0 x 1
x 1.

8.1.3

Dalla 8.1.3 si ottiene la probabilit che la X sia compresa in qualsiasi intervallo [x, x+x]
P(x X x x) F(x x) F(x)

e, per x che tende a zero, si ricava la funzione di densit di probabilit (f.p.) della v.c.
X che assume la forma

2x
f(x)
0

0 x 1
altrove .

8.1.4

Come nel caso delle variabili statistiche, la distribuzione di probabilit di una v.c.
continua pu essere descritta mediante la funzione di ripartizione o mediante la
corrispondente funzione di densit di probabilit. Si noti che la f.r. 8.1.3 non derivabile
negli estremi e che per x=0 e x=1 alla f.p. sono stati assegnati i valori indicati nella 8.1.4.
Questa assegnazione comunque non modifica i valori della f.r. dato che i punti isolati
hanno tutti probabilit uguale a zero.
La funzione di densit di probabilit di una v.c. continua X ha ovviamente le stesse
propriet della f.d. di una variabile statistica e cio
f(x) 0

f(x)dx 1

8.1.5

F(x)

f(t)dt .

Nelle pagine seguenti la funzione di densit di probabilit verr spesso chiamata


semplicemente funzione di probabilit ed abbreviata quindi con f.p.

159

Anche per le v.c. continue esistono dei modelli distributivi, alcuni dei quali sono stati gi
utilizzati per approssimare le distribuzioni di una variabile statistica.
Le distribuzioni di probabilit delle variabili casuali sono perfettamente analoghe alle
distribuzioni di frequenza delle variabili statistiche ed anche la loro descrizione viene
effettuata mediante gli stessi valori caratteristici utilizzati per queste ultime. Cos, per
esempio, il quantile xp di una v.c. X quel valore in corrispondenza del quale si ha
P(X x p ) p ,

per cui dire che un valore x di X il quantile di ordine p equivale a dire che in una prova si
ha una probabilit pari a p che la v.c. X assuma un valore inferiore o uguale ad x.
Il valore modale di una distribuzione di probabilit corrisponde evidentemente al valore
pi probabile nel caso di una variabile discreta ed al valore a cui associata la massima
densit di probabilit nel caso di una variabile continua.
La media aritmetica di una v.c. detta anche valore attesos, mentre la sua varianza
pu essere considerata come una misura del grado di incertezza sui risultati
dellesperimento.
La definizione di tutti questi indici analoga a quella che stata data per le variabili
statistiche cosicch, per esempio, i momenti ordinari corrispondono a
r E(Xr ) x r f x dx ,

8.1.6

mentre i momenti dalla media aritmetica sono dati da

r E (X - )r x - r f x dx .

Per quanto riguarda la f.p. 8.1.4, il primo quartile risulta uguale a 0,5 e questo vuol dire
che la probabilit che un punto cada allinterno del cerchio con un raggio pari a 1/2
uguale ad 1/4. La distanza media del punto dall'origine uguale a 2/3, mentre lo scarto
quadratico medio pari a

1
3 2

sIl simbolo E la lettera iniziale del termine inglese Expectation

160

8.2 Alcuni modelli teorici di variabili casuali semplici discrete


Consideriamo una collettivit in cui N1 individui possiedono una certa caratteristica A,
mentre N2 non la possiedono e supponiamo di estrarre in modo casuale un individuo per
controllare se possiede o meno la caratteristica A.
La situazione pu essere schematizzata facendo riferimento ad unurna contenente N 1
palline bianche ed N2 palline nere. Sia N= N1+ N2 il numero totale di palline e quindi
p= N1/N
la quota di palline bianche.
Se il sistema di sorteggio assegna ad ogni pallina la stessa probabilit di essere
estratta, l'evento E1 "uscita di una pallina bianca" ha evidentemente probabilit pari a p,
mentre l'evento E2 "uscita di una pallina nera" ha probabilit (1p).
L'esperimento pu essere anche descritto mediante una v.c. X "numero di palline
bianche estratte" che assume il valore uno con probabilit p (quando si verifica l'evento E 1)
ed il valore zero con probabilit 1p (quando si verifica l'evento E2).
La v.c. X cos definita detta variabile Zero-uno o di Bernoulli. In generale, infatti, una
variabile Zero-uno una v.c. X che in una prova pu assumere i due soli valori zero ed
uno con probabilit rispettivamente pari ad 1p e p. Quindi la distribuzione di questa
variabile completamente specificata dal valore dellunico parametro p e pu essere
descritta mediante una tabella analoga alla 8.2.1

Tabella 8.2.1
Distribuzione di una v.c. Zero-uno o di Bernoulli
X
0
1
Totale

p(x)
1p
p
1

o mediante la f.m.

f(x) p x (1 p)1 x

x 0,1,
0 p 1.

Si controlla immediatamente che si ha

161

E(Xr ) 0 (1 p) 1 p p

e che quindi la media della variabile e tutti i suoi momenti sono uguali fra di loro ed uguali
a p, per cui risulta anche

V(X) E(X2 ) - EX2 p p 2 p(1 p) .

Si tratta, come si vede, di una v.c. che risulta adeguata per descrivere esperimenti
casuali il cui risultato dicotomico nel senso che pu assumere due sole modalit
(assente/presente, positivo/negativo, maschio/femmina, alto/basso) che in genere sono
chiamate successo ed insuccesso.
Data per esempio una popolazione composta da 20 individui di cui 15 sono occupati e 5
disoccupati, supponiamo di estrarre in modo casuale un individuo per controllare se
disoccupato. Indicata con X la v.c. numero di individui disoccupati, la sua distribuzione
pu essere descritta mediante i dati della tabella 8.2.2

Tabella 8.2.2
Esempio di distribuzione di una v.c. Zero-uno
X
0
1
Totale

p(x)
0,75
0,25
1,00

o mediante la f.m.
x

1 x

1 3
f(x)
4 4

x 0,1.

In questo esempio la media e la varianza della X assumono rispettivamente i valori

E(X) 0
V(X)

3
1 1
1 0,25
4
4 4

1 3 3

0,1875 .
4 4 16

162

Consideriamo ora una moneta truccata in cui la probabilit di ottenere la faccia testa il
doppio della probabilit di ottenere la faccia croce e supponiamo di essere interessati a
determinare la f.m. della v.c. numero di croci ottenute in un lancio. In questo caso il
valore del parametro p che caratterizza tale variabile assumer il valore 1/3, dato che se
indichiamo con E1 levento uscita della faccia testa e con E2 levento uscita della faccia
croce devono essere verificate le due condizioni

P(E1 ) P(E 2 ) 1
P(E1 ) 2P(E2 )

da cui si ottiene

2P(E2 ) P(E 2 ) 1,
1
P(E 2 ) p .
3
Consideriamo nuovamente lurna contenente N1 palline bianche ed N2 palline nere (con
N=N1+N2) e supponiamo ora di voler estrarre un campione di n palline per controllare
quante palline bianche vengono estratte dallurna. Supponiamo che lestrazione sia
effettuata con reimbussolamento utilizzando un meccanismo che assegna ad ogni pallina
la stessa probabilit di essere scelta. In questo caso sappiamo che i possibili risultati delle
n prove risultano indipendenti fra di loro.
Se indichiamo con p=N1/N la quota di palline bianche contenute nellurna, la probabilit
di ottenere un numero i di palline bianche (con 0in) ed ni palline nere in un dato ordine

pi (1 p)ni .
In molte situazioni reali, per, non interessa tanto lordine preciso in cui le palline sono
state estratte, quanto il numero di palline di un certo colore presenti nel campione.
Allo stesso modo, in un esperimento che consiste nel lancio di un certo numero di dadi
si pu essere interessati, per esempio, al numero di facce con un punteggio pari a 6 o al
numero di facce con un punteggio dispari, mentre nel caso del lancio ripetuto di una

163

moneta si pu essere interessati a determinare il numero di teste. In questi casi, come si


vede, non interessa conoscere in quali lanci si sia ottenuto un particolare risultato, ma solo
il numero di risultati di un certo tipo.
Consideriamo nuovamente lurna contenente palline di due colori e supponiamo di voler
conoscere il numero di palline bianche sul totale delle n palline estratte con
reimbussolamento. In situazioni di questo tipo quello che ci interessa determinare la
distribuzione di probabilit della v.c. Y numero di palline bianche estratte.
Possiamo osservare intanto che la Y una variabile che pu assumere i valori
y=0,1,...,n e che la probabilit che Y risulti uguale a y corrisponde alla somma delle
probabilit associate a tutte le ennuple che contengono y palline bianche ed ny palline
nere indipendentemente dal loro ordine.
A ciascuna di queste ennuple associata la probabilit
py(1-p)n-y,

n
mentre il numero di queste ennuple uguale a e cio al numero delle combinazioni di
y
n elementi di classe y. Pertanto la f.m. di Y assume la forma

n
f(y) P(Y y) p y (1 p)n y ,
y

y = 0, 1, ...,n

8.2.1

0 < p < 1; n 1.

La v.c. Y cos definita detta variabile Binomiale, dato che le probabilit associate ai
suoi possibili valori numerici corrispondono ordinatamente ai termini dello sviluppo di
Newton della quantit

p (1 p)n .
Si noti che per n = 1 la variabile Binomiale coincide con la variabile Zero-uno.
La somma delle probabilit associate a tutti i possibili valori y di Y risulta ovviamente
pari ad 1 dato che

164

P(Y y)

y 0


n
y p y (1 p)ny p (1 p) 1.

y 0

Se, per esempio, da unurna che contiene 1/3 di palline bianche e 2/3 di palline nere
pensiamo di estrarre 4 palline con reimbussolamento, la distribuzione di probabilit della Y
quella riportata nella tabella 8.2.2, mentre il suo grafico illustrato nella figura 8.2.1.

Tabella 8.2.2
Esempio di distribuzione binomiale per n=4 e p=1/3
Y
0
1
2
3
4
Totale

p(y)
0,1975
0,3951
0,2963
0,0988
0,0123
1,0000

Figura 8.2.1
Grafico della f.m. della v.c. binomiale definita nella tabella 8.2.1
0,5
0,4
0,3
0,2
0,1
0
0

Dalla tabella e dal grafico risulta subito che il valore modale di Y pari ad 1 e che quindi
il risultato pi probabile su 4 estrazioni costituito da 1 pallina bianca e 3 palline nere.
Come si vede, inoltre, poco probabile che il campione sia composto da 3 palline bianche
ed una nera e vi poco pi di una probabilit su 100 che le palline estratte siano tutte
bianche.

165

Il numero medio di palline bianche, cio la media di Y pari a 1,3 , mentre la sua
varianza uguale a 0,8 .
Il grafico della f.r. di Y, infine, riportato nella figura 8.2.2.
Figura 8.2.2
Grafico della f.r. della v.c. binomiale definita nella tabella 8.2.1
1
0,8
0,6
0,4
0,2
0
-1

Si osservi che se si considerano le n prove separatamente, in ogni prova definita una


v.c. Zero-uno Xi (i=1,2,...,n) numero di palline bianche estratte alla i-esima prova che
assume il valore zero se compare una pallina nera ed il valore uno quando compare una
pallina bianca. Le n variabili Xi considerate hanno tutte la stessa funzione di probabilit e
risultano indipendenti fra di loro e la variabile casuale Y numero totale di palline bianche
estratte corrisponde semplicemente alla loro somma. Si ha quindi
n

Y Xi
i1

da cui si ottiene in modo molto semplice la media e la varianza della v.c. binomiale.
Risulta infatti

i1

i1

E(Y) E( Xi ) E(Xi ) np

8.2.2

ed anche

166

i1

i1

V(Y) V( Xi ) V(X i ) np(1 p) ,

8.2.3

data lindipendenza delle Xi.


In alcune situazioni si pu essere interessati a determinare la quota di elementi estratti
che presentano una certa caratteristica, invece del numero di elementi con tale
caratteristica. Cos, per esempio, si pu essere interessati a conoscere la quota di
spettatori che hanno seguito un determinato programma televisivo, la quota di elettori a
favore di un referendum abrogativo, la quota di articoli difettosi prodotta da un determinato
macchinario e cos via.
Se facciamo ancora riferimento ad unestrazione con ripetizione, la distribuzione di
probabilit di una v.c. di questo tipo si ottiene immediatamente dalla v.c. binomiale appena
definita. Data lurna contenente palline bianche e nere, sulla base della v.c. Y numero di

Y
palline bianche estratte possiamo infatti definire la v.c. P
"quota di palline bianche
n
Y
estratte". Fra i valori di Y e di P
vi una corrispondenza biunivoca dato che in
n

1
corrispondenza dei valori 0,1,...,n assunti dalla Y la v.c. P assumer i valori 0, ,...,1.
n
Pertanto la v.c. P ha una f.p. identica alla 8.2.1 della Y che, tenendo presente
luguaglianza

y np ,

pu essere posta nella forma

f(p ) P(P p ) pnp (1 p)n(1p) ,


np

p = 0, 1/n, ...,1
0 < p < 1; n 1.

La media e la varianza di P corrispondono rispettivamente a

167

8.2.4

Y 1
E(P ) E E(Y) p ,
n n

8.2.5

p(1- p)
Y 1
V( P ) V 2 V(Y)
n
n n

8.2.6

da cui risulta che la quota di palline bianche presenti nel campione uguale in media alla
quota di palline bianche presenti nella popolazione e che la varianza della quota
campionaria diminuisce quando aumenta il numero delle palline estratte.
Data, per esempio, una popolazione in cui la quota di individui con una certa
caratteristica A pari a p=0,7, se si estrae un campione di 10 elementi, i possibili valori
sono 0/10, 1/10, ..., 10/10 e le probabilit corrispondenti,
della quota campionaria P

ottenute in base alla 8.2.4, sono riportate nella tabella 8.2.3, mentre la rappresentazione
grafica della f.m. riportata nella figura 8.2.3

Tabella 8.2.3
Distribuzione di probabilit della quota campionaria. p = 0,7, n= 10
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
p
f(p ) 0,000.. 0,0001 0,0014 0,0090 0,0368 0,1029 0,2001 0,2668 0,2335 0,1211 0,0283

Figura 8.2.3
Rappresentazione grafica della f.m. descritta nella tabella 8.2.2
0,3

0,2

0,1

0
0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

In questo caso la probabilit che il campione contenga una quota di palline bianche pari
per esempio a 0 a 0,1 o a 0,2 molto piccola, mentre pari a 0,9244 la probabilit che il
campione contenga una quota di palline bianche compresa tra i valori 0,5 e 0,9. Come si
vede, si ha una probabilit abbastanza elevata che un campione casuale di 10 elementi

168

contenga una quota di palline bianche pari a quella della popolazione pi o meno 0,2 e
quindi che la composizione del campione non sia molto diversa da quella dell'urna. Si
osservi inoltre che il valore pi probabile di P corrisponde in questo caso al valore di p
nella popolazione.
Data unurna contenente N1 palline bianche ed N2 palline nere, con N1+N2 = N, si pensi
ora di estrarre casualmente n palline una alla volta senza rimettere nellurna le palline
prima della nuova estrazione, cio secondo lo schema detto senza ripetizione oppure in
blocco.
Si vuole determinare la probabilit che il campione sia composto da w palline bianche
ed nw palline nere e quindi, se si indica con W la v.c. numero di palline bianche presenti
nel campione, la probabilit P(W=w). Si osservi che la probabilit di un evento di questo
tipo stata gi determinata nel corso del capitolo precedente nellesempio relativo alla
possibile composizione di una commissione scelta in un gruppo di 3 donne e 6 uomini.
Ora si vuole invece determinare in generale la funzione di probabilit della v.c. W.
Per determinare lespressione formale di questa funzione di massa conviene
considerare il rapporto fra il numero di casi favorevoli allevento considerato ed il numero
di casi possibili, cos che la probabilit P(W=w) sia data dal rapporto fra il numero di
ennuple composte da w palline bianche e da (nw) palline nere ed il numero di tutte le
possibili ennuple.
Dato lo schema di estrazione, il numero dei risultati possibili diversi fra di loro
corrisponde al numero di n-ple diverse per almeno un elemento, che pari al numero di

N
combinazioni di N elementi di classe n.
n
Il numero dei casi favorevoli, invece, il numero di n-ple composte da w palline bianche

N N
e da (nw) palline nere ed pari a 1 2 . Infatti i gruppi di w palline bianche, diversi
w n w
N
fra di loro per almeno un elemento, possono essere formati in 1 modi diversi e ad
w
ognuno di questi pu essere associato un qualsiasi gruppo di (nw) palline nere, dove il

N
numero di questi ultimi, diversi fra di loro per almeno un elemento, corrisponde a 2 .
n w
La v.c. W cos definita, che detta v.c. ipergeometrica, ha quindi la seguente funzione
di probabilit

169

N1 N2

w n w

PW w
N

n

w max(0,n N2 ),..., min(n,N1 ) .

8.2.7

Per spiegare il valore minimo ed il valore massimo che pu assumere la variabile W, si


osservi che se il numero di palline nere N2 contenute nellurna inferiore al numero di
estrazioni n, il numero di palline bianche presenti nel campione non pu essere inferiore a
nN2. Se invece il numero di palline bianche N1 inferiore al numero di estrazioni, chiaro
che il valore massimo di palline bianche che si possono estrarre uguale a N 1.
Se, per esempio, consideriamo un gruppo di 10 individui di cui 4 donne e 6 uomini e
lesperimento consiste nellestrarre 5 individui senza ripetizione, la v.c. numero di uomini
presenti nel campione assume un minimo pari ad 1 ed un massimo pari a 5, mentre la
v.c. numero di donne presenti nel campione ha un minimo pari a zero ed un massimo
pari a 4.
Consideriamo unurna con 20 palline di cui 4 bianche e 16 nere ed un esperimento che
consiste nellestrarre 5 palline senza ripetizione. In questo caso la distribuzione di
probabilit della v.c. W numero di palline bianche estratte riportata nella tabella 8.2.4

Tabella 8.2.4
Esempio di distribuzione ipergeometrica
W
0
1
2
3
4
totale

p(w)
0,2817
0,4696
0,2167
0,0310
0,0010
1,0000

Si pu dimostrare che, data unurna contenente N1 palline bianche ed N2 palline nere,


con N1+N2 = N, la media della distribuzione ipergeometrica della v.c. W numero di palline
bianche estratte uguale alla media della distribuzione binomiale Y corrispondente

E(W) n

N1
np EY ,
N

8.2.8

170

mentre la varianza della ipergeometrica sempre inferiore o uguale a quella della


distribuzione binomiale

V(W) np(1 p)

Nn
Nn
V Y
,
N 1
N 1

dato che il coefficiente

8.2.9

Nn
(che detto coefficiente di correzione per popolazioni finite)
N 1

sempre minore di 1 per n>1.


Anche nel caso di unestrazione senza ripetizione si pu essere interessati a
determinare, anzich il numero, la quota di individui con una certa caratteristica.

W la v.c. "quota di palline bianche estratte", la f.p. di tale v.c. si ottiene


Definita con Q
n
facilmente dalla 8.2.7 tenendo presente che w nq ed assume la forma

N1 N2

n
q
n

n
q

PQ q
N

n

n N2
N
q max 0,
,..., min1, 1 ,
n

8.2.10

mentre la media e la varianza si ottengono dalle 8.2.8 e 8.2.9 e risultano rispettivamente


uguali a
) E W np p E(P ),
E(Q
n n

8.2.11

) V W 1 V(W) np(1 p) N n p(1 p) N n V( P ) N n .


V( Q
N 1
n
N 1
N 1
n n2
n2

8.2.12

Come si vede, quindi, anche con questo tipo di campionamento la quota di palline
bianche presenti nel campione uguale, in media, a quella delle palline bianche contenute
nellurna mentre la varianza della quota campionaria risulta inferiore o uguale a quella
associata al campionamento con ripetizione.

171

8.3 Alcuni modelli teorici di variabili casuali semplici continue


Il pi semplice modello teorico di v.c. continua si ha quando la probabilit risulta
distribuita in maniera uniforme su tutto il campo di variazione della variabile.
Supponiamo, per esempio, che un punto possa assumere una posizione qualsiasi
all'interno di un segmento. Se facciamo riferimento a tutti i punti geometrici compresi nel
segmento, chiaro che la probabilit che il punto in una prova assuma una posizione
predeterminata pari a zero, mentre se consideriamo due sottointervalli di pari lunghezza
allinterno del segmento si ha una stessa probabilit che il punto cada nelluno o nellaltro
dei due sottointervalli considerati.
Supponiamo che la v.c. X sia definita nellintervallo [a, b]. In questo caso la sua f.d.
assume la forma

f(x) b a
0

axb

8.3.1

altrove .

La funzione di densit della v.c. X cos definita costituisce la cosiddetta distribuzione


uniforme a cui corrisponde la f.r.

0
x a

F(x)
b a
1

x<a
axb

8.3.2

x b

dato che

x a

b a dt b a .

La media della X uguale a

1
1 x2
b 2 a 2 b a b a b a
EX x
dx

a
b

a
2
2
b

a
2
b

a
2

a

b

172

mentre il secondo momento dallorigine

EX

1
1 x3
b 3 a 3 b a a 2 ab b 2
a 2 ab b 2
x
dx

ba
b a 3 a 3b a
3b a
3
a
b

per cui la varianza risulta

V(X)

a 2 ab b 2 a b2 4a2 4ab 4b2 3a2 3b2 6ab b a2

.
3
12
12
22

Un caso particolare di distribuzione uniforme quello in cui a=0 e b=1, come per
esempio il caso in cui la X una v.c. che identifica il posizionamento di un punto allinterno
di un segmento di lunghezza unitaria. In questo caso risulta

1
f(x)
0
0

F(x) x
1

0 x 1
altrove

8.3.4

x<0
0 x 1
x 1

8.3.5

mentre la media e la varianza sono rispettivamente uguali a 0,5 ed a 1/12.


Nelle figure 8.3.1 e 8.3.2 sono riportati i grafici della f.p. e della f.r. di questa variabile.

Figura 8.3.1
Funzione di densit

Figura 8.3.2
Funzione di ripartizione

0,5

0,5

0
-0,2

0,2

0,4

0,6

0,8

1,2

173

0
-0,2

0,2

0,4

0,6

0,8

1,2

Il pi importante modello teorico fra le v.c. continue costituito dalla distribuzione


normale che abbiamo pi volte incontrato nelle pagine precedenti. I parametri e che
compaiono nella sua espressione hanno un significato gi noto ed indicano
rispettivamente la posizione del centro della distribuzione sullasse reale ed il grado di
addensamento delle sue determinazioni intorno a questo valore centrale.
Come abbiamo gi detto in precedenza questo modello risulta adeguato in numerose
situazioni reali perch molti fenomeni quantitativi in natura tendono a distribuirsi in modo
normale. Cos, per esempio, in Biologia il modello normale consente di approssimare i
risultati delle misurazioni di alcune caratteristiche fisiche di esseri viventi, come l'altezza, il
peso, l'apertura alare, la circonferenza toracica, il diametro delle cellule e cos via.
In Fisica il modello normale viene utilizzato diffusamente nell'ambito della Teoria degli
errori di misura. Secondo questa teoria si suppone che ogni grandezza fisica abbia una
misura "vera" che per non osservabile perch le misurazioni stesse sono soggette ad
errori. Questi errori si distinguono in errori sistematici (dovuti, per esempio, alla sensibilit
degli strumenti, agli eventuali difetti di fabbricazione o alluso improprio) e in errori casuali
(dovuti a fattori non controllabili, come per esempio le variazioni delle condizioni
ambientali).
Mentre il primo tipo di errore tende a causare una sistematica sottostima o sovrastima
del valore vero, gli errori accidentali portano a misurazioni che si discostano per difetto e
per eccesso dal valore "vero" solo per effetto del caso. Se si effettuano n misurazioni di
una determinata grandezza fisica, nelle condizioni quanto pi simili possibile, la
distribuzione delle misurazioni ottenute risulta essere bene approssimata da una
distribuzione normale la cui media considerata il valore "vero" ignoto. La media
aritmetica dei valori misurati da considerarsi il valore pi attendibile per la misura "vera"
ed presa proprio quale stima del parametro ignoto . Questo il motivo per cui la
distribuzione normale viene detta anche distribuzione degli errori accidentali.
Si osservi che la v.c. normale assume unestrema importanza nell'ambito della statistica
e della teoria della probabilit in particolare. Infatti questo modello essenziale nelle
diverse formulazioni del cosiddetto teorema limite centrale in base ai quale si dimostra
che la somma (o la media) di un numero elevato di variabili casuali indipendenti e
identicamente distribuite (i.i.d.) tende distribuirsi normalmente, indipendentemente dalla
distribuzione delle singole variabili. Il teorema limite centrale, quindi, ha un'importanza
enorme in Statistica perch consente di ottenere la forma della distribuzione della somma
(o della media) di n v.c. i.i.d. quando il numero delle v.c. stesse elevato.
174

CAPITOLO 9
RILEVAZIONI E STATISTICHE CAMPIONARIE

9.1 La scelta del campione


Abbiamo visto nelle pagine precedenti come, per ottenere informazioni su un qualche
carattere Z in una popolazione composta da N individui, si possa ricorrere ad unindagine
effettuata solo su una frazione di n elementi (nN) della popolazione, detta campione
casuale. Linsieme dei metodi che si occupano dellelaborazione dei dati campionari al fine
di ottenere conclusioni sulla popolazione dalla quale il campione stato estratto
costituisce, come si detto, la statistica inferenziale.
Linferenza statistica ha quindi lo scopo di ottenere informazioni sul valore di alcuni
parametri della

popolazione, tipicamente il valore medio oppure il totale di una certa

variabile, utilizzando le informazioni raccolte su un campione della popolazione stessa.


Cos, per esempio, si potrebbe essere interessati a stimare il reddito medio delle famiglie
di una certa regione, il fatturato medio delle aziende di un particolare settore economico,
lammontare di legname degli alberi di una determinata zona, il numero di disoccupati e
cos via. In altre situazioni lo scopo dellinferenza statistica invece quello di verificare se
esiste una relazione fra una certa variabile ed altre variabili e di verificare il tipo di legame
esistente fra di esse. Esempi comuni di indagini di questo tipo sono quelle in cui si valuta
lefficacia di un certo fertilizzante in relazione al tipo di terreno, allefficacia di un farmaco
nella cura di una determinata malattia in relazione alle caratteristiche degli individui
esaminati, allammonatre dei consumi delle famiglie in relazione al reddito, al numero dei
componenti, allo stato sociale.
E' chiaro che, data la variabilit dei risultati campionari, per poter utilizzare
correttamente le informazioni fornite da un campione osservato necessario conoscere le
caratteristiche dei diversi possibili risultati campionari e le loro relazioni con le
caratteristiche ignote della popolazione.
Su questo argomento alcuni esempi sono stati gi esaminati nel capitolo precedente
quando sono state ricavate le distribuzioni binomiale e ipergeometrica. Queste
distribuzioni, infatti, descrivono le possibili composizioni e le relative probabilit di
campioni estratti (con e senza ripetizione) da una popolazione in cui gli individui sono
175

classificati in base al possesso o meno di una certa caratteristica. La struttura del


campione, espressa dalla quota campionaria, costituisce evidentemente una stima della
vera quota p nella popolazione e si visto che le quote campionarie pi probabili sono
quelle pi vicine alla vera quota p, ma che tuttavia possibile che la composizione del
campione risulti anche molto diversa da quella della popolazione.
Abbiamo anche visto che la variabilit della quota campionaria ottenuta con uno
schema senza ripetizione risulta inferiore a quella ottenuta con lo schema bernoulliano,
per cui chiaro che in generale il primo schema preferibile al secondo dal momento che,
se una unit statistica non pu essere inclusa nel campione pi di una volta, si ottengono
sempre n informazioni distinte, mentre con lo schema bernoulliano una stessa unit
statistica pu essere estratta pi volte.
Daltra parte, per, se la frazione di campionamento n/N sufficientemente piccola, la
variabilit dei possibili risultati connessi con i due schemi risulta praticamente la stessa,
come si vede subito dalle espressioni della varianza delle distribuzioni binomiale ed
ipergeometrica.
In questo capitolo sono descritte le principali caratteristiche dei risultati che possono
essere ottenuti con questi schemi di campionamento ed in particolare con quello
bernoulliano dato che questultimo, lasciando inalterata ad ogni prova la composizione
della popolazione, comporta notevoli semplificazioni formali nella determinazione delle
probabilit dei diversi risultati campionari. Si tenga presente tuttavia che se N
sufficientemente elevato rispetto ad n, queste distribuzioni di probabilit non sono
significativamente diverse da quelle che si otterrebbero con riferimento allo schema senza
ripetizione, dal momento che in questo caso lestrazione di n individui non modifica
sostanzialmente la struttura della popolazione.
Nella pratica quindi, lo schema di campionamento pi utilizzato quello senza
ripetizione, ma se la frazione di campionamento n/N bassa, i dati vengono elaborati per
semplicit di calcolo come se fossero stati ottenuti con uno schema bernoulliano.
In presenza di una collettivit di N individui uno schema di campionamento analogo a
quello dellestrazione casuale delle palline da unurna pu essere realizzato, quando si
dispone di un elenco completo delle unit statistiche della popolazione, utilizzando un
computer provvisto di apposito software oppure mediante le tavole dei numeri casuali.
Supponiamo di voler estrarre un campione di n = 75 elementi da un universo di
ampiezza N = 2000. Numerati gli elementi della popolazione da 1 a 2000, cominciamo a
considerare il caso in cui si disponga di un computer provvisto di software apposito. In
176

questa situazione ovviamente sufficiente chiedere al computer di scrivere 75 numeri,


compresi fra 1 e 2000, che corrisponderanno agli individui sui quali verr effettuata la
rilevazione della variabile di interesse. In mancanza di un programma software apposito si
pu usare anche un foglio di calcolo Microsoft Excel, con la funzione

=CASUALE()

che restituisce un numero decimale casuale compreso fra 0 e 1.


In questo caso gli individui da rilevare corrisponderanno ai numeri che si otterranno
dalla seguente formula

INT(CASUALE()*2000+1),

che restituisce un numero casuale intero compreso fra 1 e 2000.


Le tavole dei numeri casuali, infine, contengono cifre da 0 a 9 disposte in ordine
casuale che corrispondono a delle determinazioni di una v.c. che pu assumere i valori da
0 a 9 con uguale probabilit. Per ragioni pratiche, come si vede dalla tabella seguente che
riporta uno stralcio di queste tavole, le cifre sono di solito stampate in blocchi di 4.

Tabella 9.1.1
Esempio di tavole dei numeri casuali
769
5046
52
2556
7564
7716

2809
9027
702
4211
8036
3705

1379
1190
3277
966
8519
6739

1740
6184
1340
1697
120
9871

5395
5008
2515
5443
9222
2530

7751
1455
3257
1610
9013
2077

6192
8646
7892
6911
8793
2512

1739
2080
4759
6968
4007
1152

In questo caso si cercano sulla tavola, partendo da un punto scelto in modo casuale e
procedendo lungo le righe oppure lungo le colonne, numeri di quattro cifre non superiori a
2000. Se, per esempio, si parte dalla settima colonna e dalla seconda riga e si procede in
senso orizzontale, si trovano i numeri 8646 e 2080 che si scartano perch superiori a
2000, mentre il primo elemento del campione corrisponder allindividuo a cui era stato
assegnato si trova il numero 52. Il secondo elemento campionario sar quello

177

contrassegnato con il numero 702, il terzo elemento sar quello contrassegnato con 1340
e cos via.
Esaurita la tabella, se necessario, si pu ricominciare dall'inizio considerando, per
esempio, 4 cifre a partire dalla seconda cifra della prima colonna e cos via. E' chiaro che
anzich procedere nel senso delle righe si pu anche procedere nel senso delle colonne e
che si pu stabilire di prendere in considerazione non tutti i gruppi di quattro cifre
consecutivi ma, per esempio, il primo di ogni gruppo di k, dove k un intero qualsiasi.
Si osservi che nella pratica i piani di campionamento possono assumere forme molto
pi complesse che dipendono dalle circostanze in cui lindagine viene effettuata, dalle
informazioni gi disponibili sulla collettivit da esaminare, dagli obiettivi dellindagine e cos
via. Schemi di campionamento diversi possono essere utilizzati, per esempio, a causa
degli elevati costi o delle difficolt di esecuzione che un campionamento casuale semplice,
con o senza ripetizione, pu comportare in situazioni particolari. Se, per esempio, la
popolazione molto vasta e dispersa su un ampio territorio si ricorre spesso a tipi di
campionamento detti a grappoli (o a clusters) oppure ad un campionamento a pi stadi. In
questo caso il territorio viene suddiviso in zone possibilmente omogenee rispetto alle
variabili che interessano ed in una prima fase vengono scelte in modo casuale, con
probabilit non necessariamente uguali, alcune di queste zone. Allinterno delle zone
selezionate vengono successivamente esaminate tutte le unit presenti oppure viene
estratto ancora un campione casuale. Un campionamento di questo tipo viene utilizzato,
per esempio, dallIstat nella rilevazione delle forze lavoro in Italia. In questa indagine,
infatti, viene selezionato dapprima un campione di Comuni, poi un campione di famiglie
che risiedono in questi Comuni ed infine vengono rilevati i dati su tutti i componenti delle
famiglie estratte.
In altre situazioni la popolazione viene suddivisa in sottogruppi, detti strati, allinterno dei
quali le unit risultano pi o meno omogenee rispetto ad alcune caratteristiche prefissate.
Da ciascuno di questi strati viene poi estratto, in modo indipendente, un campione casuale
semplice. Questo procedimento costituisce il cosiddetto campionamento casuale
stratificato che utilizzato, per esempio, quando si ha interesse ad avere informazioni
separate per ciascuno dei gruppi omogenei rispetto ai caratteri usati per la stratificazione.
Questo stesso tipo di campionamento viene anche utilizzato per ottenere, a parit di
numerosit complessiva del campione, una maggiore attendibilit delle stime sullintera
popolazione. In questo caso gli strati sono costituiti da sottogruppi omogenei per quanto
riguarda le modalit di uno o pi caratteri che si ritengono correlati con le variabili oggetto
178

di indagine, in modo che la variabilit di queste ultime allinterno dei singoli strati risulti
ridotta. Cos, per esempio, la rilevazione dei risultati economici di un gruppo di imprese
che operano su un certo territorio pu essere effettuata allinterno di sottogruppi omogenei
per quanto riguarda il settore di attivit, il numero di addetti e cos via.
Questi sono solo alcuni esempi molto generali degli schemi di campionamento che
sono effettivamente utilizzati nella pratica ed il cui studio costituisce loggetto della
cosiddetta Teoria dei Campioni.

9.2 La distribuzione dell'ennupla campionaria


Per descrivere in generale le caratteristiche dei risultati campionari facciamo riferimento
ad una popolazione di composizione nota in cui una variabile Z assume k valori diversi zj
con frequenze relative pari a f j (j=1,2,..., k). Se da questa popolazione si pensa di estrarre
un campione bernoulliano di n elementi, lo schema assegna ad ognuno degli N
componenti la collettivit unidentica probabilit di essere incluso nel campione e quindi
assegna agli individui sui quali il carattere Z presente con una modalit o intensit pari a
zj una probabilit di essere inclusi nel campione uguale alla frequenza fj con cui quella
modalit o intensit si manifesta nella popolazione.
Prima che l'estrazione venga effettuata, la distribuzione di frequenza della variabile
statistica Z determina la funzione di probabilit della v.c. X valore di Z sullelemento
estratto che nelle nostre condizioni risulta identica alla distribuzione di Z ed ha
ovviamente gli stessi momenti.
Prendiamo in considerazione, per esempio, la collettivit descritta nella tabella 9.2.1 in
cui le unit statistiche sono 10 famiglie classificate in base al numero dei figli.

Tabella 9.2.1
Distribuzione di 10 famiglie in base al numero dei figli
Z
0
1
2
3
totale

frequenze
4
3
2
1
10

179

Se indichiamo con X la v.c. "Numero dei figli della famiglia estratta", vediamo che la X
pu assumere il valore 0 con probabilit pari a 0,4, il valore 1 con probabilit pari a 0,3 e
cos via, per cui la sua distribuzione di probabilit quella riportata nella tabella seguente.

Tabella 9.2.2
Distribuzione della v.c. numero di figli della famiglia estratta
X
0
1
2
3
totale

probabilit
0,4
0,3
0,2
0,1
1,0

Supponiamo ora di voler estrarre un campione bernoulliano di due elementi ed


indichiamo con X1 la v.c. "Numero dei figli della prima famiglia estratta " e con X 2 la v.c.
"Numero dei figli della seconda famiglia estratta". La distribuzione di probabilit di X1 e X2
ovviamente risulta identica a quella della v.c. X appena vista.
I possibili risultati del campionamento sono costituiti da tutte le coppie di valori che
possibile formare a partire dai valori di X. Data lindipendenza di X1 e X2 la distribuzione
congiunta delle due variabili si ottiene semplicemente associando ad ogni coppia di valori
la relativa probabilit, che pari al prodotto delle probabilit marginali, come risulta dalla
tabella 9.2.3.

Tabella 9.2.3
Distribuzione congiunta delle v.c. numero dei figli della prima famiglia estratta
e numero dei figli della seconda famiglia estratta
X2

px1

0,16
0,12
0,08
0,04
0,40

0,12
0,09
0,06
0,03
0,30

0,08
0,06
0,04
0,02
0,20

0,04
0,03
0,02
0,01
0,10

0,40
0,30
0,20
0,10
1,00

X1
0
1
2
3
px 2

180

La distribuzione congiunta delle due variabili X1 e X2 associata ad un campione di due


elementi estratto senza ripetizione risulterebbe diversa da quella riportata nella tabella
precedente, mentre risulterebbero invece identiche le loro distribuzioni marginali.
Nelle pagine successive, se non diversamente specificato, si far riferimento allo
schema di campionamento di tipo bernoulliano.
In generale, data una popolazione in cui la variabile Z assume k determinazioni diverse
zj (j=1,2,,k) ed indicata con fj la frequenza corrispondente, per un campione di
numerosit n, sono determinate n v.c. Xi (i=1,2,...,n), i cui generici valori verranno indicati
con xi, che hanno tutte una distribuzione identica a quella della variabile X.
Se si utilizza un campionamento di tipo bernoulliano, l'ennupla di v.c. X i una v.c. a n
dimensioni la cui f.p. congiunta uguale al prodotto delle n distribuzioni marginali, mentre
ogni singolo campione osservato una determinazione di una v.c. n-variata.
Nelle prossime pagine indicheremo con X la v.c. n-variata, con x la sua generica
determinazione e con L(x) la sua f.p. congiunta.
Nel caso della variabile Z riportata nella tabella 9.2.1 e di un campione di due soli
elementi la v.c. bivariata X assume le determinazioni riportate nella prima colonna della
tabella successiva e la probabilit associata a tali determinazioni riportata nella seconda
colonna.

Tabella 9.2.4
Distribuzione della v.c. numero di figli delle due famiglie estratte
X
0, 0
0, 1
0, 2
0, 3
1, 0
1, 1
1, 2
1, 3
2, 0
2, 1
2, 2
2, 3
3, 0
3, 1
3, 2
3, 3
totale

L(x)
0,16
0,12
0,08
0,04
0,12
0,09
0,06
0,03
0,08
0,06
0,04
0,02
0,04
0,03
0,02
0,01
1,00
181

Il numero delle possibili ennuple campionarie x diverse fra di loro almeno per lordine
degli elementi che le compongono uguale al numero di disposizioni con ripetizione rDk,n
di k elementi di classe n e cio a kn. Questo numero, come si vede facilmente, risulta
estremamente elevato anche per valori di k e di n non molto grandi. Nel caso appena
esaminato k pari a 4 e n pari a 2, per cui il numero delle possibili coppie di risultati
campionari 42=16.
Si osservi che la variabile Z oggetto di indagine pu essere ovviamente di tipo continuo,
ma la v.c. X valore di Z sullindividuo estratto pu assumere solo quei valori di Z
effettivamente presenti nella collettivit, per cui la sua distribuzione di probabilit
necessariamente discreta.
Cos come abbiamo visto per la distribuzione di frequenza delle variabili statistiche
continue, anche la distribuzione di una variabile statistica discreta pu essere
approssimata mediante un modello teorico che comporter delle notevoli semplificazioni
nelle procedure di inferenza statistica. Se infatti noto che la distribuzione di un carattere
nella collettivit pu essere descritta sinteticamente mediante un qualche modello
distributivo teorico, lo scopo dellindagine solo quello di ottenere informazioni sui valori di
tutti o di alcuni dei parametri che compaiono nelle funzioni di distribuzione del modello.
Per questi motivi nelle pagine seguenti ci occuperemo anche dei metodi per
determinare i diversi risultati che possono essere forniti da un campione bernoulliano a
partire da una distribuzione teorica ed in particolare da una distribuzione normale.

9.3 Le statistiche campionarie


Come abbiamo gi visto, l'ennupla x dei valori xi (i=1, 2, ..., n) rilevati sulle n unit
statistiche estratte costituisce il campione osservato di numerosit n. Su questi valori
possono essere effettuate le stesse elaborazioni gi descritte per le variabili statistiche; la
serie, perci, pu essere posta sotto forma di distribuzione di frequenza, se ne pu
determinare la funzione di ripartizione, i vari indici della tendenza centrale, di dispersione,
di asimmetria e cos via. In questo caso per queste operazioni hanno importanza
soprattutto per le informazioni che possono fornire sulle analoghe caratteristiche della
popolazione da cui il campione proviene.

182

Sappiamo che le caratteristiche delle ennuple campionarie presentano una loro


variabilit e si possono quindi discostare in misura maggiore o minore dalle corrispondenti
caratteristiche della popolazione.
Nella tabella 9.3.1 riportata, per esempio, una serie di 10 osservazioni ottenute da
una popolazione normale di media pari a 10 e scarto quadratico medio pari a 2.

Tabella 9.3.1
Distribuzione di un campione estratto da una popolazione normale N(10, 2)
X
7,89
7,96
8,81
10,17
10,64
11,78
12,49
12,54
12,68
13,03

quote cumulate
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0

Questo campione, che stato ottenuto generando delle determinazioni da una v.c.
normale N(10, 2) mediante un elaboratore elettronico, solo uno dei possibili campioni
che potrebbero essere estratti dalla stessa popolazione, ognuno con una distribuzione pi
o meno simile a quella della popolazione.
La media e la varianza del campione risultano pari rispettivamente a 10,80 ed a 3,61 e
sono quindi abbastanza prossime ai valori veri della popolazione. Nella successiva figura
9.3.1 sono messi a confronto i grafici delle funzioni di ripartizione del campione e della
variabile nella collettivit dorigine.

Figura 9.3.1
Funzione di ripartizione del campione riportato nella tabella 9.3.1
e della distribuzione normale N(10, 2)

183

1,0
0,8
0,6
0,4
0,2
0,0
5

11

13

15

Come si vede dalla figura, la f.r. campionaria si discosta abbastanza da quella vera
della variabile, ma occorre tenere presente che il campione utilizzato in questo caso di
soli 10 elementi. Se il campione osservato sufficientemente numeroso invece poco
probabile che la sua distribuzione risulti molto diversa da quella della popolazione
dorigine.
Si dimostra infatti che all'aumentare della numerosit del campione diminuisce sempre
di pi la probabilit che la f.r. del campione osservato differisca in modo rilevante dalla f.r.
della popolazione.
Per effettuare questa dimostrazione consideriamo la variabile Z oggetto di indagine ed
indichiamo con F(z) la sua funzione di ripartizione. Prefissato un qualsiasi valore z di Z ed
estratta una unit statistica dalla popolazione, la probabilit che l'intensit di Z misurata su
questa unit risulti inferiore o uguale a z pari ovviamente a F(z), mentre 1F(z) la
probabilit di ottenere un valore superiore a z.
Se si effettuano n estrazioni chiaro che si possono ottenere i (i=0,1,...,n)
determinazioni di Z inferiori o uguali a z e, perci, ni superiori a z.
Se indichiamo con P la v.c. "quota di elementi campionari con valore di Z inferiore o
uguale a z", la probabilit che P assuma il valore p si ricava dalla distribuzione binomiale
e risulta pari a

P P p Fz np 1 Fz n(1 p) ,
np

1
0 F(z) 1, p 0, ,...,1,
n

184

come si vede dalla 8.2.4.


Questo risultato si ottiene facilmente tenendo presente che, una volta predeterminato il
valore z di Z, lesperimento pu essere assimilato allestrazione di palline da unurna che
contiene una quota pari a p=F(z) di palline bianche ed una quota pari a 1-p=1-F(z) di
palline nere.
La v.c. P quota di elementi campionari con valore di Z inferiore o uguale a z" appena
considerata corrisponde per definizione alla f.r. del campione in corrispondenza del valore
z per cui, per dimostrare che la f.r. campionaria tende alla f.r. della Z nella popolazione,
andremo a verificare quali sono le caratteristiche della v.c. P .
Dalla distribuzione binomiale si ottiene che la media e la varianza di P risultano
rispettivamente uguali a
E(P ) Fz
F(z)1 F(z)
V( P )
n

9.3.1

e che quindi il valore della f.r. del campione in corrispondenza di z uguale in media al
valore vero della f.r. di Z, mentre la sua varianza tende a zero al crescere della numerosit
campionaria.
In questo modo si dimostra che l'immagine fornita dal campione tende a diventare
sempre pi somigliante a quella della variabile statistica nella popolazione mano a mano
che le informazioni disponibili diventano pi numerose.
Conclusioni analoghe, come vedremo nel prossimo paragrafo, si possono ottenere
anche per quanto riguarda i momenti campionari, che costituiscono altrettante stime dei
corrispondenti momenti della variabile Z nella popolazione.
Prima che il campione venga estratto i momenti campionari costituiscono altrettante
variabili casuali, mentre i valori forniti dal campione effettivamente osservato costituiscono
le singole determinazioni di queste variabili casuali. Dato infatti che ogni campione una
singola determinazione di una v.c. ad n dimensioni costituita dalle n variabili Xi, ogni
funzione dei dati campionari a sua volta una v.c. ad una dimensione la cui f.p. dipende
dalla f.p. congiunta delle Xi.

185

Fra i momenti campionari hanno particolare importanza la v.c. X media campionaria e


la v.c. S2 varianza campionaria che assumono rispettivamente la forma

1
X Xi ,
n i1
n

2
1
S Xi X
n i1
2

e corrispondono quindi a due funzioni dell'ennupla delle v.c. X i, mentre le singole


determinazioni di queste due v.c. sono

1
xi,
n i1
n

1
s xi x
n i1
2

e corrispondono alla media e la varianza del campione osservato.


Con riferimento, per esempio, alla variabile Z riportata nella tabella 9.2.1, la
distribuzione di probabilit della v.c. X

X1 X 2
per un campione bernoulliano di due
2

elementi si ottiene facilmente dalla distribuzione congiunta riportata nella tabella 9.2.3 o
9.2.4 ed quella indicata nella 9.3.2.

Tabella 9.3.2
Distribuzione della media campionaria sulla base della tabella 9.2.2

px
0,16
0,24
0,25
0,20
0,10
0,04
0,01
1,00

X
0,0
0,5
1,0
1,5
2,0
2,5
3,0
totale

186

Dalle tabelle 9.2.3 o 9.2.4 risulta, per esempio, che la media del campione di due
elementi assume un valore uguale ad 1 quando il primo elemento estratto uguale a 0 ed
il secondo a 2, quando entrambi gli elementi sono uguali ad 1 oppure quando il primo 2
ed il secondo 0.
La probabilit corrispondente quindi pari a

P(X 1) P X1 0 X2 2 P X1 1 X2 1 P X1 2 X2 0 0,25 .

In questa situazione si ha quindi una probabilit pari al 25% di estrarre un campione la


cui media sia uguale a quella della popolazione.
Nello stesso modo si ottengono le probabilit associate a tutti gli altri possibili valori
della media campionaria.
Dalla tabella 9.3.2 si vede che le possibili stime della media di Z fornite da un campione
di 2 elementi assumono valori compresi fra 0 e 3 e che la stima pi probabile x = 1 e
corrisponde in questo esempio alla media della Z. Risulta anche che vi una probabilit
del 95% di estrarre un campione la cui media sia compresa fra 0 e 2 ed una probabilit del
69% che sia compresa fra 0,5 ed 1,5. Si osservi inoltre che la media della media
campionaria uguale alla media di Z e che la sua varianza uguale a 0,5 e quindi alla
varianza di Z divisa per il numero degli elementi campionari.
Dalla distribuzione congiunta delle tabelle 9.2.3 e 9.2.4 si ottengono facilmente anche le
distribuzioni di probabilit della varianza campionaria o di una qualsiasi altra funzione dei
dati campionari.
Data per esempio una collettivit composta da 4 unit su cui la variabile Z assume i
valori 1, 2, 3 e 4, determinare la distribuzione della media campionaria X e della varianza
campionaria S2 per campioni casuali di 2 elementi estratti con ripetizione.
In questo caso il numero dei campioni che possibile formare pari a 4 2=16. Se per
ciascuno di questi campioni si calcola la media e la varianza si ottengono le distribuzioni
riportate rispettivamente nelle tabelle 9.3.3 e 9.3.4.

187

Tabella 9.3.3
Esempio di distribuzione della media campionaria

px
1/16
2/16
3/16
4/16
3/16
2/16
1/16
1,00

X
1,0
1,5
2,0
2,5
3,0
3,5
4,0
totale

Tabella 9.3.4
Esempio di distribuzione della varianza campionaria S2
S2
0,00
0,25
1,00
2,25
totale

p(s2)
4/16
6/16
4/16
2/16
1,00

Se indichiamo con

T = g(X),

una generica funzione dei dati campionari, la v.c. T detta statistica campionaria,
mentre la quantit

t = g(x)

calcolata sulla base del campione osservato indica una determinazione della v.c. T.
Come si visto, la distribuzione di probabilit di una qualsiasi statistica T, e quindi la
probabilit P(T=t) per ogni valore della variabile, si ottiene associando ad ogni valore t di T
la somma delle probabilit di tutte le ennuple che forniscono un valore di T uguale a t.
Si osservi che, in generale, il calcolo di una qualunque funzione dei dati campionari non
fine a se stessa, ma ha lo scopo di stimare una determinata caratteristica di interesse

188

della popolazione. Per questo motivo un'altra denominazione delle statistiche campionarie,
che pone maggiormente in risalto il loro scopo di stimare i parametri della popolazione,
quella di stimatori.
Uno stimatore T=g(X) di un parametro (teta) dunque una v.c. funzione delle v.c. Xi
che non dipende da e mediante la quale si intende stimare il valore ignoto del parametro.
Con l'espressione t=g(x) si indica, invece, una determinazione della v.c. T, che viene
detta stima di .

9.4 Media e varianza dei momenti campionari


Occupiamoci ora di un primo esame delle caratteristiche dei momenti campionari ed in
particolare del comportamento della loro media e della loro varianza all'aumentare della
numerosit del campione, facendo riferimento ad uno schema di estrazione con
ripetizione.
Per quanto riguarda la media della v.c. X si tenga presente che le n v.c. Xi hanno tutte
la stessa media del carattere Z e che la media della somma di n v.c. uguale alla
somma delle loro medie. Si ha quindi
1
1
1
E( X) E Xi E( Xi ) n
n
n
n

da cui risulta che la v.c. media campionaria ha una media uguale alla media del carattere
Z. Questo significa che, se si fa riferimento a tutti i possibili campioni di n elementi che
possono essere estratti dalla popolazione mediante un campionamento bernoulliano ed
alla media di ognuno di questi campioni, la media di tutte le possibili medie campionarie
uguale alla media della popolazione.
La varianza di tutte le possibili medie campionarie e, quindi, la varianza della v.c. X ,
data da
1
1
V( X) V Xi 2 V Xi
n
n

189

e corrisponde quindi alla varianza della somma di n v.c. X i divisa per n2. Queste variabili
hanno tutte la stessa varianza 2 di Z e sono indipendenti fra di loro, cosicch la varianza
della loro somma risulta uguale alla somma delle loro varianze. Si ha quindi

V X i
2

V( X)

1
n

n 2
2

2
,
n

da cui si vede che la varianza della v.c. media campionaria uguale alla varianza della
popolazione divisa per il numero degli elementi campionari. Questo risultato coincide
ovviamente con quello ottenuto in precedenza con riferimento alla media di un campione
di 2 elementi.
Si osservi che la variabilit delle stime della media dipende dalla varianza della variabile
nella collettivit ma, comunque, al crescere della numerosit del campione la varianza di

X diventa sempre pi piccola e di conseguenza la distribuzione di X sempre pi


concentrata intorno alla sua media . In queste condizioni si dice che la v.c. media
campionaria converge in probabilit alla vera media della popolazione.
La media e la varianza della v.c. Mr momento campionario r-esimo

Mr

1
X ri

n i1

9.4.1

si ottengono con un procedimento identico a quello usato per la v.c. X . Basta solo fare
riferimento piuttosto che alla ennupla di v.c. indipendenti X i, alla ennupla di v.c. sempre
indipendenti X ri le quali, evidentemente, hanno tutte la stessa distribuzione del carattere
Zr con una stessa media r che corrisponde al momento r-esimo di Z ed una stessa
varianza 2r r2 , pari alla differenza fra il momento di ordine 2r ed il quadrato del
momento di ordine r di Z. Si ha, quindi,

E(Mr ) r ,
2r r2
V(M r )
,
n

190

cosicch anche la v.c. Mr converge in probabilit al momento r-esimo della popolazione.


Per quanto riguarda la v.c. S2 varianza campionaria si osservi che la sua media si
ottiene ponendo

2
2
1
1
E S 2 E X i X E X i X
n

2
1
1
E X i 2 X EX i 2 E X
n
n

9.4.2

1 2 2 n 1 2
n

.
n
n
n

Come si vede, la media della v.c. varianza campionaria non uguale alla varianza
della popolazione 2 ma, per campioni sufficientemente numerosi, il coefficiente (n1)/n
risulta praticamente uguale ad 1 per cui la varianza del campione in media risulta
allincirca uguale alla varianza della popolazione.
Si pu dimostrare infine che la varianza di S 2 tende a zero al crescere della numerosit
campionaria, per cui la v.c. S2 converge in probabilit a 2.

9.5 Propriet degli stimatori


E bene sottolineare che una data caratteristica della distribuzione di una variabile in
una popolazione pu essere stimata mediante pi funzioni dei dati campionari e quindi
mediante stimatori diversi, che per un dato campione forniscono in genere stime diverse
fra di loro.
Se, per esempio, noto che un certo carattere Z ha una distribuzione normale, ma non
sono noti i valori di e , si tratta di cercare le statistiche campionarie pi adatte per
stimare questi due parametri. Per quanto riguarda si pu osservare che il parametro
rappresenta non solo la media, ma anche la moda o la mediana della distribuzione
normale. E' possibile perci stimare il valore di calcolando la media dei dati campionari
oppure determinando la moda campionaria o il valore centrale della serie campionaria
ordinata.
In realt non si dispone di un criterio univoco per determinare quale stimatore sia il
migliore per un determinato parametro, ma nell'ambito della statistica classica si studiano
una serie di propriet che vengono considerate desiderabili per uno stimatore. E evidente

191

che uno stimatore dovrebbe fornire stime che si avvicinano il pi possibile al valore vero
del parametro ignoto. Dato per che non conosciamo il valore del parametro non siamo in
grado di quantificare l'errore commesso per una particolare stima, ma possibile
quantificare in qualche modo lerrore medio che si commette utilizzando un particolare
stimatore. La bont di uno stimatore quindi valutata sulla base delle propriet di cui lo
stimatore stesso dotato, alcune delle quali sono descritte sommariamente qui di seguito
con riferimento ad un campionamento di tipo bernoulliano. In particolare, le propriet che
analizzeremo qui di seguito sono
- correttezza
- efficienza
- coerenza
- sufficienza.
Data una variabile Z che nella popolazione ha una distribuzione f(z,) di forma nota in
cui compare il parametro ignoto , uno stimatore T=g(X) di si dice corretto se
E(T) =

e cio se la sua media uguale al parametro da stimare. Questa propriet fornisce


garanzie contro il verificarsi di errori di stima sistematici, dato che se la media di T fosse
diversa da , mediante questo stimatore si otterrebbero stime che in media sono pi
piccole o pi grandi di , si otterrebbero cio stime di che sono dette distorte in media.
Tenendo presenti i risultati ottenuti in precedenza, notiamo che lo stimatore X di
corretto, mentre dalla 9.4.2 risulta che non corretto lo stimatore S2 di 2, dato che la sua
media risulta pi piccola del parametro da stimare. In questi casi lo stimatore viene detto
distorto e la sua distorsione (in inglese bias) B(T) corrisponde alla differenza
B(T) = E(T) .

9.5.1

Talvolta possibile correggere la distorsione di uno stimatore, come nel caso della
varianza. Infatti, se al posto di S2 si usa la funzione

n
S 2
S2 ,
n 1

192

si ottiene uno stimatore corretto dato che

2 ) E n S 2 n E(S 2 ) n n 1 2 2 .
E(S
n 1 n
n 1 n 1
La stima ottenuta per mezzo dello stimatore S 2

s 2

1
xi x
n 1

2 n n 1s2

nota come varianza campionaria corretta.


Si noti che lo stimatore S2 di 2 comunque asintoticamente corretto, dato che al
crescere di n, come abbiamo gi visto, la sua media tende a 2.
Come ultima osservazione a proposito della correttezza opportuno evidenziare che
anche se il termine distorsione sembra avere una connotazione negativa, lutilizzo di uno
stimatore distorto pu essere talvolta preferibile ad uno stimatore corretto.
Unaltra caratteristica particolarmente importante di uno stimatore si riferisce alla
precisone dello stimatore stesso, ossia alla variabilit delle sue possibili determinazioni.
Quanto minore infatti la sua variabilit tanto minore il grado di incertezza sui risultati
dellindagine campionaria. Si osservi infatti che uno stimatore, anche se corretto, pu
risultare impreciso se fornisce sottostime e sovrastime molto diverse dal valore vero del
parametro, ma che in media si compensano fra di loro.
Un indice comunemente utilizzato per misurare la precisione di uno stimatore il
cosiddetto errore quadratico medio (in generale indicato con MSE dal termine inglese
mean square error) che dato da

MSE T ET 2

e corrisponde quindi alla media della differenza al quadrato fra lo stimatore ed il parametro
da stimare.
Dati i due stimatori T1 e T2 per il parametro il senso comune suggerisce che
preferibile utilizzare lo stimatore che, a parit di numerosit campionaria, ha MSE minore.
Se risulta

193

MSE(T1)<MSE(T2)
si dice che T1 pi efficiente di T2.
Mediante le propriet del valore atteso e sulla base della 9.5.1 si vede subito che

MSE T E T 2 ET ET ET 2 ET ET ET 2
ET ET 2 EET 2 2ET ET ET V(T) BT 2
per cui lerrore quadratico medio corrisponde alla varianza dello stimatore pi la sua
distorsione al quadrato. Se lo stimatore corretto, quindi,

MSE(T)=V(T),

per cui fra due stimatori T1 e T2 entrambi corretti pi efficiente T1 se risulta


V(T1)<V(T2).
Dati due stimatori corretti di un certo parametro
stimatore con varianza minore, dato che quanto pi piccola la sua varianza, tanto
maggiore la probabilit che lo stimatore assuma valori vicini alla sua media, che
uguale al parametro da stimare.
Dati i due stimatori T1 e T2, con T1 pi efficiente di T2, l'efficienza relativa di T1 rispetto
a T2 viene misurata dal rapporto

e(T1, T2) =

MSE(T1 )
MSE(T 2 )

che pu assumere valori fra zero ed uno e che risulta tanto pi vicino ad uno quanto pi
lerrore quadratico medio di T1 vicino al lerrore quadratico medio di T 2. Se i due stimatori
sono entrambi corretti evidente che lefficienza relativa misurata semplicemente da

194

e(T1, T2) =

V(T1 )
.
V(T 2 )

Nell'esame dell'efficienza di uno stimatore riveste grande importanza la disuguaglianza


di Rao-Cramr, secondo la quale, dato un carattere Z con funzione di distribuzione f(z,),
se T uno stimatore corretto di , la sua varianza soddisfa, sotto condizioni abbastanza
generali, la seguente condizione

V(T)

1
logf(z; ) 2

nE

9.5.2

dove n la numerosit campionaria. Dalla disuguaglianza precedente risulta quindi che la


varianza di un qualsiasi stimatore di non mai inferiore alla quantit che appare sulla
destra della 9.5.2. Uno stimatore di con una varianza uguale a questa quantit, avrebbe
la varianza pi bassa possibile fra tutti gli stimatori corretti di .
Se si indica con Vmin la quantit a destra nella 9.5.2, una misura dell'efficienza
assoluta di uno stimatore T data dal rapporto

e(T) =

Vmin
V(T)

cosicch quando e(T) = 1, T uno stimatore che ha varianza minima e, quindi, massima
efficienza.
Uno stimatore si dice coerente se, per ogni 0, si ha

lim P T 0

e cio se al divergere della numerosit del campione tende a zero la probabilit che la
differenza in valore assoluto tra stimatore e parametro risulti maggiore di un comunque
piccolo e, quindi, se T converge in probabilit a . Quindi, se si utilizza uno stimatore

195

coerente ed il campione sufficientemente numeroso, risulta molto improbabile che si


verifichi una differenza rilevante fra la stima ed il parametro da stimare.
Come si visto nel paragrafo 9.4, le statistiche X , S2 e Mr sono stimatori coerenti
rispettivamente di , 2 e r e la stessa propriet ha anche S 2 , come si pu controllare
facilmente.
Per quanto riguarda lultima propriet degli stimatori cominciamo con losservare che
quando si stima un parametro della popolazione mediante una funzione dei dati
campionari tutte le informazioni sul parametro contenute nell'ennupla vengono condensate
o riassunte in un unico valore. In questo modo si perde una parte delle informazioni
contenute nel campione, come sempre avviene quando si esegue una sintesi, ma accade
talvolta che la funzione dei dati campionari tale che tutte le informazioni utili sul
parametro da stimare sono fornite dal valore della funzione stessa cosicch la conoscenza
di tutti i dati campionari non aggiunge alcuna ulteriore notizia sul valore del parametro
della popolazione. E' chiaro che in queste condizioni nessunaltra informazione utile sul
valore del parametro pu essere aggiunta da un qualsiasi altro stimatore basato sugli
stessi dati.
Una funzione dei dati campionari con questa propriet nota come statistica
sufficiente.

9.6 Cenni sui metodi di stima


Nelle pagine precedenti abbiamo visto come gli stimatori siano delle opportune funzioni
dei dati campionari che vengono utilizzate per ottenere informazioni sui parametri ignoti
della popolazione da cui il campione stato estratto. Abbiamo anche visto come la scelta
fra diversi possibili stimatori venga effettuata sulla base delle propriet degli stimatori
stessi.
In questo paragrafo ci occuperemo di studiare alcuni dei pi comuni metodi che
vengono utilizzati per determinare le espressioni formali degli stimatori.
Uno dei metodi pi comuni per costruire gli stimatori dei parametri di una distribuzione
il cosiddetto metodo dei momenti che si basa sull'uso dei momenti campionari.
In pratica, considerata una variabile Z che ha una distribuzione f(z,1,2,...,h) che
dipende da h parametri i (i=1,2,...,h), i suoi momenti teorici sono generalmente
espressione di questi parametri. Una volta calcolati i momenti teorici della distribuzione

196

sufficiente uguagliare questi momenti a quelli campionari, in modo da ottenere le stime


degli h parametri ignoti i. Pi precisamente, si pone luguaglianza fra lr-esimo momento
teorico e lr-esimo momento campionario iniziando con r=1 e andando avanti fin quando
non si sia ottenuto un sufficiente numero di equazioni per avere ununica soluzione.
Consideriamo, per esempio, una variabile Z che si distribuisce in maniera normale e
supponiamo di voler stimare i due parametri e 2 mediante il metodo dei momenti.
In questo caso i parametri da stimare sono due e quindi possiamo considerare i primi
due momenti teorici che, nel caso considerato, corrispondono a
E(Z) =
E(Z2) = 2 + 2,

essendo noto che


2 = E(Z2) 2.

Dato un campione di numerosit n i primi due momenti campionari si ottengono dalla


9.4.1 e risultano rispettivamente uguali a

m1

1
xi
n i1

m2

1
x i2 .

n i1

Ponendo m1 = E(Z) ed m2 = E(Z2) otteniamo il sistema

1 n
x i
n i1
n
1
2
2
2
n x i
i1

dal quale si ottengono le stime dei due parametri ignoti. Dalla prima equazione si ottiene

197

che, sostituito nella seconda equazione del sistema, fornisce

m 2 2 x

2
2

2 m 2 x s 2 .
Se si fa riferimento alla generica ennupla campionaria, gli stimatori dei parametri e 2
della distribuzione normale ottenuti utilizzando il metodo dei momenti sono rispettivamente
le v.c. X media aritmetica ed S2 varianza dei dati campionari

X,
2 S 2 .

Questo metodo in genere consente di ottenere le espressioni degli stimatori con grande
semplicit, ma questi stimatori spesso non sono corretti e non sono molto efficienti. In
generale per risultano coerenti dal momento che sono funzioni dei momenti campionari i
quali, come abbiamo gi visto, sono coerenti. Per questo motivo questi stimatori vengono
utilizzati soprattutto quando si dispone di campioni particolarmente numerosi ed in questo
caso costituiscono una valida alternativa a metodi di stima pi laboriosi.
Uno dei metodi pi importanti per la costruzione degli stimatori il metodo di massima
verosimiglianza, che si basa sulla funzione di probabilit congiunta dellennupla
campionaria X.
Data una variabile discreta Z con f.m. f(z,) in cui compare il parametro , la
distribuzione congiunta di X

L(x,) f(x i ,).


i1

Questa funzione, calcolata per gli n valori x1, x2, ..., xn del campione osservato,
corrisponde alla probabilit che da una popolazione in cui la Z ha distribuzione f(z,)
venga estratta esattamente lennupla x0 x1,x2,...,xn.

198

Dato che il parametro non noto, si possono formulare delle ipotesi sui suoi valori e
calcolare L(x 0 ,) in corrispondenza, per esempio, di =1, =2, ..., =k. Per ogni valore
j (j=1,2,...,k) si ottiene in questo modo la probabilit di estrarre da una popolazione con
distribuzione f(z, j) una ennupla campionaria identica a quella effettivamente osservata.
Se il valore di L(x0, j) basso, questo significa che poco probabile che da una
popolazione con parametro j venga estratto un campione identico a x0. L'ipotesi che il
valore del parametro sia uguale a j quindi poco verosimile.
Se per due valori di , j e j+1, risulta
L(x0, j) L(x0, j+1) ,
la probabilit di estrarre l'ennupla x0 da una popolazione con distribuzione f(z, j+1)
maggiore della probabilit di estrarre la stessa ennupla da una popolazione con
distribuzione f(z, j), cosicch l'ipotesi = j+1 pi verosimile dell'ipotesi = j.
Supponiamo, per esempio, di aver estratto 5 palline con ripetizione da unurna e di aver
ottenuto la seguente serie di palline bianche (B) e nere (N): B, B, N, B, N.
Indicata con p la quota di palline bianche contenute nellurna, possiamo calcolare la
probabilit di ottenere questo risultato x0 sotto diverse ipotesi su p:
L(x0, p=0,1) = 0,13x0,92=0,00081
L(x0, p=0,5) = 0,53x0,52=0,03125
L(x0, p=0,6) = 0,63x0,42=0,03456
L(x0, p=0,7) = 0,73x0,32=0,03087
L(x0, p=0,9) = 0,93x0,12=0,00729.
In questo caso fra le varie ipotesi considerate quella che risulta pi verosimile lipotesi
che il parametro p nella popolazione sia uguale a 0,6, ossia risulti uguale al valore della
quota di palline bianche rilevate sul campione effettivamente osservato.
Con queste premesse viene naturale assumere come stima di quel particolare valore

per cui la probabilit L(x0,) risulta massima e per il quale, quindi, l'ipotesi risulta
massimamente verosimile.

199

Per determinare questo valore basta evidentemente considerare la L(x0,) come


funzione di e cercare il valore di in corrispondenza del quale la funzione raggiunge il
suo massimo.
La L(x0,) considerata come funzione di detta funzione di verosimiglianza (f.v.),
mentre la stima di massima verosimiglianza (m.v.) del parametro quel valore , che
si suppone esista e sia unico, in cui la funzione L(x0,) ha il suo massimo.
Se la f.v. derivabile ovunque rispetto a ed il suo massimo non coincide con un
estremo del campo di variazione di , il valore in cui si annulla la derivata della f.v.
rispetto a
L(x 0 , )
0.

Si osservi che nei casi pi semplici il valore di in cui si annulla la derivata corrisponde
effettivamente al punto di massimo, come si controlla facilmente mediante la derivata
seconda.
Il valore di si ottiene pi semplicemente se si utilizza al posto della L(x0,) il suo
logaritmo, dal momento che la funzione logaritmica monotona, cosicch la logL(x0,) ha
il massimo nello stesso punto di L(x0,). Il valore cercato sar, dunque, quel per il quale
logL(x 0 , )
0.

Dato per esempio un carattere Z con distribuzione Zero-uno, la f.v. per un campione
bernoulliano di n elementi risulta

L(x 0 ,p) p x1 (1 p)1 x1 p x2 (1 p)1 x2 ... p xn (1 p)1 xn p xi (1 p)n xi

e quindi il suo logaritmo

logL(x 0 ,p) x ilogp n x i log(1 p) .

200

La derivata della log L(x0,p) rispetto al parametro p assume la forma

dlogLx 0 ,p 1
1
n x i n x i p
xi
dp
p
1 p
p(1 p) n

da cui, uguagliando a zero,

n xi
p 0

p (1 p ) n

si ottiene la stima di m.v. del parametro p

1
xi .
n

Come si vede, la stima di m.v. del parametro p di una distribuzione Zero-uno uguale
alla media aritmetica dei dati campionari e quindi alla quota campionaria.
Se si fa riferimento piuttosto che al campione osservato, alla generica ennupla
campionaria, lo stimatore di m.v. P del parametro p assume quindi la forma

1
P Xi ,
n

9.6.1

la cui f.p. indicata nella 8.2.4.


Tutte le considerazioni fatte con riferimento alle variabili discrete valgono anche per le
variabili continue. In questo caso necessario solo tenere presente che il valore di L(x0,)
non corrisponde alla probabilit di ottenere l'ennupla x0 perch questa probabilit uguale
a zero. Se le Xi sono variabili continue, quindi, la stima di m.v. di un parametro quel
valore per cui risulta massima la funzione di densit di probabilit congiunta dellennupla
campionaria.
Il metodo di m.v. pu essere generalizzato al caso in cui i parametri da stimare siano
pi d'uno. Dato, per esempio, un carattere Z con distribuzione normale, la funzione di
verosimiglianza ed il suo logaritmo assumono rispettivamente la forma

201

1
L(x 0 ; , )
e
2

1 x
i

n
n
1
logL(x 0 ; , ) log 2 log2 2
2
2
2

x i

mentre le derivate parziali rispetto a e a 2 sono

logL(x 0 ; , )
1
n
2 x i 2

logL(x 0 ; , ) n 1
x
2
2
4 i

xi

n x i
2

.
n
2 4

Uguagliando queste derivate a zero si ottiene il sistema

xi
n

2
(x i ) 2

e quindi

(x i x )2

s2 .

Se si fa riferimento alla generica ennupla campionaria, gli stimatori di m.v. dei parametri
e 2 della distribuzione normale sono rispettivamente le v.c. X media aritmetica ed S2
varianza dei dati campionari.
Gli stimatori ottenuti con questo metodo non sono sempre corretti come risulta, per
esempio, per lo stimatore di m.v. del parametro 2 di una popolazione normale che
corrisponde alla varianza campionaria non corretta.
Si pu dimostrare per che questi stimatori, sotto condizioni abbastanza generali, sono
coerenti e, per n che tende ad infinito, risultano corretti e massimamente efficienti.
202

CAPITOLO 10
DISTRIBUZIONI DI STATISTICHE DA POPOLAZIONI NORMALI

10.1 Introduzione
Nel capitolo precedente sono stati descritti alcuni risultati generali sulle principali
caratteristiche delle statistiche campionarie. Qui di seguito ci occuperemo invece della
determinazione delle distribuzioni di probabilit di alcune statistiche particolarmente
rilevanti nelle procedure di inferenza statistica. Queste distribuzioni di probabilit sono
analoghe a quelle che abbiamo ottenuto nel capitolo 9 per quanto riguarda, per esempio,
la quota campionaria che si distribuisce come una binomiale oppure come una
ipergeometrica a seconda del tipo di campionamento.
In questo capitolo studieremo le funzioni di probabilit di alcune statistiche campionarie
sotto lipotesi che la variabile oggetto di indagine si distribuisca nella popolazione dorigine
del campione in modo normale, dato che questa ipotesi risulta adeguata in molte situazioni
concrete ed in generale consente di ottenere in modo abbastanza semplice le distribuzioni
di probabilit campionarie.
Risultati analoghi possono essere ottenuti talvolta a partire da modelli diversi, anche se
non sempre si riesce a determinare la distribuzione teorica di una statistica campionaria.
In questi casi spesso si utilizzano distribuzioni approssimate oppure ottenute
empiricamente mediante elaboratori elettronici attraverso procedure numeriche. Queste
ultime consistono in campionamenti artificiali ripetuti pi volte mediante i quali si ottiene un
numero sufficientemente elevato di determinazioni di una data statistica. La distribuzione
determinata dallinsieme di questi valori, infatti, converge in probabilit alla distribuzione
vera della statistica, cosicch possibile approssimare la distribuzione teorica mediante la
corrispondente distribuzione empirica.
Per la determinazione delle distribuzioni di probabilit approssimate, in molti casi, ci si
basa anche, come vedremo nelle pagine successive, sul teorema limite centrale che
stato illustrato nel corso del paragrafo 8.3.

203

10.2 La media campionaria


Dato un carattere Z con f.d. normale N(, ), si pu dimostrare che la distribuzione di
probabilit della v.c. media aritmetica di un campione bernoulliano di n elementi estratto
da questa popolazione

1
Xi
n

ha f.d. normale con media uguale alla media della popolazione e varianza 2/n uguale
alla varianza della popolazione divisa per n, in simboli

X N ,
n

10.2.1

La media di un campione di n elementi proveniente da una popolazione con f.d.


normale N(, ) pu assumere quindi un qualsiasi valore compreso fra e + ed i suoi
possibili valori sono distribuiti in modo simmetrico intorno alla media vera della
popolazione ed al crescere della numerosit n risultano sempre pi concentrati intorno al
loro valore centrale.
Sulla base della 10.2.1 possibile calcolare la probabilit che la media di un campione
estratto da una N(, ) risulti compresa in un intervallo qualsiasi di valori. E infatti
sufficiente ricorrere alla standardizzazione della variabile

X
/ n

U N(0, 1)

10.2.2

dove U la v.c. normale standardizzata con f.d. N(0, 1). Indicato con x p il quantile di
ordine p della variabile 10.2.1 risulta infatti


P X x p P
up P X up
p.
n

204

Consideriamo, per esempio, una collettivit in cui la variabile Z ha una distribuzione che
pu essere approssimata da quella di una normale con media pari a 12 e varianza pari a 9
e supponiamo di voler determinare la probabilit che, estraendo da questa popolazione un
campione bernoulliano di 16 elementi, la v.c. X media campionaria assuma un valore
compreso nellintervallo 11, 13. Poich la v.c. X si distribuisce come una v.c. normale
con media = 12 e varianza 2 /n = 9/16, effettuando l'operazione di standardizzazione si
ha

13 12
11 12
P 11 X 13 P
U
P( 1,33 U 1,33) 0,8164 .
3/4
3/4

Dato un carattere X con f.d. normale, supponiamo ora di essere interessati a


determinare la distribuzione di probabilit della v.c. media aritmetica di un campione
bernoulliano di n elementi quando non nota la varianza della popolazione. In questo
caso non evidentemente possibile utilizzare la statistica 10.2.1 o la 10.2.2, ma una stima
della varianza ignota della popolazione pu essere ottenuta sulla base dei dati campionari
e, quindi, utilizzando per esempio la varianza campionaria corretta.
Si pu dimostrare che la variabile
X
tn-1
S n

10.2.3

che si ottiene dalla 10.2.2 sostituendo la varianza ignota della popolazione con lo
stimatore varianza campionaria corretta, ha una distribuzione nota che viene chiamata t di
Studentt.
Questa distribuzione caratterizzata da un unico parametro, detto gradi di libert
(g.d.l.), che in questo caso corrisponde alla numerosit del campione estratto diminuita di
1. Di solito il valore dei g.d.l. della t viene indicato mediante la lettera g ed in questo caso
la distribuzione t di Student viene anche indicata con il simbolo t g.
Questa variabile definita per valori compresi fra e + ed ha una f.d. simmetrica
intorno al valore t = 0, come risulta dalla figura 10.2.1 in cui rappresentata graficamente
la forma di questa funzione per alcuni valori dei gradi di libert.
tAnche in questo caso con il simbolo t si usa indicare sia la variabile che i suoi valori.

205

Figura 10.2.1
Grafico di alcune f.d. di variabili t di Student per diversi valori dei gradi di libert

La variabile tg ha solo i momenti di ordine inferiore a g e per g =1 si riduce alla


cosiddetta variabile di Cauchy, che non ha momenti di alcun ordine. Per g1 definita la
media E(tg)=0 e per g2 definita anche la varianza V(tg)=g/(g2).
Indicato con tn-1(p) il quantile di ordine p della t di Student con n-1 g.d.l., dalla 10.2.3
risulta

S
P
t n 1(p) P X t n 1(p)
p.
n
n
S

Cos come abbiamo visto per la distribuzione normale, attraverso la distribuzione della
variabile t si calcola la probabilit di estrarre un campione la cui media risulti inferiore o
uguale ad un qualsiasi valore oppure la probabilit che la media campionaria sia
compresa in un intervallo qualsiasi.
Nella Tavola D in Appendice sono elencati, per i diversi valori di g indicati sulla prima
colonna, alcuni quantili di questa variabile corrispondenti ai valori della f.r., che sono
indicati invece sulla prima riga. Dato che si tratta di una variabile simmetrica intorno al

206

valore t=0, sono riportati i soli quantili positivi di ordine p0,5. I quantili negativi di ordine
1p sono uguali evidentemente a quelli di ordine p cambiati di segno.
Riprendiamo, per esempio, lesercizio precedente, ma supponiamo questa volta che la
variabile Z abbia una distribuzione che pu essere approssimata da quella di una normale
con media pari a 12 e varianza ignota. Supponiamo di voler determinare la probabilit che,
estraendo da questa popolazione un campione bernoulliano di 16 elementi, la v.c. X
media campionaria assuma un valore compreso nellintervallo 11, 13 sapendo che il
campione estratto ha fornito una varianza campionaria corretta pari a 9 . In questo caso si
ha

13 12
11 12
P 11 X 13 P
t15
P( 1,33 t15 1,33)
3/4
3/4
Pt15 1,33 Pt15 1,33

ed il valore della f.r. della variabile in corrispondenza di 1,33 si determina sulla tavola D
cercando sulla riga corrispondente a 15 g.d.l. un valore il pi vicino possibile a 1,33 e
andando poi a leggere il corrispondente valore della f.r. sulla prima riga. In questo caso

Pt15 1,33 0,90

per cui

Pt15 1,33 Pt15 1,33 0,9 0,1 0,8 .

La distribuzione di tg al crescere di g tende rapidamente alla distribuzione normale


standardizzata, tanto che per g30 la t considerata senz'altro come una N(0,1) ed i valori
della sua f.r. e dei suoi quantili possono essere ricavati direttamente dalle tavole della
normale. Questo significa che per campioni sufficientemente grandi risulta
X
N(0, 1)
S n

(Distribuzione normale di Z, n>30)

207

10.2.4

cos che la distribuzione della statistica a sinistra nella 10.2.4 converge a una normale
standardizzata anche quando non si conosce la varianza della distribuzione normale della
variabile Z di interesse.
Si osservi che nel paragrafo 8.3 si detto che la somma di n v.c. indipendenti ed
identicamente distribuite, quale che sia la forma di questa distribuzione, tende a distribuirsi
in modo normale al crescere di n. Per questo motivo possibile dimostrare che, quale che
sia la distribuzione di Z nella collettivit, la media aritmetica X di un campione
sufficientemente numeroso si distribuisce approssimativamente come una variabile
normale con media e s.q.m s

n.

Di solito lapprossimazione con la normale viene considerata valida gi per campioni di


almeno 50 elementi, per cui si utilizza la distribuzione asintotica

X N ,
n

(Distribuzione di Z ignota, n 50)

X
N(0, 1)
s / n

(Distribuzione di Z ignota, n 50)

ossia

10.2.5

anche se, per un dato valore di n, la bont dellapprossimazione dipende dalla rapidit con
cui la distribuzione di X converge alla distribuzione normale.

10.3 La varianza campionaria


Abbiamo visto nelle pagine precedenti che lo stimatore pi utilizzato per stimare la
varianza di una popolazione normale la varianza campionaria corretta

2 1 X X 2.
S
i
n 1
E possibile dimostrare che la seguente funzione di tale stimatore

208

S
2
(n 1) n
1

10.3.1

ha una distribuzione nota che viene detta chi-quadrato con n-1 gradi di libert, dove n
la numerosit del campione estratto.
Come nel caso della distribuzione t di Student, anche la f.d. della variabile chi-quadrato
dipende da un solo parametro, sempre denominato gradi di libert che viene spesso
indicato con la lettera g.
Nella figura 10.3.1 sono indicati i grafici della f.d. di 2g per alcuni valori di g.

Figura 10.3.1
Grafico di alcune f.d. di variabili chi-quadrato per diversi valori dei gradi di libert
0,5

g=2

0,4

0,3

g=3

0,2

g=5
g=7
0,1

0
0

10

15

20

Si pu dimostrare che la media e la varianza di tale variabile sono rispettivamente


uguali a


V 2g .

E 2g g ,

10.3.2

2
g

10.3.3

209

Nella Tavola C in Appendice sono elencati, per i diversi valori dei g.d.l. riportati sulla
prima colonna, alcuni quantili di questa variabile corrispondenti ai valori della f.r., che sono
indicati invece sulla prima riga.
Dalle 10.3.2 e 10.3.3 si ottiene facilmente la media e la varianza della 10.3.1
2

E (n 1) n 1

S
V (n 1) 2(n 1)

e quindi


2
V S
.
n 1

2 2
ES
2

La varianza dei possibili campioni estratti da una popolazione normale possono


assumere quindi un qualsiasi valore compreso fra zero ed infinito e sono distribuite, in
questo caso in modo asimmetrico, intorno alla varianza vera 2. Al crescere della
numerosit campionaria queste stime risultano sempre pi concentrate intorno alla
varianza della popolazione, cosicch i valori del rapporto fra la varianza campionaria e
quella della popolazione al crescere di n risultano sempre pi addensati intorno ad 1.
2
2
Se si indicano con n
1(p) i quantili di ordine p della con n1 gradi di libert, dalla

10.3.1 si ha
2

2 n2 -1(p) 2
S
2

P n - 1 n -1(p) PS
p.

n -1

Si osservi che anche in questo caso, pur trattandosi di una variabile che pu assumere
solo valori non negativi, per un valore di g elevato i valori della f.r. di 2g possono essere
approssimati da quelli della f.r. normale.
210

Per campioni sufficientemente numerosi, quindi, tenendo presenti le 10.3.2 e 10.3.3


vale la seguente distribuzione asintotica

S
(n 1) N n - 1, 2n - 1

ossia

S
(n 1) n 1

N0, 1
2n - 1

da cui si ottiene anche

S 2 2
2 2/(n 1)

N0, 1

10.3.4

Supponiamo, per esempio, che una variabile Z abbia una distribuzione che pu essere
approssimata da quella di una normale di varianza pari a 25 e di voler determinare la
probabilit che, estraendo da questa popolazione un campione bernoulliano di 200
elementi, la v.c. S 2 varianza campionaria corretta risulti maggiore di 30. In questo caso
si ha

30 25
P S 2 30 P U
P(U 1,99) 1 0,977=0,023.

25
2
199

10.4 La quota campionaria


La convergenza alla normale vale anche per la somma di variabili discrete cosicch, per
esempio, anche lo stimatore P del parametro p di una popolazione Zero-uno definito nella
9.6.1 si distribuisce, per n che tende ad infinito, come una variabile normale con media p e
varianza pari a p(1p)/n

211


p1 - p
P N p,
n

P - p

p1 - p
n

N(0, 1)

per n

10.4.1

per n.

10.4.2

Se il campione sufficientemente numeroso, quindi, possibile utilizzare questa


distribuzione asintotica che consente unestrema semplificazione dei calcoli che sarebbero
invece necessari se si utilizzasse la distribuzione esatta, che di tipo binomiale.
Supponiamo di sapere, per esempio, che nella popolazione una quota di studenti pari al
73% ha superato una prova di idoneit durante la prima sessione di esame. Si vuole
determinare la probabilit che, estraendo un campione bernoulliano di 1000 studenti da
questa popolazione, la quota di studenti che ha superato lidoneit durante la prima
sessione risulti inferiore al 70%.
Data la numerosit campionaria elevata, questa probabilit si ottiene immediatamente
effettuando la standardizzazione 10.4.2, per cui risulta

0,70 0,73

P P 0,70 P U
PU 2,14 1 0,984 0,016
0,73 0,27

1000

per cui si ha una probabilit di poco superiore all1,5% di estrarre un campione in cui la
quota di idonei alla prima sessione di esami risulti inferiore al 70%.

212

CAPITOLO 11
CENNI SUGLI INTERVALLI DI CONFIDENZA E SULLA VERIFICA DI IPOTESI

11.1 Generalit sugli intervalli di confidenza


Nelle pagine precedenti abbiamo esaminato alcuni metodi per la costruzione degli
stimatori e per la determinazione delle loro funzioni di probabilit. Ci siamo occupati anche
dei criteri in base ai quali si pu scegliere, fra i possibili stimatori di un certo parametro
ignoto , quello che offre maggiori garanzie di fornire stime convenienti di .
Abbiamo anche visto che in occasione di una qualsiasi operazione di campionamento il
campione bernoulliano effettivamente estratto dalla popolazione oggetto di indagine
fornisce, tramite uno stimatore T, una stima t0 di e che questo valore t0 solamente uno
dei possibili valori che pu assumere lo stimatore T.
Per la stima del parametro, dunque, si dispone di una sola determinazione della v.c. T
che detta stima puntuale di . E' chiaro quindi che, anche se lo stimatore T ha propriet
ottimali, la probabilit di estrarre un campione che fornisca il valore vero del parametro e
cio che risulti t0= diminuisce al crescere dei possibili valori di T ed uguale a zero se T
una variabile continua.
E preferibile allora prendere in considerazione, piuttosto che il singolo valore t 0 dello
stimatore T, un insieme di valori di T e calcolare la probabilit che questo insieme
contenga il valore vero del parametro .
Questo insieme di valori pu essere considerato come un intervallo di valori delimitato
da due estremi, z1(T) e z2(T), funzioni dello stimatore T, che contiene il valore del
parametro con una probabilit prefissata. Si parla in questo caso di stima intervallare di .
E evidente che lo scopo dell'indagine statistica sar sempre quello di formulare
unaffermazione del tipo lintervallo z1(T), z2(T) contiene quasi certamente il valore vero
del parametro .
Per poter giungere a una conclusione di questo tipo necessario quindi predeterminare
un certo valore della probabilit, che deve essere sufficientemente elevato, e sulla base di
questo valore costruire poi l'intervallo di T nel quale contenuto il valore vero di con la
probabilit prefissata. Questa probabilit viene usualmente indicata con la notazione 1,

213

dove rappresenta un numero (ovviamente compreso tra 0 e 1) che generalmente


abbastanza piccolo. I valori di usati pi di frequente, infatti, sono 0,10, 0,05 e 0,01 e,
perci, i corrispondenti valori di 1 sono 0,90, 0,95 e 0,99, in modo da poter affermare
che l'intervallo costruito contiene il valore vero di con probabilit pari a 0,90, a 0,95
oppure a 0,99.
Vediamo ora come si determina questo intervallo, detto intervallo di confidenza,
mediante un semplice esempio.
Consideriamo un campione di numerosit n che stato estratto da una popolazione
normale di varianza nota e supponiamo di essere interessati a stimare la media di
questa popolazione sulla base dei dati campionari raccolti. Sotto queste condizioni lo
stimatore media campionaria, come sappiamo, ha la distribuzione 10.2.2, per cui, se
indichiamo con u1 /2 il quantile della normale standardizzata che isola alla sua destra
una probabilit /2, risulta

X-
P u1 /2
u1 /2 1
n

da cui, isolando la media campionaria, si ottiene


P u1 /2
X u1 /2
1 .
n
n

11.1.1

Abbiamo quindi una probabilit pari a 1 che il campione da una popolazione con f.d.
normale N(, ) abbia una media compresa fra i due quantili di ordine /2 ed 1/2 della
N(, / n ) , pari rispettivamente a u/2 / n ed a u/2 / n .

Dalla 11.1.1 si ottiene anche


P X u1 /2
/2
n

11.1.2


P X u1 /2
/ 2
n

11.1.3

214

e cio che si ha una probabilit pari ad /2 che la media del campione risulti inferiore o
uguale al quantile sinistro della sua f.p. ed unuguale probabilit che risulti superiore al
quantile destro.
Dalle due espressioni precedenti si ricava anche

P X u1 /2
/2
n

11.1.4

P X u1 /2
/2 .
n

11.1.5

L'intervallo delimitato dai due estremi

X u1 /2

X u1 /2

costituisce l'intervallo di confidenza di al livello di probabilit 1.


Dalla 11.1.4, infatti, risulta che si ha una probabilit pari ad /2 che l'estremo destro
dell'intervallo di confidenza sia inferiore a , mentre dalla 11.1.5 risulta che si ha una
stessa probabilit che l'estremo sinistro sia superiore a .
Si ha, quindi, una probabilit pari a 1 che l'intervallo costruito in questo modo
contenga . Questo equivale a dire, con riferimento a tutti i possibili intervalli costruiti sulla
base di tutti i possibili campioni di numerosit n ad un identico livello di confidenza 1,
che il 100(1)% degli intervalli contiene il valore vero del parametro ignoto, mentre il
100% non lo contiene. Nella figura 11.1.1 sono riportati, per esempio, cinque possibili
intervalli costruiti sulla base di cinque possibili campioni e, come si vede, solo quattro
intervalli contengono il valore vero, mentre un quinto ha l'estremo destro inferiore a .
In conclusione, una volta estratto il campione ed ottenuto il valore x 0 di X , l'intervallo di
confidenza della media della popolazione delimitato dagli estremi
215

x0 u1 /2 /

n, x 0 u1 /2 / n

ed il risultato viene commentato dicendo che il valore vero di , con una probabilit pari ad
1, compreso in questo intervallo.

Figura 11.1.1
Rappresentazione grafica di alcuni intervalli di confidenza di

In generale, il metodo utilizzato per la costruzione di un intervallo di confidenza di un


parametro si basa su una quantit (X1, X2,..., Xn, ), detta quantit pivotale, che una
funzione delle n v.c. Xi (i=1, 2, ..., n) e del parametro ignoto la cui distribuzione di
probabilit nota, quale che sia il valore del parametro e che non dipende da alcuna
caratteristica ignota della distribuzione di probabilit delle n v.c. campionarie.
Nel caso appena esaminato la funzione

X-

, sotto ipotesi che sia nota la varianza

della popolazione, una quantit pivotale essendo funzione della media campionaria, e
quindi delle n v.c. campionarie Xi, della media della popolazione ed avendo una
distribuzione N(0, 1) quale che sia il valore di nella popolazione.
Supponiamo, per esempio, che da una popolazione con f.d. normale con media
ignota e con varianza 2 = 4 sia stato tratto un campione di 16 elementi la cui media
aritmetica uguale a 5. L'intervallo di confidenza di al livello del 95% si costruisce
tenendo presente che u0,975=1,96 e risulta uguale a (4,02, 5,98). Si conclude in questo
caso che il valore vero di , con probabilit pari al 95%, compreso fra 4,02 e 5,98.

216

Si osservi che laffermazione che un determinato intervallo contiene il valore di con


una probabilit pari ad 1 pu sembrare priva di senso dato che quellintervallo, in realt,
o contiene il valore di oppure non lo contiene. La valutazione di probabilit, per, si
riferisce al criterio utilizzato per la determinazione dellintervallo ed indica che questo
criterio nel 100(1)% dei casi fornisce un intervallo che effettivamente contiene .
E evidente che la costruzione di un intervallo di confidenza al livello di probabilit 1
comporta la possibilit di commettere un errore nel 100% dei casi, cosicch si potrebbe
pensare di ridurre la possibilit di errore diminuendo il valore di . Si osservi per che in
questo modo aumenta lampiezza dellintervallo di confidenza cos che laffermazione sul
valore di ha una maggiore probabilit di essere vera, ma anche meno significativa. Se
non si fosse disposti infatti ad accettare la possibilit di errori, si potrebbe solo affermare
che la media di una popolazione normale compresa certamente tra e +, ma questa
conclusione evidentemente sarebbe del tutto inutile. Daltra parte, se si riduce l'ampiezza
dell'intervallo, aumenta di conseguenza la probabilit di fare un'affermazione errata.

11.2 Alcuni esempi di stime per intervalli

11.2.1 Intervallo di confidenza della media


Nel paragrafo precedente abbiamo visto come si costruisce l'intervallo di confidenza di
quando nota la varianza 2 della popolazione. Se, per, come in pratica accade quasi
sempre, il valore di 2 non noto, la funzione 10.2.2 non una quantit pivotale, essendo
funzione del parametro ignoto . Tuttavia questa varianza pu essere stimata in modo
corretto e coerente mediante lo stimatore S 2 e, quindi, considerando la funzione 10.2.3
anzich la 10.2.2.
Sulla base della distribuzione della quantit pivotale 10.2.3 si vede subito che in questa
situazione lintervallo di confidenza della media della popolazione calcolato utilizzando la
v.c. t di Student con n1 gradi di libert, anzich mediante la distribuzione normale.
Seguendo lo stesso procedimento utilizzato nel paragrafo precedente, infatti, si avr

s
s
P t n 11- /2
X t n 11- /2 1
n
n

217

dove t n 11- /2 corrisponde al quantile della t di Student con n-1 g.d.l. che isola alla sua
destra una probabilit /2. Evidentemente le 11.1.2 e 11.1.3 in questo caso diventano


P X t n 11- /2 /2
n


P X t n 11- /2 /2 .
n

Si ottiene in questo modo lintervallo

S
S
, X t n 11- /2
X t n 11- /2

n
n

che rappresenta l'intervallo di confidenza di al livello del 100(1)%.


Calcoliamo ora, per esercizio, lintervallo di confidenza della media sulla base del
campione riportato nella tabella 9.3.1. Se si tiene presente che la sua varianza corretta
risulta uguale a 4,01 e che t9(0,975) uguale a 2,262, lintervallo di confidenza al livello di
probabilit del 95%

10,80 2,262

2,00
10

10,80 2,262

2,00
10

per cui il valore vero di , con probabilit pari al 95%, compreso fra 9,37 e 12,23.
Come si vede, in questo caso lintervallo contiene il valore vero della media della
popolazione che uguale a 10.
Da quanto abbiamo visto nel capitolo precedente, lintervallo di confidenza della media
della popolazione per una variabile Z che si distribuisce in modo normale con varianza 2
ignota pu essere calcolato in modo approssimato anche sulla base della distribuzione
normale se la numerosit campionaria maggiore o uguale a 30 unit. In questo caso,
quindi, lintervallo di confidenza di al livello 1assume la forma

S
S
, X u1 /2
X u1 /2
.
n
n

218

La precedente espressione, infine, pu essere utilizzata anche quando non si ha


nessuna informazione sulla distribuzione della variabile Z nella collettivit, purch il
campione sia sufficentemente numeroso (usualmente per n maggiore o uguale di 50
unit).
Consideriamo, per esempio, il seguente campione di 243 uova di cuculo u, sulle quali
stata rilevata la variabile X larghezza (espressa in millimetri) ottenendo la distribuzione
indicata nella tabella successiva. Si vuole determinare lintervallo di confidenza della
media della larghezza delle uova nella popolazione al livello di probabilit 1= 0,90.

Tabella 12.2.1.1
Larghezza di un campione di 243 uova di cuculo
larghezza
13,75-|14,25
14,25-|14,75
14,75-|15,25
15,25-|15,75
15,75-|16,25
16,25-|16,75
16,75-|17,25
17,25-|17,75
17,75-|18,25
18,25-|18,75
18,75-|19,25
totale

frequenza
1
1
5
9
73
51
80
15
7
0
1
243

Dai dati campionari riportati nella tabella 12.2.1.1 si ottiene x 16,54 e s x 0,66 per
cui, data lelevata numerosit campionaria, l'intervallo di confidenza approssimato della
media della variabile X al livello 1= 0,90 dato da

0,66
0,66
16,54 1,645
= (16,47, 16,61).
, 16,54 1,645
243
243

219

11.2.2 Intervallo di confidenza della varianza


L'intervallo di confidenza della varianza di una popolazione normale si costruisce
tenendo presente che la v.c. 10.3.1 che una quantit pivotale e che si distribuisce come
una variabile chi-quadrato con n1 gradi di libert.
Poich la f.d. della variabile chi-quadrato non simmetrica, occorre trovare quei due
quantili n2 1/2 e n2 11 /2 che isolano, il primo sulla propria sinistra ed il secondo
sulla propria destra, due aree di probabilit pari ad /2. Bisogna individuare, cio, quei due
quantili tali che

2
PS 2 n2 1/2
/2
n 1

2
PS 2 n2 11- /2
/2.
n 1

S 2 (n 1)
S 2 (n 1)
, 2
Si ottiene quindi l'intervallo 2
che rappresenta l'intervallo di
n 11- /2 n 1/2
confidenza di 2 al livello del 100(1)%.
Sulla base del campione riportato nella tabella 9.3.1, se si tiene presente che per
=0,025 i due quantili della chi-quadrato con 9 g.d.l. sono 92 0,025 =2,700 e

92 0,975 =19,02, lintervallo di confidenza della varianza al livello del 95% risulta uguale a
4,01 9
4,01 9
2
19,02
2,7

per cui il valore vero di 2, con probabilit pari al 95%, compreso fra 1,90 e 13,37. Anche
in questo caso lintervallo di confidenza contiene il valore vero della varianza della
popolazione che uguale a 4.
Osserviamo ora che, per lasimmetria della 2, lintervallo di confidenza basato sui
quantili n2 1/2 e n2 11 /2 non , in media, il pi corto possibile a quel livello di
confidenza, come accade invece nel caso della media. Intervalli di ampiezza minore si
u Latter O.H. (1901-02), The egg of Cuculus Canorus. Biometrika, 1, 164-176.

220

potrebbero costruire individuando i quantili che isolano sulla propria sinistra e sulla propria
destra frazioni diverse dell'area totale . Si osservi comunque che al crescere di n
lintervallo a code uguali tende a coincidere con lintervallo pi corto cos che in genere,
per semplificare i calcoli, lintervallo di confidenza della varianza viene determinato sulla
base dei due quantili di ordine /2 e 1/2.
Anche per quanto riguarda l'intervallo di confidenza della varianza, quando il campione
molto numeroso, pu essere utilizzata la distribuzione asintotica della statistica 10.3.4
che per n elevato tende a distribuirsi come una v.c. normale standard.
Dallespressione

S 2 2

P 2
u1 /2 /2
2/(n 1)

si ottiene

S 2
/2 .
P 2

u
2/(n

1)
1 /2

In modo analogo dallespressione

S 2 2

P 2
u1 /2 /2
2/(n 1)

si ottiene

S 2
/2 ,
P 2

1 u1 /2 2/(n 1)

per cui lintervallo di confidenza approssimato della varianza risulta

S 2
S 2

.
,
1 u

2/(n

1)
1

u
2/(n

1)
1/2
1/2

221

Considerati nuovamente i dati campionari della tabella 12.2.1.1, lintervallo di


confidenza della varianza della variabile X al livello di probabilit 1= 0,90 risulta

0,66 2
0,66 2

.
,
1 1,645 2/242 1 1,645 2/242

L'intervallo di confidenza approssimato di 2 al livello del 90% , quindi, (0,3789;


0,5122), per cui si pu concludere che questo intervallo contiene il valore vero della
varianza con una probabilit pari al 90% circa.

11.2.3 Intervallo di confidenza della quota


Lintervallo di confidenza della quota p di individui che nella popolazione presentano
una determinata caratteristica A si basa sulla distribuzione del suo stimatore campionario
P che una binomiale di parametri p ed n, dove n la numerosit del campione. Se per

il campione molto numeroso lintervallo di confidenza della quota pu essere costruito


sulla base della distribuzione asintotica della quota campionaria P .
La funzione 10.4.2 non tuttavia una quantit pivotale, in quanto dipende dal parametro
ignoto

p1 - p
, ossia dalla varianza della quota campionaria. Si pu per ottenere una
n

quantit pivotale se si utilizza lo stimatore di questa varianza e, quindi, se si considera la


funzione

P - p
N(0, 1)

P 1- P

per n

In analogia a quanto visto in precedenza risulter

P P p u1 / 2 P (1 P )/n / 2

P P p u1 / 2 P (1 P )/n / 2

222

da cui si ottiene lintervallo di confidenza i cui estremi sono

P u1 / 2 P (1 P )/n .

Supponiamo, per esempio, che in occasione di un referendum abrogativo venga


effettuato un sondaggio preliminare su un campione di 1000 individui. Sapendo che su
1000 intervistati 650 sono favorevoli allabrogazione della legge, la quota campionaria

p 0,65 e lintervallo di confidenza della quota dei favorevoli allabrogazione ad un livello


di confidenza del 99% delimitato dagli estremi

0,65 2,576

0,65 0,35
.
1000

Lintervallo di confidenza approssimato quindi (0,6111; 0,6889).

11.3 Generalit sui tests di significativit


Abbiamo visto nelle pagine precedenti come i dati campionari possano essere utilizzati
per ottenere informazioni sul valore di uno o pi parametri ignoti della popolazione di
interesse. In questo paragrafo vedremo come gli stessi dati possano essere anche
utilizzati per verificare se una certa ipotesi, ossia una certa congettura su una o pi
caratteristiche di una popolazione, possa essere ritenuta verosimile o meno.
In generale, con il termine ipotesi statistica si indica una congettura su un qualsiasi
parametro ignoto della distribuzione di una variabile in una popolazione. Cos, per
esempio, si pu voler verificare se un certo macchinario produca pezzi che rispettano delle
caratteristiche fisiche prestabilite (peso, lunghezza, resistenza), se uno specifico dado o
una moneta siano equilibrati, se un farmaco risulti efficace nella cura di una particolare
malattia, se esista una qualche connessione fra due variabili rilevate su una certa
collettivit e cos via.
Tutte queste ipotesi possono essere sottoposte a verifica sulla base di una opportuna
rilevazione campionaria e la procedura utilizzata per la verifica di queste ipotesi costituisce
il cosiddetto test statistico.
Supponiamo per esempio di voler verificare se una determinata moneta sia equilibrata.
Per verificare questa ipotesi si potrebbe procedere ad un opportuno numero di lanci della

223

moneta stessa e registrare quindi il numero di teste e di croci ottenute. Ovviamente si sar
portati a ritenere plausibile lipotesi che la moneta sia equilibrata se le frequenze associate
alle teste ed alle croci non risultano molto diverse fra di loro, mentre in caso contrario si
sar portati a ritenere che la moneta sia sbilanciata.
E' chiaro per che sulla base delle informazioni parziali fornite da un campione, per
quanto numeroso esso sia, non sar in genere possibile stabilire con certezza se
un'ipotesi vera oppure falsa, dato che uno stesso risultato pu derivare da popolazioni
con strutture diverse. Nel procedimento appena descritto entra infatti in gioco il fattore
casuale, per cui in teoria possibile lanciare una moneta equilibrata 100 volte ed ottenere
un numero di teste che va da 0 a 100, anche se ovviamente alcuni risultati sono molto
meno probabili di altri.
Un qualsiasi criterio di decisione, quindi, comporter necessariamente il rischio di
commettere un errore che consiste nel rifiutare lipotesi quando vera oppure
nellaccettarla quando falsa. Nel caso della moneta, per esempio, il risultato campionario
potrebbe segnalare che la moneta equilibrata anche se la moneta fosse invece
sbilanciata oppure i risultati ottenuti potrebbero indicare che la faccia testa ha una
probabilit molto maggiore della faccia croce anche se la moneta fosse equilibrata o,
addirittura, se alla faccia croce fosse associata una probabilit maggiore di quella
associata allaltra faccia.
Nelle pagine seguenti prenderemo esplicitamente in considerazione solo la probabilit
di rifiutare un'ipotesi quando vera e faremo riferimento, quindi, ai cosiddetti tests di
significativit.
In generale lipotesi che si vuole verificare detta ipotesi nulla (o ipotesi zero) e viene
indicata in modo sintetico con la notazione

H0:
seguita dal suo enunciato formale, dove H liniziale del termine inglese Hypothesis.
Se si vuole verificare lipotesi che un certo parametro della distribuzione di una
variabile assume nella popolazione il valore 0, questa ipotesi viene specificata nel modo
seguente
H0 : 0.

11.3.1

224

Nel caso della moneta, se indichiamo con p la probabilit associata alluscita della
faccia testa, lipotesi che la moneta sia bilanciata pu essere quindi espressa da

H0 : p=0,5.
E ovvio che saremo portati a ritenere che la moneta sia equilibrata se, lanciando un
adeguato numero di volte la moneta, otterremo una quota campionaria di teste prossima al
valore 0,5 mentre al crescere della differenza fra il risultato campionario ottenuto e il valore
0,5 saremo sempre pi portati a ritenere che la moneta sia sbilanciata.
In generale, quindi, unipotesi sul valore del parametro pu essere considerata tanto
pi verosimile quanto pi il valore t0 della stima campionaria di risulta probabile se si
assume come vera lipotesi H0. In altri termini, la regola di decisione su cui si basano i
tests di significativit consiste nellaccettare lipotesi H0 se il valore t0 della stima
campionaria di rientra nellinsieme dei risultati pi probabili sotto H0 e nel rifiutarla in
caso contrario.
Per controllare se il risultato campionario effettivamente ottenuto un risultato probabile
quando il parametro uguale a 0 necessario fare riferimento alla distribuzione di
probabilit dello stimatore T del parametro ignoto sotto ipotesi nulla.
Nellesempio della moneta, ipotizzando lindipendenza dei lanci, la distribuzione dello
stimatore P "quota di teste ottenute nei lanci" sotto H0 una binomiale

f p pnp 1 pn1p
np

p 0,1/n, 2/n,...,1

dove p=0,5. Se il numero di lanci effettuati sufficientemente elevato sappiamo che


questa distribuzione pu essere anche approssimata da una normale di media p e
varianza p(1-p)/n.
In entrambi i casi i possibili valori dello stimatore sotto ipotesi nulla si distribuiscono in
modo simmetrico intorno a 0,5, cosicch linsieme dei risultati pi probabili sotto H0
costituito da tutti quei valori di P che sono compresi in un intervallo centrato su 0,5.

225

La regola di decisione consiste quindi nel ritenere verosimile lipotesi nulla se la stima
campionaria ottenuta p compresa nellintervallo dei risultati pi probabili e nel rifiutarla
se p cade allesterno.
Il procedimento adottato, quindi, consiste nel creare una bipartizione dellinsieme dei
possibili risultati campionari, che viene suddiviso in una regione di accettazione
dellipotesi nulla e in una regione di rifiuto, che viene anche detta regione critica.
Questa regola di decisione comporta una probabilit di commettere un errore che
consiste nel rifiutare lipotesi nulla quando vera, dato che evidentemente possibile
ottenere un risultato campionario esterno allintervallo considerato quando H 0 vera. La
probabilit dellerrore che consiste nel rifiutare lipotesi nulla quando vera viene indicata
mediante la lettera e viene detta errore di prima specie o livello di significativit.
Lerrore di prima specie quindi la probabilit di ottenere, quando vera lipotesi nulla, un
risultato campionario che risulta compreso nella regione di rifiuto dellipotesi.
Nel caso della moneta, la regione di accettazione dellipotesi nulla sar interna ai due
quantili di ordine /2 e 1/2 che rispettivamente isolano unarea pari ad /2 sulla sinistra
e sulla destra della distribuzione dello stimatore P sotto H0. Le due regioni di rifiuto
saranno invece posizionate lungo le code di questa distribuzione.
In generale per verificare una qualunque ipotesi 11.3.1, si sceglie uno stimatore T di
e si fa riferimento alla sua distribuzione di probabilit determinata come se 0 fosse il vero
valore di . Questa la cosiddetta distribuzione dello stimatore sotto ipotesi nulla.
Una volta scelto il livello di probabilit , gli estremi dellintervallo di accettazione
dellipotesi nulla, detti valori critici, spesso corrispondono ai due quantili che in questa
distribuzione isolano il primo sulla sua sinistra ed il secondo sulla sua destra una
probabilit pari ad /2.
Come abbiamo visto, la regola di decisione consiste nel rifiutare lipotesi nulla quando il
valore campionario t di T risulta compreso nella regione critica. In questo caso si dice
anche che il valore della statistica significativo.
Allintervallo di accettazione associata evidentemente una probabilit pari ad 1,
cosicch la regola di decisione porter nel 100(1)% dei casi a non rifiutare lipotesi e nel
100% dei casi a rifiutarla anche se vera. L'essere disposti ad accettare il rischio di
commettere un errore quindi consente, se vera lipotesi H0, di decidere correttamente nel
100(1)% dei casi.

226

La probabilit viene determinata ovviamente in modo da essere quasi sicuri di non


respingere H0 quando vera e sul suo valore si possono fare considerazioni analoghe a
quelle relative ai livelli di probabilit degli intervalli di confidenza.
Dato che il rischio di un errore, chiaro che il suo valore deve essere fissato
tenendo presenti in qualche modo le conseguenze che derivano dal rifiutare un'ipotesi
vera cosicch, se si ha interesse a tutelarsi contro questo rischio, necessario ridurre
questa probabilit.
Si osservi daltra parte che al diminuire di aumenta lampiezza dellintervallo di
accettazione per cui, se il valore di basso, non si ha motivo di respingere H0 anche in
presenza di risultati che sono molto improbabili sotto quellipotesi e per i quali, quindi,
lipotesi stessa risulta poco verosimile.
Si osservi infine che se il valore dello stimatore T compreso nellintervallo di
accettazione

dellipotesi

nulla,

questo

risultato

non

implica

che

lipotesi

sia

necessariamente vera. E evidente infatti che in generale t0 rientra anche nellinsieme dei
risultati pi probabili sotto altre ipotesi diverse da H0 e risulta quindi compreso
nellintervallo di accettazione associato a queste ipotesi.

11.4 Alcuni tests di uso pi comune

11.4.1 Verifica di ipotesi sulla media


Con riferimento alla verifica di ipotesi sul valore della media di una variabile Z
H0 : 0

11.4.1.1

cominciamo a considerare in caso in cui Z si distribuisce in modo normale con un valore di


noto. In questo caso la distribuzione della v.c. media campionaria data dalla 10.2.1 e,
considerata vera lipotesi 11.4.1.1 lintervallo di accettazione dellipotesi sar centrato su
0 e delimitato dai due quantili

0 u1 / 2
0 u1 / 2

n
,

n
227

che isolano rispettivamente a sinistra e a destra della distribuzione unarea pari ad /2.
Gli intervalli


, 0 u1 / 2

0 u1 / 2
,
n

costituiscono invece larea di rifiuto dell'ipotesi o regione critica, dove i valori

0 u1 / 2

0 u1 / 2

sono i valori critici.


Per quanto riguarda lindividuazione di questa regione, si osservi che sono stati scelti
come valori critici gli estremi di un intervallo simmetrico intorno a 0 e che questa scelta
in accordo con il fatto che la regione di accettazione cos determinata contiene linsieme
dei valori pi probabili sotto ipotesi nulla. A questi valori, infatti, associata una densit di
probabilit che risulta sempre pi elevata della densit di probabilit associata ai punti
compresi nella regione di rifiuto.
Vedremo in seguito che anche quando la distribuzione dello stimatore T non
simmetrica, di solito vengono comunque utilizzati per semplicit i due quantili che isolano
rispettivamente a sinistra e a destra unarea pari ad /2.

228

Se la media campionaria calcolata sul campione estratto risulta compresa nella regione
di accettazione si conclude affermando che, al livello di significativit prestabilito, non si
ha motivo di rifiutare lipotesi nulla o che questa ipotesi risulta compatibile con il risultato
campionario. Se, invece, la media campionaria cade in una delle due regioni critiche
lipotesi viene rifiutata al livello di significativit .
Per chiarire laffermazione riguardo leventuale compatibilit dellipotesi nulla con il
risultato campionario ottenuto si osservi la figura successiva nella quale sono
rappresentate le distribuzioni della media campionaria X per alcuni valori di ed i
corrispondenti intervalli di accettazione (le curve sono riportate su assi diversi per ragioni
di chiarezza, ma devono intendersi affiancate sullo stesso asse). Come si vede, il risultato
campionario x 0 di X contenuto contemporaneamente negli intervalli di accettazione di
tutto un insieme di ipotesi diverse.

Figura 11.4.1.1
Grafico delle distribuzioni della media campionaria per alcuni valori di

x0
Nella figura sono evidenziati i valori 1 e 2 che costituiscono rispettivamente il valore
pi basso e quello pi alto di che, dato il livello di significativit scelto, non possono
essere rifiutati. Si osservi infatti che x 0 coincide con l'estremo destro dell'intervallo di
accettazione associato a 1 e con l'estremo sinistro dell'intervallo associato a 2, cosicch
tutti i valori di compresi fra 1 e 2 costituiscono linsieme di ipotesi che non possono
essere rifiutate e che risultano quindi compatibili con il valore della media campionaria x 0 .

229

Invece, per valori di inferiori a 1 o superiori a 2 il risultato campionario cade nella


regione critica cosicch questi valori di costituiscono delle ipotesi che, per quel
determinato , devono essere rifiutate.
In generale, quindi, dato il risultato campionario t dello stimatore T del parametro , le
ipotesi sul parametro che non possono essere rifiutate sono tutte quelle per le quali t
compreso nel corrispondente intervallo di accettazione. Pi in particolare, il pi piccolo
valore di che deve essere accettato quel 1 per il quale t coincide con il quantile destro
della distribuzione di T sotto 1 ed il pi grande quel 2 per il quale t coincide con il
quantile sinistro.
Queste definizioni di 1 e di 2 corrispondono esattamente alle definizioni degli estremi
dellintervallo di confidenza di , cosicch lintervallo di confidenza linsieme delle ipotesi
che non possono essere rifiutate al livello di probabilit 1 quando il risultato campionario
t. Pertanto, la verifica di ipotesi su un valore 0 di ad un livello di significativit
potrebbe anche essere effettuata controllando se 0 compreso nellintervallo di
confidenza di costruito al livello di probabilit 1.
Dato che, come si visto, lintervallo di confidenza linsieme delle ipotesi che, in base
alla regola di decisione, non possono essere rifiutate, accettare H0 ad un livello di
significativit significa in realt ritenere irrilevante che lipotesi vera sia H0 oppure una
qualsiasi altra delle ipotesi compatibili, a quel livello di significativit, con il risultato
campionario. Con riferimento allesempio relativo alla media, accettare lipotesi di base
equivale quindi ad affermare che tutti i valori di compatibili con x 0 segnalano uno
scostamento dal valore sotto ipotesi nulla praticamente irrilevante. E chiaro che una
conclusione di questo genere pu risultare poco sostenibile se il valore di molto basso.
La verifica dell'ipotesi 11.4.1.1 si pu effettuare anche in modo pi semplice, tenendo
presente la 10.2.2 e verificando se il valore assoluto

x 0

risulta maggiore del quantile di ordine 1/2 della normale standardizzata.


Se la disuguaglianza precedente vera, ossia se

230

x 0

>u1/2

il valore della statistica significativo e l'ipotesi nulla viene rifiutata al livello di


significativit del 100%, in caso contrario l'ipotesi compatibile con i risultati campionari
e non vi sono motivi per rifiutarla.
Se il valore della varianza della popolazione non noto, per la verifica della stessa
ipotesi sulla media si controlla se risulta

x 0
t n 11 /2
s n

e la conclusione evidentemente analoga a quella del caso precedente.


Dato per esempio il campione della tabella 9.3.1, per controllare l'ipotesi
H0 : = 10

al livello di significativit dell'1% basta tenere presente che t 9(0,995) = 3,25. Dato che in
questo caso il valore della statistica uguale a

10,80 10
1,263 ,
2 10

non si ha motivo di respingere l'ipotesi.


Se il campione sufficientemente numeroso, infine, le verifiche di ipotesi possono
basarsi sulle distribuzioni asintotiche, cos come si visto a proposito degli intervalli di
confidenza.
Consideriamo per esercizio un campione di 65 uova di pellicanov sulle quali stata
rilevata la v.c. X "spessore del guscio (in millimetri) ottenendo una media x 0,32 ed uno
s.q.m. corretto s x 0,08 . In base a queste informazioni si vuole verificare l'ipotesi che lo

v Risebrough R.W. (1972), Effects of environmental pollutants upon animals other than man. Proceedings of the 6th Berkeley
Symposium on Mathematics and Statistics, VI. California: University of California Press, 443-463.

231

spessore medio del guscio sia pari a 0,3 millimetri al livello di significativit = 0,05. In
questo caso, per la verifica dellipotesi

H0 : 0,30
si utilizza la statistica 10.2.5 ed il quantile della normale standardizzata di ordine 0,975.
Dato che si ottiene

0,32 0,30
0,08

65

2,02 u0,975 1,96 ,

l'ipotesi viene rifiutata al livello di significativit = 0,05.

11.4.2 Verifica di ipotesi sulla varianza


Data una popolazione con f.d. normale, per la verifica dellipotesi

H0 : 2 02 ,

sulla base di un campione di n elementi, si utilizza la statistica 10.3.3 che, sotto ipotesi
nulla, si distribuisce come una chi-quadrato con n1 gradi di libert.
Anche in questo caso, per semplicit nei calcoli, la regione critica viene collocata lungo
le due code della distribuzione delimitate dai quantili n2 1 / 2 e n211 / 2 che nella
f.d. della variabile chi-quadrato con n1 g.d.l. isolano sulla loro sinistra e sulla loro destra
due aree pari ad /2. Se risulta che il valore della statistica cade fuori dall'intervallo cos
costruito, si conclude che il valore significativo e si rifiuta l'ipotesi.
Per verificare per esempio l'ipotesi
H0 : 2 = 4

sulla base dei dati della tabella 9.3.1 al livello di significativit del 10%, sufficiente tenere
presente che i due quantili della f.d. della variabile chi-quadrato con 9 g.d.l. sono 3,325 e
16,92. Poich i dati campionari forniscono un valore della statistica pari a

232

3,61
8,12
4

che compreso nell'intervallo (3,325, 16,92) non ci sono motivi per rifiutare l'ipotesi.
Anche in questo caso, se il campione sufficentemente numeroso, si pu utilizzare la
distribuzione asintotica 10.3.4 calcolata sotto ipotesi nulla, per cui non si avr motivo di
rifiutare lipotesi nulla se risulta verificata la seguente disuguaglianza

S 2 02
02 2/(n 1)

u1- /2 .

11.4.2.1

Consideriamo, per esempio, un campione di 500 elementi estratto da una popolazione


normale al fine di verificare lipotesi che la varianza della popolazione sia pari a 20 al
livello di significativit del 5% e supponiamo che la varianza campionaria corretta sia
risultata pari a 17,5. In questo caso il quantile della normale standardizzata u 0,975=1,96,
mentre, data lipotesi nulla
H0 : 2 = 20,

la statistica 11.4.2.1 assume il valore

17,5 20
20 2 / 499

1,97

cos che lipotesi va rifiutata al livello di significativit del 5%. Questa stessa ipotesi non
sarebbe stata invece rifiutata se si fosse scelto un livello di significativit dell1%.

11.4.3 Verifica di ipotesi sulla quota


Per quanto riguarda la verifica dipotesi sul parametro p di una popolazione Zero-uno

H0 : p = p0

233

se il campione sufficentemente numeroso, lo stimatore P , sotto ipotesi nulla, si


distribuisce approssimativamente come una variabile normale con media p 0 e varianza

p0 (1 p0 )/n .
Per la verifica dell'ipotesi ad un livello di significativit , basta quindi confrontare il
valore della statistica

p p 0

11.4.3.1

p 0 (1 p 0 )/n

con il quantile u1 / 2 e, come al solito, lipotesi viene rifiutata se il risultato ottenuto


maggiore di questo quantile.
Supponiamo, per esempio, che si voglia verificare al livello di significativit dell1%
lipotesi che il tasso di disoccupazione sia pari al 5% sapendo che dalla popolazione
stato estratto un campione casuale di 5000 individui sui quali 300 sono risultati
disoccupati. In questo caso lipotesi

H0 : p = 0,05
mentre la quota campionaria di individui disoccupati pari al 6%. La statistica 11.4.3.1
assume quindi il valore

0,06 0,05
0,05 0,95
5000

3,24

per cui, tenendo presente che il quantile di riferimento della normale standardizzata
u0,995=2,576, lipotesi viene rifiutata al livello di significativit 0,01.
11.4.4 Verifica delluguaglianza fra le medie di due popolazioni
In molte situazioni reali lo scopo dellindagine consiste nel confronto fra due o pi
popolazioni, come nel caso in cui si volesse verificare se due diversi fertilizzanti portano a

234

risultati diversi nella produttivit per ettaro o se due diversi farmaci possono essere
considerati equivalenti nella cura di una determinata malattia.
In casi come questi sembra naturale verificare lipotesi che non esistono differenze
significative fra le produttivit o fra i tempi di guarigione. Questa ipotesi particolarmente
rilevante dato che la sua accettazione porterebbe a concludere che fra i due fertilizzanti e
fra i due medicinali non esiste alcuna reale differenza, per cui la scelta potrebbe essere
effettuata semplicemente sulla base di considerazioni economiche
Se invece le eventuali differenze ottenute nei due diversi gruppi sono cos grandi da
non poter essere imputate al solo effetto di fattori casuali, si potrebbe concludere che uno
dei due fertilizzanti consente di ottenere un risultato migliore rispetto allaltro e che il tempo
di guarigione rilevato nel gruppo di pazienti trattati con un farmaco significativamente
diverso del tempo di guarigione nel gruppo di pazienti trattato con laltro.
In genere lipotesi che si vuole verificare riguardano i valori medi di una variabile Z
esaminata in due (o pi) popolazioni distinte, come quando si volesse verificare se esiste
o meno una differenza significativa nel rendimento di titoli diversi, nei punteggi ottenuti ad
un esame da gruppi di studenti che hanno utilizzato testi differenti, nella durata di
funzionamento di prodotti ottenuti con macchinari diversi e cos via.
Per semplicit ci occuperemo del caso in cui i gruppi presi in esame sono soltanto due
e supporremo inoltre che siano verificate le condizioni standard che ipotizzano che la
variabile abbia una distribuzione normale con uno stesso valore della varianza in
entrambe le popolazioni. Questultima ipotesi costituisce la cosiddetta condizione di
omoschedasticit, sotto la quale si ottengono abbastanza facilmente le distribuzioni della
statistica test (se i valori delle varianze sono invece diversi fra di loro, si parla di
condizione di eteroschedasticit).
Indicate con X1 e con X2 la variabile Z rilevata nella prima e nella seconda popolazione,
le condizioni standard sono che X1 e X2 abbiano distribuzione normale con medie 1 e 2 e
2

la stessa varianza .
Lipotesi di base assume quindi la forma
H0 : 1 = 2

11.4.4.1

e la sua verifica si basa sui valori dei due stimatori delle medie X1 e X 2 forniti dai due
campioni indipendenti di numerosit n1 ed n2.
235

Pi precisamente la statistica test utilizza la differenza fra le due medie campionarie

X1 X 2 ,

che, vista lindipendenza fra variabili, si distribuisce in modo normale con media pari alla
differenza delle medie e varianza pari alla somma delle varianze.
Sotto ipotesi nulla, quindi, la variabile

X1 X 2
/ n1 / n 2
2

X1 X 2

11.4.4.2

n1 n 2 / n1n 2

una normale standardizzata.


Nelle situazioni reali la varianza comune delle due popolazioni non nota ma, sotto
ipotesi di omoschedasticit, il suo valore viene stimato dalla statistica

S
2

n1 1S 12 n 2 1S 22

11.4.4.3

n1 n 2 2

che corrisponde alla media aritmetica delle due varianze campionarie corrette, ponderate
con i rispettivi gradi di libert e che viene chiamata varianza pooled.
La verifica del sistema di ipotesi 11.4.1.1 si basa quindi sulla statistica test

X1 X 2

S n1 n 2 / n1n 2

che, sotto ipotesi nulla, si distribuisce come una t di Student con n1+n22 gradi di libert.
E ovvio che lipotesi di uguaglianza delle medie viene rifiutata per valori alti della
statistica presa in valore assoluto e quindi viene accettata se

x1 x 2

s n1 n 2 /n1n 2

t n1 n2 2 1 /2 .

11.4.4.4

236

Supponiamo, per esempio, che si voglia verificare se laltezza delle piante sottoposte a
due diversi metodi di coltura sia differente o meno ad un livello di significativit =0,01
sapendo che su due campioni di piante, entrambi di numerosit pari a 12, sottoposte ai
due diversi tipi di coltura, stata rilevata la variabile X, altezza in centimetri, ottenendo i
seguenti valori delle medie aritmetiche e delle varianze corrette

x 1 96,58

s 12 25,17

x 2 90,92

s 22 28,99

La stima della varianza comune delle due popolazioni si ottiene applicando la 11.4.4.3 e
risulta pari a

s2

11 25,17 11 28,99
27,08
22

e la verifica dellipotesi 11.4.4.1 di uguaglianza sulle medie si basa sulla statistica 11.4.4.4
che assume il valore

96,58 90,92
5,20 12 12 / 144

2,67.

Dato che il quantile di ordine 0,995 della t con 22 g.d.l. risulta uguale a 2,819 si
conclude che lipotesi di uguaglianza delle medie nelle due popolazioni risulta compatibile
con i dati campionari raccolti al livello di significativit dell1%.
Anche in questa situazione, se i gradi di libert della t sono molto elevati, i suoi quantili
sono approssimati dai corrispondenti quantili della variabile normale standard e la regola
di decisione viene quindi effettuata con riferimento al quantile u1/2.

11.4.5 Test sulla bont di adattamento


Abbiamo pi volte ricordato come lassunzione della normalit della variabile Z possa
rendere pi semplice la soluzione di problemi inferenziali circa la stima dei suoi parametri
ignoti o la verifica di ipotesi sui valori da essi assunti. Nella realt, per, accade spesso

237

che non si abbiano informazioni sulla distribuzione della variabile nella popolazione da cui
il campione stato estratto.
In alcuni casi tuttavia, sulla base delle informazioni parziali in nostro possesso e di
considerazioni di varia natura, siamo in grado formulare delle ipotesi circa questa
distribuzione ignota.
In analogia con le situazioni che abbiamo esaminato in precedenza, il problema diventa
allora quello di verificare se lipotesi distributiva possa essere ritenuta compatibile con i
dati campionari raccolti o se questi ultimi ci spingano invece a ritenerla poco verosimile.
Le ipotesi di questo tipo vengono verificate attraverso i cosiddetti test funzionali che
possono essere utilizzati anche in situazioni diverse come, per esempio, quando si ha
interesse a confrontare la distribuzione di una variabile rilevata su due diverse popolazioni
oppure su una stessa popolazione in tempi diversi, al fine di valutare se questa
distribuzione si sia modificata con il passare del tempo.
Supponiamo di voler verificare se una certa variabile Z ha una funzione di ripartizione
F0(z) che, a seconda dei casi, pu essere completamente specificata, nel senso che
lipotesi riguarda anche il valore dei parametri che compaiono nel modello, oppure solo
parzialmente specificata, nel senso che non viene fatta nessuna ipotesi su alcuni o su tutti
i parametri del modello, ma solo sulla sua forma funzionale.
Lipotesi nulla assumer la forma

H0 : Fz F0 z

11.4.5.1

ed il criterio generale per la sua verifica si basa sul confronto fra la distribuzione sotto
ipotesi nulla e la distribuzione della variabile nella popolazione, dove questultima viene
stimata attraverso i dati campionari raccolti, ossia attraverso la distribuzione della v.c. X
valore di Z sullindividuo estratto.
Sempre come criterio generale sar quindi necessario individuare una qualche statistica
test in grado di misurare la diversit fra le due distribuzioni e determinare la sua
distribuzione di probabilit, in modo da individuare una conveniente regione critica.
Cominciamo con il considerare il caso in cui siamo in grado di formulare unipotesi
completa sulla funzione di ripartizione, specificando quindi anche il valore dei parametri
che compaiono nel modello.

238

Un test che viene utilizzato frequentemente, soprattutto quando la variabile considerata


di tipo qualitativo o quantitativo discreto, il test chi-quadrato che si basa sul confronto
fra i valori assunti dalle probabilit calcolate sotto H0 e dei valori delle corrispondenti
frequenze relative calcolate sul campione osservato.
Cominciamo con il considerare una variabile qualitativa o quantitativa discreta Z che
assume k determinazioni diverse ed indichiamo con
(i=1,2,k)

P(Z=zi) = pi
la probabilit che Z assuma la generica determinazione zi.
Lipotesi da verificare pu essere espressa nel modo seguente

H0 : pi p0i

i=1,2,k

ed il generico valore di probabilit teorica p 0i verr confrontato con la sua stima


campionaria che corrisponde alla frequenza relativa osservata

fi=ni/n.
E evidente che quanto pi i valori fi e p 0i risultano simili fra di loro, tanto pi saremo
portati a ritenere verosimile lipotesi nulla, mentre al crescere delle differenze fra valori
osservati e valori sotto ipotesi nulla saremo portati a rifiutare lipotesi di base.
Una statistica in grado di valutare complessivamente le differenze fra le k coppie di
valori fi e p 0i il noto test chi-quadrato di Pearson, che assume la forma

k21

n
i1

fi p0i 2 .

11.4.5.2

p0i

Si vede subito come la 11.4.5.2 possa assumere solo valori non negativi e risulti pari a
zero solo quando le frequenze relative campionarie sono tutte uguali alle corrispondenti
probabilit sotto ipotesi nulla, mentre assume valori via via crescenti al crescere delle
differenze fra i valori di queste coppie.

239

La distribuzione della statistica sotto ipotesi nulla per n tende ad una distribuzione
chi-quadrato con un numero di gradi di libert pari a k1 e cio al numero di
determinazioni diverse della variabile casuale X diminuito di 1. E chiaro che lipotesi viene
rifiutata per valori alti della statistica e quindi, fissato il livello di significativit , la regione
di rifiuto posizionata alla destra del quantile k21 1 .
Va osservato che affinch questa distribuzione asintotica possa essere utilizzata
necessario che ciascuno dei prodotti np 0i fra le probabilit teoriche e la numerosit
campionaria risulti maggiore o uguale a 5.
Supponiamo, per esempio, di aver lanciato 1800 volte un dado per verificare se sia
effettivamente equilibrato e di aver ottenuto i risultati riportati nella tabella successiva

Tabella 11.4.5.1
Distribuzione dei risultati ottenuti lanciando un dado
X
1
2
3
4
5
6
Totale

Frequenze
assolute
324
342
306
270
270
288
1800

Frequenze
relative
0,18
0,19
0,17
0,15
0,15
0,16
1,00

Sotto lipotesi nulla

H0 : pi

1
6

i 1,2,..., 6

le np 0i sarebbero uguali a 300 (pari al rapporto 1.800/6) e sono quindi maggiori di 5.


La statistica 11.4.5.2 assume il valore

0,18 - 1/6 2 0,19 - 1/6 2


0,16 - 1/62 =14,4
52 1800

...

0,1 6
0,1 6
0,1 6

240

e, scelto un livello di significativit =0,05, va confrontata con il quantile di ordine 0,95


della chi-quadrato con 5 gradi di libert. Dato che questo quantile risulta pari a 11,07,
lipotesi nulla va rifiutata.
Se si fosse scelto un livello di significativit =0,01, il quantile della chi-quadrato
sarebbe stato uguale a 15,09 e lipotesi nulla sarebbe risultata compatibile con il risultato
campionario osservato.
La statistica 11.4.5.2 pu essere utilizzata anche per variabili casuali continue. In
questo caso, per, necessaria la creazione di un certo numero di classi di valori ed il
calcolo delle probabilit teoriche e delle frequenze campionarie corrispondenti per
ciascuna di queste classi.
Data la generica classe i-esima, delimitata dalle intensit zi1 e zi, la probabilit sotto
ipotesi nulla p0i sar data dalla differenza fra i valori della funzione di ripartizione del
modello calcolata in corrispondenza degli estremi della classe, per cui si avr

p0i Fzi Fzi 1 ,

dove F(.) indica la f.r. teorica della Z. Queste probabilit vengono poi confrontate con le
frequenze relative delle classi corrispondenti calcolate sul campione osservato e la
valutazione dellentit di queste differenze si valuta attraverso la statistica vista in
precedenza in cui le p0i vengono sostituite dalle p0i

k21

n
i1

fi p0i 2 .

11.4.5.3

p 0i

Supponiamo, per esempio, di voler verificare se un campione di 250 elementi possa


essere stato estratto da un distribuzione normale standard sulla base dei risultati riportati
nelle prime due colonne della tabella successiva, nella quale sono state anche riportate,
nellultima colonna, le probabilit teoriche stimate sulla base del modello normale.

241

Tabella 11.4.5.2
Esempio di distribuzione osservata e teorica
X
Fino a 2
2 -|1
1 -| 0
0 -| 1
1 -| 2
Oltre 2
Totale

Frequenze
relative
0,040
0,110
0,350
0,340
0,120
0,040
1,000

Probabilit
teoriche
0,023
0,136
0,341
0,341
0,136
0,023
1,000

Come si vede dalla tabella il prodotto delle probabilit teoriche per la numerosit del
campione (n=250) sempre maggiore di 5 ed quindi possibile utilizzare la distribuzione
asintotica che corrisponde ad una chi-quadrato con 6-1=5 gradi di libert.
Il valore della statistica test 11.4.5.3 assume il valore

52

0,04 - 0,0232 0,11- 0,1362

0,04 - 0,0232
250

...
8,056
0,023
0,136
0,023

per cui, fissato un livello di significativit pari a =0,05, non si ha motivo di rifiutare lipotesi
nulla dato che il quantile della chi-quadrato con 5 gradi di libert che isola alla sua destra
unarea pari ad corrisponde a 11,07.
Si osservi, infine, che se lipotesi nulla si riferisce alla sola forma della distribuzione
della variabile (discreta o continua), senza specificare il valore dei parametri che la
caratterizzano, il test viene effettuato sostituendo al valore di questi parametri le
corrispondenti stime ottenute sul campione osservato.
Lunica differenza rispetto al caso precedentemente esaminato sta nel numero dei gradi
di libert della distribuzione chi-quadrato asintotica che, supposto pari a q il numero dei
parametri stimati, da k1 diventa kq1.
Supponiamo, per esempio, che su un campione di numerosit 100 si siano rilevati i
valori di una variabile Z ottenendo una media pari a 120 e una varianza campionaria
corretta pari a 16. Si vuole verificare se il modello normale risulta adeguato per
approssimare la distribuzione della variabile Z nella collettivit sulla base dei valori riportati
nella tabella successiva, nella quale la prima colonna riporta gli estremi delle classi e la

242

seconda colonna le frequenze campionarie osservate, mentre nellultima colonna sono


indicati i valori delle probabilit teoriche associate alle singole classi. Queste ultime sono
state ottenute come differenza fra la funzione di ripartizione di una variabile normale di
media =120 e varianza =4 calcolata in corrispondenza dellestremo destro di ciascuna
classe meno il valore della funzione di ripartizione calcolata in corrispondenza dellestremo
sinistro.

Tabella 11.4.5.3
Esempio di distribuzione osservata e teorica
X
Fino a 116
116 -| 118
118 -| 120
120 -| 122
122 -| 124
Oltre 124
Totale

Frequenze
assolute
10
16
27
25
15
7
100

Frequenze
relative
0,10
0,16
0,27
0,25
0,15
0,07
1,000

Probabilit
teoriche
0,159
0,150
0,191
0,191
0,150
0,159
1,000

Anche in questo caso le np 0i sono sempre maggiori di 5 per cui si pu utilizzare la


distribuzione asintotica chi-quadrato con 6-1=5 gradi di libert.
Il valore della statistica test 11.4.5.3 assume il valore

26 2 1

0,10 - 0,1592 0,16 - 0,152

0,07 - 0,1592
100

...
12,3278
0,159
0,15
0,159

per cui, fissato un livello di significativit pari a =0,05, lipotesi di distribuzione normale va
rifiutata dato che il quantile di riferimento della chi-quadrato con 3 gradi di libert pari a
7,815.

11.4.6 Test di indipendenza


Il test chi-quadrato che abbiamo analizzato nel capitolo precedente viene utilizzato
anche per verificare lindipendenza fra due variabili Z e W che siano state rilevate
congiuntamente sugli individui estratti in modo casuale dalla popolazione di interesse.

243

In pratica si sta tornando a considerare largomento trattato nel corso del paragrafo 6.2,
con la sola differenza che i dati raccolti, sistemati in una tabella a doppia entrata, si
riferiscono ai soli individui che sono entrati a far parte del campione. Si vuole quindi
verificare, sulla base delle osservazioni campionarie raccolte, se si pu accettare o meno
lipotesi che le due variabili nella collettivit sono indipendenti o meno.
Lipotesi da verificare pu essere espressa nel modo seguente

H0 : p ji pij* pi p j

i=1,2,k;
j=1,2,q

11.4.6.1

dove le probabilit congiunte teoriche p ij* associate alla generica coppia di determinazioni
zi della Z e wj della W corrispondono al prodotto delle corrispondenti probabilit marginali
associate alle due variabili.
In analogia a quanto visto nel paragrafo precedente, il generico valore di probabilit p ij*
deve essere confrontato con la corrispondente stima campionaria data dalla frequenza
relativa osservata

fij=nij/n.
Una statistica in grado di valutare complessivamente le differenze fra le kq coppie di
differenze fra le probabilit stimate sotto ipotesi di indipendenza e le frequenze relative
campionarie osservate assume la forma

2k 1q1 n

i1 j1

ij

p ij*

11.4.6.2

p ij*

Sotto lipotesi nulla 11.4.6.1 e per n la statistica 11.4.6.2 tende ad una distribuzione
chi-quadrato con un numero di gradi di libert pari a (k1)(q-1) sempre che il prodotto fra
ciascuna delle probabilit teoriche e la numerosit campionaria complessiva sia almeno
pari a 5.

244

Anche in questo caso lipotesi nulla viene rifiutata per valori alti della statistica per cui,
fissato il livello di significativit , la regione di rifiuto posizionata alla destra del quantile

2k 1q 1 1 .
Supponiamo, per esempio, che si voglia verificare lipotesi di indipendenza fra due
variabili Z e W al livello di significativit =0,01 sapendo che su un campione di 100
elementi si sono ottenuti i risultati riportati nella tabella successiva dove X e Y sono
rispettivamente le variabili casuali valore di Z sullindividuo estratto e valore di W
sullindividuo estratto.

Tabella 11.4.6.1
Esempio di distribuzione bivariata su 100 individui (quote)
Y

totale

0,02
0,25
0,25
0,52

0,18
0,25
0,05
0,48

0,20
0,50
0,30
1,00

X
a
b
c
totale

La tabella sotto ipotesi di indipendenza assume la forma


Tabella 11.4.6.2
Esempio di distribuzione bivariata sotto ipotesi di indipendenza
Y

totale

0,096
0,240
0,144
0,480

0,200
0,500
0,300
1,000

X
a
b
c
totale

0,104
0,260
0,156
0,520

da cui si vede come il prodotto fra i valori delle probabilit teoriche congiunte moltiplicate
per n=100 risulti sempre maggiore di 5 unit.
La statistica 11.4.6.2 assume il valore

0,02 - 0,1042 0,18 - 0,0962


0,05 - 0,1442 26,0150
(23 1)( 2 1) 100

...

0,104
0,096
0,144

245

e lipotesi nulla di indipendenza va quindi rifiutata perch la statistica risulta maggiore del
quantile 9,21 che nella chi-quadrato con 2 gradi di libert isola alla sua sinistra unarea
1=0,99.

246

APPENDICE

247

Tavola A
Funzione di ripartizione della variabile casuale normale standardizzata
u

0,00

0,01

0,02

0,03

0,04

0,05

0,06

0,07

0,08

0,09

0,0

0,500

0,504

0,508

0,512

0,516

0,520

0,524

0,528

0,532

0,536

0,1

0,540

0,544

0,548

0,552

0,556

0,560

0,564

0,567

0,571

0,575

0,2

0,579

0,583

0,587

0,591

0,595

0,599

0,603

0,606

0,610

0,614

0,3

0,618

0,622

0,626

0,629

0,633

0,637

0,641

0,644

0,648

0,652

0,4

0,655

0,659

0,663

0,666

0,670

0,674

0,677

0,681

0,684

0,688

0,5

0,691

0,695

0,698

0,702

0,705

0,709

0,712

0,716

0,719

0,722

0,6

0,726

0,729

0,732

0,736

0,739

0,742

0,745

0,749

0,752

0,755

0,7

0,758

0,761

0,764

0,767

0,770

0,773

0,776

0,779

0,782

0,785

0,8

0,788

0,791

0,794

0,797

0,800

0,802

0,805

0,808

0,811

0,813

0,9

0,816

0,819

0,821

0,824

0,826

0,829

0,831

0,834

0,836

0,839

1,0

0,841

0,844

0,846

0,848

0,851

0,853

0,855

0,858

0,860

0,862

1,1

0,864

0,867

0,869

0,871

0,873

0,875

0,877

0,879

0,881

0,883

1,2

0,885

0,887

0,889

0,891

0,893

0,894

0,896

0,898

0,900

0,901

1,3

0,903

0,905

0,907

0,908

0,910

0,911

0,913

0,915

0,916

0,918

1,4

0,919

0,921

0,922

0,924

0,925

0,926

0,928

0,929

0,931

0,932

1,5

0,933

0,934

0,936

0,937

0,938

0,939

0,941

0,942

0,943

0,944

1,6

0,945

0,946

0,947

0,948

0,949

0,951

0,952

0,953

0,954

0,954

1,7

0,955

0,956

0,957

0,958

0,959

0,960

0,961

0,962

0,962

0,963

1,8

0,964

0,965

0,966

0,966

0,967

0,968

0,969

0,969

0,970

0,971

1,9

0,971

0,972

0,973

0,973

0,974

0,974

0,975

0,976

0,976

0,977

2,0

0,977

0,978

0,978

0,979

0,979

0,980

0,980

0,981

0,981

0,982

2,1

0,982

0,983

0,983

0,983

0,984

0,984

0,985

0,985

0,985

0,986

2,2

0,986

0,986

0,987

0,987

0,987

0,988

0,988

0,988

0,989

0,989

2,3

0,989

0,990

0,990

0,990

0,990

0,991

0,991

0,991

0,991

0,992

2,4

0,992

0,992

0,992

0,992

0,993

0,993

0,993

0,993

0,993

0,994

2,5

0,994

0,994

0,994

0,994

0,994

0,995

0,995

0,995

0,995

0,995

2,6

0,995

0,995

0,996

0,996

0,996

0,996

0,996

0,996

0,996

0,996

2,7

0,997

0,997

0,997

0,997

0,997

0,997

0,997

0,997

0,997

0,997

2,8

0,997

0,998

0,998

0,998

0,998

0,998

0,998

0,998

0,998

0,998

2,9

0,998

0,998

0,998

0,998

0,998

0,998

0,998

0,999

0,999

0,999

3,0

0,999

0,999

0,999

0,999

0,999

0,999

0,999

0,999

0,999

0,999

248

Tavola B
Quantili della variabile casuale normale standardizzata
p

up

0,001

-3,090

0,005

-2,576

0,010

-2,326

0,025

-1,960

0,050

-1,645

0,100

-1,282

0,150

-1,036

0,200

-0,842

0,250

-0,674

0,300

-0,524

0,350

-0,385

0,400

-0,253

0,450

-0,126

0,500

0,000

0,550

0,126

0,600

0,253

0,650

0,385

0,700

0,524

0,750

0,674

0,800

0,842

0,850

1,036

0,900

1,282

0,950

1,645

0,975

1,960

0,990

2,326

0,995

2,576

0,999

3,090

249

Tavola C
Quantili della variabile casuale chi-quadrato con g gradi di libert
p

0,005

0,010

0,025

0,050

0,950

0,975

0,990

0,995

0,000

0,000

0,001

0,004

3,841

5,024

6,635

7,879

0,010

0,020

0,051

0,103

5,991

7,378

9,210

10,60

0,072

0,115

0,216

0,352

7,815

9,348

11,34

12,84

0,207

0,297

0,484

0,711

9,488

11,14

13,28

14,86

0,412

0,554

0,831

1,145

11,07

12,83

15,09

16,75

0,676

0,872

1,237

1,635

12,59

14,45

16,81

18,55

0,989

1,239

1,690

2,167

14,07

16,01

18,48

20,28

1,344

1,646

2,180

2,733

15,51

17,53

20,09

21,95

1,735

2,088

2,700

3,325

16,92

19,02

21,67

23,59

10

2,156

2,558

3,247

3,940

18,31

20,48

23,21

25,19

11

2,603

3,053

3,816

4,575

19,68

21,92

24,72

26,76

12

3,074

3,571

4,404

5,226

21,03

23,34

26,22

28,30

13

3,565

4,107

5,009

5,892

22,36

24,74

27,69

29,82

14

4,075

4,660

5,629

6,571

23,68

26,12

29,14

31,32

15

4,601

5,229

6,262

7,261

25,00

27,49

30,58

32,80

16

5,142

5,812

6,908

7,962

26,30

28,85

32,00

34,27

17

5,697

6,408

7,564

8,672

27,59

30,19

33,41

35,72

18

6,265

7,015

8,231

9,390

28,87

31,53

34,81

37,16

19

6,844

7,633

8,907

10,12

30,14

32,85

36,19

38,58

20

7,434

8,260

9,591

10,85

31,41

34,17

37,57

40,00

21

8,034

8,897

10,28

11,59

32,67

35,48

38,93

41,40

22

8,643

9,542

10,98

12,34

33,92

36,78

40,29

42,80

23

9,260

10,20

11,69

13,09

35,17

38,08

41,64

44,18

24

9,886

10,86

12,40

13,85

36,42

39,36

42,98

45,56

25

10,52

11,52

13,12

14,61

37,65

40,65

44,31

46,93

26

11,16

12,20

13,84

15,38

38,89

41,92

45,64

48,29

27

11,81

12,88

14,57

16,15

40,11

43,19

46,96

49,64

28

12,46

13,56

15,31

16,93

41,34

44,46

48,28

50,99

29

13,12

14,26

16,05

17,71

42,56

45,72

49,59

52,34

30

13,79

14,95

16,79

18,49

43,77

46,98

50,89

53,67

250

Tavola C
Quantili della variabile casuale chi-quadrato con g gradi di libert (segue)
p

0,005

0,010

0,025

0,050

0,950

0,975

0,990

0,995

31

14,46

15,66

17,54

19,28

44,99

48,23

52,19

55,00

32

15,13

16,36

18,29

20,07

46,19

49,48

53,49

56,33

33

15,82

17,07

19,05

20,87

47,40

50,73

54,78

57,65

34

16,50

17,79

19,81

21,66

48,60

51,97

56,06

58,96

35

17,19

18,51

20,57

22,47

49,80

53,20

57,34

60,27

36

17,89

19,23

21,34

23,27

51,00

54,44

58,62

61,58

37

18,59

19,96

22,11

24,07

52,19

55,67

59,89

62,88

38

19,29

20,69

22,88

24,88

53,38

56,90

61,16

64,18

39

20,00

21,43

23,65

25,70

54,57

58,12

62,43

65,48

40

20,71

22,16

24,43

26,51

55,76

59,34

63,69

66,77

41

21,42

22,91

25,21

27,33

56,94

60,56

64,95

68,05

42

22,14

23,65

26,00

28,14

58,12

61,78

66,21

69,34

43

22,86

24,40

26,79

28,96

59,30

62,99

67,46

70,62

44

23,58

25,15

27,57

29,79

60,48

64,20

68,71

71,89

45

24,31

25,90

28,37

30,61

61,66

65,41

69,96

73,17

46

25,04

26,66

29,16

31,44

62,83

66,62

71,20

74,44

47

25,77

27,42

29,96

32,27

64,00

67,82

72,44

75,70

48

26,51

28,18

30,75

33,10

65,17

69,02

73,68

76,97

49

27,25

28,94

31,55

33,93

66,34

70,22

74,92

78,23

50

27,99

29,71

32,36

34,76

67,50

71,42

76,15

79,49

251

Tavola D
Quantili della variabile casuale t di Student con g gradi di libert
p 0,900

0,950

0,975

0,990

0,995

1 3,078

6,314

12,71

31,82

63,66

2 1,886

2,920

4,303

6,965

9,925

3 1,638

2,353

3,182

4,541

5,841

4 1,533

2,132

2,776

3,747

4,604

5 1,476

2,015

2,571

3,365

4,032

6 1,440

1,943

2,447

3,143

3,707

7 1,415

1,895

2,365

2,998

3,499

8 1,397

1,860

2,306

2,896

3,355

9 1,383

1,833

2,262

2,821

3,250

10 1,372

1,812

2,228

2,764

3,169

11 1,363

1,796

2,201

2,718

3,106

12 1,356

1,782

2,179

2,681

3,055

13 1,350

1,771

2,160

2,650

3,012

14 1,345

1,761

2,145

2,624

2,977

15 1,341

1,753

2,131

2,602

2,947

16 1,337

1,746

2,120

2,583

2,921

17 1,333

1,740

2,110

2,567

2,898

18 1,330

1,734

2,101

2,552

2,878

19 1,328

1,729

2,093

2,539

2,861

20 1,325

1,725

2,086

2,528

2,845

21 1,323

1,721

2,080

2,518

2,831

22 1,321

1,717

2,074

2,508

2,819

23 1,319

1,714

2,069

2,500

2,807

24 1,318

1,711

2,064

2,492

2,797

25 1,316

1,708

2,060

2,485

2,787

26 1,315

1,706

2,056

2,479

2,779

27 1,314

1,703

2,052

2,473

2,771

28 1,313

1,701

2,048

2,467

2,763

29 1,311

1,699

2,045

2,462

2,756

30 1,310

1,697

2,042

2,457

2,750

252

Potrebbero piacerti anche