Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
PRIMA UNIT
1 LA STATISTICA
1.1 LO STUDIO DEI FENOMENI COLLETTIVI
La statistica la scienza che permette di trarre conclusioni generali sul
mondo che ci circonda, a partire da opportuni dati ed utilizzando varie tecniche. I
dati possono essere osservazioni o misure di qualit o quantit di oggetti di
interesse. Numerosi sono gli esempi di dati che ricorrono nella nostra vita
quotidiana: dati sulla salute, sui prezzi delle merci, sugli ascolti dei programmi
televisivi, sui risultati elettorali, sui risultati scolastici. La statistica ci insegna
come raccogliere i dati, archiviarli, presentarli e interpretarli per trarre
conclusioni.
Originariamente lo sviluppo della statistica come disciplina scientifica fu
dovuto soprattutto alla necessit pratica dei governi di raccogliere informazioni di
carattere demografico, sullo stato di salute delle popolazioni, sulle attivit
economiche. In seguito, accanto al lavoro pratico, si sviluppato quello di
teorizzazione, che ha dato luogo alla fase metodologica in cui la scienza
matematica ha avuto un peso determinante.
In una accezione pi tecnica, una statistica una quantit numerica
calcolabile a partire da dati osservazionali relativi a qualche fenomeno di
interesse. Per esempio, la percentuale di voti ottenuti in unelezione da un ben
precisato partito una statistica che si calcola contando le schede elettorali a
favore di quel partito, dividendo questo numero per il totale delle schede votate e
moltiplicando per 100. Cos, se indichiamo con a il primo numero e con n il
secondo, la percentuale p :
p=
a
100
n
Esempio 1.
Figura 1.1
Lanzianit delle regioni.
Fonte: rapporto Censis 2001.
Liguria
Umbria
Emilia Romagna
Toscana
Marche
24,70
22,21
22.05
21,89
21,32
Friuli-Venezia-Giulia
Molise
Piemonte
Abruzzo
Valle dAosta
Basilicata
Veneto
Lombardia
Lazio
Trentino-Alto Adige
Calabria
Sicilia
Puglia
Campania
Esercizio 1.
Sia x il numero di clienti di Infostrada alla fine del 1999. Allora, possiamo
scrivere:
x+
195
95
x = 7600000
x = 7600000
100
100
x=
100
7600000 390000
195
Allo stesso modo, supponiamo che y sia il fatturato di Infostrada alla fine
del 1999. Quindi
y+
29
29
y = 1805 miliardi
y = 1805 miliardi
100
100
y=
100
1805 miliardi 1400 miliardi
129
Esercizio 2.
Si legge dal giornale che le vendite della Rinascente nel 2000 sono cresciute
del 4%, rispetto allanno precedente, arrivando a 10700 miliardi. Quanto valevano
nel 1999? (Approssimare agli interi).
Esercizio 3.
1.1.2 FENOMENI
COLLETTIVI,
POPOLAZIONE
CARATTERISTICHE OGGETTO DI STUDIO
STATISTICA
Per capire meglio basti pensare al campo delle scienze naturali dove
interessa studiare il comportamento di una specie nel suo complesso e non quello
di ogni singolo individuo della specie. Altri esempi di fenomeni collettivi sono la
natalit, la nuzialit e la mortalit in cui le misure vengono ottenute mediante il
conteggio delle nascite, dei matrimoni e delle morti di un certo periodo.
I fenomeni collettivi sono investigabili solo tramite una pluralit di
osservazioni in qualche modo analoghe o, per essere pi precisi, i fenomeni
analizzabili con metodi statistici sono quelli che si manifestano in modo variabile
nei singoli individui e per cui sono disponibili pi osservazioni di analoga natura.
Linsieme degli individui di interesse nel loro complesso costituisce il collettivo o
popolazione statistica.
Per poter studiare un fenomeno collettivo necessario, in prima analisi,
stabilire quali siano gli elementi che costituiscono la popolazione di interesse. Un
collettivo, infatti, un insieme di individui o oggetti, ciascuno dei quali prende il
nome di unit statistica, accomunati e resi omogenei da una o pi caratteristiche
di interesse.
Se vogliamo, ad esempio, studiare il fenomeno collettivo vendite di libri
in un certo periodo in un certo luogo, esamineremo come popolazione statistica il
collettivo dei libri venduti in quel periodo nel luogo prescelto: ogni libro venduto
ununit statistica.
Ogni fenomeno collettivo viene studiato mediante losservazione e la
misurazione di una o pi caratteristiche delle unit statistiche della popolazione di
interesse, ognuna delle quali denotata carattere o variabile, per sottolineare il
fatto che pu presentarsi in modo diverso nelle diverse unit statistiche. In termine
tecnico loperazione di osservazione e misura viene denotata rilevazione. Ciascun
carattere presente in ogni unit statistica con una ben determinata modalit.
Esempio 2
let;
la data di nascita;
il luogo di nascita;
il sesso;
la nazionalit;
laltezza;
il peso;
il numero di fratelli;
la Facolt;
il corso di laurea;
ecc.
misura che pi vicina a 178 anzich a 177 o 179: la statura x un qualche valore
compreso in un intervallo centrato su 178:
178 c < x < 178 + c
10
Tipo di
carattere
Operazioni Possibili
Operazioni
Confronto Ordinamento
aritmetiche
qualitativo connesso
qualitativo ordinato
quantitativo
Esempio 4
11
Esercizio 4
In una certa indagine vengono rilevati per ogni unit statistica: occupazione,
regione di residenza, peso, altezza, numero di automobili possedute. Quali delle
seguenti affermazioni falsa?
a)
b)
c)
d)
Svolgimento
maschio, femmina;
pianificazione;
rilevazione;
elaborazione;
presentazione;
interpretazione.
1.2.1 PIANIFICAZIONE
La prima fase di una qualunque ricerca relativa a un fenomeno collettivo
consiste nella pianificazione.
Definizione.
La pianificazione consiste nella definizione del fenomeno e degli obiettivi
dellindagine, nellindividuazione del collettivo, delle unit statistiche, nella scelta
dei caratteri del collettivo che interessano lo studio e nella definizione delle
relative modalit (per i caratteri qualitativi) o dei processi di misura (per i caratteri
quantitativi).
Esempio 5
13
14
1.2.2 RILEVAZIONE
Definizione.
La rilevazione quel complesso di operazioni attraverso le quali si
acquisiscono le informazioni sulle caratteristiche (o caratteri) di interesse per
ciascuna unit statistica del collettivo considerato; da questa fase scaturiscono i
dati statistici elementari o dati grezzi, che entrano a far parte della tabella
unit/caratteri, che costituisce la matrice dei dati.
Supponiamo di aver riempito le schede relative alle auto secondo il modello
riportato sopra, la matrice dei dati una semplice tabella in cui a ogni riga
corrisponde ununit statistica e su ogni colonna registrata la modalit o la
misura di uno dei caratteri rilevati. La prima colonna contiene le informazioni che
identificano lunit statistica.
Tabella 1.1 Tabella unit/caratteri o matrice dei dati relativa allindagine sulle auto
Unit statistica
(concessionario,
data,n)
Marca
Cilindrata
Colore
Alfa Romeo
FIAT
1400
1100
argento
blu
15
Marca
Cilindrata
Colore
2
1
1400
1100
1
2
1.2.3 ELABORAZIONE
Definizione.
Lelaborazione quel complesso di operazioni attraverso le quali i dati
grezzi vengono prima codificati e poi sintetizzati nei dati derivati pi facilmente
interpretabili. In alcuni casi indispensabile lelaborazione dei dati elementari,
come, per esempio, nelle consultazioni elettorali.
Esempio 6
1.2.4 PRESENTAZIONE
Definizione.
La presentazione lesposizione dei grafici, delle tabelle, ecc., dove sono
stati sintetizzati i dati rilevati.
Le tabelle mostrate in TV con i risultati elettorali sono presentazioni di dati
statistici.
16
1.2.5 INTERPRETAZIONE
Definizione.
Linterpretazione la spiegazione dei risultati, con le osservazioni finali e
leventuale collegamento con altre indagini.
Riprendiamo in esame il caso dei dati relativi ad una consultazione
elettorale; questi vengono semplicemente presentati in forma di tabelle e grafici e
confrontati con i risultati ottenuti in consultazioni precedenti. Si cerca quindi di
ottenere i commenti dei rappresentanti dei Partiti e degli studiosi di politica
(politologi), che non sono altro che interpretazioni.
17
18
19
anche domande piuttosto semplici possono far sorgere dei problemi, se poste per
ultime.
Un tipo di domanda che permette allintervistatore di ridurre il numero di
domande da sottoporre allintervistato e quindi la durata dellintervista la
domanda filtro: questa consente di passare direttamente da una batteria di
domande a unaltra, evitando di sottoporre allintervistato domande non
pertinenti.
Per esempio, in unindagine riguardante le attivit sportive, consideriamo la
domanda Pratichi qualche attivit sportiva? Se la risposta affermativa si passa a
esaminare la parte del questionario che riguarda gli sport che vengono praticati, la
frequenza con cui si praticano, il luogo dove vengono praticati, ecc.; se la risposta
negativa, si passa alla parte del questionario riguardante i motivi che spingono a
non praticare nessuno sport.
Le domande filtro hanno anche la funzione di evitare che lintervistato si
senta obbligato a rispondere, in maniera non veritiera, a qualche domanda.
Supponiamo di porre una domanda del tipo Che libri hai letto nellultimo
mese? a un individuo che in tale periodo non ha letto nessun libro. Il fatto che alla
domanda sia dato per scontato che si sia letto almeno un libro, potrebbe far
percepire allindividuo che il suo comportamento non valutato positivamente
portandolo a dare una risposta non veritiera. Per evitare questo inconveniente
potremmo far precedere questa domanda da una del tipo Hai letto un libro
nellultimo mese? In questa maniera solo agli individui che rispondono
affermativamente si chieder quali libri hanno letto.
20
Abbastanza
Pochi o pochissimi
Non ne ho
Notiamo che le quattro risposte sono tra loro incompatibili, poich la scelta
di una esclude necessariamente le restanti.
Esempio 8. Domanda a risposta multipla.
A parte lo sport, quali altre attivit pratichi con continuit? (puoi dare pi
risposte)
Nessuna
Sono iscritto a associazioni culturali
Faccio parte di un gruppo di volontariato sociale
Sono iscritto a una associazione ricreativa (anche scout)
Partecipo a un gruppo ambientalistico
Frequento o sono iscritto a un partito o gruppo politico
Faccio parte di gruppi di tifoseria organizzata
Suono con un complesso musicale
Recito in un gruppo teatrale
Frequento gruppi religiosi
Altro (specificare)
possibile, in alcuni casi, ricondurre una domanda a risposta multipla a
una domanda a risposta singola adottando il criterio della prevalenza, cio
domandando allintervistato di indicare la pi importante fra quelle possibili.
La domanda dellesempio 8 potrebbe essere riformulata nel seguente modo:
A parte lo sport, quale altra attivit pratichi preferibilmente?
In questo caso lincompatibilit fra le risposte viene indotta dallaggiunta
del termine preferibilmente.
Le domande possono essere classificate anche rispetto al grado di libert
lasciato allintervistato nel rispondere a queste. Si pu passare dalla massima
flessibilit, data dalle domande aperte nelle quali si possono personalizzare le
risposte, alla massima rigidit data dalle domande strutturate o chiuse ove le
21
risposte sono predefinite. Naturalmente tra queste due forme estreme possibile
formulare domande con diverso grado di flessibilit.
Una domanda aperta lascia allintervistato piena libert nel rispondere a un
quesito, permettendogli di utilizzare il linguaggio che pi gli naturale e senza far
trapelare alcun suggerimento che lo possa condizionare nella risposta.
Esempio 9. Domanda a risposta aperta.
Non Sportivo
Mai
1 volta
2/3 volte
22
3.
Tu sei?
Maschio
7.
Femmina
(giorno)
(mese)
(anno)
4.
No
8.
23
5.2
Quanti fratelli o sorelle sono pi piccoli di
te o hanno la tua stessa et?
(indica il numero nella casella)
Fratelli
5.3
Sorelle
Fratelli
Sorelle
9. Quanti libri scolastici hai letto lanno
scorso?
nessuno
uno o due
da tre a cinque
da sei a dieci
oltre dieci
vado al cinema
vado al teatro
frequento sale giochi
altro
a piedi
con i mezzi pubblici
con lo scuolabus in automobile
in moto/motorino in bicicletta
altro
24
Figura 1.3
SCHEDA NOTIZIE
NATI NEL 1928
Sesso:
M
F
Luogo di nascita (comune):
Data di nascita:
Ordine di generazione:
Vitalit: nato vivo
nato morto
Peso alla nascita: kg
Et della madre: anni
25
SECONDA UNIT
26
1: silenziatore standard;
2: silenziatore di nuovo tipo (Filtro Octel);
Lato di rilevazione:
1: lato destro;
2: lato sinistro.
27
Tabella 2.1 Matrice dei dati grezzi rilevati e presentati nel rapporto per il Senato
degli Stati Uniti dalla Texaco nel 1973
Livello di
Dimensione Tipo di
Lato
rumore (decibel) dellauto silenziatore di rilevazione
810
1
1
1
820
1
1
1
820
1
1
1
840
2
1
1
840
2
1
1
845
2
1
1
785
3
1
1
790
3
1
1
785
3
1
1
835
1
1
2
835
1
1
2
835
1
1
2
845
2
1
2
855
2
1
2
850
2
1
2
760
3
1
2
760
3
1
2
770
3
1
2
820
1
2
1
820
1
2
1
820
1
2
1
820
2
2
1
820
2
2
1
825
2
2
1
775
3
2
1
775
3
2
1
775
3
2
1
825
1
2
2
825
1
2
2
825
1
2
2
815
2
2
2
825
2
2
2
825
2
2
2
770
3
2
2
760
3
2
2
765
3
2
2
Questo insieme di dati sar utilizzato per effettuare alcune analisi allo scopo
di capire in base a quali risultati il rapporto traeva le sue conclusioni.
28
Innanzitutto cerchiamo di capire con quale criterio sono stati raccolti i dati
e, in particolare, con quale criterio sono state scelte le unit statistiche.
Dallanalisi delle ultime tre colonne della tabella si evince che lo schema adottato
consistito nel misurare il carattere quantitativo livello di rumore su un certo
numero di unit statistiche (3) uguali tra loro per le modalit dei caratteri
qualitativi considerati e diverse per almeno uno di tali caratteri da ogni altro
gruppo di tre. Infatti, considerando tutte le possibili combinazioni delle modalit
relative ai tre caratteri qualitativi, si ha che il numero totale di tali combinazioni si
ottiene dal prodotto del numero di modalit relative al carattere dimensione
dellauto (3), per il numero di modalit relative al carattere tipo di silenziatore (2),
per il numero di modalit relative al carattere lato di rilevazione (2). Il risultato
12. Considerando tre replicazioni di ogni combinazione si arriva al numero totale
di unit statistiche analizzate (36).
Per semplificare il problema definiamo tipologia dellunit statistica il
carattere con 12 modalit che prende in considerazione tutte le combinazioni di
modalit dei tre caratteri qualitativi. In questo modo possiamo ricodificare i dati
relativi ai caratteri qualitativi come mostrato in tabella 2.2 e ottenere una matrice
dei dati semplificata (tabella 2.3).
Tabella 2.2 Tabella di ricodifica dei dati: corrispondenza biunivoca tra le
combinazioni possibili dei tre codici relativi alle modalit dei tre
caratteri qualitativi e linsieme numerico {1,2,3,4,5,6,7,8,9,10,11,12}
Tipologia Dimensione
Tipo
Lato
dellauto dellauto di silenziatore di rilevazione
1
1
1
1
2
1
1
2
3
1
2
1
4
1
2
2
5
2
1
1
6
2
1
2
7
2
2
1
8
2
2
2
9
3
1
1
10
3
1
2
11
3
2
1
12
3
2
2
29
Tipologia
dellauto
Livello di
rumore(decibel)
Tipologia
dellauto
Livello di
rumore
(decibel)
1
1
1
2
2
2
3
3
3
4
4
4
5
5
5
6
6
6
810
820
820
835
835
835
820
820
820
825
825
825
840
840
845
845
855
850
7
7
7
8
8
8
9
9
9
10
10
10
11
11
11
12
12
12
820
820
825
815
825
825
785
790
785
760
760
770
775
775
775
770
760
765
Sulla base della nuova matrice dei dati grezzi pi semplice riscontrare
alcuni fatti. Per prima cosa si nota che le tre misure relative ad ogni tipologia di
auto sono molto vicine tra loro e spesso risultano uguali. Il numero di unit
statistiche scelto per ogni tipologia , pertanto, sufficiente a studiare il fenomeno
di interesse dato che, aumentando il numero di unit, si otterrebbero ripetizioni di
misure uguali o molto vicine con nessun ulteriore apporto di informazione. Fra le
tre caratteristiche considerate per definire la tipologia, la pi influente sul livello
di rumore sembra essere la dimensione dellauto. Emerge, in particolare, che le
auto di dimensione media sono tendenzialmente pi rumorose di quelle di piccola
dimensione che, a loro volta, sembrano pi rumorose di quelle grandi. Il confronto
si effettua considerando che le prime 12 misure uguali sono relative ad auto
piccole, le seconde 12 misure ad auto medie, le ultime 12 ad auto grandi. Per
quanto riguarda il lato di rilevazione sembrerebbe che per le auto piccole sia pi
rumoroso il lato sinistro, per le medie ci sia sostanziale equivalenza, mentre per le
grandi sia pi rumoroso il lato destro. Queste osservazioni sono possibili
considerando che il lato di rilevazione destro corrisponde ad un numero dispari
nella codifica della tipologia e il lato sinistro ad un numero pari. Laspetto pi
difficile da evidenziare quello legato proprio alle differenze dovute ai due
possibili tipi di silenziatore. Osserviamo ancora che tutte le considerazioni svolte
fin qui sono state possibili solo in virt della semplicit del problema e della
30
limitata numerosit dei dati e, comunque, la semplice analisi diretta della tabella
non ci permette alcuna considerazione immediata relativamente allaspetto di
maggior interesse, vale a dire il confronto tra i due filtri.
Per effettuare correttamente questo confronto abbiamo bisogno di alcuni
metodi generali per sintetizzare i dati. Prima di introdurre tali metodi, per,
analizziamo un esempio di presentazione di dati effettuato dallISTAT (lesempio
tratto dal sito: www.istat.it).
25-34 anni
36,4
39,9
35-64 anni
32,6
32,2
20,7
10,0
8,8
laurea, dottorato
8,0
diploma di maturit
5,7
5,7
qualifica professionale
licenza media
licenza elementare,
nessun titolo
31
della media nazionale) e, in misura minore, la quota dei maturi (23,0% rispetto a
23,1%) e dei laureati (6,1% rispetto a 6,7%).
Figura 2.2 Persone di 15 anni e pi per titolo di studio e ripartizione geografica.
34,5
Nord
32,1
Centro
Mezzogiorno
30,2
31,8 31,4
33,7
25,9
22,0
6,7
7,9
22,9
7,4
6,1
laurea, dottorato
4,6
diploma di maturit
2,8
qualifica professionale
licenza media
licenza elementare,
nessun titolo
Chiediamoci ora come sono stati ottenuti i risultati mostrati nelle figure e
commentati nel testo dellISTAT. Per imparare ad effettuare le sintesi e le
rappresentazioni grafiche proposte consideriamo un altro esempio semplice su cui
riprodurremo lo stesso tipo di analisi.
Esempio 3. Alcuni dati relativi ad unindagine sulle vacanze1
Lindagine fa parte dellattivit svolta da Fabio Anastasia, Patrizia Fantasia, Anna Maria
Fortunato, Laura Galeno, Antonella Ludovisi e Diana Maggio nellambito del corso di Laboratorio
di didattica della Matematica. Scuola di specializzazione per lInsegnamento Secondario del
Lazio, anno accademico 1999/2000.
32
Figura 2.3
RILEVAZIONE DEI DATI SUI VIAGGI PER LE VACANZE NEL 1999
QUESTIONARIO
Et (anni compiuti):
Sesso:
M
F
Titolo di studio:
CODIFICA
licenza elementare o nessun titolo
1
licenza media inferiore
2
diploma di maturit o professionale
3
laurea o superiore
4
Numero di viaggi per vacanze in Italia:
Numero di viaggi per vacanze allestero:
Tabella 2.4 Dati grezzi (matrice dei dati) relativa alla rilevazione alluscita di un
supermercato romano su Viaggi per vacanza nel 1999
Unit
statistica
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
Et Sesso
15
27
29
29
32
27
65
56
60
32
33
27
25
27
78
43
45
31
34
50
68
45
20
22
18
29
74
M
F
F
F
M
F
F
F
M
F
M
M
F
M
M
F
M
F
M
F
F
F
F
M
M
M
F
Titolo
Viaggi per
Viaggi per
di studio vacanze in Italia vacanze allestero
2
2
0
4
2
0
4
0
1
4
0
0
3
0
3
4
0
0
1
1
0
3
1
0
2
1
0
3
2
0
4
2
1
4
0
0
3
1
0
3
1
1
1
1
0
3
1
0
2
1
0
4
1
1
4
0
1
3
2
2
1
3
0
3
1
0
3
1
0
3
2
0
2
0
1
2
0
1
2
0
0
33
28
29
30
23
41
54
M
M
F
3
4
3
1
1
0
1
3
1
Frequenza assoluta
14
16
30
34
In altri termini, abbiamo assunto che le unit statistiche della prima colonna,
cui associata la modalit M (rispettivamente F) appartengano allo stesso insieme
e poi abbiamo contato il numero di elementi di questo insieme. Nella costruzione
di una tabella del tipo mostrato si definisce frequenza assoluta corrispondente
ad una certa modalit il numero di unit statistiche che presenta tale modalit. In
questo modo nellesempio si proceduto per la modalit M e analogamente per la
modalit F. La tabella che mostra su due colonne affiancate lelencazione delle
modalit di un carattere e le rispettive frequenze assolute si chiama distribuzione
di frequenza (assoluta) del carattere considerato, nel nostro esempio il carattere
sesso. Dividendo ogni frequenza assoluta per il totale delle unit statistiche
considerate si ottiene la distribuzione di frequenza relativa, che possiamo
rappresentare nella seguente tabella.
Tabella 2.6 Distribuzione di frequenza (relativa) del carattere sesso nel campione
di intervistati
Modalit
M
F
Totale
Frequenza relativa
14/30
16/30
1
Esercizio 1.
Frequenza percentuale
Laurea, dottorato
10,4
Diploma di maturit
Qualifica professionale
Licenza media
Licenza elementare
Totale
36,4
8,0
39,9
5,7
100,0
Esercizio 2.
Tabella 2.10 Distribuzione di frequenza per il carattere numero totale di viaggi per
vacanza
Frequenza Frequenza Frequenza
Modalit
cumulata cumulata cumulata
(valori)
relativa percentuale
assoluta
0
4
4/30
13,33
1
16
16/30
53,33
2
26
26/30
86,66
3
29
29/30
96,66
4
30
1
100,00
Frequenza Frequenza
Frequenza Frequenza Frequenza Frequenza
cumulata cumulata
assoluta
relativa percentuale cumulata
relativa percentuale
1
0
0
1
1
1
0
1
1
0
1
0
4
0
2
0
0,033
0
0
0,033
0,033
0,033
0
0,033
0,033
0
0,033
0
0,133
0
0,067
0
3,33
0,00
0,00
3,33
3,33
3,33
0,00
3,33
3,33
0,00
3,33
0,00
13,33
0,00
6,67
0,00
1
1
1
2
3
4
4
5
6
6
7
7
11
11
13
13
38
0,033
0,033
0,033
0,067
0,100
0,133
0,133
0,167
0,200
0,200
0,233
0,233
0,367
0,367
0,433
0,433
3,33
3,33
3,33
6,67
10,00
13,33
13,33
16,67
20,00
20,00
23,33
23,33
36,67
36,67
43,33
43,33
1
2
1
1
0
0
0
0
0
0
1
0
1
0
2
0
0
0
0
1
0
0
0
1
0
1
0
0
0
1
0
0
0
0
1
0
0
1
0
0
0
0
0
1
0
0
0
1
0,033
0,067
0,033
0,033
0
0
0
0
0
0
0,033
0
0,033
0
0,067
0
0
0
0
0,033
0
0
0
0,033
0
0,033
0
0
0
0,033
0
0
0
0
0,033
0
0
0,033
0
0
0
0
0
0,033
0
0
0
0,033
3,33
6,67
3,33
3,33
0,00
0,00
0,00
0,00
0,00
0,00
3,33
0,00
3,33
0,00
6,67
0,00
0,00
0,00
0,00
3,33
0,00
0,00
0,00
3,33
0,00
3,33
0,00
0,00
0,00
3,33
0,00
0,00
0,00
0,00
3,33
0,00
0,00
3,33
0,00
0,00
0,00
0,00
0,00
3,33
0,00
0,00
0,00
3,33
14
16
17
18
18
18
18
18
18
18
19
19
20
20
22
22
22
22
22
23
23
23
23
24
24
25
25
25
25
26
26
26
26
26
27
27
27
28
28
28
28
28
28
29
29
29
29
30
0,467
0,533
0,567
0,600
0,600
0,600
0,600
0,600
0,600
0,600
0,633
0,633
0,667
0,667
0,733
0,733
0,733
0,733
0,733
0,767
0,767
0,767
0,767
0,800
0,800
0,833
0,833
0,833
0,833
0,867
0,867
0,867
0,867
0,867
0,900
0,900
0,900
0,933
0,933
0,933
0,933
0,933
0,933
0,967
0,967
0,967
0,967
1,000
46,67
53,33
56,67
60,00
60,00
60,00
60,00
60,00
60,00
60,00
63,33
63,33
66,67
66,67
73,33
73,33
73,33
73,33
73,33
76,67
76,67
76,67
76,67
80,00
80,00
83,33
83,33
83,33
83,33
86,67
86,67
86,67
86,67
86,67
90,00
90,00
90,00
93,33
93,33
93,33
93,33
93,33
93,33
96,67
96,67
96,67
96,67
100,00
39
6
12
2
4
2
3
1
1/5
2/5
1/15
2/15
1/15
1/10
1/30
40
41
Figura 2.4
14
12
frequenze assolute
12
10
8
6
6
4
2
0
1
titolo di studio
Esercizio 5.
2.3.2 RAPPRESENTAZIONE
GRAFICA DI CARATTERI
RAGGRUPPATI IN CLASSI DI UGUALE AMPIEZZA
QUANTITATIVI
42
Figura 2.5
0
15
25
35
45
55
65
75
85
classi di et
2.3.3 RAPPRESENTAZIONE
GRAFICA DI CARATTERI
RAGGRUPPATI IN CLASSI DI DIVERSA AMPIEZZA
QUANTITATIVI
43
44
Figura 2.8
13
14
12
10
10
6
4
2
0
0
0
4
Esercizio 6.
14
frequenza assoluta
12
10
8
6
4
2
0
0
2
3
numero di viaggi
Esercizio 7.
Alunno
1
2
3
4
5
6
7
8
9
10
46
frequenza cumulata
2
3
numero viaggi in Italia
Distribuzione cumulata
47
Figura 2.12
Ogiva (frequenza cumulata)
35
30
25
20
15
10
5
0
0
frequenza cumulata
Abbiamo ora nuovi strumenti per effettuare unanalisi dei dati relativi alla
rilevazione della TEXACO riportati nella tabella 2.3, separando le misurazioni
relative ai due tipi di silenziatore. Riportiamo le distribuzioni di frequenza in
tabella 2.14 e per agevolare un primo confronto qualitativo riportiamo nella figura
2.13 le due ogive.
Tabella 2.14 Distribuzioni di frequenza e frequenza cumulata del livello di rumore
misurato in decibel per i due tipi di silenziatore (standard = tipo 1 e nuovo tipo = tipo
2)
Livello Frequenza Frequenza Frequenza Frequenza
cumulata
cumulata assoluta
di rumore assoluta
(tipo 2)
(tipo 2)
(tipo 1)
(decibel) (tipo 1)
760
2
2
1
1
765
0
2
1
2
770
1
3
1
3
775
0
3
3
6
780
0
3
0
6
785
2
5
0
6
790
1
6
0
6
795
0
6
0
6
800
0
6
0
6
805
0
6
0
6
810
1
7
0
6
815
0
7
1
7
820
2
9
5
12
825
0
9
6
18
48
830
835
840
845
850
855
0
3
2
2
1
1
9
12
14
16
17
18
0
0
0
0
0
0
18
18
18
18
18
18
Figura 2.13
frequenza cumulata
760
780
800
820
840
860
Intervalli
49
820 840
840 860
5
6
11
0
Figura 2.14
frequenze assolute
780 - 800
800 - 820
820 - 840
840 - 860
Il confronto dei due diagrammi a barre conferma quanto osservato sulla base
delle distribuzioni cumulate: i valori del livello di rumore in corrispondenza del
nuovo tipo di silenziatore tendono ad essere pi bassi.
Esercizio 8.
50
Esercizio 11.
360
f
S
51
Figura 2.15
licenza elementare
licenza
elementare
licenza media
9
6
diploma
laurea
12
Esercizio 12.
Svolgimento
5,7
10,4
Laurea, dottorato
Diploma di maturit
Qualifica professionale
39,9
36,4
Licenza media
Licenza elementare,
nessun titolo
53
10,4
Diploma di maturit
Qualifica professionale
39,9
36,4
8
Licenza media
Licenza elementare,
nessun titolo
54
TERZA UNIT
55
Fino
159
1,3
1,3
1,2
0,7
0,8
0,4
1,6
1,1
1,0
1,2
1,0
1,3
1,3
2,6
2,3
2,3
2,5
3,4
3,1
4,6
1,7
160164
6,0
4,3
5,6
2,7
3,6
2,7
6,1
5,2
4,8
5,4
5,1
6,1
6,2
8,9
8,4
8,8
9,4
10,6
10,0
13,9
6,8
165169
17,4
16,0
16,3
13,7
12,7
10,2
17,1
16,2
15,3
17,0
17,4
17,9
17,5
21,7
22,5
21,4
25,5
25,9
24,2
27,4
18,6
170174
28,7
27,9
28,6
26,9
26,5
22,7
28,2
27,8
27,6
29,5
30,0
30,1
31,7
31,5
30,6
30,7
30,9
30,2
30,8
28,8
29,1
175179
26,0
25,6
26,9
29,9
28,6
29,3
26,4
27,3
28,0
27,5
26,9
26,1
26,4
22,7
23,1
23,0
21,1
20,5
21,0
17,2
25,2
180184
14,4
16,9
15,0
17,6
18,7
21,4
14,4
15,4
15,9
13,6
14,0
13,3
12,6
9,6
9,9
10,3
8,2
7,4
8,6
6,3
13,2
185189
5,0
6,1
5,1
6,8
7,1
9,9
4,9
5,5
5,9
4,7
4,5
4,1
3,5
2,1
2,6
2,9
2,0
1,7
2,0
1,5
4,3
pi
189
1,3
1,9
1,3
1,7
2,1
3,5
1,2
1,6
1,4
1,0
1,1
1,2
0,8
1,0
0,6
0,6
0,5
0,4
0,4
0,3
1,1
di
Consideriamo un gruppo di iscritti alla leva, che siano una piccola parte
(solo 18 casi) di quello i cui dati sono riportati in tabella 3.1, e misuriamone le
altezze in cm. Riportiamo poi i dati in una tabella unit/caratteri (tabella 3.2).
Tabella 3.2 Matrice di dati relativa alle18 unit statistiche selezionate tra gli iscritti
di leva
Unit
statistica
01
02
03
04
05
06
Altezza
(cm)
172
162
170
169
157
168
Unit
statistica
07
08
09
10
11
12
Altezza
(cm)
171
174
162
163
160
169
Unit
statistica
13
14
15
16
17
18
Altezza
(cm)
168
168
163
162
175
173
M =
172 + 162 + 170 + 169 + 157 + 168 + 171 + 174 + 162 + 163
+
18
Il valore cos ottenuto la media aritmetica delle altezze delle nostre unit
statistiche.
Definizione.
Si chiama media aritmetica di n misure il valore che si ottiene dividendo la
loro somma per n
M =
x1 + K + x n
n
Statura media
170,71
171,44
171,96
172,16
172,67
172,70
172,79
173,85
174,23
174,45
Regione
Piemonte
Marche
Umbria
Lombardia
Emilia-Romagna
Toscana
Valle dAosta
Trentino-A. Adige
Veneto
Friuli-V. Giulia
58
Statura media
174,48
174,51
174,56
174,63
174,99
175,21
175,31
175,91
176,10
177,35
M(filtro 2) =
14680
= 815,56
18
760 + 765 + 770 + 775 + 775 + 775 + 815 + 820 + 820 + 820
+
18
+
14485
= 804,72
18
14485
= 804,72
18
59
Definizione
La media aritmetica di n valori x1,, xn, ciascuno dei quali si presenta con
frequenza f1,f2,,fn, si calcola mediante la formula:
M =
x1 f 1 + K + x n f n
f1 + K + f n
min M ( X ) max
Dimostrazione.
Per la definizione di minimo e massimo risultano le seguenti relazioni
dordine:
60
min x1 max
min x 2 max
M
min x n max
min
min
14+4
4
2+4K
4min
4
3 x1 + x 2 + K + x n max
14+4max
42+
4K
4max
4
3
n volte
n volte
n
n
n
cio:
n min
n max
M (X )
n
n
da cui semplicemente:
min M ( X ) max .
61
Altezza in metri
8846
8616
8586
8501
8481
8400
Altezza in piedi
29022,3
28267,7
28169,3
27890,4
27824,8
27559,1
M m (X ) =
62
Propriet (Omogeneit)
Se M(X) la media aritmetica dei valori x1,, xn allora la media aritmetica
dei valori k x1 ,K , k x n k M ( X ) .
Esempio 5.
52 + 49 + 22 + 20 + 17
= 32
5
63
M(filtro 2) = 808,39
Fino
a 159
1,7
160-164
165-169
170-174
175-179
180-184
185-189
6,8
18,6
29,1
25,2
13,2
4,3
Pi
di 189
1,1
Tabella 3.7 Distribuzione di frequenza (%) dellaltezza (cm) degli iscritti di leva
nati nel 1972 (Fonte ISTAT, Compendio statistico 1994).
Classi di altezza 150 162 167 172 177 182 187 195
Italia
1,7 6,8 18,6 29,1 25,2 13,2 4,3 1,1
Procediamo al calcolo della media:
M(altezza) =
150 (1,7) + 162 (6,8) + 167 (18,6) + 172 (29,1) + 177 (25,2)
+
1,7 + 6,8 + 18,6 + 29,1 + 25,2 + 13,2 + 4,3 + 1,1
+
30
frequenza percentuale
frequenza percentuale
35
25
20
15
10
5
0
150
162
167
172
177
182
187
35
30
25
20
15
10
5
0
150
195
162
167
172
177
182
187
195
classi di statura
classi di statura
Esercizio 6.
65
r1 r2
Definizione.
Dati gli n valori positivi x1, x2, , xn che costituiscono le misure relative
allosservazione di un carattere quantitativo, si dice media geometrica la radice nesima con segno positivo del loro prodotto. Se indichiamo tale risultato con la
lettera G, possiamo scrivere:
G = n x1 x 2 K x n .
66
Una popolazione di scimmie passata nel corso di tre anni da 1000 a 3375
individui. Qual il tasso medio di crescita annuale?
Esercizio 8.
In corrispondenza dei tre ultimi censimenti del secolo scorso i dati (in
milioni di individui) della popolazione italiana sono risultati:
Anno del censimento
1971
1981
1991
a b
e perci
a + b 2 ab 0
3.3.1 LA MEDIANA
Unimportante media di posizione per la descrizione sintetica di una
distribuzione statistica la mediana, definita come quel valore che nella
successione dei dati, disposti in ordine non decrescente (o non crescente), divide
la graduatoria in due parti tali che il numero dei termini che la precede uguale al
numero dei termini che la segue: in altre parole la mediana occupa il posto
centrale della successione dei valori. Poich per calcolare la mediana dobbiamo
ordinare le osservazioni (o le modalit nel caso in cui compaiono le frequenze)
segue che ha senso parlare di mediana in relazione a caratteri sia quantitativi sia
qualitativi ordinati.
In generale si pu dare la regola di calcolo che definisce la mediana nel
modo seguente.
Se si ha un numero dispari n di osservazioni, ordinate in modo non
crescente o non decrescente, la mediana (Me) il termine che occupa il posto
centrale, ovvero la posizione (n+1)/2.
Se le osservazioni sono in numero n pari la mediana (Me) viene definita
come semisomma dei termini che occupano i posti n/2 (n/2)+1.
Esempio 9. Una sperimentazione della TEXACO (6).
Consideriamo i dati della TEXACO sul livello di rumore per i due filtri
separatamente e ordiniamoli in modo crescente:
Filtro 1: 760 760 770 785 785 790 810 820 820 835 835 835 840 840 845 845 850 850
68
Filtro 2: 760 765 770 775 775 775 815 820 820 820 820 820 825 825 825 825 825 825
4,07 4,88 5,10 5,26 5,27 5,29 5,29 5,30 5,34 5,34 5,36 5,39 5,42 5,44
5,46
5,47 5,50 5,53 5,55 5,57 5,58 5,61 5,62 5,63 5,65 5,75, 5,79 5,85 5,86
69
Distribuzione relativa
cumulata
1,2
1
0,8
0,6
0,4
0,2
0
3,5
4,5
5,5
6,5
70
Figura 3.3
Distribuzione relativa
cumulata
1.2
1
0.8
0.6
0.4
0.2
0
3.5
4.5
5.5
6.5
71
80
82
88
90
95
96
100
21
18
9
15
18
5
7
59
77
86
101
119
124
131
Nel caso in esame, poich il totale delle osservazioni 131, si avr che la
mediana il voto corrispondente al (131+1)/2 = 66 posto della successione. Per
cui il valore mediano pari a 82, pi esattamente il 7 nella sequenza dei 18
studenti che hanno conseguito tale votazione (infatti fino al 59 posto della
graduatoria ci sono coloro che hanno un voto inferiore o uguale a 80, per arrivare
a colui che occupa il 66 posto dobbiamo conteggiare altre 7 persone che hanno
un voto di 82).
Se i valori del carattere osservato sono raggruppati in classi oppure si tratta
di un carattere qualitativo ordinato, come per esempio il titolo di studio in tabella
2.4, la procedura la stessa soltanto che non parleremo di mediana ma di classe
mediana, che la classe che al suo interno contiene il valore mediano.
Esercizio 12.
3.3.2 I QUARTILI
possibile estendere il concetto di media di posizione a partire dalla
mediana. In particolare, pu essere interessante suddividere la distribuzione in
quattro parti definendo i quartili:
Definizione
Si dice primo quartile di una distribuzione statistica, e si indica con q1/4, il
valore che lascia alla sua sinistra un quarto dei valori osservati e alla sua destra .
Il secondo quartile la mediana stessa.
Si dice terzo quartile di una distribuzione statistica, e si indica con q3/4, il
valore che lascia alla sua sinistra dei valori osservati e alla sua destra un quarto.
Nel caso della distribuzione delle altezze della tabella 3.6, per determinare
le classi che corrispondono ai diversi quartili dobbiamo identificare in
corrispondenza a quali classi di altezze la distribuzione percentuale raggiunge il
72
Esercizio 14.
Dalla definizione appena data si ricava che il primo quartile non altro che
la mediana della distribuzione delle misure inferiori alla mediana della
distribuzione originale e il terzo quartile la mediana delle misure superiori alla
mediana della distribuzione originale.
Applicando la regola di calcolo della mediana, rispettivamente alle 14
misure inferiori e alle 14 misure superiori, otteniamo:
q1/4 = 5,295 (semisomma del settimo e ottavo valore inferiore);
mediana = q1/2 = 5,46;
q3/4 = 5,61 (semisomma del settimo e ottavo valore superiore).
Anche per i quartili si pu procedere alla determinazione grafica in analogia a
quanto visto per la mediana. Il primo quartile si otterr a partire dalla semiretta
posta al livello 0,25 dellasse delle ordinate, mentre per il terzo quartile si partir
dal livello 0,75.
Nella figura 3.4 sono rappresentati i quartili dellesercizio 10.
73
Figura 3.4
Distribuzione relativa cum ulata della "densit della Terra"
Distribuzione relativa
cumulata
1,2
1
0,8
0,6
0,4
0,2
0
3,5
4,5
5,5
6,5
Esercizio 15.
3.3.3 LA MODA
Consideriamo la distribuzione del carattere sesso per i dati dellesercizio 7
della seconda Unit.
Modalit del carattere sesso Frequenza assoluta
Maschio
4
Femmina
6
74
Esercizio 16.
75
Dal calcolo delle medie risulta che tutti i gruppi hanno la stessa media M =
50. Calcoliamo allora i campi di variazione:
D(gruppo 1) = 2;
D(gruppo 2) = 4;
D(gruppo 3) = 7;
D(gruppo 4) = 8;
D(gruppo 5) = 31.
Come si vede gi dal campo di variazione i 5 gruppi mostrano situazioni ben
diverse rispetto alla distribuzione dei valori. Se, per, si vuole tenere conto anche
dei valori intermedi occorre utilizzare qualche altro strumento. La prima cosa che
ci viene in mente di misurare quanto i singoli valori differiscano dalla media
della distribuzione. Supponiamo che la media in questione sia la media aritmetica
(ma pu essere un altro valor medio qualsiasi). Possiamo dare la seguente
definizione.
Definizione
Si definiscono scarti dalla media le differenze fra ciascun valore osservato e
la media aritmetica. Pi precisamente: dati i valori x1, x2, , xn e la loro media M,
si definiscono scarti dalla media le differenze: x1-M, x2-M, , xn-M.
Poich la media compresa fra il valore pi piccolo e quello pi grande,
alcuni scarti sono positivi e altri negativi.
Esercizio 18.
Calcolare gli scarti dalla media aritmetica per i dati dellesempio 11.
76
Svolgimento.
Per calcolare gli scarti basta sottrarre ad ogni valore riportato in tabella il
valore della media (50). Si ottiene cos:
Unit Gruppo 1 Gruppo 2 Gruppo 3 Gruppo 4 Gruppo 5
-1
-2
-2
4
10
1
1
2
1
-1
-14
2
-1
-2
-1
-4
-19
3
1
2
2
-1
0
4
-1
-2
-3
1
-2
5
1
2
2
3
0
6
-1
-2
-4
0
4
7
1
2
1
0
6
8
-1
-2
3
-1
12
9
1
2
1
-1
3
10
0
0
0
0
0
Somma
Osserviamo che il valore assoluto dei singoli scarti risulta maggiore per i
gruppi in cui le misure mostrano maggiore variabilit e che, comunque, la somma
degli scarti risulta sempre nulla. Questa una propriet generale che pu essere
dimostrata. Risulta infatti che:
Propriet
La somma di tutti gli scarti dalla media aritmetica uguale a zero.
Dimostrazione
Indicando con S tale somma, e ricordando che:
M =
x1 + K + x n
n
3.4.1 LA VARIANZA
Quanto detto finora indica che la variabilit e gli scarti sono fra loro legati e
che, quindi, si pu pensare di misurare la variabilit di un fenomeno statistico
77
2 =
(x1 M )2 + (x2 M )2 + K + (x n M )2
n
Osserviamo che:
Propriet
e, quindi tutti gli addendi che figurano al numeratore della precedente relazione
sono uguali a zero; viceversa, se la varianza uguale a zero, essendo il
numeratore somma di termini tutti non negativi, necessario che questi siano tutti
nulli, ovvero x1 = x 2 = K = x n = M .
Propriet
78
2(gruppo 2) = 4;
2(gruppo 3) = 5;
2(gruppo 4) = 4,6;
2(gruppo 5) = 8,66;
498
643
390
332
750
368
659
234
396
300
343
536
543
217
298
1103
406
254
862
204
206
250
21
298
350
800
726
370
536
291
808
543
149
350
242
198
213
296
317
482
155
802
200
282
573
388
250
396
572
79
= 2 .
Per capire il motivo di questa preferenza riprendiamo lesempio delle
retribuzioni annue (esercizio 20):
Calcolare gli scarti quadratici medi per i dati degli esercizi 19 e 20.
80
M = 450
81
Esercizio 26.
82