Sei sulla pagina 1di 82

Corso di Laurea in modalit teledidattica

Scienze dellEducazione e della Formazione in una societ multiculturale

SECS-S/05 Statistica sociale


MODULO A - 3 CFU

Massimiliano Bultrini, Carla Rossi


Elementi di Statistica sociale

Scuola IaD Roma, 2004


M. Bultrini C. Rossi, Tutti i diritti riservati

M. Bultrini C. Rossi, Elementi di statistica sociale

PRIMA UNIT ...............................................................................................................4


1 LA STATISTICA ......................................................................................................5
1.1 LO STUDIO DEI FENOMENI COLLETTIVI ..................................................................5
1.1.1 ORIGINI E SVILUPPO DELLA STATISTICA .................................................................7
1.1.2 FENOMENI COLLETTIVI, POPOLAZIONE STATISTICA E CARATTERISTICHE
OGGETTO DI STUDIO ...........................................................................................................7
1.2 LE FASI DI UNINDAGINE STATISTICA ....................................................................12
1.2.1 PIANIFICAZIONE ...................................................................................................13
1.2.2 RILEVAZIONE .......................................................................................................15
1.2.3 ELABORAZIONE ....................................................................................................16
1.2.4 PRESENTAZIONE ...................................................................................................16
1.2.5 INTERPRETAZIONE ................................................................................................17
1.3 PRINCIPALI MODALIT DI RILEVAZIONE DEI DATI STATISTICI ............................17
1.3.1 LINTERVISTA: RILEVAZIONE ATTRAVERSO QUESTIONARIO .................................17
1.3.2 LA PREDISPOSIZIONE DEL QUESTIONARIO .............................................................18
1.3.3 I DIVERSI TIPI DI DOMANDE ..................................................................................20
1.3.4 LA RILEVAZIONE DA UN ARCHIVIO PRECEDENTEMENTE PREDISPOSTO..................24
1.3.5 IL PROBLEMA DEI DATI INCOMPLETI .....................................................................24
SECONDA UNIT .......................................................................................................26
2 ELABORAZIONE DEI DATI: LE DISTRIBUZIONI STATISTICHE ...........27
2.1 ELABORAZIONE DEI DATI E PRESENTAZIONE DEI RISULTATI ...............................27
2.2 LE DISTRIBUZIONI STATISTICHE UNIVARIATE ......................................................31
2.3 RAPPRESENTAZIONI GRAFICHE .............................................................................40
2.3.1 I DIAGRAMMI A BARRE .........................................................................................41
2.3.2 RAPPRESENTAZIONE GRAFICA DI CARATTERI QUANTITATIVI RAGGRUPPATI IN
CLASSI DI UGUALE AMPIEZZA ...........................................................................................42
2.3.3 RAPPRESENTAZIONE GRAFICA DI CARATTERI QUANTITATIVI RAGGRUPPATI IN
CLASSI DI DIVERSA AMPIEZZA...........................................................................................43
2.3.4 SPEZZATA DELLE FREQUENZE O POLIGONO DI FREQUENZA ...................................44
2.3.5 RAPPRESENTAZIONE GRAFICA DELLA DISTRIBUZIONE CUMULATA .......................47
2.3.6 DIAGRAMMI A TORTA O AEROGRAMMI CIRCOLARI ...............................................51
TERZA UNIT .............................................................................................................55
3 ELABORAZIONE DI DATI: GLI INDICI STATISTICI..................................56
3.1 INDICI STATISTICI UNIVARIATI ..............................................................................56
3.2 LE MEDIE ANALITICHE ..........................................................................................57
3.2.1 LA MEDIA ARITMETICA .........................................................................................57
3.2.2 LA MEDIA GEOMETRICA .......................................................................................66
3.3 LE MEDIE DI POSIZIONE .........................................................................................68
2

M. Bultrini C. Rossi, Elementi di statistica sociale

3.3.1 LA MEDIANA ........................................................................................................ 68


3.3.2 I QUARTILI ........................................................................................................... 72
3.3.3 LA MODA ............................................................................................................. 74
3.4 INDICI DI DISPERSIONE .......................................................................................... 75
3.4.1 LA VARIANZA ...................................................................................................... 77
3.4.2 LO SCARTO QUADRATICO MEDIO.......................................................................... 79
3.4.3 LO SCARTO INTERQUARTILE ................................................................................ 80
3.4.4 IL COEFFICIENTE DI VARIAZIONE ......................................................................... 81

M. Bultrini C. Rossi, Elementi di statistica sociale

PRIMA UNIT

M. Bultrini C. Rossi, Elementi di statistica sociale

1 LA STATISTICA
1.1 LO STUDIO DEI FENOMENI COLLETTIVI
La statistica la scienza che permette di trarre conclusioni generali sul
mondo che ci circonda, a partire da opportuni dati ed utilizzando varie tecniche. I
dati possono essere osservazioni o misure di qualit o quantit di oggetti di
interesse. Numerosi sono gli esempi di dati che ricorrono nella nostra vita
quotidiana: dati sulla salute, sui prezzi delle merci, sugli ascolti dei programmi
televisivi, sui risultati elettorali, sui risultati scolastici. La statistica ci insegna
come raccogliere i dati, archiviarli, presentarli e interpretarli per trarre
conclusioni.
Originariamente lo sviluppo della statistica come disciplina scientifica fu
dovuto soprattutto alla necessit pratica dei governi di raccogliere informazioni di
carattere demografico, sullo stato di salute delle popolazioni, sulle attivit
economiche. In seguito, accanto al lavoro pratico, si sviluppato quello di
teorizzazione, che ha dato luogo alla fase metodologica in cui la scienza
matematica ha avuto un peso determinante.
In una accezione pi tecnica, una statistica una quantit numerica
calcolabile a partire da dati osservazionali relativi a qualche fenomeno di
interesse. Per esempio, la percentuale di voti ottenuti in unelezione da un ben
precisato partito una statistica che si calcola contando le schede elettorali a
favore di quel partito, dividendo questo numero per il totale delle schede votate e
moltiplicando per 100. Cos, se indichiamo con a il primo numero e con n il
secondo, la percentuale p :

p=

a
100
n

Esempio 1.

Nella figura 1.1 sono riportate alcune statistiche regionali


sullinvecchiamento della popolazione, espresse in forma percentuale (fonte:
Corriere salute, 14 gennaio 2001). In questo caso il valore a il numero di
abitanti con et superiore a 65 anni e n il totale degli abitanti della regione
considerata. Dalle statistiche regionali ottenute si evince, ad esempio, che quasi il
25% della popolazione della Campania costituito da ultrasessantacinquenni.

Figura 1.1
Lanzianit delle regioni.
Fonte: rapporto Censis 2001.
Liguria
Umbria
Emilia Romagna
Toscana
Marche

24,70
22,21
22.05
21,89
21,32

M. Bultrini C. Rossi, Elementi di statistica sociale


21,10
20,53
20,40
19,75
18,76
17,77
17,76
17,46
17,03
16,63
16,31
16,10
15.08
13,58

Friuli-Venezia-Giulia
Molise
Piemonte
Abruzzo
Valle dAosta
Basilicata
Veneto
Lombardia
Lazio
Trentino-Alto Adige
Calabria
Sicilia
Puglia
Campania

Esercizio 1.

I giornali ci informano che la societ Infostrada ha chiuso il 2000 in forte


crescita. Infatti il numero di clienti salito a 7 milioni 600 mila con un incremento
del 95% rispetto alla fine del 1999. La societ ha avuto nel 2000 un fatturato di
1805 miliardi di lire (incremento del 29%).
Quanti clienti aveva Infostrada alla fine del 1999? Quale stato il suo
fatturato nel 1999? (Approssimare agli interi).
Svolgimento

Sia x il numero di clienti di Infostrada alla fine del 1999. Allora, possiamo
scrivere:
x+

195
95
x = 7600000
x = 7600000
100
100

x=

100
7600000 390000
195

Allo stesso modo, supponiamo che y sia il fatturato di Infostrada alla fine
del 1999. Quindi
y+

29
29
y = 1805 miliardi
y = 1805 miliardi
100
100

y=

100
1805 miliardi 1400 miliardi
129

M. Bultrini C. Rossi, Elementi di statistica sociale

Esercizio 2.

Si legge dal giornale che le vendite della Rinascente nel 2000 sono cresciute
del 4%, rispetto allanno precedente, arrivando a 10700 miliardi. Quanto valevano
nel 1999? (Approssimare agli interi).
Esercizio 3.

Sui giornali si trova la seguente notizia: Nonostante la guerra che da anni


devasta la regione, la colonia di gorilla di montagna del Virunga (tra Ruanda,
Uganda e Repubblica del Congo) cresciuta di numero: dal 1989 a oggi sono
passati da 320 a 355 individui.
Qual stato laumento percentuale?

1.1.1 ORIGINI E SVILUPPO DELLA STATISTICA


La statistica ha avuto origine dallesigenza di collettivit organizzate, come
gli Stati, di conoscere quantitativamente gli aspetti rilevanti della popolazione. Il
termine stesso statistica deriva proprio da statista, ovvero uomo di governo.
Gi nel libro Numeri della Bibbia si riportano notizie dei censimenti ovvero della
raccolta dei dati su tutti i cittadini e i beni (schiavi e animali di vario tipo per
esempio) che facevano parte della collettivit del popolo di Israele. Anche in
Cina oltre 4000 anni fa limperatore Yu effettuava rilevazioni statistiche sui
cittadini al fine di stabilire lentit delle imposte. A Roma il Census (censimento
della popolazione e dei relativi beni) con cadenza quinquennale fu istituito da
Servio Tullio nel 443 a.C.; famoso quello indetto da Augusto in occasione del
quale viene posta la nascita di Ges a Betlemme. Il moderno sviluppo della
statistica nasce, per, nel diciassettesimo secolo a partire da quattro diversi
indirizzi di studi, che hanno origine, pi o meno, in questo periodo e che, dopo
percorsi autonomi e indipendenti, verso la prima met del secolo XIX giungono a
fondersi per dare luogo ad ununica scienza. In ordine di anzianit, tali dottrine
sono lArte del misurare, il Calcolo delle Probabilit, la Notizia
Rerumpublicarum e lAritmetica Politica. solo allinizio del Novecento, per,
che alla Statistica si riconosce autonomia come disciplina metodologica: essa
viene definita come scienza che studia in generale i fenomeni collettivi.

1.1.2 FENOMENI

COLLETTIVI,
POPOLAZIONE
CARATTERISTICHE OGGETTO DI STUDIO

STATISTICA

I fenomeni collettivi sono quei fenomeni riferibili a una moltitudine di


oggetti in cui interessi studiare linsieme degli oggetti nel suo complesso e non i
singoli individui.
Alternativamente possiamo definire come collettivi quei fenomeni che la
nostra mente non pu conoscere con una sola osservazione, bens attraverso la
sintesi di fenomeni individuali pi semplici.

M. Bultrini C. Rossi, Elementi di statistica sociale

Per capire meglio basti pensare al campo delle scienze naturali dove
interessa studiare il comportamento di una specie nel suo complesso e non quello
di ogni singolo individuo della specie. Altri esempi di fenomeni collettivi sono la
natalit, la nuzialit e la mortalit in cui le misure vengono ottenute mediante il
conteggio delle nascite, dei matrimoni e delle morti di un certo periodo.
I fenomeni collettivi sono investigabili solo tramite una pluralit di
osservazioni in qualche modo analoghe o, per essere pi precisi, i fenomeni
analizzabili con metodi statistici sono quelli che si manifestano in modo variabile
nei singoli individui e per cui sono disponibili pi osservazioni di analoga natura.
Linsieme degli individui di interesse nel loro complesso costituisce il collettivo o
popolazione statistica.
Per poter studiare un fenomeno collettivo necessario, in prima analisi,
stabilire quali siano gli elementi che costituiscono la popolazione di interesse. Un
collettivo, infatti, un insieme di individui o oggetti, ciascuno dei quali prende il
nome di unit statistica, accomunati e resi omogenei da una o pi caratteristiche
di interesse.
Se vogliamo, ad esempio, studiare il fenomeno collettivo vendite di libri
in un certo periodo in un certo luogo, esamineremo come popolazione statistica il
collettivo dei libri venduti in quel periodo nel luogo prescelto: ogni libro venduto
ununit statistica.
Ogni fenomeno collettivo viene studiato mediante losservazione e la
misurazione di una o pi caratteristiche delle unit statistiche della popolazione di
interesse, ognuna delle quali denotata carattere o variabile, per sottolineare il
fatto che pu presentarsi in modo diverso nelle diverse unit statistiche. In termine
tecnico loperazione di osservazione e misura viene denotata rilevazione. Ciascun
carattere presente in ogni unit statistica con una ben determinata modalit.
Esempio 2

Si consideri un gruppo di studenti universitari. Per ogni studente possibile


rilevare una serie di informazioni come:

let;

la data di nascita;

il luogo di nascita;

il sesso;

la nazionalit;

laltezza;

il peso;

M. Bultrini C. Rossi, Elementi di statistica sociale

il numero di fratelli;

la Facolt;

il corso di laurea;

ecc.

Tali informazioni costituiscono i caratteri di ogni unit statistica (studente)


considerata.
Se uno studente iscritto alla Facolt di Medicina ed un altro studente
iscritto alla Facolt di Giurisprudenza, si dice che il carattere Facolt presenta nel
primo studente la modalit Medicina e nel secondo studente la modalit
"Giurisprudenza. Se due studenti sono nati entrambi a Milano allora il carattere
luogo di nascita presenta nelle due unit statistica la medesima modalit
Milano, mentre in una studentessa francese di 25 anni il carattere sesso
presente con la modalit femmina, il carattere et con la modalit 25 ed il
carattere nazionalit con la modalit Francese.
Non sempre possibile definire a priori le modalit di un certo carattere in
modo oggettivo ed inequivocabile, anzi spesso la loro determinazione il risultato
di una scelta fra diverse alternative ed in cui si deve tener conto sia del problema
oggetto di studio sia del collettivo che si deve analizzare.
I caratteri presenti in ununit statistica sono generalmente di natura assai
diversa. Alcune volte esprimono delle informazioni qualitative relative ad attributi
o qualifiche (come il sesso, il colore dei capelli, lessere iscritti o no in una lista di
collocamento) e sono detti qualitativi.
Altre volte esprimono la misura di qualche grandezza, come il reddito, il
peso, laltezza, e sono, pertanto, caratteri quantitativi. In questo caso i caratteri
hanno la peculiarit di essere espressi da numeri che possibile sommare e
sottrarre fra loro una volta che sia stata definita ununit di misura.
Le modalit dei caratteri qualitativi vengono in genere contraddistinte
mediante attributi, che specificano propriet dellunit a cui si riferiscono.
Possiamo, ad esempio, distinguere gli uomini secondo lo stato civile (celibe,
coniugato, divorziato, ) o secondo il sesso (maschile, femminile), i libri
secondo il genere (giallo, fantascienza, rosa, ).
Per tradurre in cifre i caratteri quantitativi occorre preliminarmente definire
un processo di misurazione, che corrisponde a definire una scala e ununit di
misura da utilizzare per i confronti sulle unit statistiche di interesse. Se si vuole
misurare laltezza dei militari di leva di una certa caserma, si dovr decidere se
esprimerlo in centimetri, in metri, con quante cifre decimali importante
sottolineare che ogni misura non mai esatta ma sempre affetta da un certo
margine di errore. Se, ad esempio, nel misurare una statura, si ottiene il valore
<<178 cm>>, ci vuol dire semplicemente che il rilevatore ha osservato una
9

M. Bultrini C. Rossi, Elementi di statistica sociale

misura che pi vicina a 178 anzich a 177 o 179: la statura x un qualche valore
compreso in un intervallo centrato su 178:
178 c < x < 178 + c

dove c appunto il margine di errore della misurazione.


A volte le misure consistono in semplici conteggi. In tal modo si procede
per la misurazione relativa al numero dei petali dei fiori, a quello dei denti, dei
vani degli alloggi, dei treni arrivati in ritardo un certo giorno in una certa stazione
ecc. Tali caratteri vengono detti quantitativi discreti perch si esprimono
attraverso gli elementi di un insieme numerabile, generalmente i numeri naturali.
Altre volte i caratteri quantitativi sono continui, come lestensione di un certo
territorio, la massa di un grave, la densit di un gas, la velocit di un veicolo e la
loro misura pu essere espressa con diversi gradi di precisione una volta fissata
ununit di misura, tenendo conto dei sottomultipli, come nel caso citato dei
neonati.
A loro volta i caratteri qualitativi si distinguono in caratteri sconnessi e
caratteri ordinati. Il sesso di un neonato un carattere sconnesso in quanto non
c alcun ordine tra le due modalit maschio e femmina. In tal caso le
modalit del carattere possono soltanto essere confrontate per vedere se sono
uguali o diverse. Si pu, invece, considerare come carattere qualitativo ordinato
lordine di nascita, ovvero primogenito, secondogenito e cos via o il titolo di
studio di uno dei genitori.
Esempio 3

Una compagnia di assicurazione vuole studiare il fenomeno collettivo


danni subiti dalle imbarcazioni di carico assicurate.
La definizione delloggetto dello studio identifica la popolazione statistica
di interesse che costituita dalle imbarcazioni assicurate: ognuna di queste
costituisce ununit statistica. Dato che si ipotizza che il numero di danni possa
dipendere dal tipo di imbarcazione (5 possibili tipi), dallanno di costruzione e dal
tempo di servizio svolto dallimbarcazione, occorre rilevare tutti questi caratteri
per ogni unit statistica.
I caratteri considerati sono di tipologie diverse:

Il tipo di imbarcazione un carattere qualitativo sconnesso; le possibili modalit


possono essere identificate dalle lettere A, B, C, D, E;

Lanno di costruzione un carattere qualitativo ordinato; si distinguono 4 diversi


periodi (1980-84, 1985-89, 1990-94, 1995-99);

La durata del servizio un carattere quantitativo continuo e pu essere misurata


in anni, mesi, giorni, tenendo conto, almeno in teoria, anche dei sottomultipli;

10

M. Bultrini C. Rossi, Elementi di statistica sociale

Il numero di danni un carattere quantitativo discreto, trattandosi di un


conteggio.
La classificazione dei caratteri di fondamentale importanza, dato che
possibile operare su di essi in modo differente proprio a seconda della natura del
carattere.
Infatti, su qualunque tipo di carattere possiamo fare confronti; possibile,
infatti, distinguere le unit statistiche a seconda della diversa modalit e stabilire
se due specifiche unit siano uguali o diverse.
Possiamo distinguere le imbarcazioni di tipo A da quelle di tipo E e cos via.
Solo per i caratteri quantitativi e qualitativi ordinati possibile stabilire
graduatorie, ovvero considerare un ordinamento.
Possiamo stabilire, per esempio, una graduatoria delle imbarcazioni rispetto
lanno di costruzione, o rispetto al numero di mesi di servizio o anche rispetto al
numero di danni subiti. Solo sui caratteri quantitativi possibile effettuare anche
operazioni aritmetiche.
Se consideriamo tutte le imbarcazioni di un certo tipo, possiamo sommare i
rispettivi danni e avere come risultato il totale dei danni subiti dalle imbarcazioni
assicurate di quel tipo. Questa operazione pu servire per valutare il danno
globale subito dalla compagnia relativamente a quello specifico tipo di
imbarcazione nel periodo considerato.
Nello schema seguente vengono riassunte le operazioni possibili in
relazione ai diversi tipi di carattere.

Tipo di
carattere

Operazioni Possibili
Operazioni
Confronto Ordinamento
aritmetiche
qualitativo connesso
qualitativo ordinato

quantitativo

Esempio 4

In uno studio americano si considerato il fenomeno delloccupazione e


della mobilit sociale rilevando su un insieme di occupati di sesso maschile: il
tipo di occupazione, il tipo di occupazione del padre, la situazione familiare di
origine distinguendo tra famiglie unite e famiglie divise e la razza,
distinguendo tra bianchi e di colore.
In questo caso tutti i caratteri considerati sono qualitativi sconnessi e quindi
possibile solo effettuare confronti semplici.

11

M. Bultrini C. Rossi, Elementi di statistica sociale

Esercizio 4

In una certa indagine vengono rilevati per ogni unit statistica: occupazione,
regione di residenza, peso, altezza, numero di automobili possedute. Quali delle
seguenti affermazioni falsa?
a)

La regione di residenza un carattere qualitativo sconnesso.

b)

Loccupazione un carattere qualitativo ordinato.

c)

Il peso un carattere quantitativo continuo.

d)

Il numero di automobili possedute un carattere quantitativo discreto.

Svolgimento

In questa situazione possiamo facilmente rifarci allesempio 4 per scoprire


che certamente loccupazione un carattere qualitativo sconnesso e
laffermazione b) falsa. facile anche verificare che tutte le altre sono vere.
possibile allora stabilire che:
Riguardo alloccupazione e alla regione di residenza sono possibili solo
confronti semplici.
Per tutti gli altri caratteri sono possibili tutti i tipi di operazione considerati
nello schema.
Esercizio 5.

Per unindagine statistica sulla popolazione italiana (residente) alla data


31/12/2002, in cui interessi il sesso e lo stato civile, come possiamo identificare: il
collettivo, lunit statistica, i caratteri da rilevare e le rispettive modalit?
Svolgimento

La definizione dellindagine identifica subito il collettivo costituito dalla


popolazione italiana residente al 31/12/2002. Lunit statistica lindividuo di
cittadinanza italiana residente al 31/12/2002. I caratteri da rilevare sono il sesso e
lo stato civile con rispettive modalit:

maschio, femmina;

celibe/nubile, coniugato/a, divorziato/a, vedovo/a.

1.2 LE FASI DI UNINDAGINE STATISTICA


Lindagine statistica si realizza attraverso cinque fasi fondamentali, che ne
costituiscono una schematizzazione; i confini tra di esse in realt non sono sempre
ben definiti. Possiamo denotare tali fasi:
12

M. Bultrini C. Rossi, Elementi di statistica sociale

pianificazione;

rilevazione;

elaborazione;

presentazione;

interpretazione.

1.2.1 PIANIFICAZIONE
La prima fase di una qualunque ricerca relativa a un fenomeno collettivo
consiste nella pianificazione.
Definizione.
La pianificazione consiste nella definizione del fenomeno e degli obiettivi
dellindagine, nellindividuazione del collettivo, delle unit statistiche, nella scelta
dei caratteri del collettivo che interessano lo studio e nella definizione delle
relative modalit (per i caratteri qualitativi) o dei processi di misura (per i caratteri
quantitativi).
Esempio 5

Si vuole studiare il fenomeno vendita di auto prodotte in Italia nel 1999 e


si stabilisce che lobiettivo quello di studiare i gusti degli acquirenti in merito
alla marca, la cilindrata, il colore. possibile da queste premesse identificare il
collettivo, che consiste nelle auto prodotte in Italia vendute nel 1999: ogni auto
ununit statistica. I caratteri di interesse sono: la marca dellauto (qualitativo
sconnesso), la cilindrata (quantitativo continuo, misurato convenzionalmente in
cc), il colore (qualitativo sconnesso). Le modalit dei caratteri qualitativi sono
identificate anchesse dagli obiettivi:

per la marca: FIAT, Alfa Romeo, Lancia, ;

per il colore: bianco, blu, nero,

Occorre, sempre, pianificare la rilevazione nei minimi dettagli in modo che


non vi siano ambiguit di nessun genere. necessario tener conto dei seguenti
punti:
1) definire con precisione la popolazione, lunit di rilevazione e lunit
statistica, in altre parole indicare con chiarezza una regola che consenta di
stabilire se ununit o non un elemento della popolazione di interesse;
2) stabilire i caratteri quantitativi e qualitativi che interessa rilevare per il
perseguimento dellobiettivo dellindagine e definire le relative modalit di
interesse e scale di misura;

13

M. Bultrini C. Rossi, Elementi di statistica sociale

3) indicare i mezzi tecnici per raccogliere le informazioni su tali caratteri


(schede di rilevazione, questionari, );
4) fissare lestensione della rilevazione in ordine al tempo, allo spazio, alle
disponibilit dei mezzi tecnici e finanziari.
Per quanto riguarda il punto 1), la popolazione di riferimento viene
determinata direttamente nella fase di definizione degli obiettivi. Lunit statistica
e lunit di rilevazione vengono analogamente definite dagli obiettivi e possono
non coincidere. Questo avviene se lunit di rilevazione costituita da pi unit
elementari, su ciascuna delle quali interessa raccogliere informazioni. Ad
esempio, nel corso del censimento della popolazione residente in Italia, lunit di
rilevazione la famiglia, infatti, in sede di raccolta delle informazioni, ad ogni
famiglia viene fornito un modulo da compilare. Nel modulo, per, si richiedono le
notizie su ciascun componente del nucleo famigliare: ogni componente ununit
statistica.
Anche nel caso dellindagine sulle auto dellesempio 5 verosimile che
lunit di rilevazione sia diversa dallunit statistica. infatti immaginabile che
lunit di rilevazione sia il concessionario, che, per ogni unit statistica (auto di
fabbricazione italiana venduta nel 1999), riempie un modulo di rilevazione o
scheda contenente le informazioni sui tre caratteri di interesse. Dal punto di vista
tecnico, lo strumento di rilevazione ragionevolmente una semplice scheda
(cartacea o elettronica, se i dati sono raccolti via Internet), del tipo di quella
riportata sotto.
Concessionario..
n. dordine dellauto venduta..
Cilindrata..

Data della vendita..


Marca..
Colore..

Osserviamo che le prime tre informazioni raccolte permettono di identificare


univocamente lunit statistica, in modo da non rischiare di contare pi volte una
stessa unit o, viceversa, di trascurarne qualcuna.
Terminata la fase di pianificazione, in cui occorre anche prevedere gli aspetti
principali delle successive come:
piano delle elaborazioni;
piano delle rappresentazioni (tabelle, grafici, ecc.);
piano della diffusione dei dati;

possibile iniziare la fase di rilevazione.

14

M. Bultrini C. Rossi, Elementi di statistica sociale

1.2.2 RILEVAZIONE
Definizione.
La rilevazione quel complesso di operazioni attraverso le quali si
acquisiscono le informazioni sulle caratteristiche (o caratteri) di interesse per
ciascuna unit statistica del collettivo considerato; da questa fase scaturiscono i
dati statistici elementari o dati grezzi, che entrano a far parte della tabella
unit/caratteri, che costituisce la matrice dei dati.
Supponiamo di aver riempito le schede relative alle auto secondo il modello
riportato sopra, la matrice dei dati una semplice tabella in cui a ogni riga
corrisponde ununit statistica e su ogni colonna registrata la modalit o la
misura di uno dei caratteri rilevati. La prima colonna contiene le informazioni che
identificano lunit statistica.
Tabella 1.1 Tabella unit/caratteri o matrice dei dati relativa allindagine sulle auto
Unit statistica
(concessionario,
data,n)

Marca

Cilindrata

Colore

Alfa Romeo
FIAT

1400
1100

argento
blu

A volte, la rilevazione dei dati riguarda tutte le unit statistiche della


popolazione di interesse: in tal caso si dice totale, come nel caso del censimento
della popolazione, che esamina tutti gli abitanti di un territorio, o nellesempio
delle auto.
Altre volte la rilevazione si limita a esaminare una parte soltanto delle unit
statistiche ed chiamata parziale. Il sottoinsieme di popolazione esaminato in una
rilevazione parziale si chiama campione.
evidente che la raccolta dei dati di tipo totale pi significativa di quella
di tipo campionario. In genere si fanno raccolte di tipo campionario sia per
limpossibilit della raccolta totale sia per il suo eccessivo costo.
Supponiamo, per esempio, di voler prevedere il risultato delle elezioni.
Potremo intervistare tutti i votanti? Ovviamente no. Dunque siamo costretti a
intervistarne solo una parte, un campione. La nostra speranza che le
informazioni ottenute siano molto vicine a quelle che si riferiscono allintera
popolazione, ma non possiamo sperare che siano identiche.
Per agevolare larchiviazione e le elaborazioni i caratteri qualitativi vengono
generalmente codificati attraverso una relazione biunivoca tra le loro modalit e
un opportuno insieme numerico. Se consideriamo nuovamente la tabella dei dati

15

M. Bultrini C. Rossi, Elementi di statistica sociale

sulle auto vendute, possiamo porre, a titolo di esempio, le seguenti corrispondenze


biunivoche:
Marca: FIAT = 1, Alfa Romeo = 2,
Colore: Argento = 1, Blu = 2,

In questo modo la tabella unit/caratteri contiene solo valori numerici


(anche il concessionario pu essere codificato in modo analogo).
Tabella 1.2 Tabella unit/caratteri o matrice dei dati relativa allindagine sulle auto (in
forma codificata)
Unit statistica
(concessionario,
data,n)

Marca

Cilindrata

Colore

2
1

1400
1100

1
2

1.2.3 ELABORAZIONE
Definizione.
Lelaborazione quel complesso di operazioni attraverso le quali i dati
grezzi vengono prima codificati e poi sintetizzati nei dati derivati pi facilmente
interpretabili. In alcuni casi indispensabile lelaborazione dei dati elementari,
come, per esempio, nelle consultazioni elettorali.
Esempio 6

Quando si svolge una consultazione elettorale, il risultato, per quanto


riguarda i partiti presenti, ottenuto mediante lo spoglio di tutte le schede votate,
ovvero il conteggio dei voti espressi, e il successivo calcolo delle percentuali dei
voti attribuiti a ciascun partito. Senza tale elaborazione non sarebbe possibile
stabilire gli esiti della consultazione.

1.2.4 PRESENTAZIONE
Definizione.
La presentazione lesposizione dei grafici, delle tabelle, ecc., dove sono
stati sintetizzati i dati rilevati.
Le tabelle mostrate in TV con i risultati elettorali sono presentazioni di dati
statistici.

16

M. Bultrini C. Rossi, Elementi di statistica sociale

1.2.5 INTERPRETAZIONE
Definizione.
Linterpretazione la spiegazione dei risultati, con le osservazioni finali e
leventuale collegamento con altre indagini.
Riprendiamo in esame il caso dei dati relativi ad una consultazione
elettorale; questi vengono semplicemente presentati in forma di tabelle e grafici e
confrontati con i risultati ottenuti in consultazioni precedenti. Si cerca quindi di
ottenere i commenti dei rappresentanti dei Partiti e degli studiosi di politica
(politologi), che non sono altro che interpretazioni.

1.3 PRINCIPALI MODALIT DI RILEVAZIONE DEI DATI STATISTICI


Le rilevazioni statistiche possono essere continue, quando si svolgono
senza interruzioni (come quelle relative alle nascite, ai matrimoni, ai decessi,
quelle effettuate dai rilevatori sismici, meteorologici, osservatori epidemiologici).
Sono periodiche le rilevazioni effettuate ad intervalli regolari di tempo,
come il censimento della popolazione o delle imprese (ogni dieci anni), i prezzi al
consumo nelle citt campione per il calcolo dellaumento del costo della vita (ogni
mese).
Vengono dette occasionali le rilevazioni effettuate in circostanze particolari
(sondaggi pre-elettorali, indagini sulle opinioni in merito ad argomenti vari, ).
Lo strumento di rilevazione varia a seconda dello scopo della rilevazione e
del tipo di caratteri da rilevare. Noi ci occuperemo di due tipi di metodologie di
rilevazione: lintervista e la rilevazione da un archivio precedentemente
predisposto, oltre che interessarci dei relativi strumenti di rilevazione: il
questionario e la scheda di rilevazione.

1.3.1 LINTERVISTA: RILEVAZIONE ATTRAVERSO QUESTIONARIO


Tra i metodi di acquisizione dei dati da popolazioni umane, o comunque da
popolazioni le cui unit sono connesse allorganizzazione umana (per esempio:
imprese, scuole, aziende agricole), particolare rilievo assume lintervista. Questa
consiste nel rivolgere alcune domande ad alcune unit che compongono la
popolazione di interesse (eventualmente tutte) e nel registrare le risposte a tali
domande. Per fare unintervista le domande vengono raccolte in un apposito
modello detto questionario.
La struttura del questionario viene opportunamente progettata in relazione
alla tecnica di intervista utilizzata: intervista diretta, autocompilazione, intervista
telefonica. La scelta della tecnica di intervista legata agli obiettivi della ricerca,
alle caratteristiche della popolazione di riferimento, ai tempi e alle risorse
disponibili.

17

M. Bultrini C. Rossi, Elementi di statistica sociale

Esaminiamo sinteticamente i pregi e i difetti di ognuna delle tre tecniche.


Nellintervista diretta lelemento pi influente la presenza fisica
dellintervistatore, il quale controlla direttamente lidentit del rispondente,
instaura un contatto umano tale da permettergli di ottenere pi facilmente le
risposte, pu indurre a rispondere in maniera pi precisa alle domande fornendo
delucidazioni su parti del questionario. Daltra parte, per, se lintervistatore non
ben addestrato, la sua interazione con lintervistato pu portare a risultati del
tutto negativi: per esempio, condizionando le risposte, sbagliando la
formulazione e lordine delle domande o conducendo lintervista con
atteggiamento tale da infastidire lintervistato.
La tecnica dellautocompilazione molto efficace se la popolazione presa in
esame ben disposta a collaborare alla ricerca. Questa tecnica permette di ridurre
sensibilmente i costi dellindagine e ridurre al minimo lorganizzazione del
lavoro sul campo. Il questionario per autocompilazione pu essere inviato o per
posta (indagine postale), o consegnato da personale specializzato con incarico di
ritirarlo una volta compilato. Tuttavia questa tecnica pu essere causa di seri
problemi dovuti allalta percentuale di mancati ritorni, allautoselezione degli
intervistati e alla restituzione di questionari incompleti.
Lintervista telefonica sta avendo nei paesi pi sviluppati una notevole
diffusione determinata principalmente dalla presenza del telefono in quasi ogni
famiglia. Gli abbonati al servizio telefonico crescono sempre di pi, coprendo
ogni tipo di fascia sociale, etnica e geografica, consentendo di effettuare indagini
telefoniche praticamente su ogni tipo di fenomeno. Tale tipo di intervista, per,
richiede che la quantit di domande non sia troppo elevata e che queste siano
formulate in modo molto semplice.

Qualunque sia la tecnica scelta sempre opportuno preavvertire


lintervistato in anticipo spiegando gli scopi e le modalit previste per lindagine
in modo da ottenere una migliore collaborazione.

1.3.2 LA PREDISPOSIZIONE DEL QUESTIONARIO


Tale fase si colloca logicamente dopo che sia stato effettuato lo studio
approfondito del problema e, conseguentemente, siano stati specificati gli obiettivi
e tutti gli altri elementi che intervengono nella pianificazione dellindagine
(popolazione oggetto di studio, tecnica di rilevazione, costi e tempi previsti,
metodi e strumenti per lelaborazione).
Possiamo considerare il questionario come un strumento di misura, in
quanto, nelle indagini statistiche in particolare, costituisce lo schema di una
intervista strutturata, la cui funzione quella di raccogliere informazioni sui
caratteri oggetto dellindagine, operazione assimilabile a un processo di misura.
La rilevazione tramite questionario pu generare errori. Tali errori possono
essere causati da diversi soggetti:

18

M. Bultrini C. Rossi, Elementi di statistica sociale

dal ricercatore, durante la fase di progettazione del questionario, nella


quale pu commettere, per esempio, errori di formulazione delle domande, errori
nella sequenza in cui vengono poste le domande, nella lunghezza del questionario,
nella presentazione grafica, nella scelta del periodo di tempo in cui deve essere
sottoposto il questionario agli intervistati ecc.;
dallintervistato, che, incorrendo in vuoti di memoria nel cercare di
ricordare gli eventi passati, o addirittura ignorando completamente alcuni
argomenti, assume un comportamento reticente, approssimando la realt dei fatti;
dallintervistatore, che pu, con la sua presenza, condizionare le risposte
alle domande oppure registrare erroneamente le risposte.

necessario, quindi, prevenire e limitare questo tipo di errori


predisponendo in maniera opportuna il questionario; infatti, se questo ben
progettato, non solo permette di evitare gli errori, ma pu agire anche da stimolo
positivo sia per lintervistato sia per lintervistatore, aumentando la quantit e la
qualit delle informazioni.
In genere, bisogna tener conto di alcuni aspetti:
a) evitare che la formulazione delle domande sia troppo generica o, al
contrario, troppo tecnica (contenendo termini tecnici usati solo da una piccola
parte di persone o parole di senso ambiguo o con un significato diverso da quello
di uso corrente), poich ci potrebbe provocare fraintendimenti da parte di chi
risponde ai quesiti;
b) le domande devono provocare un limitato sforzo di memoria o per lo
meno facilitare il ricordo corretto di un evento passato;
c) le domande devono evitare di creare stati di imbarazzo o di tensione
psicologica tra lintervistato e lintervistatore;
d) le domande devono essere poste in maniera tale da non indirizzare il
rispondente verso una risposta particolare;
e) le domande devono essere poste in successione in modo tale che una
domanda non possa influenzare le risposte alle successive domande.
Un altro aspetto importante di cui si deve tenere conto il grado di difficolt
delle risposte. La capacit dellintervistato a rispondere correttamente alle
domande non sempre costante, ma varia in relazione alla durata dellintervista.
Nella fase iniziale dellintervista, lintervistato prende confidenza con
lintervistatore, comprende il funzionamento del questionario e si adegua al
linguaggio utilizzato nel formulare le domande; opportuno, dunque, non
introdurre subito domande troppo complesse. Nella fase finale la concentrazione
dellintervistato diminuisce ed perci opportuno non sottoporlo a domande che
esigono particolari sforzi di elaborazione. Se lintervista troppo lunga, allora,

19

M. Bultrini C. Rossi, Elementi di statistica sociale

anche domande piuttosto semplici possono far sorgere dei problemi, se poste per
ultime.
Un tipo di domanda che permette allintervistatore di ridurre il numero di
domande da sottoporre allintervistato e quindi la durata dellintervista la
domanda filtro: questa consente di passare direttamente da una batteria di
domande a unaltra, evitando di sottoporre allintervistato domande non
pertinenti.
Per esempio, in unindagine riguardante le attivit sportive, consideriamo la
domanda Pratichi qualche attivit sportiva? Se la risposta affermativa si passa a
esaminare la parte del questionario che riguarda gli sport che vengono praticati, la
frequenza con cui si praticano, il luogo dove vengono praticati, ecc.; se la risposta
negativa, si passa alla parte del questionario riguardante i motivi che spingono a
non praticare nessuno sport.
Le domande filtro hanno anche la funzione di evitare che lintervistato si
senta obbligato a rispondere, in maniera non veritiera, a qualche domanda.
Supponiamo di porre una domanda del tipo Che libri hai letto nellultimo
mese? a un individuo che in tale periodo non ha letto nessun libro. Il fatto che alla
domanda sia dato per scontato che si sia letto almeno un libro, potrebbe far
percepire allindividuo che il suo comportamento non valutato positivamente
portandolo a dare una risposta non veritiera. Per evitare questo inconveniente
potremmo far precedere questa domanda da una del tipo Hai letto un libro
nellultimo mese? In questa maniera solo agli individui che rispondono
affermativamente si chieder quali libri hanno letto.

1.3.3 I DIVERSI TIPI DI DOMANDE


Le domande poste in un questionario si possono differenziare sia per il
modo in cui vengono formulate, sia per il tipo di risposte previste.
Le domande possono essere poste in maniera diretta quando si chiama in
causa direttamente lintervistato:
Ti piace andare al cinema?
oppure possono essere rivolte in maniera indiretta, quando ci si riferisce a
una generica terza persona o a un gruppo di persone con caratteristiche simili:
Secondo te quante merendine bene consumare giornalmente?
La caratteristica pi importante che differenzia le domande il tipo di
risposta prevista. Si possono adottare le domande a risposta semplice, che
ammettono solamente una risposta fra quelle possibili, oppure domande a risposta
multipla, che consentono di poter scegliere contemporaneamente pi di una
risposta.

20

M. Bultrini C. Rossi, Elementi di statistica sociale

Esempio 7. Domanda a risposta semplice.

Hai molti amici?


Molti

Abbastanza

Pochi o pochissimi

Non ne ho

Notiamo che le quattro risposte sono tra loro incompatibili, poich la scelta
di una esclude necessariamente le restanti.
Esempio 8. Domanda a risposta multipla.

A parte lo sport, quali altre attivit pratichi con continuit? (puoi dare pi
risposte)
Nessuna
Sono iscritto a associazioni culturali
Faccio parte di un gruppo di volontariato sociale
Sono iscritto a una associazione ricreativa (anche scout)
Partecipo a un gruppo ambientalistico
Frequento o sono iscritto a un partito o gruppo politico
Faccio parte di gruppi di tifoseria organizzata
Suono con un complesso musicale
Recito in un gruppo teatrale
Frequento gruppi religiosi
Altro (specificare)
possibile, in alcuni casi, ricondurre una domanda a risposta multipla a
una domanda a risposta singola adottando il criterio della prevalenza, cio
domandando allintervistato di indicare la pi importante fra quelle possibili.
La domanda dellesempio 8 potrebbe essere riformulata nel seguente modo:
A parte lo sport, quale altra attivit pratichi preferibilmente?
In questo caso lincompatibilit fra le risposte viene indotta dallaggiunta
del termine preferibilmente.
Le domande possono essere classificate anche rispetto al grado di libert
lasciato allintervistato nel rispondere a queste. Si pu passare dalla massima
flessibilit, data dalle domande aperte nelle quali si possono personalizzare le
risposte, alla massima rigidit data dalle domande strutturate o chiuse ove le
21

M. Bultrini C. Rossi, Elementi di statistica sociale

risposte sono predefinite. Naturalmente tra queste due forme estreme possibile
formulare domande con diverso grado di flessibilit.
Una domanda aperta lascia allintervistato piena libert nel rispondere a un
quesito, permettendogli di utilizzare il linguaggio che pi gli naturale e senza far
trapelare alcun suggerimento che lo possa condizionare nella risposta.
Esempio 9. Domanda a risposta aperta.

Indica i tre cantanti o complessi musicali che preferisci


Le domande aperte possono essere utilizzate con buoni risultati quando non
si conoscono molti elementi del fenomeno indagato e si vogliono trarre, dagli
stessi intervistati, nuovi dettagli. Daltra parte, per, un uso eccessivo di tali
domande nel questionario comporta uno svantaggio di natura organizzativa in
quanto serve pi tempo per rispondere e, successivamente, necessario ricondurre
a un unico codice identificativo le diverse espressioni usate per esprimere un
concetto equivalente; inoltre, rispondere a un questionario in cui vi sono domande
aperte, pu richiedere un eccessivo sforzo di elaborazione, cosicch la qualit
delle risposte potrebbe dipendere dal livello culturale dellintervistato. Se poi
mancano opinioni personali facile che lintervistato ricada in luoghi comuni.
La domanda strutturata, diversamente da quella aperta, considera un insieme
chiuso di risposte alternative, predefinite durante la fase di progettazione del
questionario. Quindi il rispondente dovr scegliere una (o pi se si tratta di
domanda multipla) fra le possibili risposte.
Esempio 10. Domanda a risposta chiusa.

Quante volte ti capitato di sfogliare un giornale quotidiano nellultima


settimana?
Sportivo

Non Sportivo

Mai

1 volta

2/3 volte

Tutti i giorni o quasi

La fase pi delicata, nella costruzione di tali domande, consiste nella scelta


dellinsieme delle risposte; infatti, non sempre si a conoscenza di tutte le
possibili modalit che corrispondono ad un fenomeno. Talvolta viene inclusa tra
le possibili risposte una modalit aperta altro, che pu anche prevedere uno
spazio dove inserire la specificazione relativa a modalit non previste dalle

22

M. Bultrini C. Rossi, Elementi di statistica sociale

risposte stampate. Questo tipo di domanda prende il nome di domanda


semistrutturata. Un esempio la domanda a risposta multipla vista prima.
Esempio 11.

Consideriamo il questionario predisposto dallIstituto Nazionale di Statistica


(ISTAT) in occasione delliniziativa denominata censimento a scuola e riportato
in figura 1.2.
In tale questionario, suddiviso in diverse sezioni, di cui una di tipo
anagrafico (dati personali) che non prenderemo in considerazione, sono previste
domande di tutti i tipi considerati sopra:
la domanda 7 una domanda filtro;
la domanda 9 strutturata a risposta semplice e chiusa;
la domanda 6 semistrutturata a risposta semplice;
la domanda 8 semistrutturata a risposta multipla nella prima colonna e a
risposta semplice nella seconda.
Esercizio 6.

Riconoscere le diverse tipologie dei caratteri considerati nel questionario


ISTAT, comprese le informazioni anagrafiche.
Esercizio 7.

Predisporre lo schema di tabella unit/caratteri per archiviare i dati del


questionario ISTAT, comprese le informazioni anagrafiche.
Figura 1.2
Questionario
Dati personali
1.
2.

3.

Tu sei?
Maschio

7.
Femmina

(metti una crocetta nella casella accanto alla risposta)

Quando sei nato/a?

(giorno)

(mese)

(anno)

Dove sei nato/a?


(indica il comune o lo Stato estero)

4.

Hai fatto colazione stamattina prima di


venire a scuola?

Quanto sei alto/a


(dai una risposta in centimetri)

5. Quante persone vivono in casa tua (te


compreso)?

No

(se la risposta No passa subito al quesito 8 altrimenti


rispondi qui di seguito)

7.1 Stamattina hai mangiato:


( possibile pi di una scelta)
caff e latte
latte
latte e cacao
succo di frutta
pane/fette biscottate biscotti
dolce fatto in casa brioche/cornetto
yogurt
merendina
cereali
marmellata/cioccolato spalmabile
altro

8.

23

Quali fra queste attivit pratichi nel

M. Bultrini C. Rossi, Elementi di statistica sociale


Numero delle persone
5.1

tempo libero e quale preferisci?


(fra le attivit comprese nellelenco che segue, indica nella
prima colonna le tre che pratichi di pi e nella seconda
colonna la tua preferita tra quelle che pratichi)

mi vedo con gli amici in casa mia o altrui
mi vedo con gli amici in luoghi aperti

leggo

pratico uno sport o vado in palestra

gioco con la Playstation

gioco col computer (Internet o altro)

canto o suono uno strumento musicale

ballo in discoteca o altrove

guardo la TV

Hai fratelli o sorelle?


Si
No

5.2
Quanti fratelli o sorelle sono pi piccoli di
te o hanno la tua stessa et?
(indica il numero nella casella)

Fratelli
5.3

Sorelle

Quanti fratelli o sorelle sono grandi di te?

(indica il numero nella casella)

Fratelli

Sorelle





9. Quanti libri scolastici hai letto lanno
scorso?
nessuno

uno o due

da tre a cinque

da sei a dieci

oltre dieci

vado al cinema
vado al teatro
frequento sale giochi
altro

Aspetti della vita quotidiana


6. Con quale mezzo sei venuto/a a scuola
stamattina?
(se hai utilizzato pi di un mezzo, indica quello con cui hai
compiuto il tratto pi lungo)

a piedi
con i mezzi pubblici
con lo scuolabus in automobile

in moto/motorino in bicicletta

altro

1.3.4 LA RILEVAZIONE DA UN ARCHIVIO PRECEDENTEMENTE PREDISPOSTO


Unaltra tipologia di rilevazione la consultazione di registri, ruoli, archivi,
ecc., predisposti in precedenza, da cui le informazioni sono generalmente estratte
attraverso schede di rilevazione. Con la scheda si rilevano alcuni caratteri
predeterminati delle unit che formano il collettivo, attraverso domande
prefissate e dando, in molti casi, per ogni risposta la scelta tra una preindividuata
rosa di risposte. Le domande sono, quindi, standardizzate e spesso, o totalmente o
in parte, lo sono anche le risposte. Ci comporta che, in questo caso, le risposte
sono turbate in minima parte da errori di interpretazione; le informazioni ottenute
dalle varie schede sono, quindi, analizzabili con metodi statistici in modo
semplice. Le schede si usano per indagare su fenomeni relativi a collettivi ben
definiti e generalmente di elevata numerosit.
Nel redigere la scheda, analogamente a quanto visto per il questionario, per
ciascuna domanda va effettuata la scelta se porla come domanda che non prevede
risposte prefissate (aperta) o come domanda con risposte fissate in anticipo
(strutturata).

1.3.5 IL PROBLEMA DEI DATI INCOMPLETI


Un problema legato alla rilevazione da archivio quello dei dati incompleti.
Nelle schede di archivio possono non essere stati registrati dei dati inerenti ad
alcune variabili di interesse per lindagine scientifica, ma non ritenute di interesse

24

M. Bultrini C. Rossi, Elementi di statistica sociale

al momento della predisposizione dellarchivio, che , in genere, dettata da altre


esigenze ed obiettivi, magari solo di tipo amministrativo. Mentre la rilevazione
per questionario risulta generalmente completa, soprattutto quando lindagine
assistita e guidata dallintervistatore che segnala subito eventuali valori mancanti,
inducendo il soggetto intervistato a rispondere alle domande, impossibile,
invece, riacquisire le informazioni perse quando si rilevano i dati da un archivio
precostituito. Per chiarire consideriamo il seguente esempio.
Esempio 12.

Si vuole indagare, attraverso i registri anagrafici, su alcune caratteristiche


dei bambini nati nel 1928. Si vogliono, in particolare, rilevare i seguenti caratteri:
sesso, luogo di nascita, ordine di generazione, vitalit, peso alla nascita, et della
madre.
Possiamo predisporre una scheda del tipo riportato in figura 1.3

Figura 1.3
SCHEDA NOTIZIE
NATI NEL 1928
Sesso:
M
F
Luogo di nascita (comune):

Data di nascita:

Ordine di generazione:
Vitalit: nato vivo

nato morto
Peso alla nascita: kg
Et della madre: anni

Consultando i registri dellanagrafe, per, dobbiamo riscontrare che non


tutti i caratteri di interesse sono rilevabili. Infatti, la scheda anagrafica di nascita
che era in vigore nel 1928 non prevedeva la registrazione del peso alla nascita,
che pertanto, non pu essere rilevato dallarchivio scelto.

25

M. Bultrini C. Rossi, Elementi di statistica sociale

SECONDA UNIT

26

M. Bultrini C. Rossi, Elementi di statistica sociale

2 ELABORAZIONE DEI DATI: LE DISTRIBUZIONI STATISTICHE


2.1 ELABORAZIONE DEI DATI E PRESENTAZIONE DEI RISULTATI
Una volta imparato ad impostare unindagine statistica e a predisporre gli
strumenti di rilevazione dei dati relativi ad un fenomeno collettivo di interesse
(questionari, schede), necessario imparare a sintetizzare i dati raccolti,
organizzati nella matrice dei dati grezzi o tabella unit/variabili, mediante
opportune elaborazioni e a presentarli in modo chiaro mediante tabelle, indici
statistici e rappresentazioni grafiche. Partiamo dallanalisi di un esempio reale di
utilizzo di analisi statistiche.
Esempio 1. Una sperimentazione della Texaco (1)

Consideriamo i dati raccolti in un esperimento condotto dalla Texaco negli


Stati Uniti per valutare le prestazioni di un nuovo tipo di silenziatore per auto. Il
rapporto sullesperimento fu presentato alla Commissione lavori pubblici del
Senato degli Stati Uniti il 26 giugno 1973. In tale rapporto si sosteneva che le
prestazioni del nuovo silenziatore erano almeno pari a quelle del tipo standard. Le
rilevazioni in questione si riferiscono a 36 unit statistiche (auto). I dati sono
riportati in tabella 2.1. Il livello di rumore misurato in decibel. Le codifiche
scelte per i caratteri qualitativi sono le seguenti:
Dimensione dellauto:

1: auto di piccola dimensione;


2: auto di media dimensione;
3: auto di grande dimensione;
Tipo di silenziatore:

1: silenziatore standard;
2: silenziatore di nuovo tipo (Filtro Octel);
Lato di rilevazione:

1: lato destro;
2: lato sinistro.

27

M. Bultrini C. Rossi, Elementi di statistica sociale

Tabella 2.1 Matrice dei dati grezzi rilevati e presentati nel rapporto per il Senato
degli Stati Uniti dalla Texaco nel 1973
Livello di
Dimensione Tipo di
Lato
rumore (decibel) dellauto silenziatore di rilevazione
810
1
1
1
820
1
1
1
820
1
1
1
840
2
1
1
840
2
1
1
845
2
1
1
785
3
1
1
790
3
1
1
785
3
1
1
835
1
1
2
835
1
1
2
835
1
1
2
845
2
1
2
855
2
1
2
850
2
1
2
760
3
1
2
760
3
1
2
770
3
1
2
820
1
2
1
820
1
2
1
820
1
2
1
820
2
2
1
820
2
2
1
825
2
2
1
775
3
2
1
775
3
2
1
775
3
2
1
825
1
2
2
825
1
2
2
825
1
2
2
815
2
2
2
825
2
2
2
825
2
2
2
770
3
2
2
760
3
2
2
765
3
2
2

Questo insieme di dati sar utilizzato per effettuare alcune analisi allo scopo
di capire in base a quali risultati il rapporto traeva le sue conclusioni.

28

M. Bultrini C. Rossi, Elementi di statistica sociale

Innanzitutto cerchiamo di capire con quale criterio sono stati raccolti i dati
e, in particolare, con quale criterio sono state scelte le unit statistiche.
Dallanalisi delle ultime tre colonne della tabella si evince che lo schema adottato
consistito nel misurare il carattere quantitativo livello di rumore su un certo
numero di unit statistiche (3) uguali tra loro per le modalit dei caratteri
qualitativi considerati e diverse per almeno uno di tali caratteri da ogni altro
gruppo di tre. Infatti, considerando tutte le possibili combinazioni delle modalit
relative ai tre caratteri qualitativi, si ha che il numero totale di tali combinazioni si
ottiene dal prodotto del numero di modalit relative al carattere dimensione
dellauto (3), per il numero di modalit relative al carattere tipo di silenziatore (2),
per il numero di modalit relative al carattere lato di rilevazione (2). Il risultato
12. Considerando tre replicazioni di ogni combinazione si arriva al numero totale
di unit statistiche analizzate (36).
Per semplificare il problema definiamo tipologia dellunit statistica il
carattere con 12 modalit che prende in considerazione tutte le combinazioni di
modalit dei tre caratteri qualitativi. In questo modo possiamo ricodificare i dati
relativi ai caratteri qualitativi come mostrato in tabella 2.2 e ottenere una matrice
dei dati semplificata (tabella 2.3).
Tabella 2.2 Tabella di ricodifica dei dati: corrispondenza biunivoca tra le
combinazioni possibili dei tre codici relativi alle modalit dei tre
caratteri qualitativi e linsieme numerico {1,2,3,4,5,6,7,8,9,10,11,12}

Tipologia Dimensione
Tipo
Lato
dellauto dellauto di silenziatore di rilevazione
1
1
1
1
2
1
1
2
3
1
2
1
4
1
2
2
5
2
1
1
6
2
1
2
7
2
2
1
8
2
2
2
9
3
1
1
10
3
1
2
11
3
2
1
12
3
2
2

29

M. Bultrini C. Rossi, Elementi di statistica sociale

Tabella 2.3 Matrice dei dati ottenuta dopo la ricodifica

Tipologia
dellauto

Livello di
rumore(decibel)

Tipologia
dellauto

Livello di
rumore
(decibel)

1
1
1
2
2
2
3
3
3
4
4
4
5
5
5
6
6
6

810
820
820
835
835
835
820
820
820
825
825
825
840
840
845
845
855
850

7
7
7
8
8
8
9
9
9
10
10
10
11
11
11
12
12
12

820
820
825
815
825
825
785
790
785
760
760
770
775
775
775
770
760
765

Sulla base della nuova matrice dei dati grezzi pi semplice riscontrare
alcuni fatti. Per prima cosa si nota che le tre misure relative ad ogni tipologia di
auto sono molto vicine tra loro e spesso risultano uguali. Il numero di unit
statistiche scelto per ogni tipologia , pertanto, sufficiente a studiare il fenomeno
di interesse dato che, aumentando il numero di unit, si otterrebbero ripetizioni di
misure uguali o molto vicine con nessun ulteriore apporto di informazione. Fra le
tre caratteristiche considerate per definire la tipologia, la pi influente sul livello
di rumore sembra essere la dimensione dellauto. Emerge, in particolare, che le
auto di dimensione media sono tendenzialmente pi rumorose di quelle di piccola
dimensione che, a loro volta, sembrano pi rumorose di quelle grandi. Il confronto
si effettua considerando che le prime 12 misure uguali sono relative ad auto
piccole, le seconde 12 misure ad auto medie, le ultime 12 ad auto grandi. Per
quanto riguarda il lato di rilevazione sembrerebbe che per le auto piccole sia pi
rumoroso il lato sinistro, per le medie ci sia sostanziale equivalenza, mentre per le
grandi sia pi rumoroso il lato destro. Queste osservazioni sono possibili
considerando che il lato di rilevazione destro corrisponde ad un numero dispari
nella codifica della tipologia e il lato sinistro ad un numero pari. Laspetto pi
difficile da evidenziare quello legato proprio alle differenze dovute ai due
possibili tipi di silenziatore. Osserviamo ancora che tutte le considerazioni svolte
fin qui sono state possibili solo in virt della semplicit del problema e della
30

M. Bultrini C. Rossi, Elementi di statistica sociale

limitata numerosit dei dati e, comunque, la semplice analisi diretta della tabella
non ci permette alcuna considerazione immediata relativamente allaspetto di
maggior interesse, vale a dire il confronto tra i due filtri.
Per effettuare correttamente questo confronto abbiamo bisogno di alcuni
metodi generali per sintetizzare i dati. Prima di introdurre tali metodi, per,
analizziamo un esempio di presentazione di dati effettuato dallISTAT (lesempio
tratto dal sito: www.istat.it).

2.2 LE DISTRIBUZIONI STATISTICHE UNIVARIATE


Esempio 2. Listruzione in Italia

Il livello di istruzione della popolazione Italiana si molto elevato negli


ultimi decenni: stato recuperato il ritardo nella scolarizzazione di base rispetto
agli altri paesi avanzati ed aumentato significamene il tasso di partecipazione ai
cicli di studio superiori. Sono soprattutto i giovani ad essere pi istruiti: la
percentuale di persone che hanno proseguito gli studi dopo la licenza media, cio
che hanno conseguito una qualifica professionale, la maturit o la laurea, del
54,4% per i giovani fra i 25 e 34 anni, rispetto al 35,2% per la popolazione fra i 35
e 64 anni. In altri termini, oltre la met delle giovani generazioni ha proseguito e
concluso gli studi dopo la scuola media, mentre soltanto un terzo delle
generazioni precedenti aveva fatto lo stesso.
Figura 2.1 Persone di 25-64 anni per classe di et e titolo di studi

Anno 1999, composizioni percentuali

25-34 anni

36,4

39,9

35-64 anni
32,6

32,2

20,7

10,0

8,8

laurea, dottorato

8,0

diploma di maturit

5,7

5,7

qualifica professionale

licenza media

licenza elementare,
nessun titolo

Fonte: Istat, Rilevazione trimestrale sulle forze di lavoro, media 1999

Il mezzogiorno risulta svantaggiato: sono inferiori lincidenza della


popolazione di 15 anni e pi con qualifica professionale (2,8% rispetto a 5,2%

31

M. Bultrini C. Rossi, Elementi di statistica sociale

della media nazionale) e, in misura minore, la quota dei maturi (23,0% rispetto a
23,1%) e dei laureati (6,1% rispetto a 6,7%).
Figura 2.2 Persone di 15 anni e pi per titolo di studio e ripartizione geografica.

Anno 1999, composizioni percentuali

34,5

Nord
32,1

Centro
Mezzogiorno

30,2

31,8 31,4

33,7

25,9
22,0

6,7

7,9

22,9

7,4

6,1

laurea, dottorato

4,6

diploma di maturit

2,8

qualifica professionale

licenza media

licenza elementare,
nessun titolo

Fonte: Istat, Rilevazione trimestrale sulle forze di lavoro, media 1999

Chiediamoci ora come sono stati ottenuti i risultati mostrati nelle figure e
commentati nel testo dellISTAT. Per imparare ad effettuare le sintesi e le
rappresentazioni grafiche proposte consideriamo un altro esempio semplice su cui
riprodurremo lo stesso tipo di analisi.
Esempio 3. Alcuni dati relativi ad unindagine sulle vacanze1

Supponiamo di voler rilevare il numero di viaggi per vacanze effettuati nel


1999 dagli italiani e di utilizzare per questo un questionario come quello riportato
nel seguito. Intervistiamo poi alcune persone alluscita di un supermercato e
riportiamo i dati relativi a 30 unit statistiche (fig. 2.3).

Lindagine fa parte dellattivit svolta da Fabio Anastasia, Patrizia Fantasia, Anna Maria
Fortunato, Laura Galeno, Antonella Ludovisi e Diana Maggio nellambito del corso di Laboratorio
di didattica della Matematica. Scuola di specializzazione per lInsegnamento Secondario del
Lazio, anno accademico 1999/2000.

32

M. Bultrini C. Rossi, Elementi di statistica sociale

Figura 2.3
RILEVAZIONE DEI DATI SUI VIAGGI PER LE VACANZE NEL 1999
QUESTIONARIO
Et (anni compiuti):
Sesso:
M
F
Titolo di studio:
CODIFICA
licenza elementare o nessun titolo
1
licenza media inferiore
2
diploma di maturit o professionale
3
laurea o superiore
4
Numero di viaggi per vacanze in Italia:
Numero di viaggi per vacanze allestero:

Tabella 2.4 Dati grezzi (matrice dei dati) relativa alla rilevazione alluscita di un
supermercato romano su Viaggi per vacanza nel 1999
Unit
statistica
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27

Et Sesso

15
27
29
29
32
27
65
56
60
32
33
27
25
27
78
43
45
31
34
50
68
45
20
22
18
29
74

M
F
F
F
M
F
F
F
M
F
M
M
F
M
M
F
M
F
M
F
F
F
F
M
M
M
F

Titolo
Viaggi per
Viaggi per
di studio vacanze in Italia vacanze allestero
2
2
0
4
2
0
4
0
1
4
0
0
3
0
3
4
0
0
1
1
0
3
1
0
2
1
0
3
2
0
4
2
1
4
0
0
3
1
0
3
1
1
1
1
0
3
1
0
2
1
0
4
1
1
4
0
1
3
2
2
1
3
0
3
1
0
3
1
0
3
2
0
2
0
1
2
0
1
2
0
0

33

M. Bultrini C. Rossi, Elementi di statistica sociale

28
29
30

23
41
54

M
M
F

3
4
3

1
1
0

1
3
1

Osserviamo, innanzitutto, che lanalisi diretta dei dati in tabella, anche se il


numero di unit statistiche paragonabile a quello relativo allindagine della
Texaco, si presenta pi complicata in quanto la rilevazione non corrisponde ad
uno schema sperimentale sotto controllo del rilevatore per quanto riguarda la
scelta delle unit statistiche. Per riferirsi al caso relativo allindagine sulle auto, la
scelta delle unit statistiche corrisponde al tipo di indagine che si effettuerebbe
misurando il rumore sulle auto in transito in un certo tratto di strada senza
deciderne a priori la tipologia. Per quanto riguarda la nostra indagine vogliamo
evidenziare le caratteristiche di interesse per lo studio del collettivo che abbiamo
preso in esame, al fine di rendere pi agevole la fase di interpretazione. Il
campione esaminato consiste in 30 unit statistiche. I caratteri che abbiamo preso
in considerazione sono i seguenti:
Et (carattere quantitativo continuo) misurata in anni compiuti;
Sesso (carattere qualitativo sconnesso) con modalit: M,F;
Titolo di studio (carattere qualitativo ordinato) con modalit codificate: 1,2,3,4;
Numero di viaggi in Italia (carattere quantitativo discreto) con valori possibili:
0,1,2,;
Numero di viaggi allestero (carattere quantitativo discreto) con valori: 0,1,2,;

Fissiamo lattenzione su uno dei caratteri, in altre parole su una delle


colonne della matrice dei dati. Vogliamo vedere come si comporta il campione
rispetto a tale carattere. Cominciamo con il considerare il carattere sesso (terza
colonna). Quando si considera lanalisi su una sola colonna della matrice dei dati
si dice che stiamo effettuando unanalisi statistica univariata. Ci chiediamo:
quante persone di sesso maschile abbiamo intervistato? E quante di sesso
femminile? Considerando la terza colonna della tabella 2.4 e contando il numero
di M e di F che compaiono, otteniamo la seguente tabella:
Tabella 2.5 Distribuzione di frequenza (assoluta) del carattere sesso nel campione
di intervistati
Modalit
M
F
Totale

Frequenza assoluta
14
16
30

34

M. Bultrini C. Rossi, Elementi di statistica sociale

In altri termini, abbiamo assunto che le unit statistiche della prima colonna,
cui associata la modalit M (rispettivamente F) appartengano allo stesso insieme
e poi abbiamo contato il numero di elementi di questo insieme. Nella costruzione
di una tabella del tipo mostrato si definisce frequenza assoluta corrispondente
ad una certa modalit il numero di unit statistiche che presenta tale modalit. In
questo modo nellesempio si proceduto per la modalit M e analogamente per la
modalit F. La tabella che mostra su due colonne affiancate lelencazione delle
modalit di un carattere e le rispettive frequenze assolute si chiama distribuzione
di frequenza (assoluta) del carattere considerato, nel nostro esempio il carattere
sesso. Dividendo ogni frequenza assoluta per il totale delle unit statistiche
considerate si ottiene la distribuzione di frequenza relativa, che possiamo
rappresentare nella seguente tabella.
Tabella 2.6 Distribuzione di frequenza (relativa) del carattere sesso nel campione
di intervistati
Modalit
M
F
Totale

Frequenza relativa
14/30
16/30
1

La distribuzione di frequenza relativa spesso fornita in forma percentuale.


Tale rappresentazione si ottiene moltiplicando per 100 tutti i valori delle
frequenze relative, come mostrato nella tabella seguente.
Tabella 2.7 Distribuzione di frequenza (percentuale) del carattere sesso nel
campione di intervistati
Modalit Frequenza percentuale
M
46,67
F
53,33
Totale
100

Riassumendo diamo la seguente definizione.


Definizione

Si definisce frequenza relativa corrispondente a una certa modalit la proporzione


tra il numero di unit statistiche che presenta tale modalit e il totale delle unit
statistiche considerate.

Si definisce frequenza percentuale corrispondente a una certa modalit la


proporzione tra il numero di unit statistiche che presenta tale modalit e il totale
delle unit statistiche considerate moltiplicata per 100.
Adesso sappiamo come sono stati ottenuti i valori riportati dallISTAT sulle
colonne colorate dei grafici delle figure 2.1 e 2.2.
35

M. Bultrini C. Rossi, Elementi di statistica sociale

Esercizio 1.

Per esercizio riportare in tabella i valori relativi al primo grafico ISTAT


relativamente alla classe det 25-34 anni.
Svolgimento

Per costruire la tabella (che ha un numero di colonne sempre uguale a 2)


occorre porre nella prima colonna lelenco delle modalit del carattere considerato
e il totale e nella seconda colonna le frequenze percentuali corrispondenti. Si
ottiene cos la tabella 2.8.
Tabella 2.8 Distribuzione di frequenza (percentuale) del carattere titolo di studio
per la classe di et 25-34 anni nel campione considerato dallISTAT
nel grafico di figura 2.1
Modalit

Frequenza percentuale

Laurea, dottorato

10,4

Diploma di maturit
Qualifica professionale
Licenza media
Licenza elementare
Totale

36,4
8,0
39,9
5,7
100,0

Esercizio 2.

Ripetere la costruzione vista per i dati relativi al carattere titolo di studio


per la classe di et 35-64 anni nel campione considerato dallISTAT nel grafico
di figura 2.1.
Esercizio 3.

Costruire le tabelle relative alle distribuzioni di frequenza (assoluta, relativa,


percentuale) per il carattere titolo di studio relativamente allindagine sui viaggi
(tabella 2.4, colonna 4).
Nelle tabelle riportate sopra abbiamo costruito alcuni esempi di
distribuzione statistica univariata. Possiamo ora dare una definizione formale
rigorosa.
Definizione
Una distribuzione statistica univariata una coppia di insiemi di cui il
primo linsieme delle modalit o dei valori assumibili dal carattere considerato,
il secondo, in corrispondenza con il primo, linsieme costituito dalle frequenze
che ogni valore o modalit presenta nella matrice dei dati considerata. Le
frequenze possono essere rappresentate in forma assoluta, relativa o percentuale.
36

M. Bultrini C. Rossi, Elementi di statistica sociale

La distribuzione statistica fornisce un modo pi compatto di


rappresentazione dei dati che cos risultano pi organizzati e dunque pi leggibili.
Occorre osservare che nelle tabelle che riportano la distribuzione in forma
relativa o percentuale non compare il numero di unit statistiche considerate. Per
non perdere questa informazione, che di importanza fondamentale nel valutare i
risultati, occorre fornire tale dato nella descrizione della rilevazione. evidente,
infatti, che linformazione data dalle frequenze percentuali calcolate su un
campione di 10000 unit ben diversa da quella ottenuta su un campione di 50
unit.
Consideriamo ora (tabella 2.9) la distribuzione della variabile che si ottiene
dalla somma delle ultime due colonne della tabella 2.4 e che rappresenta il
carattere quantitativo discreto numero totale di viaggi per vacanza nel 1999.
Tabella 2.9 Distribuzione di frequenza per il carattere numero totale di viaggi per
vacanza
Modalit (valori) Frequenza assoluta Frequenza relativa Frequenza percentuale
0
4
4/30
13,33
1
12
12/30
40,00
2
10
10/30
33,33
3
3
3/30
10,00
4
1
1/30
3,34
totale
30
1
100,00

Si legge che 4 la frequenza assoluta del valore 0 (ovvero 4 persone delle


30 intervistate non hanno compiuto alcun viaggio nel corso del 1999) mentre 12
la frequenza assoluta del valore 1 (12 persone delle 30 intervistate hanno
compiuto esattamente un viaggio nel 1999).
Ci chiediamo: quante persone nel corso del 99 hanno compiuto al pi un
viaggio, o, in altre parole, un numero di viaggi minore o uguale a 1? Per
rispondere alla domanda basta sommare 4 e 12.
Allo stesso modo: quante persone, tra le 30 intervistate, hanno compiuto un
numero di viaggi minore o uguale a 2? E cos via.
Definizione
Si dice distribuzione di frequenza cumulata di un carattere la
distribuzione che associa ad ogni valore la frequenza (assoluta, relativa o
percentuale) dei valori osservati minori o uguali. Operativamente, la frequenza
cumulata la somma delle frequenze corrispondenti a tutti i valori minori o uguali
del valore considerato.
Svolgendo i calcoli per la tabella 2.9, sulla base della precedente definizione
otteniamo la tabella 2.10.
37

M. Bultrini C. Rossi, Elementi di statistica sociale

Tabella 2.10 Distribuzione di frequenza per il carattere numero totale di viaggi per
vacanza
Frequenza Frequenza Frequenza
Modalit
cumulata cumulata cumulata
(valori)
relativa percentuale
assoluta
0
4
4/30
13,33
1
16
16/30
53,33
2
26
26/30
86,66
3
29
29/30
96,66
4
30
1
100,00

Osserviamo che il calcolo della distribuzione cumulata ha senso solo per


caratteri con modalit ordinabili, quindi non possibile calcolarla per caratteri
qualitativi sconnessi.
Esercizio 4.

Costruire le distribuzioni di frequenza cumulata per quei caratteri della


tabella 2.4 per cui ci ha senso.
Consideriamo adesso la colonna 2 della tabella 2.4, in cui sono riportati i
dati relativi allet (carattere continuo) misurato in modo discreto in anni
compiuti, e calcoliamo le distribuzioni di frequenza di tutti i valori possibili
compresi tra il valore minimo (15) e il valore massimo (78) osservato. Nella
tabella 2.11 sono riportate tutte le distribuzioni e le distribuzioni cumulate.
Tabella 2.11 Distribuzioni di frequenza e distribuzioni cumulate relative alla
variabile et (tabella 2.4)
Et
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

Frequenza Frequenza
Frequenza Frequenza Frequenza Frequenza
cumulata cumulata
assoluta
relativa percentuale cumulata
relativa percentuale
1
0
0
1
1
1
0
1
1
0
1
0
4
0
2
0

0,033
0
0
0,033
0,033
0,033
0
0,033
0,033
0
0,033
0
0,133
0
0,067
0

3,33
0,00
0,00
3,33
3,33
3,33
0,00
3,33
3,33
0,00
3,33
0,00
13,33
0,00
6,67
0,00

1
1
1
2
3
4
4
5
6
6
7
7
11
11
13
13

38

0,033
0,033
0,033
0,067
0,100
0,133
0,133
0,167
0,200
0,200
0,233
0,233
0,367
0,367
0,433
0,433

3,33
3,33
3,33
6,67
10,00
13,33
13,33
16,67
20,00
20,00
23,33
23,33
36,67
36,67
43,33
43,33

M. Bultrini C. Rossi, Elementi di statistica sociale


31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78

1
2
1
1
0
0
0
0
0
0
1
0
1
0
2
0
0
0
0
1
0
0
0
1
0
1
0
0
0
1
0
0
0
0
1
0
0
1
0
0
0
0
0
1
0
0
0
1

0,033
0,067
0,033
0,033
0
0
0
0
0
0
0,033
0
0,033
0
0,067
0
0
0
0
0,033
0
0
0
0,033
0
0,033
0
0
0
0,033
0
0
0
0
0,033
0
0
0,033
0
0
0
0
0
0,033
0
0
0
0,033

3,33
6,67
3,33
3,33
0,00
0,00
0,00
0,00
0,00
0,00
3,33
0,00
3,33
0,00
6,67
0,00
0,00
0,00
0,00
3,33
0,00
0,00
0,00
3,33
0,00
3,33
0,00
0,00
0,00
3,33
0,00
0,00
0,00
0,00
3,33
0,00
0,00
3,33
0,00
0,00
0,00
0,00
0,00
3,33
0,00
0,00
0,00
3,33

14
16
17
18
18
18
18
18
18
18
19
19
20
20
22
22
22
22
22
23
23
23
23
24
24
25
25
25
25
26
26
26
26
26
27
27
27
28
28
28
28
28
28
29
29
29
29
30

0,467
0,533
0,567
0,600
0,600
0,600
0,600
0,600
0,600
0,600
0,633
0,633
0,667
0,667
0,733
0,733
0,733
0,733
0,733
0,767
0,767
0,767
0,767
0,800
0,800
0,833
0,833
0,833
0,833
0,867
0,867
0,867
0,867
0,867
0,900
0,900
0,900
0,933
0,933
0,933
0,933
0,933
0,933
0,967
0,967
0,967
0,967
1,000

46,67
53,33
56,67
60,00
60,00
60,00
60,00
60,00
60,00
60,00
63,33
63,33
66,67
66,67
73,33
73,33
73,33
73,33
73,33
76,67
76,67
76,67
76,67
80,00
80,00
83,33
83,33
83,33
83,33
86,67
86,67
86,67
86,67
86,67
90,00
90,00
90,00
93,33
93,33
93,33
93,33
93,33
93,33
96,67
96,67
96,67
96,67
100,00

La tabella 2.11 riporta le informazioni in modo completo dato che, anche


se non scritto, risulta evidente che non sono stati osservati n valori inferiori a
15, n valori superiori a 78.

39

M. Bultrini C. Rossi, Elementi di statistica sociale

Bisogna, inoltre, osservare che, in corrispondenza di ogni valore a dellet


indicato sulla prima colonna, si pone la frequenza di coloro che hanno et non
inferiore ad a e inferiore ad a+1. In altre parole, come stato visto nel
paragrafo 1.1.2 della Prima Unit, la frequenza di a non rappresenta il numero
di unit statistiche il cui valore misurato del carattere esattamente a, cio la
frequenza di a, ma piuttosto la frequenza di un intero intervallo di valori,
ovvero tutti i valori non inferiori ad a e inferiori a a+1. Misurando let in
anni compiuti abbiamo raggruppato in classi di et di ampiezza 1 anno le nostre
unit statistiche. Possiamo allora sintetizzare di pi i nostri dati raggruppando le
unit in classi di maggiore ampiezza, per esempio 5 o 10 anni. Scegliendo
intervalli di ampiezza 10 anni, si pu costruire la tabella 2.12. La barra verticale
nella notazione indica che il valore inferiore fa parte dellintervallo, mentre la
mancanza di tale barra sulla destra indica che il valore superiore non ne fa parte: a
b rappresenta tutti qui valori maggiori o uguali ad a e minori di b.
Tabella 2.12 Distribuzioni di frequenza relative alla variabile et (tabella 2.4)
Intervalli Frequenza assoluta Frequenza relativa
15 25
25 35
35 45
45 55
55 65
65 75
75 85

6
12
2
4
2
3
1

1/5
2/5
1/15
2/15
1/15
1/10
1/30

Mediante la distribuzione di frequenza per dati raggruppati in classi si passa


da una variabile quantitativa continua ad una variabile qualitativa ordinata che ha
come modalit le classi definite.
C da osservare che raggruppare i dati provoca una perdita dinformazione,
infatti non risultano pi distinti tra loro i valori che cadono allinterno di una
stessa classe. La perdita di informazione tanto maggiore quanto pi grande
lampiezza della classe. La tabella per dati raggruppati, per, molto pi leggibile
ed pi facile darne una descrizione sintetica. La descrizione varia a seconda di
come sono scelte le ampiezze delle classi: sempre opportuno cercare un buon
compromesso che assicuri una buona sintesi senza troppa perdita di informazione.

2.3 RAPPRESENTAZIONI GRAFICHE


Per permettere una lettura pi immediata dellandamento di un fenomeno
introduciamo le rappresentazioni grafiche, strumenti molto usati dai media per la
loro efficacia nella comunicazione. Affinch tali rappresentazioni siano utili e
corrette devono contenere alcune informazioni quali: titolo, dal quale risulti
loggetto, lepoca e la fonte di rilevazione; indicazioni chiare sui caratteri e sulle
modalit o valori, sulle unit di misura (lineare o areale) utilizzate; eventuale
legenda per colori e/o tratteggi. Analizziamo alcune delle rappresentazioni
grafiche maggiormente utilizzate a partire dai dati della tabella 2.4.

40

M. Bultrini C. Rossi, Elementi di statistica sociale

2.3.1 I DIAGRAMMI A BARRE


Un diagramma a barre consiste in una successione di colonne, segmenti
verticali o rettangoli (a base uguale o arbitraria) per convenzione equidistanti,
tante quante sono le modalit del carattere, la cui altezza uguale o proporzionale
alla frequenza (assoluta, relativa o percentuale) della modalit corrispondente.
Questo tipo di grafico particolarmente adatto a rappresentare le distribuzioni di
caratteri qualitativi. Pu anche essere usato per rappresentare la distribuzione di
un carattere quantitativo discreto. Se il carattere ordinato bisogna disporre le
colonne seguendo lo stesso ordinamento delle modalit del carattere. Se il
carattere sconnesso opportuno, ma non obbligatorio, disporre le colonne a
partire dalla pi grande e finendo con la pi piccola, o viceversa. Consideriamo la
distribuzione del carattere qualitativo ordinato titolo di studio (colonna 4 della
tabella 2.4).
Tabella 2.13 Distribuzione di frequenza (assoluta) del carattere titolo di studio
relativamente ai dati della tabella 2.4
Modalit Frequenza assoluta
1
3
2
6
3
12
4
9
totale
30

Per renderla ancora pi leggibile possiamo servirci di una rappresentazione


grafica mediante diagramma a barre. Esaminiamo la modalit 1 (licenza
elementare) che, come si vede, ha frequenza assoluta 3. In corrispondenza del
valore 1 sullasse delle ascisse rappresentiamo un rettangolo con base data da un
intervallo di ampiezza fissata sulle ascisse e altezza pari ad un valore di ordinata
uguale al valore della frequenza, che nel nostro caso 3. Mantenendo fissa
lampiezza della base completiamo con lo stesso criterio il grafico con i rettangoli
relativi agli altri valori collocandoli alla stessa distanza gli uni dagli altri (figura
2.4).

41

M. Bultrini C. Rossi, Elementi di statistica sociale

Figura 2.4
14
12
frequenze assolute

12
10

8
6
6
4

2
0
1

titolo di studio

Esercizio 5.

Costruire i diagrammi a barre per la distribuzione del carattere qualitativo


sesso della tabella 2.4.

2.3.2 RAPPRESENTAZIONE

GRAFICA DI CARATTERI
RAGGRUPPATI IN CLASSI DI UGUALE AMPIEZZA

QUANTITATIVI

Nel caso di caratteri quantitativi continui non ha pi senso parlare della


frequenza di un singolo valore, poich non possibile osservare con esattezza
quello stesso valore. Pertanto il carattere viene raggruppato per classi di ampiezza
e se ne d una rappresentazione grafica attraverso listogramma. Questo tipo di
grafico, analogo ad un diagramma a barre, consiste in una serie di rettangoli
affiancati aventi base sullasse orizzontale con centro sul valore centrale ed
ampiezza uguale allampiezza della classe ed aree proporzionali alle rispettive
frequenze di ogni classe. Si pu usare un istogramma anche per rappresentare la
distribuzione di un carattere quantitativo discreto raggruppato in classi (numero di
viaggi per vacanza, ecc.). Se le classi sono tutte di uguale ampiezza possibile
scegliere le altezze dei rettangoli esattamente uguali alle rispettive frequenze.
Nella figura 2.5 riportata la rappresentazione mediante istogramma a basi uguali
di ampiezza 10 anni, per la distribuzione di frequenza del carattere et della
tabella 2.4.

42

M. Bultrini C. Rossi, Elementi di statistica sociale

Figura 2.5

istogramma dell'et per i dati raggruppati in classi


12
frequenza assoluta delle classi di et
10

0
15

25

35

45

55

65

75

85

classi di et

2.3.3 RAPPRESENTAZIONE

GRAFICA DI CARATTERI
RAGGRUPPATI IN CLASSI DI DIVERSA AMPIEZZA

QUANTITATIVI

Nel caso di un carattere quantitativo raggruppato in classi di diversa


ampiezza le altezze dei singoli rettangoli devono essere proporzionali al quoziente
tra la frequenza da rappresentare e lampiezza della classe. Tale quoziente pari
alla frequenza che compete ad una classe di ampiezza unitaria e viene detto
densit della frequenza:
Figura 2.6

43

M. Bultrini C. Rossi, Elementi di statistica sociale

Proviamo, ad esempio, a raggruppare il carattere et della tabella 2.12


unendo le ultime due classi in ununica classe di ampiezza 20 anni e frequenza
complessiva 4. In tal caso listogramma che rappresenta la distribuzione del
carattere et riportato in figura 2.7
Figura 2.7

Osserviamo che, in questo caso, le altezze dei rettangoli sono le densit di


frequenza ottenute dividendo le frequenze assolute di ciascuna classe (riportate
allinterno dei rettangoli) per le rispettive ampiezze delle classi. Ad esempio,
lultima classe 65 85 di ampiezza 20, pari al doppio delle altre, e per
ottenere laltezza del corrispondente rettangolo bisogna dividere la frequenza per
lampiezza della classe ottenendo:
4
= 0,2 .
20

2.3.4 SPEZZATA DELLE FREQUENZE O POLIGONO DI FREQUENZA


Dal momento che locchio percepisce meglio landamento di un fenomeno
se rappresentato con una linea, si possono considerare i punti medi della base
superiore di ciascun rettangolo di un istogramma o di un diagramma a barre e
unirli con una spezzata, ottenendo cos la spezzata delle frequenze o poligono di
frequenza. Se consideriamo la distribuzione relativa al carattere numero di viaggi
in Italia otteniamo il grafico riportato sotto (fig. 2.8).

44

M. Bultrini C. Rossi, Elementi di statistica sociale

Figura 2.8
13

14
12
10

10

6
4

2
0
0

0
4

numero di viaggi in Italia

Esercizio 6.

Rappresentare mediante spezzata delle frequenze la distribuzione di


frequenza (assoluta) del carattere numero totale di viaggi per vacanza (tabella
2.10).
Svolgimento

Si tratta semplicemente di costruire il grafico cartesiano con ascissa data dal


numero di viaggi e ordinata data dalla rispettiva frequenza assoluta.
Se si utilizza un foglio di lavoro Excel, possiamo riportare le prime due
colonne della tabella 2.9 (fig. 2.9).
Figura 2.9

Selezioniamo e scegliamo, quindi, lopzione creazione guidata grafico,


poi lopzione dispers. (XY) che permette di costruire grafici cartesiani con
ascissa data dalla prima colonna della tabella e ordinata data dalla seconda
45

M. Bultrini C. Rossi, Elementi di statistica sociale

colonna e procediamo alla creazione del grafico, ottenendo il risultato mostrato in


figura 2.10
Figura 2.10
poligono di frequenza del carattere
"numero di viaggi"

14

frequenza assoluta

12
10
8
6
4
2
0
0

2
3
numero di viaggi

frequenza assoluta del carattere "numero di


viaggi"

Esercizio 7.

Supponiamo di aver rilevato, tramite questionario, il sesso di 10 alunni di


una data scuola e il numero di film visti da ciascuno nellultima settimana.

Alunno
1
2
3
4
5
6
7
8
9
10

Sesso Numero di film visti nellultima settimana


Femmina
3
Femmina
2
Maschio
3
Maschio
3
Femmina
6
Maschio
2
Femmina
1
Maschio
0
Femmina
2
Femmina
0

Determinare le distribuzioni statistiche dei due caratteri sesso e numero


di film e rappresentarle graficamente, utilizzando le diverse possibilit viste
sopra.

46

M. Bultrini C. Rossi, Elementi di statistica sociale

2.3.5 RAPPRESENTAZIONE GRAFICA DELLA DISTRIBUZIONE CUMULATA


La tipica rappresentazione grafica adottata per la distribuzione cumulata il
grafico cartesiano in cui si riportano in ascissa i valori o le codifiche numeriche
ordinate relative alle modalit del carattere considerato e in ordinata i
corrispondenti valori della frequenza cumulata (assoluta, relativa, percentuale).
Nella figura 2.11 riportato il diagramma cartesiano relativo alla distribuzione
cumulata (frequenze assolute) del numero di viaggi in Italia. Come si vede si tratta
di una curva a gradini che, in ogni punto corrispondente ad un valore osservato, ha
un salto pari alla frequenza (assoluta, relativa, percentuale).
Figura 2.11

frequenza cumulata

Distribuzione cumulata del numero di viaggi


35
30
25
20
15
10
5
0
0

2
3
numero viaggi in Italia

Distribuzione cumulata

Un altro tipo di rappresentazione si ha considerando il grafico cartesiano in


cui si riportano in ascissa i valori o le codifiche numeriche ordinate relative alle
modalit del carattere considerato e in cui la crescita della curva della frequenza
cumulata tra un valore osservato e il successivo viene approssimata con un
segmento inclinato che unisce i valori corrispondenti dellordinata. Questa curva
di tipo poligonale prende il nome di ogiva. Nella figura 2.12 riportato tale
diagramma cartesiano relativo alla distribuzione cumulata (frequenze assolute) del
numero di viaggi.

47

M. Bultrini C. Rossi, Elementi di statistica sociale

Figura 2.12
Ogiva (frequenza cumulata)
35
30
25
20
15
10
5
0
0

frequenza cumulata

Esempio 4. Una sperimentazione della Texaco (2)

Abbiamo ora nuovi strumenti per effettuare unanalisi dei dati relativi alla
rilevazione della TEXACO riportati nella tabella 2.3, separando le misurazioni
relative ai due tipi di silenziatore. Riportiamo le distribuzioni di frequenza in
tabella 2.14 e per agevolare un primo confronto qualitativo riportiamo nella figura
2.13 le due ogive.
Tabella 2.14 Distribuzioni di frequenza e frequenza cumulata del livello di rumore
misurato in decibel per i due tipi di silenziatore (standard = tipo 1 e nuovo tipo = tipo
2)
Livello Frequenza Frequenza Frequenza Frequenza
cumulata
cumulata assoluta
di rumore assoluta
(tipo 2)
(tipo 2)
(tipo 1)
(decibel) (tipo 1)
760
2
2
1
1
765
0
2
1
2
770
1
3
1
3
775
0
3
3
6
780
0
3
0
6
785
2
5
0
6
790
1
6
0
6
795
0
6
0
6
800
0
6
0
6
805
0
6
0
6
810
1
7
0
6
815
0
7
1
7
820
2
9
5
12
825
0
9
6
18

48

M. Bultrini C. Rossi, Elementi di statistica sociale

830
835
840
845
850
855

0
3
2
2
1
1

9
12
14
16
17
18

0
0
0
0
0
0

18
18
18
18
18
18

Figura 2.13

frequenza cumulata

Distribuzioni cumulate del livello di rumore per i


due tipi di silenziatore
20
18
16
14
12
10
8
6
4
2
0
740

760

780

800

820

840

860

livello di rumore (in decibel)


silenziatore standard

nuovo tipo di silenziatore

Entrambe le curve sono crescenti e raggiungono il livello finale pari a 18.


evidente, quindi, che tanto pi una curva cresce in fretta, tanto pi i valori
osservati della variabile sono concentrati sui valori bassi. Dal confronto basato
solo sulle ogive si deduce, pertanto, una certa evidenza di maggiore efficacia del
nuovo silenziatore rispetto a quello standard. Infatti, la curva corrispondente al
nuovo raggiunge il suo valore massimo molto prima dellaltra curva,
corrispondente al tipo standard. Possiamo meglio sintetizzare i dati considerando
le due distribuzioni statistiche del livello di rumore per i dati raggruppati in classi:
760 780, 780 800, 800 820, 820 840, 840 860. Le corrispondenti
distribuzioni di frequenza (assoluta) sono riportate nella tabella 2.15 e il
diagramma a barre nella figura 2.14.
Tabella 2.15 Distribuzioni di frequenza per il carattere quantitativo livello di
rumore (in decibel) con valori raggruppati in classi
Frequenza assoluta Frequenza assoluta
(tipo 1)
(tipo 2)
760 780
3
6
780 800
3
0
800 820
1
1

Intervalli

49

M. Bultrini C. Rossi, Elementi di statistica sociale

820 840
840 860

5
6

11
0

Figura 2.14

frequenze assolute

Diagramma a barre delle distribuzioni del livello di


rumore
12
10
8
6
4
2
0
760 - 780

780 - 800

800 - 820

820 - 840

840 - 860

classi di valori (in decibel)


silenziatore standard

silenziatore di nuovo tipo

Il confronto dei due diagrammi a barre conferma quanto osservato sulla base
delle distribuzioni cumulate: i valori del livello di rumore in corrispondenza del
nuovo tipo di silenziatore tendono ad essere pi bassi.
Esercizio 8.

Si considerino le classi di valori per il carattere livello di rumore: 760 770,


770 780, , 850 860 e si riportino in tabella le corrispondenti distribuzioni di
frequenze (assoluta e percentuale). Si costruisca la rappresentazione grafica in
forma di diagramma a barre e si confronti con quella riportata in figura 2.14.
Esercizio 9.

Calcolare la distribuzione cumulata per il carattere numero di film,


relativamente ai dati dellesercizio 9, e disegnare il grafico cartesiano.
Esercizio 10.

Calcolare la distribuzione cumulata del carattere numero totale di viaggi


espressa in forma di frequenze assolute, relative e percentuali e rappresentare le
relative curve mediante ogiva.

50

M. Bultrini C. Rossi, Elementi di statistica sociale

Esercizio 11.

Calcolare la distribuzione cumulata per la tabella 2.12 e rappresentare la


relativa curva prendendo come valori delle ascisse di interesse i punti centrali
degli intervalli che definiscono le classi.

2.3.6 DIAGRAMMI A TORTA O AEROGRAMMI CIRCOLARI


Quando i valori o le modalit non sono molto numerosi, in alternativa
allistogramma o al diagramma a barre si possono usare i diagrammi a torta
(anche in questo caso non importa il tipo di frequenza considerato). Per costruire
un aerogramma circolare consideriamo un cerchio e lo suddividiamo in settori in
modo che lampiezza di ciascuno di essi sia proporzionale alla frequenza.
Vediamo praticamente come si fa: consideriamo la distribuzione della
tabella 2.11 (titolo di studio), disegniamo un cerchio di raggio r, ad esempio r = 1,
e consideriamo il valore 1 del carattere (licenza elementare) che, come vediamo
dalla tabella, ha frequenza f = 3. Il nostro scopo quello di individuare nel cerchio
disegnato un angolo 1 proporzionale alla frequenza f = 3. Per prima cosa
dividiamo 360 per la somma delle frequenze, che indichiamo con S, poi, per
vedere quanti spicchi di ampiezza 360/S vanno assegnati a ciascuna frequenza,
moltiplichiamo per la frequenza stessa. Riassumendo, per calcolare 1 utilizziamo
la seguente formula generale:

360
f
S

che nel nostro caso fornisce come risultato 1 36.


Pertanto, disegniamo sul cerchio (usando un goniometro) il settore di
ampiezza trovata (fig 2.15)

51

M. Bultrini C. Rossi, Elementi di statistica sociale

Figura 2.15
licenza elementare

Ripetiamo il ragionamento per determinare le ampiezze 2, 3, 4 degli altri


settori e otteniamo il diagramma riportato in figura 2.16 dove, sullesterno dei
settori, sono riportate le corrispondenti frequenze (assolute, relative o percentuali).
Figura 2.16

licenza
elementare

licenza media

9
6

diploma
laurea

12

Esercizio 12.

Costruire i diagrammi a torta per le distribuzioni dei caratteri di tabella 2.4


in cui ci risulta conveniente.
Esercizio 13.

Costruire il diagramma a torta per la distribuzione dellEsercizio 1.


52

M. Bultrini C. Rossi, Elementi di statistica sociale

Svolgimento

Calcoliamo le ampiezze dei settori con la formula vista sopra e dividiamo il


cerchio nei settori proporzionali alle frequenze percentuali, che riportiamo
esternamente (fig. 2.17).
Figura 2.17
Distribuzione del titolo di studio

5,7

10,4

Laurea, dottorato
Diploma di maturit
Qualifica professionale

39,9
36,4

Licenza media
Licenza elementare,
nessun titolo

Il grafico pu essere ottenuto immediatamente utilizzando un foglio di


lavoro Excel. Infatti, riportate le due colonne della distribuzione sul foglio, come
in figura 2.17, si sceglie lopzione creazione guidata grafico, poi lopzione
torta, e si procede ottenendo il risultato.
Figura 2.18

Osserviamo che non opportuno, e neppure corretto, utilizzare diagrammi


tridimensionali in quanto, come stato gi detto, ci che rappresenta la frequenza
larea: luso di una terza dimensione risulterebbe quindi superfluo e
ingannevole. Per verificarlo costruiamo ancora con Excel il diagramma a torta

53

M. Bultrini C. Rossi, Elementi di statistica sociale

corrispondente a quello di figura 2.17, ma utilizzando la rappresentazione


tridimensionale. Il risultato mostrato in figura 2.19.
Figura 2.19
Distribuzione del titolo di studio
Laurea, dottorato
5,7

10,4

Diploma di maturit
Qualifica professionale

39,9

36,4
8

Licenza media
Licenza elementare,
nessun titolo

Linformazione legata allampiezza dei diversi settori molto distorta e


risulta poco leggibile a causa della rappresentazione in prospettiva.
Analogamente, per gli stessi motivi, non corretto utilizzare diagrammi a barre o
istogrammi tridimensionali.

54

M. Bultrini C. Rossi, Elementi di statistica sociale

TERZA UNIT

55

M. Bultrini C. Rossi, Elementi di statistica sociale

3 ELABORAZIONE DI DATI: GLI INDICI STATISTICI


3.1 INDICI STATISTICI UNIVARIATI
Introduciamo largomento con un esempio.
Esempio 1. Le altezze dei diciottenni di leva (1)

Consideriamo i dati riportati nella tabella 3.1 relativi alla distribuzione di


frequenza dellaltezza degli iscritti alla leva nati nellanno 1972 per regione e
poniamoci lobiettivo di confrontare le regioni elencandole in ordine di altezza.
Non semplice rispondere a questa domanda confrontando direttamente le
righe della tabella.
Il modo pi intuitivo di procedere sintetizzare ogni distribuzione in un unico
valore che possa essere messo a confronto con quelli delle altre, permettendoci di
effettuare lordinamento.
Tabella 3.1 Distribuzione di frequenza (%) dellaltezza (cm) degli iscritti di leva nati
nellanno 1972 per regione (Fonte ISTAT, Compendio statistico 1994)
Regione
Piemonte
Valle dAosta
Lombardia
Trentino-A. Adige
Veneto
Friuli-V. Giulia
Liguria
Emilia-Romagna
Toscana
Umbria
Marche
Lazio
Abruzzo
Molise
Campania
Puglia
Basilicata
Calabria
Sicilia
Sardegna
Italia

Fino
159
1,3
1,3
1,2
0,7
0,8
0,4
1,6
1,1
1,0
1,2
1,0
1,3
1,3
2,6
2,3
2,3
2,5
3,4
3,1
4,6
1,7

160164
6,0
4,3
5,6
2,7
3,6
2,7
6,1
5,2
4,8
5,4
5,1
6,1
6,2
8,9
8,4
8,8
9,4
10,6
10,0
13,9
6,8

165169
17,4
16,0
16,3
13,7
12,7
10,2
17,1
16,2
15,3
17,0
17,4
17,9
17,5
21,7
22,5
21,4
25,5
25,9
24,2
27,4
18,6

170174
28,7
27,9
28,6
26,9
26,5
22,7
28,2
27,8
27,6
29,5
30,0
30,1
31,7
31,5
30,6
30,7
30,9
30,2
30,8
28,8
29,1

175179
26,0
25,6
26,9
29,9
28,6
29,3
26,4
27,3
28,0
27,5
26,9
26,1
26,4
22,7
23,1
23,0
21,1
20,5
21,0
17,2
25,2

180184
14,4
16,9
15,0
17,6
18,7
21,4
14,4
15,4
15,9
13,6
14,0
13,3
12,6
9,6
9,9
10,3
8,2
7,4
8,6
6,3
13,2

185189
5,0
6,1
5,1
6,8
7,1
9,9
4,9
5,5
5,9
4,7
4,5
4,1
3,5
2,1
2,6
2,9
2,0
1,7
2,0
1,5
4,3

pi
189
1,3
1,9
1,3
1,7
2,1
3,5
1,2
1,6
1,4
1,0
1,1
1,2
0,8
1,0
0,6
0,6
0,5
0,4
0,4
0,3
1,1

Un valore rappresentativo di unintera distribuzione, per esempio un valore


attorno a cui i dati si addensano, viene denominato indice di posizione. La
conoscenza di un indice di posizione non pu sostituire, in ogni circostanza,
quella dellintera distribuzione. Poich distribuzioni anche molto diverse possono
dare luogo ad uno stesso indice di posizione, opportuno disporre almeno di un
ulteriore valore che misuri la complessiva distanza, dallindice di posizione
56

di

M. Bultrini C. Rossi, Elementi di statistica sociale

prescelto, dei valori della distribuzione; esso viene denominato indice di


dispersione. Gli indici di posizione sono anche detti medie, distinte in medie
analitiche e medie di posizione.
Le medie analitiche si possono applicare soltanto a caratteri quantitativi e
sono calcolate mediante operazioni algebriche a partire dalle misure osservate.
Nel seguito utilizzeremo solo la media aritmetica e la media geometrica. Il
calcolo delle medie di posizione richiede anche operazioni quali lordinamento ed
il confronto dei dati.
Utilizzeremo nel seguito la mediana, i quartili e la moda, che si possono
applicare sia a caratteri qualitativi ordinati sia a caratteri quantitativi. La moda
lunico indice che pu essere utilizzato anche per caratteri qualitativi sconnessi.
Fra gli indici di dispersione, prenderemo in considerazione la varianza, lo
scarto quadratico medio o scarto standard, il coefficiente di variazione e lo scarto
interquartile.

3.2 LE MEDIE ANALITICHE


Spesso negli articoli di giornale presente la parola media, e questa
parola usata comunemente in molte occasioni; chiediamoci allora quale sia il
suo significato dal punto di vista statistico. Innanzitutto notiamo che, quando nel
linguaggio tecnico si parla di media senza altra specificazione, si intende
generalmente la media aritmetica.
Per definirla e imparare a calcolarla partiamo da un esempio semplice.

3.2.1 LA MEDIA ARITMETICA


Esempio 2. Le altezze dei diciottenni di leva (2)

Consideriamo un gruppo di iscritti alla leva, che siano una piccola parte
(solo 18 casi) di quello i cui dati sono riportati in tabella 3.1, e misuriamone le
altezze in cm. Riportiamo poi i dati in una tabella unit/caratteri (tabella 3.2).
Tabella 3.2 Matrice di dati relativa alle18 unit statistiche selezionate tra gli iscritti
di leva
Unit
statistica
01
02
03
04
05
06

Altezza
(cm)
172
162
170
169
157
168

Unit
statistica
07
08
09
10
11
12

Altezza
(cm)
171
174
162
163
160
169

Unit
statistica
13
14
15
16
17
18

Altezza
(cm)
168
168
163
162
175
173

Per calcolare laltezza media delle 18 unit considerate baster sommare le


singole altezze e dividere per 18, che il numero totale delle unit statistiche
considerate.
57

M. Bultrini C. Rossi, Elementi di statistica sociale

M =

172 + 162 + 170 + 169 + 157 + 168 + 171 + 174 + 162 + 163
+
18

160 + 169 + 168 + 168 + 163 + 162 + 175 + 173


= 167
18

Il valore cos ottenuto la media aritmetica delle altezze delle nostre unit
statistiche.
Definizione.
Si chiama media aritmetica di n misure il valore che si ottiene dividendo la
loro somma per n
M =

x1 + K + x n
n

La media aritmetica sintetizza in un unico valore tutte le misure osservate


per un certo carattere nelle diverse unit statistiche.
Torniamo ora al nostro problema relativo al confronto tra le diverse regioni
in merito alle altezze degli iscritti di leva (esempio 1). Purtroppo non disponiamo
dei dati originali, ma solo delle distribuzioni statistiche relative a classi di altezze;
non possiamo, quindi, applicare direttamente la formula di calcolo riportata sopra.
LISTAT per possiede i dati originali e ha calcolato le medie che ci interessano
per ogni regione.
Ora abbiamo gli elementi per elencare le regioni in ordine di altezza
utilizzando la media come valore rappresentativo di ogni regione (tabella 3.3).
Tabella 3.3 Altezze medie in ordine crescente degli iscritti di leva nati nellanno
1972 per regione.
Regione
Sardegna
Calabria
Sicilia
Basilicata
Campania
Molise
Puglia
Abruzzo
Lazio
Liguria

Statura media
170,71
171,44
171,96
172,16
172,67
172,70
172,79
173,85
174,23
174,45

Regione
Piemonte
Marche
Umbria
Lombardia
Emilia-Romagna
Toscana
Valle dAosta
Trentino-A. Adige
Veneto
Friuli-V. Giulia

58

Statura media
174,48
174,51
174,56
174,63
174,99
175,21
175,31
175,91
176,10
177,35

M. Bultrini C. Rossi, Elementi di statistica sociale

Esempio 3. Una sperimentazione della TEXACO (3).

Possiamo anche utilizzare il concetto di media per confrontare le prestazioni


dei due filtri antirumore (gi visti negli esempi 1 e 4 dellUnit 2) a partire dai dati
relativi al livello di rumore separati per i due tipi di filtro (tabella 2.14),
otteniamo:
M(filtro 1) =

760 + 760 + 770 + 785 + 785 + 790 + 810 + 820 + 820


+
18

835 + 835 + 835 + 840 + 840 + 845 + 845 + 850 + 855


=
18
=

M(filtro 2) =

14680
= 815,56
18

760 + 765 + 770 + 775 + 775 + 775 + 815 + 820 + 820 + 820
+
18
+

820 + 820 + 825 + 825 + 825 + 825 + 825 + 825


=
18
=

14485
= 804,72
18

Come si vede, il confronto delle medie conferma quanto si era osservato


analizzando le distribuzioni cumulate, ovvero il secondo tipo di filtro sembra
leggermente migliore del primo.
Osserviamo che ogni valore compare nella somma un numero di volte
uguale alla sua frequenza assoluta, possiamo, quindi, sostituire la somma semplice
con quella che si ottiene applicando la propriet associativa delladdizione e
scrivere, per esempio:
M(filtro 2) =

760 + 765 + 770 + 3 (775) + 815 + 5 (820 ) + 6 (825)


=
18
=

14485
= 804,72
18

Inoltre, il numero totale delle misure che compare al denominatore si ottiene


come somma di tutte le frequenze, cio:
18 = 1 + 1 + 1 + 3 + 1 + 5 + 6

59

M. Bultrini C. Rossi, Elementi di statistica sociale

Definizione
La media aritmetica di n valori x1,, xn, ciascuno dei quali si presenta con
frequenza f1,f2,,fn, si calcola mediante la formula:
M =

x1 f 1 + K + x n f n
f1 + K + f n

Si parla in questo caso di media aritmetica ponderata, in quanto ciascuno


dei valori x1,, xn interviene nel calcolo della media con un peso dato dalla sua
frequenza.
Esercizio 1.

Quanto vale il livello medio di rumore applicando il tipo di silenziatore


standard alle auto di media dimensione? E se si applica il silenziatore di nuovo
tipo?
Svolgimento

I valori del livello di rumore corrispondenti alle auto di media dimensione


cui stato applicato il silenziatore standard sono: 840, 840, 845, 855, 850;
facendone la somma e dividendo per 6, si ottiene M(filtro 1) = 845,83. Per il
nuovo tipo, le corrispondenti misure sono: 820, 820, 825, 815, 825, 825; quindi la
loro media : M(filtro 2) = 821,67.
Osserviamo che il valore della media ottenuto in entrambe le situazioni
dellesercizio 1:

non coincide con nessuno dei valori effettivamente osservati;

compreso tra il valore minimo osservato e il valore massimo.

La prima osservazione non rappresenta una propriet caratteristica della


media, infatti pu succedere che il valore della media coincida con uno dei valori
effettivamente osservati. La seconda osservazione, invece, evidenzia una propriet
caratteristica della media che possibile dimostrare.
Propriet
Considerati n valori x1,, xn, indicata con M(X) la loro media aritmetica e
detti min e max il minimo e il massimo tra essi, risulta:

min M ( X ) max
Dimostrazione.
Per la definizione di minimo e massimo risultano le seguenti relazioni
dordine:

60

M. Bultrini C. Rossi, Elementi di statistica sociale

min x1 max
min x 2 max
M
min x n max

min
min
14+4
4
2+4K
4min
4
3 x1 + x 2 + K + x n max
14+4max
42+
4K
4max
4
3
n volte

n volte

dividendo ciascuna delle somme per n si ottiene:


n volte
n volte
6444
74448
6444
74448
min + min + K + min x1 + x 2 + K + x n max + max + K + max

n
n
n

cio:
n min
n max
M (X )
n
n
da cui semplicemente:
min M ( X ) max .

Esercizio 2. Una sperimentazione della TEXAXO(4).

Lapplicazione del nuovo filtro antirumore risulta in media pi conveniente


sulle auto di media dimensione o su quelle di grande dimensione?
Esercizio 3.

Quanti viaggi in Italia hanno fatto in media gli intervistati davanti al


supermercato (dati tabella 2.4)? Quanti viaggi allestero?
Esercizio 4.

Hanno effettuato mediamente pi viaggi allestero i giovani al di sopra dei


25 anni o quelli di et maggiore?
Esercizio 5.

Hanno effettuato mediamente pi viaggi in Italia i maschi o le femmine?

61

M. Bultrini C. Rossi, Elementi di statistica sociale

La media aritmetica gode di altre due importanti propriet che cercheremo


di illustrare a partire da esempi.
Esempio 4.

Supponiamo di voler determinare laltezza media delle sei montagne pi


alte della Terra. A tale scopo consultiamo un atlante e ci annotiamo le altezze
(tabella 3.4).
Tabella 3.4 Altezze delle montagne pi alte della Terra.
Monte
Everest
K2
Kanchenjunga
Lhotse I
Makalu
Lhotse II

Altezza in metri
8846
8616
8586
8501
8481
8400

Altezza in piedi
29022,3
28267,7
28169,3
27890,4
27824,8
27559,1

In tale tabella abbiamo indicato per ciascun valore anche la corrispondente


altezza in piedi, unit di misura dei paesi anglosassoni, moltiplicando per il
coefficiente di conversione che approssimiamo a 3,28084 (1 piede = 0,3048 metri
1 metro = 1 0,3048 piedi).
Laltezza media in metri Mm corrisponde pertanto alla media aritmetica dei
valori in metri riportati, pertanto:

M m (X ) =

8846 + 8616 + 8586 + 8501 + 8481 + 8400


= 8571,67
6

Calcoliamo, ora, laltezza media in piedi Mp(X):


M p (X ) =

29022,3 + 28267,7 + 28169,3 + 27890,4 + 27824,8 + 27559,1


= 28122,27
6

Avremmo ottenuto lo stesso valore moltiplicando semplicemente laltezza media


in metri per il coefficiente di conversione 3,28084, ovvero
8571,67 3,28084 = 28122,27.
Il risultato precedente vale in generale, poich si pu dimostrare che la media
aritmetica verifica la seguente propriet:

62

M. Bultrini C. Rossi, Elementi di statistica sociale

Propriet (Omogeneit)
Se M(X) la media aritmetica dei valori x1,, xn allora la media aritmetica
dei valori k x1 ,K , k x n k M ( X ) .
Esempio 5.

Consideriamo una famiglia composta da 5 componenti: padre, madre e tre


figli, con et rispettive:
Componente Padre Madre 1 figlio 2 figlio 3 figlio
Et
47
44
17
15
12

Risulta che let media di tale nucleo familiare 27 anni.


Supponiamo di voler calcolare, di nuovo, tale media fra 5 anni, si avranno
allora i seguenti dati:
Componente Padre Madre 1 figlio 2 figlio 3 figlio
Et
52
49
22
20
17

per cui risulter:


M (X ) =

52 + 49 + 22 + 20 + 17
= 32
5

Tale risultato si poteva ottenere pi facilmente traslando di 5 anni il


valore medio che avevamo gi ottenuto in precedenza cio:
27 + 5 = 32
Questo vale poich la media aritmetica verifica la seguente propriet:
Propriet (Traslazione)
Se M(X) la media aritmetica dei valori x1,, xn, allora M(X)+k la media
aritmetica dei valori x1+k,, xn+k, dove k un qualsiasi numero.
Le due propriet precedenti possono sintetizzarsi nellunica seguente:
Propriet
Se M(X) la media aritmetica dei valori x1,, xn, allora hM(X) + k la
media aritmetica dei valori hx1+k,, hxn+k, dove h e k sono una coppia qualsiasi
di numeri.

63

M. Bultrini C. Rossi, Elementi di statistica sociale

possibile calcolare la media aritmetica anche per dati raggruppati pur di


scegliere un valore interno a ogni classe come valore rappresentativo della classe.
Naturalmente il risultato non risulta identico a quello che si avrebbe considerando
gli effettivi valori osservati.
Esempio 6. Una sperimentazione della TEXACO (5).

Consideriamo lesempio del livello di rumore (tabella 2.15) e assumiamo


come valore rappresentativo il valore medio di ogni classe, che si calcola
semplicemente sommando il minimo e il massimo e quindi dividendo per 2. In
questo modo otteniamo la tabella 3.5.
Tabella 3.5 Distribuzioni di frequenza per il carattere quantitativo livello di rumore
(in decibel) con valori raggruppati in classi identificate dal valore medio.
Intervalli Frequenza assoluta Frequenza assoluta
(tipo 1)
(tipo 2)
769,5
3
6
789,5
3
0
809,5
1
1
829,5
5
11
849,5
6
0

Calcolando i valori medi mediante lutilizzo della formula per la media


ponderata si ottiene:
M(filtro 1) = 818,39;

M(filtro 2) = 808,39

Osserviamo che i valori ottenuti sono entrambi di poco maggiori di quelli


ottenuti dal calcolo diretto sulle misure effettive.
Esempio 7. Le altezze dei diciottenni di leva (3).

In alcuni casi pu essere meno naturale scegliere un valore rappresentativo


per le classi, questo accade, per esempio, quando le classi sono aperte come si
verifica per i dati ISTAT sulla statura degli iscritti alla leva relativamente alla
prima e allultima classe. Consideriamo la tabella 3.6 in cui riportiamo
linformazione relativa a tutti i dati nazionali.
Tabella 3.6 Distribuzione di frequenza (%) dellaltezza (cm) degli iscritti di leva nati
nellanno 1972 (Fonte ISTAT, Compendio statistico 1994).
Classi di
altezza
Italia

Fino
a 159
1,7

160-164

165-169

170-174

175-179

180-184

185-189

6,8

18,6

29,1

25,2

13,2

4,3

Pi
di 189
1,1

Decidiamo di rappresentare ogni classe chiusa con il valore medio, la prima


classe con il valore 150 e lultima con il valore 195 (tabella 3.7).
64

M. Bultrini C. Rossi, Elementi di statistica sociale

Tabella 3.7 Distribuzione di frequenza (%) dellaltezza (cm) degli iscritti di leva
nati nel 1972 (Fonte ISTAT, Compendio statistico 1994).

Classi di altezza 150 162 167 172 177 182 187 195
Italia
1,7 6,8 18,6 29,1 25,2 13,2 4,3 1,1
Procediamo al calcolo della media:
M(altezza) =

150 (1,7) + 162 (6,8) + 167 (18,6) + 172 (29,1) + 177 (25,2)
+
1,7 + 6,8 + 18,6 + 29,1 + 25,2 + 13,2 + 4,3 + 1,1
+

182 (13,2) + 187 (4,3) + 195 (1,1)


17349,4
=
= 173,5
1,7 + 6,8 + 18,6 + 29,1 + 25,2 + 13,2 + 4,3 + 1,1
100

che risulta leggermente inferiore a quella calcolata dallISTAT sulle misure


effettive (173,96).
Per completare lanalisi riportiamo anche le rappresentazioni grafiche
relative alla tabella 3.7 (diagramma a barre e spezzata delle frequenze) in figura
3.1.
Figura 3.1 Rappresentazioni grafiche relative alla tabella 3.7 (diagramma a
barre e spezzata delle frequenze)
Spezzata delle frequenze della
distribuzione percentuale delle stature
(iscritti alla leva nati nel 1972)

Diagramma a barre della distribuzione


delle stature in Italia (iscritti alla leva 1972)

30
frequenza percentuale

frequenza percentuale

35

25
20
15
10
5
0
150

162

167

172

177

182

187

35
30
25
20
15
10
5
0
150

195

162

167

172

177

182

187

195

classi di statura

classi di statura

Esercizio 6.

Si calcolino le medie regionali per i dati di tabella 3.1, seguendo lo stesso


procedimento utilizzato per il calcolo della media nazionale, e si confronti
lordinamento regionale che si ottiene con quello ottenuto sulla base dei dati sulle
medie forniti dallISTAT e calcolati sulle misure effettive (tabella 3.3).

65

M. Bultrini C. Rossi, Elementi di statistica sociale

3.2.2 LA MEDIA GEOMETRICA


Supponiamo di dover risolvere il seguente problema.
Una popolazione di batteri in una certa coltura cresciuta da 1000 a 8000
individui in 3 giorni. Quanto si accresce in media ogni giorno, ovvero qual il
tasso di crescita medio giornaliero?
Come possiamo procedere?
Tale problema non diverso da quello che viene presentato qui di seguito.
Esempio 8.

Supponiamo che il signor Giovanni abbia investito in banca un ammontare e


di euro al tempo iniziale e che nei due anni successivi i rendimenti, espressi come
fattori di crescita, siano stati r1 e r2, in modo che il gruzzolo e dopo 2 anni
risulta:
e = (r1 r2) e
Ci chiediamo: quale tasso annuale di rendimento medio r* fornirebbe lo
stesso risultato? In parole semplici, quale fattore di crescita costante r*,
moltiplicato per se stesso e poi per il gruzzolo iniziale e, darebbe come risultato
e? Per determinare tale valore occorre risolvere lequazione nellincognita r*:
e = (r*)2 e
Lequazione si risolve immediatamente ponendo:
(r*)2 = (r1 r2)
che fornisce come soluzione:
r* =

r1 r2

r* la media geometrica dei 2 tassi annuali.

Definizione.
Dati gli n valori positivi x1, x2, , xn che costituiscono le misure relative
allosservazione di un carattere quantitativo, si dice media geometrica la radice nesima con segno positivo del loro prodotto. Se indichiamo tale risultato con la
lettera G, possiamo scrivere:
G = n x1 x 2 K x n .

66

M. Bultrini C. Rossi, Elementi di statistica sociale

Possiamo adesso risolvere il problema della crescita dei batteri.


Detti k1, k2, k3, i tassi di crescita nei tre giorni, impostando le equazioni:
N1 = k1N0, N2 = k2N1 = k1 k2N0, N3 = k3N2 = k1 k2 k3N0, si ricava che N3/N0 =
k1 k2 k3 = 8; estraendo la radice cubica si verifica subito che la media geometrica
richiesta 2.
Esercizio 7.

Una popolazione di scimmie passata nel corso di tre anni da 1000 a 3375
individui. Qual il tasso medio di crescita annuale?
Esercizio 8.

In corrispondenza dei tre ultimi censimenti del secolo scorso i dati (in
milioni di individui) della popolazione italiana sono risultati:
Anno del censimento
1971
1981
1991

Popolazione in milioni di individui


54,137
56,557
57,441

Qual stato il tasso di incremento decennale tra il 1971 e il 1981? Qual


stato il tasso di incremento decennale tra il 1981 e il 1991? E quello medio
decennale tra il 1971 e il 1991?
Se tra il 1991 e il 2001 il tasso di incremento fosse rimasto pari a quello
medio determinato, quanti milioni di individui ci saremmo aspettati di rilevare al
censimento del 2001?
Esercizio 9.

Una popolazione batterica in una certa coltura cresciuta da 1000 a 64000


individui in 3 ore. Quanto si accresce in media in unora, cio qual il tasso
medio di crescita in unora?
Osserviamo che se consideriamo la media aritmetica e la media geometrica
di due valori, per esempio 5 e 3, otteniamo che la prima maggiore della seconda.
Questo corrisponde ad una propriet generale che lega le due medie.
Propriet.
La media geometrica dei numeri x1, x2, , xn sempre minore o uguale alla
media aritmetica dei numeri dati.
Dimostrazione.
Nel caso di due soli numeri a e b questo avviene perch
67

M. Bultrini C. Rossi, Elementi di statistica sociale

a b

e perci
a + b 2 ab 0

da cui si ottiene la disuguaglianza


a+b
ab
2
Nel caso generale la dimostrazione solo un po pi complessa, ma si pu
ricondurre al caso semplice di due soli valori.

3.3 LE MEDIE DI POSIZIONE


Esistono altri indici di posizione, non analitici, che forniscono informazioni
diverse sulla distribuzione statistica.

3.3.1 LA MEDIANA
Unimportante media di posizione per la descrizione sintetica di una
distribuzione statistica la mediana, definita come quel valore che nella
successione dei dati, disposti in ordine non decrescente (o non crescente), divide
la graduatoria in due parti tali che il numero dei termini che la precede uguale al
numero dei termini che la segue: in altre parole la mediana occupa il posto
centrale della successione dei valori. Poich per calcolare la mediana dobbiamo
ordinare le osservazioni (o le modalit nel caso in cui compaiono le frequenze)
segue che ha senso parlare di mediana in relazione a caratteri sia quantitativi sia
qualitativi ordinati.
In generale si pu dare la regola di calcolo che definisce la mediana nel
modo seguente.
Se si ha un numero dispari n di osservazioni, ordinate in modo non
crescente o non decrescente, la mediana (Me) il termine che occupa il posto
centrale, ovvero la posizione (n+1)/2.
Se le osservazioni sono in numero n pari la mediana (Me) viene definita
come semisomma dei termini che occupano i posti n/2 (n/2)+1.
Esempio 9. Una sperimentazione della TEXACO (6).

Consideriamo i dati della TEXACO sul livello di rumore per i due filtri
separatamente e ordiniamoli in modo crescente:
Filtro 1: 760 760 770 785 785 790 810 820 820 835 835 835 840 840 845 845 850 850

68

M. Bultrini C. Rossi, Elementi di statistica sociale

Filtro 2: 760 765 770 775 775 775 815 820 820 820 820 820 825 825 825 825 825 825

Le due mediane risultano dalla semisomma dei termini posti al nono e


decimo posto nelle due graduatorie:
Me(filtro1) = 827,5; Me(filtro2) = 820
Anche le mediane si comportano come le medie, pur avendo valori diversi
da quelle. Infatti la mediana relativa al filtro2 minore di quella relativa al filtro1.
Naturalmente quando i dati sono molti e i valori non ordinabili in modo cos
semplice, il calcolo della mediana pu risultare laborioso.
Esercizio 10.

Consideriamo le seguenti misure che furono ottenute da Henry Cavendish


nel 1798 usando una bilancia di torsione e che presentano la misura della densit
della Terra come multiplo della densit dellacqua, che viene, quindi, assunta
come unit di misura.
misurazione valore misurazione valore misurazione valore
1
5,50
11
5,29
21
5,75
2
5,57
12
5,34
22
5,29
3
5,42
13
5,26
23
5,10
4
5,61
14
5,44
24
5,86
5
5,53
15
5,46
25
5,58
6
5,47
16
5,55
26
5,27
7
4,88
17
5,34
27
5,85
8
5,62
18
5,30
28
5,65
9
5,63
19
5,36
29
5,39

Determinare la mediana delle misure.


Svolgimento

Per determinare la mediana occorre porre le misure in ordine crescente e


identificare quella che si trova al quindicesimo posto. Per semplicit elenchiamo
sotto sulla prima riga le 14 misure, sulla seconda la quindicesima (mediana) e
sulla terza le ultime 14.

4,07 4,88 5,10 5,26 5,27 5,29 5,29 5,30 5,34 5,34 5,36 5,39 5,42 5,44
5,46
5,47 5,50 5,53 5,55 5,57 5,58 5,61 5,62 5,63 5,65 5,75, 5,79 5,85 5,86

Il valore della mediana risulta Me = 5,46.

69

M. Bultrini C. Rossi, Elementi di statistica sociale

Per completezza calcoliamo anche la media (aritmetica) che risulta M = 5,42


ed un valore molto simile a quello della mediana.
possibile determinare graficamente il valore approssimato della mediana a
partire dalla rappresentazione come ogiva della distribuzione cumulata delle
frequenze relative. Consideriamo questa rappresentazione per le misure
dellesercizio 10 che riportiamo in figura 3.2.
Figura 3.2
Distribuzione relativa cumulata della "densit della Terra"

Distribuzione relativa
cumulata

1,2
1
0,8
0,6
0,4
0,2
0
3,5

4,5

5,5

6,5

Densit della Terra

Per definizione la mediana quel valore delle misure che corrisponde al


valore 0,5 della distribuzione cumulata delle frequenze relative. Nel nostro
grafico, quindi, dobbiamo determinare il valore dellascissa cui corrisponde il
valore 0,5 dellordinata. Per fare questo possiamo tracciare, a partire dallasse
delle ordinate, in corrispondenza al valore 0,5 la semiretta parallela allasse delle
ascisse, determinare lintersezione di tale semiretta con logiva e, da quel punto,
tracciare la semiretta parallela allasse delle ordinate fino ad intersecare lasse
delle ascisse: il punto dintersezione corrisponde al valore della mediana.
Riportiamo in figura 3.3 la costruzione descritta per i dati dellesercizio 10.
Esercizio 11.

Determinare la mediana e la media della distribuzione delle et riportata


nella matrice dei dati della tabella 2.4.
Possiamo commentare dicendo che il valore relativamente alto della
mediana in gran parte dovuto ad alcune et piuttosto elevate ma che, comunque,
il nostro campione costituito in gran parte di persone relativamente giovani?

70

M. Bultrini C. Rossi, Elementi di statistica sociale

Figura 3.3

Distribuzione relativa
cumulata

Distribuzione relativa cumulata della "densit della Terra"

1.2
1
0.8
0.6
0.4
0.2
0
3.5

4.5

5.5

6.5

Densit della Terra

Nei casi trattati abbiamo calcolato la mediana di successioni ordinate di dati;


quando si hanno a disposizione i dati sotto forma di distribuzioni di frequenza, la
mediana va calcolata sulla base della distribuzione cumulata delle frequenze delle
modalit, precedentemente ordinate in tabella.
Esempio 10.

Supponiamo di voler calcolare il voto mediano di maturit conseguito in un


liceo scientifico in base ai dati riportati in tabella.
Voto 60 62 66 75 80 82 88 90 95 96 100
7
Freq. 15 6 10 7 21 18 9 15 18 5

Il valore mediano quello conseguito dallo studente che ha lo stesso


numero di compagni che hanno superato lesame con un voto pi alto o pi basso
del suo.
Tale studente non immediatamente individuabile con la procedura finora
utilizzata; in presenza di frequenze dobbiamo fare un passaggio intermedio:
determinare la distribuzione cumulata delle frequenze.

Voto Frequenza Frequenza cumulata


60
15
15
62
6
21
66
10
31
75
7
38

71

M. Bultrini C. Rossi, Elementi di statistica sociale

80
82
88
90
95
96
100

21
18
9
15
18
5
7

59
77
86
101
119
124
131

Nel caso in esame, poich il totale delle osservazioni 131, si avr che la
mediana il voto corrispondente al (131+1)/2 = 66 posto della successione. Per
cui il valore mediano pari a 82, pi esattamente il 7 nella sequenza dei 18
studenti che hanno conseguito tale votazione (infatti fino al 59 posto della
graduatoria ci sono coloro che hanno un voto inferiore o uguale a 80, per arrivare
a colui che occupa il 66 posto dobbiamo conteggiare altre 7 persone che hanno
un voto di 82).
Se i valori del carattere osservato sono raggruppati in classi oppure si tratta
di un carattere qualitativo ordinato, come per esempio il titolo di studio in tabella
2.4, la procedura la stessa soltanto che non parleremo di mediana ma di classe
mediana, che la classe che al suo interno contiene il valore mediano.
Esercizio 12.

Determinare la classe mediana per i dati di tabella 3.6.


Esercizio 13.

Determinare la classe mediana per quanto riguarda il titolo di studio in


relazione ai dati di tabella 2.4.

3.3.2 I QUARTILI
possibile estendere il concetto di media di posizione a partire dalla
mediana. In particolare, pu essere interessante suddividere la distribuzione in
quattro parti definendo i quartili:
Definizione
Si dice primo quartile di una distribuzione statistica, e si indica con q1/4, il
valore che lascia alla sua sinistra un quarto dei valori osservati e alla sua destra .
Il secondo quartile la mediana stessa.
Si dice terzo quartile di una distribuzione statistica, e si indica con q3/4, il
valore che lascia alla sua sinistra dei valori osservati e alla sua destra un quarto.
Nel caso della distribuzione delle altezze della tabella 3.6, per determinare
le classi che corrispondono ai diversi quartili dobbiamo identificare in
corrispondenza a quali classi di altezze la distribuzione percentuale raggiunge il
72

M. Bultrini C. Rossi, Elementi di statistica sociale

valore 25 (primo quartile), il valore 50 (mediana), il valore 75 (terzo quartile).


Dallosservazione della tabella otteniamo:
q1/4 = classe(160-164);
mediana = q1/2 = classe(170-174);
q3/4 = classe(175-179).

Esercizio 14.

Determinare i quartili per i dati dellesercizio 10.


Svolgimento

Dalla definizione appena data si ricava che il primo quartile non altro che
la mediana della distribuzione delle misure inferiori alla mediana della
distribuzione originale e il terzo quartile la mediana delle misure superiori alla
mediana della distribuzione originale.
Applicando la regola di calcolo della mediana, rispettivamente alle 14
misure inferiori e alle 14 misure superiori, otteniamo:
q1/4 = 5,295 (semisomma del settimo e ottavo valore inferiore);
mediana = q1/2 = 5,46;
q3/4 = 5,61 (semisomma del settimo e ottavo valore superiore).
Anche per i quartili si pu procedere alla determinazione grafica in analogia a
quanto visto per la mediana. Il primo quartile si otterr a partire dalla semiretta
posta al livello 0,25 dellasse delle ordinate, mentre per il terzo quartile si partir
dal livello 0,75.
Nella figura 3.4 sono rappresentati i quartili dellesercizio 10.

73

M. Bultrini C. Rossi, Elementi di statistica sociale

Figura 3.4
Distribuzione relativa cum ulata della "densit della Terra"

Distribuzione relativa
cumulata

1,2
1
0,8
0,6
0,4
0,2
0
3,5

4,5

5,5

6,5

Densit della Terra

Esercizio 15.

Determinare i quartili per le misure relative al livello di rumorosit per i due


filtri separatamente in tabella 2.14 dellUnit 2.

3.3.3 LA MODA
Consideriamo la distribuzione del carattere sesso per i dati dellesercizio 7
della seconda Unit.
Modalit del carattere sesso Frequenza assoluta
Maschio
4
Femmina
6

Diciamo che la modalit femmina la moda della distribuzione.


Definizione
Si dice moda la modalit cui associata la maggiore frequenza, cio la
modalit che si presenta pi volte.
Dire questanno va di moda o va di moda significa indicare qual la
tendenza della maggioranza degli individui. evidente che la moda pu essere
definita per qualsiasi tipo di carattere. Nellesempio 10 il valore modale 80, che
il voto cui corrisponde la massima frequenza.
Se i valori di un carattere quantitativo sono raggruppati in classi di uguale
ampiezza, anzich di moda parliamo di classe modale, ovvero la classe in

74

M. Bultrini C. Rossi, Elementi di statistica sociale

corrispondenza della quale si ha la massima frequenza. Le classi modali per i dati


dellesercizio 8 dellUnit 2 si leggono immediatamente dalla figura 2.14 e
risultano:
filtro1: 840 860; filtro2: 820 840.

Esercizio 16.

Suddividere le misure dellesercizio 10 in classi di ampiezza 0,10.


Determinare quindi la distribuzione di frequenze, la distribuzione cumulata, la
classe mediana e la classe modale.
Esercizio 17.

Qual la moda della distribuzione rappresentata in figura 3.1?

3.4 INDICI DI DISPERSIONE


Supponiamo di dover eseguire unindagine comparativa sulle condizioni
economiche di due paesi A e B e che il rapporto della ricchezza complessiva
rispetto al numero di abitanti sia, nei due paesi, uguale. Possiamo concludere che
le condizioni dei due paesi sono, per questanno, del tutto simili?
Certamente no. Infatti il valore uguale delle due statistiche pu celare
differenze fortissime. La ricchezza uno di quei caratteri che pu variare
moltissimo da individuo a individuo e potrebbe benissimo capitare che in uno dei
due paesi sia abbastanza uniformemente distribuita tra gli abitanti, mentre
nellaltro potrebbe essere concentrata principalmente nelle mani di pochi
privilegiati. Lo studio comparativo non potr, quindi, fermarsi allanalisi basata
soltanto su un indice di posizione, ma dovr essere integrato da uno studio della
variabilit, cio della tendenza a presentare nei singoli casi valori differenti, che il
carattere manifesta nei due paesi.
Una prima informazione a questo proposito si ha considerando la differenza
tra il valore pi grande e il valore pi piccolo tra quelli osservati. Tale differenza,
che possiamo indicare con D, si dice campo di variazione. Tale indice piuttosto
grossolano perch non tiene conto di ci che accade per tutti i valori intermedi.
Esempio 11.

Per chiarire consideriamo i seguenti gruppi di misure e calcoliamone la


media e il campo di variazione.

75

M. Bultrini C. Rossi, Elementi di statistica sociale

Unit Gruppo 1 Gruppo 2 Gruppo 3 Gruppo 4 Gruppo 5


1
49
48
48
54
60
2
51
52
51
49
36
3
49
48
49
46
31
4
51
52
52
49
50
5
49
48
47
51
48
6
51
52
52
53
50
7
49
48
46
50
54
8
51
52
51
50
56
9
49
48
53
49
62
10
51
52
51
49
53
500
500
500
500
500
Somma

Dal calcolo delle medie risulta che tutti i gruppi hanno la stessa media M =
50. Calcoliamo allora i campi di variazione:
D(gruppo 1) = 2;
D(gruppo 2) = 4;
D(gruppo 3) = 7;
D(gruppo 4) = 8;
D(gruppo 5) = 31.
Come si vede gi dal campo di variazione i 5 gruppi mostrano situazioni ben
diverse rispetto alla distribuzione dei valori. Se, per, si vuole tenere conto anche
dei valori intermedi occorre utilizzare qualche altro strumento. La prima cosa che
ci viene in mente di misurare quanto i singoli valori differiscano dalla media
della distribuzione. Supponiamo che la media in questione sia la media aritmetica
(ma pu essere un altro valor medio qualsiasi). Possiamo dare la seguente
definizione.
Definizione
Si definiscono scarti dalla media le differenze fra ciascun valore osservato e
la media aritmetica. Pi precisamente: dati i valori x1, x2, , xn e la loro media M,
si definiscono scarti dalla media le differenze: x1-M, x2-M, , xn-M.
Poich la media compresa fra il valore pi piccolo e quello pi grande,
alcuni scarti sono positivi e altri negativi.
Esercizio 18.

Calcolare gli scarti dalla media aritmetica per i dati dellesempio 11.

76

M. Bultrini C. Rossi, Elementi di statistica sociale

Svolgimento.

Per calcolare gli scarti basta sottrarre ad ogni valore riportato in tabella il
valore della media (50). Si ottiene cos:
Unit Gruppo 1 Gruppo 2 Gruppo 3 Gruppo 4 Gruppo 5
-1
-2
-2
4
10
1
1
2
1
-1
-14
2
-1
-2
-1
-4
-19
3
1
2
2
-1
0
4
-1
-2
-3
1
-2
5
1
2
2
3
0
6
-1
-2
-4
0
4
7
1
2
1
0
6
8
-1
-2
3
-1
12
9
1
2
1
-1
3
10
0
0
0
0
0
Somma

Osserviamo che il valore assoluto dei singoli scarti risulta maggiore per i
gruppi in cui le misure mostrano maggiore variabilit e che, comunque, la somma
degli scarti risulta sempre nulla. Questa una propriet generale che pu essere
dimostrata. Risulta infatti che:
Propriet
La somma di tutti gli scarti dalla media aritmetica uguale a zero.
Dimostrazione
Indicando con S tale somma, e ricordando che:
M =

x1 + K + x n
n

ovvero nM = x1++ xn, si ha:


S = ( x1 M ) + ( x 2 M ) + K + (x n M ) =
= x1 + x 2 + K + x n M M K M =
= x1 + x 2 + K + x n nM = nM nM = 0

3.4.1 LA VARIANZA
Quanto detto finora indica che la variabilit e gli scarti sono fra loro legati e
che, quindi, si pu pensare di misurare la variabilit di un fenomeno statistico
77

M. Bultrini C. Rossi, Elementi di statistica sociale

considerando e sintetizzando la distribuzione degli scarti. Posto ci, resta per il


fatto che tale sintesi non pu essere fatta calcolando semplicemente la media degli
scarti, dato che questa nulla in quanto scarti postivi e scarti negativi si
compensano. Linconveniente pu essere superato ricorrendo a un espediente:
anzich considerare la media degli scarti consideriamo la media degli scarti al
quadrato, che sono tutti positivi. Questo indice si chiama varianza.
Definizione
Indichiamo la varianza con il simbolo 2 :

2 =

(x1 M )2 + (x2 M )2 + K + (x n M )2
n

Osserviamo che:
Propriet

La varianza sempre positiva.


Infatti il numeratore somma di addendi tutti positivi.
Propriet

La varianza uguale a zero se (e solo se) la variabilit nulla.


Infatti, in questo caso si ha:
x1 = x 2 = K = x n = M

e, quindi tutti gli addendi che figurano al numeratore della precedente relazione
sono uguali a zero; viceversa, se la varianza uguale a zero, essendo il
numeratore somma di termini tutti non negativi, necessario che questi siano tutti
nulli, ovvero x1 = x 2 = K = x n = M .
Propriet

La varianza tanto pi elevata quanto pi elevata la variabilit.


Infatti, se la variabilit pi elevata, i termini al numeratore tenderanno ad
essere pi grandi.
Esercizio 19.

Calcolare le varianze per i dati dellesercizio 18.


Dal calcolo otteniamo i seguenti valori delle varianze:
2(gruppo 1) = 1;

78

M. Bultrini C. Rossi, Elementi di statistica sociale

2(gruppo 2) = 4;
2(gruppo 3) = 5;
2(gruppo 4) = 4,6;
2(gruppo 5) = 8,66;

Confrontando i valori ottenuti per il gruppo 3 e per il gruppo 4, possiamo


osservare che la varianza pi grande corrisponde a un campo di variazione pi
piccolo; questo sta a indicare che linfluenza dei valori interni al campo di
variazione rilevante nel misurare la variabilit.
Nel caso di distribuzioni con dati raggruppati in classi vale il discorso gi
fatto per il calcolo della media aritmetica: occorre assumere dei valori
rappresentativi per le classi e procedere poi al calcolo della varianza mediante la
formula per la media ponderata.
Esercizio 20.

I dati riportati qui di seguito rappresentano la retribuzione annua (in migliaia


di dollari) di 59 dirigenti americani.
145
621
262
208
362
424
339
736
291
58

498
643
390
332
750
368
659
234
396
300

343
536
543
217
298
1103
406
254
862
204

206
250
21
298
350
800
726
370
536
291

808
543
149
350
242
198
213
296
317
482

155
802
200
282
573
388
250
396
572

Raggruppando in classi di ampiezza 200 dollari, costruire la distribuzione di


frequenza e rappresentarla con un istogramma. Preso il punto centrale di ogni
classe come rappresentativo, calcolare la media, la moda, la mediana, i quartili e
la varianza.

3.4.2 LO SCARTO QUADRATICO MEDIO


Molto spesso, per misurare il grado di variabilit di una distribuzione,
preferibile calcolare la radice quadrata (positiva) della varianza.
Definizione

Lo scarto quadratico medio, o scostamento quadratico medio o scarto


standard si ottiene dal calcolo della radice quadrata della varianza:

79

M. Bultrini C. Rossi, Elementi di statistica sociale

= 2 .
Per capire il motivo di questa preferenza riprendiamo lesempio delle
retribuzioni annue (esercizio 20):

i dati osservati sono espressi in dollari (migliaia);

la media aritmetica espressa in dollari (migliaia);

la varianza espressa in dollari (migliaia) al quadrato;

lo scarto quadratico medio espresso in dollari (migliaia) perch la


radice quadrata della varianza.

Dunque, la media aritmetica e la varianza sono espresse in unit di misura


diverse (rispettivamente in dollari e dollari al quadrato) mentre la media
aritmetica e lo scarto quadratico medio sono espressi nella medesima unit di
misura (dollari). Questo un fatto molto importante nel confronto di situazioni
diverse.
Esercizio 21.

Calcolare gli scarti quadratici medi per i dati degli esercizi 19 e 20.

3.4.3 LO SCARTO INTERQUARTILE


Un ulteriore modo di misurare la variabilit di una distribuzione basato sul
calcolo dello scarto interquartile.
Definizione

Lo scarto interquartile la differenza tra i valori del terzo quartile e del


primo quartile: q3/4 q1/4.
Per i dati dellesercizio 20, per esempio, si ottiene:
q3/4 q1/4 = 347.
Osserviamo che, per come sono stati definiti il primo e il terzo quartile, la
percentuale di osservazioni comprese tra il loro valore esattamente 50.
Esercizio 22.

Calcolare scarto quadratico medio e scarto interquartile per tutte le misure


presentate nelle Unit 2 e 3 per cui tale operazione ha senso.

80

M. Bultrini C. Rossi, Elementi di statistica sociale

3.4.4 IL COEFFICIENTE DI VARIAZIONE


Supponiamo ora di voler trasformare in euro i dati dellesercizio 20 per
poterli meglio confrontare con la situazione del nostro paese. Ogni misura
espressa in dollari va moltiplicata per la quotazione del giorno corrente.
Ammettendo che il valore sia di 1,11 si ottiene:
= 246

M = 450

Chiaramente la variabilit delle misure non dipende dallunit di misura


utilizzata, cos per rendere pi facilmente confrontabili le misure della
dispersione, si pu rapportare il valore dello scarto quadratico medio al valore
della media espressa nella stessa unit di misura, ottenendo un indice che un
numero puro indipendente dallunit di misura utilizzata. Lindice che si ottiene in
questo modo si chiama coefficiente di variazione e si indica con CV.
Esercizio 23.

Calcolare il coefficiente di variazione per i dati dellesercizio 20 e


confrontare i valori ottenuti utilizzando come unit di misura il dollaro (migliaia)
e leuro.
Svolgimento

Calcolando il rapporto tra lo scarto quadratico medio e la media espressi in


dollari otteniamo CV = 1,83, che lo stesso valore che si ottiene anche dal calcolo
del rapporto delle stesse quantit espresse in euro.
Esercizio 24.

Calcolare il coefficiente di variazione per la variabile livello di rumore per


i due tipi di filtro (dati di tabella 2.1).
Esercizio 25.

In un collettivo in cui sono state rilevate le stature, in cm, e i pesi, in kg,


risulta:
peso medio = 67,6 kg = 7,8 kg
statura media = 171,7 cm = 7,7 cm

Quale delle due distribuzioni pi dispersa? In altre parole, risulta pi


variabile il peso o la statura?

81

M. Bultrini C. Rossi, Elementi di statistica sociale

Esercizio 26.

Negli Stati Uniti la statura viene rilevata in pollici. Un gruppo di studenti


americani ha una statura media di 69 pollici con uno scostamento quadratico
medio di 2,4 pollici. Un gruppo di studenti italiani ha una statura media di 175,3
cm e scostamento quadratico medio di 6 cm. In quale dei due gruppi la statura
pi variabile?

82