Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
2. Rassegna della letteratura teorica ed empirica disponibile sull'argomento: Dopo aver scelto il
tema e gli obiettivi dello studio, è fondamentale svolgere una rassegna bibliografica degli
studi che hanno affrontato lo stesso problema o di analoghi. Questi studi potranno essere di tipo
teorico o sperimentale. Da entrambi i tipi si possono ricavare informazioni utili per lo studio che si
sta affrontando. Una buona rassegna bibliografica è un passo tanto importante quanto spesso
disatteso. Se in passato condurre una ricerca bibliografica comportava parecchi sacrifici, oggi,
nell’era del digitale, le cose vanno meglio e si può condurre una ricerca e scaricare articoli da
internet attraverso l’utilizzo delle banche dati elettroniche.
3. Definizione delle ipotesi di ricerca: in questa fase diviene fondamentale formulare le ipotesi da
mettere alla prova nello studio. È importante sottolineare che quando un ricercatore conduce una
ricerca molto raramente rileva i dati su tutti i soggetti della popolazione di riferimento ma su un
gruppo più ristretto numericamente, un campione. Spieghiamo con un esempio i due termini:
vogliamo valutare l’utilizzo dei mezzi di comunicazione dei quindicenni italiani. La popolazione di
riferimento è rappresentata dai quindicenni italiani, ma intervistarli tutti sarebbe dispendioso e
difficilmente realizzabile, si preferisce svolgere l’indagine, somministrando un questionario ad un
gruppo di circa 5000 ragazzi (anziché i circa 500.000 che compongono la popolazione), ovvero un
campione, scelti in modo tale da essere un campione rappresentativo della popolazione (ogni
soggetto deve avere la stessa possibilità di essere incluso nel campione) ed estendere poi il risultato
ottenuto all’intera popolazione. È importante, quindi, comprendere che gli studi vengono spesso
condotti sui campioni ma servono per trarre conclusioni sulle popolazioni. Gli exit pool elettorali
sono un altro esempio. Quando, quindi, un ricercatore formula un’ipotesi, egli la formula pensando
alla popolazione e la verifica sul campione.
4. Identificazione del Piano Sperimentale o di rilevazione e Realizzazione dell’esperimento: in
questa fase occorre scegliere quali siano le condizioni più adeguate per condurre lo studio e come
misurare le variabili. Ciò implica la definizione delle variabili d’interesse e la scelta delle modalità di
misurazione delle variabili stesse.
5. Descrizione dei dati mediante statistiche descrittive e verifica delle ipotesi mediante
statistiche inferenziali: Dopo l’immissione dati, bisogna procedere con il controllo della loro qualità
onde evitare di condurre analisi statistiche su una base dati (o matrice dei dati) con errori di
immissione. Questa raccomandazione, è spesso disattesa e non è insolito che i ricercatori si ritrovino
a dover compiere delle analisi più volte, per la presenza di errori nei dati. Dopo aver controllato la
qualità dei dati, si procede, con software più o meno evoluti, al computo delle statistiche e al loro
utilizzo per sintetizzare e descrivere i dati, interpretarli e verificare le ipotesi di lavoro.
ESEMPIO: una delle raccomandazioni mediche che appaiono sui pacchetti di sigarette dice che
il fumo in gravidanza può provocare danni al feto, nascita prematura, e peso, alla nascita, inferiore
alla norma. Su che cosa si basano tali raccomandazioni? Per studiare gli effetti del fumo, tra il 1960
e il 1967, fu condotto uno studio sulle donne in gravidanza della città di San Francisco. Allo studio
parteciparono 15.000 famiglie. Insieme all’informazione sulle abitudini al fumo della madre, alla
nascita del bambino, venne misurato il peso di 1236 maschi, nati tra il 1960 e il 1961, e che erano
sopravvissuti almeno 28 giorni (oltre ad una serie di altre variabili). Da questa ricerca si sono ottenuti
interessanti risultati sugli effetti del fumo, per esempio, confrontando il peso di neonati provenienti
da madri fumatrici e non fumatrici.
CARATTERE E MODALITA’
Ogni fenomeno collettivo viene studiato mediante l’osservazione di una o più caratteristiche delle
unità statistiche della popolazione di interesse, ognuna delle quali è denotata carattere o variabile,
per sottolineare il fatto che può presentarsi in modo diverso nelle diverse unità statistiche. Ciascun
carattere è presente in ogni unità statistica con una ben determinata modalità.
ESEMPIO: Si consideri un gruppo di atleti iscritti ad una federazione calcistica. Per ogni calciatore
è possibile rilevare una serie di informazioni: età; data di nascita; luogo di nascita; nazionalità;
altezza; peso; pressione arteriosa; frequenza cardiaca; flusso espiratorio forzato ecc. Tali
informazioni costituiscono i caratteri di ogni unità statistica (calciatore) considerata. Se un calciatore
proviene dal Brasile ed un altro dall’Estonia, si dice che il carattere luogo di nascita presenta nel
primo calciatore modalità “Brasile”, nel secondo “Estonia”. Se i due sono alti entrambi 182, il
carattere altezza si presenta con la stessa modalità “182”.
I caratteri rilevati in ciascuna unità statistica sono generalmente di natura assai diversa. Alcune volte
esprimono delle informazioni qualitative relative ad attributi o qualifiche (come il sesso, il colore dei
capelli, il luogo di nascita) e sono detti qualitativi e vengono in genere contraddistinti mediante
attributi che specificano le proprietà dell’unità a cui si riferiscono. Altre volte esprimono la misura di
qualche grandezza, come il reddito, il peso, l’altezza, ecc., e sono caratteri quantitativi perché hanno
la peculiarità di essere espressi da numeri e risultano da un processo di misurazione che è possibile
sommare e sottrarre fra loro.
-Per tradurre in cifre i caratteri quantitativi occorre definire un processo di misurazione, cioè
occorre stabilire una scala e un’unità di misura da utilizzare per i confronti sulle unità statistiche di
interesse (se si vuole misurare il peso dei neonati, si dovrà decidere se esprimerlo in chilogrammi, in
ettogrammi). È importante sottolineare che ogni misura non è mai esatta, ma è sempre affetta
da un certo margine di errore. Se, nel misurare il peso, si ottiene il valore 2,52, vuol dire
semplicemente che il rilevatore ha osservato una misura che è più vicina a 2,52 anziché a 2,51 o 2,53:
il peso x è un qualche valore compreso in un intervallo centrato su 2,52: 2,52 − a < x < 2,52 + a dove
A è il “margine di errore”.
A volte le misure consistono in semplici conteggi. Si procede in tal modo per la misurazione relativa
al numero delle foglie di una pianta, al numero dei denti, dei vani degli alloggi, degli aerei arrivati in
ritardo un determinato giorno in un certo aeroporto, ecc. Tali caratteri vengono detti quantitativi
discreti.
Altre volte i caratteri quantitativi sono continui, come l’estensione di un certo territorio, la densità
di un gas, la velocità di un veicolo e la loro misura può essere espressa con diversi gradi di precisione,
una volta fissata un’unità di misura, tenendo conto dei sottomultipli, come nel caso citato dei neonati.
-I caratteri qualitativi si distinguono in sconnessi e ordinati. Il sesso di un neonato è un carattere
sconnesso in quanto non esiste alcun ordine tra le modalità maschio e femmina. In tal caso le modalità
del carattere possono soltanto essere confrontate per vedere se sono uguali o meno. Si può, invece,
considerare carattere qualitativo ordinato l’ordine di nascita, ovvero primogenito, o il titolo di
studio di uno dei genitori.
POPOLAZIONE E CAMPIONE
Lo studio statistico può riguardare il fenomeno nella sua globalità, cioè considerare l’insieme di tutti
i suoi componenti, ovvero l’universo o popolazione, oppure solo una sua parte che è detta
campione.
La popolazione può essere limitata o illimitata a seconda che sia costituita da un numero finito o
teoricamente infinito di osservazioni. Nel primo caso è possibile (ma spesso non fattibile) rilevare i
dati su ogni singola osservazione (censimento), ma nella maggior parte delle indagini si rilevano i
dati su un campione (popolazione illimitata).
ESEMPI:
1. Popolazione “limitata” - Una compagnia di assicurazione vuole studiare il fenomeno
collettivo “danni subiti dalle imbarcazioni di carico assicurate”. La definizione dell’oggetto dello
studio identifica la popolazione statistica di interesse che è costituita dalle tutte le imbarcazioni
assicurate (popolazione limitata), ognuna costituisce un’unità statistica. Si ipotizza che il numero di
danni possa dipendere dal tipo di imbarcazione (5 possibili), dall’anno di costruzione e dal tempo di
servizio svolto dall’imbarcazione, quindi, occorre rilevare tutti questi caratteri per ogni unità
statistica. I caratteri considerati sono di tipologie diverse: • Il tipo di imbarcazione è un carattere
qualitativo sconnesso (le possibili modalità possono essere identificate dalle lettere A, B, C, D, E); •
L’anno di costruzione è un carattere qualitativo ordinato e si distinguono 4 diversi periodi (1990-
94, 1995-99, 2000-04, 2005-09); • La durata del servizio è un carattere quantitativo continuo (e può
essere misurata in anni, mesi, giorni). • Il numero di danni è un carattere quantitativo discreto.
2. Popolazione “illimitata” - Una casa produttrice di insetticidi vuole valutarne l’efficacia su
alcuni insetti. Si prende in considerazione un campione che fa parte del numero infinito di
osservazioni possibili (popolazione illimitata). Il campione è costituito dal lotto di terreno su cui si
effettua la sperimentazione. L’unità statistica è rappresentata dalle foglie di ciascuna pianta che
vengono analizzate prima e dopo il trattamento con l’insetticida. I caratteri osservati sono: •Le varie
specie di insetti che si possono trovare sul lotto (mosca del melo, minatrice, ecc.) carattere
qualitativo sconnesso. •La quantità di sostanza, espressa in litri, carattere quantitativo continuo reso
discreto. •I tempi di osservazione è una variabile discreta che assume valore 0 prima della
somministrazione, 1 (dopo 3 giorni), 2 (dopo 6 giorni). •L’effetto è una variabile discreta (e
rappresenta la differenza tra il numero di insetti presenti sotto ciascuna foglia selezionata ai vari tempi
di osservazione).
Le tecniche di statistica descrittiva trovano applicazione sia nel caso in cui vengano raccolti dati
riguardo a tutti gli individui costituenti la popolazione oggetto di studio (come nel censimento), sia
nel caso in cui si raccolgano informazioni solo su campione. Nella statistica inferenziale, come è
facile intuire, non è il campione in sé che interessa bensì la sua capacità di fornire informazioni sulla
popolazione che rappresenta.
In altre parole, la Statistica inferenziale è quella tendente ad interpretare le osservazioni in termini
di modelli teorici che spiegano, nelle linee generali, il meccanismo secondo il quale si producono i
dati esaminati. Sono proprio tali modelli che permettono di generalizzare in modo induttivo i risultati,
ottenuti da campionamento, dall’insieme dei dati osservati alla popolazione di riferimento.
In realtà, la distinzione tra statistica descrittiva e inferenza statistica non ha molto senso perché
la ricerca statistica su qualsiasi fenomeno collettivo è sempre di natura induttiva avendo sempre come
scopo lo studio di un fenomeno complesso a partire da osservazioni comunque particolari o parziali.
ESEMPIO: Se consideriamo la tabella dei dati sui televisori venduti, possiamo porre, ad esempio, le
seguenti corrispondenze: MarcaSony = 1, Samsung = 2 // Tipo CRT = 1, LCD = 2, Plasma=3;
RIASSUNTI STATISTICA - AURORA PUGLIA – MATRICOLA 0268950
In questo modo la tabella unità/caratteri contiene solo valori numerici (anche il rivenditore può essere
codificato).
-La struttura del questionario viene opportunamente progettata in relazione alla tecnica di intervista
utilizzata: diretta, auto compilazione, intervista telefonica, ecc. La scelta della tecnica di intervista è
RIASSUNTI STATISTICA - AURORA PUGLIA – MATRICOLA 0268950
legata agli obiettivi della ricerca, alle caratteristiche della popolazione di riferimento, alle risorse
disponibili ecc.
LE DISTRIBUZIONI STATISTICHE
ELABORAZIONE DEI DATI E PRESENTAZIONE DEI RISULTATI
Una volta imparato ad impostare un’indagine statistica e a predisporre gli strumenti di rilevazione dei
dati, occorre sintetizzare i dati raccolti, organizzati nella
matrice dei dati grezzi o tavola unità/variabili, mediante
opportune elaborazioni e presentarli in modo chiaro mediante
tabelle, indici statistici e grafici.
ESEMPIO: Ripartiamo dall’indagine sui televisori. I
caratteri, oggetto di indagine, sono: marca televisore, tipo di
televisore, dimensione, angolo di visuale.
Ipotizziamo di aver rilevato i dati su 4 rivenditori nel corso
del 2014, che hanno compilato in totale 30 schede,
riportiamo i dati nella nostra matrice dei dati. Ogni riga
rappresenta un televisore venduto (istanza), identificato da un
RIASSUNTI STATISTICA - AURORA PUGLIA – MATRICOLA 0268950
numero progressivo da 1 a 30, nelle diverse colonne (campi) si riportano i caratteri di interesse
opportunamente codificati e la lunghezza di ciascun campo del record (lunghezza di ciascun campo
è di quanti numeri è composta la codificazione).
In tal modo nell’esempio si è proceduto per la modalità CRT, LCD e plasma. La tabella che mostra
su due colonne affiancate, l’elencazione delle modalità di un carattere e le rispettive frequenze
assolute, si chiama distribuzione di frequenza (assoluta) del carattere considerato, nel nostro
esempio il carattere tipo.
Ad esempio, possiamo vedere che nel corso del 2014, sono stati
acquistati 14 televisori LCD e solo sei televisori tradizionali.
Dividendo ogni frequenza assoluta per il totale delle unità
statistiche considerate (nel nostro caso 30) si ottiene la
distribuzione di frequenza relativa (si indica con i fi), che
possiamo rappresentare nella tabella di fianco.
Nelle tabelle riportate sopra abbiamo costruito alcuni esempi di distribuzione Statistica univariata.
Possiamo ora dare una definizione formale rigorosa: Una distribuzione statistica univariata è una
coppia di insiemi di cui il primo è l’insieme delle modalità o dei valori assumibili dal carattere
considerato, il secondo, in corrispondenza con il primo, è l’insieme costituito dalle frequenze che
ogni valore o modalità presenta nella matrice dei dati considerata. Le frequenze possono essere
rappresentate in forma assoluta, relativa o percentuale. La distribuzione statistica fornisce un modello
più compatto di rappresentazione dei dati che risultano, pertanto, più organizzati e quindi più leggibili.
Proviamo ora a considerare il carattere
“dimensione” espressa in pollici. La tabella
associata a tale carattere riportata a fianco, come si
può vedere, di non è di facile lettura, perché troppo
analitica. Per renderla più leggibile è necessario
procedere con il raggruppamento dei dati in classi.
Scegliamo di costruire le classi chiuse sia a sinistra sia
a destra, vuol dire che gli estremi della distribuzione
sono compresi nella classe. Ad esempio, nella classe
43|__|46 sono state inserite le frequenze relative ai
televisori che vanno da 43 pollici a 46 pollici.
Tuttavia, si possono costruire classi aperte o chiuse
(nel primo caso gli estremi inferiore e superiore sono
esclusi dalla classe, nel secondo caso sono compresi). Si possono costruire anche classi aperte
(chiuse) a sinistra e chiuse (o aperte) a destra. Per indicare se la classe è chiusa si utilizza una
barra verticale.
RAPPRESENTAZIONI GRAFICHE
Una volta effettuata l’analisi di frequenza è necessario rappresentare graficamente i risultati.
IL DIAGRAMMA A BARRE
Un diagramma a barre consiste in una successione di colonne, segmenti verticali o rettangoli che
indicano le modalità del carattere la cui altezza è uguale o proporzionale alla frequenza
(assoluta/relativa/percentuale) della modalità corrispondente. Tale grafico è particolarmente adatto a
rappresentare le distribuzioni di caratteri qualitativi. Si può usare, nello stesso tempo, per
rappresentare la distribuzione di un carattere quantitativo discreto. Se il carattere è ordinato bisogna
disporre le colonne seguendo lo stesso ordine delle modalità del carattere se, invece, il carattere è
sconnesso è opportuno disporre le colonne a partire dalla più grande e finendo con la più piccola, o
viceversa.
Spesso si confonde il diagramma a barre con l’istogramma che invece può essere utilizzato solo se si
hanno caratteri quantitativi raggruppati in classi.
IL CARTOGRAMMA
I cartogrammi sono utilizzati quando si deve rappresentare un fenomeno secondo una ripartizione
territoriale. In questo caso si preferisce utilizzare una carta geografica. L’andamento del fenomeno è
evidenziato mediante diverse colorazioni delle aree territoriali secondo una scala di graduazione
opportunamente riportata sul cartogramma.
L’IDEOGRAMMA
Gli ideogrammi sono rappresentazioni grafiche effettuate
con figure reali schematizzate che traducono, in modo
visivo, la natura del fenomeno considerato. Sono facili da
comprendere ma difettano in precisione. I simboli
rappresentativi dell’intensità o frequenza delle modalità del
fenomeno sono tali che la loro dimensione è proporzionale
all’intensità o frequenza delle modalità stesse. Si possono, inoltre, avere più figure ripetute, tutte di
uguale dimensione, alle quali attribuire un determinato valore. Nel grafico è rappresentata la stima
del numero di personal computer nel 2099 in ciascun continente.
INDICI DI POSIZIONE
Gli indici di posizione sono anche detti medie e si distinguono in medie analitiche e di posizione.
Le medie analitiche si possono applicare soltanto a caratteri quantitativi e sono calcolate mediante
operazioni algebriche a partire dalle misure osservate. Le medie di posizione richiedono operazioni
quali l’ordinamento ed il confronto dei dati ed esse possono essere applicate sia a caratteri qualitativi
ordinati che a caratteri quantitativi.
La moda è l’unico indice che può essere utilizzato anche per caratteri qualitativi sconnessi.
Sono medie analitiche: media aritmetica, media armonica e media geometrica. Sono medie di
posizione: mediana, quartili e moda.
LE MEDIE ANALITICHE
MEDIA ARITMETICA
La media aritmetica, o semplicemente media, fornisce una misura dell’intensità complessiva del
fenomeno ripartita in maniera esatta fra tutte le osservazioni. La media aritmetica di n misure: valori
Più in generale, se in una distribuzione il valore xi compare con la frequenza ni (i= 1,2, …, k) dove
k rappresenta il numero delle modalità del carattere, in modo che risulti n1 + n2 + n3 +... + nk = n ,
si può applicare la seguente formula:
-La media aritmetica è tale che la somma degli scarti da essa è nulla, ossia: , infatti si ha:
-Dati due insiemi di misure: x1, x2, x3, ……, xk e y1, y2, y3, ……, yn la media aritmetica delle somme
x1 + y1, x2 + y2, x3 + y3, ……, xn+ yn è uguale alla somma delle medie aritmetiche dei due insiemi di
MEDIA ARMONICA
Data la distribuzione di n valori x1, x2, x3, ……, xk non nulli, di un carattere quantitativo, si dice
media armonica di tali valori, il reciproco della media aritmetica dei reciproci dei valori dati.
La media armonica non gode di alcuna delle proprietà che caratterizzano la media aritmetica. Essa
viene utilizzata quando i termini di un fenomeno sono il reciproco di un altro di cui si conoscono già
i dati. Un esempio tipico è il potere d’acquisto della moneta che è uguale al reciproco del prezzo della
merce, quindi, per trovare il potere d’acquisto medio si calcola la media armonica dei prezzi.
MEDIA GEOMETRICA
Dati n valori positivi x1, x2, x3, ……, xk che rappresentano le misure di un carattere quantitativo, si
dice media geometrica semplice la radice n-esima aritmetica del loro prodotto:
Come considerato per la media aritmetica, nel caso in cui le misure siano fornite mediante
distribuzione di frequenza in cui il valore xi compare con la frequenza ni (i =1, 2, ..., k), avremo
che: se x1è presente n1 volte, dovendo eseguire un prodotto, si dovrà moltiplicare x1 n1 volte,
questo coincide con l’elevare alla n1 il valore 1x, questa proprietà vale per tutti i termini.
In generale ●se n è dispari la mediana è rappresentata dal termine che occupa il posto;
●se n è pari la mediana è rappresentata dalla media aritmetica dei termini che si trovano a
Nel caso di distribuzione di frequenza è opportuno ricorrere alle frequenze cumulate- ESEMPIO:
Calcolare la mediana dei voti all’esame di statistica di 25 studenti riportati nella seguente
tabella.
Essendo n = 25, la mediana si troverà a = 13° posto, dall’esame delle
frequenze cumulate si può osservare che il tredicesimo studente si trova tra quelli
che hanno preso 20. Quindi il valore mediano è pari a 20.
QUARTILI, PERCENTILI
In un insieme di n dati ordinati la mediana è stata definita come il valore che separa l’insieme in due
parti uguali. Estendendo tale concetto, possiamo definire i valori che separano l’insieme in 4, 10 o
100 parti uguali: parleremo rispettivamente di quartili (Q1, Q2 e Q3) e percentili (P1, P2, …, P99).
▪Il 1° quartile, essendo n pari, sarà la semisomma tra , cioè tra il 5° e 6° termine.
▪Il 2° quartile, essendo n pari, sarà la semisomma tra: , cioè tra il 10° e 11° termine.
▪Il 3° quartile, essendo n pari, sarà la semisomma tra: , cioè tra il 15° e 16° termine.
Cioè: Q1 =1, Q2 = 2 e Q3 = 3
INIDICI DI DISPERSIONE
È opportuno completare la descrizione del collettivo, utilizzando indici che permettano di valutare la
variabilità delle osservazioni. I principali indici di dispersione (o di variabilità) sono: campo di
variazione, varianza, deviazione standard, scarto semplice medio e coefficiente di variazione.
Tali indici sono utilizzati per sintetizzare di quanto la distribuzione statistica sia addensata attorno ad
una misura di localizzazione.
IL CAMPO DI VARIAZIONE
Il campo di variazione (range) è dato semplicemente dalla differenza tra il valore più grande e quello
Lo scarto interquartile è dato dal valore assoluto della differenza tra il 3° e il 1° quartile: .
Esso delimita la zona centrale della distribuzione che contiene il 50% delle osservazioni. Anche noto
come campo di variazione interquartile è un’altra misura di variabilità non influenzata dai valori
estremi.
Sono inoltre, riportati: il valore minimo della distribuzione (primo segmento verticale) e il valore
massimo (ultimo segmento verticale). La dimensione dell’altezza (o base se messo in verticale) del
rettangolo non rappresenta alcuna informazione, come pure la posizione del Box-Plot.
ES.: Supponiamo di voler confrontare il peso alla nascita (in once) di neonati da madri fumatrici e non.
Se, però, si vuole tenere conto anche dei valori intermedi occorre utilizzare qualche altro strumento.
La p0rima cosa che viene in mente è di “misurare” quanto i singoli valori differiscano dalla media
della distribuzione. Supponiamo che la media in questione sia la media aritmetica (ma può essere un
altro valor medio qualsiasi). Possiamo calcolare gli scarti dalla media cioè le differenze fra ciascun
valore osservato e la media aritmetica. Poiché la media è compresa fra il valore più piccolo e quello
più grande, alcuni scarti sono positivi e altri negativi.
Esempio: Calcoliamo gli scarti dalla media aritmetica per i dati delle due aziende produttrici di
succhi di frutta. Per calcolare gli scarti basta sottrarre ad ogni valore riportato in tabella il valore
Si ottiene questa:
RIASSUNTI STATISTICA - AURORA PUGLIA – MATRICOLA 0268950
E osserviamo che il valore assoluto dei singoli scarti risulta maggiore per i gruppi in cui le misure
mostrano maggiore variabilità e che, comunque, la somma degli scarti risulta sempre nulla (per una
nota proprietà della media aritmetica).
LA VARIANZA
Quanto detto finora indica che la variabilità e gli scarti sono fra loro legati e che, quindi, si può pensare
di misurare la variabilità di un fenomeno statistico considerando e sintetizzando la distribuzione degli
scarti. Posto ciò, resta il fatto che tale sintesi non può essere fatta calcolando semplicemente la media
degli scarti, dato che questa è nulla in quanto scarti positivi e scarti negativi si vanno a compensare:
anziché considerare la media degli scarti consideriamo la media degli scarti al quadrato (perché
elevando al quadrato ciascuno scarto diviene positivo). Questo indice si chiama varianza.
La varianza è un indice usato per misurare la dispersione o variabilità, cioè l’addensamento maggiore
(poca dispersione o variabilità) o minore (molta dispersione) dei dati attorno alla media aritmetica.
Le proprietà della varianza:
▪La varianza è sempre positiva.
▪La varianza è uguale a zero solo se la variabilità è nulla. In questo caso, si ha: x1 = x2 = .... = xn = M
e, quindi tutti gli addendi che figurano al numeratore della precedente relazione sono uguali a zero;
viceversa, se la varianza è uguale a zero, essendo il numeratore somma di termini tutti non negativi,
è necessario che questi siano tutti nulli.
▪La varianza è tanto più elevata quanto più elevata è la variabilità. Se la variabilità è più elevata, i
termini al numeratore tenderanno ad essere più grandi.
Come si può facilmente osservare tali indici non sono più espressi in litri, avendo elevato ogni scarto
al quadrato. Si conferma la maggior variabilità del campione B.
Nel caso, invece, di una distribuzione di frequenza per calcolare la varianza è necessario
moltiplicare ciascuno scarto per la relativa frequenza. Esempio: Calcoliamo la varianza per il
carattere: voto conseguito all’esame di statistica dei 25
studenti considerati. Per calcolare la varianza facciamo
riferimento alla formula nel caso
di distribuzione di frequenza.
Il valore medio risulta, dalla
formula sopracitata:
M: 530/25= 21,2
scarto standard si ottiene dal calcolo della radice quadrata della varianza: .
Utilizzando lo scarto standard ci si riconduce ad un indice di variabilità espresso nella stessa unità
di misura della variabile considerata. Come per la varianza, maggiore è la variabilità dei valori di un
insieme di dati e maggiore è la deviazione standard, la quale assume valore nullo solo nel caso in cui
tutti i valori siano uguali.
Osserviamo che si potrebbero, in teoria, definire altri indici di dispersione. Il motivo della scelta
privilegiata della deviazione standard è nella proprietà di minimo della media quadratica, relativa alle
variabili scarto, rispetto alla media aritmetica, la quale rende particolarmente significativo ed utile σ
come indice di dispersione.
Esempio: Calcoliamo lo scarto quadratico medio o deviazione standard dei due campioni A e B.
σ(A) = √0,0018= 0.04234 // σ2(B) =√0,00916= 0.0957
GLI SCOSTAMENTI SEMPLICI MEDI
Altre misure di variabilità sono gli scarti semplici medi che si ottengono come media aritmetica
delle differenze, in valore assoluto, tra i valori osservati x1, x2, x3, ……, xn di una variabile x e un
indice di posizione.
A seconda della media scelta si può ottenere uno specifico scarto semplice medio:
-Se, esempio, come media scegliamo la media aritmetica M, si ha lo scarto semplice medio dalla
media aritmetica
-Come la deviazione standard, anche questo indice di dispersione è omogeneo e si annulla solo
quando tutte le unità presentano la stessa modalità. Se invece di considerare le differenze dalla media
aritmetica consideriamo quelle dalla mediana otteniamo lo scarto semplice medio dalla mediana
Come si può notare, c’è una maggiore variabilità per la variabile peso rispetto all’altezza (quasi
il triplo).
RIEPILOGO FORMULE
Detto rapporto è di composizione in quanto si sono messe a confronto le frequenze di una modalità
del carattere al totale del fenomeno. È il rapporto che si calcola più frequentemente e dà l’idea della
parte rispetto al tutto.
RAPPORTI DI UNITÀ
A differenza dei rapporti di composizione, dove il confronto è fra una parte del fenomeno e tutto il
fenomeno stesso, nel rapporto di unità il confronto viene istituito fra due dati ottenuti dalla
scomposizione di un dato statistico in relazione alle sue modalità.
ESEMPIO: Qui sono riportati gli arrivi e le presenze in Italia e in due regioni, distinti in italiani
e stranieri.
RAPPORTI DI DERIVAZIONE
Nei rapporti di derivazione si mettono a confronto due fenomeni: l’uno derivato o causato dall’altro.
La derivazione si può definire generica o specifica.
●Nella deviazione generica il fenomeno che si trova al denominatore ha una dipendenza generica
con il fenomeno al numeratore. E‘ un rapporto di derivazione generica il tasso di natalità (la relazione
è generica in quanto non tutta la popolazione al denominatore è in grado di procreare).
●La derivazione è invece specifica quando la relazione fra i due termini è molto stretta, ossia la
dipendenza è in concreto come, ad esempio, il rapporto tra il numero dei nati in un determinato anno
e quello della popolazione femminile in età feconda (in quanto al denominatore sono state escluse
tutte le frequenze che non sono legate da un nesso di causalità con la grandezza al numeratore.)
Se consideriamo la stagione di tre mesi si ha un tempo medio di 0,36 mesi, cioè 11 giorni circa.
RAPPORTI DI RIPETIZIONE
Il rapporto di ripetizione è il reciproco del rapporto di durata, esso rappresenta il numero medio di
volte in cui il fenomeno si è ripetuto nel periodo di tempo considerato.
ESEMPIO: La giacenza di una certa merce presso un grande magazzino risulta, all’inizio
dell’anno, di 20.000 unità; durante l’anno si sono vendute 2.500 unità di quella merce e se ne
sono acquistate 4.000. Calcolare il rapporto di ripetizione.
Ciò significa che in 10 anni lo stock di merce si rinnova 1,57 volte. Calcolando il reciproco otteniamo
il rapporto di durata: 6,385. La merce rimane in magazzino in media 6 anni e 140
giorni.
NUMERI INDICE
I numeri indice sono degli indicatori utilizzati per mettere in luce particolari aspetti di un fenomeno
legati, principalmente, al suo andamento nel tempo o nello spazio.
ESEMPIO: Nella tabella sono riportati, per alcuni anni, i dati relativi alle presenze in una
località.
-Se indichiamo con A0 le presenze al primo anno rilevato (2001), con A1 quelle
dell’anno successivo e così via, possiamo costruire i numeri indice a base fissa
(2001), riportando a 100 il valore osservato nel primo anno ed esprimendo gli
altri rispetto al valore di tale anno assunto come unità di misura.
Definizione: Data una distribuzione di valori A0, A1, A3, …., An, relativi a misure di un carattere di
un determinato fenomeno, si chiama indice a base fissa (scelto A0 come base) ciascuno dei seguenti
valori:
Osserviamo ancora che il valore dell’indice a base mobile si ottiene dal valore dell’indice a base
fissa con un cambiamento di base che riporta sempre all’inizio del periodo via via considerato. Ad
esempio:
Invece, per passare da numeri indice a base mobile a numeri indice a base fissa basta moltiplicare
ciascun indice per quello precedente fino ad arrivare all’indice con base quella che è stata scelta come
fissa. Scegliamo come base l’anno 1 avremo: