Sei sulla pagina 1di 57

Statistica corso D:

Nozioni preliminari

Nicola Salvati

Dipartimento di Economia e Management, Università di Pisa

a.a. 2015/2016

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Dettagli sul corso
Concetti generali
I caratteri statistici

Part I

Introduzione

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Dettagli sul corso
Concetti generali
I caratteri statistici

Dettagli sul corso

Docente: Nicola Salvati (nicola.salvati@unipi.it)


Materiale didattico e programma del corso: disponibili sul portale moodle
(https://moodle.ec.unipi.it// ) per gli utenti registrati
Materie matematico-statistiche:
Statistica corso D (033pp) Nicola Salvati - Italiano
Il portale verrà utilizzato anche per comunicazioni e annunci: invito tutti gli
interessati a registrarsi!
Orario lezioni: Lunedı̀ ore 14:00, Martedı̀ ore 8:45, Giovedı̀ ore 10:30
Ricevimento: Martedı̀ ore 11-12, Giovedı̀ ore 12-13 (gli studenti che vengono a
Pisa appositamente per il ricevimento sono pregati di contattarmi
preventivamente via e-mail)

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Dettagli sul corso
Concetti generali
I caratteri statistici

Dettagli sul corso

Libro di testo: STATISTICA - metodologie per le scienze economiche e sociali, III


edizione
Autori: Simone Borra, Agostino Di Ciaccio
ISBN: 978 88 386 6740 4 McGraw-Hill

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Dettagli sul corso
Concetti generali
I caratteri statistici

Dettagli sul corso

Modalità di esame:
Prova intermedia: ?
Prova scritta (domande con risposte chiuse a scelta multipla su esercizi e teoria).
Attenzione: sono ammessi alla prova scritta solo gli studenti regolarmente iscritti
on-line
Prova orale obbligatoria per coloro che, pur ricevendo un voto complessivamente
sufficiente, ottengono un punteggio inferiore a 4/7 all’esercizio di teoria
Attenzione: La prova orale deve essere sostenuta alla data della prima prova orale
disponibile subito dopo la prova scritta sostenuta
Coloro che non superano la prova scritta possono visionare il compito alla prima
prova orale disponibile

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Dettagli sul corso
Concetti generali
I caratteri statistici

Tutoraggio di statistica

A breve verrà pubblicizzato l’orario dei tutors di Statistica (Michela Mazzoni e


Magri Benedetta)

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Dettagli sul corso
Concetti generali
I caratteri statistici

Concetti generali

Perchè è utile conoscere la statistica?


Perchè quasi ogni volta che si legge un giornale si incontra la statistica! Non c’è
scampo
Perchè viviamo nell’era dei dati, i dati sono costantemente prodotti da ciascuno
di noi (es. social networks, gps, acquisti digitali, navigazione su internet, etc)
Perchè la statistica ci fornisce strumenti rigorosi per l’analisi dei dati e la corretta
interpretazione dei risultati
Perchè quando sono raccolti e usati correttamente, i dati e le statistiche possono
aiutarci a capire i problemi e a prendere decisioni consapevoli
Perchè la statistica ci può aiutare a sostenere o confutare una particolare idea o
teoria

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Dettagli sul corso
Concetti generali
I caratteri statistici

Concetti generali

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Dettagli sul corso
Concetti generali
I caratteri statistici

Concetti generali

Perchè si deve studiare la statistica?

Per un economista: perchè la statistica fornisce gli strumenti indispensabili per


analizzare, misurare e interpretare i fenomeni economici, sia a livello sociale che
aziendale
Per chiunque: perchè la statistica aiuta a filtrare e recepire in modo critico
l’enorme (spesso eccessiva) mole di dati che ci vengono costantemente
comunicati attraverso i mezzi di informazione. Accade di frequente (molto più di
quanto si pensi) che tali dati vengano comunicati in modo parziale o inesatto al
fine di far credere una cosa diversa da ciò che in realtà significano. La
manipolazione e l’uso scorretto (strumentale) dell’informazione è una pratica
comune in politica, economia, pubblicità e non solo...

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Dettagli sul corso
Concetti generali
I caratteri statistici

Concetti generali

Alcuni obiettivi del corso


Illustrare alcune tecniche per l’analisi statistica e la rilevazione dei dati:
evidenziando l’opportunità di applicare le tecniche a problematiche reali;
facendo ricorso a numerosi esempi relativi a dati reali o realistici;
illustrando come si presentano e si interpretano i risultati in modo adeguato ed efficace.
Focalizzare l’attenzione sulle tecniche statistiche che potreste effettivamente
utilizzare.

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Dettagli sul corso
Concetti generali
I caratteri statistici

Che cos’è la Statistica?

(Una) definizione “filosofica” :


La statistica è quella scienza che aiuta a prendere decisioni in condizioni di
incertezza
(Una) definizione “formale”:
La statistica è una disciplina di carattere metodologico che ha per oggetto
l’analisi dei fenomeni collettivi dotati di variabilità
Fenomeno collettivo: è un fenomeno il cui studio riguarda una pluralità di
soggetti od oggetti definiti unità statistiche.
Alcuni esempi:
il motivo della presenza di turisti in una certa località;
il grado di soddisfazione degli utenti di un’azienda rispetto al servizio erogato;
il numero di abitanti dei comuni di una certa provincia;
il reddito e il consumo delle famiglie italiane.

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Dettagli sul corso
Concetti generali
I caratteri statistici

Unità statistiche

Unità elementari omogenee che costituiscono l’oggetto di osservazione e di


analisi. L’insieme delle unità statistiche omogenee rispetto a una o piú
caratteristiche costituisce una popolazione (o universo o collettivo).
Alcuni esempi:
individui (clienti di un albergo, turisti, studenti, dipendenti di un’azienda, ecc...);
oggetti (automobili, aziende, prodotti di consumo, ecc...);
aggregati territoriali (stati, regioni, province, comuni, altro ancora);
unità temporali (anni, mesi, giorni, altro ancora).

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Dettagli sul corso
Concetti generali
I caratteri statistici

Statistica descrittiva e inferenza statistica

In questo corso impareremo i concetti base di due branche della statistica:


Statistica descrittiva: i caratteri statistici vengono osservati per tutte le N unità
statistiche che compongono la popolazione di interesse (censimento), e siamo
quindi in grado di dare una “descrizione” completa di tale popolazione
relativamente ai caratteri di interesse
Inferenza statistica: i caratteri statistici vengono osservati solamente per un
campione di n unità appartenenti alla popolazione di interesse (indagine
campionaria) ma, attraverso opportune tecniche, si cerca comunque di ottenere
una descrizione della popolazione nel suo complesso relativamente ai caratteri di
interesse

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Dettagli sul corso
Concetti generali
I caratteri statistici

Statistica descrittiva

Figure: Rappresentazione schematica della struttura del processo di “compattazione” delle


informazioni (Statistica descrittiva).

F: fenomeno (carattere/i) di interesse


P: popolazione
fi : funzioni (operazioni algebriche o logiche)
R: insieme caratteristico (insieme degli indici di sintesi ottenuti applicando le funzioni fi )

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Dettagli sul corso
Concetti generali
I caratteri statistici

Inferenza statistica

Figure: Rappresentazione grafica del processo di induzione statistica (Inferenza statistica classica).

C: campione di manifestazioni del fenomeno (carattere/i) di interesse


ti : funzioni (operazioni algebriche o logiche)
Rc : insieme caratteristico del campione C

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Dettagli sul corso
Concetti generali
I caratteri statistici

Dati statistici

I dati statistici rappresentano la materia prima su cui si basa l’analisi statistica


I dati statistici sono però informazioni grezze e non immediatamente fruibili
Essi devono essere elaborati al fine di ricavarne informazioni utili
Le informazioni ricavate dai dati sono necessarie per descrivere e comprendere il
fenomeno oggetto di studio
Esempio: Il reddito di ciascuna famiglia è un dato mentre il reddito medio in
Toscana è una informazione in grado di descrivere un aspetto del fenomeno
analizzato

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Dettagli sul corso
Concetti generali
I caratteri statistici

Caratteri statistici

Sono delle caratteristiche delle unità analizzate che vengono rilevate (cioè
osservate) e studiate in relazione ad un determinato fenomeno. Alcuni esempi:
Caratteri statistici rilevabili su individui: statura, peso, reddito percepito, età, stato
civile, ecc.
Caratteri statistici rilevabili su aziende: numero di dipendenti, utile netto, fatturato,
settore di attività, ecc.

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Dettagli sul corso
Concetti generali
I caratteri statistici

Caratteri statistici

Modalità dei caratteri statistici: valori o attributi specifici che può assumere un
carattere su un’unità statistica.
Le modalità devono essere:
esaustive: devono rappresentare tutti i possibili modi di manifestarsi del carattere;
non sovrapposte: ad ogni unità statistica si può associare una sola modalità.
Nel momento in cui un carattere assume una certa modalità in corrispondenza di
un’unità statistica, siamo in presenza di un dato statistico.

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Dettagli sul corso
Concetti generali
I caratteri statistici

Esempio: insieme di dati Demo

L’insieme di dati (dataset, database) Demo contiene informazioni su 6400 persone


(unità statistiche) relativamente a diverse caratteristiche (caratteri statistici). E’ un
dataset messo a disposizione sul sito del libro di testo.

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Dettagli sul corso
Concetti generali
I caratteri statistici

Esempio: insieme di dati Demo

Ciascun carattere statistico fornisce una particolare informazione relativamente alle


unità statistiche del dataset. Ciascun carattere ha solitamente un nome “breve” e un
nome più esteso.

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Dettagli sul corso
Concetti generali
I caratteri statistici

Esempio: insieme di dati Demo

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Dettagli sul corso
Concetti generali
I caratteri statistici

Classificazione dei caratteri statistici

I caratteri statistici si suddividono in:


qualitativi, caratteri con modalità non numeriche
quantitativi, caratteri con modalità numeriche
Rilevare (osservare) un carattere quantitativo o qualitativo su una unità statistica
significa classificare l’unità secondo le modalità assunte dal carattere.

N.B. Nella pratica statistica, la classificazione tra variabili discrete e continue non è
rigida. Talvolta alcune variabili continue sono trattate come discrete e viceversa

N.B. I caratteri qualitativi vengono detti anche “variabili qualitative” o “mutabili


statistiche”, i caratteri quantitativi “variabili quantitative”

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Dettagli sul corso
Concetti generali
I caratteri statistici

Caratteri qualitativi

Si distingue tra:
Caratteri sconnessi o nominali: caratteri per cui le modalità non si possono
ordinare
Esempi: religione, luogo di nascita, colore degli occhi;
Caratteri ordinati (o ordinali): caratteri le cui modalità presentano un ordine
logico. Possono essere:
rettilinei: l’ordine è a salire o a scendere (esempi: titolo di studio, gradi militari, grado
di soddisfazione)
ciclici: non c’è un ordine crescente o decrescente (esempi: direzione del vento, mesi
dell’anno)

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Dettagli sul corso
Concetti generali
I caratteri statistici

Caratteri quantitativi

Si distingue tra:
Caratteri discreti: caratteri le cui modalità scaturiscono da un conteggio
Esempi: numero di figli, età in anni;
Caratteri continui: caratteri le cui modalità scaturiscono da una misurazione
Esempi: peso, altezza, temperatura;
I caratteri quantitativi continui si riferiscono sempre ad una scala di misura
In pratica un carattere discreto è tale se l’insieme dei valori che può assumere è finito
o numerabile. Un carattere continuo, invece, può teoricamente assumere tutti i valori
all’interno di uno o piú intervalli reali.

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Dettagli sul corso
Concetti generali
I caratteri statistici

Caratteri quantitativi

La scala di misura può essere:


scala ad intervalli: scala in cui non esiste uno zero assoluto naturale e non
arbitrario
Esempio: temperatura in gradi centigradi, dove lo zero è convenzionale;
scala di rapporti: scala in cui esiste uno zero assoluto
Esempi: reddito, altezza;
N.B. Talvolta per i caratteri qualitativi nominali si parla di scala nominale, per i
caratteri qualitativi ordinati si parla di scala ordinale

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Dettagli sul corso
Concetti generali
I caratteri statistici

Codifica dei caratteri statistici

Quando si intende analizzare un insieme di dati statistici (dataset o database) la


prima, necessaria operazione è la codifica dei caratteri statistici. Con tale operazione i
caratteri vengono inseriti in una tabella e le loro modalità vengono codificate.

N.B. Anche se codificati con un numero, i caratteri qualitativi rimangono tali.

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Dettagli sul corso
Concetti generali
I caratteri statistici

Codifica dei caratteri statistici

N.B. Anche se codificati con un numero, i caratteri qualitativi rimangono tali.

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Dettagli sul corso
Concetti generali
I caratteri statistici

Codifica dei caratteri statistici: riepilogo

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Distribuzione dei caratteri statistici
Rappresentazione grafica dei caratteri statistici

Part II

Distribuzione dei caratteri statistici

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Distribuzione dei caratteri statistici
Rappresentazione grafica dei caratteri statistici

Distribuzione di un carattere statistico: frequenze assolute

L’insieme dei dati è costituito generalmente da tutte le rilevazioni effettuate su


ognuna delle unità statistiche prese in considerazione rispetto ad ogni carattere
Un primo punto di partenza delle tecniche di sintesi della statistica descrittiva è la
derivazione della distribuzione di frequenza di ciascun carattere di interesse
Frequenza assoluta: numero di volte in cui una certa modalità di un carattere
viene osservata nella popolazione (N unità). La frequenza assoluta si indica con
nj , dove j è un indice che varia da 1 a k, il numero massimo di modalità del
carattere considerato.

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Distribuzione dei caratteri statistici
Rappresentazione grafica dei caratteri statistici

Distribuzione di un carattere statistico: frequenze assolute

Distribuzione di frequenza assoluta: Funzione che associa alle modalità di un


carattere, quantitativo o qualitativo, le corrispondenti frequenze assolute
osservate nella popolazione
La distribuzione di frequenza è un utile strumento di sintesi che ci dà informazioni
sulle modalità assunte dal carattere di interesse nella popolazione. E’
particolarmente utile nel caso di caratteri qualitativi o quantitativi che possono
assumere un numero di modalità k non troppo elevato.
Quando il numero di modalità del carattere è invece molto elevato (esempio:
caratteri quantitativi) la distribuzione di frequenza può non essere
utile/comprensibile. In questi casi conviene derivare la distribuzione di frequenza
non per le singole modalità del carattere, ma per delle classi di modalità
opportunamente scelte

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Distribuzione dei caratteri statistici
Rappresentazione grafica dei caratteri statistici

Distribuzione di frequenza assoluta: esempi

Consideriamo di nuovo il dataset Demo, relativo a N=6400 unità statistiche ed in


particolare il carattere Stato civile
Stato civile Frequenza assoluta (nj )
Non coniugato 3224
Coniugato 3176
Totale 6400

Table: Distribuzione di frequenza assoluta del carattere Stato civile (popolazione Demo).

In questo caso k = 2, j = 1, 2 con n1 = 3224 e n2 = 3176.


La P
somma di tutte le frequenze assolute è pari al numero di unità della popolazione,
N: kj=1 nj = N, ovvero 3224 + 3176 = 6400.

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Distribuzione dei caratteri statistici
Rappresentazione grafica dei caratteri statistici

Distribuzione di frequenza assoluta: esempi

Consideriamo di nuovo il dataset Demo, relativo a N=6400 unità statistiche ed in


particolare il carattere Livello di istruzione
Livello di istruzione Frequenza assoluta (nj )
Inferiore al diploma 1390
Diploma 1936
Iscrizione all’università 1360
Laurea 1355
Spec. post-laurea 359
Totale 6400

Table: Distribuzione di frequenza assoluta del carattere Livello di istruzione (popolazione Demo).

In questo caso k = 5, quindi j = 1, ..., 5 con n1 = 1390, n2 = 1936, n3 = 1360,


n4 = 1355
P e n5 = 359.
Quindi 5j=1 nj = N, ovvero 1390 + 1936 + 1360 + 1355 + 359 = 6400.

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Distribuzione dei caratteri statistici
Rappresentazione grafica dei caratteri statistici

Distribuzione di un carattere statistico: frequenze relative

La distribuzione di frequenza di un dato carattere può essere calcolata anche in


forma relativa invece che assoluta
Frequenza relativa: rappresenta la frazione della popolazione che presenta una
certa modalità di un carattere. La frequenza relativa si indica con fj e si calcola
come rapporto fra le corrispondente frequenza assoluta e la numerosità totale
della popolazione:
nj
fj = N
Distribuzione di frequenza relativa: Funzione che associa alle modalità di un
carattere, quantitativo o qualitativo, le corrispondenti frequenze relative osservate
nella popolazione

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Distribuzione dei caratteri statistici
Rappresentazione grafica dei caratteri statistici

Distribuzione di un carattere statistico: frequenze relative

La distribuzione di frequenza relativa di un dato carattere può essere espressa


anche in percentuale. E’ questa l’informazione che è solitamente piú facile da
interpretare e che può consentire di effettuare confronti tra popolazioni con
numerosità diversa
Frequenza relativa percentuale: rappresenta la frequenza relativa in termini
percentuali. La frequenza relativa si indica con pj e si calcola moltiplicando la
corrispondente frequenza relativa per 100:
pj = fj · 100
Distribuzione di frequenza relativa percentuale: Funzione che associa alle
modalità di un carattere, quantitativo o qualitativo, le corrispondenti frequenze
relative percentuali osservate nella popolazione

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Distribuzione dei caratteri statistici
Rappresentazione grafica dei caratteri statistici

Distribuzione di frequenza assoluta: esempi

Consideriamo di nuovo il dataset Demo, relativo a N=6400 unità statistiche ed in


particolare il carattere Stato civile:
Stato civile Frequenza Frequenza Frequenza
assoluta (nj ) relativa (fj ) relativa percentuale (pj )
Non coniugato 3224 0.5038 50.38
Coniugato 3176 0.4963 49.63
Totale 6400 1 100

Table: Distribuzione di frequenza assoluta, relativa e relativa percentuale del carattere Stato civile
(popolazione Demo).

La somma diP tutte le frequenze relative di un certo carattere è sempre pari a 1. In


questo caso kj=1 fj = 0.5038 + 0.4963 = 1.
La somma di tutte le frequenze relative percentuali di un certo carattere è sempre pari
a 100. In questo caso kj=1 pj = 50.38 + 49.63 = 100.
P

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Distribuzione dei caratteri statistici
Rappresentazione grafica dei caratteri statistici

Distribuzione di frequenza assoluta: esempi

Consideriamo di nuovo il dataset Demo, relativo a N=6400 unità statistiche ed in


particolare il carattere Livello di istruzione:
Livello di istruzione Frequenza Frequenza Frequenza
assoluta (nj ) relativa (fj ) relativa perc. (pj )
Inferiore al diploma 1390 0.2172 21.72
Diploma 1936 0.3025 30.25
Iscrizione all’università 1360 0.2125 21.25
Laurea 1355 0.2117 21.17
Spec. post-laurea 359 0.0561 5.61
Totale 6400 1 100

Table: Distribuzione di frequenza assoluta, relativa e relativa percentuale del carattere Livello di
istruzione (popolazione Demo).

Anche in questo caso 5j=1 fj = 0.2172 + 0.3025 + 0.2125 + 0.2117 + 0.0561 = 1 e


P
P5
j=1 pj = 21.72 + 30.25 + 21.25 + 21.17 + 5.61 = 100

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Distribuzione dei caratteri statistici
Rappresentazione grafica dei caratteri statistici

Distribuzione di frequenza assoluta: esempi

Le distribuzioni delle frequenze relative dei caratteri Stato civile e Livello di istruzione
ci consentono di affermare che nella popolazione Demo:
Circa la metà delle unità statistiche è coniugata, la restante metà è non
coniugata;
Il 30% circa delle unità statistiche possiede il diploma come titolo di studio, e non
si è mai iscritto all’università;
Il 5.61% delle unità statistiche possiede una specializzazione post-laurea.

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Distribuzione dei caratteri statistici
Rappresentazione grafica dei caratteri statistici

Distribuzione di un carattere statistico: frequenze cumulate

Un’ultima tipologia di frequenza calcolabile per ciascuna modalità di un dato


carattere sono è la frequenza cumulata. La frequenza cumulata di una modalità è
data dalla somma della frequenza della modalità con quella delle modalità
precedenti.
Le frequenze cumulate si possono calcolare in termini assoluti (cumulando le
frequenze assolute), relativi (cumulando le frequenze relative) o relativi
percentuali (cumulando le frequenze relative percentuali).
Frequenza assoluta cumulata: è data dalla somma delle frequenze assolute con
cui si presentano le prime j modalità del carattere. La frequenza assoluta
cumulata si indica con Nj e si calcola come Nj = n1 + n2 + . . . + nj

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Distribuzione dei caratteri statistici
Rappresentazione grafica dei caratteri statistici

Distribuzione di un carattere statistico: frequenze cumulate

Frequenza relativa cumulata: è data dalla somma delle frequenze relative con cui
si presentano le prime j modalità del carattere. La frequenza relativa cumulata si
indica con Fj e si calcola come Fj = f1 + f2 + . . . + fj
Frequenza relativa percentuale cumulata: è data dalla somma delle frequenze
relative percentuali con cui si presentano le prime j modalità del carattere. La
frequenza relativa percentuale cumulata si indica con Pj e si calcola come
Pj = p1 + p2 + . . . + pj

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Distribuzione dei caratteri statistici
Rappresentazione grafica dei caratteri statistici

Distribuzione di frequenza cumulata: esempi

Consideriamo di nuovo il dataset Demo, relativo a N=6400 unità statistiche ed in


particolare il carattere Livello di istruzione:
Livello di istruzione Frequenza Frequenza
assoluta (nj ) assoluta cumulata (Nj )
Inferiore al diploma 1390 1390
Diploma 1936 1936+1390=3326
Iscrizione all’università 1360 1360+3326=4686
Laurea 1355 1355+4686=6041
Spec. post-laurea 359 359+6041=6400
Totale 6400 -

Table: Distribuzione di frequenza assoluta e frequenza assoluta cumulata del carattere Livello di
istruzione (popolazione Demo).

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Distribuzione dei caratteri statistici
Rappresentazione grafica dei caratteri statistici

Distribuzione di frequenza cumulata: esempi

Consideriamo di nuovo il dataset Demo, relativo a N=6400 unità statistiche ed in


particolare il carattere Livello di istruzione:
Livello di istruzione fj Fj pj Pj
Inferiore al diploma 0.2172 0.2172 21.72 21.72
Diploma 0.3025 0.3025+0.2172=0.5197 30.25 30.25+21.72=51.97
Iscrizione all’università 0.2125 0.2125+0.5197=0.7322 21.25 21.25+51.97= 73.22
Laurea 0.2117 0.2117+0.7322=0.9439 21.17 21.17+73.22=94.39
Spec. post-laurea 0.0561 0.0561+0.9439=1.000 5.61 5.61+94.39=100
Totale 1 - 100 -

Table: Distribuzione di frequenza relativa, relativa cumulata, relativa percentuale e relativa


percentuale cumulata del carattere Livello di istruzione (popolazione Demo).

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Distribuzione dei caratteri statistici
Rappresentazione grafica dei caratteri statistici

Distribuzione di frequenza cumulata: esempi

Le distribuzioni delle frequenze cumulate del carattere Livello di istruzione ci


consentono di affermare che nella popolazione Demo:
4686 unità hanno un livello di istruzione inferiore alla laurea;
Tali unità corrispondono al 73.22% del totale;
Il 94.39% delle unità ha un livello di istruzione pari al massimo alla laurea.

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Distribuzione dei caratteri statistici
Rappresentazione grafica dei caratteri statistici

Distribuzione di frequenza per caratteri quantitativi

Se il carattere che si vuole analizzare presenta moltissime modalità distinte, si


possono avere notevoli difficoltà nella comprensione dei dati osservati, e derivare
la distribuzione di frequenza (assoluta o relativa) richiede molto tempo e non
facilita l’interpretazione
Questo avviene spesso con i caratteri quantitativi, continui o discreti. Per
esempio nella popolazione Demo il carattere Età assume 60 modalità distinte (da
18 a 77 anni), con frequenze assolute che variano da un massimo di 212 ad un
minimo di 1
In questi casi è solitamente necessario o per lo meno conveniente procedere ad un
raggruppamento dei valori in intervalli tra loro disgiunti
Quindi prima di procedere alla derivazione delle distribuzioni di frequenza si
suddividono in classi le modalità dell carattere e successivamente si derivano le
distribuzioni di frequenza per le classi cosı̀ ottenute

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Distribuzione dei caratteri statistici
Rappresentazione grafica dei caratteri statistici

Suddivisione in classi di un carattere quantitativo

E’ opportuno definire le classi in modo tale che:


Il loro numero sia abbastanza piccolo da fornire una sintesi adeguata ma
sufficientemente grande da mantenere l’informazione con un livello accettabile di
dettaglio (il numero delle classi si colloca in genere tra 5 e 20)
Siano tra loro disgiunte
Comprendano tutte le possibili modalità del carattere
Abbiano, se possibile, la stessa ampiezza. In tal caso si ha:
Dimensione classe= (Valore massimo - Valore minimo) / Numero di classi

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Distribuzione dei caratteri statistici
Rappresentazione grafica dei caratteri statistici

Suddivisione in classi di un carattere quantitativo: esempio

Per esempio nel caso del carattere Età della popolazione Demo il Valore minimo
(modalità piú bassa) è pari a 18, il Valore massimo (modalità piú alta) è pari a 77
Supponiamo di voler suddividere il carattere in 6 classi
Si ha: (77 − 18)/6 ≈ 10
La prima classe raggrupperà quindi le modalità da 18 a 27, la seconda da 28 a
37, ecc. Attenzione: bisogna sempre indicare se i valori estremi della classe sono
inclusi o meno nella stessa, in modo da saper collocare univocamente ciascuna
unità nella classe corretta

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Distribuzione dei caratteri statistici
Rappresentazione grafica dei caratteri statistici

Suddivisione in classi di un carattere quantitativo: esempio

Una volta definite le classi possiamo derivare le distribuzioni di frequenza per il


carattere:
Età Freq. assolute Freq. relative perc.
18 ` 28 783 12.23
28 ` 38 1730 27.03
38 ` 48 1784 27.88
48 ` 58 1315 20.55
58 ` 68 649 10.14
68 ` 78 139 2.17
Totale 6400 100

Table: Distribuzione di frequenza assoluta e relativa del carattere Età suddiviso in 6 classi
(popolazione Demo).

N.B. La prima classe potrebbe essere lasciata aperta ”a sinistra”, ovvero < 27,
l’ultima classe aperta ”a destra”, ≥ 68. Gli estremi delle classi possono essere indicate
anche con le parentesi: la parentesi tonda indica che il valore non è compreso, la
quadra che è compreso. Esempio: [18, 27) corrisponde a 18 ` 27

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Distribuzione dei caratteri statistici
Rappresentazione grafica dei caratteri statistici

Suddivisione in classi di un carattere quantitativo: esempio

Le distribuzioni di frequenza ottenute sono in grado di fornirci informazioni di


sintesi interessanti sul carattere Età
Possiamo affermare per esempio che nella popolazione Demo ci sono 1730
individui con età compresa tra 28 e 37 anni
Inoltre, il 10% circa ha un’età compresa tra 58 e 67 anni

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Distribuzione dei caratteri statistici
Rappresentazione grafica dei caratteri statistici

Suddivisione in classi di un carattere quantitativo: esempio

Supponiamo di disporre della distribuzione di frequenza del carattere Età per


un’altra popolazione formata da 640 individui (Popolazione ”Demo2”):
Età Freq. assolute Freq. relative perc.
18 ` 28 12 1.88
28 ` 38 74 11.56
38 ` 48 85 13.28
48 ` 58 220 34.38
58 ` 68 185 28.91
68 ` 78 64 10.00
Totale 640 100

Table: Distribuzione di frequenza assoluta e relativa del carattere Età suddiviso in 6 classi
(popolazione Demo2).

Nonostante le popolazioni Demo e Demo2 abbiano numerosità diverse, le


distribuzioni di frequenza relative del carattere età (suddiviso nelle 6 classi prima
definite) ci consentono di effettuare confronti tra le due popolazioni (perchè
riportano la numerosità di entrambi i collettivi a 100 individui)
Per esempio, possiamo affermare che la popolazione Demo è formata da individui
piú giovani, in quanto il 12, 23% appartiene alla classe di età 18 ` 28, contro
l’1.88 della popolazione Demo2

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Distribuzione dei caratteri statistici
Rappresentazione grafica dei caratteri statistici

Rappresentazioni grafiche

Le distribuzioni di frequenza sono utili per ottenere informazioni relativamente ai


caratteri statistici di interesse rilevati su una certa popolazione
Invece che in forma tabellare, le distribuzioni di frequenza possono essere
rappresentate in forma grafica
Le rappresentazioni grafiche non forniscono informazioni aggiuntive rispetto a
quelle tabulari, ma possono essere di grande efficacia comunicativa
In generale i vantaggi delle rappresentazioni grafiche sono i seguenti:
consente una visualizzazione immediata dell’andamento del carattere e della struttura
della distribuzione
consente, con notevole sintesi e in poco spazio, il confronto tra piú distribuzioni
consente di mettere in evidenza la presenza di casi “anomali” (picchi grafici) che
possono essere dovuti a errori nei dati o alla presenza di valori sostanzialmente diversi
da quelli delle altre osservazioni
Si presta meglio a scopi divulgativi rispetto alla forma tabellare

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Distribuzione dei caratteri statistici
Rappresentazione grafica dei caratteri statistici

Rappresentazioni grafiche

Per essere utile ed efficace una rappresentazione grafica dovrebbe contenere


chiaramente tutte le informazioni necessarie alla comprensione dei dati in essa
rappresentati. Quindi, in ogni grafico dovrebbero figurare:
il titolo;
le etichette (es. modalità dei caratteri sugli assi);
la legenda, se nel grafico compare piú di una distribuzione;
le note (es. per indicare la fonte dei dati).
Esistono molti tipi di rappresentazioni grafiche. Noi ne vedremo solamente
alcune, soffermandoci in particolare sull’istogramma. Altre rappresentazioni
grafiche verrano presentate nelle lezioni successive
Per maggiori dettagli sulle rappresentazioni grafiche si veda anche il libro di testo
(Borra, Di Ciaccio)

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Distribuzione dei caratteri statistici
Rappresentazione grafica dei caratteri statistici

Grafico a nastri
Si utilizza solitamente per caratteri qualitativi nominali.
Rappresenta la frequenza (assoluta o relativa) di una tabella di frequenze
sottoforma di rettangoli (nastri)
Ogni nastro ha la medesima base ed i nastri sono tra loro equidistanti
Le lunghezze dei nastri sono proporzionali alle frequenze

Figure: Grafico a nastri per i caratteri “Possesso della TV” e “Possesso del PC”. Popolazione
Demo, frequenze assolute.

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Distribuzione dei caratteri statistici
Rappresentazione grafica dei caratteri statistici

Grafico a barre
Si utilizza per caratteri qualitativi nominali, ordinati e quantitativi discreti
Rappresenta la frequenza (assoluta o relativa) di una tabella di frequenze
sottoforma di rettangoli (barre)
Ogni frequenza della distribuzione viene rappresentata da una barra (rettangolo)
Ogni barra ha la medesima base
Le barre sono fra loro equidistanti
Le altezze (delle barre) sono proporzionali alle frequenze

Figure: Grafico a barre per il carattere “Numero di famigliari”. Popolazione Demo, frequenze
relative percentuali.

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Distribuzione dei caratteri statistici
Rappresentazione grafica dei caratteri statistici

Grafico a torta
Si utilizza soprattutto per caratteri qualitativi nominali
E’ una rappresentazione grafica circolare che mostra le frequenze di una
distribuzione sottoforma di sezioni (“spicchi”) di un cerchio
E’ indicata quando si vuole rappresentare la composizione di un aggregato,
l’incidenza delle frequenze delle singole modalità rispetto al totale
Non è indicata quando il numero di modalità è troppo elevato, poichè
aumentando i settori circolari il confronto tra questi diventa complicato
Ogni settore (“spicchio di torta”) corrisponde ad una modalità del carattere
L’angolo al centro di ciascun settore è proporzionale alle frequenze

Figure: Grafico a barre per il carattere “Possesso del Fax”. Popolazione Demo, frequenze relative
percentuali.

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Distribuzione dei caratteri statistici
Rappresentazione grafica dei caratteri statistici

Istogramma a basi uguali


Si utilizza per i caratteri quantitativi continui suddivisi in classi di uguale ampiezza
L’istogramma è un grafico costituito da barre non distanziate, dove ogni barra
possiede un’area proporzionale alla frequenza (assoluta o relativa) della classe
Ogni frequenza della distribuzione viene rappresentata da una barra (rettangolo)
Ogni barra ha la medesima base
Le barre sono unite tra loro, poichè il carattere rappresentato è continuo
Le altezze (e le aree) sono proporzionali alle frequenze

Figure: Istogramma per il carattere “Età” suddiviso in sei classi di uguale ampiezza (Popolazione
Demo).
Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari
Distribuzione dei caratteri statistici
Rappresentazione grafica dei caratteri statistici

Istogramma a basi diverse

Si utilizza per i caratteri quantitativi continui suddivisi in classi di diversa


ampiezza
L’area di ogni rettangolo è proporzionale alla frequenza della classe che
rappresenta
La base di ogni rettangolo è pari all’ampiezza aj della classe che rappresenta
L’altezza di ogni rettangolo è proporzionale alla densità di frequenza hj , data dal
rapporto tra frequenza fj e ampiezza della classe aj :
hj = fj /aj
La densità di frequenza consente di tenere in considerazione che la frequenza
maggiore osservata per una classe potrebbe dipendere dalla maggiore ampiezza di
quella classe
Esempio
Consideriamo di nuovo il carattere Età osservato per le unità della popolazione
Demo. Questa volta consideriamo una suddivisione in tre classi di diversa
ampiezza: [18,28), [28,48), [48,78).
Per disegnare l’istogramma non possiamo utilizzare direttamente le frequenze
(relative) di ciascuna classe, ma dobbiamo calcolare anche le corrispondenti
densità di frequenza.

Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari


Distribuzione dei caratteri statistici
Rappresentazione grafica dei caratteri statistici

Istogramma a basi diverse: esempio


Età Freq. assolute (nj ) Freq. relative (fj ) Ampiezza (aj ) Densità (hj )
18 ` 28 783 0.1223 28 − 18 = 10 0.1223/10 = 0.0122
28 ` 48 3514 0.5491 48 − 28 = 20 0.5491/20 = 0.0275
48 ` 78 2103 0.3286 78 − 48 = 30 0.3286/30 = 0.0110
Totale 6400 100 1 -

Table: Distribuzione di frequenza assoluta e relativa, ampiezza elle classi e densità di frequenza del
carattere Età suddiviso in 3 classi (popolazione Demo).

Figure: Istogramma per il carattere “Età” suddiviso in tre classi di diversa ampiezza (Popolazione
Demo).
Nicola Salvati, a.a. 2015/2016 Statistica corso D: Nozioni preliminari

Potrebbero piacerti anche