Sei sulla pagina 1di 7

STATISTICA DESCRITTIVA

FUNZIONE DELLA STATISTICA : raccolta ed analisi dei dati per studiare fenomeni collettivi. Strumento utile
per prendere decisioni in condizioni di incertezza.

FENOMENI COLLETTIVI CHE CI SI PUÒ TROVARE A DESCRIVERE NELLA STATISTICA


DESCRITTIVA :
• Conoscenza delle lingue straniere tra i dipendenti di un’azienda :

Si potrà darne una descrizione di natura strettamente numerica ( tabellare ) oppure si può comunicare tali
descrizioni attraverso delle rappresentazioni gra che.

• I gusti musicali di un insieme di individui :

Si analizzano le tipologie musicali presenti sull’insieme degli individui che si vuole studiare e si valuta quanti
individui gradiscono ciascun tipo di genere

• L’età al quale ci si sposa in Italia

Descrizione che è più pertinente l’ambito della demogra a ma che rappresenta in termini descrittivi un
argomento che riguarda la statistica.

• La presenza di animali domestici negli appartamenti :

Si può essere interessati in termini numerici e qualitativi per la predisposizione di ambulatori veterinari, punti
vendita per la distruzione di cibo per animali.

• Lunghezza delle piste ciclabili nelle capitali europee

DEFINIZIONI :
• POPOLAZIONE : insieme delle entità mediante le quali è possibile ottenere informazioni sul fenomeno
oggetto di interesse ( insieme delle unità su cui si manifesta ) , di dimensione N ( grande o potenzialmente
in nita ) .

Numero di oggetti che compongono la popolazione : N

La popolazione è un insieme di unità statistiche.

• UNITÀ STATISTICA : elemento della popolazione , su cui si manifesta il fenomeno di interesse.

• CAMPIONE : sottoinsieme delle unità osservate nella popolazione , di dimensione n.

Il campione è un insieme di unità statistiche.

Il vantaggio di a rontare un’indagine campionaria invece di un’indagine sulla popolazione è il fatto di avere :

- Risultati decisamente più tempestivi

- Costi più ridotti

OBIETTIVI :
STATISTICA DESCRITTIVA : utilizza metodi gra ci e numerici utili a sintetizzare ed elaborare dati per
produrre informazioni sulla popolazione.

- PARAMETRO : caratteristica che riguarda la popolazione ( media, varianza )

- STATISTICA : caratteristica del campione ( media , varianza ) ma invece che essere calcolata sull’intero
insieme di unità su cui misuro la caratteristica che mi interessa analizzare, mi rivolgo ad un sottoinsieme.

La statistica , quindi, riguarda il campione mentre il parametro riguarda la popolazione in generale.

STATISTICA INTERFERENZIALE : sfrutta il calcolo della probabilità.

Fornisce le basi per previsioni e stime per trasformare informazioni in conoscenza ; a partire da dati rilevati
su un campione rappresentativo deriva dati il più possibile attendibili sulla popolazione.

Strumento che ha una grande di usione e ha una grande di usione soprattutto in ambito aziendale.
Facendo ricorso agli strumenti del calcolo delle probabilità si danno le basi per consentire di prevedere e
stimare .

A partire da un campione, fare inferenze e ricavare informazioni sulla popolazione con una attendibilità il più
possibile alta.

Tanto migliore è il campione , tanto migliore è l’informazione che ne traggo come approssimazione del
corrispondente valore sulla popolazione.

Tanto invece il campione non è così “rappresentativo”, tanto meno si riescono a fare inferenze corrette sulla
popolazione.

APPLICAZIONI DELLA STATISTICA DESCRITTIVA :

• VALUTAZIONE DEL TASSO MEDIO DI INFLAZIONE

• VALUTAZIONE ACCURATEZZA DI UN MACCHINARIO in termini di :

fi
ff
ff
fi
fi
fi
ff
- Dimensioni geometriche dei pezzi prodotti tramite la valutazione della variabilità

- Stabilità del mercato azionario ( misura della variabilità ) : si propone di capire quanto ampie sono le
oscillazioni del mercato azionario.

Aspetto fondamentale della statistica descrittiva una volta analizzati singolarmente i fenomeni si ricerca
quanto un fenomeno sia in uenzato da un altro.

• VALUTAZIONE DIPENDENZA TRA REDDITO E LIVELLO DI ISTRUZIONE , TRA NASCITE PREMATURE E


FUMO

Presupponendo che quando si parla di “livello di istruzione “ si faccia riferimento a diploma di scuola media
inferiore , superiore e così via.

Si ha a che fare con un elemento non numerico, lo strumento che si potrà utilizzare sarà limitato dal fatto di
non avere a che fare con numeri, quindi ci sarà un altro strumento che ci permetterà di ragionare su tali
dipendenze.

• VALUTAZIONE DIPENDENZA TRA SPAZIO PERCORSO E VELOCITÀ , TRA PREZZO E QUANTITÀ :

In questo caso si ha a che fare con fenomeni quantitativi, lo strumento che risponderà all’esigenza di
valutare la dipendenza tra prezzo e quantità sarà molto più so sticato di quello che può descrivere la
dipendenza tra reddito ed istruzione.

• CALCOLO QUOTA DI MERCATO DI UNA DATA IMPRESA RISPETTO AI CONCORRENTI :

Fa riferimento alle frequenze relative.

ESERCIZI :
1 L’università e ettua un indagine tra gli studenti per determinare il tempo medio settimanale di
collegamento ad Internet. Da un campione casuale di 174 studenti è risultato un tempo medio di 6.1 ore.

Quale è la statistica ?

A. Il tempo medio di permanenza su Internet di 174 studenti

B. Gli studenti in università

C. I 174 studenti estratti

LA STATISTICA : il tempo medio di permanenza su Internet

IL PARAMETRO : il tempo medio di permanenza su Internet dell’intera popolazione di studenti

B ) Gli studenti in università costituiscono le unità statistiche della popolazione.

C ) I 174 studenti estratti costituiscono le unità statistiche che fanno parte del campione

2 Una compagnia aerea a erma che meno dell’1% dei voli in partenza dall’aeroporto di Linate decolla in
ritardo. Da un campione CASUALE di 200 voli, la percentuale in ritardo risulta dell’1,5% .

Quale è il campione ?

A. I voli in partenza da Linate

B. 200 voli scelti casualmente

C. 1,5%

Quando si parla di “campione casuale” si parla di un estrazione casuale delle unità statistiche che entrano a
far parte del campione.

Ci sono situazioni in cui non si può scegliere casualmente le unità che entrano a far parte del campione
( per la particolare natura del fenomeno o il contesto in cui si veri ca ).

IL CAMPIONE : 200 voli scelti casualmente

A ) I voli in partenza da Linate sono la popolazione

C ) 1,5% è il valore della proporzione campionaria calcolati solo sulle 200 unità statistiche

3 Determinare se, per ottenere le seguenti informazioni, sia necessaria la statistica descrittiva o inferenziale.
Un gra co che illustra il numero di bottiglie difettose prodotte nell’arco di una settimana.

A. Inferenziale

B. Descrittiva

Si parla di gra co , di una descrizione quindi si parla di ambito descrittivo ( B )

fi
fi
ff
ff
fl
fi
fi
4 SME e ettua un’indagine tra gli studenti in merito al tempo trascorso su Internet in una giornata tipo; da
un campione casuale di 174 studenti risulta un tempo medio di 6.1 ore.

A. Quale è la popolazione ?

B. Quale è il campione ?

C. Quale è la statistica ?

D. Il valore 6.1 è un parametro o una statistica ?

A. La popolazione sono gli studenti SME

B. Il campione sono i 184 studenti sme estratti casualmente dall’intera popolazione

C. La statistica è il tempo medio di collegamento valutata sul campione

D. Il valore 6.1 è una statistica perché è stata valutata su un campione di studenti e non sull’intera
popolazione.

DEFINIZIONI :
• VARIABILE : grandezza che, rilevata su ciascuna unità statistica, sarà di aiuto nella comprensione del
fenomeno collettivo in esame ( può essere sico, economico, demogra co, psicologico ecc. )

• INSIEME DELLE MODALITÀ DI UNA VARIABILE : modo in cui un determinato fenomeno si manifesta sulle
unità statistiche.

In base al modo di manifestarsi di un carattere si stabilisce una scala di misura e si classi cano i fenomeni
in base alla natura della variabile che lo descrive.

SCALE DI MISURA :

FENOMENI CHE SI MANIFESTANO MEDIANTE “ETICHETTE”

• SCALA NOMINALE : la variabile si manifesta con “etichette” ( forme non numeriche ) per cui non esiste
una relazione d’ordine naturale .

Es. genere maschio o femmina.

Il genere si misura su scala nominale perché la variabile genere si manifesta attraverso “maschio, femmina “
ed eventuali ulteriori discriminanti ma si manifesta in termini di “etichette” , non esiste una relazione
d’ordine naturale che mi permetta di mettere prima il maschio della femmina o viceversa.

• SCALA ORDINALE O PER RANGHI : la variabile si manifesta mediante “etichetta” che presentano una
relazione di ordine naturale.

Es. titolo di studio

Quando si parla di titolo di studio in termini di titolo conseguito, si ha a che fare con “etichette” ( licenza
elementare, primaria di primo grado e così via ) ma la di erenza rispetto al genere è che queste “etichette”
hanno un ordine oggettivo nel senso che non posso conseguire un diploma di scuola media inferiore se non
ho prima conseguito una licenza di scuola elementare.

Esiste una relazione d’ordine obbligatoria ed oggettiva tra il modo di manifestarsi del carattere sulle
“etichette” che rappresentano la manifestazione della variabile.

FENOMENI CHE SI MANIFESTANO MEDIANTE NUMERI


• SCALA PER INTERVALLI : la variabile si manifesta con numeri in un sistema di riferimento dotato di
origine arbitraria ( non esiste uno zero assoluto, esiste una relazione d’ordine, ha senso distanza
dall’origine arbitraria ma lo zero non vuol dire necessariamente assenza del carattere ) .

Questa scala viene utilizzata per un numero limitatissimo di fenomeni.

Es. la temperatura

Lo zero di temperatura dipende dalla scala che si adotta.

Tipicamente non esiste un’origine assoluta perché dipende dalla scala.

Lo zero non signi ca assenza di temperatura , signi ca 0 gradi nel sistema di riferimento che abbiamo
scelto.

Ha senso “+10 gradi centigradi “ perché indica la distanza di 10 gradi dall’origine

Non ha senso però dire che la temperatura a Roma è una volta e mezzo la temperatura che si osserva a
Firenze perché non ha senso l’indicazione perché non esiste l’origine assoluta.

• SCALA PER RAPPORTI : la variabile si manifesta con numeri in un sistema di riferimento dotato di origine
assoluta ( lo zero ) , cui è associata l’assenza di carattere; ha senso il rapporto tra due misure.

Es. reddito familiare, altezza, peso.

Ha senso valutare dei rapporti quali “Giovanni pesa il doppio di Francesca”.

ff
fi
fi
fi
ff
fi
fi
Tali scale di misura servono per identi care e classi care la natura di ciò che si descrive nell’ambito dell a
statistica descrittiva.

CLASSIFICAZIONE DEI CARATTERI :


• VARIABILE CATEGORICA O QUALITATIVA : si manifesta in termini di attributi ; non ha senso valutare
di erenze di intensità.

Es. genere, titolo di studio, il fatto di fumare o di portare gli occhiali.

Si ha un’ulteriore distinzione :

- SCONNESSE : misurazione su scala nominale, cioè non esiste una relazione d’ordine oggettiva.

Si può solo dire che hanno la stessa manifestazione oppure no due diverse unità statistiche.

Es. “Francesca ha lo stesso genere di Giovanna ma ha un genere diverso da Mauro”.

- ORDINALI : misurazione su scala ordinale, cioè esiste una relazione d’ordine oggettiva.

Es. titolo di studio, situazione in cui si da una valutazione di un servizio attraverso degli attributi (ottimo,
buono, su ciente, scarso).

• VARIABILE NUMERICA O QUANTITATIVA : si manifesta in termini numerici e ha senso valutare di erenze


di intensità.

Le variabili numeriche possono essere :

- DISCRETE : può assumere un numero in nito ( o in nito numerabile ) di valori e deriva generalmente da
operazioni di conteggio.

Es. numero di gli, numero di esami sostenuti..

- CONTINUO : può assumere un numero in nito di valori in un determinato intervallo di numero reali e
deriva generalmente da operazioni di misura.

Es. peso o altezza

Se si sceglie un livello di misurazione con una certa precisione, tra il peso di 50 kg e 55 esistono
potenzialmente e in niti altri valori intermedi.

INDAGINE STATISTICA - PREMESSE


Dato un fenomeno collettivo oggetto di studio :

• Si individua la popolazione di riferimento

• Su determinano le variabili da rilevare e la relativa scala di misura

• Si individua l’insieme dei valori assunti da ciascuna variabile

Es. giudizio su un servizio.

• Si rilevano i valori delle variabili su ciascuna unità statistica.

Vi sono diversi modi di analizzare tale fenomeno : si può fare traverso una scala da 1 a 10 che consente
all’utente di attribuire un voto al servizio, e a quel punto la variabile che descriverà la valutazione del servizio
sarà QUANTITATIVA .

Si può scegliere di dare una valutazione QUALITATIVA , meno netta , attraverso attributi si può pensare di
andare a descrivere il giudizio attraverso attributi ordinati.

Lo stesso fenomeno può esser approcciato in maniera diversa in base a come scegliamo di valutarlo.

COME SI SCEGLIE TRA UNA STRADA E L’ALTRA ?


Dipende dall’obiettivo dell’indagine. Si hanno delle domande di ricerca alla base di uno studio, per cui in
base a tali domande ci sono situazioni in cui è indispensabile avere a che fare con una valutazione
quantitativa ( e scegliere la strada del voto ) , dall’altra parte ci sono situazioni in cui basta una valutazione
più qualitativa ( utilizzando una variabile categorica di tipo ordinale).

ESEMPIO 1
• FENOMENO COLLETTIVO : capacità ricettiva delle aziende turistiche piemontesi

Cosa o riamo in termini di o erta di strutture dal punto di vista turistico in Piemonte

• POPOLAZIONE : costituita dall’insieme delle aziende turistiche piemontesi ( hotel con classi cazione
alberghiera, campeggi, ostelli..).

• NUMEROSITÀ DELLA POPOLAZIONE N = legata al numero delle aziende censite piemontesi

• UNITÀ STATISTICHE : hotel, pensioni, campeggi ecc.

• VARIABILI :

- X1 : numero di posti letto = variabile quantitativa discreta

- X2 costo del pernottamento = variabile quantitativa continua

ff
ff
ffi
fi
fi
ff
fi
fi
fi
fi
fi
fi
ff
- X3 posizione struttura = centrale o periferica. Variabile categorica di tipo sconnesso perché la valutazione
di una gerarchia tra “periferico” e “centrale” dipende molto da cosa mi serve.

- X4 categoria = variabile categorica di tipo ordinale ( numero di stelle )

MATRICE DATI
Come l’indagine statistica tipicamente campionaria si traduce dal questionario ad una struttura elaborabile.

Una volta sottoposto il questionario all’unità del campione , le risposte fornite da ogni singolo questionario
vengono organizzate in una struttura tabellare detta matrice dati.

Ogni riga contiene informazioni relative ad una stessa unità statistica, normalmente senza alcun
ordinamento progressivo implicito.

Ogni colonna contiene le determinazioni osservate sulle unità statistiche per una data mutabile/variabile
categoria a cura di una variabile quantitativa.

ESERCIZI :

Identi care il dopo di dati :

- Quanti articoli internazionali avete pubblicato durante l’ultimo anno ?

A. Categorica : qualitativa : nominale

B. Categorica : qualitativa : ordinale

C. Numerica : quantitativa : discreta

Risposta esatta : C

- Quante volte al mese mangiate gelato ?

A. Numerica : discreta

B. Categorica : nominale

Risposta esatta : A

- Avete giocato a calcetto nel nuovo campo durante l’ultimo mese ?

A. Categorica : qualitativa : ordinale

B. Categorica : qualitativa : nominale

C. Numerica : quantitativa : discreta

Risposta esatta B. Variabile categoria o qualitativa di tipo nominale o sconnesso perché non esiste un
ordinamento oggettivo che privilegi l’aver giocato piuttosto che il non aver giocato nel nuovo campo

- Decidere se le seguenti variabili sono categoriche o numeriche ; se categoriche speci care il livello di
misurazione, se numeriche distinguere tra discrete e continue :

A. Numero di email giornaliere inviate da un promotore nanziario

Si va ad e ettuare un operazione di conteggio, quando si ha a che fare con una variabile numerica discreta

B. Costo complessivo dei libri di testo per un dato semestre

Si parla di una variabile quantitativa numerica di tipo continuo

C. Importo bimestrale della bolletta elettrica

Si ha a che fare con un fenomeno misurato nel continuo e si parla di una variabile numerica di tipo continuo

D. Livelli gerarchici dei professori universitari : ordinario, associato, ricercatore, assistente tecnico

È una variabile categorica di tipo ordinale perché si ha un libello di misura che presuppone un ordinamento
oggettivo delle modalità con cui il fenomeno si manifesta.

DISTRIBUZIONI DI FREQUENZA
La distribuzione delle frequenze assolute si tratta di identi care per ogni modalità della variabile che si
descrive la frequenza, cioè quante volte si presenta quella modalità all’interno del campione o della
popolazione che si considera.

La distribuzione di frequenze assoluta è una sintesi dei dati, insieme di coppie ( modalità, frequenza ) tale
che :

- La colonna a sinistra contiene le modalità o classi di misure, risposte della variabile oggetto di studio

- La colonna a destra contiene il corrispondente numero “ ” ( conteggio del numero di volte in cui questa
modalità si presenta nel campione ) di valori osservati per ciascuna modalità / classe.

Fi = frequenza assoluta

fi
ff
fi
fi
fi
fi
La distribuzione di frequenze relative “pi” si ottiene dividendo ciascuna frequenza per il numero
complessivo di osservazioni; moltiplicando ciascuna per 100 si ottiene la distribuzione delle frequenze
percentuali.

Osservazioni = per la dimensione campionaria nel caso di un campione, per la dimensione della
popolazione nel caso di una indagine estesa a tutta la popolazione.

Es. supponiamo di voler confrontare la distribuzione per genere di due diversi corsi di laurea.

Tendenzialmente ci si aspetta che il numero di studenti iscritti a un corso di laurea all’altro sia diverso.

Ciò rende impossibile confrontarsi direttamente sulle frequenze assolute se i numeri complessivi sono
di erenti ( dire di avere 10 femmine su un totale 100 studenti piuttosto di avere 10 femmine su un totale di
20 studenti ha un signi cato diverso ).

Concettualmente la “Fr” indica la quota del collettivo che presenta una certa modalità o classe di
misura.
In tal modo viene individuata in percentuale la quota dell’intero campione che presenta una determinata
modalità.

Il vantaggio delle frequenze relative è proprio quello di consentire i paragoni tra distribuzioni diverse ( si
ragiona in termini relativi e si può confrontare frequenze relative in contesti di erenti ).

ESEMPIO 1

• Popolazione : matricole Economia az. 2018-2019

• Numerosità del campione N = 10

• Unità statistiche : matricole 2018-2019

• Variabile X : esami sostenuti no a dicembre 2019, carattere quantitativo discreto misurato in scala per
rapporti.

• Insieme delle modalità M = numero di esami che possono essere sostenuti da una matricola che parte da
0 e arriva a 10.

X = { 4,2,6,2,4,6,5,4,4,2 }

Si tratta di costruire la distribuzione delle frequenze assolute e relative : foglio integrativo

DISTRIBUZIONI DI FREQUENZE ASSOLUTE CUMULATE, RELATIVE CUMULATE

La distribuzione delle frequenze cumulate indica il numero totale di osservazioni ( quota del totale nel caso
di frequenze cumulate relative ) con valori minori o uguali della modalità corrente o , nel caso di dati
raggruppati in classi , dell’estremo superiore della classe , e si ottiene sommando alla frequenza del valore/
classe corrente le frequenze di tutti quelli cronologicamente precedenti.

MODALITÀ Xi Fi ( frequenza Pi ( distribuzione F. cumulate F. cumulate


assoluta ) frequenze relative) assolute relative

X1 f1 p1 f1 p1

X2 f2 p2 f1 + f2 p2

: : :

X ( k-1) f ( k-1 ) p ( k-1 ) f1 + f2 + ...f ( k-1 ) p1 + p2 + ..p ( k-1 )

X(k) f(k) p(k) f1 + f2 + ..f ( k-1 ) + p1 + p2 + ..p( k-1 )


f(k)=N +p(k)=1

QUALE GRAFICO PER QUALE TIPO DI DISTRIBUZIONE ?

Visualizzare la distribuzione di frequenza attraverso un gra co consente di coglierne alcuni aspetti


caratteristici in modo immediato, ad esempio individuare la modalità che viene assunta meno
frequentemente è quella che si presenta più frequentemente o più in generale la FORMA della distribuzione.

ff
fi
fi
fi
ff
DIAGRAMMI E GRAFICI
DIAGRAMMA A TORTA :
Serve per rappresentare variabili categoriali sconnesse, quindi per cui non esiste un ordinamento.

Perché si sceglie tale gra co ?

Perché nella de nizione circolare, se esiste un ordinamento questo si perde mentre non produce e etti se
viene utilizzato per le variabili sconnesse.

Vi è un caso particolare di variabile sconnessa per cui il diagramma a torta si può mostrare poco e ciente e
questo accade quando la variabile categoriale ha troppe modalità distinte, per cui la torta diventa di di cile
lettura a causa delle dimensioni molto piccole e poco di erenti delle fette della torta.

QUALE È IL PRESUPPOSTO SOTTOSTANTE A TALA GRAFICO ?

Si deve mantenere la stessa proporzione che esiste tra frequenza assoluta e dimensione del campione, a
livello di ampiezza dell’angolo al centro che sottende la fetta di torta rispetto al totale dei 360 gradi
dell’angolo giro.

Il diagramma a torta è costituito da un cerchio diviso in k spicchi con aree proporzionali alle frequenze
associate alle modalità della variabile.

DIAGRAMMA A BARRE :
Il diagramma a barre è costituito da k rettangoli non adiacenti posti sull’asse orizzontale, con basi uguali e
altezze proporzionali alle frequenze associate (o alla frequenza relativa o alla frequenza assoluta) alle
modalità della variabile.

Nel caso di variabili categoriche ordinali, è obbligatorio che le modalità che vengono rappresentate dalle
barre siano nell’ordine oggettivo che caratterizza quel fenomeno.

Se invece si utilizza un diagramma a barre per una variabile categoriale sconnessa misurata su scala
nominale, le barre possono essere poste in un ordinamento qualsiasi.

DIAGRAMMA DI PARETO :
Diagramma a barre particolari che presenta le frequenze decrescenti tipicamente delle cause di difettosità
procedendo da sinistra verso destra.

Il rettangolo più a sinistra indica la causa più frequente ( poche cause rilevanti ) e procedendo verso destra
si rappresentano le cause meno frequenti ( molte cause insigni canti ). Al diagramma viene sovrapposta
una spezzata che indica la percentuale relativa cumulata per rilevanza decrescente del difetto.

Si può aggiungere al diagramma di Pareto anche una frequenza cumulata percentuale che rappresenti il
cumulo dei difetti in ordine decrescente ( rappresentato dalla spezzata ).

fi
fi
ff
fi
ffi
ff
ffi