FUNZIONE DELLA STATISTICA : raccolta ed analisi dei dati per studiare fenomeni collettivi. Strumento utile
per prendere decisioni in condizioni di incertezza.
Si potrà darne una descrizione di natura strettamente numerica ( tabellare ) oppure si può comunicare tali
descrizioni attraverso delle rappresentazioni gra che.
Si analizzano le tipologie musicali presenti sull’insieme degli individui che si vuole studiare e si valuta quanti
individui gradiscono ciascun tipo di genere
Descrizione che è più pertinente l’ambito della demogra a ma che rappresenta in termini descrittivi un
argomento che riguarda la statistica.
Si può essere interessati in termini numerici e qualitativi per la predisposizione di ambulatori veterinari, punti
vendita per la distruzione di cibo per animali.
DEFINIZIONI :
• POPOLAZIONE : insieme delle entità mediante le quali è possibile ottenere informazioni sul fenomeno
oggetto di interesse ( insieme delle unità su cui si manifesta ) , di dimensione N ( grande o potenzialmente
in nita ) .
Il vantaggio di a rontare un’indagine campionaria invece di un’indagine sulla popolazione è il fatto di avere :
OBIETTIVI :
STATISTICA DESCRITTIVA : utilizza metodi gra ci e numerici utili a sintetizzare ed elaborare dati per
produrre informazioni sulla popolazione.
- STATISTICA : caratteristica del campione ( media , varianza ) ma invece che essere calcolata sull’intero
insieme di unità su cui misuro la caratteristica che mi interessa analizzare, mi rivolgo ad un sottoinsieme.
Fornisce le basi per previsioni e stime per trasformare informazioni in conoscenza ; a partire da dati rilevati
su un campione rappresentativo deriva dati il più possibile attendibili sulla popolazione.
Strumento che ha una grande di usione e ha una grande di usione soprattutto in ambito aziendale.
Facendo ricorso agli strumenti del calcolo delle probabilità si danno le basi per consentire di prevedere e
stimare .
A partire da un campione, fare inferenze e ricavare informazioni sulla popolazione con una attendibilità il più
possibile alta.
Tanto migliore è il campione , tanto migliore è l’informazione che ne traggo come approssimazione del
corrispondente valore sulla popolazione.
Tanto invece il campione non è così “rappresentativo”, tanto meno si riescono a fare inferenze corrette sulla
popolazione.
fi
ff
ff
fi
fi
fi
ff
- Dimensioni geometriche dei pezzi prodotti tramite la valutazione della variabilità
- Stabilità del mercato azionario ( misura della variabilità ) : si propone di capire quanto ampie sono le
oscillazioni del mercato azionario.
Aspetto fondamentale della statistica descrittiva una volta analizzati singolarmente i fenomeni si ricerca
quanto un fenomeno sia in uenzato da un altro.
Presupponendo che quando si parla di “livello di istruzione “ si faccia riferimento a diploma di scuola media
inferiore , superiore e così via.
Si ha a che fare con un elemento non numerico, lo strumento che si potrà utilizzare sarà limitato dal fatto di
non avere a che fare con numeri, quindi ci sarà un altro strumento che ci permetterà di ragionare su tali
dipendenze.
In questo caso si ha a che fare con fenomeni quantitativi, lo strumento che risponderà all’esigenza di
valutare la dipendenza tra prezzo e quantità sarà molto più so sticato di quello che può descrivere la
dipendenza tra reddito ed istruzione.
ESERCIZI :
1 L’università e ettua un indagine tra gli studenti per determinare il tempo medio settimanale di
collegamento ad Internet. Da un campione casuale di 174 studenti è risultato un tempo medio di 6.1 ore.
Quale è la statistica ?
C ) I 174 studenti estratti costituiscono le unità statistiche che fanno parte del campione
2 Una compagnia aerea a erma che meno dell’1% dei voli in partenza dall’aeroporto di Linate decolla in
ritardo. Da un campione CASUALE di 200 voli, la percentuale in ritardo risulta dell’1,5% .
Quale è il campione ?
C. 1,5%
Quando si parla di “campione casuale” si parla di un estrazione casuale delle unità statistiche che entrano a
far parte del campione.
Ci sono situazioni in cui non si può scegliere casualmente le unità che entrano a far parte del campione
( per la particolare natura del fenomeno o il contesto in cui si veri ca ).
C ) 1,5% è il valore della proporzione campionaria calcolati solo sulle 200 unità statistiche
3 Determinare se, per ottenere le seguenti informazioni, sia necessaria la statistica descrittiva o inferenziale.
Un gra co che illustra il numero di bottiglie difettose prodotte nell’arco di una settimana.
A. Inferenziale
B. Descrittiva
fi
fi
ff
ff
fl
fi
fi
4 SME e ettua un’indagine tra gli studenti in merito al tempo trascorso su Internet in una giornata tipo; da
un campione casuale di 174 studenti risulta un tempo medio di 6.1 ore.
A. Quale è la popolazione ?
B. Quale è il campione ?
C. Quale è la statistica ?
D. Il valore 6.1 è una statistica perché è stata valutata su un campione di studenti e non sull’intera
popolazione.
DEFINIZIONI :
• VARIABILE : grandezza che, rilevata su ciascuna unità statistica, sarà di aiuto nella comprensione del
fenomeno collettivo in esame ( può essere sico, economico, demogra co, psicologico ecc. )
• INSIEME DELLE MODALITÀ DI UNA VARIABILE : modo in cui un determinato fenomeno si manifesta sulle
unità statistiche.
In base al modo di manifestarsi di un carattere si stabilisce una scala di misura e si classi cano i fenomeni
in base alla natura della variabile che lo descrive.
SCALE DI MISURA :
• SCALA NOMINALE : la variabile si manifesta con “etichette” ( forme non numeriche ) per cui non esiste
una relazione d’ordine naturale .
Il genere si misura su scala nominale perché la variabile genere si manifesta attraverso “maschio, femmina “
ed eventuali ulteriori discriminanti ma si manifesta in termini di “etichette” , non esiste una relazione
d’ordine naturale che mi permetta di mettere prima il maschio della femmina o viceversa.
• SCALA ORDINALE O PER RANGHI : la variabile si manifesta mediante “etichetta” che presentano una
relazione di ordine naturale.
Quando si parla di titolo di studio in termini di titolo conseguito, si ha a che fare con “etichette” ( licenza
elementare, primaria di primo grado e così via ) ma la di erenza rispetto al genere è che queste “etichette”
hanno un ordine oggettivo nel senso che non posso conseguire un diploma di scuola media inferiore se non
ho prima conseguito una licenza di scuola elementare.
Esiste una relazione d’ordine obbligatoria ed oggettiva tra il modo di manifestarsi del carattere sulle
“etichette” che rappresentano la manifestazione della variabile.
Es. la temperatura
Lo zero non signi ca assenza di temperatura , signi ca 0 gradi nel sistema di riferimento che abbiamo
scelto.
Non ha senso però dire che la temperatura a Roma è una volta e mezzo la temperatura che si osserva a
Firenze perché non ha senso l’indicazione perché non esiste l’origine assoluta.
• SCALA PER RAPPORTI : la variabile si manifesta con numeri in un sistema di riferimento dotato di origine
assoluta ( lo zero ) , cui è associata l’assenza di carattere; ha senso il rapporto tra due misure.
ff
fi
fi
fi
ff
fi
fi
Tali scale di misura servono per identi care e classi care la natura di ciò che si descrive nell’ambito dell a
statistica descrittiva.
Si ha un’ulteriore distinzione :
- SCONNESSE : misurazione su scala nominale, cioè non esiste una relazione d’ordine oggettiva.
Si può solo dire che hanno la stessa manifestazione oppure no due diverse unità statistiche.
- ORDINALI : misurazione su scala ordinale, cioè esiste una relazione d’ordine oggettiva.
Es. titolo di studio, situazione in cui si da una valutazione di un servizio attraverso degli attributi (ottimo,
buono, su ciente, scarso).
- DISCRETE : può assumere un numero in nito ( o in nito numerabile ) di valori e deriva generalmente da
operazioni di conteggio.
- CONTINUO : può assumere un numero in nito di valori in un determinato intervallo di numero reali e
deriva generalmente da operazioni di misura.
Se si sceglie un livello di misurazione con una certa precisione, tra il peso di 50 kg e 55 esistono
potenzialmente e in niti altri valori intermedi.
Vi sono diversi modi di analizzare tale fenomeno : si può fare traverso una scala da 1 a 10 che consente
all’utente di attribuire un voto al servizio, e a quel punto la variabile che descriverà la valutazione del servizio
sarà QUANTITATIVA .
Si può scegliere di dare una valutazione QUALITATIVA , meno netta , attraverso attributi si può pensare di
andare a descrivere il giudizio attraverso attributi ordinati.
Lo stesso fenomeno può esser approcciato in maniera diversa in base a come scegliamo di valutarlo.
ESEMPIO 1
• FENOMENO COLLETTIVO : capacità ricettiva delle aziende turistiche piemontesi
Cosa o riamo in termini di o erta di strutture dal punto di vista turistico in Piemonte
• POPOLAZIONE : costituita dall’insieme delle aziende turistiche piemontesi ( hotel con classi cazione
alberghiera, campeggi, ostelli..).
• VARIABILI :
ff
ff
ffi
fi
fi
ff
fi
fi
fi
fi
fi
fi
ff
- X3 posizione struttura = centrale o periferica. Variabile categorica di tipo sconnesso perché la valutazione
di una gerarchia tra “periferico” e “centrale” dipende molto da cosa mi serve.
MATRICE DATI
Come l’indagine statistica tipicamente campionaria si traduce dal questionario ad una struttura elaborabile.
Una volta sottoposto il questionario all’unità del campione , le risposte fornite da ogni singolo questionario
vengono organizzate in una struttura tabellare detta matrice dati.
Ogni riga contiene informazioni relative ad una stessa unità statistica, normalmente senza alcun
ordinamento progressivo implicito.
Ogni colonna contiene le determinazioni osservate sulle unità statistiche per una data mutabile/variabile
categoria a cura di una variabile quantitativa.
ESERCIZI :
Risposta esatta : C
A. Numerica : discreta
B. Categorica : nominale
Risposta esatta : A
Risposta esatta B. Variabile categoria o qualitativa di tipo nominale o sconnesso perché non esiste un
ordinamento oggettivo che privilegi l’aver giocato piuttosto che il non aver giocato nel nuovo campo
- Decidere se le seguenti variabili sono categoriche o numeriche ; se categoriche speci care il livello di
misurazione, se numeriche distinguere tra discrete e continue :
Si va ad e ettuare un operazione di conteggio, quando si ha a che fare con una variabile numerica discreta
Si ha a che fare con un fenomeno misurato nel continuo e si parla di una variabile numerica di tipo continuo
D. Livelli gerarchici dei professori universitari : ordinario, associato, ricercatore, assistente tecnico
È una variabile categorica di tipo ordinale perché si ha un libello di misura che presuppone un ordinamento
oggettivo delle modalità con cui il fenomeno si manifesta.
DISTRIBUZIONI DI FREQUENZA
La distribuzione delle frequenze assolute si tratta di identi care per ogni modalità della variabile che si
descrive la frequenza, cioè quante volte si presenta quella modalità all’interno del campione o della
popolazione che si considera.
La distribuzione di frequenze assoluta è una sintesi dei dati, insieme di coppie ( modalità, frequenza ) tale
che :
- La colonna a sinistra contiene le modalità o classi di misure, risposte della variabile oggetto di studio
- La colonna a destra contiene il corrispondente numero “ ” ( conteggio del numero di volte in cui questa
modalità si presenta nel campione ) di valori osservati per ciascuna modalità / classe.
Fi = frequenza assoluta
fi
ff
fi
fi
fi
fi
La distribuzione di frequenze relative “pi” si ottiene dividendo ciascuna frequenza per il numero
complessivo di osservazioni; moltiplicando ciascuna per 100 si ottiene la distribuzione delle frequenze
percentuali.
Osservazioni = per la dimensione campionaria nel caso di un campione, per la dimensione della
popolazione nel caso di una indagine estesa a tutta la popolazione.
Es. supponiamo di voler confrontare la distribuzione per genere di due diversi corsi di laurea.
Tendenzialmente ci si aspetta che il numero di studenti iscritti a un corso di laurea all’altro sia diverso.
Ciò rende impossibile confrontarsi direttamente sulle frequenze assolute se i numeri complessivi sono
di erenti ( dire di avere 10 femmine su un totale 100 studenti piuttosto di avere 10 femmine su un totale di
20 studenti ha un signi cato diverso ).
Concettualmente la “Fr” indica la quota del collettivo che presenta una certa modalità o classe di
misura.
In tal modo viene individuata in percentuale la quota dell’intero campione che presenta una determinata
modalità.
Il vantaggio delle frequenze relative è proprio quello di consentire i paragoni tra distribuzioni diverse ( si
ragiona in termini relativi e si può confrontare frequenze relative in contesti di erenti ).
ESEMPIO 1
• Variabile X : esami sostenuti no a dicembre 2019, carattere quantitativo discreto misurato in scala per
rapporti.
• Insieme delle modalità M = numero di esami che possono essere sostenuti da una matricola che parte da
0 e arriva a 10.
X = { 4,2,6,2,4,6,5,4,4,2 }
La distribuzione delle frequenze cumulate indica il numero totale di osservazioni ( quota del totale nel caso
di frequenze cumulate relative ) con valori minori o uguali della modalità corrente o , nel caso di dati
raggruppati in classi , dell’estremo superiore della classe , e si ottiene sommando alla frequenza del valore/
classe corrente le frequenze di tutti quelli cronologicamente precedenti.
X1 f1 p1 f1 p1
X2 f2 p2 f1 + f2 p2
: : :
ff
fi
fi
fi
ff
DIAGRAMMI E GRAFICI
DIAGRAMMA A TORTA :
Serve per rappresentare variabili categoriali sconnesse, quindi per cui non esiste un ordinamento.
Perché nella de nizione circolare, se esiste un ordinamento questo si perde mentre non produce e etti se
viene utilizzato per le variabili sconnesse.
Vi è un caso particolare di variabile sconnessa per cui il diagramma a torta si può mostrare poco e ciente e
questo accade quando la variabile categoriale ha troppe modalità distinte, per cui la torta diventa di di cile
lettura a causa delle dimensioni molto piccole e poco di erenti delle fette della torta.
Si deve mantenere la stessa proporzione che esiste tra frequenza assoluta e dimensione del campione, a
livello di ampiezza dell’angolo al centro che sottende la fetta di torta rispetto al totale dei 360 gradi
dell’angolo giro.
Il diagramma a torta è costituito da un cerchio diviso in k spicchi con aree proporzionali alle frequenze
associate alle modalità della variabile.
DIAGRAMMA A BARRE :
Il diagramma a barre è costituito da k rettangoli non adiacenti posti sull’asse orizzontale, con basi uguali e
altezze proporzionali alle frequenze associate (o alla frequenza relativa o alla frequenza assoluta) alle
modalità della variabile.
Nel caso di variabili categoriche ordinali, è obbligatorio che le modalità che vengono rappresentate dalle
barre siano nell’ordine oggettivo che caratterizza quel fenomeno.
Se invece si utilizza un diagramma a barre per una variabile categoriale sconnessa misurata su scala
nominale, le barre possono essere poste in un ordinamento qualsiasi.
DIAGRAMMA DI PARETO :
Diagramma a barre particolari che presenta le frequenze decrescenti tipicamente delle cause di difettosità
procedendo da sinistra verso destra.
Il rettangolo più a sinistra indica la causa più frequente ( poche cause rilevanti ) e procedendo verso destra
si rappresentano le cause meno frequenti ( molte cause insigni canti ). Al diagramma viene sovrapposta
una spezzata che indica la percentuale relativa cumulata per rilevanza decrescente del difetto.
Si può aggiungere al diagramma di Pareto anche una frequenza cumulata percentuale che rappresenti il
cumulo dei difetti in ordine decrescente ( rappresentato dalla spezzata ).
fi
fi
ff
fi
ffi
ff
ffi