Sei sulla pagina 1di 56

STATISTICA

La statistica si divide in tradizionale (descrittiva e inferenziale) e moderna.


STATISTICA DESCRITTIVA: Si occupa di descrivere la realtà dei fenomeni collettivi (fenomeni
demografici, andamento della temperatura di una città, soddisfazione dei clienti, efficacia di una
terapia medica, ...)
Definisce indicatori di sintesi (es. la media, la moda) e metodi complessi di analisi (come quelli
proposti dalla scuola italiana di Statistica nel corso dell’Ottocento e del Novecento)
STATISTICA INFERENZIALE: Fornisce i metodi con cui riferire all’intera popolazione le sintesi
quantitative dei dati osservati su un campione di osservazioni , non si riferisce a dei fenomeni
collettivi
Strumenti della statistica: dati, metodi matematici e l’informatica (sempre più importante)
STATISTICA MODERNA:
Big data un tempo erano una risorsa rara, oggi siamo sommersi da valanghe di dati –> data mining
Anche i testi possono essere usati come dati statistici: possono creare il sentiment.
I metodi statistici vengono applicati ad una grandissima varietà di ambiti differenti.

La STATISTICA è la disciplina che si occupa di predisporre adeguati metodi quantitativi per:


- Raccogliere e organizzare
- Elaborare e sintetizzare
- Analizzare e interpretare
Dati e informazioni utili per esaminare i fenomeni reali

I metodi statistici sono proposti e studiati per l’analisi dei fenomeni che si manifestano in una
collettività
• Con le analisi statistiche ci si propone di individuare, descrivere, interpretare e prevedere, pur
nella varietà delle singole manifestazioni, le regolarità
che sono alla base dei fenomeni

Per conoscere e/o comprendere un fenomeno, è quindi necessaria l’osservazione intenzionale di


una molteplicità di casi individuali (la popolazione o collettivo statistico)
Per esempio, se siamo interessati alle caratteristiche dei bambini di una scuola, la popolazione
sarà l’insieme dei bambini iscritti alla scuola in un determinato anno scolastico
Sulle singole unità statistiche della popolazione vengono rilevati una o più caratteristiche del
fenomeno di interesse, i caratteri (per esempio, il colore dei capelli, il genere, l’età,...)
I diversi modi con cui il carattere si presenta nelle unità statistiche della popolazione si chiamano
modalità
Esempio: carattere “colore dei capelli” modalità “castano, biondo,rosso, nero”

La rilevazione di uno o più caratteri consente quindi di classificare (raggruppare) le unità


statistiche che formano la popolazione o il campione
TERMINOLOGIA
• Unità statistica: unità elementare su cui si osservano i caratteri oggetto di studio
• Popolazione o collettivo statistico: insieme di unità statistiche
• Campione: sottoinsieme della popolazione • Carattere: caratteristica di interesse
• Modalità: manifestazione del carattere

1
Le caratteristiche di un carattere devono essere:
- incompatibili (non sovrapposte): la stessa unità statistica non può essere messa in
relazione (classificata) con più di una modalità
- esaustive: le modalità elencate debbono rappresentare tutti i possibili modi di essere del
carattere, così che tutte le unità statistiche del collettivo possano essere classificate

La statistica può essere:


- Statistica univariata
analizza un carattere alla volta
- Statistica bivariata
analizza congiuntamente due caratteri
- Statistica multivariata
analizza congiuntamente più caratteri
La statistica tratta sia dati quantitativi che qualitativi (non solo numeri)

L’operazione di classificazione delle unità permette di ottenere tabelle e grafici (guarda tabelle
sulla slide 1)
• Distribuzione di frequenza (es. excel tabella pivot)
• Distribuzione doppia (di frequenza), bivariata
• Distribuzione di quantità [della tabella slide 42 la popolazione è formata da tre filiali che
rappresentano le unità statistiche, carattere fatturato, modalità mln euro). In questa
distribuzione si utilizza soprattutto il grafico a torta
• Serie storica [unità statistica sono gli anni, la popolazione sono i 5 anni] in questo caso la
dimensione temporale è essenziale. In questo caso si utilizza il grafico a linee

FONTI DI DATI
Sono disponibili diverse fonti informative di carattere statistico a cura di Organismi pubblici e
privati.Gli Organismi pubblici agiscono secondo una gerarchia di competenze
Ad esempio:
Enti locali: raccolgono i dati elementari
ISTAT: verifica, aggrega e pubblica i dati
SISTAN: armonizza le varie fonti di dati. Vi afferiscono le istituzioni pubbliche e private deputate
alla raccolta, elaborazione e diffusione di dati di interesse per la collettività
EUROSTAT: organismo UE che ha il compito di armonizzare la raccolta, l’analisi e la presentazione
dei dati ufficiali sulle nazioni aderenti

TIPI DI CARATTERE
- QUALITATIVI : le modalità sono categorie, attributi (sesso, stato civile, ragione sociale)
- QUANTITATIVI: discreti: le modalità sono numeri interi (numero di figli, numero di
occupati,…) e continui: le modalità sono numeri reali (altezza, peso, capitale sociale,…)

SCALE DI MISURA
Quando si fissano le modalità di un carattere ed i criteri di appartenenza alle stesse si costruisce
una scala di misura
La scala non è parte del carattere, ma scaturisce dalla sua definizione operativa
• terremoti: scala Richter scala Mercalli ...
• reddito: euro dollari altra valuta ...
Lo stesso carattere può essere letto in scale diverse

2
SCALE PER CARATTERI QUALITATIVI
• Nominali:
Le modalità sono sconnesse (non ordinabili):
confrontando due modalità si può solo dire se sono uguali / diverse
- Denominazione sociale: es: SpA Srl Sas ...
- Titolo di godimento dell’abitazione: es: Proprietà Affitto Altro titolo
• Ordinali:
Le modalità sono in sequenza logica (ordinabili): confrontando due modalità si può dire se
una precede/è nello stesso posto/segue l’altra
- Es grado di istruzione: licenza elementare, licenza media, diploma, laurea triennale, laurea
magistrale

SCALE PER CARATTERI QUANTITATIVI


• Ad intervalli
Le modalità sono numeri riferiti ad uno zero arbitrario (origine convenzionale, l’ha deciso
qualcuno).
non possiamo confrontare le modalità con il rapporto
possiamo confrontare le modalità con le differenze
- Temperatura: scala Celsius, scala Fahreneit, ...
- Terremoto: scala Mercalli, scala Richter, ...
• Di rapporti
Le modalità sono numeri riferiti ad uno zero assoluto
possiamo confrontare le modalità anche con il rapporto
- Capitale sociale: euro, dollari, ..
- Numero addetti di un’azienda: unità, centinaia, ...

[guarda esempi sulle slide 2 pag. 8 e ss]


TRASFORMAZIONI DI VALORI x IN VALORI y – vale per tutti i caratteri quantitativi
Y= a + bX
Casi particolari:
- Traslazione: b=1 -> Y= a + X
- Trasformazione di scala: a=0 -> Y= bX con b>0 dove b è detta costante di
proporzionalità (es. tasso di cambio)
Due caratteri quantitativi i cui valori sono collegati da una trasformazione di scala si dicono
proporzionali

GERARCHIA DELLE SCALE


- La scala ordinale ha le proprietà della scala nominale e in più ha modalità ordinabili. (scala
nominale è una scala debole)
- La scala ad intervalli ha le proprietà della ordinale e in più ha modalità numeriche.
- La scala di rapporti ha le proprietà della scala ad intervalli e in più ha uno zero assoluto.
(scala di rapporti è quella che sta in cima, la migliore)
Gli strumenti statistici predisposti per caratteri rilevati su una data scala possono essere applicati
ai caratteri rilevati su scale superiori, ma non vale il viceversa.

RAPPORTI STATISTICI

3
È IL PRIMO INDICE ELEMENTARE. I rapporti statistici sono il rapporto tra due dati, di
cui almeno uno di natura statistica.
Indicano quanta parte del numeratore spetta idealmente ad un’unità del denominatore
Hanno un pregio: permettere di fare dei confronti tra situazioni diverse. Nel rapporto statistico
andiamo ad interpretare i dati, la loro natura. Dal punto di vista matematico un rapporto statistico
consiste nel fare una divisione tra due valori. Servono a confrontare dei dati che altrimenti non
sarebbero confrontabili in quanto sono stati rilevati in tempi o circostanze differenti.

DIVERSE TIPOLOGIE DI RAPPORTI:


RAPPORTI STATISTICI DI COMPOSIZIONE
Sono un tipo di rapporti statistici e si calcolano:

nel confronto dobbiamo tenere conto delle diverse dimensioni dei due mercati. Tali rapporti
servono per fare confronti tra fenomeni perché il rapporto consente di eliminare l’influenza di
circostanze che altrimenti non renderebbero confrontabili i dati.

RAPPORTI STATISTICI DI DENSITÀ


Si calcolano:

Nel confronto dobbiamo tenere conto delle diverse dimensioni (superfici) delle due regioni. Le
densità abitative pur essendo rapporti statistici non sono sempre confrontabili sul piano logico.
Tali rapporti servono per fare confronti tra fenomeni perché il rapporto consente di eliminare
l’influenza di circostanze che altrimenti non renderebbero confrontabili i dati.

RAPPORTI STATISTICI DI DERIVAZIONE


Si calcolano:

Esempio la popolazione può essere considerata la causa di molti fenomeni dell’attività umana
come eventi demografici come nascite, morti, matrimoni ecc… Anche in questo caso dobbiamo
tenere conto delle diverse dimensioni dei due mercati. Questi rapporti sono noti anche come
indici di penetrazione. I rapporti di derivazione trovano largo impiego in demografia. Il rapporto
tra n° di nascite e n° di abitanti in un dato anno da luogo a un rapporto di derivazione che
moltiplicato per 1000 indica il n° di nascite attribuibile ad una popolazione di1000 abitanti: si
tratta di un indice grezzo di natalità.

RAPPORTI STATISTICI DI COESISTENZA

4
Si calcolano quando interessa lo studio relativo di fenomeni antitetici che coesistono esempio le
importazioni e le esportazioni, n°maschi e femmine, giovani fino a 20 anni e adulti da 21 anni ecc…
Si calcolano:

Il livello critico del rapporto è 1


Se rapporto <1 -> imp<exp ( nell’esempio le imp sono al numeratore e exp al denominatore)
Se rapporto =1 -> imp=exp
Se rapporto >1 -> imp>exp
Però non sempre il livello critico è 1. Per esempio, per valutare il buon funzionamento di
un’azienda si utilizza spesso il rapporto di coesistenza
Liquidità a breve + crediti a breve / debiti a breve
Per questo indice di liquidità, il livello critico di riferimento è 2 (se l’indice è >= 2 la situazione
dell’azienda è ritenuta buona)

RAPPORTO STATISTICI DI DURATA E RIPETIZIONE


Questi rapporti si calcolano quando si è in presenza di un fenomeno che per un certo intervallo di
tempo è soggetto a un flusso in entrata e uno di uscita. Trovano interessante applicazione nello
studio di movimento delle merci in magazzino.
Il rapporto di durata è dato da:
(guarda slides per vedere come calcolare consistenza e flusso
medio)

Il rapporto di ripetizione è dato da:


misura il n° di volte che il fenomeno si ripete nell’intervallo di tempo misurato

Ha senso calcolare i rapporti di durata e di ripetizione solo nel caso di fenomeni sufficientemente
stazionari, ovvero che non presentano eccessive variazioni nel periodo considerato. In situa di non
stazionarietà bisognerebbe effettuare delle rilevazioni più accurate, ad esempio rilevare la durata
dei singoli pezzi di magazzino e poi fare la media. Questi rapporti sono utili anche in altre
circostanze ad esempio per misurare la giacenza media dei ricoverati in ospedale.

NUMERI INDICI
• Numeri indici semplici: servono a confrontare le intensità (o frequenze) di un unico fenomeno in
tempi o luoghi diversi (vengono chiamati anche elementari). Sono invarianti alle trasformazioni di
scala
• Numeri indici composti: servono a confrontare in tempi o luoghi diversi un fenomeno che risulta
dal concorso di più componenti
CON I NUMERI INDICI SI FANNO SEMPRE SOLO DIVISIONI E MOLTIPLICAZIONI

Numeri indici semplici


5
[guarda esempio nelle slide]
- Numeri indici a base fissa (NIbf): Li otteniamo eseguendo il rapporto tra ogni singola
osservazione x con un termine della serie storica x che viene mantenuto fisso (basefissa):
t b
sono numeri puri e quindi consentono di confrontare fenomeni con ordini diversi di grandezza

<1 -> diminuzione


>1 -> aumento
=1 non c’è stata variazione

L’interpretazione di un NIbf avviene quindi attraverso la variazione relativa (tendenziale), a cui è


collegato dalla relazione:

- Numeri indici a base mobile (NIbm): Li otteniamo eseguendo il rapporto tra ogni singola
osservazione x con il termine x del periodo immediatamente precedente, che quindi
t t–1
cambia ogni volta (base mobile):
sono numeri puri e quindi consentono di confrontare fenomeni con ordini diversi di grandezza.
Il denominatore del rapporto statistico cambia

L’indice del primo anno non posso calcolarlo, non c’è l’anno prima.

Anche l’interpretazione di un NIbm avviene quindi attraverso la corrispondente variazione relativa


(congiunturale) a cui è collegato dalla relazione:

Osservazioni:

6
• i NI (bf e bm) sono sempre positivi, anche quando segnalano una diminuzione, quello che è
importante è se sono maggiori o minori di 1 (o 100);
• le variazioni (tendenziali e congiunturali) hanno, invece, un segno positivo o negativo (se
diverse da zero).

Spesso, però, non possiamo procedere per questa via perché non disponiamo dei dati originari.
Conosciamo, invece, i NI (bf o bm) o le corrispondenti variazioni (tendenziali o congiunturali)
In questi casi, possiamo:
• cambiare la base dei NIbf
• trasformare i NIbf in NIbm e viceversa
ricavando comunque l’informazione che ci interessa

CAMBIAMENTO DELLA BASE: Per esprimere i NIbf di una vecchia base (vb ) in NIbf di una nuova
base (nb ) utilizziamo i rapporti

PASSAGGIO DA BASE FISSA A MOBILE: utilizziamo i rapporti

[guarda esempi su foto e slide]

PASSAGGIO DA BASE MOBILE A FISSA: sfruttiamo la relazione moltiplicativa che ci permette di


ottenere NIbf con base t=0.

Se interessa una base b diversa da 0, si effettua il cambiamento di base usando la relazione


mostrata in precedenza

7
NUMERI INDICI TERRITORIALI
I NI possono essere calcolati anche nel caso di serie territoriali
Esempio (Eurostat) : NI della popolazioni con reddito al di sotto della soglia di povertà per paese
< 1 quota di pop. al di sotto della soglia di povertà Inferiore alla media europea
>1 quota di pop. al di sotto della soglia di povertà superiore alla media europea
=1 quota di pop. al di sotto della soglia di povertà pari alla media europea
Anno 2006 – NI a Base UE=100
Es. 127 la quota di famiglie sotto la soglia di povertà erano il 27% in più rispetto alla media
europea

DISTRIBUZIONI DI FREQUENZA
La distribuzione di frequenze di un carattere è una tabella che mostra in modo efficace e sintetico i
risultati delle operazioni di classificazione e conteggio delle unità della popolazione. A seconda del
tipo di carattere, se ne possono effettuare diverse elaborazioni e rappresentazioni.
MUTABILE STATISTICA NOMINALE:
[esempio sulle slide: l’unità statistica è la singola unità statistica mentre la popolazione sono le 180
abitazioni. Carattere è il titolo di godimento e le modalità sono proprietà, affitto e altro titolo. ]
RAPPRESENTAZIONE 1
nella mutabile statistica nominale le modalità
sono ordinate in modo arbitrario (è indifferente
l’ordine)

FREQUENZE RELATIVE (O PERCENTUALI)


Possiamo trasformare frequenze assolute in frequenze relative (o in freq. Rel. Percentuali), per
mettere in evidenza il “peso” della singola modalità totale.

8
Le frequenze relative rappresentano un
rapporto di composizione, permettono di
valutare l’importanza di ogni modalità e
permettono di effettuare confronti tra
popolazioni di diversa numerosità.

MUTABILE STATISTICA ORDINALE


È la distribuzione di frequenze di un carattere qualitativo rilevato su scala ordinale. Nella scala
ordinale le modalità sono ordinate in modo naturale (ce n’è una che viene prima dell’altra e
l’ordine non può essere cambiato). Esempio: licenza media, diploma e laurea
Guarda esempi sulle slides
FREQUENZE CUMULATE
Sommo le frequenze (riga per riga). Questo cumulo posso farlo solo se le modalità sono ordinate.
Es. 108 dato da 36+72=108 -> 108 impiegati di cui 36 con la licenza media e 72 con il diploma
FREQUENZE RETROCUMULATE
Stessa procedura come sopra a zig ziga ma faccio all’indietro (parto dalla laurea e finisco alla
licenza media)
Es. 114 dato da 42+72=114 -> 114 impiegati di cui 42 con la laurea e 72 col diploma
Le frequenze cumulate e retrocumulate possono essere espresse anche in termini
relativi/percentuali per favorire i confronti.

VARIABILE STATISTICA DISCRETA


Carattere quantitativo. Le modalità sono ordinate in modo naturale
i caratteri x devono essere in ordine dal più
piccolo al più grande.

[guarda esempi slides]

(guarda formule sulle slides pag. 26-27 pdf 4)

RAPPRESENTAZIONI GRAFICHE (guarda grafici sulle slides)


- diagramma a bastoncini (o diagramma ad asste)

9
Il punto che nel piano cartesiano corrisponde alla generica coppia (x ; n ) o (x ; f ) è
i i i i
proiettato sull’asse delle ascisse. L’altezza dei bastoncini così ottenuti corrisponde alla
frequenza assoluta o relativa
- diagramma a gradini (cumulo)
Dal punto che rappresenta la generica coppia (x ; N ) o (x ;F ) si traccia verso destra un
i i i i
segmento orizzontale di lunghezza pari a 1. L’altezza di un gradino corrisponde alla
frequenza assoluta o relativa
- Diagramma a gradini (retrocumulo)
Dal punto che rappresenta la generica coppia (x ; N ) o (x ; F ) si traccia verso sinistra un
i i i i
segmento orizzontale di lunghezza pari a 1. L’altezza di un gradino corrisponde alla
frequenza assoluta o relativa

VARIABILE STATISTICA DISCRETA


Con valori raggruppati in classi
Quando il carattere presenta un numero rilevante di modalità, è preferibile raggrupparle in classi
(intervalli) incompatibili ed esaustive. Ciò comporta una certa perdita di informazioni.
[guarda esempio sulle slides]
La classe è un raggruppamento ridotto.
L’operazione di raggruppamento ha compresso la tabella di partenza: non conosciamo più la
frequenza di ogni singola modalità.
Con le cumulate prendo di riferimento l’estremo superiore, con le retrocumulate l’estremo
inferiore.

Domanda: come possiamo attribuire le frequenze alle singole modalità di ogni classe?
Se non abbiamo informazioni a priori (non abbiamo la tabella iniziale ma abbiamo solo la tabella
divisa pe classe), introduciamo la ipotesi di equidistribuzione (uniforme distribuzione)
la frequenza di una classe viene ripartita equamente tra le sue modalità
Otteniamo così le frequenze specifiche

sono dei rapporti di densità

La frequenza specifica è una frequenza ipotetica: rappresenta la frequenza attribuita a ciascuna


modalità della classe nell’ipotesi di equidistribuzione
Di conseguenza, ns può essere non intera.
i
La frequenza specifica è un rapporto di densità (rapporto tra la frequenza della classe e la
dimensione della stessa)

RAPPRESENTAZIONI GRAFICHE:
- Diagramma a bastoncini: l’altezza dei bastoncini ottenuti corrisponde alla frequenza
specifica assoluta o relativa. La frequenza di una classe è uguale alla somma delle sue
frequenze specifiche

10
- Diagramma a gradini cumulato: si ottiene dalla distribuzione cumulata delle frequenze
specifiche (assolute o relative). L’altezza di un gradino corrisponde quindi alla frequenza
specifica (assoluta o relativa)
- Diagramma a gradini retrocumulato: si ottiene dalla distribuzione retrocumulata delle
frequenze specifiche (assolute o relative). L’altezza di un gradino corrisponde quindi alla
frequenza specifica (assoluta o relativa)

VARIABILE STATISTICA CONTINUA


• Se il carattere è continuo la corrispondente distribuzione di frequenze deve
necessariamente essere rappresentata per classi
• Le classi possono essere di uguale ampiezza o di ampiezza diversa; trattiamo il caso
generale di classi con ampiezza diversa
Quando si mette le linea verticale si intende che appartiene a quella classe, se invece non c’è la
linea verticale appartiene alla classe successiva. (esempio nella tabella sulle slides 10 appartiene
alla seconda classe, se non ci fosse le linea verticale farebbe parte alla terza classe).
Nella variabile statistica continua l’ampiezza è data da: estremo superiore – estremo inferiore
Se voglio fare un confronto equo tra frequenze con varabili statistiche continue DEVO usare le
frequenza specifiche.
Se le classi sono di uguale ampiezza, le frequenze specifiche (assolute o relative) risulteranno
proporzionali alle frequenze (assolute o relative). In questo caso, i due istogrammi costruiti
posizionando sull’asse delle ordinate (1) le frequenze specifiche (assolute o relative) oppure (2) le
frequenze (assolute o relative) avranno lo stesso profilo
Tuttavia, anche in presenza di classi di uguale ampiezza, è preferibile sempre costruire
l’istogramma posizionando, sull’asse delle ordinate, le frequenze specifiche (assolute o relative)
Soltanto così, infatti, è mantenuta la corrispondenza tra la frequenza (assoluta o relativa) di
ciascuna classe e l’area del rettangolo corrispondente

DISTRIBUZIONI DISCRETE CON CLASSI RESE CONTIGUE


Se il carattere discreto presenta un’ampia gamma di modalità, ai fini delle rappresentazioni
grafiche, lo possiamo trattare come continuo [il carattere discreto non è contiguo]
Per fare ciò, assumiamo la ipotesi di contiguità delle classi
Normalmente, l’estremo inferiore di ogni classe è fatto coincidere con l’estremo superiore della
classe immediatamente precedente
Di conseguenza, anche le distribuzioni delle frequenze cumulate e retrocumulate sono
rappresentate in modo del tutto analogo a quello visto nel caso di carattere continuo.

DISTRIBUZIONI DI FREQUENZE
Analisi e confronti
L’analisi della forma della distribuzione e il confronto tra distribuzioni rilevate in situazioni diverse
offrono spesso utili informazioni sul fenomeno considerato
In queste analisi sono spesso impiegati i concetti di: (i tre termini essenziali per descrivere la forma
di una distribuzione di frequenze)
- baricentro
- variabilità
- asimmetria

11
L’analisi grafica risulta molto utile per evidenziare particolari aspetti delle distribuzioni di
frequenza
A tale fine, si impiegano spesso anche indici di sintesi che permettono di valutare numericamente
tali aspetti. Si usano in particolare:
- indici medi
- indici di variabilità
- indici di asimmetria

MEDIE
In statistica esistono le medie, non la media. Le medie hanno l’obiettivo di misurare il baricentro di
una composizione.
Una media è un indice impiegato per sintetizzare le diverse modalità di una distribuzione di
frequenze con una sola modalità qualitativa (nel caso di mutabile) o un solo valore (nel caso di
variabile)
Essa fornisce una buona sintesi delle differenti modalità di una distribuzione solo se le rappresenta
adeguatamente
Esistono delle medie che non sono dei numeri ma sono delle categorie.
TIPOLOGIA
- Medie di posizione (o medie lasche)
Sono individuate solo tramite le frequenze. Si possono quindi determinare anche nel caso
di mutabili statistiche (distribuzioni di frequenza di carattere qualitativa). Le più utilizzate
sono : Moda Mediana
- Medie algebriche (o medie analitiche)
Sono individuate anche attraverso i valori
Si possono quindi calcolare solo nel caso di variabili statistiche (distribuzioni di frequenze
per caratteri quantitativi). Le più utilizzate sono le medie: Aritmetica Geometrica Armonica
Quadratica ...

MEDIE DI POSIZIONE
Moda
La domanda a qui risponde la moda è: quale modalità si osserva con maggiore frequenza?
Moda: Indice che rappresenta la modalità che presenta la frequenza più elevata
Nell’ esempio sulle slide la moda è PROPRIETÀ non 90!!!!! Per calcolare il peso della moda
proprietà calcolo le frequenze relative.
Quando si supera il 50% +1 la moda ha fatto una buona sintesi.
Quando ci sono variabili statistiche continue dobbiamo tenere conto dell’ampiezza delle classi e
calcolare le frequenze specifiche.
A volte la distribuzioni di frequenze sono bimodali ovvero che una distribuzione evidenzia la
presenza di due mode. La presenza di due mode può suggerire che la popolazione non è composta
da unità omogenee ma da due gruppi distinti.
Quindi:
- Possiamo determinare la moda (Mo) qualunque sia la scala di misura del carattere
- La sintesi operata da Mo è ritenuta adeguata quando la sua frequenza rappresenta almeno
il 50% dei casi
- Se le modalità sono raggruppate in classi, individuiamo la classe modale tramite le
frequenze specifiche (assolute o relative)

12
MEDIANA
Bisogna distinguere due tipologie di mediana: distribuzioni per unità e distribuzioni di frequenza.
DISTRIBUZIONI PER UNITÀ
Domanda: quel è il reddito che si colloca in posizione centrale? (relativo a esempio sulle slides)
Per rispondere dobbiamo prima ordinare i valori. Il reddito che sta a metà si chiama reddito
mediano. La mediana si basa sulla posizione
Mediana: divide in due gruppi di uguale numerosità la successione ordinata delle modalità
Due definizioni:
- Definizione 1
La mediana (Me) è la modalità che occupa la posizione centrale della successione ordinata
(in senso non decrescente)
- Definizione 2
La mediana (Me) è la modalità che divide l’insieme ordinato delle modalità in due gruppi di
uguale numerosità
Si tratta quindi di un indice di posizione
I 2 gruppi definiti da Me hanno le seguenti proprietà (sia per N pari sia dispari)
- il 1° gruppo comprende le modalità che sono al più uguali a Me
- il 2° gruppo comprende le modalità che sono almeno uguali a Me
la mediana è il valore di x nella posizione centrale

ogni valore compreso tra le due mediane


ripartisce la successione ordinata delle modalità
in due gruppi di uguale numerosità.

Se il carattere è quantitativo e si vuole un unico valore per Me, si può assumere la semisomma

(valore centrale):

DISTRIBUZIONE DI FREQUENZE
Individuiamo la riga della tabella in cui la frequenza cumulata relativa uguaglia o supera per la
prima volta 0,50. In corrispondenza, leggiamo il valore di Me. Possiamo scrivere convenzionalmen:

Nel caso di variabili discrete dobbiamo tenere conto anche delle informazioni fornite dalle
frequenze relative, cumulate e retrocumulate

13
Con la variabile continua la distribuzione è per classi e se voglio un numero compreso all’interno
della classe mediana. All’interno della classe mediana individuiamo Me facendo ricorso
all’interpolazione lineare. (guarda grafico slides)

Per trovare Me nelle variabili continue guarda slide 31

Individuata la classe mediana scriviamo:

VARIABILE DISCRETA PER CLASSI


Se la variabile discreta è per classi, per individuare
Me all’interno della classe mediana possiamo impiegare la procedura vista per il caso continuo
A tale fine, dovremo:
1. rendere le classi contigue
2. arrotondare (per eccesso!) il risultato ottenuto dall’interpolazione

PROPRIETÀ DELLA MEDIANA

PROPRIETÀ DI MINIMO DELLA MEDIANA


Trovare la distanza minima non significa trovare la distanza zero !!! minimo significa il più piccolo
possibile.
Guarda slides 5 p. 37 per l’esempio. La distanza A è la distanza mediana di tutti i reparti .
Quando gli indici sono calcolati per distribuzioni di frequenza vengono sempre calcolati per quante
volte si verifica una distribuzione. Mentre se è solamente una distribuzione di unità vengono
calcolati con una semplice somma

GENERALIZZAZIONI DELLA MEDIANA


Quantili o frattili
Se il carattere è quantitativo e la popolazione numerosa si possono calcolare altri indici di
posizione, che sono una generalizzazione del concetto di mediana. Tra essi:
- quartili
- decili
- centili o percentili

QUARTILI
Sono i 3 valori Q1 Q2 Q3 che dividono la successione ordinata dei valori in 4 gruppi di uguale
numerosità. Bastano 3 quartili per fare quattro gruppi.
Q2= Me

14
DECILI
Sono i 9 valori D1 D2...D9 che dividono la successione ordinata dei valori in 10 gruppi di uguale
numerosità

Osservazione: D5=Q2= Me

CENTILI
Sono i 99 valori C C ... C che dividono la successione ordinata dei valori in 100 gruppi di uguale
1 2 99
numerosità

Osservazione: C25= Q1
C50= Q2 = Me
C75= Q3

MEDIE ALGEBRICHE
Se il carattere è quantitativo, possiamo calcolare anche delle medie algebriche. Queste medie si
ottengono effettuando operazioni algebriche sui valori che il carattere assume nelle popolazione.
MEDIA ARITMETICA SEMPLICE
È la somma dei valori dati divisa per il numero delle osservazioni.
La somma al numeratore rappresenta quanta parte del totale spetta ad ogni unità del
denominatore nell’ipotesi che esso sia equamente ripartito (es. redditp, addetti, …).
M1 può essere calcolata anche se T non ha significato concreto (es: la somma delle altezze di N
individui)

MEDIA CON LE DISTRIBUZIONI DI FREQUENZE


In questo caso dobbiamo operare per ponderazione. [guarda esempio slides]. Devo moltiplicare le
unità statistiche per la frequenza assoluta
DEFINIZIONE 1
È la somma dei valori (x1, x2 …) ponderati con le frequenze assolute (n1, n2 …) divisa per il numero
delle osservazioni.

DEFINIZIONE 2
È la somma dei valori (x1, x2 …) ponderati con le frequenze relative- pesi (f1, f2 …)

SISTEMA DI PESI
Non sempre la ponderazione si effettua con le frequenze. Il prezzo medio d’acquisto è dato dal
rapporto tra SPESA COMPLESSIVA / QUANTITÀ COMPLESSIVA. Dati i prezzi p i e le quantità qi , la
spesa nell’i-esimo negozio è pari a si= pi x qi. si può allora scrivere:

che è la M1 dei prezzi ponderata con le quantità.


15
DEFINIZIONE
È il rapporto tra:
- la somma dei valori x1, x2, … ponderati con i rispettivi pesi w1, w2, ….
- E la somma dei pesi W=∑wi
[guarda slide 15]

MEDIE DI RAPPORTI
• La media aritmetica ponderata dà lo stesso risultato del rapporto tra i dati aggregati delle
due regioni
• I pesi da assumere sono i denominatori dei singoli rapporti (così si semplificano!)
• Calcolare la media aritmetica semplice è sbagliato (tranne nel caso particolare in cui i
denominatori sono uguali)
[guarda esempio delle regioni sulle slides]

Come calcoliamo M1 quando la distribuzione è per classi?


Per rendere operative le espressioni viste in precedenza, è necessario che ogni classe sia
rappresentata da un unico valore. Possono però presentarsi casi differenti, a seconda del tipo di
informazioni che abbiamo.
a) Senza informazioni: si assume il valore centrale di ogni classe [(Einf + Esup)/2], chiudendo
eventuali estremi aperti. Il valore ottenuto è un’approssimazione del vero valore di M1,
che si potrebbe calcolare conoscendo tutti i 200 valori del reddito. Se le classi sono
numerose e ben spaziate, l’approssimazione dovrebbe essere adeguata.
b) conoscendo i totali delle classi ti (distribuzione di quantità): dalla loro somma, possiamo
ricavare il vero totale T e quindi il vero valore di M
1.
(i)
c) conoscendo le medie di classe M1 = ti / ni : dobbiamo utilizzarle al posto dei valori
centrali. L’informazione fornita dalle medie di classe è infatti equivalente a quella fornita
dai totali ti .

PROPRIETÀ ASSOCIATIVA
La procedura seguita nel caso c), si basa su una importante proprietà di cui gode la media
aritmetica
Proprietà associativa di M1 :
La media aritmetica di una variabile osservata su una popolazione suddivisa in p gruppi è uguale
alla media aritmetica ponderata delle medie aritmetiche di gruppo, con pesi pari alle numerosità
dei gruppi

Se il carattere è discreto per classi, il calcolo di M1 segue le stesse regole viste in precedenza nei
casi a), b) e c)
In particolare:
• il valore centrale della classe si calcola come nel caso
continuo: [ (Einf + Esup)/2 ]
• il valore di M , spesso non intero, non va arrotondato (si preferisce mantenere la relazione con il
1
totale)

16
PROPRIETÀ DI BILANCIAMENTO DEGLI SCARTI
SEMPRE la somma degli scarti positivi e negativi è ZERO.

CONDIZIONE DI INTERNALITÀ
se ad esempio ci sono tre valori che sono 20,24 e 28 ovviamente la
media è compresa tra questi tre valori e non potrà mai essere 18
oppure 30.

PROPRIETÀ DI MINIMO
Fa riferimento ad una funzione molto più semplice. In questo caso la media è l’unico valore che
minimizza la somma dei valori al quadrato. MINIMO è DIVERSO DA ZERO

SI HA S.S.S. A=M1

La proprietà può essere dimostrata anche per via analitica, calcolando le derivate prima e seconda,
come avete imparato in Matematica 1 / Matematica Generale!

Questa proprietà si chiama DEVIANZA.

PROPRIETÀ DELLE TRASFORMAZIONI LINEARI


Una trasformazione lineare è una regola matematica che trasforma i valori di una variabile x
sommandola ad un carattere in Y. Formula: Y= a+bx con a e b costanti
Dunque: M1(Y)= a+bM1(X)
Questa proprietà vale anche per la traslazione e trasformazione di scala

PRINCIPIO DI CHISINI [cosiddetto princièio di invarianza della media]


La media aritmetica può essere dedotta sulla base di considerazioni di invarianza.
Secondo Chisini, una media sintetizza i dati in modo adeguato quando mantiene invariato un
aspetto di interesse del fenomeno considerato.
Con il metodo di Chisini si possono quindi trovare medie diverse, a seconda degli obiettivi
dell’analisi
Il principio di chisini risponde alla domanda : ‘a cosa ti serve la media?’

17
Secondo chisini Tu non devi applicare una media in modo critico/meccanico ma devi capire a cosa
ti serve e devi sapere qual è l’aspetto che rimane invariato

“una media è una sintesi di differenti valori, tale da non alterare la visione d’insieme di un altro
fenomeno che da tali valori dipende”

Seguendo questa imposizione M1 è il valore che, sostituito alle singole osservazioni, ne lascia
invariata la somma. (guarda dimostrazione sulle slides pag.40)
Secondo Chisini:

MEDIA ARMONICA
Si assume che xi>o i=1,2,…,N
È il reciproco della media aritmetica.
M-1 è il valore che, sostituito alle singole osservazioni, ne lascia invariata la somma dei reciproci

MEDIA GEOMETRICA
Si assume che xi>o i=1,2,…,N
Simbolo: M0
Definizione: M0 è il valore che, sostituito alle singole osservazioni, lascia invariato il prodotto.

PROPRIETÀ DELLE TRASFORMAZIONI DI SCALA


Se tra X e Y esiste la relazione Y = bX con b>0, si ha

ovvero, le M0 dei due caratteri soddisfano la stessa


relazione

18
RELAZIONE TRA MEDIA GEOMETRICA (M0) E ARITMETICA (M1)
il logaritmo della media geometrica è la media aritmetica dei logaritmi delle osservazioni

[guarda esempio sulle slides]

(SE HO 4 ANNI LE VARIAZIONI CHE POSSO CALCOLARE SONO 3)

MEDIA QUADRATICA
Si assume che xi>=o i=1,2,…,N
Simbolo: M2
Definizione: M2 è il valore che, sostituito alle singole osservazioni, lascia invariata la somma dei
quadrati. È la radice quadrata della media dei quadrati .

RELAZIONE D’ORDINE
( Si assume che xi>=o i=1,2,…,N )
Si può dimostrare che le quattro medie funzionali presentate soddisfano la seguente relazione
d’ordine

Queste non sono le uniche medie funzionali. Con il metodo di Chisini, è infatti possibile trovare
altre medie (Videolezione: Focus 6)

CRITERI PER LA SCELTA DELLE MEDIE


- Se il carattere è quantitativo e si vuole preservare un certo aspetto, conviene usare una
media funzionale
- M1 è la media più opportuna quando si considerano misure affette da errori accidentali che
si compensano
- In mancanza di specifiche esigenze, si individuano e confrontano generalmente Moda, Me
e M1
Moda è molto utilizzata in biometria
M1 è sensibile ai dati e se alcuni valori sono molto elevati o molto piccoli si preferisce impiegare
Me (forma della distribuzione)

19
NUMERI INDICI COMPOSTI
I numeri indici composti (complessi) sintetizzano più componenti di uno stesso fenomeno per
seguirne le variazioni nel tempo (o nello spazio). Sono un evoluzione dei numeri indici semplici. La
differenza è che nei numeri semplici hanno un solo fenomeno con una sola componente mentre
quelli complessi hanno più componenti.
(guarda esempio sulle slides)
Si può superare il problema dell’eterogeneità (unità di misura diverse) adottando come peso la
SPESA che viene sempre espressa in valuta.
S= pq
Indichiamo con:
p eq
i0 i0 il prezzo e la quantità del bene i-esimo al tempo base
p eq
it it il prezzo e la quantità del bene i-esimo al tempo t
Ci sono quattro tipi di spesa:
- Due reali: prezzo e quantità dello stesso periodo
P0 x q0 e Pt x qt
- Due figurative: il tempo o la quantità deve essere base
P0 x qt e. Pt x q0

I numeri indici composti più diffusi utilizzano come pesi p0 x q0 e p0 x qt


INDICE DI LASPEYRES

Si calcola con la media ponderata dei rapporti 0It con pesi (relativi)
costanti al variare di t.

questo indice è il rapporto tra due aggregati


economici. Al numeratore c’è la spesa che io
avrei sostenuto in un mese comprando al prezzo di quel mese ma al prezzo del periodo base
(periodo del denominatore) mentre al denominatore c’è la spesa reale. Se il rapporto è 1 vuol dire
che ho pagato la stessa cifra. Se l’indice > 1 vuol dire che i prezzi al tempo t sono aumentati a
parità di quantità acquistate. Se l’indice è < 1 vuol dire che i prezzi al tempo t sono diminuiti a
parità di quantità acquistate.

INDICE DI PAASCHE
La differenza con laspeyres è il peso che è variabile. Il peso è:

La formula per trovare l’indice di Paasche è:

anche questo indice può essere scritto come


il rapporto tra due aggregati economici. In questo caso al numeratore c’è la spesa reale mentre al
denominatore c’è la spesa figurativa.

20
Se il rapporto è 1 vuol dire che ho pagato la stessa cifra e che le due spese coincidono. Se l’indice >
1 vuol dire che i prezzi al tempo t sono aumentati a parità di quantità acquistate: la spesa reale è
più grande della spesa che avrei sostenuto se avessi comprato le stesse quantità però con i prezzi
dell’anno base. Se l’indice è < 1 vuol dire che i prezzi al tempo t sono diminuiti a parità di quantità
acquistate.

OSSERVAZIONE: L’indice di Paasche può essere ottenuto anche utilizzando i numeri indici semplici
dei prezzi ( i rapporti 0It) con una media armonica e adottando come pesi i valori reali pt x qt .

Nelle analisi economiche si osserva un aumento delle quantità acquistate per quei beni i cui prezzi
comparativamente si riducono (e viceversa)
Laspeyres tiene fisse le quantità; Paasche le aggiorna.
Laspeyres ignora l’aumento delle quantità dei beni i cui prezzi aumentano relativamente di meno,
cioè tende a sovrastimare il tasso di crescita dei prezzi. Paasche, invece, tende a sottostimarlo
(ovviamente, non possiamo vedere queste tendenze nel nostro esempio!)

INDICE DI FISHER
Viene chiamato anche indice ideale. Per neutralizzare le opposte tendenza dei due indici, Fisher ha
proposto di utilizzare la media geometrica dei due indici:

NUMERI INDICI DEI PREZZI


Gli indici che abbiamo calcolato sono indici dei prezzi
I NI di grandezze economiche possono essere calcolati, oltre che per i prezzi, anche per quantità e
valori (es: NI della produzione industriale; NI dei valori dei beni importati ed esportati).
Gli indici dei prezzi possono essere di vario tipo (al consumo, all’ingrosso, alla produzione, ecc.)
Gli indici dei prezzi al consumo sono molto importanti, perché misurano l’inflazione
VIDEOLEZIONI 8 E 9

INDICI AZIONARI
Anche gli indici di Borsa sono indici composti dei prezzi, che sintetizzano il valore del paniere di
titoli azionari che rappresentano
Sono calcolati con differenti metodologie, a seconda del sistema di ponderazione dei titoli che
viene adottato:
• indici equally weighted
• indici price weighted
• indici value weighted (ad esempio, per la Borsa di Milano, il noto FTSE MIB che dal giugno
2009 ha sostituito lo S&P MIB)
FTSE MIB
(Financial Times Stock Exchange Milano Indice di Borsa) è l’indice di riferimento per il mercato
azionario italiano
Rappresenta circa l’80% della capitalizzazione di mercato ed è composto da azioni di primaria
dimensione e liquidità appartenenti al mercato azionario italiano
Il paniere del FTSE MIB racchiude, di norma, le azioni delle 40 più importanti società italiane
La composizione del paniere viene revisionata trimestralmente
L’indice viene calcolato in tempo reale

21
VARIABILITÀ
è l’attitudine di una variabile (carattere quantitativo) ad assumere valori differenti.
Nei fenomeni c’è variabilità, perché siamo tutti diversi.
Quando si parla di variabilità noi faremo esclusivamente riferimenti alle variabili quantitative. La
mutabilità invece fa riferimento alle variabili qualitative.
[indici di baricentro servono per misurare la posizione della dispersione]
Gli indici di variabilità servono per misurare la dispersione dei caratteri. Nessun indice di
variabilità non può MAI essere negativo.
Questi devono essere:
- valore 0 solo nel caso di assenza di variabilità
- Valori positivi crescenti al crescere della variabilità
Gli indici più semplici e maggiormente utilizzati si basano sulle differenze:
- Tra due indici di posizione (INTERVALLI DI VARIAZIONE)
- Tra i valori e una media (SCOSTAMENTI MEDI)

INTERVALLI DI VARIAZIONE
[un intervallo è centrale se lascia alla sua sinistra e alla sua destra la stessa percentuale di
frequenze]
• Indicano l’ampiezza dell’intervallo centrale entro il quale è compresa una certa frazione
della popolazione
• Un intervallo centrale lascia la stessa frazione di casi con valori inferiori e superiori agli
estremi dell’intervallo stesso
• Il carattere è tanto più variabile quanto più l’intervallo è ampio (a parità di condizioni:
frazione di casi contenuti, unità di misura, ordine di grandezza ...)
• I caratteri discreti pongono alcuni problemi poiché l’intervallo (basato su indici di
posizione) può contenere una frazione di casi diversa da quella prefissata

Campo di variazione (range)


È l’ampiezza dell’intervallo compreso tra i due valori estremi della distribuzione
X(N) – X(1)
Caratteristiche:
- se risulta uguale a 0 è certa l’assenza di variabilità
- l’intervallo contiene il 100% delle osservazioni
- considera solo gli estremi della distribuzione
- non è calcolabile nel caso di classi aperte
- trova importanti applicazioni nel Controllo Statistico di Qualità (standard di produzione)

Differenza interquartile
È l’ampiezza dell’intervallo che ha come estremo il primo e terzo quartile
Q3 – Q1
Caratteristiche:
- esclude il primo e ultimo 25%
- se risulta uguale a 0, non è certa l’assenza di variabilità
- l’intervallo contiene il 50% delle osservazioni
si può quindi definire anche come: l’ampiezza dell’intervallo centrale che contiene il 50% delle
osservazioni ordinate.

22
Differenza interdecile
È l’ampiezza dell’intervallo che ha come estremi il primo e il nono decile
D9 – D1
Caratteristiche:
- se risulta uguale a 0, non è certa l’assenza di variabilità
- l’intervallo contiene il 80% delle osservazioni
si può quindi definire anche come: l’ampiezza dell’intervallo centrale che contiene il 80% delle
osservazioni ordinate.

SCOSTAMENTI MEDI
Si basano sulle differenze tra i singoli valori di un carattere quantitativo e una media.
X1 – M
Si calcolano sintetizzando con una media algebrica gli scarti assoluti da un indice medio. Si
considerano gli scarti in valore assoluto per evitare possibili bilanciamenti, che potrebbero far
risultare nullo un indice in presenza di variabilità.
Scostamento medio da Me
- Nel caso di distribuzioni per unità

- Nel caso di distribuzioni di frequenze

Scostamento medio da M1
- nel caso di distribuzioni per unità

- nel caso di distribuzioni di frequenze

OSSERVAZIONE: PER LA PROPRIETÀ DI MINIMO DI Me SI HA


SMe =< SM1
Valendo l’uguaglianza s.s.s. Me = M1

DEVIAZIONE STANDARD / SCARTO QUADRATICO MEDIO / SCARTO TIPO / SIGMA


- nel caso di distribuzioni per unità

23
- nel caso di distribuzioni di frequenze

Sigma = media quadratica


NB: per la relazione d’ordine tra medie algebriche si ha
SM1 =< σ
Valendo l’uguaglianza s.s.s. gli scarti sono tutti uguali

OSSERVAZIONE: la relazione d’ordine SMe =< SM1 =< σ non è necessariamente verificata quando la
distribuzione è per classi, perché M1 e Me sono, in genere, delle approssimazioni dei veri valori.
[guarda esempi sulle slides]

VARIANZA
Varianza ≠ variabilità
La varianza è un indice che indica il quadrato dello scarto quadratico medio.
Non è un indice di variabilità ma è il quadrato di un indice di variabilità.
- Nel caso di distribuzioni di unità

- Nel caso di distribuzioni di frequenze

Il calcolo di σ2 può essere effettuato anche attraverso la seguente formula:


σ2 = M22 – M12
ovviamente per calcolare sigma si fa la radice quadrata della varianza.

PROPRIETÀ DI SCOMPOSIZIONE
Sia X un carattere quantitativo distribuito su una popolazione le cui unità sono suddivise in p
gruppi di numerosità nj j = 1, 2,..., p
Siano fj, Mj e σj2a frequenza relativa, la media aritmetica e la varianza del j-esimo gruppo
Siano M e 2 la media e la varianza della popolazione
Si può dimostrare che vale la seguente scomposizione di 2:

LA PROPRIETÀ DI SCOMPOSIZIONE
VALE PER σ2 NON PER 

24
PROPRIETÀ DELLE TRASFORMAZIONI LINEARI
Se tra i due caratteri quantitativi Y e X sussiste la relazione Y = a + bX con a e b costanti, allora
σ2 (Y) = b2  σ2(X)

DISTRIBUZIONI PER CLASSI


Nel calcolo di un indice di variabilità:
• l’impiego dei valori centrali trascura la variabilità nelle classi (l’indice risulta quindi solo
approssimato)
• l’impiego delle medie di classe non evita il problema precedente (ad esempio, nel caso
della varianza si può calcolare solo quella FRA le classi)
Criterio generale per calcolare gli indici di variabilità
• utilizzare le medie di classe se nell’indice compare M1
• utilizzare i valori centrali se nell’indice compare Me

INDICI DI VARIABILITÀ RELATIVI


Gli indici presentati sono indici di variabilità assoluti, ovvero espressi nella stessa unità di misura e
ordine di grandezza del carattere (eccetto la varianza che è una sintesi di scarti al quadrato)
Questi indici non possono quindi in generale essere impiegati per confrontare la variabilità di
caratteri che differiscono per unità di misura e/o ordine di grandezza
In questi casi si impiegano gli indici di variabilità relativi
Questi indici Si ottengono dal rapporto tra gli indici di variabilità assoluti e una media (che deve
essere positiva). Essi misurano, quindi, la variabilità del carattere in termini relativi rispetto alla
media impiegata.
I più utilizzati sono:

Questi indici sono invarianti a trasformazioni di scala


Y= bX con b>0
Non dovrebbero quindi essere utilizzati per caratteri rilevati su scala di intervalli ( non sono
invarianti a trasformazioni lineari)
INDICI DI VARIABILITÀ RELATIVI A UN MASSIMO
Si ottengono dal rapporto tra gli indici di variabilità assoluti e il loro massimo teorico
Essi misurano, quindi, la variabilità del carattere in termini relativi percentuali, perché sono
rapporti di composizione
Si può dimostrare che il massimo di  per la variabile statistica X è dato da

25
𝝈max è lo s.q.m. della variabile statistica che si ottiene considerando la situazione di massima
variabilità a parità di media, valori estremi e numerosità delle osservazioni.
L’indice 𝞼 normalizzato, quindi, è dato da

Esso è invariante alle trasformazioni lineari: Se tra i due caratteri quantitativi Y e X sussiste la
relazione Y = a + bX con a e b costanti, allora (X)=(Y)

BOX PLOT
Abbiamo visto che le medie e gli indici di variabilità forniscono indicazioni sintetiche sulle principali
caratteristiche riguardanti la forma delle distribuzioni di frequenza
Per rendere più immediata l’informazione, si utilizza spesso un grafico, detto box plot o
diagramma a scatola, che, in una versione standard, si basa su tre elementi
1. una linea (o un punto) che indica la posizione della
mediana
2. un rettangolo (box) la cui lunghezza dipende da una misura di variabilità (differenza
interquartile)
3. due segmenti (i baffi) che congiungono i due lati che costituiscono le estremità del
rettangolo ai valori estremi della distribuzione

Il box plot di una distribuzione simmetrica ha la mediana al centro del rettangolo e i due baffi di
uguale lunghezza
Confrontando i box plot per gruppi di dati omogenei, se ne può valutare anche l’asimmetria e la
variabilità: un rettangolo più ampio e baffi più allungati segnalano una maggiore variabilità
Esistono altre versioni del box plot
Ad esempio, J. Tukey ha suggerito di costruire i baffi utilizzando
Q1– 1,5·(Q3– Q1) e Q3+ 1,5·(Q3 – Q1) che possono non coincidere con Min e Max
I valori esterni ai baffi, considerati anomali, sono rappresentati con dei punti
Aneddoto
Quando gli fu chiesto perché avesse scelto una distanza
dai quartili pari a 1,5·(Q3 – Q1), Tukey rispose:
“perché 1 è poco e 2 è troppo!”

[vedi esempi sulle slides]

ASIMMETRIA
Guarda video 9

CONCENTRAZIONE
È un concetto nato nelle analisi statistiche delle distribuzioni dei redditi. Voglio capire come il
reddito viene distribuito. Se dico che in un certo paese c’è una grande concentrazione dei redditi
vuol dire che c’è una frazione della popolazione(frazione limitata) molto ricca dove si concentra la
ricchezza e un’altra frazione (frazione elevata) di popolazione molto più povera.

26
Il concetto si può estendere a tutti i i caratteri trasferibili, per i quali si può ipotizzare, almeno sul
piano teorico, che un’unità statistica ceda (in tutto o in parte) la quantità posseduta a un’altra
unità. Si può ad esempio considerare la concentrazione:
- del capitale sociale delle aziende
- del numero di operai delle aziende
- del numero di macchinari
- del numero di sportelli degli istituti bancari ecc..
per ora facciamo riferimento ai redditi

Dati i redditi ordinati di N individui (redditi caratteri quantitativi numerati)

con T= ∑xj loro ammontare complessivo (totale)


con l’analisi della concentrazione interessa sapere come il reddito complessivo è ripartito tra le
unità della popolazione (redditieri). I metodi per l’analisi della concentrazione, si basano sul
confronto fra la situazione osservata nella realtà e le due situazione estreme di seguito definite:
- CONCENTRAZIONE MINIMA O NULLA (equidistribuzione, equiripartizione)
Quando xi = T/N = M
- CONCENTRAAZIONE MASSIMA (massima sperequazione)
quando xi = 0 i = 1,2,…, N-1 xN= T : do tutti i soldi a un individuo
per l’analisi della concentrazione si impiegano le
• Frequenze relative cumulate
Fi= i/N i= 1,2,…,N (distrib. Per unità)
Fi= Ni/N i= 1,2,…,p (distrib. Di frequenze)
• Quantità relative cumulate
Qi= Ti/T i= 1,2,…,N (distrib. Per unità)
i= 1,2,…,p (distrib. Di frequenze)
non mi accontento di vedere come si distribuisce la frequenza dei redditieri ma anche come si
distribuisce la ricchezza
[guarda esempio sulle slides]

OSSERVAZIONE
I REDDITI VANNO SEMPRE ORDINATI, ALTRIMENTI SBAGLIAMO I CALCOLI
Le Fi e le Qi possono essere calcolate anche calcolando rispettivamente:
- Le frequenze relative fi e
- Le quantità relative qi = ti/T
PROPRIETÀ
spesso se non ordiniamo i redditi la seconda proprietà non torna

DIAGRAMMA DI LORENZ
Nel 1905 l’economista statunitense Lorenz ha introdotto una rappresentazione grafica che
consente di valutare con immediatezza visiva il grado di concentrazione. In questo diagramma si
confrontano tre situazioni:
- Massima concentrazione
- Concentrazione nulla
- Concentrazione osservata (o empirica)

27
[guarda i tre diversi grafici sulle slides 8 pag. 13-14-15]
Nel diagramma la concentrazione è
più bassa quando la spezzata di Lorenz si avvicina alla retta di equipartizione (sarà più ripida)
più elevata quando la spezzata di Lorenz si avvicina alla spezzata di max concentrazione
OSSERVAZIONI:
1) Nel caso di distribuzioni per unità, l’asse delle ascisse è suddiviso in intervalli di ampiezza
costante 1/N
2) Al posto delle distribuzioni relative si possono rappresentare le distribuzioni percentuali (il
quadrato avrà lati di lunghezza 100)
3) Per N elevato la spezzata di massima concentrazione tende a sovrapporsi ai lati inferiore e
destro del quadrato
4) Quando la distribuzione è per unità e presenta un numero elevato di valori, la spezzata
empirica tende ad assumere l’aspetto di una curva (detta curva di Lorenz)
5) L’inclinazione dei segmenti successivi della spezzata empirica è crescente/non decrescente

Quando abbiamo le distribuzioni per classi per i totali di classe (approssimati) prendiamo i valori
centrali

Il diagramma di lorenz non ci permette di calcolare la concentrazione. Se la spezzata di Lorenz è


più vicina alla retta di equidistribuzione vuol dire che il paese è meno concentrato e la
concentrazione è minore.
Se c’è intersezione tra le rette di due paesi la SITUAZIONE NON È CHIARA
ci si affida quindi ad un indice statistico ideato da CORRADO
GINI nel 1914. Secondo un approccio geometrico (metodo dei
trapezi), tale indice si ottiene dal rapporto tra due aree che si
individuano nel diagramma di Lorenz.
L’indice è il rapporto tra l’area di reale concentrazione e l’area di
massima concentrazione.
Quando più l’area di reale concentrazione è piccola la
concentrazione è limitata.
L’indice sarà pari a 1 quando le due aree coincidono

Per l’indice di Gini non servono le frequenze cumulate ma bastano le frequenze relative.
Con l’indice di Gini siamo in grado di dare un numero alla concentrazione
trattandosi di un rapporto di composizione, l’indice è
normalizzato e assume valori nell’intervallo [0;1]

OSSERVAZIONI
Quando l’indice
è inf a 0,4 è contenuto/basso
Tra 0,4 e 0,6 è intermedio
Tra 0,6 e 0,9 è elevato
Tra 0,9 e 1 è molto elevato
1) Per N elevato N/(N-1) tende a 1 e si può trascurare. Ciò è utile quando N non è noto ma lo
si può supporre elevato (es. sono note frequenze e quantità %)
2) Nel caso di distribuzioni per unità fi = 1/N

28
3) SOLO nel caso di distribuzioni per unità (dove ho i redditi dei singoli individui ) si può
impiegare la formula
[ noi negli esercizi avremo quasi sempre le distribuzioni di frequenze ]
Questa formula di R è utile quando disponiamo dei dati elementari ordinati in
un foglio elettronico
.
L’indice di GINI è UNO DEI POCHI CHE SODDISFA LA PROPRIETÀ DI INVARIANZA ALLE
TRASFORMAZIONI DI SCALA.
Se tra due caratteri X e Y sussiste la relazione Y=bX. b>0 allora, R(Y)=R(X)
Se trasformo i redditi da euro a dollari l’indice di gini non cambia, non risente quindi della valuta
con cui stiamo misurando .

INDICE DI HERFINDAHL videolezione su elearning


Viene utilizzato soprattutto nel settore industriale per calcolare la concentrazione delle imprese

SECONDA PARTE
ANALISI DELL’ASSOCIAZIONE
Statistica bivariata
Significa che l’analisi prende in considerazione due caratteri rilevati congiuntamente sulle unità
statistiche di una popolazione. Si ricorre alla rilevazione congiunta di due (o più) caratteri quando
si ritiene che fra essi possano esservi delle relazioni.
Il motivo che ci fa analizzare la statistica bivariata è che noi vogliamo studiare le relazioni che
esistono tra due caratteri.
L’analisi delle relazioni tra caratteri è un aspetto importante della ricerca
Sulla base di teorie e ragionamenti logici si possono avanzare a priori delle ipotesi di causa-effetto
(carattere che influenza un altro carattere, la freccia è unidirezionale) o di interrelazione (i due
caratteri si influenzano a vicenda, la freccia è bidirezionale) tra caratteri
Esempi:
- Quantità di fertilizzante --> quantità prodotta
- Reddito --> spesa
- Età dello sposo <--> età della sposa
[ in generale nelle relazioni dove ci sono input e output è una relazione di causa effetto]

- Si ha dipendenza logica tra due caratteri quando si suppone a priori una relazione causa-
effetto (non centra la statistica ma le ipotesi)
- Si ha interdipendenza logica tra due caratteri quando si suppone a priori un’interrelazione
(es. età della sposa e dello sposo)
- Si ha indipendenza logica tra due caratteri quando si suppone a priori che non possa
sussistere alcuna relazione (es. consumo di gelato e numero di attacchi di squali)

L’analisi statistica dell’associazione tra due caratteri è basata sull’osservazione empirica dei
fenomeni
In certi casi l’analisi statistica porta però a risultati ambigui, cioè all’individuazione di associazioni
spurie
L’associazione spuria può essere dovuta
- alle caratteristiche dei dati utilizzati
- alla presenza di un terzo carattere che influisce sui due considerati
ASSOCIAZIONI SPURIE: associazioni non logiche

29
Esempi di associazioni spurie: vendita di gelati e numero di attacchi di squali (i due fenomeni sono
affetti dallo stesso tipo di stagionalità); relazione tra numero di negozio di abbigliamento e il
numero di bambini iscritti a scuola (i due fenomeni sono entrambi influenzati dalla dimensione
della città)
L’analisi statistica delle relazioni deve essere sempre sostenuta dall’analisi logica delle stesse!

A seconda degli obiettivi dell’indagine statistica, si possono utilizzare diversi metodi per studiare
l’associazione tra due caratteri. La scelta e l’impiego di un metodo dipende anche dal tipo di
caratteri considerati.

Dunque, i tre metodi sono:


- connessione
- dipendenza in media
- correlazione e regressione

DISTRIBUZIONI BIVARIATE
Tabella a doppia entrata
Nella statistica bivariata si analizzano congiuntamente due caratteri. La prima necessità è costruire
tabelle di sintesi analoghe alle distribuzioni di frequenze che già conosciamo.
Quando i due caratteri hanno poche modalità o classi si utilizza spesso la distribuzione di
frequenze doppia o bivariata, che si rappresenta con una tabella a doppia entrata.
Le distribuzioni di frequenze doppie o bivariate possono essere rappresentate graficamente, per
esempio con grafici tridimensionali o, se entrambi i caratteri sono quantitativi, con grafici a bolle.

30
La tabella a doppia entrata può essere rappresentata anche in termini di frequenze relative (o
percentuali)

ovviamente: o 100

DISTRIBUZIONI DI FREQUENZE
In una tabella a doppia entrata si individuano varie distribuzioni
• La distribuzione congiunta mostra come sono ripartite le N unità tra le modalità dei due
caratteri considerati congiuntamente.
• Le due distribuzioni marginali mostrano come sono ripartite le N unità tra le modalità dei
due caratteri considerati singolarmente
• Per ognuno dei due caratteri si possono individuare altre distribuzioni dette parziali o
condizionate (quando ci si concentra su una sola colonna o riga). Per confrontare le
distribuzioni parziali di un carattere è necessario tenere conto del fatto che normalmente i
totali marginali sono diversi. Le frequenze condizionate vengono perciò espresse in termini
relativi (o percentuali)

I indica la condizione dipendenza

CONNESSIONE
L’analisi della connessione tra due caratteri può essere condotta quando si dispone della loro
distribuzione bivariata. Nel seguito consideriamo il caso di due caratteri qualitativi. Il metodo può
però essere impiegato anche per altri tipi di carattere (per la nota gerarchia tra scale di misura).
L’analisi della connessione, si basa sul confronto fra la situazione osservata nella realtà e le
seguenti due situazioni estreme:
- Connessione minima o nulla (indipendenza distributiva)
- Connessione massima

INDIPENDENZA DISTRIBUTIVA – CONNESSIONE NULLA O MINIMA


Situazione estrema che non si verificherà mai (molto raramente) nella realtà
[I è un segno che indica la condizione di dipendenza]
Definizione 1
Il carattere A è indipendente in distribuzione dal carattere B (A non è connesso con B) se le sue
distribuzioni condizionate sono tutte uguali: fi I j = fi• i=1,2,…,p
Osservazione: se le fi I j non si modificano al variare di bj significa che le distribuzioni di A non sono
influenzate dalle modalità di B
Definizione 2
Il carattere B è indipendente in distribuzione dal carattere A (B non è connesso con A) se le sue
distribuzioni condizionate sono tutte uguali fi I j = fi• j=1,2,…,q
Osservazione: se le fi I j non si modificano al variare di ai significa che le distribuzioni di B non sono
influenzate dalle modalità A

31
L’INDIPENDENZA DISTRIBUTIVA è UNA RELAZIONE SIMMETRICA: SE A NON È CONNESSO CON B,
ALLORA B NON È CONNESSO CON A.

FREQUENZE CONGIUNTE TEORICHE --> non bisogna mai arrotondarle


Dalla condizione di indipendenza di A da B: fi I j = fi• --> nij/ nj• = nj•/N. si ottengono le frequenze

congiunte teoriche (attese) le stesse frequenze teoriche si ottengono dalla


condizione di indipendenza di B da A (simmetria). Le frequenze cong. teoriche devono essere >0.
Tanto più le frequenze teoriche sono distanti da quelle reali/attesa tanto più siamo lontani da una
condizione di indipendenza.
PROPRIETÀ DI INVARIANZA DEI TOTALI
Si verifica facilmente che le frequenze teoriche lasciano invariati:
sommo per colonna

Sommo per riga

Sommo per riga e colonna

FREQUENZA TEORICHE RELATIVE

Dividendo per N l’uguaglianza si ottiene


Se ho le frequenze percentuali divido per 100 per ottenere quelle relative.
Ovviamente anche le frequenze teoriche relative soddisfano la proprietà di invarianza dei totali

PERFETTA DIPENDENZA DISTRIBUTIVA


Definizione 1
Il carattere A dipende perfettamente in distribuzione dal carattere B (massima connessione
unilaterale di A rispetto a B) se ad ogni bj è associata un’unica modalità ai
Osservazione:
In caso di massima connessione unilaterale di A da B, ogni colonna della tabella bivariata ha
un’unica nij≠ 0
Definizione 2
Il carattere B dipende perfettamente in distribuzione dal carattere A (massima connessione
unilaterale di B rispetto a A) se ad ogni ai è associata un’unica modalità bj
Osservazione:
In caso di massima connessione unilaterale di B da A, ogni riga della tabella bivariata ha un’unica
nij≠ 0

PERFETTA INTERDIPENDENZA
Tra i caratteri A e B esiste perfetta interdipendenza in distribuzione (massima connessione
bilaterale) se ad ogni modalità di un carattere corrisponde un’unica modalità dell’altro carattere e
viceversa
Osservazione
In caso di massima connessione bilaterale, ogni riga e ogni colonna della tabella bivariata hanno
un’unica nij≠ 0

32
Quando però la tabella non è quadrata questo non
funziona.

Se i due caratteri non hanno lo stesso numero di


modalità, non si può avere massima connessione
bilaterale, ma solo la massima connessione unilaterale
del carattere con il minor numero di modalità dall’altro

Per stabilire se tra due caratteri vi è connessione si può:


• controllare se le distribuzioni parziali sono uguali
• confrontare le frequenze empiriche con le teoriche

ANALISI DELLE CONTINGENZE


Per confrontare frequenze empiriche e teoriche si possono utilizzare le differenze dette
Contingenze assolute: cij= nij – n^ij
Oppure i rapporti detti contingenze relative dij= nij – n^ij / n^ij = cij / n^ij
- Se tutte le cij= 0 --> tra A e B c’è indipendenza
Data la generica contingenza:
- se cij > 0 --> tra ai e bj vi è ATTRAZIONE
- se cij < 0 --> tra ai e bj vi è REPULSIONE
- se cij =0 --> tra ai e bj vi è INDIFFERENZA
Inoltre dalla proprietà di invarianza dei totali delle frequenze, si verifica facilmente che:
somma delle contingenze assolute

[guarda esempio sulle slides]

INDICI DI CONNESSIONE
All’analisi disaggregata delle contingenze si può abbinare il calcolo di un indice che consenta di
valutare il grado di connessione tra i due caratteri
La sintesi è di solito effettuata sulla base di un’opportuna media (che non operi compensazioni tra
contingenze di segno opposto)
Le contingenze sono tante quante sono gli incroci della tabella bivariata.

INDICE MEDIO QUADRATICO M2(D)


Un indice di connessione molto utilizzato è la media quadratica ponderata delle contingenze
relative, con pesi dati dalle frequenze teoriche. Indica l’ordine di grandezza delle contingenze
relative
NON PUÒ ESSERE NEGATIVA

M2(D) è zero quando tutte le contingenze dij sono tutte nulle.


INDICE NORMALIZZATO DI CRAMER
Al fine di valutare il grado di connessione tra i due caratteri conviene normalizzarlo, in modo che
assuma
• valore 0 in caso di indipendenza
• valore 1 in caso di massima connessione

33
Si può dimostrare che, nel caso di massima connessione (unilaterale o bilaterale), l’indice M2(D)
assume valore

Segue che il rapporto è un indice che


assume valori nell’intervallo [0;1] (oppure [0;100] se espresso in termini
percentuali) e che risulta pari a
• 0 in caso di indipendenza
• 1 in caso di massima connessione
Agli indici C e M2(D) è legato il noto INDICE DI ASSOCIAZIONE DI PEARSON (1900)
profe consiglia di utilizzare la formula indiretta

se si vuole utilizzare le frequenze relative si usa:

quindi: e

se C è tra 0,4 e 0,6 è intermedio


è superiore a 0,6 è elevato/alto
è inferiore a 0,4 è basso/modesto

DIPENDENZA IN MEDIA (aritmetica)


In una tabella a doppia entrata possono essere identificate varie distribuzioni. Per ciascuno dei
due caratteri possiamo considerare:
- la distribuzione marginale
- le distribuzioni parziali o condizionate
Se almeno uno dei due caratteri è quantitativo possiamo calcolare vari indici univariati.
[guarda esempio sulle slides]
RELAZIONE CONGIUNTA: abbiamo rilevato contemporaneamente il sesso delle unità statistiche e
soprattutto lo stipendio (carattere quantitativo).
Possiamo calcolare lo stipendio medio dei maschi e delle femmine

le medie e le varianze delle distribuzioni condizionate si dicono medie/varianze condizionate o


parziali per la proprietà associativa della media aritmetica e per la proprietà di scomposizione
della varianza. (guarda le formule sulle slides oppure nelle lezioni precedenti)

INDIPENDENZA IN MEDIA
UN CARATTERE QUANTITATIVO
Per valutare la dipendenza in media del carattere Y dal carattere A si verifica il comportamento
delle medie parziali
al variare delle modalità di ai

34
Si dice che Y è indipendente in media da A se le medie parziali NON VARIANO, ovvero se:
se anche una è diversa, vuol dire che c’è dipendenza in media e
bisogna quindi calcolare il grado di dipendenza in media

DUE CARATTERI QUANTITATIVI


In questo caso di possono definire due tipo di indipendenza in media:
1. Indipendenza in media di Y a X: se le medie parziali di Y non variano, ovvero se:

2. Indipendenza in media di X da Y: se le medie parziali di X non variano, ovvero se:

[se un esercizio sulla dipendenza in media ha solo un carattere quantitativo si calcola una sola
media, se invece ha entrambi i caratteri quantitativi bisogna stare attenti sulla domanda]

L’INDIPENDENZA IN MEDIA NON È UNA RELAZIONE SIMMETRICA: Y indipendente in media da X ≠


X indipendente in media da Y

L’indipendenza distributiva è una relazione “più forte” dell’indipendenza in media perché:


indipendenza distributiva –> indipendenza in media
indipendenza in media --> indipendenza distributiva
Infatti:
- distribuzioni parziali tutte uguali implicano medie parziali tutte uguali
- medie parziali tutte uguali non implicano distribuzioni parziali tutte uguali

Stabilito che un carattere non è indipendente in media dall’altro, diventa interessante valutarne
l’associazione
L’analisi può essere svolta con l’impiego di:
• indici (rapporto di correlazione)
• grafici (spezzata di regressione)

RAPPORTO DI CORRELAZIONE
Dipendenza in media di Y da A
Dalla definizione di indipendenza in media, sembra naturale basare l’indice su una sintesi dei p

scarti assoluti
L’indice di variabilità (sigma FRA alla seconda di Y) è una sintesi di tali scarti
Sfruttando la proprietà di scomposizione della varianza si può costituire l’indice che consente di
misurare il grado di dipendenza in media di Y da A
RAPPORTO DI CORRELAZIONE DI PEARSON (1905)
essendo un rapporto di composizione, l’indice
assume valori nell’intervallo [0;1] o [0;100]

eta
il rapporto di correlazione vale:
- 0 quando le medie parziali sono tutte uguali (indipendenza in media di Y da A)
- 1 quando la varianza nei gruppi è nulla (si realizza se in ogni gruppo si ha una sola
frequenza non nulla, quindi le modalità sono tutte uguali fra loro e uguali alla media
parziale. Si ha quindi anche perfetta dipendenza distributiva unilaterale di Y da A)

35
Dipendenza in media di Y da X e di X da Y
Se entrambi i caratteri sono quantitativi (e se entrambe le relazioni hanno senso sul piano logico!)
si possono calcolare due rapporti di correlazione

Dipendenza in media TRA Y e X


Come visto (dall’esempio sulle slides), a differenza dell’indice di connessione, il rapporto di
correlazione effettua un’analisi non simmetrica della relazione tra i due caratteri.
Se la relazione è di interdipendenza, si potrebbe essere interessati ad un unico indice di sintesi
(calcolando, ad esempio, una media dei due rapporti)
È però sconsigliabile procedere per questa via, perché i due indici possono addirittura assumere i
due valori diametralmente opposti 0 e 1

SPEZZATA DI REGRESSIONE
È un grafico che rappresenta la dipendenza delle medie di un carattere dai valori dell’altro
• Nel caso della dipendenza in media di Y da X, nel piano cartesiano si uniscono con segmenti
di retta i punti di coordinate (xi; yi)
• Nel caso della dipendenza in media di X da Y, nel piano cartesiano si uniscono con segmenti
di retta i punti di coordinate (yj; xj)
Dipendenza in media di Y da X
i punti non hanno lo stesso peso, perché ogni media
è la sintesi di un diverso numero di osservazioni. La
spezzata rappresenta una tendenza statistica:
all’aumentare di xi le medie parziali yi tendono a
diminuire

Dipendenza in media di X da Y
i punti non hanno lo stesso peso, perché ogni
media è la sintesi di un diverso numero di
osservazioni. La spezzata rappresenta una
tendenza statistica: all’aumentare di yj le medie
parziali xj tendono a diminuire

TIPI DI TABELLE A DOPPIA ENTRATA


Nell’esempio precedente (esempio delle slides) la tabella bivariata si riferiva a due caratteri
quantitativi discreti.
In una tabella bivariata, uno o entrambi i caratteri possono essere quantitativi continui o discreti
con elevato numero di modalità. In questi casi, le righe e/o le colonne della tabella si riferiscono a
classi (intervalli) di valori. Si possono presentare diverse situazioni che permettono di ottenere
diversi risultati (guarda esempi sulle slides)
36
CORRELAZIONE E REGRESSIONE
I due caratteri sono entrambi QUANTITATIVI
Si può disporre o di dati elementari o di loro collaborazioni
- Serie doppia semplice
- Serie doppia ponderata
- Tabella a doppia entrata
SERIE DOPPIA SEMPLICE
Significa che per ogni unità statistica ho rilevato
congiuntamente i due caratteri quantitativi.

È la tabella che riporta i dati elementari riferiti a due caratteri


quantitativi X e Y rilevati congiuntamente su ognuna delle N
unità della popolazione

SERIE DOPPIA PONDERATA


Significa che per ogni coppia x e y ci sarà una frequenza n.
ovvero che in una serie doppia ponderata vengono
elencate le coppie con una frequenza maggiore di 1.

È la tabella nella quale, ad ogni coppia (xi; yi ) è associata la


corrispondente frequenza ni

CONCORDANZA – concetto generale


Gli indici di concordanza permettono di valutare la relazione tra due caratteri quantitativi
Ad un indice di concordanza si richiede di misurare l’intensità e il verso del legame tra X e Y
In particolare, l’indice deve assumere:
• segno – se i valori più grandi di un carattere tendono ad associarsi con quelli più piccoli
dell’altro (es. aumenta il prezzo diminuisce la quantità acquistata)
• segno + se i valori più grandi di un carattere tendono ad associarsi con quelli più grandi
dell’altro (es. aumenta il reddito delle famiglie, aumentano i consumi)
NON TOGLIERE MAI IL SEGNO A UN INDICE DI CONCORDANZA!!!
L’indice più noto misura il legame lineare tra due caratteri.
Indice ci misura la forza, l’intensità e il verso del legame lineare.

Il significato di questo indice può essere colto dal grafico di dispersione


Si rappresentano in un piano cartesiano gli N punti individuati dalle coppie di valori (xi; yi ) di una
serie doppia, ottenendo una nuvola di punti
Si tracciano quindi due rette, parallele agli assi, passanti per le
medie dei due caratteri
In tal modo si effettua una traslazione degli assi, che individuano
4 quadranti

Le coordinate dei punti rispetto ai nuovi assi sono (xi-x; yi-y)

37
Il segno degli scarti ci dice se il pallino sta in un quadrante pari o dispari
nel I e III quadrante gli scarti di x e y (differenza di x/y
rispetto alla loro media) hanno segni concordi: nel
quadrante I sono positivi mentre nel terzo sono
negativi.

Nel II e IV quadrante gli scarti hanno segni discordi: nel


II gli scarti di x sono negativi e quelli di y sono positivi
mentre nel IV gli scarti di x sono positivi e quelli di y
sono negativi.

COVARIAZIONE: è il prodotto di due scarti di x e y

Ognuno degli N prodotti assume:


• segno – se il punto è nel II o IV quadrante
• segno + se il punto è nel I o III quadrante

per sapere se prevale il segni + o – si calcola la loro media aritmetica detta COVARIANZA

• Cov(X,Y) > 0 significa che i due caratteri tendono ad assumere valori concordanti (quindi
sono nel I o III quadrante)
• Cov(X,Y) < 0 significa che i due caratteri tendono ad assumere valori discordanti (quindi
sono nel II o IV quadrante)
Il problema di questo indice è che non può essere interpretato in termini di intensità
la covarianza è un indice di varianza della statistica bivariata.

Nel caso di serie doppia ponderata si devono impiegare


le formule ponderate

PROPRIETÀ DELLE TRASFORMAZIONI LINEARI


Se i due caratteri X e Y subiscono le trasformazioni
Z = a+bX. W=c+dY con a,b,c,d costanti allora:

i Valori a e c sono superflui, non rientrano nel calcolo della covarianza


la dimostrazione si ottiene sostituendo agli scarti in Z e W le loro corrispondenti espressioni in X eY
per la dimostrazione guarda slides 2. 4 pagina 18

DISUGUAGLIANZA DI CAUCHY-SCHWARTZ
Si può dimostrare che

Valendo l’uguaglianza s.s.s. tutti i punti (xi;yi) giacciono su una retta (ascendente o discendente)
Cov(X,Y) è quindi una misura del legame lineare tra i due caratteri

38
DIPENDENZA DISTRIBUTIVA E IN MEDIA
- se tra X e Y c’è indipendenza distributive 𝛔XY=0
Non vale il viceversa
- se almeno un carattere è indipendente in media dall’altro 𝛔XY=0
non vale il viceversa
ATTENZIONE: 𝛔XY=0 non significa assenza di legame, ma solo assenza di legame lineare tra X e Y

CORRELAZIONE
Il segno della covarianza indica il verso (segno) del legame lineare tra i due caratteri
Per valutarne l’intensità, conviene fare in modo che l’indice assuma valori in un prefissato
intervallo. Dalla disuguaglianza di Cauchy-Schwartz si ricava:
valendo l’uguaglianza s.s.s tutti i punti giacciono su una retta
da ciò si ricava il COEFFICIENTE DI CORRELAZIONE LINEARE DI PEARSON

(X,Y ) assume valori in [–1; +1] e in particolare


–1 se i punti giacciono tutti su una retta discendente
+1 se i punti giacciono tutti su una retta ascendente

Proprietà delle trasformazioni lineari


se i due caratteri X e Y subiscono le trasformazioni
Z = a+bX. W=c+dY con a,b,c,d costanti allora
Per la dimostrazione guarda slides 2.4. pag. 23
La dimostrazione sfrutta la proprietà della covarianza appena citata e la proprietà dello scarto
quadratico medio.
Il coefficiente di correlazione:
• non cambia valore e segno se il prodotto b·d è positivo
• non cambia valore ma cambia segno se il prodotto b·d è negativo
DIPENDENZA DISTRIBUTIVA E IN MEDIA
- se tra X e Y c’è indipendenza distributive 𝑝XY=0
Non vale il viceversa
- se almeno un carattere è indipendente in media dall’altro 𝑝XY=0
non vale il viceversa
ATTENZIONE: 𝑝XY=0 non significa assenza di legame, ma solo assenza di legame lineare tra X e Y

Il profe ha detto che raramente questo argomento appena affrontato (correlazione) viene
affrontato nella parte degli esercizi ma soprattutto nella parte teorica.
Guarda foto sul telefono dei vari esempi con i punti

REGRESSIONE
Con l’analisi della concordanza i due caratteri sono trattati in modo simmetrico. In molti casi
l’analisi logica e le ipotesi teoriche consentono di trattare i due caratteri sulla base di una relazione
di causa effetto.
In questo contesto il ‘carattere causa’ è detto VARIABILE INDIPENDENTE e il ‘carattere effetto’ è
detto VARIABILE DIPENDENTE.

39
Se l’esercizio chiede di calcolare il coefficiente di regressione è inutile sapere quale carattere è la
causa e quale è l’effetto.
SEMPLICE MODELLO DI DIPENDENZA DI UNA VARIABILE Y (effetto dipendente) A UNA VARIABILE
X (causa indipendente)
RETTA INTERPOLANTE
La tendenza della spezzata empirica si può riprodurre interpolando tra i punti con una retta
appropriata (una retta che rappresenta al meglio la condizione di dipendenza di y a x ovvero che
passa tra i punti)
L’interpolante è utile per:
- sintetizzare la relazione
- agevolare i confronti
- completare serie lacunose
- effettuare previsioni
- ….
MODELLO DI REGRESSIONE
È composto da una equazione che suddivide la parte sinistra da quella destra.
è un modello statistico non matematico (perché se fosse
matematico U non ci sarebbe)

tanto più p1 aumenta, tanto più la retta è inclinata

Il valore residuo può essere sia positivo che negativo

INTERPOLAZIONE (LINEARE)
METODO DEI MINIMI QUADRATI
Il problema dell’interpolazione riguarda la scelta di un opportuno criterio che permetta di
individuare un’appropriata retta interpolante.
Il criterio di accostamento più utilizzato è noto come
Metodo (o condizione) dei minimi quadrati
i valori da attribuire a p0 e p1 quelli che rendono la più piccola possibile
(minima non siginifica zero) la somma dei quadrati dei residui U

40
per trovare i parametri si utilizzano metodi matematici

Per garantire il minimo è necessario che le due derivate parziali (rispetto a p 0 e p1) siano nulle.
Dall’operazione di derivazione si ottengono le condizioni del 1° ordine rappresentate dal sistema
normale:
guarda come svolgere il sistema sulle slide
pag. 40

SOLUZIONE 1: risolvendo la 1° equazione rispetto a p0 si ricava


E risolvendo rispetto a p1 si ricava

PROPRIETÀ
Dalla 1° equazione del sistema normale

Si ricavano agevolmente le seguenti proprietà:


- PROPRIETÀ DELLE MEDIE: le medie dei valori osservati e interpolati sono uguali
- PROPRIETÀ DELLA RETTA : la retta passa per il punto con coordinate le medie

[per gli esercizi è rilevante sapere quale variabile sia a destra e quale a sinistra]
REGRESSIONE DI X RISPETTO A Y
Scambiando i ruoli delle variabili si può considerare anche il modello di regressione

Ovviamente dal punto di vista interpretativo non è sempre possibile riconoscere un significato ad
entrambi i modelli. La condizione dei minimi quadrati è
Operando come nel caso precedente, si ottengono le
seguenti soluzioni:

I coefficienti angolari p1 e q1 delle due rette hanno lo stesso segno (quello di 𝜎XY )

INTERPOLAZIONE PER SERIE STORICHE


In alcuni casi, l’interpolazione non riguarda due caratteri X, Y ma un unico carattere Y rilevato nel
tempo (serie storica)
In altri termini, si cerca di spiegare le variazioni della variabile dipendente Y in funzione del tempo,
che assume il ruolo di variabile indipendente
Le unità temporali (anni, mesi, giorni, ... ) sono sostituite con dei numeri in sequenza ( t )
Se il modello è lineare, l’interpolante è dunque
[guarda esempio sulle slides pag. 53]

Se la serie storica ha un numero dispari di periodi, conviene porre l’unità centrale uguale a 0. Con
questa scelta si ha e si semplificano anche le espressioni
della sequenza operativa

41
Invece di numerare i numeri da 1 a 7 utilizziamo i numeri negativi simmetrici a 0 (guarda es. pag
59) e in questo modo la somma dei periodi è 0.
RETTE DI REGRESSIONE
Relazione con r(X,Y)
Si dimostra che il coefficiente di correlazione lineare è la media geometrica dei coefficienti
angolari delle due rette di regressione (alla radice quadrata viene attribuito il segno dei due
coefficienti)
Dimostrazione:
r(X,Y) è la sintesi di una doppia interpolazione

LINEARIZZAZIONE significa : trasformare 1 o entrambi i caratteri con una opportuna


trasformazione ma prima di calcolare i paramenti della retta linearizzata bisogna trasformare i
parametri
A volte il diagramma di dispersione evidenzia una tendenza che non può essere adeguatamente
rappresentata con la retta interpolante. In questi casi, opportune trasformazioni di una o di
entrambe le variabili permettono di linearizzare la relazione.
Si può quindi utilizzare ancora il metodo dei minimi quadrati con le variabili trasformate.
Esempio 1: trasformazione
iperbolica
Quando la interpolante non
può essere una retta, questa si
può linearizzare usando il reciproco di X e Y

Esempio 2: trasformazione parabolica

Esempio 3: trasformazione logaritmica

Esempio 4: doppia trasformazione logaritmica

Per le note proprietà dei logaritmi, l’interpolante


si può riscrivere come

42
VERIFICA DELL’ADATTAMENTO (ADATTAMENTO DELLA RETTA INTERPOLANTE
OTTENUTA CON IL METODO DEI MINIMI QUADRATI AI PARAMETRI REALI)
Dopo aver determinato la retta interpolante, è necessario controllare se questa è idonea a
rappresentare la relazione tra le due variabili.
La verifica della bontà di adattamento del modello scelto si basa sull’analisi grafica e numerica dei
residui d’interpolazione
Il sistema normale si può riscrivere come
in altri termini, i residui dei minimi quadrati
1- Hanno media nulla
2- Non sono correlati con la variabile
indipendente (U e X sono incorrelati)
se la somma dei residui è 0 vuol dire che alcuni residui sono positivi altri negativi
ANALISI DEI RESIDUI
• La proprietà 1 implica che i residui presentano segni sia positivi sia negativi
• La proprietà 2 implica che i residui non dipendono linearmente dalla variabile indipendente
La verifica dell’adattamento può allora essere condotta verificando se
1. l’ordine di grandezza dei residui è contenuto
2. la successione dei segni dei residui è accidentale

L’analisi si può effettuare considerando i valori dei residui ordinati rispetto ai valori di X

qualcosa nel modello non funziona, non si vede una sistematicità, la retta sta
non è lineare passando in mezzo ai punti senza ess ere n
n sistematicamente o positiva o negativa

SCOMPOSIZIONE DELLA VARIANZA


Si dimostra che, per la retta a minimi quadrati
Vale la seguente scomposizione :

43
INDICE DI DETERMINAZIONE
R2 è un rapporto di composizione ed assume quindi valori nell’intervallo [0;1] e si ricava dalla
precedente scomposizione. Strumento fondamentale per capire il livello di adattamento

L’indice di determinazione vale

• 0 quando 𝜎S2=0 : ovvero, la retta di regressione non “spiega” la


variabilità di Y; in tal caso i punti (xi;yi) non evidenziano un legame
lineare

• 1 quando R2=0 ovvero, la retta di regressione "spiega” tutta la variabilità di Y; in tal caso tutti i
punti (xi;yi) giacciono sull’interpolante

se è inf a 0,4 vuol dire che il modello spiega in modo contenuto la relazione di dipendenza
tra 0,4 e 0,6 è intermedia
sopra 0,6 è forte

il valore di R2 può essere calcolato anche con le seguenti formule alternative (evitando il calcolo
dei residui)

Utilizzo del modello


Dopo averne verificato l’adattamento, l’interpolante a minimi quadrati può servire per diversi
scopi: esempio per stimare la spesa alimentare mensile per una famiglia omogenea con quelle
considerate avente reddito mensile uguale.

INTERPOLAZIONE PONDERATA
Quando si dispone di una serie doppia ponderata, il problema dei minimi quadrati assume la
seguente forma quando l’esercizio ha le frequenze, cambia c
v che tutte le formule devono essere calcolate v
v pesando i calcoli con le frequenze

L’interpolazione ponderata si impiega anche quando le informazioni sono riportate in una tabella a
doppia entrata.
Nel caso dell’interpolazione delle medie parziali di Y I X si ha la condizione dei minimi quadrati
si può dimostrare che tale soluzione coincide con quella che si ottiene
dalla condizione

DUNQUE, l’interpolazione per la serie doppia ponderata equivale all’interpolazione per la tabella
bivariata. La regressione si può effettuare considerando X come variabile dipendente. In questo
caso si utilizza la retta interpolante con n.j le frequenze da usare nelle formule
ponderate

44
Verifica dell’adattamento
si possono calcolare due indici di adattamento:
- INDICE DI DETERMINAZIONE DELLA VARIANZA TOTALE

- INDICE DI DETERMINAZIONE DELLA VARIANZA FRA MEDIE

Relazione tra RT2, RF2 e n2(Y I X)


Dall’espressione di RT2 con un semplice artificio algebrico si ricava
L’interpolare NON PUÒ quindi spiegare più
della variabilità fra le medie parziali

[di questi ultimi argomenti guardare gli esempi sulle slides]

CALCOLO DELLE PROBABILITÀ


In molte situazioni le informazioni disponibili non sono sufficienti per conoscere gli eventi futuri.
Spesso ci facciamo più domande sul futuro rispetto a quello che è successo in passato.
Per millenni ci si è affidati ad ogni tipo di espediente nella speranza di conoscere quello che
accadrà̀ domani
A partire dalla seconda metà del 1600, inizialmente per risolvere problemi legati al gioco
d’azzardo, sono stati sviluppati dei metodi che permettono di valutare l’incertezza degli eventi

• A quale temperatura congelerà l’acqua?


• Quanto tempo impiegherà un sasso lanciato nel vuoto per arrivare a terra?
A questi quesiti possiamo rispondere con certezza, perché l’evento che si verificherà è certo

• Lanciando 100 volte una moneta verrà sempre testa?


• Lanciando un dado verrà il numero 6?
• Nevicherà il giorno di Natale a Brescia?
• Una lampadine sempre accesa si fulminerà dopo 100 ore?
A questi quesiti non possiamo rispondere con certezza perché l’evento che si verificherà è incerto

Molti fenomeni reali hanno risultati incerti. Si deve spesso decidere in condizioni di incertezza.
La decisione può essere difficile, perché spesso gli eventi hanno un diverso margine di incertezza,
ovvero una diversa probabilità (è poco probabile che esca per 100 volte testa).
La teoria della probabilità si serve del ragionamento logico per orientare le scelte.
Il calcolo delle probabilità aiuta a quantificare in modo rigoroso il grado di incertezza degli eventi.
La probabilità viene applicata in moltissimi settori come: fisica, economia, medicina, teoria dei
giochi, inferenza statistica, ricerche di mercato ecc…
Motivo storico: i ricchi volevano vincere a tutti i costi nei giochi di sorte e quindi hanno iniziato a
finanziare le ricerche. Altro motivo perché i giochi di sorte sono semplici e quindi molto utili per
capire le basi della probabilità

45
A volte, per approfondire la conoscenza di un fenomeno incerto si effettua un ESPERIMENTO.
Ogni singola esecuzione di un esperimento è detta prova. Faccio tante prove per vedere come si
comporta il fenomeno.
Un esperimento può essere:
- DETERMINISTICO se la conoscenza delle cause o leggi da cui dipende permette di
prevederne con certezza il risultato (prevediamo con certezza il risultato)
- ALEATORIO o CASUALE se la conoscenza delle cause o leggi da cui dipende non permette di
prevederne con certezza il risultato
Di solito si richiede che un esperimento aleatorio soddisfi due requisiti:
• sia (almeno teoricamente) ripetibile nelle stesse condizioni (es per valutare l’efficacia di un
farmaco non posso ripeterlo 1000 volte perché potrebbe avere degli effetti collaterali)
• tutti i possibili esiti siano definibili in anticipo

Nel contesti degli esperimenti aleatori gli esiti prendono il nome di EVENTI
Si distingue tra :
- Evento elementare (E): singolo risultato di una prova
- Evento composto (A,B,…): insieme di eventi elementari
Esempio:
Esperimento: lancio di un dado con sei facce
Evento elementare: E = “esce il numero 6” (ci sono 6 eventi elementari, uno per ogni faccia)
Evento composto: A = “esce un numero maggiore di 3”
A è l’evento unione:

ALGERA DEGLI EVENTI


Utilizzando le regole dell’algebra degli insiemi si possono definire altri tipi di eventi:
- Complementare o negazione di A: si verifica quando non si verifica A
- Unione di A e B: si verifica quando si verificano A o B
- Intersezione di A e B: si verifica quando si verificano A e B
- Differenza di B da A: si verifica quando si verifica A ma non B

Esperimento: lancio di un dado con sei facce


Eventi A=“esce un numero > 3”, B=“esce un numero < 5”
Evento complementare di A: Ā = “esce un numero < 4”
Evento unione di A e B: AB = “esce un numero da 1 a 6”
Evento intersezione di A e B: A B = “esce il numero 4”
Evento differenza di B da A: A- B = “esce il numero 5 o 6”
L’evento intersezione è meno probabile dell’evento a e B seppure sia un evento certo.

DIAGRAMMA DI VENN
È utile per rappresentare le relazioni tra insiemi. [guarda i simboli sulle slide]
Ā si utilizza per rappresentare il complementare/opposto di A
AB si utilizza per rappresentare l’unione di A e B
AB si utilizza per rappresentare l’intersezione tra A e B
A-B si utilizza per rappresentare la differenza tra A e B

[con l’oppure si parla di un unione, con la e si parla di un intersezione]

46
Si distingue anche tra
• Evento impossibile evento che non si verifica mai (estremo inferiore)
• Evento aleatorio (probabile, possibile, casuale) evento che si verifica a volte
• Evento certo evento che si verifica sempre (estremo superiore)
Esperimento: lancio di un dado con sei facce
Evento impossibile: =“esce il numero 7”
Evento aleatorio: A =“esce un numero maggiore di 3”
Evento certo: =“esce un numero da 1 a 6”
Lo spazio di tutti i possibili eventi elementari di un esperimento viene detto
SPAZIO CAMPIONARIO = Ω

EVENTI INCOMPATIBILI
Definizione: Due eventi aleatori A e B se la loro intersezione è l’evento impossibile, ovvero che
questi due eventi aleatori non hanno alcun elemento elementare in comune.
Se AB =  allora A e B sono incompatibili
Tale definizione non richiede vincoli sulla probabilità di A e B
Osservazione: A e Ā sono incompatibili

PROBABILITÀ
Per probabilità si intende (a livello scientifico) un numero associato al verificarsi di un determinato
evento
Questa definizione non spiega come calcolare tale numero
Le definizioni di probabilità più utilizzate sono quattro:
DEFINIZIONE CLASSICA (Laplace, 1812)
Dato un esperimento con N possibili risultati equiprobabili,
la probabilità di un evento A è il rapporto fra il numero N(A)
dei risultati favorevoli al suo verificarsi e il numero N dei risultati possibili
Osservazione:
P() = 0 ; P (Ω) = 1 ; e o<= P(A) <= 1 A
Esempio
Esperimento: lancio di una moneta bilanciata ( non è stata truccata)
Eventi equiprobabili: T=’testa’ , C=’croce’
Probabilità che esca testa: P(T) = ?
N=2 ; N(T)=1. P(T)= 1 / 2= 0,5

Osservazione 1
La probabilità dell’unione di eventi incompatibili è uguale alla somma delle probabilità dei singoli
eventi.
P ( D ) = 0,4 ; P(D) = P ( B  C ) = P ( B ) + P ( C ) = 0 , 3 + 0 ,1 = 0 , 4
Osservazione 2
La probabilità dell’evento complementare è uguale al complemento a 1 della probabilità del
corrispondente evento. P(D)=P(A) =P(-A) =P()-P(A) =1-0,6=0,4
Osservazione 3
Una definizione rigorosa di probabilità evita errori di valutazione
Esempio 1
Se il risultato dei 3 lanci consecutivi è “TTT”, ho avuto fortuna?
No, perché questo evento ha la stessa probabilità degli altri 7

47
Esempio 2
Se in 10 lanci consecutivi è sempre uscita “T ”, all’11° lancio è più conveniente puntare su “C ” (la
faccia “in ritardo”)?
No, perché anche all’11° lancio si ha comunque P(C ) = 1/2

Critiche
- Le affermazioni dei due esempi sono valide solo se è verificata la condizione di
equiprobabilità degli eventi
Ad esempio, lo spazio campionario associato al lancio di 3 monete non è
 = {3 Croci; 2 Croci e 1 Testa; 2 Teste e 1 Croce; 3 Teste} perché questi eventi non hanno la stessa
probabilità [solo 3 croci e 3 teste sono elementi elementari]
- Per definire la probabilità in modo non ambiguo bisogna ricorrere al concetto stesso di
probabilità (circolarità, tautologia)
- a definizione non è utile se si hanno eventi non equiprobabili

DEFINIZIONE FREQUENTISTA (von Mises, 1919)


Questa definizione si basa sulla LEGGE EMPIRICA DEL CASO (legge dell’esperienza): dato un
esperimento ripetibile nelle stesse condizioni, la frequenza relativa con cui si presenta una evento
A all’aumentare delle prove tende alla sua probabilità.

osservazione: P() = 0 ; P (Ω) = 1 ; e o<= P(A) <= 1 A


se ad esempio mi metto a lanciare il dado con 6 facce non truccato 100/200/ ecc.. volte vedo che
la frequenza con cui si verifica ogni faccia è pari a 1/6
non lo sappiamo perché accade questo, ma si basa su molti esperimenti fatti.

La raccolta di informazioni storiche può aiutare a valutare la probabilità degli eventi


Esempio 1
Se negli ultimi 50 anni in una città il giorno di Natale è nevicato 15 volte, la probabilità di questo
evento si può approssimare con il numero 15:50 = 0,3 [in realtà ogni anno l’esperimento non è
stato replicato nelle stesse condizioni a causa del cambiamento climatico ]
Esempio 2
Se negli ultimi 30 anni, su 10.000 individui di 20 anni 9.932 raggiungono in media il 21-esimo anno,
la probabilità per un ventenne di compiere 21 anni si può approssimare con il numero 0,9932.ò in
questo caso la società assicurativa farà pagare un prezzo più basso perché il rischi che un ventenne
muoia l’anno successivo è molto basso. [l’assicurazione di un auto sugli incidenti a Napoli è molto
più alta rispetto ad un auto a Brescia]

Osservazione 1 : La legge empirica del caso non si può dimostrare, si può solo verificare
empiricamente
Osservazione 2 : Se all’aumentare delle prove fn(A) tende alla costante P(A), significa che esistono
delle regolarità che governano i fenomeni
Osservazione 3: La probabilità classica è determinata da una valutazione a priori, quella
frequentista è determinata da una valutazione a posteriori (ovvero si basa sull’esperienza)

48
CRITICHE
• Non è noto il numero di prove necessarie per avere un’approssimazione adeguata della
probabilità
• La definizione non è applicabile nelle situazioni in cui non si può ripetere l’esperimento
• Queste considerazioni hanno portato alcuni studiosi a formulare una definizione di
probabilità soggettiva (faremo solo un accenno)

DEFINIZIONE SOGGETTIVISTA (de Finetti, 1931)


Egli afferma che non c’è una definizione di probabilità oggettiva (uguale per tutti)
Probabilità di un evento A è la misura del grado di fiducia che un individuo coerente attribuisce,
secondo le sue informazioni ed opinioni, all’avverarsi
di A.
Data la quota p che un individuo ritiene equo
scommettere con un altro che punta q se si verifica
A, si ha :

Esempio
Esperimento: lancio di una moneta bilanciata
Probabilità che esca testa: P(T ) = ?
Poiché la moneta non è truccata, si può esser disposti a scommettere 1 per vincere 2 se si verifica
T (si dice comunemente: scommettere 1 contro 1)
Si ha quindi P(T ) = 1/(1+1) = 1/2 = 0,5

DEFINIZIONE ASSIOMATICA (Kolmogorov, 1933)


Il merito della riappacificazione tra le varie definizione è di Kolmogorov. Egli prende atto che ci
sono molte definizioni di probabilità.

Abbiamo visto che l’attribuzione della probabilità di un evento non è univoca


Alcuni studiosi hanno affrontato diversamente il problema, fissando l’attenzione sulle regole di
calcolo delle probabilità
Essi sono partiti da alcuni semplici postulati (assiomi) ritenuti logicamente validi
- Ad ogni esperimento si associa un insieme Ω detto spazio campionario (probabilistico, degli
eventi) i cui elementi sono tutti i suoi possibili risultati semplici (eventi elementari E)
- Di solito interessa valutare la probabilità di risultati complessi dell’esperimento (eventi
composti A)
- La probabilità è una funzione che ad ogni A ⊆Ω associa un numero reale in modo da
soddisfare i seguenti assiomi:
A1. P(A)>=0
A2. P(Ω) = 1
A3. P(A B) = P(A) + P(B). se A B = 

Ad oggi nel 2022 non esiste ancora una definizione univoca di probabilità

49
Sulla base dei precedenti postulati si dimostra che:
le coppie  e Ω sono incompatibili

le coppie A e Ā sono incompatibili

utilizzando il diagramma di Venn si ricavano facilmente altre importanti proprietà [guarda


disegninini sulle slides]

PROBABILITÀ DELL’EVENTO CONDIZIONATO ( A I B )


Viene detta probabilità condizionata di A dato B
Ci sono due relazioni che si possono ricavare dall’esempio sulle slides
- Relazione 1 P( A I B ) = P(AB) / P(B)
- Relazione 2 P(AB) = P( A I B ) • P(B)
Si può calcolare la probabilità condizionata di B dato A, per P(A) > 0 :
[guarda esempi sulle slides]

INDIPENDENZA STOCASTICA
Indipendenza stocastica Implica che la probabilità degli eventi intersecati tra loro sia uguale al
prodotto tra la probabilità dei due eventi
Definizione 1: A è stocasticamente indipendente da B se P(A | B) = P(A)
Definizione 2: B è stocasticamente indipendente da A se P(B | A) = P(B)
L’indipendenza stocastica è una relazione simmetrica. Infatti, poiché
P(AB) = P(A|B)•P(B) = P(B|A)•P(A) da entrambe le definizioni si ricava che P(AB) = P(A)•P(B)
[guarda esempio sulle slides da slide 56]

PARTIZIONI
Si dice partizione dello spazio campionario ogni insieme di eventi, a due a due incompatibili, la cui
unione è uguale a Ω. Gli eventi Ai i= 1,2,…,k sono quindi una partizione di Ω se:

Data una qualsiasi partizione di Ω, si ha che

Dato Ω omega abbiamo sempre una partizione. La partizione più comoda è data da A e il suo
complementare Ā. Ogni spazio campionario può essere suddiviso in diverse partizioni a seconda
dell’interesse che ho.

VARIABILI CAUSALI è una funzione X che associa a dei valori/numeri xi delle probabilità pi
In molti casi, i risultati di un esperimento casuale sono rappresentati da numeri. L’utilizzo dei
numeri per rappresentare gli eventi favorisce l’elaborazione e l’analisi dei possibili risultati
dell’esperimento.
Esempi:
- Numero di teste ottenute lanciando insieme tre monete
- Numero di pezzi difettosi in un lotto di 100
- Variazioni giornaliere nel prezzo di chiusura

50
Sono tutti eventi aleatori di cui non conosco la risposta prima di aver fatto l’esperimento e che
vengono poi rappresentati dai numeri.
Definizione: Si dice variabile casuale
(aleatoria, stocastica) ogni funzione che
associa un solo numero reale ad ogni evento
appartenente ad una partizione di Ω

TIPI DI VARIABILI CASUALI


Si distingue tra:
- Variabile casuale discreta : assume un numero finito o un’infinita numerabile di valori
- Variabile casuale continua: assume tutti i valori di un intervallo limitato o illimitato

Le variabili casuali si indicano abitualmente con le lettere X,Y,Z… (ultime lettere dell’alfabeto) e le
loto realizzazioni (determinazioni) con le lettere
xi, yi, zi, … nel caso di v.c. discrete
X, y, z,… nel caso di v.c. continue
➔ Consideriamo per il momento solo v.c. discrete
[guarda esempio sulle slides pag. 6]
FUNZIONE E DISTRIBUZIONE DI PROBABILITÀ
Il termine “variabile casuale” viene impiegato perché ogni sua realizzazione è determinata da un
evento aleatorio
- Alle k possibili realizzazioni di una v.c. discreta X è associata la funzione di probabilità (f.p.)

- L’insieme (xi; pi) è la distribuzione di probabilità (d.p.) della v.c.


Ovviamente, pi ≥ 0, i = 1,2,…,k e anche ∑ipi = 1
Grafico di una distribuzione di probabilità:

Viene spesso utilizzata anche la funzione di ripartizione (f.r.) della v.c. X ed è la probabilità che X
assuma un valore al massimo uguale a una certa realizzazione x
Si tratta si una funzione a gradini (cumulata) poiché:
in questo caso ogni gradino è una
probabilità; se ik gradino è più basso vuol
dire che il contributo alla formazione di
omega è più basso

con i metodi introdotti in ambito descrittivo si possono calcolare diversi indici di posizione (come
mediana, quartili, ecc)

Come abbiamo visto, la distribuzione di probabilità di una v.c. discreta presenta molte analogie
con la distribuzione di frequenze (relative) di un carattere discreto
Ai fini dell’analisi di una v.c. si possono allora calcolare una media algebrica e un indice di
variabilità

Il baricentro ci dice il valore che dovremmo


aspettarci da una certa analisi.
I pesi sono le probabilità

51
la varianza non può essere mai negativa ma può essere al minimo pari a zero quando c’è una
variabile casuale de genere. Tanto più è elevata sigma quadro tanto più i valori delle variabili
casuali sono dispersi, quindi tanto più è incerto il risultato (qundo sigma quadro è tanto elevato
vuol dire che è lontano dal baricentro ovvero che è lontano dall’aspettativa)

TRASFORMAZIONI LINEARI (modificano i valori dei caratteri, non la distribuzione di frequenza; in


questo caso si trasformano i valori xi e non le probabilità)
è una trasformazione dei valori di un carattere x nei valori dei caratteri y. Andando a scegliere
una costante moltiplicativa B e una costante moltiplicativa A
La proprietà della media e della varianza possono essere estese alle v.c.
Ad esempio, data una v.c. X con valore atteso e varianza noti, per la v.c. Y ottenuta dalla
trasformazione lineare Y = a + b•X si ricavano :
caso importante: v.c. standardizzata Z
si ottiene data una qualsiasi v.c. di cui conosciamo valore atteso e varianza si ottiene con questo
rapporto:

Z è una trasformazione lineare perché si può riscrivere così:


applicando le proprietà precedenti ricaviamo.
vuol dire che qualsiasi esercizio noi abbiamo dove ci
capita una qualsiasi variabile casuale con un certo
valore atteso e una varianza può essere sempre
ricondotta alla v.c. standardizzata Z sottraendo
μ ai valori di X e dividendo per sigma.

ALTRE VARIABILI CASUALI DISCRETE


Ci sono due passaggi prima di scegliere una variabile casuale
- Il tipo
- Il parametro/i che la descrivono
Variabile casuale Uniforme
La v.c. Uniforme ha la seguente distribuzione di probabilità: p(x) = 1/k x=1,2,…,k
con k ⋲ [1,2,…] detto parametro della distribuzione. ( In questo caso il parametro è k )
Si scrive in sintesi X ∼ U (k) e si dimostra che :
∼ --> tilde, si legge: è distribuita come
In questo caso se k=1 la variabile si chiama variabile de genere. Se k=5 ogni numero da 1 a 5 ha
una probabilità pari a 1/5.
Viene utilizzata nelle condizioni di massima incertezza
[guarda esempio sulle slides]

Variabile casuale di Bernoulli


La v.c. di Bernoulli ha la seguente distribuzione di probabilità: p(x) = px(1-p)1-x x=0,1
Con p⋲ (0;1) detto parametro della distribuzione
P è la probabilità che X assuma il valore 1
1-p è la probabilità che x sia 0
Si scrive X ∼ B(p) e si dimostra che:
l’esecuzione di un esperimento con due soli possibili esiti (dicotomico) è detta prova Bernoulliana
[guarda esempio sulle slides]
52
Variabili casuale Binomiale
La v.c. Binomiale ha la seguente distribuzione di probabilità

n ⋲ {1,2,…} , p⋲ (o;1) detti parametri della distribuzio

detto coefficiente binomiale

[guarda esempi sulle slides]

Variabile casuale di Poisson


La v.c. di Poisson ha la seguente distribuzione di probabilità
con 𝝺 > 0 detto parametro della distribuzione
Si scrive in sintesi X ∼ P (𝝺) e si dimostra che E(X)= 𝝺. Var(X)= 𝝺 (landa)
Si verifica inoltre facilmente che la deviazione standar è il quadrato della varianza

La funzione di probabilità della v.c. di Poisson si


calcola quindi facilmente con la formula ricorsiva

VARIABILI CASUALI CONTINUE


La prima cosa da tenere a mente è che non si parla di distribuzioni di probabilità ma DENISTÀ DI
PROBABILITÀ.
Quando siamo nel continuo ha senso di parlare di probabilità solo se siamo nell’intervallo.
Nella domanda: quale è la probabilità legata a questa variabile continua? Risposta 0 zero

53
Una v.c. continua X assume valori x in un intervallo (I; S) (limitato o illimitato). Una v.c. continua X
è caratterizzata dalla funzione di densità di probabilità (f.d.p.)
che può essere interpretata come la probabilità associata all’intervallo
di ampiezza d (piccola) centrato su x:
l’interpretazione di f(x) è quindi analoga a quella di f s
per calcolare l’area sottostante bisogna
usare l’integrale (negli esercizi non
dovremo calcolare gli integrali)

per una v.c. continua X la FUNZIONE DI RIPARTIZIONE (f.r.) F(X) = P(X ≤ x) è pari all’area
sottostante f(x) nell’intervallo (I;x). Si ha ovviamente F(S) = 1

VALORE ATTESO E VARIANZA


Come abbiamo visto, la distribuzione di probabilità di una v.c. continua presenta molte analogie
con la distribuzione di frequenze di un carattere continuo
In questo contesto il calcolo del valore atteso E(X), della varianza Var(X) o dei quantili è però più
complesso, perché si basa sull’impiego dei metodi di integrazione

Alcune variabili casuali continue


1) Variabile casuale Rettangolare
La v.c. rettangolare (o Uniforme continua) ha la seguente distribuzione di probabilità:
si scrive in sintesi X ∼ R(𝛂 ; 𝛃) e si dimostra che
E(X)= (𝛂 + 𝛃)/2 Var(X)=( 𝛂 – 𝛃)2/2
la variabile casuale continua x è distribuita come la variabile casuale rettangolare di alfa e beta
2) Variabile casuale Normale (la più importante anche di quelle discrete)
La V.c. Normale ha la seguente distribuzione di probabilità:
si scrive in sinstesi X ∼ N(𝜇 ; 𝜎2) e si dimostra che
E(X)= 𝜇 Var(X)= 𝜎2

𝜎= radice di 𝜎2 è lo scarto quadratico medio di X

Tale distribuzione è detta curva di Gauss (1818) o degli errori accidentali perché si può impiegare
per rappresentare grandezze affette da errori di misura non sistematici
La distribuzione Normale può essere ottenuta all’aumentare di n da quella della v.c. X∼B( p;n)
È molto utilizzata anche nell’ambito dell’inferenza statistica e nella teoria del campionamento
[guarda esempio sulle slides]

54
RUOLO DEI PARAMETRI

Le trasformazioni lineari modificano i valori ma non le probabilità

per calcolare la probabilità


sono state predisposte opportune tavole che danno l’area
a sinistra
[guarda slides per capire come utilizzarle]

La tavola riporta solo z ≥ 0 perché Φ(-z) =1- Φ(z)


Consiglio: disegnare la campana ed evidenziare l’area che ci
chiede

INTERVALLI TIPICI ( 𝜇 ± 𝛾𝜎)


Sono considerati intervalli tipici quelli associati a :
- 𝛾=0,675
per l’intervallo (μ ± 0,675 s ) la probabilità è 0,5003
- 𝛾 =1
per l’intervallo ( μ ± s ) la probabilità è 0,6827
- 𝛾 =2
per l’intervallo ( μ ± 2 s ) la probabilità è 0,9545
- 𝛾 =3
per l’intervallo ( μ ± 3 s ) la probabilità è 0,9973
[guarda es sulle slides]

55
DISTRIBUZIONI EMPIRICHE E MODELLI TEORICI
Abbiamo visto che le distribuzioni di probabilità (d.p.) hanno molte analogie con le distribuzioni di
frequenze relative (d.f.r.)
Le d.p. si possono anche utilizzare come modelli analitici per rappresentare le d.f.r. di diversi
caratteri
Si tratta di scegliere opportunamente il modello facendo in modo che esso si “adatti” alla
distribuzione empirica
È perciò sempre opportuno fare alcune verifiche preventive (più o meno formali) circa
l’opportunità dell’adattamento
Dopo aver superato con successo la fase di verifica dell’adattamento, il modello si può utilizzare
per vari scopi: semplificazione, interpretazione, comparazione, ecc.

Guarda esempi sulle slides

FINITOOOOOOO

56

Potrebbero piacerti anche