Statistica
Definizioni
Popolazione: l'insieme di tutte le unità statistiche che sono oggetto di interesse di studio
Unità statistiche: soggetto della nostra indagine, come aziende, persone, ecc…
Il problema è che solitamente le popolazioni sono estremamente grandi; quindi, è impossibile raccogliere
informazioni su tutte le singole unità; perciò, occorre selezionare un sottoinsieme di unità, e raccogliamo i
dati solo su quelle unità che poi verranno analizzati.
Campione: sottoinsieme di unità statistiche estratte dalla popolazione di riferimento. Generalmente sono
molto più piccoli della popolazione di riferimento.
Statistica: calcolato sulla base dei dati relativi al campione, è un’approssimazione del vero valore del
parametro relativo alla popolazione (che però non sarà mai disponibile completamente)
Campionamento semplice: metodologia di estrazione delle unità statistiche dalla popolazione, in modo che
ogni unità nella popolazione ha la stessa probabilità di poter essere estratta.
Bias = distorsioni
Statistica univariata (una variabile) bivariata (due variabili) multivariate (più variabili)
Ogni riga corrisponde a un’unità di statistiche (quindi ogni riga corrisponde ad ogni interdistato)
Le variabili statistiche sono nelle colonne. Una variabile una colonna
Selezionali (cross-section)
Serie storiche (time series): consistono nella raccolta di variabili in diversi istanti di tempo
Longitudinali (panel): ripeto da rilevazione a intervalli tempo successivi. Questi impilano i dati relativi ai
diversi istanti di tempo uno sotto l’altro. Sono quelli più ricchi di informazioni
Tipologie di variabili
i)Variabili numeriche discrete: quando i valori che abbiamo osservato sono il insultato di un’operazione
di conteggio. Di solito assumono valori interi
ii)Variabili numeriche continue: quando i valori sono il risultato di un processo di misurazione (misurata
una quantità con uno strumento fisico o una valuta, tempo, ecc)
2)Livello di misurazione
i)Qualitative nominali: le etichette osservate non possono essere ordinate fra di loro in una gerarchia
ii)Qualitative ordinali: le etichette sono ordinate secondo un ordinamento intrinseco alla variabile
b)Variabili quantitative:
i)Variabili misurate a livello di intervallo: sono variabili la cui scala ha origine arbitraria (misurazione
della temperatura)
ii)Variabili misurate a livello di rapporto: sono quelle che invece sono misurate in una scala in cui zero è
assoluto, è certo
Le variabili misurate a intervallo sono piuttosto rare, è una classificazione che nella pratica non si trova
27/09/21
Beni presi nello scorso acquisto: numerica discreta quantitativa misurata a livello di rapporto
Euro spesi nello scorso acquisto: numerica continua quantitativa misurata a livello di rapporto
Età: numerica quantitativa, ma è discreta o continua? Se la considero discreta, noto che tutte le età sono
diverse tra di loro, quindi otterrei una sintesi poco utile dalla successiva analisi. Quindi è da considerare
continua.
Cosa si può fare per sintetizzare? Possiamo contare quante volte abbiamo osservato una delle categorie
Diagramma a torta
Passiamo alla variabile della classe di reddito (Income class)
Cambia il fatto che dobbiamo tenere conto del fatto che si possono ordinare.
Es : x = “income class”
La classe di reddito più frequente è la seconda, mentre quella meno frequente è la prima.
In alcuni contesti è possibile usare un diagramma di Pareto, che consente di separare ed evidenziare le
cause più frequenti e più rilevanti di difettosità da quelle meno rilevanti e meno frequenti.
Un grafico invece riporta già una sintesi dei dati grezzi, e non più tutti i dati grezzi, con dati già raggruppati
F(x) = Freq{X x} , x appartiene ad R e occorre determinarla per tutti i valori sull’asse orizzontale dei
numeri
Questo è un modo alternativo per rappresentare le nostre frequenze, che siano assolute, relative, o
cumulate. Le frequenze cumulative sono equivalenti a quelle relative, ma in alcuni calcoli, sarà più comodo
usare una o l’altra.
Questo grafico non decresce mai. Può solo aumentare. Perciò la funzione di frequenza cumulativa non è
MAI decrescente.
F(x) =
F(3.2) = ? = 0.7333
Freq{ 3 ≤ n items ≤ 10 } = F(10) – F(3) + Freq{n items = 3} = 0.9333 – 0.7333 + 0.2 = 0.4
Regole generali per il calcolo delle frequenze, con la frequenza cumulativa (tutti i casi)
Tutti i dati hanno una frequenza assoluta di 1, perciò le righe della tabella saranno 15 come i dati. Quindi
abbiamo sintetizzato qualcosa? No, abbiamo solo riordinato di dati in ordine crescente. Perciò quando
abbiamo di fronte una variabile continua, questo approccio di sintesi non va bene, perché non ha uno
scopo. Bisogna seguire un'altra strada per sintetizzare.
Qual è la probabilità di osservare un valore per l’ammontare speso che è di 17,2 euro? Quasi pari a 0,
perché di possibili valori ce ne sono talmente tanti; perciò, trovare due o più volte lo stesso identico valore
più di una volta, è altamente improbabile, per cui questo problema di una tabellina, che ha troppe righe, è
inutile.
Occorre qui di usare le classi. Queste purtroppo non possono essere definite in modo univoco. La scelta di
queste è totalmente soggettiva, a discrezione di chi fa le analisi. Alcune raggiungono di più gli obiettivi di
sintesi rispetto ad altre, ma non c’è una classe corretta.
1) Scegliere classi di uguale ampiezza: la conseguenza è che occorre scegliere anche quante classi.
Anche questa scelta è soggettiva, anche se le classi devono soddisfare dei requisiti:
le classi non possono sovrapporsi;
le classi tutte insieme devono coprire tutti i valori osservati nel data set;
Come scegliere il numero delle classi? Bisogna sintetizzare adeguatamente, né troppo estrema, né
troppo lunga. Dev’essere tale da ottenere una rappresentazione ragionevole dei dati.
k sono le classi
Ma spesso per facilitare i conti si arrotonda, sempre per eccesso. Quindi l’ampiezza delle classi è di
25.
Non va bene fare l’istogramma in questo caso, perché se riportassi le frequenze relative, starei
dando un’informazione fuorviante, perché per esempio la prima e l’ultima classe, hanno la stessa
frequenza, ma la domanda è: quelle due classi stanno dando davvero le stesse informazioni? No,
perché hanno diversa ampiezza. Sarebbe quindi sbagliato concludere che le stesse classi hanno la
colonna lunga uguale nell’istogramma e quindi le stesse informazioni, perché non sono ugualmente
informative.
Dalla tabella, emerge che la prima classe è chiaramente più densa dell’ultima classe, nonostante
abbiano la stessa frequenza. Quindi la densità tiene conto del fatto che le informazioni sono
spalmate in un intervallo più o meno ampio.
Quali informazioni stiamo perdendo nell’istogramma? Il modo con qui i valori sono distribuiti
all’interno di ogni classe. Nell’istogramma, infatti ipotizzo implicitamente in ogni classe che i miei
valori siano distribuiti in modo uniforme, perché sto utilizzando una riga orizzontale. Questo implica
una crescita costante della frequenza.
Però almeno abbiamo capito la densità di ogni classe e che i valori più grandi osservati, si verificano
poco frequentemente.
Quello che possiamo fare è andare a vedere i nostri dati grezzi e andare a contare quante
osservazioni cadono in questo range.
Ma per fare un conto rapido, potremmo basarci sull’istogramma, andando a prendere i due estremi
nell’istogramma. Come calcolo la frequenza? Le aree corrispondono alle frequenze relative, perciò
vado a sommare le aree che corrispondo ai rettangoli coinvolti da questo intervallo.
Ora dobbiamo far diventare una funzione questi 5 numeri, perché si riferiscono solo alla fine della
classe, ma cosa ci sta in mezzo?
a) È crescente.
b) I gli spazi tra i vari corrispondono alla frequenza relativa delle varie classi.
c) Perché abbiamo
F(x) = Freq{X ≤ x}
Come mai le rette cerchiate hanno inclinazioni diverse? L’inclinazione di ognuno di questi tratti
corrisponde alla densità di frequenza.
F(x) = Freq{X ≤ x}
F(x) =
Freq{ 32 < x ≤ 78} = F(78) – F(32) = [(0.8667 + 0.0019)(78 – 70)] – [(0.4 + 0.0267)(32 – 30)] = 0.8819
– 0.4534 =
Approccio con le aree (che funziona con numeri semplici, ma con numeri complessi come 78, fare la
proporzione con l’area potrebbe diventare non semplice; un altro modo è utilizzare la frequenza
cumulativa)
Freq{a ≤ x ≤ b} = “
Freq{a ≤ x < b} = “
Nell’ambito delle analisi descrittive, abbiamo a disposizione delle tabelle per le descrizioni, abbiamo
grafici, e abbiamo gli indici di sintesi delle osservazioni e dei dati.
Perché servono?
Perché questi indici ci informano su caratteristiche diverse sui nostri dati. Quelli centrali indicano dove la
distribuzione è centrata.
Le due distribuzioni hanno gli stessi valori per gli indici di posizione centrale, ma hanno delle differenze,
perciò non ci si può fermare solo a questo indice, per cogliere altre differenze.
Infatti, se calcoliamo gli indici di dispersione, notiamo che il primo è meno dispersivo.
Moda: è definito come il valore che è stato osservato più frequentemente nella distribuzione,
anche se la regola di calcolo cambia in base al formato dei dati;
Es: genere
Es 2: classe di reddito
La moda è un indice molto semplice, ma è l’unico tra tutti gli indici che si può calcolare anche per le
variabili categoriche. Tutti gli altri indici si calcolano solo per le numeriche, perchè richiedono un
calcolo algebrico.
La moda può non essere unica (nelle distribuzioni multimodali)
Ci sono casi in cui la distribuzione ha tutti i valori osservati con la stessa frequenza, quindi a quel
punto la moda non esiste (distribuzione uniforme).
Il calcolo è lo stesso (somma dei valori dei dati diviso per il numero dei dati), la notazione è
diversa.
Es: (continuo)
Dimostrazione:
c) La media è il valore che rende minima la somma degli scarti al quadrato delle
osservazioni dalla propria media
Ogni dato ha il proprio scarto dalla media
Gli scarti relativi all’osservazione a sinistra della media, sono scarti negativi, mentre quelli a
destra sono positivi.
Il valore di a, che rende minima questa somma degli scarti al quadrato, è quello della media
aritmetica semplice.
d) La media aritmetica è influenzata pesantemente dai valori anomali (outlier)
Somma di ogni dato moltiplicato per la propria frequenza relativa, oppure uno fratto unità
della popolazione moltiplicato per la somma dei dati moltiplicati per la loro frequenza
assoluta.
Campione:
Stesso calcolo
Es: x = n items
N items fj Pj
1 4 0.2667
2 4 0.2667
3 3 0.2
4 2 0.1333
5 1 0.0667
11 1 0.0667
Popolazione
Sommare i punti medi di ciascuna classe moltiplicati per la propria frequenza relativa
Campione
Euro spesi fj pj mj
[5; 15) 2 0.1333 10
[15; 30) 4 0.2667 22.5
[30; 40) 4 0.2667 35
[40; 70) 3 0.2 55
[70; 140] 2 0.1333 105
Per trovare il punto medio di ogni classe, basta fare la media tra i due estremi.
Media: 10 ∙ 0.1333 + 22.5 ∙ 0.2667 + 35 ∙ 0.2667 + 55 ∙ 0.2 + 105 ∙ 0.1333 = 41.6667 euro
Popolazione:
Si calcola sommando i valori moltiplicati per i valori dei loro pesi, divisi per la somma dei pesi stessi.
Questo per tener conto del fatto che ogni valore ha un peso diverso.
Campione:
Stesso calcolo
50% 50%
Min Max
Posizione mediana:
ES: x = n items
1) 1 1 1 1 2 2 2 2 3 3 3 4 4 5 11
2) Calcolo posizione mediana = 8
3) Mediana: n dispari. La mediana corrisponde al valore nella posizione 8, quindi a 2
Nel caso di posizione decimale, calcolo la media tra i valori dove la posizione sta in mezzo.
Nel caso di posizione 7.5, calcolo la media dei valori tra la posizione 7 e 8.
N items fj Pj Fj (frequenze
cumulate)
1 4 0.2667 0.2667
2 4 0.2667 0.5333
3 3 0.2 0.7333
4 2 0.1333 0.8667
5 1 0.0667 0.9333
11 1 0.0667 1
La mediana è il primo valore sull’asse orizzontale, per cui la funzione cumulativa vale per la
prima volta almeno 0.5
A volte può capitare che ci sia una frequenza cumulata che corrisponda esattamente a 0.5.
In quel caso, si usa convenzionalmente come mediana il valore centrale, perciò
nell’esempio precedente sarebbe 2.5.
Euro spesi fj pj Wj Ci Fj
[5; 15) 2 0.1333 10 0.0133 0.1333
[15; 30) 4 0.2667 15 0.0178 0.4
[30; 40) 4 0.2667 10 0.0267 0.6667
[40; 70) 3 0.2 30 0.0067 0.8667
[70; 140] 2 0.1333 70 0.0019 1
Frequenza cumulata seconda classe + frequenza relativa terza classe ∙ (mediana – estremo
minimo = 0.5
0.5 – 0.4
(Mediana – 30) =
0.0267
0.5 – 0.4
Mediana = + 30
0.0267
La mediana non può essere più piccola di 30, perché altrimenti ci troveremmo nella classe
precedente; quindi, bisogna verificare quindi che si trovi nell’intervallo della classe [30; 40)
La mediana dovrà rispecchiare la stessa proporzione di 0.5 sull’asse verticale. 0.5 e più
vicino a 0.4 che a 0.6667, perciò dev’essere più vicino a 30 che a 40
o Dati grezzi
1) Ordinare i dati in senso crescente
2) Si calcola la posizione dei due quartili
Posizione 1° quartile =
Posizione 3° quartile =
3) Calcolare i quartili come segue:
Se le posizioni sono intere (x.0), allora i quartili sono valori con quella posizione.
Se le posizioni sono numeri frazionari (x.5), lo risolviamo come la mediana (prendo il
valore prima e il valore dopo e faccio la media)
Se le posizioni sono x.25 o x.75, arrotondiamo le posizioni all’intero più vicino
ES: x = n items
1) 1 1 1 1 2 2 2 2 3 3 3 4 4 5 11
2) Posizione primo quartile = 4.0
Posizione terzo quartile = 12.0
3) Primo quartile = 1 (quarta posizione)
Terzo quartile = 4 (dodicesima posizione)
1) 8 12 15 18 20 24 30 32 33 35 42 43 66 90 132
2) Posizione primo quartile = 4.0
Posizione terzo quartile = 12.0
3) Primo quartile = 18 (quarta posizione)
Terzo quartile = 43 (dodicesima posizione)
o Dati raggruppati
Es: x = n items
N items fj Pj Fj (frequenze
cumulate)
1 4 0.2667 0.2667
2 4 0.2667 0.5333
3 3 0.2 0.7333
4 2 0.1333 0.8667
5 1 0.0667 0.9333
11 1 0.0667 1
Euro fj pj Wi Ci Fi
spesi
[5; 15) 2 2/15= 0.1333 10 0.1333 : 10 = 0.0133 0.1333
[15; 30) 4 4/15= 0.2667 15 0.2667 : 15 = 0.0178 0.4
[30; 40) 4 4/15= 0.2667 10 0.2667 : 10 = 0.0267 0.6667
[40; 70) 3 3/15= 0.2 30 0.2 : 30 = 0.0067 0.8667
[70; 140] 2 2/15= 0.1333 70 0.1333 : 70 = 0.0019 1
Primo quartile = seconda classe
Box-whisker plot
In questo grafico vengono riportati anche i quartili e servirà per valutare l’asimmetria della distribuzione.
È un grafico molto semplice che può essere riprodotto sia in orizzontale, sia in verticale
Es:
Si avrà quando
Q1 – min = max – Q3
Mediana – Q1 = Q3 - Mediana
Se invece
Distribuzione asimmetrica a destra o positiva
Se invece
Ma se abbiamo:
Ci sono casi in cui dal grafico solamente, non si riesce a trarre una conclusione definitiva sull’asimmetria,
perché ha un’asimmetria mista.
Es : n items
N items fj Pj Fj (frequenze
cumulate)
1 4 0.2667 0.2667
2 4 0.2667 0.5333
3 3 0.2 0.7333
4 2 0.1333 0.8667
5 1 0.0667 0.9333
11 1 0.0667 1
Min = 1
Max = 11
Mediana = 2
Q1= 1
Q3 = 4
Min = 8
Max = 132
Q1 = 18
Q3 = 43
Mediana = 32
Caso misto
Oltre che per la valutazione della simmetria, l box-plot, consente anche di identificare la presenza di outlier
(valori estremi).
Passaggi per farlo
2)
Limite inferiore = Q1 –
Limite superiore = Q3 +
4)Le osservazioni che cadono al di fuori dell’intervallo del limite superiore e inferiore, sono da considerarsi
outlier
Es: n items
Min = 1
Q1 = 1
Mediana = 2
Q3 = 4
Max = 11
1)D.I. = Q3- Q1 = 4 – 1 = 3
2)
3) Limite inferiore
Limite superiore
C’è un outlier nella coda di destra, perché 11 > limite superiore = 8.5
Es : euro spesi
Min = 8
Q1 = 18
Mediana = 32
Q3= 43
Max = 132
1)D.I. = 25
2) 1.5(25) = 37.5
2)Percentili = sono più dettagliati rispetto ai quartili, perché dividono la distribuzione in 100 fette, ciascuna
delle quali ottengono la stessa quantità di informazioni.
2)Differenza interquartile
3)Varianza
4)Deviazione standard
5)Coefficiente di variazione
- Vantaggi:
-Vantaggi:
a. È molto meno influenzato dagli outlier
b. facilità di calcolo
-Svantaggi
a. Non utilizza tutte le informazioni disponibili, ma solo il 50% centrale delle
osservazioni
3)Varianza: è la media degli scarti al quadrato, delle osservazioni della propria media
-Dati grezzi
-Popolazione:
-Campione:
Formule abbreviate
Popolazione =>
Campione =>
n = 15
Formula abbreviata =
Es: età
n = 15
Varianza campionaria =
Dati raggruppati
Popolazione =>
Campione =>
Somma degli x sottratti per la media al quadrato, moltiplicati per la frequenza relativa.
Formule abbreviate
Popolazione:
Campione:
Es: x = n items
Popolazione:
Campione:
Formule abbreviate
Popolazione:
Campione:
Euro spesi Fj Pj Mj
[5; 15) 2 0.1333 10
[15; 30) 4 0.2667 22.5
[30; 40) 4 0.2667 35
[40; 70) 3 0.2 55
[70; 140] 2 0.1333 105
Svantaggi:
1)unità di misura di difficile interpretazione (ovvero il quadrato dell’unità di misura della variabile):
tra l’altro il fatto di prendere questi quadrati rende la varianza un numero che assume facilmente
valori grandi;
2)piuttosto sensibile agli outiler: tenendo conto del fatto che stiamo considerando dei quadrati, se
noi abbiamo un outlier, un valore molto distante dalla media, rendendolo al quadrato, esplode la
varianza;
Questi problemi si possono risolvere facilmente, con un altro indice strutturato come una radice
quadrata della varianza, il quale in parte, rimpicciolisce la scala dei numeri: questo indice si chiama
deviazione standard.
4)Deviazione standard (o scarto quadratico medio): radice quadrata della varianza, perciò presenta gli stessi
casi della varianza stessa.
Popolazione:
Campione:
Indici di sintesi:
-Media
-Mediana
-Quartili
-Deviazione standard
Questi indici consentono di avere un’idea piuttosto completa di tutte le caratteristiche importanti di una
distribuzione. Questo è l’obiettivo della statistica descrittiva.
L’ultimo indice di variabilità è un po’particolare, perché non serve più di tanto per calcolare la variabilità di
una distribuzione, ma serve per confrontare la variabilità tra distribuzioni diverse.
Due deviazioni di diversa unità di misura, non sono confrontabili per quanto riguarda la variabilità.
5)Coefficiente di variazione: si calcola facendo la deviazione standard, per il valore assoluto della media
Popolazione:
è un numero adimensionale, cioè non ha unità di misura, perché
dividiamo due numeri che hanno la stessa unità di misura
Campione:
Es (continua)
X = items
X = euro spesi
A volte il coefficiente può essere espresso in percentuale, ma può non avere un’unità di misura.
Il coefficiente può essere maggiore di 1: dipende quanto è grande rispetto alla media. Non c’è un vincolo
teorico che faccia si che la deviazione sia minore o uguale alla media.
Disuguaglianza di Chebychev: per una popolazione con una qualsiasi distribuzione, con media e varianza, si
consideri un numero k > 1, allora la frequenza relativa con cui si possono osservare valori della variabile
compresi tra e dev’essere almeno pari a
Questo risultato è interessante, perché vale per qualsiasi tipo di distribuzione presa in considerazione.
Esempio:
Valori diversi di k:
k 1.5 2 2.5 3
Limite inferiore 0.556 0.75 0.84 0.889
In percentuale 55.6% 75% 84% 88.9%
Se noi avessimo qualche informazione in più riguardo alla distribuzione, questo valore si può aggiustare,
tenendo conto delle maggiori informazioni che abbiamo sulla distribuzione.
In particolare, c’è un secondo e ultimo strumento analogo, che però non vale per qualsiasi distribuzione,
ma vale solo per un determinato tipo di distribuzione, che sarebbe:
la Regola empirica: per popolazioni di grandi dimensioni, con distribuzione campanulare, la frequenza
(approssimata) con cui si possono osservare valori in un intervallo del
Maggiore è l’intervallo, maggiore è la frequenza approssimata.
{6; 14 }
Con la regola empirica, il risultato è più preciso, a costo però di andare a vedere il tipo di distribuzione di cui
stiamo parlando.
Il risultato corretto dipende dalle informazioni dell’esercizio. Dipende se l’esercizio specifica il tipo di
distribuzione o meno.
Due variabili vanno esaminate insieme, se è utile capire se sono relazionate tra di loro e in che modo.
Il primo passo è capire il tipo di variabili che abbiamo di fronte. Ci possono essere 4 possibili scenari:
Variabile y
Categorica Numerica
Tabelle a doppia No
Categorica entrata, Diagramma
a barre
No Diagramma di
Variabile x
dispersione,
Numerica covarianza,
correlazione lineare,
Relazione lineare
Supponiamo che ci interessi verificare se la classe di reddito, dichiarata da questi intervistati, sia in qualche
modo legata dal genere degli intervistati.
La somma delle frequenze è uguale al numero dei dati che stiamo considerando.
Noi vogliamo capire se la distribuzione della classe di reddito è uguale nei due gruppi di genere.
- La distribuzione di y è la stessa all’interno delle diverse categorie della x: in questo caso diremo che
non c’è una dipendenza tra le variabili;
- La distribuzione di y è tanto o poco diversa all’interno delle diverse categorie della x: in questo caso
diremo che c’è una dipendenza tra le variabili;
Se la classe di reddito è ugualmente distribuita nelle due classi di genere, allora concluderemo che le due
variabili non sono dipendenti l’una dall’altra.
Supponiamo ci interessi valutare la classe di reddito 2: abbiamo notato che 4 femmine sono in questa
classe e lo stesso numero di maschi. Cosa concludiamo? A prima vista sembra che lo stesso dato sia
presente nella stessa quantità in entrambe le classi di genere.
Abbiamo in realtà osservato numericamente più maschi che femmine, quindi è sbagliato dire che c’è la
stessa quota di maschi e femmine in questa classe di reddito. Usare le frequenze assolute e sbagliato, nei
gruppi che numericamente sono diversi. Occorreva fare le frequenze relative.
X / y Y1 Y2 … yc
X1 F11 F12 … F1c R1
X2 F21 F22 … F2c R2
… … .. … … ...
Xr Fr1 Fr2 … Frcc Rr
C1 C2 … cc N
Fij (frequenza generica assoluta congiunta per la riga i-esima della x e per la colonna j-esima della y) =
= Freq{X = xi ; Y = yi}
i = 1, …. , r
j = 1, …. , c
Es: (continua)
1 2 3 Somma
F 1 / 6 = 0.1667 4 / 6 = 0.6667 1 / 6 = 0.1667 1
M 1 / 9 = 0.1111 4 / 9 = 0.4444 1 / 9 = 0.4444 1
Freq{Y = yj | X = xi} =
Nell’esempio sopra, essendo le distribuzioni subordinate della classe di reddito diverse tra maschi e
femmine: abbiamo osservato una dipendenza tra il reddito (Y) e il genere (X).
Income class / Euro [5; 15) [15; 30) [30; 40) [40; 70) [70; 140]
spesi
1 0 0 1 0 1 2
2 1 2 2 2 1 8
3 1 2 1 1 0 5
2 4 5 3 2
Poiché le distribuzioni subordinate non sono uguali fra loro al variare della classe di reddito, concludiamo
che abbiamo osservato un qualche tipo di dipendenza tra le variabili.
Le classi minori sono più propense a spendere di piu, mentre le classi più alte sono propense a spendere di
meno.
Non c’è una monotonia: all’aumentare del reddito non aumenta l’ammontare speso.
Esempio:
Da una prima analisi, si vede che sono stati ammessi più maschi rispetto al totale, rispetto alle femmine.
Economia
0.9= 90%
Legge
Situazione in cui i risultati ottenuti utilizzando dati aggregati e disaggregati non corrispondono
Ma questa relazione che noi otteniamo non tiene conto di una altra informazione importante, relativa alla
facoltà (chiamate appunto variabili di confusione), che invece porta risultati diversi.
Abbiamo notato che è molto più facile essere ammessi ad economia che a legge.
Il paradosso è una situazione che si verifica molto nella pratica, ma è difficile da scoprire, occorre una
raccolta molto approfondita dei dati.
Caso due: variabile numerica Vs numerica
tra le variabili
Se invece i punti seguono un certo andamento come nell’esempio sopra, allora esiste una relazione
tra le variabili
- Il grafico ci permette valutare il tipo di relazione? Cioè se la relazione è lineare o non lineare (es:
curvilinea)?
- Indice di covarianza
- Indice di correlazione lineare
- Covarianza:
o Popolazione:
o Campione:
Nel quadrante II sarà positiva la deviazione sull’asse verticale, mentre sarà negativa quella sull’asse
negativa; quindi, il prodotto delle due deviazioni è negativo; perciò, i punti contribuiscono a far diminuire la
covarianza.
Nel quadrante IV, sarà positiva la deviazione sull’asse orizzontale, mentre sarà negativa quella sull’asse
verticale; quindi, il prodotto delle due deviazioni è negativo; perciò, i punti contribuiscono a far diminuire la
covarianza.
- La covarianza è positiva, quando indica che la relazione tra le nostre due variabili è di tipo crescente
(mediamente), perché i punti si concentrano nei quadranti I e III.
- In una situazione in cui il grafico mostra una situazione mediamente decrescente, la maggioranza
dei punti si concentra nei quadranti II e IV, quindi la varianza verrà fuori negativa.
- Popolazione:
- Campione:
1)La covarianza ha un’unità di misura, cioè il prodotto delle unità di misura delle due variabili x e y (che
possono essere anche diverse). Questo è uno svantaggio della covarianza, perché c’è il rischio di trovare un
risultato difficile da interpretare.
2)La covarianza è un indice simmetrico, rispetto alle due variabili, cioè se scambio l’ordine delle due
variabili nella formula, trovo sempre lo stesso risultato
3)La covarianza tra una variabile e sé stessa è uguale alla varianza della variabile x
4)La covarianza non è invariante, rispetto a cambi nella scala con cui si misurano le due variabili
- Date due variabili x e y, con covarianza si considerino le seguenti trasformazioni delle due
variabili
Z=c+d*Y
Y = numero dipendenti
La variabile Z = c + d * Y = Y
Nessuna relazione tra le variabili implica una covarianza che si avvicina allo 0, ma non è vero il contrario
(covarianza che si avvicina allo zero, non implica assenza di relazione tra variabili, ma può implicare anche
una relazione non lineare forte tra le variabili).
Esempio: n = 15
X = n items
Y = euro spesi
Covarianza positiva
(n items)
(euro)
(n items * euro)
Es2: n = 15
X = età
Y = euro spesi
Cosa succede se cancelliamo gli outlier?
La covarianza diventa un numero negativo, quindi questo significa che la covarianza è fortemente
influenzata dagli outlier
Popolazione:
Campione:
- Non ha unità d misura (adimensionale), perciò permette di confrontare indici con coppie diverse di
variabili
- Ovvero
Più la relazione è forte, più l’indice è vicino agli estremi, mentre più la relazione è debole, più
l’indice si avvicina a 0.
Nessuna relazione tra le variabili implica un indice che si avvicina allo 0, ma non è vero il contrario
(indice che si avvicina allo zero, non implica assenza di relazione tra variabili, ma può implicare
anche altre relazioni, come una relazione non lineare forte tra le variabili).
Es:
1)indice simmetrico:
n = 15
X = n items
Y = euro spesi
Esempio2: n = 15
X = età
Y = euro spesi
Le relazioni lineari
Significa determinare l’equazione della retta “migliore” che descrive la relazione osservata tra le due
variabili rilevate.
yi = b0 + b1 * xi * ei
i = 1, 2, …, n
Metodo per calcolare i valori ottimali di b0 e b1 è il metodo dei minimi quadrati
Si cercano i valori di b0 e b1, in corrispondenza dei quali risulta minima la somma dei residui al quadrato.
Esempio: n = 15
Y = euro spesi
X = n items
Interpretazione
b0 = 2.8333 euro = valore previsto in una singola visita in corrispondenza di un numero di articoli acquistati
pari a zero.
Utilizzando la retta appena calcolata, si fornisca una previsione dell’ammontare speso in una singola visita
da ognuno dei seguenti potenziali clienti:
Cliente 1 =>
Cliente 2 =>
Previsioni:
Cliente 1 =>
Cliente 2 =>
Cliente 3 =>