Sei sulla pagina 1di 50

Stimo 58 pagine

Statistica

Definizioni

Popolazione: l'insieme di tutte le unità statistiche che sono oggetto di interesse di studio

Unità statistiche: soggetto della nostra indagine, come aziende, persone, ecc…

Il problema è che solitamente le popolazioni sono estremamente grandi; quindi, è impossibile raccogliere
informazioni su tutte le singole unità; perciò, occorre selezionare un sottoinsieme di unità, e raccogliamo i
dati solo su quelle unità che poi verranno analizzati.

Campione: sottoinsieme di unità statistiche estratte dalla popolazione di riferimento. Generalmente sono
molto più piccoli della popolazione di riferimento.

N = Unità della popolazione

n = dimensioni del campione

A volte la popolazione è così grande che si ipotizza sia infinita.

Parametro: caratteristica, di solito non nota, di una popolazione

Statistica: calcolato sulla base dei dati relativi al campione, è un’approssimazione del vero valore del
parametro relativo alla popolazione (che però non sarà mai disponibile completamente)

Un campione è rappresentativo quando rispecchia in piccolo la maggioranza delle caratteristiche della


popolazione a cui si riferisce.

Campionamento semplice: metodologia di estrazione delle unità statistiche dalla popolazione, in modo che
ogni unità nella popolazione ha la stessa probabilità di poter essere estratta.

Bias = distorsioni

Le tecniche statistiche si dividono in due sottocategorie: metodi descrittivi e metodi di statistiche


inferenziali

Sintesi dei dati:

grafici, tabelle indici

Statistica univariata (una variabile) bivariata (due variabili) multivariate (più variabili)

Data set: insieme di dati o tabella di dati

Ogni riga corrisponde a un’unità di statistiche (quindi ogni riga corrisponde ad ogni interdistato)
Le variabili statistiche sono nelle colonne. Una variabile una colonna

VARIABILI INFORMAZIONI RACCOLTE DALLE UNITÀ STATISTICHE

Tipologie di data set: ce ne sono di tre tipi diversi

Selezionali (cross-section)

Serie storiche (time series): consistono nella raccolta di variabili in diversi istanti di tempo

Longitudinali (panel): ripeto da rilevazione a intervalli tempo successivi. Questi impilano i dati relativi ai
diversi istanti di tempo uno sotto l’altro. Sono quelli più ricchi di informazioni

Quali variabili si possono trovare sulle colonne?

Tipologie di variabili

1)Contenuto: le variabili si distinguono in:

a) variabili numeriche: quando i valori rilevati sono numeri effettivi

i)Variabili numeriche discrete: quando i valori che abbiamo osservato sono il insultato di un’operazione
di conteggio. Di solito assumono valori interi

ii)Variabili numeriche continue: quando i valori sono il risultato di un processo di misurazione (misurata
una quantità con uno strumento fisico o una valuta, tempo, ecc)

b) variabili categoriche: quando i valori rilevati sono etichette per i soggetti

2)Livello di misurazione

a)Variabili qualitative: quando esprime una qualita, caratteristica.

i)Qualitative nominali: le etichette osservate non possono essere ordinate fra di loro in una gerarchia

ii)Qualitative ordinali: le etichette sono ordinate secondo un ordinamento intrinseco alla variabile

b)Variabili quantitative:

i)Variabili misurate a livello di intervallo: sono variabili la cui scala ha origine arbitraria (misurazione
della temperatura)

ii)Variabili misurate a livello di rapporto: sono quelle che invece sono misurate in una scala in cui zero è
assoluto, è certo

Le variabili misurate a intervallo sono piuttosto rare, è una classificazione che nella pratica non si trova

Age Gender Income class N. Items on last Euros spent on


purchase purchase
35 M 2 1 15
22 M 1 3 35
41 F 3 4 43
26 F 2 3 30
34 M 3 2 20
75 F 2 5 90
50 F 1 11 132
26 F 2 4 66
31 F 2 3 42
51 M 3 2 24
33 M 2 1 33
45 M 3 2 32
41 M 3 1 8
32 M 2 1 12
28 M 2 2 18

27/09/21

Esercizio: determinare che tipo di variabili sono le colonne della tabella

Genere: categorica qualitativa nominale

Classe di reddito: categorica qualitativa ordinale

Beni presi nello scorso acquisto: numerica discreta quantitativa misurata a livello di rapporto

Euro spesi nello scorso acquisto: numerica continua quantitativa misurata a livello di rapporto

Età: numerica quantitativa, ma è discreta o continua? Se la considero discreta, noto che tutte le età sono
diverse tra di loro, quindi otterrei una sintesi poco utile dalla successiva analisi. Quindi è da considerare
continua.

Statistica descrittiva univariata.

Vedi tabella sopra

1)Variabili categoriche Qualitative nominali: genere

Cosa si può fare per sintetizzare? Possiamo contare quante volte abbiamo osservato una delle categorie

Distribuzione delle frequenze

Genere (nome variabile) Frequenze assolute (numero di Frequenze relative (frequenze


Indicate anche come x1, x2, …xk volte con cui abbiamo osservato assolute divise per il totale del
k = numero diverse categorie di le etichette) campione)
variabili Indicate anche come fi Indicate come pi = fi/n
0 < pi < 1
M 9 9/15= 0.6 oppure 60%
F 6 6/15= 0.4 oppure 40%

Proprietà algebriche delle quantità

Somma delle frequenze assolute uguale a numero campioni

Somma frequenze relative uguale a 1 o uguale a 100%

Quale sarebbe la rappresentazione grafica corretta?

Diagramma a torta
Passiamo alla variabile della classe di reddito (Income class)

2)Variabili categoriche Qualitative ordinali

Cambia il fatto che dobbiamo tenere conto del fatto che si possono ordinare.

Es : x = “income class”

Classe di reddito Frequenze assolute Frequenze relative


1 2 2/15 = 0,13333 = 13%
2 8 8/15 = 0,53333 = 53%
3 5 5/15 = 0,33333 = 33%
Dobbiamo usare ALMENO 4 decimali

Per rappresentare, Diagramma a barre

La classe di reddito più frequente è la seconda, mentre quella meno frequente è la prima.

In alcuni contesti è possibile usare un diagramma di Pareto, che consente di separare ed evidenziare le
cause più frequenti e più rilevanti di difettosità da quelle meno rilevanti e meno frequenti.

Es: n = 400 prodotti difettosi

Dati grezzi = dati individuati su ogni individuo

Un grafico invece riporta già una sintesi dei dati grezzi, e non più tutti i dati grezzi, con dati già raggruppati

Difetto Numero prodotti


Saldatura 34
Cattivo allineamento 223
Parte mancante 25
Difetto di colore 78
Cortocircuito durante 19
assemblamento
Cassa incrinata 21

Difetto Numero prodotti Frequenza relativa Frequenze relative


cumulate
C. A. 223 0,5575 0,5575
C. 78 0,1550 0,7525
S. 34 0,0850 0,8375
P.M. 25 0,0625 0,9000
Cassa incrinata 21 0,0525 0,9525
Cortocircuito 19 0,0475 1

3)Variabili numeriche discrete

Es: numero beni acquistati

Numero beni Frequenza assoluta Frequenza relativa Frequenze cumulate


1 4 4/15 = 0.2667 0.2667
2 4 4/15 = 0.2667 0.2667 + 0.2667 =
0.5333
3 3 3/15 = 0.2 0.7333
4 2 2/15 = 0.1333 0.8666
5 1 1/15 = 0.0667 0.9333
11 1 1/15 = 0.0667 1

Utilizziamo Diagramma a nastri


Grafico frequenze cumulate

Funzioni cumulativa delle frequenze (o di ripartizione)

F(x) = Freq{X x} , x appartiene ad R e occorre determinarla per tutti i valori sull’asse orizzontale dei
numeri

F(2) = 0.5333 frequenza cumulativa al livello di 2

Questo è un modo alternativo per rappresentare le nostre frequenze, che siano assolute, relative, o
cumulate. Le frequenze cumulative sono equivalenti a quelle relative, ma in alcuni calcoli, sarà più comodo
usare una o l’altra.

Quanti individui hanno acquistato numero di beni minore di 15? 100%

Questo grafico non decresce mai. Può solo aumentare. Perciò la funzione di frequenza cumulativa non è
MAI decrescente.

Questo grafico è a gradini, quando abbiamo una variabile numerica discreta.

F(x) =

F(3.2) = ? = 0.7333

Freq{ a < x ≤ b } = F(b) – F(a)


Es: (continua)

Freq{ 3 < n items ≤ 10 } = F(10) – F(3) = 0.9333 – 0.7333 = 0.2 (=3/15)

Freq{ 3 ≤ n items ≤ 10 } = F(10) – F(3) + Freq{n items = 3} = 0.9333 – 0.7333 + 0.2 = 0.4

Regole generali per il calcolo delle frequenze, con la frequenza cumulativa (tutti i casi)

1)Se Freq{ a < x ≤ b } = F(b) – F(a)

2)Se freq{ a ≤ x ≤ b } = F(b) – F(a) + Freq{x = a}

3)Freq{ a ≤ x < b } =F(b) – F(a) + Freq{x = a} – Freq{x = b}

4)Freq{ a < x < b } = F(b) – F(a) – Freq{x = b}

5)Freq{ x > a } = 1 – F(a)

6)Freq{ x ≥ a } = 1 – F(a) + Freq{x=a}

7)Freq{ x < b } = F(b) – Freq{x = b}

Ulteriore rappresentazione grafica

4)Variabile numerica continua

Es: x = euro spesi

Costruzione distribuzione frequenze, la quale se seguissimo l’approccio precedente, richiederebbe i


seguenti passaggi: ordinare i valori delle variabili in ordine crescente.

Euro spesi Frequenze assolute


8 1
12 1
15 1
…. …
90 1
132 1

Tutti i dati hanno una frequenza assoluta di 1, perciò le righe della tabella saranno 15 come i dati. Quindi
abbiamo sintetizzato qualcosa? No, abbiamo solo riordinato di dati in ordine crescente. Perciò quando
abbiamo di fronte una variabile continua, questo approccio di sintesi non va bene, perché non ha uno
scopo. Bisogna seguire un'altra strada per sintetizzare.

Qual è la probabilità di osservare un valore per l’ammontare speso che è di 17,2 euro? Quasi pari a 0,
perché di possibili valori ce ne sono talmente tanti; perciò, trovare due o più volte lo stesso identico valore
più di una volta, è altamente improbabile, per cui questo problema di una tabellina, che ha troppe righe, è
inutile.
Occorre qui di usare le classi. Queste purtroppo non possono essere definite in modo univoco. La scelta di
queste è totalmente soggettiva, a discrezione di chi fa le analisi. Alcune raggiungono di più gli obiettivi di
sintesi rispetto ad altre, ma non c’è una classe corretta.

Possibili strade da prendere per scegliere le classi:

1) Scegliere classi di uguale ampiezza: la conseguenza è che occorre scegliere anche quante classi.
Anche questa scelta è soggettiva, anche se le classi devono soddisfare dei requisiti:
 le classi non possono sovrapporsi;
 le classi tutte insieme devono coprire tutti i valori osservati nel data set;

Come scegliere il numero delle classi? Bisogna sintetizzare adeguatamente, né troppo estrema, né
troppo lunga. Dev’essere tale da ottenere una rappresentazione ragionevole dei dati.

Più dati abbiamo, più siamo autorizzati ad usare più classi.

Es: (continua) k = 5 classi di uguale ampiezza

k sono le classi

w = ampiezza di ciascuna classe. Come si calcola? =

Ma spesso per facilitare i conti si arrotonda, sempre per eccesso. Quindi l’ampiezza delle classi è di
25.

Euro spesi Frequenza assoluta Frequenza relativa


[8; 33) 8 8/15 = 0.5333
[33; 58) 4 4/15 = 0.2667
[58; 83) 1 1/15 = 0.0667
[83; 108) 1 1/15 = 0.0667
[108; 132] 1 1/15 = 0.0667
2) Classi di diversa ampiezza: purtroppo non solo bisogna scegliere il numero delle classi, ma
l’ampiezza di ogni classe. È una strada che richiede un intervento più significativo da parte di chi ha
fatto l’analisi, sempre nel rispetto dei requisiti che devono avere le classi.
Es: (continua)
Scegliamo di usare le seguenti classi:
[5, 15) ; [15, 30) ; [30, 40) ; [40, 70) ; [70, 140]

Euro spesi Frequenza assoluta Frequenza relativa


[5; 15) 2 2/15 = 0.1333
[15; 30) 4 4/15 = 0.2667
[30; 40) 4 4/15 = 0.2667
[40; 70) 3 3/15 = 0.2
[70; 140] 2 2/15 = 0.1333

Non va bene fare l’istogramma in questo caso, perché se riportassi le frequenze relative, starei
dando un’informazione fuorviante, perché per esempio la prima e l’ultima classe, hanno la stessa
frequenza, ma la domanda è: quelle due classi stanno dando davvero le stesse informazioni? No,
perché hanno diversa ampiezza. Sarebbe quindi sbagliato concludere che le stesse classi hanno la
colonna lunga uguale nell’istogramma e quindi le stesse informazioni, perché non sono ugualmente
informative.

Perciò bisogna aggiungere due colonne nella tabella:

Euro spesi Frequenza assoluta Frequenza relativa Ampiezza Densità di


(pi) classi (wi) frequenza
(Ci = pi/wi)
[5; 15) 2 2/15 = 0.1333 10 0.1333/10 =
0.0133
[15; 30) 4 4/15 = 0.2667 15 0.2667/15 =
0.0178
[30; 40) 4 4/15 = 0.2667 10 0.2667/10 =
0.0267
[40; 70) 3 3/15 = 0.2 30 0.2/30 =
0.0067
[70; 140] 2 2/15 = 0.1333 70 0.1333/70 =
0.0019

Dalla tabella, emerge che la prima classe è chiaramente più densa dell’ultima classe, nonostante
abbiano la stessa frequenza. Quindi la densità tiene conto del fatto che le informazioni sono
spalmate in un intervallo più o meno ampio.

Ora rappresenteremo nell’istogramma non più le frequenze relative, ma le densità.


L’area (uguale alla frequenza relativa), indica la percentuale di osservazioni presenti in una classe.

La quarta classe contiene il 20% delle osservazioni.

Quali informazioni stiamo perdendo nell’istogramma? Il modo con qui i valori sono distribuiti
all’interno di ogni classe. Nell’istogramma, infatti ipotizzo implicitamente in ogni classe che i miei
valori siano distribuiti in modo uniforme, perché sto utilizzando una riga orizzontale. Questo implica
una crescita costante della frequenza.

Però almeno abbiamo capito la densità di ogni classe e che i valori più grandi osservati, si verificano
poco frequentemente.

Cosa possiamo fare quindi?

Freq {30 ≤ x ≤ 55} = ?

Quello che possiamo fare è andare a vedere i nostri dati grezzi e andare a contare quante
osservazioni cadono in questo range.

Ma per fare un conto rapido, potremmo basarci sull’istogramma, andando a prendere i due estremi
nell’istogramma. Come calcolo la frequenza? Le aree corrispondono alle frequenze relative, perciò
vado a sommare le aree che corrispondo ai rettangoli coinvolti da questo intervallo.

Abbiamo coinvolta tutta la terza classe e metà della quarta.

Quindi Freq {30 ≤ x ≤ 55} = 0.2667 + 0.2/2 = 0.3667


Calcolo frequenza cumulata

Euro spesi Frequenza Frequenza Ampiezza Densità di Frequenze


assoluta relativa (pi) classi (wi) frequenza cumulate
(Ci = pi/wi)
[5; 15) 2 2/15 = 0.1333 10 0.1333/10 = 0.1333
0.0133
[15; 30) 4 4/15 = 0.2667 15 0.2667/15 = 0.1333 + 0.2667 =
0.0178 0.4
[30; 40) 4 4/15 = 0.2667 10 0.2667/10 = 0.4 + 0.2667 =
0.0267 0.6667
[40; 70) 3 3/15 = 0.2 30 0.2/30 = 0.0067 0.6667 + 0.2 =
0.8667
[70; 140] 2 2/15 = 0.1333 70 0.1333/70 = 0.8667 + 0.1333 =
0.0019 1

Ora dobbiamo far diventare una funzione questi 5 numeri, perché si riferiscono solo alla fine della
classe, ma cosa ci sta in mezzo?

Funzione cumulativa frequenze

a) È crescente.

b) I gli spazi tra i vari corrispondono alla frequenza relativa delle varie classi.

c) Perché abbiamo

F(x) = Freq{X ≤ x}
Come mai le rette cerchiate hanno inclinazioni diverse? L’inclinazione di ognuno di questi tratti
corrisponde alla densità di frequenza.

La terza classe ha il tratto più ripido perché è la più densa.

F(x) = Freq{X ≤ x}

Espressione analitica completa della funzione cumulativa delle frequenze

F(x) =

Freq{ 32 < x ≤ 78} = F(78) – F(32) = [(0.8667 + 0.0019)(78 – 70)] – [(0.4 + 0.0267)(32 – 30)] = 0.8819
– 0.4534 =

Approccio con le aree (che funziona con numeri semplici, ma con numeri complessi come 78, fare la
proporzione con l’area potrebbe diventare non semplice; un altro modo è utilizzare la frequenza
cumulativa)

La F{a < x ≤ b} = F(b) – F(a)

Freq{a ≤ x ≤ b} = “

Freq{a ≤ x < b} = “

Freq{a < x < b} = “

Freq{x > a} = Freq{x ≥ a} = 1 – F(a)

Nell’ambito delle analisi descrittive, abbiamo a disposizione delle tabelle per le descrizioni, abbiamo
grafici, e abbiamo gli indici di sintesi delle osservazioni e dei dati.

Gli indici di sintesi univariati


Questi sono molto importanti e utili, perché daranno una sintesi precisa dei valori.

 Indici di tendenza o di posizione centrale


o Moda:
o Media:
o Mediana:
 Indici di forma:
o Quartili:
o Percentili:
 Indici di variabilità o di dispersione:
o Range:
o Differenza interquartile:
o Varianza:
o Deviazione standard:
o Coefficiente di variazione:

Perché servono?

Perché questi indici ci informano su caratteristiche diverse sui nostri dati. Quelli centrali indicano dove la
distribuzione è centrata.

Le due distribuzioni hanno gli stessi valori per gli indici di posizione centrale, ma hanno delle differenze,
perciò non ci si può fermare solo a questo indice, per cogliere altre differenze.

Infatti, se calcoliamo gli indici di dispersione, notiamo che il primo è meno dispersivo.

Indici di posizione centrale (cosa sono e come si calcolano):

 Moda: è definito come il valore che è stato osservato più frequentemente nella distribuzione,
anche se la regola di calcolo cambia in base al formato dei dati;
Es: genere

Gender Frequenza assoluta Frequenza relativa


F 6 6/15 = 0.4
M 9 9/15 = 0.6
15 1

Moda: M (ci sono più maschi che femmine)

Es 2: classe di reddito

Classe di reddito Frequenza assoluta Frequenza relativa


1 2 0.1333
2 8 0.5333
3 5 0.3333
Moda: 2
Nel caso delle numeriche continue, spesso succede che abbiamo osservato i valori più frequenti,
quindi non serve andare a vedere la moda
Es 3: numeriche continue (classi) la moda corrisponde al punto centrale della classe con la densità
più alta

La moda è un indice molto semplice, ma è l’unico tra tutti gli indici che si può calcolare anche per le
variabili categoriche. Tutti gli altri indici si calcolano solo per le numeriche, perchè richiedono un
calcolo algebrico.
La moda può non essere unica (nelle distribuzioni multimodali)
Ci sono casi in cui la distribuzione ha tutti i valori osservati con la stessa frequenza, quindi a quel
punto la moda non esiste (distribuzione uniforme).

 Media (media aritmetica semplice):


o Con di dati in forma grezza, la media la calcoliamo nel seguente modo:
 Popolazione (intera popolazione): =

 Campione (una parte di popolazione):

Il calcolo è lo stesso (somma dei valori dei dati diviso per il numero dei dati), la notazione è
diversa.

Es: (continuo)

X = n articoli acquistati (da un CAMPIONE)

(1 + 3 + 4 + … + 1 + 2) = 3 (in media questi soggetti hanno acquistato 3 articoli)

Proprietà della media:

a) Ha la stessa unità di misura della variabile a cui si riferisce


b) La somma degli scarti dei valori delle osservazioni dalla propria media è sempre uguale
a zero

Dimostrazione:

c) La media è il valore che rende minima la somma degli scarti al quadrato delle
osservazioni dalla propria media
Ogni dato ha il proprio scarto dalla media
Gli scarti relativi all’osservazione a sinistra della media, sono scarti negativi, mentre quelli a
destra sono positivi.

Il valore di a, che rende minima questa somma degli scarti al quadrato, è quello della media
aritmetica semplice.
d) La media aritmetica è influenzata pesantemente dai valori anomali (outlier)

 Nel caso di dati raggruppati


Popolazione:

Somma di ogni dato moltiplicato per la propria frequenza relativa, oppure uno fratto unità
della popolazione moltiplicato per la somma dei dati moltiplicati per la loro frequenza
assoluta.

Campione:

Stesso calcolo

Es: x = n items

N items fj Pj
1 4 0.2667
2 4 0.2667
3 3 0.2
4 2 0.1333
5 1 0.0667
11 1 0.0667

1 ∙ 0.2667 + 2 ∙ 0.2667 + 3 ∙ 0.2 + 4 ∙ 0.1333 + 5 ∙ 0.0667 + 11 ∙ 0.0667

 Dati raggruppati per classi (variabili continue divise per classi)

Popolazione

Sommare i punti medi di ciascuna classe moltiplicati per la propria frequenza relativa

Campione

Es: x = euro spesi

Euro spesi fj pj mj
[5; 15) 2 0.1333 10
[15; 30) 4 0.2667 22.5
[30; 40) 4 0.2667 35
[40; 70) 3 0.2 55
[70; 140] 2 0.1333 105

Per trovare il punto medio di ogni classe, basta fare la media tra i due estremi.
Media: 10 ∙ 0.1333 + 22.5 ∙ 0.2667 + 35 ∙ 0.2667 + 55 ∙ 0.2 + 105 ∙ 0.1333 = 41.6667 euro

 Media aritmetica ponderata:

Popolazione:

Si calcola sommando i valori moltiplicati per i valori dei loro pesi, divisi per la somma dei pesi stessi.
Questo per tener conto del fatto che ogni valore ha un peso diverso.

Campione:

Stesso calcolo

 Mediana: è il valore che divide in due parti uguali la distribuzione osservata.

50% 50%
Min Max

 Calcolo mediana Nel caso di dati grezzi:


1) Ordinare i valori in senso crescente;
2) Calcolare la posizione del valore della mediana all’interno di quella sede ordinata;

Posizione mediana:

3) Calcolare la posizione mediana:


Se n è dispari, il risultato è un numero intero;
Se pari, è un numero decimale;

ES: x = n items

1) 1 1 1 1 2 2 2 2 3 3 3 4 4 5 11
2) Calcolo posizione mediana = 8
3) Mediana: n dispari. La mediana corrisponde al valore nella posizione 8, quindi a 2

ES: euro spesi


1) 8 12 15 18 20 24 30 32 33 35 42 43 66 90 132
2) Calcolo posizione mediana = 8
3) Mediana = 32

Nel caso di posizione decimale, calcolo la media tra i valori dove la posizione sta in mezzo.

Nel caso di posizione 7.5, calcolo la media dei valori tra la posizione 7 e 8.

 Calcolo nel caso di dati raggruppati:


Es: x = n items

N items fj Pj Fj (frequenze
cumulate)
1 4 0.2667 0.2667
2 4 0.2667 0.5333
3 3 0.2 0.7333
4 2 0.1333 0.8667
5 1 0.0667 0.9333
11 1 0.0667 1

La mediana è il primo valore sull’asse orizzontale, per cui la funzione cumulativa vale per la
prima volta almeno 0.5

La mediana è 2, perché a quel livello la frequenza cumulativa vale almeno 0.5

A volte può capitare che ci sia una frequenza cumulata che corrisponda esattamente a 0.5.
In quel caso, si usa convenzionalmente come mediana il valore centrale, perciò
nell’esempio precedente sarebbe 2.5.

 Dati raggruppati in classi


Es: x = euro spesi

Euro spesi fj pj Wj Ci Fj
[5; 15) 2 0.1333 10 0.0133 0.1333
[15; 30) 4 0.2667 15 0.0178 0.4
[30; 40) 4 0.2667 10 0.0267 0.6667
[40; 70) 3 0.2 30 0.0067 0.8667
[70; 140] 2 0.1333 70 0.0019 1

Frequenza cumulata seconda classe + frequenza relativa terza classe ∙ (mediana – estremo
minimo = 0.5

0.4 + 0.0267 ∙ (Mediana – 30) = 0.5 = 33,7453

0.0267 ∙ (Mediana – 30) = 0.5–0.4

0.5 – 0.4
(Mediana – 30) =
0.0267
0.5 – 0.4
Mediana = + 30
0.0267
La mediana non può essere più piccola di 30, perché altrimenti ci troveremmo nella classe
precedente; quindi, bisogna verificare quindi che si trovi nell’intervallo della classe [30; 40)

La mediana dovrà rispecchiare la stessa proporzione di 0.5 sull’asse verticale. 0.5 e più
vicino a 0.4 che a 0.6667, perciò dev’essere più vicino a 30 che a 40

Abbastanza informazioni permettono almeno di approssimare il risultato.

Proprietà della mediana

a) La mediana ha un’unità di misura che corrisponde a quella della variabile;


b) A differenza della media la quale è influenzata in maniera significativa dai dati estremi anomali
(outlier), la mediana è poco o non influenzata proprio da questi dati (è molto più robusta,
rispetto alla presenza degli outlier):
c) Il confronto di media e mediana, fornisce una prima valutazione della simmetria della
distribuzione (la mediana va calcolata insieme alla media).
Se media e mediana sono uguali, la distribuzione è simmetrica (caso raro, succede quando i
valori sono tutti continui); Se la media invece è più grande della mediana, vuol dire che tra i
nostri valori, ci sarà almeno un valore estremo per il quale la media ne risulta influenzata e
attratta verso quel valore (distribuzione asimmetrica a destra); Se invece la media è minore
della mediana (distribuzione asimmetrica a sinistra), ci saranno valori estremi piccoli che
attraggono la media verso quella direzione.
Distribuzione simmetrica

Distribuzione asimmetrica a destra

Distribuzione asimmetrica a sinistra


Indici di forma

- Quartili: valori che dividono in quattro parti uguali la distribuzione

25% 50% 75% 100%


Min 1° quartile (2° quartile) 3° quartile Max

o Dati grezzi
1) Ordinare i dati in senso crescente
2) Si calcola la posizione dei due quartili
Posizione 1° quartile =
Posizione 3° quartile =
3) Calcolare i quartili come segue:
Se le posizioni sono intere (x.0), allora i quartili sono valori con quella posizione.
Se le posizioni sono numeri frazionari (x.5), lo risolviamo come la mediana (prendo il
valore prima e il valore dopo e faccio la media)
Se le posizioni sono x.25 o x.75, arrotondiamo le posizioni all’intero più vicino

ES: x = n items

1) 1 1 1 1 2 2 2 2 3 3 3 4 4 5 11
2) Posizione primo quartile = 4.0
Posizione terzo quartile = 12.0
3) Primo quartile = 1 (quarta posizione)
Terzo quartile = 4 (dodicesima posizione)

ES: x = euro spesi

1) 8 12 15 18 20 24 30 32 33 35 42 43 66 90 132
2) Posizione primo quartile = 4.0
Posizione terzo quartile = 12.0
3) Primo quartile = 18 (quarta posizione)
Terzo quartile = 43 (dodicesima posizione)

o Dati raggruppati
Es: x = n items

N items fj Pj Fj (frequenze
cumulate)
1 4 0.2667 0.2667
2 4 0.2667 0.5333
3 3 0.2 0.7333
4 2 0.1333 0.8667
5 1 0.0667 0.9333
11 1 0.0667 1

o Dati raggruppati per classe


Es: x = euro spesi

Euro fj pj Wi Ci Fi
spesi
[5; 15) 2 2/15= 0.1333 10 0.1333 : 10 = 0.0133 0.1333
[15; 30) 4 4/15= 0.2667 15 0.2667 : 15 = 0.0178 0.4
[30; 40) 4 4/15= 0.2667 10 0.2667 : 10 = 0.0267 0.6667
[40; 70) 3 3/15= 0.2 30 0.2 : 30 = 0.0067 0.8667
[70; 140] 2 2/15= 0.1333 70 0.1333 : 70 = 0.0019 1
Primo quartile = seconda classe

Fi prima classe + Ci seconda classe (Q1 – min seconda classe) = 0.25

0.1333 + 0.0178(Q1 – 15) = 0.25

Terzo quartile = quarta classe

Fi terza classe + Ci quarta classe (Q3 – min quarta classe) = 0.75


0.6667 + 0.0067(Q3 – 40) = 0.75

Questi dati sono approssimativi, per la soggettività delle classi.

Box-whisker plot

In questo grafico vengono riportati anche i quartili e servirà per valutare l’asimmetria della distribuzione.

È un grafico molto semplice che può essere riprodotto sia in orizzontale, sia in verticale

Perché è utile per valutare la simmetria di una distribuzione?

Es:

Se le due parti del box sono speculari, allora distribuzione simmetrica

Si avrà quando

Q1 – min = max – Q3

Mediana – Q1 = Q3 - Mediana

Se invece
Distribuzione asimmetrica a destra o positiva

Q1 – min < max – Q3

Mediana – Q1 < Q3 – mediana

Se invece

Asimmetria a sinistra o negativa

Q1 – min > Max – Q3

Mediana – Q1 > Q3 – mediana

Ma se abbiamo:

Ci sono casi in cui dal grafico solamente, non si riesce a trarre una conclusione definitiva sull’asimmetria,
perché ha un’asimmetria mista.

Dovremmo calcolare degli indici di asimmetria (che non vedremo).

Es : n items

N items fj Pj Fj (frequenze
cumulate)
1 4 0.2667 0.2667
2 4 0.2667 0.5333
3 3 0.2 0.7333
4 2 0.1333 0.8667
5 1 0.0667 0.9333
11 1 0.0667 1

Min = 1

Max = 11

Mediana = 2

Q1= 1
Q3 = 4

Es: euro spesi

Min = 8

Max = 132

Q1 = 18

Q3 = 43

Mediana = 32

Caso misto

Oltre che per la valutazione della simmetria, l box-plot, consente anche di identificare la presenza di outlier
(valori estremi).
Passaggi per farlo

1)Calcolo differenza inter quartile = Q3 – Q1

2)

3)CALCOLO PER DETERMINARE DUE SOGLIE = limite inferiore e limite superiore

Limite inferiore = Q1 –

Limite superiore = Q3 +

4)Le osservazioni che cadono al di fuori dell’intervallo del limite superiore e inferiore, sono da considerarsi
outlier

Es: n items

Min = 1

Q1 = 1

Mediana = 2

Q3 = 4

Max = 11

1)D.I. = Q3- Q1 = 4 – 1 = 3

2)

3) Limite inferiore

Limite superiore

4)Non ci sono outlier nella coda di sinistra della distribuzione

C’è un outlier nella coda di destra, perché 11 > limite superiore = 8.5

Es : euro spesi

Min = 8

Q1 = 18

Mediana = 32
Q3= 43

Max = 132

1)D.I. = 25

2) 1.5(25) = 37.5

3)Limite inferiore = 18 – 37.5 = -19.5

Limite superiore = 43 + 37.5 = 80.5

4)Non ci sono outlier a sinistra, ma ci sono outlier a destra: 90 , 132

2)Percentili = sono più dettagliati rispetto ai quartili, perché dividono la distribuzione in 100 fette, ciascuna
delle quali ottengono la stessa quantità di informazioni.

Ultima categoria di indici = indici di variabilità o dispersione


A cosa servono? Servono per capire quanto vicini e simili sono i nostri dati tra di loro o lontani tra di loro nel
senso che ci consentono di distinguere situazioni come quelle che sto rappresentando.
1)Range / campo di variazione

2)Differenza interquartile

3)Varianza

4)Deviazione standard

5)Coefficiente di variazione

1)Range: differenza tra valore massimo e minimo = Max – Min

- Vantaggi:

a. Facilità di calcolo e di interpretazione


-Svantaggi:
b. Non utilizza tutte e informazioni disponibili, ma solo i due valori delle
osservazioni.

c. Il range è fortissimamente influenzato dagli outlier. È un indice poco


robusto.

2)Differenza inter quartile = differenza tra il terzo e il primo quartile = Q3 – Q1

-Vantaggi:
a. È molto meno influenzato dagli outlier
b. facilità di calcolo
-Svantaggi
a. Non utilizza tutte le informazioni disponibili, ma solo il 50% centrale delle
osservazioni

3)Varianza: è la media degli scarti al quadrato, delle osservazioni della propria media

-Dati grezzi

-Popolazione:

-Campione:

Formule abbreviate

Popolazione =>
Campione =>

Es: n items (Dati grezzi)

n = 15

Formula abbreviata =

Es: età

n = 15

Somma delle età = 570

Somma al quadrato = 24188

Varianza campionaria =

Dati raggruppati

Popolazione =>

Campione =>

Somma degli x sottratti per la media al quadrato, moltiplicati per la frequenza relativa.

Formule abbreviate

Popolazione:

Campione:
Es: x = n items

N items Frequenza assoluta Frequenza relativa


1 4 0.2667
2 4 02667
3 3 0.2
4 2 0.1333
5 1 0.0667
11 1 00667

Dati raggruppati per classi

Popolazione:

Campione:

Formule abbreviate

Popolazione:

Campione:

Euro spesi Fj Pj Mj
[5; 15) 2 0.1333 10
[15; 30) 4 0.2667 22.5
[30; 40) 4 0.2667 35
[40; 70) 3 0.2 55
[70; 140] 2 0.1333 105
Svantaggi:

1)unità di misura di difficile interpretazione (ovvero il quadrato dell’unità di misura della variabile):
tra l’altro il fatto di prendere questi quadrati rende la varianza un numero che assume facilmente
valori grandi;

2)piuttosto sensibile agli outiler: tenendo conto del fatto che stiamo considerando dei quadrati, se
noi abbiamo un outlier, un valore molto distante dalla media, rendendolo al quadrato, esplode la
varianza;

Questi problemi si possono risolvere facilmente, con un altro indice strutturato come una radice
quadrata della varianza, il quale in parte, rimpicciolisce la scala dei numeri: questo indice si chiama
deviazione standard.

4)Deviazione standard (o scarto quadratico medio): radice quadrata della varianza, perciò presenta gli stessi
casi della varianza stessa.

Popolazione:

Campione:

L’unità di misura della deviazione standard è la stessa della variabile

Es: dati grezzi euro spesi

Indici di sintesi:

-Media

-Mediana

-Quartili

-Deviazione standard

Questi indici consentono di avere un’idea piuttosto completa di tutte le caratteristiche importanti di una
distribuzione. Questo è l’obiettivo della statistica descrittiva.

L’ultimo indice di variabilità è un po’particolare, perché non serve più di tanto per calcolare la variabilità di
una distribuzione, ma serve per confrontare la variabilità tra distribuzioni diverse.

Es : x1 = n items vs v2 = euro spesi

Due deviazioni di diversa unità di misura, non sono confrontabili per quanto riguarda la variabilità.

Perciò occorre introdurre un nuovo indice di nome:

5)Coefficiente di variazione: si calcola facendo la deviazione standard, per il valore assoluto della media

Popolazione:
è un numero adimensionale, cioè non ha unità di misura, perché
dividiamo due numeri che hanno la stessa unità di misura

Campione:

Es (continua)

X = items

X = euro spesi

A volte il coefficiente può essere espresso in percentuale, ma può non avere un’unità di misura.

Il coefficiente può essere maggiore di 1: dipende quanto è grande rispetto alla media. Non c’è un vincolo
teorico che faccia si che la deviazione sia minore o uguale alla media.

Disuguaglianza di Chebychev: per una popolazione con una qualsiasi distribuzione, con media e varianza, si
consideri un numero k > 1, allora la frequenza relativa con cui si possono osservare valori della variabile
compresi tra e dev’essere almeno pari a

In altri termini, vale che questo è il limite inferiore

Chebychev si applica solo ad intervalli simmetrici alla media

Questo risultato è interessante, perché vale per qualsiasi tipo di distribuzione presa in considerazione.

Esempio:

Valori diversi di k:

k 1.5 2 2.5 3
Limite inferiore 0.556 0.75 0.84 0.889
In percentuale 55.6% 75% 84% 88.9%

Supponiamo che la media = 10 e la deviazione = 2

Il valore è esatto o meno in base al tipo di distribuzione.

Se noi avessimo qualche informazione in più riguardo alla distribuzione, questo valore si può aggiustare,
tenendo conto delle maggiori informazioni che abbiamo sulla distribuzione.

In particolare, c’è un secondo e ultimo strumento analogo, che però non vale per qualsiasi distribuzione,
ma vale solo per un determinato tipo di distribuzione, che sarebbe:

la Regola empirica: per popolazioni di grandi dimensioni, con distribuzione campanulare, la frequenza
(approssimata) con cui si possono osservare valori in un intervallo del
Maggiore è l’intervallo, maggiore è la frequenza approssimata.

Secondo Chebychev, si chiede di calcolare con qui la variabile appartiene all'intervallo

{6; 14 }

Con la regola empirica, il risultato è più preciso, a costo però di andare a vedere il tipo di distribuzione di cui
stiamo parlando.

Il risultato corretto dipende dalle informazioni dell’esercizio. Dipende se l’esercizio specifica il tipo di
distribuzione o meno.

Statistica descrittiva bivariata


Quando due variabili vengono analizzate insieme.

Due variabili vanno esaminate insieme, se è utile capire se sono relazionate tra di loro e in che modo.

Il primo passo è capire il tipo di variabili che abbiamo di fronte. Ci possono essere 4 possibili scenari:

Variabile y
Categorica Numerica
Tabelle a doppia No
Categorica entrata, Diagramma
a barre
No Diagramma di
Variabile x
dispersione,
Numerica covarianza,
correlazione lineare,
Relazione lineare

Caso 1: categorica y Vs categorica x

Es: y = classe di reddito x = genere

Supponiamo che ci interessi verificare se la classe di reddito, dichiarata da questi intervistati, sia in qualche
modo legata dal genere degli intervistati.

La tabellina a doppia entrata, la costruiremo riportando i valori della x sulle righe

Gender-Income class 1 2 3 Frequenze assolute


marginali di x
F 1 4 1 6
M 1 4 4 9
Frequenze assolute 2 8 5 15 = n
marginali di y

Queste sono le frequenze assolute congiunte

Le somme delle righe sono le frequenze assolute marginali di x

Le somme delle colonne sono le frequenze assolute marginali di y

La somma delle frequenze è uguale al numero dei dati che stiamo considerando.

Noi vogliamo capire se la distribuzione della classe di reddito è uguale nei due gruppi di genere.

Ci possono essere due risultati:

- La distribuzione di y è la stessa all’interno delle diverse categorie della x: in questo caso diremo che
non c’è una dipendenza tra le variabili;
- La distribuzione di y è tanto o poco diversa all’interno delle diverse categorie della x: in questo caso
diremo che c’è una dipendenza tra le variabili;

Se la classe di reddito è ugualmente distribuita nelle due classi di genere, allora concluderemo che le due
variabili non sono dipendenti l’una dall’altra.

Supponiamo ci interessi valutare la classe di reddito 2: abbiamo notato che 4 femmine sono in questa
classe e lo stesso numero di maschi. Cosa concludiamo? A prima vista sembra che lo stesso dato sia
presente nella stessa quantità in entrambe le classi di genere.

Abbiamo in realtà osservato numericamente più maschi che femmine, quindi è sbagliato dire che c’è la
stessa quota di maschi e femmine in questa classe di reddito. Usare le frequenze assolute e sbagliato, nei
gruppi che numericamente sono diversi. Occorreva fare le frequenze relative.

Tabella a doppia entrata

X / y Y1 Y2 … yc
X1 F11 F12 … F1c R1
X2 F21 F22 … F2c R2
… … .. … … ...
Xr Fr1 Fr2 … Frcc Rr
C1 C2 … cc N

Fij (frequenza generica assoluta congiunta per la riga i-esima della x e per la colonna j-esima della y) =

= Freq{X = xi ; Y = yi}

i = 1, …. , r

j = 1, …. , c

Ri (frequenza univariata di x) = Freq{X = xi}

Cj (frequenza marginale di y) = Freq{Y = yj}

Frequenze subordinate o condizionate


Frequenze subordinate di riga (rapporti assoluti rispetto al totale di riga)

Noi calcoleremo solo queste, perché ci interessa osservare com’è distribuita

la x all’interno delle diverse righe

Sostanzialmente sono le frequenze relative

Frequenze subordinate per colonna (rapporti assoluti rispetto al totale di colonna):

Queste frequenze invece non le calcoleremo

Calcolo frequenze subordinate

Es: (continua)

1 2 3 Somma
F 1 / 6 = 0.1667 4 / 6 = 0.6667 1 / 6 = 0.1667 1
M 1 / 9 = 0.1111 4 / 9 = 0.4444 1 / 9 = 0.4444 1

Freq{Y = yj | X = xi} =

C’è la tendenza ad osservare più maschi nelle classi di reddito maggiori.

Le frequenze subordinate si possono rappresentare graficamente attraverso un diagramma barre ce si può


rappresentare e costruire in due modi equivalenti

- Diagramma a barre affiancate o accostate


Se i gruppi di barre corrispondenti alle modalità della variabile x, sono uguali tra loro, non c’è
dipendenza/relazione tra le due variabili i. Invece se i gruppi di barre corrispondenti alle diverse
modalità della x, sono diverse tra loro, esiste dipendenza tra le due variabili.

- Diagramma a barre impilate o sovrapposte

Nell’esempio sopra, essendo le distribuzioni subordinate della classe di reddito diverse tra maschi e
femmine: abbiamo osservato una dipendenza tra il reddito (Y) e il genere (X).

Es: y = euro spesi (in classi) x = Income class

Income class / Euro [5; 15) [15; 30) [30; 40) [40; 70) [70; 140]
spesi
1 0 0 1 0 1 2
2 1 2 2 2 1 8
3 1 2 1 1 0 5
2 4 5 3 2

L’ammontare speso nell’ultima visita dipende dalla classe di reddito?

Si va a calcolare le frequenze subordinate

Distribuzioni subordinate di Y dato X


Income class / Euro [5; 15) [15; 30) [30; 40) [40; 70) [70; 140]
spesi
1 0 0 0.5 0 0.5 1
2 0.125 0.25 0.25 0.25 0.125 1
3 0.2 0.4 0.2 0.2 0 1

Le distribuzioni sono diverse: perciò c’è un tipo di relazione tra x e y

Poiché le distribuzioni subordinate non sono uguali fra loro al variare della classe di reddito, concludiamo
che abbiamo osservato un qualche tipo di dipendenza tra le variabili.

Le classi minori sono più propense a spendere di piu, mentre le classi più alte sono propense a spendere di
meno.

Non c’è una monotonia: all’aumentare del reddito non aumenta l’ammontare speso.

Calcolo punto medio di ciascuna classe per la distribuzione subordinata.

Queste si chiamano medie subordinate o condizionate.

Esempio:

Genere / Ammesso? Ammesso Non ammesso


M 490 210 700
F 280 220 500
770 430 1200

Calcolo frequenze subordinate

Genere / Ammesso? Ammesso Non ammesso


M 0.7 0.3 1
F 0.56 0.44 1
770 430 1200

Da una prima analisi, si vede che sono stati ammessi più maschi rispetto al totale, rispetto alle femmine.

Poi hanno analizzato gli studenti ammessi in base alla facolta

Economia

X / Y Ammesso Non ammesso


M 480 120 600
F 180 20 200
660 140 800

480 / 600 = 0.8 = 80%

0.9= 90%

Legge

X / Y Ammesso Non ammesso


M 10 90 100
F 100 200 300
110 290 400

10/ 100 = 0.1 = 10%

100 / 300 = 0.3333 = 33.3333%

Questa situazione ha preso il nome di Paradosso di Simpson

Situazione in cui i risultati ottenuti utilizzando dati aggregati e disaggregati non corrispondono

Tra genere e ammissione abbiamo visto una dipendenza.

Ma questa relazione che noi otteniamo non tiene conto di una altra informazione importante, relativa alla
facoltà (chiamate appunto variabili di confusione), che invece porta risultati diversi.

Abbiamo notato che è molto più facile essere ammessi ad economia che a legge.

In funzione del genere, decido se fare una certa facoltà o meno.

Il paradosso è una situazione che si verifica molto nella pratica, ma è difficile da scoprire, occorre una
raccolta molto approfondita dei dati.
Caso due: variabile numerica Vs numerica

Es : y = euro spesi x = n items

Diagramma di dispersione (Scatter plot)

Informazioni ottenibili dal diagramma di dispersione

- Esiste una relazione tra le due variabili o no?

Se abbiamo una nuvola di punti di dispersione come

nel grafico, allora non c’è nessuna relazione

tra le variabili

Se invece i punti seguono un certo andamento come nell’esempio sopra, allora esiste una relazione
tra le variabili

- La relazione è di tipo crescente o decrescente?


- Quanto è forte la relazione? E di forte intensità o di debole intensita?

- Il grafico ci permette valutare il tipo di relazione? Cioè se la relazione è lineare o non lineare (es:
curvilinea)?

- Sono presenti outlier?

Indici di associazione lineare per due variabili

- Indice di covarianza
- Indice di correlazione lineare
- Covarianza:
o Popolazione:

o Campione:

Nel quadrante I la covarianza aumenta

Anche nel quadrante III i punti fanno aumentare la covarianza

Nel quadrante II sarà positiva la deviazione sull’asse verticale, mentre sarà negativa quella sull’asse
negativa; quindi, il prodotto delle due deviazioni è negativo; perciò, i punti contribuiscono a far diminuire la
covarianza.
Nel quadrante IV, sarà positiva la deviazione sull’asse orizzontale, mentre sarà negativa quella sull’asse
verticale; quindi, il prodotto delle due deviazioni è negativo; perciò, i punti contribuiscono a far diminuire la
covarianza.

- La covarianza è positiva, quando indica che la relazione tra le nostre due variabili è di tipo crescente
(mediamente), perché i punti si concentrano nei quadranti I e III.
- In una situazione in cui il grafico mostra una situazione mediamente decrescente, la maggioranza
dei punti si concentra nei quadranti II e IV, quindi la varianza verrà fuori negativa.

La covarianza permette formule alternative.

- Popolazione:

- Campione:

Caratteristiche della covarianza

1)La covarianza ha un’unità di misura, cioè il prodotto delle unità di misura delle due variabili x e y (che
possono essere anche diverse). Questo è uno svantaggio della covarianza, perché c’è il rischio di trovare un
risultato difficile da interpretare.

2)La covarianza è un indice simmetrico, rispetto alle due variabili, cioè se scambio l’ordine delle due
variabili nella formula, trovo sempre lo stesso risultato

3)La covarianza tra una variabile e sé stessa è uguale alla varianza della variabile x

4)La covarianza non è invariante, rispetto a cambi nella scala con cui si misurano le due variabili

- Date due variabili x e y, con covarianza si considerino le seguenti trasformazioni delle due
variabili

W = a + b ∙ X (costante aggiunta e costante che moltiplica una variabile)

(Questa è una trasformazione lineare della variabile x)

Z=c+d*Y

(Anche questa è una trasformazione lineare, ma della variabile y)

Allora la covarianza tra W e Z


Es: X = Fatturato in euro

Y = numero dipendenti

Con la covarianza, vogliamo capire il legame tra le due variabili

Supponiamo la co.va. sia 3.450.000 (euro * n dipendenti)

Supponiamo ora ci interessi calcolare la covarianza tra x espresso in milione di euro e il n


dipendenti.

La variabile W = a + b * X = fatturato in milioni di euro

La variabile Z = c + d * Y = Y

Ne consegue che covarianza tra W e Z =

(Milioni di euro * n dipendenti)

Possibili casi relativi alla covarianza

Nessuna relazione tra le variabili implica una covarianza che si avvicina allo 0, ma non è vero il contrario
(covarianza che si avvicina allo zero, non implica assenza di relazione tra variabili, ma può implicare anche
una relazione non lineare forte tra le variabili).

Esempio: n = 15
X = n items

Y = euro spesi

Covarianza positiva

(n items)

(euro)

(n items * euro)

>0 (n items * euro spesi)

Conferma una relazione crescente tra le due variabili

Es2: n = 15

X = età

Y = euro spesi
Cosa succede se cancelliamo gli outlier?

La covarianza diventa un numero negativo, quindi questo significa che la covarianza è fortemente
influenzata dagli outlier

- Indice di correlazione lineare

Popolazione:

Campione:

Caratteristiche indice di correlazione lineare

- Non ha unità d misura (adimensionale), perciò permette di confrontare indici con coppie diverse di
variabili
- Ovvero
Più la relazione è forte, più l’indice è vicino agli estremi, mentre più la relazione è debole, più
l’indice si avvicina a 0.

Nessuna relazione tra le variabili implica un indice che si avvicina allo 0, ma non è vero il contrario
(indice che si avvicina allo zero, non implica assenza di relazione tra variabili, ma può implicare
anche altre relazioni, come una relazione non lineare forte tra le variabili).

Es:

C’è un evidente influenza degli outlier

Caratteristiche indice di correlazione lineare

1)indice simmetrico:

2)indice di correlazione di una variabile con sé stessa, è sempre uguale a +1:

3)x, y con indice di correlazione e W = a + bX e Z = c + dY


Es:

n = 15

X = n items

Y = euro spesi

Relazione crescente di forte intensità

Esempio2: n = 15

X = età

Y = euro spesi

Relazione lineare globalmente positiva di media intensità

Ma questa conclusione è fuorviante, per la presenza di outlier

In assenza di outlier, avremmo un indice di -0.2775, quindi negativo.

Le relazioni lineari

Significa determinare l’equazione della retta “migliore” che descrive la relazione osservata tra le due
variabili rilevate.

yi = b0 + b1 * xi * ei

i = 1, 2, …, n
Metodo per calcolare i valori ottimali di b0 e b1 è il metodo dei minimi quadrati

Metodo dei minimi quadrati

Si cercano i valori di b0 e b1, in corrispondenza dei quali risulta minima la somma dei residui al quadrato.

Esempio: n = 15
Y = euro spesi

X = n items

Interpretazione

In corrispondenza di un incremento unitario del numero di articoli


acquistati, abbiamo calcolato un incremento previsto dell’ammontare speso di 12.3888 euro

b0 = 2.8333 euro = valore previsto in una singola visita in corrispondenza di un numero di articoli acquistati
pari a zero.

Utilizzando la retta appena calcolata, si fornisca una previsione dell’ammontare speso in una singola visita
da ognuno dei seguenti potenziali clienti:

Cliente 1 =>

Cliente 2 =>

Previsioni:

Cliente 1 =>

Cliente 2 =>
Cliente 3 =>

Potrebbero piacerti anche