Sei sulla pagina 1di 21

Secondo anno, secondo semestre. Università degli studi di Genova. Economia aziendale.

LEZIONI= Mercoledì 10:45  12:15 Giovedì 8:50 10:10

RICEVIMENTO= martedì 10:30  12:30

LIBRO= Bozza di Ciaccio, “Statistica-Metodologia per le scienze economiche e sociali”, 3° edizione,


Mc Graw Hill.

ESAME= due sezioni: parte teorica; esercizi (4). 10 crocette, 2 domande aperte da mezza pagina
(una dimostrazione). Durata: 1:30  2:00 ore.

BADGE= i badge valgono fino a febbraio 2018, 2 compitini (1° fine aprile, 2° dopo il primo apello,
metà giugno)

NO SALTO D’APPELLO corrado.lagazio@unige.it


Martedì, 28.03.2017

Campione  persona intervistata, rappresentante di x persone (per esempio in un sondaggio).

Voglio rilevare informazioni sulle unità che sono state intervistate. Voglio passare dalle
informazioni sui singoli individui a delle informazioni generali (sintesi: non mi interessa cosa
dicono i singoli).

Semplice
SINTESI  imprescindibile
Complessa

La statistica è la scienza dei fenomeni collettivi. La qualità dei dati fa la qualità dei risultati.
Inferenza: Passare dal particolare al generale. Via induttiva, soggetta all’errore (al contrario la via
deduttiva è priva di errori).

Quindi sono soggette all’errore quando generalizzo l’informazione basandomi sulle risposte dei
campioni. È un errore ineliminabile ma gestibile.

ERRORE STATISTICO:
 l’intervistato ha dichiarato il falso;
 non risposta.
L’errore non dipende dal numero di persone intervistate.

ERRORE CAMPIONARIO:
 raccolta di informazioni;
 sintesi;
 passaggio dal particolare al generale (influenza la statistica).
Differiscono per la qualità, non per gli strumenti. Il campione è scelto casualmente.

2
Mercoledì, 01.03.2017

LA STATISTICA DESCRITTIVA
Descrivere ciò che si osserva.
Parole chiave:

 Popolazione: intesa in senso vago. È l’insieme delle manifestazioni dell’oggetto di studio.


Anche ripetizione dell’insieme di procedure che danno via ad un determinato output. Può
essere indefinita. Anche quando la popolazione è ben definita, non si è in grado di
investigarla tutta. Bisogna ridursi a definire un sottoinsieme della popolazione, ossia un
campione.

 Collettivo: Insieme di unità statistiche sulle quali rilevo una certa caratteristica. Le unità
statistiche compongono la popolazione, sono le unità sulle quali valuto, rilievo e misuro
una determinata caratteristica o più determinate caratteristiche congiuntamente. Queste
caratteristiche , chiamate anche attributi o variabili, sono, per esempio, il genere, il reddito
e l’età. Sono definite variabili perché si manifestano in tanti modi diversi. Le unità
statistiche sulle quali rileviamo il fenomeno sono una diversa dall’altra.

La statistica si occupa dello studio di fenomeni variabili, ovvero, fenomeni che possono
manifestarsi in diversi modi. Se il fenomeno è costante non sarà necessario l’utilizzo di strumenti
statistici (statistica invariabile). La statistica valuta come si distribuisce una caratteristica in modo
collettivo.

Per ora la distinzione tra campione e popolazione è irrilevante. Diventerà rilevante quando
parleremo d’inferenza statistica.

Le variabili possono essere analizzate una per volta o congiuntamente.


Nel primo caso facciamo un’analisi univariata (considero un’unica variabile), nel secondo sarà
un’analisi multivariata (considero più variabili congiuntamente, cerco se tra le variabili ci sono
delle similitudini, per esempio se il genere influenza il reddito). Se prendo in considerazione due o
più variabili parliamo di statistica multivariata. Noi considereremo solo metodi univariati.

TIPI DI VARIABILI

Esistono variabili di diverso tipo:

 GENERE: può assumere solo due valori che non sono ordinati, senza alterare l’informazione
connessa alla variabile (maschio o femmina);
 REDDITO: può assumere più valori, è una variabile continua, quantitativa. Consente di fare
una valutazione del tipo maggiore, minore e uguale.

A seconda del tipo di variabile, mutano gli strumenti che si possono utilizzare. Alcuni sono comuni,
altri specifici di determinate variabili. Una prima distinzione fra le variabili:

1. VARIABILE QUALITATIVA: per esempio il genere, il titolo di studio, la condizione


professionale… per lo più considereremo queste variabili.
3
Le variabili qualitative, possono essere ulteriormente divise in base all’ordinamento:

 VARIABILI NOMINALI: i valori che la variabile assume non dono ordinabili. Per (sono
dello stesso o di diverso genere, non posso dire altro. Sono valutate su scala
nominale;
Il genere non consente di ordinare i soggetti dal più piccolo al più grande.
Il genere ha due modi di manifestarsi  femmina e maschio non sono ordinabili, si
può solo dire che è lo stesso o è diverso.

Osserviamo le diverse manifestazioni:

X = il genere X1, X2,…,X3 = valore osservato nella 1°,2°,..,n° unità statistica

Xi= generica i-esima unità statistica

Possiamo notare che:

Xi = Xj (ovvero le due unità statistiche presentano stessi valori)

oppure Xi  X

 VARIABILI ORDINALI: hanno un ordinamento intrinseco. Sono valutate su scale


ordinale. Possono essere messe in fila dalla più piccola alla più grande.

Per esempio: il titolo di studio  Nessun titolo di studio 1° livello


Saper leggere e scrivere 2° livello
Licenza elementare 3° livello
Licenza media 4° livello
Diploma professionale 5° livello
Maturità 6° livello
Laurea 7° livello

Xi > Xj oppure X i < Xj  oppure X i = Xj

2. VARIABILE QUANTITATIVA: il reddito, la superficie di un appartamento, il numero dei


componenti di una famiglia…

Le variabili quantitative possono essere:

 SU SCALA D’INTERVALLO: non si è in grado di giudicare i singoli valori


 SU SCALA DI RAPPORTO: quelle che ci interessano di più. (-> il tempo, la
temperatura).

Le due tipiche variabili, sono il tempo e la temperatura.

4
Se per esempio considero il reddito, posso dire che una persona ha un reddito doppio
rispetto a quello di un altro individuo.

Xi = 2Xj  ciò per esempio significa che il signore i ha il doppio del reddito del signor j.
Xi / Xj = 2

Il reddito ha una scala di misura univoca. Il reddito pari a 0 significa assenza di reddito.

Se invece parliamo di tempo o temperatura lo zero è convenzionale. Per esempio per la


temperatura varia al variare della scala di misura. Per il tempo, per esempio, non ha senso
dire che il 1 marzo è il doppio del 2 marzo, perché sono espressi in scala assoluta. Possiamo
dire che i primi 60 giorni dell’anno sono la metà dei 120 giorni dall’inizio dell’anno.

LA SINTESI

Ci sono diversi modi per fare la sintesi:

1°. MODO: costruiamo la distribuzione di frequenza. Associo un numero alla variabile e


costruisco una tabella.
2°. MODO: rappresentare graficamente ciò che abbiamo rilevato. Si crea una sintesi molto più
potente rispetto a quella di una tabella. Il grafico, infatti, comunica subito un’impressione a
colpo d’occhio. Però da un altro lato sono estremamente pericolosi.
3°. MODO: calcolo uno o più indici sintetici, che sono numeri che ci danno idea del fenomeno
(per esempio la media).

PRIMO MODO: DISTRIBUZIONE DI FREQUENZA


ESEMPIO 1 : n = 48 imprese di cui abbiamo rilevato la forma giuridica. Abbiamo questi dati
originari, successione dei valori osservati. Distribuzione unitaria: semplice elenco dei valori
osservati.

Modalità della variabile Frequenze assolute Frequenze relative Frequenze


(forma giuridica) ni fi percentuali pi
SPA 9 0,1875 18,75
SRL 29 0,6042 60,42
SNC 6 0,1250 12,50
SAS 3 0,0625 6,25
SCRL 1 0,0208 2,08
= 48 =1 =100

5
La frequenza assoluta (ni) indica quante volte è stata osservata la singola modalità.
Questa tabella si chiama distribuzione di frequenza assoluta; dice come la variabile è distribuita nel
collettivo studiato.
Se sommo i valori delle frequenze assolute ottengo per forza 48.

∑𝐜𝐢=𝟏 𝐧𝐢 = n c = numero modalità

da quarantotto numeri mi riduco a 5 numeri. È una sintesi piuttosto potente, ovvero si passa da un
grande insieme di dati ad un piccolo insieme di numeri facilmente interpretabili.

Ogni volta che devo fare una sintesi, devo chiedermi che cosa sto tralasciano. Infatti perdo delle
informazioni che possono essere importanti.
Che informazione ho perso costruendo questa tabella relativa alla forma giuridica?
Sto perdendo l’informazione relativa alle singole imprese. Non so più quali sono le imprese con
forma SPA, SRL, ecc... nel momento in cui passo alla tabella perdo l’informazione sui singoli, ma
posso andare a creare una successione di valore completamente analoga alla prima. Partendo
dalla tabella, infatti, non sarò più in grado di costruire esattamente la sequenza dell’inizio. Però
potrò creare la successione di valore.

SPA..............SPA, SRL............SRL, SNC.............SNC, SAS, SAS, SAS, SCRL

9 29 6

Dal punto di vista statistico sono equivalenti, infatti, interessa il collettivo nel suo complesso. Se
uso una distribuzione di frequenza, in particolare assoluta, perdo informazione. In questo caso
l’informazione che perdo è irrilevante dal punto di vista statistico.

Su questa distribuzione possiamo aggiungere una colonna. Ci interessa sapere quante sono le SRL
rispetto al totale delle imprese considerate, ci interessano le frequenze relative (fi).

𝒏𝒊
𝒇𝒊 = ; ∑ 𝒇𝒊 = 𝟏
𝒏

ESEMPIO 2: riguarda i titoli di studio. La sintesi si basa su dei dati provenienti dalla Banca d’Italia.
Ogni due anni essa effettua indagini sui bilanci delle famiglie, un numero di 8000 famiglie viene
intervistato per fornire caratteristiche sui redditi, sugli investimenti, ecc. vediamo la distribuzione
del titolo di studio del capo f amiglia nel 2012:

TITOLO DI STUDIO X ni pi Ni Pi
Licenza elementare 2200 26,99 2200 26,99
Licenza media 2827 34,68 5067 61,67
Maturità 2157 26,46 7184 88,13
laurea 967 11,86 8151 100
= 8151 =100 (arrotondato)

6
E’ una variabile ordinale, nell’esempio delle imprese no. Possiamo calcolare ulteriori quantità, per
esempio le frequenze assolute cumulate possono essere calcolate solo se c’è carattere ordinabile.
N1 = n 1 P1 = p1

N2 = n1 + n2 P2 = p1 + p2

N3 = n1 + n2 + n3 P3 = p1 + p2 + p3

Le frequenze cumulate dicono quante percentuali di unità statistiche presenta una modalità
minore o uguale alla frequenza che stiamo considerando solo se il carattere è ordinabile. Il 61,67%
ha un titolo di studio minore o uguale alla licenza media. Queste frequenze non si sommano.

Potenza significa capacità di sintesi, collegata al numero di modalità delle variabili. Se la variabile
avesse una ventina di modalità, la tabella diverrebbe molto più grande. Con le variabili di tipo
quantitativo, come il reddito, dovremmo prendere tutti i possibili redditi (reddito 0, 1, 2....) e la
tabella diverrebbe infinita. Anche se prendessimo come unità il migliaio, dovremmo considerare
tutti i valori intermedi. Si considerano, infatti, l’intervallo di valori e le modalità all’interno di
quell’intervallo.

Giovedì, 02.03.2017

CLASSI/INTERVALLI DI VALORE

Quando abbiamo una variabile quantitativa, misurata su scala continua, costruire la distribuzione
di frequenza ha poco significato. La capacità sintetica si perde in grave misura. L’alternativa che
tipicamente viene adottata consiste nel costruire intervalli di valori.

Osserviamo come variabile il reddito complessivo della famiglia. Passiamo dagli 8151 valori
osservati a intervalli più vasti:

INTERVALLI, classi ni
Fino a 10.000 618
Da 10 a 20 2171
Da 20 a 30 1955
Da 30 a 50 2212
Da 50 a 75 845
Da 75 a 100 218
Da 100 a 250 124
Più di 250.000 8
= 8151
Distribuzione assoluta per reddito in classi.

La prima e l’ultima classe sono intervalli non chiusi, ai fini della distribuzione di frequenza ciò è
irrilevante. Per altri tipi di valutazioni, però, sarà necessario chiudere le classi, trovare, quindi, un
estremo inferiore per la prima e un estremo superiore per la seconda.
Per la prima è semplice. Si prendono valori positivi, usualmente la prima classe va chiusa a zero.
Diverso è il caso dell’ultima classe. Qui si è liberi di scegliere, non vi è una regola per determinare
l’estremo superiore.

7
Un altro aspetto rilevante è la dimensione delle classi. L’ampiezza si può cambiare, non c’è una
regola per definirla. Tipicamente la scelta della dimensione è fatta sulla capacità di sintesi: più
larghe sono le classi, meno grande sarà la tabella e tanto più forte sarà la capacità di sintesi che
riesco ad adoperare. Però perderò informazione, in particolare quella dell’associazione tra il valore
e le famiglie, e oltre questo perderò anche informazione sul valore del reddito.

Costruisco le classi per aumentare la capacità sintetica riguardante la distribuzione, ma nel


contempo perdo informazione. Quando definisco l’ampiezza delle classi devo cercare di bilanciare
le due necessità, ed è per questo motivo per cui creerò classi con diverse ampiezze. Le prime classi
avranno ampiezze più piccole e più si eleveranno i valori, più queste si allargheranno. Ciò avviene
per due motivi:

1. Tra le pri9me classi ho più osservazioni, mentre nelle ultime ho meno osservazioni con
minor frequenza. Dove ho più osservazioni è come se avessi più informazioni, quindi
utilizzo ampiezze più piccole;
2. C’è una differenza fra vere un reddito basso o relativamente basso. Più il reddito cresce,
più avere, per esempio 10.000 euro in più, diventa irrilevante. Ciò è profondamente
diverso dalle prime classi, in cui una tale cifra fa la differenza.

Costruire la distribuzione in classi è un’operazione piuttosto complessa. In particolare è difficile


definire l’estremo superiore. Se un soggetto ad esempio avesse 10.000 euro dovrei decidere se
metterlo nella prima o nella seconda classe. Ci sono due modi:
 Si possono considerare gli intervalli come chiusi a destra: (0,10]; (10,20]; e così via… in
questo caso il soggetto con reddito pari a 10.000 starà nella prima classe
 Si possono considerare gli intervalli come chiusi a sinistra: [0,10); [10,20); e così via… in
questo caso il soggetto sarà posto nella seconda classe.

Dividiamo in base al numero degli addetti. È una variabile discreta, ovvero può assumere solo
valori interi.

ni Ampiezza, Δi
0–1 55 0–1 1
2–9 120 1 – 10 9
10 – 24 432 10 – 25 15
25 - 49 67

Scrivere in questo modo le classi serve a capire dove stiano gli estremi di classe. Può essere che
l’azienda abbia 1,5 addetti (attraverso la media). devono essere contigue, senza soluzione di
continuità.

8
SECONDO METODO: I GRAFICI
Esistono tanti tipi di grafici, osserviamo i grafici corrispondenti alle distribuzioni di frequenza.

Forma giuridica ni
SPA 9
SRL 29
SNC 6
SAS 3
SCRL 1

 DIAGRAMMA A BARRE:
A ciascuna modalità della variabile si associa un rettangolo la cui altezza è proporzionale
alla frequenza relativa o assoluta. In questo grafico abbiamo un unico asse sul quale sono
rappresentate le frequenze.
Si chiama diagramma a barre, è diverso dall’istogramma. Può essere sia in verticale che in
orizzontale. Solo l’asse verticale è metrico. Ci indica anche il numero di oggetti, la
dimensione del collettivo.

 DIAGRAMMA A TORTA:

un altro tipo di diagramma è quello a torta. Ciascun settore è associato a una modalità, gli
spicchi della torta rappresentano la frequenza. Il diagramma a torta è più specifico per le
distribuzioni di frequenza relativa o percentuale (non per quella assoluta, più vicina al
diagramma a barre). Non si vede la dimensione del collettivo, solitamente si indica a parole
a fianco al diagramma.

9
SRL SPA SAS SCRL SNC

 DIAGRAMMA CON PIU’ VARIABILI:


I diagrammi hanno un impatto tipicamente molto forte. Esistono alcuni diagrammi che
consentono di rappresentare aspetti diversi, ne vediamo due:

1. Diagramma che mostra l’andamento del FTSE MIB dell’ultimo anno. Per ogni giorno
rilevo il valore dell’indice alla chiusura e lo rappresento. I dati utilizzati per la
costruzione di questo diagramma sono dati utilizzati in serie storica, ossia una
successione di valori ordinata nel tempo. Queste serie sono importanti perché
danno un’idea della dinamica del fenomeno, mostrano come esso si evolve nel
tempo. Ci danno le prime indicazioni sulla variabile che stiamo considerando.
Queste serie sono un fenomeno che si differenzia rispetto ai dati statistici finora
visti. Se i dati sono in serie storica, sconvolgere l’ordinamento significa perdere
informazioni rilevanti. In questo grafico l’ordinamento è informativo quindi è
fondamentale non perdere la struttura temporale.
Esistono anche i dati relativi allo spazio, serie territoriali (che anno caratteristiche
per certi versi analoghe alle serie storiche), per le quali è rilevante la distribuzione
geografica del territorio. Un esempio è la disoccupazione che riguarda le regioni.

Esempio rappresentazione generica:

10
2. Un altro grafico che riguarda alcune regioni e due variabili il tasso di attività
(percentuale di popolazione attiva, quando guardo indici di occupazione ci sono una
parte di persone disoccupate e che non cercano lavoro, e un'altra che lavora o
cerca lavoro) e il PIL pro-capite. Per trovare se c’è una relazione posso utilizzare
degli strumenti analitici, per 1esempio il diagramma a dispersione. Costruisco un
diagramma cartesiano, metto la variabile tasso di attività sull’asse x e il PIL pro-
capite sull’asse y. Ciascun pallino rappresenta una regione diversa (unità statistiche
che in questo caso sono chiamate regioni). Ciascuna unità statistica è rappresentata
da un punto le cui coordinate sono i valori assunti dalle due variabili.
Tendenzialmente le regioni con tasso di attività elevato (a destra nel grafico) sono
quelle a cui è associato il PIL più alto (in alto nel grafico).
Il diagramma mette in evidenza che tendenzialmente a valori bassi di una delle due
variabili corrispondono valori bassi dell’altra variabile.

Esempio rappresentazione generica:

 ISTOGRAMMA

INTERVALLI, classi ni i di
Fino a 10.000 618 10 61,8
Da 10 a 20 2171 10 217,1
Da 20 a 30 1955 10 195,5
Da 30 a 50 2212 20 110,6
Da 50 a 75 845 25 33,8
Da 75 a 100 218 25 8,7
Da 100 a 250 124 150 0,8
Più di 250.000 8 250 0,03

Abbiamo definito la moda della distribuzione della frequenza assoluta. La moda è il valore
più frequente.
Supponiamo di voler cercare il valore più frequente, ma non il valore esatto. Possiamo
trovare la classe modale, ovvero la classe di reddito prevalente. Bisogna procedere in

11
modo diverso. Si guardano le frequenze. Notiamo che la classe con frequenza più elevata è
quella con reddito da 30 a 50 mila euro (2122, valore massimo delle frequenze), però
questa non è la classe modale. Il valore 2212 dà un’immagine sbagliata. Più la classe è
grande maggiore sarà il numero di osservazioni (infatti questa classe, per esempio, è il
doppio della precedente).
Se divido la classe 30-50 in due, la situazione cambia. 1106 andranno nella classe 30-40 e
1106 in quella 40-50. Dopo questa operazione risulterà maggiore la classe da 10 a 20,
poiché ho cambiato l’ampiezza delle classi.
Ne deriva che il confronto può avvenire solo quando le classi sono tutte uguali: se ciò non
avviene non si possono guardare le frequenze ma bisogna fare un’operazione per rendere
uguali le classi (come abbiamo fatto).

Se mi troverò in un caso in cui le classi sono diverse, innanzitutto dovrò chiuderle per
calcolare l’ampiezza. La prima da 0 a 10 e l’ultima da 250 a 500.

∆𝒊 = 𝒙𝒊 − 𝒙𝒊 − 𝟏

Successivamente calcolerò la densità di frequenza (di): depuro le frequenze dalle ampiezze


di classe. È un’operazione che si può svolgere sia sulle frequenze assolute che sulle
frequenze relative (densità assoluta e densità relativa). Per passare da assoluta a relativa
divido per 8151, viceversa moltiplico.

𝒏𝒊
𝒅𝒊 =
∆𝒊

La densità di frequenza mi serve per trovare la classe modale, che è la classe con frequenza
più grande.

Esiste l’istogramma, che è diverso dal diagramma a barre.

Facciamo l’istogramma di frequenza assoluta della variabile di reddito.


L’area del rettangolo è proporzionale alla frequenza. Non l’altezza ma l’area, tutta l’area
dei rettangoli è il totale della frequenza. Se sommo tutte le aree ottengo 8151. Se fosse di
frequenza relativa la somma sarebbe uguale a 1.

12
L’asse delle x è un asse metrico, i rettangoli sono uniti perché abbiamo classi univoche. Nel
diagramma a barre tutti i rettangoli hanno la stessa base.

I rettangoli alti stanno tutti verso sinistra. C’è un’asimmetria: c’è una coda lunga sui valori
elevati. Esistono dei fenomeni che presentano degli istogrammi di distribuzione diversa (ad
esempio quelli che rappresentano la morfologia). Hanno rettangoli più alti al centro e di
gradino sempre uguale. Presentano una sorta di simmetria: curva di Gauss.

Un grafico necessita di scale numeriche, che devo sempre rappresentare. Supponiamo di avere
una serie storica:

1/3 100
2/3 120
3/3 130
4/3 110

Se io togliessi le scale direi che nel primo grafico la frequenza è estrema, mentre che nel secondo
caso direi che è quasi analogo, ma con variazioni molto inferiori. In realtà sono gli stessi dati. Nel
primo caso le variazioni sembrano macroscopiche e nel secondo microscopiche. Con la scala riesco
a capire cosa sto guardando, se la ometto il grafico può riferirsi a qualsiasi cosa.

13
TERZO METODO: GLI INDICI SINTETICI
INDICI SINTETICI: sono un passo avanti rispetto alle distribuzioni di frequenza (come si distribuisce
il carattere). Passiamo da quest’ultima ad un unico valore che descrive una particolare
caratteristica della distribuzione di frequenza.

Ci sono due categorie di indici:

1. INDICI DI POSIZIONE:
abbiamo una distribuzione di frequenza, attraverso questi indici si dà l’idea della tendenza
centrale del fenomeno. Sono anche chiamati indici di tendenza centrale, i più usati sono
tre:

 MODA (usata più raramente):


la moda è la modalità associata alla frequenza più elevata.

Forma giuridica ni
SPA 9
SRL 29
SNC 6
SAS 3
SCRL 1

Mo = SRL

La moda di questa distribuzione non è 29 (che è la frequenza), ma è SRL. Sintetizzo


in base alla forma giuridica. La moda ha il vantaggio di poter essere sempre
utilizzata e calcolata, qualunque sia la variabile.

Se la distribuzione è in classi, la moda non si calcola guardando le frequenze, poiché


potrebbe dare un’informazione sbagliata. In questo caso parleremo di classe
modale.

Il grosso svantaggio di questo indice è che non è particolarmente informativo

 MEDIANA:
è il valore che sta in mezzo. È quel valore tale per cui la metà inferiore delle
osservazioni ha un valore più piccolo o uguale e l’altra metà ha un valore più grande
o uguale. Per calcolarla è necessario che il carattere sia ordinabile. Quindi può
essere usata per caratteri qualitativi ordinabili o quantitativi (che sono ordinabili
per definizione).

Supponiamo che vengano dati voti mediante le lettere A, B, C, D.

14
 Numero dispari: 𝑴𝒆 = 𝒙(𝒏+𝟏); quindi nel nostro caso: Me = B
𝟐

xi x(i)
A D
C D
D C
A C
B B
B B
B B
C A
D A

Prima operazione: dovrò mettere in ordine i valori osservati dal più piccolo al più
grande. Indichiamo ciò con la simbologia x(i).
Una volta fatto ciò si può procedere a trovare il valore di mezzo. In questo caso ho 9
osservazioni, quindi, prenderò la quinta osservazione. Infatti se i numeri sono
dispari la mediana sarà uguale al valore x che occupa la posizione (n+1) /2.
Quindi la mediana non è 5 ma B.

Supponiamo di avere 10 osservazioni, quindi una in più.

 Numero pari: 𝑴𝒆𝟏 = 𝒙(𝒏) ; 𝑴𝒆𝟐 = 𝒙(𝒏+𝟏)


𝟐 𝟐

nel nostro caso: Me1 = C ; Me2 = B

xi x(i)
A D
C D
D C
A C
B C
B B
B B
C B
D A
C A

Abbiamo un numero pari e quindi avremo due mediane. La prima è quella che
occupa la posizione n/2 la seconda quella che occupa la posizione (n/2) +1.

15
Se le due mediane sono uguali si riducono ad una sola. Solo se ho una variabile
quantitativa posso fare la semisomma.
Spesso la mediana, solo se la successione è ordinata, viene data come:

𝑴𝒆𝟏 + 𝑴𝒆𝟐
𝑴𝒆 =
𝟐

 Se abbiamo una distribuzione di frequenza possiamo operare così:

INTERVALLI, classi ni pi Pi
Fino a 10.000 618 7,58 7,58
Da 10 a 20 2171 26,63 34,21
Da 20 a 30 1955 23,98 58,20
Da 30 a 50 2212 27,14 85,34
Da 50 a 75 845 10,37 95,71
Da 75 a 100 218 2,67 98,38
Da 100 a 250 124 1,57 99,90
Più di 250.000 8 0,10 100

Prendo la cumulata fino ad arrivare al 50% per trovare la mediana. Nella classe tra
20 e 30 ho la mediana, ossia è compreso il valore 50% in quella fascia.

Un altro esempio di mediana con distribuzione di frequenza può riguardare il


numero di componenti nelle famiglie:

NUMERO COMPONENTI N pi Pi
1 2191 26,88 26,88
2 2545 31,22 58,10
3 15602 19,21 77,31
4 1352 16,59 93,90
5 371 4,56 98,45
6 111 1,36 99,82
7 11 0,13 99,95
8 4 0,05 100

Appena trovo il 50% mi fermo e trovo il numero della media. In questo cosa è dove
il numero di componenti è pari a 2.

C’è un unico caso in cui sono i8n dubbio: se nella successione ci fosse il 50% e il
58,10%. Se ho un numero pari di osservazioni potrò trovare il 50%, se ho un
numero dispari non potrò trovare il 50% esatto. Quindi se il numero è pari ci
possono essere due mediane.

La mediana ha due caratteristiche:

16
 È sufficientemente generale: consente di avere indice di posizione anche se
i caratteri sono solo ordinari (le medie sono solo per i caratteri quantitativi).
 Gli estremi della distribuzione, molto piccoli da un lato e molto grandi
dall’altro, sono detti code (code di destra e code di sinistra). La mediana
risente poco delle code di distribuzione. Può non risentirne proprio del
valore degli estremi o solo in maniera molto limitata (ciò è diverso nella
media). Per questo motivo è detta indice robusto (o resistente).

Può essere presente un valore anomalo nei dati osservati. Molto spesso si utilizza il
reddito mediano piuttosto che il reddito medio, infatti quest’ultimo tende a
sovrastimare il reddito della popolazione. Il reddito medio, infatti, ha
tendenzialmente un valore più elevato del valore del reddito mediano e ciò può
dare un’idea distorta. È più sicuro usare l’indice della mediana quando abbiamo dei
grafici con una coda molto lunga, come ad esempio quello del reddito.

 MEDIA ARITMETICA:

̅
𝒙
𝟏
∑𝒄𝒊=𝟏 𝒙𝒊 = { 𝝁
𝒏
𝑴(𝒙)

Questa formula si usa quando abbiamo un elenco di tutti i valori osservati.


Distribuzione unitaria: la somma dei valori osservati diviso la loro numerosità.
Se avessi la modalità con la frequenza corrispondente, quindi distribuzione di
frequenza, la media sarà:

𝟏
̅=
𝒙 ∑𝒄𝒊=𝟏 𝒙𝒊 𝒏𝒊 = 1/n ∑𝒄𝒊=𝟏 𝒙𝒊 𝒇𝒊
𝒏

È l’indice più importante di tutta la statistica. Questa infatti consiste nel calcolare
medie di vario tipo.

La media si può utilizzare solo per caratteri quantitativi (es. altezza). La variabile
deve essere di natura quantitativa siccome devo sommare. Infatti non posso
calcolare il livello di studio medio, ma l’altezza media o la media dei voti.

PROPRIETA’ DELLA MEDIA ARITMETICA:

 Proprietà di internalità:
l’uguale vale solo in un caso specifico: se tutti i valori osservati sono uguali
tra loro.
̅ ≤ 𝒙𝒎𝒂𝒙
𝒙𝒎𝒊𝒏 ≤ 𝒙

17
 Scarto dalla media: misura della singola distanza tra la singola osservazione
e la media. Può essere o sopra o sotto la media.

̅
𝒙𝒊 − 𝒙  ∑(𝒙𝒊 − 𝒙
̅) = 𝟎

DIMOSTRAZIONE:

𝟏
̅) = ∑ 𝒙𝒊 − ∑ 𝒙
∑(𝒙𝒊 − 𝒙 ̅ = ∑ 𝒙𝒊 − 𝒏𝒙
̅ = ∑ 𝒙𝒊 − 𝒏 ∑ 𝒙𝒊 = 𝟎
𝒏

Mette in equilibrio i segni più e meno. Ci consente di equi ripartire i


caratteri. Una caratteristica è trasferibile quando si può redistribuire.

Per esempio ci consente di equi distribuire il carattere del reddito, prendo il


reddito medio, calcolo la media e dopo do a tutti lo stesso reddito. Il reddito
complessivo rimane lo stesso.

Venerdì, 07.03.2017

 Proprietà di linearità della media (o equivalenza):


ho una variabile x e voglio trasformarla in y attraverso una trasformazione
lineare.
Per trasformare una variabile faccio due operazioni:
1) Prendo il valore della variabile e lo moltiplico per una costante (xb).
Per esempio si fa ciò quando si fa un cambiamento di scala (da kg a
g).
2) Aggiungo una costante. Traslo la variabile, ovvero, sposto tutti i
valori verso l’alto se la costante è positiva e viceversa.

 TRASFORMAZIONE LINEARE: y = a + bx

se conosco la media di x (𝑥̅ ) posso trovare la media di y in due modi:

a) Posso calcolare tutti i valori di y e fare la media;


b) Prendo 𝑥̅ e lo trasformo per ottenere 𝐲 ̅  𝐲̅ = 𝐚 + 𝐛𝐱̅

DIMOSTRAZIONE:

𝟏 𝟏 𝟏 𝟏 𝟏 𝟏
̅=
𝒚 ∑ 𝒚𝒊 = ∑(𝒂 + 𝒃𝒙𝒊 ) = ∑(𝒂) + ∑ 𝒃𝒙 = ̅𝒊
𝒏𝒂 + 𝒃 ∑ 𝒙𝒊 = 𝒂 + 𝒃𝒙
𝒏 𝒏 𝒏 𝒏 𝒏 𝒏

La media è equi variante per le trasformazioni lineari. La


trasformazione lineare che applico alla variante la applico alla media.

 ∑(𝒙𝒊 − 𝒂)𝟐 -> prendo una quantità e ne faccio lo scarto.

18
MEDIE

 MEDIA PONDERATA:

Ci sono dei casi in cui i valori hanno diversa rilevanza. Per esempio i voti sono riferiti a
esami con diversi crediti.

Per ciascuna osservazione abbiamo il valore (𝑥𝑖 ) e il peso (𝑤𝑖 ).

∑(𝒙𝒊 𝒘𝒊 )
̅𝒑 =
𝒙
∑ 𝒘𝒊

La media aritmetica è un caso particolare di media ponderata. Si verifica quando tutti i


pesi sono uguali.

 MEDIA  - TRIMMED:

Nelle gare di tuffi la votazione deriva dalla sintetizzazione di tutti i voti in uno unico.
Svolgendo questa sintetizzazione, però, vengono eliminati il voto maggiore e il minore,
per evitare che voti alterati influenzino il risultato.
Trimmed= eliminare;  = % di informazioni che eliminiamo

Per fare ciò bisogna mettere in ordine i valori dal minore al maggiore.
Effettuo questa operazione perché alcuni valori potrebbero essere distorti ma io non lo
so se lo sono o no. È comunque una perdita di informazioni. Questa perdita ha un
costo, non solo in termini monetari ma anche di tempo.

 MEDIA GEOMETRICA:

Viene utilizzata in contesti specifici (per esempio i tassi di interesse nella


capitalizzazione composta).
𝒏
𝒏
𝑴𝒈 (𝒙) = √∏ 𝒙𝒊
𝒊=𝟏

 MEDIE DI POTEZIATE (o di potenza):

𝒓 𝟏
𝑴𝒑 (𝒙) = √ ∑ 𝒙𝒊 𝒓
𝒏

19
CLASSE MEDIANA

REDDITO pi Pi
0 - 10 7,58 7,58
10 - 20 26,33 34,21
20 - 30 23,98 58,20
30 - 50 27,14 85,34
50 - 75 10,37 95,71
75 - 100 2,67 98,38
100-250 1,52 99,90
Più di 250.000 0,1 100

La classe mediana è la classe che al suo interno contiene la mediana. Essa divide in due la
distribuzione. Si cerca all’interno delle cumulate il valore della mediana. Ne nostro caso
cercheremo un valore superiore al 50%. Quindi troveremo che la classe mediana è 20-30.
Facciamo un istogramma:

L’altezza rappresenta la densità di frequenza, mentre l’area è la frequenza stessa.


La mediana divide l’area in due parti.

𝐴 𝐴 (30−20)
A= 50% - 26,33% - 7,58% = 50% - 34,21% 𝑀𝑒 = 20 + 𝑑 = 20 +
𝑖 23,98
Avendo l’area e l’altezza posso calcolare la base che va da 20 alla mediana.

CLASSE MEDIANA: 𝑥𝑖 − 𝑥𝑖 + 1

50−𝑃𝑖
MEDIANA: 𝑴𝒆 = 𝑥𝑖 + 𝑃1+𝑖 − 𝑃𝑖

20
LA VARIABILITA’
Gli indici di posizione sono molto utili per individuare l’andamento del fenomeno.
Però, utilizzandoli, perdo tutte le informazioni riguardanti la variabilità. Per esempio, se osservo il
reddito, potrei avere persone che possiedono un reddito molto maggiore o molto minore
dell’andamento medio.

La variabilità attiene al confronto tra i valori che caratterizzano le singole unità statistiche. Sono le
differenze fra le diverse unità statistiche. Un aspetto molto importante della statistica è di
misurare e spiegare la variabilità di un fenomeno.

Tratteremo in modo analogo variabilità e dispersione, anche se quest’ultima misura quanto le


singole unità statistiche differiscono da una misura di riferimento.

MISURARE LA VARIABILITA’:
Dobbiamo tradurre le differenze fra le unità in un numero.

Prewndo due unità di riferimento

21