Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
I metodi statistici sono proposti e studiati per l’analisi dei fenomeni che si manifestano in una
collettività
• Con le analisi statistiche ci si propone di individuare, descrivere, interpretare e prevedere, pur
nella varietà delle singole manifestazioni, le regolarità
che sono alla base dei fenomeni
1
Le caratteristiche di un carattere devono essere:
- incompatibili (non sovrapposte): la stessa unità statistica non può essere messa in
relazione (classificata) con più di una modalità
- esaustive: le modalità elencate debbono rappresentare tutti i possibili modi di essere del
carattere, così che tutte le unità statistiche del collettivo possano essere classificate
L’operazione di classificazione delle unità permette di ottenere tabelle e grafici (guarda tabelle
sulla slide 1)
• Distribuzione di frequenza (es. excel tabella pivot)
• Distribuzione doppia (di frequenza), bivariata
• Distribuzione di quantità [della tabella slide 42 la popolazione è formata da tre filiali che
rappresentano le unità statistiche, carattere fatturato, modalità mln euro). In questa
distribuzione si utilizza soprattutto il grafico a torta
• Serie storica [unità statistica sono gli anni, la popolazione sono i 5 anni] in questo caso la
dimensione temporale è essenziale. In questo caso si utilizza il grafico a linee
FONTI DI DATI
Sono disponibili diverse fonti informative di carattere statistico a cura di Organismi pubblici e
privati.Gli Organismi pubblici agiscono secondo una gerarchia di competenze
Ad esempio:
Enti locali: raccolgono i dati elementari
ISTAT: verifica, aggrega e pubblica i dati
SISTAN: armonizza le varie fonti di dati. Vi afferiscono le istituzioni pubbliche e private deputate
alla raccolta, elaborazione e diffusione di dati di interesse per la collettività
EUROSTAT: organismo UE che ha il compito di armonizzare la raccolta, l’analisi e la presentazione
dei dati ufficiali sulle nazioni aderenti
TIPI DI CARATTERE
- QUALITATIVI : le modalità sono categorie, attributi (sesso, stato civile, ragione sociale)
- QUANTITATIVI: discreti: le modalità sono numeri interi (numero di figli, numero di
occupati,…) e continui: le modalità sono numeri reali (altezza, peso, capitale sociale,…)
SCALE DI MISURA
Quando si fissano le modalità di un carattere ed i criteri di appartenenza alle stesse si costruisce
una scala di misura
La scala non è parte del carattere, ma scaturisce dalla sua definizione operativa
• terremoti: scala Richter scala Mercalli ...
• reddito: euro dollari altra valuta ...
Lo stesso carattere può essere letto in scale diverse
2
SCALE PER CARATTERI QUALITATIVI
• Nominali:
Le modalità sono sconnesse (non ordinabili):
confrontando due modalità si può solo dire se sono uguali / diverse
- Denominazione sociale: es: SpA Srl Sas ...
- Titolo di godimento dell’abitazione: es: Proprietà Affitto Altro titolo
• Ordinali:
Le modalità sono in sequenza logica (ordinabili): confrontando due modalità si può dire se
una precede/è nello stesso posto/segue l’altra
- Es grado di istruzione: licenza elementare, licenza media, diploma, laurea triennale, laurea
magistrale
RAPPORTI STATISTICI
3
È IL PRIMO INDICE ELEMENTARE. I rapporti statistici sono il rapporto tra due dati, di
cui almeno uno di natura statistica.
Indicano quanta parte del numeratore spetta idealmente ad un’unità del denominatore
Hanno un pregio: permettere di fare dei confronti tra situazioni diverse. Nel rapporto statistico
andiamo ad interpretare i dati, la loro natura. Dal punto di vista matematico un rapporto statistico
consiste nel fare una divisione tra due valori. Servono a confrontare dei dati che altrimenti non
sarebbero confrontabili in quanto sono stati rilevati in tempi o circostanze differenti.
nel confronto dobbiamo tenere conto delle diverse dimensioni dei due mercati. Tali rapporti
servono per fare confronti tra fenomeni perché il rapporto consente di eliminare l’influenza di
circostanze che altrimenti non renderebbero confrontabili i dati.
Nel confronto dobbiamo tenere conto delle diverse dimensioni (superfici) delle due regioni. Le
densità abitative pur essendo rapporti statistici non sono sempre confrontabili sul piano logico.
Tali rapporti servono per fare confronti tra fenomeni perché il rapporto consente di eliminare
l’influenza di circostanze che altrimenti non renderebbero confrontabili i dati.
Esempio la popolazione può essere considerata la causa di molti fenomeni dell’attività umana
come eventi demografici come nascite, morti, matrimoni ecc… Anche in questo caso dobbiamo
tenere conto delle diverse dimensioni dei due mercati. Questi rapporti sono noti anche come
indici di penetrazione. I rapporti di derivazione trovano largo impiego in demografia. Il rapporto
tra n° di nascite e n° di abitanti in un dato anno da luogo a un rapporto di derivazione che
moltiplicato per 1000 indica il n° di nascite attribuibile ad una popolazione di1000 abitanti: si
tratta di un indice grezzo di natalità.
4
Si calcolano quando interessa lo studio relativo di fenomeni antitetici che coesistono esempio le
importazioni e le esportazioni, n°maschi e femmine, giovani fino a 20 anni e adulti da 21 anni ecc…
Si calcolano:
Ha senso calcolare i rapporti di durata e di ripetizione solo nel caso di fenomeni sufficientemente
stazionari, ovvero che non presentano eccessive variazioni nel periodo considerato. In situa di non
stazionarietà bisognerebbe effettuare delle rilevazioni più accurate, ad esempio rilevare la durata
dei singoli pezzi di magazzino e poi fare la media. Questi rapporti sono utili anche in altre
circostanze ad esempio per misurare la giacenza media dei ricoverati in ospedale.
NUMERI INDICI
• Numeri indici semplici: servono a confrontare le intensità (o frequenze) di un unico fenomeno in
tempi o luoghi diversi (vengono chiamati anche elementari). Sono invarianti alle trasformazioni di
scala
• Numeri indici composti: servono a confrontare in tempi o luoghi diversi un fenomeno che risulta
dal concorso di più componenti
CON I NUMERI INDICI SI FANNO SEMPRE SOLO DIVISIONI E MOLTIPLICAZIONI
- Numeri indici a base mobile (NIbm): Li otteniamo eseguendo il rapporto tra ogni singola
osservazione x con il termine x del periodo immediatamente precedente, che quindi
t t–1
cambia ogni volta (base mobile):
sono numeri puri e quindi consentono di confrontare fenomeni con ordini diversi di grandezza.
Il denominatore del rapporto statistico cambia
L’indice del primo anno non posso calcolarlo, non c’è l’anno prima.
Osservazioni:
6
• i NI (bf e bm) sono sempre positivi, anche quando segnalano una diminuzione, quello che è
importante è se sono maggiori o minori di 1 (o 100);
• le variazioni (tendenziali e congiunturali) hanno, invece, un segno positivo o negativo (se
diverse da zero).
Spesso, però, non possiamo procedere per questa via perché non disponiamo dei dati originari.
Conosciamo, invece, i NI (bf o bm) o le corrispondenti variazioni (tendenziali o congiunturali)
In questi casi, possiamo:
• cambiare la base dei NIbf
• trasformare i NIbf in NIbm e viceversa
ricavando comunque l’informazione che ci interessa
CAMBIAMENTO DELLA BASE: Per esprimere i NIbf di una vecchia base (vb ) in NIbf di una nuova
base (nb ) utilizziamo i rapporti
7
NUMERI INDICI TERRITORIALI
I NI possono essere calcolati anche nel caso di serie territoriali
Esempio (Eurostat) : NI della popolazioni con reddito al di sotto della soglia di povertà per paese
< 1 quota di pop. al di sotto della soglia di povertà Inferiore alla media europea
>1 quota di pop. al di sotto della soglia di povertà superiore alla media europea
=1 quota di pop. al di sotto della soglia di povertà pari alla media europea
Anno 2006 – NI a Base UE=100
Es. 127 la quota di famiglie sotto la soglia di povertà erano il 27% in più rispetto alla media
europea
DISTRIBUZIONI DI FREQUENZA
La distribuzione di frequenze di un carattere è una tabella che mostra in modo efficace e sintetico i
risultati delle operazioni di classificazione e conteggio delle unità della popolazione. A seconda del
tipo di carattere, se ne possono effettuare diverse elaborazioni e rappresentazioni.
MUTABILE STATISTICA NOMINALE:
[esempio sulle slide: l’unità statistica è la singola unità statistica mentre la popolazione sono le 180
abitazioni. Carattere è il titolo di godimento e le modalità sono proprietà, affitto e altro titolo. ]
RAPPRESENTAZIONE 1
nella mutabile statistica nominale le modalità
sono ordinate in modo arbitrario (è indifferente
l’ordine)
8
Le frequenze relative rappresentano un
rapporto di composizione, permettono di
valutare l’importanza di ogni modalità e
permettono di effettuare confronti tra
popolazioni di diversa numerosità.
9
Il punto che nel piano cartesiano corrisponde alla generica coppia (x ; n ) o (x ; f ) è
i i i i
proiettato sull’asse delle ascisse. L’altezza dei bastoncini così ottenuti corrisponde alla
frequenza assoluta o relativa
- diagramma a gradini (cumulo)
Dal punto che rappresenta la generica coppia (x ; N ) o (x ;F ) si traccia verso destra un
i i i i
segmento orizzontale di lunghezza pari a 1. L’altezza di un gradino corrisponde alla
frequenza assoluta o relativa
- Diagramma a gradini (retrocumulo)
Dal punto che rappresenta la generica coppia (x ; N ) o (x ; F ) si traccia verso sinistra un
i i i i
segmento orizzontale di lunghezza pari a 1. L’altezza di un gradino corrisponde alla
frequenza assoluta o relativa
Domanda: come possiamo attribuire le frequenze alle singole modalità di ogni classe?
Se non abbiamo informazioni a priori (non abbiamo la tabella iniziale ma abbiamo solo la tabella
divisa pe classe), introduciamo la ipotesi di equidistribuzione (uniforme distribuzione)
la frequenza di una classe viene ripartita equamente tra le sue modalità
Otteniamo così le frequenze specifiche
RAPPRESENTAZIONI GRAFICHE:
- Diagramma a bastoncini: l’altezza dei bastoncini ottenuti corrisponde alla frequenza
specifica assoluta o relativa. La frequenza di una classe è uguale alla somma delle sue
frequenze specifiche
10
- Diagramma a gradini cumulato: si ottiene dalla distribuzione cumulata delle frequenze
specifiche (assolute o relative). L’altezza di un gradino corrisponde quindi alla frequenza
specifica (assoluta o relativa)
- Diagramma a gradini retrocumulato: si ottiene dalla distribuzione retrocumulata delle
frequenze specifiche (assolute o relative). L’altezza di un gradino corrisponde quindi alla
frequenza specifica (assoluta o relativa)
DISTRIBUZIONI DI FREQUENZE
Analisi e confronti
L’analisi della forma della distribuzione e il confronto tra distribuzioni rilevate in situazioni diverse
offrono spesso utili informazioni sul fenomeno considerato
In queste analisi sono spesso impiegati i concetti di: (i tre termini essenziali per descrivere la forma
di una distribuzione di frequenze)
- baricentro
- variabilità
- asimmetria
11
L’analisi grafica risulta molto utile per evidenziare particolari aspetti delle distribuzioni di
frequenza
A tale fine, si impiegano spesso anche indici di sintesi che permettono di valutare numericamente
tali aspetti. Si usano in particolare:
- indici medi
- indici di variabilità
- indici di asimmetria
MEDIE
In statistica esistono le medie, non la media. Le medie hanno l’obiettivo di misurare il baricentro di
una composizione.
Una media è un indice impiegato per sintetizzare le diverse modalità di una distribuzione di
frequenze con una sola modalità qualitativa (nel caso di mutabile) o un solo valore (nel caso di
variabile)
Essa fornisce una buona sintesi delle differenti modalità di una distribuzione solo se le rappresenta
adeguatamente
Esistono delle medie che non sono dei numeri ma sono delle categorie.
TIPOLOGIA
- Medie di posizione (o medie lasche)
Sono individuate solo tramite le frequenze. Si possono quindi determinare anche nel caso
di mutabili statistiche (distribuzioni di frequenza di carattere qualitativa). Le più utilizzate
sono : Moda Mediana
- Medie algebriche (o medie analitiche)
Sono individuate anche attraverso i valori
Si possono quindi calcolare solo nel caso di variabili statistiche (distribuzioni di frequenze
per caratteri quantitativi). Le più utilizzate sono le medie: Aritmetica Geometrica Armonica
Quadratica ...
MEDIE DI POSIZIONE
Moda
La domanda a qui risponde la moda è: quale modalità si osserva con maggiore frequenza?
Moda: Indice che rappresenta la modalità che presenta la frequenza più elevata
Nell’ esempio sulle slide la moda è PROPRIETÀ non 90!!!!! Per calcolare il peso della moda
proprietà calcolo le frequenze relative.
Quando si supera il 50% +1 la moda ha fatto una buona sintesi.
Quando ci sono variabili statistiche continue dobbiamo tenere conto dell’ampiezza delle classi e
calcolare le frequenze specifiche.
A volte la distribuzioni di frequenze sono bimodali ovvero che una distribuzione evidenzia la
presenza di due mode. La presenza di due mode può suggerire che la popolazione non è composta
da unità omogenee ma da due gruppi distinti.
Quindi:
- Possiamo determinare la moda (Mo) qualunque sia la scala di misura del carattere
- La sintesi operata da Mo è ritenuta adeguata quando la sua frequenza rappresenta almeno
il 50% dei casi
- Se le modalità sono raggruppate in classi, individuiamo la classe modale tramite le
frequenze specifiche (assolute o relative)
12
MEDIANA
Bisogna distinguere due tipologie di mediana: distribuzioni per unità e distribuzioni di frequenza.
DISTRIBUZIONI PER UNITÀ
Domanda: quel è il reddito che si colloca in posizione centrale? (relativo a esempio sulle slides)
Per rispondere dobbiamo prima ordinare i valori. Il reddito che sta a metà si chiama reddito
mediano. La mediana si basa sulla posizione
Mediana: divide in due gruppi di uguale numerosità la successione ordinata delle modalità
Due definizioni:
- Definizione 1
La mediana (Me) è la modalità che occupa la posizione centrale della successione ordinata
(in senso non decrescente)
- Definizione 2
La mediana (Me) è la modalità che divide l’insieme ordinato delle modalità in due gruppi di
uguale numerosità
Si tratta quindi di un indice di posizione
I 2 gruppi definiti da Me hanno le seguenti proprietà (sia per N pari sia dispari)
- il 1° gruppo comprende le modalità che sono al più uguali a Me
- il 2° gruppo comprende le modalità che sono almeno uguali a Me
la mediana è il valore di x nella posizione centrale
Se il carattere è quantitativo e si vuole un unico valore per Me, si può assumere la semisomma
(valore centrale):
DISTRIBUZIONE DI FREQUENZE
Individuiamo la riga della tabella in cui la frequenza cumulata relativa uguaglia o supera per la
prima volta 0,50. In corrispondenza, leggiamo il valore di Me. Possiamo scrivere convenzionalmen:
Nel caso di variabili discrete dobbiamo tenere conto anche delle informazioni fornite dalle
frequenze relative, cumulate e retrocumulate
13
Con la variabile continua la distribuzione è per classi e se voglio un numero compreso all’interno
della classe mediana. All’interno della classe mediana individuiamo Me facendo ricorso
all’interpolazione lineare. (guarda grafico slides)
QUARTILI
Sono i 3 valori Q1 Q2 Q3 che dividono la successione ordinata dei valori in 4 gruppi di uguale
numerosità. Bastano 3 quartili per fare quattro gruppi.
Q2= Me
14
DECILI
Sono i 9 valori D1 D2...D9 che dividono la successione ordinata dei valori in 10 gruppi di uguale
numerosità
Osservazione: D5=Q2= Me
CENTILI
Sono i 99 valori C C ... C che dividono la successione ordinata dei valori in 100 gruppi di uguale
1 2 99
numerosità
Osservazione: C25= Q1
C50= Q2 = Me
C75= Q3
MEDIE ALGEBRICHE
Se il carattere è quantitativo, possiamo calcolare anche delle medie algebriche. Queste medie si
ottengono effettuando operazioni algebriche sui valori che il carattere assume nelle popolazione.
MEDIA ARITMETICA SEMPLICE
È la somma dei valori dati divisa per il numero delle osservazioni.
La somma al numeratore rappresenta quanta parte del totale spetta ad ogni unità del
denominatore nell’ipotesi che esso sia equamente ripartito (es. redditp, addetti, …).
M1 può essere calcolata anche se T non ha significato concreto (es: la somma delle altezze di N
individui)
DEFINIZIONE 2
È la somma dei valori (x1, x2 …) ponderati con le frequenze relative- pesi (f1, f2 …)
SISTEMA DI PESI
Non sempre la ponderazione si effettua con le frequenze. Il prezzo medio d’acquisto è dato dal
rapporto tra SPESA COMPLESSIVA / QUANTITÀ COMPLESSIVA. Dati i prezzi p i e le quantità qi , la
spesa nell’i-esimo negozio è pari a si= pi x qi. si può allora scrivere:
MEDIE DI RAPPORTI
• La media aritmetica ponderata dà lo stesso risultato del rapporto tra i dati aggregati delle
due regioni
• I pesi da assumere sono i denominatori dei singoli rapporti (così si semplificano!)
• Calcolare la media aritmetica semplice è sbagliato (tranne nel caso particolare in cui i
denominatori sono uguali)
[guarda esempio delle regioni sulle slides]
PROPRIETÀ ASSOCIATIVA
La procedura seguita nel caso c), si basa su una importante proprietà di cui gode la media
aritmetica
Proprietà associativa di M1 :
La media aritmetica di una variabile osservata su una popolazione suddivisa in p gruppi è uguale
alla media aritmetica ponderata delle medie aritmetiche di gruppo, con pesi pari alle numerosità
dei gruppi
Se il carattere è discreto per classi, il calcolo di M1 segue le stesse regole viste in precedenza nei
casi a), b) e c)
In particolare:
• il valore centrale della classe si calcola come nel caso
continuo: [ (Einf + Esup)/2 ]
• il valore di M , spesso non intero, non va arrotondato (si preferisce mantenere la relazione con il
1
totale)
16
PROPRIETÀ DI BILANCIAMENTO DEGLI SCARTI
SEMPRE la somma degli scarti positivi e negativi è ZERO.
CONDIZIONE DI INTERNALITÀ
se ad esempio ci sono tre valori che sono 20,24 e 28 ovviamente la
media è compresa tra questi tre valori e non potrà mai essere 18
oppure 30.
PROPRIETÀ DI MINIMO
Fa riferimento ad una funzione molto più semplice. In questo caso la media è l’unico valore che
minimizza la somma dei valori al quadrato. MINIMO è DIVERSO DA ZERO
SI HA S.S.S. A=M1
La proprietà può essere dimostrata anche per via analitica, calcolando le derivate prima e seconda,
come avete imparato in Matematica 1 / Matematica Generale!
17
Secondo chisini Tu non devi applicare una media in modo critico/meccanico ma devi capire a cosa
ti serve e devi sapere qual è l’aspetto che rimane invariato
“una media è una sintesi di differenti valori, tale da non alterare la visione d’insieme di un altro
fenomeno che da tali valori dipende”
Seguendo questa imposizione M1 è il valore che, sostituito alle singole osservazioni, ne lascia
invariata la somma. (guarda dimostrazione sulle slides pag.40)
Secondo Chisini:
MEDIA ARMONICA
Si assume che xi>o i=1,2,…,N
È il reciproco della media aritmetica.
M-1 è il valore che, sostituito alle singole osservazioni, ne lascia invariata la somma dei reciproci
MEDIA GEOMETRICA
Si assume che xi>o i=1,2,…,N
Simbolo: M0
Definizione: M0 è il valore che, sostituito alle singole osservazioni, lascia invariato il prodotto.
18
RELAZIONE TRA MEDIA GEOMETRICA (M0) E ARITMETICA (M1)
il logaritmo della media geometrica è la media aritmetica dei logaritmi delle osservazioni
MEDIA QUADRATICA
Si assume che xi>=o i=1,2,…,N
Simbolo: M2
Definizione: M2 è il valore che, sostituito alle singole osservazioni, lascia invariata la somma dei
quadrati. È la radice quadrata della media dei quadrati .
RELAZIONE D’ORDINE
( Si assume che xi>=o i=1,2,…,N )
Si può dimostrare che le quattro medie funzionali presentate soddisfano la seguente relazione
d’ordine
Queste non sono le uniche medie funzionali. Con il metodo di Chisini, è infatti possibile trovare
altre medie (Videolezione: Focus 6)
19
NUMERI INDICI COMPOSTI
I numeri indici composti (complessi) sintetizzano più componenti di uno stesso fenomeno per
seguirne le variazioni nel tempo (o nello spazio). Sono un evoluzione dei numeri indici semplici. La
differenza è che nei numeri semplici hanno un solo fenomeno con una sola componente mentre
quelli complessi hanno più componenti.
(guarda esempio sulle slides)
Si può superare il problema dell’eterogeneità (unità di misura diverse) adottando come peso la
SPESA che viene sempre espressa in valuta.
S= pq
Indichiamo con:
p eq
i0 i0 il prezzo e la quantità del bene i-esimo al tempo base
p eq
it it il prezzo e la quantità del bene i-esimo al tempo t
Ci sono quattro tipi di spesa:
- Due reali: prezzo e quantità dello stesso periodo
P0 x q0 e Pt x qt
- Due figurative: il tempo o la quantità deve essere base
P0 x qt e. Pt x q0
Si calcola con la media ponderata dei rapporti 0It con pesi (relativi)
costanti al variare di t.
INDICE DI PAASCHE
La differenza con laspeyres è il peso che è variabile. Il peso è:
20
Se il rapporto è 1 vuol dire che ho pagato la stessa cifra e che le due spese coincidono. Se l’indice >
1 vuol dire che i prezzi al tempo t sono aumentati a parità di quantità acquistate: la spesa reale è
più grande della spesa che avrei sostenuto se avessi comprato le stesse quantità però con i prezzi
dell’anno base. Se l’indice è < 1 vuol dire che i prezzi al tempo t sono diminuiti a parità di quantità
acquistate.
OSSERVAZIONE: L’indice di Paasche può essere ottenuto anche utilizzando i numeri indici semplici
dei prezzi ( i rapporti 0It) con una media armonica e adottando come pesi i valori reali pt x qt .
Nelle analisi economiche si osserva un aumento delle quantità acquistate per quei beni i cui prezzi
comparativamente si riducono (e viceversa)
Laspeyres tiene fisse le quantità; Paasche le aggiorna.
Laspeyres ignora l’aumento delle quantità dei beni i cui prezzi aumentano relativamente di meno,
cioè tende a sovrastimare il tasso di crescita dei prezzi. Paasche, invece, tende a sottostimarlo
(ovviamente, non possiamo vedere queste tendenze nel nostro esempio!)
INDICE DI FISHER
Viene chiamato anche indice ideale. Per neutralizzare le opposte tendenza dei due indici, Fisher ha
proposto di utilizzare la media geometrica dei due indici:
INDICI AZIONARI
Anche gli indici di Borsa sono indici composti dei prezzi, che sintetizzano il valore del paniere di
titoli azionari che rappresentano
Sono calcolati con differenti metodologie, a seconda del sistema di ponderazione dei titoli che
viene adottato:
• indici equally weighted
• indici price weighted
• indici value weighted (ad esempio, per la Borsa di Milano, il noto FTSE MIB che dal giugno
2009 ha sostituito lo S&P MIB)
FTSE MIB
(Financial Times Stock Exchange Milano Indice di Borsa) è l’indice di riferimento per il mercato
azionario italiano
Rappresenta circa l’80% della capitalizzazione di mercato ed è composto da azioni di primaria
dimensione e liquidità appartenenti al mercato azionario italiano
Il paniere del FTSE MIB racchiude, di norma, le azioni delle 40 più importanti società italiane
La composizione del paniere viene revisionata trimestralmente
L’indice viene calcolato in tempo reale
21
VARIABILITÀ
è l’attitudine di una variabile (carattere quantitativo) ad assumere valori differenti.
Nei fenomeni c’è variabilità, perché siamo tutti diversi.
Quando si parla di variabilità noi faremo esclusivamente riferimenti alle variabili quantitative. La
mutabilità invece fa riferimento alle variabili qualitative.
[indici di baricentro servono per misurare la posizione della dispersione]
Gli indici di variabilità servono per misurare la dispersione dei caratteri. Nessun indice di
variabilità non può MAI essere negativo.
Questi devono essere:
- valore 0 solo nel caso di assenza di variabilità
- Valori positivi crescenti al crescere della variabilità
Gli indici più semplici e maggiormente utilizzati si basano sulle differenze:
- Tra due indici di posizione (INTERVALLI DI VARIAZIONE)
- Tra i valori e una media (SCOSTAMENTI MEDI)
INTERVALLI DI VARIAZIONE
[un intervallo è centrale se lascia alla sua sinistra e alla sua destra la stessa percentuale di
frequenze]
• Indicano l’ampiezza dell’intervallo centrale entro il quale è compresa una certa frazione
della popolazione
• Un intervallo centrale lascia la stessa frazione di casi con valori inferiori e superiori agli
estremi dell’intervallo stesso
• Il carattere è tanto più variabile quanto più l’intervallo è ampio (a parità di condizioni:
frazione di casi contenuti, unità di misura, ordine di grandezza ...)
• I caratteri discreti pongono alcuni problemi poiché l’intervallo (basato su indici di
posizione) può contenere una frazione di casi diversa da quella prefissata
Differenza interquartile
È l’ampiezza dell’intervallo che ha come estremo il primo e terzo quartile
Q3 – Q1
Caratteristiche:
- esclude il primo e ultimo 25%
- se risulta uguale a 0, non è certa l’assenza di variabilità
- l’intervallo contiene il 50% delle osservazioni
si può quindi definire anche come: l’ampiezza dell’intervallo centrale che contiene il 50% delle
osservazioni ordinate.
22
Differenza interdecile
È l’ampiezza dell’intervallo che ha come estremi il primo e il nono decile
D9 – D1
Caratteristiche:
- se risulta uguale a 0, non è certa l’assenza di variabilità
- l’intervallo contiene il 80% delle osservazioni
si può quindi definire anche come: l’ampiezza dell’intervallo centrale che contiene il 80% delle
osservazioni ordinate.
SCOSTAMENTI MEDI
Si basano sulle differenze tra i singoli valori di un carattere quantitativo e una media.
X1 – M
Si calcolano sintetizzando con una media algebrica gli scarti assoluti da un indice medio. Si
considerano gli scarti in valore assoluto per evitare possibili bilanciamenti, che potrebbero far
risultare nullo un indice in presenza di variabilità.
Scostamento medio da Me
- Nel caso di distribuzioni per unità
Scostamento medio da M1
- nel caso di distribuzioni per unità
23
- nel caso di distribuzioni di frequenze
OSSERVAZIONE: la relazione d’ordine SMe =< SM1 =< σ non è necessariamente verificata quando la
distribuzione è per classi, perché M1 e Me sono, in genere, delle approssimazioni dei veri valori.
[guarda esempi sulle slides]
VARIANZA
Varianza ≠ variabilità
La varianza è un indice che indica il quadrato dello scarto quadratico medio.
Non è un indice di variabilità ma è il quadrato di un indice di variabilità.
- Nel caso di distribuzioni di unità
PROPRIETÀ DI SCOMPOSIZIONE
Sia X un carattere quantitativo distribuito su una popolazione le cui unità sono suddivise in p
gruppi di numerosità nj j = 1, 2,..., p
Siano fj, Mj e σj2a frequenza relativa, la media aritmetica e la varianza del j-esimo gruppo
Siano M e 2 la media e la varianza della popolazione
Si può dimostrare che vale la seguente scomposizione di 2:
LA PROPRIETÀ DI SCOMPOSIZIONE
VALE PER σ2 NON PER
24
PROPRIETÀ DELLE TRASFORMAZIONI LINEARI
Se tra i due caratteri quantitativi Y e X sussiste la relazione Y = a + bX con a e b costanti, allora
σ2 (Y) = b2 σ2(X)
25
𝝈max è lo s.q.m. della variabile statistica che si ottiene considerando la situazione di massima
variabilità a parità di media, valori estremi e numerosità delle osservazioni.
L’indice 𝞼 normalizzato, quindi, è dato da
Esso è invariante alle trasformazioni lineari: Se tra i due caratteri quantitativi Y e X sussiste la
relazione Y = a + bX con a e b costanti, allora (X)=(Y)
BOX PLOT
Abbiamo visto che le medie e gli indici di variabilità forniscono indicazioni sintetiche sulle principali
caratteristiche riguardanti la forma delle distribuzioni di frequenza
Per rendere più immediata l’informazione, si utilizza spesso un grafico, detto box plot o
diagramma a scatola, che, in una versione standard, si basa su tre elementi
1. una linea (o un punto) che indica la posizione della
mediana
2. un rettangolo (box) la cui lunghezza dipende da una misura di variabilità (differenza
interquartile)
3. due segmenti (i baffi) che congiungono i due lati che costituiscono le estremità del
rettangolo ai valori estremi della distribuzione
Il box plot di una distribuzione simmetrica ha la mediana al centro del rettangolo e i due baffi di
uguale lunghezza
Confrontando i box plot per gruppi di dati omogenei, se ne può valutare anche l’asimmetria e la
variabilità: un rettangolo più ampio e baffi più allungati segnalano una maggiore variabilità
Esistono altre versioni del box plot
Ad esempio, J. Tukey ha suggerito di costruire i baffi utilizzando
Q1– 1,5·(Q3– Q1) e Q3+ 1,5·(Q3 – Q1) che possono non coincidere con Min e Max
I valori esterni ai baffi, considerati anomali, sono rappresentati con dei punti
Aneddoto
Quando gli fu chiesto perché avesse scelto una distanza
dai quartili pari a 1,5·(Q3 – Q1), Tukey rispose:
“perché 1 è poco e 2 è troppo!”
ASIMMETRIA
Guarda video 9
CONCENTRAZIONE
È un concetto nato nelle analisi statistiche delle distribuzioni dei redditi. Voglio capire come il
reddito viene distribuito. Se dico che in un certo paese c’è una grande concentrazione dei redditi
vuol dire che c’è una frazione della popolazione(frazione limitata) molto ricca dove si concentra la
ricchezza e un’altra frazione (frazione elevata) di popolazione molto più povera.
26
Il concetto si può estendere a tutti i i caratteri trasferibili, per i quali si può ipotizzare, almeno sul
piano teorico, che un’unità statistica ceda (in tutto o in parte) la quantità posseduta a un’altra
unità. Si può ad esempio considerare la concentrazione:
- del capitale sociale delle aziende
- del numero di operai delle aziende
- del numero di macchinari
- del numero di sportelli degli istituti bancari ecc..
per ora facciamo riferimento ai redditi
OSSERVAZIONE
I REDDITI VANNO SEMPRE ORDINATI, ALTRIMENTI SBAGLIAMO I CALCOLI
Le Fi e le Qi possono essere calcolate anche calcolando rispettivamente:
- Le frequenze relative fi e
- Le quantità relative qi = ti/T
PROPRIETÀ
spesso se non ordiniamo i redditi la seconda proprietà non torna
DIAGRAMMA DI LORENZ
Nel 1905 l’economista statunitense Lorenz ha introdotto una rappresentazione grafica che
consente di valutare con immediatezza visiva il grado di concentrazione. In questo diagramma si
confrontano tre situazioni:
- Massima concentrazione
- Concentrazione nulla
- Concentrazione osservata (o empirica)
27
[guarda i tre diversi grafici sulle slides 8 pag. 13-14-15]
Nel diagramma la concentrazione è
più bassa quando la spezzata di Lorenz si avvicina alla retta di equipartizione (sarà più ripida)
più elevata quando la spezzata di Lorenz si avvicina alla spezzata di max concentrazione
OSSERVAZIONI:
1) Nel caso di distribuzioni per unità, l’asse delle ascisse è suddiviso in intervalli di ampiezza
costante 1/N
2) Al posto delle distribuzioni relative si possono rappresentare le distribuzioni percentuali (il
quadrato avrà lati di lunghezza 100)
3) Per N elevato la spezzata di massima concentrazione tende a sovrapporsi ai lati inferiore e
destro del quadrato
4) Quando la distribuzione è per unità e presenta un numero elevato di valori, la spezzata
empirica tende ad assumere l’aspetto di una curva (detta curva di Lorenz)
5) L’inclinazione dei segmenti successivi della spezzata empirica è crescente/non decrescente
Quando abbiamo le distribuzioni per classi per i totali di classe (approssimati) prendiamo i valori
centrali
Per l’indice di Gini non servono le frequenze cumulate ma bastano le frequenze relative.
Con l’indice di Gini siamo in grado di dare un numero alla concentrazione
trattandosi di un rapporto di composizione, l’indice è
normalizzato e assume valori nell’intervallo [0;1]
OSSERVAZIONI
Quando l’indice
è inf a 0,4 è contenuto/basso
Tra 0,4 e 0,6 è intermedio
Tra 0,6 e 0,9 è elevato
Tra 0,9 e 1 è molto elevato
1) Per N elevato N/(N-1) tende a 1 e si può trascurare. Ciò è utile quando N non è noto ma lo
si può supporre elevato (es. sono note frequenze e quantità %)
2) Nel caso di distribuzioni per unità fi = 1/N
28
3) SOLO nel caso di distribuzioni per unità (dove ho i redditi dei singoli individui ) si può
impiegare la formula
[ noi negli esercizi avremo quasi sempre le distribuzioni di frequenze ]
Questa formula di R è utile quando disponiamo dei dati elementari ordinati in
un foglio elettronico
.
L’indice di GINI è UNO DEI POCHI CHE SODDISFA LA PROPRIETÀ DI INVARIANZA ALLE
TRASFORMAZIONI DI SCALA.
Se tra due caratteri X e Y sussiste la relazione Y=bX. b>0 allora, R(Y)=R(X)
Se trasformo i redditi da euro a dollari l’indice di gini non cambia, non risente quindi della valuta
con cui stiamo misurando .
SECONDA PARTE
ANALISI DELL’ASSOCIAZIONE
Statistica bivariata
Significa che l’analisi prende in considerazione due caratteri rilevati congiuntamente sulle unità
statistiche di una popolazione. Si ricorre alla rilevazione congiunta di due (o più) caratteri quando
si ritiene che fra essi possano esservi delle relazioni.
Il motivo che ci fa analizzare la statistica bivariata è che noi vogliamo studiare le relazioni che
esistono tra due caratteri.
L’analisi delle relazioni tra caratteri è un aspetto importante della ricerca
Sulla base di teorie e ragionamenti logici si possono avanzare a priori delle ipotesi di causa-effetto
(carattere che influenza un altro carattere, la freccia è unidirezionale) o di interrelazione (i due
caratteri si influenzano a vicenda, la freccia è bidirezionale) tra caratteri
Esempi:
- Quantità di fertilizzante --> quantità prodotta
- Reddito --> spesa
- Età dello sposo <--> età della sposa
[ in generale nelle relazioni dove ci sono input e output è una relazione di causa effetto]
- Si ha dipendenza logica tra due caratteri quando si suppone a priori una relazione causa-
effetto (non centra la statistica ma le ipotesi)
- Si ha interdipendenza logica tra due caratteri quando si suppone a priori un’interrelazione
(es. età della sposa e dello sposo)
- Si ha indipendenza logica tra due caratteri quando si suppone a priori che non possa
sussistere alcuna relazione (es. consumo di gelato e numero di attacchi di squali)
L’analisi statistica dell’associazione tra due caratteri è basata sull’osservazione empirica dei
fenomeni
In certi casi l’analisi statistica porta però a risultati ambigui, cioè all’individuazione di associazioni
spurie
L’associazione spuria può essere dovuta
- alle caratteristiche dei dati utilizzati
- alla presenza di un terzo carattere che influisce sui due considerati
ASSOCIAZIONI SPURIE: associazioni non logiche
29
Esempi di associazioni spurie: vendita di gelati e numero di attacchi di squali (i due fenomeni sono
affetti dallo stesso tipo di stagionalità); relazione tra numero di negozio di abbigliamento e il
numero di bambini iscritti a scuola (i due fenomeni sono entrambi influenzati dalla dimensione
della città)
L’analisi statistica delle relazioni deve essere sempre sostenuta dall’analisi logica delle stesse!
A seconda degli obiettivi dell’indagine statistica, si possono utilizzare diversi metodi per studiare
l’associazione tra due caratteri. La scelta e l’impiego di un metodo dipende anche dal tipo di
caratteri considerati.
DISTRIBUZIONI BIVARIATE
Tabella a doppia entrata
Nella statistica bivariata si analizzano congiuntamente due caratteri. La prima necessità è costruire
tabelle di sintesi analoghe alle distribuzioni di frequenze che già conosciamo.
Quando i due caratteri hanno poche modalità o classi si utilizza spesso la distribuzione di
frequenze doppia o bivariata, che si rappresenta con una tabella a doppia entrata.
Le distribuzioni di frequenze doppie o bivariate possono essere rappresentate graficamente, per
esempio con grafici tridimensionali o, se entrambi i caratteri sono quantitativi, con grafici a bolle.
30
La tabella a doppia entrata può essere rappresentata anche in termini di frequenze relative (o
percentuali)
ovviamente: o 100
DISTRIBUZIONI DI FREQUENZE
In una tabella a doppia entrata si individuano varie distribuzioni
• La distribuzione congiunta mostra come sono ripartite le N unità tra le modalità dei due
caratteri considerati congiuntamente.
• Le due distribuzioni marginali mostrano come sono ripartite le N unità tra le modalità dei
due caratteri considerati singolarmente
• Per ognuno dei due caratteri si possono individuare altre distribuzioni dette parziali o
condizionate (quando ci si concentra su una sola colonna o riga). Per confrontare le
distribuzioni parziali di un carattere è necessario tenere conto del fatto che normalmente i
totali marginali sono diversi. Le frequenze condizionate vengono perciò espresse in termini
relativi (o percentuali)
CONNESSIONE
L’analisi della connessione tra due caratteri può essere condotta quando si dispone della loro
distribuzione bivariata. Nel seguito consideriamo il caso di due caratteri qualitativi. Il metodo può
però essere impiegato anche per altri tipi di carattere (per la nota gerarchia tra scale di misura).
L’analisi della connessione, si basa sul confronto fra la situazione osservata nella realtà e le
seguenti due situazioni estreme:
- Connessione minima o nulla (indipendenza distributiva)
- Connessione massima
31
L’INDIPENDENZA DISTRIBUTIVA è UNA RELAZIONE SIMMETRICA: SE A NON È CONNESSO CON B,
ALLORA B NON È CONNESSO CON A.
PERFETTA INTERDIPENDENZA
Tra i caratteri A e B esiste perfetta interdipendenza in distribuzione (massima connessione
bilaterale) se ad ogni modalità di un carattere corrisponde un’unica modalità dell’altro carattere e
viceversa
Osservazione
In caso di massima connessione bilaterale, ogni riga e ogni colonna della tabella bivariata hanno
un’unica nij≠ 0
32
Quando però la tabella non è quadrata questo non
funziona.
INDICI DI CONNESSIONE
All’analisi disaggregata delle contingenze si può abbinare il calcolo di un indice che consenta di
valutare il grado di connessione tra i due caratteri
La sintesi è di solito effettuata sulla base di un’opportuna media (che non operi compensazioni tra
contingenze di segno opposto)
Le contingenze sono tante quante sono gli incroci della tabella bivariata.
33
Si può dimostrare che, nel caso di massima connessione (unilaterale o bilaterale), l’indice M2(D)
assume valore
quindi: e
INDIPENDENZA IN MEDIA
UN CARATTERE QUANTITATIVO
Per valutare la dipendenza in media del carattere Y dal carattere A si verifica il comportamento
delle medie parziali
al variare delle modalità di ai
34
Si dice che Y è indipendente in media da A se le medie parziali NON VARIANO, ovvero se:
se anche una è diversa, vuol dire che c’è dipendenza in media e
bisogna quindi calcolare il grado di dipendenza in media
[se un esercizio sulla dipendenza in media ha solo un carattere quantitativo si calcola una sola
media, se invece ha entrambi i caratteri quantitativi bisogna stare attenti sulla domanda]
Stabilito che un carattere non è indipendente in media dall’altro, diventa interessante valutarne
l’associazione
L’analisi può essere svolta con l’impiego di:
• indici (rapporto di correlazione)
• grafici (spezzata di regressione)
RAPPORTO DI CORRELAZIONE
Dipendenza in media di Y da A
Dalla definizione di indipendenza in media, sembra naturale basare l’indice su una sintesi dei p
scarti assoluti
L’indice di variabilità (sigma FRA alla seconda di Y) è una sintesi di tali scarti
Sfruttando la proprietà di scomposizione della varianza si può costituire l’indice che consente di
misurare il grado di dipendenza in media di Y da A
RAPPORTO DI CORRELAZIONE DI PEARSON (1905)
essendo un rapporto di composizione, l’indice
assume valori nell’intervallo [0;1] o [0;100]
eta
il rapporto di correlazione vale:
- 0 quando le medie parziali sono tutte uguali (indipendenza in media di Y da A)
- 1 quando la varianza nei gruppi è nulla (si realizza se in ogni gruppo si ha una sola
frequenza non nulla, quindi le modalità sono tutte uguali fra loro e uguali alla media
parziale. Si ha quindi anche perfetta dipendenza distributiva unilaterale di Y da A)
35
Dipendenza in media di Y da X e di X da Y
Se entrambi i caratteri sono quantitativi (e se entrambe le relazioni hanno senso sul piano logico!)
si possono calcolare due rapporti di correlazione
SPEZZATA DI REGRESSIONE
È un grafico che rappresenta la dipendenza delle medie di un carattere dai valori dell’altro
• Nel caso della dipendenza in media di Y da X, nel piano cartesiano si uniscono con segmenti
di retta i punti di coordinate (xi; yi)
• Nel caso della dipendenza in media di X da Y, nel piano cartesiano si uniscono con segmenti
di retta i punti di coordinate (yj; xj)
Dipendenza in media di Y da X
i punti non hanno lo stesso peso, perché ogni media
è la sintesi di un diverso numero di osservazioni. La
spezzata rappresenta una tendenza statistica:
all’aumentare di xi le medie parziali yi tendono a
diminuire
Dipendenza in media di X da Y
i punti non hanno lo stesso peso, perché ogni
media è la sintesi di un diverso numero di
osservazioni. La spezzata rappresenta una
tendenza statistica: all’aumentare di yj le medie
parziali xj tendono a diminuire
37
Il segno degli scarti ci dice se il pallino sta in un quadrante pari o dispari
nel I e III quadrante gli scarti di x e y (differenza di x/y
rispetto alla loro media) hanno segni concordi: nel
quadrante I sono positivi mentre nel terzo sono
negativi.
per sapere se prevale il segni + o – si calcola la loro media aritmetica detta COVARIANZA
• Cov(X,Y) > 0 significa che i due caratteri tendono ad assumere valori concordanti (quindi
sono nel I o III quadrante)
• Cov(X,Y) < 0 significa che i due caratteri tendono ad assumere valori discordanti (quindi
sono nel II o IV quadrante)
Il problema di questo indice è che non può essere interpretato in termini di intensità
la covarianza è un indice di varianza della statistica bivariata.
DISUGUAGLIANZA DI CAUCHY-SCHWARTZ
Si può dimostrare che
Valendo l’uguaglianza s.s.s. tutti i punti (xi;yi) giacciono su una retta (ascendente o discendente)
Cov(X,Y) è quindi una misura del legame lineare tra i due caratteri
38
DIPENDENZA DISTRIBUTIVA E IN MEDIA
- se tra X e Y c’è indipendenza distributive 𝛔XY=0
Non vale il viceversa
- se almeno un carattere è indipendente in media dall’altro 𝛔XY=0
non vale il viceversa
ATTENZIONE: 𝛔XY=0 non significa assenza di legame, ma solo assenza di legame lineare tra X e Y
CORRELAZIONE
Il segno della covarianza indica il verso (segno) del legame lineare tra i due caratteri
Per valutarne l’intensità, conviene fare in modo che l’indice assuma valori in un prefissato
intervallo. Dalla disuguaglianza di Cauchy-Schwartz si ricava:
valendo l’uguaglianza s.s.s tutti i punti giacciono su una retta
da ciò si ricava il COEFFICIENTE DI CORRELAZIONE LINEARE DI PEARSON
Il profe ha detto che raramente questo argomento appena affrontato (correlazione) viene
affrontato nella parte degli esercizi ma soprattutto nella parte teorica.
Guarda foto sul telefono dei vari esempi con i punti
REGRESSIONE
Con l’analisi della concordanza i due caratteri sono trattati in modo simmetrico. In molti casi
l’analisi logica e le ipotesi teoriche consentono di trattare i due caratteri sulla base di una relazione
di causa effetto.
In questo contesto il ‘carattere causa’ è detto VARIABILE INDIPENDENTE e il ‘carattere effetto’ è
detto VARIABILE DIPENDENTE.
39
Se l’esercizio chiede di calcolare il coefficiente di regressione è inutile sapere quale carattere è la
causa e quale è l’effetto.
SEMPLICE MODELLO DI DIPENDENZA DI UNA VARIABILE Y (effetto dipendente) A UNA VARIABILE
X (causa indipendente)
RETTA INTERPOLANTE
La tendenza della spezzata empirica si può riprodurre interpolando tra i punti con una retta
appropriata (una retta che rappresenta al meglio la condizione di dipendenza di y a x ovvero che
passa tra i punti)
L’interpolante è utile per:
- sintetizzare la relazione
- agevolare i confronti
- completare serie lacunose
- effettuare previsioni
- ….
MODELLO DI REGRESSIONE
È composto da una equazione che suddivide la parte sinistra da quella destra.
è un modello statistico non matematico (perché se fosse
matematico U non ci sarebbe)
INTERPOLAZIONE (LINEARE)
METODO DEI MINIMI QUADRATI
Il problema dell’interpolazione riguarda la scelta di un opportuno criterio che permetta di
individuare un’appropriata retta interpolante.
Il criterio di accostamento più utilizzato è noto come
Metodo (o condizione) dei minimi quadrati
i valori da attribuire a p0 e p1 quelli che rendono la più piccola possibile
(minima non siginifica zero) la somma dei quadrati dei residui U
40
per trovare i parametri si utilizzano metodi matematici
Per garantire il minimo è necessario che le due derivate parziali (rispetto a p 0 e p1) siano nulle.
Dall’operazione di derivazione si ottengono le condizioni del 1° ordine rappresentate dal sistema
normale:
guarda come svolgere il sistema sulle slide
pag. 40
PROPRIETÀ
Dalla 1° equazione del sistema normale
[per gli esercizi è rilevante sapere quale variabile sia a destra e quale a sinistra]
REGRESSIONE DI X RISPETTO A Y
Scambiando i ruoli delle variabili si può considerare anche il modello di regressione
Ovviamente dal punto di vista interpretativo non è sempre possibile riconoscere un significato ad
entrambi i modelli. La condizione dei minimi quadrati è
Operando come nel caso precedente, si ottengono le
seguenti soluzioni:
I coefficienti angolari p1 e q1 delle due rette hanno lo stesso segno (quello di 𝜎XY )
Se la serie storica ha un numero dispari di periodi, conviene porre l’unità centrale uguale a 0. Con
questa scelta si ha e si semplificano anche le espressioni
della sequenza operativa
41
Invece di numerare i numeri da 1 a 7 utilizziamo i numeri negativi simmetrici a 0 (guarda es. pag
59) e in questo modo la somma dei periodi è 0.
RETTE DI REGRESSIONE
Relazione con r(X,Y)
Si dimostra che il coefficiente di correlazione lineare è la media geometrica dei coefficienti
angolari delle due rette di regressione (alla radice quadrata viene attribuito il segno dei due
coefficienti)
Dimostrazione:
r(X,Y) è la sintesi di una doppia interpolazione
42
VERIFICA DELL’ADATTAMENTO (ADATTAMENTO DELLA RETTA INTERPOLANTE
OTTENUTA CON IL METODO DEI MINIMI QUADRATI AI PARAMETRI REALI)
Dopo aver determinato la retta interpolante, è necessario controllare se questa è idonea a
rappresentare la relazione tra le due variabili.
La verifica della bontà di adattamento del modello scelto si basa sull’analisi grafica e numerica dei
residui d’interpolazione
Il sistema normale si può riscrivere come
in altri termini, i residui dei minimi quadrati
1- Hanno media nulla
2- Non sono correlati con la variabile
indipendente (U e X sono incorrelati)
se la somma dei residui è 0 vuol dire che alcuni residui sono positivi altri negativi
ANALISI DEI RESIDUI
• La proprietà 1 implica che i residui presentano segni sia positivi sia negativi
• La proprietà 2 implica che i residui non dipendono linearmente dalla variabile indipendente
La verifica dell’adattamento può allora essere condotta verificando se
1. l’ordine di grandezza dei residui è contenuto
2. la successione dei segni dei residui è accidentale
L’analisi si può effettuare considerando i valori dei residui ordinati rispetto ai valori di X
qualcosa nel modello non funziona, non si vede una sistematicità, la retta sta
non è lineare passando in mezzo ai punti senza ess ere n
n sistematicamente o positiva o negativa
43
INDICE DI DETERMINAZIONE
R2 è un rapporto di composizione ed assume quindi valori nell’intervallo [0;1] e si ricava dalla
precedente scomposizione. Strumento fondamentale per capire il livello di adattamento
• 1 quando R2=0 ovvero, la retta di regressione "spiega” tutta la variabilità di Y; in tal caso tutti i
punti (xi;yi) giacciono sull’interpolante
se è inf a 0,4 vuol dire che il modello spiega in modo contenuto la relazione di dipendenza
tra 0,4 e 0,6 è intermedia
sopra 0,6 è forte
il valore di R2 può essere calcolato anche con le seguenti formule alternative (evitando il calcolo
dei residui)
INTERPOLAZIONE PONDERATA
Quando si dispone di una serie doppia ponderata, il problema dei minimi quadrati assume la
seguente forma quando l’esercizio ha le frequenze, cambia c
v che tutte le formule devono essere calcolate v
v pesando i calcoli con le frequenze
L’interpolazione ponderata si impiega anche quando le informazioni sono riportate in una tabella a
doppia entrata.
Nel caso dell’interpolazione delle medie parziali di Y I X si ha la condizione dei minimi quadrati
si può dimostrare che tale soluzione coincide con quella che si ottiene
dalla condizione
DUNQUE, l’interpolazione per la serie doppia ponderata equivale all’interpolazione per la tabella
bivariata. La regressione si può effettuare considerando X come variabile dipendente. In questo
caso si utilizza la retta interpolante con n.j le frequenze da usare nelle formule
ponderate
44
Verifica dell’adattamento
si possono calcolare due indici di adattamento:
- INDICE DI DETERMINAZIONE DELLA VARIANZA TOTALE
Molti fenomeni reali hanno risultati incerti. Si deve spesso decidere in condizioni di incertezza.
La decisione può essere difficile, perché spesso gli eventi hanno un diverso margine di incertezza,
ovvero una diversa probabilità (è poco probabile che esca per 100 volte testa).
La teoria della probabilità si serve del ragionamento logico per orientare le scelte.
Il calcolo delle probabilità aiuta a quantificare in modo rigoroso il grado di incertezza degli eventi.
La probabilità viene applicata in moltissimi settori come: fisica, economia, medicina, teoria dei
giochi, inferenza statistica, ricerche di mercato ecc…
Motivo storico: i ricchi volevano vincere a tutti i costi nei giochi di sorte e quindi hanno iniziato a
finanziare le ricerche. Altro motivo perché i giochi di sorte sono semplici e quindi molto utili per
capire le basi della probabilità
45
A volte, per approfondire la conoscenza di un fenomeno incerto si effettua un ESPERIMENTO.
Ogni singola esecuzione di un esperimento è detta prova. Faccio tante prove per vedere come si
comporta il fenomeno.
Un esperimento può essere:
- DETERMINISTICO se la conoscenza delle cause o leggi da cui dipende permette di
prevederne con certezza il risultato (prevediamo con certezza il risultato)
- ALEATORIO o CASUALE se la conoscenza delle cause o leggi da cui dipende non permette di
prevederne con certezza il risultato
Di solito si richiede che un esperimento aleatorio soddisfi due requisiti:
• sia (almeno teoricamente) ripetibile nelle stesse condizioni (es per valutare l’efficacia di un
farmaco non posso ripeterlo 1000 volte perché potrebbe avere degli effetti collaterali)
• tutti i possibili esiti siano definibili in anticipo
Nel contesti degli esperimenti aleatori gli esiti prendono il nome di EVENTI
Si distingue tra :
- Evento elementare (E): singolo risultato di una prova
- Evento composto (A,B,…): insieme di eventi elementari
Esempio:
Esperimento: lancio di un dado con sei facce
Evento elementare: E = “esce il numero 6” (ci sono 6 eventi elementari, uno per ogni faccia)
Evento composto: A = “esce un numero maggiore di 3”
A è l’evento unione:
DIAGRAMMA DI VENN
È utile per rappresentare le relazioni tra insiemi. [guarda i simboli sulle slide]
Ā si utilizza per rappresentare il complementare/opposto di A
AB si utilizza per rappresentare l’unione di A e B
AB si utilizza per rappresentare l’intersezione tra A e B
A-B si utilizza per rappresentare la differenza tra A e B
46
Si distingue anche tra
• Evento impossibile evento che non si verifica mai (estremo inferiore)
• Evento aleatorio (probabile, possibile, casuale) evento che si verifica a volte
• Evento certo evento che si verifica sempre (estremo superiore)
Esperimento: lancio di un dado con sei facce
Evento impossibile: =“esce il numero 7”
Evento aleatorio: A =“esce un numero maggiore di 3”
Evento certo: =“esce un numero da 1 a 6”
Lo spazio di tutti i possibili eventi elementari di un esperimento viene detto
SPAZIO CAMPIONARIO = Ω
EVENTI INCOMPATIBILI
Definizione: Due eventi aleatori A e B se la loro intersezione è l’evento impossibile, ovvero che
questi due eventi aleatori non hanno alcun elemento elementare in comune.
Se AB = allora A e B sono incompatibili
Tale definizione non richiede vincoli sulla probabilità di A e B
Osservazione: A e Ā sono incompatibili
PROBABILITÀ
Per probabilità si intende (a livello scientifico) un numero associato al verificarsi di un determinato
evento
Questa definizione non spiega come calcolare tale numero
Le definizioni di probabilità più utilizzate sono quattro:
DEFINIZIONE CLASSICA (Laplace, 1812)
Dato un esperimento con N possibili risultati equiprobabili,
la probabilità di un evento A è il rapporto fra il numero N(A)
dei risultati favorevoli al suo verificarsi e il numero N dei risultati possibili
Osservazione:
P() = 0 ; P (Ω) = 1 ; e o<= P(A) <= 1 A
Esempio
Esperimento: lancio di una moneta bilanciata ( non è stata truccata)
Eventi equiprobabili: T=’testa’ , C=’croce’
Probabilità che esca testa: P(T) = ?
N=2 ; N(T)=1. P(T)= 1 / 2= 0,5
Osservazione 1
La probabilità dell’unione di eventi incompatibili è uguale alla somma delle probabilità dei singoli
eventi.
P ( D ) = 0,4 ; P(D) = P ( B C ) = P ( B ) + P ( C ) = 0 , 3 + 0 ,1 = 0 , 4
Osservazione 2
La probabilità dell’evento complementare è uguale al complemento a 1 della probabilità del
corrispondente evento. P(D)=P(A) =P(-A) =P()-P(A) =1-0,6=0,4
Osservazione 3
Una definizione rigorosa di probabilità evita errori di valutazione
Esempio 1
Se il risultato dei 3 lanci consecutivi è “TTT”, ho avuto fortuna?
No, perché questo evento ha la stessa probabilità degli altri 7
47
Esempio 2
Se in 10 lanci consecutivi è sempre uscita “T ”, all’11° lancio è più conveniente puntare su “C ” (la
faccia “in ritardo”)?
No, perché anche all’11° lancio si ha comunque P(C ) = 1/2
Critiche
- Le affermazioni dei due esempi sono valide solo se è verificata la condizione di
equiprobabilità degli eventi
Ad esempio, lo spazio campionario associato al lancio di 3 monete non è
= {3 Croci; 2 Croci e 1 Testa; 2 Teste e 1 Croce; 3 Teste} perché questi eventi non hanno la stessa
probabilità [solo 3 croci e 3 teste sono elementi elementari]
- Per definire la probabilità in modo non ambiguo bisogna ricorrere al concetto stesso di
probabilità (circolarità, tautologia)
- a definizione non è utile se si hanno eventi non equiprobabili
Osservazione 1 : La legge empirica del caso non si può dimostrare, si può solo verificare
empiricamente
Osservazione 2 : Se all’aumentare delle prove fn(A) tende alla costante P(A), significa che esistono
delle regolarità che governano i fenomeni
Osservazione 3: La probabilità classica è determinata da una valutazione a priori, quella
frequentista è determinata da una valutazione a posteriori (ovvero si basa sull’esperienza)
48
CRITICHE
• Non è noto il numero di prove necessarie per avere un’approssimazione adeguata della
probabilità
• La definizione non è applicabile nelle situazioni in cui non si può ripetere l’esperimento
• Queste considerazioni hanno portato alcuni studiosi a formulare una definizione di
probabilità soggettiva (faremo solo un accenno)
Esempio
Esperimento: lancio di una moneta bilanciata
Probabilità che esca testa: P(T ) = ?
Poiché la moneta non è truccata, si può esser disposti a scommettere 1 per vincere 2 se si verifica
T (si dice comunemente: scommettere 1 contro 1)
Si ha quindi P(T ) = 1/(1+1) = 1/2 = 0,5
Ad oggi nel 2022 non esiste ancora una definizione univoca di probabilità
49
Sulla base dei precedenti postulati si dimostra che:
le coppie e Ω sono incompatibili
INDIPENDENZA STOCASTICA
Indipendenza stocastica Implica che la probabilità degli eventi intersecati tra loro sia uguale al
prodotto tra la probabilità dei due eventi
Definizione 1: A è stocasticamente indipendente da B se P(A | B) = P(A)
Definizione 2: B è stocasticamente indipendente da A se P(B | A) = P(B)
L’indipendenza stocastica è una relazione simmetrica. Infatti, poiché
P(AB) = P(A|B)•P(B) = P(B|A)•P(A) da entrambe le definizioni si ricava che P(AB) = P(A)•P(B)
[guarda esempio sulle slides da slide 56]
PARTIZIONI
Si dice partizione dello spazio campionario ogni insieme di eventi, a due a due incompatibili, la cui
unione è uguale a Ω. Gli eventi Ai i= 1,2,…,k sono quindi una partizione di Ω se:
Dato Ω omega abbiamo sempre una partizione. La partizione più comoda è data da A e il suo
complementare Ā. Ogni spazio campionario può essere suddiviso in diverse partizioni a seconda
dell’interesse che ho.
VARIABILI CAUSALI è una funzione X che associa a dei valori/numeri xi delle probabilità pi
In molti casi, i risultati di un esperimento casuale sono rappresentati da numeri. L’utilizzo dei
numeri per rappresentare gli eventi favorisce l’elaborazione e l’analisi dei possibili risultati
dell’esperimento.
Esempi:
- Numero di teste ottenute lanciando insieme tre monete
- Numero di pezzi difettosi in un lotto di 100
- Variazioni giornaliere nel prezzo di chiusura
50
Sono tutti eventi aleatori di cui non conosco la risposta prima di aver fatto l’esperimento e che
vengono poi rappresentati dai numeri.
Definizione: Si dice variabile casuale
(aleatoria, stocastica) ogni funzione che
associa un solo numero reale ad ogni evento
appartenente ad una partizione di Ω
Le variabili casuali si indicano abitualmente con le lettere X,Y,Z… (ultime lettere dell’alfabeto) e le
loto realizzazioni (determinazioni) con le lettere
xi, yi, zi, … nel caso di v.c. discrete
X, y, z,… nel caso di v.c. continue
➔ Consideriamo per il momento solo v.c. discrete
[guarda esempio sulle slides pag. 6]
FUNZIONE E DISTRIBUZIONE DI PROBABILITÀ
Il termine “variabile casuale” viene impiegato perché ogni sua realizzazione è determinata da un
evento aleatorio
- Alle k possibili realizzazioni di una v.c. discreta X è associata la funzione di probabilità (f.p.)
Viene spesso utilizzata anche la funzione di ripartizione (f.r.) della v.c. X ed è la probabilità che X
assuma un valore al massimo uguale a una certa realizzazione x
Si tratta si una funzione a gradini (cumulata) poiché:
in questo caso ogni gradino è una
probabilità; se ik gradino è più basso vuol
dire che il contributo alla formazione di
omega è più basso
con i metodi introdotti in ambito descrittivo si possono calcolare diversi indici di posizione (come
mediana, quartili, ecc)
Come abbiamo visto, la distribuzione di probabilità di una v.c. discreta presenta molte analogie
con la distribuzione di frequenze (relative) di un carattere discreto
Ai fini dell’analisi di una v.c. si possono allora calcolare una media algebrica e un indice di
variabilità
51
la varianza non può essere mai negativa ma può essere al minimo pari a zero quando c’è una
variabile casuale de genere. Tanto più è elevata sigma quadro tanto più i valori delle variabili
casuali sono dispersi, quindi tanto più è incerto il risultato (qundo sigma quadro è tanto elevato
vuol dire che è lontano dal baricentro ovvero che è lontano dall’aspettativa)
53
Una v.c. continua X assume valori x in un intervallo (I; S) (limitato o illimitato). Una v.c. continua X
è caratterizzata dalla funzione di densità di probabilità (f.d.p.)
che può essere interpretata come la probabilità associata all’intervallo
di ampiezza d (piccola) centrato su x:
l’interpretazione di f(x) è quindi analoga a quella di f s
per calcolare l’area sottostante bisogna
usare l’integrale (negli esercizi non
dovremo calcolare gli integrali)
per una v.c. continua X la FUNZIONE DI RIPARTIZIONE (f.r.) F(X) = P(X ≤ x) è pari all’area
sottostante f(x) nell’intervallo (I;x). Si ha ovviamente F(S) = 1
Tale distribuzione è detta curva di Gauss (1818) o degli errori accidentali perché si può impiegare
per rappresentare grandezze affette da errori di misura non sistematici
La distribuzione Normale può essere ottenuta all’aumentare di n da quella della v.c. X∼B( p;n)
È molto utilizzata anche nell’ambito dell’inferenza statistica e nella teoria del campionamento
[guarda esempio sulle slides]
54
RUOLO DEI PARAMETRI
55
DISTRIBUZIONI EMPIRICHE E MODELLI TEORICI
Abbiamo visto che le distribuzioni di probabilità (d.p.) hanno molte analogie con le distribuzioni di
frequenze relative (d.f.r.)
Le d.p. si possono anche utilizzare come modelli analitici per rappresentare le d.f.r. di diversi
caratteri
Si tratta di scegliere opportunamente il modello facendo in modo che esso si “adatti” alla
distribuzione empirica
È perciò sempre opportuno fare alcune verifiche preventive (più o meno formali) circa
l’opportunità dell’adattamento
Dopo aver superato con successo la fase di verifica dell’adattamento, il modello si può utilizzare
per vari scopi: semplificazione, interpretazione, comparazione, ecc.
FINITOOOOOOO
56