Analisi Dei Dati e Statistica I Parte Analisi Dei Dati e Statistica I Parte

lOMoARcPSD|11500446
Analisi dei dati e statistica I parte
Analisi dei dati e Statistica (Università degli Studi di Trento)
StuDocu non è sponsorizzato o supportato da nessuna università o ateneo.

Scaricato da Sofia Digiuni (dsofia2013@libero.it)
lOMoARcPSD|11500446
Capitolo 1 – Statistica: l’arte e la scienza di apprendere dai dati
Definizione (1) di statistica: arte e scienza del disegno di studi e dell’analisi delle informazioni che tali
studi producono.
Obiettivo: tradurre i dati in conoscenza e comprensione del mondo circostante.
Quindi, la statistica è l’arte e la scienza di apprendere dai dati.
Dati = informazioni che si raccolgono attraverso esperimenti e indagini.

Nel secolo scorso, i metodi statistici sono stati formulati in assenza di dati, adoperando solamente i
cosiddetti dati di letteratura. Il problema attuale è opposto: siamo in presenza di un diluvio informativo (big
data = dati finissimi a livello temporale-spaziale  surplus informativo) e, dunque, dobbiamo essere abili
nel gestire i dati, attraverso l’individuazione di quelli rilevanti ai fini dell’indagine.
La statistica si muove in un mondo incerto, quindi l’analisi dei dati serve a prendere delle decisioni limitando
gli errori (assegnando delle probabilità alle varie alternative).
Fasi del processo di indagine:
1. Formulazione di una domanda statistica
2. Raccolta dei dati
3. Analisi dei dati
4. Interpretazione dei risultati
Definizione (2) di statistica: tecnica che ha per scopo la conoscenza quantitativa dei fenomeni collettivi.
Componenti principali della statistica:
o Disegno: pianificazione della raccolta dei dati mirata a far luce sul problema oggetto di interesse.
o Analisi descrittiva: identificazione e sintesi di tendenze e schemi presenti nei dati (attraverso i
grafici, ad esempio).
o Inferenza: decisioni e previsioni sulla base dei dati (tendenzialmente queste riguardano un gruppo
più ampio di individui rispetto al campione).
o Probabilità: strumento metodologico per quantificare la verosimiglianza di diversi esiti possibili.
La analisi descrittiva e l’inferenza sono modi complementari di analizzare i dati; la prima fornisce sintesi
utili (di tendenze e schemi), mentre la seconda serve a decidere se gli schemi osservati sono
significativi.
Elementi importanti:
o Soggetti (o unità): entità che si misurano in uno studio (non sono sempre persone).
o Popolazione: insieme di tutti i soggetti portatori delle caratteristiche di interesse; (1) popolazione
reale = in linea teorica, totalmente osservabile (studenti di Trento) – (2) popolazione virtuale =
definibile ma non osservabile (cinquine del Lotto).
o Campione: sottoinsieme della popolazione con le stesse caratteristiche, di cui abbiamo (o
pianifichiamo di avere) dati a disposizione.
[L’obiettivo di molti studi è conoscere la popolazione, attraverso un’indagine campionaria.]
L’analisi statistica può essere:

- Descrittiva: si riferisce ai metodi per la sintesi dei dati raccolti (grafici, medie, percentuali – sintesi
grafiche e sintesi numeriche vengono spesso combinate); (1) lo scopo principale della statistica
descrittiva è ridurre e rendere più comprensibili i dati senza distorcere/perdere troppa
informazione; (2) essa può essere usata sia nel caso in cui i dati siano ottenuti da un campione sia
dall’intera popolazione (nel caso di censimento totale della popolazione, questa analisi è sufficiente
per dare un’informazione certa riguardo al risultato).
- Inferenziale: si riferisce ai metodi per prendere decisioni o fare previsioni riguardanti una
popolazione, sulla base dei dati ottenuti da un campione di quella popolazione. L’operazione di
campionamento produce una previsione (attraverso un certo numero/percentuale) che stima il

lOMoARcPSD|11500446
risultato effettivo (informazione reale proveniente dall’intera popolazione) entro un margine di

errore preciso con una confidenza del 95%; se si ripete più volte questa operazione, la variabilità dei
risultati campionari si riduce parallelamente all’errore nella stima.
Pertanto, la rilevazione dei dati può essere di tipo completo (censimento) o di tipo parziale
(campionaria).
Motivi per cui si effettuano i campioni:
- Costi minori in termini di tempo: si producono informazioni tempestive;
- Costi minori in termini di denaro: per il censimento, si richiedono più operazioni logistiche (che
hanno dei costi), ma anche capacità di calcolo molto avanzate (macchine) che risultano onerose;
- Maggior facilità di gestione;
- Possono essere più accurati di un censimento: ad esempio, in un censimento la raccolta dei dati può
provocare dei ritardi nel raggiungimento di un risultato (che quindi può essere scorretto).
Da dove si prendono i dati:

- Dati pubblicati da enti: ISTAT (dati di proprietà della collettività raccolti a fini statistici), Camera di
Commercio/Banca d’Italia (dati raccolti a fini amministrativi, ma consultabili a fini statistici);
- Dati provenienti da mercati finanziari;
- Dati da esperimenti condotti dall’uomo (farmaci, ad esempio);
- Dati da indagini;
- Dati da studi osservazionali (ad esempio, sul comportamento degli animali)
| La distinzione tra statistiche campionarie e i valori corrispondenti della popolazione è un punto

importante: un parametro ( β ) è una sintesi numerica di una popolazione; una statistica ( ^β =
stima) è una sintesi numerica di un campione preso dalla popolazione  si utilizzano statistiche
campionarie per stimare i valori dei parametri.
(esempio: C = α + βy  β è la propensione marginale al consumo della popolazione = parametro)
| Un altro punto importante è il campionamento casuale: un campione rispecchia bene una
popolazione quando ciascun soggetto di essa ha la stessa chance di essere incluso in quel campione;
questo consente di rendere i campioni rappresentativi della popolazione.
- Il campionamento casuale permette di fare una buona inferenza sulle popolazioni;
- La casualità è importante anche per condurre adeguatamente gli esperimenti (quando chi indaga
seleziona il campione, introduce distorsioni nell’indagine).
Il concetto di variabilità è strettamente legato a quello di casualità: ogni soggetto è diverso da un altro,
pertanto la casualità della scelta introduce la variabilità all’interno del campione (che, evidentemente,
più è ampio più è variabile); inoltre, così come i soggetti variano, anche i campioni variano e producono
risultati differenti: è per questo motivo che le operazioni di campionamento si ripetono più volte.
Capitolo 2 – Esplorazione dei dati con grafici e sintesi numeriche
o Variabile (carattere) = caratteristica oggetto di osservazione in uno studio - il termine evidenzia che i
valori assunti dai dati sono soggetti a variazione;
o Unità statistica = elemento di osservazione di base della popolazione oggetto di indagine – non
sempre si può entrare in contatto con tutte le unità statistiche;
o Unità di rilevazione = elemento di osservazione di base della rilevazione – spesso non coincidente
con l’unità statistica (esempio: unità statistica = persona residente in Italia, unità di rilevazione =
famiglia residente in Italia – attraverso capofamiglia –);
o Modalità = modo in cui la variabile si presenta in un’unità.
Una variabile può essere:

- Qualitativa: attributo, quantità non misurabile – si esprime attraverso una parola;
- Quantitativa: misura, informazione quantitativa – si esprime attraverso un numero.

lOMoARcPSD|11500446
Le variabili qualitative possono essere:

- Sconnesse: non passibili di essere ordinate (es. genere);
- Ordinabili: passibili di essere ordinate (es. titolo di studio).
Le variabili quantitative possono essere:
- Discrete: se i valori che possono assumere costituiscono un insieme di numeri distinti finiti – in
presenza di una variabile discreta si opera un conteggio;
- Continue: se i valori che possono assumere costituiscono un intervallo – le variabile continue
assumono un’infinità continua di possibili valori.
Esistono delle cariabili continue a cui l’uomo non è capace di rapportarsi, pertanto li discretizza,
tuttavia, le variabili mantengono il loro carattere continuo; nel continuo si calcolano probabilità di
intervallo, in quanto nel punto la probabilità è 0 (all’infinito ci sarà sempre un decimale che divergerà).
Una popolazione è costituita da N unità statistiche: P= {u 1 , u 2 , u3 , … ,u 4 }

N = dimensione di una popolazione, n = dimensione di un campione
- Ha senso prendere un campione solo se n << N
X = variabile di interesse – esempio: X = {genere}
Distribuzione di dati grezzi: rappresentazione della modalità con cui il carattere si presenta in ogni unità.
Posto x i = modalità con cui la variabile si presenta nell’unità i, abbiamo la successione
X = { x 1 , x 2 , … , x N } dove ad esempio (con variabile genere): x 1=M , x 2=F , x 3=M (…)
E’ anche detta distribuzione unitaria, ed è rappresentata in forma tabellare (tabella individui/modalità)
come l’elenco delle modalità osservate, unità per unità, del collettivo preso in esame.
Questo tipo di distribuzione è portatrice del massimo contenuto informativo possibile, in quanto
contenente i dati elementari originari (non facilmente reperibili); tuttavia, non è possibile individuare in
essa alcuna forma di regolarità.
Distribuzione di frequenza: prima forma di sintesi mirata ad organizzare i dati grezzi in tabelle sintetiche
per presentarli in maniera corretta, analizzarli, interpretarli. Le tabelle hanno la seguente struttura: nella
prima colonna sono poste tutte le modalità (scritte un’unica volta, passibili o meno di ripetizione) in cui la
variabile viene a presentarsi e nelle altre la rispettiva frequenza assoluta, relativa e percentuale.
Posto x i = modalità in cui la variabile si presenta , con i=1, … , k (poiché k è il numero di modalità
distinte presenti), si avrà una tabella simile alla seguente. Ha senso
classificare i dati in una distribuzione di frequenza solo se k << N.
La maggiore leggibilità di questa forma di rappresentazione dei
dati ha un costo in termini di perdita di contenuto informativo:
l’aggregazione porta all’impossibilità di osservazione delle singole
unità.
Caratteristiche delle modalità:
- Frequenza assoluta: numero di volte in cui una
determinata modalità si presenta nella distribuzione
unitaria;
- Frequenza relativa (proporzione): rapporto tra frequenza
assoluta e totale delle unità osservate;
- Frequenza percentuale: è pari alla frequenza relativa moltiplicata per 100.
I risultati di indagini diverse sono confrontabili in termini assoluti solo se il numero totale di unità dei
rispettivi collettivi è uguale; negli altri casi si confrontano in termini percentuali.
SINTESI GRAFICHE DEI DATI
Grafici per variabili qualitative

lOMoARcPSD|11500446
Un carattere costituisce una scala nominale se le modalità non possono essere ordinate secondo alcun
criterio ed è possibile affermare solo se le modalità sono = o ≠ tra loro.
Un carattere costituisce una scala ordinale se è possibile ordinare in modo univoco le sue modalità.
 Diagramma a torta: è un cerchio in cui a ciascuna modalità corrisponde uno spicchio.

L’ampiezza di ogni spicchio è proporzionale alla frequenza della rispettiva modalità.
 Diagramma a barre: mostra delle barre verticali di uguale base (si tratta di variabili
qualitative → labels) per ogni modalità; l’altezza di ciascuna barra è la frequenza
(assoluta/relativa) della rispettiva modalità. Esiste un diagramma a barre detto
diagramma di Pareto, in cui le barre sono ordinate in modo decrescente in base
alle frequenze (dalla più alta alla più bassa).
Grafici per variabili quantitative

 Grafico a punti (dot plot): (per entrambi i tipi) per ogni osservazione viene disegnato
un punto su un asse a riferimenti numerici, in corrispondenza del valore assunto; la
linea orizzontale è etichettata col nome della variabile e vi sono indicati valori
regolarmente distanziati; il dot plot mostra i dati elementari e permette di
ricostruire tutti i valori presenti in un data set.
 Grafico ramo-foglia (steam-and-leaf): (per entrambi i tipi) ogni osservazione è rappresentata con un
ramo (comprende tutte le cifre del valore da rappresentare, con eccezione dell’ultima) da ed una
foglia (ultima cifra); i rami vanno collocati nella colonna di destra e le foglie in quella di sinistra: se
due dati hanno il ramo in comune, le rispettive foglie si collocano sulla stessa riga; i dati sulle
colonne e sulle righe sono ordinati in senso non decrescente, ovvero a partire dal valore minimo.
Anche questa rappresentazione mostra i dati elementari.
 Grafico a segmenti/aste: (solo per variabili discrete) per ogni modalità (in questo
caso, sempre un numero) di disegna un’asta alta quanto la frequenza che essa
presenta; la base del rettangolo degenera in un punto, poiché la modalità è un
numero preciso e non un intervallo.
 Istogrammi: (solo per variabili continue) grafico che utilizza dei rettangoli per
visualizzare graficamente le frequenze assolute o le frequenze relative di una variabile
- Si divide il campo di variazione – tra intensità massima e minima – del fenomeno
(range = R) in intervalli (classi di una determinata ampiezza) e successivamente si
misura quante unità “cadono” nell’intervallo scelto;
- 3 decisioni arbitrarie (le prime due sono regole generali: (1) 5 ≤ classi ≤ 15, tutte
possibilmente della stessa ampiezza, (2) ampiezza = R/numero desiderato di classi,
(3) se non stabilito dalle nomenclature ufficiali, è possibile scegliere dove chiudere
le classi (coerentemente nel complesso);
- Nel sintetizzare, nella colonna della distribuzione di frequenza vanno le classi, non le modalità;
- I rettangoli sono adiacenti poiché dati sono continui e ogni rettangolo ha un’area
proporzionale/uguale alla frequenza che si deve rappresentare: area = base x altezza, base →
ni
ampiezza classe = x i−x i−1 , altezza = densità di frequenza = hi= , ni = frequenza
x i−x i−1
assoluta;
- Un grafico di questo tipo comporta distruzione di contenuto informativo, poiché non si sa in che
punto dell’intervallo si collocano le unità e si suppone distribuzione uniforme.
Nota: non è detto che all’altezza più elevata corrisponda la frequenza più alta se le basi (ampiezze)
non sono tutte uguali – esempio: numero di bambini in cura per classi di età (0-1,1-6).
Note sulla scelta dei grafici
- Il dot plot e lo steam-and-leaf sono più efficaci per data set di dimensioni ridotte, in quanto
rappresentano le singole osservazioni; con data set più ampi, è più idoneo un istogramma che
compatta i dati;
- I valori osservati sono preservati con i diagrammi a punti e ramo-foglia, ma non con l’istogramma.

lOMoARcPSD|11500446
Distribuzione dei dati

- Una distribuzione con un solo “picco” è detta unimodale: il punto dove si colloca il picco è detto
moda della distribuzione; una distribuzione con due “picchi” è detta bimodale – esempio:
popolazione che si polarizza su questioni controverse (come decretare in 10 situazioni se la pena di
morte sia meritata o meno, picchi tendenti a 0 e 10);
- La forma della distribuzione può essere simmetrica o asimmetrica (una parte della distribuzione è
più allungata dell’altra; si usa disegnare approssimazioni continue degli istogrammi per identificare
le forme di distribuzione: le porzioni di curva che comprendono i valori più bassi e più alti sono
dette code → una distribuzione è asimmetrica a sinistra se la coda sinistra è più lunga di quella
destra, e asimmetrica a destra se la coda destra è più lunga di quella sinistra.
Grafici temporali: dati rispetto al tempo

Un insieme di dati, relativi alla stessa variabile, raccolti nel tempo prende il nome di serie storica. Le serie
storiche possono essere visualizzate graficamente tramite un grafico temporale, detto time plot, in cui in
ordinata si collocano i valori (modalità) della variabile osservati e in ascissa i rispettivi riferimenti temporali.
Su un time plot è facile individuare un trend → tendenza dei dati a crescere/diminuire (per evidenziarla, di
solito, si connettono i punti del grafico con una spezzata).
MISURE DI TENDENZA CENTRALE E DI POSIZIONE, VARIABILITÀ E FORMA

Proseguendo nel processo di sintesi, si hanno le sintesi numeriche: esse possono essere utili a descrivere il
centro di una distribuzione – se ne cercano un valore rappresentativo – o la sua variabilità – se studiano
quanto i valori differiscano tra loro.
Misure di tendenza centrale:
 Moda: (valida per tutti i tipi di variabili) è la modalità (o la classe di modalità) caratterizzata dalla
massima frequenza all’interno della distribuzione;
- Esistono distribuzioni bimodali (due modalità con la frequenza più elevata);
- E’ la misura più stabile (non si modifica se si aggiungono valori eccezionali);
- Necessita di un raggruppamento in classi in presenza di variabili quantitative continue;
 Media: (valida solo per variabili quantitative) misura di tendenza centrale più nota ed utilizzata; è la
somma delle osservazioni divisa per il numero delle osservazioni stesse (ammontare complessivo del
carattere equidistribuito su tutte le unità); è un valore virtuale interpretato come il baricentro della
distribuzione e si indica con μ .
N
∑ xi Proprietà: (dati x(1) = valore più piccolo e x(N ) = valore più grande ← x 1
μ= i=1
N
potrebbe non essere il minimo)
◊ x(1) ≤ μ ≤ x (N ) ;
◊ In una rappresentazione dot plot (ovvero se i valori osservati vengono posti in ordine di grandezza
su un asse orizzontale-leva), se il fulcro viene posto in corrispondenza della media, la “leva” sta in
equilibrio → media = baricentro della distribuzione;
◊ I valori che si distanziano dalla media sono detti outlier (anomali, fuori tendenza);
◊ La media è sensibile alla presenza di dati eccezionalmente distanti da essa stessa: non è, pertanto,
un indicatore robusto all’eventuale presenza di dati anomali.
◊ La somma degli scarti dalla media [scarto=ε i=( x i −μ ) ] è sempre, indipendentemente dalla
x i−μ
(¿)=0
variabile, uguale a 0. → N ;
∑¿
i
◊ Data la distribuzione X ={ x 1 , x 2 , … , x N } , se si passa alla distribuzione Y = { y 1 , y 2 ,… , y N }
con y i=a+b xi , a ≠ 0 , b ≠1 , la media diventa μ y =a+b μ x → la media è invariante per

lOMoARcPSD|11500446
trasformazioni lineari, ossia risponde alla stessa trasformazione – nota: Y =a+ X è una
traslazione, quindi non impatta sulla variabilità; Y =bX provoca un cambio di unità di misura e
di ampiezza, pertanto impatta sulla variabilità.
Se devo calcolare la media a partire da una distribuzione di frequenze, la formula sarà:
k
∑ xi ni
μ= i=1
N
cioè dovrò moltiplicare ogni modalità per il numero dei casi corrispondenti (frequenza assoluta),
sommare (quindi ottenere l’ammontare complessivo) e dividere per il totale delle osservazioni.
k
∑ xi ni k
poiché
ni
=f i
=∑ xi f i
i=1
μ= N
N i=1
 Mediana: (valida per variabili quantitative e qualitative ordinali) valore centrale delle osservazioni, una
volta che queste siano state ordinate in senso non decrescente (dipende dall’ordine delle
osservazioni, non dal loro valore) – si indica con m e e presenta due circostanze di calcolo:
◊ Per N dispari m e occupa il posto ( N +1 ) /2 ;
2
◊ Per N pari, esistono due me e occupano i posti N /2 e N /¿+1 ; in questo caso, per
¿
ottenere la mediana effettiva si prende la media (semisomma) delle due (quando ho dati qualitativi
ordinabili tuttavia, non posso mediarle).
- La mediana presenta un egual numero di valori a destra e a sinistra di essa stessa (50% inferiori,
50% superiori) → per questo, non è influenzata dagli outlier;
- La mediana è molto più resistente [una sintesi numerica di un set di osservazioni è detta resistente
se i valori estremi hanno poca o nulla influenza sul suo valore] della media – (pag. 45, spunti);
- La forma di una distribuzione determina la relazione tra media e mediana, in generale:
◊ se la forma è perfettamente simmetrica, la media coincide con la mediana;
◊ se la forma è asimmetrica a destra, la media assume valore superiore rispetto alla mediana (la
media è elevata a causa di valori eccezionalmente grandi);
◊ se la forma è asimmetrica a sinistra, la media assume valore inferiore rispetto alla mediana (la
media è ridotta da valori eccezionalmente piccoli;
 Quartili: parametri che dividono la distribuzione in quattro parti: al di sotto del primo quartile (
Q1 ) si trova il 25% dei dati, al di sotto del secondo quartile (mediana) si trova il 50 % dei dati e
così via; i quartili forniscono anche informazioni sulla forma della distribuzione, sulla base del
confronto tra le distanza fra il primo e la mediana, il terzo e la mediana (se sono uguali,
distribuzione simmetrica);
 Percentili: parametri che dividono la distribuzione di cento parti: ad esempio, al di sotto del 90-
esimo percentile, si trova il 90% dei dati.
Formula valida per calcolare quartili e percentili: ( 100p ) N

i= , dove p indica il percentile
corrispondente (nel caso del primo quartile, p = 25); si hanno due casi:
- se i è intero, il p-mo percentile è la media delle osservazioni in posizioni i e i+1;
- se i non è intero il p-mo percentile è il valore in posizione i arrotondato per eccesso.
N
∑ w i xi
 Media ponderata: μ p= i=1N ; esempio: l’inflazione deriva da una serie di medie
∑ wi
i=1
ponderate: quando considero i prezzi, l’importanza dei beni è data dalla quantità scambiata sul
mercato.

lOMoARcPSD|11500446
Le misure di tendenza centrale non dicono nulla sulla variabilità dei dati (le distribuzioni 4 4 4 e 2 4 6 hanno
stessa media, ma variabilità molto diversa): essa dipende da quanto le osservazioni sono concentrate
intorno alla media: se c’è un’elevata variabilità, la media non è un indicatore rappresentativo.
Quindi, variabilità = attitudine dei caratteri a manifestarsi in modalità differenti.
- Variabilità = 0 ↔ le unità presentano tutte la stessa modalità (uguale alla media);
- Variabilità cresce al crescere della differenziazione tra le unità;
- Variabilità mai negativa.
Misure di variabilità:
 Range: differenza tra la più grande e la più piccola osservazione → I =x max−x min ;
- Per calcolarlo si ordinano i dati in senso non decrescente;
- Indica il campo di variazione del fenomeno, ma prende in esame solo due informazioni sul totale
del materiale informativo (i valori estremi) – questo indica uno spreco di dati utili;
- Inoltre, non è resistente ai dati anomali, poiché utilizza esattamente quelli → misura disonesta.
 Range interquartile: range per la metà delle osservazioni “centrali”, ovvero quella che cade tra il
primo e il terzo quartile, quindi → IQR=Q3−Q1
- Non è influenzato dagli outlier
- E’ una misura più attendibile del range ma, dal momento che non si stanno considerando il 50%
dei dati (25% dx, 25% sx), c’è comunque uno spreco di materiale informativo;
 Varianza-deviazione standard: fornisce una sintesi della distanza di ogni osservazione dalla media;
- Considera la posizione dell’unità generica x i rispetto alla media, valutando la distanza (
x i−μ );
- Tanto più le distanze ( x i−μ ) ∀i sono elevate, più i dati variabili e la media non
rappresentativa;
- Queste distanze devono essere, in qualche modo, aggregate e mediate; (↓)
Poiché
∑ (x i−μ) è sempre uguale a 0, in quanto gli scostamenti di segno negativo
N
compensano quelli di segno positivo, si elimina il segno utilizzando il quadrato (non il valore
assoluto, poiché si desidera che le osservazioni lontane dalla media evidenzino il loro peso nelle
misure di variabilità, così da segnalare le fonti di dispersione):
N
VARIANZA
∑ (x i−μ)2 → la varianza si indica quindi con “sigma quadro” ed è data dal
¿ σ 2= i=1
N
rapporto tra la somma degli scarti quadratici e il numero delle osservazioni; poiché essa è espressa
nel quadrato dell’unità di misura dei dati originari, si utilizza la sua radice quadrata, che prende il
nome di deviazione standard (o scarto quadratico medio):
√
N
DEVIAZIONE STANDARD ∑ ( x i−μ)2 → indica la distanza

¿ σ =√ σ 2= i=1
N
media di ogni osservazione dalla media: più elevato è il valore assunto
dalla deviazione standard maggiore è la variabilità dei dati. Nota: la somma
N
dei quadrati delle deviazioni ∑ ( xi −μ)2 prende il nome di devianza.
i=1
- σ =0 ↔ tutte le osservazioni assumono lo stesso valore (= μ);
- σ può essere influenzato (gonfiato) dagli outlier (poiché essi hanno sempre ampie deviazioni);
- la varianza ha una formula semplificata:
σ2=
∑ (x i−μ)2 = ∑ (x2i −2 μ x i+ μ 2) = ∑ x 2i −2 μ ∑ x i + ∑ μ 2 = ∑ x 2i −2 μ2 +μ2 = ∑ x 2i −μ2
N N N N N N N
[
∑ xi è la formula della media = μ ]
N

lOMoARcPSD|11500446
 Se i dati sono raccolti in una distribuzione di frequenze:

k
∑ (x i−μ)2 ni
σ 2 = i=1
N
 Data una trasformazione lineare tale che:
y i=a+ b xi , che implica μ y =a+b μ x
si ha
∑ ( y i−μ y )2 ∑ (a+bx i−a−b μ x )2 ∑ (bx i−b μ x )2 ∑ (bx i−b μ x )2 ∑ [b ( x i−μ x ) ] 2 ∑ (x i −μ x )

2 2
2
σ y = = = = = =b =
N N N N N N
→ solo il parametro b influisce sulla varianza, poiché modifica l’ampiezza della curva, mentre il parametro a
comporta soltanto una traslazione.
 Regola empirica (vale solo per le distribuzioni di forma campanulare):
- Il 68% delle osservazioni cade nell’intervallo μ ± σ ;
- Il 95% delle osservazioni cade nell’intervallo μ ±2 σ ;
- Tutte o quasi le osservazioni cadono nell’intervallo μ ±3 σ .
 Con la varianza/deviazione standard non si può confrontare la variabilità di due fenomeni diversi, se
si hanno popolazioni numericamente differenti, intensità media (μ) differente o diverse unità di
misura; pertanto si fa ricorso al coefficiente di variazione, ovvero un indice di variabilità relativo:
σ
COEFFICIENTE DI VARIAZIONE ¿ CV = → è un numero privo di unità di misura (scale-free) che
μ
permette i confronti, eliminando gli effetti della diversità della media e dell’unità di misura.
Box-plot (grafico “a scatola”)

Il box-plot ha come obiettivo principale l’analisi della simmetria della distribuzione (che si ha se media e
mediana sono approssimativamente sovrapponibili).
E’ una misura di sintesi (analisi esplorativa) dei dati basata su 5 numeri:
- Valore minimo osservato;
- Primo quartile;
- Mediana;
- Terzo quartile;
- Valore massimo osservato.
Questi sono tutti dati effettivamente osservati; il segmento verticale all’interno del box evidenzia la
mediana; le linee orizzontali che partono dal box prendono il nome di baf (whiskers): si estendono fino ad
includere tutti i dati (estremi = valore minimo e valore massimo), ad eccezione degli outlier che vengono
disegnati a parte; i lati della scatola sono disegnati in corrispondenza del primo e del terzo quartile.

lOMoARcPSD|11500446
Identificazione di potenziali outlier

- Un’osservazione è un potenziale outlier se cade fuori dall’intervallo [Q1 - 1,5 ∙ IQR; Q3 + 1,5 ∙ IQR].
Pertanto, il box-plot viene anche utilizzato come diagnostico di outlier: tuttavia, non tutti questi
potenziali outlier sono outlier definitivi, perché esistono dei casi in cui alcune osservazioni possono
cadere fuori dall’intervallo senza essere outlier – esempio: se una distribuzione ha una lunga coda
da un lato e non ci sono buchi tra le osservazioni più grandi e il resto dei dati.
[Leggi confronto tra box plot e istogramma e box plot affiancati, pag.61]
- Un criterio alternativo per l’identificazione di potenziali outlier utilizza la deviazione standard: in

particolare, un’osservazione da una distribuzione campanulare è da considerarsi un potenziale
outlier se cade a più di 3 deviazioni standard dalla media; il numero di deviazioni standard che
separano una singola osservazione dalla media è detto z-score.
- Uno z-score positivo indica che l’osservazione è sopra la media;
- Uno z-score negativo indica che l’osservazione è sotto la media;
osservazione−media x i−μ
- Per calcolare lo z-score: z= =
deviazione standard σ
- Lo z-score permette di diagnosticare quanto un’osservazione sia estrema;
- Lo z-score converte un’osservazione in una scala comune idonea ad effettuare confronti.
Elementi importanti nella forma di una distribuzione

La forma di una distribuzione è desumibile dall’analisi visiva della forma dell’istogramma e da alcune
misure di simmetria e di curtosi; le misure di curtosi prendono in esame il maggiore/minore
“appuntimento” e il maggior/minor peso delle code [si distingue tra distribuzioni ipernormali/leptocurtiche,
più appuntite e con code più pesanti, e distribuzioni iponormali/platicurtiche, meno appuntite e con code
meno pesanti].
Linee guida per costruire grafici efficaci

- Etichettare entrambi gli assi e fornire un titolo rappresentativo al grafico;
- E’ bene che l’asse verticale parta sempre da 0;
- Usare con cautela i pittogrammi, che possono fornire proporzioni sbagliate e deviare dai dati; è
bene preferire i grafici standard;
- Quando si vogliono rappresentare valori della variabile oggetto di studio esaminati su due gruppi, è
meglio (soprattutto se i valori sono molto diversi) usare grafici distinti;
- Sintetizzare in modo chiaro e semplice.
Capitolo 3 – Associazione: contingenza, correlazione, regressione
Tendenzialmente, i dati raccolti su un gruppo di unità non si riferiscono ad una sola variabile, ma a diverse:
le analisi di più variabili condotte sugli stessi soggetti sono dette analisi “cross” (congiunte, in italiano).
In questo tipo di studi, c’è una prima distinzione da fare:
- Variabile di risposta: variabile di esito rispetto alla quale si operano eventuali confronti;
- Variabile esplicativa: quando è qualitativa, individua i gruppi da confrontare rispetto ai valori
assunti dalla variabile di risposta; quando è quantitativa, definisce il cambiamento nei diversi valori
numerici da confrontare rispetto ai valori assunti dalla variabile di risposta.

lOMoARcPSD|11500446
L’analisi dei dati esamina come gli esiti della variabile di risposta dipendano (siano spiegati) dai valori
della variabile esplicativa.
Tuttavia, non si è ancora attribuito un ruolo di dipendenza/indipendenza alle variabili, ovvero un nesso di
causalità che deve essere stabilito da una teoria, quindi si parlerà di correlazione/associazione come
relazione biunivoca.
Lo scopo di questa analisi è scoprire se esiste una associazione tra le due variabili, ovvero se è più probabile
che un determinato valore della variabile di risposta si verifichi in corrispondenza di determinati valori della
variabile esplicativa.
Si possono costruire distribuzioni di frequenza bivariate attraverso le cosiddette tabelle di contingenza:
forme di sintesi utilizzate per visualizzare simultaneamente due variabili qualitative →
- Le righe elencano le categorie di una delle due variabili; la prima riga si chiama testata;
- Le colonne elencano le categorie dell’altra; la prima colonna si chiama colonna madre;
- E’ quindi possibile analizzare le variabili separatamente, prendendo in considerazione i totali di riga
o di colonna (distribuzioni marginali di ambito monovariato)
- Ogni cella della tabella contiene il numero di osservazioni che si riferiscono a una determinata
combinazione di categorie delle due variabili qualitative, ovvero le celle contengono le frequenze
congiunte, che permettono di comprendere come si muovono insieme le due variabili;
- Il procedimento che porta al calcolo delle frequenze per le celle (combinazioni) di un tabella di
contingenza si chiama tabulazione incrociata (o cross-tabulazione);
- Ci sono tre totali: totale complessivo, totali marginali di colonna, totali marginali di riga; di
conseguenza, posso costruire tre tipologie diverse di tabelle di frequenze relative/percentuali:
quando si considerano tabelle di frequenza riferite a profili di colonna/riga, si opera una riduzioni di
dati considerati.
Tabella di contingenza
Tabelle percentuali (totale, riga, colonna)

I valori inseriti nelle celle delle tabelle percentuali di riga sono detti proporzioni condizionate (o frequenze
relative condizionate), poiché il loro calcolo è condizionato dal totale della modalità corrispondente (sulla
riga): esempio la proporzione di fondi GI, relativamente al totale dei fondi N è pari a 13,8 – stesso discorso
vale, inversamente, per le tabelle percentuali di colonna; le proporzioni condizionate in ogni riga hanno
somma 1 (in questo caso 100, poiché espresse in percentuale).
Associazione tra due variabili

Quando si vuole studiare l’associazione tra due variabili, si hanno tre casi:
- Le variabili possono essere entrambe qualitative → i dati vengono organizzati in tabelle di
contingenza e si può procedere all’analisi dell’associazione, confrontando le proporzioni
condizionate;
- Può esserci una variabile quantitativa e una variabile qualitativa → si utilizzano misure di sintesi e
strumenti grafici particolari, come i box-plot affiancati;
- Le variabili possono essere entrambe quantitative → si analizza come l’esito della variabile di
risposta tenda a cambiare se cambia il valore della variabile esplicativa, attraverso lo studio della
correlazione.
Correlazione lineare tra due variabili
Quindi, due variabili possono dirsi correlate (linearmente) solo se entrambe quantitative.
- Sir Francis Galton (cugino di Darwin) è il primo studioso ad affrontare questo argomento (anche se
in maniera fallace): vuole dimostrare che i caratteri morali sono ereditari come i caratteri fisici;

lOMoARcPSD|11500446
utilizza la teoria della “regressione verso la mediocrità” (secondo lui, il mondo stava regredendo
verso uno stato mediocre) nello studio della relazione tra l’altezza dei genitori e dei figli – gli studi di
Galton dimostrano che i figli più alti della media avevano genitori ancora più alti di loro e i figli più
bassi della media avevano genitori ancora più bassi: questo fenomeno prende il nome, non
spregiativo, di regressione verso la media. (guarda slide 11, IV parte)
Quando si studiano due variabili quantitative, di solito si indica la variabile di risposta con y e la variabile
esplicativa con x; lo strumento grafico utilizzato prende il nome di scatterplot (o grafico a dispersione), nel
quale una coppia di valori (x;y) per un’unità è indicata da un punto relativo ai due assi; le osservazioni per gli
N individui sono gli N punti disegnati sullo scatterplot. Da uno scatterplot si può evincere un’eventuale
associazione tra due variabili:
- Due variabili quantitative x e y sono associate positivamente quando valori elevati di x tendono a
presentarsi in corrispondenza di valori elevati di y (idem coi valori bassi) → associazione positiva: se
x aumenta, y tende ad aumentare; due variabili quantitative x e y sono associate negativamente
quando valori elevati di x tendono a presentarsi in corrispondenza di valori bassi di y e viceversa →
associazione negativa: se x aumenta, y tende a diminuire.
Analisi di uno scatterplot → è necessario valutare:
- (1) Se esiste un’associazione tra le variabili e, nel caso in cui esista, (2) se è positiva o negativa;
- (1) Se il trend può essere approssimato da una linea retta: se sì, (2) esaminare il grado di
dispersione dei punti intorno alla retta;
- Se sono presenti osservazioni anomale che si discostano dal trend e che informazioni forniscono.
Si parla di correlazione lineare se i punti di uno scatterplot seguono un trend approssimabile da una linea
retta (relazione lineare): in particolare, si evidenzia una correlazione tra due variabili se lo scatterplot
assume la forma di un pallone da rugby sgonfio (più è sgonfio, più le variabili sono correlate).
Problema di misura della correlazione (intensità, direzione – diretta, inversa):
- Se si prende in considerazione il baricentro della distribuzione, dato dal punto (media di x, media di
y) = ( μx , μ y ), si ottiene una misura non efficiente, in quanto ci sono infiniti scatter con forme
diverse (ruotati, più sgonfi/gonfi) che hanno il medesimo baricentro;
- Se si prendono in considerazione gli scarti quadratici rispetto ad entrambe le medie, si stanno in
realtà analizzando i margini della distribuzione, quindi le singole variabili e non le loro congiunzioni;
Nell’immagine i due scatter hanno stesse medie e stessi scarti quadratici, ma
le variabili sono correlate in modo evidentemente diverso.
- La risoluzione del problema è data da Karl Pearson, che
introdusse il coefficiente di correlazione, indicato con r:
▪ esso assume valori compresi tra -1 e 1;
▪ valori positivi di r indicano un’associazione positiva,
quindi una correlazione diretta;
▪ valori negativi di r indicano un’associazione negativa,
quindi una correlazione inversa;
▪ r = -1 → perfetta correlazione lineare inversa, i punti si dispongono esattamente su una linea retta
e si può effettuare una previsione certa del valore di y, conoscendo il valore di x;
▪ r = 1 → perfetta correlazione lineare diretta, i punti si dispongono esattamente su una linea retta
e si può effettuare una previsione certa del valore di y, conoscendo il valore di x;
▪ r = 0 → nessuna correlazione;
▪ pertanto, si può affermare che più il valore di r è vicino a 1 (in valore assoluto), più vicini alla linea
retta si dispongono i punti e più è forte la correlazione lineare; più il valore di r è vicino a 0, più i
punti si discostano dalla linea retta e più è debole la correlazione lineare;
Dall’immagine si può notare come al crescere di r, la forma dello scatter si sgonfia
e il modello lineare di approssimazione prevedere progressivamente meglio i dati
reali (gli scostamenti sono via via minori); in questo caso, la correlazione è diretta,
ma lo stesso discorso vale per l’inversa (con il crescere di r in valore assoluto).
Nota: gli scatter sono disposti in ordine 1 – 2 – 5 e sotto 3 – 4 – 6.

lOMoARcPSD|11500446
Nota: in un mondo incerto, le correlazioni non sono mai perfette, ovvero ci sono sempre delle fluttuazioni
dei punti intorno ai modelli e i punti non cadranno mai esattamente lungo una linea retta.
Altre proprietà rilevanti della correlazione:
- Il valore della correlazione non dipende dalle unità di misura delle variabili – esempio: se la
variabile è il reddito di un unità e si opera un cambio da dollari a euro, la correlazione non cambia;
- Due variabili hanno la stessa correlazione, indipendentemente da quale delle due sia trattata
come variabile di risposta e quale come variabile esplicativa.
Formula del coefficiente di correlazione lineare:
σ xy
r=
σxσy
N
dove
∑ ( xi −μ x )( y i−μ y ) : al numeratore troviamo la codevianza, ovvero la somma dei
σ xy = i=1
N
prodotti degli scarti (scostamenti) dalla media di x e y sulla stessa unità; se mediamo questa somma per il
numero N di osservazioni otteniamo σ xy che si dice covarianza (numeratore di r) →
σ xy ∈ [ −∞ ; ∞ ]
Al denominatore di r, troviamo σ x σ y che costringono r a rimanere compreso tra -1 e 1, ovvero
normalizzano e rendono priva di unità di misura la grandezza al numeratore (covarianza).
σ xy >0 → relazione diretta;
σ xy <0 → relazione inversa;
σ xy =0 → assenza di relazione lineare.
A numeratore di r c’è una media dei prodotti (x i−μ x )( y i−μ y ) , pertanto:

(vedi pag. 157 – “Analisi esplorativa”)
Nota: “prodotti –“ = scostamenti non concordi;
“prodotti +” = scostamenti concordi.
In queste immagini:
I quadrante → scostamenti positivi concordi;
II quadrante → scostamenti non concordi;
III quadrante → scostamenti negativi concordi;
IV quadrante → scostamenti non concordi;
Quanto più gli scostamenti hanno valori elevati (“pesanti”), tanto più r si distanzia da 0.
Proprietà importante:
Il valore assoluto di r è invariante per trasformazioni lineari di x / y / entrambe (a + bX, c + dY; a, b, c, d ᴇ R)
– quando b o d è negativo, la trasformazione può al più cambiare il segno di r.
r è una misura utile in tutti i casi in cui lo scatter abbia una forma
ovale (“pallone da rugby”), tuttavia può essere fuorviante (1) in
presenza di outlier o (2) in presenza di una relazione non lineare.
Immagine – paradosso di Anscombe: questi 4 casii hanno in comune N, μ ed r, ma solo nel
primo caso si parla di correlazione lineare; 2 → modello curvilineo, 3 → interessato da
outlier, 4 → x è fisso al variare di y.
(101-120 dal libro, leggere)

Ulteriore nota importante:
r, se determinato a partire da percentuali o medie, può essere fuorviante; si prendano, ad esempio, due
diversi metodi per calcolare la correlazione tra reddito e livello di istruzione per i residenti in italia (25-54):
A. Coefficiente di correlazione calcolate su dati individuali di reddito e livello di istruzione per i
residenti in Italia con età tra 25 e 54 anni: r;

lOMoARcPSD|11500446
B. Calcolo di reddito medio e livello di istruzione medio per ogni regione → coefficiente di correlazione
calcolato sulle coppie di medie regionali = r' > r.
Risoluzione: è più giusto il primo metodo poiché analizza entrambe le variabili per ogni unità; analizzando
esclusivamente le medie, si perde contenuto informativo (non si sa quanto i dati fossero dispersi intorno alla
media) → si devono utilizzare i dati al maggior livello di disaggregazione possibile.
[Entra in gioco il problema dell’unità areale modificabile (MAUP): per ogni livello di risoluzione spaziale al
quale ci si colloca, i risultati sono diversi.]
----------------------------------------------------------------------------------
La sola osservazione di una correlazione (associazione, più in generale, in quanto è un principio valido
anche per variabili qualitative) tra due variabili non necessariamente implica un nesso di causalità: ci
possono essere spiegazioni alternative dell’associazione, come ad esempio, una variabile confondente →
anche detta variabile omessa, è una terza variabile non inserita nello studio (anche se nota ai ricercatori),
che influenza l’associazione tra le due variabili di interesse.
Dallo studio di Doll, emerge una correlazione positiva tra il

consumo di sigarette pro capite e il tasso di mortalità per
cancro al polmone (per ogni paese); tuttavia il nesso di
causalità è dubbio, infatti non è ovvio che sia stato il consumo
di sigarette a causare il cancro al polmone poiché:
- sarebbe necessario prendere in considerazione non dati
nazionali, ma dati individuali e, in particolare, individui
(fumatori e non) residenti nella stessa area (ovvero soggetti
agli stessi fattori di disturbo);
- sarebbe anche utile considerare zone soggette a limitati
fattori inquinanti (così da non falsare i dati).
Paradosso di Simpson: la direzione dell’associazione tra due variabili può cambiare se consideriamo una
terza variabile e analizziamo i dati delle due variabili per livelli di tale terza variabile.
Esempio: uno studio sembra mostrare che il fumo giovi alla salute in quanto, date 1314 donne inglesi a cui
era stato chiesto se fossero fumatrici o meno, trascorsi vent’anni risulta che siano decedute il 24% delle
donne fumatrici (139/582) e il 31% delle donne non fumatrici (230/732) → il tasso di sopravvivenza è quindi
più elevato per le donne fumatrici, e questo evidenzierebbe un’associazione positiva tra fumo e longevità.
Tuttavia, se si prende in considerazione l’età iniziale delle donne e si dividono i dati in classi di età (18-34,
35-54, 55-64, 65+), emerge che le fumatrici hanno un tasso di sopravvivenza minore rispetto alle non
fumatrici e che quindi i risultati iniziali erano falsificati dall’omissione di una variabile che influenzava
fortemente lo studio.
Le correlazioni che passano attraverso variabili omesse si dicono correlazioni spurie.
Altri esempi:
- La correlazione positiva tra il numero di scarpe di un bambino e la sua capacità di lettura passa
attraverso la sua età: più un bambino cresce, più impara a leggere e più il suo piede cresce.
- La correlazione positiva tra il numero di sacerdoti e il numero di omicidi in una città passa attraverso
il grado di urbanizzazione di quella città.
Nota: l’omissione può essere voluta o subita.
- Una variabile confondente può essere causa comune delle due variabili (es. urbanizzazione –
numero di sacerdoti – numero di omicidi) oppure ci possono essere più variabili omesse e quindi
più cause, ed in quel caso l’analisi diventa più complessa (es. crescita della povertà ↔ crescita della
criminalità: la criminalità è legata a livello di istruzione, stabilità delle famiglie, qualità del vicinato in
cui gli individui vivono; a livelli bassi di queste stesse variabili può essere legato l’impoverimento di
un individuo, che quindi ha più probabilità di
divenire un criminale – l’impoverimento ha quindi, sulla criminalità, sia un effetto diretto sia uno
indiretto, attraverso tutte le variabili menzionate.
- r misura la forza e il verso della relazione lineare tra due variabili, pertanto non ci protegge da
eventuali fattori di disturbo o variabili omesse.

lOMoARcPSD|11500446
Capitolo 5 – Probabilità
Probabilità: strumento che quantifica l’incertezza.

In riferimento ad un qualsivoglia fenomeno casuale, la probabilità di un determinato risultato è la
proporzione di volte che quel risultato si realizza in una lunga serie di osservazioni.
Strumenti che permettono di contare gli elementi all’interno degli insiemi

Nota: su un campione di n << N unità, si usano gli stessi metodi usati su una popolazione di N unità.
- Permutazioni semplici di un insieme I n (n indica la cardinalità dell’insieme, che ha quindi n
oggetti)
Pn=n ∙ ( n−1 ) ∙ … ∙3 ∙ 2∙ 1=n !
- Disposizioni semplici di n elementi presi a gruppi di k (k ≤ n )
n!
Dn ,k =
( n−k ) !
dove ( n−k ) ! Rappresenta lo “sconto” delle permutazioni degli elementi che non rientrano in k.
Esempio 1: 10 persone sedute su 6 sedie.
Esempio 2: quanti sono i numeri naturali aventi cifre distinte (senza ripetizione) ottenibili dalle cifre
1, 2, 3, 4, 5? Risultato ¿ D 5,5 + D 5,4 +D 5,3 +D 5,2 +D 5,1 (nota: D 5,5=P5 ).
Nota: disposizioni e permutazioni tengono conto dell’ordine degli elementi.
- Combinazioni semplici di n elementi presi a k a k = tutti i possibili sottoinsieme di k
elementi distinti presi dagli n dati
D
()
Cn , k = n =
n!
= n ,k
k ( n−k ) ! k ! k !
()
n
k
è detto coefficiente binomiale; al denominatore, oltre allo “sconto” delle permutazioni degli
elementi che non rientrano in k, troviamo anche lo “sconto” delle permutazioni dei k elementi
stessi, in quanto le combinazioni non tengono conto dell’ordine degli elementi.
Esempio: dati n = 3 elementi a, b, c , le uniche tre combinazioni di ordine k = 2 sono a,b – b,c – a,c .
Approcci (tentativi di definizioni) alla probabilità
¿ casi favorevoli ad A
- Definizione classica: P ( A )= , purchè tutti i casi siano equiprobabili.
¿ casi possibili
Problema: in questa definizione c’è una tautologia, ovvero per definire una grandezza si è utilizzata
la grandezza stessa.
- Definizione frequentista: se si esegue un’infinità di prove, la frequenza relativa dell’evento è la
nA
probabilità dell’evento stesso; ovvero P ( A )=lim .
n→∞ n
Problema: ripetitività dell’esperimento; molti eventi che non possiedono tale requisito sono
valutabili probabilisticamente.
- Definizione soggettivista: la probabilità è la valutazione che il singolo individuo può coerentemente
formulare, in base alle proprie conoscenze, del grado di avverabilità di un evento.
Problema: coerenza e conoscenza sono facilmente violabili rispettivamente dalla non obiettività del
singolo e dall’impossiblità umana di conoscere tutto lo scibile (ovvero la limitazione ad una sfera
conoscitiva); un’ulteriore problema sarebbe l’impossibilità di formulare una misura oggettiva della
probabilità di un evento, accettando che i risultati coincidano solo in determinati casi.
Concetti base di probabilità

lOMoARcPSD|11500446
- Fenomeno = prova, processo – ogni “ripetizione” di un fenomeno (ad esempio, ogni lancio di un
dado) è un’ulteriore prova;
- Prove indipendenti: il risultato di una prova non è influenzato da ciò che accade in ogni altra prova;
- Esito di una prova = evento – può corrispondere ad un particolare esito o ad un gruppo di possibili
esiti e si indica con le lettere dell’alfabeto latino (A, B, …);
- Insieme di tutti i possibili eventi = spazio campionario (S) – un evento A è un sottoinsieme di S;
- Evento elementare = evento di natura semplice, descrivibile con una sola caratteristica, non
decomponibile – è un punto nello spazio campionario (esempio: “esce 6 al lancio di un dado”);
- Evento complesso = evento di natura articolata, decomponibile poiché composto a partire da
eventi elementari – è un insieme di punti nello spazio campionario (esempio: “esce numero pari al
lancio di un dado”).
Ogni esito in uno spazio campionario ha una probabilità – si seguono due principi base:
1. La probabilità di ogni singolo esito è un numero tra 0 e 1;
2. La somma delle probabilità di tutti i possibili esiti è pari a 1.
[Se ogni esito in uno spazio campionario è equiprobabile, la probabilità di ogni singolo esito – inteso
come evento elementare – è pari a 1/(numero degli esiti possibili); se fosse un evento complesso, la
probabilità sarebbe data da (numero di esiti contenuti nell’evento)/(numero di esiti possibili).]
- Complementare di un evento A ⊂ S : consiste di tutti gli esiti che sono contenuti nello spazio
campionario S ma non nell’evento A ; lo si denota con A C o con Á ;
- Eventi disgiunti: due eventi si dicono disgiunti o incompatibili se non hanno alcun esito in comune
(esempio: al lancio di un dado, “esce un numero pari” ed “esce un numero dispari”);
- Intersezione di due eventi: l’intersezione di due eventi A e B consiste degli esiti
contenuti in A e in B; si indica con A ∩B ;
- Unione di due eventi: l’unione di due eventi A e B consiste degli esiti contenuti in A
e/o in B – quindi, l’unione di A con B indica “si verifica A o B o entrambi”; si indica
con A ∪ B .
Definizione (risolutiva di tutti gli approcci) di probabilità

Definizione assiomatica (proposta da un probabilista russo): una misura di probabilità P è una funzione
di insieme a valori reali definita nello spazio campionario S ( P : S → R ) – P: S → R è una funzione
che attribuisce ad un punto dello spazio campionario un numero reale.
Si fissano alcuni assiomi in modo da poter calcolare la probabilità di un evento:
 P ( A ) ≥ 0 , ∀A ;
 P ( S )=1 : lo spazio campionario è un evento certo poiché, se si realizza un evento elementare
contenuto al suo interno (e deve necessariamente realizzarsi, poiché ogni fenomeno deve avere un
esito), si realizza lo spazio campionario stesso;
 P ( A ∪ B ∪ … ) =P ( A )+P ( B ) +¿ … : legge delle probabilità totali per eventi incompatibili →
vale, appunto, solo per eventi disgiunti, non verificabili simultaneamente (non hanno intersezione).
Seguono, dagli assiomi, i teoremi fondamentali per il calcolo della probabilità:
 ∀A , B ⊂ S , P ( Á ∩B )=P ( B )−P( A ∩ B)
 ∀A ⊂ S , P ( Á )=1−P ( A )
 P (∅ ) =0
 A ⊂ B ⟹ P( A)≤ P (B)
 ∀A ⊂ S , 0 ≤ P( A)≤ 1
 A , B ⊂ S ⟹ P ( A ∪ B )=P ( A ) +P ( B )−P( A ∩ B) : legge delle probabilità totali per eventi
qualunque.
Nota:
- A ∩B=∅ → eventi disgiunti/incompatibili.
- A ∩B ≠ ∅ → eventi congiunti (presentano esiti in comune, quindi un’intersezione).
(dai un’occhiata alle dimostrazioni dei teoremi)

lOMoARcPSD|11500446
Probabilità condizionata
Probabilità condizionata = apparato metodologico che permette di calcolare la probabilità di una
determinata modalità di una data variabile, quando si conosce l’esito di un’altra variabile.
Esempio: in una indagine su 300 famiglie che possiedono un

televisore a grande schermo, viene chiesto se il TV è HDTV e se
hanno acquistato un DVD negli ultimi 12 mesi.
Con la notazione P( DVD∨HDTV ) si indica la domanda: “dal

momento che la famiglia possiede già un HDTV, qual è la probabilità
che abbia acquistato un lettore DVD negli ultimi 12 mesi?”
Operazione di condizionamento riduce lo spazio campionario (in questo caso, prende in considerazione
solamente i soggetti che possiedono un HDTV): ovvero, l’evento condizionante stesso viene assunto come
spazio campionario.
38
P ( DVD|HDTV )=
80
Quindi, per due eventi A e B, la probabilità condizionata di A, dato che B si è verificato, è data dalla
probabilità dell’intersezione di A e B fratto la probabilità (totale) di B:
P (A ∩B)
P ( A|B )=
P(B)
P ( A|B ) si legge come “la probabilità dell’evento A dato l’evento B”.
Si può capire che due eventi A e B sono indipendenti, se il fatto che B si sia realizzato non modifica la
probabilità di realizzazione di A – esempio: estrazioni del lotto → se alla precedente estrazione è uscito un
determinato numero (chiamiamo questo evento B), questo non ha effetti sull’eventuale uscita di un altro
determinato numero (chiamiamo questo evento A), quindi P ( A|B )=P( A) .
Siano A e B due eventi indipendenti (esiti di prove indipendenti), la probabilità dell’intersezione di A e B

(ovvero che accada sia A che B, in due prove successive) è: P ( A ∩ B ) =P( A)∙ P(B) → questa prende il
nome di regola del prodotto per eventi indipendenti.
Regola del prodotto per eventi qualsiasi: P ( A ∩ B ) =P( A∨B)∙ P( B)

Analisi Dei Dati e Statistica I Parte Analisi Dei Dati e Statistica I Parte

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Analisi Dei Dati e Statistica I Parte Analisi Dei Dati e Statistica I Parte

Caricato da

Copyright:

Formati disponibili

lOMoARcPSD|11500446

Analisi dei dati e statistica I parte

Analisi dei dati e Statistica (Università degli Studi di Trento)

StuDocu non è sponsorizzato o supportato da nessuna università o ateneo.

Capitolo 1 – Statistica: l’arte e la scienza di apprendere dai dati

Dati = informazioni che si raccolgono attraverso esperimenti e indagini.

L’analisi statistica può essere:

Scaricato da Sofia Digiuni (dsofia2013@libero.it)

risultato effettivo (informazione reale proveniente dall’intera popolazione) entro un margine di

Da dove si prendono i dati:

| La distinzione tra statistiche campionarie e i valori corrispondenti della popolazione è un punto

Capitolo 2 – Esplorazione dei dati con grafici e sintesi numeriche

Una variabile può essere:

Scaricato da Sofia Digiuni (dsofia2013@libero.it)

Le variabili qualitative possono essere:

Una popolazione è costituita da N unità statistiche: P= {u 1 , u 2 , u3 , … ,u 4 }

Scaricato da Sofia Digiuni (dsofia2013@libero.it)

 Diagramma a torta: è un cerchio in cui a ciascuna modalità corrisponde uno spicchio.

Grafici per variabili quantitative

Scaricato da Sofia Digiuni (dsofia2013@libero.it)

Distribuzione dei dati

Grafici temporali: dati rispetto al tempo

MISURE DI TENDENZA CENTRALE E DI POSIZIONE, VARIABILITÀ E FORMA

Scaricato da Sofia Digiuni (dsofia2013@libero.it)

Formula valida per calcolare quartili e percentili: ( 100p ) N

Scaricato da Sofia Digiuni (dsofia2013@libero.it)

DEVIAZIONE STANDARD ∑ ( x i−μ)2 → indica la distanza

Scaricato da Sofia Digiuni (dsofia2013@libero.it)

 Se i dati sono raccolti in una distribuzione di frequenze:

∑ ( y i−μ y )2 ∑ (a+bx i−a−b μ x )2 ∑ (bx i−b μ x )2 ∑ (bx i−b μ x )2 ∑ [b ( x i−μ x ) ] 2 ∑ (x i −μ x )

Box-plot (grafico “a scatola”)

Scaricato da Sofia Digiuni (dsofia2013@libero.it)

Identificazione di potenziali outlier

- Un criterio alternativo per l’identificazione di potenziali outlier utilizza la deviazione standard: in

Elementi importanti nella forma di una distribuzione

Linee guida per costruire grafici efficaci

Capitolo 3 – Associazione: contingenza, correlazione, regressione

Scaricato da Sofia Digiuni (dsofia2013@libero.it)

Tabelle percentuali (totale, riga, colonna)

Associazione tra due variabili

Scaricato da Sofia Digiuni (dsofia2013@libero.it)

Scaricato da Sofia Digiuni (dsofia2013@libero.it)

A numeratore di r c’è una media dei prodotti (x i−μ x )( y i−μ y ) , pertanto:

(101-120 dal libro, leggere)

Scaricato da Sofia Digiuni (dsofia2013@libero.it)

Dallo studio di Doll, emerge una correlazione positiva tra il

Scaricato da Sofia Digiuni (dsofia2013@libero.it)

Probabilità: strumento che quantifica l’incertezza.

Strumenti che permettono di contare gli elementi all’interno degli insiemi

Approcci (tentativi di definizioni) alla probabilità

Concetti base di probabilità

Scaricato da Sofia Digiuni (dsofia2013@libero.it)

Definizione (risolutiva di tutti gli approcci) di probabilità

Scaricato da Sofia Digiuni (dsofia2013@libero.it)

Esempio: in una indagine su 300 famiglie che possiedono un

Con la notazione P( DVD∨HDTV ) si indica la domanda: “dal

Siano A e B due eventi indipendenti (esiti di prove indipendenti), la probabilità dell’intersezione di A e B

Regola del prodotto per eventi qualsiasi: P ( A ∩ B ) =P( A∨B)∙ P( B)

Scaricato da Sofia Digiuni (dsofia2013@libero.it)

Potrebbero piacerti anche