Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Definizione (1) di statistica: arte e scienza del disegno di studi e dell’analisi delle informazioni che tali
studi producono.
Obiettivo: tradurre i dati in conoscenza e comprensione del mondo circostante.
Quindi, la statistica è l’arte e la scienza di apprendere dai dati.
La statistica si muove in un mondo incerto, quindi l’analisi dei dati serve a prendere delle decisioni limitando
gli errori (assegnando delle probabilità alle varie alternative).
Fasi del processo di indagine:
1. Formulazione di una domanda statistica
2. Raccolta dei dati
3. Analisi dei dati
4. Interpretazione dei risultati
Definizione (2) di statistica: tecnica che ha per scopo la conoscenza quantitativa dei fenomeni collettivi.
Componenti principali della statistica:
o Disegno: pianificazione della raccolta dei dati mirata a far luce sul problema oggetto di interesse.
o Analisi descrittiva: identificazione e sintesi di tendenze e schemi presenti nei dati (attraverso i
grafici, ad esempio).
o Inferenza: decisioni e previsioni sulla base dei dati (tendenzialmente queste riguardano un gruppo
più ampio di individui rispetto al campione).
o Probabilità: strumento metodologico per quantificare la verosimiglianza di diversi esiti possibili.
La analisi descrittiva e l’inferenza sono modi complementari di analizzare i dati; la prima fornisce sintesi
utili (di tendenze e schemi), mentre la seconda serve a decidere se gli schemi osservati sono
significativi.
Elementi importanti:
o Soggetti (o unità): entità che si misurano in uno studio (non sono sempre persone).
o Popolazione: insieme di tutti i soggetti portatori delle caratteristiche di interesse; (1) popolazione
reale = in linea teorica, totalmente osservabile (studenti di Trento) – (2) popolazione virtuale =
definibile ma non osservabile (cinquine del Lotto).
o Campione: sottoinsieme della popolazione con le stesse caratteristiche, di cui abbiamo (o
pianifichiamo di avere) dati a disposizione.
[L’obiettivo di molti studi è conoscere la popolazione, attraverso un’indagine campionaria.]
Pertanto, la rilevazione dei dati può essere di tipo completo (censimento) o di tipo parziale
(campionaria).
Motivi per cui si effettuano i campioni:
- Costi minori in termini di tempo: si producono informazioni tempestive;
- Costi minori in termini di denaro: per il censimento, si richiedono più operazioni logistiche (che
hanno dei costi), ma anche capacità di calcolo molto avanzate (macchine) che risultano onerose;
- Maggior facilità di gestione;
- Possono essere più accurati di un censimento: ad esempio, in un censimento la raccolta dei dati può
provocare dei ritardi nel raggiungimento di un risultato (che quindi può essere scorretto).
o Variabile (carattere) = caratteristica oggetto di osservazione in uno studio - il termine evidenzia che i
valori assunti dai dati sono soggetti a variazione;
o Unità statistica = elemento di osservazione di base della popolazione oggetto di indagine – non
sempre si può entrare in contatto con tutte le unità statistiche;
o Unità di rilevazione = elemento di osservazione di base della rilevazione – spesso non coincidente
con l’unità statistica (esempio: unità statistica = persona residente in Italia, unità di rilevazione =
famiglia residente in Italia – attraverso capofamiglia –);
o Modalità = modo in cui la variabile si presenta in un’unità.
Distribuzione di dati grezzi: rappresentazione della modalità con cui il carattere si presenta in ogni unità.
Posto x i = modalità con cui la variabile si presenta nell’unità i, abbiamo la successione
X = { x 1 , x 2 , … , x N } dove ad esempio (con variabile genere): x 1=M , x 2=F , x 3=M (…)
E’ anche detta distribuzione unitaria, ed è rappresentata in forma tabellare (tabella individui/modalità)
come l’elenco delle modalità osservate, unità per unità, del collettivo preso in esame.
Questo tipo di distribuzione è portatrice del massimo contenuto informativo possibile, in quanto
contenente i dati elementari originari (non facilmente reperibili); tuttavia, non è possibile individuare in
essa alcuna forma di regolarità.
Distribuzione di frequenza: prima forma di sintesi mirata ad organizzare i dati grezzi in tabelle sintetiche
per presentarli in maniera corretta, analizzarli, interpretarli. Le tabelle hanno la seguente struttura: nella
prima colonna sono poste tutte le modalità (scritte un’unica volta, passibili o meno di ripetizione) in cui la
variabile viene a presentarsi e nelle altre la rispettiva frequenza assoluta, relativa e percentuale.
Posto x i = modalità in cui la variabile si presenta , con i=1, … , k (poiché k è il numero di modalità
distinte presenti), si avrà una tabella simile alla seguente. Ha senso
classificare i dati in una distribuzione di frequenza solo se k << N.
La maggiore leggibilità di questa forma di rappresentazione dei
dati ha un costo in termini di perdita di contenuto informativo:
l’aggregazione porta all’impossibilità di osservazione delle singole
unità.
Caratteristiche delle modalità:
- Frequenza assoluta: numero di volte in cui una
determinata modalità si presenta nella distribuzione
unitaria;
- Frequenza relativa (proporzione): rapporto tra frequenza
assoluta e totale delle unità osservate;
- Frequenza percentuale: è pari alla frequenza relativa moltiplicata per 100.
I risultati di indagini diverse sono confrontabili in termini assoluti solo se il numero totale di unità dei
rispettivi collettivi è uguale; negli altri casi si confrontano in termini percentuali.
SINTESI GRAFICHE DEI DATI
Grafici per variabili qualitative
Un carattere costituisce una scala nominale se le modalità non possono essere ordinate secondo alcun
criterio ed è possibile affermare solo se le modalità sono = o ≠ tra loro.
Un carattere costituisce una scala ordinale se è possibile ordinare in modo univoco le sue modalità.
∑ xi Proprietà: (dati x(1) = valore più piccolo e x(N ) = valore più grande ← x 1
μ= i=1
N
potrebbe non essere il minimo)
◊ x(1) ≤ μ ≤ x (N ) ;
◊ In una rappresentazione dot plot (ovvero se i valori osservati vengono posti in ordine di grandezza
su un asse orizzontale-leva), se il fulcro viene posto in corrispondenza della media, la “leva” sta in
equilibrio → media = baricentro della distribuzione;
◊ I valori che si distanziano dalla media sono detti outlier (anomali, fuori tendenza);
◊ La media è sensibile alla presenza di dati eccezionalmente distanti da essa stessa: non è, pertanto,
un indicatore robusto all’eventuale presenza di dati anomali.
◊ La somma degli scarti dalla media [scarto=ε i=( x i −μ ) ] è sempre, indipendentemente dalla
x i−μ
(¿)=0
variabile, uguale a 0. → N ;
∑¿
i
◊ Data la distribuzione X ={ x 1 , x 2 , … , x N } , se si passa alla distribuzione Y = { y 1 , y 2 ,… , y N }
con y i=a+b xi , a ≠ 0 , b ≠1 , la media diventa μ y =a+b μ x → la media è invariante per
trasformazioni lineari, ossia risponde alla stessa trasformazione – nota: Y =a+ X è una
traslazione, quindi non impatta sulla variabilità; Y =bX provoca un cambio di unità di misura e
di ampiezza, pertanto impatta sulla variabilità.
Se devo calcolare la media a partire da una distribuzione di frequenze, la formula sarà:
k
∑ xi ni
μ= i=1
N
cioè dovrò moltiplicare ogni modalità per il numero dei casi corrispondenti (frequenza assoluta),
sommare (quindi ottenere l’ammontare complessivo) e dividere per il totale delle osservazioni.
k
∑ xi ni k
poiché
ni
=f i
=∑ xi f i
i=1
μ= N
N i=1
Mediana: (valida per variabili quantitative e qualitative ordinali) valore centrale delle osservazioni, una
volta che queste siano state ordinate in senso non decrescente (dipende dall’ordine delle
osservazioni, non dal loro valore) – si indica con m e e presenta due circostanze di calcolo:
◊ Per N dispari m e occupa il posto ( N +1 ) /2 ;
2
◊ Per N pari, esistono due me e occupano i posti N /2 e N /¿+1 ; in questo caso, per
¿
ottenere la mediana effettiva si prende la media (semisomma) delle due (quando ho dati qualitativi
ordinabili tuttavia, non posso mediarle).
- La mediana presenta un egual numero di valori a destra e a sinistra di essa stessa (50% inferiori,
50% superiori) → per questo, non è influenzata dagli outlier;
- La mediana è molto più resistente [una sintesi numerica di un set di osservazioni è detta resistente
se i valori estremi hanno poca o nulla influenza sul suo valore] della media – (pag. 45, spunti);
- La forma di una distribuzione determina la relazione tra media e mediana, in generale:
◊ se la forma è perfettamente simmetrica, la media coincide con la mediana;
◊ se la forma è asimmetrica a destra, la media assume valore superiore rispetto alla mediana (la
media è elevata a causa di valori eccezionalmente grandi);
◊ se la forma è asimmetrica a sinistra, la media assume valore inferiore rispetto alla mediana (la
media è ridotta da valori eccezionalmente piccoli;
Quartili: parametri che dividono la distribuzione in quattro parti: al di sotto del primo quartile (
Q1 ) si trova il 25% dei dati, al di sotto del secondo quartile (mediana) si trova il 50 % dei dati e
così via; i quartili forniscono anche informazioni sulla forma della distribuzione, sulla base del
confronto tra le distanza fra il primo e la mediana, il terzo e la mediana (se sono uguali,
distribuzione simmetrica);
Percentili: parametri che dividono la distribuzione di cento parti: ad esempio, al di sotto del 90-
esimo percentile, si trova il 90% dei dati.
corrispondente (nel caso del primo quartile, p = 25); si hanno due casi:
- se i è intero, il p-mo percentile è la media delle osservazioni in posizioni i e i+1;
- se i non è intero il p-mo percentile è il valore in posizione i arrotondato per eccesso.
N
∑ w i xi
Media ponderata: μ p= i=1N ; esempio: l’inflazione deriva da una serie di medie
∑ wi
i=1
ponderate: quando considero i prezzi, l’importanza dei beni è data dalla quantità scambiata sul
mercato.
Le misure di tendenza centrale non dicono nulla sulla variabilità dei dati (le distribuzioni 4 4 4 e 2 4 6 hanno
stessa media, ma variabilità molto diversa): essa dipende da quanto le osservazioni sono concentrate
intorno alla media: se c’è un’elevata variabilità, la media non è un indicatore rappresentativo.
Quindi, variabilità = attitudine dei caratteri a manifestarsi in modalità differenti.
- Variabilità = 0 ↔ le unità presentano tutte la stessa modalità (uguale alla media);
- Variabilità cresce al crescere della differenziazione tra le unità;
- Variabilità mai negativa.
Misure di variabilità:
Range: differenza tra la più grande e la più piccola osservazione → I =x max−x min ;
- Per calcolarlo si ordinano i dati in senso non decrescente;
- Indica il campo di variazione del fenomeno, ma prende in esame solo due informazioni sul totale
del materiale informativo (i valori estremi) – questo indica uno spreco di dati utili;
- Inoltre, non è resistente ai dati anomali, poiché utilizza esattamente quelli → misura disonesta.
Range interquartile: range per la metà delle osservazioni “centrali”, ovvero quella che cade tra il
primo e il terzo quartile, quindi → IQR=Q3−Q1
- Non è influenzato dagli outlier
- E’ una misura più attendibile del range ma, dal momento che non si stanno considerando il 50%
dei dati (25% dx, 25% sx), c’è comunque uno spreco di materiale informativo;
Varianza-deviazione standard: fornisce una sintesi della distanza di ogni osservazione dalla media;
- Considera la posizione dell’unità generica x i rispetto alla media, valutando la distanza (
x i−μ );
- Tanto più le distanze ( x i−μ ) ∀i sono elevate, più i dati variabili e la media non
rappresentativa;
- Queste distanze devono essere, in qualche modo, aggregate e mediate; (↓)
Poiché
∑ (x i−μ) è sempre uguale a 0, in quanto gli scostamenti di segno negativo
N
compensano quelli di segno positivo, si elimina il segno utilizzando il quadrato (non il valore
assoluto, poiché si desidera che le osservazioni lontane dalla media evidenzino il loro peso nelle
misure di variabilità, così da segnalare le fonti di dispersione):
N
VARIANZA
∑ (x i−μ)2 → la varianza si indica quindi con “sigma quadro” ed è data dal
¿ σ 2= i=1
N
rapporto tra la somma degli scarti quadratici e il numero delle osservazioni; poiché essa è espressa
nel quadrato dell’unità di misura dei dati originari, si utilizza la sua radice quadrata, che prende il
nome di deviazione standard (o scarto quadratico medio):
√
N
σ2=
∑ (x i−μ)2 = ∑ (x2i −2 μ x i+ μ 2) = ∑ x 2i −2 μ ∑ x i + ∑ μ 2 = ∑ x 2i −2 μ2 +μ2 = ∑ x 2i −μ2
N N N N N N N
[
∑ xi è la formula della media = μ ]
N
∑ (x i−μ)2 ni
σ 2 = i=1
N
Data una trasformazione lineare tale che:
y i=a+ b xi , che implica μ y =a+b μ x
si ha
Tendenzialmente, i dati raccolti su un gruppo di unità non si riferiscono ad una sola variabile, ma a diverse:
le analisi di più variabili condotte sugli stessi soggetti sono dette analisi “cross” (congiunte, in italiano).
In questo tipo di studi, c’è una prima distinzione da fare:
- Variabile di risposta: variabile di esito rispetto alla quale si operano eventuali confronti;
- Variabile esplicativa: quando è qualitativa, individua i gruppi da confrontare rispetto ai valori
assunti dalla variabile di risposta; quando è quantitativa, definisce il cambiamento nei diversi valori
numerici da confrontare rispetto ai valori assunti dalla variabile di risposta.
L’analisi dei dati esamina come gli esiti della variabile di risposta dipendano (siano spiegati) dai valori
della variabile esplicativa.
Tuttavia, non si è ancora attribuito un ruolo di dipendenza/indipendenza alle variabili, ovvero un nesso di
causalità che deve essere stabilito da una teoria, quindi si parlerà di correlazione/associazione come
relazione biunivoca.
Lo scopo di questa analisi è scoprire se esiste una associazione tra le due variabili, ovvero se è più probabile
che un determinato valore della variabile di risposta si verifichi in corrispondenza di determinati valori della
variabile esplicativa.
Si possono costruire distribuzioni di frequenza bivariate attraverso le cosiddette tabelle di contingenza:
forme di sintesi utilizzate per visualizzare simultaneamente due variabili qualitative →
- Le righe elencano le categorie di una delle due variabili; la prima riga si chiama testata;
- Le colonne elencano le categorie dell’altra; la prima colonna si chiama colonna madre;
- E’ quindi possibile analizzare le variabili separatamente, prendendo in considerazione i totali di riga
o di colonna (distribuzioni marginali di ambito monovariato)
- Ogni cella della tabella contiene il numero di osservazioni che si riferiscono a una determinata
combinazione di categorie delle due variabili qualitative, ovvero le celle contengono le frequenze
congiunte, che permettono di comprendere come si muovono insieme le due variabili;
- Il procedimento che porta al calcolo delle frequenze per le celle (combinazioni) di un tabella di
contingenza si chiama tabulazione incrociata (o cross-tabulazione);
- Ci sono tre totali: totale complessivo, totali marginali di colonna, totali marginali di riga; di
conseguenza, posso costruire tre tipologie diverse di tabelle di frequenze relative/percentuali:
quando si considerano tabelle di frequenza riferite a profili di colonna/riga, si opera una riduzioni di
dati considerati.
Tabella di contingenza
utilizza la teoria della “regressione verso la mediocrità” (secondo lui, il mondo stava regredendo
verso uno stato mediocre) nello studio della relazione tra l’altezza dei genitori e dei figli – gli studi di
Galton dimostrano che i figli più alti della media avevano genitori ancora più alti di loro e i figli più
bassi della media avevano genitori ancora più bassi: questo fenomeno prende il nome, non
spregiativo, di regressione verso la media. (guarda slide 11, IV parte)
Quando si studiano due variabili quantitative, di solito si indica la variabile di risposta con y e la variabile
esplicativa con x; lo strumento grafico utilizzato prende il nome di scatterplot (o grafico a dispersione), nel
quale una coppia di valori (x;y) per un’unità è indicata da un punto relativo ai due assi; le osservazioni per gli
N individui sono gli N punti disegnati sullo scatterplot. Da uno scatterplot si può evincere un’eventuale
associazione tra due variabili:
- Due variabili quantitative x e y sono associate positivamente quando valori elevati di x tendono a
presentarsi in corrispondenza di valori elevati di y (idem coi valori bassi) → associazione positiva: se
x aumenta, y tende ad aumentare; due variabili quantitative x e y sono associate negativamente
quando valori elevati di x tendono a presentarsi in corrispondenza di valori bassi di y e viceversa →
associazione negativa: se x aumenta, y tende a diminuire.
Analisi di uno scatterplot → è necessario valutare:
- (1) Se esiste un’associazione tra le variabili e, nel caso in cui esista, (2) se è positiva o negativa;
- (1) Se il trend può essere approssimato da una linea retta: se sì, (2) esaminare il grado di
dispersione dei punti intorno alla retta;
- Se sono presenti osservazioni anomale che si discostano dal trend e che informazioni forniscono.
Si parla di correlazione lineare se i punti di uno scatterplot seguono un trend approssimabile da una linea
retta (relazione lineare): in particolare, si evidenzia una correlazione tra due variabili se lo scatterplot
assume la forma di un pallone da rugby sgonfio (più è sgonfio, più le variabili sono correlate).
Problema di misura della correlazione (intensità, direzione – diretta, inversa):
- Se si prende in considerazione il baricentro della distribuzione, dato dal punto (media di x, media di
y) = ( μx , μ y ), si ottiene una misura non efficiente, in quanto ci sono infiniti scatter con forme
diverse (ruotati, più sgonfi/gonfi) che hanno il medesimo baricentro;
- Se si prendono in considerazione gli scarti quadratici rispetto ad entrambe le medie, si stanno in
realtà analizzando i margini della distribuzione, quindi le singole variabili e non le loro congiunzioni;
Nell’immagine i due scatter hanno stesse medie e stessi scarti quadratici, ma
le variabili sono correlate in modo evidentemente diverso.
- La risoluzione del problema è data da Karl Pearson, che
introdusse il coefficiente di correlazione, indicato con r:
▪ esso assume valori compresi tra -1 e 1;
▪ valori positivi di r indicano un’associazione positiva,
quindi una correlazione diretta;
▪ valori negativi di r indicano un’associazione negativa,
quindi una correlazione inversa;
▪ r = -1 → perfetta correlazione lineare inversa, i punti si dispongono esattamente su una linea retta
e si può effettuare una previsione certa del valore di y, conoscendo il valore di x;
▪ r = 1 → perfetta correlazione lineare diretta, i punti si dispongono esattamente su una linea retta
e si può effettuare una previsione certa del valore di y, conoscendo il valore di x;
▪ r = 0 → nessuna correlazione;
▪ pertanto, si può affermare che più il valore di r è vicino a 1 (in valore assoluto), più vicini alla linea
retta si dispongono i punti e più è forte la correlazione lineare; più il valore di r è vicino a 0, più i
punti si discostano dalla linea retta e più è debole la correlazione lineare;
Dall’immagine si può notare come al crescere di r, la forma dello scatter si sgonfia
e il modello lineare di approssimazione prevedere progressivamente meglio i dati
reali (gli scostamenti sono via via minori); in questo caso, la correlazione è diretta,
ma lo stesso discorso vale per l’inversa (con il crescere di r in valore assoluto).
Nota: gli scatter sono disposti in ordine 1 – 2 – 5 e sotto 3 – 4 – 6.
Nota: in un mondo incerto, le correlazioni non sono mai perfette, ovvero ci sono sempre delle fluttuazioni
dei punti intorno ai modelli e i punti non cadranno mai esattamente lungo una linea retta.
Altre proprietà rilevanti della correlazione:
- Il valore della correlazione non dipende dalle unità di misura delle variabili – esempio: se la
variabile è il reddito di un unità e si opera un cambio da dollari a euro, la correlazione non cambia;
- Due variabili hanno la stessa correlazione, indipendentemente da quale delle due sia trattata
come variabile di risposta e quale come variabile esplicativa.
Formula del coefficiente di correlazione lineare:
σ xy
r=
σxσy
N
dove
∑ ( xi −μ x )( y i−μ y ) : al numeratore troviamo la codevianza, ovvero la somma dei
σ xy = i=1
N
prodotti degli scarti (scostamenti) dalla media di x e y sulla stessa unità; se mediamo questa somma per il
numero N di osservazioni otteniamo σ xy che si dice covarianza (numeratore di r) →
σ xy ∈ [ −∞ ; ∞ ]
Al denominatore di r, troviamo σ x σ y che costringono r a rimanere compreso tra -1 e 1, ovvero
normalizzano e rendono priva di unità di misura la grandezza al numeratore (covarianza).
σ xy >0 → relazione diretta;
σ xy <0 → relazione inversa;
σ xy =0 → assenza di relazione lineare.
In queste immagini:
I quadrante → scostamenti positivi concordi;
II quadrante → scostamenti non concordi;
III quadrante → scostamenti negativi concordi;
IV quadrante → scostamenti non concordi;
Quanto più gli scostamenti hanno valori elevati (“pesanti”), tanto più r si distanzia da 0.
Proprietà importante:
Il valore assoluto di r è invariante per trasformazioni lineari di x / y / entrambe (a + bX, c + dY; a, b, c, d ᴇ R)
– quando b o d è negativo, la trasformazione può al più cambiare il segno di r.
r è una misura utile in tutti i casi in cui lo scatter abbia una forma
ovale (“pallone da rugby”), tuttavia può essere fuorviante (1) in
presenza di outlier o (2) in presenza di una relazione non lineare.
Immagine – paradosso di Anscombe: questi 4 casii hanno in comune N, μ ed r, ma solo nel
primo caso si parla di correlazione lineare; 2 → modello curvilineo, 3 → interessato da
outlier, 4 → x è fisso al variare di y.
B. Calcolo di reddito medio e livello di istruzione medio per ogni regione → coefficiente di correlazione
calcolato sulle coppie di medie regionali = r' > r.
Risoluzione: è più giusto il primo metodo poiché analizza entrambe le variabili per ogni unità; analizzando
esclusivamente le medie, si perde contenuto informativo (non si sa quanto i dati fossero dispersi intorno alla
media) → si devono utilizzare i dati al maggior livello di disaggregazione possibile.
[Entra in gioco il problema dell’unità areale modificabile (MAUP): per ogni livello di risoluzione spaziale al
quale ci si colloca, i risultati sono diversi.]
----------------------------------------------------------------------------------
La sola osservazione di una correlazione (associazione, più in generale, in quanto è un principio valido
anche per variabili qualitative) tra due variabili non necessariamente implica un nesso di causalità: ci
possono essere spiegazioni alternative dell’associazione, come ad esempio, una variabile confondente →
anche detta variabile omessa, è una terza variabile non inserita nello studio (anche se nota ai ricercatori),
che influenza l’associazione tra le due variabili di interesse.
Paradosso di Simpson: la direzione dell’associazione tra due variabili può cambiare se consideriamo una
terza variabile e analizziamo i dati delle due variabili per livelli di tale terza variabile.
Esempio: uno studio sembra mostrare che il fumo giovi alla salute in quanto, date 1314 donne inglesi a cui
era stato chiesto se fossero fumatrici o meno, trascorsi vent’anni risulta che siano decedute il 24% delle
donne fumatrici (139/582) e il 31% delle donne non fumatrici (230/732) → il tasso di sopravvivenza è quindi
più elevato per le donne fumatrici, e questo evidenzierebbe un’associazione positiva tra fumo e longevità.
Tuttavia, se si prende in considerazione l’età iniziale delle donne e si dividono i dati in classi di età (18-34,
35-54, 55-64, 65+), emerge che le fumatrici hanno un tasso di sopravvivenza minore rispetto alle non
fumatrici e che quindi i risultati iniziali erano falsificati dall’omissione di una variabile che influenzava
fortemente lo studio.
Le correlazioni che passano attraverso variabili omesse si dicono correlazioni spurie.
Altri esempi:
- La correlazione positiva tra il numero di scarpe di un bambino e la sua capacità di lettura passa
attraverso la sua età: più un bambino cresce, più impara a leggere e più il suo piede cresce.
- La correlazione positiva tra il numero di sacerdoti e il numero di omicidi in una città passa attraverso
il grado di urbanizzazione di quella città.
Nota: l’omissione può essere voluta o subita.
- Una variabile confondente può essere causa comune delle due variabili (es. urbanizzazione –
numero di sacerdoti – numero di omicidi) oppure ci possono essere più variabili omesse e quindi
più cause, ed in quel caso l’analisi diventa più complessa (es. crescita della povertà ↔ crescita della
criminalità: la criminalità è legata a livello di istruzione, stabilità delle famiglie, qualità del vicinato in
cui gli individui vivono; a livelli bassi di queste stesse variabili può essere legato l’impoverimento di
un individuo, che quindi ha più probabilità di
divenire un criminale – l’impoverimento ha quindi, sulla criminalità, sia un effetto diretto sia uno
indiretto, attraverso tutte le variabili menzionate.
- r misura la forza e il verso della relazione lineare tra due variabili, pertanto non ci protegge da
eventuali fattori di disturbo o variabili omesse.
Capitolo 5 – Probabilità
()
n
k
è detto coefficiente binomiale; al denominatore, oltre allo “sconto” delle permutazioni degli
elementi che non rientrano in k, troviamo anche lo “sconto” delle permutazioni dei k elementi
stessi, in quanto le combinazioni non tengono conto dell’ordine degli elementi.
Esempio: dati n = 3 elementi a, b, c , le uniche tre combinazioni di ordine k = 2 sono a,b – b,c – a,c .
¿ casi favorevoli ad A
- Definizione classica: P ( A )= , purchè tutti i casi siano equiprobabili.
¿ casi possibili
Problema: in questa definizione c’è una tautologia, ovvero per definire una grandezza si è utilizzata
la grandezza stessa.
- Definizione frequentista: se si esegue un’infinità di prove, la frequenza relativa dell’evento è la
nA
probabilità dell’evento stesso; ovvero P ( A )=lim .
n→∞ n
Problema: ripetitività dell’esperimento; molti eventi che non possiedono tale requisito sono
valutabili probabilisticamente.
- Definizione soggettivista: la probabilità è la valutazione che il singolo individuo può coerentemente
formulare, in base alle proprie conoscenze, del grado di avverabilità di un evento.
Problema: coerenza e conoscenza sono facilmente violabili rispettivamente dalla non obiettività del
singolo e dall’impossiblità umana di conoscere tutto lo scibile (ovvero la limitazione ad una sfera
conoscitiva); un’ulteriore problema sarebbe l’impossibilità di formulare una misura oggettiva della
probabilità di un evento, accettando che i risultati coincidano solo in determinati casi.
- Fenomeno = prova, processo – ogni “ripetizione” di un fenomeno (ad esempio, ogni lancio di un
dado) è un’ulteriore prova;
- Prove indipendenti: il risultato di una prova non è influenzato da ciò che accade in ogni altra prova;
- Esito di una prova = evento – può corrispondere ad un particolare esito o ad un gruppo di possibili
esiti e si indica con le lettere dell’alfabeto latino (A, B, …);
- Insieme di tutti i possibili eventi = spazio campionario (S) – un evento A è un sottoinsieme di S;
- Evento elementare = evento di natura semplice, descrivibile con una sola caratteristica, non
decomponibile – è un punto nello spazio campionario (esempio: “esce 6 al lancio di un dado”);
- Evento complesso = evento di natura articolata, decomponibile poiché composto a partire da
eventi elementari – è un insieme di punti nello spazio campionario (esempio: “esce numero pari al
lancio di un dado”).
Ogni esito in uno spazio campionario ha una probabilità – si seguono due principi base:
1. La probabilità di ogni singolo esito è un numero tra 0 e 1;
2. La somma delle probabilità di tutti i possibili esiti è pari a 1.
[Se ogni esito in uno spazio campionario è equiprobabile, la probabilità di ogni singolo esito – inteso
come evento elementare – è pari a 1/(numero degli esiti possibili); se fosse un evento complesso, la
probabilità sarebbe data da (numero di esiti contenuti nell’evento)/(numero di esiti possibili).]
- Complementare di un evento A ⊂ S : consiste di tutti gli esiti che sono contenuti nello spazio
campionario S ma non nell’evento A ; lo si denota con A C o con Á ;
- Eventi disgiunti: due eventi si dicono disgiunti o incompatibili se non hanno alcun esito in comune
(esempio: al lancio di un dado, “esce un numero pari” ed “esce un numero dispari”);
- Intersezione di due eventi: l’intersezione di due eventi A e B consiste degli esiti
contenuti in A e in B; si indica con A ∩B ;
- Unione di due eventi: l’unione di due eventi A e B consiste degli esiti contenuti in A
e/o in B – quindi, l’unione di A con B indica “si verifica A o B o entrambi”; si indica
con A ∪ B .
Probabilità condizionata
Probabilità condizionata = apparato metodologico che permette di calcolare la probabilità di una
determinata modalità di una data variabile, quando si conosce l’esito di un’altra variabile.
Si può capire che due eventi A e B sono indipendenti, se il fatto che B si sia realizzato non modifica la
probabilità di realizzazione di A – esempio: estrazioni del lotto → se alla precedente estrazione è uscito un
determinato numero (chiamiamo questo evento B), questo non ha effetti sull’eventuale uscita di un altro
determinato numero (chiamiamo questo evento A), quindi P ( A|B )=P( A) .