Sei sulla pagina 1di 58

Programma

Capitolo 1 ad esclusione dei seguenti paragrafi: §1.5, §1.5.1, §1.5.2,


§1.6, §1.6.1, §1.6.2;
Capitolo 2 ad
esclusione dei seguenti paragrafi: §2.3.3;
Capitolo 3; Capitolo 4; Capitolo 5;
Capitolo 6 ad esclusione dei seguenti paragrafi: §6.2;
Capitolo 7;
Capitolo 8 ad esclusione dei seguenti paragrafi: §8.1.1, §8.1.2,
§8.1.3, §8.2, §8.3.6;
Capitolo 9;
Capitolo 10 ad esclusione dei seguenti paragrafi: §10.1, §10.1.1 §10.2
§10.2.1 §10.3.3;
Capitolo 11 ad esclusione dei seguenti paragrafi: §11.1, §11.2, §11.3.2;
Capitolo 14.
Inoltre, le slides del corso che sono da considerare materiali didattici
integrativi.
Indice libro nuovo
Capitolo 1 Che cos’è e a cosa serve la psicometria?
Capitolo 2 La raccolta dei dati e la loro rappresentazione tabulare e
grafica
Capitolo 3 La statistica descrittiva
Capitolo 4 Elementi di probabilità e calcolo combinatorio
Capitolo 5 Distribuzioni di probabilità
Capitolo 6 Distribuzioni campionarie e intervalli di fiducia
Capitolo 7 La verifica delle ipotesi
Capitolo 8 Verifica delle ipotesi su un campione di osservazioni
Capitolo 9 Relazioni fra variabili
Capitolo 10 Verifica delle ipotesi su due campioni indipendenti di
osservazioni
Capitolo 11 Verifica delle ipotesi su due campioni dipendenti di
osservazioni
Capitolo 12 Test statistici per k campioni indipendenti
Capitolo 13 Test statistici per k campioni dipendenti
Capitolo 14 Misure di associazione fra variabili
Capitolo 15 L’analisi di regressione

1 Introduzione

Psicoterapia sviluppo di serie di modelli teorici e pratici → eclettismo


sistematico, integrazione concettuale → Ricerca importante anche per
psicologia clinica → approccio evidence based
approccio evidence based = integrazione migliore ricerca disponibile
con esperienza terapeuta nel contesto del cliente
(Kohler 1940)
Estrema familiarità e quotidianità fenomeni psicologici è freno per
impulso conoscitivo ← eccessivo focus su eventi insoliti che incrinano le
convinzioni
(cronbach 1957)
Psicologia (correlazionale VS sperimentale) = verificare,tra
caratteristiche psicologiche, (variazione concomitante VS causazione)
(stevens 1946) Poter misurare →
scaling (associare numero a caratteristica)
classificazione (creare intervalli nella scala e determinare se tali
valori cadono in uguali o diverse categorie)
standardizzazione (misurazioni ripetibili da più operatori e devono
dare lo stesso risultato)
I costrutti (entità) psicologiche
Sono alla base di una metodo di misurazione
Sono strumenti per dare ordine alla complessità (pattern) di
comportamenti che osserviamo nell'uomo
dette anche variabili psicologiche
Operazionalizzazione = definizione di serie di operazioni empiriche che
permettono di creare parallelo tra costrutto teorico e
mondo/comportamento empirico
definire il dominio di contenuto = insieme comportamenti che
espongono costrutto
selezionare migliori operaz.
Scegliere modello di misurazione
Indicatori = variabili osservabili che dovrebbero cogliere costrutto
Modello di misurazione → definisce tale parallelo.
Componenti:
costrutto,
osservabili,
relazione matematica tra costrutto e osservabili
Tipi
Reflective Indicator (costrutto diventa scala o causa degli
osservabili ) (es. intelligenza)
Causal indicator (costrutto diventa indice o effetto degli
osservabili ) (es. stress)

Scale di misura

Dette anche scale di Stevens


Livello di misura
Scala Nominale (categorizzazione, unità di analisi equivalenti o
meno), categorie sono
Distintive (permettono di misurare equivalenza tra soggetti)
Collettivamente esaustive: oggi soggetto deve essere
categorizzabile
Mutualmente escludentesi: un soggetto entra in una sola
categoria
Esempi: nomi squadra calcio
Scala ordinale (confronto tra unità di analisi in maggiore/minore,
per ottenerne un rango, senza quantificare il distacco → no unità di
misura)
Dicotomiche (solo 2 valori) VS Politomiche (3+ valori)
Con variabile sottostante
Metrica a Soglie note
Metrica a Soglie ignote
Latente a Soglie ignote (classificazione fatta solo da
esperti che si accordano)
Discreta semi-standardizzata (accordo tra esperti ma
senza ipotesi di variabile Metrica sottostante)
Discreta non-standardizzata (riferimento standard
impossibile)
Esempi: gravità di una condizione patologica
Scala a intervalli equivalenti (confronto quantitativo tra unità di
analisi → unità di misura , ma senza conoscere quantità assoluta
← no zero assoluto)
No zero assoluto → rapporto fra valori non è invariante
rispetto al cambio di scala di misura
Zero ragionevole = media della popolazione di riferimento
Scala più utilizzata in psicometria
Impossibile assumere che esista lo zero assoluto
(ovvero che il costrutto sia del tutto assente)
Usata anche come conversione delle scale di Likert
(ordinali)
Esempi: test psicologici
Scala a rapporti equivalenti (come scala intervalli eq. ma con zero
interpretato in termini assoluti)
Zero razionale = costrutto può essere assente
Esempi: tempi di risposta, altezza, peso

scala proprietà operazioni misure di test


aritmetiche tendenza stastistici
centrale
nominale equivalenza nessuna moda Analisi
simmetrica descrittive
transitiva Test non
parametrici
non equivalenza
simmetrica
ordinale come sopra più nessuna moda, come sopra
mediana
Ordine
asimmetrica
Ordine transitiva
intervalli come sopra più +, -, * tutte come sopra
più
costanza del Test
rapporto tra parametrici
intervalli
a come sopra più tutte tutte come sopra
rapporti
costanza del
rapporto tra
valori
solo valori
positivi

1.4 I test psicologici come strumenti per far emergere i


costrutti

Test → misura oggettiva di un costrutto se


Riferisce ad un modello teorico
Sia sensitivo e sensibile solo al costrutto sotto assessment
Sia ripetibile nel tempo
Valida in senso lato
Permette confronto con altre misure
(opzionale) è standardizzato (ovvero fornisce indicazioni delle
norme sui risultati della popolazione di riferimento)
Item dei test come reattivi mentali → capaci di far emergere il costrutto
1.5 Come sono fatti i test psicologici

Caratteristiche osservabili del comportamento


Latenza = intervallo di tempo stimolo→risposta
Metodo sottrattivo (Donders)
Frequenza = numero di volte comportamento si presenta
Durata = quantità di tempo in cui comportamento viene mantenuto
Intensità
Test psicologico → metodo per inferire capacità, tendenza,
predisposizione a
Agire, reagire, vivere
struttuare/ordinare pensiero o comportamento
Parti del test
Materiale stimolo = parte che contiene domande
Titolo test (opzionale)
Consegna
Elenco item
Foglio di notazione = foglio per segnare le risposte
Manuale del test
Presentazione cornice teorica
Definizione costrutto
Campione di soggetti origine di norme
Istruzioni per la somministrazione
Istruzioni per l’attribuzione di punteggio
Suggerimenti per interpretazione dei risultati
Griglia di correzione

1.6 Tipi di test psicologici


1.6.1 Prestazione massima

Soggetto richiesto di dare il meglio di sè


Esiste risposta corretta
Valutano il funzionamento considerato normale
Abilità (capacità non necessariamente apprese, specifiche
per ambiti)
Profitto (capacità apprese)
Attitudinali (capacità future/potenziali)
Intelligenza (mancanza definizione comune)
Intelligenza (capacità di adattarsi all’ambiente e risolvere problemi)
Globale VS complessa ?
test di Stanford-Binet : misura della capacità di giudizio (senso
pratico, iniziativa, adattamento)
test di Wechsler → (agire con intenzione, pensare con razionalità,
affrontare l’ambiente) → 14 scale : intelligenza {verbale,
prestazione}
Verbale: cultura, memoria, significato vocaboli
Prestazione: coord. visuo-motoria, problem-solving,
ragionamento logico-induttivp
test di Raven → (pensare con chiarezza, comprendere
complessità, immagazzinare e riprodurre informazione)
Test neuropsicologici → valutazione funzioni in sospetto di deficit ←
(invecchiamento, danno)
Mini mental state examination: 7 aree cognitive

1.6.2 Prestazione tipica

Pagina 156
Personalità
Tipi
Intervista faccia a faccia
Intervista semi strutturata
Test autosomministrato
Test proiettivo
Intervista faccia a faccia
Comportamento non verbale
Latenza risposte
Dipendenza da capacità/caratteristiche intervistatore
No info quantitative
Intervista semi-strutturata → domande standard
Coerenza e replicabilità
Compromesso tra ricchezzaVSaffidabilità osservazione
SWAP-200 (disturbi personalità)
Stimolo : linguaggio semplice
200 item → punteggio da 0 a 7
3 ripetizioni-test/sedute
Verifica: != osservatori ottengono == osservazioni
controllo effetto alone
Sforzo di rispettare distribuzione puntegg (es. 7 item con voto
8)
Interpretazione
Item mappati su prototipi di disturbo
Differenza da prototipo > 60 → disturbo
Differenza da prototipo 55-60 → forti tratti
Differenza da prototipo 50-55 → tratti
Test auto-somministrato → soggetto compila da sé
MMPI-II (inventario di personalità + disturbi emotivi)
567 item → V o F
7 scale di validità → individuare stili di risposta falsati
10 scale cliniche → ipocontria,depressione,isteria, deviazioni
psicopatiche, m-f, paranoide,psicoastenia, schizofrenia,
mania, introversione sociale
15 scale di contenuto → ansia, paure, ossessività,
depressione, preoccupazione salute, pensiero bizzarro,
rabbia, cinismo, antisocialità, Tipo A, bassa autostima,
disagio sociale, problemi familiari, difficoltà a lavoro,
atteggiamento negativo a psicoterapia
15 scale supplementari
DES
28 items → segno su linea tratteggiata per valutare item
Carlson&Putman
scala di valutazione a 11 punti
Rischio response set = stile di risposta
“estremizzato/polarizzato”
Metodo differenziale semantico (opinioni e atteggiamenti)
Segno su una linea delimitata da due parole bipolari
Bipoli prototipici cross-cultural diacronici
Buono cattivo
Forte debole
Attivo passivo
Scala Likert o Metodo delle valutazioni sommate
insieme di item i cui punteggi sommati per ottenere
quantificazione costrutto
metodo più comune
Item di Likert = item con formato di risposta con scala a più punti finiti o
linea orizzontale
Costruzione test di Likert
Definizione costrutto
Individuazione item rappresentativi
Valutazione item da pool di esperti (scala 5 punti)
Selezione item migliori
Scelta scala di risposta item con numero pari di livelli

Test proiettivi (far emergere contenuti psichici non consapevolmente


riconosciuti)
Teoria: modelli gestaltici/psicoanalitici → ambiguità
accresce influsso variabili intrapsichiche
Attenua influsso variabili strutturali stimolo
Approccio ideografico (opposto a quello nomotetico delle
scienze naturali)
Motivazione: test auto-somministrati
Incapaci di investigare contenuti psichici inaccessibili a
pensiero cosciente
inducono risposte con influenze sociali/culturali
Valutazione risposte effettuata da psicologo clinico
Critica: poca oggettività
Test della libera associazione di parole (F.Galton)
Soggetto ascolta parole scelte ad hoc
Risponde con prima parola che viene
Misurazione tempo di risposta
Assunzione: tempi reazione aumentano quando parole legate
Emozioni negative
Complessi normali (erotici, famiglia, casa,materniatòm
ambizione, successo, denaro)
Complessi accidentali (eventi particolari)
Complessi permanenti (in casi di psicopatologie)
Test delle macchie d’inchiostro di Rorsharch
10 tavole con macchie bilateralmente simmetriche
5 b/n, 2 b/n + rosso, 3 policrome
Intervistatore mostra tavole in modo non direttivo (no
risposte sbagliate, no limiti di tempo) →
1) “Cosa potrebbe essere questo?”
2) “In quale zona della macchia si è concentrato?”
3) “Quali caratteristiche hanno avuto ruolo?”

1.7 Proprietà psicometriche di un test psicologico:


attendibilità e validità

Misura = k*Osservazione + Errore = Costrutto + Errore


M = k*O + E = C + E
varianza = varianza_vera + varianza_errore
Attendibilità = proprietà psicometrica test/scala di misurare variabile
psicologica in modo accurato e di riprodurre stesso risultato al netto
dell’errore = proporzione della misura che non riflette l’errore
inversamente proporzionale a errore casuale
indice attendibilità = C/M = 1 - E/M

Misure indice attendibilità

Alfa di Cronbach
misura coerenza interna
versioni
forme parallele (pari varianza vera e varianza di errore)
forme tau-equivalenti (pari varianza vera)
per item congenerici (varianze diverse)
variabilità sistematica = la proporzione di variabilità dovuta al costrutto
Test per l'attendibilità
misura rappresenta costrutto unico
variabilità sistematica è dovuta solo al costrutto misurato (e non
altri costrutti intervenienti)
aumentare attendibilità: avere diverse forme della stessa misura (es.
item, indici, osservatori)

Bias culturali
Test attitudinali college riflettono cultura caucasica
test Draw-a-man sottostimava capacità nativi americani (disegno
cavallo)
validità = proprietà della misurazione con test di raggiungere lo scopo di
investigare il criterio
Validità
interna: VI è sue manipolazioni (più che altre cause) sono
responsabili dei risultati
esterna: I risultati sono generalizzabili alla popolazione
statistica: capacità di creare condizioni adatte alla verifica di ipotesi
contenuto = campione operazionalizzazioni prescelto è un
campione rappresentativo di univeso di op. possibili
facciata = operazionalizzazioni sono interpretate da soggetti nel
modo che ci aspettiamo
criterio = risultato test può essere usato per prevedere
comportamento soggetto
Concorrente = misura e criterio rilevati contemporaneamente
e sono funzionalmente connessi
pre/post-dittiva = criterio misurato prima/dopo della misura
Possibili criteri
Diagnosi → si effettua la misura su una popolazione in
cui è certa la presenza del costrutto → il criterio è la
distribuzione dei risultat
incrementale = contributo test nel migliorare predizione di un
criterio quando test è usato insieme ad altre misure
di costrutto = test misura effettivamente il costrutto
Validità convergente = grado di accordo fra misure ripetute
(possibilmente con somministrazioni diverse)
Validità discriminante = grado di distinguibilità tra misure di
altri costrutti
nomologica
Rete nomologica di una misura
cos’è il costrutto
Relazioni (proprietà,osservabili) del costrutto
relazioni (costrutto,proprietà)
Relazioni (costrutto, altri-costrutti)
Scientificità = validità nomologica → relazioni rete nomologica
coinvolgono osservabili

2 La statistica descrittiva
Pagina 222

2.1 Il campionamento

campione rappresentativo ⇒ riflette in modo adeguato le caratteristiche


della popolazione
ampiezza del campione = numero di suoi elementi
campione normativo = campione utilizzato per costruire la misura
standardizzata di un costrutto che sarà utilizzata
generalizzabilità del campione = grado in cui risultati studio su
campione possono essere estesi a popolazione
variabile = caratteristica distintiva di una popolazione
misurabili su scala qualitativa/ordinale/metrica
continue/discrete
statistica VS parametro = misura di una variabile del campione VS
popolazione
obiettivo studio = stima dei parametri tramite le statistiche
indice = stimatore ⇒ base per fare le stime
indice corretto/scorretto = suo valor medio è uguale/diverso al
parametro corrispondente
campionamento = procedura di individuazione degli elementi del
campione

2.1.1 Tipi di campionamento in psicologia

probabilistico VS non-probabilistico = ogni unità di popolazione ha prob.


(nota e non nulla VS non-nota) di entrare nel campione
campionamenti probabilistici ⇒ maggior generalizzabilità
campionamenti probabilistici
c. casuale semplice ⇒ con VS senza reinserimento
estrazione casuale
ogni unità ha stessa probabilità
probabilità tra unità sono indipendenti
c. quasi causale
estrazione casuale
unità possono avere probabilità diverse di essere estratte
c. stratificato
suddivisione della popolazione in strati in base a
caratteristica/caratteristiche (es.sesso, sessoXstatoCivile)
campionamento casuale sui singoli strati, in modo che le
caratteristiche del campione siano distribuite come nella
popolazione
c. per cluster
campionamento su popolazione naturalmente divisa in
sottogruppi (es.criteri geografici)
campionamento casuale sui singoli cluster in modo che le
caratteristiche del campione siano distribuite come nel cluster
c. sistematico
selezione di unità ogni k=N/n unità della popolazione
(ordinate in sequenza)
n = ampiezza del campione
k = passo di campionamento
ha le stesse proprietà del c.casuale semplice
a fasi: le unità selezionate in 1^ fase vengono assegnate a diverse
versioni del protocollo (2^ fase)
campionamenti non probabilistici
c. a scelta ragionata
campione composto dal ricercatore esperto della popolazione
selezione di elementi tipici
c. per quote
estrazione non casuale (es. i nonni dei nostri studenti)
unità possono avere probabilità diverse di essere estratte
sistematico non casuale (es. ogni h elementi)
a valanga ⇒ partendo da unità radice dalle quali ottenere le altre
convenienza ⇒ chi capita

2.3 Rappresentazione tabellare e grafiche

2.3.1 Tabelle

classe di valori = intervallo di valori compresi tra limite inferiore e limite


superiore
raggruppamento in classi = rappresentazione dei risultati di una misura
tramite classi
frequenza di classe = numero di valori che cadono all’interno dei suoi
limiti

frequenza relativa di classe FRC =


frequenza cumulata di classe = FRC + somma di tutte le frequenze di
classe precedenti
ha senso solo se la variabile è almeno ordinale
range di classe = ampiezza di classe = limSuperiore - limInferiore
il limite reale inferiore è mezza unità di misura minore del limite tabulato
inferiore ed è compreso nella classe
il limite reale superiore è mezza unità di misura maggiore del limite
tabulato superiore e non è compreso nella classe
tabella di contingenza = tabella a doppia entrata

2.3.2 Grafici
diagramma a barre (variabili nominali/ordinali)
semplice → rappresenta tabelle ad una entrata
a barre affiancate ⇒ rappresenta tabelle a due o più entrate
diagramma a torta
istogramma (variabili metriche) = diagramma a barre affiancate
poligono di frequenza/proporzione/percentuali
confrontare distribuzione frequenza di due gruppi/strati/cluster di
unità
poligono cumulativo = ogiva = poligono di frequenze cumulative dei
risultati
serie temporale/storica = misura su una variabile temporale
variabile circolare ⇒ i cui valori hanno limite massimo e minimo
coincidono
grafici a radar o polari
bat’s wing → frainteso per dati interpretati come aree
coxcomb
funzione psicometrica
a volte assume forma ad s detta sigmoide
permette di individuare il valore di stimolo soglia
diagramma ramo-foglia

2.4 Misure di tendenza centrale

indice = misura di tendenza centrale = statisticha che sintetizza info


della misura con un unico valore che sia rappresentativo della
caratteristica misurata nel campione specifico
2.4.1 Moda

moda = valore/categoria più frequente nel campione


se i dati sono rappresentati in classi, la classe modale è la classe più
frequente
distribuzione
bimodale ⇒ due valori possono valere come moda
multimodale ⇒ 2+ valori possono valere come moda
amodale ⇒ tutti i valori hanno la stessa frequenza

2.4.2 Mediana

mediana = valore al centro della distribuzione ordinata di valori (ha 50%


delle misure con valori inferiori, e 50%delle misure con valori
superiori)

procedure per calcolare la mediana


individuazione posizione nei ranghi dei valori
n dispari
variabile ordinale/metrica ⇒ semisomma dei due valori
mediani
variabile nominale ⇒ valore immediatamente superiore
individuazione posizione nei ranghi delle frequenze cumulate dei
valori
calcolo diretto per dati suddivisi in classi (A = ampiezza classe)
2.4.3 La media

media aritmetica = valore atteso = valore più probabile che possiamo


aspettarci = baricentro di una distribuzione
outliers = valori estremi → ATTENZIONE
trimmed mean = media calcolata dopo aver escluso un numero fisso di
outliers → in genere 5% di valori estremi
windordized mean = media calcolata dopo aver escluso % di estremi
con estremo inferiore/superiore distribuzione
proprietà della media

scarto quadratico

proprietà dei minimi quadrati →

2.4.4 Scelta dell’indice di tendenza più adeguato

Possibilità:
nominale → moda
ordinale → moda, mediana
metrica → moda, mediana, media
Principi
sfruttare al massimo informazione fornita dai dati

mediana più stabile della media rispetto ai valori estremi


distribuzione
simmetrica ⇒ moda = mediana = media
asimmetrica positiva ⇒ media > mediana
asimmetrica negativa ⇒ media < mediana

2.5 Misure di dispersione, posizione e variabilità

indice di dispersione = statistica che misura variabilità osservazioni

2.5.1 Variabilità a livello nominale

numero di categorie di risposta = NdE = numero classi di equivalenza


considera solo i valori della variabile effettivamente osservati
metodo più semplice

rapporto di variazione RV ( = freq. classe modale )

indice di diversità ID ( = proporzione casi classe i, k=#classi)

ID non può essere confrontato tra distribuzioni con =! numero di classi


indice variazione qualitativa IVQ (k=#classi)

IVQ confrontabile tra distribuzioni con != numero classi

2.5.2 Varibialitià a livello ordinale

Tutti gli indici di livello nominale sono applicabili


range = gamma = campo di variazione
usabile solo per variabili quantitative

Indici di posizione

quantile = i-esimo rango di una distribuzione divisa in k parti


(n=#osservazini)
non dipende da forma distribuzione
esempi
terzile = rango di una distr. divisa in 3 parti
quartile = rango distr. divisa in 4 parti
percentile = rango di distr. divisa in 100 parti

per dati raggruppati in classi

per dati metrici possiamo calcolare esattamente il quantile ( =


somma freq. inferiori a classe quantile, A=ampiezza classe
quantile)

rango quantile = posizione occupata da un valore all’interno della


distribuzione divisa in k parti (n=#osservaioni)

per dati raggruppati in classi

range interquarile IQ = intervallo interquartile ⇒ indica limiti/estensione


dei valori riguardo al 50% centrale della distribuzione
differenza interquartile DIQ (per dati quantitativi)

diagramma a scatola e baffi = cinque numeri di sintesi della


distribuzione
minimo

mediana

massimo

2.5.3 Variabilità a livello metrico

Tutti indici di livello ordinale sono applicabili, anche se non sfruttano


informazione unità misura

scostamento semplice medio SSM (quanto in media i valori si


discostano da media) (M media)

DIFETTO: SSM può essere uguale alla somma del valore assoluto degli
scarti da un altro valore! a questo provvede la devianza…

devianza = somma dei quadrati degli scarti SS

DIFETTO: devianze di distribuzioni != sono confrontabili solo se le


distribuzioni hanno stessa cardinalità

varianza = media degli scarti = sigma quadro s 2


DIFETTO: non confrontabile con media ⇐ potenze diverse
deviazione standard = scarto quadratico medio = sigma s = radice
quadrata varianza

se i dati sono riportati in frequenze

coefficiente di variazione = 100*s/|M|


confronto tra di variabilità di distribuzioni diverse
senza unità di misura
usato per eliminare outlier

2.6 Punteggi standard

Per confrontare distribuzioni diverse si ricorre a standardizzazione cioè


rappresentazione dei dati su stessa scala
Quantilizzazione ⇒ valorizza solo informazione a livello ordinale
Uso deviazione standard come unità di misura = trasformazione in
punti z o punti standard
z=(x-M) / s
punti T
T=50+z*10

2.7 Indici della forma di distribuzione

media > mediana ⇒ gobba a sinistra


media < mediana ⇒ gobba a destra
simmetricità ⇒ skewness = (media-f) / s
f={moda, mediana}
valida solo se = 0
asimmetricità ⇒ skewness complessa
Valida sempre
curtosi = appiattimento ⇒ quanto pesano le code = quanto i valori
sono concentrati intorno alla media
platicurtica : code corte e alte, curtosi alta, valori sparsi
leptocurtica : code lunghe e basse, curtosi bassa, valori
concentrati
5 costanti descrittive a livello metrico
minimo
Massimo
Media
Deviazione standard
skewness
curtosi

3 Statistica inferenziale

Scopo = usare i risultati di una misura ossenuti nel campione per fare
inferenze sulla popolazione e per stabilire se tali inferenze sono
valide

3.1 Elementi di probabilità

spazio campionatorio = insieme di tutti eventi possibili


concezione frequentista = prova ripetuta sempre nelle medesime
condizioni
p(AeB) = p(A) *p(B|A)
probabilità condizionata = p(B|A)
sensibilità = veri_positivi/totale_malati
specificità = veri_negativi/totale_non_malati
potere predittivo positivo = veri_positivi/totale_positivi
potere predittivo negativo = veri_negativi/totale_negativi

teorema di Bayes
p(A|B) = p(A) *p(B|A)/ p(B)
Permutazioni semplici = n!
Permutazioni circolari = (n-1)!
se ci sono elementi ripetuti (nk volte) calcoliamo le
Permutazioni con ripetizione =n! / n1!... nk!
disposizioni semplici a k a k = n! /(n-k)!
disposizioni con ripetizione a k a k = n^k
combinazioni semplici = coefficiente binomiale n,k = n! / (k! (n-k)!)
combinazioni con ripetizione = coefficiente binomiale n+k-1,k
funzione di densità = per ogni valore assumibile dalla variabile
aleatoria, la probabilità di verificarsi

3.2 Distribuzioni di probabilità

distribuzioni
rettangolare uniforme
binomiale
variabili dicotomiche = i cui 2 valori possibili sono
mutualmente escludentisi
p(k) = prob di k successi su n prove= coeff_binomiale_n_k *
p^k * q^(n-k)
simmetrica se p=q
media = n*p
deviazione standard = sqrt(n*p*q)
normale
solo valori continui
Quetelet e i fatti di vita ⇒ tutti distribuiti normalmente
Test psicologici di costrutti non patologici seguono
distribuzione normale
proprietà
u = media = moda = mediana = massimo
u±sigma ⇒ punti di flesso
simmetrica rispetto a u
asintotica
per qualsiasi mu e sigma, p(mu+k*sigma) = costante
normale standardizzata (gli x sostituiti con i z)
media = 0
deviazione standard = 1

3.3 Distribuzioni campionarie

distribuzione campionaria = distribuzione relativa a una specifica


statistica che viene calcolata su tutti i possibili campioni di ampiezza n
estraibili dalla popolazione
teorema del limite centrale ⇒ la distribuzione campionaria delle medie
di tutti i possibili campioni di ampiezza n tende alla normale
all’aumentare di n e lo diventa per n>=30, indipendentemente dalla
forma della distribuzione della variabile nella popolazione
distribuzione campionaria della media
segue andamento normale per n>=30
media = media campionaria =
deviazione standard = errore standard

se N=inf. o campione estratto con reinserimento

altrimenti

errore standard stimato (quando non si conosce )

legge dei grandi numeri

esempi
(contesto della popolazione di studenti italiani (53% superano))
qual è la probabilità che, in un campione di 10 studenti,
almeno 8 abbiano superato l’esame? ⇒ variabile nominale
dicotomica ⇒ binomiale (N=10 k=8,9,10 p=0,53) ⇒ risposta
p(8)+p(9)+p(10)
qual è la probabilità che in un campione di 500, tra 240 e 255
hanno superato esame ⇒ variabile nominale dicotomica + N
molto grande ⇒ normale (trasformazione punti z) ⇒ tavole di
probabilità

(contesto popolazione punteggi test estroversione (media 60


dev.stand. 20))
qual è probabilità estrarre a caso un campione di 58 soggetti
che abbia una media inferiore a 57? ⇒ N>30 ⇒ variabile
normale ⇒ trasformazione punti z
(contesto popolazione finita (N=250) punteggi test estroversione
(media 60 dev.stand. 8))
qual è prob estrarre a caso un campione di 64 soggetti che
abbia media compresa tra 59 e 63 ⇒ n>30 + N finito ⇒
variabile normale ⇒ trasformazione punti z con correzione
deviazione standard

3.3.1 Gli intervalli di fiducia della media e di una


proporzione

intervallo di fiducia = intervallo di valori dentro il quale siamo sicuri che


una statistica cada con una certa probabilità f

intervallo di fiducia per la media


assunzioni
popolazione distribuita normalmente oppure
popolazione distribuita variamente e ampiezza
campione > 30

se è ignota, si sostituisce con


(popolazione finita (N), deviazione standard popolazione
ignota)

(popolazione infinita, deviazione standard popolazione nota)


(popolazione finita (N), deviazione standard popolazione
nota)

intervallo di fiducia per la proporzione campionaria

intervallo di fiducia per la proporzione di popolazione

3.4 La verifica delle ipotesi

Teoria classica del testing :


misura = valore + errore
errore
casuale
distribuito normalmente

3.4.1 p-value approach (PVA)

Ideato da sir Ronald Fisher (1925)

ipotesi nulla H 0 ipotesi scontata, prevedibile, non interessante!


parametro popolazione = TOT

ipotesi sperimentale o H 1 = ipotesi alternativa o sostantiva,


interessante!
monodirezionale
parametro popolazione > TOT
parametro popolazione < TOT
bidirezionale ⇒ parametro popolazione != TOT
Testi di verifica delle ipotesi = calcolo probabilità che i dati osservati

siano risultato/manifestazione di H0
Witgenstein ⇒ logica falsificazionista ⇒ cercare di dimostrare che è
troppo improbabile che i risultati dei test avvengano in una situazione in
cui H0 è vera, senza poter dimostrare che H1 sia vera
livello di significatività = valore soglia di probabilità che p(H0) deve
superare per passare il test
errore di I tipo = rifiutare H0 quando è vera
ha propabilità
errore di II tipo = accettare H0 quanto è falsa
ha probabilità
potenza del test statistico = = probabilità di accettare H1 quanto è
vera
carenza di potenza ⇒ campione troppo piccolo ?
eccesso di potenza ⇒ campione troppo ampio ?
in genere è 0.05 o 0.01
alternative al PVA
NHST null hypothesis significance testing
FAA (Neuman&Pearson 1993) fixed alpha approach
test p(dati|H0 vera) <

3.4.2 Analisi della potenza del test

dimensione dell’effetto = il grado in cui il fenomeno è presente nella


popolazione = il grado in cui H0 è false per lo più
indipendentemente dall’ampiezza del campione
analisi ⇒ determinazione della dimensione dell’effetto ⇒ g = |stima-
parametro|
trascurabile g<0,05
piccola 0,05<g<0,15
moderata 0,15<g<0,25
grande g>0,25
l’analisi della dimensione dell’effetto ci permette di avere una visone più
completa della reale importanza dell’effetto, quando un H0 è stata
rifiutata ma l’effetto ci sembra piccolo
tipi di significatività
statistica ⇒ stima probabilità risultati derivino da ipotesi nulla
pratica = analisi della dimensione dell’effetto ⇒ evitare di
sopravvalutare effetti piccoli significativi con campione grandi
sottovalutare effetti grandi non significativi con campioni
piccoli
clinica = stima del valore pratico/applicato e dell’importanza degli
effetti per la vita quotidiana della persona

4 Verifica delle ipotesi su un campione di


osservazioni

stabilire se si tratta di un campione omogeneo con la popolazione =


stabilire se è rappresentativo

4.4.1 Un campione: scala nominale

L’omogeneità si indaga con la verosimiglianza di una proporzione di


successi su n prove
variabile dicotomica ⇒ test binomiale
variabile politomica ⇒ test chi-quadro
Test della binomiale :
variabile dicotomica
mono- o bi-direzionale
parametro della popolazione da testare noto
H0 = il campione è omogeneo con la popolazione
caso k/n < ⇒ si osservano meno di k successi su n prove
caso k/n > ⇒ si osservano almeno k successi su n prove
test rifiuto H0 se
n piccol

Tede della binomiale con campione ampio


variabile dicotomica
trasformazione in punti z

test monodirezionale

test bidirezionale accetto H0 se

n grande
z critico = punto z’ per cui
dimensione dell’effetto test binomiale:= indice g =
Test del chi-quadro
variabile politomica (k categorie)
osservazioni indipendenti
assunzioni
nessuna frequenza è =0
se k=2 ⇒
se k>2 ⇒ non più del 50% di frequenze sono
<5
campione e popolazione hanno grandezze simili
GL = k-1
test: ? distribuzione campionaria di frequenze/valori è
coerente con distribuzione attesa
rifiuto H0 se

test post-hoc dicono quali categorie la discrepanza fra frequenze


attese e osservate è significativa
limiti
se le ampiezze di campione (n) e popolazione (N) non sono
simili occorre considerare la dimensione dell’effetto w

visione più chiara della reale entità del fenomeno


trascurabile w<0,1
debole 0,10<w<0,3
moderata 0,30<w<0,5
grande w>0,50
distribuzione chi-quadro = somma quadrati dei punti z di una
distribuzione normale

= punto x per cui

4.2.2 Test per un campione: scala ordinale

Test della mediana : misura significatività differenza mediane tra


campione e popolazione
mediana nota
osservazioni indipendenti
esclusione valori = mediana
è il numero di valori del campione > della mediana della
popolazione
è il numero di valori del campione < della mediana della
popolazione
test monodirezionale destra: rifiuto H0 se

test monodirezionale sinitra

test bidirezionale

Tcritico ricavato da tavola 8 in base a e nsup+ninf


Test della mediana con binomiale
mediana nota
osservazioni indipendenti
esclusione valori = mediana
test: p(successi su n >= nsup | )<

oppure test: p(successi su n < ninf | )<

4.4.3 Test per un campione: scala metrica

4.4.3.1 Test z per un campione

Test significatività differenza medie


intervalli di fiducia: media campionaria cade in intervallo intorno
alla media di popolazione con prob 95%
procedimento
1. calcolo punto tramite tabelle
2. test:
test delle ipotesi: differenza tra media campionaria e di
popolazione è fluttuazione causale
procedimento
1. calcolo punto tramite tabelle

2. calcolo
3. test bidirezionale:

4.4.3.2 La distribuzione t di Student e il test t

distribuzione t di Student (Gosset)


simmetrica
asintotica
area sottesa = 1
deviazione standard > 1
gradi di libertà
test di t-student
deviazione standard popolazione ignota
ampiezza campione < 30
procedimento
1. calcolo

2. calcolo
3. derivazione di da tabelle
4. test bidirezionale: accetto H0 se

4.4.3.3 Intevallo di fiducia per la media: campioni


piccoli

deviazione standard ignota


ampiezza campione < 30
procedimento
1. derivazione di da tabelle

2. test:

La dimensione dell’effetto nel test z e nel test t per un campione è

e si interpreta
trascurabile d<0,1
debole 0,20<d<0,5
moderata 0,5<w<0,8
grande w>0,80

determinazione dimensione ottimale del campione per un test z (sulle


medie):
set di
set di
derivazione da tabelle z di e

[opzionale] stimare con


dimensione ottimale test monodirezionale

dimensione ottimale test bidirezioale

potenza a posteriori

4.4.3.6 Test sulla varianza e suo intervallo di fiducia


test della varianza

test bidirezionale:accetto H0 se

test monodirezionale

intervallo di fiducia per la varianza

5 Verifica delle ipotesi su due campioni di


osservazioni

Confronto con popolazione Vs confronto con altro campione


Assunzione: i due campioni provengono da due popolazioni che si
differenziano sulla variabile dipendente
Relazione tra differenze su una variabile e differenze altra variabile ⇒
spiegare la variabilità della seconda
Indipendente: distingue i due campioni
Dipendente: la variabile oggetto/in-esame
Focus su variabili nominali dicotomiche

Campioni indipendenti

I due devono essere identici per ogni altra caratteristica che possa
influire su v. Dipendente che non sia la variabile indipendente
vero esperimento
Gruppi indipendenti
Manipolabilita VI
Soggetti associati casualmente a livelli VI
Presenza gruppo di controllo (senza terapia, con terapia ad effetto
noto)
quasi-esperimento
Gruppi indipendenti
Soggetti associati in modo Non casuale a livelli v.dipendente
livelli v.dipendente non rappresentati come nella popolazione

Scala nominale

Politomica ⇒ test chi quadro per indipendenza variabili categoriali


Test differenza due proporzioni indipendenti
Variabile dipendente dicotomica
H0 = i due gruppi provengono da popolazioni aventi proporzioni tra
i due livelli della VD che stanno in rapporto r ⇒ P1 - P2 = r
assunzioni
n1P1(1-P1) > 5 e n2P2(1-P2)>5
Proporzioni P_popolazione_1 e P_popolazione_2 note o
ASSUNTE come nulle
Procedimento
1. Calcolo di P

2. Calcolo di z

3. Test: rifiuto H0 se
Intervallo di fiducia per differenza proporzioni nulla
Almeno 30 osservazioni
Calcolo z con formula z_critico*sqrt(p1(1-p1)/(n1-1))
Test: intervallo comprende differenza nella popolazione?
Intervallo di fiducia per differenza proporzioni k
Z=z_critico*sqrt(... )
Test di t
Meno di 30 osservazioni per c
GL = n1 +n2-2
Dimensione dell'effetto ⇒ indice h
Scala ordinale

Confronto tra mediane ⇒ possibile


Test U di Mann-Whitney
Adatto a piccoli campioni
Assunzioni
Campioni indip
Campioni estratti da distrib continua (no scale strettamente
ordinali)
Scala almeno ordinale
H0:= mediana_popolazione1- mediana_popolazione2 = 0
Procedimento
1. Determinazione ranghi per ogni campione (pari rango ridotti
ad uno con semisomma)
2. Calcolo di U1 U2
3. Test
1. N<9 rifiuto H0 se U( min(U1, U2)) <= U critico
2. N >9
1. Calcolo z con formula
2. Rifiuto H0 se z >= zcritico
Dimensione dell'effetto
correlazione rango bivariale CRB
N>9 indice r

Scala metrica

Test diff media ⇒ possibile


Test di z per Campioni indipendenti
Assunzione:
Ampiezze >30
Sigma_popolazione1 sigma_popolazione2 note
H0:= differenza tra medie campionarie e medie popolazioni è
uguale
Calcolo Zcalc= con formula
Test: rifiuto H0 se |zcalc|>|zcritico|
Test z Campioni indipendenti Varianze non note
Come sopra ma con formula z differente
Test t student Campioni indipendenti
Assunzioni
Un campione con ampiezza inf a 30
Varianze popolazioni omogenee (vedi test omogeneità)
Calcolo di t con formula (con stimatore congiunto)
GL=n1+n2-2
Test :rifiuto H0 se |t_calc|>|t_critico|
Dimensioni effetto
Indice d per due campioni di Cohen
Indice d corretto per Campioni piccoli
Test omogeneità Varianze piccoli campioni indipendenti
H0:= le varianze delle popolazioni dei due campioni sono uguali ⇒
posso usare lo stimatore congiunto
SI basa su distribuzione di Fisher, asintotica positiva asimmetrica
Procedimento
1. Calcolo stima Varianze popolazioni con formula
2. Calcolo f_calcolato con formula
3. scelta campione Max come quello che ha varianza maggiore
4. GL numeratore = nCampMax-1
5. GL denominatore = nCampMin-1
6. Calcolo fcritico da tabelle
Test : rifiuto H0 se F_calcolato>F_critico

Campioni dipendenti

dipendenti = Punteggi campioni sistematicamente in relazione


Esempi
misure ripetute su stessi soggetti
Studi caso-controllo
Studi gemelli omozigoti
Studi moglie-marito, madre-figlio,...
Rischi
Ordine con cui si eseguono misure incide su osservazioni
(Dipendenza seriale)

Scala nominale

Test McNemar
Assunzione: n1+n2>10
Variabile dicotomica 0/1
H0:= proporzioni popolazioni due campioni sono uguali
n12 = # soggetti primo campione con x=1
n21 = #soggetti secondo campione con x=0
Calcolo z con formula

Test: rifiuto H0 se |z calcolato|>|z critico|


Test binomiale
Variabile dicotomica
Assunzione: n1+n2<=10
H0:= proporzioni popolazioni due campioni sono uguali
Test: p(S>= k) con P=0,5
Dimensione dell'effetto differenza proporzione:= indice h

Scala ordinale
Studio delle mediane ⇒ possibile
Test di Wilcoxon
H0: le mediane delle due popolazioni sono uguali
Procedimento
Calcolo differenze |c2-c1|
Scartare campioni con differenza=0 ⇒ ncorretto
Assegnare rango
T+ = somma ranghi per cui c2-c1>0
T- = somma ranghi per cui c2-c1<0
T calcolato = min(T+, T-)
Test: rifiuto H0 se T Calc <= T critico
Se n>=16 ⇒ approssimazione alla normale
Calcolo z con formula
Test: rifiuto H0 se |z calcolato|>|z critico|
Dimensione dell'effetto del Test di Wilcoxon (n>=16) := indice r

Scala metrica

Studio delle medie ⇒ possibile


Test di t/z per Campioni dipendenti
Assunzioni
n</>30
Varianze due popolazioni sono omogenee
Calcolo differenze c2-c1
H0:= la media delle due popolazioni è uguale a k
Calcolo di t/z con la formula
Test: rifiuto H0 se |t/z calcolato|>|t/z critico|
Dimensione dell'effetto per test t campioni dipendenti:= indice d
Omogeneità Varianze campioni dipendenti
H0: le Varianze delle due popolazioni sono uguali
Calcolo F con stessa procedura per Campioni indipendenti
Calcolo t con formula
GL = n-2
Test: rifiuto H0 se |t calcolato|>|t critico|

6 Verifica delle ipotesi su tre o più campioni


di osservazioni [OPZIONALE]

Variabile indipendente sempre nominale politomica


esempi
farmaci ed effetto placebo
Soggetti Test differiscono per più di una caratteristica
Procedimento
1. test omnibus : esiste un effetto in almeno due gruppi?
2. Test post-hoc: quali coppie di gruppi effettivamente differiscono?
Casi strani
Omnibus positivo, post-hoc negativi ⇐ riduzione potenza dovuto a
correzioni significatività
Omnibus negativo, alcuni post-hoc positivi ⇐ campioni con
numerosità molto diverse

Scala nominale

Campioni indipendenti

Test confronto di k proporzioni indipendenti (Omnibus)


Variabile dipendente dicotomica
H0:= le proporzioni nelle k popolazioni sono uguali
Calcolo chi-quadro secondo formula
Calcolo valori critici per alpha e (1-alpha)
Test bidirezionale: rifiuto H0 se chi-quadro-calcolato < chi-quadro-
critico-inferiore OPPURE > chi-quadro-critico-superiore
Dimensione effetto: incide w sul chi-quadro-calcolato

Campioni dipendenti

Esempi
Ripetute misure su stessi soggetti
Terzetti di gemelli
Unità di analisi = famiglia
Studi caso-controllo con 2+ casi/controlli
test Q di Cochran (Omnibus)
affidamento a distribuzione Chi-Quadro GL = k-1
Assunzione: Variabile dipendente dicotomica
S_i = totale Punteggi soggetto i
P_i = totale Punteggi campione i
M_P = sum(P_i) /k
Calcolo di Q con formula

Test bidirezionale: rifiuto H0 se Q < chi-quadro-critico-inferiore


OPPURE Q > chi-quadro-critico-superiore
Dimensione effetto: indice w sul chi-quadro-calcolato

Scala ordinale

Campioni indipendenti
test Kruskal-Wallis (Omnibus)
Affidamento a distribuzione chi-quadro
Assunzione: Variabile dipendente
Ordinale
metrica non distribuita normalmente o con campione piccolo
H0:= I k gruppi vengono da popolazioni con stessa mediana
Procedimento
1. Ordinare tutti i punteggi
2. Assegnare rango
3. Calcolare media ranghi per ogni gruppo
4. Calcolo di KW secondo formula
talcolo chi-quadro critici GL = k-1
Test bidirezionale: rifiuto H0 se KW < chi-quadro-critico-inferiore
OPPURE KW > chi-quadro-critico-superiore
Dimensione dell'effetto: indice w

Campioni dipendenti

Test analisi varianza a ranghi di Friedman (Omnibus)


H0:= i gruppi vengono da popolazioni con mediane uguali
Procedimento
1. Assegnare ranghi separatamente per unità di analisi (tot n)
2. Calcolare somma dei Ranghi per ognuno dei campioni (tot k)
3. Calcolare FR con la formula
Test bidirezionale: rifiuto H0 se FR < chi-quadro-critico-inferiore
OPPURE FR > chi-quadro-critico-superiore
Dimensione dell'effetto = indice w

Scala metrica

Campioni indipendenti
Devianza generale = somma degli scarti quadrati dalla media generale
Devianza dei gruppi = devianza intra-gruppale = somma della somma
degli scarti quadrati dalla media di gruppo, lungo i gruppi
La devianza tra i gruppi rappresenta la variabilità legata all'effetto della
variabile indipendente
La devianza intra-gruppale è legata all'effetto di altre fonti di variazione
diverse dalla v.ind
Test dell'analisi della varianza ANOVA (Omnibus)
Assunzioni
Osservazioni su unità di analisi ⇒ indipendenti
K>=2
Variabile indipendente è nominale o ordinale
Var dipendente è
metrica
Distribuita normalmente all'interno delle popolazioni
Varianze tra popolazioni sono omogenee
VI e VD sono legate da una relazione lineare
H0:= le medie delle popolazioni dei campioni sono tutte uguali
Mi = media dei punteggi per il gruppi i
MG= media di tutti i punteggi
devianza tra gruppi MSbetween

deviantra nei gruppi

calcolo F = MSbetween / Mswithin


calcolo F critico, GL numeratore = k-1, GL denominatore n-k
Test monodirezionale: rifiuto H0 se F calcolato > F critico
Tavola analisi varianza 4x2
colonne: devianza, GL, varianza, F
righe: variabilità intergruppale, variabilità intragruppale
Dimensione dell'effetto:
indice età-quadro (sovrastima)
indice omega-quadro

Campioni dipendenti

Devianza totale = devianza entro i soggetti + devianza tra i soggetti


Devianza entro i soggetti = devianza tra le prove + devianza entro le
prove
Devianza residua = devianza entro le prove = devianza entro i soggetti
- devianza tra le prove
Test di Analisi della varianza per misure ripetute
Assunzioni
Il punteggio di un soggetto in una condizione non influenza
nessun altro punteggio
Gli errori sono distribuiti normalmente e con media 0
La varianza delle differenze fra tutte le possibili coppie misure
ripetute deve essere uguale (circolarità)
Obiettivo: valutare se la variabilità della VD dovuta alla VI è
statisticamente superiore a quella dovuta da altri fattori
H0:= le k popolazioni da cui provengono i campioni hanno stesse
medie
Calcoli
T_i = somma punteggi campione i
Q_i = somma quadrati punteggi campione i
P_i = somma punteggi soggetto i
C = Ttot^2/(n*k)

SSwithin = Qtot -
SSprove

SSresidua = SSwithin-SSprove
MS_i= SS_i / GL_i
GL_between = n-1
GL_prove = k-1
GL_residua = nk-n-k+1
F = MSprove / MSresidua
Test monodirezionale: rifiuto H0 se F calcolato > F critico
Dimensione dell'effetto: omega-quadro

Analisi della varianza con più di una variabile


indipendente (modelli fattoriali)

Devianza totale = devianza dovuta a VI + devianza di errore


Devianza dovuta a VI = devianza dovuta a VI1 + devianza dovuta a VI2
+ devianza dovuta a interazione VI1/2
Obiettivo: valutare se la variabilità della VD dovuta all'effetto delle VI
singole e congiunte è statisticamente superiore a quella dovuta da altri
fattori

7 Correlazione e causazione

immanipolabilità VI ⇒sviluppo modello relazioni causali ⇒ confronto


osservazioni VS predizioni
causalità := X causa Y (X → Y) se un cambiamento CX in X produce
sistematicamente un cambiamento CY in Y in modo che
CX precede CY
CX è fattore
nec e suff: CY avviene solo e sempre a seguito di CX
nec e non-suff
suff e non-nec
non-nec e non-suff ⇒ PSICOLOGIA
CY è osservato dopo un intervallo ragionevolmente breve rispetto
a CX
ostacoli studio causalità
dimensione effetto piccola nella popolazione
scarsa variabilità di VI
intervallo temporale causa→ effetto lungo
VI non operazionalizzabile
Variabile interveniente o mediatrice W :=
X+W→Y
X→W
Relazione indiretta
Variabile moderatrice W :=
X+W→Y
X-W→Y
Relazione condizionata
Relazione circolare
X→Y
Y→X
indagabile con modelli non lineari
Relazione spuria tra W e Y
W e Y covariano
X→W
X→Y
X può essere variabile latente o di controllo se è nascosta o
osservabile
Psicoterapia spiegabile con relazioni circolari
James Dewey Watson premio nobel dimesso da carica trentennale per
dichiarazione razzista

7.2 Misure di associazione fra variabili

Scala nominale

Test chi-quadro per indipendenza di variabili


H0 = non esiste una relazione tra VD e VI
frequenze attese sotto indipendenza (FAI) = numero eventi
congiunti attesi assumendo indipendenza tra VI e VD
procedimento
f_o = frequenze osservate
f_a = frequenze attese
Calcolo X2

Calcolo x critico con GL = (k1 - 1)(k2 - 1)


test: rifiuto H0 se X2calcolato > X2critico
indagare origine significatività: indagine residui standardizzati
aggiustati
assunzioni
Osservazioni indipendenti
% (FAI < 5) < 20%
se k1=k2=2 possibile uso di prob esatta di Fisher
Calcolo p
Rifiuto H0 se p<alpha
Se gl > 1 : formula correzione continuità Yates
nessuna frequ = 0
Dimensione effetto
w = sqrt(X2/n)
V di cramer (vedi sotto)
GL=1 ⇒ odds ratio (da 0 a +inf) : difficilmente interpretatabile
Misure associazione variabili
coefficienti correlazioni r
da -1 a +1
forza della relazione
direzione della relazione (solo per variabili almeno ordinali)
relazione perfetta r=+1/-1
r=0 indipendenti
versioni
phi (k1=k2=2x)

V di cramer ((k1,k2) > 2)


t = k1
c = k2

usati come indici di misura dell'effetto: 0.1 trascurabile, max 0.3


debole , max 0.5 moderato, 0.5+ forte
necessario test significatività z

Scala ordinale

indice rho di Spearman


procedimento
Calcolo ranghi X e Y (uso ranghi medi)
appaiare soggetto i con ranghi
d_i=rangoX_i - rangoY_i
formula

Test significatività
n<20 tavole significatività
n>20 distribuzione t o z
controllo dei ties (pari rango) numerosi

Scala metrica

covarianza
0 ⇒ no relazione lineare
interpretazione: valore proporzionale a sistematica e stretta
variazione congiunta
limite = valore dipende da unità di misura

coefficiente di correlazione prodotto-momento di Bravais-Pearson r


fondamentale in psicologia
= covarianza su punti z
indipendente da unità di misura
forza: 0.3 debole, moderata, 0.5 forte
assunzioni:
VI e VD metriche
relazione variabili lineare ⇒ controllo adeguatezza ⇒
diagramma di dispersione
diffusione nube di punti rispetto a retta
uso di r solo se bassa diffusione
formula
significatività: test t
GL = n-2
formula

test: correlazione significativa se |t| > |t critico|


insidia: per Campioni ampi (>60) r risulta significativo anche
per valori di r piccoli

coefficiente di determinazione R 2
r Pearson al quadrato
interpretazione: R2% variazione di Y spiegata da X
1-R2=coefficiente di alienazione = proporzione di variabilità non
spiegata da relazione lineare

Fattori influenzano coefficiente di correlazione

outliers (soprattutto in campioni piccoli) ⇒ esclusione se


fuori da range +- 2sigma
fuori da 1.5volte il range interquartile del terzo terzile
minori del primo quartile
la rimozione cambia r di più del 20%
campione eterogeneo (sottogruppi)
forme distribuzioni di X e Y diverse ⇒ rimedi per far aumentare r
trasformare variabile (es Y=log(Y) ⇒ SIGNIFICATO di r
cambia
ricodifiche dei dati diverse da
+/- costante a valori di entrambe variabili
*/div costante i valori di entrambe variabili
Matrici di correlazione

Matrice quadrata che riporta le correlazioni/covariazioni di tutte le


possibili coppie di variabili
eliminazione osservazioni mancanti
pairwise : si calcolano correlazioni di coppia variabili solo sui dati
disponibili per quella coppia di variabili: adatta se
stadio finale di analisi
eliminazione non differenzia troppo le cardinalità delle varie
coppie di osservazioni
likewise : esclusione di soggetti che hanno uno o più dati missing:
adatta se
stadio iniziale analisi
molti missing
ogni soggetto ha 2+ missing
i missing non sono distribuiti casualmente tra le variabili
obbligatorio correggere il livello di significatività delle correlazioni delle k
variabili ⇒ dividere per (k-1)/2

7.3 Misure di causazione: la regressione

Analisi di regressione = tecnica statistica per specificare X come causa/


predittore e Y come effetto/ criterio
funzioni
misurare influenza di X su Y
ottenere equazione Y=f(X) che preveda valori di Y
tipi di regressione lineare
bivariata: 1 predittore, 1 criterio
multipla: N predittore, 1 criterio
multivariata: N predittori, M criteri
Coefficienti {a, b} dell'equazione di regressione
b = coefficiente di regressione
a = intercetta
trovati con il principio dei minimi quadrati ⇒ minimizzare la
quantità sum(a+bX - Y_)^2
errore standard = deviazione standard stimata della Y rispetto a quella
predetta

coefficiente di determinazione
proporzione di variabilità spiegata con relazione lineare (R2)

significatività: test F
Calcolo Fcalcolato

F critico GL numeratore =1, GL denominatore = n-2


test: R significativo se Fcalcolato>Fcritico
CAUTELA!
modelli di spiegazione e modelli di previsione sono interconnessi ma
diversi
estrapolazione VS interpolazione = predizione di Y basata su una X
che cade fuori/dentro range di valori osservati = sconsigliata VS
affidabile
precondizione per uso modello lineare
ispezione diagramma di dispersione supporta rel lineare
calcolo di R2 (valore non troppo piccolo)
a, b != 0 statisticamente : test di t
calcolo di t
calcolo tcritico GL = n-2
test: parametro diverso da zero se | tcalcolato | > | tcritico |
il coefficiente di correlazione r corrisponde al coefficiente di regressione
b calcolato su variabili standardizzate (chiamato Beta )

7.3.2 Assunzioni della regressione

corretta speficifazione del modello corretta


modello lineare è appropriato ⇐ ispezione diagramma
dispersione
giusto numero/sottoinsieme di predittori
evitare modelli multipli per fare scelta predittori
rifiutare modello se relazione tra Y-Y^ e Y appare
lineare in un diagramma di dispersione
nessun errore di misurazione
particolarmente per le variabili criterio
vincoli sui termini di errore
0 = valore atteso del termine di errore per ogni osservazione
costante = varianza dei termini di errore (omoschedasticità)
i termini di errore non sono correlati per osservazioni diverse
predittori non correlati con termini di errore
normalità delle distribuzioni di termini di errori
(precauzionale) outliers
esclusione se stime coefficienti troppo diverse con/senza
outliers

7.3.4 La regressione multipla


la più usata in scienze sociali
spiegazione più esauriente perché variabilità suddivisa tra quote dovute
all'effetto di più predittori
equivalente as ANOVA fattoriale in cui sono considerati solo effetti
principali dei predittori (no interrelazioni)

Note empiriche
Nel test delle ipotesi su gruppi, non necessariamente la variabile di
raggruppamento è la variabile indipendente