Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
PUNTEGGIO = valore nella variabile di una determinata persona. Ci dice quanto c’è di quello che
stiamo misurando
VARIABILE DISCRETA = ha dei valori specifici e non può avere valori intermedi tra questi. (es.
quante volte sei andato dal dentista. Puoi dire 3 volte e non 3 volte e mezzo). Le variabili nominali
possono essere considerate variabili discrete
VARIABILE CONTINUA = può avere un numero infinito di valori tra 2 valori qualsiasi. (es.
altezza/peso)
TABELLA DI FREQUENZA = elenco ordinato del numero di individui che hanno ognuno dei
diversi valori di una determinata variabile. Mostra quando frequentemente è usato ogni punteggio.
INTERVALLO = campo di variazione dei valori in una tabella in classi di frequenza che sono
raggruppati insieme
MEDIA. = media aritmetica di un gruppo di punteggi. Somma dei punteggi diviso il numero dei
punteggi .
MODA = valore che si presenta con la frequenza maggiore in una distribuzione. È il modo classico
di descrivere la tendenza centrale per una variabile nominale.
MEDIANA = punteggio che occupa la posizione centrale quando tutti i punteggi sono ordinati dal
minore al maggiore.
La variabilità di un gruppo di punteggi può essere descritta dalla varianza e dalla deviazione
standard.
VARIANZA = misura della variabilità dei punteggi. misura di quanto i punteggi di una
distribuzione sono dispersi. È la media dei quadrati delle differenze tra i singoli punteggi e la loro
media aritmetica
Calcolo DS:
1.calcolare la varianza
2.fare la radice quadrata
PUNTO Z = indica quanto un punteggio si colloca al di sopra/al di sotto della media. Quindi è il
numero di deviazioni standard sopra (positivo)/sotto (negativo) la media. È un semplice punteggio
trasformato in modo da descrivere meglio la sua posizione di una distribuzione.
CAMPIONE = punteggi del particolare gruppo di soggetti studiato. Di solito è considerato come
rappresentativo dei punteggi di una popolazione più ampia.
PARAMETRO DELLA POPOLAZIONE = valore reale della media, DS, ecc… nella
popolazione. I parametri della popolazione di solito non sono noti, ma possono essere stimati sulla
base dei dati dei campioni.
VERIFICA DELLE IPOTESI = procedimento per decidere se il risultato di uno studio supporta
una particolare teoria o un nuovo metodo che riguarda la popolazione.
IPOTESI DI RICERCA = affermazione, nella verifica delle ipotesi, sulla relazione prevista fra le
popolazioni. (Es. la previsione è che la media della popolazione 1 sia inferiore alla media della
popolazione 2)
IPOTESI NULLA = affermazione sulla relazione fra le popolazioni che è il contrario dell’ipotesi
di ricerca. Quindi affermazione che nelle popolazioni non c’è nessuna differenza
IPOTESI MONODIREZIONALE = ipotesi di ricerca che prevede una particolare direzione della
differenza fra le popolazioni (es. che la popolazione del campione studiato ha una media più alta
della popolazione generale)
TEST A UNA CODA = procedura di verifica di ipotesi per un’ipotesi monodirezionale. Situazione
in cui la regione, nella distribuzione di riferimento in cui l’ipotesi nulla dovrebbe esse rifiutata, si
trova su un lato (coda) della distribuzione
IPOTESI BIDIREZIONALE = ipotesi di ricerca che prevede un effetto ma non prevede una
direzione particolare della differenza fra la popolazione simile al campione studiato e alla
popolazione generale.
TEST A DUE CODE = procedura di veridica di ipotesi per un’ipotesi bidirezionale. La situazione
in cui la regione, nella distribuzione di riferimento in cui l’ipotesi nulla dovrebbe essere rifiutata, è
divisa fra i 2 lati (code) della distribuzione
DISTRIBUZIONE DELLE MEDIE = distribuzione delle medie dei campioni di una caerta
dimensione, provenienti da una popolazione. È la distribuzione di riferimento quando si verificano
ipotesi che riguardano un singolo campione composto da più di 1 individuo
queste 3 osservazioni, illustrano 3 regole base che possiamo usare per trovare la media, la
dispersione (varianza e deviazione standard) e la forma di qualsiasi distribuzione delle medie.
Per fare un senso alla significatività ci sono 3 argomenti legati tra loro:
1. Errori decisionali
2. Dimensione dell’effetto
3. Potenza statistica
ERRORI DECISIONALI = conclusioni sbagliate nella verifica delle ipotesi, che riguarda la
situazione reale (ma ignota) (es. decidere che l’ipotesi nulla è falsa quando in realtà è vera)
ERRORE DI TIPO I = rifiutare l’ipotesi nulla quando invece è vera. Ottenere un risultato
statisticamente significativo quando in realtà l’ipotesi di ricerca non è vera.
Quindi, si conclude che lo studio supporta l’ipotesi di ricerca, ma il realtà è falsa. RIFIUTI
LIPOTESI NULLA QUANDO è VERA
ALPHA (α) = probabilità di commettere un errore di tipo I. Più è basso e più risulta bassa la
probabilità di un errore di tipo I. Per correre un rischio minore, viene stabilito un livello di Alpa
finore di 0.05 (ed. p<0.01)
ERRORE DI TIPO II = incapacità di rifiutare l’ipotesi nulla quando in realtà è falsa. Incapacità di
ottenere un risultato statisticamente significativo quando in realtà l’ipotesi di ricerca è vara. Quindi
NON si rifiuta l’ipotesi nulla, quando in realtà l’ipotesi nulla è falsa. ACCETTI L’IPOTESI
NULLA QUANDO è FALSA
TEST t = è una procedura di verifica delle ipotesi in cui la varianza della popolazione non è nota.
Questo test confronta i valori t di un campione con una distribuzione di riferimento, chiamata
“distribuzione t”.
Il test t per campione singolo è una procedura di verifica delle ipotesi in cui si confronta la media
di un campione con una media nota della popolazione e la varianza della popolazione non è nota.
Si usa il test Z quando conosciamo la media e anche la varianza quando la varianza della
popolazione
Si usa il test t quando conosciamo la media, ma non conosciamo la varianza della
popolazione
Se non conosciamo la varianza della popolazione possiamo stimarla da quello che conosciamo, ad
esempio dai valori osservati dei soggetti del nostro campione.
La varianza di questo campione dovrebbe riflettere la varianza di quella popolazione; se i punteggi
nella popolazione hanno molta variabilità, anche i punteggi di un campione estratto casualmente
da quella popolazione dovrebbero avere molta variabilità.
Quindi, possiamo calcolare la varianza dei punteggi nel campione, che dovrebbe essere simile alla
varianza dei punteggi nella popolazione.
C’è però un problema: la varianza di un campione sarò in generale leggermente minore della
varianza della popolazione di provenienza, per questo la varianza di un campione è una stima
distorta della varianza della popolazione. La stima è distorta perché sottostima sempre di poco la
vera varianza della popolazione, quindi i nostri risultati non sarebbero accurati. Per questo bisogna
calcolare una stima non distorta della varianza della popolazione, modificando leggermente la
formula ordinaria della varianza.
Varianza stimata della popolazione = somma degli scarti quadratici diviso il numero dei
punteggi meno 1
GRADI DI LIBERTA’ (gl) = sono il numero per cui dividiamo la somma degli scarti quadratici (il
numero dei punteggi meno 1) per ottenere la varianza stimata della popolazione. Si chiama così
perché è il numero dei punteggi di un campione che sono liberi di variare.
Quando la distribuzione della popolazione segue una curva normale, anche la forma della
distribuzione delle medie sarà una curva normale; questo cambia, però, quando facciamo la verifica
delle ipotesi con una varianza stimata della popolazione.
Quando si fa una verifica delle ipotesi con una varianza stimata, il risultato sarà che la distribuzione
di riferimento non sarà una curva normale. La distribuzione sarà una curva leggermente diversa,
chiamata distribuzione t.
La distribuzione t di differenzia dalla curva normale in base ai gradi di libertà: la distribuzione t si
differenzia maggiormente dalla curva normale (in termini di una dispersione maggiore e di code più
spesse) quando ci sono pochi gradi di libertà.
TAVOLA DELLE t = tavola dei valori critici nella distribuzione t per diversi gradi di libertà,
livelli di significatività e test a 1 o 2 code.
VALORE t = è la media del nostro campione meno la media della popolazione, diviso la
deviazione standard della distribuzione delle medie.
Il passaggio 4 della verifica delle ipotesi consiste nel calcolo del valore della media del campione
nella distribuzione di riferimento. Riguardo i punteggi Z, significava calcolare il valore Z nella
distribuzione di riferimento, ovvero di quante deviazioni standard il nostro campione di discosta
dalla media della distribuzione.
Va fatta la stessa cosa quando abbiamo una distribuzione t.
Il test t per campione singolo riguarda i casi in cui è nota la media della popolazione ma non la sua
varianza. Nella maggior parte delle situazioni di ricerca però non è nota neanche la media della
popolazione e soprattutto non si ha una sola serie, ma due serie di punteggi.
Questo genere di ricerca viene definito disegno per misure ripetute.
DISEGNO PER MISURE RIPETUTE (o disegno entro i soggetti) = è una strategia di ricerca in
cui ogni soggetto è valutato più di una volta.
La procedura di verifica delle ipotesi nella situazione in cui un soggetto viene misurato 2 volte è un
test t per campioni dipendenti.
Test t per campioni dipendenti = è una procedura di verifica delle ipotesi in cui ci sono 2 punteggi
per ogni soggetto e la varianza della popolazione non è nota: determina la significatività dei risultati
nella verifica delle ipotesi
Quindi i 3 tipi di test t sono:
1. Test t per campione singolo : si usa nella verifica delle ipotesi per confrontare la media di
un singolo campione con la media di una popolazione nota. Nelle ricerche di psicologia
spesso la media della popolazione non è nota.
2. Test t per campioni dipendenti : è il test appropriato quando la media della popolazione
non è nota e quando ogni soggetto ha 2 punteggi (ad esempio “prima/dopo”). Si usa quando
si vuole sapere se, in media, c’è una differenza fra le coppie di punteggi dei partecipanti.
3. Test t per campioni indipendenti: viene usato nella verifica delle ipotesi per confrontare la
media dei punteggi di un gruppo di soggetti (es. gruppo sperimentale) con la media dei
punteggi di un gruppo diverso di soggetti (es. gruppo di controllo.
La varianza della popolazione non è nota per nessuno dei test e la forma della distribuzione di
riferimento per tutti i test è una distribuzione t.
ANALISI DELLA VARIANZA (ANOVA) = procedura di verifica delle ipotesi per esaminare la
variabilità fra le medie con 3 o più gruppi
L’ipotesi nulla in un’analisi della varianza è che le diverse popolazioni che si confrontano hanno
tutte la stessa media.
La verifica delle ipotesi nell’analisi della varianza consiste nell’esaminare se le medie dei campioni
differiscono più di quanto ci si aspetterebbe se l’ipotesi nulla fosse vera.
Con l’analisi della varianza (come il test t) non conosciamo le varianze vere delle popolazioni, però
si può stimare la varianza di ogni popolazione in base ai punteggi dei campioni.
(Sempre come i test t) Nell’analisi della varianza si assume che tutte le popolazioni abbiano la
stessa varianza. In questo modo si può fare una media delle stime dai dati di ogni campione
ottenendo una stima combinata, ovvero di stima entro i gruppi della varianza della popolazione.
la stima della varianza fra i gruppi della popolazione viene calcolata sulla base della variabilità fra
le medie dei campioni:
- Se l’ipotesi nulla è vera, questa stima dà un’indicazione accurata della variabilità entro le
popolazioni (variabilità dovuta a fattori casuali)
- Se l’ipotesi nulla è falsa, questo metodo di stima della varianza della popolazione è
influenzato sia dalla variabilità entro le popolazioni (variabilità dovuta a fattori casuali) sia
dalla variabilità fra le medie delle popolazioni (variabilità dovuta all’effetto di un
trattamento)
Principio centrale dell’analisi della varianza: quando l’ipotesi nulla è vera, il rapporto fra la
stima fra i gruppi della varianza della popolazione e la stima entro i gruppi della varianza
della popolazione dovrebbe essere pressochè uguale a 1.
Quando l’ipotesi di ricerca è vera, questo rapporto dovrebbe essere maggiore di 1.
RAPPORTO F = stima fra i gruppi e stima entro i gruppi della varianza della popolazione
Se il rapporto F è molto più grande di 1 possiamo rifiutare l’ipotesi nulla; per sapere quando più
grande di 1 dovrebbe essere, gli statistici hanno definito matematicamente la distribuzione F e
hanno costruito le tavole dei rapporti F.
Per ogni situazione si può cercare in una tavola F il valore critico del rapporto F necessario per
rifiutare l’ipotesi nulla, dato un certo livello di significatività (per esempio di .05)
Possiamo stimare la varianza della popolazione da qualsiasi campione usando il metodo tipico per
stimare la varianza di una popolazione a partire dai dati di un campione.
Nell’analisi della varianza, come con il test t, si assume che le popolazioni abbiano la stessa
varianza e che le stime basate sui punteggi di ogni campione siano tutte stime della stessa vera
varianza della popolazione.
Quindi, i 2 passaggi per calcolare la stima entro i gruppi della varianza della popolazione sono:
1. Calcolo delle stime della varianza della popolazione sulla base dei punteggi di ognu gruppo
2. Calcolare la media di queste stime della varianza
La stima entro i gruppi della varianza della popolazione è la somma delle stime della varianza
della popolazione basate su ogni campione, diviso il numero dei gruppi
Anche il calcolo della stima fra i gruppi della varianza della popolazione implica 2 passaggi
(abbastanza diversi da quelli della stima entro i gruppi):
La stima fra i gruppi della varianza della popolazione è la varianza stimata della distribuzione
delle medie moltiplicato per il numero dei punteggi di ogni gruppo
Il RAPPORTO F è la stima della varianza fra i gruppi diviso la stima della varianza entro i gruppi
S 2Between
F= 2
S Within
CORRELAZIONE = descrive la relazione fra 2 variabile. O meglio, descrive la relazione fra due
variabili numeriche a intervalli equivalenti.
GRAFICO A DISPERSIONE = è un grafico che mostra la relazione tra 2 variabili: i valori di una
variabile sono sull’asse orizzontale, quelli dell’altra variabile sull’asse verticale. Il punteggio di
ogni soggetto è riportato come un punto nello spazio bidimensionale
A volte però la relazione generale fra le 2 variabili non segue una linea retta, ma segue l’andamento
più complesso di una correlazione curvilinea.
A volte però i punteggi alti in una variabile sono associati con quelli bassi dell’altra variabile, e
quindi abbiamo una correlazione negativa.
CORRELAZIONE NEGATIVA = relazione fra due variabili in cui a punteggi alti dell’una
corrispondono punteggi bassi dell’altra; ai medi i medi e ai bassi gli alti. In un grafico a dispersione
i punti approssimano una linea rette discendente a destra.
Il risultato di dividere la somma dei prodotti dei valori Z per il numero dei partecipanti dello studio
è definito coefficiente di correlazione (o coefficiente di correlazione di Pearson).
In un diagramma di dispersione, questo si può vedere dall’andamento della nuvola dei punti: più i
punti si avvicinano per disegnare una singola linea retta e più forte sarà la correlazione lineare.
Coefficiente di correlazione = è la somma, per tutti i soggetti di studio, del prodotto dei 2 volari Z di
ogni soggetto, diviso per il numero dei soggetti.
Σ Z X ZY
r=
N
PASSAGGI PER CALCOLARE IL COEFFICIENTE DI CORRELAZIONE
Il coefficiente di correlazione è una statistica descrittiva (come la media o la DS) che descrive la
relazione lineare fra 2 variabili.
Oltre a descrivere questa relazione, si può anche verificare se è statisticamente significativa.
Nel caso di una correlazione, ci si chiede se è significativamente diversa da 0.
Quindi, l’ipotesi nulla nella verifica delle ipotesi per una correlazione è tipicamente che nella
popolazione la vera relazione fra le 2 variabili è nessuna correlazione (r = 0)
Se 2 variabili hanno una correlazione lineare significativa, si assume che qualcosa causi la loro
associazione. Comunque sia, non è possibile sapere la direzione della causalità (cosa è causato da
cosa) soltanto dal fatto che le 2 variabili sono correlate.
Per qualsiasi correlazione fra le variabili X e Y ci sono almeno 3 possibili direzioni di causalità:
1. X potrebbe causare Y
2. Y potrebbe causare X
3. Un terzo fattore potrebbe causare sia X che Y
Quindi, il coefficiente di correlazione descrive la direzione e la forza della relazione lineare fra 2
variabili; mostra quanto i punti di un diagramma di dispersione seguono una linea retta in cui a
punteggi alti di una variabile corrispondono punteggi alti dell’altra, idem con i punteggi bassi
(correlazione positiva), o punteggi alti di una variabile corrispondono a punteggi bassi dell’altra
(correlazione negativa).
A volte, però i punti nel diagramma seguono un andamento curvilineo. (nell’immagine forma una
specie di “U”)
In queste situazioni si può “raddrizzare” la linea e usare la correlazione classica. Un modo per farlo
è trasformare tuti i punteggi nel loro ordine di rango.
Quindi, separatamente per ogni variabile, bisogna ordinare i punteggi dal minore al maggiore
(iniziando da quello più basso). Questo renderà l’andamento più lineare e in questo modo si potrà
procedere col il calcolo del coefficiente di correlazione nel modo tipico, ma usando i punteggi
ordinati in ranghi invece che in punteggi ordinari.
Uno dei modi in cui correlazione e previsione sembrano diversi è che con la correlazione non è
molto importante quale variabile precede l’altra; con la previsione invece, bisogna decidere qual è
la variabile in base a cui si prevede e qual è la variabile che deve essere prevista.
Variabile predittore (X) = nella previsione è la variabile usata per prevedere i punteggi dei
soggetti in un’altra variabile. Quindi è la variabile da cui si prevede.
Coefficiente di regressione (b) = numero moltiplicato per il punteggio del soggetto nella variabile
predittore.
Si può visualizzare il modello lineare di previsione come una retta in un grafico in cui sull’asse
orizzontale ci sono i valori della variabile predittore (X) e su quella verticale i valori previsti per la
variabile criterio (Y).
La retta è definita retta di regressione.
Retta di regressione = retta in un grafico di dispersione che mostra la relazione fra i valori della
variabile predittore e i valori positivi della variabile criterio
Nell’immagina c’è la retta di regressione dei punteggi al test d’ingresso (variabile predittore) e il
voto medio di laurea (variabile criterio). Seguendo la retta di regressione si può trovare il voto medi
previsto da un particolare punteggio al test d’ingresso.
Lavorare “a occhio” è un modo per costruire un modello di previsione per tentativi ed errori.
Ovviamente serve un metodo per arrivare esattamente al modello di previsione lineare migliore
possibile (ovvero la migliore retta di regressione). Questo metodo non deve essere soggettivo o
approssimato.
Per arrivare al modello migliore di previsione bisogna capire cosa si intende per “migliore”.
Si intende la retta che si avvicina il più possibile agli effettivi punteggi nella variabile criterio
facendo previsioni che si discostano il meno possibile dia punteggi effettivi.
La differenza tra il punteggio previsto nella variabile criterio sulla base di un modello di previsione
e il punteggio effettivo di un soggetto nella variabile criterio è definita errore.
Errore = nella previsione, è la differenza fra il punteggio previsto di un soggetto nella variabile
criterio e il punteggio effettivo di un soggetto nella variabile criterio.
Questo errore di previsione deve essere il più piccolo possibile per tutto il campo di variazione dei
punteggi previsti, quindi serve che la somma degli errori sia minima.
A volte, però, gli errori sono positivi (il modello prevede punteggi più bassi) e a volte sono negativi
(il modello prevede punteggi più alti).
Gli errori positivi e negativi si annullano a vicenda. Per evitare questo problema si usano i quadrati
degli errori.
Ovvero, si prende ogni errore e si eleva al quadrato; poi si sommano questi quadrati.
Quindi, per valutare la bontà di un modello di previsione, si calcola la somma dei quadrati degli
errori che si commetterebbero usando quel modello di previsione.
Quando poi si seleziona un modello lineare di previsione, si usa il METODO DEI MINIMI
QUADRATI. In altre parole: si trova la retta di regressione che minimizza la somma dei quadrati
delle distanze fra i punteggi effettivi di Y e i punteggi previsti di Y.
TROVARE a E b CON IL METODO DEI MINIMI QUADRATI
Queste formule danno il modello lineare di previsione che garantisce che la somma dei quadrati
degli errori di previsione sia minima rispetto a qualunque altro modello di previsione.
Formula 1:
Σ [ ( X−M X ) ( Y −M Y ) ]
b=
SS X
Formula 2:
a=M Y −(b)( M X )
Per calcolare il valore di a è necessario conoscere il valore di b. Quindi bisogna usare la Formula 1
per trovare il valore b e poi si può usare la Formula 2 per calcolare il valore di a.
Test t, analisi della varianza, correlazione e previsione sono procedure molto versatili, ma in alcune
situazioni di ricerca non sono applicabili.
Ad esempio la verifica delle ipotesi con le variabili i cui valori sono categorie (regione del paese,
preferenza religiosa, colore di capelli).
I metodi precedenti richiedono che la variabile/le variabili misurate abbiano dei punteggi
quantitativi.
Il TEST CHI-QUADRO si usa quando i punteggi sono su una scala nominale. Quindi, i punteggi
rappresentano delle frequenze, ovvero quanti soggetti/osservazioni rientrano nelle diverse categorie.
Testi chi quadro = procedura di verifica delle ipotesi usata quando le variabili di interesse sono
variabili nominali.
Frequenza attesa = in un test chi-quadro è il numero di soggetti atteso in una categoria o cella se
l’ipotesi nulla fosse vera