Sei sulla pagina 1di 23

CONCETTI BASE

VARIABILE = è una condizione/caratteristiche che può avere diversi valori.

PUNTEGGIO = valore nella variabile di una determinata persona. Ci dice quanto c’è di quello che
stiamo misurando

VALORE = numero o categoria

VARIABILE NUMERICA (O QUANTITATIVA) = i valori di questa variabile sono numeri

2 tipi di variabile numerica:


1. VARIABILE A INTERVALLI EQUIVALENTI = i valori numerici di questa variabile
rappresentano distanze uguali di unità di misura. Alcune di queste variabili sono misurate su
una scala a rapporti se ha un punto 0 assoluto, ovvero che il valore di 0 sulla variabile indica
un’assenza completa dalla variabile. (es. avere fratelli o sorelle. 0 assoluto significa non
averne).
2. VARIABILE A ORDINAMENTO PER RANGHI (O VARIABILE ORDINALE) = i
valori numerici in questa variabile sono ranghi (es. la posizione che si ha in una graduatoria)

VARIABILE NOMINALE (O CATEGORIALE) = i valori di questa variabile sono categorie.


Quindi sono nomi invece che numeri (es. genere).

Questi tipi di variabili rappresentano diversi livelli di misura.

VARIABILE DISCRETA = ha dei valori specifici e non può avere valori intermedi tra questi. (es.
quante volte sei andato dal dentista. Puoi dire 3 volte e non 3 volte e mezzo). Le variabili nominali
possono essere considerate variabili discrete

VARIABILE CONTINUA = può avere un numero infinito di valori tra 2 valori qualsiasi. (es.
altezza/peso)

TABELLA DI FREQUENZA = elenco ordinato del numero di individui che hanno ognuno dei
diversi valori di una determinata variabile. Mostra quando frequentemente è usato ogni punteggio.

Per creare una tabella di frequenza ci sono 4 passaggi:


1. Fare un elenco su un foglio di ogni possibile valore, dal minore al maggiore
2. Scorrere uno ad uno i punteggi, spuntando ogni valore nell’elenco
3. Costruire una tabella che riporta quante volte ogni valore dell’elenco viene usato
Sommare il numero dei segni accanto a ogni valore
4. Calcolare la percentuale dei punteggi per ogni valore
Prendere la frequenza di quel valore, dividerla per il numero totale dei punteggi e
moltiplicarla x 100.
TABELLA IN CLASSI DI FREQUENZA = tabella di frequenza in cui il numero di individui
(frequenza) è dato per ogni intervallo di valori

INTERVALLO = campo di variazione dei valori in una tabella in classi di frequenza che sono
raggruppati insieme

ISTOGRAMMA = è un tipo di grafico a barre di una distribuzione di frequenze

Per creare un istogramma ci sono 4 passaggi:


1. Costruire una tabella di frequenza
2. Scrivere i valori lungo la parte bassa del foglio da sinistra a destra, dal minore al
maggiore
3. Lungo il margine sinistro del foglio creare una scala di frequenza salendo da 0 fino alla
sequenza maggiore osservata
4. In corrispondenza di ogni valore disegnare un rettangolo, la cui base indica l’ampiezza
dell’intervallo e la cui altezza indica la frequenza del valore

DISTRIBUZIONE DI FREQUENZA = mostra l’andamento delle frequenze nei diversi valori


(come una tabella o un istogramma)

DISTRIBUZIONE UNIMODALE = quando la forma della distribuzione di frequenza ha un


valore con una frequenza maggiore rispetto a tutte le altre. Un unico punto elevato: Quindi una
“torre” elevata nell’istogramma
DISTRIBUZIONE BIMODALE = quando la distribuzione di frequenza ha 2 punti relativamente
uguali elevati, entrambi maggiori di tutte le altre (es. età delle persone al parco giochi. 2-4 anni e
20-40)

DISTRIBUZIONE MULTIMODALE = quando la distribuzione di frequenza ha 2 o più


frequenze elevate separate da una frequenza più bassa.

DISTRIBUZIONE RETTANGOLARE = quando nella distribuzione di frequenza tutti valori


hanno approssimativamente la stessa frequenza.

DISTRIBUZIONE SIMMETRICA = quando l’andamento delle frequenze sul lato sinistro e


destro sono immagini speculari

DISTRIBUZIONE ASIMMETRICA = quando i punteggi si accumulano su un solo lato rispetto


al centro e sono dispersi sull’altro lato.
Asimmetrica positiva  distribuzione asimmetrica a destra
Asimmetrica negativa  distribuzione asimmetrica a sinistra

TENDENZA CENTRALE = valore più rappresentativo di un gruppo di punteggi.

MEDIA. = media aritmetica di un gruppo di punteggi. Somma dei punteggi diviso il numero dei
punteggi .

MODA = valore che si presenta con la frequenza maggiore in una distribuzione. È il modo classico
di descrivere la tendenza centrale per una variabile nominale.

MEDIANA = punteggio che occupa la posizione centrale quando tutti i punteggi sono ordinati dal
minore al maggiore.
La variabilità di un gruppo di punteggi può essere descritta dalla varianza e dalla deviazione
standard.

VARIANZA = misura della variabilità dei punteggi. misura di quanto i punteggi di una
distribuzione sono dispersi. È la media dei quadrati delle differenze tra i singoli punteggi e la loro
media aritmetica

DEVIAZIONE STANDARD = misura più frequentemente usata per descrivere la dispersione di


un gruppo di punteggi. È la radice quadrata della varianza. Misura indicativamente quanto i
punteggi di una distribuzione si discostano dalla media.

Calcolo DS:
1.calcolare la varianza
2.fare la radice quadrata

PUNTO Z = indica quanto un punteggio si colloca al di sopra/al di sotto della media. Quindi è il
numero di deviazioni standard sopra (positivo)/sotto (negativo) la media. È un semplice punteggio
trasformato in modo da descrivere meglio la sua posizione di una distribuzione.

PUNTEGGIO GREZZO = qualunque numero/punteggio in una distribuzione, prima di essere


trasformato in un punto Z (o trasfromato in qualsiasi altra cosa)
DISTRIBUZIONE NORMALE = distribuzione di frequenza che segue una curva normale

CURVA NORMALE = distribuzione di frequenza a forma di campana, simmetrica e unimodale.

POPOLAZIONE = intero gruppo di individui a cui il ricercatore intende applicare i risultato di


uno studio. È il gruppo più ampio su cui si fanno inferenze sulla base del campione studiato.

CAMPIONE = punteggi del particolare gruppo di soggetti studiato. Di solito è considerato come
rappresentativo dei punteggi di una popolazione più ampia.

SELEZIONE CASUALE = metodo di selezione di un campione che usa procedimenti casuali.


Quindi ogni individuo nella popolazione ha la stessa probabilità di essere selezionato.

PARAMETRO DELLA POPOLAZIONE = valore reale della media, DS, ecc… nella
popolazione. I parametri della popolazione di solito non sono noti, ma possono essere stimati sulla
base dei dati dei campioni.

μ=media della popolazione


σ =DS della popolazione
σ 2 = varianza della popolazione
PROBABILITA’ = frequenza relativa di un risultato. La proporzione del numero di risultati
favorevoli rispetto al numero di risultati possibili.

FREQUENZA = indica quante volte un evento si verifica

FREQUENZA RELATIVA = numero di volte in cui un evento si verifica rispetto al numero di


volte in cui l’evento potrebbe verificarsi. Quindi indica in che proporzione l’evento si verifica

FREQUENZA RELATIVA ATTESA = ciò che ci si aspetta di ottenere a lungo termine se si


dovesse ripetere l’esperimento molte volte

VERIFICA DELLE IPOTESI = procedimento per decidere se il risultato di uno studio supporta
una particolare teoria o un nuovo metodo che riguarda la popolazione.

IPOTESI = previsione che si intende verificare in uno studio di ricerca

TEORIA = insieme di principi che provano a spiegare uno o più fenomeni/eventi.

IPOTESI DI RICERCA = affermazione, nella verifica delle ipotesi, sulla relazione prevista fra le
popolazioni. (Es. la previsione è che la media della popolazione 1 sia inferiore alla media della
popolazione 2)

IPOTESI NULLA = affermazione sulla relazione fra le popolazioni che è il contrario dell’ipotesi
di ricerca. Quindi affermazione che nelle popolazioni non c’è nessuna differenza

DISTRIBUZIONE DI RIFERIMENTO = distribuzione usata nel processo di verifica delle


ipotesi. Rappresenta la condizione della popolazione se l’ipotesi nulla è vera. Quindi, è la
distribuzione con cui confrontiamo il valore che si basa sui risultati del nostro campione.

VALORE CRITICO = valore nella distribuzione di riferimento in cui, se raggiunto o superato,


rifiutiamo l’ipotesi nulla.

Processo di verifica delle ipotesi:


1. Passaggio 1: riformulare il quesito in termini di ipotesi di ricerca e di ipotesi nulla riguardo
le popolazioni
2. Passaggio 2: determinare le caratteristiche della distribuzione di riferimento
3. Passaggio 3: determinare il valore critico nella distribuzione di riferimento per cui l’ipotesi
nulla dovrebbe essere rifiutata
4. Passaggio 4: determinare il valore ottenuto nel campione nella distribuzione di riferimento
5. Passaggio 5: Decidere se rifiutare l’ipotesi nulla

LIVELLI DI SIGNIFICATIVITA’ CONVENZIONALI (ρ<.05 , ρ<.01) = livelli di


significatività maggiormente usati in psicologia

IPOTESI MONODIREZIONALE = ipotesi di ricerca che prevede una particolare direzione della
differenza fra le popolazioni (es. che la popolazione del campione studiato ha una media più alta
della popolazione generale)

TEST A UNA CODA = procedura di verifica di ipotesi per un’ipotesi monodirezionale. Situazione
in cui la regione, nella distribuzione di riferimento in cui l’ipotesi nulla dovrebbe esse rifiutata, si
trova su un lato (coda) della distribuzione

IPOTESI BIDIREZIONALE = ipotesi di ricerca che prevede un effetto ma non prevede una
direzione particolare della differenza fra la popolazione simile al campione studiato e alla
popolazione generale.

TEST A DUE CODE = procedura di veridica di ipotesi per un’ipotesi bidirezionale. La situazione
in cui la regione, nella distribuzione di riferimento in cui l’ipotesi nulla dovrebbe essere rifiutata, è
divisa fra i 2 lati (code) della distribuzione
DISTRIBUZIONE DELLE MEDIE = distribuzione delle medie dei campioni di una caerta
dimensione, provenienti da una popolazione. È la distribuzione di riferimento quando si verificano
ipotesi che riguardano un singolo campione composto da più di 1 individuo

Determinare le caratteristiche della distribuzione delle medie


Il passaggio 2 del processo di verifica delle ipotesi implica la definizione delle caratteristiche della
distribuzione di riferimento.
Le 3 caratteristiche fondamentali della distribuzione di riferimento che dobbiamo determinare sono:
1. la sua MEDIA
2. la sua DISPERSIONE (misurata usando varianza e deviazione standard)
3. la sua FORMA

Si deve prestare attenzione però a 3 cose sulla distribuzione delle medie:


 la media di una distribuzione delle medie è più o meno identica alla media della popolazione
di origine degli individui
 la dispersione di una distribuzione delle medie è minore della dispersione della distribuzione
della popolazione generale degli individui
 la forma di una distribuzione delle medie è approssimativamente normale.

queste 3 osservazioni, illustrano 3 regole base che possiamo usare per trovare la media, la
dispersione (varianza e deviazione standard) e la forma di qualsiasi distribuzione delle medie.

1. Regola 1 = MEDIA DI UNA DISTRIBUZIONE DI MEDIE


La media di una distribuzione delle medie è uguale alla media della popolazione generale.
Ogni campione è basato su un gruppo di individui selezionati in manuera casuale dalla
popolazione generale. Perciò, la media di un campione sarà a volte più alta e a volte più
bassa della media della popolazione generale degli individui. Tuttavia, visto chei l processo
di selezione è casuale e stiamo estraendo un numero di campioni, alla fine le medie alte e
asse si bilanciano perfettamente tra loro
2. Regola 2a = VARIANZA DI UNA DISTRIBUZIONE DELLE MEDIE
La varianza di una distribuzione delle medie è la varianza della popolazione generale degli
individui, diviso per il numero degli individui di ogni campione.
Una distribuzione delle medie sarà meno dispersa della distribuzione degli individui da cui
sono stati estratti i campioni.

Regola 2b = DEVIAZIONE STANDARD DI UNA DISTRIBUZIONE DELLE MEDIE


La deviazione standard di una distribuzione delle medie è la radice quadrata della varianza
della distribuzione delle medie. Può essere chiamata anche ERRORE STANDARD
DELLA MEDIA (ESM) o ERRORE STANDARD (ES).
Indica quanto le medie dei campioni sono tipicamente “in errore”, in quanto sono stime
delle medie della popolazione generale degli individui

3. Regola 3 = FORMA DI UNA DISTRIBUZIONE DELLE MEDIE


La forma di una distribuzione delle medie è approssimativamente normale se:
a. Ogni campione ha un numero di individui uguale o maggiore di 30
b. La distribuzione della popolazione generale degli individui è normale
Qualcuno sia la forma della distribuzione della popolazione generale degli individui, la
distribuzione delle medie tende ad essere unimodale e simmetrica.
TEST Z = procedura di verifica delle ipotesi in cui c’è un solo campione e la varianza della
popolazione è nota

LIMITE DI CONFIDENZA = valore superiore/inferiore di un intervallo di confidenza

INTERVALLO DI CONFIDENZA AL 95% = intervallo di confidenza in cui, in senso ampio,


c’è una probabilità del 95% che la media della popolazione cada entro questo intervallo

INTERVALLO DI CONFIDENZA AL 99% = intervallo di confidenza in cui, in senso ampio,


c’è una probabilità del 99% che la media della popolazione cada entro questo intervallo

Passaggi per calcolare i limiti di confidenza:


1. Calcolare l’errore standard
Quindi trovare la DS della distribuzione delle medie
2. Per l’intervallo di confidenza al 95% calcolare i punteggi grezzi di 1.96 errori standard
sopra e sotto la media del campione; per l’intervallo di confidenza al 99% calcolare i
punteggi grezzi di 2.58 errori standard sopra e sotto la media del campione

Per fare un senso alla significatività ci sono 3 argomenti legati tra loro:
1. Errori decisionali
2. Dimensione dell’effetto
3. Potenza statistica

ERRORI DECISIONALI = conclusioni sbagliate nella verifica delle ipotesi, che riguarda la
situazione reale (ma ignota) (es. decidere che l’ipotesi nulla è falsa quando in realtà è vera)

ERRORE DI TIPO I = rifiutare l’ipotesi nulla quando invece è vera. Ottenere un risultato
statisticamente significativo quando in realtà l’ipotesi di ricerca non è vera.
Quindi, si conclude che lo studio supporta l’ipotesi di ricerca, ma il realtà è falsa. RIFIUTI
LIPOTESI NULLA QUANDO è VERA

Il livello di significatività che corrisponde alla probabilità di commettere un errore di tipo I è


chiamato Alpha.

ALPHA (α) = probabilità di commettere un errore di tipo I. Più è basso e più risulta bassa la
probabilità di un errore di tipo I. Per correre un rischio minore, viene stabilito un livello di Alpa
finore di 0.05 (ed. p<0.01)

ERRORE DI TIPO II = incapacità di rifiutare l’ipotesi nulla quando in realtà è falsa. Incapacità di
ottenere un risultato statisticamente significativo quando in realtà l’ipotesi di ricerca è vara. Quindi
NON si rifiuta l’ipotesi nulla, quando in realtà l’ipotesi nulla è falsa. ACCETTI L’IPOTESI
NULLA QUANDO è FALSA

BETA (β) = probabilità di commettere un errore di tipo II.

Quando si stabiliscono i livelli di significatività, assicurarsi contro un tipo di errore decisionale


aumenta la probabilità di commettere l’altro. Per questo, si scende a un compromesso:
si utilizzano livelli di significatività standard:
- Quello del 5% (p<0.05)
- Quello dell’1% (p<0.01)
DIMENSIONE DELL’EFFETTO = misura standardizzata della differenza fra le popolazioni. La
dimensione dell’effetto aumenta all’aumentare della differenza fra le medie.

DIMENSIONI CONVENZIONALI DELL’EFFETTO = regole standard di cosa si considera un


effetto piccolo/medio/grande, sulla base di cosa si trova tipicamente nella ricerca in psicologia.
(convenzioni di Cohen)

META-ANALISI = metodo statistico per combinare le dimensioni dell’effetto di diversi studi

TEST t = è una procedura di verifica delle ipotesi in cui la varianza della popolazione non è nota.
Questo test confronta i valori t di un campione con una distribuzione di riferimento, chiamata
“distribuzione t”.

Il test t per campione singolo è una procedura di verifica delle ipotesi in cui si confronta la media
di un campione con una media nota della popolazione e la varianza della popolazione non è nota.
 Si usa il test Z  quando conosciamo la media e anche la varianza quando la varianza della
popolazione
 Si usa il test t  quando conosciamo la media, ma non conosciamo la varianza della
popolazione

Se non conosciamo la varianza della popolazione possiamo stimarla da quello che conosciamo, ad
esempio dai valori osservati dei soggetti del nostro campione.
La varianza di questo campione dovrebbe riflettere la varianza di quella popolazione; se i punteggi
nella popolazione hanno molta variabilità, anche i punteggi di un campione estratto casualmente
da quella popolazione dovrebbero avere molta variabilità.
Quindi, possiamo calcolare la varianza dei punteggi nel campione, che dovrebbe essere simile alla
varianza dei punteggi nella popolazione.
C’è però un problema: la varianza di un campione sarò in generale leggermente minore della
varianza della popolazione di provenienza, per questo la varianza di un campione è una stima
distorta della varianza della popolazione. La stima è distorta perché sottostima sempre di poco la
vera varianza della popolazione, quindi i nostri risultati non sarebbero accurati. Per questo bisogna
calcolare una stima non distorta della varianza della popolazione, modificando leggermente la
formula ordinaria della varianza.

 Varianza stimata della popolazione = somma degli scarti quadratici diviso il numero dei
punteggi meno 1

GRADI DI LIBERTA’ (gl) = sono il numero per cui dividiamo la somma degli scarti quadratici (il
numero dei punteggi meno 1) per ottenere la varianza stimata della popolazione. Si chiama così
perché è il numero dei punteggi di un campione che sono liberi di variare.

Per calcolare la varianza dobbiamo prima conoscere la media;

DISTRIBUZIONE t = curva matematica definita che è la distribuzione di riferimento usata in un


test t

Quando la distribuzione della popolazione segue una curva normale, anche la forma della
distribuzione delle medie sarà una curva normale; questo cambia, però, quando facciamo la verifica
delle ipotesi con una varianza stimata della popolazione.
Quando si fa una verifica delle ipotesi con una varianza stimata, il risultato sarà che la distribuzione
di riferimento non sarà una curva normale. La distribuzione sarà una curva leggermente diversa,
chiamata distribuzione t.
La distribuzione t di differenzia dalla curva normale in base ai gradi di libertà: la distribuzione t si
differenzia maggiormente dalla curva normale (in termini di una dispersione maggiore e di code più
spesse) quando ci sono pochi gradi di libertà.

TAVOLA DELLE t = tavola dei valori critici nella distribuzione t per diversi gradi di libertà,
livelli di significatività e test a 1 o 2 code.

VALORE t = è la media del nostro campione meno la media della popolazione, diviso la
deviazione standard della distribuzione delle medie.

Il passaggio 4 della verifica delle ipotesi consiste nel calcolo del valore della media del campione
nella distribuzione di riferimento. Riguardo i punteggi Z, significava calcolare il valore Z nella
distribuzione di riferimento, ovvero di quante deviazioni standard il nostro campione di discosta
dalla media della distribuzione.
Va fatta la stessa cosa quando abbiamo una distribuzione t.

Il test t per campione singolo riguarda i casi in cui è nota la media della popolazione ma non la sua
varianza. Nella maggior parte delle situazioni di ricerca però non è nota neanche la media della
popolazione e soprattutto non si ha una sola serie, ma due serie di punteggi.
Questo genere di ricerca viene definito disegno per misure ripetute.

DISEGNO PER MISURE RIPETUTE (o disegno entro i soggetti) = è una strategia di ricerca in
cui ogni soggetto è valutato più di una volta.

La procedura di verifica delle ipotesi nella situazione in cui un soggetto viene misurato 2 volte è un
test t per campioni dipendenti.

Test t per campioni dipendenti = è una procedura di verifica delle ipotesi in cui ci sono 2 punteggi
per ogni soggetto e la varianza della popolazione non è nota: determina la significatività dei risultati
nella verifica delle ipotesi
Quindi i 3 tipi di test t sono:
1. Test t per campione singolo : si usa nella verifica delle ipotesi per confrontare la media di
un singolo campione con la media di una popolazione nota. Nelle ricerche di psicologia
spesso la media della popolazione non è nota.
2. Test t per campioni dipendenti : è il test appropriato quando la media della popolazione
non è nota e quando ogni soggetto ha 2 punteggi (ad esempio “prima/dopo”). Si usa quando
si vuole sapere se, in media, c’è una differenza fra le coppie di punteggi dei partecipanti.
3. Test t per campioni indipendenti: viene usato nella verifica delle ipotesi per confrontare la
media dei punteggi di un gruppo di soggetti (es. gruppo sperimentale) con la media dei
punteggi di un gruppo diverso di soggetti (es. gruppo di controllo.

La varianza della popolazione non è nota per nessuno dei test e la forma della distribuzione di
riferimento per tutti i test è una distribuzione t.

ANALISI DELLA VARIANZA (ANOVA) = procedura di verifica delle ipotesi per esaminare la
variabilità fra le medie con 3 o più gruppi

L’ipotesi nulla in un’analisi della varianza è che le diverse popolazioni che si confrontano hanno
tutte la stessa media.

La verifica delle ipotesi nell’analisi della varianza consiste nell’esaminare se le medie dei campioni
differiscono più di quanto ci si aspetterebbe se l’ipotesi nulla fosse vera.

Con l’analisi della varianza (come il test t) non conosciamo le varianze vere delle popolazioni, però
si può stimare la varianza di ogni popolazione in base ai punteggi dei campioni.
(Sempre come i test t) Nell’analisi della varianza si assume che tutte le popolazioni abbiano la
stessa varianza. In questo modo si può fare una media delle stime dai dati di ogni campione
ottenendo una stima combinata, ovvero di stima entro i gruppi della varianza della popolazione.

STIMA ENTRO (WITHIN)I GRUPPI DELLA VARIANZA DELLA POPOLAZIONE =


media di stime calcolate in base ai punteggi entro ciascun campione. Quindi è la stima della
varianza della popolazione degli individui sulla base della variabilità tra i punteggi di ogni gruppo
studiato.
STIMA FRA (BETWEEN) I GRUPPI DELLA VARIANZA DELLA POPOLAZIONE = stima
della varianza della popolazione degli individui sulla base della variabilità fra le medie dei gruppi
studiati

la stima della varianza fra i gruppi della popolazione viene calcolata sulla base della variabilità fra
le medie dei campioni:
- Se l’ipotesi nulla è vera, questa stima dà un’indicazione accurata della variabilità entro le
popolazioni (variabilità dovuta a fattori casuali)
- Se l’ipotesi nulla è falsa, questo metodo di stima della varianza della popolazione è
influenzato sia dalla variabilità entro le popolazioni (variabilità dovuta a fattori casuali) sia
dalla variabilità fra le medie delle popolazioni (variabilità dovuta all’effetto di un
trattamento)

Principio centrale dell’analisi della varianza: quando l’ipotesi nulla è vera, il rapporto fra la
stima fra i gruppi della varianza della popolazione e la stima entro i gruppi della varianza
della popolazione dovrebbe essere pressochè uguale a 1.
Quando l’ipotesi di ricerca è vera, questo rapporto dovrebbe essere maggiore di 1.

Se il calcolo di questo rapporto dà un numero molto maggiore di 1, possiamo rifiutare l’ipotesi


nulla.

RAPPORTO F = stima fra i gruppi e stima entro i gruppi della varianza della popolazione

Se il rapporto F è molto più grande di 1 possiamo rifiutare l’ipotesi nulla; per sapere quando più
grande di 1 dovrebbe essere, gli statistici hanno definito matematicamente la distribuzione F e
hanno costruito le tavole dei rapporti F.
Per ogni situazione si può cercare in una tavola F il valore critico del rapporto F necessario per
rifiutare l’ipotesi nulla, dato un certo livello di significatività (per esempio di .05)

DISTRIBUZIONE F = curva matematicamente definita che è la distribuzione di riferimento usata


nell’analisi della varianza.

TAVOLA F = tavola dei valori critici della distribuzione F

CALCOLO PER LA STIMA ENTRO I GRUPPI DELLA VARIANZA DELLA


POPOLAZIONE (VARIANZA ENTRO I GRUPPI O WITHIN)

Possiamo stimare la varianza della popolazione da qualsiasi campione usando il metodo tipico per
stimare la varianza di una popolazione a partire dai dati di un campione.
Nell’analisi della varianza, come con il test t, si assume che le popolazioni abbiano la stessa
varianza e che le stime basate sui punteggi di ogni campione siano tutte stime della stessa vera
varianza della popolazione.

Quindi, i 2 passaggi per calcolare la stima entro i gruppi della varianza della popolazione sono:
1. Calcolo delle stime della varianza della popolazione sulla base dei punteggi di ognu gruppo
2. Calcolare la media di queste stime della varianza

La stima entro i gruppi della varianza della popolazione è la somma delle stime della varianza
della popolazione basate su ogni campione, diviso il numero dei gruppi

S 21+ S 22+ …+ S 2ultimo


S2within =
N gruppi

CALCOLO PER LA STIMA FRA I GRUPPI DELLA VARIANZA DELLA


POPOLAZIONE (VARIANZA FRA I GRUPPI O BETWEEN)

Anche il calcolo della stima fra i gruppi della varianza della popolazione implica 2 passaggi
(abbastanza diversi da quelli della stima entro i gruppi):

1. Stima della varianza della distribuzione delle medie


2. Calcolo della varianza stimata della popolazione dei singoli punteggi

La stima fra i gruppi della varianza della popolazione è la varianza stimata della distribuzione
delle medie moltiplicato per il numero dei punteggi di ogni gruppo

S2between =S2M (n)

Il RAPPORTO F è la stima della varianza fra i gruppi diviso la stima della varianza entro i gruppi

S 2Between
F= 2
S Within

CORRELAZIONE = descrive la relazione fra 2 variabile. O meglio, descrive la relazione fra due
variabili numeriche a intervalli equivalenti.

GRAFICO A DISPERSIONE = è un grafico che mostra la relazione tra 2 variabili: i valori di una
variabile sono sull’asse orizzontale, quelli dell’altra variabile sull’asse verticale. Il punteggio di
ogni soggetto è riportato come un punto nello spazio bidimensionale

Per creare un grafico di dispersione ci sono 3 passaggi:


1. Tracciare gli assi e decidere quale variabile va su ogni asse.
Spesso non è importante quale variabile va su quale asse, ma se si pensa che una delle 2
variabili prevede/causa l’altra questa va sull’asse orizzontale.
2. Determinare il campo di variazione dei valori da usare per ogni variabile e segnarli
sugli assi.
I numeri devono andare dal minore al maggiore, partendo dall’incrocio delle assi, con la
partenza da 0. Ogni asse deve proseguire fino al valore maggiore dei punteggi rilevati.
3. Segnare un punto per ogni coppia di punteggi.
CORRELAZIONE LINEARE = relazione fra due variabili che in un grafico a dispersione di
presenta come punti che seguono indicativamente una linea retta

A volte però la relazione generale fra le 2 variabili non segue una linea retta, ma segue l’andamento
più complesso di una correlazione curvilinea.

CORRELAZIONE CURVILINEA = relazione fra 2 variabili che in un diagramma di dispersione


si presenta come punti che seguono un andamento sistematico che non corrisponde a una linea retta.
CORRELAZIONE POSITIVA = relazione fra due variabili in cui a punteggi alti dell’una
corrispondono punteggi alti dell’altra. Idem con i punteggi bassi. In un grafico a dispersione i punti
seguono una linea retta ascendente a destra.

A volte però i punteggi alti in una variabile sono associati con quelli bassi dell’altra variabile, e
quindi abbiamo una correlazione negativa.

CORRELAZIONE NEGATIVA = relazione fra due variabili in cui a punteggi alti dell’una
corrispondono punteggi bassi dell’altra; ai medi i medi e ai bassi gli alti. In un grafico a dispersione
i punti approssimano una linea rette discendente a destra.

Il risultato di dividere la somma dei prodotti dei valori Z per il numero dei partecipanti dello studio
è definito coefficiente di correlazione (o coefficiente di correlazione di Pearson).

COEFFICIENTE DI CORRELAZIONE ( r ) = misura del grado di correlazione lineare fra 2


variabili che varia da -1 (correlazione negativa perfetta), passando per 0 (nessuna correlazione) a +
1 (correlazione positiva perfetta).

Il segno (+ o -) di un coefficiente di correlazione indica la direzione della correlazione lineare fra 2


variabili). L’effettivo valore del coefficiente di relazione ci dice la forza della correlazione lineare.

In un diagramma di dispersione, questo si può vedere dall’andamento della nuvola dei punti: più i
punti si avvicinano per disegnare una singola linea retta e più forte sarà la correlazione lineare.

Coefficiente di correlazione = è la somma, per tutti i soggetti di studio, del prodotto dei 2 volari Z di
ogni soggetto, diviso per il numero dei soggetti.

Σ Z X ZY
r=
N
PASSAGGI PER CALCOLARE IL COEFFICIENTE DI CORRELAZIONE

1. Trasformare tutti i punteggi in valore Z.


Serve il calcolo della media e della DS di ogni variabile, poi si trasformano tutti i punteggi
grezzi in valori Z
2. Calcolare il prodotto dei valori Z per ogni soggetto.
quindi, per ogni soggetto, moltiplicare il valore Z del soggetto di una variabile per il valore
Z dello stesso soggetto nell’altra variabile
3. Sommare i prodotti dei valori Z
4. Dividere per il numero dei soggetti dello studio

Il coefficiente di correlazione è una statistica descrittiva (come la media o la DS) che descrive la
relazione lineare fra 2 variabili.
Oltre a descrivere questa relazione, si può anche verificare se è statisticamente significativa.
Nel caso di una correlazione, ci si chiede se è significativamente diversa da 0.
Quindi, l’ipotesi nulla nella verifica delle ipotesi per una correlazione è tipicamente che nella
popolazione la vera relazione fra le 2 variabili è nessuna correlazione (r = 0)

Se 2 variabili hanno una correlazione lineare significativa, si assume che qualcosa causi la loro
associazione. Comunque sia, non è possibile sapere la direzione della causalità (cosa è causato da
cosa) soltanto dal fatto che le 2 variabili sono correlate.

Direzione della causalità = la direzione di un effetto deterministico. Se X è ritenuto la causa di Y


allora la direzione della causalità è da X a Y.

Per qualsiasi correlazione fra le variabili X e Y ci sono almeno 3 possibili direzioni di causalità:
1. X potrebbe causare Y
2. Y potrebbe causare X
3. Un terzo fattore potrebbe causare sia X che Y
Quindi, il coefficiente di correlazione descrive la direzione e la forza della relazione lineare fra 2
variabili; mostra quanto i punti di un diagramma di dispersione seguono una linea retta in cui a
punteggi alti di una variabile corrispondono punteggi alti dell’altra, idem con i punteggi bassi
(correlazione positiva), o punteggi alti di una variabile corrispondono a punteggi bassi dell’altra
(correlazione negativa).

A volte, però i punti nel diagramma seguono un andamento curvilineo. (nell’immagine forma una
specie di “U”)

In queste situazioni si può “raddrizzare” la linea e usare la correlazione classica. Un modo per farlo
è trasformare tuti i punteggi nel loro ordine di rango.
Quindi, separatamente per ogni variabile, bisogna ordinare i punteggi dal minore al maggiore
(iniziando da quello più basso). Questo renderà l’andamento più lineare e in questo modo si potrà
procedere col il calcolo del coefficiente di correlazione nel modo tipico, ma usando i punteggi
ordinati in ranghi invece che in punteggi ordinari.

Il coefficiente di correlazione calcolato in questo modo viene definito RHO DI SPEARMAN.

Uno dei modi in cui correlazione e previsione sembrano diversi è che con la correlazione non è
molto importante quale variabile precede l’altra; con la previsione invece, bisogna decidere qual è
la variabile in base a cui si prevede e qual è la variabile che deve essere prevista.

Variabile predittore (X) = nella previsione è la variabile usata per prevedere i punteggi dei
soggetti in un’altra variabile. Quindi è la variabile da cui si prevede.

Variabile criterio (Y) = nella previsione è una variabile che è predetta.


Costante di regressione (a) = è un particolare numero fisso che si usa sempre nel fare una
previsione

Coefficiente di regressione (b) = numero moltiplicato per il punteggio del soggetto nella variabile
predittore.

Si può visualizzare il modello lineare di previsione come una retta in un grafico in cui sull’asse
orizzontale ci sono i valori della variabile predittore (X) e su quella verticale i valori previsti per la
variabile criterio (Y).
La retta è definita retta di regressione.

Retta di regressione = retta in un grafico di dispersione che mostra la relazione fra i valori della
variabile predittore e i valori positivi della variabile criterio

Nell’immagina c’è la retta di regressione dei punteggi al test d’ingresso (variabile predittore) e il
voto medio di laurea (variabile criterio). Seguendo la retta di regressione si può trovare il voto medi
previsto da un particolare punteggio al test d’ingresso.

Lavorare “a occhio” è un modo per costruire un modello di previsione per tentativi ed errori.
Ovviamente serve un metodo per arrivare esattamente al modello di previsione lineare migliore
possibile (ovvero la migliore retta di regressione). Questo metodo non deve essere soggettivo o
approssimato.

Per arrivare al modello migliore di previsione bisogna capire cosa si intende per “migliore”.
Si intende la retta che si avvicina il più possibile agli effettivi punteggi nella variabile criterio
facendo previsioni che si discostano il meno possibile dia punteggi effettivi.
La differenza tra il punteggio previsto nella variabile criterio sulla base di un modello di previsione
e il punteggio effettivo di un soggetto nella variabile criterio è definita errore.

Errore = nella previsione, è la differenza fra il punteggio previsto di un soggetto nella variabile
criterio e il punteggio effettivo di un soggetto nella variabile criterio.

Questo errore di previsione deve essere il più piccolo possibile per tutto il campo di variazione dei
punteggi previsti, quindi serve che la somma degli errori sia minima.
A volte, però, gli errori sono positivi (il modello prevede punteggi più bassi) e a volte sono negativi
(il modello prevede punteggi più alti).
Gli errori positivi e negativi si annullano a vicenda. Per evitare questo problema si usano i quadrati
degli errori.
Ovvero, si prende ogni errore e si eleva al quadrato; poi si sommano questi quadrati.

Quindi, per valutare la bontà di un modello di previsione, si calcola la somma dei quadrati degli
errori che si commetterebbero usando quel modello di previsione.

Quando poi si seleziona un modello lineare di previsione, si usa il METODO DEI MINIMI
QUADRATI. In altre parole: si trova la retta di regressione che minimizza la somma dei quadrati
delle distanze fra i punteggi effettivi di Y e i punteggi previsti di Y.
TROVARE a E b CON IL METODO DEI MINIMI QUADRATI

Ci sono delle formule semplici per calcolare i valori di a (costante di regressione) e di b


(coefficiente di regressione) che daranno il modello di previsione che minimizza il più possibile la
somma dei quadrati degli errori.

Queste formule danno il modello lineare di previsione che garantisce che la somma dei quadrati
degli errori di previsione sia minima rispetto a qualunque altro modello di previsione.

Formula 1:
Σ [ ( X−M X ) ( Y −M Y ) ]
b=
SS X

Formula 2:
a=M Y −(b)( M X )

Per calcolare il valore di a è necessario conoscere il valore di b. Quindi bisogna usare la Formula 1
per trovare il valore b e poi si può usare la Formula 2 per calcolare il valore di a.

Test t, analisi della varianza, correlazione e previsione sono procedure molto versatili, ma in alcune
situazioni di ricerca non sono applicabili.
Ad esempio la verifica delle ipotesi con le variabili i cui valori sono categorie (regione del paese,
preferenza religiosa, colore di capelli).
I metodi precedenti richiedono che la variabile/le variabili misurate abbiano dei punteggi
quantitativi.

Il TEST CHI-QUADRO si usa quando i punteggi sono su una scala nominale. Quindi, i punteggi
rappresentano delle frequenze, ovvero quanti soggetti/osservazioni rientrano nelle diverse categorie.

Testi chi quadro = procedura di verifica delle ipotesi usata quando le variabili di interesse sono
variabili nominali.

2 tipi di test chi quadro:


1. test chi-quadro per la bontà dell’adattamento = un test chi quadro che riguarda i livello
di una singola variabile nominale
2. test chi-quadro per l’indipendenza = si usa quando ci sono 2 variabili nominali, ognuna
con più categorie.
Quindi, il test chi-quadro è il confronto tra una distribuzione di frequenze osservate e una
distribuzione di frequenze attese.

Frequenza osservata = in un test chi-quadro è il numero di soggetti effettivamente osservati nello


studio, che sono in una categoria o cella

Frequenza attesa = in un test chi-quadro è il numero di soggetti atteso in una categoria o cella se
l’ipotesi nulla fosse vera

Per rifiutare l’ipotesi nulla T critico deve essere minore di t

Potrebbero piacerti anche