Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
I Edizione
– ottobre 2014 –
Indice
Introduzione
1. La Regressione Semplice e Multipla …………………. 1
1.1 La stima dei parametri …………………………………. 2
1.2 Le assunzioni dell’OLS ………………………………… 4
1.3 La valutazione del fit del modello ……………………… 5
1.4 Il contributo dei singoli predittori………………………. 8
1.5 Esempio regressione semplice…..………………………. 10
1.6 Esempio regressione multipla standard …………………. 17
Introduzione
2. La Regressione logistica Semplice e Multipla ………… 20
2.1 La stima dei parametri …………………………………… 26
2.2 La valutazione del fit del modello ……………………… 27
2.3 La valutazione della capacità predittiva del modello …… 29
2.4 Il contributo dei singoli predittori ……………………… 31
2.5 Esempio regressione logistica semplice…………………. 32
Appendice A ……………………………………………………… 40
Appendice B ……………………………………………………… 41
iii
Questo materiale è stato preparato per gli studenti del Corso di Laurea
Magistrale in "Psicologia Clinica", del Corso di Laurea Specialistica in
“Psicologia clinica e dello sviluppo” e del Corso di Laurea Magistrale in
“Psicologia dei processi cognitivi” della Seconda Università degli studi di
Napoli (SUN) nell’ambito dei corsi di Metodi e Tecniche della ricerca in
Psicologia Clinica, Analisi dei dati, e di Metodi e tecniche di analisi dei
dati. L'obiettivo del presente testo è fornire un supporto utile alla
preparazione dell'esame da utilizzare come materiale integrativo al testo di
base.
1
Regressione semplice e multipla
Introduzione
Il modello di regressione lineare consente di analizzare la relazione causale
tra una variabile dipendente quantitativa (misurata su scala almeno a
intervalli) e una o più variabili indipendenti quantitative.
Dal momento che non è possibile indagare nella popolazione la presunta
relazione tra le variabili considerate, per la verifica delle ipotesi si procede
estraendo un campione rappresentativo della popolazione e descrivendo su
questo la relazione tra le variabili considerate. Successivamente, mediante la
statistica inferenziale, si verifica se la relazione descritta al livello
campionario può essere generalizzata alla popolazione di riferimento.
(Y
j 1
j Yˆj )2 [5].
Ovvero la sommatoria degli scarti dalla media al quadrato (SQ). Per questa
ragione questo metodo viene definito il metodo dei "minimi quadrati".
Nella regressione semplice le formule per il calcolo dei parametri (secondo
il metodo OLS) sono le seguenti:
n
( Xj 1
ij X i )(Y j Y )
bi n
[6];
( X
j 1
ij Xi ) 2
a Y bi X [7].
Nella regressione multipla le formule per il calcolo dei parametri richiedono
l’algebra matriciale.
Poiché si tratta di stime campionare dei parametri è necessario conoscere
l’effetto dell’errore sulla stima. Per fare ciò è necessario calcolare l’errore
standard (si) del coefficiente stimato:
n
(Y
j 1
j Yˆj ) 2
sbi n
[6a].
(X
j 1
ij X i ) (1 R )( N k 1)
2
i
2
Y
n
Yˆj
2
j
j 1
se [8a].
N 2
L’altra statistica utile a valutare il fit del modello è R2 ed esprime la parte di
varianza della variabile dipendente spiegata attraverso il modello. L’R2
viene stimata con le seguenti formule, tra loro equivalenti:
n
(Yˆ
j 1
j Y )2
R2 n
[8b];
(Y
j 1
j Y ) 2
(Y
j 1
j Yˆj )2
R2 1 n
[8c].
(Y
j 1
j Y ) 2
Y
i Y Yi Yˆi
2
Yˆ Y
2
i
2
[10b].
Y Yˆi
2
devianza osservata); i (sommatoria degli scarti tra valori
7
Yˆ Y
2
alla devianza non spiegata (o devianza residua); i (sommatoria
N 1 ( N k 1) k [10d].
Dove: N è dato dal numero di osservazioni (numero di soggetti); k è dato dal
numero di variabili indipendenti inserite nel modello.
Per confrontare la due varianze e verificare se quella spiegata dalla
regressione è significativamente maggiore di quella residua, si calcola la
statistica F di Fischer. La varianza spiegata dalla regressione va al
numeratore, quella residua al denominatore:
Devreg
Varreg k
F [11].
Varres Devres
N k 1
L’ipotesi che sottoponiamo a verifica (ipotesi nulla o H0) è che la varianza
spiegata è uguale alla varianza residua, vale a dire che il modello di
regressione non riduce l’errore di previsione della variabile dipendente. In
altri termini l’ipotesi nulla che si sottopone a verifica assume che tutti i
parametri b siano uguali a 0:
H0 1 2 3 ... k 0 [11a].
Qualora questa ipotesi venga rifiutata viene considerata come vera l’ipotesi
alternativa che assume che almeno uno dei predittori abbia un valore di b
diverso da 0:
H1 1 o 2 o 3 o ... o k 0 [11b].
Per la verifica dell’ipotesi si utilizza la distribuzione teorica della variabile
casuale F di Fischer con gradi di libertà uguali ai gradi di libertà del
8
bi iH 0 bi
t [12].
sbi sbi
viceversa.
Per avere un indice che esprima la forza della relazione tra la variabile
indipendente e la variabile dipendente o per confrontare i coefficienti di
regressione parziale tra loro, è necessario calcolare i coefficienti di
regressione standardizzati.
I coefficienti di regressione standardizzati (simboleggiati con la lettera greca
beta) possono essere ottenuti in due modi: considerando nel modello di
regressione le variabili standardizzate (variabili espresse in punti z) o
trasformando i coefficienti di regressione attraverso la seguente formula:
10
sj
j bj [13].
sY
I coefficienti di regressione standardizzati esprimono la relazione tra
variabile indipendente e variabile dipendente usando come metrica le
deviazioni standard delle due variabili. Pertanto, un cambiamento in X pari
a una deviazione standard produce un cambiamento in Y pari a deviazioni
standard.
I coefficienti vengono interpretati in funzione del segno e dell’entità. Il
segno esprime il tipo di relazione esistente tra variabile indipendente e
variabile dipendente. Al pari dei coefficienti non standardizzati, quando il
coefficiente standardizzato è positivo indica una relazione lineare positiva,
per cui le variabili tendono a covariare nella stessa direzione, quando è
negativo indica che le variabili hanno una relazione inversa.
L’entità viene valutata in base alla grandezza del coefficiente. Infatti, al pari
dei coefficienti di correlazione, i coefficienti di regressione standardizzati
hanno valori compresi tra +1 e -1. Un valore pari ad +1 indica una
relazione perfetta positiva, un valore pari a -1 una relazione perfetta
negativa, mentre valori uguali a 0 indicano un’assenza di relazione tra le
variabili.
Quando sono riferiti allo stesso campione, i coefficienti di regressione
standardizzati consentono di confrontare il peso dei diversi predittori nella
determinazione delle variabile dipendente.
Tabella 1
Matrice dei dati soggetti (SS)× variabili (VV)
Cod amici QI devianza
1 3 106 0
2 7 93 10
3 3 94 9
4 5 107 12
5 8 96 17
6 2 118 0
7 7 110 14
8 5 107 12
9 4 105 1
10 5 113 11
11 3 104 7
12 8 119 12
A tal scopo, prima calcola per ciascuna variabile media, devianza e varianza
(vedi tabella 2).
Tabella 2
Calcolo delle medie, devianza e varianza per ciascuna variabile
Cod X Y X X Y Y ( X X ) 2 (Y Y ) 2
1 3 0 -2 -8.75 4 76.5625
2 7 10 2 1.25 4 1.5625
3 3 9 -2 0.25 4 0.0625
4 5 12 0 3.25 0 10.5625
5 8 17 3 8.25 9 68.0625
6 2 0 -3 -8.75 9 76.5625
7 7 14 2 5.25 4 27.5625
8 5 12 0 3.25 0 10.5625
9 4 1 -1 -7.75 1 60.0625
10 5 11 0 2.25 0 5.0625
11 3 7 -2 -1.75 4 3.0625
12 8 12 3 3.25 9 10.5625
60 105 Devianza 48 350.25
Media 5 8.75 Varianza 4 29.1875
12
Tabella 3
Calcolo dei parametri della regressione
X X ( X X ) Y Y ( X X )*( Y Y )
2
Cod
1 -2 4 -8.8 17.5
2 2 4 1.3 2.5
3 -2 4 0.3 -0.5
4 0 0 3.3 0.0
5 3 9 8.3 24.8
6 -3 9 -8.8 26.3
7 2 4 5.3 10.5
8 0 0 3.3 0.0
9 -1 1 -7.8 7.8
10 0 0 2.3 0.0
11 -2 4 -1.8 3.5
12 3 9 3.3 9.8
totale 48 102
(X
j 1
ij X i )(Y j Y )
102
bi n
2.125
(X
48
ij X i )2
j 1
Tabella 4
Calcolo della devianza non spiegata (devianza residua)
Cod Yi Yˆi Yi Yˆi Y Yˆ 2
i i
1 0 4.5 -4.5 20.3
2 10 13.0 -3.0 9.0
3 9 4.5 4.5 20.3
4 12 8.8 3.3 10.6
5 17 15.1 1.9 3.5
6 0 2.4 -2.4 5.6
7 14 13.0 1.0 1.0
8 12 8.8 3.3 10.6
9 1 6.6 -5.6 31.6
10 11 8.8 2.3 5.1
11 7 4.5 2.5 6.3
12 12 15.1 -3.1 9.8
totale 133.5
Dal momento che in questo caso si trattava di una regressione semplice (un
solo predittore) siamo certi che il valore del coefficiente b o (il
coefficiente standardizzato) sono statisticamente diversi da 0 anche nella
popolazione. Tuttavia, a scopo didattico, procediamo con la verifica
dell’ipotesi anche del predittore utilizzando le formule [6a], [12] e [12a].
n
(Y
j 1
j Yˆ j ) 2
133.5
sbi .5274
n
48 10
(X
j 1
ij X i ) 2 (1 Ri2 )( n k 1)
bi iH 0 bi 2.125
t 4.029
sbi sbi .5274
gdl t N k 1 10
Una volta calcolato il valore della statistica t questo deve essere interpretato
utilizzando la distribuzione teorica t di Student con gradi di libertà pari a 10.
P(t[10] 4.029) .002401
Come ci aspettavamo, il valore di probabilità ottenuto p = .002 essendo
inferiore al valore di probabilità critico = .05 ci porta a rifiutare l’ipotesi
nulla (H0 = il valore di b nella popolazione è uguale a 0) e ad accettare
l’ipotesi alternativa (H1 = il valore di b della popolazione è diverso da 0).
Di seguito vengono riportate le statistiche del modello 1 calcolate attraverso
il software SPSS® (Tabella 5) e mediante il software libero R (versione R
2.4.1; R Development Core Team, 2006) (Tabella 6). In questo secondo
caso la funzione utilizzata per il calcolo dei parametri è la funzione che
consente di stimare i modelli lineari (lm1).
1
Per un approfondimento sulla funzione lm digitare il comando help(lm) nella finestra
di lavoro dei software R.
16
Tabella 5
Stima dei parametri del modello 1 mediante il software SPSS®
Tabella 6
Stima dei parametri del modello 1 mediante il software R
#Sintassi per la creazione dei dati
amici <- c(3, 7, 3, 5, 8, 2, 7, 5, 4, 5, 3, 8)
devianza <- c(0, 10, 9, 12, 17, 0, 14, 12, 1, 11, 7, 12)
CALL:
lm(formula = devianza ~ amici)
RESIDUALS:
Min 1Q Median 3Q Max
-5.625 -3.031 1.438 2.687 4.500
COEFFICIENTS:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.8750 2.8400 -0.660 0.5240
amici 2.1250 0.5274 4.029 0.0024 **
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
amici
0.7866662
17
Tabella 7
Stima dei parametri del Modello 2 mediante il software SPSS®
Tabella 8
Stima dei parametri del modello 2 mediante il software R
#Sintassi per la creazione dei dati
amici <- c(3, 7, 3, 5, 8, 2, 7, 5, 4, 5, 3, 8)
devianza <- c(0, 10, 9, 12, 17, 0, 14, 12, 1, 11, 7, 12)
QI <- c(106,93,94,107,96,118,110,107,105,113,104,119)
CALL:
lm(formula = devianza ~ amici + QI)
RESIDUALS:
Min 1Q Median 3Q Max
-5.753 -2.383 1.230 3.012 3.346
COEFFICIENTS:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.44796 14.61362 0.578 0.57738
amici 2.09304 0.54233 3.859 0.00385 **
QI -0.09588 0.13301 -0.721 0.48931
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
amici
0.7748349
QI
-0.1447223
20
Introduzione
Il modello di regressione logistica viene utilizzato quando si è interessati a
studiare o analizzare la relazione causale tra una variabile dipendente
dicotomica e una o più variabili indipendenti quantitative.
2
Se il predittore (X) è dicotomico (variabile dummy) questa relazione è ancora più
evidente.
21
Figura 1
Modello di regressione lineare semplice con una variabile dipendente
dicotomica
Tale previsione risulta non adeguata alla variabile dipendente che, come
detto, può assumere esclusivamente valori 0 – 1. In pratica, se la variabile
dipendente è dicotomica, e se è influenzata dalla variabile X, allora si
dovrebbe osservare che per valori molto alti di X (o molto bassi se la
relazione è negativa) il valore in Y dovrebbe essere molto vicino ad 1 e non
dovrebbe superare tale limite. Lo stesso dovrebbe avvenire in prossimità
dello 0. In pratica la curva che rappresenta la relazione tra X e Y dovrebbe
essere di tipo logistico (vedi figura 2) e non lineare.
Figura 2
che rendano lineare la relazione nei termini dei parametri (Berry e Feldman,
1985).
Una delle trasformazioni possibili è, ad esempio, la trasformazione
logaritmica della variabile dipendente. Prima di illustrare i passaggi che
portano alla linearizzazione della relazione è necessario aprire una breve
parentesi per fare alcune considerazioni relative alla variabile dipendente
considerata.
Nella regressione logistica la variabile dipendente definisce l’appartenenza a
un gruppo (o all’altro). I valori che vengono assegnati ai livelli sono
attribuiti in maniera arbitrara. Ciò che interessa, dunque, non è il valore
atteso (o predetto), come nella regressione lineare, ma la probabilità che un
dato soggetto appartenga a meno a uno dei due gruppi. Nonostante questo, è
importante sottolineare che la scelta dei valori da assegnare influenza i
risultati dell’analisi. Un modo per risolvere il dilemma dell’assegnazione dei
valori ai livelli è quello di sostituire la probabilità (ad esempio di Y = 1) con
l’odds: odds (Y = 1).
L’odds è un modo di esprimere la probabilità mediante un rapporto. Si
calcola facendo il rapporto tra le frequenze osservate in un livello con le
frequenze osservate nell’altro. Il valore dell’odds esprime il rapporto tra due
categorie. Ad esempio, se ci sono 30 uomini e 12 donne (N = 42) possiamo
dire che la probabilità di essere uomini è .714 (formula [1]), oppure che gli
uomini sono il 71%. Se vogliamo esprimere la stessa informazione,
mettendo in relazione le due categorie, possiamo ricorrere all’odds.
Mediante l’odds (formula [2]) vediamo che la relazione tra uomini e donne
è pari a 2.5, questo equivale a dire che per ogni donna ci sono 2.5 uomini.
30
P( M ) .714 [1]
42
30
odds( M ) 2.5 [2]
12
Per esprimere la relazione tra due categorie in funzione di un’altra variabile
(valutare cioè l’associazione tra due variabili) è possibile utilizzare un altro
indice chiamato odds ratio o rapporto tra gli odds. Tale indice si ottiene
facendo un rapporto tra gli odds di una data variabile (ad esempio, la
23
variabile Y) ottenuti per ciascun livello della seconda variabile (ad esempio,
la variabile X).
Ad esempio, se vogliamo valutare la relazione tra tipo di lavoro e sesso
possiamo utilizzare una tabella di contingenza a doppia entrata e
rappresentare la distribuzione di frequenze congiunte (Tabella 1). Quindi, la
domanda che possiamo porci è la seguente: il rapporto (odds) tra uomini e
donne è uguale nei differenti lavori? Se calcoliamo la percentuale di uomini
nelle due tipologie di lavoro osserviamo che tra gli ingegneri il 90% è
composto da uomini, mentre tra gli insegnanti la percentuale di uomini è del
55%.
Tabella 1
Tabella a doppia entrata che descrive la distribuzione congiunta della
variabile sesso e della variabile lavoro
Sesso
Lavoro Uomini Donne Totale
Ingegneri 18 2 20
Insegnanti 12 10 22
Totale 30 12 42
Tabella 2
Confronto tra frequenze, frequenze relative (%), odds e logit per la
distribuzione della variabile Y in funzione dei valori della variabile X
Punteggio (xi) 0 1 2 3 4 5 6
Y=1 f 2 3 5 2 5 6 7
successo % .20 .30 .50 .20 .50 .60 .70
Y=0 f 8 7 5 8 5 4 3
fallimento % .80 .70 .50 .80 .50 .40 .30
odds (1/0) 0.25 0.43 1 0.25 1 1.5 2.3
log(odds(1/0)) -1.39 -0.85 0 -1.39 0 0.41 0.85
ln oddsY 1 X [5a].
Applicando queste trasformazioni, l’equazione della relazione tra le variabili
Xk e Y diviene:
e X11 X 2 2 ... X i i
P(Y 1) [6].
1 e X11 X 2 2 ... X i i
È importante sottolineare che la probabilità, l’odds e il logit sono tre
differenti modi di esprimere esattamente la stessa cosa. La trasformazione in
logit serve solo a garantire la correttezza matematica dell’analisi.
Tabella 3
Distribuzione di frequenze della variabile sesso
Y f
Y=1 17
Y=0 13
totale N = 30
3
È importante sottolineare che quando le assunzioni dell’OLS sono verificate, le stime dei
parametri ottenute mediante il metodo OLS e il metodo ML sono identiche (Eliason, 1993).
In questo senso il metodo OLS può essere considerato un caso particolare della ML;
quando i parametri sono stimabili direttamente, senza iterazioni.
28
17 13
D0 217 ln 13 ln [8a];
30 30
D0 41.054 [8b].
Nel modello che contiene sia l’intercetta sia la/le variabile/i indipendente/i,
il valore della statistica –2LL rappresenta la parte di variabilità dei dati che
non viene spiegata dal modello (devianza d’errore) e viene indicata come
DM. Lo scarto tra D0 e DM rappresenta la parte di variabilità spiegata dalle
variabili indipendenti o variabilità spiegata dal modello; e viene indicata
come GM:
D0 D M GM [9].
Efficienza predittiva
errori senza il modello errori con il modello [12]
errori senza il modello
Gli errori con il modello sono dati dal numero di casi per cui il valore
previsto è diverso dal valore osservato. Gli errori senza il modello si
calcolano in modi diversi e dipendono dall’uso che si vuole fare del
modello: a) predizione; b) classificazione; c) selezione.
Nei modelli predittivi, l’obiettivo è valutare se un dato caso soddisfa o meno
un criterio (es. successo, presenza di un sintomo, ecc.). Non ci sono limiti
posti a priori per cui tutti potrebbero appartenere a un’unica categoria.
Nei modelli di classificazione, l’obiettivo è simile ai modelli predittivi solo
che si assume che il modello debba ricostruire le proporzioni tra le categorie
30
n
j 1
Mj max( Ri )
p [13];
N max( Ri )
dove:
N ampiezza del campione
nMj frequenza max nella colonna j - esima
Ri il più grande totale di riga
Per i modelli di classificazione, un buon modo per calcolare gli errori senza
il modello (esm) è basarsi sulla formula:
N
esm f i
N f i [14];
i 1
N
dove:
N ampiezza del campione
f i numero di casi nella categoria i
*
bYX
b
YX s X RYˆModel
[18];
slogit Yˆ
dove:
bYX coeff. di regression e non stand.
s X dev. st. di X
RYˆModel coeff. di regression e lineare
slogit (Yˆ ) dev. st. di log it (Yˆ ) stimato
Tabella 4
Matrice dei dati soggetti (SS)× variabili (VV)
cod anx age panic
1 23 28 0
2 23 28 0
3 23 40 0
4 23 18 0
5 23 40 0
6 23 28 1
7 27 41 0
8 27 18 1
9 28 20 0
10 28 41 1
11 28 16 1
12 28 19 1
13 28 20 1
14 28 18 1
Tabella 5
Costruzione della matrice (SS×VV) mediante il software R
#Sintassi per la creazione della matrice di dati: nevrosi
nevrosi<-data.frame (
cod = c(1:14),
anx = c(23,23,23,23,23,23,27,28,27,28,28,28,28,28),
age = c(28,28,40,28,18,40,18,41,41,16,19,20,18,20),
panic = c( 0, 0, 0, 1, 0, 0, 1, 1, 0, 1, 1, 1, 1, 0) )
nevrosi
4
Per un approfondimento sulla funzione glm digitare il comando help(glm) nella
finestra di lavoro del software R. Per un approfondimento sui modelli lineari generalizzati
vedere Gill (2001) e Miceli (2001).
35
Tabella 6
Risultato del confronto tra il Modello 0 e il Modello 1
Model 1: panic ~ 1
Model 2: panic ~ anx
Resid. Df Resid. Dev Df Deviance P(>|Chi|)
1 13 19.4081
2 12 13.9181 1 5.4901 0.0191
Tabella 7
Calcolo dell’indice di varianza spiegata (pseudo R2) del Modello 1
A questo punto, per interpretare il tipo di relazione che esiste tra il livello di
ansia e la manifestazione di attacchi di panico analizziamo i parametri del
Modello 1.
5
In questo esempio, sono stati utilizzati i valori delle devianze residue disponibili negli
oggetti M0 e M1. Per avere una descrizione delle caratteristiche di un oggetto e delle sue
variabili è possibile utilizzare la funzione str(). Per maggiori informazioni digitare il
comando help(str) nella finestra di lavoro di R.
36
Tabella 8
Parametri stimati del Modello 1
> summary(M1)
Call:
glm(formula = panic ~ anx, family = binomial)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.76093 -0.58098 0.05481 0.69059 1.92999
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -15.5196 7.6964 -2.016 0.0437 *
anx 0.6011 0.2945 2.041 0.0412 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
e15.520.6(30)
P(Y 1) [27]
1 e15.520.6(30)
e2.5134
P(Y 1) .9227 [28]6
1 e2.5134
Mediante i parametri stimati, è quindi possibile calcolare per ciascuna
osservazione la probabilità di manifestare un attacco di panico in base al
punteggio sulla scala dell’ansia. Se stabiliamo che chi ha una probabilità
stimata superiore a .5 sono individui che manifestano un attacco di panico,
mediante le probabilità risultanti possiamo classificare le unità osservative
in individui con attacco di panico e individui senza attacco di panico; e
confrontare la classificazione ottenuta mediante i parametri del modello con
i valori realmente osservati per la variabile dipendente. Questo ci consente
di creare la tabella a due vie nota come tabella delle classificazione e
calcolare ulteriori indici di adeguatezza del modello.
6
Il risultato si può ottenere mediante la seguente funzione in R:
> (exp(-15.52+0.6*30))/(1+(exp(-15.52+0.6*30)))
[1] 0.9227278
38
Tabella 9
Costruzione della tabella delle classificazioni e calcolo delle percentuali di
classificazione corrette
> M1$fitted.values
1 2 3 4 5 6
0.1552941 0.1552941 0.1552941 0.1552941 0.1552941 0.1552941
7 8 9 10 11 12
0.6705879 0.7878432 0.6705879 0.7878432 0.7878432 0.7878432
13 14
0.7878432 0.7878432
Riferimenti Bibliografici
Barbaranelli, C. (2003). Analisi dei dati. Milano: Led.
Baron, R.M., Kenny, D.A. (1986). The Moderator-Mediator Variable
Distinction in Social Psychological Research: Conceptual, Strategic,
and Statistical Considerations, 51(6), 1173-1182.
Berry, W.D., Feldman, S. (1985). Multiple Regression in Practice (Sage
University Paper Series on Quantitative Applicatiosns in the Social
Science). Newbury Park, CA: Sage.
Caudek, C., Luccio, R. (2001). Statistica per psicologi. Bari: Gius. Laterza
& Figli Spa.
Keppel, G., Saufley, W.H., Tokunaga, H. (2001). Disegno sperimentale e
analisi dei dati in psicologia. Napoli: Edises.
Menard, S. (2001). Applied Logistic Regression Analysis (II Ed.) (Sage
University Paper Series on Quantitative Applicatiosns in the Social
Science). Thousand Oaks, CA: Sage.
Miceli, R. (2001). Percorsi di ricerca e analisi dei dati. Torino: Bollati
Boringhieri editore S.r.l.
R Development Core Team (2006). R: A language and environment for
statistical computing. R Foundation for Statistical Computing,
Vienna, Austria. (URL http://www.R-project.org).
40
Appendice A
Alfabeto greco
Appendice B
Funzioni del software R utilizzate
help()
lm()
glm()
round()
summary()