Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
CORRELAZIONE: misura lintensit e il verso della relazione fra due variabili metriche
(quantitative). Una correlazione positiva significa che le due variabili si muovono nella stessa
direzione, viceversa una correlazione negativa indica che due variabili si muovono in direzioni
opposte (ma sono comunque correlate).
La correlazione pi di un semplice indicatore; pu essere considerata come una statistica
campionaria che consente la verifica delle ipotesi. Infatti la misura della correlazione nel
campione influenzata dallerrore di campionamento (per questo una stima).
Possono essere utili dei controlli per moderare lerrore di campionamento nella correlazione:
assicurarsi che la relazione tra le variabili sia lineare
la varianza dellerrore dovrebbe essere simile per diversi livelli di correlazione
le due variabili dovrebbero provenire da distribuzioni statistiche simili.
COVARIANZA: fornisce la misura di quanto, due variabili, si muovano insieme, ossia la loro
dipendenza. Per ogni osservazione di i, una situazione dove sia x che y sono sotto o sopra le loro
rispettive medie campionarie accresce il valore della covarianza. La situazione in cui una delle
due variabili sopra la sua media e laltra sotto la sua media campionaria, decresce la
covarianza totale. La covarianza pu assumere valori positivi e negativi.
PROBLEMA: la covarianza dipende, come la varianza, dallunit di misura delle variabili. Di
conseguenza necessario normalizzare la covarianza per eliminare questo errore. Per
normalizzare ci si affida alla standardizzazione, che richiede di sottrarre la media e di dividere per
la deviazione standard.
Considerando che lespressione della covarianza gi corretto per la differenza delle medie,
baster solo dividere per le deviazioni standard campionarie, sia per x che per y.
COEFFICIENTE DI CORRELAZIONE (r): fornisce una misura numerica compresa fra -1 e +1 del
legame fra due variabili.
r = 0 significa che non c correlazione
r = +1 significa correlazione perfetta positiva
r = -1 significa correlazione perfetta negativa
CORRELAZIONE PARZIALE: permette di valutare il legame fra due variabili dopo aver controllato
gli effetti di una o pi ulteriori variabili. Considerando tre variabili x, y e z, il coefficiente di
correlazione parziale si ottiene correggendo il coefficiente di correlazione fra x e y dopo aver
considerato la correlazione tra x e z e la correlazione tra y e z.
y=+x+
Si assume ora la casualit [da x a y]. Fare regressione significa andare a ritroso dalla
variabile dipendente y, ai suoi determinanti. Il termine di errore incarna tutto ci che NON
spiega la relazione lineare. I parametri non noti (alfa e beta) devono essere stimati sui
dati campionari. Indichiamo le stime campionare dei parametri rispettivamente a e b. Con
le stime di a e b si costruisce la variabile y teorica (y^)
Root Mean Standard Error (RMSE) una misura dellaccuratezza delle previsioni che
corrisponde per le diagnostiche nel campione, allerrore standard dei residui, cio la radice
quadrata della SSE divisa per n-1
TEST ANOVA
Ha significato quando ci sono molte regressioni, con ipotesi nulla che esiste almeno una
regressione diversa da zero.
Questo test se significativo conferma la pertinenza di effettuare una regressione su
determinati dati. Devo arrivare a rifiutare lipotesi nulla per accettare lidea che almeno una
regressione sia diversa da zero e quindi vale la pena applicare il modello di regressione.
TEST T (COEFFICIENTE)
Considera prima le stime non standardizzate e poi lerrore standard.
t = rapporto tra stima e errore standard
se t assume valori grandi e il p-value pi piccolo del livello di confidenza, si rifiuta che i
coefficiente di regressione sia uguale a zero e quindi significativo applicare il modello di
regressione.
Per linterpretazione in SPSS si considerano i dati NON standardizzati, invece per sapere
quale regressione pesa di pi si considerano i dati standardizzati.
Beta uguale a R -> denoto anche da questo dato che la regressione bivariata d gli
stessi risultati della correlazione.
REGRESSIONE MULTIPLA
Il principio identico alla regressione bivariata ma ci sono pi variabili esplicative
indipendenti
y = + x + x +...+ x +
Le variabili indipendenti sono anche indipendenti le une dalle altre. Altrimenti potremmo incorrere
in qualche problema di duplicazione e diventerebbe molto difficile separare il significato.
COLLINEARIT: esiste quando due variabili sono correlate. perfetta quando una delle due
variabili ha una correlazione perfetta [+1 o -1] con unaltra variabile, o con una combinazione
lineare di pi di una variabile. Questo rende impossibile la stima.
Una forte collinearit rende le stime dei coefficienti instabili e inefficienti, che signora che
gli errori standard delle stime sono gonfiati alla miglior soluzione possibile.
La soluzione diventa molto sensibile alla scelta delle variabili da includere nel modello.
Quando c multicollinearit il modello potrebbe sembrare molto buono a prima vista, ma
produce previsioni scarse.
BONT DI ADATTAMENTO
Il coefficiente di determinazione R^2 cresce sempre allaumentare del campione e quindi
allaumentare dei regressori. Questo contro il principio di parsimonia. I modelli con
molte variabili esplicative sono impegnativi in termini di dati (costi elevati) e calcoli. Se
vengono confrontati con modelli annidati alternativi, quelli con pi variabili esplicative
risultano avere migliore bont di adattamento. Cos, un appropriato indicatore lR^2
aggiustato che tiene conto del numero di variabili esplicative (k) in relazione al numero di
osservazioni (n).
INDICATORI DI MULTICOLLINEARIT
Si parte dal presupposto che se lR^2 un valore alto significa che il regresso re
fortemente legato e quindi correlato agli altri
PROCEURA STEPWISE
una procedura che aiuta a scegliere quali variabili inserire nel modello di regressione.
Seleziona le variabili esplicative con pi ALTA correlazione rispetto alla variabile
dipendente e fa girare il modello. Poi prende anche la variabile che ha pi alto
coefficiente di correlazione parziale e la inserisce nel modello.
Di seguito esegue un test F o confronta i valori di R^2 aggiustato, fino ad arrivare a capire
se aver aggiunto una variabile in pi possa aver migliorato il modello. Se la risposta s,
mantiene la variabile nel modello, se la risposta no la esclude. Poi ricomincia con un
altro step ripetendo loperazione con le altre variabili. Ad ogni step, la procedura pu
eliminare una delle variabili gi incluse nel modello se non vi una diminuzione
significativa del valore F.
PROCEDURA FORWARD
La regressione Forward lavora esattamente come la regressione Stepwise, ma le variabili
vengono solo inserite e non eliminate. Il processo termina quando non c un ulteriore
incremento significativo del valore F.
PROCEDURA BACKWAED
Questa regressione inizia includendo tutte le variabili indipendenti e lavora escludendo ad
ogni step la variabile che provoca il minor decremento nel valore F. Il processo termina
quando il decremento di F non significativo.