Sei sulla pagina 1di 9

Lo scopo dellanalisi in componenti principali ci aiuter

nellidentificare variabili latenti volte a sintetizzare i dati raccolti


e di seguito riportati.
Successivamente, sar approntato un modello di regressione
multipla che abbia lo scopo di spiegare la relazione tra le
componenti individuate e la reale entit degli stanziamenti
ripartiti tra le Regioni.
Analisi Statistica per le Scienze Sociali

Roma, 4 dicembre 2015

A partire dallanno 2014 lo Stato ha ripartito dette risorse tra le


regioni italiane (in base a specifiche valutazioni che sono a noi
sconosciute)

a cura di Lorenzo Sagulo

Il contenuto del presente documento stato elaborato prendendo


come riferimento il piano EU - denominato GARANZIA GIOVANI il
quale ha previsto uno stanziamento di risorse per lavvio di politiche
attive volte allinserimento lavorativo di giovani under 30.

Variabili considerate per ogni regione


(dati riferiti allanno 2013)

1. Numero di abitanti (Fonte Istat tuttaitalia.it);


2. Tasso di disoccupazione giovanile (Fonte Istat);
3. Numero di soggetti in et lavorativa sotto i 30 anni - NEET - (Fonte Istat);
4. Tasso rilevato di lavoro nero sul totale delle unit lavoro (Fonte Istat);

5. Numero di aziende (Fonte Istat);


6. Numero di fallimenti (Fonte CRIBIS D&B);
7. Numero di politiche attive gi presenti in ogni regione (Banca dati Cdl);

8. Spesa regionale per abitante (Fonte Istat);


9. Tempo medio di collocamento dalla conclusione degli studi alla firma di un
contratto di lavoro a tempo indeterminato nella stessa regione di residenza

(Banca dati Cdl);


10. Numero contratti precari (a termine) rispetto alla totalit dei contratti a tempo
indeterminato (Fonte INPS).
Analisi Statistica per le Scienze Sociali

L Analisi in componenti principali una tecnica utilizzata nellambito della


statistica multivariata per la semplificazione dei dati dorigine. Lo scopo
primario di questa tecnica la riduzione di un numero pi o meno elevato di
variabili (rappresentanti altrettante caratteristiche del fenomeno analizzato) in
alcune variabili latenti.
Quindi un numero ridotto di queste nuove variabili deve essere in grado di
spiegare una porzione rilevante della varianza totale dei dati considerati.

Analisi Statistica per le Scienze Sociali

prima di osservare la matrice di correlazione necessario


puntualizzare che lentit delle correlazioni tra le variabili rilevate
un prerequisito indispensabile affinch l ACP fornisca risultati
soddisfacenti.
se tra tutte la variabili considerate ci fossero correlazioni molto modeste
(tendenti a zero) avremmo che ogni variabile varierebbe in modo indipendente
dalle altre e quindi non sarebbe possibile operare alcuna sintesi;
se invece tra le variabili riscontrassimo correlazioni molto forti vorrebbe dire
che avremmo raccolto informazioni ridondanti.
LACP diviene efficace solo quando tra le variabili esiste unapprezzabile quota di
varianza in comune (espressa da coefficienti di correlazione non tutti molto bassi o
molto alti): saranno cos sufficienti poche componenti principali per ottenere una
buona approssimazione alla matrice di partenza.
Analisi Statistica per le Scienze Sociali

analizzando la matrice di correlazione possibile osservare


buoni legami di associazione tra le variabili quindi la sintesi
effettuabile attraverso l ACP potrebbe risultare efficace !

Analisi Statistica per le Scienze Sociali

procediamo, quindi, a costruire lACP tramite la funzione princomp :


nelloutput troveremo le componenti ordinate in base alla varianza posseduta

Quante componenti scegliere ed in base a cosa ?


entit degli autovalori ( >1) sembrerebbe opportuno scegliere 3 CP
fattori che spiegano non meno di un certa % della varianza totale
sembrerebbe opportuno scegliere 3 CP (87% circa della varianza totale)
metodo grafico scree-test (conferma 3 CP)

Analisi Statistica per le Scienze Sociali

la domanda da porsi:
a quale livello di percentuale
cumulativa della varianza
totale effettuare il taglio
potrebbe essere il frutto di un
compromesso tra semplicit e
completezza della descrizione ?

al fine di interpretare le componenti scelte funzione principal scegliendo 3 fattori


PC1: fortissimo legame con il numero di abitanti,
di aziende, di fallimenti nella regione e con il
numero di politiche adottate, sembra quindi
strettamente legata al fattore dimensionale,
potremmo pertanto chiamare tale componente:
Dimensione

PC2: correlata positivamente con il tasso di


disoccupazione e con il tasso di lavoro nero,
negativamente con la percentuale di contratti
precari sul totale dei contratti di lavoro potremmo
quindi chiamarla: Arretratezza
PC3: correlata positivamente alla spesa regionale
per abitante e negativamente al tempo medio di
collocamento da un punto di vista puramente
lavorativo
potremmo
identificarla
come:
Virtuosit
Infine, possiamo notare che le variabili pi rappresentate dalla soluzione fattoriale sono
il numero di abitanti e di aziende, mentre la meno rappresentata la spesa per abitante
Analisi Statistica per le Scienze Sociali

tracciando il biplot di questo modello: essendo 3 le CP considerate, verrebbero


visualizzati tutti i biplot relativi alle combinazioni (a coppie) delle componenti.
Essendo per di lettura non cos immediata, si riporta un focus sul biplot relativo
alle prime 2 componenti:
un punto unit vicino allorigine segnala che tale
unit ha valori delle variabili vicini alla media
(es. Abruzzo, o Toscana, sembrano vicini allorigine)
un punto unit molto lontano dallorigine nella
direzione dun asse o duna (o pi) variabili indica
che tale unit presenta valori molto diversi dalla
media per quella CP
(es. Lombardia per la prima componente ha un valore
altissimo)
langolo di ciascun vettore con gli assi rappresenta la
correlazione tra la variabile e la CP
(es. il numero di abitanti perpendicolare alla PC2 (90
gradi circa), quindi indipendente dalla PC2)
gli angoli tra coppie di vettori indicano la
correlazione tra due variabili (angolo vicino a zero
indica una forte correlazione diretta; angolo vicino a
90 indica assenza di correlazione, angolo vicino a
180 indica forte correlazione lineare indiretta).
(es. politiche e tempo di collocamento (o spesa per abitante)
sono opposte, quindi hanno massima correlazione
negativa).
Analisi Statistica per le Scienze Sociali

a questo punto facciamo un passo ulteriore costruendo un modello di regressione multipla che tenti
di spiegare la relazione tra lo stanziamento realmente ripartito tra le regioni e le 3CP:

come possiamo osservare dalla summary del modello di regressione, la dimensione fortemente significativa
nello spiegare lo stanziamento. Non risultano invece significative larretratezza e la virtuosit nelle loro relazioni
con lo stanziamento ottenuto.
LR quadro finale del modello pari a circa 0,69 in pratica il 69% della variabilit degli stanziamenti spiegata
dalle relazioni con le variabili analizzate. Infine, dal grafico di normalit dei residui risulta che gli stessi rispettano
abbastanza il modello di regressione
Analisi Statistica per le Scienze Sociali