Sei sulla pagina 1di 23

REPORT DI STATISTICA SOCIALE PROF.

CARRA
a.a 2011-2012
Analisi statistica relativa ai dati di
laurea e occupazione dellUniversit
degli studi di Bergamo

di Sabrina Verzeletti e Laura Dotti
S C I E N Z E P S I C O L O G I C H E U N I V E R S I T D E G L I S T U D I D I B E R G A M O
Analisi statistica relativa ai dati di laurea e occupazione dellUniversit degli studi di Bergamo

1
Universit degli studi di Bergamo

INTRODUZIONE ALLA RICERCA
Ci approcciamo a questo lavoro con lobiettivo di analizzare, da un punto di vista statistico quantitativo, il
processo di transizione dei laureati dallistruzione universitaria allinserimento professionale nel mondo del
lavoro, prospettando una modalit di utilizzo della statistica come strumento per analizzare i dati che
rappresentano la realt sociale.
Lepoca in cui viviamo caratterizzata da una grande incertezza relativa soprattutto al mondo accademico e
a quanto questo sia effettivamente in grado di assicurare un posto di lavoro ai suoi studenti.
Ci si chiede oggi se sia effettivamente necessario laurearsi per poter accedere ad una professione sicura e
ben retribuita. A noi, studenti di psicologia, c addirittura chi consiglia di studiare prima di tutto per
passione, perch il mondo del lavoro ormai saturo e ci sono diversi intoppi nel meccanismo di ricambio
generazionale. Ovviamente questo discorso non vale per tutti i settori professionali, ma si fa sensibile in
alcuni ambiti del mondo del lavoro, piuttosto che in altri.
La nostra analisi vuole cercare di mostrare quali sono gli ambiti di studio che offrono agli studenti una
maggior probabilit di trovare unoccupazione; vogliamo vedere cosa succede agli studenti una volta
laureati e infine, a livello pi macroscopico, vogliamo capire se il numero di laureati pu influire in qualche
modo sulla ricchezza di una comunit.
Per rispondere a tutti questi quesiti abbiamo deciso di analizzare una realt molto vicina a noi, utilizzando i
dati della nostra universit. In particolare abbiamo scelto di soffermarci soprattutto sui dati relativi ai
laureati ai corsi di laurea specialistica (n.b. e a ciclo unico, nel singolo caso della facolt di giurisprudenza)
per snellire una quantit cospicua di dati, ma anche e soprattutto per indagare cosa succede ai nostri
laureati, una volta raggiunta unelevata formazione accademica (molto spesso, come nel nostro caso, si sa
che con la laurea triennale le speranze di trovare un lavoro sono veramente esigue).
Risponderemo alle nostre problematiche tramite lutilizzo di tre modelli statistici: lanalisi della varianza
(ANOVA), lanalisi dei dati categoriali e lanalisi della regressione.
Prima di entrare nel vivo dei tre modelli per, illustriamo le fonti dei nostri dati e procediamo col dare una
panoramica generale calcolando frequenze relative, percentuali, frequenze cumulate, percentuali cumulate
e in seguito le misure di tendenza centrale, tutto questo sulle variabili laureati per facolt.






Analisi statistica relativa ai dati di laurea e occupazione dellUniversit degli studi di Bergamo

2
Universit degli studi di Bergamo

LE FONTI
Abbiamo tratto i dati a noi utili dalle indagini di CILEA, il cui acronimo si scioglie in "Consorzio
Interuniversitario Lombardo per l'Elaborazione Automatica", un consorzio interuniversitario senza scopo di
lucro fondato nel 1974. Gli scopi principali iniziali del Consorzio consistevano nelloffrire alle universit
consorziate potenza elaborativa e i relativi servizi per rispondere alle esigenze della ricerca e, in seconda
istanza, della didattica.
Nel tempo il Consorzio ha diversificato le sue attivit: non si occupa pi soltanto di mettere a disposizione
l'utilizzo delle proprie macchine, ma ha sviluppato numerosi altri servizi in settori eterogenei (calcolo ad
alte prestazioni, bibliotecheeditoria elettronicadigital library, sviluppo software, servizi ICT, servizi per le
universit e il ministero, formazione specialistica), ha aumentato il suo organico uscito dai confini
tradizionali della Lombardia e si presenta ora come un consorzio presente su tutto il territorio nazionale.
Al CILEA aderiscono attualmente il Ministero dell'Istruzione, dell'Universit e della Ricerca (MIUR) e undici
universit.
I nostri dati, nello specifico, fanno parte del cosiddetto progetto STELLA (Statistica in Tema di Laureati e
LAvoro), nato nel 2002 per la costruzione di una banca dati per il monitoraggio delle caratteristiche dei
percorsi di studio dei laureati dei diversi corsi di studio, delle loro aspirazioni e dei loro comportamenti
rispetto al mercato del lavoro al momento della laurea, nonch al monitoraggio degli stessi laureati nel
percorso di inserimento nel mercato del lavoro.
Il progetto attualmente comprende un indagine sul profilo dei laureati e unindagine occupazionale post-
laurea. Tutti gli atenei italiani interessati possono aderirvi e lUniversit degli studi di Bergamo ne fa parte
gi da tempo.
I dati che abbiamo deciso di utilizzare sono relativi ai laureati 2010 dellUniversit di Bergamo, ai laureati (in
corsi specialistici e ciclo unico) che a 12 mesi dalla laurea lavorano, studiano o cercano unoccupazione.











Analisi statistica relativa ai dati di laurea e occupazione dellUniversit degli studi di Bergamo

3
Universit degli studi di Bergamo

DISTRIBUZIONI DI FREQUENZE
Il primo passo da compiere nella costruzione di una distribuzione consiste del determinare quante
osservazioni rientrano in ciascuna categoria di risposta della variabile analizzata. Il risultato di questo
conteggio ci permette di calcolare una distribuzione di frequenze intesa come la tavola che riporta le
categorie di risposta di una variabile e il numero di volte in cui ciascuna risposta stata osservata. Le
distribuzioni di frequenze semplici possono essere trasformate in distribuzioni di frequenze relative (o
proporzioni) o in distribuzioni percentuali.
Per calcolare le frequenze relative (o proporzioni) occorre dividere il numero di casi appartenente a
ciascuna categoria di risposta per il numero totale di casi; essa viene indicata con (p) e la somma di tutte le
proporzioni che formano una distribuzione di frequenze relative sempre uguale a 1. Le frequenze relative
ci permettono di effettuare confronti con altre distribuzioni di frequenza che riguardano la stessa domanda
ma sono calcolate su un numero di casi differenti.
Le distribuzioni percentuali (%) si calcolano moltiplicando per 100 ognuna delle proporzioni; la somma di
tutte le percentuali associate alle possibili categorie di risposta di una data variabile sempre uguale a
100%.
Se si ha bisogno di conoscere la posizione relativa di un determinato valore all'interno di una distribuzione
di punteggi continui possibile calcolare una distribuzione di frequenze cumulate semplici o percentuali. La
frequenze cumulate (fc) associata ad un determinato valore di una variabile corrisponde al numero totale
di osservazioni che hanno un valore uguale o inferiore a quello di riferimento. Per calcolare le diverse
frequenze cumulate bisogna iniziare dalla frequenza semplice associata alla categoria pi bassa (f),
aggiungerla alla frequenza semplice associata alla categoria immediatamente superiore (f) quindi
aggiungere alla somma precedente la frequenza semplice associata alla categoria ancora immediatamente
superiore (f) e cosi via. La distribuzione di percentuale cumulate (%c) si ottiene sommando
progressivamente le frequenze percentuali e permette di individuare in modo molto chiaro la posizione
occupata da un dato valore di una variabile relativamente agli altri valori.
FACOLTA' E CORSI LS frequenze (f) (p) %
SCIENZE UMANISTICHE 65 0,089 8,94
GIURSPRUDENZA 79 0,109 10,87
LINGUE E LETTERATURE STRANIERE 110 0,151 15,13
INGEGNERIA 155 0,213 21,32
ECONOMIA 158 0,217 21,73
SCIENZE DELLA FORMAZIONE 160 0,220 22,01
TOTALE
727 1,000 100,0

(N.B. in questo caso, non e stata calcolata la distribuzione di frequenze cumulate in quanto non ci troviamo in presenza
di variabili continue).
Analisi statistica relativa ai dati di laurea e occupazione dellUniversit degli studi di Bergamo

4
Universit degli studi di Bergamo

MISURE DI TENDENZA CENTRALE
Ogni distribuzione di frequenze pu essere riassunta mediante gli indici di tendenza centrale. La tendenza
centrale o valore medio di un insieme di valori esprime la quantit di variazione o dispersione che
caratterizza una distribuzione.
Le misure di tendenza centrale pi comunemente usate sono:
- MODA:
La moda , allinterno di un insieme di K categorie che formano una distribuzione, la categoria che ha il
numero di osservazioni pi elevato. Alcune distribuzioni sono dette bimodali, cio possiedono due mode (le
due categorie pi numerose devono avere esattamente lo stesso numero di osservazioni, oppure le due
categorie che contengono il maggior numero di casi hanno una numerosit molto simile). La moda e
applicabile sia alle variabili discrete che a quelle continue.
(In questo caso, la moda corrisponde a 160, facolt di scienze della formazione. Nel grafico in verde.)
- MEDIANA:
La mediana si applica solo alle variabili le cui categorie possono essere ordinate in modo crescente; quel
valore che divide una distribuzione ordinata esattamente in due met cosi che la met dei valori osservati
abbiano valori inferiori a quello mediano e laltra meta valori superiori. In generale la mediana di una data
distribuzione e uguale al valore associato all'osservazione centrale di quella distribuzione quando questa e
formata da un numero dispari di osservazioni, mentre e uguale alla media dei valori associati alle due
osservazioni centrali della distribuzione quando questa e formata da un numero pari di osservazioni.
(In questo caso la mediana corrisponde a 132,5. Nel grafico, la linea viola.)
- MEDIA:
La media aritmetica pu essere calcolata solo per le variabili continue in questo modo: si sommano i valori
di tutte le osservazioni e poi si dividono per il numero totale di casi.
(In questo caso la media corrisponde a 727/6 = 121,2. Nel grafico la linea arancione.)

Analisi statistica relativa ai dati di laurea e occupazione dellUniversit degli studi di Bergamo

5
Universit degli studi di Bergamo

Analisi della varianza (ANOVA)
L'analisi della varianza o ANOVA una versione particolare del modello lineare generale, finalizzata a
determinare quale proporzione della variazione totale nella variabile dipendente Y attribuibile alle singole
osservazioni i appartenenti al gruppo j, in cui prendiamo in considerazione una variabile indipendente
discreta (corsi di laurea) e una variabile dipendente continua (tasso di laureati occupati).
Per applicare questo modello alla nostra indagine ci chiediamo:
SI PU DIRE CHE, ALLUNIBG, LA POSSIBILIT DI TROVARE LAVORO INFLUENZATA DAL CORSO DI LAUREA INTRAPRESO?
Qui di seguito la tabella che illustra le diverse facolt dellUniversit di Bergamo, suddivise nei diversi corsi
di laurea specialistica, il numero dei laureati nellanno 2010 per ciascun corso, il numero di laureati occupati
a un anno dalla laurea specialistica e infine il tasso di laureati occupati.
FACOLTA' E CORSI LS LAUREATI 2010 OCCUPATI A 12 MESI TASSO L-O
ECONOMIA 158 111 0,70
ECONOMIA AZIENDALE E DIREZIONE DELLE AZIENDE 52 37 0,71
ECONOMIA, INNOVAZIONE E ORGANIZZAZIONE IMPRESE
NEI MERCATI PROBLEMATICI
22 15 0,68
MANAGEMENT, FINANZA E INTERNATIONAL BUISNESS 81 56 0,69
FINANZA E MERCATI 3 3 1,00
GIURSPRUDENZA 79 30 0,38
GIURISPRUDENZA LS 45 19 0,42
GIURISPRUDENZA LU 34 11 0,32
INGEGNERIA 155 133 0,86
INGEGNERIA GESTIONALE 51 42 0,82
INGEGNERIA INFORMATICA 22 19 0,86
INGEGNERIA MECCANICA 45 44 0,98
INGEGNERIA EDILE 37 28 0,76
LINGUE E LETTERATURE STRANIERE 110 71 0,65
LINGUE STRANIERE PER LA COMUNICAZIONE
INTERNAZIONALE
25 15 0,60
Analisi statistica relativa ai dati di laurea e occupazione dellUniversit degli studi di Bergamo

6
Universit degli studi di Bergamo

PROGETTAZIONE E GESTIONE DEI SISTEMI TURISTICI 26 19 0,73
COMUNICAZIONE ED EDITORIA MULTIMEDIALE 33 19 0,58
LINGUE E LETTERATURE EUROPEE E PANAMERICANE 26 18 0,69
SCIENZE DELLA FORMAZIONE 160 84 0,53
CONSULENZA PEDAGOGICA E RICERCA EDUCATIVA 46 40 0,87
PSICOLOGIA CLINICA 114 44 0,39
SCIENZE UMANISTICHE 65 28 0,43
TEORIA, TECNICHE E GESTIONE DELLE ARTI E DELLO
SPETTACOLO
11 6 0,55
CULTURE MODERNE COMPARATE 38 16 0,42
DIRITTI DELL'UOMO ED ETICA DELLA COOPERAZIONE
INTERNAZIONALE
16 6 0,38
TOTALE 727 357 0,49

Con il modello ANOVA vengono delineate due ipotesi:
lipotesi di ricerca, secondo la quale le medie dei gruppi variano in un certo ordine

1
>
2
>
3
>
4
e unipotesi nulla, secondo la quale tutte le medie campionarie provengono dalla stessa popolazione e
perci sono uguali una allaltra

H
0
:
1
=
2
=.
j
I modelli ANOVA permettono di verificare lipotesi nulla, che se non viene verificata conferma lipotesi di
ricerca.
Il rifiuto dellipotesi nulla implica una fra diverse possibili alternative:
1. La media di ogni popolazione differisce dalla media di tutte le altre popolazioni (H1:12j)
2. Le medie di alcuni sottoinsiemi di popolazioni differiscono luna dalle altre (ad esempio 1 diversa
da 2 ma uguale a 3 e 4)
3. Alcune combinazioni di medie differiscono da una singola media o da unaltra combinazione di
medie ( esempio, 1 differisce dalla media di 3 e 4)

Analisi statistica relativa ai dati di laurea e occupazione dellUniversit degli studi di Bergamo

7
Universit degli studi di Bergamo

La formula utilizzata dal modello ANOVA la seguente:
Yij= + + eij
Dove:
Yij = valore dell'osservazione i del gruppo j
= media generale
j = effetto esercitato dal gruppo j, comune a tutte le osservazioni di quel gruppo
eij = errore, unico all'osservazione i del gruppo j

Leffetto.
Leffetto di una variabile discreta (J) su una variabile dipendente continua rappresentato dalla differenza
fra la media di quel gruppo(J) e la media generale(): J = J-
Se il gruppo J non esercita alcun effetto sulla variabile dipendente allora J = 0; mentre se il gruppo J
esercita un effetto J assumer un valore positivo o negativo a seconda che la media del gruppo sia
maggiore o minore della media generale .
Lerrore.
Nellanalisi della varianza lerrore la discrepanza fra i valori osservati e quelli predetti dallappartenenza a
un dato gruppo. In sostanza, tale errore, tiene conto del fatto che i vari casi i appartenenti a un gruppo j
non hanno tutti lo stesso valore osservato Yij.

La somma dei quadrati.
Lanalisi della varianza suddivide la SQ Totale in due componenti:
- SQ Intergruppo = la somma dei quadrati fra i gruppi che pari alla somma delle deviazioni al
quadrato di ciascuna media di gruppo dalla media generale dei gruppi

SQ INTERGRUPPO = (4) (0,70 0,49)
2
+ (2) (0,38 0,49)
2
+ .. + (3) (0,43 0,49)
2
= 0,86

j ij ij
Y e o =
Analisi statistica relativa ai dati di laurea e occupazione dellUniversit degli studi di Bergamo

8
Universit degli studi di Bergamo

- SQ Intragruppo = la somma dei quadrati nei gruppi che pari alla somma delle deviazioni al
quadrato delle osservazioni di ciascun gruppo dalla media di quel gruppo

SQ INTRAGRUPPO = (0,71 0,70)
2
+ (0,68 0,70)
2
+ (0,69 + 0,70)
2
+ .. + (0,38 0,43)
2
= 0,29
La somma dei quadrati fra i gruppi esprime leffetto complessivo esercitato sulla variabile dipendente
continua dalla variabile indipendente discreta, mentre la somma dei quadrati nei gruppi esprime linfluenza
di fattori non misurati. Pi le due stime sono vicine, minore leffetto di gruppo.
La SQ Totale si calcola cos:


SQ TOTALE = 0,86 + 0,29 = 1,15

I quadrati medi.
Il passo successivo nellanalisi della varianza consiste nel calcolare i quadrati medi corrispondenti a SQ
Intergruppo e SQ Intragruppo; ognuno di essi rappresenta la stima di una varianza: la prima attribuibile agli
effetti di gruppo la seconda attribuibile allerrore.
- QM Intergruppo, rappresenta la stima di una varianza attribuibile agli effetti di gruppo

QM INTERGRUPPO = 0,86 / 5 = 0,17
- QM Intragruppo, rappresenta la stima di una varianza attribuibile allerrore

QM INTRAGRUPPO = 0,29 / 13 = 0,02
Anche qui, se non esiste alcun effetto di gruppo, allora le due stime saranno identiche.
( )

= =

J
j
ij
n
i
Y Y
j
1
2
1
Analisi statistica relativa ai dati di laurea e occupazione dellUniversit degli studi di Bergamo

9
Universit degli studi di Bergamo

Ora bisogna determinare quanto maggiore QM Intragruppo deve essere rispetto a QM Intergruppo affinch
lipotesi nulla possa essere rifiutata.
A questo punto bisogna mettere a rapporto i due valori attraverso un indicatore che standardizza la
varianza, denominato quoziente F.

Il quoziente F.

F
5/13
= 0,17 / 0,02 = 7,77
Il valore ottenuto lo si deve confrontare con il corrispondente nella tabella dei valori F di Fisher per i livelli
di probabilit 0.05 e 0.01.
Nel caso specifico il valore critico rilevato nella tavola di Fisher :
quoziente F = 2,72 per =0,05
quoziente F = 4,19 per =0,01
Essendo che il quoziente F ottenuto maggiore del valore critico associato ad un dato livello di possiamo
rifiutare lipotesi nulla con una probabilit di commettere un errore di I tipo pari a 0,01 o eventualmente
anche 0,05.
Questo ci permette di concludere che la variabile indipendente influenza in modo significativo le variabili
dipendenti. Il titolo di laurea ottenuto influenza la possibilit di trovare un lavoro.
Dopo aver rifiutato lipotesi nulla necessario capire quale la forza della relazione tra le variabili tramite il
quoziente di correlazione (q
2
).
TOTALE
O INTERGRUPP
SQ
SQ
=
2
q

q
2
= 0,86 / 1,15 = 0,75

Si pu cos dire che il 75% della variazione osservata nel numero dei laureati-occupati allUniBg pu essere
spiegata dal diverso titolo di studio ottenuto alluniversit.
O INTRAGRUPP
O INTERGRUPP
J N J
QM
QM
F =
, 1
Analisi statistica relativa ai dati di laurea e occupazione dellUniversit degli studi di Bergamo

10
Universit degli studi di Bergamo

Analisi dei dati categoriali
Lanalisi dei dati categoriali una tecnica statistica che serve per misurare la relazione fra due variabili
discrete, in particolare la loro significativit statistica e la forza della loro relazione. Questa tecnica si basa
sulle tavole di contingenza, tavole che rappresentano i modi in cui le variabili si manifestano
congiuntamente in un certo insieme di osservazioni.
Nel caso specifico vogliamo capire la relazione che intercorre tra il gruppo disciplinare dellUniversit di
Bergamo e il fatto che lo studente stia lavorando, cercando lavoro o ancora studiando, ad un anno dalla
laurea specialistica.
Ecco le nostre frequenze osservate:
GRUPPI DISCIPLINARI (LS + CU) LAVORA CERCA STUDIA TOT
architettura 27 4 4 35
economico - statistico 111 23 17 151
giuridico 30 1 41 72
ingegneria 105 6 7 118
insegnamento 40 5 0 45
letterario 22 14 5 41
linguistico 33 8 5 46
politico - sociale 44 11 11 66
Psicologico 44 27 27 98
TOTALE 456 99 117 672

Ogni cella della tabella contiene il numero di casi nei quali si manifesta una particolare combinazione di
valori delle due variabili discrete. I totali delle righe si dicono distribuzioni marginali, mentre i totali delle
colonne si chiamano marginali di colonne, la loro intersezione il totale generale dei casi (N). Per
procedere nella nostra analisi dobbiamo standardizzare i valori, trasformandoli in frequenze percentuali:
GRUPPI DISCIPLINARI (LS + CU) LAVORA CERCA STUDIA TOT
Architettura 6% 4% 3% 5%
economico - statistico 24% 23% 15% 22%
giuridico 7% 1% 35% 11%
Ingegneria 23% 6% 6% 18%
Insegnamento 9% 5% 0% 7%
Letterario 5% 14% 4% 6%
linguistico 7% 8% 4% 7%
politico - sociale 10% 11% 9% 10%
psicologico 10% 27% 23% 15%
TOTALE 100% 100% 100% 100%
Analisi statistica relativa ai dati di laurea e occupazione dellUniversit degli studi di Bergamo

11
Universit degli studi di Bergamo

Test chi
2
.
Dopo aver standardizzato i dati possiamo procedere a verificare la significativit statistica tramite il test chi-
quadrato, che serve per determinare se le due variabili sono indipendenti nella popolazione di riferimento
sottoponendo a verifica lipotesi nulla, secondo la quale nella popolazione dalla quale stato estratto il
campione oggetto di analisi, non esiste alcuna covariazione fra le due variabili prese in considerazione.
Qualora lipotesi nulla venisse scartata si potrebbe confermare lipotesi alternativa, che sostiene che le due
variabili sono correlate nella popolazione nello stesso tempo in cui lo sono nel campione. Se fra le due
variabili non esiste relazione, esse sono statisticamente indipendenti.
Per procedere con il test chi-quadrato necessario dividere i dati fra: frequenze attese, percentuale di
colonna e percentuale di riga.
Le frequenze attese sono le frequenza che ci si aspetterebbe se lipotesi nulla fosse confermata e per
calcolarle si utilizza la formula:



Dove:
fij = frequenza attesa nella cella situata allincrocio fra la riga i e la colonna j
fi = frequenza totale marginale della riga i
fj = frequenza totale marginale della colonna j
N = numerosit del campione

GRUPPI DISCIPLINARI (LS + CU) LAVORA CERCA STUDIA TOT
architettura 23,75 5,16 6,09 35
economico - statistico 102,46 22,25 26,29 151
giuridico 48,86 10,61 12,54 72
ingegneria 80,07 17,38 20,54 118
insegnamento 30,54 6,63 7,83 45
letterario 27,82 6,04 7,14 41
linguistico 31,21 6,77 8,01 46
politico - sociale 44,79 9,72 11,49 66
psicologico 66,50 14,44 17,06 98
TOTALE 456 99 117 672



( )( )
N
f f
f
j i
ij
. .

=
Analisi statistica relativa ai dati di laurea e occupazione dellUniversit degli studi di Bergamo

12
Universit degli studi di Bergamo

Percentuali di riga:
GRUPPI DISCIPLINARI (LS + CU) LAVORA CERCA STUDIA TOT
Architettura 68% 15% 17% 100%
economico - statistico 68% 15% 17% 100%
giuridico 68% 15% 17% 100%
Ingegneria 68% 15% 17% 100%
Insegnamento 68% 15% 17% 100%
Letterario 68% 15% 17% 100%
Linguistico 68% 15% 17% 100%
politico sociale 68% 15% 17% 100%
Psicologico 68% 15% 17% 100%
TOTALE 68% 15% 17% 100%

Percentuali di colonna:
GRUPPI DISCIPLINARI (LS + CU) LAVORA CERCA STUDIA TOT
Architettura 5% 5% 5% 5%
economico - statistico 22% 22% 22% 22%
giuridico 11% 11% 11% 11%
Ingegneria 18% 18% 18% 18%
Insegnamento 7% 7% 7% 7%
Letterario 6% 6% 6% 6%
Linguistico 7% 7% 7% 7%
politico sociale 10% 10% 10% 10%
Psicologico 15% 15% 15% 15%
TOTALE 100% 100% 100% 100%

Il prossimo passo consiste nel calcolare la statistica chi
2
, che riassume le differenze fra le frequenze
osservate e le frequenze attese di ogni singola osservazione. Per farlo si utilizza la seguente formula:


Dove:
C = numero di colonne
R = numero di righe della tavola

I dati ricavati tramite la formula sopra citata sono riassunti nella prossima tabella.

( )

= =

=
R
i
C
j
ij
ij ij
f
f f
1 1
2
2

_
Analisi statistica relativa ai dati di laurea e occupazione dellUniversit degli studi di Bergamo

13
Universit degli studi di Bergamo

Statistica del chi
2
:
GRUPPI DISCIPLINARI (LS + CU) LAVORA CERCA STUDIA
Architettura 0,44 0,26 0,72
economico statistico 0,71 0,03 3,28
giuridico 7,28 8,70 64,59
Ingegneria 7,77 7,45 8,93
Insegnamento 2,93 0,40 7,83
Letterario 1,22 10,49 0,64
Linguistico 0,10 0,22 1,13
politico sociale 0,01 0,17 0,02
Psicologico 7,61 10,92 5,79

I valori riassuntivi riportati in questa tabella devono essere esaminati congiuntamente alle frequenza
osservate e a quelle attese corrispondenti, in modo da determinare, oltre allintensit della differenza che
caratterizza ogni cella, anche la sua direzione (negativa o positiva). I valori che compaiono nelle diverse
celle indicano lo scostamento delle frequenze attese rispetto a quelle osservate. Lo scostamento pu
equivalere contemporaneamente ad una sovrastima o sottostima del campione per ogni cella. Vi
sovrastima quando nella matrice dei valori attesi la cella presenta un valore superiore a quello osservato.
Sottostima nel caso contrario.
La somma di tutte le componenti riportate nella tabella uguale a =159,65
Per accettare o rifiutare lipotesi nulla bisogna confrontare questo valore con il valore critico
corrispondente, che si trova sullapposita tabella con = 0.001; a questo scopo andiamo a calcolare i gradi
di libert tramite la seguente formula:
gl = (R-1)(C-1) = (9-1)*(3-1) = 16

Dove:
R = numero di righe
C = numero di colonne

Il valore critico individuato con lapposita tavola 39,29 per = 0,001 e, poich 159,65 > 39,29, possiamo
rifiutare lipotesi nulla con una probabilit molto piccola di commettere un errore di primo tipo e
concludere che la relazione osservata nel campione statisticamente significativa.
Analisi statistica relativa ai dati di laurea e occupazione dellUniversit degli studi di Bergamo

14
Universit degli studi di Bergamo

Misura di associazione: Odds.
I test di significativit statistica rappresentano solo il primo passo nellanalisi. Se, come nel nostro caso, i
risultati di un dato test suggeriscono che molto probabilmente nella popolazione esiste una relazione fra
variabili, il passo successivo consiste nel determinare qual la forza di tale relazione tramite una misura di
associazione.
Siccome le variabili da noi prese in esame non sono ordinate bene utilizzare la misura di associazione
odds. In via generale lodds definisce il rapporto tra la frequenza di appartenenza ad una categoria e la
frequenza di non appartenenza a quella categoria.
Lodds si differenzia dalla probabilit che invece definisce il rapporto tra la frequenza di appartenenza ad
una categoria e la frequenza di appartenenza a tutte le categorie. Poich lodds equivale al rapporto fra la
probabilit che un dato evento si verifichi e la probabilit che quellevento non si verifichi, esso pu
assumere valori che variano fra zero e infinito positivo (a differenza della probabilit che assume valori tra 0
e 1). Quando la probabilit che un dato evento si verifichi supera la probabilit che non si verifichi, lodds
assume valori superiori a 1.
Odds e probabilit sono cos collegati:

Nel nostro caso:
Odds semplice = 35 / (672 35) = 0,05
Il concetto di odds (semplice) pu essere esteso al concetto di odds condizionato. Lodds condizionato
corrisponde al rapporto tra la probabilit di appartenere alla categoria di una determinata variabile e la
probabilit di appartenere alle rimanenti categorie della stessa variabile.
A partire dalla nostra tavola si possono calcolare molti odds condizionati, ad esempio lodds condizionato
che confronta la propensione a continuare a studiare a seguito di una laurea in alcuni ambiti disciplinari:
odds condizionato (architettura): 4/(117-4) = 0,035
odds condizionato (giuridico): 41/(117-41) = 0,54
odds condizionato (politico sociale): 11/(117-11) = 0,11
odds condizionato (psicologico): 27/(117-27) = 0,3
Quando le variabili che formano una tavola di contingenza bivariata sono correlate, i loro odds condizionati
non sono uguali. Per confrontare direttamente due odds condizionati si pu fare ricorso a una singola
statistica descrittiva chiamata odds-ratio. Esso il rapporto fra due odds condizionati. Se due variabili non
sono collegate i loro odds condizionati sono identici, quindi Odds-ratio= 1. Odds-ratio maggiori di 1 indicano
i
i
i
p
p
odds

=
1
Analisi statistica relativa ai dati di laurea e occupazione dellUniversit degli studi di Bergamo

15
Universit degli studi di Bergamo

lesistenza di una covariazione positiva fra le due variabili mentre odds-ratio minori di 1 indicano una
covariazione negativa o inversa.

OR
XY
= bc / ad

Ne riportiamo alcuni:
- Lodds ratio che confronta la propensione a continuare gli studi dopo una laurea nellambito giuridico e
dopo una laurea nellambito politico-sociale (allUniBg) :

0,54 / 0,11 = 4,9

- Lodds ratio che confronta la propensione a continuare gli studi dopo una laurea nellambito psicologico
e dopo una laurea nellambito dellarchitettura (allUniBg) :

0,3/0,035 = 8,57
Questi calcoli testimoniano che, allUniversit di Bergamo la tendenza a continuare gli studi dopo una
laurea specialistica in ambito giuridico quasi 5 volte superiore alla tendenza a continuare gli studi dopo
una laurea specialistica in ambito politico-sociale, e la tendenza a continuare gli studi dopo una laurea
specialistica in ambito psicologico 8 volte superiore alla tendenza a continuare gli studi dopo una laurea
specialistica nellambito dellarchitettura.












Analisi statistica relativa ai dati di laurea e occupazione dellUniversit degli studi di Bergamo

16
Universit degli studi di Bergamo

Analisi della regressione
Lanalisi della regressione una procedura statistica che ha lo scopo di esaminare se esistono relazioni fra
variabili continue fra loro interdipendenti. Per procedere nellanalisi della regressione bisogna costruire un
diagramma di dispersione, consistente in un piano cartesiano che rappresenta sullasse delle ascisse i valori
della variabile indipendente e sullasse delle ordinate i valori della variabile dipendente. Linsieme dei punti
ricavati indica in che modo le due variabili covariano.
Ci che ci chiediamo in questa sede se:
POSSIBILE AFFERMARE CHE IL NUMERO DEI LAUREATI ALLUNIVERSIT DI BERGAMO
INFLUISCE SUL REDDITO DELLA PROVINCIA DI BERGAMO?
In questo modo sono state delineate due variabili continue la cui relazione verr testata attraverso lanalisi
della regressione.
Di seguito sono riportati i dati relativi alle due variabili prese in esame, analizzate nel loro andamento nel
quadriennio che va dal 2006 al 2009:
TOT LAUREATI REDDITO IRPEF BG
2006 2.139 13.144.159.099
2007 2.280 14.345.372.863
2008 2.308 14.609.231.159
2009 2.396 14.331.180.387

Il passo successivo quello di creare il diagramma di dispersione:



13,000,000,000
13,200,000,000
13,400,000,000
13,600,000,000
13,800,000,000
14,000,000,000
14,200,000,000
14,400,000,000
14,600,000,000
14,800,000,000
2,100 2,150 2,200 2,250 2,300 2,350 2,400 2,450
R
e
d
d
i
t
o

I
R
P
E
F

p
r
o
v
i
n
c
i
a

d
i

B
G

(
d
a
l

2
0
0
6

a
l

2
0
0
9
)

Totale laureati all'Unibg (dal 2006 al 2009)
Analisi statistica relativa ai dati di laurea e occupazione dellUniversit degli studi di Bergamo

17
Universit degli studi di Bergamo

Le relazioni fra coppie di variabili continue sono postulate lineari.
In termini algebrici, lequazione lineare :
Y = a + bX
dove:
a corrisponde al punto in cui la retta incrocia lasse cartesiano verticale (Y)
b esprime linclinazione della retta

Il prossimo passo sar quello di impostare lequazione predittiva, cio una retta che approssima la
covariazione riportando i valori reali su una retta. La formula della retta predittiva :


I dati empirici non seguono mai relazioni lineari perfette, dunque:


dove e
i
indica la discrepanza fra i valori osservati di y e quelli attesi dallequazione predittiva.
La somma degli errori sempre uguale a zero perch i valori positivi e negativi si controbilanciano
esattamente. Gli stimatori dei due coefficienti della regressione (a; b
XY
) devono soddisfare il criterio dei
minimi quadrati. Dato che la somma degli errori e
i
sempre uguale a zero, elevandoli al quadrato vengono
eliminati i segni negativi, in modo che la somma degli errori risulti sempre maggiore di zero; sommando poi
le differenza fra ogni valore osservato e il corrispondente valore predetto ci che si deve ottenere il
minimo valore possibile (criterio dei minimi quadrati comuni di a e b
YX
):



Lo stimatore del coefficiente di regressione bivariata (b
YX
) cos calcolato:



Mantenendo lo stesso numeratore e mettendo al denominatore N-1 si ottiene la formula della covarianza:



i YX i
X b a Y + =

i i YX i
e X b a Y + + =
( )

= =
=
N
i
i
N
i
i i
e Y Y
1
2
2
1

( )( )
( )


=
2
X X
X X Y Y
b
i
i i
YX
( )( )
1

=

N
X X Y Y
s
i i
YX
Analisi statistica relativa ai dati di laurea e occupazione dellUniversit degli studi di Bergamo

18
Universit degli studi di Bergamo

Se, invece, si divide il denominatore della formula di b
YX
per N-1, si ottiene la formula della varianza
campionaria:


Siccome le due formule hanno i medesimi denominatori, un altro modo per calcolare byx pu essere
espresso dalla formula:


Tuttavia per facilitare il calcolo esiste la formula computazionale di b:



Lo stimatore dellintercetta a, invece dato semplicemente dalla formula:


Applicando quanto detto al nostro tema di indagine possiamo verificare se esiste una relazione fra le due
variabili in gioco.
LAUREATI (X) REDDITO BG (Y) Y XY X
2006 2.139 13.144.159.099 172.768.918.419.824.000.000 28.115.356.312.761 4.575.321
2007 2.280 14.345.372.863 205.789.722.578.497.000.000 32.707.450.127.640 5.198.400
2008 2.308 14.609.231.159 213.429.635.057.096.000.000 33.718.105.514.972 5.326.864
2009 2.396 14.331.180.387 205.382.731.284.733.000.000 34.337.508.207.252 5.740.816
TOTALE
9.123 56.429.943.508 797.371.007.340.151.000.000 128.878.420.162.625 20.841.401

= 56.429.943.508 / 4 = 14.107.485.877

= 9.123 / 4 = 2.280,75
SX =
()() ()

= 1.1372,92
SY =
()() ()

= 428.792.087.044.424.000
SYX =
()() ()()

= 58.608.835.585
byx = Syx/Sx
2
= 5.153.367,44
( )
1
2
2

N
X X
s
i
X
2
X
YX
YX
s
s
b =
( )( )( )
( ) ( ) 1
1
2 2


=

N X X
N X X Y Y
s
s
i
i i
X
YX
X b Y a
YX
=
Analisi statistica relativa ai dati di laurea e occupazione dellUniversit degli studi di Bergamo

19
Universit degli studi di Bergamo

La nostra stima del parametro b
YX
quindi, ci dice che ad ogni aumento dell'1% del numero dei laureati
associato un aumento (atteso) del reddito IRPEF della provincia di BG pari a 5.153.367,44 euro.

Calcoliamo poi lintercetta:
()()
Ora abbiamo tutti i dati per scrivere lequazione di regressione bivariata completa:

+ 5.153.368,947 * X
i



Il prossimo passo consiste nel calcolare la forza della covariazione fra le due variabili. Per fare ci bisogna
misurare il grado di vicinanza fra i valori effettivi e i valori stimati, in quanto se tutte le osservazioni
ricadessero sulla linea predittiva il valore dellerrore sarebbe uguale a zero e sarebbe irrealistico.
Come gi detto il valore della variazione di y dovuto sia dalla variabile indipendente x, che dallerrore di
predizione; elevando questi valori al quadrato possiamo asserire che:
SQTOTALE = SQERRORE + SQREGRESSIONE =
2
1
2
1 1
2
)

( )

( ) (

= = =
+ =
N
i
N
i
N
i
Y i Y i Y Yi Y Yi
Dove:
SQREGRESSIONE indica la somma dei quadrati della regressione, SQERRORE indica la somma dei quadrati
dellerrore e la loro somma la somma dei quadrati totali (SQTOTALI), che corrisponde al numeratore della
varianza.
Di seguito riportata la tabella con i valori di

, e dellerrore relativo ad ogni valore (e


i
) ricavati
utilizzando le apposite formule.
13,000,000,000
13,200,000,000
13,400,000,000
13,600,000,000
13,800,000,000
14,000,000,000
14,200,000,000
14,400,000,000
14,600,000,000
14,800,000,000
2,100 2,150 2,200 2,250 2,300 2,350 2,400 2,450
R
e
d
d
i
t
o

I
R
P
E
F

p
r
o
v

d
i

B
G

(
2
0
0
6
-
2
0
0
9
)

Totale laureati all'Unibg (2006-2009)
X b Y a
YX
=
i YX i
X b a Y + =

Analisi statistica relativa ai dati di laurea e occupazione dellUniversit degli studi di Bergamo

20
Universit degli studi di Bergamo

X a b

e
i
Y
2006 2.139 2.353.943.088,22 5.153.368,95 13.376.999.272 -232.840.173 13.144.159.099
2007 2.280 2.353.943.088,22 5.153.368,95 14.103.624.294 241.748.569 14.345.372.863
2008 2.308 2.353.943.088,22 5.153.368,95 14.247.918.625 361.312.534 14.609.231.159
2009 2.396 2.353.943.088,22 5.153.368,95 14.701.415.092 -370.234.705 14.331.180.387
TOTALE
9.123 2.353.943.088,22 5.153.368,95 49.368.128.019 7.061.815.489 56.429.943.508
Nb.


Traducendo quanto detto precedentemente in termini matematici, possiamo calcolare i rispettivi valori:
SQ REGRESSIONE = 1.243.312.884.266.186.348.164
SQ ERRORE = 49.869.238.000.680.309.121
SQ TOTALE = 1.293.182.122.266.866.657.285
Ora siamo in grado di calcolare il coefficiente di determinazione R
yx
che indica la proporzione della
variazione totale di Y che determinata dalla sua relazione lineare con X.
R-quadrato equivale a uno meno il quoziente del rapporto fra la somma dei quadrati dellerrore e la somma
dei quadrati totale.


Il valore di R2yx pu assumere valori compresi tra 1 e 0, dove 1 si verificherebbe nel caso di una predizione
perfetta, mentre 0 nel caso in cui tutta la variazione osservata sia dovuta allerrore.

0,96
Ci significa che il 96% della variazione del reddito della provincia di Bergamo pu essere spiegata in senso
statistico dal numero dei laureati totali allUniversit di Bergamo.

Ora possiamo mostrare la direzione della relazione fra le nostre due variabili continue tramite la radice
quadrata di Ryx, chiamata coefficiente di correlazione di Pearson. In formula:

Il coefficiente di correlazione di Pearson, non essendo elevato al quadrato pu assumere valori sia positivi
che negativi, perci utile per verificare la direzione della covariazione. Esso pu assumere valori che
TOTALE
E REGRESSION
YX
SQ
SQ
R =
2
( )
( )

=
=

=
N
i
i
N
i
i
YX
Y Y
Y Y
R
1
2
1
2
2

X Y
XY
YX YX
s s
s
R r = =
2
Analisi statistica relativa ai dati di laurea e occupazione dellUniversit degli studi di Bergamo

21
Universit degli studi di Bergamo

variano fra -1, corrispondente a una relazione inversa perfetta, e +1, corrispondente a una relazione diretta
perfetta; mentre se uguale a zero le due variabili sono indipendenti fra loro.

= + 0,98
Quindi fra numero di laureati a Bergamo e reddito della provincia esiste una relazione diretta pari a + 0.98.

Ci accingiamo ora a compiere un test di significativit del coefficiente di determinazione.
Il test di significativit statistica per

fa ricorso alla distribuzione F, gi utilizzata nel modello ANOVA.


Nell analisi della regressione, la somma dei quadrati totale ha N - 1 gradi di liberta mentre la somma dei
totali della regressione, essendo stimata a partire da b
YX
, possiede solo 1 grado di libert.
poich
gl totale = gl regressione + gl errore
N 1 = 1 + gl errore
gl errore = N - 2
Il passo successivo consiste nel calcolare i quadrati medi associati a SQREGRESSIONE e a SERRORE.


QM REGRESSIONE = 1.243.312.884.266.186.348.164


QM ERRORE = 24.934.619.000.340.154.560,5

A questo punto cerchiamo il valore del rapporto tramite:


F
1,2 =
49,86

Se poniamo = 0,01, la tavola di Fisher ci dice che il valore critico di F, con 1 e 2 gradi di libert, 98,49.
Poich F < 98,49, non possiamo convalidare il test di significativit (non possiamo rifiutare lipotesi nulla e
non possiamo affermare che nella popolazione il coefficiente di determinazione maggiore di zero).

( )( )
1 1
2
TOTALE YX E REGRESSION
E REGRESSION
SQ R SQ
QM = =
( ) ( ) ( )
2 2

=
N
SQ SQ
N
SQ
QM
E REGRESSION TOTALE ERRORE
ERRORE
ERRORE
E REGRESSION
N
QM
QM
F =
2 , 1
Analisi statistica relativa ai dati di laurea e occupazione dellUniversit degli studi di Bergamo

22
Universit degli studi di Bergamo

CONCLUSIONI
Per concludere possibile ricapitolare le tre domande poste inizialmente per sondare il fenomeno laurea e
occupazione allUniversit degli studi di Bergamo ed enunciare i risultati ottenuti grazie all'applicazione dei
tre modelli di analisi statistica bivariata.
Analisi della varianza (ANOVA): dai calcoli emerso che il 75% della variazione osservata nei tassi dei-
laureati allUniversit di Bergamo, che a distanza di 12 mesi dalla laurea risultano occupati, spiegato dal
tipo di corso di laurea intrapreso. Questo significa che, a Bergamo, il fatto di conseguire la laurea in un
gruppo corso piuttosto che in un altro influenza in modo significativo dal punto di vista statistico la
probabilit di trovare un'occupazione in seguito alla laurea.
Si evince infatti gi dalla tabella principale che il tasso laureati-occupati molto alto per la facolt di
ingegneria, mentre risulta essere piuttosto basso nei casi della facolt di scienze umanistiche e
giurisprudenza.

Analisi dei dati categoriali: In generale risultato che, allUniversit di Bergamo, esiste una relazione
significativa tra il prendere la laurea specialistica in un dato ambito disciplinare e il destino dello studente a
dodici mesi dalla laurea: lavora, cerca ancora lavoro, continua gli studi.
In particolare, tramite la misura odds, abbiamo rilevato che esistono delle differenze significative nella
tendenza a continuare gli studi da parte di laureati in diversi ambiti disciplinari.
Infatti, allUniversit di Bergamo, la tendenza a continuare gli studi dopo una laurea specialistica in ambito
giuridico quasi 5 volte superiore alla tendenza a continuare gli studi dopo una laurea specialistica in
ambito politico-sociale, e la tendenza a continuare gli studi dopo una laurea specialistica in ambito
psicologico 8 volte superiore alla tendenza a continuare gli studi dopo una laurea specialistica nellambito
dellarchitettura.

Analisi della regressione: La nostra indagine, che ha preso in considerazione il quadriennio che va dal
2006 al 2009, ha rilevato che il 96% della variazione del reddito della provincia di Bergamo pu essere
spiegata in senso statistico dal numero dei laureati totali allUniversit di Bergamo. Vediamo infatti gi dalla
tabella che, nel quadriennio preso in considerazione, il numero di laureati sempre crescente mentre, solo
nel 2009 il reddito risulta pi basso dellanno precedente.
Si tratta di unanalisi riduttiva in quanto, per una maggiore predizione, avremmo dovuto considerare un
lasso di tempo pi ampio, ma in questa sede ci siamo permesse di portare un calcolo esemplificativo con lo
scopo di applicare al meglio il modello statistico in questione.