Statistica

STATISTICA
La statistica connette la complessa realtà con i lettori, fornendo informazioni di qualità con
esaustiva lettura dei fenomeni studiati; essa quindi è una disciplina di sintesi e analisi che ha come
obiettivo la rappresentazione quantitativa della realtà utilizzando criteri ben definiti di definizione
dell’oggetto di studio (fenomeno) e della sua misurazione affinché non sia fatta una
rappresentazione alterata. (misura fenomeni economici, sociali e demografici)
Per ottenere valutazioni quantitative è necessario fissare dei criteri logico-concettuali in base ai
quali individuare l’oggetto (fenomeno) d’analisi e poi procedere alla sua misurazione; possiamo
affermare quindi che l’esigenza della statistica è di fornire un’informazione quantitativa della realtà
e il numero è la prima condizione, che per diventare statistica ha bisogno di ulteriori condizioni.
(Scontro tra giuristi, che fanno continui riferimenti alle leggi e gli statistici, che utilizzano la sintesi)
Un passaggio fondamentale è quello tra la realtà fattuale che esiste per l’operare delle leggi e la
realtà statistica che è quella misurata; esso richiede l’applicazione di regole convenzionali che
possono produrre una divergenza tra il misurato e il percepito. Statisticare implica una
approssimazione della realtà che diventa virtuale ma veritiera, quindi la definizione statistica non è
sempre uguale a quella amministrativa-istituzionale almeno che non si forzi la realtà, essa infatti
può variare nel tempo e adeguarsi a nuove leggi o criteri e inoltre alcune definizioni possono essere
create da zero.
Il fenomeno può essere 1.il fenomeno semplice, 2.fenomeno distinto, 3. fenomeno complesso.
I fenomeni semplici sono quelli facilmente definibili e possono essere distinti, come nel caso dei -
fenomeni senza definizione a priori (ES. contare i cani o le auto), e i fenomeni con definizioni
specifiche statistiche in cui la maggior difficoltà è la coerenza con la quale la definizione statistica
viene applicata ai criteri logico–formali; mentre i fenomeni complessi sono quelli non distinti e
quindi quei fenomeni sfocati e senza una corrispondente definizione statistica, essi sono
multidimensionali e ci si delinea una situazione in cui il ricercatore ha ampi spazi di discrezionalità.
*I fenomeni multidimensionali sono caratterizzati da: -una definizione statistica senza conoscere
quella istituzionale, -l’archivio per misurare non è adeguata, -la definizione statistica non può essere
data; nel caso in cui una dimensione è ritenuta più importante delle altre il risultato può cambiare.
Il primo caso a cui bisogna far attenzione è se esiste o meno una “ definizione statistica priori
exante stabilita”; nel caso in cui esiste bisogna studiarla per capire quanto quella realtà statistica
effettivamente si avvicina alla realtà istituzionale ( passaggio importante dal punto di vista della
concezione perché la definizione potrebbe essere la stessa in tutti i paesi, ma le realtà istituzionali
funzionano in maniera diversa, questo significa che c’è una realtà e c’è un fenomeno che non è
sempre lo stesso)..(esempio del prof: “è come un abito che è sempre taglia 50 per tutti, però a me sta
bene e magari ad un’altra persona no, questo significa che c’è una realtà in cui il fenomeno non è
sempre lo stesso).
Possiamo ritrovare un “errore di attribuzione” nel momento in cui vi è la generalizzazione di un
comportamento non oggettivamente riscontrabile che induce conclusioni non veritiere (ES. quando
si comparano il tasso di disoccupazione dell’Italia con quello dell’Inghilterra, e in passato è
accaduto in Italia che il tasso di disoccupazione segnato fosse più basso rispetto agli altri paesi e
questo faceva sembrare che ci fossero meno disoccupati, ma in realtà questo fenomeno in Italia era
maggiore in quanto la maggior parte delle persone non cercano attivamente lavoro e non vengono
visti come disoccupati) ; il problema non è semplicemente la definizione statistica, ma anche la
realtà istituzionale (esempi dell’abito taglia 50 e della disoccupazione).
La definizione exante ci protegge dagli errori statistici, di attribuzione, in quanto la statistica vuole
dare omogeneità alla realtà; in seguito va detto che è comunque importante saper aggiungere la
realtà statistica a quella istituzionale, fase che porta al passo successivo che attiene “all’aspetto
interpretativo” e non di comprensione.
QUINDI la prima fase (ovvero la conoscenza dei metadati) permette di comprendere la realtà
statistica, mentre il secondo passaggio spiega che per poterla interpretare adeguatamente si deve
tener presente che la realtà una volta che è stata statisticata (cioè misurata) può avere un grado di
capacità di rappresentare le singole realtà istituzionali molto diverse.
-domanda di uno studente: questa probabilità di errore di attribuzione sorge sia quando c’è il
fenomeno distinto con una definizione statistica, sia quando c’è il fenomeno distinto senza
definizione statistica sia quando il fenomeno non è distinto e non c’è una definizione statistica?
-risposta del prof: qui gli errori di attribuzione sorgono in tutti e tre i casi; nel primo caso perché gli
errori di attribuzione si hanno in quanto esiste una definizione statistica ma non la si conosce
adeguatamente e si applica in maniera sbagliata alla realtà istituzionale; nel secondo caso non c’è
un vero e proprio errore di attribuzione però si può arrivare ad avere una misura del fenomeno
sbagliata perché l’archivio che si potrebbe utilizzare per misurare (questo capita negli archivi
amministrativi) non è adeguato; poi c’è il terzo aspetto che è il fenomeno complesso dove la
definizione statistica exante non può essere data; qui si tratta di fenomeni multidimensionali e
quindi la definizione del fenomeno stesso si trova nella scelta delle dimensioni che si individuano.
Molto importante è la differenza tra statistica ufficiale e statistica non ufficiale: ognuno di noi può
misurare una statistica in modo del tutto libero senza dover sottostare alle regole e in questo caso
possiamo parlare di “statistica non ufficiale” e qui la qualità del prodotto statistico dipende dalla
serietà con il quale si misura il fenomeno, invece quando parliamo di “statistica ufficiale” il
discorso dei metadati e delle definizioni è più stringente, infatti tutti quanti gli enti e le istituzioni
che ne fanno parte si devono attenere necessariamente a quelle che sono le linee guida per la
rilevazione in misura dei fenomeni statistici (nell’ambito della statistica ufficiale i numeri per
diventare statistiche devono attenersi a quelle che sono le regole che vengono imposte in termini di
fasi da rispettare che vanno dal modo in cui l’indagine statistica è progettata al modo in cui il dato
poi è prodotto e diffuso).
Metadati→ tutte le informazioni che permettono ai numeri di far comprendere il loro significato
(ES. glossari, classificazioni, definizioni…), quindi quelle ipotesi di base che indicano le fasi che
precedono il dato statistico e le possibili modifiche; di norma sono omogenei nelle statistiche
ufficiali. Essi sostanzialmente sono omogenei, anche se poi esistono dei gradi di libertà perché
inevitabilmente i fenomeni possono essere rilevati in maniera diversa, ma comunque tendono tutti a
cercare di riprodurre il più fedelmente possibile quelli che sono i contenuti che si trovano nei
manuali metodologici di riferimento; da questo punto di vista la statistica ufficiale dovrebbe essere
garanzia di omogeneità e quindi questo significa che è anche una garanzia di qualità.
L’ordinamento costituzionale definisce l’informazione statistica uno strumento per perseguire

obiettivi sociali e politici oltre a garantire una reale rappresentazione della condizione
sociale/economica del paese.
La statistica ufficiale è gestita dall’ ISTITUTO NAZIONALE DI STATISTICA (ISTAT),
riconosciuto giuridicamente nel 1926, che ha il compito di produrre e diffondere l’informazione
statistica; e sono fonti ufficiali tutti gli enti e le istituzioni che fanno parte del SISTEMA
STATISTICO NAZIONALE (SISTAN), grazie al quale l’informazione statistica diventa disponibile
a tutti per bisogni di conoscenza, ed è una rete di soggetti pubblici e privati che fornisce al paese e
agli organismi internazionali l’informazione statistica ufficiale, esso rafforza il ruolo democratico
della statistica mettendo a disposizione le informazioni statistiche utili ai bisogni di conoscenza e
assegna all’ISTAT una funzione di raccordo e coordinamento nella produzione delle statistiche per
migliorare il flusso informativo tra le istituzioni delle amministrazioni centrali e quelle locali.
Il PROGRAMMA STATISTICO NAZIONALE ha durata triennale e stabilisce le rivelazioni
statistiche di interesse pubblico; viene organizzato per circoli di qualità settoriali, dove siedono tutti
i soggetti sistan competenti per quella tematica (ES. nel mercato del lavoro siederà il ministero del
lavoro, il responsabile del servizio dell’istat...) e insieme decidono quelle che sono le linee
programmatiche che si vogliono sviluppare, quindi le indagini che si vogliono sviluppare nel
triennio successivo (più soggetti forniscono informazioni per un dato statistico finale, in base alla
collaborazione di trasmissione di dati le statistiche avranno qualità e tempestività maggiore).
La misurazione e la definizione delle statistiche variano nel tempo in base a nuovi fenomeni o
mutamenti. L’informazione statistica deve essere un bene ad alta innovazione con processi da
sistemi ufficiali che garantiscono indipendenza, integrità e credibilità.
L’informazione è imparziale, è sempre controllata la qualità, ed è sempre verificata la conformità
con le direttive internazionali/comunitarie.
Poi possiamo trovare il COMSTAT che indirizza e coordina lo sviluppo dell’informazione statistica
ufficiale, il programma è a scorrimento e questo significa che ogni anno (avendo validità triennale)
si aggiorna e si aggiunge l’anno nuovo e si toglie l’anno che ormai è passato.
Come in Italia abbiamo il Sistan ogni paese ha il proprio istituto nazionale di statistica con la
propria organizzazione, ma al livello superiore troviamo l’EUROSTAT, un organo che gestisce la
statistica ufficiale, coordina l’attività statistica ed è all’interno della commissione europea, questo
significa che è in costante contatto con gli uffici nazionali di statistica, e fondamentale è il suo
carattere di controllo statistico (statistiche economiche e non sociali), non produce indagini
statistiche ma demanda i singoli enti (ovvero gli istituti di statistica nazionale) il compito di fare le
rilevazioni con il tipo di coordinamento che ciascuno prevede al proprio interno.
Dopodiché l’eurostat si coordina nell’ambito della statistica ufficiale con due altri istituti, in cui uno
è l’UFFICIO STATISTICO DELLE NAZIONI UNITE e spesso anche con l’OXE, (le nazioni unite
hanno maggior peso dal punto di vista delle linee metodologiche, intervengono su temi rilevanti di
natura economica, danno le linee metodologiche che poi vengono perfezionate e coordinate, poi
scritte da eurostat, e di fatto applicate e rilevate dai singoli paesi mediante i propri istituti nazionali
di statistica; (questo è il passaggio che esiste ed è molto importante per capire perché accadono
certe cose).
Un altro elemento su cui riflettere è che anche all’interno del nostro sistema statistico nazionale
esiste una COMMISSIONE DI GARANZIA per l’informazione statistica (la COGIS), che ha il
compito di vigilare sulle attività del SISTAN, che è un organo esterno, indipendente, e appunto può
chiedere eventualmente delucidazioni su quella che è l’andamento o meglio il modo in cui certe
statistiche vengono prodotte per fare degli approfondimenti; quindi essa vigila sulla completezza,
sulla qualità e sull’imparzialità dell’informazione statistica e esprime un parere sul programma
statistico nazionale ed inoltre come viene (se viene) rispettata la normativa in materia di segreto
statistico (tutto ciò che viene rilevato statisticamente è soggetto alla tutela della privacy); il segreto
statistico tutela da qualunque tipo di eventuale interferenza
Oltre ai metadati, molto importanti sono anche le nomenclature statistiche che sono degli strumenti
di cui ci si serve per avere delle partizioni omogenee all’interno di un collettivo statistico, quindi
serve per classificare un fenomeno.
(ripartizioni: -sezione, -descrizione, -gruppo, -classe)
La nomenclatura ateco è la classificazione delle attività economiche ed è una delle nomenclature
omogenee a livello internazionale, coerente con le nomenclature internazionali (quella delle nazioni
unite e quella di eurostat), coerente con queste due classificazioni fino al terzo/quarto codice di
classificazione.
Quando si parla di sistema economico, di economia, se c’è bisogno di misurare bisogna capire che
l’economia è costituita da tantissime attività economiche; se ad esempio si vuole sapere il numero
di imprese che insistono sul territorio e che producono un determinato bene o servizio si deve fare
una ricerca per codice ateco; quindi studiare l’andamento dell’economia tenuto conto di quelle che
sono le diversità delle attività economiche e quindi l’andamento del codice ateco diventa rilevante.
Seconda parte:
I dati possono essere raccolti in due grandi modi nell’ambito dell’attività statistica: un modo è un
dato proveniente da indagine statistica e l’altro è un dato proveniente da fonte amministrativa;
poi le aziende possono raccogliere dati anche mediante un metodo degli esperti in cui alcune
persone vengono chiamate a fornire quelle che sono le loro previsioni e questo metodo viene molto
utilizzato in ambito aziendale, ma molto meno in ambito della statistica ufficiale;
quindi nell’ambito della statistica ufficiale e delle statistiche generali la più grande distinzione è tra
dati provenienti da indagini statistiche e dati provenienti da registri amministrativi;
a queste aggiungiamo l’utilizzo dei “big-data”, cioè l’utilizzo di quelle informazioni che vengono
involontariamente lasciate dall’individuo attraverso i social network, il gps del telefono, il
telepass...che conservano informazioni per il progresso della tecnologia.
I big data rappresentano una nuove fonte per la statistica, una nuove fonte di dati, e ciò a cui
dobbiamo fare attenzione è la qualità di questi perché non sempre i sono tali da consigliarne
l’immediato utilizzo.
La raccolta delle informazioni rappresenta una fase importante che condiziona l’intero processo di
produzione delle statistiche, infatti un’eccessiva disinvoltura nel reperimento delle informazioni può
produrre un’informazione di bassa qualità e scarsamente rappresentativa della realtà.
Occorre raccogliere le informazioni con modalità differenti e successivamente organizzarle secondo
le specifiche finalità. Per costruire l’informazione di base si possono raccogliere dati grezzi da
archivi amministrativi e si può ricorrere a esperti di settore.
Ai giorni d’oggi saper leggere la metodologia è uno strumento fondamentale per potersi muovere
adeguatamente, perché ad esempio nei siti web ci potrebbero essere le statistiche più attendibili e
quelle meno attendibili l’indagine statistica però è l’indagine classica tradizionale che può essere
racchiusa in più fasi: 1.la prima fase è quella di chiarire l’obiettivo della ricerca; 2.la seconda fase è
specificare il collettivo statistico di riferimento (per collettivo statistico si intende l’insieme delle
unità statistiche sulle quali si va a rilevare l’informazione statistica di base); 3.la terza fase è
l’individuazione della tecnica d’indagine, cioè dello strumento migliore attraverso il quale si va a
rilevare quella singola informazione statistica di base, ovvero quel carattere statistico di base; la
tecnica d’indagine è un aspetto molto importante (se ad esempio ricorro ad un questionario o ad un
intervista faccia a faccia o ad un’intervista telefonica, questi sono tutti aspetti che rientrano nella
scelta della tecnica d’indagine) e la scelta della tecnica d’indagine ha importanti effetti sulla qualità
del dato statistico finale.
(quindi si produce il dato dopo aver individuato il collettivo statistico di riferimento dove si vanno a
rilevare i vari caratteri statistici)
Ci possono essere caratteri statistici oggettivi (come ad esempio il peso, l’altezza) e
dei caratteri statistici soggettivi, qualitativi (come ad esempio il pensare se si è soddisfatti nella
propria vita…qui rilevo sempre il carattere ma è un carattere di tipo qualitativo…qui si rileva la
percezione). Se le cose vengono fatte nella maniera più adeguata possibile e più neutrale possibile si
possono avere buoni risultati anche con gli indicatori con caratteri qualitativi e con indicatori di
percezione, ma qui bisogna vedere come vengono poste le domande che è una cosa molto
importante.
Il questionario è uno strumento strutturato (è un bene dividerlo in sezioni) che può essere ad imbuto
quando le domande sono sempre più generiche, o può essere ad imbuto capovolto e quindi posso
fare delle domande specifiche, oppure può essere a botte e fare in modo che le domande nella parte
centrale siano le più rilevanti dell’obiettivo della ricerca.
Il grande dilemma in un’indagine strutturata, cioè composta da quesiti, riguarda il numero dei
quesiti che debbono essere posti, infatti bisogna far attenzione a come vengono posti; si devono
evitare nelle domande di utilizzare parole che richiamano un senso emotivo, perché la domanda
deve essere imparziale non in grado di suscitare grandi emozioni perché altrimenti si potrebbero
creare delle distorsioni specialmente se il carattere è di tipo qualitativo.
In generale è sempre bene suddividere un questionario in sezioni in modo tale che chi risponde
riesca a capire bene; la cosa importante è che il questionario abbia una propria unicità, abbia una
propria anima; mentre l’intervista è più libera, è meno strutturata, un buon questionario invece è il
giusto compromesso tra una struttura chiara e come i quesiti vengono proposti in maniera neutrale
ed infine appunto il numero dei quesiti.
Nelle indagini statistiche si ha come primo elemento anche un controllo dell’informazione statistica
di base; non è che tutte le informazioni raccolte sono di per sé utilizzate ma c’è un piano di
controllo, e alcune domande vengono messe in maniera tale da controllare la correttezza di quanto
riportato in altre domande.
Qualunque tipo di elaborazione fatta su statistiche non di buona qualità è destinata a fallire in
partenza; quindi anche il modo in cui si va a rilevare un’informazione statistica (cioè la tecnica
d’indagine) diventa importante perché si rende importante sulla qualità dell’informazione statistica
finale (questo è un punto fondamentale).
Si deve fare molta attenzione anche al modo in cui la statistica viene raccolta, tanto che essa può
essere raccolta da indagini statistiche o da archivi amministrativi, le prime prevedono che il dato
statistico sia alla fine del processo invece raccogliere informazioni da archivi amministrativi vuol
dire che si va a lavorare su dati già esistenti ma ci potrebbe essere un problema di esaustività degli
archivi, e non possono essere utilizzati immediatamente per finalità statistiche.
(un collettivo statistico di una popolazione sarebbe la realtà che viene presa in esame e che viene
misurata; la realtà istituzionale per essere misurata la si deve tradurre in un collettivo statistico, che
può identificarsi sia come intera popolazione o come campione (fare un’indagine totale sull’intera
popolazione o solo su una parte della popolazione); a seconda di una scelta o l’altra cambia il modo
in cui si vanno a rielaborare i dati e i modi in cui soprattutto si vanno ad interpretare i risultati;
quindi si ha a che fare con indagini totali censuarie oppure indagini campionarie.
-SISTAN: qualunque soggetto sistan in quanto fonte istituzionale può anche diffondere le
informazioni statistiche, questo significa che se le diffonde le ha elaborate;
normalmente quando esce una pubblicazione o un qualcosa di nuovo, vengono concordate con
l’istat.
L’aspetto della produzione, dell’elaborazione, sono diversi dall’interpretazione; prima si produce e
si comunica (già quando si comunica si può interpretare) e quando si comunica lo si dovrebbe fare
in maniera istituzionale; ad esempio i giornali fanno diversamente, perché affianco ci mettono
anche l’interpretazione del dato; l’errore che si fa a livello interpretativo, oltre all’errore tecnico
della scarsa conoscenza dei metadati, è la decontestualizzazione del dato.
Un esempio di comunicato tecnico è il comunicato stampa dell’istat, in cui il giornalista lo
interpreta come meglio crede, uscendo quindi da quello che era solo il comunicato tecnico. Per fare
in modo di aumentare la trasparenza dell’informazione statistica possiamo trovare al suo interno il
calendario che viene fatto annualmente in cui troviamo le date dei comunicati stampa in un anno
intero, nel senso che ad esempio a gennaio 2022 sai già il comunicato stampa che uscirà a dicembre
2022.
Poi ci sono anche i vari format dei comunicati stampa, ovvero i documenti che ci sono dietro, come
ad esempio le statistiche flash, le statistiche report, le statistiche focus, statistiche today, note
informative, previsioni, microsimulazioni;
La differenza tra le statistiche flash e le statistiche report è che le prime riguardano le indagini infra-
annuali e quindi i dati mensili e trimestrali, mentre le seconde riguardano i risultati di indagini
annuali; poi ci sono le statistiche focus che sono degli approfondimenti che vengono fatti.
Molto importante è anche il glossario con le note metodologiche, con il glossario vado a vedere
quali sono le unità di analisi, variabili e classificazioni utilizzate nelle rilevazioni nonché alla
terminologia tecnico-scientifica di riferimento.
Il sistema SIQUAL è un sistema informativo sulla qualità che ci consente di conoscere tutte le
attività svolte dall’istat, nonché i metadati che fanno capo a ciascuna rilevazione.
Quindi in esso sono presenti le indicazioni relative al contenuto informativo del processo, alle sue
modalità di conduzione e alla qualità intesa, sia come insieme delle attività di prevenzione,
controllo e valutazione dell’errore durante il processo che come documentazione con diverso livello
di approfondimento della qualità del prodotto e del processo.
(Una cosa importante da sottolineare non è che se è ufficiale va bene e se non è ufficiale non va
bene, perché bisogna entrare dentro alla statistica e capire i metadati.)
All’interno del SiQual possiamo ritrovare altre due pubblicazioni, oltre quelle settoriali: la prima è
quella di carattere critico e divulgativo, RAPPORTO ANNUALE DELL’ITALIA, che è consultabile
per singoli capitoli o in versione completa direttamente tramite web fornisce un quadro socio-
economico generale del paese, dedicando anche alcuni approfondimenti a fenomeni di volta in volta
considerati rilevanti; la seconda invece è l’ANNUARIO STATISTICO ITALIANO, caratterizzato
da 24 capitoli in cui vengono forniti dati e tabelle su argomenti di interesse generale, corredati da
specificazioni sulle definizioni statistiche e sulle metodologie utilizzate a livello nazionale e
internazionale. (sulla destra c’è il capitolo dei -metadati, -fonti metadati)
La differenza tra i due sta nel fatto che il secondo è più specifico su alcuni argomenti, è più
circoscritto e commenta più i dati mentre il secondo dà una versione.
(Per entrambe le opere è prevista la lettura integrale o parziale)
I dati raccolti possono essere rappresentati o in tabelle o in rappresentazioni grafiche, possiamo

ritrovare il cartogramma, che come tutte le rappresentazioni grafiche è molto utile perché deve
essere molto chiaro per studiare l’andamento di quella variabile o di quell’indicatore nei confini
amministrativi.
Poi c’è Noi Italia all’interno dell’annuario, che ci dà la possibilità di conoscere quali sono i centri
indicatori più identificativi del paese, è diviso per sei grandi macro argomenti e all’interno di questi
macro argomenti si ha la possibilità di fare confronti regionali, nazionali, europei, con possibilità di
scaricare anche i grafici; (quindi sui sei argomenti, si apre il menù a tendina e a questo punto si è in
grado di scaricare sia grafici che tabelle; qui c’è un’area download).
Quando si lavora sui dati diffusi, ovvero ad esempio di tabelle già pubblicate, si lavora sui dati che
sono stati aggregati rispetto alle unità elementari, cioè alle unità statistiche che sono state rilevate;
tutto questo significa lavorare sui micro-dati; lavorando sui micro-dati si possono incrociare le
informazioni; questi sono i micro-dati, i dati elementari, in cui si fanno tutti gli incroci che è
possibile ricavare;
qui studieremo alcune trappole, in cui una queste è chiamata “il paradosso di simpson”, il quale
descrisse molto bene come, passando dall’analisi dei micro-dati all’analisi dei dati aggregati, le
realtà possono essere sempre molto molto diverse; cioè il passaggio dal dato elementare al dato
aggregato può dare risultati non coerenti, fino ad essere contrastanti.
Mentre nell’istat abbiamo il rapporto annuale, invece il 31 maggio di ogni anno viene pubblicata la
relazione annuale della banca d’Italia;
qui c’è la sintesi, e poi c’è l’appendice statistica.
Nel rapporto annuale della banca d’Italia c’è la visione orientata alla finanza pubblica, al mercato
monetario, al mercato del lavoro, ma ci sono veramente informazioni importanti;
la banca d’Italia utilizza la stessa rilevazione ufficiale istat e siccome qui il quadro è anche
internazionale, prende i dati eurostat, perché la rilevazione statistica sulle forze lavoro è sotto
regolamento e quindi tutti i paesi la devono fare in maniera omogenea e standardizzata.
(bisogna stare attenti al concetto di reddito e al concetto di ricchezza, e questo è un report che fa la
banca d’Italia molto importante, perché a differenza della banca d’Italia, l’istat si ferma a studiare i
redditi, ma non studia l’ammontare della ricchezza che invece è un altro fatto fondamentale.)
Tecnicamente la banca d’Italia non essendo inserita nel sistan non dovrebbe essere considerata una
fonte ufficiale, però in realtà è a tutti gli effetti una fonte ufficiale, anche perché è l’unica che
detiene le informazioni di tipo finanziario; la banca d’Italia alcune fonti le prende dall’istat, mentre
altre le produce singolarmente, come ad esempio i conti finanziari; ad esempio l’istat fa i conti
economici, ma quando si tratta di attività o passività finanziarie qui i dati vengono prodotti dalla
banca d’Italia. L’istat non ha una struttura per poter fare una rilevazione di questo tipo.
Un altro sito importante è il ministero dell’economia e delle finanze e le informazioni che si trovano
qui sono informazioni sempre di carattere di finanza pubblica; ad esempio c’è il def (che è il
documento di economia e finanza che viene fatto a giugno); poi ad esempio c’è il nadef (che
sarebbe l’aggiornamento al documento di economia e finanza sul quale poi viene fatta la legge di
bilancio; poi c’è il rendiconto generale dello stato che invece è fatto dalla corte dei conti e che va
poi a rendicontare le spese dello stato.
*sapere qual è la differenza tra ortogramma ed istogramma (non confonderli).
Ortogramma (dove la lunghezza del rettangolo è pari o proporzionale alla lunghezza assoluta o
relativa degli indicatori)
L’altro elemento importante della banca d’Italia è il bollettino economico, che indica ciò che accade
trimestralmente all’economia italiana e spiega come va l’economia nazionale ed internazionale.
Prima di parlare di dati amministrativi, si deve capire che il mondo è cambiato; infatti prima le
indagini erano quasi tutte esclusivamente indagini statistiche (in cui si fissava il collettivo statistico,
si sceglieva la tecnica d’indagine e poi si ottenevano le informazioni, si controllavano e si
pubblicavano i dati…qui il dato è alla fine dell’indagine statistica).
Con il tempo nascono le tecnologie informatiche e come punto di riferimento si può prendere il “
rapporto moser” (1989), che fa concilio con la nascita del sistan (le due cose sono temporalmente e
concettualmente collegate); qui si capisce che le statistiche possono essere migliorate; con una
maggior collaborazione tra gli enti, ma il presupposto è che esistono tanti dati che noi lasciamo per
motivi istituzionali in archivi amministrativi (come ad esempio le cartelle cliniche, l’anagrafe della
popolazione, l’iscrizione all’università) che prima erano sul cartaceo e poi iniziano ad essere
informatizzati (adesso la maggior parte di questi modelli sono telematici), quindi qui
automaticamente si ha già un dato che potrebbe essere utilizzabile;
Il problema che si ha qui è che questi dati sono tanti, sono importanti, ma il vantaggio è che sono a
basso costo e che sono ormai tempestivi; però non possono essere utilizzabili immediatamente per
finalità statistiche, o comunque non sempre sono utilizzabili per finalità statistiche.
Ogni archivio amministrativo ha una propria propensione ad essere utilizzato statisticamente (cioè
ci sono archivi che effettivamente possono essere utilizzati per finalità statistiche quasi
immediatamente (come l’anagrafe nel caso della popolazione), mentre ci sono altri archivi dove
invece bisognerebbe fare molta attenzione).
i parametri che bisogna sempre tener presente sono:
1- l’esaustività dell’archivio (il problema dell’esaustività dell’archivio statistico è molto importante)
2- il secondo problema è il problema delle definizioni amministrative, che non coincidono sempre
con le definizioni statistiche.
(Questo discorso introduce il tema dei censimenti permanenti, che è il vero cambiamento collegato
a quello che scriverò adesso)
La raccolta delle informazioni è un punto centrale da quando sono aumentati i dati di fonte
amministrativa e le tecnologie per la raccolta. Per ottenere un’informazione esaustiva, è necessario
un insieme di fonti e di metodi che si incrociano per una migliore qualità del dato. Sono di
fondamentale importanza fonti amministrative con ampia copertura e metodi per incrocio di dati
appropriati (record linkage). Si ricordi che i dati fonti amministrative possono essere viziati da
errori materiali o difetti di rappresentazione. La ricognizione accerta la copertura degli archivi, la
fase di record linkage riconduce e completa le informazioni in modo crescente e frammentato. Si
usano fonti amministrative per statistiche di aziende e del mercato del lavoro, tramite i modelli
telematici è più facile aggiornare gli archivi amministrativi. La fonte amministrativa è la sorgente
del dato amministrativo, l’archivio amministrativo è organizzato secondo criteri per le informazioni
delle fonti.
Si utilizzano dati amministrativi perché prodotti a basso costo, con tempestività e senza molestie
statistiche verso le unità statistiche rilevate (può produrre distorsione), il dato ha un buon livello di
dettaglio rispetto alla missione istituzionale dell’ente. I dati amministrativi, singolarmente, sono
difficili da definire e non sempre definibili statisticamente ed hanno una definizione mutevole nel
tempo e nel paese di riferimento. Il dato di fonte amministrativa: non è informazione quantitativa
omogenea, ha differenti definizioni statistiche, nel tempo e nei paesi. Si può fare affidamento su dati
statistici perché variano gradualmente, concordate a livello internazionale (dati amministrativi
variano in base alle leggi, per volontà politica).
Il dato amministrativo è utilizzato in statistica solo dopo la transcodifica, processo più o meno
complesso in base al sistema istituzionale e alla divergenza tra definizioni. Considerando la fonte
come sorgente,
l’archivio come informazioni già riorganizzate, ogni carattere in questo caso è organizzato per una
finalità e progettualità non nota per le fonti. Ogni archivio è composto da registro (insieme di
informazioni) e repertorio (selezione specifica secondo criteri predefiniti).
Per poter utilizzare le informazioni provenienti da più archivi e andare a creare un archivio
effettivamente esaustivo, si deve trovare un modo per farle convogliare senza ridondanze, in un
archivio unificato e in questo caso si ha a che fare con un processo di “dataware-
housing”, ovvero di costruzione di archivio unificato, attraverso su 3 livelli: 1.si minimizzano i dati
raccolti (eliminando ridondanze) (archivio amministrativo), 2.si separa il livello delle sorgenti dal
datawarehouse (contenitore a se stante) (archivio di derivazione amministrativa), 3.infine i dati
riconciliati alimentano il DW (normalizzazione dell’architettura per migliorare la qualità dei dati).
Il dato convertito e normalizzato è utilizzato a livello di formato e a livello di unità di misura. Con il
matching si riconducono le informazioni a una pluralità di fonti con corrispondenza di campi
equivalenti da sorgenti diverse. (record linkage per statistica, si eliminano duplici unità). Si ottiene
un unico archivio con margine di errore ma costruito con una chiave identificativa (tale che
prescindendo dal modo in cui il singolo soggetto è stato registrato, mi assicuri la sua identificazione
nelle varie sorgenti), si passa al processo di transcodifica/standardizzazione per definizioni
statistiche, l’archivio di derivazione amministrativa diventa archivio statistico se si aggiungono
informazioni da indagini statistiche.
Normalizzazione è riferita all’archivio, standardizzazione all’informazione statistica. I dati sono
trattati tramite 3 fasi: valutazione archivio di base (portata informativa e coerenza interna),
normalizzazione con incrocio di archivi (di derivazione amministrativa) di base per un archivio
esaustivo, informazione amministrativa riportata a informazione statistica dopo standardizzazione
con ampliamento di statistiche. Considerando come statistica ufficiale solo quella realizzata da
soggetti parte del SISTAN, che rispettano definizioni, classificazioni e metodi particolari, si
dovrebbe garantire un prodotto di qualità quando: soddisfano esigenze dell’utente oppure se la
produzione garantisce un bene di qualità.
L’Eurostat definisce dei requisiti che rendono la statistica di qualità : la rilevanza (informazione
che soddisfa le esigenze conoscitive degli utenti), l’accuratezza (stima robusta rispetto alla
popolazione, tempestività(tempo intercorso tra rilevazioni e diffusione), accessibilità(reperibilità
dei dati dall’utente),confrontabilità(comparazioni nel tempo e nello spazio),
completezza(caratteristica trasversale ai singoli processi, funzionale per un quadro conoscitivo
dell’aspetto considerato), è implicitamente compresa la necessità di garantire la privacy.
Il passaggio dai censimenti tradizionali (che venivano fatti ogni 10 anni) ai censimenti permanenti
è stato fatto perché sono stati utilizzati gli archivi amministrativi che hanno dato origine
all’archivio unificato.
Nella statistica ufficiale per quanto riguarda le imprese, sono due gli archivi che sono stati creati,
che sono “ASIA” (l’archivio statistico delle imprese attive) e il “FRAME”; L’Asia nasce proprio
dall’indicazione di archivi amministrativi (come ad esempio l’archivio telefonico, l’archivio inps,
l’archivio inail, che sono tutti quegli archivi dove effettivamente si hanno informazioni sulle
imprese).
Asia dà la possibilità di conoscere le notizie strutturali sulle imprese, (e quindi il numero delle
imprese, l’attività economica e il numero di addetti nell’impresa.
L’archivio unificato è un archivio di deviazione amministrativa, poi c’è l’archivio statistico e poi ci
sono gli archivi o le sorgenti; in realtà c’è una distinzione tra archivio e fonte amministrativa, nel
senso che l’archivio stavolta è una fonte amministrativa che ha un qualche criterio di ordinamento,
sennò non sarebbe un archivio;
(vedere se questo esempio sta sul libro) Martini aveva fatto la differenza tra registro e repertorio,
perché in ambito di eurostat li chiama business registri (ovvero registri amministrativi); quindi il
registro sarebbe l’archivio amministrativo e il repertorio sarebbe l’archivio amministrativo
tematico.
L’indagine totale (o censuaria) è quell’indagine che prende in considerazione tutte le unità del
collettivo (tutta la popolazione); censimenti cioè su tutte le famiglie, su tutte le imprese; questo era
vero fino ai censimenti del passato; quando invece sono arrivati i censimenti permanenti, qui il
termine censimento rimane, ma sono indagini campionarie perché la molteplicità delle informazioni
vengono già da archivi amministrativi, e quindi qui si vanno ad integrare quelle informazioni con
indagini campionarie e quindi poi si arriva al censimento, ma non è più un indagine totale, ed ecco
perché dice campionarie.
(frase ripresa dal sito dell’istat) L’Istat ha avviato la stagione dei censimenti permanenti che vede la
realizzazione di rilevazioni campionarie e continue, a cadenza annuale e triennale.
La strategia dei censimenti permanenti, coerentemente con le politiche di sviluppo europee e con il
programma di modernizzazione dell’Istat, è estesa a tutte le aree tematiche: popolazione e
abitazioni, imprese, istituzioni non profit e istituzioni pubbliche e agricoltura, per l’ultima volta
protagonista di un censimento generale, a partire dal 7 gennaio 2021.
A differenza dei censimenti del passato, i censimenti permanenti coinvolgono di volta in volta solo
campioni rappresentativi di imprese e istituzioni. Tuttavia, la restituzione al Paese dei dati ottenuti è
di tipo censuario, quindi riferibile all’intero campo d’osservazione.
Grazie all’integrazione di fonti amministrative con rilevazioni campionarie, infatti, è possibile
garantire l’esaustività, l’aumento della quantità e qualità dell’offerta informativa, il contenimento
del fastidio statistico su cittadini e operatori economici e la riduzione dei costi complessivi.
Con il 7° Censimento generale dell’Agricoltura, l’ultimo a cadenza decennale per il settore
agricoltura, si chiude definitivamente la lunga storia dei censimenti generali dell’Istat che condurrà
in futuro solo censimenti continui e campionari. (fine frase ripresa dal sito dell’istat)
Il censimento dell’agricoltura è l’unico a non essere ancora quello permanente; quindi l’ultimo
censimento che è partito l’altro anno è ancora tradizionale e i risultati stanno avvenendo in questo
momento; invece gli altri due censimenti (popolazione e abitazioni /e imprese), sono ormai
censimenti permanenti.
Alla fine la numerosità campionaria viene determinata in base all’errore che si è disposti a tollerare
(un errore che è probabilistico); se il campione è probabilistico, più aumenta la numerosità
campionaria e minore è a parità di condizione l’errore che si può effettuare.
In Italia si utilizzano 3 censimenti : della popolazione e delle abitazioni, dell’industria e dei servizi,
dell’agricoltura. Forniscono informazioni a livello territoriale con dettaglio sub-comunale ma hanno
complessa organizzazione e alti costi, molte delle informazioni fornite possono essere definite
anche da fonti amministrative, l’impianto censuario è stato rivisto per ridurre costi e produrre dati
con alto dettaglio territoriale con intervalli temporali più stretti. Si è iniziato ad utilizzare il
censimento per completare dati già definiti da archivi amministrativi, le informazioni censuarie
sono diventate una base di confronto per la realizzazione e l’armonizzazione dei dati con indagini
campionarie sia una base per archivi sui quali fare indagini campionarie.
Il censimento per popolazione e abitazione ha come obiettivo di indagine le strutture delle
famiglie, le caratteristiche anagrafiche e socio-economiche, con rilevazione di tempi e modi di
spostamenti quotidiani, l’unità di rilevazione sono le famiglie.
Il censimento generale di industria e servizi fornisce informazioni su dimensioni e
caratteristiche del sistema economico nazionale, le unità di rilevazione sono: le imprese,
le unità locali e le istituzioni.
Il censimento per l’agricoltura ha subito grandi variazioni per aumentare la tempestività e la novità
di informazioni, le unità di rilevazione sono le aziende agricole, forestali e zootecniche.
(( I buyes dell’algoritmo: sono coloro che utilizzano i big data, convinti che l’algoritmo sia
appunto quel meccanismo imparziale e neutrale che addirittura può sostituire il giudizio umano;
questo è noto come “machine learning”, che poi è deep machine learning, che è un algoritmo che
tende all’auto-apprendimento, e quindi oggi lo applichiamo sotto il nome di intelligenza artificiale.
Qui il problema è capire come, dal punto di vista della società, l’uomo riesce ad interagire con i
meccanismo dell’intelligenza artificiale e con i meccanismi di machine learning (vale a dire di
algoritmi che riguardano sempre più grandi dati, che però non hanno in sé quella che è la prima
caratteristica, che è quella della qualità); paradossalmente dei big-data, il concetto di qualità viene
sostituito dal concetto di numerosità, in cui ho talmente tante informazioni e praticamente si tratta
di trovare quell’algoritmo che riesce ad andare oltre questi dati, e dare loro una struttura,
un’interpretazione, ed è appunto l’algoritmo che dà questa interpretazione;
dopodiché l’algoritmo del deep-learning, è anche un algoritmo di tipo intelligente; quindi questo
significa che si migliora, perché arrivano altre informazioni, vede la classificazione che ha fatto, e
se vede che ci sono degli errori, li riconosce, cerca di guardare il miglioramento e automaticamente
si migliora; infatti qui si riescono ad interpretare migliaia di dati. ))
Nell’archivio fiscale il problema maggiore è legato alla veridicità perché le informazioni sono reali
e producono effetti economici ma non sempre corrispondono al vero, le informazioni fornite sono
vere ma non veritiere e producono scelte di policy con risultati diversi dal pianificato.
La statistica definisce i collettivi statistici su cui esercitare le misurazioni che devono risultare
veritiere, rappresentanti la realtà. L’analisi esplorativa dei dati descrive il collettivo statistico
esaminato ottenendo relazioni statistiche stabili, non generalizzate ma circoscritte a unità e contesti
di riferimento.
L’analisi inferenziale risponde a domande specifiche senza avere dei dati, estende le
conclusioni a grandi gruppi tramite modelli comportamentali probabilistici, i dati sono incerti
e i campioni possono essere soggetti a errori.
L’informazione amministrativa può coprire il totale delle unità elementari oppure può
riguardare solo dei campioni in alcuni casi auto selezionati in altri casi probabilistici.
Dalle statistiche si ottengono informazioni quantitative utili per decisioni pubbliche e private ma
l’interpretazione dei fenomeni può distorcere la realtà, è necessaria correttezza nella produzione
affinché ne sia influenzato l’output e la diffusione delle informazioni. Si ha informazione
qualitativa se identificabile tramite attributi, si ha informazione quantitativa se rappresentabile
tramite numeri, riproducibile con matrice di dati da unità di misura dell’unità statistica. Si
riportano i record (unità statistiche) sulle righe e i campi con le variabili statistiche sulle colonne.
La matrice di dati a 3 vie inserisce le occasioni ovvero il tempo, i luoghi ecc. Come successione
temporale di q matrici dei dati xt con dati longitudinali misurati nel tempo. Il database deve
essere organizzato in base all’obiettivo conoscitivo valutando le informazioni statistiche
disponibili. Le variabili da considerare nel database sono scelte con criterio di parsimonia
affinché siano utilizzate variabili non correlate per la massima sintesi.
Ogni indagine produce un output finale ovvero una distribuzione statistica, con la lista di
individui misurati in base ad una variabile. Si assegnano numeri o parole a proprietà di
oggetti/eventi. Il carattere (caratteristica dell’unità statistica) quantitativo (variabile numerica,
esprime una quantità misurata), il carattere qualitativo (mutabile, è espresso con attributi e
fornisce risposte su categorie di dati qualitativi/non numerici).
Fenomeno indagato  unità elementare  caratteri quantitativi/qualitativi (Xi, Yi)  unità
statistica (i) popolazione collettivo
I caratteri quantitativi, e cioè pesano la quantità, sono discreti(valori numerici da conteggio)

o continui(valori di misurazione, più o meno accurata in base agli strumenti utilizzati), su
scala di intervalli (es. peso, altezza…), su scala di rapporti (Es. n. figli, età di anni..), o
trasferibili (es. reddito, n. di dipendenti…) oppure non trasferibili (es. peso, altezza…).
I caratteri qualitativi, esprimono qualità o soddisfazioni, e sono ordinali(categorie di ordine
implicito) o nominali(categorie di valori da risposte si/no-vero/falso). I caratteri quantitativi sono
misurabili/conteggiabili, i caratteri qualitativi possono essere conteggiati ma non misurati.
La statistica descrittiva fornisce gli strumenti per sintetizzare ed esplicitare in forma corretta il
modo in cui il fenomeno si è manifestato nel collettivo osservato e ciò porta al campionamento
non ragionato mentre mediante l’inferenza è possibile misurare l’attendibilità dei dati.
Le distribuzioni statistiche descrivono in che modo uno o più caratteri si manifestano in un dato
collettivo e esse possono essere a un carattere “distr. Semplice”, a due caratteri “distr. Doppia”, a
più di due caratteri “distr. Multipla”.
Nella distribuzione unitaria i diversi dati compaiono solo una volta e quindi possiamo parlare di
frequenza relativa; mentre nel caso contrario ritroviamo le frequenze assolute e cioè il numero di
volte in cui degli stessi caratteri sono distribuiti e compaiono nella classe, ciò ci porta alla
distribuzione di frequenza in cui degli stessi dati compaiono più di una volta all’interno dei
caratteri.
Molto importante è il tasso, che sta ad indicare un rapporto tra un numeratore, formato dal numero
di eventi registrati in una popolazione statistica, e un denominatore, visto come numero totale di
elementi di quella stessa popolazione. Esso è utile per confrontare campioni di popolazione
quantitativamente differenti.
(Il passaggio da valori assoluti agli indicatori permette di rendere omogenea l’informazione
statistica e quindi la rende un’informazione standardizzata, e cioè un’informazione che per
definizione è comparabile e cioè non risente di quelle che possono essere le unità di misura o gli
ordini di grandezza dei fenomeni, perché appunto viene ricondotta entro un perimetro che è
facilmente valutabile e in ordine alla comparazione di quel fenomeno fra unità).
La distribuzione di frequenza per dati qualitativi è una tabella sintetica su cui si rappresentano le
modalità/categorie con le frequenze per osservarne le differenze, si possono utilizzare anche tabelle
di contingenza (tabella a doppia entrata) con frequenze congiunte nelle celle (intersezione riga-
colonna di modalità delle 2 variabili). Quindi la tabella è a doppia entrata se prevede 2 variabili (xi
e yi) e ogni cella(nij) è una frequenza assoluta congiunta (esprime il numero di volte in cui si
verificano entrambe le variabili).
Importante è anche la rappresentazione grafica che di per sé non toglie o non aggiunge nulla ai
contenuti della tabella, perché viene ricavata proprio da essa.
Quando si va ad utilizzare un grafico si ha come obiettivo quello di rendere più evidente la lettura di
una tabella; questo lo si può fare sia considerando la natura dei caratteri, e sia utilizzando un criterio
visuale.
Diciamo che ci sono una serie di grafici come i grafici a nastri e i grafici a barre che si possono
racchiudere in un unico grafico che si chiama ortogramma;
gli ortogrammi che sono rettangoli distanziati, possono essere utilizzati in presenza di caratteri
qualitativi ordinabili o non ordinabili; questa famiglia di grafici assomiglia ad un’altra famiglia di
grafici che però si applicano quando i caratteri sono quantitativi, e quest’altra famiglia di grafici
viene chiamata istogramma.
L’istogramma si differenzia da un’ortogramma perché i grafici non sono distanziati o meglio i
rettangoli non sono distanziati e di solito si applica quando il carattere oltre ad essere quantitativo, è
anche suddiviso in classi; qui ne consegue che l’ampiezza della classe è rappresentata dalla base del
rettangolo; l’altezza è rappresentata, ed è uguale o proporzionale alle frequenze assolute della
classe. (esempio sul quaderno “istogramma”);
qui però il problema si pone quando le classi sono di diversa ampiezza, perché in questo caso vado
a riproporre concettualmente il ragionamento che ho fatto nella costruzione degli indicatori.
Poi c’è anche -la frequenza percentuale (ovvero la torta), che non può essere applicata con dati
assoluti ma in presenza di valori percentuali;
- il ciclico, che si ha quando un carattere si ripete negli anni;
- il cartogramma, in cui la legenda aiuta ad interpretarlo;
- le serie storiche, cioè le linee di tendenza, che si hanno quando un fenomeno ordinato secondo la
modalità del tempo;
(EXCEL…inserisci…grafici)

Statistica

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Statistica

Caricato da

Copyright:

Formati disponibili

STATISTICA

L’ordinamento costituzionale definisce l’informazione statistica uno strumento per perseguire

I dati raccolti possono essere rappresentati o in tabelle o in rappresentazioni grafiche, possiamo

I caratteri quantitativi, e cioè pesano la quantità, sono discreti(valori numerici da conteggio)

Potrebbero piacerti anche