Sei sulla pagina 1di 43

Statistica, informazione e decisioni

Statistica: strumento di comunicazione che informa e tiene in costante aggiornamento il cittadino i numeri trasmettono una informazione obiettiva e trasparente la conoscenza statistica rende pi efficace il processo decisionale a vari livelli, fino alle microdecisioni (esempio: litinerario di uno spostamento in auto deciso in base ai flussi di traffico)

Definizione di conoscenza statistica


La conoscenza statistica assimilabile a un qualsiasi processo di conoscenza empirica che passa attraverso le tre fasi del vedere, guardare e osservare
vedere: percezione della realt come attivit istintiva e intuitiva guardare: fissare lattenzione sui particolari a scopo descrittivo e di classificazione osservare: i particolari sono selezionati per conoscere e decidere

Aree di applicazione delle statistica in epoca storica


Ben prima della costituzione della statistica in disciplina autonoma la rilevazione e la tabulazione dei dati obbedivano allesigenza di regolare e comprendere i problemi della vita sociale
comportamenti economici processi sociali condizioni ambientali

Esempi di statistica ante litteram


I segni rinvenuti nei nuraghi in Sardegna indicano quasi certamente la conta dei capi di bestiame o lammontare dei raccolti I censimenti della popolazione sono pratica ricorrente nellantichit: ne sono esempi i censimenti fatti eseguire da Mos e Davide di cui d notizia la Bibbia, il censimento del re Yao in Cina nel 2238 a.C. di cui riferisce Confucio, i censimenti dellantica Roma. In epoca pi recente, documenti statistici pi articolati sono stati prodotti dalle repubbliche marinare Dopo il Concilio di Trento (1545 - 1563) sono istituiti i registri parrocchiali per il censimento obbligatorio dei matrimoni, delle nascite e dei morti.

Ricerca su basi statistiche


Enti preposti alla raccolta di informazioni (ISTAT, Banca dItalia, Ragioneria Generale dello Stato, ) Enti che producono informazione come prodotto secondario dellattivit amministrativa istituzionale Enti che svolgono ricerca autonoma (Universit, CNR, ISAE, )

Modernizzazione della Pubblica Amministrazione


La comunicazione unidirezionale priva di feedback sta lasciando spazio a una comunicazione bidirezionale che permette al cittadino di interagire con i suoi interlocutori E sempre pi presente lobiettivo di erogare ai cittadini servizi di qualit assicurando la soddisfazione delle esigenze fondamentali La statistica diventa un valore aggiunto della P.A. che riesce a comunicare con il cittadino attraverso dati, numeri e tabelle che consentono di valutare il livello qualitativo dei pubblici uffici

Gli Uffici Relazioni con il Pubblico


La legge 7 giugno 2000 n. 150 istituisce gli Uffici Relazioni con il Pubblico Principali funzioni degli U.R.P. si possono considerare:
La comunicazione istituzionale Lascolto del cittadino La valutazione dellapprezzamento dei servizi resi Lapplicazione di concetti di customer satisfaction

Il Servizio Statistico Nazionale in Italia


SISTAN (sistema statistico nazionale)
Funzione di coordinamento degli uffici di statistica dellapparato statale

ISTAT (istituto nazionale di statistica)


Persona giuridica di diritto pubblico con ordinamento autonomo sottoposto alla vigilanza del Consiglio dei ministri

COMMISSIONE PER LA GARANZIA DELLINFORMAZIONE STATISTICA


Organo collegiale indipendente e di controllo istituito presso la presidenza del Consiglio dei ministri e composto di nove membri

Il primo nucleo del servizio statistico nazionale in Italia


Lorigine della informazione statistica in Italia si pu fare risalire al libro di Melchiorre Gioja La Filosofia della Statistica pubblicato a Milano nel 1826
La statistica definita come descrizione quantitativa del territorio statale

In quasi tutti gli Stati italiani, a met Ottocento, sono istituiti uffici nazionali di statistica, come nella maggior parte dei paesi europei.
Allindomani della proclamazione del Regno dItalia, subito istituito lUfficio Statistico Nazionale (9 ottobre 1861), che assume il rango di Direzione Generale.

LUfficio Nazionale si occupa, oltre che dei censimenti e di alcune indagini speciali, delle rilevazioni correnti nel campo del movimento dello stato civile, dellemigrazione, delle cause di morte, degli ospedali.
LUfficio si occupa della compilazione e pubblicazione dell Annuario statistico.

Listituto centrale di statistica


lIstituto Centrale di Statistica (ISTAT) venne fondato nel 1926. Il regime fascista colloc lISTAT alla diretta ed esclusiva dipendenza del Capo del Governo Primo Ministro, come affermato nelle leggi istitutive del 9 luglio 1926 e del 27 maggio 1929. L informazione statistica intesa non come servizio pubblico da rendere ai cittadini, ma come servizio del governo per il governo. Nonostante lIstituto potesse fare affidamento a Roma su unefficiente corpo di funzionari, la sua organizzazione periferica era debole, cos come lo era lapparato contabile nella maggioranza delle aziende private italiane.

Lorganizzazione dellIstat nei primi anni della sua istituzione


Era previsto che tutti i servizi di statistica, che si costituivano presso le varie Amministrazioni centrali dello Stato, passassero gradualmente allISTAT; per lIstituto Centrale ne assorb soltanto alcuni: nel 1927 quello delle statistiche dellimmigrazione, nel 1935 quello delle statistiche della navigazione e del movimento commerciale con lestero; nel 1939 avoc a s le statistiche giudiziarie. Gli altri servizi furono lasciati alle amministrazioni originarie soprattutto per la raccolta delle informazioni da parte degli organi periferici

Il cambiamento nellimpostazione del servizio statistico pubblico


Un drastico cambiamento della mentalit italiana nellintendere il ruolo della statistica si ebbe alla fine della seconda guerra mondiale. Inizialmente ci avvenne su pressione del governo americano, che aveva scelto una politica di pianificazione ispirata alla scuola keynesiana che implicava un ruolo di centrale importanza dellinformazione statistica. Keynes propone la contabilit economica nazionale (sistema razionale di statistiche macroeconomiche) come strumento fondamentale di governo.

Un adeguato servizio statistico essenziale per la Contabilit nazionale


La contabilit nazionale linsieme delle rilevazioni contabili statistiche, relative al sistema economico considerato nel suo complesso. In macro economia si considerano 4 categorie di agenti economici: imprese famiglie settore pubblico (amministrazione pubblica) resto del mondo Il centro della contabilit il bilancio economico nazionale che per essere valutato necessita la rilevazione annuale del reddito nazionale e delle sue componenti.

La serie storica ufficiale del reddito nazionale


La prima Relazione generale sulla situazione economica del Paese fu imperniata sul bilancio economico nazionale. La Relazione fu pubblicata nel 1950 in ottemperanza alla legge che porta i nomi di Meuccio Ruini e di Giuseppe Paratore e rappresenta una pietra miliare nella storia dellinformazione statistica italiana; nel 1955, poi, fu completata la serie storica ufficiale 1861-1954 del nostro reddito nazionale. La diffusione della nozione di reddito nazionale indusse lopinione pubblica ad interessarsi alla misura del benessere sociale ed ai suoi confronti internazionali

Linformazione statistica non di uso esclusivo della pubblica amministrazione


Linformazione statistica diventa una esigenza non solo per lamministrazione pubblica e per il governo. I mezzi di comunicazione, lopinione pubblica, le organizzazioni non governative iniziano a utilizzare linformazione statistica per valutare anche in termini quantitativi la realt sociale ed economica e per indirizzare in conseguenza le proprie aspirazioni e le proprie azioni

Alcuni esempi : gli indici dei prezzi, la speranza di vita, il tempo libero
Il problema dei numeri indici dei prezzi e delle quantit una costante, la cui importanza cresce in tempi, come i nostri, in cui le applicazioni si moltiplicano di giorno in giorno. E nel dicembre 1945, con la stipulazione dellaccordo sulla scala mobile tra la Confindustria ed i sindacati dei lavoratori, che nasce lurgenza dei numeri indici, ma il benessere non riducibile ad una mera questione di reddito. Diventa di pubblico interesse considerare anche altre variabili, quali lallungamento della vita umana o laumento del tempo libero, per non correre il rischio di generare errori ed omissioni ben noti agli statistici

La legislazione italiana in materia di Consiglio dei Ministri


La prima iniziativa per lordinamento della Presidenza del Consiglio dei Ministri si avuta nella prima Legislatura, ad opera del governo De Gasperi (1952). Tuttavia solo dopo trentasei anni, nella decima legislatura, il Parlamento riusciva ad approvare definitivamente una proposta di legge parlamentare concernente la disciplina dellattivit di governo e dellordinamento della Presidenza del Consiglio dei Ministri, dando finalmente attuazione al dettato dellart. 95 della Costituzione.

SISTAN sistema statistico nazionale


Rileva ed elabora a livello centralizzato dati statistici riguardanti diversi aspetti della vita del paese Percorso legislativo:
LEGGE 9 LUGLIO 1926 n. 1162: nascita dellistituto centrale di statistica LEGGE 23 AGOSTO 1988 n. 400: delega al governo per il riordino dellorganizzazione della Presidenza del Consiglio dei Ministri DECRETO LEGISLATIVO 6 SETTEMBRE 1989 n. 322: istituito il sistema statistico nazionale (SISTAN) e lISTAT assume la denominazione di istituto nazionale di statistica. E istituita (art. 12) la Commissione per la garanzia dellinformazione statistica

Il Comitato per lindirizzo e il coordinamento dellinformazione statistica


Il Comitato per lindirizzo e il coordinamento dellinformazione statistica esercita le funzioni direttive dellISTAT nei confronti degli uffici di informazione statistica facenti parte del Sistema Statistico Nazionale, emanando direttive vincolanti.
Riunisce i rappresentanti di tutte le componenti del Sistema Statistico Nazionale e costituisce pertanto un ambito in cui tali componenti possono esprimere il proprio parere e portare un contributo positivo per tutte le decisioni che vengono assunte. Rimane in carica quattro anni ed i suoi membri possono essere confermati non pi di due volte.

Composizione del Comitato per lindirizzo e il coordinamento dellinformazione statistica


Il Presidente dellISTAT, che lo presiede. Dieci membri in rappresentanza delle amministrazioni statali. Un rappresentante delle regioni, uno dellUPI (Unione Province Italiane) e uno dellUnion-camere. Tre rappresentanti dellANCI. Due rappresentanti di enti pubblici tra quelli dotati di pi complessi sistemi di informazione. Il Direttore generale dellISTAT. Due esperti scelti tra i professori ordinari di ruolo di prima fascia in materie statistiche, economiche ed affini.

10

Il Programma Statistico Nazionale


Il riordino del sistema statistico nella Pubblica Amministrazione introduce implicitamente una importante novit: lISTAT, quale organo della statistica ufficiale, interviene fatto raramente verificatosi in passato nel processo dimpostazione e nei successivi adeguamenti del sistema Lo strumento di questo intervento (e anche aspetto unificante del sistema) costituito dal Programma Statistico Nazionale, la cui predisposizione compete allISTAT di concerto con il Comitato per lIndirizzo e il Coordinamento dellInformazione Statistica. Nel Programma Statistico Nazionale confluiscono le rilevazioni statistiche di interesse pubblico promosse dai vari organi del SISTAN e dallISTAT stesso che vi contribuisce con il suo programma di attivit

Quadro normativo del Programma Statistico Nazionale


Il decreto legislativo 322/89 stabilisce che il Programma Statistico Nazionale
ha durata triennale viene aggiornato annualmente sottoposto al parere della Commissione per la garanzia dellInformazione Statistica

Il PSN approvato con decreto del Presidente della Repubblica, su proposta del Presidente del Consiglio dei Ministri, previa deliberazione del CIPE (Comitato Interministeriale per la Programmazione Economica)
Con la medesima procedura sono predisposti e approvati gli aggiornamenti del Programma

11

Il Programma Statistico Nazionale produce le statistiche ufficiali


I risultati delle indagini, inserite nel Programma Statistico Nazionale, sono di interesse pubblico e costituiscono patrimonio della collettivit, indipendentemente dalla titolarit della loro produzione. Per le informazione raccolte con le stesse indagini prevista la massima diffusione, con il solo vincolo del rispetto del segreto statistico (tutela ribadita nello stesso D.L. n. 322/89). Ai dati raccolti nellambito del Programma , inoltre, riconosciuto il carattere di ufficialit,
consentito luso dei dati ufficiali da parte dei componenti del Sistema e degli altri soggetti pubblici e privati

La Commissione per la Garanzia dellInformazione Statistica


Il punto qualificante del Dlgs 322/1989 lArt. 12 (modificato con Dlg 30 luglio 1999 n.281 pubblicato sulla GU n. 191 del 16 agosto 1999) che istituisce presso la Presidenza del Consiglio dei Ministri la Commissione per la Garanzia dell'Informazione Statistica I compiti di vigilanza della Commissione si possono cos riassumere:
Imparzialit e correttezza dellinformazione statistica Qualit delle metodologie statistiche e delle tecniche informatiche Conformit alle direttive della CE e alle normative internazionali

12

I Censimenti
57 milioni di cittadini, 4,3 milioni di imprese dell'industria e dei servizi e 2,6 milioni di aziende agricole. Sono questi i risultati degli ultimi Censimenti generali condotti dall'Istat. I Censimenti, svolti con cadenza decennale, costituiscono un momento conoscitivo di grande rilievo poich consentono di costruire un patrimonio informativo completo, indispensabile per programmare, decidere, valutare.

Estensione dellindagine censuaria


Nel biennio 2000-2001, l'Istat e l'intero Sistema statistico nazionale sono stati impegnati nell'esecuzione dei Censimenti dell'agricoltura, della popolazione e delle abitazioni, dell'industria e dei servizi. Per la prima volta stata utilizzata un'unica base territoriale di riferimento composta da circa 400mila aree elementari, rendendo cos possibile analizzare i caratteri sociodemografici ed economici di tutta la popolazione in un determinato spazio geografico. I dati raccolti attraverso le rilevazioni censuarie garantiscono un grado di dettaglio territoriale (fino al comune e alla sezione di censimento) non deducibile da nessun'altra fonte e sono utilizzati ad ogni livello di governo, dalle imprese e dalle associazioni di categoria per pianificare attivit, offrire servizi, avviare progetti sul territorio, esplorare mercati.

13

BASI DI DATI
Insieme di dati statistici omogenei memorizzati in una banca dati. Tali dati possono essere elaborati e presentati in varie forme e da differenti soggetti I dati di una banca dati possono essere
rilasciati in varie forme comparabili e omogenei rispetto a dati simili ottenibili da altre banche dati

QUALI BASI DATI?


Si possono distinguere due tipi di basi dati Le basi dati di informazione primaria
contengono informazioni direttamente utilizzabili

Le basi dati di informazione secondaria


aiutano lutente a localizzare la fonte informativa per le proprie esigenze

14

DOVE TROVARE LE BASI DATI?


A LIVELLO NAZIONALE lISTAT attualmente realizza basi di dati seguendo 5 linee fondamentali http://www.istat.it A LIVELLO EUROPEO lEUROSTAT gestisce 8 diverse banche dati relative al sistema statistico europeo http://europa.eu.int/comm/eurostat

BASI DATI ISTAT

SERIE STORICHE SERIE TERRITORIALI SISTEMA INFORMATIVO DEL LAVORO SISTEMA INFORMATIVO AMBIENTALE SISTEMA INFORMATIVO DEI COMUNICATI STAMPA

15

LE BASI DI DATI COMUNITARIE


NEW CRONOS COMEXT REGIO GISCO EUROFARM IOT EUROCRON SIMONE (sistema di nomenclatura e classificazione delleurostat)

Il sistema statistico europeo


LEurostat (Ufficio Statistico per la Comunit Europea) una direzione generale della Commissione
Mette a disposizione della UE dati per il decision making Informa i media e la pubblica opinione sugli aspetti pi importanti (amministrativi, economici, demografici, sociali ) Consente una valutazione basata sui dati delloperato degli organi di governo

16

Il ruolo dellEurostat
Scopo principale dellEurostat non la raccolta dei dati (compito delle autorit statistiche dei paesi membri) ma rendere confrontabili (armonizzare) a livello europeo le informazioni statistiche La Statistical Law (Febbraio 1997) adottata dal Consiglio Europeo ripartisce le responsabilit tra autorit statistiche nazionali e quelle comunitarie Lart. 285 del Trattato di Amsterdam (Giugno 1997) garantisce fondamento costituzionale alle statistiche comunitarie (Le informazioni diffuse dallEurostat sono le statistiche ufficiali della UE)

LE STATISTICHE INTERNAZIONALI
ONU (ORGANIZZAZIONE DELLE NAZIONI UNITE) AGENZIE DELLE NU:
Statistical Yearbook FAO alimentazione e agricoltura UNESCO educazione, scienza e cultura OMS organizzazione mondiale della sanit BIT agenzia internazionale del lavoro

OCSE organizzazione per la cooperazione e lo sviluppo FMI fondo monetario internazionale

17

Foglio di rilevazione del censimento della popolazione


Le unita' statistiche di rilevazione del censimento della popolazione sono le famiglie e le convivenze Convivenze: istituti religiosi, caserme, carceri, ospedali, case di cura e di riposo Le unita statistiche di elaborazione sono i singoli individui

Il Data Warehouse: DaWinci


La consultazione su Internet dei risultati del 14 Censimento Generale della popolazione e delle abitazioni possibile attraverso un sistema informativo ad hoc, denominato DaWinci (Data Warehouse su Internet del Censimento Italiano). Si tratta di un Data Warehouse, ovvero di un magazzino di dati accessibile secondo varie dimensioni.

L'idea ispiratrice del sistema che non debba esistere un punto di vista privilegiato per accedere all'informazione ma che l'utente possa navigare tra le tavole scegliendo indipendentemente il tipo di dati e il livello di dettaglio dei medesimi. Come in ogni Data Warehouse, possibile aumentare il livello di dettaglio, ottenendo informazioni pi analitiche, o diminuirlo, ottenendo informazioni di carattere pi generale, o ancora consultare informazioni diverse al medesimo livello di dettaglio.

18

Consultazione delle tabelle dei dati


Linterrogazione dei dati pu avvenire navigando rispetto al livello territoriale ed al tipo di tavola.
Per il territorio si pu scegliere di salire o scendere di livello (dalle ripartizioni geografiche ai comuni e viceversa), mentre possibile passare in ogni momento da un tipo di tavola allaltro selezionandone il numero che compare sullo schermo.

Le opzioni territorio e tipo di tavola sono tra loro collegate: ad esempio, scegliendo una determinata provincia viene consentita la visualizzazione delle sole tavole disponibili a livello provinciale mentre, viceversa, scegliendo una determinata tavola vengono resi disponibili automaticamente tutti i livelli territoriali per essa previsti.

Acquisizione dei dati per lanalisi secondaria


Il parametro territorio consente di scegliere il livello territoriale (da quello nazionale a quello comunale) e l'area territoriale (specifica all'interno del livello scelto). Le tavole possono essere facilmente archiviate, trasferite e rielaborate sul proprio computer ed alcune di esse possono essere visualizzate sotto forma di cartogrammi tematici grazie ad un sistema di cartografia interattiva. Per accedervi sufficiente attivare con un click del mouse la piccola icona che compare all'interno di alcune tavole.

19

Lindagine sulle forze di lavoro


Stime ufficiali degli occupati e delle persone in cerca di lavoro, nonch informazioni sui principali aggregati dell'offerta di lavoro professione, ramo di attivit economica, ore lavorate, tipologia e durata dei contratti, formazione. Dalla sua introduzione allinizio degli anni 50, lindagine svolge un ruolo di primo piano nella documentazione statistica e nellanalisi della situazione occupazionale in Italia e si rivela uno strumento conoscitivo indispensabile per decisori pubblici, media, cittadini. Le informazioni vengono raccolte dallIstat intervistando ogni trimestre un campione di quasi 77 mila famiglie, pari a 175 mila individui residenti in Italia, anche se temporaneamente allestero. Sono escluse le famiglie che vivono abitualmente allestero e i membri permanenti delle convivenze (istituti religiosi, caserme ecc.).

Lindagine sui consumi delle famiglie


I dati pi recenti disponibili riguardano lindagine sui consumi delle famiglie condotta nel 2007 su un campione di circa 24 mila famiglie. Lindagine rileva le spese familiari per consumi,

Le tavole riguardano la spesa media mensile delle famiglie residenti in Italia a differenti livelli di dettaglio:

Consente di descrivere, analizzare e interpretare i comportamenti di spesa delle famiglie residenti in Italia. Fornisce informazioni sul livello e sulla struttura della spesa mensile, sulle caratteristiche delle famiglie, delle persone che le compongono, sulle loro condizioni abitative e abitudini di spesa. per gruppi e categorie di spesa, secondo la ripartizione geografica e la regione di residenza della famiglia, la condizione e posizione professionale della persona di riferimento le caratteristiche familiari (numero di componenti e tipologia familiare).

20

Un esempio di risultati
Secondo i dati dellindagine sui consumi condotta dallIstat, nel 2008 la spesa media mensile per famiglia pari, in valori correnti, a 2.485 euro, praticamente uguale a quella dellanno precedente (+0,2%). La variazione, che incorpora sia la dinamica inflazionistica (nel 2008, lindice dei prezzi al consumo per lintera collettivit pari, in media, al 3,3%, con differenze non trascurabili tra i diversi capitoli di spesa) sia la crescita del valore del fitto figurativo , mette in evidenza come a un aumento della spesa media mensile per consumi in termini nominali corrisponda una flessione in termini reali.

Le indagini multiscopo
Le indagini Multiscopo condotte dall'Istat rilevano i comportamenti e gli aspetti pi importanti della vita quotidiana delle famiglie. Ad esempio, lindagine Aspetti della vita quotidiana svolta nel febbraio 2008 riguarda informazioni quali:
la disponibilit presso le famiglie delle nuove tecnologie, il loro utilizzo da parte degli individui, le attivit svolte con Internet, il web come strumento per comunicare e l'e-commerce.

Il campione comprende 19 mila 573 famiglie per un totale di 48 mila 861 persone.

21

Rilevazione sulluso delle tecnologie dellinformazione e della comunicazione (ICT)


LIstat diffonde i principali risultati della rilevazione sulluso delle tecnologie dellinformazione e della comunicazione (ICT) nelle imprese con almeno 10 addetti attive nel settore dellindustria e dei servizi. I dati pi recenti sulluso dellICT sono riferiti a gennaio 2008, mentre quelli relativi al commercio elettronico e allutilizzazione on-line dei servizi offerti dalla Pubblica Amministrazione fanno riferimento allanno 2007. La rilevazione stata realizzata nel rispetto del Regolamento CE n. 808/2004 del 21 aprile 2004, seguendo criteri e metodologie condivise da tutti i Paesi dellUnione europea. I fenomeni osservati sono quelli definiti dal Regolamento CE n. 847/2007 del 18 luglio 2007. La rilevazione del 2008, inoltre, ha dedicato particolare attenzione, attraverso una specifica sezione del questionario, allosservazione dei principali aspetti connessi al tema dellintegrazione, interna ed esterna, dei processi aziendali.

ANALISI MULTIVARIATA E ANALISI ESPLORATIVA DEI DATI


Negli anni sessanta compaiono libri e articoli nei quali si parla di analisi dei dati da punti di vista differenti J. P. Benzecri (Univ. De Paris VI) introduce il termine con riferimento in primo luogo allanalisi delle corrispondenze (AFC: analyse factorielle des correspondences) ma anche a tecniche per lanalisi di dati multidimensionali quali lanalisi in componenti principali, lanalisi fattoriale, lanalisi dei gruppi (cluster analysis). I metodi proposti fanno spesso riferimento a rappresentazioni geometriche dei dati e si contrappongono ai metodi della statistica matematica. John Tukey (Princeton University) sviluppa sotto il nome di EDA (exploratory data analysis), tecniche per identificare le caratteristiche di maggiore interesse in un insieme di dati (rappresentazioni grafiche, analisi dei residui (il dato somma di una stima della misura e di un errore residuo), dati anomali, trasformazioni per verificare la linearit dei dati) Lanalisi essenzialmente univariata.

22

DATA MINING
Processo di estrazione di conoscenza da banche dati di grandi dimensioni tramite l'applicazione di algoritmi che individuano le associazioni "nascoste" tra le informazioni e le rendono visibili e mettono a disposizione dei decisori le informazioni pi significative . L'estrazione di conoscenza (informazioni significative) avviene tramite individuazione delle associazioni, o "patterns", o sequenze ripetute, o regolarit, nascoste nei dati. In questo contesto un "pattern" indica una struttura, un modello, o, in generale, una rappresentazione sintetica dei dati. Il termine data mining utilizzato come sinonimo di knowledge discovery in databases (KDD), anche se sarebbe pi preciso parlare di knowledge discovery quando ci si riferisce al processo di estrazione della conoscenza, e di data mining come di una particolare fase del suddetto processo

ANALISI DEI DATI OBIETTIVO: fornire concetti e strumenti utili per evidenziare gli aspetti salienti dellinformazione disponibile e per quantificare la forza dei suggerimenti che da essi si possono ragionevolmente trarre INFORMAZIONE: espressa in forma codificata e non ambigua (valori numerici, categorie, ecc.) -DATI

23

Statistica
DEFINIZIONE: metodologia che ha come scopo la conoscenza quantitativa dei fenomeni collettivi, ossia dei fenomeni il cui studio richiede losservazione di un insieme di manifestazioni individuali FENOMENI COLLETTIVI
relativi ad una collettivit di casi singoli relativi ad una collettivit di osservazioni di un solo caso o fenomeno

Informazioni non sistematiche possono condurre a conclusioni erronee o parziali impressioni qualitative dei fenomeni
statura M > statura F matrimoni tra persone entrambe giovani o entrambe anziane

Errori
osservazione di una parte del fenomeno per cui si osserva in una specie di animali ad es. una proporzione 1:10 di M e F

24

Campi di applicazione della statistica


Quasi tutte le scienze sperimentali fanno ricorso alla statistica
scienze che studiano aspetti differenti dei fenomeni collettivi, ad es. demografia, sociologia, psicologia sociale scienze che studiano fenomeni naturali, ad es. fisica, chimica e astronomia

OBIETTIVO: analisi e conoscenza di problemi attinenti

la ricerca di fattori che influiscono su un fenomeno la ricerca di relazioni che legano i fenomeni la previsione di uno o pi fenomeni tra loro collegati

Contenuto attuale della statistica


OSSERVAZIONE TOTALE DEL COLLETTIVO
schematizzazione osservazione descrizione

OSSERVAZIONE PARZIALE DEL COLLETTIVO


schematizzazione formulazione delle ipotesi osservazione descrizione induzione

25

Lindagine statistica
OBIETTIVO: conoscenza di una popolazione intesa come insieme di unit elementari su cui si manifesta il fenomeno da studiare FASI Piano di rilevazione Raccolta dati Classificazione e spoglio dei dati Elaborazione dei dati ------| Interpretazione dei risultati ------| ANALISI DEI DATI

Il piano della rilevazione


Obiettivi della ricerca Popolazione di riferimento Caratteri oggetto di studio Modalit di raccolta delle informazioni Tipo di analisi statistica dei dati Tempi e risorse per completare lindagine

26

Modalit di raccolta delle informazioni


Periodo in cui effettuare la rilevazione Personale e organizzazione Quantificazione dei tempi e dei costi

Metodo di rilevazione
Indiretto: dati derivati da altre indagini Diretto: questionario Ricavato: pianificazione di prove o test da cui trarre osservazioni di tipo sperimentale

27

Metodo diretto
Piano di codifica Questionari, modelli Fonti di reperimento dei dati

Campionamento
Esempi di campioni probabilistici :
Campione casuale semplice Campione stratificato Campione a pi stadi

Esempi di campionamento non probabilistici


campionamento ragionato campionamento per quote campionamento a valanga

28

Metodi di rilevazione
DIRETTO Censimento Campione CAPI, CATI, indagine postale INDIRETTO Base dati OSSERVAZIONE SPERIMENTALE Studio osservazionale Studio sperimentale

Tecniche CAPI e CATI


La tecnica computer assisted personal interviewing (CAPI) prevede che si effettui una intervista contattando personalmente l'intervistato e avvalendosi di un personal computer La tecnica computer assisted telephone interviewing (CATI) prevede che si effettui una intervista con l'ausilio di un personal computer e contattando per telefono l'intervistato

29

Lista
COMPLETA deve contenere tutte le unit della popolazione ESATTA le unit della lista individuano univocamente le unit della popolazione AGGIORNATA non devono essere presenti unit che non fanno pi parte della popolazione di riferimento

Fenomeni oggetto di rilevazione


Caratteristiche di entit fisiche (es: superficie di un territorio) Propriet di enti logici (es: temperatura in un dato luogo a una data ora) CARATTERE (variabile, mutabile) il fenomeno che si considera UNITA STATISTICA (soggetto, caso, osservazione) la singola entit fisica o logica nella quale il fenomeno si manifesta MODALITA (valore, dato statistico) il modo con cui il fenomeno pu manifestarsi in una unit statistica COLLETTIVO (popolazione, campione) linsieme delle unit statistiche prese in considerazione
Esempio: 5 famiglie delle quali una ha 2 figli, 2 hanno 1 figlio e 2 nessuno. CARATTERE: numero di figli UNITA STATISTICHE: famiglie MODALITA: 0, 1, 2 COLLETTIVO: le 5 famiglie

30

Raccolta dei dati


Osservatori, intervistatori
Questionario, somministrazione diretta Intervista telefonica Invio del questionario per posta

Indiretta
Registri (anagrafici, ad esempio) Procedure amministrative

Errori nella rilevazione


Errori di copertura: conteggi errati in eccesso o in difetto Errori di contenuto: mancata corrispondenza tra modalit reale e modalit accertata

31

Classificazione e spoglio dei dati


Enumerazione: conteggio delle schede (moduli, questionari) Classificazione: raggruppamento dei dati in categorie e classi

Spoglio singolo
Un solo carattere alla volta: Esempio: sezione elettorale liste voti Lista 1 Lista 2 Lista 3

conteggio 12 16 13

32

Spoglio incrociato
Esempio: studio medico di famiglia Et dei pazienti 13-19 20-59 60

conteggio 18 17 18 14 12 18

14 28 31

Numero di ricette rilasciate 1-5 6-20 Pi di 20


Spoglio automatico (elaborazione elettronica)


Codifica dei dati: etichetta per ogni modalit o classe di modalit Registrazione dei dati su supporto magnetico Software dedicato Inserimento dati Richieste spogli singoli o incrociati

33

Distribuzioni statistiche
Semplici
Serie statistica: carattere qualitativo Seriazione statistica: carattere quantitativo

Doppie
Contingenza: due caratteri qualitativi Correlazione: due caratteri quantitativi Miste: un carattere qualitativo, un carattere quantitativo

Rappresentazione in forma tabellare


Tabelle a semplice entrata
Modalit Frequenza

Tabelle a doppia entrata


Modalit del primo carattere per colonna Modalit del secondo carattere per riga Frequenze congiunte

Tabelle composte: etichette in riga, variabili in colonna

34

Distribuzioni di frequenza
Distribuzione unitarie e distribuzioni di frequenza e di quantit semplici e multiple La distribuzione semplice di frequenze o quantit Distribuzione unitaria Distribuzione di frequenze Distribuzione unitaria / Distribuzione di frequenze

Distribuzione unitaria
Semplice:
Elencazione delle modalit osservate di un carattere, unit per unit

Multipla:
Elencazione delle modalit di pi caratteri
Osservazioni: Descrive la situazione osservazionale ma non consente di cogliere in modo sintetico le caratteristiche del fenomeno

35

Distribuzioni unitaria multipla : esempio


MATRICE DEI DATI unit statistiche (casi, osservazioni) in riga variabili (caratteri) in colonna
Cognome sesso et

Corso di laurea Graduatoria

Punteggio test 98,7 99,9 80,2 90,0 96,5

Bianchi Dandini Moreno Rossi Valeri

F F M F M

20 lingue 22 lettere 19 economia 22 comunicazione 18 lingue

2 1 5 4 3

Distribuzione di frequenza assoluta


Elencazione del numero delle volte che una modalit di un carattere viene osservata nel collettivo. Corrisponde alla suddivisione delle unit statistiche in sottogruppi.
Sesso F M totale frequenza 3 2 5 Et Da 18 a 19 da 20 a 21 Da 21 a 22 Totale frequenza 2 1 2 5
Osservazioni:
Evidenzia le caratteristiche del fenomeno Implica perdita di informazione

36

Distribuzione di frequenza relativa e percentuale


Relativa fj= nj/n
rapporto tra la frequenza assoluta e il numero totale delle unit osservate

Percentuale pj= fj*100


frequenza relativa moltiplicata per 100 Sesso F M totale Freq. rel 0.6 0.4 1 Sesso F M totale % 60 40 100
Osservazioni:
Rende possibile il confronto tra due o pi collettivi di dimensioni diverse rispetto ad un carattere

Distribuzione di frequenza relativa e percentuale: esempio


Sesso F M totale Freq. assol. 3 2 5 Sesso F M totale Sesso 60 40 100 F M totale % 60 40 100 Freq. assol. 180 120 Attenzione: le 300 percentuali
distribuzioni implicano la perdita dellinformazione sulla numerosit dei collettivi

Sesso F M totale

37

Confronto tra collettivi di diversa numerosit frequenze assolute


Collettivo A
Carattere Stato Civile Nubile/celibe Sposato Divorziato Vedovo Totale Frequenza assoluta 7 3 1 4 15

Collettivo B
Carattere Stato Civile Nubile/celibe Sposato Divorziato Vedovo Totale Frequenza assoluta 9 20 15 6 50

Dal confronto di tali distribuzioni si pu dedurre che nel collettivo A sono meno numerose le persone non sposate (celibi o nubili) e le persone vedove rispetto alla situazione osservata nel collettivo B (rispettivamente 7 contro 9 e 4 contro 6)

Confronto tra collettivi di diversa numerosit frequenze percentuali


Collettivo A
Carattere Stato Civile Nubile/celibe Sposato Divorziato Vedovo Totale Frequenza percentuale 46,7 20 6,7 26,6 100

Collettivo B
Carattere Stato Civile Nubile/celibe Sposato Divorziato Vedovo Totale Frequenza percentuale 18 40 30 12 100

In realt, la quota di persone non sposate nel collettivo A (46,7%) di gran lunga superiore (pi del doppio) della corrispondente quota presente nel collettivo B (18%) e lo stesso accade per la modalit vedovo che presente nel 26,6% di casi nel collettivo A e solo nel 12% di individui del collettivo B

38

Frequenze cumulate
Si calcolano a partire dalle distribuzioni di frequenza |assoluta, relativa o percentuale| per i caratteri ordinati rettilinei La frequenza per ogni data classe ottenuta come somma della corrispondente frequenza e di tutte quelle precedenti
Fj= f1+ f2+.. fj Valutazione sufficiente Medio-bassa Media Medio-alta Alta Totali Freq. Freq. cum. 60 70 20 60 30 240 60 130 150 210 240 % 25 29.17 8.33 25 12.5 100 % cum 25 54.17 62.5 87.5 100 Osservazioni: Le freq. cumulate consentono di individuare immediatamente il numero di unit che hanno ottenuto una valutazione al di sotto di un certo livello

La distribuzione di quantit
Sesso Ammontare di reddito in migliaia di euro 88 53 141

Maschi Femmine Totale

Le distribuzioni di quantit si ottengono misurando lammontare di un carattere quantitativo sullinsieme delle unit del collettivo che presentano la medesima modalit

39

Distribuzioni doppie
Tabelle a doppia entrata Distribuzioni doppie di frequenze relative o percentuali Trasformazione di variabili e modifiche nelle distribuzioni doppie dipendenza indipendenza interdipendenza

Tabella a doppia entrata


Frequenze nij delle unit del collettivo che presentano congiuntamente la modalit i-esima di un carattere e la modalit J-esima di un secondo carattere.
Ha un numero di righe maggiore o uguale al numero di modalit della variabile rappresentata in riga e un numero di colonne maggiore o uguale a quello delle modalit della variabile rappresentata in colonna.
Tavola di contingenza sesso * abitudine di guardare la tv

Conteggio abitudine di guardare la tv no si 11 459 15 506 26 965

Distribuzioni condizionate
Totale 470 521 991

sesso Totale

maschio femmina

Distribuzioni marginali di riga e di colonna

40

Distribuzioni doppie di frequenze relative o percentuali


Le distribuzioni marginali relative si ottengono dividendo le frequenze assolute marginali per il totale: fi.=ni./n.. f.j=n.j/n.. (n..=n)
Totale 470 100,0% 47,4% 47,4% 521 100,0% 52,6% 52,6% 991 100,0% 100,0% 100,0%

Tavola di contingenza sesso * abitudine di guardare la tv abitudine di guardare la tv no si 11 459 2,3% 97,7% 42,3% 1,1% 15 2,9% 57,7% 1,5% 26 2,6% 100,0% 2,6% 47,6% 46,3% 506 97,1% 52,4% 51,1% 965 97,4% 100,0% 97,4%

sesso

maschio

femmina

Totale

Conteggio % entro sesso % entro abitudine di guardare la tv % del totale Conteggio % entro sesso % entro abitudine di guardare la tv % del totale Conteggio % entro sesso % entro abitudine di guardare la tv % del totale

Se moltiplicate per 100 vengono definite distribuzioni percentuali.

Le distribuzioni relative condizionate (profili di riga o di colonna) del carattere X e del carattere Y si ottengono rispettivamente rapportando le distribuzioni condizionate per i corrispondenti totali di riga o di colonna. Diventano percentuali se moltiplicate per 100. entro carattere = condizionate a tale carattere

Distribuzioni doppie e tipi di caratteri


Tavola di contingenza tempo in ore passato ad ascoltare la radio * sesso sesso maschio femmina 49 28 17,0% 9,0% 112 102 38,8% 32,8% 67 110 23,2% 35,4% 33 40 11,4% 12,9% 13 11 4,5% 3,5% 4 10 1,4% 3,2% 1 7 ,3% 2,3% 4 1 1,4% ,3% 2 ,7% 1 ,3% 3 1,0% 1 ,3% 1 ,3% 289 311 100,0% 100,0% Totale 77 12,8% 214 35,7% 177 29,5% 73 12,2% 24 4,0% 14 2,3% 8 1,3% 5 ,8% 2 ,3% 1 ,2% 3 ,5% 1 ,2% 1 ,2% 600 100,0% tempo in ore passato ad ascoltare la radio 0 1 2 3 4 5 6 7 8 9 10 11 12 Totale Conteggio % entro sesso Conteggio % entro sesso Conteggio % entro sesso Conteggio % entro sesso Conteggio % entro sesso Conteggio % entro sesso Conteggio % entro sesso Conteggio % entro sesso Conteggio % entro sesso Conteggio % entro sesso Conteggio % entro sesso Conteggio % entro sesso Conteggio % entro sesso Conteggio % entro sesso

Le distribuzioni di frequenza doppie si possono determinare sia per coppie di caratteri dello stesso tipo, sia per coppie di caratteri di tipo diverso. Particolare attenzione tuttavia va prestata alle distribuzioni di caratteri quantitativi, specie quando assumono un numero di valori molto elevato (o addirittura pari a quello delle unit osservate).
In tal caso la tabella presenter molto celle con frequenza nulla . E pertanto opportuno procedere ad una aggregazione in classi

41

Trasformazioni di variabili e modifiche nelle distribuzioni doppie


Tavola di contingenza ore ascolto radio * sesso sesso maschio femmina Totale ore meno di un'o Conteggio 49 28 77 ascolto % entro sess 15,7% 8,4% 11,9% radio 1-2 ore Conteggio 179 212 391 % entro sess 57,2% 63,3% 60,3% 3-5 ore Conteggio 51 60 111 % entro sess 16,3% 17,9% 17,1% 6-10 ore Conteggio 11 9 20 % entro sess 3,5% 2,7% 3,1% oltre 10 ore Conteggio 23 26 49 % entro sess 7,3% 7,8% 7,6% Totale Conteggio 313 335 648 % entro sess 100,0% 100,0% 100,0%

Osservazioni: La variabile quantitativa stata aggregata in classi Il numero di celle della tabella si ridotto Si ottiene una maggiore sintesi dellinformazione

Variabile quantitativa / variabile qualitativa


Nellanalizzare le distribuzioni di due variabili di tipo diverso unulteriore strategia di analisi quella di calcolare statistiche descrittive (medie condizionate ed altri indici) della variabile quantitativa per ogni sottogruppo individuato dalle modalit della variabile qualitativa.
Report

Report tempo in ore passato ad ascoltare la radio sesso Media Mediana maschio 1,76 1,00 femmina 1,98 2,00 Totale 1,87 2,00 Deviazione std. 1,73 1,55 1,64 N 290 312 602

Suicidi e tentativi di suicidio accertati per 100.000 abitanti zona geografica nord-ovest nord-est centro sud isole Totale Media 23,752 18,032 14,116 7,559 12,548 14,703 N 4 4 4 6 2 20 Deviazione std. 11,426 5,617 5,945 3,974 ,600 8,462

Dati aggregati per regione

42

Regole generali per la costruzione di distribuzioni frequenze


Titolo e numerazione della tabella: Non lasciare le tabelle isolate dal testo ma inserire nel testo un rimando alla tabella Intestazioni in chiaro di righe e colonne (testata: le modalit della variabile in alto sono indicate nella prima riga; fiancata o colonna madre: le modalit della variabile a lato (in genere a sinistra) sono elencate in prima colonna) Va curata con attenzione la disposizione dei dati e lallineamento delle cifre, uniforme per tutte le celle Inclusione dei totali e dei sub-totali Note in fondo alla tabella: Specificazione dellunit di misura Indicazione della fonte da cui provengono i dati Altre note eventuali.

43

Potrebbero piacerti anche