Sei sulla pagina 1di 26

Statistica Testuale

Sara Laurita – sara.laurita@unical.it


Francesca Parisi – francesca.parisi@unical.it
Presentazione del corso
1. Concetti di base della Statistica
• Introduzione
• Indagine statistica le fasi
• I piani di campionamento

2. Elaborazione ed analisi dei dati


• Tipi di dati
• Variabili, misure di centralità e variabilità, relazioni tra variabili
• Rappresentazioni statistiche e grafiche

3. Introduzione alle analisi di estrazione della conoscenza e Statistica


testuale
• Text mining
• Analisi quantitativa del corpus

4. Introduzione all'uso dell'ambiente R per il text mining, esempi casi


pratici
“Un dato statistico, per esprimere le sue potenzialità,
dovrebbe essere parte, talora sostanziale, di un sistema
informativo che contenga informazioni statistiche e non,
formali ed informali, seguite dal momento della loro
produzione, o raccolta, a quello della elaborazione e della
diffusione, finalizzate al perseguimento di obiettivi di
governo, gestione e controllo” (Chiandotto, 1985)

La statistica è la scienza che analizza in termini


quantitativi i fenomeni collettivi (G. Leti, 1986)
La prospettiva

Società dell’informazione

Grandi quantità di dati

Costruire dai dati le


informazioni
La prospettiva

• La statistica è considerata il fondamento logico per la risoluzione dei problemi decisionali.

• Qualunque sia il problema decisionale da risolvere, dal più banale al più complesso, è
necessario procedere ad una chiara definizione del problema stesso ed all’individuazione
delle possibili relazioni che connettono i vari elementi o aspetti che lo caratterizzano.
Ancora prima che si evolvesse la scrittura, l’uomo
incideva tacche al fine di conteggiare altri uomini,
prodotti della caccia, animali allevati etc.

Nell’antico Egitto si rilevava l'ammontare della


popolazione già ai tempi della prima dinastia e durante la
seconda si censivano i beni a fini fiscali. Sotto la
ventesima dinastia si tenevano liste delle abitazioni e dei
loro abitanti.

La rilevazione dei cittadini e dei loro beni ebbe grande


importanza nella Roma antica. Il primo censimento fu
ordinato da Servio Tullio e si ebbero poi censimenti con
periodicità quinquennale dalla fine del VI secolo a.c. e
con cadenza decennale a partire da Augusto

6
La nascita della statistica metodologica si collega agli studi di
Giovanni Graunt (1620-1674) che si può considerare il
precursore di una statistica che non si accontenta più di contare
ma indaga, con metodi propri, per ottenere ulteriori
informazioni. L’indirizzo di studi nato da Graunt fu denominato
“Aritmetica Politica”, cioè ”l’arte del ragionare per mezzo di
cifre sulle cose aventi attinenza col Governo”

Il filosofo tedesco Achenwall nel 1749 all’università di Gottinga


definisce la statistica come Scienza dello Stato cioè la scienza
deputata a raccogliere dati utili per governare meglio (Notitia
politica vulgo statistica). E’ anche l’inizio della Statistica
universitaria.

Nel 18-mo secolo il termine “statistica” indicava la raccolta


sistematica di dati demografici ed economici degli stati.
Agli inizi del 19-mo secolo il termine “statistica” si estese per
includere gli aspetti relativi alla sintesi ed all’analisi dei dati. È la
nascita della statistica moderna (Sir Francis Galton).
7
Florence Nightingale (1820-1910) è la prima
donna socia della Società di Statistica.
E’ famosa per la sua attività di assistenza
infermieristica e per essere una fervida
dilettante di statistica.
Fu amica di Sir Galton e di Pearson e di
Quételet che dimostrò la sostanziale
invarianza dei suicidi nel tempo.
Si batté per l’insegnamento della statistica sin
dalla scuola di base, riconoscendo
l’importanza delle informazioni statistiche per
prendere decisioni ragionevoli.
Nelle sue note per le infermiere (1859)
enfatizza l’importanza, per una buona
infermiera, dell’osservazione organizzata del
malato, in particolare di quella numerica.

8
DIKW pyramid hierarchy
The Digital Age

Data Deluge

Datafication of society

Data Revolution
Replica of the first Hollerith punched
card tabulator with "sorting box"
(right) at the Computer History
Museum

Hollerith card as shown in the


Railroad Gazette in 1895

Computing-
Tabulating-
Recording Company
Le tecnologie abilitanti
Data as an oxymoron: Fuel of the Digital Age, Pollution of the Digital Age
A challenge: the information overload
Le nuove fonti di dati
|

Blog

Siti
istituzionali

17
La classificazione UNECE - 1
human-sourced information
• record of human experiences, previously recorded in books and works of art,
and later in photographs, audio and video
• human-sourced information is now almost entirely digitized and stored
everywhere from personal computers to social networks. Data are loosely
structured and often ungoverned
process-mediated data
• record and monitor business events of interest, such as registering a customer,
manufacturing a product, taking an order, etc.
• the process-mediated data thus collected is highly structured and includes
transactions, reference tables and relationships, as well as the metadata that
sets its context
machine-generated data
• derived from the phenomenal growth in the number of sensors and machines
used to measure and record the events and situations in the physical world
• the output of these sensors is machine-generated data, and from simple
sensor records to complex computer logs, it is well structured
La classificazione UNECE - 2
1. Social Network (human-sourced
3. IoT (machine-generated data)
information)
Data from sensors
Social Networks
Fixed sensors
Blogs and comments
Home automation
Personal documents
Weather/pollution sensors
Pictures: Instagram, Flickr, Picasa etc.
Traffic sensors/webcam
Videos: Youtube etc.
Scientific sensors
Internet searches
Security videos/images
Mobile data content: text messages
Mobile sensors (tracking)
User-generated maps
Mobile phone location
E-Mail
Cars
Satellite images
2. Traditional Business system (process- Data from computer systems
mediated data) Logs
Data produced by Public Agencies Web logs
Medical records
Data produced by businesses
Commercial transactions
Banking/stock records
E-commerce
Credit cards
Big Data Analytics - 1

1 – Descriptive Analytics
Analisi descrittiva condotta con l’uso di tool che
permettono di rappresentare e descrivere anche in
modo grafico la realtà di determinate situazioni o
processi.

2 – Predictive Analytics
L’Analisi Predittiva è basata su soluzioni che
permettono di effettuare l’analisi dei dati al fine di
disegnare scenari di sviluppo nel futuro. Le Predictive
Analytics si basano su modelli e tecniche matematiche
come appunto i Modelli Predittivi, il Forecasting ed
Big Data Analytics - 2
3 – Prescriptive Analytics
Le Analisi Prescrittive si basano sull’uso di strumenti che
associano l’analisi dei dati alla capacità di assumere e gestire
processi decisionali. Le Prescriptive Analytics sono tool che
mettono a disposizione delle indicazioni strategiche o delle
soluzioni operative basate sia sull’Analisi Descrittiva sia sulle
Analisi Predittive.

4 – Automated Analytics
A fronte dei risultati delle analisi descrittive e predittive le
Automated Analytics sono nella condizione di attivare delle
azioni definite sulla base di regole. Regole che possono
essere a loro volta il frutto di un processo di analisi, come ad
esempio lo studio dei comportamenti di una determinata
Analisi statistica di dati
testuali

Le tecniche di analisi testuale consentono di analizzare, esplorare e


interrogare raccolte di testi anche molto vasti di particolare
interesse come documenti, interviste, rassegne stampa, domande
aperte in questionari, forum, newsgroup e altro.

A partire dagli anni Novanta la crescente diffusione dei software per


l’analisi dei testi ha impresso una notevole accelerazione all’uso dei
documenti nella ricerca sociale determinando la crescita
esponenziale di applicazioni e soluzioni.
|

25