Sei sulla pagina 1di 32

Corso di Laurea: Gest. Cons.

Documento Digitale
Insegnamento: Statistica Testuale (6 CFU)
Docente: M.Misuraca

01 – Analisi dei dati Unità n° 08

Grazie ai progressi dell’informatica e alla maggiore disponibilità di dati, negli


anni ‘60 la Statistica incomincia un processo di rinnovamento che modifica
profondamente i rapporti fra teoria (modello) ed osservazione (dati): nasce
così l’analisi dei dati
Uno dei nuovi approcci è quello sviluppato nell’ambito della cosiddetta scuola
francese di analisi multidimensionale dei dati (AMD)

- Obiettivo confermativo (modello-dati)


campione casuale – inferenza statistica

- Obiettivo esplorativo (dati-modello)


EDA, J. Tukey et al.
- Obiettivo descrittivo (dati-struttura)
AMD, J.P. Benzécri et al.
Corso di Laurea: Gest. Cons. Documento Digitale
Insegnamento: Statistica Testuale (6 CFU)
Docente: M.Misuraca

02 – Un approccio algebrico e geometrico Unità n° 08

L’AMD si propone di interpretare e visualizzare la struttura di fenomeni


complessi mediante il trattamento di numerose variabili e osservazioni

Fornisce, infatti:
- la visualizzazione di associazioni anche complesse
- la definizione di fattori multidimensionali
- la costruzione di tipologie di osservazioni
- il disegno di mappe

In sintesi con l’AMD si hanno due obiettivi principali:


Corso di Laurea: Gest. Cons. Documento Digitale
Insegnamento: Statistica Testuale (6 CFU)
Docente: M.Misuraca

03 – Analisi e rappresentazione grafica Unità n° 08

SISTEMA OSSERVATO

MATRICE
DEI DATI

Rappresentazioni
grafiche dell’AMD
Corso di Laurea: Gest. Cons. Documento Digitale
Insegnamento: Statistica Testuale (6 CFU)
Docente: M.Misuraca

04 – Analisi delle Corrispondenze Unità n° 08

Obiettivo:
Studiare la struttura dell’associazione tra due o più variabili qualitative

L’AC permette di decomporre una tabella a due o più entrate in una serie di , ciascuno
dei quali rappresenta un aspetto “latente” dell’ associazione presente nei dati

La rappresentazione in forma grafica dei fattori consente una interpretazione semplice della
struttura dell’associazione e permette di evidenziare aspetti non direttamente rilevabili dalla
lettura della tabella
Corso di Laurea: Gest. Cons. Documento Digitale
Insegnamento: Statistica Testuale (6 CFU)
Docente: M.Misuraca

05 – Analisi dei Corrispondenze Lessicali Unità n° 08

Per quanto detto, è possibile analizzare una tabella lessicale del tipo DxF
(documenti x forme) attraverso l’analisi delle corrispondenze:

1) ricercare e visualizzare strutture linguistiche latenti per evidenziare


la presenza di concetti o temi prevalenti

2) ricercare e visualizzare similarità tra documenti (in termini di


vocabolario condiviso) per evidenziare la presenza di gruppi

NB
Da un punto di vista concettuale sarebbe più corretto analizzare delle tabelle lessicali
aggregate, ma è pratica comune quella di utilizzare nell’analisi anche le tabelle lessicali
Corso di Laurea: Gest. Cons. Documento Digitale
Insegnamento: Statistica Testuale (6 CFU)
Docente: M.Misuraca

06 – Struttura dei dati Unità n° 08


1… j… q 1 … i … p 1… j… q
1 1 1
.. .. 0 ..
. . .
∑f
fij
i fij ij i fi . i fi. 1
.. j .. ..
. . 0 .
p p p

∑f i
ij
1
Dp−1F
riga V
Rq-1 F = U VT
1 … j … q
1 -1 -1
1 UT Dp U = VT Dn V = I

0
j f. j

1
q 0
colonna 1 Obiettivo è trovare il miglior
Rp-1 sottospazio di rappresentazione:
1… j… q vogliamo cioè rappresentare in
1 due dimensioni la nube dei punti
1
.. conservando però quanta più
. fij 1
i f.j
FDq−1 informazione possibile
..
. 1
p
1
Corso di Laurea: Gest. Cons. Documento Digitale
Insegnamento: Statistica Testuale (6 CFU)
Docente: M.Misuraca

07 – Misurare la distanza tra documenti e forme Unità n° 08

2
(j) 1  f ij f i′j 
d 2
i i′ = ∑ f .j
 - 
 f ij  j  fi . f i ′. 
(i)  
 f i.  ( j )

(i’)  fij 
 
 fi′. ( j )
2
1  f ij f i′j 
d 2
i i′ = ∑ f .j
 - 
f. j
j  f i. f i′. 
2
1  f ij f ij ′ 
La metrica del Chi-quadro è costruita in modo da
considerare una sorta di effetto “normalizzante”
d 2
j j′ = ∑ fi .

f
-
f


sull’importanza dei diversi punti
i  . j . j ′ 
NB: vale lo stesso anche per i profili colonna
Corso di Laurea: Gest. Cons. Documento Digitale
Insegnamento: Statistica Testuale (6 CFU)
Docente: M.Misuraca

08 – Lettura della mappa Unità n° 08

u2 (λ2)

u1 (λ1)

1. La dispersione dei punti intorno all’origine mostra la forza dell’associazione


2. Se due forme sono vicine allora sono utilizzate in modo simile
3. Se due documenti o due modalità della variabile di classificazione sono vicine allora
hanno un vocabolario simile
4. Non si può valutare la prossimità tra forme e documenti ma la posizione relativa di
un punto «forma» rispetto alla nube dei documenti (e viceversa)
5. La dimensione delle coordinate suggerisce l’importanza di un punto rispetto all’asse
Corso di Laurea: Gest. Cons. Documento Digitale
Insegnamento: Statistica Testuale (6 CFU)
Docente: M.Misuraca

09 – Principio dell’equivalenza distributiva Unità n° 08

Rp Rp
(i1 ; fi1 .)
(i. ; fi1 . + fi2 .)

(i2 ; fi2 .)

O O

Se i1 e i2 sono dei profili identici, i punti i1 (pesi fi1.) e i2 (pesi fi2.) sono confusi in Rp

Sia i0 il punto comune, assegnato ai pesi (fi1. + fi2.) allora:

∀ i e i′ in Rp, d2(i,i′) è invariato

∀ j e j′ in Rq, d2(j,j′) è invariato


Corso di Laurea: Gest. Cons. Documento Digitale
Insegnamento: Statistica Testuale (6 CFU)
Docente: M.Misuraca

010 – Contributi assoluti e relativi Unità n° 08

L’ di una tabella misura la dei profili riga e dei profili


colonna. Ogni riga e ogni colonna contribuiscono in relazione al loro allontanarsi dalla
situazione di indipendenza, espressa dai marginali

I ai singoli assi esprimono l’importanza delle modalità nei confronti


di un fattore: si utilizzano per interpretarli più facilmente

I (o coseni quadrati) esprimono invece quanto un punto è deformato


dalla proiezione sull’asse fattoriale: misurano quindi la qualità della rappresentazione e
variano fra 0 e 1
Corso di Laurea: Gest. Cons. Documento Digitale
Insegnamento: Statistica Testuale (6 CFU)
Docente: M.Misuraca

011 – Clustering dei documenti Unità n° 08

Al termine dell’analisi fattoriale è possibile sulla base dei risultati ottenuti cercare di
classificare automaticamente i documenti

E’ possibile ad esempio ricorrere ad una tecnica nota come

insieme di unità da classificare


Corso di Laurea: Gest. Cons. Documento Digitale
Insegnamento: Statistica Testuale (6 CFU)
Docente: M.Misuraca

012 – Dissimilarità, metrica e ultrametrica Unità n° 08

Per classificare un insieme di unità è necessario definire come raggruppare/separare chi è


simile/dissimile oppure vicino/lontano

h
i

A seconda della natura dei dati è possibile definire diversi tipi di distanze
Corso di Laurea: Gest. Cons. Documento Digitale
Insegnamento: Statistica Testuale (6 CFU)
Docente: M.Misuraca

013 – Una possibile strategia integrata Unità n° 08

Per poter analizzare e classificare automaticamente una collezione di documenti è necessario


partire da una tabella (documenti x forme):

– pretrattamento del corpus e costruzione della tabella lessicale

– Analisi delle Corrispondenze Lessicali

– Cluster Analisys sui fattori ottenuti dalla ACL

ATTENZIONE!!!
La classificazione ottenuta considera le diverse caratteristiche (in questo caso le forme) in
termini di UNIONE (OR) e non in termini di INTERSEZIONE (AND)

In fase di interpretazione sarebbe necessario ricorrere ad altri strumenti (marcaggio simbolico


o regole di associazione)
Corso di Laurea: Gest. Cons. Documento Digitale
Insegnamento: Statistica Testuale (6 CFU)
Docente: M.Misuraca

014 – Alcuni casi applicativi Unità n° 08

Il linguaggio della stampa:


analizzare e classificare le annate di un quotidiano

Il linguaggio della vita quotidiana:


come gli italiani raccontano le loro giornate

Il linguaggio dei bambini:


aggressività e bullismo nelle scuole

Il linguaggio di Sanremo:
i cambiamenti della Società attraverso le canzoni
Corso di Laurea: Gest. Cons. Documento Digitale
Insegnamento: Statistica Testuale (6 CFU)
Docente: M.Misuraca

015 – Il linguaggio della stampa Unità n° 08

Un campo di particolare interesse è quello relativo all’informazione giornalistica:

• è possibile confrontare rapidamente una stessa notizia riportata da fonti diverse


• è facile accedere ad archivi (più o meno completi) di annate complete

Il risultato è la possibilità pressoché illimitata di accedere ad una emeroteca virtuale

è una rivista mensile caratterizzata da una visione critica e


internazionale sui principali temi economici, politici, sociali e culturali
è pubblicato in 20 lingue diverse e distribuito in circa 30 paesi, su carta o in formato
elettronico
L’edizione italiana è composta da una selezione dei principali articoli, integralmente
tradotti dal francese, con in più recensioni su film e libri a cura della redazione italiana
Corso di Laurea: Gest. Cons. Documento Digitale
Insegnamento: Statistica Testuale (6 CFU)
Docente: M.Misuraca

016 – LMD in Italia dal 1998 al 2003 Unità n° 08

1 Sito Web del 3 Script in linguaggio Java


quotidiano

2 Pagine con gli articoli in 4 Corpus in formato testo


formato html

Il corpus contiene gli articoli pubblicati dal 1998 al 2003 nell’edizione italiana

Le sei annate complete sono state estratte dal Sito che ospita l’edizione elettronica in italiano
( ) e convertite in formato testo grazie ad uno script Java
realizzato appositamente per l’analisi

Con l’aiuto di un esperto, i 1914 articoli selezionati manualmente sono stati classificati in 32
categorie tematiche
Corso di Laurea: Gest. Cons. Documento Digitale
Insegnamento: Statistica Testuale (6 CFU)
Docente: M.Misuraca

017 – Evoluzione storica delle tematiche trattate Unità n° 08


Corso di Laurea: Gest. Cons. Documento Digitale
Insegnamento: Statistica Testuale (6 CFU)
Docente: M.Misuraca

018 – LMD in Italia dal 1998 al 2003 Unità n° 08


Corso di Laurea: Gest. Cons. Documento Digitale
Insegnamento: Statistica Testuale (6 CFU)
Docente: M.Misuraca

019 – LMD in Italia dal 1998 al 2003 Unità n° 08


Corso di Laurea: Gest. Cons. Documento Digitale
Insegnamento: Statistica Testuale (6 CFU)
Docente: M.Misuraca

020 – LMD in Italia dal 1998 al 2003 Unità n° 08


Corso di Laurea: Gest. Cons. Documento Digitale
Insegnamento: Statistica Testuale (6 CFU)
Docente: M.Misuraca

021 – Il linguaggio della vita quotidiana Unità n° 08

L’indagine multiscopo sulle famiglie Uso del Tempo 2002-2003 è stata condotta dall’ISTAT su un
campione di 21075 famiglie, per una totale di circa 55000 individui
Nella rilevazione sono stati utilizzati un questionario familiare, un questionario individuale per
ogni componente della famiglia campionata, un diario settimanale (età > 15 anni), un diario
giornaliero (età > 3 anni) su uno specifico giorno assegnato casualmente

Per ogni slot di 10 minuti è stato chiesto


di indicare l’attività principale, l’attività
parallela (concomitante), il luogo o (in caso di
spostamento) il mezzo di trasposto utilizzato,
altri (eventuali) attori coinvolti
La giornata è ricostruita per episodi:

dormo § W |. mi sono svegliata § W a casa |.


preparo il caffé § W a casa |. faccio
colazione con mio marito § W a casa |.
comincio a svegliare mia figlia § W a casa
|. la preparo per la scuola § W a casa |. le
preparo la colazione § W a casa |. porto mia
figlia a scuola § W in macchina |.…
Corso di Laurea: Gest. Cons. Documento Digitale
Insegnamento: Statistica Testuale (6 CFU)
Docente: M.Misuraca

022 – Il linguaggio della vita quotidiana Unità n° 08


Corso di Laurea: Gest. Cons. Documento Digitale
Insegnamento: Statistica Testuale (6 CFU)
Docente: M.Misuraca

023 – Il linguaggio della vita quotidiana Unità n° 08


Corso di Laurea: Gest. Cons. Documento Digitale
Insegnamento: Statistica Testuale (6 CFU)
Docente: M.Misuraca

024 – Il linguaggio dei bambini Unità n° 08

A 1635 bambini tra gli 8 e i 15 anni (5a elementare, 1a e 2a media) è stato somministrato un
questionario contenente 55 domande chiuse del tipo sempre / mai / qualche volta, e 17 aperte
(testuali) corredate da foto da descrivere

Dopo aver analizzato le informazioni contenute nelle domande chiuse ed aver ottenuto una
classificazione dei bambini rispetto alla loro aggressività ci si chiede:

I “bulli” hanno un linguaggio differente?

I bambini aggressivi hanno un linguaggio diverso dalle bambine aggressive?

I bambini aggressivi hanno un linguaggio diverso dagli adolescenti aggressivi?


Corso di Laurea: Gest. Cons. Documento Digitale
Insegnamento: Statistica Testuale (6 CFU)
Docente: M.Misuraca

025 – Il linguaggio dei bambini Unità n° 08

1 – aggressivi
2 – inadeguati
3 – poco o nessun disagio
Corso di Laurea: Gest. Cons. Documento Digitale
Insegnamento: Statistica Testuale (6 CFU)
Docente: M.Misuraca

026 – Il linguaggio dei bambini Unità n° 08


Corso di Laurea: Gest. Cons. Documento Digitale
Insegnamento: Statistica Testuale (6 CFU)
Docente: M.Misuraca

027 – La canzone italiana Unità n° 08

Sono state analizzati i testi delle canzoni presentate al Festival della Canzone italiana di
Sanremo dal 1951 al 2006 (1189 brani)

I testi sono stati sottoposti a lemmatizzazione e quindi sono stati categorizzati in base al
decennio di appartenenza

È stato analizzato il vocabolario per evidenziare il linguaggio specifico di ogni categoria, e


dopo aver costruito una tabella lessicale aggregata è stata effettuata una ACL

E’ possibile leggere in termini diacronici l’evoluzione della Società italiana attraverso


l’analisi delle parole delle canzoni?
Corso di Laurea: Gest. Cons. Documento Digitale
Insegnamento: Statistica Testuale (6 CFU)
Docente: M.Misuraca

028 – Analisi del linguaggio peculiare Unità n° 08


Cases Group : Anni 50
Internal Global Internal Global
Characteristic words Test-Value Probability
percentage percentage frequency frequency
amor 1.39 0.25 158 307 18.744 0.000
cuor 0.84 0.11 95 135 17.069 0.000
ancor 0.47 0.06 53 76 12.641 0.000
baciare 0.40 0.09 45 105 8.941 0.000
fior 0.17 0.02 19 22 8.348 0.000
papà 0.17 0.02 19 25 7.803 0.000
bimbo 0.26 0.05 29 58 7.800 0.000
vecchio 0.41 0.12 46 139 7.644 0.000

Cases Group : Anni 60


Internal Global Internal Global
Characteristic words Test-Value Probability
percentage percentage frequency frequency
amor 0.85 0.25 114 307 11.837 0.000
amare 1.28 0.64 173 771 8.913 0.000
giovane 0.27 0.05 36 64 8.665 0.000
piangere 0.58 0.22 78 266 8.006 0.000
bacio 0.46 0.16 62 192 7.767 0.000
ciao 0.29 0.08 39 92 7.547 0.000
vedere 0.89 0.45 120 547 7.180 0.000
sapere 1.80 1.14 243 1380 7.121 0.000
Corso di Laurea: Gest. Cons. Documento Digitale
Insegnamento: Statistica Testuale (6 CFU)
Docente: M.Misuraca

029 – Analisi del linguaggio peculiare Unità n° 08


Cases Group : Anni 70
Internal Global Internal Global
Characteristic words Test-Value Probability
percentage percentage frequency frequency
hippy 0.16 0.02 24 27 8.906 0.000
due 0.55 0.22 82 264 7.995 0.000
giallo 0.12 0.02 18 23 7.082 0.000
impazzire 0.19 0.04 28 54 6.925 0.000
tango 0.22 0.07 32 79 6.226 0.000
lavorare 0.11 0.02 16 24 6.051 0.000
morire 0.51 0.25 76 308 5.912 0.000
verde 0.14 0.04 21 44 5.640 0.000

Cases Group : Anni 80


Internal Global Internal Global
Characteristic words Test-Value Probability
percentage percentage frequency frequency
andare 0.89 0.63 269 764 6.332 0.000
canzone 0.37 0.22 111 261 6.165 0.000
Roma 0.08 0.03 24 31 5.962 0.000
idea 0.12 0.05 37 65 5.374 0.000
show 0.05 0.02 16 19 5.210 0.000
inventare 0.15 0.07 45 90 5.022 0.000
straniero 0.06 0.02 17 22 4.949 0.000
americano 0.04 0.01 13 15 4.780 0.000
Corso di Laurea: Gest. Cons. Documento Digitale
Insegnamento: Statistica Testuale (6 CFU)
Docente: M.Misuraca

030 – Analisi del linguaggio peculiare Unità n° 08


Cases Group : Anni 90
Internal Global Internal Global
Characteristic words Test-Value Probability
percentage percentage frequency frequency
terra 0.32 0.18 131 214 8.208 0.000
femmina 0.10 0.03 39 41 8.207 0.000
padre 0.12 0.05 50 63 7.338 0.000
gridare 0.19 0.10 75 120 6.390 0.000
alzare 0.10 0.05 39 55 5.524 0.000
bar 0.10 0.05 41 65 4.742 0.000
cambiare 0.37 0.26 148 319 4.706 0.000
nero 0.15 0.09 62 112 4.644 0.000

Cases Group : Anni 00


Internal Global Internal Global
Characteristic words Test-Value Probability
percentage percentage frequency frequency
parola 0.58 0.23 61 275 6.674 0.000
salire 0.25 0.06 27 76 6.349 0.000
piovere 0.17 0.05 18 61 4.525 0.000
fidare 0.08 0.01 8 14 4.362 0.000
oceano 0.08 0.01 9 18 4.343 0.000
capire 0.47 0.25 50 302 4.259 0.000
passione 0.09 0.02 10 23 4.254 0.000
naufragare 0.07 0.01 7 12 4.095 0.000
Corso di Laurea: Gest. Cons. Documento Digitale
Insegnamento: Statistica Testuale (6 CFU)
Docente: M.Misuraca

031 – Analisi del linguaggio peculiare Unità n° 08


Corso di Laurea: Gest. Cons. Documento Digitale
Insegnamento: Statistica Testuale (6 CFU)
Docente: M.Misuraca

032 – Analisi del linguaggio peculiare Unità n° 08