Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
CAP 2
degree distribution = numero di connessioni tra due nodi. ci permette di dire se il network scale
free ovvero che la distribuzione è skiud e quindi nodi con pochi legami e pochi nodi con tanti
legami.
Ci affidiamo alla teoria dei grafi che sono dei modelli che mettono in relazione un paio di oggetti i
termini denotano le proprietà strutturali e le formule quantificano le proprietà. Un grafico è definito
come G(N,E). Le reti possono essere concepite come un insieme finito dei bordi in un insieme
finito di nodi. L'analisi dei social network è una prospettiva che comprende teorie modelli e
applicazioni che si esprimono in termini di relazioni tra unità sociali. La network analisi ha le sue
origini nella :
-matematica: sviluppo della notazione matematica per risolvere problemi relativamente complessi
(problema del ponte di Konisberg Emero e la probabilità di Marka)
-psicologia: anni 20 come funziona la mente anni 30 sviluppo della socio metrica e del
comportamento di gruppo anni 40 teoria dell’equilibrio.
teoria della rete: meccanismi e processi che interagiscono con le strutture di reti per produrre
determinati risultati per individui, gruppi e organizzazioni.
teoria delle reti: meccanismi e processi che spiegano il perché delle strutture delle reti.
La matrice di adiacenza è la matrice che rappresenta le connessioni tra i nodi.i dati relazionali
possono essere completati con attributi sui nodi.due nodi sono detti adiacenti se esiste un solo
legame tra essi. Una diade È una coppia di nodi e di legame tra loro.una triade è un insieme di tre
nodi e di legami tra loro. Un sottografo di G è Gs(Ns,Es) dove Ns è sottoinsieme di N e Es è
sottoinsieme di E.
Un walk è una sequenza di nodi in cui ogni nodo è adiacente al nodo precedente successivo.
Un trail è un percorso in cui tutti legami sono diversi ma i nodi possono ripetersi.
Un tour è un percorso in cui ogni legame viene usato almeno una volta.
Il percorso più breve tra due nodi è detta distanza geodetica e se una retta non è connessa la
distanza sarà infinita almeno tra una coppia di nodi.
Quando abbiamo più di due tipi di nodi parliamo di grafico S o modello S della rete.
In alcune reti i collegamenti possono unirsi più di due vertici. Possiamo rappresentarli con
ipergrafi dove i cerchi intorno i vertici sono detti iperlegami. Un multigrafo o Rete multiplex
presenta più tipi di legami.
L’ego network è l'insieme dei nodi collegati ad ego ed i legami tra essi.
CAP 3
La massima distanza geodetica è detta diametro. Va da 1 a N -1. Average path lenght non può
essere più grande del diametro.
La densità è il numero di bordi nel network sul numero di possibili bordi. Va da 0 a 1. La densità
dipende dalla taglia del network, confronto tra diversi tipi di network. Un componente è un sotto
grafo connesso di un network disconnesso.il numero di componenti dà informazioni sulla
connettività della rete. Il componente con più nodi è detto giant o componente più largo. Le
misure di rete basate sulla distanza tra i nodi come a APL vengono valutate in base al
componente più grande di una rete scollegata. Un punto di taglio è un nodo alla cui rimozione
aumenta il numero di componenti. Un ponte è un collegamento la cui rimozione aumento i
componenti.
La connettività di linea è il numero minimo di legami che dobbiamo eliminare per disconnettere la
rete.
una clique è un sottografo di tre o più nodi dove esistono legami tra ogni paio di nodi.
una n-clique è un sotto grafo con la più grande distanza geodetica tra paia di nodi non più larga di
N.
la transitivita è il numero di triade chiuse sulla somma delle triadi aperte e chiuse.
REGOLE DI BROKERAGGIO
CAP 4
K-core è un sottografo dove ogni nodo ha un degree almeno uguale a k. Identifica i nodi che sono
al centro del network.
centralisation
Bonachic centrality
Brokerage
CAP 5
1) Stregth of week ties: un legame più debole è in grado di trasmettere più informazioni di una
forte.
Premessa 1 : più è forte legame tra due attori più è probabile che i due mondi sociali di questi si
sovrappongano.
- Omofilia : gli individui stabiliscono legami più forti con individui simili
Premessa 2 : I legami che fanno da ponte sono potenziali fonti di nuove idee; i legami di ponte
collegano individui non amici ed hanno accesso a nuove informazioni.
Premessa 1+2 : È improbabile che legami forti siano fonte di novità. è improbabile che i ponti
siano legami forti.
- Constrant
E’ probabile che i buchi della rete ego di un nodo forniscono al nodo nuove informazioni.
MODELLAZIONE E INTERFERENZA DI RETI per generare reti con proprietà che osserviamo nel
mondo reale
Erdos Renyi
Bernoulli
I modelli matematici sono basati su regole probabilistiche semplici per catturare meccanismi
specifici. Per i modelli statistici la rete osservata è considerata come una delle possibili
realizzazioni di un processo viene specificato un modello che mira ad adattarsi ai dati osservati
modelli matematici:
1) creazione di una rete di N nodi con struttura reticolare, ogni nodo è connesso a R dei vicini
2) Ogni bordo, indipendentemente e con probabilità P, si muove per essere incidente ad un altro
nodo.
modelli statistici:
- Modello a blocchi di rete: stabilisce un legame tra due nodi che dipende dalla classe di
appartenenza dei due nodi
Fissiamo una proprietà di rete in valori assoluti, come il numero di bordi, quindi generiamo una
distribuzione di reti con tale proprietà assumendo che i legami tra i nodi si verificano in maniera
casuale. Quello esponenziale dà maggiore flessibilità infatti si pensa sia il migliore.
CAP 10
Nella network analysis è ampiamente utilizzata la bibliometria (misura dei modelli nella
comunicazione scritta) / scientometrica ( studio quantitativo della scienza) per mappare scienza e
tecnologia. Principali tecniche di mappatura di blibliometria e scientometria: Citation Analysis, co-
word Analysis, overlay mapping.
Equivalenza strutturale : nodi che condividono molti vicini di rete (ad es. documenti citati dallo
stesso insieme di documenti)
Equivalenza regolare : nodi che hanno vicini simili a loro (es. direttori che hanno connessioni con i
loro gestori)
L’equivalenza strutturale serve a calcolare il peso delle connessioni. Si usa la distanza euclidea, la
co-occorrenza e il cosine similarity.
Machine learning: abilità del sistema di acquisire la propria conoscenza, estraendo modelli da
dati grezzi senza la necessità di fornire regole esplicite. Vengono generati algoritmi dal computer
per risolvere problemi di costruzione dei modelli che consento al computer di prendere decisioni.
Machine Learning è un campo dell'informatica che studia algoritmi e tecniche per automatizzare
soluzioni a problemi complessi che sono difficili da programmare utilizzando metodi di
programmazione convenzionali. Possono essere classificati sulla base della quantità e del tipo di
supervisione:
-Supervisionato: è dotata di un set di dati etichettati ovvero che includono la risposta alla
domanda. L’algoritmo costruisce il modello ed è in grado di rispondere ad una nuova domanda
generata da una nuova osservazione. Le applicazioni sono in classificazioni (spam) e prediction
(ritardo volo).
-Senza supervisione: dati senza etichetta ovvero non hanno la risposta alla domanda. Esempi:
topic modelling e co-words analysis
CAP 9
Tipi di visualizzazione di Borner : tabelle, grafici (a torta), grafici (con sistema di riferimento),
mappe, layout di rete.
Il layout di rete può essere basics (si trasmetto informazioni tramite nodi, legami e posizioni) o
random (visione relativamente chiara della struttura di rete).
Gli algoritmi di layout sono stati sviluppati per migliorare la posizione dei nodi e la visualizzazione
della rete. La posizione dei nodi della rete è definita dalla struttura della rete e può essere:
-Kamada- Kawai : legami come molle per esercitare forze di attrazione e repulsione tra i nodi. La
lunghezza della molla è direttamente proporzionale alla più breve distanza tra i nodi e la forza
della molla è inversamente proporzionale al quadrato della distanza più breve tra due nodi.
-Fruchterman e Reingold : nodi come particelle atomiche o corpi celesti che esercitano forze
attrattive ( direttamente proporzionale al quadrato della distanza più breve tra due nodi) e
repulsive (inversamente proporzionali alla distanza più breve tra due nodi).
I simboli grafici sono rappresentazioni grafiche delle informazioni sui dati e sono di tipo
geometrico , linguistico e pittorico.
Le variabili grafiche vengono utilizzate per codificare dati aggiuntivi e sono di tipo spaziale o
retinate.
Data ink è la parte della grafica che non possiamo cancellare senza perdere informazioni; data
ink ratio è la proporzione dell’inchiostro di un grafico dedicata alla visualizzazione di informazioni
non ridondanti.
Data visualisation ci aiuta a comunicare i modelli e le relazione tra le variabili (non formabili con
semplici dati grezzi) in un storia e innescare emozioni e azione sempre in base al pubblico.
L'integrità grafica è una forma di comunicazione dei dati che può distorcere la comunicazione e
quindi i dati. Quindi la percezione visiva deve essere accurata.
CAP 8
Visualising text data: con bag of words possiamo considerare le parole che ricorrono nella stessa
frase, paragrafo, articolo o documento. Questa è la co-word analysis in cui viene generata una
rete con nodi=parole e legami= co-occorrenza di parole.
Ci soffermiamo sulle parole più presenti nel documento e sul grado ovvero i legami che questa
parola ha con le altre.
Cosine similarity indica la somiglianza tra parole presenti nello stesso documento.
CAP 7
Il text mining rappresenta la capacità di prendere grandi quantità di linguaggio non strutturato ed
estrarre rapidamente informazioni utili e nuove che possono influire sulle decisione delle parti
interessate - fabbricazione.
Aumenta l’accesso ai dati sotto forma di testo; è un fenomeno di notevole grandezza; i dati
testuali non sono strutturati.
Tipi di textmining:
-Bag of words: ordine delle parole e grammatica non sono considerati ed è poco costoso
-Sintatic parsing: sono presenti regole sintattiche per costruire la frase, le parole o gruppi sono
contrassegnati, è costoso e fornisce una analisi dettagliata della relazione tra gli elementi di un
corpus
Processing tasks
2) La natural language processing (NLP) prevede tecniche per trasformare ed elaborare dati di
testo. E’ importante per la bags of words e sintattic parsing.
Part of speech tagging (POS ciascun elemento della frase viene classificato) che divide le parole
in base al ruolo che hanno nella frase;
Full parsing in cui l’obiettivo è l’analisi sintattica completa della frase identificando le grammatiche
di circoscrizione e di dipendenza ;
shallow parsing riduce la profondità dell’analisi, sono identificate le frasi semplici e brevi e sono
lasciate irrisolte quelle in cui c’è una dipendenza poco chiara.
2) Lemmatisation. I token sono ridotti alla loro forma base chiamata lemma (are->be). Utile per la
sentiment analysis
4) Tf-idf (term frequency inverse document frequency). La frequenza dei termini da indicazione
sulle parole più frequenti. Con il tf-idf consideriamo le parole non frequenti ma significative nel
documento.
CAP 6
L'inferenza statistica è una disciplina che si occupa dello sviluppo di procedure, metodi e teoremi
che ci permettono di estrarre informazioni da dati generati da processi stocastici (casuali).
1
osserva il mondo reale
Data intelligence sono fonte di informazione e conoscenza per supportare il processo decisionale.
Tidy data: osservazioni in riga, variabili in colonna, ogni valore è nella cella
Untidy data:
- singola osservazione in più tabelle: leggi ogni tabella, aggiungi una nuova colonna con il nome
del file, combina tutte le tabelle.
Bibliographic capling : raggruppamento di documenti recenti in base alla citazione degli stessi
documenti nel passato; se ci sono documenti che citano gli stessi documenti passati, si
raggruppano negli stessi gruppi. Si raggruppano con le misure di distanza tra nodi e documenti
tipo cosine similaity.
Differenze tra Charts e graphs : entrambe danno un analisi quantitativa e qualitativa dei dati, il
chart senza un sistema di riferimento, il graph ha un sistema di riferimento
Co citation analysis
Metodi di raccolta dati: full network (studio il numero di nodi e di legami), ego network (chiedo
informazioni al nodo ego) e snowball (parto da un nodo e chiedo al nodo quali nodi sono
connessi ad esso e successivamente chiedo a questi nodi quali sono i nodi connessi ad essi ) il
limite è che ci potrebbero essere dei nodi isolati che non vengono calcolati