Sei sulla pagina 1di 11

CAP 1

UN SISTEMA INFORMATIVO GESTIONALE È L'INSIEME DELLE COMPONENTI DEDICATE


ALL'ACQUISIZIONE ANALISI E TRASMISSIONE DELLE INFORMAZIONI DURANTE I PROCESSI
ORGANIZZATIVI.I TIPI DI SISTEMI SONO LA PIANIFICAZIONE DELLE RISORSE AZIENDALI E RP
LA GESTIONE DELLE RELAZIONI CON I CLIENTI E LA BUSINESS INTELLIGENCE.IDENTIFICA IL
PIÙ APPROPRIATO APPROCCIO PER LEGGERE E PROCESSARE E TRASFORMARE I DATI
SUPPORTATI PER PRENDERE DECISIONI NELLE ORGANIZZAZIONI ESPONI IL CONCETTO DI
SOCIAL NETWORK CAPISCI LE TECNICHE PER COLLEZIONARE I DATI E CARATTERIZZA UN
NETWORK INNOVATIVO. DESCRIVI ED APPLICA LE TECNICHE DEL TEXT MEANING PER
STUDIARE LA SCIENZA LA TECNOLOGIA È L'INNOVAZIONE.UTILIZZA L'ANALISI DEI DATI E
DELLA RETE PER GENERARE INFO GRAFICHE SIANO DI SUPPORTO PER PRENDERE
DECISIONI NELLE ORGANIZZAZIONI.PROCESSI TECNOLOGICI HANNO NOTEVOLMENTE
AUMENTATO LE NOSTRE CAPACITÀ PER RACCOGLIERE ARCHIVIARE E ANALIZZARE I DATI. È
AUMENTATO L'ECCESSO DEI DATI CHE POTREBBE PORTARE AD UN SOVRACCARICO DI
INFORMAZIONI.

CAP 2

degree distribution = numero di connessioni tra due nodi. ci permette di dire se il network scale
free ovvero che la distribuzione è skiud e quindi nodi con pochi legami e pochi nodi con tanti
legami.

Ci affidiamo alla teoria dei grafi che sono dei modelli che mettono in relazione un paio di oggetti i
termini denotano le proprietà strutturali e le formule quantificano le proprietà. Un grafico è definito
come G(N,E). Le reti possono essere concepite come un insieme finito dei bordi in un insieme
finito di nodi. L'analisi dei social network è una prospettiva che comprende teorie modelli e
applicazioni che si esprimono in termini di relazioni tra unità sociali. La network analisi ha le sue
origini nella :

-matematica: sviluppo della notazione matematica per risolvere problemi relativamente complessi
(problema del ponte di Konisberg Emero e la probabilità di Marka)

-antropologia: anni 60 70 ad Harvard sviluppano la matematica per analisi

-psicologia: anni 20 come funziona la mente anni 30 sviluppo della socio metrica e del
comportamento di gruppo anni 40 teoria dell’equilibrio.

La network analisi s'è una metodologia per sviluppare le teorie.

teoria della rete: meccanismi e processi che interagiscono con le strutture di reti per produrre
determinati risultati per individui, gruppi e organizzazioni.

teoria delle reti: meccanismi e processi che spiegano il perché delle strutture delle reti.

Direzionalità dei legami:

- reti non indirizzate: legami con n direzionalità

- Reti dirette: legami con direzionalità

VALORE DEL LEGAME:

- reti non ponderate: legami con n peso

- Reti ponderate: legami con peso

- Reti firmate: legami positivi o negativi

La matrice di adiacenza è la matrice che rappresenta le connessioni tra i nodi.i dati relazionali
possono essere completati con attributi sui nodi.due nodi sono detti adiacenti se esiste un solo
legame tra essi. Una diade È una coppia di nodi e di legame tra loro.una triade è un insieme di tre
nodi e di legami tra loro. Un sottografo di G è Gs(Ns,Es) dove Ns è sottoinsieme di N e Es è
sottoinsieme di E.

Un walk è una sequenza di nodi in cui ogni nodo è adiacente al nodo precedente successivo.

Un trail è un percorso in cui tutti legami sono diversi ma i nodi possono ripetersi.

Un patt è un percorso in cui nodi e legami sono distinti.

Un closet wolk è un percorso che inizia e finisce dallo stesso nodo.

Un tour è un percorso in cui ogni legame viene usato almeno una volta.

Un ciclo è un percorso chiuso di almeno 3 nodi in cui i collegamenti sono distinti.

Il percorso più breve tra due nodi è detta distanza geodetica e se una retta non è connessa la
distanza sarà infinita almeno tra una coppia di nodi.

Un grafico bipartito è costituito da due famiglie di nodi.

Quando abbiamo più di due tipi di nodi parliamo di grafico S o modello S della rete.

In alcune reti i collegamenti possono unirsi più di due vertici. Possiamo rappresentarli con
ipergrafi dove i cerchi intorno i vertici sono detti iperlegami. Un multigrafo o Rete multiplex
presenta più tipi di legami.

L’ego network è l'insieme dei nodi collegati ad ego ed i legami tra essi.

CAP 3

La massima distanza geodetica è detta diametro. Va da 1 a N -1. Average path lenght non può
essere più grande del diametro.

La densità è il numero di bordi nel network sul numero di possibili bordi. Va da 0 a 1. La densità
dipende dalla taglia del network, confronto tra diversi tipi di network. Un componente è un sotto
grafo connesso di un network disconnesso.il numero di componenti dà informazioni sulla
connettività della rete. Il componente con più nodi è detto giant o componente più largo. Le
misure di rete basate sulla distanza tra i nodi come a APL vengono valutate in base al
componente più grande di una rete scollegata. Un punto di taglio è un nodo alla cui rimozione
aumenta il numero di componenti. Un ponte è un collegamento la cui rimozione aumento i
componenti.

il punto di connettività è il numero di minimo di nodi per rendere la rete scollegata:

Se la rete scollegata K=0

se la rete include almeno un punto di interruzione K=1

se dobbiamo rimuovere almeno due nodi K=2.

La connettività di linea è il numero minimo di legami che dobbiamo eliminare per disconnettere la
rete.

una clique è un sottografo di tre o più nodi dove esistono legami tra ogni paio di nodi.

una n-clique è un sotto grafo con la più grande distanza geodetica tra paia di nodi non più larga di
N.

L’inclusività è il numero di nodi connessi sul numero totale di nodi.

I nodi non connessi sono detti isolati.

due nodi sono raggiungibili se esiste un percorso tra essi.

la connettività di rete è il numero di nodi raggiungibili sui nodi totali.

la transitivita è il numero di triade chiuse sulla somma delle triadi aperte e chiuse.

REGOLE DI BROKERAGGIO

CAP 4

K-core è un sottografo dove ogni nodo ha un degree almeno uguale a k. Identifica i nodi che sono
al centro del network.

MISURE DELLA CENTRALITY : degree centrality, closeness centrality, betweenness centrality,


centralization,

centralisation

Bonachic centrality

Brokerage

CAP 5

Network analysis: strumento metodologico per supportare lo sviluppo delle teorie.

capitale sociale sono le risorse disponibili effettive e potenziali.

Teoria del capitale sociale:

1) Stregth of week ties: un legame più debole è in grado di trasmettere più informazioni di una
forte.

Premessa 1 : più è forte legame tra due attori più è probabile che i due mondi sociali di questi si
sovrappongano.

- Transitività A <-> B, B <-> C sono forti allora A <-> C almeno debole

- Omofilia : gli individui stabiliscono legami più forti con individui simili

Premessa 2 : I legami che fanno da ponte sono potenziali fonti di nuove idee; i legami di ponte
collegano individui non amici ed hanno accesso a nuove informazioni.

Premessa 1+2 : È improbabile che legami forti siano fonte di novità. è improbabile che i ponti
siano legami forti.

2) Brokerage and structural holes misure:

- effective network size and efficience

- Constrant

E’ probabile che i buchi della rete ego di un nodo forniscono al nodo nuove informazioni.

MODELLAZIONE E INTERFERENZA DI RETI per generare reti con proprietà che osserviamo nel
mondo reale

Erdos Renyi

Bernoulli

I modelli matematici sono basati su regole probabilistiche semplici per catturare meccanismi
specifici. Per i modelli statistici la rete osservata è considerata come una delle possibili
realizzazioni di un processo viene specificato un modello che mira ad adattarsi ai dati osservati

modelli matematici:

1) creazione di una rete di N nodi con struttura reticolare, ogni nodo è connesso a R dei vicini

2) Ogni bordo, indipendentemente e con probabilità P, si muove per essere incidente ad un altro
nodo.

modelli statistici:

- Modello del grafico casuale esponenziale:

considera l'assenza e la presenza del legame come variabile di risposta

la variabile di risposta dipende da un numero endogeno o esogeno

- modelli stocastici orientati all’attore

- Modello a blocchi di rete: stabilisce un legame tra due nodi che dipende dalla classe di
appartenenza dei due nodi

Limitazioni modello a grafo casuale:

Fissiamo una proprietà di rete in valori assoluti, come il numero di bordi, quindi generiamo una
distribuzione di reti con tale proprietà assumendo che i legami tra i nodi si verificano in maniera
casuale. Quello esponenziale dà maggiore flessibilità infatti si pensa sia il migliore.

CAP 10

Nella network analysis è ampiamente utilizzata la bibliometria (misura dei modelli nella
comunicazione scritta) / scientometrica ( studio quantitativo della scienza) per mappare scienza e
tecnologia. Principali tecniche di mappatura di blibliometria e scientometria: Citation Analysis, co-
word Analysis, overlay mapping.

Equivalenza strutturale : nodi che condividono molti vicini di rete (ad es. documenti citati dallo
stesso insieme di documenti)

Equivalenza regolare : nodi che hanno vicini simili a loro (es. direttori che hanno connessioni con i
loro gestori)

L’equivalenza strutturale serve a calcolare il peso delle connessioni. Si usa la distanza euclidea, la
co-occorrenza e il cosine similarity.

Machine learning: abilità del sistema di acquisire la propria conoscenza, estraendo modelli da
dati grezzi senza la necessità di fornire regole esplicite. Vengono generati algoritmi dal computer
per risolvere problemi di costruzione dei modelli che consento al computer di prendere decisioni.

Machine Learning è un campo dell'informatica che studia algoritmi e tecniche per automatizzare
soluzioni a problemi complessi che sono difficili da programmare utilizzando metodi di
programmazione convenzionali. Possono essere classificati sulla base della quantità e del tipo di
supervisione:

-Supervisionato: è dotata di un set di dati etichettati ovvero che includono la risposta alla
domanda. L’algoritmo costruisce il modello ed è in grado di rispondere ad una nuova domanda
generata da una nuova osservazione. Le applicazioni sono in classificazioni (spam) e prediction
(ritardo volo).

-Senza supervisione: dati senza etichetta ovvero non hanno la risposta alla domanda. Esempi:
topic modelling e co-words analysis

-Semisupervisionato: mix di supervisionato e non. Osservazioni parzialmente etichettate.


Esempio: tagging delle foto

-Insegnamento rafforzativo: il sistema di apprendimento , chiamato agente, osserva l’ambiente,


seleziona un’azione e la esegue. L’agente riceve premi o penalità così impara a sviluppare la
politica migliore.

CAP 9

Tipi di visualizzazione di Borner : tabelle, grafici (a torta), grafici (con sistema di riferimento),
mappe, layout di rete.

Il layout di rete può essere basics (si trasmetto informazioni tramite nodi, legami e posizioni) o
random (visione relativamente chiara della struttura di rete).

Gli algoritmi di layout sono stati sviluppati per migliorare la posizione dei nodi e la visualizzazione
della rete. La posizione dei nodi della rete è definita dalla struttura della rete e può essere:

-Kamada- Kawai : legami come molle per esercitare forze di attrazione e repulsione tra i nodi. La
lunghezza della molla è direttamente proporzionale alla più breve distanza tra i nodi e la forza
della molla è inversamente proporzionale al quadrato della distanza più breve tra due nodi.

-Fruchterman e Reingold : nodi come particelle atomiche o corpi celesti che esercitano forze
attrattive ( direttamente proporzionale al quadrato della distanza più breve tra due nodi) e
repulsive (inversamente proporzionali alla distanza più breve tra due nodi).

I simboli grafici sono rappresentazioni grafiche delle informazioni sui dati e sono di tipo
geometrico , linguistico e pittorico.

Le variabili grafiche vengono utilizzate per codificare dati aggiuntivi e sono di tipo spaziale o
retinate.

Data ink è la parte della grafica che non possiamo cancellare senza perdere informazioni; data
ink ratio è la proporzione dell’inchiostro di un grafico dedicata alla visualizzazione di informazioni
non ridondanti.

Data visualisation ci aiuta a comunicare i modelli e le relazione tra le variabili (non formabili con
semplici dati grezzi) in un storia e innescare emozioni e azione sempre in base al pubblico.

L'integrità grafica è una forma di comunicazione dei dati che può distorcere la comunicazione e
quindi i dati. Quindi la percezione visiva deve essere accurata.

Il lie factor è >1,05 e <0,95 e introduce una distorsione significativa.

CAP 8

Visualising text data: con bag of words possiamo considerare le parole che ricorrono nella stessa
frase, paragrafo, articolo o documento. Questa è la co-word analysis in cui viene generata una
rete con nodi=parole e legami= co-occorrenza di parole.

Ci soffermiamo sulle parole più presenti nel documento e sul grado ovvero i legami che questa
parola ha con le altre.

Cosine similarity indica la somiglianza tra parole presenti nello stesso documento.

Sentiment analysis estrae intenzioni emotive da documenti. Si basa su linguistica, psicologia e


NLP. Si usano i lessici della soggettività per classificare i documenti in maniera più semplice. Il
pacchetto tidytext include diversi lessici che sono Bing, AFINN e NRC. Bing classifica gli
unigrammi come positivo o negativo. AFINN assegna un punteggio da -5 (negativo) a +5
(positivo). NRC definisce emozioni primarie da cui derivano tutte le emozioni. Altri lessici sono
SentiWords( punteggio da -1 a 1), WordStat (sentimento negativo basato su due regole: parole
negative che non sono precedute da una negazione e parole positive che sono precedute da una
negazione), Modello (parole basate su polarità, soggettività, intensità e affidabilità) e Sentiment
140 (unigrammi, bigrammi e coppie classificati con sentimenti negativi e positivi sulla base di 1,6
milioni di tweet).

Topicmodelling assegna un documento all’argomento ed il computer lo fa autonomamente e


senza supervisione. L’approccio di modellazione è Latent Dirichlet Allocation (LDA) . Il documento
è un mix di argomenti latenti e i documenti si possono sovrapporre in base ai contenuti.
Sappiamo a priori quanto argomenti ci sono nei documenti. Un documento può appartenere a
diversi argomenti e le parole possono avere un diverso significato. LTA inizia ad assegnare
casualmente gli argomenti ai quali appartengono i documenti. Usiamo il pacchetto topic modello
e all'inizio abbiamo quattro argomenti. Possiamo tracciare i termini con la più alta probabilità per
ogni argomento. E’ bene eliminare le parole che si ripetono spesso quelle che si ripetono poco
che non sono importanti nella classificazione delle frasi. E’ un tipo machine learning unsupervised.

Si crea la matrice :prepariamo il testo rimuovendo le parole d’ordine e i numeri

CAP 7

Il text mining rappresenta la capacità di prendere grandi quantità di linguaggio non strutturato ed
estrarre rapidamente informazioni utili e nuove che possono influire sulle decisione delle parti
interessate - fabbricazione.

Aumenta l’accesso ai dati sotto forma di testo; è un fenomeno di notevole grandezza; i dati
testuali non sono strutturati.

Tipi di textmining:

-Bag of words: ordine delle parole e grammatica non sono considerati ed è poco costoso

-Sintatic parsing: sono presenti regole sintattiche per costruire la frase, le parole o gruppi sono
contrassegnati, è costoso e fornisce una analisi dettagliata della relazione tra gli elementi di un
corpus

Processing tasks

1) L’elaborazione preparatoria è il raggruppamento percettivo il cui scopo è raggruppare gli


elementi dei documenti in oggetti di livello superiore cioè generare file O-Tree.

2) La natural language processing (NLP) prevede tecniche per trasformare ed elaborare dati di
testo. E’ importante per la bags of words e sintattic parsing.

Tre approcci principali:

Part of speech tagging (POS ciascun elemento della frase viene classificato) che divide le parole
in base al ruolo che hanno nella frase;

Full parsing in cui l’obiettivo è l’analisi sintattica completa della frase identificando le grammatiche
di circoscrizione e di dipendenza ;

shallow parsing riduce la profondità dell’analisi, sono identificate le frasi semplici e brevi e sono
lasciate irrisolte quelle in cui c’è una dipendenza poco chiara.

3) L’elaborazione dipendente dal problema si occupa della categorizzazione e dell’estrazione di


entità, relazioni e espressioni riferite alla stessa entità.

Le tecniche per analizzare il testo sono:

1) Tokanization. L’obiettivo è suddividere il testo in elementi significativi (token) che potrebbero


essere un unigramma, un bigramma o un n-gramma. Usato per tidy data text dove ogni riga
riporta un token. Esempi: rimozione numeri, conteggio parole, post tagging, rimozione di
stopwords

2) Lemmatisation. I token sono ridotti alla loro forma base chiamata lemma (are->be). Utile per la
sentiment analysis

3) Stemming. Si rimuovono i suffissi (magically->magic) e le forme base sono chiamate stems.

4) Tf-idf (term frequency inverse document frequency). La frequenza dei termini da indicazione
sulle parole più frequenti. Con il tf-idf consideriamo le parole non frequenti ma significative nel
documento.

CAP 6

L'inferenza statistica è una disciplina che si occupa dello sviluppo di procedure, metodi e teoremi
che ci permettono di estrarre informazioni da dati generati da processi stocastici (casuali).

1
osserva il mondo reale

2 raccoglie e analizza i dati

3 osserva il mondo reale codificato

Data intelligence sono fonte di informazione e conoscenza per supportare il processo decisionale.

Tidy data: osservazioni in riga, variabili in colonna, ogni valore è nella cella

Trasformation data: 1 creazione nuove variabili 2 osservazioni filtranti 3 calcolo statistiche di


riepilogo

Untidy data:

-Valori in colonna, non variabili

-più variabili in una colonna

- variabili sia nelle righe che nelle colonne

- vari tipi di osservazione nella stessa tabella

- singola osservazione in più tabelle: leggi ogni tabella, aggiungi una nuova colonna con il nome
del file, combina tutte le tabelle.

Pivotting: -pivotting longer => da formato largo al lungo

- pivotting wider => da formato lungo allargo

- Pivotting longer and wider => sostituisce le funzioni di propagazione e raccolta

Spotting e combining (dividere e combinare)

- Separato => una colonna di un singolo carattere in più colonne

- unito => combinazione di colonne

- righe separate => più valori in una cella

Bibliographic capling : raggruppamento di documenti recenti in base alla citazione degli stessi
documenti nel passato; se ci sono documenti che citano gli stessi documenti passati, si
raggruppano negli stessi gruppi. Si raggruppano con le misure di distanza tra nodi e documenti
tipo cosine similaity.

Differenze tra Charts e graphs : entrambe danno un analisi quantitativa e qualitativa dei dati, il
chart senza un sistema di riferimento, il graph ha un sistema di riferimento

Co citation analysis

Metodi di raccolta dati: full network (studio il numero di nodi e di legami), ego network (chiedo
informazioni al nodo ego) e snowball (parto da un nodo e chiedo al nodo quali nodi sono
connessi ad esso e successivamente chiedo a questi nodi quali sono i nodi connessi ad essi ) il
limite è che ci potrebbero essere dei nodi isolati che non vengono calcolati

Potrebbero piacerti anche