Sei sulla pagina 1di 6

Gestione e Analisi dei Dati

1. Introduzione al modello relazionale dei dati


Domande di ripasso
 Nei database relazionali, cosa rappresentano le righe e le colonne di una tabella?
La riga rappresenta l’ennupla e le colonne l’attributo
 Perché un database solitamente contiene più di una tabella?
Per ragioni di organizzazione dei dati; le tabelle vengono collegate mediante opportuni operatori
 Quali sono le operazioni di base per rispondere a delle interrogazioni a partire dalle tabelle di un database?
Selezione, proiezione, join ed operatori insiemistici di unione, intersezione e differenza
 Cos’è l’algebra relazionale?
Branca dell’algebra che definisce un insieme di operatori che sono applicabili a una o due tabelle e che
restituiscono come risultato una nuova tabella

2. Strumenti tecnologici
Domande di ripasso
 A cosa servono le diverse componenti di SQL, ovvero: DDL, DML, DCL?
DDL=definizione schemi database; DML=modifica e interrogazione database; DCL=gestione e controllo
degli utenti e degli accessi
 Cosa si intende per «motore SQL» di un DBMS?
sistema software progettato per consentire la creazione, la manipolazione e l'interrogazione efficiente di
database
 Quali prodotti commerciali e quali open source sono disponibili per DBMS?
Prodotti commerciali: Microsoft SQL Server, Oracle 11g, Microsoft Access
Prodotti open source: MySQL, PostgreSQL, OpenOffice.Org Base
 Qual è la relazione tra OpenOffice.org Base e HSQLDB?
HSQLB è il motore interno di Base, che viene utilizzato dallo strumento in mancanza di diversa
configurazione. Sta per HyperSQL Database, supporta quasi tutti gli standard di SQL ed è realizzato
completamente in Java.
 In OpenOffice.org Base, i due modi disponibili per comporre interrogazioni (o «Ricerche»), servono a
obiettivi diversi o sono sostanzialmente intercambiabili? Perché?
Interfaccia SQL e interfaccia grafica sono sostanzialmente intercambiabili, poiché consistono solo in
diverse procedure per (digitazione manuale dei comandi o selezionamento in appositi riquadri)
interrogare la tabella
3. Creazione di base dati Domande di ripasso
 Cosa sono una chiave primaria e una chiave esterna? Quale relazione sussiste tra loro?
La chiave primaria=insieme di attributi che identificano univocamente ogni ennupla della tabella. Porta il
sistema a controllare sempre che non esistano 2 ennuple aventi gli stessi valori degli attributi chiave
La chiave esterna= Una chiave esterna, nel contesto dei database relazionali, è un vincolo di integrità
referenziale tra due o più tabelle. Essa identifica una o più colonne di una tabella che referenzia una o più
colonne di un'altra tabella. Comando REFERENCES
 Qual è la sintassi per creare una tabella (senza vincoli)?
CREATE TABLE nome_tabella (
Attributo_1 dati_1,

Attributo_n dati_n,
PRIMARY KEY (Attributo_i,…,attributo_k)
);
 Quali sono i tipi di dato base di SQL?
Stringhe di caratteri, numeri, date, valori booleani
 Come si rappresentano in SQL le relazioni molti-a-molti?
Si crea una tabella ausiliaria che serva all’unico scopo di collegare le 2 tabelle di partenza
 Come si può forzare il DBMS a controllare che un attributo non assuma certi valori?
Vincoli di attributo, CHECK(condizione)
 Quali sono i modi possibili per popolare un database?
 Inserimento manuale
o INSERT nome_tabella VALUES (‘valore_1’,…,’valore_n’);

o INSERT nome_tabella SELECT…FROM…WHERE

 Importare dati dall’esterno

4. Interrogazione di una base di dati


Domande di ripasso
 Quali sono i costrutti SQL di base corrispondenti, rispettivamente, alle operazioni di selezione, proiezione,
prodotto cartesiano e join?
SELECT; SELECT* FROM tabella1, tabella2; SELECT* FROM tabella1 JOIN tabella2
 Quali sono gli operatori insiemistici di SQL?
Unione, intersezione e differenza
 Come si realizza il collegamento tramite join di tre o più tabelle?
SELECT <lista_attributi>
FROM tabella_1 JOIN tabella_2 ON primary key_1=primary key_2
 Quali operazioni consente di realizzare l’interfaccia grafica di OpenOffice.org Base, e quali no?
Possibili=selezione, proiezione, distinct, prodotto cartesiano e join
Non possibili=operatori insiemistici

5. Analisi di una base di dati


Domande di ripasso
 Quali sono le principali funzioni di SQL per manipolare le date?
EXTRACT(part FROM attributo_data) e DATEDIFF(‘timeunit’, data1, data2)
 Quali sono le operazioni di aggregazione?
 COUNT(attributo), conta I valori della tabella.
 COUNT (DISTINCT attributo), conta i valori distinti della tabella
 MIN(attributo), valore minore
 MAX(attributo), valore massimo
 SUM(attributo), somma dei valori
 AVG(attributo), media dei valori

SELECT operatore(attributo)
FROM <tabella>
WHERE <condizione>

 A quali tipi di dati si possono applicare le diverse operazioni di aggregazione?


Principalmente date, stringhe di caratteri e numeri
 Qual è l’effetto dei valori «NULL» sui diversi operatori di aggregazione?
I valori NULL non vengono contati
 A cosa serve la clausola «HAVING»?
Filtrare i risultati dell’aggregazione, nello stesso modo in cui WHERE filtra le ennuple della tabella
 Qual è la sintassi per ridenominare gli attributi, e in quali parti dell’interrogazione i nuovi nomi introdotti si
possono utilizzare?
SELECT …. AS ….; i nuovi nomi non possono essere usati nel resto dell’interrogazione

6. Introduzione al foglio di calcolo


Domande di ripasso
 Su un foglio di calcolo, cosa rappresentano le righe e le colonne?
Righe=ennuple di valori; colonne=attributi
 Quali sono i possibili contenuti di una cella?
Numeri, testo, date, orari e altro
 Com’è possibile fare riferimento al contenuto di una cella?
Riferimenti relativi (=cella di riferimento)

7. Strumenti software per il foglio elettronico


Domande di ripasso
 Quali sono le componenti principali dell’area di lavoro di un foglio di calcolo?
Insieme delle celle del foglio + barra modifica delle formule + barra selezione nome cella + barra selezione
foglio
 Un alias per un riferimento può essere utilizzato come riferimento relativo?

8. Statistica di base su foglio elettronico


Domande di ripasso
 In una tabella di un foglio di calcolo, a cosa corrispondono i termini di statistica generale come
popolazione, unità statistica e variabile?
Popolazione=rappresentata in forma tabellare nel foglio; unità statistica=righe; variabili=colonne
 Quali sono le differenze tra le misure di centralità media e mediana? Quali differenze tra media e moda?
Media=valore intermedio; mediana=valore centrale; moda=valore con frequenza più alta
9. Preparazione e pulizia dei dati
Domande di ripasso
 Quali sono le cause principali che generano la perdita dei dati?
Dati incompleti, presenza di rumore e inconsistenza
 Quali sono le strategie più comuni per ripristinare i valori mancanti?
o Ignorare le incomplete, eliminandole
o Inserire manualmente il valore
o Sostituire il valore con una costante (valore non ammissibile o, se testuale, “Non disponibile”)
o Sostituire il valore con la media dei rimanenti o, se testuale, con il valore più frequente
 Quali sono le tecniche più comuni per ridurre il rumore e gli outliers?
l’uso congiunto dell’operatore di ordinamento, il confronto tra media, mediana e frequenza, identificando il
valore errato.

 A cosa serve l’operazione di discretizzazione?


Operazioni in cui un insieme di valori continui viene trasformato in un insieme di valori discreti.
FUNZIONE: funzione SE del foglio elettronico [SE(Test;SeVero;SeFalso)]
I valori sono codificati attraverso il confronto con opportune soglie (es. intervalli uguali)
10. Strumenti software per il foglio elettronico
Domande di ripasso
 A cosa serve un datawarehouse?
Un datawarehouse è uno strumento che permette di integrare e memorizzare in modo efficiente diverse
sorgenti di dati in un unico servizio. Inoltre, queste analisi sono spesso condotte su periodi temporali ampi e
con enormi moli di dati.
 Che differenze esistono tra un fatto e un record di una tabella?
Fatto=dato elementare; record=struttura di dati eterogenei
 Cos’è una dimensione di un dataware house?
uno o più attributi del singolo fatto organizzati
 A cosa serve una gerarchia su una dimensione?
rendere possibile un’aggregazione specifica di insieme di fatti.
 Come si seleziona un insieme di fatti in un cubo?
Si possono immaginare i fatti del datawarehouse organizzati in un cubo a diverse dimensioni, dove ogni cubetto
rappresenta una singola aggregazione di fatti, su cui si applicano le funzioni di misura.