Data Science E Tecnologie Per Le Basi Di Dati (2021/2022)

Data Science E Tecnologie Per Le Basi Di Dati (2021/2022)

Informazioni generali

SSD: ING-INF/05

CFU: 8

Docenti: Elena Baralis, Tania Cerquitelli

Esercitatori: Daniele Apiletti, Flavio Giobergia, Paolo Bethaz

Avvisi

  • 28-09-21: inizio delle lezioni!
  • Le slides relative al corso sono ancora in fase di modifica e saranno pubblicate di volta in volta.

Slides delle lezioni

  • Introduzione al corso (slides)

Parte I

  • Data Science: introduzione (slides)
  • Data warehouse: introduzione (slides)
  • Data warehouse: progettazione concettuale e logica (slides)
  • Data warehouse: analisi (slides)
  • Data warehouse: progettazione fisica e alimentazione (slides)
  • Data lakes (slides)
  • Data mining process (slides)
  • Data preparation (slides)
  • Data mining: association rules (slides)
  • Data mining: classificazione (slides)
  • Data mining: clustering (slides)

Parte II

  • Introduzione al DBMS (slides)
  • Buffer Manager (slides)
  • Accesso fisico ai dati (slides)
  • Ottimizzatore delle query (slides)
  • Physical Design (slides)
  • Gestione della concorrenza (slides)
  • Gestione dell’affidabilità (slides)
  • DBMS distribuiti (slides)
  • NoSQL, beyond relational databases (slides)

Oracle


Slides delle esercitazioni

In questa sezione saranno pubblicati i testi delle esercitazioni, tra cui quelle svolte in aula, e temi d’esame.

SQL esteso

  • SQL esteso e viste materializzate in Oracle (slides)
  • Esercizio 1 (testo)
  • Viste materializzate – Consulenza (testo)
  • Viste materializzate e trigger (testo) (soluzione)
    • Materiale di supporto (slides)

Data warehouse

  • Esercizio: Ditta elettrodomestici (testo)
  • Esercizio: Eccellenze Made in Italy (testo)

Ottimizzatore

  • Esercizio 1: Multe (testo)
  • Esercizio 2: Studenti (testo)
  • Esercizio 3: Atleti (testo)
  • Esercizio 4: Villaggio turistico (testo)


Esercitazioni di Laboratorio

Le esercitazioni di laboratorio inizieranno a partire dalla quarta settimana.

Le esercitazioni di laboratorio avverranno per squadre, secondo la seguente suddivisione di cognome:

  • AA – DZ: Mercoledì 14:30-16:00
  • EA – LZ: Mercoledì 16:00-17:30
  • MA – PZ: Lunedì 8:30-10:00
  • QA – ZZ: Venerdì 11:30-13:00

I laboratori si svolgeranno durante le seguenti settimane:

ArgomentoData
Lab #1: SQL esteso in Oraclesettimana 18 ottobre
Lab #2: Data Studiosettimana 25 ottobre
Lab #3: Viste Materializzatesettimana 8 novembre
Lab #4: Data mining settimana 15 novembre
Lab per quaderno 2: data mining con RapidMinersettimana 22 novembre
Lab #5: Ottimizzatoresettimana 29 novembre
Lab #6: MongoDB settimana 13 dicembre

Lab 1 – data warehouse e SQL esteso

  • Testo (pdf)
  • Data warehouse in formato csv (zip)
  • Il software necessario allo svolgimento del laboratorio sarà già installato sui computer del Labinf
  • Se si vuole svolgere il laboratorio a casa, seguire i seguenti tutorial di installazione per Oracle Database Express e Oracle SQL Developer:
  • Soluzione (pdf)

Lab 2 – data warehouse analytics and reporting (Google Data Studio)

Lab 3 – Viste Materializzate

Lab 4 – analisi di un dataset reale mediante il tool di machine learning RapidMiner

  • Testo (pdf)
  • dataset (xls.zip)
  • RapidMiner
    • Introduzione a RapidMiner (pdf)
    • Guida aggiornata per l’installazione di RapidMiner Studio 9.8 (pdf)
    • Guida RapidMiner (pdf)
    • Esempi (zip)
    • NOTA: Per allocare un maggiore spazio di memoria per il processo di RapidMiner è necessario modificare lo script RapidMinerGUI.bat (in Windows) o RapidMinerGUI (sotto Linux), aumentando il valore di default assegnato alla variabile MAX_JAVA_MEMORY secondo la capacità del sistema utilizzato. Lo spazio di memoria deve essere indicato in MB.

Lab 5 – Ottimizzatore

  • Testo (pdf)
  • script per la generazione della base dati
  • script SQL utili (es. aggiornamento statistiche, create index)
  • descrizione delle operazioni nel piano di esecuzione

Esercitazioni da consegnare (homework)

In questa sezione sono pubblicati i testi e le indicazioni per i “quaderni”, le esercitazioni da svolgere autonomamente durante il corso e da consegnare tramite caricamento sulla pagina del corso del portale della didattica (nella scheda “Consegna Elaborati”). La consegna nei tempi e modi previsti, e il superamento di un’eventuale verifica permettono agli studenti di ottenere punti aggiuntivi all’esame, in base alle modalità descritte nelle regole d’esame. Per chiedere informazioni sul quaderno, inviare un messaggio di posta elettronica agli esercitatori con le seguenti modalità.

  • Il messaggio deve avere come oggetto “DSTBD quaderno“.
  • Nel corpo del messaggio devono essere indicati il proprio nomecognome e numero di matricola, oltre alla richiesta specifica.

Affinché la consegna del quaderno sia presa in considerazione per ottenere il relativo punteggio, è necessario rispettare le seguenti condizioni:

  • Svolgere tutti i punti indicati nel testo degli esercizi.
  • Preparare un file in formato PDFDOC o ODT contenente lo svolgimento degli esercizi.
  • Assegnare il nome del file secondo il seguente formato (non è case sensitive): QuadernoN_Cognome_Nome_Matricola.XXX dove:
    • Matricola, Cognome e Nome sono da sostituire con i dati dello studente, eventuali lettere accentate sono da riportare senza accento, e nomi  o cognomi doppi (costituiti da più parole separate) devono essere riportati come una parola unica senza spazi;
    • la N che segue Quaderno deve essere sostituita con il numero di quaderno consegnato;
    • l’estensione del file XXX rispecchia il tipo di file prescelto per lo svolgimento degli esercizi (PDF, DOC o ODT).
    • Esempio: lo studente Marco Giulio De Medici, matricola S123456, consegna il quaderno numero 2 in formato PDF, il nome del file è Quaderno2_DeMedici_MarcoGiulio_s123456.PDF
    • Siccome i file caricati sono processati in modo automatico, l’assegnazione di un nome sbagliato al file comporta l’annullamento della consegna del relativo quaderno. Non saranno effettuate correzioni manuali dei nomi dei file dopo la consegna.
  • Caricare il file sul portale della didattica, nella scheda “Consegna Elaborati”, entro la data di scadenza indicata per ciascun quaderno.
    • Non sono permessi caricamenti multipli per lo stesso studente e quaderno.
    • Fa fede la data di caricamento indicata dal portale della didattica.
    • Siccome i file caricati sono processati in modo automatico, il caricamento oltre la scadenza comporta l’annullamento della consegna del relativo quaderno.
    • Durante la procedura di upload viene richiesto l’inserimento di un campo “Descrizione”. Riportare lo stesso nome assegnato al file secondo le specifiche sopra descritte (con o senza estensione, nel campo descrizione è ininfluente).
    • Solo coloro che non hanno accesso alla pagina web del corso sul portale della didattica possono consegnare le esercitazioni tramite mail agli esercitatori entro la data di consegna.
  • Sostenere con esito positivo il colloquio di verifica nella data prevista (si vedano le regole d’esame).

Il giorno in cui si sostiene la prova scrittaogni studente che ha consegnato i quaderni deve portare con sé la stampa dei file caricati sul portale.

Calendario esercitazioni da consegnare (quaderni)

  • Quaderno #1: Data Warehouse e Viste. Pubblicazione entro il 12/11/2021 (consegna 25/11/2021)
  • Quaderno #2: Data Mining. Pubblicazione entro il 19/11/2021 (consegna 02/12/2021)
  • Quaderno #3: Ottimizzatore. Pubblicazione entro il 03/12/2021 (consegna 16/12/2021)
  • Quaderno #4: MongoDB. Pubblicazione entro il 17/12/2021 (consegna 11/01/2022)

Testo delle esercitazioni da consegnare (quaderni)