Data Science E Tecnologie Per Le Basi Di Dati (2022/2023)

Data Science E Tecnologie Per Le Basi Di Dati (2022/2023)

Informazioni generali

SSD: ING-INF/05

CFU: 8

Docenti: Elena Baralis, Tania Cerquitelli

Esercitatori: Daniele Apiletti, Flavio Giobergia, Alkis Koudounas, Eliana Pastor

Avvisi

  • 27-09-22: inizio delle lezioni!
  • Le slides relative al corso sono ancora in fase di modifica e saranno pubblicate di volta in volta.

Esami

Qua verranno pubblicati i risultati degli esami.


Slides delle lezioni

  • Introduzione al corso (slides)

Parte I

  • Data Science: introduzione (slides)
  • Data warehouse: introduzione (slides)
  • Data warehouse: progettazione concettuale e logica (slides)
  • Data warehouse: analisi (slides)
  • Data warehouse: progettazione fisica e alimentazione (slides)
  • Data lakes (slides)
  • Data mining process (slides)
  • Data preparation (slides)
  • Data mining: association rules (slides)
  • Data mining: classificazione (slides)
  • Data mining: clustering (slides)

Parte II

  • Introduzione al DBMS (slides)
  • Buffer Manager (slides)
  • Accesso fisico ai dati (slides)
  • Ottimizzatore delle query (slides)
  • Physical Design (slides)
  • Gestione della concorrenza (slides)
  • Gestione dell’affidabilità (slides)
  • DBMS distribuiti (slides)
  • NoSQL, beyond relational databases (slides)
  • Introduzione a MongoDB (slides)
  • ElasticSearch (slides)

Oracle


Slides delle esercitazioni

In questa sezione saranno pubblicati i testi delle esercitazioni, tra cui quelle svolte in aula, e temi d’esame.

SQL esteso

Data warehouse

  • Esercizio: Ditta elettrodomestici (testo)
  • Esercizio: Eccellenze Made in Italy (testo)
  • Esercizio: Teleriscaldamento (testo)
  • Esercizio: Pubblicazioni scientifiche (testo)

Ottimizzatore

  • Esercizio 1: Multe (testo)
  • Esercizio 2: Studenti (testo)
  • Esercizio 3: Atleti (testo)
  • Esercizio 4: Villaggio turistico (testo)


Esercitazioni di Laboratorio

Le esercitazioni di laboratorio inizieranno a partire dalla quarta settimana.

Le esercitazioni di laboratorio avverranno per squadre, secondo la seguente suddivisione di cognome:

  • AAA – CZZ: Team 1
  • DAA – GRA: Team 2
  • GRB – PEZ: Team 3
  • PFA – ZZZ: Team 4

I laboratori si svolgeranno durante le seguenti settimane (le date non sono al momento definitive — eventuali variazioni verranno comunicate con preavviso).

ArgomentoDataLunedi 8:30-10:00Martedi 11:30-13:00Martedi 16:00-17:30Martedi 17:30-19:00
Lab #1: SQL esteso in Oraclesettimana 17 ottobreTeam 3Team 4Team 1Team 2
Lab #2: Data Studiosettimana 24 ottobreTeam 4Team 3Team 2Team 1
Lab #3: Viste Materializzatesettimana 7 novembreTeam 3Team 4Team 1Team 2
Lab #4: Data mining settimana 14 novembreTeam 4Team 3Team 2Team 1
Lab per quaderno 2: data mining con RapidMinersettimana 21 novembreTeam 3Team 4Team 1Team 2
Lab #5: Ottimizzatoresettimana 28 novembreTeam 4Team 3Team 2Team 1
Lab #6: MongoDB settimana 12 dicembreTeam 1Team 2
Lab #6: MongoDBsettimana 19 dicembreTeam 3Team 4

Lab 1 – data warehouse e SQL esteso

  • Testo (pdf)
  • Data warehouse in formato csv (zip)
  • Il software necessario allo svolgimento del laboratorio sarà già installato sui computer del Labinf
  • Se si vuole svolgere il laboratorio a casa, seguire i seguenti tutorial di installazione per Oracle Database Express e Oracle SQL Developer:

Soluzione (pdf)

Lab 2 – data warehouse analytics and reporting (Google Data Studio)

Lab 3 – Viste Materializzate

Lab 4 – analisi di un dataset reale mediante il tool di machine learning RapidMiner

  • Testo (pdf)
  • Dataset (xls.zip)
  • RapidMiner
    • Introduzione a RapidMiner (pdf)
    • Guida aggiornata per l’installazione di RapidMiner Studio 9.8 (pdf)
    • Rapid Miner Studio 10 – link per download https://rapidminer.com/platform/educational/
      • È necessario registrare un account per scopi didattici, usando il ruolo “studente”, con la mail istituzionale
    • Esempi (zip)
    • NOTA: Per allocare un maggiore spazio di memoria per il processo di RapidMiner è necessario modificare lo script RapidMinerGUI.bat (in Windows) o RapidMinerGUI (sotto Linux), aumentando il valore di default assegnato alla variabile MAX_JAVA_MEMORY secondo la capacità del sistema utilizzato. Lo spazio di memoria deve essere indicato in MB.

Lab 5 – Ottimizzatore

  • Testo (pdf)
  • script per la generazione della base dati
  • script SQL utili (es. aggiornamento statistiche, create index)
  • descrizione delle operazioni nel piano di esecuzione

Lab 6 – database non relazionali (MongoDB)


Esercitazioni da consegnare (homework)

In questa sezione sono pubblicati i testi e le indicazioni per i “quaderni”, le esercitazioni da svolgere autonomamente durante il corso e da consegnare tramite caricamento sulla pagina del corso del portale della didattica (nella scheda “Consegna Elaborati”). La consegna nei tempi e modi previsti, e il superamento di un’eventuale verifica permettono agli studenti di ottenere punti aggiuntivi all’esame, in base alle modalità descritte nelle regole d’esame. Per chiedere informazioni sul quaderno, inviare un messaggio di posta elettronica agli esercitatori con le seguenti modalità.

  • Il messaggio deve avere come oggetto “DSTBD quaderno“.
  • Nel corpo del messaggio devono essere indicati il proprio nomecognome e numero di matricola, oltre alla richiesta specifica.

Affinché la consegna del quaderno sia presa in considerazione per ottenere il relativo punteggio, è necessario rispettare le seguenti condizioni:

  • Svolgere tutti i punti indicati nel testo degli esercizi.
  • Preparare un file in formato PDFDOC o ODT contenente lo svolgimento degli esercizi.
  • Assegnare il nome del file secondo il seguente formato (non è case sensitive): QuadernoN_Cognome_Nome_Matricola.XXX dove:
    • Matricola, Cognome e Nome sono da sostituire con i dati dello studente, eventuali lettere accentate sono da riportare senza accento, e nomi  o cognomi doppi (costituiti da più parole separate) devono essere riportati come una parola unica senza spazi;
    • la N che segue Quaderno deve essere sostituita con il numero di quaderno consegnato;
    • l’estensione del file XXX rispecchia il tipo di file prescelto per lo svolgimento degli esercizi (PDF, DOC o ODT).
    • Esempio: lo studente Marco Giulio De Medici, matricola S123456, consegna il quaderno numero 2 in formato PDF, il nome del file è Quaderno2_DeMedici_MarcoGiulio_s123456.PDF
    • Siccome i file caricati sono processati in modo automatico, l’assegnazione di un nome sbagliato al file comporta l’annullamento della consegna del relativo quaderno. Non saranno effettuate correzioni manuali dei nomi dei file dopo la consegna.
  • Caricare il file sul portale della didattica, nella scheda “Consegna Elaborati”, entro la data di scadenza indicata per ciascun quaderno.
    • Non sono permessi caricamenti multipli per lo stesso studente e quaderno.
    • Fa fede la data di caricamento indicata dal portale della didattica.
    • Siccome i file caricati sono processati in modo automatico, il caricamento oltre la scadenza comporta l’annullamento della consegna del relativo quaderno.
    • Durante la procedura di upload viene richiesto l’inserimento di un campo “Descrizione”. Riportare lo stesso nome assegnato al file secondo le specifiche sopra descritte (con o senza estensione, nel campo descrizione è ininfluente).
    • Solo coloro che non hanno accesso alla pagina web del corso sul portale della didattica possono consegnare le esercitazioni tramite mail agli esercitatori entro la data di consegna.
  • Sostenere con esito positivo il colloquio di verifica nella data prevista (si vedano le regole d’esame).

Quaderni consegnati per l’A.A. 2022/23

In caso di problemi, contattare Alkis Koudounas (alkis.koudounas@polito.it) entro il 22/01/2023 23:59 specificando tutte le informazioni del caso, per una verifica puntuale.

In seguito a ciascun appello, verranno estratti alcuni studenti per una discussione orale dei quaderni sottomessi. La mancata partecipazione alla discussione orale comporterà l’annullamento dei punti ricevuti. I diretti interessati verranno contattati via mail a seguito dell’esame scritto.

Discussione dei quaderni. Al termine dell’esame del 23/01/2023, i seguenti studenti dovranno recarsi presso il Lab5 del DAUIN (secondo piano, entrata Corso Castelfidardo 39) per la discussione dei loro quaderni:

  • 292686
  • 308473
  • 310252
  • 317149
  • 317320
  • 318018

Testo delle esercitazioni da consegnare (quaderni)