Data Science E Tecnologie Per Le Basi Di Dati (2023/2024)

Data Science E Tecnologie Per Le Basi Di Dati (2023/2024)

Informazioni generali

SSD: ING-INF/05

CFU: 8

Docenti: Elena Baralis, Tania Cerquitelli

Esercitatori: Daniele Apiletti, Alkis Koudounas, Daniele Rege Cambrin

Avvisi

  • [21-02-2024] – La lista dei sorteggiati per la discussione dei quaderni (appello 22/02/2024) e’ appena stata pubblicata nella sezione apposita di questa pagina (“Quaderni consegnati”)
  • [24-01-2024] – La lista dei sorteggiati per la discussione dei quaderni (appello 29/01/2024) e’ appena stata pubblicata nella sezione apposita di questa pagina (“Quaderni consegnati”)
  • [16-01-2024] – I punteggi relativi ai quaderni sono appena stati pubblicati nella sezione apposita di questa pagina (“Quaderni consegnati”)
  • [21-12-2023] – Il testo del quarto quaderno e’ appena stato pubblicato nella sezione apposita di questa pagina (“Esercitazioni da consegnare (homework)”)
  • [14-12-2023] – Il sesto laboratorio si terra’ venerdi’ 15-12-2023 — Il testo e’ appena stato pubblicato nella sezione apposita di questa pagina (“Esercitazioni di Laboratorio”)
  • [07-12-2023] – Il testo del terzo quaderno e’ appena stato pubblicato nella sezione apposita di questa pagina (“Esercitazioni da consegnare (homework)”)
  • [30-11-2023] – Il quinto laboratorio si terra’ venerdi’ 01-12-2023 — Il testo e’ appena stato pubblicato nella sezione apposita di questa pagina (“Esercitazioni di Laboratorio”)
  • [24-11-2023] – Il testo del secondo quaderno e’ appena stato pubblicato nella sezione apposita di questa pagina (“Esercitazioni da consegnare (homework)“)
  • [21-11-2023] – Il quarto laboratorio si terra’ venerdi’ 24-11-2023 — Il testo e’ appena stato pubblicato nella sezione apposita di questa pagina (“Esercitazioni di Laboratorio“)
  • [15-11-2023] – Il testo del primo quaderno e’ appena stato pubblicato nella sezione apposita di questa pagina (“Esercitazioni da consegnare (homework)“)
  • [07-11-2023] – Il terzo laboratorio si terra’ venerdi’ 10-11-2023 — Il testo e’ appena stato pubblicato nella sezione apposita di questa pagina (“Esercitazioni di Laboratorio“)
  • [31-10-2023] – Il secondo laboratorio si terra’ venerdi’ 03-11-2023 — Il testo e’ appena stato pubblicato nella sezione apposita di questa pagina (“Esercitazioni di Laboratorio“)
  • [23-10-2023] – I laboratori inizieranno venerdi’ 27-10-2023 — La suddivisione degli studenti in team e’ stata pubblicata (Sezione “Esercitazioni di Laboratorio” di questa pagina)

Slides delle lezioni

  • Introduzione al corso (slides)

Parte I

  • Data Science: introduzione (slides)
  • Data warehouse: introduzione (slides)
  • Data warehouse: progettazione concettuale e logica (slides)
  • Data warehouse: analisi (slides)
  • Data warehouse: progettazione fisica e alimentazione (slides)
  • Data lakes (slides)
  • Data mining process (slides)
  • Data preparation (slides)
  • Data mining: association rules (slides)
  • Data mining: classificazione (slides)
  • Data mining: clustering (slides)

Parte II

  • Introduzione al DBMS (slides)
  • Buffer Manager (slides)
  • Accesso fisico ai dati (slides)
  • Ottimizzatore delle query (slides)
  • Physical Design (slides)
  • Gestione della concorrenza (slides)
  • Gestione dell’affidabilità (slides)
  • DBMS distribuiti (slides)
  • NoSQL, beyond relational databases (slides)
  • Introduzione a MongoDB (slides)
  • ElasticSearch (slides)

Oracle


Slides delle esercitazioni

In questa sezione saranno pubblicati i testi delle esercitazioni, tra cui quelle svolte in aula, e temi d’esame.

SQL esteso

Data warehouse

  • Esercizio: Ditta elettrodomestici (testo)
  • Esercizio: Eccellenze Made in Italy (testo)
  • Esercizio: Teleriscaldamento (testo)
  • Esercizio: Pubblicazioni scientifiche (testo)

Ottimizzatore

  • Esercizio 1: Multe (testo)
  • Esercizio 2: Studenti (testo)
  • Esercizio 3: Atleti (testo)
  • Esercizio 4: Villaggio turistico (testo)


Esercitazioni di Laboratorio

Le esercitazioni di laboratorio inizieranno a partire dalla quarta settimana.

Ricordarsi di portare il proprio pc per svolgere il laboratorio.

Le esercitazioni di laboratorio avverranno per squadre, secondo la seguente suddivisione di cognome:

  • [Corso Baralis] AAA – CZZ: Team 1
  • [Corso Baralis] DAA – GRA: Team 2
  • [Corso Cerquitelli] GRB – PEZ: Team 3
  • [Corso Cerquitelli] PFA – ZZZ: Team 4

I laboratori si svolgeranno durante le seguenti settimane (le date non sono al momento definitive — eventuali variazioni verranno comunicate con preavviso).

CORSO BARALIS: AAA-GRA (Team 1-2) – LAIB 1T

ArgomentoDataVenerdì 10:00-11:30Venerdì 11:30-13:00
Lab #1: SQL esteso in Oraclesettimana 23 ottobreTeam 1Team 2
Lab #2: Data Studiosettimana 30 ottobreTeam 2Team 1
Lab #3: Viste Materializzatesettimana 6 novembreTeam 1Team 2
Lab #4: Data mining settimana 20 novembreTeam 2Team 1
Lab #5: Ottimizzatoresettimana 27 novembreTeam 1Team 2
Lab #6: MongoDB settimana 11 dicembreTeam 2Team 1

CORSO CERQUITELLI: GRB-ZZZ (Team 3-4) – LAIB 3

ArgomentoDataVenerdì 8:30-10:00Venerdì 10:00-11:30
Lab #1: SQL esteso in Oraclesettimana 23 ottobreTeam 3Team 4
Lab #2: Data Studiosettimana 30 ottobreTeam 4Team 3
Lab #3: Viste Materializzatesettimana 6 novembreTeam 3Team 4
Lab #4: Data mining settimana 20 novembreTeam 4Team 3
Lab #5: Ottimizzatoresettimana 27 novembreTeam 3Team 4
Lab #6: MongoDB settimana 11 dicembreTeam 4Team 3

Lab 1 – Data Warehouse e SQL Esteso

  • Testo (pdf)
    • Data warehouse in formato csv (zip) e sql (zip)
    • Se si vuole svolgere il laboratorio online usare Oracle Live SQL (guida)
      • Qui si trova una guida completa su come utilizzare Oracle Live SQL per questo laboratorio
    • Se si vuole svolgere il laboratorio a casa, seguire i seguenti tutorial di installazione per Oracle Database Express e Oracle SQL Developer:
  • Soluzione (pdf)

Lab 2 – Data Warehouse Analytics and Reporting (Google Data Studio)

Lab 3 – Viste Materializzate

Lab 4 – Analisi di un dataset reale mediante il tool di Machine Learning RapidMiner

  • Rapidminer
    • Introduzione a RapidMiner (pdf)
    • Guida aggiornata per l’installazione di RapidMiner Studio 9.8 (pdf)
    • Rapid Miner Studio 10 – link per download https://rapidminer.com/platform/educational/
      • È necessario registrare un account per scopi didattici, usando il ruolo “studente”, con la mail istituzionale
    • Esempi (zip)
    • NOTA: Per allocare un maggiore spazio di memoria per il processo di RapidMiner e’ necessario modificare lo script RapidMinerGUI.bat (in Windows) o RapidMinerGUI (sotto Linux), aumentando il valore di default assegnato alla variabile MAX_JAVA_MEMORY secondo la capacità del sistema utilizzato. Lo spazio di memoria deve essere indicato in MB.

Lab 5 – Ottimizzatore

  • Testo (pdf)
    • script per la generazione della base dati
    • script SQL utili (es. aggiornamento statistiche, create index)
    • descrizione delle operazioni nel piano di esecuzione
    • Scaricare SQL Developer qui (N.B., non e’ necessario scaricare Oracle Database Express)

Lab 6 – Database non Relazionali (MongoDB)


Esercitazioni da consegnare (homework)

In questa sezione sono pubblicati i testi e le indicazioni per i “quaderni”, le esercitazioni da svolgere autonomamente durante il corso e da consegnare tramite caricamento sulla pagina del corso del portale della didattica (nella scheda “Consegna Elaborati”). La consegna nei tempi e modi previsti, e il superamento di un’eventuale verifica permettono agli studenti di ottenere punti aggiuntivi all’esame, in base alle modalità descritte nelle regole d’esame. Per chiedere informazioni sul quaderno, inviare un messaggio di posta elettronica agli esercitatori con le seguenti modalità.

  • Il messaggio deve avere come oggetto “DSTBD quaderno“.
  • Nel corpo del messaggio devono essere indicati il proprio nomecognome e numero di matricola, oltre alla richiesta specifica.

Affinché la consegna del quaderno sia presa in considerazione per ottenere il relativo punteggio, è necessario rispettare le seguenti condizioni:

  • Svolgere tutti i punti indicati nel testo degli esercizi.
  • Preparare un file in formato PDF contenente lo svolgimento degli esercizi.
  • Assegnare il nome del file secondo il seguente formato (non è case sensitive): QuadernoN_Cognome_Nome_Matricola.XXX dove:
    • Matricola, Cognome e Nome sono da sostituire con i dati dello studente, eventuali lettere accentate sono da riportare senza accento, e nomi  o cognomi doppi (costituiti da più parole separate) devono essere riportati come una parola unica senza spazi;
    • la N che segue Quaderno deve essere sostituita con il numero di quaderno consegnato;
    • l’estensione del file XXX rispecchia il tipo di file prescelto per lo svolgimento degli esercizi (PDF).
    • Esempio: lo studente Marco Giulio De Medici, matricola S123456, consegna il quaderno numero 2 in formato PDF, il nome del file è Quaderno2_DeMedici_MarcoGiulio_s123456.PDF
    • Siccome i file caricati sono processati in modo automatico, l’assegnazione di un nome sbagliato al file comporta l’annullamento della consegna del relativo quaderno. Non saranno effettuate correzioni manuali dei nomi dei file dopo la consegna.
  • Caricare il file sul portale della didattica, nella scheda “Consegna Elaborati”, entro la data di scadenza indicata per ciascun quaderno.
    • Non sono permessi caricamenti multipli per lo stesso studente e quaderno.
    • Fa fede la data di caricamento indicata dal portale della didattica.
    • Siccome i file caricati sono processati in modo automatico, il caricamento oltre la scadenza comporta l’annullamento della consegna del relativo quaderno.
    • Durante la procedura di upload viene richiesto l’inserimento di un campo “Descrizione”. Riportare lo stesso nome assegnato al file secondo le specifiche sopra descritte (con o senza estensione, nel campo descrizione è ininfluente).
    • Solo coloro che non hanno accesso alla pagina web del corso sul portale della didattica possono consegnare le esercitazioni tramite mail agli esercitatori entro la data di consegna.
  • Sostenere con esito positivo il colloquio di verifica nella data prevista (si vedano le regole d’esame).

Testo delle esercitazioni da consegnare (quaderni)

Quaderni consegnati per l’A.A. 2023/24

Quaderni Consegnati (pdf)

In caso di problemi, contattare Alkis Koudounas (alkis.koudounas@polito.it) entro il 26/01/2024 23:59 specificando tutte le informazioni del caso, per una verifica puntuale.

In seguito a ciascun appello, verranno estratti alcuni studenti per una discussione orale dei quaderni sottomessi. La mancata partecipazione alla discussione orale comporterà l’annullamento dei punti ricevuti. I diretti interessati verranno contattati via mail a seguito dell’esame scritto.

Discussione dei quaderni. Al termine dell’esame del 29/01/2024, i seguenti studenti dovranno recarsi in aula R1 per la discussione dei loro quaderni:

  • 319817 
  • 329502 
  • 331059 
  • 331062 
  • 331469   
  • 332008   
  • 332937 
  • 332958 

Al termine dell’esame del 22/02/2024, i seguenti studenti dovranno recarsi in aula R1 per la discussione dei loro quaderni:

  • 285493 
  • 305940 
  • 308523
  • 320096  
  • 320114 
  • 331199 
  • 331392 
  • 332968