Data science e tecnologie per le basi di dati (2019/2020)
Table of content
- Informazioni generali
- Avvisi
- Esami
- Slides delle lezioni
- Slides delle esercitazioni
- Temi d’esame
- Tutoraggio
- Esercitazioni di Laboratorio
- Materiale per svolgere i laboratori sul proprio pc
- Esercitazioni da consegnare (homework)
Informazioni generali
- CFU: 8
- Docente: Elena Baralis
- Esercitatori: Daniele Apiletti, Andrea Pasini, Flavio Giobergia
Avvisi
- 22/04/2020 – sono state pubblicate le regole d’esame specifiche dell’appello straordinario di recupero causa emergenza COVID-19.
- 15/11/2019 – è stato pubblicato il calendario delle sessioni di tutoraggio.
- 01/11/2019 – Sono stati pubblicati il calendario con le scadenze per le consegne dei quaderni ed il testo del primo quaderno.
- 25/10/2019 – è stato pubblicato il calendario completo dei laboratori.
Esami
- *NEW* Appello del 31 agosto 2020
-
- Voti dell’esame scritto (pdf)
-
- Appello del 19 giugno 2020
-
- Voti dell’esame scritto (pdf)
- Soluzione dell’esame scritto (pdf)
- Regole specifiche dell’appello, ad integrazione di quanto già comunicato a livello di ateneo.
-
- Appello del 9 maggio 2020 – recupero straordinario causa emergenza COVID-19
-
- Regole specifiche dell’appello, ad integrazione di quanto già comunicato a livello di ateneo.
- Nota importante alla pubblicazione dei risultati
- Voti dell’esame scritto
- Testo e soluzione
-
- Appello del 7 febbraio 2020
-
- Voti dell’esame scritto
- Lista dei punteggi ottenuti con lo svolgimento dei quaderni durante il corso.
- Regole d’esame generali per gli appelli in presenza fisica (pdf); NB: per gli appelli svolti in remoto, es. per l’appello straordinario di recupero causa COVID-19, valgono solo le regole specifiche.
- L’esame scritto è obbligatorio, l’esame orale è facoltativo. Per accedere all’esame scritto, valgono le classiche procedure di prenotazione tramite il portale della didattica. Invece per accedere all’esame orale è necessario rispettare le condizioni indicate nelle regole d’esame e, in aggiunta allo scritto, prenotarsi in anticipo. Le istruzioni specifiche per prenotarsi all’esame orale sono state inviate via email istituzionale a tutti gli studenti iscritti al corso.
- Dettagli sugli esami orali:
- Gli studenti saranno allocati nella date prescelte dagli stessi fino ad esaurimento della disponibilità temporale, in ordine di adesione (fa fede il timestamp del form). In caso di eventuale saturazione, saranno aggiunte nuove disponibilità.
- E’ possibile annullare la propria prenotazione fino al giorno precedente alla data dell’orale. In caso di imprevisti all’ultimo minuto, si invitano gli studenti a segnalare in ogni caso la loro assenza per facilitare l’organizzazione dei colloqui.
- Per ulteriori informazioni sull’esame orale, scrivere a Andrea Pasini (nome.cognome@polito.it) con subject del messaggio “Orali DSTBD”.
Slides delle lezioni
- Introduzione al corso (slides)
Parte I
- Data Science: introduzione (slides)
- Data warehouse: introduzione (slides)
- Data warehouse: progettazione (slides)
- Data warehouse: analisi (slides)
- Data mining: introduzione (slides)
- Data mining: preprocessing (slides)
- Data mining: Association rules (slides). New, aggiornato il 17/10/2019
- Data mining: classificazione (slides)
- Data mining: classificazione, Random Forests (slides)
- Data mining: classificazione, reti neurali (slides)
- Data mining: clustering (slides)
Parte II
- Triggers (slides)
- Introduzione ai DBMS (slides)
- Buffer Manager (slides)
- Accesso fisico ai dati (slides)
- Ottimizzazione delle query (slides)
- Physical Design (slides)
- Gestione della concorrenza (slides)
- Gestione dell’affidabilità (slides)
- DBMS distribuiti (slides)
- Beyond relational databases (slides)
- MongoDB (part1, part2)
Oracle
- Oracle Optimizer (2 slides per page, 6 slides per page)
- with examples (2 slides per page,6 slides per page)
- Hints (2 slides per page, 6 slides per page)
- Documentazione
- Oracle Database 10g documentation library
- Oracle Database Performance Tuning Guide
- The Query Optimizer
- Statistiche sugli indici, significato delle colonne nelle tabelle delle statistiche (es. CLUSTERING_FACTOR)
- Statistiche sulle tabelle, significato delle colonne nelle tabelle delle statistiche (es. EMPTY_BLOCKS)
Slides delle esercitazioni
In questa sezione saranno pubblicati i testi delle esercitazioni, tra cui quelle svolte in aula, e temi d’esame.
SQL esteso
Data warehouse
- Esercizio: Ditta elettrodomestici (Testo, Bozza soluzione)
- Esercizio: Eccellenze Made in Italy (Testo, Bozza soluzione Modello Concettuale, Bozza soluzione interrogazioni in SQl esteso)
- Esercizio: Sito per la pubblicazione di annunci relativi all’affitto di immobili (Testo, Bozza soluzione)
- Esercizio: Teleriscaldamento (Testo)
- Esercizio: Ferie e ore lavorate (Testo con soluzione)
Trigger
- Esercizio 1: Classifica e Noleggio
- Esercizio 2: Sensori
- Esercizio 3: Borsa di studio
- Esercizio 4: Student grant
Ottimizzatore
- Esercizio 1: Multe (Testo, Bozza soluzione)
- Esercizio 2: Studenti (Testo, Bozza soluzione)
- Esercizio 3: Atleti (Testo, Bozza soluzione)
- Esercizio 4: Prenotazione soggiorni (Testo, Bozza soluzione)
- Esercizio 5: Seminari (Testo, Bozza soluzione)
- Esercizio 6: Vendite dischi (Testo)
Temi d’esame
Appelli dell’Anno Accademico 2015-2016
- Appello del 2016-01-27
- Bozza soluzione ottimizzatore
- Bozza soluzione data warehouse (pubblicazioni)
- Apello del 2016-02-23
Appelli dell’Anno Accademico 2011-2012
Appelli dell’Anno Accademico 2010-2011
Tutoraggio
- Il calendario delle sessioni di tutoraggio è il seguente (aggiornato il 25/11/2019):
- lunedì 18/11/2019 dalle 16:00 alle 17:30 (aula 13B)
- lunedì 25/11/2019 dalle 16:00 alle 17:30 (aula 13B)
- mercoledì 04/12/2019 dalle 10:00 alle 11:30 (aula 7D)
- mercoledì 11/12/2019 dalle 10:00 alle 11:30 (aula 7D)
- mercoledì 08/01/2020 dalle 10:00 alle 11:30 (aula 7D)
- mercoledì 15/01/2020 dalle 10:00 alle 11:30 (aula 7D)
- mercoledì 29/01/2020 dalle 11:00 alle 12:30 (aula 12I)
- mercoledì 05/02/2020 dalle 11:00 alle 12:30 (aula 12I)
Esercitazioni di Laboratorio
In questa sezione saranno pubblicati i testi ed il materiale per le esercitazioni di laboratorio.
- La prima esercitazione di laboratorio sarà martedì 22 ottobre 2019.
- Il calendario delle esercitazioni di laboratorio è il seguente:
- martedì 22 ottobre – Lab 1, SQL esteso – esercitatore
- martedì 29 ottobre – Lab 2, Data Studio – esercitatore
- martedì 05 novembre – assistenza borsista
- martedì 12 novembre – Lab 3, Data Mining – esercitatore
- martedì 19 novembre – assistenza borsista
- martedì 26 novembre – Lab 4, Trigger – esercitatore
- martedì 03 dicembre – assistenza borsista
- martedì 10 dicembre – Lab 5, Ottimizzatore – esercitatore
- martedì 7 gennaio – Lab 6, MongoDB – esercitatore
- Gli studenti devono assicurarsi di avere un account attivo presso il LABINF.
- Gli orari e la ripartizione in squadre delle esercitazioni di laboratorio sono indicati nella seguente tabella.
- La suddivisione nelle due squadre è in base all’ordine alfabetico del cognome degli studenti.
- Gli studenti che avessero sovrapposizioni di orario con altri corsi, a causa delle quali non sono in grado di rispettare la suddivisione oraria in base al proprio cognome, devono richiedere il cambio di squadra inviando un’email ad Andrea Pasini (andrea.pasini @ polito.it) con subject “DSTBD Laboratorio cambio turno”, indicando l’orario e il corso con il quale hanno sovrapposizione.
Squadra Studenti Giorno Orario Laboratorio A cognome con iniziale da A a GE inclusi Martedì 16:00-17:30 LABINF B cognome con iniziale da GI a Z inclusi Martedì 17:30-19:00 LABINF -
- Esercitazione 1 – data warehouse e SQL esteso
- Testo (pdf)
- data warehouse in formato csv.
- Soluzione (pdf)
- Esercitazione 2 – data-warehouse analytics e reporting (Google Data Studio)
- Testo (pdf)
- Esercitazione 3 – analisi di un dataset reale mediante il tool di machine learning RapidMiner
- Testo (pdf)
- dataset (.xls)
- RapidMiner
- Introduzione a RapidMiner (2 slides per page, 3 slides per page, 6 slides per page)
- Guida RapidMiner (download)
- Esempi (download)
- NOTA: Per allocare un maggiore spazio di memoria per il processo di RapidMiner è necessario modificare lo script RapidMinerGUI.bat (in Windows) o RapidMinerGUI (sotto Linux), aumentando il valore di default assegnato alla variabile MAX_JAVA_MEMORY secondo la capacità del sistema utilizzato. Lo spazio di memoria deve essere indicato in MB.
- Soluzione (pdf)
- Esercitazione 4 – trigger
- Esercitazione 5 – ottimizzatore di Oracle
- Testo (pdf)
- script per la generazione delle basi dati (sia per svolgere l’esercitazione in laboratorio, sia per svolgerla sul proprio PC)
- script SQL utili (es. aggiornamento statistiche, create index)
- documentazione di Oracle e descrizione delle operazioni del piano di esecuzione
- Soluzione (pdf)
- Esercitazione 6 – database non relazionali con MongoDB
- Esercitazione 1 – data warehouse e SQL esteso
Materiale per svolgere i laboratori sul proprio pc
Installazione di Oracle Database 11g e SQL Developer
Installazione di MongoDB Server
- Tutorial (pdf)
Installazione di RapidMiner
- Il software di analisi dati RapidMiner Studio è scaricabile dal seguente link: https://rapidminer.com/get-started/
- La versione completa è trial per 30 giorni. Scaduto il periodo di prova il programma continua a funzionare nella versione free (sufficiente per svolgere le esercitazioni di laboratorio).
- Materiale aggiuntivo:
- Introduzione a RapidMiner (2 slides per page, 3 slides per page, 6 slides per page)
- Guida RapidMiner (download)
- Esempi (download)
Esercitazioni da consegnare (homework)
In questa sezione sono pubblicati i testi e le indicazioni per i “quaderni”, le esercitazioni da svolgere autonomamente durante il corso e da consegnare tramite caricamento sulla pagina del corso del portale della didattica (nella scheda “Consegna Elaborati”). La consegna nei tempi e modi previsti, e il superamento di un’eventuale verifica permettono agli studenti di ottenere punti aggiuntivi all’esame, in base alle modalità descritte nelle regole d’esame. Per chiedere informazioni sul quaderno, inviare un messaggio di posta elettronica agli esercitatori con le seguenti modalità.
- Il messaggio deve avere come oggetto “DSTBD quaderno“.
- Nel corpo del messaggio devono essere indicati il proprio nome, cognome e numero di matricola, oltre alla richiesta specifica.
Affinché la consegna del quaderno sia presa in considerazione per ottenere il relativo punteggio, è necessario rispettare le seguenti condizioni:
- Svolgere tutti i punti indicati nel testo degli esercizi.
- Preparare un file in formato PDF, DOC o ODT contenente lo svolgimento degli esercizi.
- Assegnare il nome del file secondo il seguente formato (non è case sensitive): QuadernoN_Cognome_Nome_Matricola.XXX dove
- Matricola, Cognome e Nome sono da sostituire con i dati dello studente, eventuali lettere accentate sono da riportare senza accento, e nomi o cognomi doppi (costituiti da più parole separate) devono essere riportati come una parola unica senza spazi,
- la N che segue Quaderno deve essere sostituita con il numero di quaderno consegnato,
- l’estensione del file XXX rispecchia il tipo di file prescelto per lo svolgimento degli esercizi (PDF, DOC o ODT).
- Esempio: lo studente Marco Giulio De Medici, matricola S123456, consegna il quaderno numero 2 in formato PDF, il nome del file è Quaderno2_DeMedici_MarcoGiulio_s123456.PDF
- Siccome i file caricati sono processati in modo automatico, l’assegnazione di un nome sbagliato al file comporta l’annullamento della consegna del relativo quaderno. Non saranno effettuate correzioni manuali dei nomi dei file dopo la consegna.
- Caricare il file sul portale della didattica, nella scheda “Consegna Elaborati”, entro la data di scadenza indicata per ciascun quaderno.
- Non sono permessi caricamenti multipli per lo stesso studente e quaderno.
- Fa fede la data di caricamento indicata dal portale della didattica.
- Siccome i file caricati sono processati in modo automatico, il caricamento oltre la scadenza comporta l’annullamento della consegna del relativo quaderno.
- Durante la procedura di upload viene richiesto l’inserimento di un campo “Descrizione”. Riportare lo stesso nome assegnato al file secondo le specifiche sopra descritte (con o senza estensione, nel campo descrizione è ininfluente).
- Solo coloro che non hanno accesso alla pagina web del corso sul portale della didattica possono consegnare le esercitazioni tramite mail agli esercitatori entro la data di consegna.
- Sostenere con esito positivo il colloquio di verifica nella data prevista (si vedano le regole d’esame).
Il giorno in cui si sostiene la prova scritta, ogni studente che ha consegnato i quaderni deve portare con sé la stampa dei file caricati sul portale.
Calendario esercitazioni da consegnare (quaderni)
- Data Warehouse. Pubblicazione entro il 02/11/2019 (consegna 10/11/2019)
- Data Mining. Pubblicazione entro il 16/11/2019 (consegna 24/11/2019)
- Trigger. Pubblicazione entro il 30/11/2019 (consegna 08/12/2019)
- Ottimizzatore. Pubblicazione entro il 21/12/2019 (consegna 10/01/2019)
Testo delle esercitazioni da consegnare (quaderni).
-
- Quaderno #1 (data wharehouse) da consegnare entro domenica 10 novembre 2019, ore 23:59 (CET)
- Quaderno #2 (data mining) da consegnare entro domenica 24 novembre 2019, ore 23:59 (CET). Dataset breast.xlsx (download)
- Quaderno #3 (trigger) da consegnare entro domenica 8 dicembre 2019, ore 23:59 (CET). Script per lo svolgimento del quaderno.
- Quaderno #4 (ottimizzatore) da consegnare entro domenica 12 gennaio 2020, ore 23:59 (CET).
-