Data Science e Tecnologie per le Basi di Dati


This page has hierarchy - Parent page: Teaching

Table of content

 


Informazioni generali

 

Avvisi

  • 17/12/2018 – è stato pubblicato il testo del quarto quaderno
  • 29/11/2018 – è stato pubblicato il testo del terzo quaderno
  • 20/11/2018 – è stato aggiornato il calendario delle sessioni di tutoraggio
  • 15/11/2018 – è stato pubblicato il testo del secondo quaderno
  • 08/11/2018 – è stato pubblicato il calendario delle sessioni di tutoraggio
  • 31/10/2018 – è stato pubblicato il testo del primo quaderno

Esami

In questa sezione saranno pubblicati i testi delle esercitazioni, tra cui quelle svolte in aula, e temi d’esame.

  • Regole d’esame (pdf)

 


Slides delle lezioni

  • Introduzione al corso (slides)

Parte I

  • Introduzione ai Big Data (slides)
  • Data warehouse: introduzione (slides)
  • Data warehouse: progettazione (slides)
  • Data warehouse: analisi (slides)
  • Data mining: introduzione (slides)
  • Data mining: preprocessing (slides)
  • Data mining: association rules, parte 1 (slides)
  • Data mining: association rules, parte 2 (slides)
  • Data mining: classificazione (slides)
  • Data mining: classificazione, Random Forests (slides)
  • Data mining: classificazione, reti neurali (slides)
  • Data mining: clustering (slides)

Parte II

Oracle

 

Altre slides verranno aggiunte durante lo svolgimento del corso.


Slides delle esercitazioni

In questa sezione saranno pubblicati i testi delle esercitazioni, tra cui quelle svolte in aula, e temi d’esame.

SQL esteso

Data warehouse

Trigger

Ottimizzatore

 


Tutoraggio

  • Il calendario delle sessioni di verifica dei quaderni è il seguente:
    • giovedì 15 novembre – 14.30-16.00, Aula 9B
    • giovedì 22 novembre – 14.30-16.00, Aula 9B
    • giovedì 29 novembre – 14.30-16.00, Aula 9B
    • giovedì 6 dicembre – 14.30-16.00, Aula 9B
    • giovedì 13 dicembre – 14.30-16.00, Aula 9B
    • giovedì 10 gennaio – 14.30-16.00, Aula 9B
    • giovedì 17 gennaio – 14.30-16.00, Aula 9B
  • Il calendario delle sessioni di consulenza è il seguente:
    • giovedì 6 dicembre – 13.00-14.30, aula 17
    • giovedì 13 dicembre – 13.00-14.30, aula 17
    • giovedì 10 gennaio – 13.00-14.30, aula ancora da definire
    • giovedì 17 gennaio – 13.00-14.30, aula ancora da definire

 


Esercitazioni di Laboratorio

In questa sezione saranno pubblicati i testi ed il materiale per le esercitazioni di laboratorio.

  • La prima esercitazione di laboratorio sarà martedì 23 ottobre 2018.
  • Il calendario delle esercitazioni di laboratorio è il seguente:
    • martedì 23 ottobre – Lab 1, SQL esteso – esercitatore
    • martedì 30 ottobre – Lab 2, Data Studio – esercitatore
    • martedì 06 novembre – assistenza borsista
    • martedì 13 novembre – Lab 3, Data Mining – esercitatore
    • martedì 20 novembre – assistenza borsista
    • martedì 27 novembre – Lab 4, Trigger – esercitatore
    • martedì 04 dicembre – assistenza borsista
    • martedì 11 dicembre – Lab 5, Ottimizzatore – esercitatore
    • martedì 18 dicembre – assistenza borsista
  • Gli studenti devono assicurarsi di avere un account attivo presso il LABINF.
  • Gli orari e la ripartizione in squadre delle esercitazioni di laboratorio sono indicati nella seguente tabella.
    • La suddivisione nelle due squadre è in base all’ordine alfabetico del cognome degli studenti.
    • Gli studenti che avessero sovrapposizioni di orario con altri corsi, a causa delle quali non sono in grado di rispettare la suddivisione oraria in base al proprio cognome, devono richiedere il cambio di squadra inviando un’email ad Andrea Pasini (andrea.pasini @ polito.it) con subject “SGBD Laboratorio cambio turno”, indicando l’orario e il corso con il quale hanno sovrapposizione.
 Squadra   Studenti  Giorno   Orario  Laboratorio 
 A  cognome con iniziale da A a I inclusi  Martedì  16:00-17:30  LABINF
 B  cognome con iniziale da K a Z inclusi  Martedì  17:30-19:00  LABINF

 

  • Esercitazione 1 – data warehouse e SQL esteso
    • testo
    • data warehouse in formato testuale (solo per chi desidera importare il DW su un proprio DBMS e svolgere l’esercitazione senza assistenza).
    • soluzione
  • Esercitazione 2 – data-warehouse analytics e reporting (Google Data Studio)
  • Esercitazione 3 – analisi di un dataset reale mediante il tool di machine learning RapidMiner
    • testo
    • dataset (.xls)
    • RapidMiner
    • NOTA: Per allocare un maggiore spazio di memoria per il processo di RapidMiner è necessario modificare lo script RapidMinerGUI.bat (in Windows) o RapidMinerGUI (sotto Linux), aumentando il valore di default assegnato alla variabile MAX_JAVA_MEMORY secondo la capacità del sistema utilizzato. Lo spazio di memoria deve essere indicato in MB.
    • soluzione
  • Esercitazione 4 – trigger
    • testo
    • script per la generazione delle basi dati (sia per svolgere l’esercitazione in laboratorio, sia per svolgerla sul proprio PC)
  • Esercitazione 5 – ottimizzatore di Oracle
    • testo
    • script SQL utili (es. aggiornamento statistiche, create index)
    • documentazione di Oracle e descrizione delle operazioni del piano di esecuzione
    • copia del database (solo per chi desidera importare il DW su un proprio DBMS e svolgere l’esercitazione senza assistenza).

Materiale per svolgere i laboratori sul proprio pc

Installazione di Oracle Database 11g e SQL Developer

  • Tutorial per Windows (pdf)
  • Tutorial per Ubuntu (pdf)

Installazione di RapidMiner


Esercitazioni da consegnare (homework)

In questa sezione sono pubblicati i testi e le indicazioni per i “quaderni”, le esercitazioni da svolgere autonomamente durante il corso e da consegnare tramite caricamento sulla pagina del corso del portale della didattica (nella scheda “Consegna Elaborati”). La consegna nei tempi e modi previsti, e il superamento di un’eventuale verifica permettono agli studenti di ottenere punti aggiuntivi all’esame, in base alle modalità descritte nelle regole d’esame. Per chiedere informazioni sul quaderno, inviare un messaggio di posta elettronica agli esercitatori con le seguenti modalità.

  • Il messaggio deve avere come oggetto “SGBD quaderno“.
  • Nel corpo del messaggio devono essere indicati il proprio nome, cognome e numero di matricola, oltre alla richiesta specifica.

 

Affinché la consegna del quaderno sia presa in considerazione per ottenere il relativo punteggio, è necessario rispettare le seguenti condizioni:

  • Svolgere tutti i punti indicati nel testo degli esercizi.
  • Preparare un file in formato PDF, DOC o ODT contenente lo svolgimento degli esercizi.
  • Assegnare il nome del file secondo il seguente formato (non è case sensitive): QuadernoN_Cognome_Nome_Matricola.XXX dove
    • Matricola, Cognome e Nome sono da sostituire con i dati dello studente, eventuali lettere accentate sono da riportare senza accento, e nomi  o cognomi doppi (costituiti da più parole separate) devono essere riportati come una parola unica senza spazi,
    • la N che segue Quaderno deve essere sostituita con il numero di quaderno consegnato,
    • l’estensione del file XXX rispecchia il tipo di file prescelto per lo svolgimento degli esercizi (PDF, DOC o ODT).
    • Esempio: lo studente Marco Giulio De Medici, matricola S123456, consegna il quaderno numero 2 in formato PDF, il nome del file è Quaderno2_DeMedici_MarcoGiulio_s123456.PDF
    • Siccome i file caricati sono processati in modo automatico, l’assegnazione di un nome sbagliato al file comporta l’annullamento della consegna del relativo quaderno. Non saranno effettuate correzioni manuali dei nomi dei file dopo la consegna.
  • Caricare il file sul portale della didattica, nella scheda “Consegna Elaborati”, entro la data di scadenza indicata per ciascun quaderno.
    • Non sono permessi caricamenti multipli per lo stesso studente e quaderno.
    • Fa fede la data di caricamento indicata dal portale della didattica.
    • Siccome i file caricati sono processati in modo automatico, il caricamento oltre la scadenza comporta l’annullamento della consegna del relativo quaderno.
    • Durante la procedura di upload viene richiesto l’inserimento di un campo “Descrizione”. Riportare lo stesso nome assegnato al file secondo le specifiche sopra descritte (con o senza estensione, nel campo descrizione è ininfluente).
    • Solo coloro che non hanno accesso alla pagina web del corso sul portale della didattica possono consegnare le esercitazioni tramite mail agli esercitatori entro la data di consegna.
  • Sostenere con esito positivo il colloquio di verifica nella data prevista (si vedano le regole d’esame). 

 

Il giorno in cui si sostiene la prova scritta, ogni studente che ha consegnato i quaderni deve portare con sé la stampa dei file caricati sul portale.

Testo delle esercitazioni da consegnare (quaderni).

  • Quaderno #1  (data wharehouse) da consegnare entro  lunedì 12 novembre 2018, ore 23:59 (CET)
  • Quaderno #2 (data mining) da consegnare entro lunedì 26 novembre 2018, ore 23:59 (CET). Dataset breast.xlsx (download)
  • Quaderno #3 (trigger) da consegnare entro lunedì 10 dicembre 2018, ore 23:59 (CET). Script per lo svolgimento del quaderno.
  • Quaderno #4 (ottimizzatore) da consegnare entro venerdì 11 gennaio 2019, ore 23:59 (CET).