Analisi dei Dati ed Estrazione della Conoscenza
CLEI specialistica. 6 CFU.
A.A. 2008/2009
docente: Gianluca Amato
Descrizione: il corso inizierà con una parte preliminare in cui si introdurranno i concetti di data warehouse e di sistemi di analisi di dati multi-dimensionale (OLAP). Successivamente si introdurrano le tecniche di analisi dei dati più avanzate: regole associative, analisi di classificazione, analisi di raggruppamento. Sono previste esercitazioni pratiche con il sistema R.
Programma dettagliato: nel testo del programma, le sigle HK e PR si riferiscono ai libri di Han e Kimber, e Pacini e Raggi rispettivamente.
- Introduzione. Motivazioni alla base della nascita del Data Mining. Data Mining e Knowledge Discovery from Data. Tipi di analisi: descrizione di concetti, analisi delle associazioni, classificazione, predizione, raggruppamento, determinazione di outlier. Origine dei dati: database relazionali, database transazionali, data warehouse, etc... Valutazione dell'interesse di pattern e modelli. Data Mining e altre discipline: statistica, apprendimento automatico, database, etica. Esempi applicativi. (HK 1)
- Analisi esplorativa dei dati. Indici di tendenza centrale: media, mediana. Indici di variabilità: entropia, indici di Gini, varianza, indici di concentrazione. Indicatori di associazione: χ² e covarianza. Visualizzazione grafica dei dati: scatter plot, boxplot, diagramma quantile-quantile, diagrammi areali, diagrammi a barre, istogrammi. (PR 3-7, PR 9 escluso 9.2, 9.6, HK 2.2)
- Preparazione dei dati. Pulizia dei dati: dati mancanti, dati rumorosi. Integrazione dei dati. Trasformazione dei dati: normalizzazione, costruzione di attributi, aggregazione. Riduzione della dimensionalità: selezione di attributi, compressione e cenni all'analisi delle componenti principali. Riduzione della numerosità: raggruppamento, campionamento. Discretizzazione: istogrammi, discretizzazione per partizionamento naturale, discretizzazione basata sull'entropia. Generazione di gerarchie di concetti per dati categoriali (HK 2 tranne 2.2)
- Data Warehouse e OLAP. Cosa è un Data Warehouse. Modello multidimensionale dei dati. Diagrammi a stella, a fiocco di neve e a galassia. Classificazione delle misure: distributive, algebriche, olistiche. Gerarchie di concetti. Operazioni di un sistema OLAP: drill-down, roll-up, slice, dice, pivot, etc... (HK 3.1, 3.2)
- Regole associative e itemset frequenti. L'algoritmo Apriori. Regole multilivello e multidimensionali. Regole associative quantitative. Lift di regole associative ed analisi di correlazione. Regole associative vincolate. (HK 5 escluso 5.2.4, 5.2.5, 5.2.6)
- Classificazione e predizione. Cosa sono classificazione e predizione? Problematiche riguardanti gli algoritmi di classificazione. Classificazione tramite alberi di decisione: algoritmi ID3 e C4.5. Classificazione bayesiana: teorema di Bayes, classificatore bayesiano naive, reti bayesiane. Classificazione basata su regole: estrazione di regole da un albero di decisione, algoritmi di copertura. Classificazione tramite regole associative: algoritmo CBA. Pattern emergenti. Apprendimento basato su istanze. Predizione: regressione lineare, alberi di regressione. (HK 6.1-6.5 escluso 6.3.4 e 6.4.4, 6.8, 6.9, 6.11)
- Validazione dei modelli di classificazione. Tasso di errore vero e campionario. Metodi di stima del tasso di errore: holdout, cross-validation, leave-one-out cross-validation, bootstrap. Apprendimento basato sui costi: matrice dei costi e curva ROC. Metodi basati sulla combinazione di classificatori: bagging e boosting. (HK 6.12-6.15 escluso 6.15.1)
- Analisi di raggruppamento. Cosa è l'analisi di raggruppamento. Tipi di dati per l'analisi di raggruppamento: matrice dei dati e matrice della distanza, dati di tipo categoriale, ordinale, binario, intervallo. Classificazione dei metodi di raggruppamento. Metodi di partizionamento: k-means e k-medoids. Metodi gerarchici: algoritmi divisivi e agglomerativi. Metodi basati sulle densità: algoritmo DBSCAN. Brevi cenni su algoritmi basati su modelli e algoritmi con vincoli. (HK 7.1-7.3, 7.4.1, 7.5.1, 7.6.1)
- Analisi per la determinazione degli outlier. Definizione di outlier secondo criteri statistici. Outlier basati sulle distanze. (HK 7.11 ecluso 7.11.3, 7.11.4)
Compiti degli appelli precedenti:
Prerequisiti:
-
Conoscenze di base di calcolo delle probabilità e statistica.
-
Conoscenza di un linguaggio di programmazione.
Software utilizzato durante il corso:
Materiale didattico:
I libri di testo:
Le slide sulla parte teorica:
Le lezioni su R:
Ulteriore materiale di consultazione:
Modalità d'esame
L'esame prevede una prova pratica in laboratorio, con il sistema R, da effettuarsi nei giorni previsti dal calendario degli appelli, e una prova orale in data da concordare col docente. La prova orale verte sull'intero programma del corso e sulla discussione di un articolo di ricerca tra quelli previsti dal docente (Clicca qui per accedere agli articoli). Ogni studente dovrà scegliere uno degli articoli di cui sopra, leggerlo e capirlo (anche ricorrendo al ricevimento). Al momento della prova orale dovrà essere in grado di esporne il contenuto in maniera chiara e precisa. L'articolo può essere portato e consultato durante la prova orale. Non è ammesso che studenti diversi si presentino all'esame con lo stesso articolo.