Analisi dei Dati ed Estrazione della Conoscenza

CLEI specialistica. 6 CFU.

A.A. 2008/2009

docente: Gianluca Amato

Descrizione: il corso inizierà con una parte preliminare in cui si introdurranno i concetti di data warehouse e di sistemi di analisi di dati multi-dimensionale (OLAP). Successivamente si introdurrano le tecniche di analisi dei dati più avanzate: regole associative, analisi di classificazione, analisi di raggruppamento. Sono previste esercitazioni pratiche con il sistema R.

Programma dettagliato: nel testo del programma, le sigle HK e PR si riferiscono ai libri di Han e Kimber, e Pacini e Raggi rispettivamente.

Introduzione. Motivazioni alla base della nascita del Data Mining. Data Mining e Knowledge Discovery from Data. Tipi di analisi: descrizione di concetti, analisi delle associazioni, classificazione, predizione, raggruppamento, determinazione di outlier. Origine dei dati: database relazionali, database transazionali, data warehouse, etc... Valutazione dell'interesse di pattern e modelli. Data Mining e altre discipline: statistica, apprendimento automatico, database, etica. Esempi applicativi. (HK 1)
Analisi esplorativa dei dati. Indici di tendenza centrale: media, mediana. Indici di variabilità: entropia, indici di Gini, varianza, indici di concentrazione. Indicatori di associazione: χ² e covarianza. Visualizzazione grafica dei dati: scatter plot, boxplot, diagramma quantile-quantile, diagrammi areali, diagrammi a barre, istogrammi. (PR 3-7, PR 9 escluso 9.2, 9.6, HK 2.2)
Preparazione dei dati. Pulizia dei dati: dati mancanti, dati rumorosi. Integrazione dei dati. Trasformazione dei dati: normalizzazione, costruzione di attributi, aggregazione. Riduzione della dimensionalità: selezione di attributi, compressione e cenni all'analisi delle componenti principali. Riduzione della numerosità: raggruppamento, campionamento. Discretizzazione: istogrammi, discretizzazione per partizionamento naturale, discretizzazione basata sull'entropia. Generazione di gerarchie di concetti per dati categoriali (HK 2 tranne 2.2)
Data Warehouse e OLAP. Cosa è un Data Warehouse. Modello multidimensionale dei dati. Diagrammi a stella, a fiocco di neve e a galassia. Classificazione delle misure: distributive, algebriche, olistiche. Gerarchie di concetti. Operazioni di un sistema OLAP: drill-down, roll-up, slice, dice, pivot, etc... (HK 3.1, 3.2)
Regole associative e itemset frequenti. L'algoritmo Apriori. Regole multilivello e multidimensionali. Regole associative quantitative. Lift di regole associative ed analisi di correlazione. Regole associative vincolate. (HK 5 escluso 5.2.4, 5.2.5, 5.2.6)
Classificazione e predizione. Cosa sono classificazione e predizione? Problematiche riguardanti gli algoritmi di classificazione. Classificazione tramite alberi di decisione: algoritmi ID3 e C4.5. Classificazione bayesiana: teorema di Bayes, classificatore bayesiano naive, reti bayesiane. Classificazione basata su regole: estrazione di regole da un albero di decisione, algoritmi di copertura. Classificazione tramite regole associative: algoritmo CBA. Pattern emergenti. Apprendimento basato su istanze. Predizione: regressione lineare, alberi di regressione. (HK 6.1-6.5 escluso 6.3.4 e 6.4.4, 6.8, 6.9, 6.11)
Validazione dei modelli di classificazione. Tasso di errore vero e campionario. Metodi di stima del tasso di errore: holdout, cross-validation, leave-one-out cross-validation, bootstrap. Apprendimento basato sui costi: matrice dei costi e curva ROC. Metodi basati sulla combinazione di classificatori: bagging e boosting. (HK 6.12-6.15 escluso 6.15.1)
Analisi di raggruppamento. Cosa è l'analisi di raggruppamento. Tipi di dati per l'analisi di raggruppamento: matrice dei dati e matrice della distanza, dati di tipo categoriale, ordinale, binario, intervallo. Classificazione dei metodi di raggruppamento. Metodi di partizionamento: k-means e k-medoids. Metodi gerarchici: algoritmi divisivi e agglomerativi. Metodi basati sulle densità: algoritmo DBSCAN. Brevi cenni su algoritmi basati su modelli e algoritmi con vincoli. (HK 7.1-7.3, 7.4.1, 7.5.1, 7.6.1)
Analisi per la determinazione degli outlier. Definizione di outlier secondo criteri statistici. Outlier basati sulle distanze. (HK 7.11 ecluso 7.11.3, 7.11.4)

Compiti degli appelli precedenti:

Prerequisiti:

Conoscenze di base di calcolo delle probabilità e statistica.
Conoscenza di un linguaggio di programmazione.

Software utilizzato durante il corso:

Il sistema R

Materiale didattico:

I libri di testo:

Jiawei Han, Micheline Kamber
Data Mining: Concepts and Techniques (2nd edition)
Morgan Kaufmann
Barbara Pacini, Meri Raggi
Statistica per l'analisi operativa dei dati
Carocci editore
Vito M. R. Muggeo e Giancarlo Ferrara
Il liguaggio R: concetti introduttivi ed esempi (II edizione)
(PDF)

Le slide sulla parte teorica:

Introduzione: (OpenDocument) (PDF)
Preparazione dei dati: (OpenDocument) (PDF)
Data Warehouse e OLAP: (OpenDocument) (PDF)
Regole associative: (OpenDocument) (PDF)
Classificazione: (OpenDocument) (PDF)
Valutazione dei classificatori: (OpenDocument) (PDF)
Analisi di raggruppamento: (OpenDocument) (PDF)

Le lezioni su R:

Ulteriore materiale di consultazione:

Ian Witten, Eibe Frank
Data Mining: Practical Machine Learning Tools and Techniques (2nd edition)
Morgan Kaufmann
An Introduction to R
di W. N. Venables, D. M. Smith and the R Development Core Team
(PDF)

Modalità d'esame

L'esame prevede una prova pratica in laboratorio, con il sistema R, da effettuarsi nei giorni previsti dal calendario degli appelli, e una prova orale in data da concordare col docente. La prova orale verte sull'intero programma del corso e sulla discussione di un articolo di ricerca tra quelli previsti dal docente (Clicca qui per accedere agli articoli). Ogni studente dovrà scegliere uno degli articoli di cui sopra, leggerlo e capirlo (anche ricorrendo al ricevimento). Al momento della prova orale dovrà essere in grado di esporne il contenuto in maniera chiara e precisa. L'articolo può essere portato e consultato durante la prova orale. Non è ammesso che studenti diversi si presentino all'esame con lo stesso articolo.