Analisi dei Dati ed Estrazione della Conoscenza
CLEI specialistica. 6 CFU.
A.A. 2005/2006
docente: Gianluca Amato
Novità: note sul progetto in R
Descrizione: il corso inizierà con una parte preliminare in cui si introdurranno i concetti di data warehouse e di sistemi di analisi di dati multi-dimensionale (OLAP). Successivamente si introdurrano le tecniche di analisi dei dati più avanzate: regole associative, analisi di classificazione, analisi di raggruppamento. Sono previste esercitazioni pratiche con il sistema Weka e il linguaggio R.
Programma dettagliato: nel testo del programma, le sigle HK, WF e PR si riferiscono ai libri di Han e Kimber, Witten e Frank, Pacini e Raggi rispettivamente.
- Analisi dei dati, Data Mining e il processo di Knowledge Discovery in Databases. Relazione tra data mining e altre discipline: statistica, apprendimento automatico, etica. (lucidi + HK 1)
- Data Warehouse e OLAP. Modello multidimensionale e operazioni relative. Misure e gerarchie di concetti. Diagrammi a stella, fiocco di neve e galassia. Server ROLAP e MOLAP. Il server OLAP Mondrian. (lucidi + HK 2.1 - 2.3 + lezioni on-line)
- Preparazione dei dati: pulizia, integrazione, trasformazione, riduzione. Discretizzazione e gerarchie dei concetti. (lucidi + HK 3)
- Descrizione dei dati. Indici di tendenza centrale: media, mediana. Indici di variabilità: entropia, indici di Gini, varianza, indici di concentrazione. Indicatori di forma: skewness e curtosi. Indicatori di associazione: χ² e covarianza. (PR 4-9 escluso 8.4, 9.2, 9.6)
- Regole associative. L'algoritmo Apriori. Regole multilivello e multidimensionali. Lift di una regola associativa. Regole associative vincolate. (lucidi + HK 6)
- Analisi di classificazione. Classificazione e predizione. Alberi di decisione: algoritmi ID3 e C4.5. Regole di classificazione: algoritmo PRISM. Classificatori bayesiani naive e cenni alle reti bayesiane. Metodi di classificazione basati su regole associative e pattern emergenti. Metodi di classificazione basati sulle istanze: nearest neighbour e case based reasoning. Regressione lineare. (lucidi + HK 7.1-7.4, 7.6, 7.8 + WF 4.4)
- Valutazione dei risultati della classificazione. Tasso di errore vero e campionario. Metodi dell'hold-out, cross-validation e bootstrap. Matrice di confusione. Costo degli errori e curve ROC. Funzioni di perdita per classificatori di natura probabilistica. Valutazioni degli algoritmi di predizione. (lucidi + HK 7.9 + WF 5)
- Analisi di raggruppamento. Metodi di partizionamento: k-means e k-medoids. Metodi gerarchici: AGNES, DIANA e BIRCH. Metodi basati sulle densità: DBSCAN. Metodi basat su modelli: algoritmo EM. Determinazione degli outlier: metodi basati sulle distanze. (lucidi + HK 8.1 - 8.6 escluso 8.4.2, 8.5.3, 8.5.4, 8.6.2, 8.6.3)
- Il sistema Weka. (lezioni on-line)
- Il sistema R. (lezioni on-line + dispense)
Prerequisiti:
-
Conoscenze di base di calcolo delle probabilità e statistica.
-
Conoscenza di un linguaggio di programmazione.
Esame:
Si divide in una parte progettuale e in una prova orale:
-
La parte progettuale consiste o nell'implementazione di un algoritmo di analisi all'interno del sistema R, o nella lettura di un articolo di ricerca e nella successiva sperimentazione con Weka o con R. Il materiale necessario per svolgere il progetto di quest'anno lo trovate di seguito:
-
La prova orale consiste nella discussione del progetto e in domande sul programma del corso.
Per poter partecipare ad un appello occorre consegnare il progetto (preferibilmente in forma elettronica e in un formato aperto) entro e non oltre la data ufficiale dell'appello affissa in bacheca. Una volta portata a termine la correzione dei compiti, ci si mette d'accordo per posta elettronica sulla data e l'ora delle prova orale.
Ne segue che l'orario dell'appello che trovate indicato nelle bacheche non ha alcun significato.
Software:
Materiale Didattico:
Le slide sulla parte teorica:
-
Struttura del Corso
Data Mining e Knowledge Discovery in Databases
-
Data Warehouse e OLAP
-
Preparazione dei dati
-
Entropia
-
Regole associative
-
Classificazione
-
Valutazione dei classificatori
-
Analisi di raggruppamento (bozza)
Le lezioni su Weka:
Le lezioni su R:
Queste lezioni on-line sono ancora allo stato di bozza, e così rimarranno per molto tempo (se non per sempre). Per avere delle informazioni organiche e complete su R, riferirsi alla sezione "La documentazione su R".
La documentazione su R:
-
Il liguaggio R: concetti introduttivi ed esempi (II edizione)
di Vito M. R. Muggeo e Giancarlo Ferrara
(PDF)
-
Una guida all'utilizzo dell'Ambiente Statistico R
di Angelo M. Mineo
(PDF) (Sorgente LaTex)
-
simpleR - Using R for Introductory Statistics
di John Verzani
(PDF)
(HTML online)
Altro materiale:
Libri di testo:
Altri libri di riferimento: