Analisi dei dati ed estrazione della conoscenza

CLEI/S. 6 CFU.

A.A. 2008/2009

prova pratica del 4 Giugno 2009


Modalità di svolgimento

La prova pratica è strettamente individuale. Qualora venissero consegnati degli elaborati simili, più di quanto è lecito attendersi da soluzioni indipendenti allo stesso problema, gli stessi verrebbero annullati. Non saranno ammesse motivazioni del tipo "abbiamo già provato a risolvere un esercizio simile, per questo i nostri compiti sono uguali". Se davvero avete scritto del codice R che risolve un esercizio simile, e lo volete utilizzare come base di partenza per questo, siete liberissimi di farlo, purché consegniate entro 15 minuti dall'inizio dell'esame il suddetto codice al docente.

Per la consegna dell'elaborato, utilizzare il modulo web disponibile al sito di sottomissione on-line. L'invio del file deve avvenire entro le ore 12:00, secondo l'orario indicato nel sito stesso.

Testo del compito

Si consideri il set di dati iris e supponiamo di voler valutare su di esso la bontà del classificatore rpart, utilizzando il metodo della validazione incrociata:

  1. Scrivere un elenco di comandi R che, se eseguiti in sequenza, calcolino il numero di errori commessi da rpart sul data set iris usando il metodo della validazione incrociata 10-fold.

    Suggerimento: utilizzare la funzione sample per estrarre un campione da un vettore.

  2. Scrivere una funzione iris.rpart.cv che prende un unico parametrico numerico n e restituisce il il numero di errori commessi da rpart sul dataset iris utilizzando il metodo della validazione incrociata a n-fold.

    Suggerimento: si può usare il comando for (i in v) { .... } dove i è una variabile e v un vettore. Il risultato è che il corpo del ciclo for viene eseguito tante volte quanti sono gli elementi di v, e ogni volta alla variabile i viene assegnato un valore differente di v. Ad esempio: for (i in 1:10) { print(i) } stampa i numeri da 1 a 10.