(I) C.D. Manning, P. Raghavan, P. Raghavan Introduction to Information Retrieval, Cambridge University Press - 2008
(I) A. Rajaraman, J. D. Ullman, Mining of Massive Datasets, 2011
(L) I. Witten, A. Moffat, T.C. Bell Managing Gigabytes, Van Nostrand Reinhold – 1999
(L) D. Doermann, K. Tombre (Eds.) Handbook of Document Image Processing and Recognition, 2014 (L)
Note:
(L) : Book available in the Engineering library
(I) : Book available in Internet (authors' version)
Obiettivi Formativi
L'insegnamento introduce in primo luogo le tecniche di base del Data Mining che consentono di modellare grandi
quantità di dati ed estrarne informazione utile. In secondo luogo vengono affrontate le problematiche relative
all'estrazione di informazione ed indicizzazioni di documenti sia testuali che non testuali. A tal fine vengono
presentati i principali modelli e algoritmi in Information Retrieval e vengono descritte le tecniche per l'estrazione
di informazioni da documenti digitalizzati e quindi acquisite prevalentemente sotto forma di immagini.
Prerequisiti
Sono essenziali le conoscenze apprese nei corsi di Basi di Dati e Algoritmi e Strutture Dati. La conoscenza delle basi di Intelligenza Artificiale può risultare utile.
Metodi Didattici
Lezioni frontali, esercitazioni in classe, svolgimento assistito
di elaborati.
Altre Informazioni
Gli esami orali vengono svolti nell'ufficio del docente, dopo aver concluso
l'elaborato.
Modalità di verifica apprendimento
Studio e presentazione di articolo (lavoro individuale) 15 %
Elaborato (gruppi di 2 persone) 65 %
Orale (individuale) su argomenti selezionati 20 %
Programma del corso
Secondary Storage
Hardware, Record and file organization, Indexes,B trees, Dynamic hashing
Large scale file systems
Map-reduce, algorithms using Map-reduce
Information Retrieval
Document Engineering
Document Image Analysis and Recognition
Data Mining
Finding Similar Items, Frequent itemsets, Clustering, High-dimensional spaces and dimensionality reduction, Web mining, Datawarehouse
Homework & project