B031358 - DATA MINING

English Version

Principali informazioni

Lingua Insegnamento

Contenuto del corso

Libri di testo consigliati

Obiettivi Formativi

Prerequisiti

Metodi Didattici

Altre Informazioni

Modalità di verifica apprendimento

Programma del corso

Il corso utilizza in parte materiali e risorse online

Anno Accademico 2022-23

Coorte 2022 - Laurea Magistrale in INGEGNERIA INFORMATICA

Anno di corso

Primo Anno - Secondo Semestre

Dipartimento di Afferenza

Ingegneria dell'Informazione

Tipo insegnamento

Attività formativa monodisciplinare

Settore Scientifico disciplinare

ING-INF/05 - SISTEMI DI ELABORAZIONE DELLE INFORMAZIONI

Crediti Formativi

Ore Didattica

Periodo didattico

27/02/2023 ⇒ 09/06/2023

Frequenza Obbligatoria

Tipo Valutazione

Voto Finale

Contenuto del corso

mostra

Programma del corso

mostra

Docenza

MARINAI SIMONE

Mutuazione

Insegnamento mutuato da:
B031285 - DATA MINING
Laurea Magistrale in INTELLIGENZA ARTIFICIALE

Lingua Insegnamento

Italiano

Contenuto del corso

Datawarehouse, Frequent Itemsets, Dimensionality Reduction, Clustering, Locality sensitive hashing, Text mining, Linguistic pre-processing, Probabilistic and neural language models, Word embeddings, Text categorization, POS tagging, NER

Libri di testo consigliati (Cerca nel catalogo della biblioteca)

Principali libri di testo:
A. Rajaraman, J. D. Ullman, Mining of Massive Datasets, Cambridge University Press , 2011
P.-N. Tan, M. Steinbach, A. Karpatne, V. Kumar Introduction to Data Mining, Pearson - 2019
D. Jurafsky, J. H. Martin, Speech and Language Processing, 2020
D. Sarkar, Text Analytics with Python, Apress, 2019

Ulteriori letture:
Ian Witten, Text Mining - 2004
C.D. Manning, P. Raghavan, P. Raghavan, Introduction to Information Retrieval, Cambridge University Press – 2008

Dettagli sulla disponibilità dei libri on-line o in biblioteca sono forniti nella pagina moodle del corso

Obiettivi Formativi

Obiettivo del corso è quello di fornire le conoscenze e capacità necessarie a progettare e sviluppare sistemi che permettano di estrarre conoscenza da grandi quantità di dati con particolar riferimento ad applicazioni nell'ambito di sistemi di analisi di documenti.

- Conoscenza delle tecniche di base del Data Mining che consentono di modellare grandi
quantità di dati ed estrarne informazione utile.

- Conoscenza delle problematiche relative all'estrazione di informazione da documenti sia testuali che non testuali.

- Conoscenza dei principali modelli e algoritmi in Information Retrieval e Natural Language Processing

Prerequisiti

Sono essenziali le conoscenze apprese nel corso di Algoritmi e Strutture Dati. La conoscenza delle basi di Apprendimento Automatico può risultare utile.

Metodi Didattici

Lezioni frontali, esercitazioni in classe.

Altre Informazioni

Gli esami orali vengono svolti dopo aver concluso
la relazione.

Modalità di verifica apprendimento

Durante il corso è prevista l'analisi di un articolo scientifico e la sua presentazione ai colleghi durante le lezioni.

La verifica finale consta di una relazione in cui si approfondisce quanto presentato a lezione e di una prova orale.
Nel complesso la verifica deve permettere allo studente di mostrare le capacità di:

- Saper analizzare un problema pratico e progettare una sua soluzione
- Saper applicare le principali tecniche descritte durante il corso tramite implementazione di un modulo software o tramite analisi teorica
- Saper interagire con colleghi per portare avanti lo svolgimento del progetto
- Saper descrivere in modo accurato in forma scritta la ricerca svolta
- Saper descrivere metodi ed algoritmi degli argomenti trattati nel corso

Programma del corso

Data Mining
Datawarehouse.
Frequent itemsets: The market-basket model. Association rules. Algorithms for computing frequent item-sets and Association Rules. Hash-based filtering. PCY algorithm, Random sampling, SON algorithm, Apriori with MapReduce. Bloom filters.

Finding similar items. Document similarity, shingling, min-hashing
Locality sensitive hashing (LSH)
Families of hash functions. LSH for cosine distance. LSH for Euclidean distance.

Curse of dimensionality. Dimensionality reduction. Principal Component Analysis (PCA). Singular Value Decomposition (SVD)

Clustering. Distance measures. Hierarchical clustering, k-means clustering. SOM. BFR, DB-SCAN, cluster validity

Text Mining. Information Retrieval. Boolean and Vector Space Model (tf-ifd). Inverted Index.
Linguistic pre-processing: tagging, stop-word removal, lemmatization, stemming. Wildcard queries. N-grams, Edit-distance.

Spelling correction. Performance evaluation in Information Retrieval (Precision, Recall).

Probabilistic language models. Text categorization. Word meaning, vector semantics. Dense embeddings. POS tagging. NE recognition

Lab: Python notebooks for clustering and NLP