Esci dai Frame

  Web Mining e Retrieval (a.a. 2016/17)
Secondo Semestre
Docente: Roberto Basili Email: basili@info.uniroma2.it
    Elenco dei File nel deposito

Sommario Contenuti

1.Novità

2.Programma del Corso

3.Testi di Riferimento

4.Link Utili

5.Diapositive delle lezioni

6.Progetti ed Esercizi Proposti


Novità

  • Calendario delle Prove di Recupero del mese di Settembre. Le prove di recupero seguono le modalita' delle prove finali d'esame (10 domande a Risposta multipla e domanda aperta) e si terranno secondo il seguente calendario:
    • 6 Settembre 2017, ore 15:30, AULA C12.
    • 21 Settembre 2017, ore 15:30, AULA C11.
    Gli studenti interessati sono pregati di prenotarsi accedendo al sito Delphi.
  • Risultati Completi della Prova d'Esame del 10 Luglio 2017..
    Si invitano gli studenti che vogliano consultare la prova scritta di contattare i docenti via e-mail.
    La verbalizzazione procedera' negli stessi giorni della prova orale. Il calendario della prove orali per gli studenti che hanno superato la prova scritta (valutazione ALMENO "C") è fissata secondo il seguente orario:
    • MARTEDI' 18 Luglio ore 15:00-18:00, presso l'Ufficio del Docente
    • GIOVEDI' 20 Luglio ore 15:00-17:00, presso l'Ufficio del Docente
    • MERCOLEDI' 26 Luglio ore 15:00-17:00, presso l'Ufficio del Docente
    Gli studenti che debbono sostenere l'orale devono comunicare ai docenti via e-mail la loro scelta riguardo ai progetti o i temi di approfondimento **PRIMA** della data dell'orale. Ogni studente e' inoltre pregato di comunicare la data prescelta, per favorire la organizzazione delle sedute d'esame. .

  • APPELLO del 10 Luglio 2017: L'appello d'esame del 10 Luglio 2017, si terra' in AULA C6 dalle ore 14:30 alle 17:00.

  • RICEVIMENTO: Gli studenti saranno ricevuti per questioni legate all'esame ed alla scelta dei progetti e tematiche il giorno Mercoledi' 5 Giugno 2017, dalle 11:00 alle 12:30 presso l'Ufficio del docente.
  • Progetti e Topic per l'esame Orale o gli orali di approfondimento (a.a. 2016-17)
    Gli studenti che vogliano procedere alla prova orale (per acquisire l'esame di 9 CFU o per migliorare la loro valutazione nell'esame da 6 CFU) sono invitati a selezionare una tematica o un progetto dalla pagina QUI pubblicata, e notificarne la scelta ai docenti (Basili e Croce). Si osserva che: (1) le presentazioni (in Powerpoint) all'orale debbono sostenere la presentazione di una sintesi di circa 20 minuti dei lavori consultati; (2) lo studente puo' ampliare lo spettro dei lavori qui suggeriti, selezionando pubblicazioni ulteriori su un tema; (3) un progetto puo' esssere sviluppato da un team di max 2-3 studenti, ma che la prova orale sara' individuale e ogni studenti di un team deve quindi poter illustrare l'intero progetto in autonomia.

  • Risultati Completi della Seconda Prova di esonero e della Prima Prova Finale del 15 Giugno 2017..
    Si invitano gli studenti che vogliano consultare la prova scritta di contattare i docenti via e-mail.
    Le date di verbalizzazione saranno fissate dopo la seconda prova finale. Gli studenti che per motivi personali debbano provvedere alla verbalizzazione prima del 10 Luglio sono invitati a contattare i docenti. Gli studenti che intendano avvalersi della facoltà di sostenere l'orale (ad esempio, per migliorare la valutazione ottenuta dagli scritti) potranno utilizzare come temi a scelta del colloquio, i progetti ed i temi di approfondimento che saranno pubblicati su queste pagine al piu' presto.

  • Iniziativa
    AVVISO: Le lezione sull'uso della suite Watson in Bluemix per l'addestramento di classificatori di notizie si terra' il 21 Giugno, nel Laboratorio di Informatica a partire dalle ore 14:00. . Materiali e documentazione potranno essere reperiti sul sito IBM approntato per il mini corso. E' possibile scaricare anche le slide della lezione del 7 Giugno sulle tecnologie e la architettura di Watson.
  • Introduzione al Test Finale (a.a. 2016-17).

  • AVVISO URGENTE. La lezione prevista per oggi 7 Giugno 2017 alle ore 16:00 è cancellata. La lezione di domani Giovedi' 8 Giugno 2017 e' confermata e trattera' la preparazione al secondo Test in Itinere.
    Gli studenti sono invitati a dare la massima diffusione a questa informazione presso i colleghi che seguono il Corso.

  • AVVISO: La seconda prova in Itinere del Corso si terra' nella aula della lezione Giovedi' 15 Giugno, dalle ore 11:30 alle 14:00. Al test d'esame sono ammessi anche gli studenti che non hanno superato positivamente la prova in Itinere del 20 Aprile scorso: lo scritto d'esame in tal caso seuirà la stessa struttura (Test a Risposte Multiple e domanda aperta) ed insistera' su tutti gli argomenti del Programma del Corso trattati sino ad oggi.
  • AVVISO: Le due lezioni sulla suite Watson in Bluemix, condotte in collaborazionecon con il team IBM si terranno nei giorni del 14 e 21 Giugno, nel Laboratorio di Informatica.

  • Risultati Completi della prima prova di esonero..
  • AVVISO: Le due lezioni sulla suite Watson in Bluemix, condotte in collaborazionecon con il team IBM non si terranno nei giorni del 17 e 25 Maggio, come precedentemente annunciato ma nei giorni del 7 Giugno e del 21 Giugno nel Laboratorio di Informatica.
  • AVVISO: La lezione di Lunedi' 8 Maggio non si terra'. A partire da questa settimana infatti la lezione del Lunedi' viene spostata al Martedi' in Aula B1 dalle ore 16:00 alle 17:45. Tale orario sara' valido sino alla fine del Corso.
  • Esercitazione preparazione al Test in Itinere : Esempi di domande chiuse ed aperte risolte.
  • Le istruzioni per la attivita' di validazione delle didascalie del MSCOCO dataset puo' essere scaricato a questo link
  • Data della Prima Prova d'Esonero del Corso: 20 Aprile 2017. L'esame si terra' alle 11.30 in aula C6.
    Gli studenti interessati sono pregati a prenotarsi accedendo al sito Delphi.
  • La lezione relativa a Blue Mix si terra' il 27 Marzo nel Laboratorio di Informatica.
  • Le lezioni del Corso seguiranno il seguente calendario settimanale:
    • LUNEDI', h. 14:00-15:45 (Aula C2 Edificio Aule Nuove Macroarea di Ingegneria)
    • MERCOLEDI', h. 16:00-17:45 (Aula C3 Edificio Aule Nuove Macroarea di Ingegneria)
    • GIOVEDI', h. 11:30-13:15 (Aula C6 Edificio Aule Nuove Macroarea di Ingegneria)
  • Le lezioni del Corso di Web Mining and Retrieval per l'a.a. 2015-16 avranno inizio a partire da Lunedi' 6 Marzo 2017 in Aula C2 alle ore 14:00.
    Gli studenti sono inviati ad iscriversi al Corso per l'a.a. 2016-17 presso il sito Delphi dell'Ateneo.
  • Le diapositive delle lezioni saranno pubblicate durante il ciclo delle lezioni su queste pagine.
  • PROPOSTE di TESI di LAUREA.
    Sono attive alcune sperimentazioni e progetti presso il SAG Laboratory for Semantics Analytics, da cui sono emanate annualmente alcune Borse di Studio e Premi di Laurea.
    Sara' possibile discutere in dettaglio le diverse Tesi con il coordinatore di SAG, prof. Roberto BASILI, o con il responsabile tecnico del Laboratorio, prof. Danilo CROCE.
    L'orario di ricevimento, diverso da quello dei Corsi, e' da concordare con i docenti via e-mail.



Programma


Section I: Machine Learning and Kernel-based Learning.
Machine Learning and Artificial Intelligence. Supervised methods. Probabilistic and Generative Methods. Unsupervised Learning. Clustering. Semantic Similarity metrics. Agglomerative clustering methods. K-mean. Hidden Markov Models. Kernel-based Learning. Polynomial and RBF Kernels. String and Tree kernels. Semantic kernels. Neural Modeling: Perceptron, Multilayer Percetrons, Deep Neural Networks. Language Models and Recurrent Networks. Introduction to the main platforms for the development of ML software: TensorFlow, Weka, SciKit, KeLP.

Section II: Statistical Language Processing.
Supervised Language Processing tools. HMM-based POS tagging. Named Entity Recognition. Statistical parsing. PCFGs: Charniak parser. Lexicalized Parsing Methods. Shallow Semantic Parsing: kernel based semantic role labelling. Information Extraction. Introduction to IBM's Watson.

Section III: Web Mining & Retrieval.
Ranking Models for the Web. Introduction to Social Network Analysis: rank, centrality. Random walk models: Page Rank. Web Search Engines. SEO. Google. Preference Learning for IR. Question Answering Systems. Wikipedia-based knowledge Acquisition. Social Web. Graph-based algorithms for community detection. Introduction to Opinion Mining and Sentiment Analysis.


Testi di Riferimento

  • IR - Introduction to Information Retrieval, Christopher D. Manning, Prabhakar Raghavan and Hinrich Schutze, Cambridge University Press. 2008. Find the book Home page HERE.
  • ML - Pattern Recognition and Machine learning, C. Bishop. Springer. 2006.
  • ML ed IR - Automatic Text Categorization: from Information Retrieval to Support Vector Learning, Roberto Basili, Alessandro Moschitti, ARACNE Editore, 2005.
  • Web IR - Bing Liu, Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data. 2nd Edition, July 2011, Springer.
  • Dispense fornite dal docente

Lezioni (Lucidi)


Link Utili


LABORATORI: Progetti ed Esercizi