FAQ PER IL PROGETTO WIKIPRO DI INTELLIGENZA ARTIFICIALE 2006


Se la vostra domanda non è contenuta nelle seguenti, scrivere a pennacchiotti@info.uniroma2.it.

    Sintassi

  1. Come identificare un chunk?
    Non esitono regole standardizzate per identificare un chunk. La definizione informale da tenere a mente è quella riportata nella lezione NLP_7, ovvero: "il più grande costituente possibile che lascia la frase aperta a tutte le ammissibili interpretazioni sintattiche". Utilizzare gli esempi forniti come linee guida. Per ulteriori approfnidimenti si può far riferimento a questo articolo.


  2. Ci sono casi come 'con canditi e uvette' che possono essere riconosciuti come un unico chunk sfruttando il significato della frase, ma la cui sequena di POS (PREP+NOM+COORD+NOM) permette anche altre interpretazioni , ad esempio 'di frumento e sale' nella frase "farina di frumento e sale". Come dobbiamo comportarci?
    Poichè la stessa struttura di POS permette due interpretazioni differenti ([farina di frumento] [e] [sale] e [con] [canditi e uvette] ) è necessario definire i chunks che lasciano la frase aperta a entrambe le interpretazioni, ovvero [PREP][NOM][COORD][NOM].


  3. Una seguenza POS del tipo PREP.INV. - ARTICOLO - NOME è un chunk?
    Una sequenza di questo tipo è aperta a più interpretazioni. Sono quindi da identificare due chunk indipendenti: [PREP.INV] e [ARTICOLO - NOME]


  4. Quando si tenta di "spezzare" un chunk di Chaos in due chunk indipendenti, questi vengono riconosciuti come Costituenti Semplici. Hanno cioè il colore celeste e gli attributi di POS e non di tipo di chunk. Come comportarsi?
    I chunk prodotti devono essere lasciati tali e quali, individuando la corretta POS. Per il calcolo di precisione recall, considerarli come chunk.


  5. come si deve gestire il frammento come "da contenuto libero e punto di vista neutrale"?
    Il frammento in questione fa parte del frammento di agreement, che deve essere risolto autonomamente dai singoli studenti. In ogni caso valgono le regole di coordinazione esposte al termine della lezione NLP_7.


  6. Come comportarsi quado la dipendenza tra due chunk è di un tipo non compreso tra quelli possibili?
    In tal caso utilizzare il type Scon


  7. Pur avendo aggiornato gli ICD types esistono alcuni tipi che non compaiono nella lista delle possibili scelte, ma vengono inseriti automaticamente da Chaos in alcune occasioni (in cui tra l'altro l'"intuizione" di Chaos si rivela più che corretta), come ad esempio la relazione V_PrRel tra verbo e pronome relativo che introduce l'omonima proposizione: esiste un modo per "rintracciare" questi tipi aggiuntivi ed utilizzarli in alcuni casi in cui è necessario specificare manualmente il soggetto/pronome della proposizione relativa? E se non fosse possibile, come dovremmo annotare la relazione tra i due chunks?
    Vi sono effettivamente alcuni ICD types utilizzati da Choas che non sono messi a disposizione dell'annotatore. In tal caso lasciare l'interpetazione di Chaos se essa è corretta, e utilizzare in casi simili l'ICD type più simile, e se esso non esiste, utilizzare il type Scon


  8. Come vanno considerate le parentesi, ripettivamente "aperta" - "(" e "chiusa" - ")"? Vanno considerate come due chunks differenti? Ccome devono essere legate in fase di definizione delle ICD
    Vanno considerati come chunk indipendenti e legati al primo chunk della subordinata compresa tra di esse, con un ICD type di tipo xCSub


    Domande generali sul progetto

  9. l'analisi delle prestazioni deve essere effettuata anche sull'agreement_fragment?
    No. L'agreement fragment deve essere utilizzato solamente per accordare i membri del gruppo sull'annotazione.


  10. Riguardo l'agreement_fragment dobbiamo mandare un file unico per la morfologia e il pos tagging o devono essere separati come per i paragrafi?
    Potete inviare un'unico file per l'agreement fragment, due file separati invece per i paragrafi. Ricordate che il file del POS (secondo file) deve aggiornare il primo file (quello della morfologia) e non il file originale!


  11. Quando si deve modificare la parte sulla morfologia vengono modificati solo i dati relativi a Lemmas, cioè quelli che sono divisi per ID, però sopra a Lemmas è presente una casella chiamata morph. Bisogna modificare anche quella?
    No.


  12. L'accuratezza va calcolata per ogni [nome_frammento]_[num_paragrafo], o unica per tutto il frammento?
    Unica per tutto il frammento, calcolata come media delle accuracy dei diversi paragrafi.


    Domande generali sui testi

  13. Come ci si deve comportare in caso di errori di battitura presenti nel testo di Wikipedia (ad esempio "preparati a bese di uova" invece che "preparati a base di uova"?
    Gli errori di battitura devono essere lasciati. Durante l'annotazione correggere l'interpretazione di Chaos, comportandosi come se la parola fosse stata scritta correttamente. Nel calcolo dell'accuracy tale parola deve essere considerata corretta, anche se l'interpretazione di Chaos è evidentemente errata.
    Unico caso in cui gli errori di battitura vanno corretti è la mancanza di uno spazio quando esso è invece necessario (es. "preparatia" --> "preparati a").


  14. Come comportarsi in caso di parole accentate internamente (accento non sulla lettera finale, ad es."crème" e "brulée")?
    E' necessario individuare nel testo tali parole e togliere l'accento (ad es. "crème"-->"creme"), affinchè Chaos possa tentare una interpretazione corretta.
    Di default infatti il modulo InputNormalizer di Chaos sostituisce in Italiano tutti gli accenti in apostrofi. Se tale cambiamento avviene all'interno di una parola (parole straniere) esse vengono spezzate in tre parole autonome (ad es. "cre" "'" "me")



  15. Quando una frase inizia con "È" (verbo essere, terza pers sing presente indicativo) Chaos produce una serie di errori. Cosa fare?
    E' chiaramente un bug di Chaos,.Cambiare "È" in "e'".


  16. Bisogna includere anche il titolo del paragrafo? Se si, bisogna mettere un punto alla fine del titolo?
    Includere il titolo, facendo in modo che sia letto come frase a sè stante (punto o a capo).


    Morfologia

  17. Nel calcolo dell'accuracy è necessario considerare tutti gli elementi della frase analizzati, quindi anche punti, virgole, parentesi, oppure fare riferimento soltanto alle parole?
    E' necessario tenere conto anche della punteggiatura.


  18. Nel caso di un elenco puntato (con elementi quindi che non vanno considerati, come i pallini), i pallini debbono/possono essere sostituiti da trattini (simbolo 'meno') oppure asportati e basta?
    Devono essere asportati.


  19. l'interpretazione corretta di un articolo o di un aggettivo, in particolare riguardo al genere (maschile/femminile), deve essere generica (per capirci quella che si può trovare su un vocabolario) oppure dipendente dal sostantivo cui è legato all'interno della frase? Ad esempio, "enciclopedia multilingue", 'multilingue' sarebbe sia maschie che femminile ma associato a 'enciclopedia' è soltanto femminile. Come comportarsi in tal caso riguardo al calcolo dell'accuracy?
    L'interpretazione va corretta al caso specifico (ad esempio "multilingue" deve essere annotato come "fem.sing."). Nel calcole dell'accuracy invece, una interpretazione più generica deve essere considerata corretta.


  20. Chaos intepreta espressioni terminologiche (ad es. NC NC) come "creme caramel" come due parole distinte, mentre in alcuni dizionari tali espressioni sono considerate come una unica espressione. Come comportarsi in questi casi?
    In linea generale, il riconoscimento di espressioni terminologiche avviene a livello di Costituenti, ovvero durante l'analisi sintattica. Ai livelli morfologico e sintattico quindi le parole devono essere considerate distinte. Nonostante ciò, Chaos implementa un piccolo dizionario di espressioni terminologiche a livello morfologico, che potrebbe portare in alcuni casi particolari all'individuazione di termini. Dare quindi ragione a Chaos in entrambi i casi.


  21. Come comportarsi nel caso in cui chaos interpreti due parole del tipo “nel frattempo” oppure “in particolare” come un'unica espressione?
    Alcune espressioni composte possono sono correttamente considerate da Chaos come unità morfologiche indipendenti. L'interpretazione quindi deve essere considerata corretta.


  22. Alcune espressioni composte, come "punto_di_vista" sono considerate nome.comune invariante, ma è possibile trovare anche i rispettivi plurali ("punti_di_vista") che non vengono trattati allo stesso modo (come parola unica). Come comportarsi?
    Poichè i dizionari vengono creati manualmente, alcune espressioni potrebbero essere state inserite solo al singolare. E' quindi da ritenersi errara l'interpretazione al plurale.


  23. Come interpretare nomi stranieri del tipo “Monty Python's Flying Circus”? Chaos interpreta ogni parola come nome proprio e la s come nome comune.
    Le parole con maiuscole, se non altrimenti specificato nel dizionario di Chaos, sono interpretate come nomi propri. L'interpretazione è da ritenersi corretta. L'interpretazione di s come nome comune è invece errara.


  24. Come dobbiamo trattare i mass nouns, ad esesmpio "la frutta"? 'la' è un art.determ. f.sing. e 'frutta'? accordandolo con l'articolo dovremmo dire che è un sostantivo singolare ma indica comunque una moltitudine, il vocabolario riporta 'frutta' come sing. e il plurale come 'frutta' o 'frutte': come interpretarlo quindi?
    I mass noun sono singolari, quindi l'interpretazione è corretta.


  25. Nel caso di numeri come ci si deve comportare?
    Un numero deve essere interpretato differentemente a seconda della sua funzione morfologica: come nome comune i casi come "Nel 1999 il presidente...", come aggettivo numerale cardinale in casi come "1234 cani...". In quest'ultimo caso devono essere conservate anche le caratteristiche di genere e numero del nome cui è accoppiato.


  26. Parole come 'créme', 'caramel', 'brulée', vengono riconosciute come nome.comune, è necessario correggerli in nome.straniero?
    Le parole straniere devone essere interpretate come "nome straniero" solo nei casi in cui esse non sono presenti in un dizionario italiano.


    POS tagging

  27. Se l'interpretazione POS fornita da Chaos per una parola è di una classe POS generica e corretta (ad es. NC, Nome Comune), mentre l'annotazione più precisa sarebbe un'altra (ad es. NCS, Nome Comune Singolare), come bisogna comportarsi?
    Bisogna annotare con l'interpretazione più precisa, Nel calcole dell'accuracy invece, una interpretazione più generica deve essere considerata corretta


  28. Chaos interpreta la virgola e la congiunzione 'e' come COP (Congiunzione Parentesi) mentre la parentesi viene etichettata come COS (Congiunzione Subordinativa). Come comportarsi in questo caso?
    Ai fini del calcolo dell'accuracy, l'interpretazione di "e" e virgola sono da ritenersi errate. l'interpretazione delle parentesi è invece da ritenersi corretta, in quanto essere possono essere ritenute come particelli intriducenti una subordinazione sintattica.


  29. Dobbiamo considerare errore una valutazione scorretta da parte di Chaos del campo "morph" nella parte sopra Lemmas? Ovvero Chaos "tagga" correttamente la POS, ma il campo morph e` errato e non concorda con quello da noi identificato durante l'analisi morfologica.
    Al fine del calcolo dell'accuracy, condizione sufficiente per un'interpretazione corretta è avere il POS tag corretto.