Corso di Terminologia e Linguaggi Settoriali (Interpretazione) Modulo su Acquisizione Automatica di Lessico e Terminologia Esame Finale (8 punti) Nome e Cognome: 1. Descrivi in non piu' di 60 parole cosa si intende per "distribuzione zipfiana" delle parole nei corpora. (1/2 punto) 2. Discuti (in non piu' di 80 parole) due conseguenze della distribuzione zipfiana delle parole per il lavoro sui corpora. (1 punto) 3. Che criteri hai usato per scegliere i "seeds" per la creazione del corpus online? (Non piu' di 70 parole.) (1 punto) 4. Cerca due errori del tagger nel tuo corpus taggato, e presenta delle ipotesi sulle cause di tali errori (in non piu' di 70 parole). (1 punto) 5. Usando la versione taggata, conta quanti tokens sono presenti nel tuo corpus. Ricordati che dovrai usare una pipe con "grep -v" per evitare di contare le righe che contengono attributi strutturali (tali righe iniziano sempre con <). Riporta il comando usato. (1/2 punto) 6. Prova il seguente comando sul corpus BNCV4: "left" []* "right" | "right" []* "left" within s; Descrivi in non piu' di 50 parole che cosa fa, cercando la spiegazione delle varie parti nel CQP Tutorial. (1/2 punto) 7. Usando cqp, estrai due tipi di termini complessi (e.g., a seconda della lingua, aggettivo+nome, nome+aggettivo, nome+prep+nome, nome(+aggettivo)+prep+nome(+aggettivo), lemma-verbale+articolo+nome, ecc.), e salvane le liste ordinate per frequenza in un file. Riporta i comandi usati. (1 punto e 1/2) 8. Analizza le liste cosi' create (se le liste sono molto lunghe, analizza solo i primi 100 risultati in ciascuna lista) e discuti: i termini trovati sono interessanti? Sarebbero appropriati per un glossario/database terminologico del settore studiato? Ci sono dei termini che ti saresti aspettata/o di trovare ma non sono nelle liste? E' perche' i termini in questione non erano nel corpus o per altre ragioni? Che altri problemi hai riscontrato? (Non piu' di 300 parole) (2 punti) EXTRA CREDIT (1 punto e 1/2): 1. Estrai tutte le combinazioni di due parole dal tuo corpus ([][]), e ordinale per log-likelihood e mutual information (filtrando le parole a frequenza piu' bassa) con UCS. Riporta i comandi usati. (1/2 punto) 2. Analizza le prime 30 parole in entrambe le liste cosi' create, e discuti in non piu' di 100 parole i tipi incontrati (vere collocazioni? nomi propri? termini tecnici? junk?) e come differiscono a seconda delle misura usata. (1 punto)