Corso di Terminologia e Linguaggi Settoriali (Traduzione Settoriale) Modulo su Acquisizione Automatica di Lessico e Terminologia Esame Finale (8 punti) Nome e Cognome: 1. Descrivi in non piu' di 60 parole cosa si intende per "distribuzione zipfiana" delle parole nei corpora. (1/2 punto) 2. Discuti (in non piu' di 80 parole) due conseguenze della distribuzione zipfiana delle parole per il lavoro sui corpora. (1 punto) 3. Che criteri hai usato per scegliere i "seeds" per la creazione del corpus online? (Non piu' di 70 parole.) (1 punto) 4. Cerca due errori del tagger nel tuo corpus taggato, e presenta delle ipotesi sulle cause di tali errori (in non piu' di 70 parole). (1 punto) 5. Usando la versione taggata, conta quanti tokens sono presenti nel tuo corpus. Ricordati che dovrai usare una pipe con "grep -v" per evitare di contare le righe che contengono attributi strutturali (tali righe iniziano sempre con <). Riporta il comando usato. (1/2 punto) 6. In non piu' di 50 parole, spiega che cosa fa il seguente comando di cqp: "as" []{1,3} "as" within s; Provalo con il corpus BNCV4 e/o cerca la spiegazione delle varie parti nel CQP Tutorial. (1/2 punto) 7. Usando cqp, estrai due tipi di termini complessi (e.g., a seconda della lingua, aggettivo+nome, nome+aggettivo, nome+prep+nome, nome(+aggettivo)+prep+nome(+aggettivo), lemma-verbale+articolo+nome, ecc.), e salvane le liste ordinate per frequenza in un file. Riporta i comandi usati. (1 punto e 1/2) 8. Analizza le liste cosi' create (se le liste sono molto lunghe, analizza solo i primi 100 risultati in ciascuna lista) e discuti: i termini trovati sono interessanti? Sarebbero appropriati per un glossario/database terminologico del settore studiato? Ci sono dei termini che ti saresti aspettata/o di trovare ma non sono nelle liste? E' perche' i termini in questione non erano nel corpus o per altre ragioni? Che altri problemi hai riscontrato? (Non piu' di 300 parole) (2 punti) EXTRA CREDIT (1 punto e 1/2): 1. Facendo riferimento all'handout su "Come funziona il Part-of-Speech Tagging", calcola la probabilita' delle due sequenze di tags: PRO:pers AUX:fin VER:pper ART AUX:fin VER:pper per la frase: l'ho fatto (Riporta tutte le probabilita' che hai calcolato.) (1 punto) 2. Quale fattore rende la prima sequenza piu' probabile della seconda? (Rispondi in non piu' di 50 parole.) (1/2 punto)