Corso di Terminologia e Linguaggi Settoriali (Interpretazione)

Modulo su Acquisizione Automatica di Lessico e Terminologia

Esame Finale (8 punti)


Nome e Cognome:


1. Descrivi in non piu' di 60 parole cosa si intende per
   "distribuzione zipfiana" delle parole nei corpora. (1/2 punto)

2. Discuti (in non piu' di 80 parole) due conseguenze della
   distribuzione zipfiana delle parole per il lavoro sui corpora. (1
   punto)

3. Che criteri hai usato per scegliere i "seeds" per la creazione del
   corpus online? (Non piu' di 70 parole.) (1 punto)

4. Cerca due errori del tagger nel tuo corpus taggato, e presenta
   delle ipotesi sulle cause di tali errori (in non piu' di 70
   parole).  (1 punto)

5. Usando la versione taggata, conta quanti tokens sono presenti nel
   tuo corpus. Ricordati che dovrai usare una pipe con "grep -v" per
   evitare di contare le righe che contengono attributi strutturali
   (tali righe iniziano sempre con <). Riporta il comando usato. (1/2
   punto)

6. Prova il seguente comando sul corpus BNCV4:

   	     "left" []* "right" | "right" []* "left" within s;

   Descrivi in non piu' di 50 parole che cosa fa, cercando la
   spiegazione delle varie parti nel CQP Tutorial. (1/2 punto)

7. Usando cqp, estrai due tipi di termini complessi (e.g., a seconda
   della lingua, aggettivo+nome, nome+aggettivo, nome+prep+nome,
   nome(+aggettivo)+prep+nome(+aggettivo), lemma-verbale+articolo+nome,
   ecc.), e salvane le liste ordinate per frequenza in un file. Riporta i 
   comandi usati. (1 punto e 1/2)

8. Analizza le liste cosi' create (se le liste sono molto lunghe,
   analizza solo i primi 100 risultati in ciascuna lista) e discuti: i
   termini trovati sono interessanti? Sarebbero appropriati per un
   glossario/database terminologico del settore studiato? Ci sono dei
   termini che ti saresti aspettata/o di trovare ma non sono nelle
   liste? E' perche' i termini in questione non erano nel corpus o per
   altre ragioni?  Che altri problemi hai riscontrato? (Non piu' di
   300 parole) (2 punti)


EXTRA CREDIT (1 punto e 1/2):

1. Estrai tutte le combinazioni di due parole dal tuo corpus ([][]), e
   ordinale per log-likelihood e mutual information (filtrando le
   parole a frequenza piu' bassa) con UCS. Riporta i comandi
   usati. (1/2 punto)

2. Analizza le prime 30 parole in entrambe le liste cosi' create, e
   discuti in non piu' di 100 parole i tipi incontrati (vere
   collocazioni? nomi propri? termini tecnici? junk?) e come
   differiscono a seconda delle misura usata. (1 punto)