Corso di Terminologia e Linguaggi Settoriali (Traduzione Settoriale)

Modulo su Acquisizione Automatica di Lessico e Terminologia

Esame Finale (8 punti)


Nome e Cognome:


1. Descrivi in non piu' di 60 parole cosa si intende per
   "distribuzione zipfiana" delle parole nei corpora. (1/2 punto)

2. Discuti (in non piu' di 80 parole) due conseguenze della
   distribuzione zipfiana delle parole per il lavoro sui corpora. (1
   punto)

3. Che criteri hai usato per scegliere i "seeds" per la creazione del
   corpus online? (Non piu' di 70 parole.) (1 punto)

4. Cerca due errori del tagger nel tuo corpus taggato, e presenta
   delle ipotesi sulle cause di tali errori (in non piu' di 70
   parole).  (1 punto)

5. Usando la versione taggata, conta quanti tokens sono presenti nel
   tuo corpus. Ricordati che dovrai usare una pipe con "grep -v" per
   evitare di contare le righe che contengono attributi strutturali
   (tali righe iniziano sempre con <). Riporta il comando usato. (1/2
   punto)

6. In non piu' di 50 parole, spiega che cosa fa il seguente comando di
   cqp:

		"as" []{1,3} "as" within s; 

   Provalo con il corpus BNCV4 e/o cerca la spiegazione delle varie
   parti nel CQP Tutorial. (1/2 punto)

7. Usando cqp, estrai due tipi di termini complessi (e.g., a seconda
   della lingua, aggettivo+nome, nome+aggettivo, nome+prep+nome,
   nome(+aggettivo)+prep+nome(+aggettivo), lemma-verbale+articolo+nome,
   ecc.), e salvane le liste ordinate per frequenza in un file. Riporta i 
   comandi usati. (1 punto e 1/2)

8. Analizza le liste cosi' create (se le liste sono molto lunghe,
   analizza solo i primi 100 risultati in ciascuna lista) e discuti: i
   termini trovati sono interessanti? Sarebbero appropriati per un
   glossario/database terminologico del settore studiato? Ci sono dei
   termini che ti saresti aspettata/o di trovare ma non sono nelle
   liste? E' perche' i termini in questione non erano nel corpus o per
   altre ragioni?  Che altri problemi hai riscontrato? (Non piu' di
   300 parole) (2 punti)


EXTRA CREDIT (1 punto e 1/2):

1. Facendo riferimento all'handout su "Come funziona il Part-of-Speech
   Tagging", calcola la probabilita' delle due sequenze di tags:

   PRO:pers  AUX:fin VER:pper
   ART	     AUX:fin VER:pper

   per la frase:

   l'ho fatto

   (Riporta tutte le probabilita' che hai calcolato.) (1 punto)

2. Quale fattore rende la prima sequenza piu' probabile della seconda?
   (Rispondi in non piu' di 50 parole.) (1/2 punto)