Materiali per il corso di Linguistica Computazionale

Man mano che il corso procede, inserirò su questa pagina brevi riassunti di quanto fatto a lezione, links e materiali disponibili in formato elettronico.

La pagina si riferisce al momento al corso dell'A.A. 2005/2006.

Il mio orario di ricevimento per il semestre autunnale di quest'anno è: giovedì dalle 9 alle 10 e mezza, nello studio di Linguistica in via Oberdan. Per incontri in altre ore, contattatemi via e-mail!

Calendario

6/10/05

Nella prima lezione, ho presentato una breve storia dell'utilizzo di corpora in linguistica e aree affini (tecnologie linguistiche, lessicografia) e introdotto il tema principale del corso, ovvero la creazione di corpora usando il Web come fonte di materiale linguistico.

11/10/05

Dopo aver re-introdotto il corso per quelli che hanno cominciato a seguire oggi, abbiamo cominciato a sperimentare con ricerche su vari corpora.

Alcuni links utili:

Alcune letture sulla Rete come Corpus:

Torna al Calendario

13/10/05

Abbiamo continuato a fare ricerche, su Repubblica, sul BNC e sui corpora dal Web di Serge Sharoff (vedi links sopra), concentrandoci sui collocati dei verbi causare e cause e sulla coppia attizzare/riattizzare.

Liste di collocati:

18/10/05

Abbiamo provato a cercare i collocati di (ri)attizzare/(re)kindle su corpora tradizionali (la Repubblica, BNC) e sui corpora da Internet di Serge Sharoff, discutendo somiglianze/differenze tra forme base e prefissate, corpora tradizionali e internet, e italiano e inglese. Abbiamo anche discusso di alcuni problemi dello scaricare testi da internet, dovuti alla presenza di pagine con testo "fittizio" generato automaticamente.

Torna al Calendario

20/10/05

Abbiamo discusso varie strategie per scegliere i siti da usare come punti di partenza per il crawl, e esaminato liste di siti raccolti da me per inizializzare il crawl inglese.

URLs trovate con queries dalla lista 3esl

URLs trovate con queries dal BNC

URLs trovate con queries dalla sezione "demografica" del BNC

Le URLs che verranno usate come seeds

25/10/05

NB: da oggi la lezione del martedì si sdoppia in una lezione alle 9 (sala Heilmann) e una lezione alle 10 e mezza (Rosiello).

Durante la prima lezione (9-10.30), abbbiamo fatto partire il crawler Heritrix per raccogliere dati inglesi. Durante la seconda lezione (10.30-12), abbiamo soprattutto analizzato alcuni dati campione, disponibili nell'archivio qui sotto, osservando dunque in pratica le varie fasi del processo di ripulitura e annotazione dei dati.

Sample Docs Archive

Tutti gli studenti, presenti o assenti, dovrebbero utilizzare la pausa protratta che ci attende (giovedì non c'è lezione, e martedì è Ognissanti) per cominciare a pensare ad un progetto (va bene lavorare in gruppetti, anzi: salvo casi particolari, è meglio).

Alcuni temi possibili (se avete altre idee, contattatemi:)

Le lingue per le quali abbiamo dati (o li stiamo raccogliendo) sono: italiano, tedesco, inglese.

Il seguente paper è interessante dal nostro punto di vista soprattutto perché presenta una lista di dominii e generi in cui classificare le pagine Web (e dunque è di particolare interesse per chi voglia concentrasi sulla questione della classificazione delle pagine Web):

M. Ueyama. Evaluation of Japanese Web-based reference corpora: Effects of seed selection and time interval. To apper in: Marco Baroni and Silvia Bernardini (eds.), WaCky! Working papers on the Web as Corpus. Bologna: Gedit.

Torna al Calendario

3/11/05

Abbiamo formato alcuni gruppi che lavorano su vari temi. Qui di seguito, materiali utili ad alcuni di tali gruppi (sono tutti files di testo!)

Torna al Calendario

8/11/05

Continuano i lavori di gruppo (e vari nuovi gruppi si sono formati).

Il campione da analizzare (in parte) per i ragazzi che lavorano sul tagging tedesco.

Torna al Calendario

10/11/05

Continuano i lavori di gruppo.

Campioni di documenti spagnoli:

Lista di forme frequenti in francese che andrebbe ripulita al fine di creare un filtro per la creazione del corpus.

Campione di documenti generati automaticamente e privi di senso in tedesco.

Torna al Calendario

15/11/05

Continuano i lavori di gruppo.

Campioni di documenti francesi:

Distribuzioni di parti del discorso nei testi tedeschi "junk" e buoni:

Torna al Calendario

22/11/05

Continuano i lavori di gruppo.

Proposta di nuovo tagset per l'italiano.

Torna al Calendario

1/12/05

Oggi Elisa Rossi ha presentato il suo lavoro sui filtri anti-pornografia, e siamo andati avanti con i lavori di gruppo.

Campione italiano ri-tokenizzato e annotato con Morph-it!.

Archivio con i dati per l'analisi del "junk" in tedesco.

Dati per l'analisi dei generi:

Torna al Calendario

6/12/05

Siamo andati avanti con i lavori di gruppo.

Nuovi dati per il gruppo che lavora sulla ricognizione automatica dei testi generati automaticamente in tedesco:

Torna al Calendario


La mia pagina di links su linguistica computazionale e materie affini

La mia homepage

Torna al Calendario