Calendario e materiali per il corso di Linguistica
Computazionale
Man mano che il corso procede, inserirò su questa pagina
brevi riassunti di quanto fatto a lezione, le cose da fare per la
settimana successiva, i miei handouts e i materiali disponibili in
formato elettronico.
Presentazione e programma del
corso
Manuali/introduzioni alla linguistica
computazionale e ad aree limitrofe
(NB: La lettura dei
libri in questa lista non è richiesta per questo corso; si
tratta semplicemente di suggerimenti per chi voglia approfondire
ulteriormente la materia.)
Calendario
Settimana 0
Cosa abbiamo fatto
- Venerdì: Introduzione al corso, introduzione a Unix, primi
comandi (ls, cd) e tecniche (tab completion, history...), handout
Unix per Linguisti (vedi sotto nella sezione Materiali) fino
alla sezione 4.1 compresa.
Da fare per la prossima settimana
- Se avete tempo, fate l'UNIX Tutorial for Beginners (raggiungibile
attraverso i miei links) fino al tutorial 4 compreso. Mentre fate i
tutorials, tenete presente queste note.
- Visitare tutti i siti nella sezione Unix-Like Operating Systems /
Unix della mia lista di links.
- Ripassate quanto fatto in classe dall'handout Unix per
Linguisti.
- Se volete leggere dell'altro materiale introduttivo e/o fare
più esercizio, provate a iniziare Unix for Poets di
Kenneth Church (scaricabile qui sotto nella sezione Materiali).
Materiali
Torna al Calendario
Settimana 1
Cosa abbiamo fatto
- Lunedì: Breve ripasso, e handout Unix per Linguisti
(vedi sezione Materiali della Settimana 0) fino alla sezione 4.3
compresa.
- Venerdì: Handout Unix per Linguisti fino alla
sezione 5.1 compresa. Temi importanti: le pipes, le espressioni
regolari (vedi anche l'Unix for Linguists Quick Reference qui
sotto nella sezione materiali).
Da fare per la settimana prossima
- Come cerchereste le seguenti righe con le espressioni
regolari?
- Tutte le righe che contengono solo non-vocali
- Tutte le righe che finiscono in una a seguita da una
non-vocale
- Tutte le righe di almeno tre caratteri che finiscono in una
a seguita da una non-vocale
- Tutte le righe che iniziano con una cifra, contengono almeno tre
caratteri e NON finiscono in vocale maiuscola
- DIFFICILE: Tutte le righe che contengono una e una sola a
(preceduta e/o seguita da qualsiasi cosa, o da niente)
- Ripassate quanto fatto in classe dall'handout Unix per
Linguisti.
- Nella sezione Unix Text Processing dei miei links, ci sono tre
links a siti sulle espressioni regolari: visitateli!
- Se non l'avete ancora fatto, fate l'UNIX Tutorial for Beginners
(raggiungibile attraverso i miei links) fino al tutorial 4
compreso. Mentre fate i tutorials, tenete presente queste note.
- Se non l'avete ancora fatto, visitate tutti i siti nella sezione
Unix-Like Operating Systems / Unix della mia lista di links.
- Se volete leggere dell'altro materiale introduttivo e/o fare
più esercizio, provate a iniziare Unix for Poets di
Kenneth Church (vedi sezione Materiali della Settimana 0).
Materiali
Torna al Calendario
Settimana 2
Cosa abbiamo fatto
- Lunedì: Esercizi sulle espressioni regolari, e inizio della
parte sulla tokenizzazione dell'handout Unix per Linguisti
(vedi sezione Materiali della Settimana 0).
- Venerdì: tokenizzazione e creazione di liste di frequenza
dall'handout Unix per Linguisti (siamo arrivati alla sezione
7.1.2 compresa, saltando la parte sul comando comm).
Da fare per venerdì
- Andare avanti con l'handout Unix per Linguisti fino alla
sezione 6.2 compresa.
- Se non li avete ancora fatti, fate gli esercizi suggeriti la
settimana scorsa.
Da fare per la settimana prossima
- PRIMO COMPITO CON VOTO, da
consegnarmi entro venerdì 29 novembre a lezione (via email, con
le risposte direttamente nel messaggio o in un file di testo, o
stampandolo e consegnandomelo a mano).
- Cominciate a leggere le note di teoria della probabilità
scaricabili qui sotto nella sezione Materiali.
Materiali
Torna al Calendario
Settimana 3
Cosa abbiamo fatto
- Lunedì: Ripasso di tokenizzazione e creazione di liste di
frequenza; gawk (sezione 7.2 di Unix per Linguisti).
- Venerdì: Abbiamo finito l'handout Unix per Linguisti
facendo la parte sulla creazione di bigrammi e trigrammi; abbiamo
iniziato a parlare dell'estrazione di collocazioni, e stiamo facendo
la sezione 4 dell'handout Cercare collocazioni e altre parole
associate (vedi sezione Materiali qui sotto).
Da fare per venerdì
- Se non li avete già creati, create due files con le 100
parole più frequenti del Brown e del LOB.
- Continuate la lettura delle note di teoria della
probabilità scaricabili dalla sezione Materiali della settimana
2.
- Ricordatevi che il primo compito con voto va consegnato entro
venerdì! (Vedi sezione Materiali della settimana 2.)
Da fare per la prossima settimana
- Se non avete basi di teoria della probabilità, leggete le
note su questo argomento scaricabili dalla sezione Materiali della
settimana 2 (almeno fino alla sezione 7 compresa).
- Se volete fare pratica, provate gli esercizi suggeriti alla fine
dell'handout Unix per Linguisti, in particolare quello sugli
spettri di frequenze (un argomento che sarà in parte oggetto
del prossimo compito con voto.
Materiali
Torna al Calendario
Settimana 4
Cosa abbiamo fatto
- Venerdì: Ho rapidamente discusso i risultati del primo
compito, abbiamo finito l'handout Cercare collocazioni e altre
parole associate (vedi sezione Materiali della settimana 3) e
cominciato l'handout UCS quick start (vedi sezione Materiali
qui sotto).
Da fare per la settimana prossima
- SECONDO COMPITO CON
VOTO, da consegnarmi entro venerdì 12 novembre a
lezione (via email, con le risposte direttamente nel messaggio o in un
file di testo, o stampandolo e consegnandomelo a mano).
- Ripassare quanto fatto in classe.
Materiali
- UCS quick start
L'handout che seguiamo in classe, con istruzioni pratiche per lavorare con il pacchetto UCS.
Torna al Calendario
Settimana 5
Cosa abbiamo fatto
- Lunedì: (Lezione tenuta da Sara Piccioni) Usando UCS,
abbiamo estratto vari tipi di collocazioni da corpora di poesia e
prosa di Lorca (l'handout di Sara Piccioni è disponibile qui
sotto nella sezione Materiali).
- Venerdì: Ho discusso il secondo compito mettendo in risalto
alcuni aspetti della statistica lessicale (vedi anche le soluzioni del
compito nella sezione Materiali qui sotto), e abbiamo fatto esercizio
con UCS seguendo l'handout UCS quick start (vedi sezione
Materiali della settimana 4).
Da fare per venerdì
- SECONDO COMPITO CON
VOTO, da consegnarmi entro venerdì 12 novembre a
lezione (via email, con le risposte direttamente nel messaggio o in un
file di testo, o stampandolo e consegnandomelo a mano).
- Provare ad usare i tools UCS.
Da fare per la settimana prossima
- Provare ad usare i tools UCS, basandosi sull'handout UCS quick
start (vedi Materiali settimana 4).
- Procurarsi una Google API license key (istruzioni gentilmente fornite da Sara
Piccioni).
- Cominciare a pensare al dominio sul quale si vuole lavorare per la
tesina (per es., un dominio terminologico quale l'ulcera, la
metereologia, ecc.)
Materiali
Torna al Calendario
Settimana 6
Cosa abbiamo fatto
- Lunedì: Abbiamo fatto l'handout sul formato testo e
l'handout sulla rete come corpus fino a 3.1 escluso (gli handout sono
disponibili qui sotto nella sezione Materiali).
- Venerdì: Abbiamo finito l'handout sulla rete come corpus e
cominciato quello su Estrarre Corpora e Termini dalla Rete
(disponibile qui sotto nella sezione Materiali), che abbiamo seguito
fino alla sezione sul tool collect_urls_from_google.pl
compresa. Gli studenti hanno preparato liste di termini tipici del
dominio su cui vogliono lavorare usando l'editor di testo
pico.
Da fare per venerdì
- Venite a lezione con la Google API license key in formato
elettronico (vedere le istruzioni alla Settimana 5 su come
procurarsela).
- Scegliete un dominio e una lingua su cui volete lavorare (da soli
o in gruppo) e preparate una breve lista di termini tipici del
dominio. Per un esempio (da uno studio del dominio psichiatrico delle
pseudo-seizures in inglese), vedete il file
cl_shared_data/pseudoseizures/seeds. Se avete dubbi,
contattatemi.
Da fare per la settimana prossima (e quella dopo)
- TERZO COMPITO CON VOTO, da
consegnarmi entro venerdì 3 dicembre a lezione (via email, con
le risposte direttamente nel messaggio o in un file di testo, o
stampandolo e consegnandomelo a mano).
- Se non l'aveta già fatto, create una lista di 5-10 termini tipici del dominio su cui volete lavorare (in una lingua a scelta). È meglio creare la lista direttamente con pico.
Materiali
Torna al Calendario
Settimana 7
Cosa abbiamo fatto
- Venerdì: Siamo andati avanti con l'handout su Estrarre
Corpora e Termini dalla Rete (disponibile nella sezione Materiali
della settimana 6) fino alla sezione sull tokenizzazione.
Da fare per la settimana prossima
- Ricordatevi la consegna del terzo compito con voto (venerdì
3 dicembre)!
- Procedere con la tokenizzazione del corpus specialistico.
Torna al Calendario
Settimana 8
Cosa abbiamo fatto
- Lunedì: Abbiamo fatto l'handout Misure di Associazione e
Parole Tipiche di un Corpus e siamo andati avanti con l'handout su
Estrarre Corpora e Termini dalla Rete fino alla sezione sulla
scelta di nuovi seeds compresa (entrambi gli handouts sono disponibili
nella sezione Materiali della settimana 6).
- Venerdì: Andiamo avanti con la procedura descritta
nell'handout su
Estrarre Corpora e Termini dalla Rete: gran parte degli studenti hanno estratto un set di nuovi seeds e stanno creando un secondo corpus.
Da fare per venerdì
- Ricordatevi la consegna del terzo compito con voto!
Da fare per la prossima settimana
- Procedere nella creazione del secondo corpus estratto dal
web.
Torna al Calendario
Settimana 9
Cosa abbiamo fatto
- Lunedì: Ho presentato un'introduzione generale al
part-of-speech tagging (vedi handout nella sezione Materiali qui
sotto), e siamo andati avanti con la procedura d'estrazione di corpora
e termini dalla rete.
- Venerdì: Procede l'estrazione di corpora e termini dalla
rete. Alcuni studenti stanno creando il secondo corpus, ed estraendone
nuovi seeds, mentre altri studenti hanno già fatto il tagging e
stanno estraendo termini complessi (vedi handout qui sotto nella
sezione Materiali).
Da fare per venerdì
- Finire la creazione del secondo corpus estratto dal web, ed
estrarre nuovi seeds da questo corpus.
Da fare per la settimana prossima
- Idealmente, arrivare alla creazione di un corpus taggato.
Materiali
Torna al Calendario
Settimana 10
Cosa abbiamo fatto
- Lunedì e venerdì: Procede l'estrazione di corpora e
termini (anche complessi) dalla rete.
Da fare per la settimana prossima
Torna al Calendario
Torna
alla homepage di Linguistica Computazionale 2004/05