COMPITO 3/4: COLLOCAZIONI IN UN CORPUS DOWNLOADATO DAL WEB Consegna: Venerdi' 3 dicembre in classe Punti: 10/8 Create un corpus dal web di un dominio di vostra scelta usando wget e simple_format_pages.pl. Per esempio, potreste cercare l'url di siti che sembrano promettenti per il vostro dominio, mettere tali url una per riga in un file di testo (magari usando pico), e poi usare wget con l'opzione -i (e le altri opzioni illustrate nell'handout La Rete Come Corpus) per scaricare files dai siti scelti. Potete poi usare simple_format_pages.pl per convertire tutti i files scaricati in un singolo file di testo. Notate che e' particolarmente importante evitare di scaricare files non html: a questo fine, potreste dover aumentare la lista di suffissi ``proibiti'' passata a wget attraverso l'opzione -R. Una volta che avete il corpus come testo in un file, tokenizzatelo. Potrebbe essere una buona idea, prima o dopo la separazione delle righe in parola, eliminare tutte le righe che contengono tipico ``web/computer jargon'' che probabilmente non vi interessa. Per esempio, inserire nella pipe di tokenizzazione un comando tipo: ... | egrep -v "(http|html|www|mailto|ftp|@|)" | ... Una volta tokenizzato il file, usate wc per verificarne le dimensioni. Poi, estraetene lo spettro di frequenze ed ispezionatelo: l'andamento delle frequenze e' simile a quello che avevamo osservato nel Brown e nelle Novelle? (Spero di si', ma non si sa mai...) A questo punto, raccogliete i bigrammi dal corpus, e usate i tools UCS per analizzarli. In particolare, ordinate i bigrammi per MI e Log-Likelihood Ratio, provando vari filtri con ucs-select in modo da evitare bigrammi irrilevanti perche' chiaramente troppo rari o troppo frequenti. Una volta che avete trovato dei filtri che vi soddisfano (che probabilmente saranno diversi per MI e Log-Likelihood Ratio), salvate (con ucs-print -o) un file con i top 50 bigrammi in ordine di MI e un file con i top 50 bigrammi in ordine di Log-Likelihood. Riportate nel compito i passaggi seguiti e concludete con qualche breve osservazione sulla qualita' del corpus e delle collocazioni trovate, e in caso su quali sono i problemi che hanno contribuito ad abbassare tale qualita'.