# UCS quick start # ucsdoc e' il ''man'' di ucs ucsdoc ucsintro ucsdoc nome_del_comando # ucs-make-tables prende come input un file di bigrammi (del tipo che # si puo' costruire con tail +2 & co.) e produce come output un file # nel formato richiesto da ucs cat bigrammi | ucs-make-tables ucs_data.ds tail +2 nov.tok | paste nov.tok - | gawk 'NF==2' |\ ucs-make-tables nov.ds # NB: input va passato via pipe, nome di file che segue ucs-make-tables # e' nome di output file # NB2: ucs-make-tables e' piuttosto lento, soprattutto con input di # grosse dimensioni # diamo un'occhiata ai risultati: ucs-print -i nov.ds # ucs-print -i e' il ''more'' di ucs (spesso, sorprendentemente # lento!) # formato di tavole create da ucs-make-tables: id l1 l2 f f1 f2 N -- ---------- --------------- -- ----- ---- ------ 1 all' estremo 1 1344 14 861094 2 parve misteriosamente 1 176 18 861094 3 rabbia gli 3 135 6328 861094 4 le ballavano 1 8847 8 861094 5 sicuro daniello 1 177 2 861094 ... # aggiungi misure d'associazione: ucs-add am.MI am.log.likelihood TO nov.ds INTO nov.am.ds # NB: TO indica input file, INTO indica output # per vedere che misure d'associazione sono disponibili: ucsdoc UCS::AM # metti in ordine di MI: ucs-sort nov.am.ds BY am.MI- | ucs-print -i # il - dopo la misura per cui si ordina significa ''in ordine # decrescente'' # manipola dati: ucs-select '%' FROM nov.am.ds WHERE '%f%>100' INTO nov.am.100.ds # il % all'inizio vuol dire: seleziona tutte le colonne, mentre nella # condizione (la parte che segue WHERE) %x% indica la colonna x ucs-select 'l1' 'l2' 'am.log.likelihood' FROM nov.am.ds \ WHERE '%f1%<1000 && %f2%<1000' | ucs-sort BY am.log.likelihood \ | ucs-print -i ucs-select '%' FROM nov.am.ds WHERE '%l2% eq "nero"' INTO nov.am.nero.ds ucs-select '%' FROM nov.am.ds WHERE '%l1% =~/ion[ei]/' INTO nov.am.ione.ds # per saperne di piu' su ucs-select: ucsdoc ucs-select ucsdoc ucsexp # Salva output in un file facile da leggere e manipolare con altri # programmi: ucs-select 'l1' 'l2' 'f' 'f1' 'f2' 'am.MI' FROM nov.am.ds |\ ucs-print -o nov.mi.txt