=================================================== INFORMAZIONI SULLE LISTE DI COLLOCAZIONI POTENZIALI =================================================== Introduzione ------------ Ciascuno dei files in questa sezione contiene una lista di collocazioni potenziali, estratte con metodi automatici e criteri per lo più comparabili da uno dei nostri corpora. Per le sequenze V+N, per lo più ho creato due tipi di files: Formato 1: verbo nome f f1 f2 mi dove verbo e nome vanno sempre intesi come lemmi, f è la frequenza di co-occorrenza della particolare sequenza verbo-nome, f1 è la frequenza totale del verbo in contesti V+N, f2 la frequenza totale del nome nei medesimi contesti, e mi è la mutual information della sequenza verbo-nome. Formato 2: verbo nome f realizzazione1 f1 (f1%) realizzazione2 f2 (f2%) ... Questo secondo tipo di file è utile per studiare quanto fisse siano le potenziali collocazioni. In particolare, verbo, nome e f sono come sopra, ma sono seguite da una serie di "realizzazioni" del materiale post-verbale (nome incluso) con la loro frequenza assoluta e relativa. Per esempio: perquisire ministro 2 i_ministri 1 (50.00%) ministri 1 (50.00%) Ossia, la coppia di lemmi "perquisire" e "ministro" capita due volte, e in una di queste due volte (cioè nel 50% dei casi) il materiale post-verbo è "i ministri", nell'altra "ministri". Per le sequenze A+N o N+A (le seconde raccolte solo per l'italiano, e tenendo conto della possibilità che capitasse un avverbio nel mezzo), ho raccolto direttamente le forme flesse. Dunque, i files sono sempre in formato: parola1 parola2 f f1 f2 mi Sia per V+N che per A+N/N+A, i dati sono stati "normalizzati" in vari modi (convertendo in minuscolo, rimuovendo parole con caratteri non alfabetici, ecc.) Inoltre, a seconda della quantità di dati estratti, ho usato varie soglie di frequenza, ho creato più o meno files, ecc. (vedi le note ai vari corpora in quanto segue). Estendere le ricerche --------------------- Le queries usate per estrarre le collocazioni possono essere usate come modelli per queries più specifiche nei medesimi corpora. Per esempio, le collocazioni V+N in la Repubblica sono state cercate con la seguente query (qui e di seguito, inserisco degli a capo per questioni di leggibilità, ma ovviamente gli a capo non vanno usati nelle queries vere e proprie; si noti inoltre che il punto e virgola a fine query non è necessario se si utilizza l'interfacccia web): [pos="VER:.*"][pos="ADV"]?[pos="DET:.*" | pos="ART"]{0,2}[pos="ADV"]? [pos="ADJ"]*[pos="NOM"]; Per cercare le collocazioni con un verbo specifico, per es. "tirare", si potrebbe aggiungere: [lem="tirare" & pos="VER:.*"][pos="ADV"]?[pos="DET:.*" | pos="ART"]{0,2} [pos="ADV"]?[pos="ADJ"]*[pos="NOM"]; e per cercare le collocazioni di un nome specifico, per es., "effetto": [pos="VER:.*"][pos="ADV"]?[pos="DET:.*" | pos="ART"]{0,2}[pos="ADV"]? [pos="ADJ"]*[lem="effetto" & pos="NOM"]; In casi come questi, dove la parola ricercata non è ambigua, non c'è in realtà bisogno di specificare la parte del discoro -- per esempio, uno potrebbe cercare direttamente: [pos="VER:.*"][pos="ADV"]?[pos="DET:.*" | pos="ART"]{0,2}[pos="ADV"]? [pos="ADJ"]*[lem="effetto"]; o, nel caso in cui interessi solo il plurale, addirittura: [pos="VER:.*"][pos="ADV"]?[pos="DET:.*" | pos="ART"]{0,2}[pos="ADV"]? [pos="ADJ"]*[word="effetti"]; In realtà, ci sono vari altri modi di semplificare la ricerca. Per esempio, la seguente query dovrebbe date risultati abbastanza simili a quelli della ricerca precedente: [pos="VER:.*"][pos!="NOM" & pos!="PRE"]{0,4}[word="effetti"] within s; Seguono dettagli sulle ricerche condotte sui vari corpora e sotto-corpora. *** la Repubblica *** V+N [pos="VER:.*"][pos="ADV"]?[pos="DET:.*" | pos="ART"]{0,2}[pos="ADV"]? [pos="ADJ"]*[pos="NOM"]; A+N [pos="ADJ"][pos="NOM"]; N+A [pos="NOM"][pos="ADV"]?[pos="ADJ"]; Note: Per ciascun tipo, ho creato liste che contengono le 300 coppie più frequenti e le 300 coppie con la mutual information più alta (con soglia minima di frequenza a 50). *** la Repubblica Sport *** V+N a:[pos="VER:.*"][pos="ADV"]?[pos="DET:.*" | pos="ART"]{0,2}[pos="ADV"]? [pos="ADJ"]*[pos="NOM"] :: a.article_top="sport"; A+N a:[pos="ADJ"][pos="NOM"] :: a.article_top="sport"; N+A a:[pos="NOM"][pos="ADV"]?[pos="ADJ"] :: a.article_top="sport"; Note: Per ciascun tipo, ho creato liste che contengono le 300 coppie più frequenti e le 300 coppie con la mutual information più alta (con soglia minima di frequenza a 30). *** Novelle per un Anno *** V+N [pos="VER:.*"][pos="ADV.*"]?[pos="DET:.*" | pos="ART"]{0,2}[pos="ADV.*"]? [pos="ADJ"]*[pos="NOUN"]; A+N [pos="ADJ"][pos="NOUN"]; N+A [pos="NOUN"][pos="ADV.*"]?[pos="ADJ"]; Note: Per V+N, riporto tutte le coppie con frequenza minima 10, per A+N e N+A tutte le coppie con frequenza minima 5. *** Leggi sulla Sicurezza Italiane *** V+N [pos="VER:.*"][pos="ADV.*"]?[pos="DET:.*" | pos="ART"]{0,2}[pos="ADV.*"]? [pos="ADJ"]*[pos="NOUN"]; A+N [pos="ADJ"][pos="NOUN"]; N+A [pos="NOUN"][pos="ADV.*"]?[pos="ADJ"]; Note: Per V+N, riporto tutte le coppie con frequenza minima 10, per A+N e N+A tutte le coppie con frequenza minima 5. *** Testi Italiani sulla Dialisi *** V+N [pos="VER:.*"][pos="ADV.*"]?[pos="DET:.*" | pos="ART"]{0,2}[pos="ADV.*"]? [pos="ADJ"]*[pos="NOUN"]; A+N [pos="ADJ"][pos="NOUN"]; N+A [pos="NOUN"][pos="ADV.*"]?[pos="ADJ"]; Note: Per V+N, riporto tutte le coppie con frequenza minima 10, per A+N e N+A tutte le coppie con frequenza minima 5. *** BNC *** V+N [pos="VV.*"][pos="AV.*"]?[pos="D.*" | pos="AT0"]{0,2}[pos="AV.*"]? [pos="AJ.*"]*[pos="NN.*"]; A+N [pos="AJ.*"][pos="NN.*"]; Note: Note: Per ciascun tipo, ho creato liste che contengono le 300 coppie più frequenti e le 300 coppie con la mutual information più alta (con soglia minima di frequenza a 50). NB: nel BNC, l'attributo per cercare i lemmi è "lemma", e non "lem", come negli altri corpora! *** BNC sport *** V+N a:[pos="VV.*"][pos="AV.*"]?[pos="D.*" | pos="AT0"]{0,2}[pos="AV.*"]? [pos="AJ.*"]*[pos="NN.*"] :: a.text_genre="W.*sports"; A+N a:[pos="AJ.*"][pos="NN.*"] :: a.text_genre="W.*sports"; Note: Per entrambi i tipi, riporto tutte le coppie con frequenza minima 10. NB: nel BNC, l'attributo per cercare i lemmi è "lemma", e non "lem", come negli altri corpora! *** Opere di Henry James *** V+N [pos="VV.*"][pos="R.*"]?[pos="DT" | pos="WP$" | pos="WDT" | pos="PP$"]{0,2} [pos="R.*"]?[pos="J.*"]*[pos="NN.*"]; A+N [pos="J.*"][pos="NN.*"]; Note: Per entrambi i tipi, riporto tutte le coppie con frequenza minima 10. *** Leggi sulla Sicurezza Inglesi *** V+N [pos="VV.*"][pos="R.*"]?[pos="DT" | pos="WP$" | pos="WDT" | pos="PP$"]{0,2} [pos="R.*"]?[pos="J.*"]*[pos="NN.*"]; A+N [pos="J.*"][pos="NN.*"]; Note: Per entrambi i tipi, riporto tutte le coppie con frequenza minima 10. *** Testi Inglesi sulla Dialisi *** V+N [pos="VV.*"][pos="R.*"]?[pos="DT" | pos="WP$" | pos="WDT" | pos="PP$"]{0,2} [pos="R.*"]?[pos="J.*"]*[pos="NN.*"]; A+N [pos="J.*"][pos="NN.*"]; Note: Per V+N, riporto le coppie con frequenza minima 3; per A+N le coppie con frequenza minima 5. *** EPIC *** * Interventi Originali Italiani * V+N [pos="VER:.*"][pos="INT"]*[pos="ADV.*"]?[pos="INT"]* [pos="DET:.*" | pos="PEO:.*"]{0,2}[pos="INT"]*[pos="ADV.*"]? [pos="INT"]*[pos="ADJ"]*[pos="INT"]*[pos="NOM"]; A+N [pos="ADJ"][pos="NOM"]; N+A [pos="NOM"][pos="ADV"]?[pos="ADJ"]; Note: Visto l'esiguo numero di coppie V+N, per i sotto-corpora EPIC ho creato un solo file con tutte le coppie, la loro frequenza e le loro realizzazioni. Nel sotto-corpus di originali italiani, non ho applicato soglie di frequenza. * Interventi Inglesi Interpretati in Italiano * V+N [pos="VER:.*"][pos="INT"]*[pos="ADV.*"]?[pos="INT"]* [pos="DET:.*" | pos="PEO:.*"]{0,2}[pos="INT"]*[pos="ADV.*"]? [pos="INT"]*[pos="ADJ"]*[pos="INT"]*[pos="NOM"]; A+N [pos="ADJ"][pos="NOM"]; N+A [pos="NOM"][pos="ADV"]?[pos="ADJ"]; Note: Nienta soglia minima per V+N e A+N, soglia a due occorrenze per N+A. * Interventi Originali Inglesi * V+N [pos="VV.*"][pos="R.*"]?[pos="DT" | pos="WP$" | pos="WDT" | pos="PP$"]{0,2} [pos="R.*"]?[pos="J.*"]*[pos="NN.*"]; A+N [pos="J.*"][pos="NN.*"]; Note: Solo per A+N, la soglia di frequenza minima è di 2 occorrenze. * Interventi Italiani Interpretati in Inglese * V+N [pos="VV.*"][pos="R.*"]?[pos="DT" | pos="WP$" | pos="WDT" | pos="PP$"]{0,2} [pos="R.*"]?[pos="J.*"]*[pos="NN.*"]; A+N [pos="J.*"][pos="NN.*"]; Note: Dato il numero esiguo di coppie, non ho applicato soglie di frequenza né a V+N né a A+N.