===================================================
            INFORMAZIONI SULLE LISTE DI COLLOCAZIONI POTENZIALI
            ===================================================


Introduzione
------------

Ciascuno dei files in questa sezione contiene una lista di
collocazioni potenziali, estratte con metodi automatici e criteri per
lo più comparabili da uno dei nostri corpora.

Per le sequenze V+N, per lo più ho creato due tipi di files:

Formato 1:

verbo nome f f1 f2 mi

dove verbo e nome vanno sempre intesi come lemmi, f è la frequenza di
co-occorrenza della particolare sequenza verbo-nome, f1 è la frequenza
totale del verbo in contesti V+N, f2 la frequenza totale del nome nei
medesimi contesti, e mi è la mutual information della sequenza
verbo-nome.

Formato 2:

verbo nome f realizzazione1 f1 (f1%) realizzazione2 f2 (f2%) ...

Questo secondo tipo di file è utile per studiare quanto fisse siano le
potenziali collocazioni. In particolare, verbo, nome e f sono come
sopra, ma sono seguite da una serie di "realizzazioni" del materiale
post-verbale (nome incluso) con la loro frequenza assoluta e
relativa. Per esempio:

perquisire      ministro        2       i_ministri      1 (50.00%)
ministri        1 (50.00%)

Ossia, la coppia di lemmi "perquisire" e "ministro" capita due volte,
e in una di queste due volte (cioè nel 50% dei casi) il materiale
post-verbo è "i ministri", nell'altra "ministri".

Per le sequenze A+N o N+A (le seconde raccolte solo per l'italiano, e
tenendo conto della possibilità che capitasse un avverbio nel mezzo),
ho raccolto direttamente le forme flesse. Dunque, i files sono sempre
in formato:

parola1 parola2 f f1 f2 mi

Sia per V+N che per A+N/N+A, i dati sono stati "normalizzati" in vari
modi (convertendo in minuscolo, rimuovendo parole con caratteri non
alfabetici, ecc.)

Inoltre, a seconda della quantità di dati estratti, ho usato varie
soglie di frequenza, ho creato più o meno files, ecc. (vedi le note ai
vari corpora in quanto segue).


Estendere le ricerche
---------------------

Le queries usate per estrarre le collocazioni possono essere usate
come modelli per queries più specifiche nei medesimi corpora.

Per esempio, le collocazioni V+N in la Repubblica sono state cercate
con la seguente query (qui e di seguito, inserisco degli a capo per
questioni di leggibilità, ma ovviamente gli a capo non vanno usati
nelle queries vere e proprie; si noti inoltre che il punto e virgola a
fine query non è necessario se si utilizza l'interfacccia web):

[pos="VER:.*"][pos="ADV"]?[pos="DET:.*" | pos="ART"]{0,2}[pos="ADV"]?
[pos="ADJ"]*[pos="NOM"];

Per cercare le collocazioni con un verbo specifico, per es. "tirare",
si potrebbe aggiungere:

[lem="tirare" & pos="VER:.*"][pos="ADV"]?[pos="DET:.*" | pos="ART"]{0,2}
[pos="ADV"]?[pos="ADJ"]*[pos="NOM"];

e per cercare le collocazioni di un nome specifico, per es.,
"effetto":

[pos="VER:.*"][pos="ADV"]?[pos="DET:.*" | pos="ART"]{0,2}[pos="ADV"]?
[pos="ADJ"]*[lem="effetto" & pos="NOM"];

In casi come questi, dove la parola ricercata non è ambigua, non c'è
in realtà bisogno di specificare la parte del discoro -- per esempio,
uno potrebbe cercare direttamente:

[pos="VER:.*"][pos="ADV"]?[pos="DET:.*" | pos="ART"]{0,2}[pos="ADV"]?
[pos="ADJ"]*[lem="effetto"];

o, nel caso in cui interessi solo il plurale, addirittura:

[pos="VER:.*"][pos="ADV"]?[pos="DET:.*" | pos="ART"]{0,2}[pos="ADV"]?
[pos="ADJ"]*[word="effetti"];

In realtà, ci sono vari altri modi di semplificare la ricerca. Per
esempio, la seguente query dovrebbe date risultati abbastanza simili a
quelli della ricerca precedente:

[pos="VER:.*"][pos!="NOM" & pos!="PRE"]{0,4}[word="effetti"] within s;

Seguono dettagli sulle ricerche condotte sui vari corpora e
sotto-corpora.


*** la Repubblica ***

V+N

[pos="VER:.*"][pos="ADV"]?[pos="DET:.*" | pos="ART"]{0,2}[pos="ADV"]?
[pos="ADJ"]*[pos="NOM"];

A+N

[pos="ADJ"][pos="NOM"];

N+A

[pos="NOM"][pos="ADV"]?[pos="ADJ"];

Note:

Per ciascun tipo, ho creato liste che contengono le 300 coppie più
frequenti e le 300 coppie con la mutual information più alta (con
soglia minima di frequenza a 50).


*** la Repubblica Sport ***

V+N

a:[pos="VER:.*"][pos="ADV"]?[pos="DET:.*" | pos="ART"]{0,2}[pos="ADV"]?
[pos="ADJ"]*[pos="NOM"] :: a.article_top="sport";

A+N

a:[pos="ADJ"][pos="NOM"] :: a.article_top="sport";

N+A

a:[pos="NOM"][pos="ADV"]?[pos="ADJ"] :: a.article_top="sport";   

Note:

Per ciascun tipo, ho creato liste che contengono le 300 coppie più
frequenti e le 300 coppie con la mutual information più alta (con
soglia minima di frequenza a 30).


*** Novelle per un Anno ***

V+N

[pos="VER:.*"][pos="ADV.*"]?[pos="DET:.*" | pos="ART"]{0,2}[pos="ADV.*"]?
[pos="ADJ"]*[pos="NOUN"];

A+N

[pos="ADJ"][pos="NOUN"];

N+A

[pos="NOUN"][pos="ADV.*"]?[pos="ADJ"];

Note:

Per V+N, riporto tutte le coppie con frequenza minima 10, per A+N e
N+A tutte le coppie con frequenza minima 5.


*** Leggi sulla Sicurezza Italiane ***

V+N

[pos="VER:.*"][pos="ADV.*"]?[pos="DET:.*" | pos="ART"]{0,2}[pos="ADV.*"]?
[pos="ADJ"]*[pos="NOUN"];

A+N

[pos="ADJ"][pos="NOUN"];                                                                        
N+A

[pos="NOUN"][pos="ADV.*"]?[pos="ADJ"];

Note:

Per V+N, riporto tutte le coppie con frequenza minima 10, per A+N e
N+A tutte le coppie con frequenza minima 5.


*** Testi Italiani sulla Dialisi ***

V+N

[pos="VER:.*"][pos="ADV.*"]?[pos="DET:.*" | pos="ART"]{0,2}[pos="ADV.*"]?
[pos="ADJ"]*[pos="NOUN"];

A+N

[pos="ADJ"][pos="NOUN"];

N+A

[pos="NOUN"][pos="ADV.*"]?[pos="ADJ"];

Note:

Per V+N, riporto tutte le coppie con frequenza minima 10, per A+N e
N+A tutte le coppie con frequenza minima 5.


*** BNC ***

V+N

[pos="VV.*"][pos="AV.*"]?[pos="D.*" | pos="AT0"]{0,2}[pos="AV.*"]?
[pos="AJ.*"]*[pos="NN.*"];

A+N

[pos="AJ.*"][pos="NN.*"];

Note:

Note:

Per ciascun tipo, ho creato liste che contengono le 300 coppie più
frequenti e le 300 coppie con la mutual information più alta (con
soglia minima di frequenza a 50).

NB: nel BNC, l'attributo per cercare i lemmi è "lemma", e non "lem", come
negli altri corpora!


*** BNC sport ***

V+N

a:[pos="VV.*"][pos="AV.*"]?[pos="D.*" | pos="AT0"]{0,2}[pos="AV.*"]?
[pos="AJ.*"]*[pos="NN.*"] :: a.text_genre="W.*sports";

A+N

a:[pos="AJ.*"][pos="NN.*"] :: a.text_genre="W.*sports";

Note:

Per entrambi i tipi, riporto tutte le coppie con frequenza minima 10.

NB: nel BNC, l'attributo per cercare i lemmi è "lemma", e non "lem", come
negli altri corpora!


*** Opere di Henry James ***

V+N

[pos="VV.*"][pos="R.*"]?[pos="DT" | pos="WP$" | pos="WDT" | pos="PP$"]{0,2}
[pos="R.*"]?[pos="J.*"]*[pos="NN.*"];

A+N

[pos="J.*"][pos="NN.*"];

Note:

Per entrambi i tipi, riporto tutte le coppie con frequenza minima 10.


*** Leggi sulla Sicurezza Inglesi ***

V+N

[pos="VV.*"][pos="R.*"]?[pos="DT" | pos="WP$" | pos="WDT" | pos="PP$"]{0,2}
[pos="R.*"]?[pos="J.*"]*[pos="NN.*"];

A+N

[pos="J.*"][pos="NN.*"];

Note:

Per entrambi i tipi, riporto tutte le coppie con frequenza minima 10.


*** Testi Inglesi sulla Dialisi ***

V+N

[pos="VV.*"][pos="R.*"]?[pos="DT" | pos="WP$" | pos="WDT" | pos="PP$"]{0,2}
[pos="R.*"]?[pos="J.*"]*[pos="NN.*"];

A+N

[pos="J.*"][pos="NN.*"];                                                                      
Note:

Per V+N, riporto le coppie con frequenza minima 3; per A+N le coppie
con frequenza minima 5.


*** EPIC ***

* Interventi Originali Italiani *

V+N

[pos="VER:.*"][pos="INT"]*[pos="ADV.*"]?[pos="INT"]*
[pos="DET:.*" | pos="PEO:.*"]{0,2}[pos="INT"]*[pos="ADV.*"]?
[pos="INT"]*[pos="ADJ"]*[pos="INT"]*[pos="NOM"];

A+N

[pos="ADJ"][pos="NOM"];  

N+A

[pos="NOM"][pos="ADV"]?[pos="ADJ"];

Note:

Visto l'esiguo numero di coppie V+N, per i sotto-corpora EPIC ho
creato un solo file con tutte le coppie, la loro frequenza e le loro
realizzazioni. Nel sotto-corpus di originali italiani, non ho
applicato soglie di frequenza.


* Interventi Inglesi Interpretati in Italiano *

V+N

[pos="VER:.*"][pos="INT"]*[pos="ADV.*"]?[pos="INT"]*
[pos="DET:.*" | pos="PEO:.*"]{0,2}[pos="INT"]*[pos="ADV.*"]?
[pos="INT"]*[pos="ADJ"]*[pos="INT"]*[pos="NOM"];

A+N

[pos="ADJ"][pos="NOM"];

N+A

[pos="NOM"][pos="ADV"]?[pos="ADJ"];

Note:

Nienta soglia minima per V+N e A+N, soglia a due occorrenze per N+A.


* Interventi Originali Inglesi *

V+N

[pos="VV.*"][pos="R.*"]?[pos="DT" | pos="WP$" | pos="WDT" | pos="PP$"]{0,2}
[pos="R.*"]?[pos="J.*"]*[pos="NN.*"];

A+N

[pos="J.*"][pos="NN.*"];

Note:

Solo per A+N, la soglia di frequenza minima è di 2 occorrenze.


* Interventi Italiani Interpretati in Inglese *

V+N

[pos="VV.*"][pos="R.*"]?[pos="DT" | pos="WP$" | pos="WDT" | pos="PP$"]{0,2}
[pos="R.*"]?[pos="J.*"]*[pos="NN.*"];

A+N

[pos="J.*"][pos="NN.*"];

Note:

Dato il numero esiguo di coppie, non ho applicato soglie di frequenza
né a V+N né a A+N.