English Italiano
Ricerca CQP
La ricerca CQP permette di effettuare ricerche tramite il linguaggio di interrogazione Corpus Query Processor (CQP) dell'IMS Open Corpus Workbench. La maschera di ricerca opera come una linea di comando in cui introdurre le specifiche della ricerca.
Come nei casi della Ricerca Semplice e della Ricerca Avanzata, la ricerca può essere ristretta a "frasi semplici" ed è possibile visualizzare i diagrammi di dipendenze dei risultati. Le frasi semplici vengono selezionate sulla base di criteri di leggibilità predefiniti. Entrambe le opzioni sono attivabili spuntando le rispettive caselle.
Esempi di ricerche CQP
-
Parole semplici (con o senza virgolette), es. per cercare la parola "Bolzano":
- "Bolzano"
-
Parole che contengono espressioni regolari (tra virgolette), es. per cercare tutte la occorrenze della parola "qui" e della parola "qua":
- "qu(a|i)"
-
es. per cercare tutte le parole che iniziano con "sopra":
- "sopra.*"
-
i parametri %c (ignora maiuscolo/minuscolo) e %d (ignora segni diacritici) posizionate alla fine della stringa di ricerca,
es. per cercare sia "italiano" sia "Italiano" sia "ITALIANO":
- "Italiano" %c
-
annotazioni della parte del discorso (POS) e del lemma (che possono a loro volta contenere espressioni regolari), es. per cercare tutte le parole appartenenti alla categoria "DQ", tutte le forme del lemma "andare":
- [pos="DQ"]
- [lemma="andare"]
-
espressioni booleane che combinano diverse richieste per una stessa unità (token), es. per cercare la parola "sei" in quanto forma del verbo "essere" o "sei" in quanto forma non appartenente al lemma "essere":
- [(word="sei") & (lemma="essere")]
- [(word="sei") & ! (lemma="essere")]
-
é possibile inserire combinazioni di requisiti relativi alle singole unità, inclusi i valori degli attributi,
es. un nome qualsiasi al neutro plurale:
- [(pos="S") & (feats contains "gen=n") & (feats contains "num=p")];
-
sequenze di unità (siano esse parole, lemmi o parti del discorso), es. una parola appartenente alla categoria "PQ" seguita da una forma del lemma "andare":
- [pos="PQ"] [lemma="andare"]
-
[] indica un'unità qualsiasi, es. la parola "io" seguita da una parola qualsiasi, seguita da "ringrazio":
- "io" [] "ringrazio"
-
la ripetizione di un'unità (eventualmente descritta da un pattern) si può indicare con gli operatori ? (nessuna o 1 occorrenza), * (0 o più occorrenze), + (una o più occorrenze), {n} (n occorrenze), {m..n} (tra m e n occorrenze), es. per cercare una parola appartenente a qualsiasi categoria che inizi con la lettera "D", seguita da nessuno o un qualsiasi numero di parole appartenenti alla categoria "A", a loro volta seguite dalla parola "strada":
- [pos="D.*"] [pos="A"]* "strada"
-
le sequenze possono essere strutturate in liste disgiunte una volta inserite tra parentesi e separate
tramite l'operatore di disgiunzione "|", es. una qualsiasi delle parole "quattro", "cinque" o "sei" seguita dalla parola "giorni":
- "(quattro|cinque|sei)" "giorni"
-
è possibile introdurre condizioni relative alle unità di ricerca tramite l'uso di etichette (consulta
section 4.1.
of the CQP tutorial for more information), es. per ricercare il lemma "mangiare" seguito dal suo oggetto
diretto a distanza di una o più parole:
- a:[lemma="mangiare"][]*b:".*"::b.head=a.id & b.deprel="obj" within s;
- (clicca qui per sapere come effettuare la ricerca tramite l'interfaccia di "ricerca avanzata")
-
Per estrarre forme con "mangiare" che precedono o seguono il loro oggetto diretto, è necessario creare un'unione tra due sottocorpora creati separatamente:
- PREC = a:[lemma="mangiare"][]*b:[word="c.*"]::b.head=a.id & b.deprel="obj" within s;
- FOLL = b:[word="c.*"][]*a:[lemma="mangiare"]::b.head=a.id & b.deprel="obj" within s;
- union PREC FOLL;
-
é possibile combinare una o più condizioni relative alle singole unità con le relazioni che intercorrono tra le stesse unità,
es. per estrarre due nomi che (1) iniziano per vocale, (2) hanno una relazione di dipendenza del tipo "conjunct linked by con",
e (3) sono distanziate da una parola:
- a:[pos="S" & word="[aeiou].*"][]b:[pos="S" & word="[aeiou].*"]::b.head=a.id & b.deprel="conj" within s;
Impostazioni di visualizzazione
Tramite l'uso delle opzioni "set" ("imposta") e "show" ("mostra") (consulta il tutorial relativo alla ricerca CQP, sezione 2.3) l'utente può scegliere le impostazioni di visualizzazione dei risultati ottenuti.
Esempi:
- set Context 2 s; mostra la frase che contiene i risultati contestualmente alla frase che la precede e alla frase che la segue.
- show +feats; mostra i valori degli attributi di ciascuna parola (es. Per "oggetti" sarebbe "|gen=m|num=p|")
Nella visualizzazione, le parole appaiono seguite dai rispettivi attributi, che appaiono separati gli uni dagli atri tramite slash (/).
É possibile visualizzare le impostazioni attuali nella sezione "Impostazioni" che si trova sotto le opzioni di ricerca.
Attributi di parola
Lista degli attributi di parola utilizzabili per le ricerche:
- id
- Identificatore della parola all'interno del testo
- lemma
- forma base della parola
- coapos
- parte del discorso generica ("coarse pos") (o anche qui)
- pos
- parte del discorso (o anche qui)
- head
- Indicatore della testa della relazione di dipendenza
- feats
- I valori degli attributi della parola (es. caso, genere, numero)
- deprel
- La relazione di dipendenza della parola
Attributi di struttura
Inoltre, le opzioni di ricerca possono essere impostate sulla base degli attributi di struttura del testo. Lista degli attributi di struttura utilizzabili per le ricerche:
- text_id
- Identificatore del testo
- text_url
- URL di origine del testo
- text_tok
- numero di unità lessicali (tokens) nel testo
- text_ttr
- rapporto type-token all'interno del testo
- text_advvoc
- numero di unità lessicali (tokens) che non sono del vocabolario di base
- text_sent
- numero di frasi nel testo
- text_gulpidx
- indice di leggibilità ‘Gulpease' del testo
Ad esempio, la ricerca di ...
- "gatto"::match.text_dom="org"; darà come risultati esempi tratti esclusivamente da pagine web il cui dominio è ".org".
- "casa"::int(match.text_tok)>4551; troverà esempi tratti da testi che si compongo di più di 4551 parole.
- "casa"::int(match.s_advvoc)=0; troverà esempi tratti da frasi che non contengono vocaboli di livello avanzato.
Per approfondimenti sull'impiego degli attributi di struttura nelle ricerche CQP, consulta il tutorial sul linguaggio CQP, sezione 4.2..
Creare sottocorpora
I risultati delle ricerche possono essere organizzati per creare sottocorpora. Per fare ciò è sufficiente porre la sequenza "NOME =" all'inizio della stringa di ricerca. I nomi dei sottocorpora devono iniziare con una maiuscola e possono contenere lettere, numeri e trattini bassi.
Esempio:
- CAP = "capodanno" expand to s; :La stringa precedente consente di salvare tutte le frasi contenenti la parola "capodanno" in un sottocorpus chiamato "CAP"
Una volta creati dall'utente, i sottocorpora sono visibili nel menù a tendina del corpus e possono essere usati per ricerche successive. La lista di sottocorpora è accessibile da ciascuna maschera di ricerca: semplice, avanzata, CQP, e "filtri". Il sottocorpus denominato "Last" è sempre l'ultimo creato dall'utente; è quello quindi composto dai risultati delle ricerche o dei filtri più recenti. Si tenga presente che solo le parti dei risultati che corrispondono esattamente alla stringa di ricerca stessa vengono inclusi in un sottocorpus.
Esempi:
- CASA1 = "casa" "di" ".*"; :Il sottocorpus CASA1 conterrà tutte le espressioni del tipo "casa di X", per esempio "casa di legno", "casa di Dio", etc.
- CASA2 = "casa" "di" ".*" expand to s; :Il sottocorpus CASA2 conterrà tutte le frasi (s) che contengono espressioni del tipo "casa di X", per esempio "Una vecchia donna, Mara, viene raffigurata in una piccola casa di legno."
I sottocorpora possono anche essere creati e utilizzati nella modalità "Filtri". Per approfondimenti cliccare qui.
Tutti i sottocorpora sono disponibili per 24 ore della loro creazione e scadono alla chiusura del browser.
Esempi di ricerche complesse
Di seguito è proposta una lista precompilata di possibili ricerche linguisticamente motivate. Gli esempi includono ricerche di:
- Sintagmi nominali complessi, es. "la più recente evoluzione"
- Varie tipologie di domanda, es. "Quali sono le sue abitudini?" or "Cosa volete di più?"
- Costruzioni passive, es. "In alcuni posti, il puma viene chiamato coguaro, leone di montagna, lince, o gatto dipinto."
Cliccando su uno degli esempi di ricerca si avvia la corrispondente funzione di ricerca; ogni esempio, visualizzabile nella maschera di ricerca CQP, può essere modificato dall'utente in base alle sue esigenze.
Limitations of the CQP search
Per motivi tecnici, non tutte le funzioni generali delle ricerche CQP sono disponibili. Non è ad esempio possibile usare i comandi "count", "sort", "group", "tabulate", "dump" e "reduce".
Non hai trovato ciò che cerchi? Clicca qui per accedere alla lista completa delle nostre pagine di aiuto.