Corpus Italiano

Benvenuti

Benvenuti

benvenuti su PAISÀ
Corpus dell'Italiano

Corpus dell'Italiano

informazioni generali & download

costituzione del corpus

accesso online
Progetto PAISÀ

Progetto PAISÀ

descrizione

partenariato

finanziamento
Materiale di consultazione

Materiale di consultazione

pubblicazioni

help pages / manuali

Costituzione del corpus

Il corpus è stato costituito in diversi passaggi:

creazione di una seed list di combinazioni casuali di parole italiane frequenti,
- tratte dal Vocabolario di base della lingua italiana (VdB) di Tullio De Mauro.
- in totale, 50 000 coppie di parole
reperimento degli indirizzi URL attraverso un motore di ricerca, pulizia della lista di URL
- uso degli strumenti BootCaT con Yahoo!
- attraverso Yahoo!, selezione delle pagine con le licenze creative commons richieste
- rimozione delle pagine erroneamente classificate dal motore di ricerca come protette da licenza creative commons (in base a delle black list compilate manualmente)
scaricamento del contenuto degli indirizzi URL e creazione di corpora puliti
- per le pagine generali, utilizzando gli strumenti KrdWrd per reperire e pulire le pagine web
- per le pagine di Wipkipedia, utilizzando il Wikipedia Extractor in combinazione con uno script che permette di separare i singoli documenti
- rimozione dei file vuoti, troppo corti o troppo lunghi con script creati appositamente
annotazione linguistica
- ILC-POS-Tagger del CNR di Pisa (TANL fine-grained pos tagset (oppure anche qui))
- DeSR Dependency Parser, Università di Pisa (ISST-TANL dependency tagset)
metadati
- l'indirizzo URL sorgente è stato attribuito ad ogni documento del corpus
indicizzazione per l'utilizzo di OpenCWB/CQP con gli strumenti di codifica cwb

Collection of the documents

I documenti presenti nel corpus PAISA sono stati selezionati utilizzando due criteri. Il primo, ispirato al progetto WaCky prevede che si identifichino le url dei documenti da scaricare effettuando ricerche per combinazioni casuali di parole su un motore di ricerca (nel nostro caso, Yahoo!. Per PAISA, le parole utilizzate sono state tratte dal Vocabolario di Base della Lingua Italiana, organizzate in una lista di 50.000 coppie. La ricerca è stata limitata a pagine in lingua italiana con licenza Creative Commons di tipo CC-Attribuzione, CC-Attribuzione-Condividi allo stesso modo, CC-Attribuzione-Non commerciale, o CC-Attribuzione-Non commerciale-Condividi allo stesso modo. Una volta ottenuta la lista di url, si è proceduto con l'eliminazione di pagine erroneamente riconducibili alle licenze CC, individuate sulla base di una black list di siti realizzata manualmente durante la realizzazione di precedenti e sperimentali versioni del corpus, nonché allo scaricamento e alla ripulitura dei documenti con il sistema KrdWrd.

Una seconda componente del corpus PAISA comprende documenti provenienti dalle versioni italiane di alcuni dei progetti web di Wikimedia Foundation ¬ Wikipedia, Wikinews, Wikisource, Wikibooks, Wikiversity, Wikivoyage. In questo caso, si sono utilizzati i dump ufficiali rilasciati da Wikimedia Foundation, estraendo il testo con il Wikipedia Extractor.

Una volta ottenuti tutti i materiali, si è effettuata una scrematura sull'intera collezione allo scopo di eliminare i documenti vuoti o con quantità di testo inferiori alle 150 parole.

Il corpus contiene in totale circa 380.000 documenti da circa 1.000 siti distinti per un totale di circa 250 milioni di parole. Circa 260.000 documenti provengono dal Wikipedia, circa 5.600 da altri progetti Wikimedia Foundation. Circa 9.300 documenti provengono da Indymedia, e si stima che circa 65.000 documenti provengano da blog.

I documenti sono delimitati nel corpus da un elemento XML "text" con attributi "id" (un valore numerico distinto assegnato a ciascun documento ) e "url", che riporta l'url da cui il documento è stato scaricato.

Per avere informazioni più dettagliate sul processo di costituzione del corpus consultare la sezione costituzione del corpus. Per maggiori informazioni sul contributo dei singoli partner, vedere la sezione partenariato.

L'accesso online al corpus avviene attraverso un'interfaccia dedicata. Inoltre, è possibile scaricare l'intero corpus in diverse versioni.

Formato dei dati

I dati distribuiti sono conformi alle seguenti caratteristiche:

i file contengono una o più frasi separate da una riga vuota;
una frase si compone di uno o più token, ognuno dei quali inizia con una riga nuova;
ogni token contiene i campi descritti nella tabella seguente;
i singoli campi sono separati da una tabulazione;
tutti i file contengono i campi descritti nella tabella seguente;
i file sono in formato UTF-8 (Unicode).

Campo 1	ID	Numeratore dei token, riparte da 1 per ogni nuova frase
Campo 2	FORM	Forma flessa (di un lemma) o simbolo di interpunzione
Campo 3	LEMMA	Lemma
Campo 4	CPOSTAG	Indicazione generica della parte del discorso
Campo 5	POSTAG	Indicazione specifica della parte del discorso
Campo 6	FEATS	Caratteristiche morfosintattiche
Campo 7	HEAD	HEAD Testa del token, rappresentata da un numero identificativo o da uno zero ('0'), se assente
Campo 8	DEPREL	Relazione di dipendenza che lega il token alla propria testa, indicata quale 'ROOT' quando il valore del campo HEAD è zero (cfr. tagset delle dipendenze per informazioni più precise)
Campo 9	non utilizzato
Campo 10	non utilizzato

I tagset morfosintattici e delle dipendenze utilizzati sono stati sviluppati congiuntamente dall’Istituto di Linguistica Computazionale "Antonio Zampolli" (ILC-CNR) e dall’Università di Pisa all’interno del progetto TANL (Text Analytics and Natural Language processing). Sono inoltre stati utilizzati per l’annotazione delle dipendenze nel corpus ISST-TANL.

Di seguito si riporta un esempio di annotazione:

ID	FORM	LEMMA	CPOSTAG	POSTAG	FEATS	HEAD	DEPREL
1	Gli	il	R	RD	num=p\|gen=m	2	det
2	stati	stati	S	S	num=p\|gen=m	4	subj
3	membri	membro	S	S	num=p\|gen=m	2	mod
4	provvedono	provvedere	V	V	num=p\|per=3\|mod=i\|ten=p	0	ROOT
5	affinché	affinché	C	CS	_	4	mod
6	il	il	R	RD	num=s\|gen=m	7	det
7	gestore	gestore	S	S	num=s\|gen=m	9	subj_pass
8	sia	essere	V	VA	num=s\|per=3\|mod=c\|ten=p	9	aux
9	obbligato	obbligare	V	V	num=s\|mod=p\|gen=m	5	sub
10	a	a	E	E	_	9	arg
11	trasmettere	trasmettere	V	V	mod=f	10	prep
12	all'	a	E	EA	num=s\|gen=n	11	comp_ind
13	autorità	autorità	S	S	num=n\|gen=f	12	prep
14	competente	competente	A	A	num=s\|gen=n	13	mod
15	una	una	R	RI	num=s\|gen=f	16	det
16	notifica	notifica	S	S	num=s\|gen=f	11	obj
17	entro	entro	E	E	_	11	comp_temp
18	i	il	R	RD	num=p\|gen=m	20	det
19	seguenti	seguente	A	A	num=p\|gen=n	20	mod
20	termini	termine	S	S	num=p\|gen=m	17	prep
21	.	.	F	FS	_	4	punc