Benvenuti su PAISÀ
Queste pagine web sono dedicate al corpus PAISÀ, un’ampia collezione di testi autentici in lingua italiana tratti da Internet. La raccolta di testi contemporanei è stata creata nell’ambito del progetto PAISÀ (Piattaforma per l’Apprendimento dell’Italiano Su corpora Annotati) allo scopo di fornire materiale autentico e disponibile gratuitamente per l’apprendimento dell’italiano.
Ne è nata una risorsa unica per la lingua italiana, poiché riunisce in sé diverse caratteristiche:
- testi tratti dal web (raccolti nel settembre/ottobre del 2010)
- composto interamente di testi disponibili e riutilizzabili gratuitamente (protetti da licenze creative commons attribuzione - condividi allo stesso modo e attribuzione - condividi allo stesso modo - non commerciale)
- dimensioni: ca. 250 milioni di token
- completamente annotato nel formato CoNLL (lemmatizzazione e annotazione delle parti del discorso (oppure anche qui)) e delle dipendenze sintattiche)
- pretrattato in maniera automatica e in parte corretto manualmente (vari passaggi effettuati: reperimento degli indirizzi URL, pretrattamento dei testi raccolti e correzione delle annotazioni per la taratura degli strumenti di annotazione)
Pur essendo stato nato principalmente per l’apprendimento, il corpus PAISÀ rappresenta anche una preziosa risorsa per diverse attività di ricerca linguistica.
Il sito intende offrire un’interfaccia per gli apprendenti attraverso cui accedere al corpus online. Vi sono varie modalità di accesso al corpus pensate per diversi gruppi di utenti, dalle ricerche preimpostate alla possibilità di definire i criteri di ricerca in maniera completamente flessibile creando query complesse. Attualmente è un lavoro in fase di continuo aggiornamento e progresso.
In queste pagine troverete anche informazioni sul progetto PAISÀ, i dettagli su come è stata costituita la raccolta di testi e delle versioni scaricabili dell’intero corpus.
Il progetto PAISÀ è finanziato dal Ministero dell’Istruzione, dell’Università e della Ricerca (MIUR) attraverso il Fondo per gli Investimenti della Ricerca di Base (FIRB).