API è un
progetto di raccolta di materiale fonico spontaneo di lingua italiana,
cui hanno partecipato il laboratorio di linguistica della Scuola
Normale di Pisa, il CIRASS e l’Orientale di Napoli, il Politecnico
di Bari e l’Università del Piemonte Orientale. Il corpus è composto da circa 14 ore di parlato (di cui circa 3,5 trascritte ortograficamente e un'ora e un quarto trascritta foneticamente). Il corpus è stato sottoposto a etichettatura fonetica e prosodica per fini linguistici e applicazioni tecnologiche. Il progetto è conforme alle specifiche di codifica e annotazione di eagles . Il materiale del corpus è costituito principalmente da dialoghi semi-spontanei di tipo map-task e lettura di liste di parole raccolti in Toscana, Campania e Puglia. I software utilizzati per l'etichettatura e la consultazione sono SegWin e SegView. Avip è il primo progetto di una certa ampiezza di corpus di parlato in lingua italiana. Il materiale (files e software) è disponibile su 5 cd-rom , distribuiti dal cirass e via ftp sempre dal sito del cirass (ftp.cirass.unina.it ).
URL: http://www.cirass.unina.it/
Corpus e Lessico di Frequenza dell'Italiano Scritto (ColFIS), costruito da Bertinetto, Burani, Laudanna, Marconi, Ratti, Rolando e Thornthon,
è costituito da 3.150.075 occorrenze lessicali tratte da quotidiani, periodici e libri di varia natura bilanciate secondo le letture degli italiani. Al momento sono disponibili gratuitamente online le liste con il lemmario (non il corpus). 
URL: http://www.istc.cnr.it/material/database/colfis/
Corpus
di italiano televisivo (CIT)
sarà composto da 250.000 parole, e successivamente è programmato un ampliamento del corpus a 500.000 parole per una maggiore omogeneità con altri corpora italiani di lingua scritta (LIF) e parlata (LIP). I testi prescelti sono tratti da trasmissioni originali non di fiction, tratte da diverse categorie di attualità, intrattenimento, pubblicità, sport e telegiornali. Il Cit è annotato secondo gli standard della Text Encoding Initiative (TEI).
URL: http://www.sspina.it/cit/cit.htm

Corpora
Linguistici per l'Italiano Parlato e Scritto (CLIPS),
diretto da Federico Albano Leoni dell'Università "Federico II" di Napoli, è il più esteso corpus italiano per la sezione sul parlato (raccolto tra il 2000 e il 2003). Il corpus raccoglie circa 100 ore di parlato in diverse varietà, registrate in 15 località diverse. Una parte del corpus è trascritta, e della parte trascritta circa un terzo è anche etichettata dal punto di vista fonetico e fonologico. Al momento il corpus non è ancora stato pubblicato, ma sarà reso disponibile in forma annotata e non, insieme a un pacchetto di applicazioni per l'elaborazione e l'interrogazione. Informazioni si possono consultare al sito: url : http://cirass.unina.it.
URL: http://www.cirass.unina.it/ 
Corpus
di italiano parlato (Cresti 2000) cfr. LABLITA
Corpus
di Italiano Scritto contemporaneo (CORIS/CODIS): COrpus
di Riferimento dell'Italiano Scritto
(CORIS) elaborato e coordinato da R. Rossini Favretti,
dal 1998. Formato da due corpus distinti. Il COrpus di Riferimento dell'Italiano Scritto ( Coris ) è stato elaborato con lo scopo di costruire un corpus generale dell'italiano scritto. Il corpus contiene 100 milioni di parole, e verrà aggiornato ogni due anni con nuovo materiale di controllo. I testi ivi contenuti sono prevalentemente di narrativa prodotta negli anni Ottanta e Novanta. Il corpus è elaborato con criteri linguistici molto rigorosi ed è per sua natura dinamico. Dal corpus generale si distinguono alcuni sottocorpora, rappresentanti delle diverse varietà dell'italiano scritto. Accanto al Coris si aggiunge il COrpus Dinamico dell'Italiano Scritto ( Codis ) che permette la selezione ed eventuale esclusione di sottocorpora considerati non rilevanti per specifiche ricerche. Il corpus è disponibile su cd-rom e per consultazione online.
URL: http://corpus.cilta.unibo.it:8080/coris_ita.html 
Italian
Reference Corpus (1991)
Italian
Corpus Documentation PAROLE (1998)
LABLITA dal 1973 si occupa della raccolta e gestione di corpora con lo standard di trascrizione chat (cfr. Childes). Si tratta di un insieme di corpora composto da: 1) un corpus di italiano parlato spontaneo adulto che raccoglie circa 120 testi che riguardano situazioni comunicative diafasiche diverse per un totale di 60 ore; 2) un corpus della lingua dei media (cinema, radio e televisione); 3) un corpus di 100 ore di italiano registrato nella fase del primo apprendimento (in bambini di 18-36 mesi). In questo corpus i testi sono trascritti, ma l'audio è disponibile in formato digitalizzato (wav). Indicazioni e materiali si trovano nei due volumi accompagnati da cd-rom multimediale: Emanuela Cresti (2000), Corpus di italiano Parlato , Accademia della Crusca.
URL: http://lablita.dit.unifi.it/
Lessico
di frequenza della lingua italiana contemporanea (LIF),
elaborato nel 1971 al cnuce (Centro Nazionale Universitario di Calcolo elettronico) di Pisa (cfr. Bortolini et alii , 1971). Si tratta del primo grande progetto di costruzione di un lessico di frequenza per la lingua italiana (non tagliato su un singolo autore o su testi specificatamente letterari). Il lessico contiene circa 5.000 lemmi ordinati per frequenza e secondo l'ordine alfabetico, tratti dallo spoglio di testi per un complesso di 500.000 parole. I testi che sono entrati a far parte del corpus sono datati tra il 1947 e il 1968, sono tutti testi scritti, presi da 5 fonti diverse (teatro, romanzi, cinema, periodici, sussidiari), a rappresentare diverse forme testuali alcune delle quali vicine al parlato. Il corpus non è disponibile per la consultazione né offline né online.
Lessico
di frequenza dell'italiano parlato (LIP), curato da De Mauro, Mancini, Vedovelli e Voghera (1993) costituisce la controparte del lif per l'italiano parlato. Il corpus da cui è tratto è costituito da circa 500.000 parole grafiche, trascrizioni di registrazioni effettuate a Milano, Firenze, Roma e Napoli, pari a quasi 57 ore di parlato. Le tipologie del parlato rappresentate sono dialoghi faccia a faccia e non, a presa di parola libera e non, monologhi faccia a faccia e non. I lemmi sono consultabili secondo frequenza e secondo ordine alfabetico, vi è anche una lista di frequenza dei fonosimboli e delle polirematiche. Il volume del lessico è corredato da due dischetti che contengono le trascrizioni di tutti i testi del corpus, permettendo dunque a chi voglia svolgere ulteriori analisi l'accesso diretto ai materiali.
URL: http://languageserver.uni-graz.at/badip/badip/20_corpusLip.php 
(analisi ed etichettatura
del LIP, molto flessibile) 
Lessico
di frequenza dell'italiano radiofonico (LIR)
è un progetto di analisi del lessico e del corpus del parlato radiofonico nato nel 1998 e gestito da LABLITA. Il corpus di circa 60 ore, è trascritto ortograficamente, allineato all'audio mediate software apposito, lemmatizzato e pubblicato su cd-rom.
URL: http://lablita.dit.unifi.it/
Letteratura
Italiana Zanichelli in cd-rom (LIZ, 1993¹, 1995² e
1997³)
Tesoro
della lingua italiana delle origini (TLIO)
è un database testuale (nato nel 1995 e inaugurato nel 1998) composto da circa 1.780 testi per circa 20 milioni di parole, tratte da scritti in lingua italiana prima del 1375, in prosa e in poesia. Una prima versione della banca dati fu implementata in dbt di Eugenio Picchi. Il database è interrogabile online con registrazione gratuita al sito dell'Istituto Opera del Vocabolario Italiano (OVI):
URL: http://tlio.ovi.cnr.it/TLIO/ 
Vocabolario
elettronico della lingua italiana (VELI), 1989, costituito
da circa 10.000 lessemi per frequenza nella lingua
italiana (tratto
da un corpus di più di 20 milioni di parole).
[top]
