PARLARITALIANO.IT è un portale di riferimento per lo studio su corpora parlati, coordinato da Miriam Voghera. Dalla presentazione: "è il primo osservatorio nazionale sul parlato italiano costituito nel 2004 da dieci gruppi di ricerca di otto diversi Atenei italiani: Università di Salerno, Università di Firenze, Università di Napoli “Federico II”, Università di Napoli “L’Orientale”, Università di Roma “La Sapienza”, Università di Roma Tre, Università per Stranieri di Siena, Università di Torino. Parlare italiano ha lo scopo di offrire strumenti teorici e applicativi per la diffusione e migliore conoscenza della lingua italiana, con particolare attenzione alla didattica dell’italiano come lingua straniera. Nel sito Parlare italiano potrete trovare un ampio spettro di ricerche sul parlato che garantiscono la massima pubblicità dei corpora sui cui si lavora, dei metodi e delle tecniche di analisi"
URL: http://www.parlaritaliano.it/parlare/
API/AVIP/IPar sono progetti di raccolta di materiale fonico spontaneo di lingua italiana, cui hanno partecipato variamente il laboratorio di linguistica della Scuola Normale di Pisa, il CIRASS e l’Orientale di Napoli, il Politecnico di Bari e l’Università del Piemonte Orientale. I progetti sono conformi alle specifiche di codifica e annotazione di Eagles. Il materiale dei corpora (files e software) è disponibile su cd-rom, distribuiti dal CIRASS e via ftp sempre dal sito del CIRASS (ftp.cirass.unina.it).
URL: http://www.cirass.unina.it/
Corpus e Lessico di Frequenza dell'Italiano Scritto (ColFIS), costruito da Bertinetto, Burani, Laudanna, Marconi, Ratti, Rolando e Thornthon,
è costituito da 3.150.075 occorrenze lessicali tratte da quotidiani, periodici e libri di varia natura bilanciate secondo le letture degli italiani. Al momento sono disponibili gratuitamente online le liste con il lemmario (non il corpus).
URL: http://www.istc.cnr.it/material/database/colfis/
Corpus
di italiano televisivo (CIT)
sarà composto da 250.000 parole, e successivamente è programmato un ampliamento del corpus a 500.000 parole per una maggiore omogeneità con altri corpora italiani di lingua scritta (LIF) e parlata (LIP). I testi prescelti sono tratti da trasmissioni originali non di fiction, tratte da diverse categorie di attualità, intrattenimento, pubblicità, sport e telegiornali. Il Cit è annotato secondo gli standard della Text Encoding Initiative (TEI).
URL: http://www.sspina.it/cit/cit.htm
Corpora
Linguistici per l'Italiano Parlato e Scritto (CLIPS) (audio, etichettatura e documentazione) è pubblico, l’accesso e il download completo del materiale per finalità scientifiche sono gratuiti. CLIPS consiste di circa 100 ore di parlato, equamente ripartito tra voci maschili e voci femminili, in parte trascritto ortograficamente e etichettato foneticamente. Le registrazioni sono state effettuate in 15 località italiane scelte in base a criteri di rappresentatività linguistica e socioeconomica: Bari, Bergamo, Bologna, Cagliari, Catanzaro, Firenze, Genova, Lecce, Milano, Napoli, Palermo, Parma, Perugia, Roma, Venezia. Per ogni località è stato raccolto a) parlato radiotelevisivo (notiziari, interviste, talk shows); b) parlato dialogico (240 dialoghi raccolti secondo le modalità del map task e del ‘gioco delle differenze’, dei quali 30 etichettati foneticamente, 90 trascritti ortograficamente, studenti universitari); c) parlato letto da parlanti non professionisti (20 frasi atte a garantire la copertura delle frequenze medio-alte del lessico italiano); d) parlato telefonico (conversazioni tra circa 300 parlatori e un portiere d’albergo simulato) e) parlato letto da 20 parlanti professionisti (160 frasi atte a garantire la copertura delle sequenza fonotattiche dell’italiano e delle frequenze medio-altedel lessico italiano) registrato in camera anecoica. La documentazione, i protocolli di raccolta e di annotazione del materiale tengono conto delle direttive del progetto EAGLES. Documento di presentazione di Albano Leoni (pdf).
URL: http://www.clips.unina.it/
Corpus
di italiano parlato (Cresti 2000) cfr. LABLITA
Corpus
di Italiano Scritto contemporaneo (CORIS/CODIS): COrpus
di Riferimento dell'Italiano Scritto
(CORIS) elaborato e coordinato da R. Rossini Favretti,
dal 1998. Formato da due corpus distinti. Il COrpus di Riferimento dell'Italiano Scritto ( Coris ) è stato elaborato con lo scopo di costruire un corpus generale dell'italiano scritto. Il corpus contiene 100 milioni di parole, e verrà aggiornato ogni due anni con nuovo materiale di controllo. I testi ivi contenuti sono prevalentemente di narrativa prodotta negli anni Ottanta e Novanta. Il corpus è elaborato con criteri linguistici molto rigorosi ed è per sua natura dinamico. Dal corpus generale si distinguono alcuni sottocorpora, rappresentanti delle diverse varietà dell'italiano scritto. Accanto al Coris si aggiunge il COrpus Dinamico dell'Italiano Scritto ( Codis ) che permette la selezione ed eventuale esclusione di sottocorpora considerati non rilevanti per specifiche ricerche. Il corpus è disponibile su cd-rom e per consultazione online.
URL: http://corpora.dslo.unibo.it/coris_ita.html
Italian
Reference Corpus (1991)
Italian
Corpus Documentation PAROLE (1998)
LABLITA dal 1973 si occupa della raccolta e gestione di corpora con lo standard di trascrizione chat (cfr. Childes). Si tratta di un insieme di corpora composto da: 1) un corpus di italiano parlato spontaneo adulto che raccoglie circa 120 testi che riguardano situazioni comunicative diafasiche diverse per un totale di 60 ore; 2) un corpus della lingua dei media (cinema, radio e televisione); 3) un corpus di 100 ore di italiano registrato nella fase del primo apprendimento (in bambini di 18-36 mesi). In questo corpus i testi sono trascritti, ma l'audio è disponibile in formato digitalizzato (wav). Indicazioni e materiali si trovano nei due volumi accompagnati da cd-rom multimediale: Emanuela Cresti (2000), Corpus di italiano Parlato , Accademia della Crusca.
URL: http://lablita.dit.unifi.it/
Lessico
di frequenza della lingua italiana contemporanea (LIF),
elaborato nel 1971 al cnuce (Centro Nazionale Universitario di Calcolo elettronico) di Pisa (cfr. Bortolini et alii , 1971). Si tratta del primo grande progetto di costruzione di un lessico di frequenza per la lingua italiana (non tagliato su un singolo autore o su testi specificatamente letterari). Il lessico contiene circa 5.000 lemmi ordinati per frequenza e secondo l'ordine alfabetico, tratti dallo spoglio di testi per un complesso di 500.000 parole. I testi che sono entrati a far parte del corpus sono datati tra il 1947 e il 1968, sono tutti testi scritti, presi da 5 fonti diverse (teatro, romanzi, cinema, periodici, sussidiari), a rappresentare diverse forme testuali alcune delle quali vicine al parlato. Il corpus non è disponibile per la consultazione né offline né online.
Lessico
di frequenza dell'italiano parlato (LIP), curato da De Mauro, Mancini, Vedovelli e Voghera (1993) costituisce la controparte del lif per l'italiano parlato. Il corpus da cui è tratto è costituito da circa 500.000 parole grafiche, trascrizioni di registrazioni effettuate a Milano, Firenze, Roma e Napoli, pari a quasi 57 ore di parlato. Le tipologie del parlato rappresentate sono dialoghi faccia a faccia e non, a presa di parola libera e non, monologhi faccia a faccia e non. I lemmi sono consultabili secondo frequenza e secondo ordine alfabetico, vi è anche una lista di frequenza dei fonosimboli e delle polirematiche. Il volume del lessico è corredato da due dischetti che contengono le trascrizioni di tutti i testi del corpus, permettendo dunque a chi voglia svolgere ulteriori analisi l'accesso diretto ai materiali.
URL: http://languageserver.uni-graz.at/badip/badip/20_corpusLip.php
(analisi ed etichettatura
del LIP, molto flessibile)
Lessico
di frequenza dell'italiano radiofonico (LIR)
è un progetto di analisi del lessico e del corpus del parlato radiofonico nato nel 1998 e gestito da LABLITA. Il corpus di circa 60 ore, è trascritto ortograficamente, allineato all'audio mediate software apposito, lemmatizzato e pubblicato su cd-rom.
URL: http://lablita.dit.unifi.it/
Letteratura
Italiana Zanichelli in cd-rom (LIZ, 1993¹, 1995² e
1997³)
Tesoro
della lingua italiana delle origini (TLIO)
è un database testuale (nato nel 1995 e inaugurato nel 1998) composto da circa 1.780 testi per circa 20 milioni di parole, tratte da scritti in lingua italiana prima del 1375, in prosa e in poesia. Una prima versione della banca dati fu implementata in dbt di Eugenio Picchi. Il database è interrogabile online con registrazione gratuita al sito dell'Istituto Opera del Vocabolario Italiano (OVI):
URL: http://tlio.ovi.cnr.it/TLIO/
Vocabolario
elettronico della lingua italiana (VELI), 1989, costituito
da circa 10.000 lessemi ordinati per frequenza nella lingua
italiana (tratto
da un corpus di più di 25 milioni di parole). Guidato da Tullio De Mauro, progetto che già dispone di un insieme di strumenti di trattamento dei dati testuali di seconda generazione. Anche nel caso del VELI tuttavia l’accesso al corpus non è dato all’utente, mentre sono possibili consultazioni dei diecimila lessemi più frequenti della lingua italiana (con analisi grammaticale, forme flesse, sinonimi e sillabazione). Per la selezione dei lemmi da includere nel VELI è stato costruita una base testuale di circa venticinque milioni di occorrenze (soprattutto tratte da testi giornalistici).
[top]