Informazioni più dettagliate sono pubblicate in Chiari, I. Informatica e lingue naturali, Roma: Aracne, 2004.
I corpora sono distinti con un simbolo se di lingua parlata [] o di lingua scritta [], consultazione parziale o totale via web [].

[ Corpora di lingua italiana ] [ Corpora di lingua inglese ] [ Corpora di lingua francese ]
[ Corpora di lingua spagnola ][ Corpora di lingua tedesca ]
[ Corpora multilingui e paralleli ] [ Corpora special purpose ]

Per segnalare eventuali broken links, o siti di corpora significativi delle lingue trattate scrivete a isabella chiari.


 

Corpora di lingua parlata
API
CIT CLIPS LABLITA LIP LIR
Corpora di lingua scritta

CORIS/CODIS
LIF LIZ TLIO VELI
COLFIS

   
 


API è un progetto di raccolta di materiale fonico spontaneo di lingua italiana, cui hanno partecipato il laboratorio di linguistica della Scuola Normale di Pisa, il CIRASS e l’Orientale di Napoli, il Politecnico di Bari e l’Università del Piemonte Orientale. Il corpus è composto da circa 14 ore di parlato (di cui circa 3,5 trascritte ortograficamente e un'ora e un quarto trascritta foneticamente). Il corpus è stato sottoposto a etichettatura fonetica e prosodica per fini linguistici e applicazioni tecnologiche. Il progetto è conforme alle specifiche di codifica e annotazione di eagles . Il materiale del corpus è costituito principalmente da dialoghi semi-spontanei di tipo map-task e lettura di liste di parole raccolti in Toscana, Campania e Puglia. I software utilizzati per l'etichettatura e la consultazione sono SegWin e SegView. Avip è il primo progetto di una certa ampiezza di corpus di parlato in lingua italiana. Il materiale (files e software) è disponibile su 5 cd-rom , distribuiti dal cirass e via ftp sempre dal sito del cirass (ftp.cirass.unina.it ).
URL: http://www.cirass.unina.it/

Corpus e Lessico di Frequenza dell'Italiano Scritto (ColFIS), costruito da Bertinetto, Burani, Laudanna, Marconi, Ratti, Rolando e Thornthon, è costituito da 3.150.075 occorrenze lessicali tratte da quotidiani, periodici e libri di varia natura bilanciate secondo le letture degli italiani. Al momento sono disponibili gratuitamente online le liste con il lemmario (non il corpus).
URL: http://www.istc.cnr.it/material/database/colfis/

Corpus di italiano televisivo (CIT) sarà composto da 250.000 parole, e successivamente è programmato un ampliamento del corpus a 500.000 parole per una maggiore omogeneità con altri corpora italiani di lingua scritta (LIF) e parlata (LIP). I testi prescelti sono tratti da trasmissioni originali non di fiction, tratte da diverse categorie di attualità, intrattenimento, pubblicità, sport e telegiornali. Il Cit è annotato secondo gli standard della Text Encoding Initiative (TEI).
URL: http://www.sspina.it/cit/cit.htm

Corpora Linguistici per l'Italiano Parlato e Scritto (CLIPS), diretto da Federico Albano Leoni dell'Università "Federico II" di Napoli, è il più esteso corpus italiano per la sezione sul parlato (raccolto tra il 2000 e il 2003). Il corpus raccoglie circa 100 ore di parlato in diverse varietà, registrate in 15 località diverse. Una parte del corpus è trascritta, e della parte trascritta circa un terzo è anche etichettata dal punto di vista fonetico e fonologico. Al momento il corpus non è ancora stato pubblicato, ma sarà reso disponibile in forma annotata e non, insieme a un pacchetto di applicazioni per l'elaborazione e l'interrogazione. Informazioni si possono consultare al sito: url : http://cirass.unina.it.
URL: http://www.cirass.unina.it/

Corpus di italiano parlato (Cresti 2000) cfr. LABLITA

Corpus di Italiano Scritto contemporaneo (CORIS/CODIS): COrpus di Riferimento dell'Italiano Scritto (CORIS) elaborato e coordinato da R. Rossini Favretti, dal 1998. Formato da due corpus distinti. Il COrpus di Riferimento dell'Italiano Scritto ( Coris ) è stato elaborato con lo scopo di costruire un corpus generale dell'italiano scritto. Il corpus contiene 100 milioni di parole, e verrà aggiornato ogni due anni con nuovo materiale di controllo. I testi ivi contenuti sono prevalentemente di narrativa prodotta negli anni Ottanta e Novanta. Il corpus è elaborato con criteri linguistici molto rigorosi ed è per sua natura dinamico. Dal corpus generale si distinguono alcuni sottocorpora, rappresentanti delle diverse varietà dell'italiano scritto. Accanto al Coris si aggiunge il COrpus Dinamico dell'Italiano Scritto ( Codis ) che permette la selezione ed eventuale esclusione di sottocorpora considerati non rilevanti per specifiche ricerche. Il corpus è disponibile su cd-rom e per consultazione online.
URL: http://corpus.cilta.unibo.it:8080/coris_ita.html

Italian Reference Corpus (1991)
Italian Corpus Documentation PAROLE (1998)

LABLITA dal 1973 si occupa della raccolta e gestione di corpora con lo standard di trascrizione chat (cfr. Childes). Si tratta di un insieme di corpora composto da: 1) un corpus di italiano parlato spontaneo adulto che raccoglie circa 120 testi che riguardano situazioni comunicative diafasiche diverse per un totale di 60 ore; 2) un corpus della lingua dei media (cinema, radio e televisione); 3) un corpus di 100 ore di italiano registrato nella fase del primo apprendimento (in bambini di 18-36 mesi). In questo corpus i testi sono trascritti, ma l'audio è disponibile in formato digitalizzato (wav). Indicazioni e materiali si trovano nei due volumi accompagnati da cd-rom multimediale: Emanuela Cresti (2000), Corpus di italiano Parlato , Accademia della Crusca.
URL: http://lablita.dit.unifi.it/

Lessico di frequenza della lingua italiana contemporanea (LIF), elaborato nel 1971 al cnuce (Centro Nazionale Universitario di Calcolo elettronico) di Pisa (cfr. Bortolini et alii , 1971). Si tratta del primo grande progetto di costruzione di un lessico di frequenza per la lingua italiana (non tagliato su un singolo autore o su testi specificatamente letterari). Il lessico contiene circa 5.000 lemmi ordinati per frequenza e secondo l'ordine alfabetico, tratti dallo spoglio di testi per un complesso di 500.000 parole. I testi che sono entrati a far parte del corpus sono datati tra il 1947 e il 1968, sono tutti testi scritti, presi da 5 fonti diverse (teatro, romanzi, cinema, periodici, sussidiari), a rappresentare diverse forme testuali alcune delle quali vicine al parlato. Il corpus non è disponibile per la consultazione né offline né online.

Lessico di frequenza dell'italiano parlato (LIP), curato da De Mauro, Mancini, Vedovelli e Voghera (1993) costituisce la controparte del lif per l'italiano parlato. Il corpus da cui è tratto è costituito da circa 500.000 parole grafiche, trascrizioni di registrazioni effettuate a Milano, Firenze, Roma e Napoli, pari a quasi 57 ore di parlato. Le tipologie del parlato rappresentate sono dialoghi faccia a faccia e non, a presa di parola libera e non, monologhi faccia a faccia e non. I lemmi sono consultabili secondo frequenza e secondo ordine alfabetico, vi è anche una lista di frequenza dei fonosimboli e delle polirematiche. Il volume del lessico è corredato da due dischetti che contengono le trascrizioni di tutti i testi del corpus, permettendo dunque a chi voglia svolgere ulteriori analisi l'accesso diretto ai materiali.
URL: http://languageserver.uni-graz.at/badip/badip/20_corpusLip.php
(analisi ed etichettatura del LIP, molto flessibile)

Lessico di frequenza dell'italiano radiofonico (LIR) è un progetto di analisi del lessico e del corpus del parlato radiofonico nato nel 1998 e gestito da LABLITA. Il corpus di circa 60 ore, è trascritto ortograficamente, allineato all'audio mediate software apposito, lemmatizzato e pubblicato su cd-rom.
URL: http://lablita.dit.unifi.it/

Letteratura Italiana Zanichelli in cd-rom (LIZ, 1993¹, 1995² e 1997³)

Tesoro della lingua italiana delle origini (TLIO) è un database testuale (nato nel 1995 e inaugurato nel 1998) composto da circa 1.780 testi per circa 20 milioni di parole, tratte da scritti in lingua italiana prima del 1375, in prosa e in poesia. Una prima versione della banca dati fu implementata in dbt di Eugenio Picchi. Il database è interrogabile online con registrazione gratuita al sito dell'Istituto Opera del Vocabolario Italiano (OVI):
URL: http://tlio.ovi.cnr.it/TLIO/

Vocabolario elettronico della lingua italiana (VELI), 1989, costituito da circa 10.000 lessemi per frequenza nella lingua italiana (tratto da un corpus di più di 20 milioni di parole).

[top]

American National Corpus (ANC). Si tratta di un progetto americano tarato con gli stessi criteri del British National Corpus. Il corpus è ancora in preparazione e conterrà 100 milioni di parole (tratte da testi scritti e da trascrizioni di parlato) divise per vari generi secondo le percentuali del bnc . Il corpus sarà distribuito gratuitamente per ricerche a scopo scientifico. La prima versione, pronta nel 2003, contiene 10 milioni di parole, ed è etichettata solo per parti del discorso. Il materiale viene distribuito dal Linguistic Data Consortium (http://www.ldc.upenn.edu/ ).
URL: http://www.americannationalcorpus.org

La Bank of English (BoE) è un corpus in continua espansione (monitor corpus) di testi scritti e parlati in inglese britannico. Il progetto procede insieme al lavoro lessicografico del Collins COBUILD English Dictionary for Advanced Learners (2001) e dell’Università di Birmingham. Un documento descrittivo sintetico lo trovate al sito: http://www.lingsoft.fi/doc/engcg/Bank-of-English.html
URL: http://www.collinswordbanks.co.uk/faq.asp

British National Corpus (BNC) è un corpus di testi in inglese contemporaneo, la cui preparazione è stata guidata dalla Oxford University Press nel 1991. È composto da più di 100 milioni di parole, di cui il 90% deriva da testi scritti (romanzi e saggi, e testi tecnico-scientifici), il 10% da trascrizioni di parlato (programmi radiofonici, conversazioni telefoniche, parlato spontaneo). Tutti i testi del corpus sono etichettati per parti del discorso (65 categorie classificate mediante un programma automatico claws dell'Università di Lancaster). Il bnc si consulta con particolare agevolezza con il software sara (cfr. § 7.2). Il bnc World Edition on cd-rom costa ad oggi circa £50 per un utente singolo (circa £250 per le istituzioni) e occupa 6 Gb di memoria di massa. È anche possibile consultare il corpus online.
URL: http://www.natcorp.ox.ac.uk/

Brown Corpus of Standard American English (Brown Corpus) è stato il primo corpus linguistico elettronico dell'inglese americano. È stato approntato da W. N. Francis e H. Kucera, della Brown University. Il corpus risale al 1961 ed è stato reso pubblico nel 1964 . Per il suo vantaggio cronologico su altri corpus è stato probabilmente il corpus più usato nella ricerca. Il corpus è costituito da 500 testi, presi da 15 categorie diverse, per un totale di un milione di parole. Esiste anche una versione dell'inglese britannico ricalcata sul Brown corpus chiamata lob. Oggi il Brown Corpus è accorpato all’insieme dell’ICAME.

The Cambridge International Corpus (CIC) è un database molto ampio predisposto dalla Cambridge University Press. Contiene ad oggi circa 600 milioni di parole di inglese britannico e statunitense scritto e parlato, tratto da giornali, romanzi, saggi, trasmissioni tv e radio. Il CIC comprende al suo interno il corpus di parlato inglese Cancode , composto di 5 milioni di parole.
URL: http://uk.cambridge.org/elt/corpus/cic.htm

COBUILD project (cfr. Bank of English)

International Computer Archive of Modern and Medieval English (ICAME) è un corpus della lingua inglese, specificamente approntato per la ricerca linguistica, dal Norwegian Computing Centre for the Humanities ( ncch ) di Bergen in Norvegia. Si tratta in realtà di un insieme di diversi corpora di inglese scritto e parlato. Per l'inglese scritto, comprende il Brown Corpus, il Lob , e corpus di inglese australiano, indiano, africano e neozelandese; per l'inglese scritto, comprende il London Lund Corpus, il Lancaster/IBM Spoken English Corpus ( sec ), il Corpus of London Teenage Language ( colt ), e un corpus di parlato neozelandese e africano. Una parte del sec ( marsec ) è etichettata a livello fonetico. Del corpus fa parte anche una importante sezione storica che comprende il The Helsinki Corpus of English Texts: Diachronic Part, The Helsinki Corpus of Older Scots, Corpus of Early English Correspondance, The Newdigate Newsletters, Lampeter Corpus, Innsbruck Computer-Archive of Machine-Readable English Texts ( icamet ). Il corpus è distribuito su cd-rom , al costo di nok 3.500, e può anche essere interrogato online, previo pagamento di una sottoscrizione. I manuali dei corpora compresi in Icame si possono scaricare gratuitamente all'indirizzo: http://khnt.hit.uib.no/icame/manuals/index.htm/.
URL: http://nora.hd.uib.no/icame/cd/

Lancaster/IBM Spoken English Corpus (SEC) (cfr. ICAME)

Lancaster-Oslo/Bergen Corpus (LOB) contiene circa un milione di parole in inglese britannico, in testi che partono dal 1961. Il corpus è stato tarato per essere il corrispondente britannico del Brown Corpus e contiene 500 testi di circa 2.000 parole divisi in 15 categorie diverse. È disponibile sia annotato (per parti del discorso) sia non annotato ed è' distribuito nell’insieme di corpora ICAME.

The London-Lund Corpus of Spoken English (cfr. ICAME)

MARSEC (cfr. ICAME)

The Oxford Text Archive (OTA) è un database di testi elettronici letterari e scientifici. Fornisce gratuitamente alcuni corpora di media grandezza tra cui il Lampeter Corpus, Northern Ireland Speech Corpus, SUSANNE Corpus dal sito
URL: http://ota.ox.ac.uk/.

[top]


ARTFL Project (FRANTEXT) è un progetto di raccolta di testi in lingua francese fondato dall’American and French Research on the Treasury of the French Langua-ge (ARTFL). 114.7 milioni di parole dal 1700 al Ventesimo secolo.
URL: http://www.virtuel.collegebdeb.qc.ca/ARTFL.html

BDLEX (Lexical Data and Knowledge Base of Spoken and Written French) è una banca dati costituita da circa 440.000 parole (per 50.000 lemmi).
URL: http://www.irit.fr/ACTIVITES/EQ_IHMPT/ress_ling/accueil01.php
URL: http://www.elda.fr/catalogue/fr/speech/S0004.html

BREF è un corpus fonico composto da testi tratti dal quotidiano francese Le Monde, letti ad alta voce da 120 diversi speakers (si tratta dunque di un corpus di parlato continuo, ma non spontaneo).
URL: http://www.elda.fr/catalogue/en/speech/S0006.html

FRANTEXT vedi ARTFL Project

QUÉBÉTEXT
URL: http://www.tlfq.ulaval.ca/quebetext/

[top]



 

Corpus del español
Il corpus contiene 100 milioni di parole di lingua spagnola scritta e orale dal 1200 ad oggi. Il corpus, che mette insieme una serie di corpora di origine diversa preparati negli anni, è stato ideato e gestito da Mark Davies.
URL: http://www.corpusdelespanol.org/

Mark Davies ha anche costruito altri corpora tra cui un corpus di spagnolo storico (1200-1800, 4.000 testi), versioni spagnole della Bibbia (1.000.000 di parole), linguaggio giornalistico contemporaneo dello spagnolo latino-americano (35.000.000 di parole), testi letterari spagnoli e argentini, conversazioni parlate in spagnolo contemporaneo (2.500.000 parole di spagnolo anche latino-americano, e 1.000.000 di parlato spagnolo). Una lista di link a materiali relativi a questi corpora si può trovare online.
URL: http://davies-linguistics.byu.edu/

Il Corpus de Referencia de la Lengua Española Contemporánea (CREA) della Real Academia Española annovera 100 milioni di parole tratte da testi scritti e parlati (trascritti) dal 1975 ad oggi.
URL: http://www.lllf.uam.es/~fmarcos/informes/corpus/corpusix.html

TREC Spanish Corpus (TREC) prodotto dal Linguistic Data Consortium (LDC).
URL: http://trec.nist.gov/.

Corpus chileno
URL: http://www.lllf.uam.es/~fmarcos/informes/corpus/cochile.html

Corpus argentino
URL: http://www.lllf.uam.es/~fmarcos/informes/corpus/coarginl.html

Corpus oral peninsular
URL: http://www.lllf.uam.es/ ~fmarcos/informes/corpus/corpulee.html

[top]


 
 

COSMAS I e II (Corpus Storage, Maintenance and Access System) è un corpus in sviluppo dal 1992, all’IDS (Institut für Deutsche Sprache) di Mannheim, che oggi conta circa 1.080 milioni di parole.
URL: http://www.ids-mannheim.de/kt/cosmas.shtml

NEGRA CORPUS è un progetto dell’Università di Saarland, relativo a testi degli anni Novanta.
URL: http://www.coli.uni-sb.de/sfb378/negra-corpus/negra-corpus.html

The Tübingen Treebank of Written German (TüBa-D/Z) è un corpus di linguaggio giornalistico tedesco annotato sintatticamente gestito dal Seminar für Sprachwissenschaft dell’Università di Tubinga.
URL: http://www.sfs.uni-tuebingen.de/en_nf_asc_index.shtml

[top]

(solo per italiano, inglese, francese, tedesco e spagnolo)

 

French - English Parallel Corpus (BAF)è un corpus di testi istituzionali paralleli (mutue traduzioni) di inglese e francese.
URL: http://www-rali.iro.umontreal.ca/arc-a2/BAF

BoLC Italian - English Comparable Corpus (Bononia Legal Corpus) è un corpus multilingue di testi di tipo giuridico di lingua italiana e inglese, sviluppato e coordinato da R. Rossini Faretti.
URL: http://www.cilta.unibo.it/SITOBOLC_ITA.htm

CALLHOME project è un corpus multilingue di parlato conversazionale, che copre spagnolo, cinese, giapponese, inglese americano, tedesco ed arabo.
URL: http://morph.ldc.upenn.edu/ldc/about/callhome.html

Child Language Data Exchage System (CHILDES) è un grande progetto finalizzato alla composizione di un corpus del parlato dei bambini, delle conversazioni con bambini e di alcune patologie del linguaggio (http://childes.psy.cmu.edu/).
URL: http://childes.psy.cmu.edu/html/database.html.

C-ORAL-ROM è un progetto di costruzione di un corpus di parlato spontaneo di quattro lingue romanze (italiano, francese, portoghese, spagnolo), coordinato da LABLITA.
URL: http://lablita.dit.unifi.it/coralrom/index.html

CRATER è un corpus trilingue di inglese, francese e spagnolo.
URL: http://www.comp.lancs.ac.uk/linguistics/crater/corpus.html

European Corpus Initiative Multilingual Corpus (ECI/MCI) è un’iniziativa del 1994 che ha lo scopo della creazione e diffusione di corpus multilingue.

INTERSECT (International Sample of English Contrastive Texts) è un progetto dell’università di Brighton per la costruzione e analisi di testi scritti paralleli Inglese-Francese.
URL: http://bmserver.bus.bton.ac.uk/FormatGraphical-Normal/BusSchool/Research/LangCent/Intersect.html

Korpus romanischer Zeitungssprachen (Französisch, Italienisch, Spanisch)
URL: http://www.uni-duisburg.de/FB3/ROMANISTIK/PERSONAL/Burr/humcomp/home.htm

MULTEX (Multilingual Text Tools and Corpora) è un progetto complessivo che mira alla definizione di standard per la codifica dei corpora, per lo sviluppo di strumenti applicativi e risorse multilingui.
URL: http://www.lpl.univ-aix.fr/projects/multext/MUL2.html

REAL Parallel Corpus (German-English Translation Corpus) raccoglie testi paralleli in inglese (americano e britannico) e tedesco.
URL: http://www.tu-chemnitz.de/phil/english/real/transcorpus/index.htm

TRIPTIC (TRIlingual Parallel Text Information Corpus) è un corpus di inglese, francese e olandese composto da circa 2 milioni di parole, in testi paralleli allineati.

TRACTOR (TELRI Research Archive of Computational Tools and Resources) è un progetto mantenuto dal Centre for Corpus linguistics dell’università di Birmingham. Si tratta di un archivio di materiali e software per l’analisi di corpora. Tra le lingue trattate ci sono le principali lingue europee e anche bulgaro, ceco, le lingue baltiche, rumeno, russo e altre.
URL: http://www.tractor.de/

[top]

 

(solo per italiano, inglese, francese, tedesco e spagnolo)

Corpus di sogni di Michel Santacroce è una raccolta di narrazioni di sogni (scritte e parlate) in lingua francese, 1999-2004. Il corpus (scaricabile in formato testuale PDF) è messo a disposizione dal sito della rivista on-line Marges Linguistiques.
URL: http://marges.linguistiques.free.fr/bdd_ml/archives_pres/doc0229presentation.htm

 

Copyright © 2003-04 Alphabit di Isabella Chiari

Sabato, 19-nov-05 0:11 AM 00 PM

L10 Web Stats Reporter 3.15 L10 Hit Counter - Free Web Counters
LevelTen Web Design Company - Professional Flash & Website Designers