American National Corpus (ANC). Si tratta di un progetto americano tarato con gli stessi criteri del British National Corpus. Il corpus è ancora in preparazione e conterrà 100 milioni di parole (tratte da testi scritti e da trascrizioni di parlato) divise per vari generi secondo le percentuali del bnc . Il corpus sarà distribuito gratuitamente per ricerche a scopo scientifico. La prima versione, pronta nel 2003, contiene 10 milioni di parole, ed è etichettata solo per parti del discorso. Il materiale viene distribuito dal Linguistic Data Consortium (http://www.ldc.upenn.edu/ ).
La
Bank of English (BoE) è un corpus in continua espansione
(monitor corpus) di testi scritti e parlati in inglese britannico.
Il progetto procede insieme al lavoro
lessicografico del Collins COBUILD English Dictionary for Advanced
Learners (2001) e dell’Università di Birmingham. Un documento descrittivo sintetico lo trovate al sito: http://www.lingsoft.fi/doc/engcg/Bank-of-English.html
URL: http://www.collinswordbanks.co.uk/faq.asp
British National Corpus (BNC) è un corpus di testi in inglese contemporaneo, la cui preparazione è stata guidata dalla Oxford University Press nel 1991. È composto da più di 100 milioni di parole, di cui il 90% deriva da testi scritti (romanzi e saggi, e testi tecnico-scientifici), il 10% da trascrizioni di parlato (programmi radiofonici, conversazioni telefoniche, parlato spontaneo). Tutti i testi del corpus sono etichettati per parti del discorso (65 categorie classificate mediante un programma automatico claws dell'Università di Lancaster). Il bnc si consulta con particolare agevolezza con il software sara (cfr. § 7.2). Il bnc World Edition on cd-rom costa ad oggi circa £50 per un utente singolo (circa £250 per le istituzioni) e occupa 6 Gb di memoria di massa. È anche possibile consultare il corpus online.
Brown Corpus of Standard American English (Brown Corpus) è stato il primo corpus linguistico elettronico dell'inglese americano. È stato approntato da W. N. Francis e H. Kucera, della Brown University. Il corpus risale al 1961 ed è stato reso pubblico nel 1964 . Per il suo vantaggio cronologico su altri corpus è stato probabilmente il corpus più usato nella ricerca. Il corpus è costituito da 500 testi, presi da 15 categorie diverse, per un totale di un milione di parole. Esiste anche una versione dell'inglese britannico ricalcata sul Brown corpus chiamata lob. Oggi il Brown Corpus è accorpato all’insieme dell’ICAME.
The Cambridge International Corpus (CIC) è un database molto ampio predisposto dalla Cambridge University Press. Contiene ad oggi circa 600 milioni di parole di inglese britannico e statunitense scritto e parlato, tratto da giornali, romanzi, saggi, trasmissioni tv e radio. Il CIC comprende al suo interno il corpus di parlato inglese Cancode , composto di 5 milioni di parole.
COBUILD project (cfr. Bank of English)
International Computer Archive of Modern and Medieval English (ICAME) è un corpus della lingua inglese, specificamente approntato per la ricerca linguistica, dal Norwegian Computing Centre for the Humanities ( ncch ) di Bergen in Norvegia. Si tratta in realtà di un insieme di diversi corpora di inglese scritto e parlato. Per l'inglese scritto, comprende il Brown Corpus, il Lob , e corpus di inglese australiano, indiano, africano e neozelandese; per l'inglese scritto, comprende il London Lund Corpus, il Lancaster/IBM Spoken English Corpus ( sec ), il Corpus of London Teenage Language ( colt ), e un corpus di parlato neozelandese e africano. Una parte del sec ( marsec ) è etichettata a livello fonetico. Del corpus fa parte anche una importante sezione storica che comprende il The Helsinki Corpus of English Texts: Diachronic Part, The Helsinki Corpus of Older Scots, Corpus of Early English Correspondance, The Newdigate Newsletters, Lampeter Corpus, Innsbruck Computer-Archive of Machine-Readable English Texts ( icamet ). Il corpus è distribuito su cd-rom , al costo di nok 3.500, e può anche essere interrogato online, previo pagamento di una sottoscrizione. I manuali dei corpora compresi in Icame si possono scaricare gratuitamente all'indirizzo: http://khnt.hit.uib.no/icame/manuals/index.htm/.
Lancaster/IBM Spoken English Corpus (SEC) (cfr. ICAME)
Lancaster-Oslo/Bergen Corpus (LOB) contiene circa un milione di parole in inglese britannico, in testi che partono dal 1961. Il corpus è stato tarato per essere il corrispondente britannico del Brown Corpus e contiene 500 testi di circa 2.000 parole divisi in 15 categorie diverse. È disponibile sia annotato (per parti del discorso) sia non annotato ed è' distribuito nell’insieme di corpora ICAME.
The London-Lund Corpus of Spoken English (cfr. ICAME)
MARSEC (cfr. ICAME)
The
Oxford Text Archive (OTA) è un database di
testi elettronici letterari e scientifici. Fornisce gratuitamente alcuni
corpora di media
grandezza tra cui il Lampeter Corpus, Northern Ireland Speech Corpus,
SUSANNE Corpus dal sito
URL: http://ota.ox.ac.uk/.
[top]
