
E' appena uscito un interessante volume di
Sergio Bolasco (ordinario di Statistica all’Università di Roma «La Sapienza»),
Luca Giuliano (docente di Metodologia delle Scienze Sociali e Strategie di narrazione ipertestuale all’Università di Roma «La Sapienza),
Nora Galli de' Paratesi (che insegna Language and Communication alla American University of Rome),
Parole in libertà, Un'analisi statistica e linguistica, Manifesto libri, 2006 pp.144 15,00 €. Il volume è già stato oggetto di numerosi interventi e recensioni (su riviste, quotidiani cartacei, e sul web in articoli e blog).
Pur non avendo ancora avuto occasione di vedere il volume, vorrei segnalare alcune cose sul metodo, sull'interpretazione e sui dati dello studio. Innanzitutto gli autori, in particolare
Sergio Bolasco, sono impegnati da molti anni nella elaborazione di strumenti di text mining e di analisi dei dati testuali con metodi statistici. Bolasco è inoltre uno degli ideatori e autori del software
TALTAC (
Trattamento Automatico Lessico-Testuale per l'Analisi del Contenuto), ora disponibile in versione 2.0, potente strumento tutto italiano (che include, diversamente da altri software sul mercato, risorse specifiche per il trattamento di testi italiani - normalizzazione dei testi, parziale lemmatizzazione, confronto con liste di frequenza di riferimento) per condurre analisi statistiche su materiale testuale di ogni genere, utilizzato anche per le analisi dei discorso berlusconiano.
Il lavoro prende le mosse dall'osservazione che il linguaggio di Berlusconi è risultato "nuovo" sotto diversi aspetti, come linguaggio politico:
"La ragione per cui questo libro è stato scritto è che anche noi abbiamo avvertito che si trattava di un linguaggio nuovo, ma ci è parso che l’unico modo di dimostrarlo e di uscire dal semplice impressionismo fosse quello di ricorrere all’analisi statistica dei suoi discorsi." (dall'
Introduzione)
Occorre precisare che i dati quantitativi estratti dai corpora raccolti risultano del tutto neutrali rispetto alle successive interpretazioni. Una fase preliminare infatti consiste nella presentazione delle parole più frequenti del discorso berlusconiano, delle parole peculiari, delle differenze diacroniche che nel tempo ha assunto il lessico del premier.
Il corpus di testi è costituito da
111 interventi, per un totale di
325.000 parole (di cui 4% sono testi scritti da Berlusconi, 47% è costituito da discorsi parlamentari, dichiarazioni programmatiche o discorsi ufficiali in sede istituzionale e 49% parlato trascritto).
Il discorso berlusconiano è inoltre stato sottoposto a diverse analisi: a) sviluppo e mutamento nel corso degli anni, dalla scesa in campo ad oggi; b) confronto con il discorso di altri politici; c) analisi qualitativa e interpretazione del lessico a seconda dei temi trattati.
Della parte interpretativa una sintesi è fornita sempre nell'
Introduzione:
"È, innanzi tutto, un linguaggio profondamente irrazionale, volto programmaticamente a oscurare neutralizzando differenze (capitolo 2), ad aizzare le parti per esempio con la metafora della guerra, a infantilizzare il pubblico con la metafora del calcio o metafore «diminutive» (capitolo 4), a conquistare l’affetto del pubblico invece di spingerlo a fare scelte ragionando (capitolo 3). È un linguaggio che umilia le donne (capitolo 6), che avvilisce le istituzioni (capitolo 3) e che fa questo non solo con la menzogna e la ridicolizzazione dei contenuti, ma innovando un nuovo costume linguistico: la deroga dalle regole della grammatica del rispetto (conclusioni), cioè usando nelle istituzioni e a proposito delle istituzioni, un linguaggio che non è adatto ad esse, e inappropriato."Un volume certamente da leggere con attenzione, non solamente per l'evidente portato politico, ma anche come esempio di stringente coniugazione di metodologie quantitative e qualitative nell'analisi dei testi. Avrò modo comunque di tornare sull'argomento nei prossimi post con il volume, i suoi dati e le interpretazioni in mano.
ICh
10.907 persone in tutto il mondo si raccolgono in circoli, caffè e ristoranti per parlare in italiano della lingua italiana. E' uno dei canali del sito
Meetup che raccoglie più di 2 milioni di persone di tutto il mondo per radunarle in comunità locali di interesse (club di lettura, club dei chihuahua, dungeons and dragons, taglio e cucito, tecniche di scrittura, ecc.).
Il Meetup dedicato alla lingua italiana ha un numero altissimo di iscritti che rispondono all'invito:
"meet and mingle with local Italian language and culture lovers! Come to an Italian Language Meetup and make new amici as you practice speaking, build your vocab and finally figure out those verb conjugations! All ages and levels welcome.". Lo scopo è quello di trovare momenti di socializzazione per praticare la lingua italiana in un contesto informale e per scambiarsi esperienze culturali e di studio. Gli iscritti sono a loro volta parte di sottogruppi locali che si organizzano in incontri mensili. Il gruppo più numeroso è il New York City Italian Language, Food, & Culture Club, che conta 1.153 membri. I 10,907 iscritti si suddividono in 55 sottogruppi, in 49 città di 11 paesi per un totale di 1.901 eventi organizzati in tutto il mondo. Nella cartina vedete rappresentate le località dei gruppi.ICh

Oggi è nato un nuovo blog, intitolato
Glottophilia - News from the World of Linguistics, sempre firmato da me, ma che avrà un taglio più generale e sarà scritto
solamente in inglese.
Rispetto al
Blog di Alphabit, che conterrà temi più vicini alla didattica, a pubblicazioni italiane e relativi alla lingua italiana in particolare, il nuovo blog sarà incentrato sulle novità scientifiche e tecnologiche legate a temi di rilevanza internazionale.
Siete tutti invitati a visitare il nuovo blog, a commentarlo e inviare suggerimenti.
ICh

SIL International ha realizzato due nuove versioni dei caratteri IPA internazionali:
Charis SIL e
Doulos SIL, versioni Unicode dei precedenti vecchi IPA93 ecc (a 8-bit). I font sono scaricabili gratuitamente dal sito del
Summer Institute of Linguistics. I font sono compatibili con tutte le principali tecnologie
OpenType,
Apple Advanced Typography, eSIL's
Graphite e quindi si integrano ad esempio immediatamente in Microsoft Word permettendo automaticamente l'inserimento dei 2.400 caratteri con i diacritici.
ScienceDaily del 3 marzo 2006 riporta i risultati di un lavoro di
Greg Kondrak, dell'University of Alberta, Department of Computing Science sulla somiglianza ortografica nei nomi dei farmaci (
Xanex, Xanax ecc.), somiglianze che ogni anno causano errori nella lettura delle prescrizioni compilate dai medici, commissionato dal
U.S. Federal Drug Administration.
Si tratta di un lavoro interessantissimo che individua quantitativamente il grado di somiglianza ortografica tra lessemi, in modo da suggerire nomi che causino confusione nel minor possible numero di casi. E' una conseguenza indiretta della non saturazione dei sistemi fonologici a livello lessicale (derivante dalla presenza di regole di restrizione fonologica e sillabica).
"An estimated 1.3 million people in the United States alone are injured each year from medication errors, and the U.S. Federal Drug Administration (FDA) has been working to reduce the possibilities of these errors, such as a documented case in which a patient needed an injection of Narcan but received Norcuron and went into cardiac arrest. "Potete leggeregli articoli di Kondrak al suo sito, dove si trova anche il programma ALINE per l'individuazione delle similarità. Segnalo gli articoli più interessanti dal punto di vista linguistico:G. Kondrak and
Bonnie J. Dorr. Automatic Identification of Confusable Drug Names.
Artificial Intelligence in Medicine 36(1), January 2006, pp. 29--42. [
Abstract (HTML)]
G. Kondrak and
Bonnie J. Dorr. Identification of Confusable Drug Names: A New Approach and Evaluation Methodology. Proceedings of the Twentieth International Conference on Computational Linguistics (
COLING 2004) pp. 952-958, Geneva, Switzerland, August 2004. [
Abstract (HTML)] [
PostScript] [
PDF]
G. Kondrak. N-gram similarity and distance. Proceedings of the Twelfth International Conference on String Processing and Information Retrieval (
SPIRE 2005), pp. 115-126, Buenos Aires, Argentina, November 2005. [
Abstract (HTML)] [
PostScript] [
PDF]