Alphabit Blog / Glottophilia

venerdì, marzo 24, 2006

La forza delle parole, ovvero del lessico di Berlusconi

E' appena uscito un interessante volume di Sergio Bolasco (ordinario di Statistica all’Università di Roma «La Sapienza»), Luca Giuliano (docente di Metodologia delle Scienze Sociali e Strategie di narrazione ipertestuale all’Università di Roma «La Sapienza), Nora Galli de' Paratesi (che insegna Language and Communication alla American University of Rome), Parole in libertà, Un'analisi statistica e linguistica, Manifesto libri, 2006 pp.144 15,00 €. Il volume è già stato oggetto di numerosi interventi e recensioni (su riviste, quotidiani cartacei, e sul web in articoli e blog).

Pur non avendo ancora avuto occasione di vedere il volume, vorrei segnalare alcune cose sul metodo, sull'interpretazione e sui dati dello studio. Innanzitutto gli autori, in particolare Sergio Bolasco, sono impegnati da molti anni nella elaborazione di strumenti di text mining e di analisi dei dati testuali con metodi statistici. Bolasco è inoltre uno degli ideatori e autori del software TALTAC (Trattamento Automatico Lessico-Testuale per l'Analisi del Contenuto), ora disponibile in versione 2.0, potente strumento tutto italiano (che include, diversamente da altri software sul mercato, risorse specifiche per il trattamento di testi italiani - normalizzazione dei testi, parziale lemmatizzazione, confronto con liste di frequenza di riferimento) per condurre analisi statistiche su materiale testuale di ogni genere, utilizzato anche per le analisi dei discorso berlusconiano.

Il lavoro prende le mosse dall'osservazione che il linguaggio di Berlusconi è risultato "nuovo" sotto diversi aspetti, come linguaggio politico: "La ragione per cui questo libro è stato scritto è che anche noi abbiamo avvertito che si trattava di un linguaggio nuovo, ma ci è parso che l’unico modo di dimostrarlo e di uscire dal semplice impressionismo fosse quello di ricorrere all’analisi statistica dei suoi discorsi." (dall'Introduzione)

Occorre precisare che i dati quantitativi estratti dai corpora raccolti risultano del tutto neutrali rispetto alle successive interpretazioni. Una fase preliminare infatti consiste nella presentazione delle parole più frequenti del discorso berlusconiano, delle parole peculiari, delle differenze diacroniche che nel tempo ha assunto il lessico del premier.

Il corpus di testi è costituito da 111 interventi, per un totale di 325.000 parole (di cui 4% sono testi scritti da Berlusconi, 47% è costituito da discorsi parlamentari, dichiarazioni programmatiche o discorsi ufficiali in sede istituzionale e 49% parlato trascritto).

Il discorso berlusconiano è inoltre stato sottoposto a diverse analisi: a) sviluppo e mutamento nel corso degli anni, dalla scesa in campo ad oggi; b) confronto con il discorso di altri politici; c) analisi qualitativa e interpretazione del lessico a seconda dei temi trattati.

Della parte interpretativa una sintesi è fornita sempre nell'Introduzione:

"È, innanzi tutto, un linguaggio profondamente irrazionale, volto programmaticamente a oscurare neutralizzando differenze (capitolo 2), ad aizzare le parti per esempio con la metafora della guerra, a infantilizzare il pubblico con la metafora del calcio o metafore «diminutive» (capitolo 4), a conquistare l’affetto del pubblico invece di spingerlo a fare scelte ragionando (capitolo 3). È un linguaggio che umilia le donne (capitolo 6), che avvilisce le istituzioni (capitolo 3) e che fa questo non solo con la menzogna e la ridicolizzazione dei contenuti, ma innovando un nuovo costume linguistico: la deroga dalle regole della grammatica del rispetto (conclusioni), cioè usando nelle istituzioni e a proposito delle istituzioni, un linguaggio che non è adatto ad esse, e inappropriato."

Un volume certamente da leggere con attenzione, non solamente per l'evidente portato politico, ma anche come esempio di stringente coniugazione di metodologie quantitative e qualitative nell'analisi dei testi. Avrò modo comunque di tornare sull'argomento nei prossimi post con il volume, i suoi dati e le interpretazioni in mano.

ICh

giovedì, marzo 23, 2006

Information theory and the language of the whales

The Acoustic Signal Processing Laboratory, of the School of Marine Sciences and Technology of the University of Massachussets Darthmouth, directed by Assoc. Prof. John R. Buck, has recetly published a number of studies on animal communication, on whales signalling systems and on Zipf's Law applied to non-human communication systems.

Specifically the works of R. Suzuki and colleagues deal with the interpretations of the songs of the humpback whale, as the Howard Hughes Medical Institute has recently reported (Warbling Whales Speak a Language All Their Own, March 21, 2006), and on complex syntactic capabilities showed in the signalling behaviour. In the last issue of the Journal of the Acoustical Society of America (119, 3, p. 1849-66) an article on "Information entropy of humpback whale songs" by Ryuji Suzuki, John R. Buck, Peter L. Tyack discusses complexity, redundancy, and predictability of the whales songs, the role of repetition. It is an extremely interesting approach, taking advantage of information theory applied to animal communication.

Some years ago an essey discussing this approach was published by the same team. In the 2003 article Suzuki et alii suggested that Zipf's law is not an appropriate tool for animal communication analysis claiming that: "Tests based on Zipf’s law are highly susceptible to false positives, both in theory and practice." (p. 9) and furthermore that "(1) the Zipf’s distribution model is not an effective way to analyse unknown information sources, even when we know that the source statistics closely follow this distribution; (2) Zipf’s law analysis cannot reliably discriminate between languages and stochastic processes devoid of semantic or communicative content. Studies that have depended on Zipf’s law as a language detector or to measure communication capacity should develop alternative techniques." (p. 16). Particularly interesting the implication on redundancy principle in the psychobiological perspective.

ICh

Suggested readings:

> R. Suzuki, J. R. Buck, and P. L. Tyack, "The use of Zipf's law in animal communication analysis," Animal Behaviour, January 2005, Vol. 69. pp. F9-F17. (Paper Download: PDF)
> R. Suzuki, J. R. Buck, and P. L. Tyack, "Information entropy of humpback whale songs", Journal of the Acoustical Society of America, 119, 3, p. 1849-66.
> Songs of the humpback whales, recorded in Hawaii. Listen
> I. Chiari, Ridondanza e linguaggio, Roma: Carocci.

domenica, marzo 19, 2006

La semaine de la langue française

"La semaine de la langue française" is held from march 17th to the 26th of this month. This week will host lectures, conferences, round tables and prizes to promote French language and French policies on language issues. The 20th of march the Journée internationale de la Francophonie will be celebrated by les francophones worldwide. While the festival «Francofffonies ! » will last more than eight months.

Great interest has gained the "concours pour la défense et l'illustration de la langue française". Students are asked to compose texts and poems using a list of ten words: accent, badinage, escale, flamboyant, hôte, kaléidoscope, masque, outre-ciel, soif, tresser. A special version of this prize will be awarded to sign language users (on the web site, sign language equivalents of the ten words).

Read le Rapport au Parlement sur l'emploi de la langue française (1995) where national policies of French language are exposed, simplification of administrative language, natural language processing, the role of French in formal education and usage of French in international organizations.

Henriette Walter gives a comment on recent events regarding French language in Liberation (18 march 2006).

Italian Language Meetup

10.907 persone in tutto il mondo si raccolgono in circoli, caffè e ristoranti per parlare in italiano della lingua italiana. E' uno dei canali del sito Meetup che raccoglie più di 2 milioni di persone di tutto il mondo per radunarle in comunità locali di interesse (club di lettura, club dei chihuahua, dungeons and dragons, taglio e cucito, tecniche di scrittura, ecc.).

Il Meetup dedicato alla lingua italiana ha un numero altissimo di iscritti che rispondono all'invito: "meet and mingle with local Italian language and culture lovers! Come to an Italian Language Meetup and make new amici as you practice speaking, build your vocab and finally figure out those verb conjugations! All ages and levels welcome.". Lo scopo è quello di trovare momenti di socializzazione per praticare la lingua italiana in un contesto informale e per scambiarsi esperienze culturali e di studio.

Gli iscritti sono a loro volta parte di sottogruppi locali che si organizzano in incontri mensili. Il gruppo più numeroso è il New York City Italian Language, Food, & Culture Club, che conta 1.153 membri. I 10,907 iscritti si suddividono in 55 sottogruppi, in 49 città di 11 paesi per un totale di 1.901 eventi organizzati in tutto il mondo. Nella cartina vedete rappresentate le località dei gruppi.

ICh

venerdì, marzo 17, 2006

Nuovo blog "Glottophilia"

Oggi è nato un nuovo blog, intitolato Glottophilia - News from the World of Linguistics, sempre firmato da me, ma che avrà un taglio più generale e sarà scritto solamente in inglese.

Rispetto al Blog di Alphabit, che conterrà temi più vicini alla didattica, a pubblicazioni italiane e relativi alla lingua italiana in particolare, il nuovo blog sarà incentrato sulle novità scientifiche e tecnologiche legate a temi di rilevanza internazionale.

Siete tutti invitati a visitare il nuovo blog, a commentarlo e inviare suggerimenti.

ICh

Speaking, counting, writing

When did abstract numbers appear in written reports? How are they related to general writing skills? Did they come before or after? An article by Ivars Peterson in Science News (march 11, 2006) reports recent works by archaeologist Denise Schmandt-Besserat of the University of Texas in Austin.

Around 3100 B.C. abstract symbols for numbers began to appear. Abstract numbers do not represent single specific objects (20 jars), but a conventional sign meaning a numeral that could be associated with any object-simbol. And as Schmandt-Besserat claims: "The most important evidence uncovered is that counting was not, as formerly assumed, subservient to writing; on the contrary, writing emerged from counting".

The complex relationship that involves the development of writing has been investigated in two volumes: Before Writing (1992), How Writing Came About (1996).

Read the article ACCOUNTING WITH TOKENS IN THE ANCIENT NEAR EAST (2004) by Denise Schmandt-Besserat

Ich

New Unicode IPA fonts from SIL

SIL International just released updated versions of IPA fonts Charis SIL and Doulos SIL, that substitute older IPA93 etc (in 8-bit). Fonts are freely downloadable from the home page of Summer Institute of Linguistics and are compatible with technologies such as OpenType, Apple Advanced Typography, and SIL's Graphite. Fonts can be integrated in Microsoft Word for the insertion of the 2,400 charachters and diacritics included in the set.

Nuovi font IPA realizzati dal SIL

SIL International ha realizzato due nuove versioni dei caratteri IPA internazionali: Charis SIL e Doulos SIL, versioni Unicode dei precedenti vecchi IPA93 ecc (a 8-bit). I font sono scaricabili gratuitamente dal sito del Summer Institute of Linguistics. I font sono compatibili con tutte le principali tecnologie OpenType, Apple Advanced Typography, eSIL's Graphite e quindi si integrano ad esempio immediatamente in Microsoft Word permettendo automaticamente l'inserimento dei 2.400 caratteri con i diacritici.

venerdì, marzo 10, 2006

Ridondanza ortografica nei nomi dei farmaci

ScienceDaily del 3 marzo 2006 riporta i risultati di un lavoro di Greg Kondrak, dell'University of Alberta, Department of Computing Science sulla somiglianza ortografica nei nomi dei farmaci (Xanex, Xanax ecc.), somiglianze che ogni anno causano errori nella lettura delle prescrizioni compilate dai medici, commissionato dal U.S. Federal Drug Administration.
Si tratta di un lavoro interessantissimo che individua quantitativamente il grado di somiglianza ortografica tra lessemi, in modo da suggerire nomi che causino confusione nel minor possible numero di casi. E' una conseguenza indiretta della non saturazione dei sistemi fonologici a livello lessicale (derivante dalla presenza di regole di restrizione fonologica e sillabica).

"An estimated 1.3 million people in the United States alone are injured each year from medication errors, and the U.S. Federal Drug Administration (FDA) has been working to reduce the possibilities of these errors, such as a documented case in which a patient needed an injection of Narcan but received Norcuron and went into cardiac arrest. "

Potete leggeregli articoli di Kondrak al suo sito, dove si trova anche il programma ALINE per l'individuazione delle similarità. Segnalo gli articoli più interessanti dal punto di vista linguistico:

G. Kondrak and Bonnie J. Dorr. Automatic Identification of Confusable Drug Names. Artificial Intelligence in Medicine 36(1), January 2006, pp. 29--42. [Abstract (HTML)]

G. Kondrak and Bonnie J. Dorr. Identification of Confusable Drug Names: A New Approach and Evaluation Methodology. Proceedings of the Twentieth International Conference on Computational Linguistics (COLING 2004) pp. 952-958, Geneva, Switzerland, August 2004. [Abstract (HTML)] [PostScript] [PDF]

G. Kondrak. N-gram similarity and distance. Proceedings of the Twelfth International Conference on String Processing and Information Retrieval (SPIRE 2005), pp. 115-126, Buenos Aires, Argentina, November 2005. [Abstract (HTML)] [PostScript] [PDF]