Alphabit Blog / Glottophilia

lunedì, gennaio 28, 2008

Corsi TaLTaC2, febbraio 2008

CALL FOR PARTICIPATION TALTAC2 WORKSHOPS

We announce the next workshops on Taltac2 software that will be held in Rome (Italy) at the Citicord:

  • basic workshop: 21-22 february 2008
  • advanced user workshop: 27 february 2008
TaLTaC2 workshops have as an objective to guide the user in discovering new functionalities of TaLTaC2 software for the automatic analysis of textual data. The workshops also show new tools and techniques for data analysis and text mining and text analysis procedures to be used in TaLTaC2 in order to manage large collections of documents of various kinds. Workshops will be held in Italian.

If you are interested in joining the workshop you can visit the page with information on registration. If you need further information on workshop activities please contact: info@taltac.it.

Registration is allowed until the maximum number of participants is reached in the chronological order of registration form submission. Registration is possible up to one week before the beginning of the workshop, by filling the registration form. If necessary you can contact the workshop secretary for administrative procedures (emanuela.tiveron@uniroma1.it - Emanuela Tiveron +39 06 4991 3838).

More information on TaLTaC2 on www.taltac.it
Best regards,

TaLTaC Team

------------------------------------------------------------
ITALIAN CALL FOR PARTICIPATION

Cari membri di Corpora-list annunciamo i prossimi corsi di Taltac2, software per l’analisi dei dati testuali, che si terranno a Roma presso il Citicord
  • corso base: 21-22 febbraio 2008
  • corso avanzato: 27 febbraio 2008
I corsi Taltac non hanno il solo obiettivo di guidare l’utente alla scoperta delle funzionalità del software omonimo per l’analisi automatica dei testi, ma presentano strumenti e tecniche di analisi di dati testuali nonché applicazioni di Text Mining e Text Analysis realizzabili con TaLTaC2 ai fini di gestire ampie basi documentali dei tipi più diversi.
Se sei interessato a partecipare, puoi visitare la pagina web dove troverai tutte le informazioni per l’iscrizione. Se desideri ricevere ulteriori informazioni sul contenuto del corso, non esitare a contattarci all’indirizzo info@taltac.it.
Ti consiglio di non tardare a segnalare la tua partecipazione in quanto l’iscrizione avviene fino a completamento della capienza secondo l'ordine di arrivo del form da compilare via web.
Ti ricordo che l'iscrizione per il corso va fatta fino ad una settimana dall’inizio del relativo corso compilando il modulo via internet; se necessario, puoi contattare direttamente la segreteria del corso per eventuali dettagli sulla procedura amministrativa (emanuela.tiveron@uniroma1.it - Emanuela Tiveron 06 4991 3838).

Maggiori informazioni su TaLTaC2 al sito www.taltac.it
Con l'augurio di incontrarti presto,
cordiali saluti dal Team di TaLTaC

Etichette: , , , , , ,

mercoledì, febbraio 21, 2007

CLIPS, Corpus of Spoken Italian

Today has been announced the final release of a new corpsu of spoken Italian (CLIPS), directed by Federico Albano Leoni (University La Sapienza of Rome). The key features of the corpus are: free distibution of audio and transcription, explicit Eagles compliant documentation, and above all phonetic transcription of a section of the collected material.
Here is the brief description of the corpus made by Federico Albano Leoni:


"CLIPS, a corpus of spoken Italian, is freely available at www.clips.unina.it. The corpus (audio files, annotation and documentation) are fully downloadable from the website via ftp, free for research purposes.


CLIPS consists of about 100 hours of speech, equally represented by female and male voices. A section of the corpus is transcribed orthographically, a smaller section has been phonetically labeled. Recordings were made in 15 Italian cities, selected on the basis of linguistic and socio-economic principles of representativeness: Bari, Bergamo, Bologna, Cagliari, Catanzaro, Firenze, Genova, Lecce, Milano, Napoli, Palermo, Parma, Perugia, Roma, Venezia.


For each of the 15 cities different text typologies have been included: a) radio and television broadcasts (news, interviews, talk shows); dialogue (240 dialogues collected using the map task procedure and the “spot the difference” game. In this set: 30 dialogues are phonetically labeled, 90 orthographically transcribed); c) read speech from non professional speakers (20 sentences each, covering medium-high frequency Italian words); d) speech over the telephone (conversations between 300 speakers and a simulated hotel desk service operator), e) read speech from 20 professional speakers (160 sentences, covering all phonotactic sequences and medium-high frequency Italian words) recorded in an anechoic chamber.Documentation, corpus collection and annotation follow the EAGLES guidelines.

Etichette: , , ,

E' online CLIPS, corpus di italiano parlato

Da oggi è consultabile gratuitamente un nuovo corpus di italiano parlato, parzialmente annotato foneticamente e accessibile sia nelle trascrizioni che nei relativi file audio. Ecco il testo della presentazione ufficiale di Federico Albano Leoni (coordinatore), Francesco Cutugno e Renata Savy:

"E’ in rete il corpus di italiano parlato CLIPS al sito www.clips.unina.it. Il corpus (audio, etichettatura e documentazione) è pubblico, l’accesso e il download completo del materiale per finalità scientifiche sono gratuiti.

CLIPS consiste di circa 100 ore di parlato, equamente ripartito tra voci maschili e voci femminili, in parte trascritto ortograficamente e etichettato foneticamente. Le registrazioni sono state effettuate in 15 località italiane scelte in base a criteri di rappresentatività linguistica e socioeconomica: Bari, Bergamo, Bologna, Cagliari, Catanzaro, Firenze, Genova, Lecce, Milano, Napoli, Palermo, Parma, Perugia, Roma, Venezia.

Per ogni località è stato raccolto a) parlato radiotelevisivo (notiziari, interviste, talk shows); b) parlato dialogico (240 dialoghi raccolti secondo le modalità del map task e del ‘gioco delle differenze’, dei quali 30 etichettati foneticamente, 90 trascritti ortograficamente, studenti universitari); c) parlato letto da parlanti non professionisti (20 frasi atte a garantire la copertura delle frequenze medio-alte del lessico italiano); d) parlato telefonico (conversazioni tra circa 300 parlatori e un portiere d’albergo simulato) e) parlato letto da 20 parlanti professionisti (160 frasi atte a garantire la copertura delle sequenza fonotattiche dell’italiano e delle frequenze medio-altedel lessico italiano) registrato in camera anecoica.

La documentazione, i protocolli di raccolta e di annotazione del materiale tengono conto delle direttive del progetto EAGLES."

Documento di presentazione di Albano Leoni (pdf).



Etichette: , , ,