De la reconnaissance automatique de la parole à l'analyse linguistique de corpus oraux
Martine Adda-Decker.

Contrairement à bien d'autres domaines de recherche autour de la parole, la reconnaissance automatique, qui s'effectue sur un flux acoustique continu, nécessite une modélisation de l'ensemble des phénomènes observés dans le signal : au-delà des mots auxquels est associée une représentation de type phonologique dans le dictionnaire de prononciation, il faut modéliser des respirations, des hésitations, des fragments de mots, des brouillons de parole peu ou pas articulés... Dans cette intervention nous allons faire d'abord un état de l'art des systèmes de transcription automatique, présenter leurs performances et analyser les types d'erreurs de transcriptions les plus représentatifs. Nous allons ensuite poser la question de ce que peuvent nous apprendre ces erreurs de transcription. Ceci nous amène à utiliser progressivement les systèmes de transcription comme des instruments d'analyse de grands corpus oraux, permettant par exemple de décrire et de quantifier des variantes de prononciations, des disfluences, des réalisation acoustiques des sons. Quelques adaptations méthodologiques des systèmes s'imposent afin de transformer un système de transcription en un instrument d'analyse de corpus.