De la reconnaissance automatique de la parole à l'analyse linguistique de corpus oraux
Martine Adda-Decker.
Contrairement à bien d'autres domaines de recherche autour de la
parole, la reconnaissance automatique, qui s'effectue sur un flux
acoustique continu, nécessite une modélisation de l'ensemble des
phénomènes observés dans le signal : au-delà des mots auxquels est
associée une représentation de type phonologique dans le dictionnaire
de prononciation, il faut modéliser des respirations, des hésitations,
des fragments de mots, des brouillons de parole peu ou pas
articulés...
Dans cette intervention nous allons faire d'abord un état de l'art des
systèmes de transcription automatique, présenter leurs performances et
analyser les types d'erreurs de transcriptions les plus
représentatifs. Nous allons ensuite poser la question de ce que
peuvent nous apprendre ces erreurs de transcription. Ceci nous amène à
utiliser progressivement les systèmes de transcription comme des
instruments d'analyse de grands corpus oraux, permettant par exemple
de décrire et de quantifier des variantes de prononciations, des
disfluences, des réalisation acoustiques des sons. Quelques
adaptations méthodologiques des systèmes s'imposent afin de
transformer un système de transcription en un instrument d'analyse de
corpus.