Reconnaissance audiovisuelle de la parole en voiture

Ce projet vise à démontrer que l’information visuelle peut améliorer de façon significative la reconnaissance vocale dans un contexte automobile réaliste.

Dans le domaine des interfaces homme-machine, le visage tient une place centrale. Il est reconnu comme un des principaux convoyeurs naturels d’informations, au même titre que les gestes ou la voix. Le but de ce projet est de démontrer que les images du visage d’un conducteur peuvent améliorer de façon significative les systèmes de reconnaissance automatique de la parole, dans l’habitacle d’une voiture.

Des travaux précédents, réalisés au Laboratoire de traitement des signaux 5 (LTS5), ont  permis de montrer que l’information visuelle augmente les performances de reconnaissance automatique de la parole lorsque le canal audio est parasité, ce qui est fréquent dans une voiture (bruits de moteur, bruits aérodynamiques, bruits extérieurs ou intérieurs, etc.). Ce projet transpose ces acquis dans l’habitacle d’une voiture. A l’aide d’un véhicule mis à disposition par le constructeur français, les chercheurs vont créer une base de données audiovisuelle pour tester et quantifier les performances de la reconnaissance audio et audiovisuelle de la parole. Ces données seront intégrées dans les outils de détection et de suivi des visages disponibles dans le cadre du partenariat entre LTS5 et Groupe PSA.

Ce projet d’une durée de dix mois est mené par le LTS5 du prof. Jean-Philippe Thiran et financé par Groupe PSA. Il fait partie d’un agenda de recherche de long-terme.
 

Investigateur principal Prof Jean-Philippe Thiran
Responsable de projet Marina Zimmermann 
Financement Groupe PSA
Periode 2013-14
Laboratoire LTS5