Il va bientôt falloir que les professeurs de langues du monde entier déchirent leurs livres de vocabulaire : la conversion d’un discours en temps quasi-réel d’une langue à une autre vient de devenir une réalité.
Microsoft Research a montré non seulement comment convertir l’anglais oral en mandarin – avec un retard de quelques secondes -, mais aussi la manière de reproduire ce discours mandarin dans le style vocal du locuteur d’origine. La technologie a été démontrée par le directeur Rick Rashid à Tjianjin, en Chine, le 25 octobre – mais les nouvelles ont pris un certain temps à filtrer.
Rashid a seulement soumis huit phrases en anglais au nouveau laboratoire de système de reconnaissance vocale, de traduction et de production, mais la société n’a montré que le Mandarin qui a séduit une foule de 2000 étudiants et universitaires (pour écouter le rendu, rendez-vous à 7min30 dans la vidéo ci-dessous).
La capacité avancée du système découle d’un grand nombre d’améliorations à tous les stades du processus de speech-to-speech (parole à parole). Un logiciel comme Dragon Naturally Speaking, de Nuance, a tranquillement ouvert la voie à la reconnaissance vocale dans les bureaux – et aujourd’hui des produits sont développés sur cette base, comme l’assistant de l’iPhone d’Apple, Siri, qui peut reconnaître des questions orales et rechercher des réponses sur le web. La Kinect de Microsoft dispose aussi d’une interface de transcription.
Bien que ces systèmes ne soient pas très fiables – ils s’égarent généralement à hauteur d’un mot sur quatre ou cinq, a expliqué Rashid -, ils savent maintenant mieux reconnaître ce que les gens disent. L’astuce de Microsoft est d’utiliser un nouveau système de réseau neural (machine learning) qui permet de réduire les erreurs de reconnaissance de texte jusqu’à un sur sept ou huit. Cela signifie que le moteur de traduction Bing Translate, a une bien meilleure chance de créer un texte intelligible en Mandarin pour alimenter le moteur vocal.
Mais le réel avantage ici est la génération de la voix en mandarin à l’identique de celle du locuteur : si vous pouvez conserver la cadence vocale du locuteur dans la traduction, le sens sera plus évident et la conversation sera d’autant plus efficace. Le logiciel a nécessité une heure de formation pour être en mesure de synthétiser la parole à partir de la voix d’une personne. Cela a pu devenir possible en utilisant un algorithme qui se sert de certains modèles text-to-speech et s’ajuste pour sortir un son identique au locuteur ; plutôt que de réciter rapidement une page de texte comme le demande le logiciel Dragon Naturally Speaking.
C’est un bon début, au constat de ce qu’il se passe. « Dans quelques années », a décrit Rashid à son auditoire, qui a applaudi avec ravissement chaque ligne que la machine exprimait en voix mandarin, « nous espérons que nous serons en mesure de briser les barrières linguistiques entre les gens ».
Citations de New Scientist
Crédit image : © Microsoft Research / Microsoft Group
[…] Il va bientôt falloir que les professeurs de langues du monde entier déchirent leurs livres de vocabulaire : la conversion d’un.. […]