Joyau européen de la traduction assistée par intelligence artificielle, DeepL vient de dévoiler sa première incursion dans le domaine de la voix.
L’éditeur allemand a présenté deux nouvelles offres – Deepl Voice Dialogue et Deepl Voice Réunion – lors d’un événement promotionnel (DeepL Dialogues) le 13 mai à Berlin. Les deux outils sont capables, sur papier, de traduire des conversations dans différentes langues en temps réel.
La version Rencontre a pour objectif de traduire les interventions des participants, qui parlent chacun des langues différentes, et de les afficher en sous-titres (dans la langue choisie individuellement par chaque auditeur). La version Dialogue est une application mobile pour les conversations en face à face.
Comme pour ses autres produits (Traduction et outil de réécriture d’écriture), DeepL s’appuie sur ses recherches en IA et ses propres modèles, rappelle Jarek Kutylowski, directeur général et fondateur de l’éditeur. Les modèles ont été formés sur des ensembles de données avec des accents différents.
« La traduction vocale en temps réel pose d’autres défis [que ceux de la traduction par écrit] : les informations incomplètes, les problèmes de prononciation et la latence sont des facteurs qui peuvent conduire à des traductions inexactes », souligne Jarek Kutylowski. « Ces mêmes éléments peuvent conduire à des malentendus […]. Nous avons donc conçu une solution qui en tient compte dès le départ.
Après une phase de test bêta, DeepL Voice est désormais officiellement disponible. L’outil prend en charge une dizaine de langues parlées (anglais, allemand, japonais, coréen, suédois, néerlandais, français, turc, polonais, portugais, russe, espagnol et italien), avec des sous-titres traduits disponibles dans les 33 langues extraites de DeepL Translator.
« J’ai déjà testé d’autres outils, mais ils ne supportent généralement qu’une seule langue dans les réunions », vante Christine Aubry, coordinatrice internationalisation chez Brioche Pasquier, qui a participé à la phase bêta de DeepL Voice. . Pour elle, « DeepL Voice est différent et de loin l’outil le plus complet ».
Un marché de la traduction IA de plus en plus compétitif
DeepL ne fait pas (encore ?) de « voix à voix », mais plutôt de « parole à texte » avec traduction.
Sur ce segment, Samsung, dans ses modèles haut de gamme dotés de Galaxy AI, Google, dans son application mobile Translate, et des éditeurs vidéo (WebEx, Zoom) ont lancé des fonctionnalités de sous-titres traduits similaires.
Un autre acteur, OpenAI, explore le nouvel horizon de la traduction orale instantanée.
La particularité technique du « mode vocal avancé » (nom interne de la fonctionnalité chez OpenAI) n’est pas de décomposer le processus de traduction en trois parties – parole en texte / traduction/texte en voix – mais de tout confier à un seul modèle pour réduire la latence des dialogues.
La philosophie n’est pas exactement la même que celles de DeepL et des sous-titres des éditeurs vidéo, mais le besoin visé semble assez proche (collaborer en temps réel avec plusieurs personnes dans des langues différentes). L’avenir nous dira quelle option prévaudra – celle qui conserve le texte ou celle qui passe à la voix – en fonction de l’ergonomie et du prix.
Le marché est d’ailleurs de plus en plus concurrentiel puisque les grands LLM (GPT 4 o, Claude, Mistral) sont aujourd’hui capables de traduire des textes en gardant à l’esprit les règles fixées par les utilisateurs pour les personnaliser. Une pierre de plus en plus grosse dans le jardin historique de DeepL.
De son côté, pour éviter de se faire engloutir, DeepL a multiplié les nouveautés au cours de l’année écoulée, avec notamment la sortie d’un LLM pour alimenter son traducteur. Avec sa levée de fonds, l’entreprise est valorisée à 2 milliards de dollars.