L’entreprise allemande, spécialisée dans la traduction, manquait depuis plusieurs années d’un service lui permettant d’afficher immédiatement les sous-titres traduits de sources audio. Alors que de nombreuses entreprises se sont impliquées, dont Google et Microsoft, DeepL comble enfin cette lacune.
Dans son article de blog, DeepL cite plusieurs études pour étayer son propos. Ainsi, selon le NBER (National Bureau of Economic Research), 33,8 % du temps passé en réunion est perdu à cause de problèmes de compréhension entre les participants. Axios HQ estime que cela coûte aux entreprises jusqu’à 54 860 $ par employé et par an, encore une fois en raison de malentendus et de perte de temps.
DeepL vise bien entendu à réduire cette f(r)acture avec son nouveau produit. Chez TechCrunch, l’entreprise explique qu’il s’agit de la demande client la plus fréquente depuis 2017. Pourquoi cela a-t-il pris autant de temps ? Parce qu’il a développé son propre modèle de langage, plutôt que de s’appuyer sur un modèle existant, comme GPT.
DeepL Voice s’adresse donc avant tout aux entreprises. Le nouveau service est divisé en deux versions : une pour les réunions, l’autre pour les conversations. Dans la première, des cadres apparaissent à proximité des participants pour traduire ce qu’ils disent. DeepL met largement en avant le gain de temps lorsque les réunions rassemblent des personnes du monde entier.
Dans le second, c’est le téléphone qui sert d’interface entre deux personnes. Là encore, les cas d’usage envisagés se déroulent toujours dans un contexte professionnel, par exemple lorsqu’un collaborateur parle à un client étranger.
De TechCrunch, nous apprenons également plusieurs éléments importants. Premièrement, DeepL Voice n’est pas disponible sous forme d’API que les applications peuvent intégrer à leur guise. DeepL travaille spécifiquement avec d’autres sociétés pour intégrer sa technologie. Dans le cadre des réunions, le seul produit à en bénéficier pour le moment est Microsoft Teams. Il n’est actuellement pas question d’intégration, par exemple, dans les navigateurs sous forme d’extension.
DeepL dit également que rien n’est enregistré. Les données vocales sont bien envoyées vers les serveurs, mais rien n’y serait stocké, ni à des fins d’archivage ni d’entraînement des modèles. Il est possible, comme le notent nos confrères, que tout le monde ne soit pas à l’aise à l’idée que tous leurs commentaires soient envoyés à une entreprise pour analyse. DeepL a toutefois cherché à rassurer en indiquant que la question du RGPD ou de toute autre réglementation du même acabit était en train d’être travaillée avec ses clients.
Avec les PC Copilot+, Microsoft propose la traduction automatique, mais dans une poignée de langues pour le moment. Cette solution, qui utilise le NPU des machines, présente néanmoins l’avantage d’être locale.