Les chercheurs d’Apple créent une IA capable de « voir » et de comprendre le contexte de l’écran

Un nouveau système d’IA développé par Apple, ReALM, qui comprend les références ambiguës à l’écran et le contexte conversationnel.

Les assistants IA, alimentés par des technologies d’IA avancées telles que la PNL et le ML, transforment les interactions en fournissant des réponses personnalisées et semblables à celles des humains. Ces assistants améliorent la productivité en automatisant les tâches et en fournissant un service client 24 heures sur 24. À mesure que la technologie évolue, elle promet de révolutionner davantage nos expériences numériques, en les rendant plus intuitives et efficaces. Les entreprises peuvent désormais proposer de meilleures solutions de libre-service en temps réel, avec des expériences de service de type consommateur pour les employés et les clients.

Sur smartphone par exemple, Google a enrichi son assistant de nouvelles capacités d’IA conversationnelle pour une meilleure reconnaissance des noms et une meilleure compréhension du contexte des échanges. Ces améliorations visent à permettre à l’Assistant de s’adapter à la façon de parler de l’utilisateur, plutôt que d’exiger des formules précises. Comprendre la langue parlée est complexe, notamment en raison de la variabilité individuelle et du contexte. Google travaille notamment sur la prononciation correcte des noms, notamment les moins courants, sans enregistrer la voix de l’utilisateur. L’Assistant pourra ainsi reconnaître et prononcer correctement les noms prononcés. Google a entièrement reconstruit les modèles de compréhension du langage naturel (NLU) de l’Assistant pour mieux capturer le contexte et la référence des commandes à l’aide de la technologie BERT, permettant ainsi la compréhension des mots les uns par rapport aux autres. Cela améliore considérablement la précision de l’Assistant, notamment pour les tâches liées aux alarmes et aux minuteries, dans le but d’étendre ces capacités à d’autres domaines.

Le smartphone va évoluer dans les 24 prochains mois comme jamais auparavant, le Samsung S24+ en est un exemple avec le modèle Google. Les chercheurs d’Apple vont plus loin dans le développement Royaume (Reference Resolution As Language Modeling), un nouveau système d’intelligence artificielle capable de comprendre les références ambiguës à l’écran ainsi que le contexte conversationnel et d’arrière-plan. Autrement dit, ce système permet des interactions plus naturelles avec les assistants vocaux.

Un saut technologique considérable

ReALM se distingue principalement par son utilisation de grands modèles de langage. Ceux-ci transforment la tâche complexe de résolution de références – y compris la compréhension des références à des éléments visuels sur un écran – en un pur problème de modélisation linguistique. ” Être capable de comprendre le contexte, y compris les références, est essentiel pour un assistant conversationnel », a écrit l’équipe de recherche d’Apple dans un article publié vendredi, et a ajouté : « Permettre à l’utilisateur de faire des requêtes sur ce qu’il voit sur son écran est une étape cruciale pour garantir une véritable expérience mains libres avec les assistants vocaux. »

Le principal défi que ReALM a surmonté est la gestion des références basées sur des écrans. En effet, une innovation clé de ce système réside dans sa capacité à reconstruire l’écran à partir des entités affichées et de leurs emplacements pour générer une représentation textuelle qui capture la disposition visuelle.

Excellence atteinte par ReALM

Les chercheurs ont démontré que cette approche, combinée à un réglage fin des modèles de langage spécifiquement destinés à la résolution de référence, permet à ReALM de surpasser GPT-4. Les performances du système illustrent l’objectif d’Apple de repousser les limites de ce que l’intelligence artificielle peut accomplir.

Il devient nécessaire de revisiter le développement et la conception des applications en tenant compte des évolutions interactives des smartphones, y compris les composants matériels comme les chipsets, le système d’exploitation, et à l’avenir, les applications elles-mêmes. Au Mobile World Congress, T-Mobile a présenté un smartphone innovant, piloté par un assistant virtuel alimenté par l’intelligence artificielle. Ce dernier vise à remplacer l’utilisation de plusieurs applications grâce à une interface générative qui capture et exécute les commandes vocales de l’utilisateur, simplifiant ainsi les activités quotidiennes dans divers domaines, allant des voyages à la retouche photo.

For Latest Updates Follow us on Google News

Un nouveau système d’IA développé par Apple, ReALM, qui comprend les références ambiguës à l’écran et le contexte conversationnel.

Un saut technologique considérable

Excellence atteinte par ReALM

Related posts