OpenAI a construit un modèle d’IA pour « critiquer

OpenAI a construit un modèle d’IA pour « critiquer » ChatGPT

Alors que les chatbots IA entrent dans nos vies, le besoin de savoir quand ils rapportent des informations vraies ou inventées, ou s’ils ont des « hallucinations » devient de plus en plus pressant. Les développeurs ont mis en œuvre plusieurs solutions, comme les citations, pour vérifier la source d’un article d’actualité ou, dans le cas de Gemini, la double vérification, qui permet au chatbot d’évaluer s’il existe un contenu sur le Web qui confirme sa réponse. Désormais, ChatGPT dispose également d’un outil pour vérifier la véracité de ses déclarations, au moins lors de l’écriture de code : CriticGPT. Annoncé hier par OpenAI, CriticGPT est un nouveau modèle basé sur GPT-4 qui analyse le code créé par ChatGPT et signale les erreurs potentielles, ce qui permet aux humains de repérer plus facilement les problèmes qui pourraient autrement passer inaperçus. Le modèle sert d’assistant IA pour les humains examinant le code de programmation généré par ChatGPT, dans le but de faire en sorte que les systèmes IA se comportent comme les humains l’attendent. Ce processus, appelé « alignement », se produit grâce à un outil appelé « Apprentissage par renforcement à partir du feedback humain » (RLHF), qui repose sur la comparaison de différentes réponses ChatGPT au fur et à mesure qu’elles sont comparées et évaluées.

Bien que CriticGPT soit similaire à ChatGPT, la différence notable est que pour l’entraîner, les chercheurs lui ont montré un ensemble de données contenant des exemples de code avec des bugs insérés intentionnellement, lui apprenant à reconnaître et à signaler diverses erreurs de codage. Avant de le publier, OpenAI a comparé les résultats des analyses humaines du code ChatGPT avec et sans le modèle « critique ». Le résultat a été encourageant : 63 % des annotateurs ont préféré les révisions du modèle à celles effectuées par ChatGPT lui-même, signalant comment CriticGPT a rédigé des révisions plus complètes, produit moins de révisions inutiles, généré moins de faux positifs et réduit globalement les taux de révision des hallucinations. Les chercheurs ont également créé une nouvelle technique appelée Force Sampling Beam Search (FSBS), qui aide CriticGPT à rédiger des révisions plus détaillées du code, lui permettant d’ajuster sa précision et d’agir efficacement sur les hallucinations. Le tout de manière dynamique selon les besoins.

Selon certaines informations, CriticGPT pourrait être utile non seulement pour la révision de code. Les chercheurs ont appliqué le modèle à un sous-ensemble de données d’entraînement ChatGPT qui avaient déjà été jugées valides par des annotateurs humains. Étonnamment, CriticGPT a identifié des erreurs dans 24 % de ces cas, erreurs qui ont ensuite été confirmées par des examinateurs humains. OpenAI estime que cela démontre le potentiel du modèle à être utilisé pour des tâches plus générales, où il peut ne pas y avoir d’évaluation humaine minutieuse. Dans tous les cas, le taux d’erreur de 24 % dans les données utilisées pour l’entraînement ChatGPT devrait être un signal d’alarme en soi. Cela signifie que près d’un point de données sur quatre utilisé pour entraîner ChatGPT contient une erreur. CriticGPT est certainement une solution prometteuse, mais comme tous les modèles d’IA, elle pose des problèmes. Tout d’abord, il a été entraîné sur des réponses ChatGPT relativement courtes, ce qui peut le rendre inadéquat pour évaluer des tâches complexes. De plus, même si le taux d’hallucinations est faible, cela ne signifie pas qu’il en est exempt, et en termes absolus, il reste très élevé. OpenAI affirme que les annotateurs commettent des erreurs d’étiquetage après avoir vu des hallucinations de modèles, mais aucune donnée n’a été partagée à ce sujet.

De plus, l’équipe de recherche reconnaît que CriticGPT est plus efficace pour identifier les erreurs pouvant être trouvées à un endroit spécifique du code. Dans le monde réel, les erreurs peuvent souvent se propager dans plusieurs parties d’une réponse, ce qui représente un défi qui n’a pas encore été analysé et qui sera résolu dans les futures itérations du modèle. À l’avenir, OpenAI prévoit d’intégrer des modèles similaires à CriticGPT dans son pipeline d’étiquetage RLHF, offrant ainsi à ses formateurs le support de l’IA. Cependant, pour certains experts, certaines réponses peuvent être trop difficiles à évaluer, même avec l’aide de CriticGPT, ce qui serait contre-productif. En fait, la crainte concerne les faux négatifs, c’est-à-dire des problèmes qui pourraient passer inaperçus et qui constituent l’un des plus grands risques de l’apprentissage automatique.

For Latest Updates Follow us on Google News

Related posts