La plateforme Medium est également inondée de contenu généré par l’IA

Monday 04th November 2024 07:44 PM

A l’origine, le slop désigne l’amas de boues qui tapisse progressivement le fond des cuves des navires, notamment des pétroliers, écrivait Courrier International en juin dernier. Le terme est également utilisé depuis plusieurs mois pour désigner les contenus bas de gamme générés par l’IA et qui inondent de plus en plus le web.

Non contente de polluer Amazon Books et Youtube (jusqu’aux chaînes de philosophie incluses, notait récemment M. Phi), la slop envahirait également la plateforme de blogs Medium. WIRED indique en effet avoir demandé à la société Pangram Labs, spécialisée dans la détection de l’intelligence artificielle, d’analyser un échantillon de 274 466 articles récents, publiés sur une période de six semaines sur la plateforme.

La start-up, qui présente sa technologie comme « le plus précis pour détecter le contenu généré par l’IA à grande échelle », avec un taux de précision de « plus de 99,98% », estime que plus de 47 % d’entre eux étaient probablement générés par l’IA (GenAI).

WIRED a demandé à une deuxième start-up, également dédiée à la détection de contenus GenAI, Originality AI, de comparer deux échantillons de posts Medium, l’un datant de 2018, l’autre de cette année. 3,4% des premiers avaient probablement été générés par l’IA.

Un pourcentage qui correspond au taux de faux positifs de l’entreprise, précise son PDG, John Gillham, d’autant que les outils d’IA n’étaient pas encore largement utilisés. À l’inverse, un peu plus de 40 % de l’échantillon de 2024 était probablement généré par l’IA.

7 % des articles de presse sont générés par l’IA

« C’est deux ordres de grandeur de plus que ce que je vois sur le reste d’Internet. », raconte Max Spero, PDG de Pangram, à WIRED. En août, la start-up avait en effet analysé 857,43 articles publiés sur 26 675 sites d’information sur une seule journée de juillet dernier, et découvert que 59 653 d’entre eux, soit 6,96%, avaient été, en tout ou partie (50 à 100% ), écrit par AI.

Le Ghana arrive en tête de la liste des pays utilisant le plus l’IA, avec près de 33 % des articles GenAI, suivi du Pérou (plus de 20 %), du Brésil, de la Colombie et du Pakistan (16 %). Si la France (8 %) arrive en avant-dernière position du classement, juste derrière Singapour et l’Espagne, cette dernière mentionne principalement des pays d’Amérique du Sud, d’Afrique de l’Ouest et d’Asie du Sud, et aucun autre pays d’Europe ou d’Amérique du Nord.

La tech arrive en tête des thématiques les plus polluées par les contenus GenAI, devant la beauté (en raison des articles sponsorisés), le business, le gaming, la finance et la science, notamment en ce qui concerne les arnaques liées aux crypto-actifs.

Putaclics appelle à la publicité et aux escroqueries cryptographiques

Pangram avait identifié plusieurs types d’articles GenAI. Certains ne visent qu’à remplir « sites conçus pour la publicité » (sites faits pour la publicité, ou MFA) afin d’attirer les lecteurs et de les exposer à des publicités bas de gamme.

Leur contenu n’est donc pas « pas vraiment fait pour être lu », mais juste pour attirer les clients, via les titres « putaclics » notamment. Les annonceurs n’ont pas non plus conscience d’afficher leurs publicités sur ces sites bas de gamme. Pangram estime que les MFA représentent environ 50 % du contenu GenAI.

L’entreprise a également noté qu’un « grande partie » les articles sur le thème de la beauté étaient en fait « sponsorisés », et donc rédigés par des communicants et des éditeurs sous-traitant la rédaction de ces contenus à des IA. De même, de nombreuses notices d’utilisation liées aux nouveaux crypto-actifs s’avèrent être des arnaques dont la rédaction est là encore sous-traitée à l’IA.

78 % des articles étiquetés NFT, web3 et Ethereum étaient GenAI

Sur Medium, 4 492 des 5 712 articles (soit 78 %) étiquetés NFT avaient également probablement été générés par l’IA. Une proportion disproportionnée que Pangram a également constatée dans des articles intitulés web3, Ethereum, « AI » et… pets.

McKenzie Sadeghi, rédacteur en chef chez NewsGuard, une société de surveillance de la désinformation en ligne qui a identifié plus de 1 000 sites d’information GenAI, a découvert que la plupart de ce type de contenu concernait des crypto-actifs. , marketing et optimisation des moteurs de recherche (SEO).

Les nombreux comptes qui semblent avoir publié des volumes importants de documents générés par l’IA semblent également ne concerner qu’un lectorat restreint, voire inexistant, note WIRED. Un compte rapporté par Pangram Labs comme ayant écrit plusieurs articles consacrés aux cryptos en avait publié six en une seule journée, mais sans aucune interaction, suggérant un impact négligeable.

À l’inverse, WIRED a également constaté que d’autres articles signalés par Pangram, Originality et la société de détection d’IA Reality Defender comme étant probablement générés par l’IA comportaient des centaines de « applaudissements », similaires aux « j’aime » que l’on trouve sur d’autres plateformes, mais sans savoir s’ils proviennent de des humains ou des robots.

Medium est conçu pour la narration humaine, pas pour les articles GenAI

« Medium fonctionne essentiellement grâce à la curation humaine », rétorque Tony Stubblebine, le PDG de la plateforme, en évoquant les 9 000 rédacteurs en chef des publications Medium, ainsi que l’évaluation humaine complémentaire des articles susceptibles d’être artificiellement « boostés ».

S’il reconnaît que les contenus GenAI publiés sur Medium » a probablement décuplé depuis le début de l’année “, il s’oppose néanmoins à l’utilisation de détecteurs d’IA pour évaluer l’ampleur du problème, en partie parce qu’il estime qu’ils ne peuvent pas faire la différence entre les messages générés entièrement par l’IA et les messages dans lesquels l’IA est utilisée de manière plus légère (ce que le PDG de Pangram rejette d’ailleurs).

Contrairement à LinkedIn et Facebook, qui encouragent explicitement l’utilisation de l’IA, Medium n’autorise plus les articles GenAI. ” Medium est destiné à la narration humaine, pas à l’écriture générée par l’IA », soulignait la plateforme sur son blog l’année dernière. ” La grande majorité des articles détectables générés par l’IA dans les flux bruts sur ces sujets n’obtiennent aucune vue. », ajoute Stubblebine.

« À mesure que les outils d’IA générative deviennent plus courants, les plateformes qui renoncent à éliminer les robots incuberont un monde en ligne dans lequel les œuvres créées par l’homme deviendront de plus en plus difficiles à trouver sur des plateformes submergées de robots. IA », conclut WIRED, faisant écho à la théorie de l’Internet mort.

Qualifiée de théoricienne du complot, elle soutient qu’Internet est pratiquement peuplé uniquement de robots et que la majorité du contenu est généré par des algorithmes, marginalisant l’activité humaine.

For Latest Updates Follow us on Google News