mIAm, mIAm …Quand les IA se gavent d’elles-mêmes ou la consanguinité numérique
L'intelligence artificielle générative, annoncée comme la grande (r)évolution de notre époque, risque de se cramer les circuits avec le feu qu’elle a elle-même allumé – un feu que nous, humains, continuons à alimenter. En se goinfrant de ses propres contenus générés artificiellement, elle s'engage dans une spirale infernale que l'on pourrait appeler consanguinité numérique. Ce phénomène a même été surnommé "Habsburg AI" par le chercheur Jathan Sadowski, en référence à la célèbre dynastie européenne dont l’endogamie a conduit à la dégénérescence. Résultat ? Elle s'intoxique de ses propres productions, s'enfermant dans un cycle qui appauvrit ses algorithmes et compromet leur efficacité.
Mais ça ne s'arrête pas là. En inondant le web de contenu sans discernement, ces IA transforment Internet en un grand bazar de fausses informations. Les erreurs prolifèrent à la vitesse de la fibre, et si les pompiers pyromanes – alias les créateurs d'IA – ne parviennent pas à éteindre cet incendie, ces technologies risquent de tourner en boucle, recyclant du contenu dégradé, et laissant derrière elles un web plus confus que jamais, où il devient impossible de démêler le vrai du faux.
La pollution numérique : quand les IA gangrènent le web
Les IA génératives, comme ChatGPT, sont de véritables machines à produire du texte. Elles alimentent des "fermes de contenu", paramétrées sur mesure pour séduire les algorithmes, faisant tourner à plein régime la machine à cash des moteurs de recherche et des réseaux sociaux. Mais soyons honnêtes, nous sommes plus proches d'usines à contenu qui tournent à plein régime, 24h/24 et 7j/7. Ces IA produisent de tout, et surtout du n’importe quoi : textes, articles, interviews, récits, études, voire même des images, vidéos et musiques. Le hic ? Elles ne comprennent rien à ce qu'elles débitent. Elles assemblent des phrases sur la base de probabilités, ce qui mène à des erreurs factuelles ou à des hallucinations textuelles. Et pourtant, elles continuent de produire, sous nos regards complices.
Environ 30 % des réponses générées par les IA sont truffées d’erreurs (chiffre à discuter). C’est un peu comme Serge le mytho, qui raconte ses bobards avec tant d’assurance que tu finis par les répéter. Sauf que sur Internet, ces erreurs se propagent à la vitesse de la fibre !
Une étude du MIT a montré que les fausses nouvelles se propagent six fois plus vite que les vraies sur X (anciennement Twitter). Imaginez un web inondé de contenu erroné généré par des IA. Ce serait une véritable déchèterie numérique, où distinguer le vrai du faux reviendrait à chercher un octet dans un téraoctet (1 000 milliards d'octets).
Les pompiers pyromanes : les créateurs d'IA face à leurs propres feux
Ironiquement, ce sont les créateurs d'IA eux-mêmes qui doivent désormais éteindre l'incendie qu’ils ont allumé. Des pompiers pyromanes, contraints de trouver des solutions pour éviter que leurs propres créations ne sabordent l'écosystème numérique... mais surtout leur vache à lait. Eh oui, car si ces IA finissent par inonder le web de contenus redondants et erronés, les plateformes comme Google risquent de voir leur modèle économique partir en fumée.
Prenons Google : si le contenu du web devient massivement généré par des machines pour des machines, l'utilisateur humain finira par se perdre dans un trou noir vidé de matière grise. Quelle valeur aura un moteur de recherche qui ne renvoie que des contenus recyclés et peu fiables ? Cela reviendrait à nourrir la vache à lait des revenus publicitaires avec du fourrage périmé – et là, même La vache risque de ne plus rire !
Sundar Pichai, PDG de Google, a souligné lors d’une interview avec The Verge la nécessité de maintenir la qualité des informations fournies par l'IA, afin que les outils comme Google Search continuent à valoriser des contenus de qualité et à éviter toute détérioration de l'écosystème du web.
🚨 Wordfreq jette l'éponge : l'IA générative a pollué les données 🚨
Le projet open-source Wordfreq, qui analysait l'évolution de l'utilisation des mots dans plus de 40 langues, vient de s'arrêter brutalement. La raison ? La prolifération des textes générés par IA a rendu les données inutilisables. Robyn Speer, créatrice de Wordfreq, a expliqué que le web est désormais saturé de contenus produits automatiquement, qui faussent la fréquence des mots et compromettent toute analyse linguistique fiable. « Avant, les données étaient gérables, mais les textes générés par les grands modèles de langage ont franchi un seuil critique », a-t-elle déclaré.
Les algorithmes peinent à différencier le langage humain de ces productions artificielles, ce qui dégrade la qualité des études et des recherches en linguistique. Par exemple, l'utilisation excessive de certains mots par des IA, comme "delve" (fouiller), déforme les statistiques de fréquence, rendant l’analyse des tendances linguistiques inutilisable.
Wordfreq n'est pas le seul projet à subir les effets de cette pollution numérique ; l'ensemble du web devient une véritable décharge où le bruit dépasse le signal. Quand les contenus générés par IA inondent les données, même les algorithmes les plus sophistiqués sont dépassés.
Source : article 'Wordfreq : « l'IA générative a pollué les données »'developpez.com
Quand les IA se nourrissent des IA (la consanguinité numérique)
Mais le problème ne s'arrête pas là. Les IA s'entraînent en pillant sans scrupules un océan d’informations générées par des humains... et, comble de l’ironie, par d’autres IA également. Quand ce contenu devient majoritairement produit par des machines, la spirale de consanguinité numérique commence. C’est un peu comme un chat qui se mord la queue, ou mieux encore, une IA qui se gave de son propre contenu jusqu'à l'indigestion numérique ! Aurions-nous l’idée de nourrir une vache avec ses congénères ? Quand même !
Une étude récente, publiée dans la revue Nature, a démontré que les modèles d'IA formés sur des données générées par d'autres IA voient leur performance s’effondrer progressivement. Les IA deviennent alors moins précises et moins fiables. C’est un peu comme si un étudiant trichait sur la copie d’un autre étudiant, qui lui aussi a triché. Résultat ? Personne n’a la bonne réponse et, en plus de tricher, tout le monde se rapproche de la sortie. Cette fois-ci, l’équation "- x - = +" ne sauvera personne !
À mesure que les IA se forment sur leurs propres productions, cette consanguinité numérique empoisonne les modèles, rendant l'entraînement des grands modèles de langage (LLM) de plus en plus complexe. En se nourrissant de leurs propres erreurs, les IA risquent de devenir des "IA folles". Heureusement, pour rester intelligentes, les IA auront toujours besoin de nous, de l'intelligence humaine !
Des solutions en gestation : détecter et réguler le contenu généré par des IA
Alors, comment sortir de ce deep problem ?
-
1. Détecter le contenu généré par des IA
-
.Commençons par identifier ce qui est produit par des IA. OpenAI avait tenté de lancer un classificateur pour différencier les textes humains de ceux générés par des machines. Mais avec une précision de 26 % et un taux de faux positifs de 9 %, cet outil a vite été relégué au rayon des gadgets inefficaces. Maintenant, OpenAI mise sur une autre approche : le watermarking. Cette technique consiste à insérer des filigranes invisibles dans les contenus générés, un peu comme une signature cachée, afin de les traquer plus facilement dans l’océan d’informations en ligne. Une belle idée, mais encore en développement
-
-
2. Réguler et sensibiliser -
Même avec les meilleures technologies de détection, cela ne suffira pas. Les grandes plateformes comme Google, Facebook, X, et LinkedIn devront se bouger et mettre en place des politiques plus strictes pour limiter la diffusion des contenus générés par IA, surtout en ce qui concerne les fausses informations. La priorité doit être donnée à la qualité plutôt qu’à la quantité. Regardons LinkedIn : cette plateforme incite ses utilisateurs à publier chaque jour. Mais cela ouvre les portes à des contenus automatisés dénués de sens, juste pour remplir des quotas.
Et voilà où l'ironie prend toute sa force : ces réseaux sociaux, adeptes depuis longtemps de l’IA, sont aujourd’hui submergés par les publications générées par ces mêmes IA. À force de vouloir de la quantité à tout prix, ils finissent par noyer leurs utilisateurs sous des vagues de contenu aussi insipide que celui que mon poisson rouge pourrait apprécier. Ce n'est plus de l'information, c'est une pollution numérique pure et simple !
Enfin, ne nous voilons pas la face : la responsabilité repose aussi sur les utilisateurs. Affûter son esprit critique devient impératif. À l’ère des fausses informations qui se répandent aussi vite qu'une connexion fibre optique, il ne suffit plus de vérifier les sources, il faut vérifier les sources des sources. Facile à dire avec ChatGPT à portée de main, mais nettement plus compliqué dans un monde où l’on ne sait plus si l’auteur est une IA, un humain, ou un centaure hybride (mi-homme, mi-machine).
Conclusion : Et si, nous remettions de intelligence humaine dans la machine de l'IA ?
Comme vous l'avez sans doute remarqué, cet article est placé sous le signe de l'ironie. Les IA, censées simplifier notre accès à l'information, semblent aujourd'hui tout embrouiller — voire carrément l'éliminer. Mais tout n'est pas perdu. Il existe encore des remèdes. En combinant des efforts techniques, comme la détection des contenus générés par IA, avec une régulation responsable et, surtout, en cultivant un esprit critique chez les utilisateurs, nous pouvons encore éviter que le web ne devienne un immense écho vide, destiné uniquement aux machines.
Mais l'ironie ne s'arrête pas là. Les géants de la tech comme OpenAI, Microsoft et Google se retrouvent piégés par leurs propres créations. Pour sauver leur vache à lait, ils n'ont pas le choix : ils devront trouver des solutions pour éteindre l’incendie qu'ils ont eux-mêmes allumé. Sans quoi, leur empire numérique risque de partir en fumée.
Au fond, Internet demeure l'une des plus grandes inventions de l'humanité. Un espace où savoirs, richesses et opinions se partagent — même si parfois ternis par des biais, des préjugés, ou des erreurs. Les IA, aussi performantes soient-elles, ne pourront jamais remplacer ce qui fait notre singularité : l'humour, la nuance, la mauvaise foi (parfois assumée !) et cette touche d'humanité qui imprègne chacun de nos écrits. Alors continuons à écrire, à créer, et à y ajouter notre grain d'ironie. Car rien ne remplace l'humain — pas même une IA avec l'humour d'une calculatrice.
Études citées :
-
Nature – Les modèles d’IA s’effondrent lorsqu’ils sont formés sur des données générées de manière récursive
-
Interview de Sundar Pichai sur les IA et la qualité des informations, dans The Verge.
Articles complémentaires :
Dernière mise à jour : 9 octobre 2024