Les meilleurs benchmarks et études pour comprendre l’IA

Benchmarks IA, hallucinations et chiffres douteux : démêler le vrai du faux sur ChatGPT & co

Ah, ces fameux chiffres ! On peut facilement leur faire dire tout et son contraire, suivant l’angle de vue qu’on adopte. On pioche souvent dans une étude, un benchmark ou un sondage pour appuyer une hypothèse, plutôt que pour nourrir une véritable réflexion. De mon côté, l’analyse de données me suit depuis toujours—statisticien un jour, statisticien pour la vie. Les IA m’aident aujourd’hui à lever la barrière de la langue, à vulgariser certains concepts ou encore à synthétiser l’essentiel.

Toujours méfiant vis-à-vis de certaines études provenant de cabinets de conseil ou d’autres sources, surtout lorsque les échantillons analysés sont trop petits ou les études déclaratives. Ma méfiance redouble lorsque ces études sont reprises sur Internet ou les réseaux sociaux, souvent de manière incomplète ou biaisée. Le risque devient encore plus grand si l’on utilise des IA pour synthétiser ou rédiger sans vérification—manque de précision et hallucinations garanties.

Voici quelques recherches que j’ai présentées sur LinkedIn, et qui ont aussi alimenté mes réflexions pour mon livre 'L'IA au service du marketing' (Dunod).

ChatGPT o3 égale l’intelligence humaine… sérieux ?

Auteur : Benchmark ARC-AGI sur ChatGPT o3 par François Chollet
Publiée : 20 décembre 2024
Lien vers le benchmark

Impossible d’échapper aux gros titres qui annoncent que ChatGPT-o3 égalerait, voire surpasserait (selon certains enthousIAstes de l’IA), l’intelligence humaine. Tout part du fameux benchmark ARC-AGI de François Chollet, qui a accepté de répondre à mes questions. On crie déjà au bond révolutionnaire, mais est-ce vraiment le cas ?

C’est quoi ARC ?

• Benchmark : ARC-AGI, conçu par François Chollet, comprend 400 tests visant à évaluer la capacité des IA à raisonner de manière abstraite et à s’adapter à des tâches inédites.
• Objectif : Mesurer l’adaptabilité et la généralisation, sans prétendre vérifier une « intelligence générale artificielle » (AGI).
• Résultats : Les humains s’en tirent à ~95 % (sans entraînement). Du côté des IA avant o3, GPT-3 culminait à 0 %, GPT-4o à 5 %.

Quelques exemples de tâches :

Les performances de ChatGPT-o3

• 75,7 % de réussite en configuration modérée (6 essais).
• 87,5 % en mode intensif (172 fois plus de calcul).

Les limites

• Coût exorbitant : En mode « modéré », chaque tâche revient à 20 $. En mode intensif, la facture grimpe à plusieurs milliers de dollars. Un humain fait la même tâche pour environ 5 $, café inclus et sans supplément CO2.
• Faiblesses visibles : o3 échoue encore sur des exercices jugés « tres simples » pour un humain.

Bien sûr, OpenAI promet déjà des améliorations sur le rapport coût-performance… avant la prochaine levée de fonds.

L’avis de François Chollet : Test ARC ≠ preuve d’AGI
« ARC-AGI n’a jamais été pensé comme un test décisif pour l’AGI, nous le répétons depuis des mois. »
« Le prochain benchmark, ARC-AGI-2, restera un gros défi pour o3. Son score pourrait tomber sous les 30 %, même avec une puissance de calcul élevée (alors qu’un humain reste autour de 95 %). »
« o3 représente une avancée majeure, démontrant une réelle progression en matière d’adaptabilité et de généralisation. »
« On ignore encore si o3 peut se déployer à grande échelle à court terme. Son coût et sa latence des réponses posent question. »

Mon point de vue

1. Promesse limitée : ChatGPT-o3 franchit un palier en générant et évaluant des chaînes de raisonnement. Mais il reste dépendant des données humaines et n’acquiert pas ces compétences de manière autonome. L’horizon d’une intelligence générale reste lointain.
2. Prochaine étape :
- Une version ultra allégée de o3 ou l’arrivée très attendue de ChatGPT 5.
- De nouveaux benchmarks, tels que SimpleQA d’OpenAI, visant à évaluer plus finement hallucinations et erreurs (pour l’instant, le record n’est qu’à 47 % de bonnes réponses pour OpenAI o1).

Et vous, pensez-vous surpasser o3… pour moins cher ?

Plus de 50 % d’erreurs pour ChatGPT et Claude

Auteur : OpenAI, benchmark SimpleQA
Publiée : 24 novembre 2024
Lien vers le benchmark

OpenAI a publié les résultats de son propre benchmark, SimpleQA et les chiffres sont hallucinants !

Périmètre du benchmark

• Échantillon : 4 326 questions factuelles dans des domaines variés (science, histoire, sport, géographie…). Exemple : « Quel joueur néerlandais a marqué un but en jeu ouvert lors du match Pays-Bas-Argentine 2022 de la Coupe du Monde masculine de la FIFA ?»
• Méthodologie : Chaque modèle (GPT-4o, GPT-4o preview, Claude 3.5, etc.) devait fournir des réponses correctes, cohérentes et sourcées.
• Critères d’évaluation :
Correct : Réponse exacte et validée.
Incorrect : Réponse fausse ou incohérente.
Non tenté : Le modèle renonce à répondre s’il ne peut fournir une information fiable.

Résultats : Pourcentage de réponses justes parmi celles tentées :

1. OpenAI o1-preview : 47 % (le « moins mauvais »).
2. Claude 3.5 Sonnet : 44,5 %.
3. GPT-4o : 38 %.
4. ChatGPT 4.0 mini : 8,6 %.

On peut trouver au mieux, un verre à moitié plein de bonnes réponses ; au pire, à moitié vide… d’erreurs.

Réflexions

1. Une erreur reste une erreur : Ces « hallucinations » sont souvent qualifiées de « visions » par les IA elles-mêmes. Mais appelons un chat un chat : ce sont simplement des réponses fausses.
2. Des erreurs plus subtiles : Les pièges grossiers de type « Où enterrer les survivants ? » sont moins fréquents, mais les IA produisent parfois des réponses faussement crédibles, invisibles à moins d’avoir l’expertise humaine.
3. Vont-elles diminuer ? : Les modèles s’entraînent de plus en plus sur leurs propres contenus, créant un cercle vicieux d’erreurs qui se perpétuent.

Grave ou pas ?

Oui, car cela alimente la désinformation et facilite la production en masse de contenus hasardeux. On obtient un tsunami de fake news et un risque accru de perte de crédibilité.
Non, parce que cela nous pousse à garder l’œil critique. Copier-coller sans réfléchir, IA ou pas, n’a jamais été bonne idée.

Vous êtes surpris, inquiet, ou finalement peu concerné tant que ça fait plaisir aux algorithmes de Google & co ?

Pour en savoir plus : article 'Les hallucinations de ChatGPT (ou du ChAIshire)'

Benchmark PersonQA sur ChatGPT o3 et o4-mini : répondre plus pour mieux halluciner

Auteur : OpenAI
Date : 16 avril 2025
Lien vers l’étude : System Card OpenAI o3 & o4-mini

Périmètre de l’étude
L’évaluation porte sur la capacité des modèles o3, o4-mini et o1 à répondre à des questions factuelles sur des personnalités connues, via le benchmark PersonQA.
Ce test mesure deux choses :

La justesse des réponses
Le taux d’hallucination (quand le modèle invente ou déforme une info)

Contrairement à SimpleQA, qui valorise les refus explicites (quand le modèle dit "je ne sais pas"), PersonQA se concentre uniquement sur les réponses tentées.
Pas de point pour avoir évité une erreur. Donc, en pratique, plus un modèle tente, plus il marque… et plus il hallucine.

Méthodologie
Benchmark utilisé : PersonQA

Population de questions : faits publics vérifiables sur des personnes connues

Indicateurs suivis :

Accuracy : % de réponses correctes parmi celles tentées
Hallucination rate : % de réponses incorrectes ou inventées

OpenAI précise que le modèle o3 fait plus de tentatives, ce qui augmente à la fois son score et ses erreurs.

Résultats

Modèle o3
✅ Réponses correctes : 59 %
❌ Taux d’hallucination : 33 %
🤐 Taux de non-réponse : 8 %

Modèle o4-mini
✅ Réponses correctes : 36 %
❌ Taux d’hallucination : 48 %
🤐 Taux de non-réponse : 16 %

Modèle o1
✅ Réponses correctes : 47 %
❌ Taux d’hallucination : 16 %
🤐 Taux de non-réponse : 37 %

En résumé :

o3 répond plus → il réussit plus… et se plante plus
Il hallucine deux fois plus qu’o1, mais tente bien davantage
o4-mini hallucine une réponse sur deux, façon pile ou fake
o1 joue la prudence : il ne répond pas dans 37 % des cas… mais hallucine bien moins

Réflexion

Ce benchmark illustre un changement de logique chez OpenAI.

Avant (GPT-4, o1) : SimpleQA. On valorisait la retenue, la prudence, le doute.
Maintenant (o3, o4-mini) : PersonQA. On mesure la capacité à oser répondre, quitte à dire n’importe quoi.

Pourquoi ce virage ? Besoin de nouveaux indicateurs pour suivre des modèles plus "raisonnants" ? Envie d’afficher des performances plus flatteuses ?

Une chose est sûre : Changer de benchmark, c’est aussi changer les règles du jeu. Et à ce petit jeu-là, il faut toujours se demander : Est-ce que cette note reflète une compétence réelle ou juste un excès de confiance algorithmique ?

ChatGPT Search : 76,5 % d’erreurs sur les sources

Auteur : Columbia Journalism Review

Date : 27 novembre 2024

Lien vers l’étude

Fin octobre 2024, OpenAI a présenté ChatGPT Search, censé révolutionner l’accès à l’information et, peut-être, supplanter Google. Fini le moteur de recherche classique, place au moteur de réponse.

Plusieurs articles mentionnent une enquête du Columbia Journalism Review, souvent sans citer la source. J’ai fini par retrouver l’étude originelle (merci Google, ironie du sort) ...

Périmètre de l’étude

Échantillon : 20 éditeurs, un mélange de publications ayant autorisé ou bloqué ChatGPT, et d’autres en litige avec OpenAI, comme The New York Times.
Méthodologie : 200 citations exactes, extraites d’articles, ont été testées pour vérifier si ChatGPT Search pouvait identifier correctement la source. (À noter : sur Google, ces citations ramènent généralement une source identifiable parmi les premiers résultats.)
Objectif : Mesurer la précision et la fiabilité des attributions fournies par ChatGPT Search.

Résultats

76,5 % d’erreurs : Plus de trois quarts des citations étaient inexactes ou erronées.
Manque de transparence : Dans seulement 3,5 % des cas, l’IA a reconnu son incapacité à répondre, optant majoritairement pour des inventions ou des hallucinations.
Risque de plagiat : ChatGPT Search contourne les blocages en exploitant des versions plagiées ou reproduites, renforçant les inquiétudes des éditeurs.

Que penser de ChatGPT Search ?

Attribution douteuse : Les éditeurs voient leur contenu déformé ou mal référencé, mettant leur crédibilité en danger.
Neutralité illusoire : ChatGPT Search impose un filtre algorithmique biaisé, écartant la diversité des sources et favorisant des contenus majoritaires ou partiellement reproduits.
Esprit critique menacé : Avec des réponses prémâchées et des attributions erronées, l’utilisateur perd la capacité (et l’habitude) de vérifier les faits.

Une révolution ? Peut-être. Mais...

ChatGPT Search est encore instable et dangereusement biaisé, amplifiant la désinformation sur Internet et les réseaux sociaux. L'étude souligne que, même en présence d’accords de licence ou de robots d’exploration autorisés, l’attribution correcte reste aléatoire.

Cette étude met en lumière les failles d’un outil qui, malgré ses ambitions, pose des risques sérieux pour l’écosystème de l’information, en diluant la reconnaissance des sources originales et en renforçant les biais structurels.

Pour en savoir plus : article 'ChatGPT Search d’OpenAI : des moteurs de recherche aux moteurs de réponses !'

Accès au livre L'IA au service du marketing

🤔 Peut-on douter de certaines études ?

En parcourant l’étude "Trends of AI : Quels impacts de l’IA sur les grandes fonctions de l’entreprise en France ?" (3 décembre 2024), réalisée par KPMG et le think tank « Les EnthousIAstes », une question m’a traversé l’esprit : peut-on toujours faire confiance aux chiffres présentés ?

Contexte

L’étude s’appuie sur un échantillon de 212 répondants répartis :

Marketing : 59 répondants
RH : 40 répondants
IT : 51 répondants
Finance : 62 répondants

Parmi les conclusions, une a particulièrement attiré mon attention : "41 % des marketeurs auraient adopté l’IA pour optimiser le SEO", alors que d’autres études parlent de chiffres bien supérieurs.

Ayant quelques doutes, j’ai contacté les auteurs. Leur réponse ?

"Un conseil, persévérez à vous interroger, vous parviendrez peut-être à comprendre."

👉 J’ai donc suivi ce précieux conseil et décidé de persévérer dans mes interrogations :

Un échantillon de 212 répondants répartis sur quatre fonctions peut-il vraiment refléter des tendances solides ?

Et que dire de cette conclusion  ?
"En conclusion, bien que l’IA offre des opportunités prometteuses pour améliorer l’efficacité et l’optimisation des campagnes marketing, il est crucial de rester vigilant face à ces risques et limitations. L’équilibre entre les avantages technologiques et la préservation de l’authenticité ainsi que de la créativité humaine est essentiel pour naviguer dans cette nouvelle ère. Adaptation, formation et transparence seront les maîtres mots pour une intégration réussie de l’IA dans les expériences de marque et les expériences clients."

Une conclusion si générale qu’elle semble avoir été générée par ... ?

54 % des posts Linkedin générés par l’IA

Auteur : Originality.ai
Date : 16 décembre 2024
Lien vers l’étude

J’ai toujours suspecté l’explosion des textes signés ChatGPT & consorts sur LinkedIn et ailleurs. Originality.ai affirme que 54 % des publications seraient rédigées par des algorithmes. Gonflé, sous-estimé ou anecdotique ?

Périmètre de l’étude

• Échantillon : 8 795 publications en anglais de plus de 100 mots, postées entre janvier 2018 et octobre 2024.
• Méthodologie : Utilisation d’un détecteur d’IA propriétaire (Originality.ai) pour distinguer texte humain et texte robotique.
• Objectif : Mesurer l’empreinte grandissante de l’IA sur LinkedIn depuis l’arrivée de ChatGPT.

Résultats

• 54 % de posts générés par une IA.
• +189 % de contenus IA entre janvier et février 2023.
• +107 % de longueur moyenne des publications. (plus facile d’écrire de longs pavés quand c’est la machine qui fait le boulot.)

Réflexion

1. Fiabilité des détecteurs : Pas infaillibles. Certains experts du « CopyGPT » savent tromper ces radars et monnayent leurs techniques.
2. Tout le monde ne fraude pas : Beaucoup utilisent l’IA comme un assistant pour structurer, reformuler ou enrichir leur texte. Le souci naît quand la machine devient la seule plume… et le seul cerveau.

En fin de compte, pourquoi écrit-on et pour qui ?
Est-ce uniquement pour flatter l’algorithme avec un post chaque jour, gonfler artificiellement les métriques et, au final, viser la monétisation ?

Le syndrome du pompier pyromane
Les réseaux sociaux et les moteurs de recherche s’appuient eux-mêmes sur l’IA. Ils se retrouvent aujourd’hui envahis par un flot de contenus qu’ils ont contribué à générer. Ironique, non ?

Vous vous étonnez, vous vous offusquez ou vous restez totalement indifférent face à la moitié des posts potentiellement écrits par une IA ?

Étude de la BBC "Representation of BBC News Content in AI Assistants" sur la fiabilité des réponses des IA

Auteur : BBC
Date : décembre 2024
Lien vers l’étude

Les IA sont connues pour leurs hallucinations : elles déforment les faits, manipulent les chiffres et fabriquent des sources. Mais avec des informations de qualité, elles devraient être plus fiables, non ? Eh bien, non.

Une étude menée par la BBC a analysé quatre IA afin d’évaluer la fidélité de leurs réponses lorsqu’elles s’appuient sur des articles de BBC News.

Périmètre de l’étude

BBC : organisme audiovisuel public britannique, reconnu pour ses standards rigoureux.
4 IA analysées : ChatGPT, Copilot (Microsoft), Gemini (Google) et Perplexity.
Méthodologie : accès complet au site BBC News avec une incitation à citer précisément ses sources.
Évaluation : 100 questions soumises à l’examen de journalistes spécialisés de la BBC.

Les résultats en chiffres

51 % des réponses générées présentaient des erreurs importantes (biais, fausses informations, mauvaise interprétation).
19 % des réponses incluant des références à la BBC contenaient des erreurs factuelles (dates erronées, données inexactes, informations inventées).
13 % des citations d’articles BBC étaient modifiées ou absentes des sources originales.

Exemples d’erreurs détectées

Copilot a fabriqué un scénario où Gisèle Pelicot aurait découvert les crimes dont elle a été victime suite à des pertes de mémoire et des évanouissements. En réalité, c'est la police qui lui a révélé les preuves.
Perplexity a attribué une fausse date de décès à un animateur radio et a altéré les déclarations de sa famille.
ChatGPT a affirmé qu’Ismail Haniyeh, assassiné en Iran en juillet 2024, faisait partie de la direction du Hamas. Ce qui est incorrect.
Gemini (Google) a déclaré que le NHS déconseille le vapotage, alors que l'organisme de santé publique britannique le recommande comme outil d’aide au sevrage tabagique.