top of page
Les meilleurs benchmarks et études pour comprendre l’IA

Les meilleurs benchmarks et études pour comprendre l’IA

Entre hallucinations, intelligence générale et posts artificiels : la réalité des IA

Ah, ces fameux chiffres ! On peut facilement leur faire dire tout et son contraire, suivant l’angle de vue qu’on adopte. On pioche souvent dans une étude, un benchmark ou un sondage pour appuyer une hypothèse, plutôt que pour nourrir une véritable réflexion. De mon côté, l’analyse de données me suit depuis toujours—statisticien un jour, statisticien pour la vie. Les IA m’aident aujourd’hui à lever la barrière de la langue, à vulgariser certains concepts ou encore à synthétiser l’essentiel.


Toujours méfiant vis-à-vis de certaines études provenant de cabinets de conseil ou d’autres sources, surtout lorsque les échantillons analysés sont trop petits ou les études déclaratives. Ma méfiance redouble lorsque ces études sont reprises sur Internet ou les réseaux sociaux, souvent de manière incomplète ou biaisée. Le risque devient encore plus grand si l’on utilise des IA pour synthétiser ou rédiger sans vérification—manque de précision et hallucinations garanties.


Voici quelques recherches que j’ai présentées sur LinkedIn, et qui ont aussi alimenté mes réflexions pour mon livre 'L'IA au service du marketing' (Dunod).

ChatGPT o3 égale l’intelligence humaine… sérieux ?

Auteur :  Benchmark ARC-AGI sur ChatGPT o3 par François Chollet
Publiée : 20 décembre 2024
Lien vers le benchmark 


Impossible d’échapper aux gros titres qui annoncent que ChatGPT-o3 égalerait, voire surpasserait (selon certains enthousIAstes de l’IA), l’intelligence humaine. Tout part du fameux benchmark ARC-AGI de François Chollet, qui a accepté de répondre à mes questions. On crie déjà au bond révolutionnaire, mais est-ce vraiment le cas ?

C’est quoi ARC ?

  • • Benchmark : ARC-AGI, conçu par François Chollet, comprend 400 tests visant à évaluer la capacité des IA à raisonner de manière abstraite et à s’adapter à des tâches inédites.

  • • Objectif : Mesurer l’adaptabilité et la généralisation, sans prétendre vérifier une « intelligence générale artificielle » (AGI).

  • • Résultats : Les humains s’en tirent à ~95 % (sans entraînement). Du côté des IA avant o3, GPT-3 culminait à 0 %, GPT-4o à 5 %.

Quelques exemples de tâches : 

Exemple 1 du benchmark ARC-AGI
Défi 1 ChatGPT o3 du benchmark ARC-AGI
Exemple 2 du benchmark ARC-AGI
Défi 2 ChatGPT o3 du benchmark ARC-AGI

Les performances de ChatGPT-o3

  • • 75,7 % de réussite en configuration modérée (6 essais).

  • • 87,5 % en mode intensif (172 fois plus de calcul).

Les limites

  • • Coût exorbitant : En mode « modéré », chaque tâche revient à 20 $. En mode intensif, la facture grimpe à plusieurs milliers de dollars. Un humain fait la même tâche pour environ 5 $, café inclus et sans supplément CO2.

  • • Faiblesses visibles : o3 échoue encore sur des exercices jugés « tres simples » pour un humain.


Bien sûr, OpenAI promet déjà des améliorations sur le rapport coût-performance… avant la prochaine levée de fonds.



L’avis de François Chollet : Test ARC ≠ preuve d’AGI
« ARC-AGI n’a jamais été pensé comme un test décisif pour l’AGI, nous le répétons depuis des mois. »
« Le prochain benchmark, ARC-AGI-2, restera un gros défi pour o3. Son score pourrait tomber sous les 30 %, même avec une puissance de calcul élevée (alors qu’un humain reste autour de 95 %). »
« o3 représente une avancée majeure, démontrant une réelle progression en matière d’adaptabilité et de généralisation. »
« On ignore encore si o3 peut se déployer à grande échelle à court terme. Son coût et sa latence des réponses posent question. »



Mon point de vue

  1. 1. Promesse limitée : ChatGPT-o3 franchit un palier en générant et évaluant des chaînes de raisonnement. Mais il reste dépendant des données humaines et n’acquiert pas ces compétences de manière autonome. L’horizon d’une intelligence générale reste lointain.

  2. 2. Prochaine étape :

  3. - Une version ultra allégée de o3 ou l’arrivée très attendue de ChatGPT 5.
    - De nouveaux benchmarks, tels que SimpleQA d’OpenAI, visant à évaluer plus finement hallucinations et erreurs (pour l’instant, le record n’est qu’à 47 % de bonnes réponses pour OpenAI o1).


Et vous, pensez-vous surpasser o3… pour moins cher ?

Plus de 50 % d’erreurs pour ChatGPT et Claude 

Auteur : OpenAI, benchmark SimpleQA
Publiée : 24 novembre 2024
Lien vers le benchmark

OpenAI a publié les résultats de son propre benchmark, SimpleQA et les chiffres sont hallucinants !

Périmètre du benchmark

  • • Échantillon : 4 326 questions factuelles dans des domaines variés (science, histoire, sport, géographie…). Exemple : « Quel joueur néerlandais a marqué un but en jeu ouvert lors du match Pays-Bas-Argentine 2022 de la Coupe du Monde masculine de la FIFA ?»

  • • Méthodologie : Chaque modèle (GPT-4o, GPT-4o preview, Claude 3.5, etc.) devait fournir des réponses correctes, cohérentes et sourcées.

  • • Critères d’évaluation :
    Correct : Réponse exacte et validée.

  • Incorrect : Réponse fausse ou incohérente.

  • Non tenté : Le modèle renonce à répondre s’il ne peut fournir une information fiable.


Résultats : Pourcentage de réponses justes parmi celles tentées :

  1. 1. OpenAI o1-preview : 47 % (le « moins mauvais »).

  2. 2. Claude 3.5 Sonnet : 44,5 %.

  3. 3. GPT-4o : 38 %.

  4. 4. ChatGPT 4.0 mini : 8,6 %.


On peut trouver au mieux, un verre à moitié plein de bonnes réponses ; au pire, à moitié vide… d’erreurs.

Réflexions

  1. 1. Une erreur reste une erreur : Ces « hallucinations » sont souvent qualifiées de « visions » par les IA elles-mêmes. Mais appelons un chat un chat : ce sont simplement des réponses fausses.

  2. 2. Des erreurs plus subtiles : Les pièges grossiers de type « Où enterrer les survivants ? » sont moins fréquents, mais les IA produisent parfois des réponses faussement crédibles, invisibles à moins d’avoir l’expertise humaine.

  3. 3. Vont-elles diminuer ? : Les modèles s’entraînent de plus en plus sur leurs propres contenus, créant un cercle vicieux d’erreurs qui se perpétuent.


Grave ou pas ?

  • Oui, car cela alimente la désinformation et facilite la production en masse de contenus hasardeux. On obtient un tsunami de fake news et un risque accru de perte de crédibilité.

  • Non, parce que cela nous pousse à garder l’œil critique. Copier-coller sans réfléchir, IA ou pas, n’a jamais été bonne idée.


Vous êtes surpris, inquiet, ou finalement peu concerné tant que ça fait plaisir aux algorithmes de Google & co ?

Pour en savoir plus :
article 'Les hallucinations de ChatGPT (ou du ChAIshire)'

ChatGPT Search : 76,5 % d’erreurs sur les sources 

Auteur : Columbia Journalism Review

Date : 27 novembre 2024

Lien vers l’étude 


Fin octobre 2024, OpenAI a présenté ChatGPT Search, censé révolutionner l’accès à l’information et, peut-être, supplanter Google. Fini le moteur de recherche classique, place au moteur de réponse.
 

Plusieurs articles mentionnent une enquête du Columbia Journalism Review, souvent sans citer la source. J’ai fini par retrouver l’étude originelle (merci Google, ironie du sort) ...
 

Périmètre de l’étude

  • Échantillon : 20 éditeurs, un mélange de publications ayant autorisé ou bloqué ChatGPT, et d’autres en litige avec OpenAI, comme The New York Times.

  • Méthodologie : 200 citations exactes, extraites d’articles, ont été testées pour vérifier si ChatGPT Search pouvait identifier correctement la source. (À noter : sur Google, ces citations ramènent généralement une source identifiable parmi les premiers résultats.)

  • Objectif : Mesurer la précision et la fiabilité des attributions fournies par ChatGPT Search.
     

Résultats

  • 76,5 % d’erreurs : Plus de trois quarts des citations étaient inexactes ou erronées.

  • Manque de transparence : Dans seulement 3,5 % des cas, l’IA a reconnu son incapacité à répondre, optant majoritairement pour des inventions ou des hallucinations.

  • Risque de plagiat : ChatGPT Search contourne les blocages en exploitant des versions plagiées ou reproduites, renforçant les inquiétudes des éditeurs.
     

Que penser de ChatGPT Search ?

  1. Attribution douteuse : Les éditeurs voient leur contenu déformé ou mal référencé, mettant leur crédibilité en danger.

  2. Neutralité illusoire : ChatGPT Search impose un filtre algorithmique biaisé, écartant la diversité des sources et favorisant des contenus majoritaires ou partiellement reproduits.

  3. Esprit critique menacé : Avec des réponses prémâchées et des attributions erronées, l’utilisateur perd la capacité (et l’habitude) de vérifier les faits.
     

Une révolution ? Peut-être. Mais...

ChatGPT Search est encore instable et dangereusement biaisé, amplifiant la désinformation sur Internet et les réseaux sociaux. L'étude souligne que, même en présence d’accords de licence ou de robots d’exploration autorisés, l’attribution correcte reste aléatoire.
 

Cette étude met en lumière les failles d’un outil qui, malgré ses ambitions, pose des risques sérieux pour l’écosystème de l’information, en diluant la reconnaissance des sources originales et en renforçant les biais structurels.

Pour en savoir plus : article 'ChatGPT Search d’OpenAI : des moteurs de recherche aux moteurs de réponses !'

Tout savoir sur le livre L'IA au service du marketing

🤔 Peut-on douter de certaines études ?

En parcourant l’étude "Trends of AI : Quels impacts de l’IA sur les grandes fonctions de l’entreprise en France ?" (3 décembre 2024), réalisée par KPMG et le think tank « Les EnthousIAstes », une question m’a traversé l’esprit : peut-on toujours faire confiance aux chiffres présentés ?
 

Contexte 

L’étude s’appuie sur un échantillon de 212 répondants répartis :

  • Marketing : 59 répondants

  • RH : 40 répondants

  • IT : 51 répondants

  • Finance : 62 répondants


Parmi les conclusions, une a particulièrement attiré mon attention : "41 % des marketeurs auraient adopté l’IA pour optimiser le SEO", alors que d’autres études parlent de chiffres bien supérieurs.

Ayant quelques doutes, j’ai contacté les auteurs. Leur réponse ?

"Un conseil, persévérez à vous interroger, vous parviendrez peut-être à comprendre."


👉 J’ai donc suivi ce précieux conseil et décidé de persévérer dans mes interrogations :

Un échantillon de 212 répondants répartis sur quatre fonctions peut-il vraiment refléter des tendances solides ?
 

Et que dire de cette conclusion  ?
"En conclusion, bien que l’IA offre des opportunités prometteuses pour améliorer l’efficacité et l’optimisation des campagnes marketing, il est crucial de rester vigilant face à ces risques et limitations. L’équilibre entre les avantages technologiques et la préservation de l’authenticité ainsi que de la créativité humaine est essentiel pour naviguer dans cette nouvelle ère. Adaptation, formation et transparence seront les maîtres mots pour une intégration réussie de l’IA dans les expériences de marque et les expériences clients."
 

Une conclusion si générale qu’elle semble avoir été générée par ... ?

54 % des posts Linkedin générés par l’IA

Auteur : Originality.ai
Date : 16 décembre 2024
Lien vers l’étude

J’ai toujours suspecté l’explosion des textes signés ChatGPT & consorts sur LinkedIn et ailleurs. Originality.ai affirme que 54 % des publications seraient rédigées par des algorithmes. Gonflé, sous-estimé ou anecdotique ?

Périmètre de l’étude

  • • Échantillon : 8 795 publications en anglais de plus de 100 mots, postées entre janvier 2018 et octobre 2024.

  • • Méthodologie : Utilisation d’un détecteur d’IA propriétaire (Originality.ai) pour distinguer texte humain et texte robotique.

  • • Objectif : Mesurer l’empreinte grandissante de l’IA sur LinkedIn depuis l’arrivée de ChatGPT.


Résultats

  • • 54 % de posts générés par une IA.

  • • +189 % de contenus IA entre janvier et février 2023.

  • • +107 % de longueur moyenne des publications. (plus facile d’écrire de longs pavés quand c’est la machine qui fait le boulot.)


Réflexion

  1. 1.    Fiabilité des détecteurs : Pas infaillibles. Certains experts du « CopyGPT » savent tromper ces radars et monnayent leurs techniques.

  2. 2.    Tout le monde ne fraude pas : Beaucoup utilisent l’IA comme un assistant pour structurer, reformuler ou enrichir leur texte. Le souci naît quand la machine devient la seule plume… et le seul cerveau.


En fin de compte, pourquoi écrit-on et pour qui ?
Est-ce uniquement pour flatter l’algorithme avec un post chaque jour, gonfler artificiellement les métriques et, au final, viser la monétisation ?

Le syndrome du pompier pyromane
Les réseaux sociaux et les moteurs de recherche s’appuient eux-mêmes sur l’IA. Ils se retrouvent aujourd’hui envahis par un flot de contenus qu’ils ont contribué à générer. Ironique, non ?

Vous vous étonnez, vous vous offusquez ou vous restez totalement indifférent face à la moitié des posts potentiellement écrits par une IA ?

Benchmarks et études sur les IA : entre prudence et esprit critique

Benchmarks et études sur les IA : entre prudence et esprit critique

Les études et benchmarks sur l’IA fascinent autant qu’elles intriguent. Elles promettent des avancées spectaculaires, mais s’accompagnent souvent de biais, de limitations méthodologiques ou, pire encore, de conclusions trop générales pour réellement guider une stratégie. Ce que l’on peut retenir ? Une étude, même rigoureuse, ne doit jamais être prise comme une vérité absolue, mais comme un point de départ pour la réflexion.

Les IA elles-mêmes, souvent impliquées dans la création ou la synthèse de ces études, ajoutent une couche supplémentaire d’incertitude. Si elles permettent de traiter rapidement de vastes quantités de données, elles ne remplacent ni l’esprit critique ni le discernement humain.

Alors, la prochaine fois que vous tomberez sur des chiffres impressionnants vantant les mérites de l’IA, posez-vous cette question simple : "Ces chiffres sont-ils fiables et servent-ils à éclairer un débat ou à conforter une idée préconçue ?" Peut-être que, comme moi, vous finirez par persévérer… et par mieux comprendre.

🎯 Envie d’aller plus loin ?

Accès à l'article :  Comment créer et paramétrer un GPT avec ChatGPT
 ChatGPT Search d’OpenAI : des moteurs de recherche aux moteurs de réponses !
accès au guide : Comment bien prompter pour être efficace avec ChatGPT & co

Créé le 10 janvier 2025  – Dernière mise à jour : 11 janvier 2025

bottom of page