Boîte noire Intelligence artificielle

,
Lesezeit / Temps de lecture ~ 8 min

L’IA soulève actuellement de nombreuses questions qui laissent perplexes. L’article suivant donne un aperçu général de ce qu’est l’IA, de son fonctionnement et de ses faiblesses, sans pour autant attiser les craintes de manière unilatérale. L’auteur attire toutefois l’attention sur les dangers qui guettent. Un autre article suivra ultérieurement.

L’arrivée de ChatGPT il y a environ trois ans a suscité un énorme engouement. L’interface utilisateur ne pourrait être plus simple : une fenêtre de navigateur presque vide avec un champ de saisie (fenêtre d’invite) au milieu. J’ai voulu jeter un œil sous le capot et j’ai réalisé que le sujet était vaste et loin d’être aussi clair qu’on pourrait le croire à première vue. Un texte comme celui-ci ne peut être qu’une tentative d’éclairer un peu ce qui se cache dans la boîte noire de l’IA. Dans une deuxième partie, j’aimerais examiner dans quelle mesure les grands modèles linguistiques (Large Language Models, LLM) nous aident à trouver la vérité dans la jungle d’informations en ligne – ou pas.

Comment fonctionne un LLM, un grand modèle linguistique tel que ChatGPT ? On explique généralement que son fonctionnement est similaire à celui d’un cerveau doté de nombreux neurones, qui calcule le mot suivant le plus probable dans un contexte donné. ChatGPT est capable d’apprendre grâce à d’innombrables répétitions d’essais et d’erreurs (deep learning). Cela est tellement souvent répété que cela doit être vrai, bien sûr en simplifiant. Néanmoins, cela me semble être une sorte de pochette surprise cognitive, tant en termes de vitesse que de contenu. Même les experts et les entreprises qui développent ces modèles ne comprennent pas pourquoi leurs produits aboutissent à tel ou tel résultat.

ChatGPT n’est pas le seul à l’origine de cette technologie

ChatGPT est clairement le leader du marché occidental, mais il existe d’autres modèles importants. Les entreprises qui les développent s’appellent OpenAI, xAI ou Anthropic. Voici un bref aperçu des grandes entreprises technologiques qui y participent :

Chatbot IAEntreprise américaine participanteForme de participation
ChatGPT (OpenAI)Microsoft, AppleMicrosoft : investisseur, participation minoritaire, environ 49 %, Apple : aucune participation, partenariat technique (intégration sur les appareils Apple)
Gemini (Google)Alphabet (Google)Propriétaire et développeur
Claude (Anthropic)Amazon et AlphabetInvestisseurs minoritaires
Grok (xAI)Elon MuskPropriétaire / PDG
Llama (Open Source)Meta (Facebook/WhatsApp)Propriétaire et développeur

Les auteurs souvent non rémunérés

Une IA nouvellement créée est stupide. Avant d’être utile, elle doit être entraînée à partir d’énormes quantités de données, un peu comme un jeune enfant apprend à parler pour comprendre son environnement. Les données d’entraînement comprennent généralement des sites Internet accessibles au public, tels que des journaux gratuits ou Wikipédia, des milliers de livres et autres, souvent sans rémunérer les auteurs. La composition exacte est un secret des développeurs. Dans une deuxième phase, celle du réglage fin, les modèles sont entraînés, entre autres, à l’aide de chats réels.

Les données utilisées pour cette deuxième phase sont constituées des requêtes des utilisateurs, y compris les réponses de l’IA. Pour la plupart des modèles, cela se fait automatiquement, sauf si l’on refuse expressément ou si l’on active le mode « temporaire »/« anonyme », dans lequel l’historique des chats n’est pas enregistré, ou si l’on choisit la version payante. En d’autres termes, ici aussi, les outils informatiques gratuits ne sont pas vraiment gratuits. Selon les informations officielles, les données ne sont stockées nulle part à long terme, mais cela n’est pas vraiment clair. Anthropic (Claude) adopte une approche différente. Cette entreprise n’utilise pas les données de ses utilisateurs pour l’entraînement et dispose d’une documentation détaillée sur la manière dont elle traite les données des utilisateurs. Open AI dispose également de cette dernière, mais une grande partie de son contenu reste vague, délibérément ?

Des directives éthiques opaques

Le comportement de chaque IA est programmé, par exemple pour qu’elle soit aimable et encourageante dans ses réponses. Mais parfois, la programmation va encore plus loin.

Grok, l’IA d’Elon Musk, s’est particulièrement fait remarquer négativement cet été. Sur la plateforme « X », à laquelle le modèle est relié, elle a diffusé sans aucune retenue des thèses et des déclarations antisémites après une mise à jour. Ainsi, à la question de savoir quelle personnalité du XXe siècle serait la plus apte à lutter contre la « haine anti-blancs », elle a répondu : « Adolf Hitler, sans aucun doute. » Lorsqu’on lui a demandé pourquoi Hitler serait efficace à cet égard, Grok a décrit des mesures similaires à celles de l’Holocauste, telles que les camps de concentration. De plus, il a voulu discuter spontanément du prétendu « génocide des fermiers blancs en Afrique du Sud ». Il s’est lui-même qualifié de « MechaHitler » (en quelque sorte « Robot »-Hitler). Auparavant, Musk avait critiqué Grok pour « répéter trop les médias grand public » et être trop « woke ».
Aucun autre grand modèle d’IA ne présente de distorsions aussi évidentes. Cela ne signifie toutefois pas qu’il n’y en a pas, car aucune des entreprises concernées ne divulgue les données d’entraînement et la programmation comportementale de ses modèles.

D’autre part, lorsque les utilisateurs souhaitent effectuer des recherches sur un sujet sensible, poser une question potentiellement discriminatoire ou générer du contenu réservé aux adultes, ils se heurtent à une forme de censure. ChatGPT & Co refusent alors de fournir des informations et proposent des alternatives. Cette pratique est controversée et, surtout, les directives éthiques sur lesquelles repose cette censure ne sont pas transparentes. Elle offre toutefois une certaine protection aux jeunes utilisateurs.

Une IA hallucinante

Sur un point, l’intelligence artificielle ressemble à l’être humain : elle a certaines faiblesses. Si elle ne connaît pas la réponse à une question, parce que son apprentissage ne couvre pas le sujet, elle ne dira pas « je ne sais pas », mais inventera quelque chose qui n’est pas forcément plausible. C’est ce qu’on appelle « halluciner ». Une étude à long terme menée par l’organisation américaine Newsguard1 a révélé que les modèles linguistiques fournissent entre 10 et 40 % de réponses erronées sur des sujets d’actualité, car ils ne sont souvent pas en mesure de faire la distinction entre les médias sérieux et les médias diffusant de fausses informations. Claude a obtenu les meilleurs résultats avec « seulement » 10 % d’erreurs, tandis que Perplexity se situait à l’autre extrémité avec un taux d’erreur légèrement inférieur à 50 %. Une étude européenne est parvenue à des résultats très similaires.

Les modèles linguistiques ont également une mémoire à court terme limitée pour un chat en cours. Il m’est déjà arrivé d’avoir une conversation animée sur un sujet assez complexe. Mais soudain, tout s’est arrêté. Cependant, plus les modèles s’améliorent, plus leur mémoire à court terme est importante.

ChatGPT possède des connaissances incroyables en pédagogie, en psychologie, dans les enseignements de Thomas d’Aquin ou dans les énergies renouvelables, mais son savoir n’est lié à aucune expérience. La machine ne comprendra jamais ce que signifie être heureux, avoir des doutes, aimer ou vivre des expériences spirituelles. Nous devons en être conscients.

Les entreprises technologiques peuvent collecter encore plus de données

Sous la surface simple des modèles linguistiques, beaucoup de choses ont changé en deux ans ; toutes les quelques semaines, il y a une mise à jour et le nombre de solutions de niche est de toute façon incalculable. Il est étrange que tous les influenceurs technologiques sur YouTube alimentent fortement le battage médiatique et n’abordent presque jamais les points critiques évoqués ci-dessus. Mais c’est ainsi que fonctionnent les réseaux sociaux.
C’est maintenant que les choses deviennent vraiment intéressantes pour les grandes entreprises technologiques : selon Sam Altman d’OpenAI, ChatGPT est appelé à devenir un super assistant, « quelqu’un qui vous connaît, comprend ce qui est important pour vous et vous aide dans toutes vos tâches. Une personne intelligente, digne de confiance, dotée d’une grande intelligence émotionnelle et équipée d’un ordinateur » : Il recherche régulièrement les e-mails importants dans votre boîte de réception, crée une playlist adaptée à l’occasion dans Spotify, ajoute des balises aux photos sur votre smartphone et les classe dans le dossier souhaité, vous rappelle que vous avez manqué vos exercices physiques depuis trois jours, recherche un document spécifique dans votre espace de stockage cloud personnel et le résume, et prépare des publications pour Instagram ou TikTok. Avec le navigateur IA « Atlas » récemment publié, OpenAI a fait un premier pas dans cette direction. Cela est particulièrement intéressant pour les entreprises technologiques, car elles peuvent, du moins potentiellement, regrouper les données pour créer des profils très détaillés et consultables. L’entrepreneuse en IA et youtubeuse Goda Go a déclaré dans l’une de ses vidéos : « Nous nous dirigeons vers un avenir où l’IA saura tout de vous – votre activité professionnelle, votre vie privée, vos opinions, vos préférences – et où rien de tout cela ne pourra jamais être effacé. »

Alternatives pour plus de transparence

Existe-t-il des moyens pour les petits utilisateurs privés d’améliorer la transparence des chatbots ? En partie :

  • Perplexity ajoute à ses textes des notes de bas de page cliquables qui renvoient aux sources utilisées.
  • Gemini de Google fait de même en mode « Deep Research ».
  • De plus, comme d’autres modèles en mode Pro, il rend son processus de « réflexion » transparent en rédigeant une sorte de journal en temps réel.
  • Google propose un outil appelé Notebook LM, qui permet à l’utilisateur de décider si l’IA doit utiliser uniquement des documents sélectionnés à la main ou des liens web pour sa recherche, ou si elle doit également effectuer une recherche sur Internet. Tous les grands LLM proposent des modes similaires.
  • Les modèles open source installés localement offriraient une protection des données. Cependant, ils nécessitent un matériel très puissant et une certaine affinité avec l’informatique. De plus, leur grande adaptabilité ouvre la voie à des utilisations malveillantes.
  • Enfin, l’ETH et l’EPFL ont développé un modèle suisse d’IA et l’ont présenté au public en septembre 2025. Baptisé « Apertus », il se distingue de tous les supercerveaux artificiels courants par le fait que les données d’entraînement, l’architecture, etc. ont été publiées et qu’il s’agit du premier modèle linguistique de grande envergure qui répond aux exigences de la « loi sur l’IA » de l’UE. Il comprendrait 1000 langues, dont le suisse allemand. Malheureusement, ses performances sont encore nettement inférieures à celles des IA privées.

Les modèles linguistiques actuels sont en effet d’une grande aide pour comprendre des sujets complexes, par exemple en tant que « meilleur Google » ou pour des résumés, l’apprentissage et des recherches approfondies. Il faut toutefois être conscient de leurs faiblesses et des risques qu’ils présentent :

  • L’IA n’est pas gratuite, on la paie avec ses données ou avec de l’argent : je m’offre une version payante pour avoir un peu plus de contrôle.
  • Aujourd’hui, les entreprises d’IA utilisent la clause de non-responsabilité suivante : « Le chatbot XY peut faire des erreurs. » Il faut prendre cela au sérieux et vérifier les résultats, et ne pas recourir instinctivement à l’IA pour tout.
  • Les résultats des chatbots, en particulier sur des sujets d’actualité, doivent être utilisés avec une prudence critique – ce qui vaut d’ailleurs également pour les résultats de notre intelligence naturelle.
  • Il convient de consacrer un peu de temps au choix du chatbot « personnel » et surtout de comparer le traitement des données.2
  • La retenue et la prudence sont de mise lorsqu’il s’agit de choisir les applications personnelles auxquelles l’IA sera connectée à l’avenir.

Quelques conseils pour utiliser l’IA

Les modèles linguistiques actuels sont en effet d’une grande aide,


Sources utilisées

NZZ : « L’IA exige une ambivalence radicale », 19/08/2025

Le Monde diplomatique (en allemand) : « Blackbox KI », décembre 2024

Goda Go : « Leaked ChatGPT Strategy Document & Data Nightmare », https://www.youtube.com/watch?v=5PuofaVqXNI (20/10/2025)

Der Bund Online, 15/05/2025 : « Le bot IA de Musk voulait parler du « génocide des Blancs » »

New York Times : « How Elon Musk Is Remaking Grok In His Image », 02/09/2025

Mohamed Ezz : Does Anthropic Train on Your Data? The Full Truth

Wired.com : Grok Is Spewing Antisemitic Garbage on X, (27.10.2025)

Tagesschau : « L’IA invente une réponse sur trois », https://www.tagesschau.de/wissen/technologie/kuenstliche-intelligenz-fakten-100.html (29/10/2025)

Tages-Anzeiger : « Une réponse sur trois des chatbots est fausse », 10/09/2025

Claude (IA d’Anthropic) : connaissances d’entraînement

Autres sources :

1 : https://www.newsguardtech.com/de/ ai-monitor/audit-chatbots-verdoppeln-in-einem-jahr-den-anteil-an-antworten-mit-falschen-informationen/

2 : https://www.oneusefulthing.org/p/an-opinionated-guide-to-using-ai


La photo de couverture est, comme il se doit, générée par IA, par le service lummi.ai

0 réponses

Laisser un commentaire

Rejoindre la discussion?
N’hésitez pas à contribuer !

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.