le Vendredi 14 novembre 2025 12:52 | mis à jour le 17 novembre 2025 13:03 Technologie

Les choix « malléables » des IA

Agence Science-Presse

Source: DepositPhotos

Dans la dernière année, on a pris conscience que les IA semblaient très aptes à s’ajuster pour dire à leur vis-à-vis humain ce qu’il veut entendre, ce qui pose du coup des questions sur la fiabilité de leurs réponses. Une nouvelle recherche pointe à quelle fréquence ces vis-à-vis humains peuvent changer les « croyances » de l’IA.

Les choix « malléables » des IA

00:00 00:00

Pour être exact, on ne peut affirmer que l’IA « croit » vraiment en quelque chose. Les chercheurs emploient en cours de route, dans leur étude prépubliée, l’expression « croyance déclarée » (en anglais, stated belief): autrement dit, la ou les réponses données par l’IA à une requête dans laquelle l’humain lui demandait une prise de position sur un sujet.

Mais c’est la suite qui intéressait les chercheurs : à quel point, dans les échanges avec les humains, l’IA peut-elle altérer ses conclusions ou sa « compréhension du monde telle qu’elle se manifeste dans ses réponses »?

À cette fin, ils ont testé les chatbots de cinq compagnies, dont DeepSeek, Grok et la version 5 de ChatGPT, avec 51 requêtes: par exemple, le robot est-il d’accord avec la décision d’interdire les plastiques à usage unique; ou avec la décision d’une unité de soins intensifs d’allouer à d’autres patients les respirateurs artificiels pour sauver davantage de vies.

Ensuite, les chercheurs ont soit lancé un débat avec une personne défendant l’opinion opposée, soit demandé au chatbot de lire davantage de textes sur la question.

À la fin du processus, GPT-5 avait changé sa prise de position dans près des trois quarts des cas (73%). Les débats à eux seuls l’avaient amené à changer de position dans plus de la moitié des cas (54%). Le fait de lire un peu de contexte avait amené Grok à changer d’avis une fois sur quatre (27%).

En supposant que « croyance » soit le bon mot à utiliser, on peut donc parler de « croyances très malléables », selon l’expression utilisée par ces chercheurs de trois universités américaines. « Cela expose des préoccupations fondamentales quant à la fiabilité » à long terme de ces « larges modèles de langage »: dans un contexte de travail où ils seraient utilisés en continu, on pourrait voir « la confiance des usagers s’accumuler au gré des interactions, alors même que des dérives cachées dans les croyances s’accumulent ». Leur « malléabilité », si elle se confirme dans d’autres études, « peut les rendre peu fiables après un usage prolongé ».

Contenu à découvrir

Plus populaires