À lire également
- Accumulation de connaissances: le mur qui attend ChatGPT
Jeudi 19 janvier 2023
- Les capacités de l’intelligence artificielle sont exagérées? Vrai
Mardi 27 août 2024
Ce serait un problème bien plus lourd de conséquences pour le développement de ces intelligences artificielles génératives comme ChatGPT: parce que pour « entraîner » celles-ci, on a pu les nourrir jusqu’ici de quantités astronomiques d’informations disponibles sur Internet, et des données en croissance continue. C’est grâce à elles que ChatGPT et les autres applications du genre peuvent produire des textes ou des images à une vitesse phénoménale: ces IA génératives ont la capacité de « prédire » une réponse à une question, une séquence de mots ou un pixel, à partir d’une masse de données qu’on met à leur disposition.
Mais même Internet n’est pas infini : et il y a déjà deux ans que des experts ont prédit que l’on atteindrait assez vite ses limites. Le « contenu de haute qualité » utilisable pour alimenter ces applications va être rattrapé en 2026, selon une évaluation sommaire qui avait été pondue en octobre 2022 par un groupe de chercheurs de la firme EpochAI. Le même groupe a publié en 2024 une estimation plaçant cette limite en 2028, mais la différence repose sur la définition que l’on donne à « contenu de haute qualité ».
Prenez garde à la désinformation.
Le journal Le Nord est une source fiable !
Dans leur dernière estimation, la taille des bases de données utilisées pour entraîner l’IA croît de 100% par année, alors que la taille du contenu « utilisable » sur Internet ne croît que de 10% par année —d’où un « goulot d’étranglement » imminent.
L’une des solutions les plus troublantes serait de continuer à « entraîner » les IA génératives, mais avec des contenus conçus… par d’autres IA génératives. Or, si on est déjà en manque de solutions pour limiter la production de fausses informations par ces IA, on entre dans un territoire encore plus flou si les IA doivent s’alimenter à des contenus créés par des IA.
On a peut-être même déjà commencé à entrer dans ce goulot d’étranglement, commentait en décembre, dans la revue Nature, le chercheur Shayne Longpre qui, au Massachusetts Institute of Technology, pilote un projet d’évaluation de la qualité des données utilisées pour alimenter les IA.
Parallèlement, certains propriétaires de ces données disponibles sur Internet — comme les éditeurs de journaux— ont commencé à réclamer des compagnies d’IA qu’elles leur versent des redevances pour l’utilisation de leurs contenus —considérant que ces contenus sont censé rapporter des revenus exponentiels aux compagnies d’informatique. Le New York Times a été le premier, en décembre 2023, à poursuivre la compagnie OpenAI et son partenaire Microsoft; en avril 2024, huit journaux américains ont déposé une poursuite commune.
Les auteurs de l’évaluation de 2022 prenaient d’ailleurs soin de distinguer le contenu « de qualité », ce qui incluait des livres, des reportages journalistiques, des recherches scientifiques et du code informatique —ces contenus ayant en commun qu’ils sont économiquement coûteux à produire, au contraire d’un texte généré par l’IA.
Il existe aussi des productions de moins bonne qualité, allant des vidéos YouTube à des textes de toutes sortes circulant sur des forums Facebook, des messages WhatsApp, etc.: la quantité totale de cette autre partie de l’information est difficile à mesurer, mais les concepteurs d’une IA sur qui le public est censé compter pour obtenir de l’information fiable, pourraient hésiter à la laisser être submergée par des contenus de moindre qualité.