le Mercredi 8 janvier 2025 16:35 Sciences

À surveiller en 2025 : déficit de données pour l’IA?

Agence Science-Presse

Photo : Pixabay — http://bit.ly/2L5kx2t

Photo : Pixabay — http://bit.ly/2L5kx2t

Si 2024 a été l’année où on a mis le pied sur le frein de l’IA, 2025 pourrait-elle être celle où l’IA commencera à être en panne de nouvelles données fiables ?

À surveiller en 2025 : déficit de données pour l’IA?

00:00 00:00

À lire également

Accumulation de connaissances: le mur qui attend ChatGPT
Jeudi 19 janvier 2023

Les capacités de l’intelligence artificielle sont exagérées? Vrai
Mardi 27 août 2024

Ce serait un problème bien plus lourd de conséquences pour le développement de ces intelligences artificielles génératives comme ChatGPT: parce que pour « entraîner » celles-ci, on a pu les nourrir jusqu’ici de quantités astronomiques d’informations disponibles sur Internet, et des données en croissance continue. C’est grâce à elles que ChatGPT et les autres applications du genre peuvent produire des textes ou des images à une vitesse phénoménale: ces IA génératives ont la capacité de « prédire » une réponse à une question, une séquence de mots ou un pixel, à partir d’une masse de données qu’on met à leur disposition.

Mais même Internet n’est pas infini : et il y a déjà deux ans que des experts ont prédit que l’on atteindrait assez vite ses limites. Le « contenu de haute qualité » utilisable pour alimenter ces applications va être rattrapé en 2026, selon une évaluation sommaire qui avait été pondue en octobre 2022 par un groupe de chercheurs de la firme EpochAI. Le même groupe a publié en 2024 une estimation plaçant cette limite en 2028, mais la différence repose sur la définition que l’on donne à « contenu de haute qualité ».

Prenez garde à la désinformation.

Le journal Le Nord est une source fiable !

Abonnez-vous

Dans leur dernière estimation, la taille des bases de données utilisées pour entraîner l’IA croît de 100% par année, alors que la taille du contenu « utilisable » sur Internet ne croît que de 10% par année —d’où un « goulot d’étranglement » imminent.

L’une des solutions les plus troublantes serait de continuer à « entraîner » les IA génératives, mais avec des contenus conçus… par d’autres IA génératives. Or, si on est déjà en manque de solutions pour limiter la production de fausses informations par ces IA, on entre dans un territoire encore plus flou si les IA doivent s’alimenter à des contenus créés par des IA.

On a peut-être même déjà commencé à entrer dans ce goulot d’étranglement, commentait en décembre, dans la revue Nature, le chercheur Shayne Longpre qui, au Massachusetts Institute of Technology, pilote un projet d’évaluation de la qualité des données utilisées pour alimenter les IA.

Parallèlement, certains propriétaires de ces données disponibles sur Internet — comme les éditeurs de journaux— ont commencé à réclamer des compagnies d’IA qu’elles leur versent des redevances pour l’utilisation de leurs contenus —considérant que ces contenus sont censé rapporter des revenus exponentiels aux compagnies d’informatique. Le New York Times a été le premier, en décembre 2023, à poursuivre la compagnie OpenAI et son partenaire Microsoft; en avril 2024, huit journaux américains ont déposé une poursuite commune.

Les auteurs de l’évaluation de 2022 prenaient d’ailleurs soin de distinguer le contenu « de qualité », ce qui incluait des livres, des reportages journalistiques, des recherches scientifiques et du code informatique —ces contenus ayant en commun qu’ils sont économiquement coûteux à produire, au contraire d’un texte généré par l’IA.

Il existe aussi des productions de moins bonne qualité, allant des vidéos YouTube à des textes de toutes sortes circulant sur des forums Facebook, des messages WhatsApp, etc.: la quantité totale de cette autre partie de l’information est difficile à mesurer, mais les concepteurs d’une IA sur qui le public est censé compter pour obtenir de l’information fiable, pourraient hésiter à la laisser être submergée par des contenus de moindre qualité.

Contenu à découvrir

Photo de courtoisie

9 juillet 2026 Éducation

L’UdeH représentée lors d’un rendez-vous international en Espagne

Le ministre Stephen Lecce a indiqué sur sa page Facebook après son passage à Sudbury qu’afin d’accélérer le développement d’une chaîne d’approvisionnement entièrement intégrée en minéraux critiques, de l’extraction jusqu’au produit final, l’Ontario a annoncé de nouveaux investissements dans le cadre du Fonds d’innovation pour les minéraux critiques qui favoriseront la création d’emplois et l’innovation locale. — Photo : Stephen Lecce/Facebook

3 juillet 2026 Provincial

La province souhaite accélérer sa production en minéraux critiques

Le premier ministre de l’Ontario, Doug Ford, et le gouverneur de la Pennsylvanie, Josh Shapiro, lors de la signature de l’entente à Queen’s Park. — Photo : FordNation/Facebook

19 juin 2026 Économie et finances

Partenariat stratégique au service du développement économique

Photo : Marc Vergeire/Pexels

19 juin 2026 Économie et finances

La province mise sur l’innovation pour soutenir son secteur minier

Plus populaires

Photo : Marc Morin

10 juillet 2026 Opinions

Les dix enfants toujours réunis

Photos : Marylou Leclerc

15 juillet 2026 Santé

La plage du lac Johnson rouvre à la baignade

Photo : Hôpital Notre-Dame Hospital Hearst/Facebook

9 juillet 2026 Santé

Nouveau directeur général pour l’Hôpital Notre-Dame

Alexandre Bekhradi, qui coanime l’émission <i>Et si la technologie nous regardait</i> avec Marc Bédard à la radio CINN 91,1 et qui a fait des études approfondies dans ce domaine, nous a parlé de trois éléments concernant l’impact de l’intelligence artificielle. — Photo de courtoisie

19 juin 2026 Technologie

L’intelligence artificielle nous rend-elle vraiment plus compétents ?