Le podcast hélicoïdal

Des méthodes de développement brutales et stupides

Une vue futuriste d'une circulation aérienne à Paris à la sortie de l'opéra. Différents types de véhicules aériens sont représentés comme des bus et des limousines, la police patrouillant le ciel et des femmes conduisant leur propre véhicule. lithographie coloriée à la main.

Sortie de l’opéra en l’an 2000, Albert Robida, vers 1902

C’est grâce à l’amélioration des puissances de calculs1 qu’a été découvert en 2022 un phénomène appelé grokking2, où une IA générative devient subitement plus efficace si on l’entraine successivement lors de plusieurs dizaines de milliers de séances identiques, de même durée, utilisant les mêmes données et le même algorithme. Ce phénomène encore inexpliqué3 illustre bien une exploration de l’IA « par la force ».

Le mot Grokking vient de Grok4, un néologisme inventé par l’auteur de science-fiction Robert A. Heinlein en 1961, qui signifie « comprendre intuitivement ou par empathie », dans son roman satirique En terre étrangère5. Le terme est très utilisé dans le monde anglophone, suite au succès du roman, en particulier dans le domaine informatique ; il est devenu le nom du robot conversationnel sorti en 2023 de l’entreprise d’intelligence artificielle d’Elon Musk, xAI. C’est un des nombreux exemples qui montre que puiser son inspiration dans la science-fiction n’est pas un fait nouveau pour les entreprises de la tech, en particulier étasuniennes.

Avec la découverte de ce phénomène de grokking, mais aussi grâce à des moyens techniques et financiers hors-normes, les plus grandes entreprises développant des intelligences artificielles et faisant appel à l’apprentissage profond, usent surtout de méthodes de développement brutales : agrandir les modèles, augmenter la puissance de calcul, augmenter la quantité de données d’entrainement, jusqu’à épuiser ces données, et ne plus pouvoir cacher l’impact environnemental désastreux de leurs centres de calcul et de stockage. Le développement des I.A. dans ce sens n’est d’ailleurs qu’une étape supplémentaire dans le chemin vers la croissance imposé par l’économie capitaliste, toujours pilotée par la nécessité de produire plus pour vendre plus ; les I.A. statistiques géantes sont de bons moyens de proposer de nouveaux services à la vente (dont l’utilité réelle n’est que secondaire, le but étant bien « d’ouvrir de nouveaux marchés » plus que de répondre à un quelconque besoin), tout en bénéficiant du soutien aussi bien des marchés que des politiques, générant un besoin matériel, en immobilier, en composants, en matières premières, permettant d’alimenter la croissance si indispensable au système.

Un symptôme de cette course à la puissance, à la taille, est visible dans le fait que l’on ne sait même plus quelle est la limite inférieure en taille d’un modèle de langage, quelle est sa taille nécessaire et suffisante pour être performant. Autrement dit, les modèles ont tellement grossi que c’est aujourd’hui un sujet de recherche de savoir quelle pourrait être leur taille minimale, plutôt que maximale.

En 2023 par exemple, des chercheurs chez Microsoft se sont posés cette question, « jusqu’où les modèles de langage peuvent-ils être réduits tout en continuant de parler un anglais cohérent ?6« , et ont essayé de créer le plus petit modèle de langage possible parlant correctement anglais. Ils sont partis de l’idée que les contes pour enfants feraient une ressource idéale comme données d’entrainement : le vocabulaire est limité, mais les règles de grammaires sont respectées et les formulations sont justes, dans des textes brefs. Le problème étant de trouver suffisamment de contes pour pouvoir entrainer leur modèle « réduit » ; on parle en effet ici de modèles nécessitant tout de même des millions de textes d’entrainement ; tout en restant des milliers de fois plus petits que les ensembles de données utilisés par les grands modèles comme GPT, aucun ensemble de données existant ne contient autant de courts textes pour enfants. Les deux auteurs de l’article ont donc décidé de générer ces millions de textes, en utilisant… GPT ! Et quand il a fallu évaluer les performances de leurs « petits » modèles, ils ont encore utilisé GPT pour évaluer les résultats, leur donner un score. Le résultat de cette étude permet de dire qu’il faut un minimum de 28 millions de paramètres7 pour générer la fin d’un court texte pour enfants de manière cohérente en anglais. Mais qu’a-t-on appris du fonctionnement de l’IA ? Qu’a-t-on appris du fonctionnement de l’anglais et du lien entre la langue et les réseaux de neurones ? Dans la démarche même de cette « recherche », usant de l’I.A. aussi bien pour générer le sujet de l’étude qu’en analyser les résultats, on voit comment on peut, par une espèce de fainéantise intellectuelle, de facilité technique, passer à côté de véritables sujets de recherche pour se concentrer sur un but purement appliqué, pour arriver au plus vite à une mesure empirique, à l’intérêt scientifique limité, ne répondant à aucun questionnement théorique, bien qu’utile au développement de futurs autres modèles. N’aurait-il pas été plus intéressant, intellectuellement, philosophiquement, de trouver des méthodes analytiques pour générer tous ces textes, aussi bien que pour les analyser, et avoir ainsi la satisfaction de mener une recherche et de créer de petits modèles de langages qui ne nécessitent pas la pré-existence de modèles géants et stupides8 ?

Je pense que quand on fait de la recherche fondamentale, on ne fait pas ça pour avoir des applications. (…)
La récompense, pour le physicien qui fait de la recherche fondamentale, c’est de faire progresser la connaissance ; et ça, évidemment, c’est un plaisir immense.

Alain Aspect9

Cet exemple illustre bien l’ignorance quasiment totale qu’on a du fonctionnement des réseaux de neurones complexes, réduisant l’innovation soit à une quête sans fin de puissance brute, et brutale, soit à des réglages empiriques sans analyse ni théorie. Bien évidemment, ce n’est pas le cas de tous les chercheurs, mais il se trouve que la recherche théorique et analytique, minoritaire, est trop lente face à la débauche de moyens investis dans la progression technique et l’ingénierie, poussée par une vision purement commerciale et capitalistique du développement.

Toutes les intelligences artificielles statistiques ne sont pas nécessairement démesurées, et il n’est pas impossible de voir une évolution dans laquelle la progression de ces outils ne sera plus exclusivement dépendante de la puissance de calcul et de la quantité de données, mais ces besoins resteront de toute façon un paramètre incontournable du développement de ces I.A. Ce qu’elles partagent toutes en revanche, en opposition à l’approche symbolique et rationnelle, est leur place de rempart contre l’accès à la connaissance, à l’analyse, à la compréhension, brillant par leur absence de logique et de raisonnement.

  1. Mais aussi grâce à un changement d’échelle, d’augmentation de consommation énergétique et de matériaux. ↩︎
  2. Generalization Beyond Overfitting on Small Algorithmic Datasets, 6 janvier 2022, arXiv:2201.02177. Article publié par OpenAI. ↩︎
  3. C’est un phénomène comparable à ce que l’on appelle les phénomènes critiques en physique, c’est-à-dire les transitions de phase, quand l’état de la matière (solide, liquide, gazeux…) change soudainement en fonction d’une variable comme la pression ou la température. Lire à ce sujet dans Science et Avenir, juillet/août 2024 : Pourquoi l’IA générative devient-elle efficace d’un coup ? ↩︎
  4. Traduit par « gnoquer » dans l’édition française, par Frank Straschitz. ↩︎
  5. Stranger in a Strange Land en anglais. ↩︎
  6. How Small Can Language Models Be and Still Speak Coherent English, Ronen Eldan, Yuanzhi Li, 24 mai 2023, arXiv:2305.07759 ↩︎
  7. À titre de comparaison, GPT 3.5 contient 200 milliards de paramètres, on estime le nombre de paramètres de GPT 4 à 1,75 trillion ; OpenAI ne donne plus accès à ces données. ↩︎
  8. Les auteurs ont été jusqu’à écrire un petit programme informatique, extrêmement simple, pour générer des listes de mots aléatoires à inclure dans les requêtes données à GPT, et effectuer un grand nombre de ces requêtes automatiquement, tout en évitant que GPT ne se répète trop… Et c’est tout. ↩︎
  9. Alain Aspect, 1947- : physicien français, colauréat du prix Nobel de physique 2022, connu en particulier pour ses travaux sur l’intrication quantique et avoir mené les premiers travaux concluants sur un des paradoxes de la mécanique quantique, le paradoxe Einstein-Podolsky-Rosen (EPR). ↩︎

Soutenez-nous

Vos dons sont la seule source de revenus permettant à ce contenu d’exister, en complète indépendance, sans pub, sans sponsoring. Merci !

Commentaires

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *