Votre panier est actuellement vide !
Une boîte noire

Carte d’ARPANET le 25 août 1983, BBN Technologies
Dès le début du 20è siècle, bien avant l’informatique, le principe du partage des sources (ou en l’occurrence des designs) était en usage dans certaines industries, notamment l’industrie automobile aux États-Unis, qui partageait nombre de brevets sans échange d’argent ni poursuite judiciaire via une association dédiée1, ce qui a permis à la fois une amélioration plus rapide et une standardisation des techniques, au contraire d’un système de mise en concurrence et de secret industriel.
Avec l’informatique, dès les années 1950, IBM a partagé le code source de ses systèmes d’exploitation et d’autres programmes. Dans les années 1960, les développeurs d’ARPANET2 ont utilisé des « Requests For Comments » (RFC, « demandes de commentaires ») ouvertes, c’est à dire des documents de spécification décrivant les protocoles du réseau, librement accessibles, qui ont mené à la naissance d’internet tel que nous le connaissons, en 1969. Rapidement, internet a pu servir à partager le code source, notamment du système d’exploitation BSD3, puis de Linux.
Avoir simplement accès à un logiciel ne permet pas d’en étudier son fonctionnement ni de le modifier : la majorité des logiciels complexes sont compilés4 et leur code source n’est pas accessible si l’éditeur n’y donne pas accès en parallèle des applications. C’est en rendant ce code source accessible, en « open source », que de nombreux protocoles, notamment tous ceux utilisés sur internet, ont pu être standardisés ; c’est grâce à l’open source que les applications où la sécurité est cruciale (aussi bien la sécurité des données, des communications, que l’intégrité physique et la sécurité des personnes) peuvent être contrôlées, et régulièrement améliorées, garantissant leur fiabilité, comme par exemple OpenSSL qui sécurise les communications via internet, WordPress, au cœur du fonctionnement de nombreux sites internet5, ou encore le système d’exploitation Linux, mais aussi des langages de programmation très courants tels que Python et PHP. Même dans des domaines moins critiques, le partage de code et les contributions permettent à la fois une meilleure interopérabilité et une meilleure amélioration des outils. On peut par exemple citer les navigateurs internet Chrome et Firefox, le logiciel d’image de synthèse Blender, ou encore dans le domaine de la production audiovisuelle le format OpenEXR, format standard de données d’image, OpenColorIO, outil standard de gestion des couleurs, etc. Le slogan des défenseurs de l’Open Source, « Des millions d’esprits ouverts ne peuvent pas se tromper », en résume bien le principal intérêt, à opposer au nombre limité d’ingénieurs employés par des entreprises éditrices de logiciels.
La question de l’accès aux sources se pose donc aussi dans le domaine de l’intelligence artificielle, en particulier vu l’importance critique de contrôler son usage dans de nombreux domaines tels que la santé, la sécurité dans tous les sens du terme, l’information et les médias, le respect du droit d’auteur… L’accès aux rouages internes des outils, qu’ils soient qualifiés d’I.A. ou non est primordial pour en contrôler l’intégrité.
Il faut toutefois bien comprendre que dans le cas des I.A. statistiques, l’accès au simple code source de l’I.A., qui décrit la conception et le fonctionnement des réseaux de neurones artificiels ne suffit pas ; en effet, ce sont les données d’apprentissage qui définissent les paramètres de ces réseaux et leur comportement. Ainsi, une I.A. ne pourrait être qualifiée d’ouverte que si ces trois aspects, code, données d’apprentissage et paramètres sont tous disponibles. Il suffit qu’un seul soit manquant pour qu’on ne soit pas en mesure d’analyser le fonctionnement de l’I.A. correspondante.
Il est facile de comprendre en quoi l’accès au code source, la conception des réseaux de neurones, est indispensable : sans lui il est impossible de savoir ce que fait l’I.A. de ses paramètres et quel sera son résultat.
Sans accès aux paramètres, qu’on voit souvent appelé un peu abusivement le « modèle« 6, il est impossible de reproduire le comportement et l’usage de l’I.A. ni de l’étudier correctement. Dans le cas des très grandes I.A., même en ayant accès aux données d’apprentissage, il peut ne pas être possible de retrouver les paramètres sans avoir accès à de grands serveurs de calcul pour reproduire l’entraînement nécessaire à la définition des paramètres. Il est tout à fait possible sur les plus petits réseaux de neurones de déduire des règles, des algorithmes, qui en émergent, à commencer par la plus simple des I.A., celle composée d’un seul perceptron, sans réseau, comme nous la décrivons juste après. Dans le cas des plus grandes I.A., le nombre de paramètres et la complexité des réseaux de neurones fait qu’on ne sait pas encore effectuer d’analyse de ces paramètres, mais leur étude est un champ de recherche en développement ; quoiqu’il en soit, sans accès aux paramètres résultant de l’apprentissage, ce champ de recherche ne peut rien.
L’accès aux données d’entraînement, enfin, est primordial, mais aussi le plus problématique. Il faut bien comprendre que ce sont non seulement ces données en elles-mêmes, mais aussi et surtout la manière dont elles sont traitées et classées qui vont définir le comportement des I.A., et que c’est dans ce traitement des données que peuvent être introduits, volontairement ou non, de nombreux biais. Prenons un exemple simple : on peut, grâce à un unique perceptron, un neurone seul, sans réseau, créer une intelligence artificielle capable de reconnaître une couleur, par exemple du rouge7. Pour y parvenir, on commence par entraîner le perceptron avec un ensemble de couleurs toutes différentes, en lui indiquant pour chacune si elle est rouge ou non ; ces couleurs définies sont nos données d’entraînement. À ce moment là, nous pourrions débattre sur certaines couleurs ; classer une couleur, qui serait à mi chemin entre rouge et violet, et la définir comme rouge ou non, est une opération subjective qui peut être discutée. À ce moment là, soit nous adoptons une définition large et nous incluons comme rouge certains pourpres et roses, soit nous sommes plus restrictifs et n’incluons que ce qui ne fait pas débat. Dans tous les cas, le perceptron entraîné qu’on utilisera pour classer automatiquement des couleurs arbitraires aura un comportement correspondant à nos choix d’apprentissage et sera lui même plus ou moins tolérant, considérant les rouges-orangés, violacés, ou roses, comme rouges ou non. C’est là un exemple extrêmement simple et facile à reproduire, mais les mêmes questions se posent pour l’entraînement de toutes les I.A. statistiques et les conséquences peuvent être importantes et graves. Toutes ces I.A. sont entraînées avec des données qui ont été classés par des humains, et reproduisent tous les biais, toutes les erreurs potentielles, toutes les incompréhensions et préjugés de ces humains. Il ne s’agit pas seulement de biais dans les données elles-mêmes mais aussi des biais dans les classements qui sont faits de ces données, via des opérations manuelles et humaines. Que ce soit par exemple dans le cas de robots conversationnels qui auraient des biais culturels voire racistes ou misogynes, ou encore dans le cas d’outils de diagnostiques médicaux, il y a toute une échelle de dangerosité à l’usage de ces I.A. statistiques toujours plus ou moins biaisées, allant des problèmes les plus anodins aux plus graves, qu’on ne peut contrôler et analyser correctement qu’en ayant accès aux données d’entraînement. Ce n’est sans doute pas un hasard que les développeurs des grandes I.A. ne laissent aucun accès aux données d’entraînement, même quand ils se disent ouverts voire open source.
Le problème des I.A. surdimensionnées comme celles développées notamment par des entreprises comme OpenAI, xAI, Microsoft, Google, etc. réside en grande partie justement dans leur démesure. De tels programmes informatiques aussi gourmands en ressources (autant en données qu’en énergie, en eau qu’en composants informatiques) ne peuvent être développés et maintenus que par des entreprises tout aussi démesurées, et non par une communauté d’enthousiastes, aussi vaste soit-elle, comme pour tout projet open source habituel où tout réside « juste » dans du code. Nous dépendons donc du bon vouloir de ces entreprises pour l’accès au code source, aux données d’entraînement, aux paramètres de leurs I.A… OpenAI par exemple n’a d’ouvert que le nom : après avoir ouvert l’accès au sources de son modèle GPT, elle l’a fermé pour la quatrième version ; l’accès aux données d’entraînement n’a, lui, jamais été ouvert. Quand bien même nous aurions accès à ces données d’entraînement, la quantité incommensurable de données à traiter rendrait très relative la possibilité de les analyser ; mais cet accès mettrait aussi au jour l’illégalité très probable, pour ne pas dire certaine8, d’une grande partie de la collecte de ces données, ratissées à l’insu des auteurs et titulaires des droits d’usage, de reproduction et de diffusion. La provenance même des données d’apprentissage peut en rendre leur libre accès problématique : qui voudrait voir les données médicales de milliers, voire de millions, de gens rendues publiques ?
L’I.A. statistique, par sa conception et l’usage qu’on en fait, est un défi pour le mouvement open source et l’ouverture, l’accès aux données, à la compréhension de son fonctionnement. Le domaine de l’informatique est pourtant capable d’aller même au delà de l’idée d’open source, avec le principe des licences libres pour les logiciels. Ces licences garantissent la liberté des utilisateurs des logiciels, en leur permettant de faire ce qu’ils souhaitent avec, mais aussi de les modifier, de les partager, et de partager leurs modifications. Ce qui semble évident dans la vie réelle, par exemple quand on achète un vélo qu’on peut utiliser à sa guise, réparer et modifier soi même, partager, et reproduire nos modifications sur d’autres vélos, doit être défendu dans la vie numérique par ces licences libres, spécifiques, et, hormis quelques exemples importants comme Firefox, Linux, LibreOffice, Blender, paradoxalement assez peu répandues face aux éditeurs de logiciels géants tels que Microsoft, Apple, Adobe, Autodesk… qui sont aussi pour la plupart des acteurs majeurs de l’intelligence artificielle. Les licences libres garantissent la liberté, l’émancipation des utilisateurs, mais aussi leur accès à la connaissance, via l’étude possible de leurs propres outils, dans un mouvement auquel s’oppose frontalement la tendance des grands éditeurs à distribuer les logiciels comme des services fermés et loués, autant que possible hébergés sur leurs propres serveurs ; tendance dans laquelle les grandes I.A. statistiques s’inscrivent largement.
Cette fermeture fait de ces grandes I.A. statistiques des boîtes noires techniquement impénétrables et pose un problème démocratique, n’étant contrôlées que par des entreprises privées très, trop puissantes, dont il n’est plus à prouver qu’elles n’hésitent parfois pas à enfreindre les lois et à s’opposer frontalement aux états ; sans contrôle public, l’histoire de Twitter, devenu X, et complètement transformé suite à un rachat par une unique personne à même d’imposer autoritairement sa volonté, nous montre le danger de laisser un tel pouvoir à ces grandes entreprises, à les laisser seules maîtresses et gardiennes des I.A. les plus grandes et donc potentiellement les plus dangereuses aussi bien pour la société, l’économie, la politique, et l’environnement que la connaissance, le savoir, la philosophie et la pensée en général.
Ces I.A. sont aussi des boîtes noires philosophiquement impénétrables. Tout en remplaçant nos raisonnements, nos cheminements logiques, nos connaissances, par la force brute d’analyses statistiques automatiques, leur manque d’ouverture nous maintien dans l’incapacité technique, et leur démesure dans l’incapacité intellectuelle, d’en comprendre le fonctionnement et les résultats.
La méthode statistique nous prive du besoin de raisonner et de concevoir de nouveaux algorithmes et fonctions logiques, et par leur opacité nous prive de la possibilité de les découvrir a posteriori. Imaginons qu’une civilisation extra-terrestre technologiquement très avancée mais bienveillante atteigne la terre et prenne contact avec nous. Toute l’élite scientifique terrienne meurt d’impatience à l’idée de découvrir la science qui a permis à une telle espèce de traverser la galaxie pour venir à notre rencontre. Mais après les premiers échanges, on découvre que cette espèce use presque exclusivement d’une grande intelligence artificielle statistique pour concevoir leurs prouesses technologiques. Le système de propulsion de leurs vaisseaux spatiaux ? Ils n’ont aucune idée de son fonctionnement et ont juste suivi les instructions de fabrication et réglages donnés par l’I.A. Leur mise en hibernation pendant le voyage ? Ils ont fait confiance à leur I.A. pour les maintenir en vie et n’ont aucune idée de ce qui a pu se dérouler pendant ce temps là. Voici ce qu’ils nous disent :
Nous sommes arrivés, le but est atteint. Nous ne nous soucions pas du pourquoi ni du comment, nous déléguons ces réflexions difficiles à notre machine-outil artificiellement intelligente.
C’est un choix. Pourrait-il être humain ?
- En partie sous l’impulsion de Henry Ford ; en 1940, 92 brevets Ford et 515 d’autres constructeurs étaient ainsi partagés. ↩︎
- Qui deviendra internet quelques années plus tard. ↩︎
- Berkeley Software Distribution, un système pionnier basé sur Unix auquel il a beaucoup contribué, qui lui même servira plus tard de base à de nombreux systèmes importants tels que FreeBSD, Linux et macOS. ↩︎
- C’est à dire que leur code source, compréhensible par l’humain, celui dans lequel le programme est conçu à l’origine, n’est pas accessible ; pour des raisons techniques et de performance, le programme final, compilé, est seulement accessible dans son langage de bas niveau, le langage d’assemblage ou le langage machine, qui ne permet pas d’en effectuer une analyse détaillée. ↩︎
- Notons aussi que les bases de données les plus utilisées sont aussi open source : MySQL, PostgreSQL, MariaDB, SQLite, ainsi que les serveurs comme Apache ou nginx… ↩︎
- Dans le sens de « résultat de l’entraînement ». Mais ce ne sont pas à proprement parlé des modèles dans le sens où étant le « simple » résultat d’un entraînement statistique, ils n’ont pas donné lieu à une modélisation en bonne forme, analytique, via des règles, et que donc personne n’y comprend rien. ↩︎
- C’est un bon exercice pour codeur débutant, afin de découvrir les concepts de base utilisés par l’intelligence artificielle statistique. ↩︎
- Un article de The Wire montre comment Meta aurait entraîné son intelligence artificielle en utilisant une grande base de donnée de livres piratés ; l’affaire est révélée grâce à la mise à disposition de documents internes de l’entreprise lors de procès concernant les droits d’auteur.
Selon une enquête du New York Times (relayée ici par The Verge), OpenAI, qui manquait de données pour entraîner GPT-4 en fin d’année 2021, aurait envisagé concrètement la possibilité de « transcrire des podcasts, des livres audio et des vidéos YouTube » pour poursuivre l’entraînement.
OpenAI aurait alors développé un système de reconnaissance vocale, pour transcrire des milliers d’heures de contenus, une pratique pourtant interdite par les conditions générales de YouTube.
Certains employés de Google auraient eu vent de la collecte, mais ne l’auraient pas dénoncé publiquement puisque Google aurait également utilisé des transcriptions de vidéos provenant de YouTube pour former ses propres modèles d’I.A. ↩︎
Soutenez-nous
Vos dons sont la seule source de revenus permettant à ce contenu d’exister, en complète indépendance, sans pub, sans sponsoring. Merci !
Commentaires
Une réponse à “Une boîte noire”
Texte super riche, merci Duduf!
Laisser un commentaire