Une histoire multiple de l’intelligence artificielle
Dans cet article nous allons aborder l’histoire de l’« intelligence artificielle ».
Même si ce vocable est apparu à une date précise, en 1956, son histoire est bien plus large. En effet, outre l’idée d’un être artificiel doué d’intelligence qui remonte à l’antiquité, ce que nous avons aujourd’hui et que nous appelons « intelligence artificielle » s’inscrit dans une histoire scientifique, technique, sociale, économique et culturelle.
L’idée de l’intelligence artificielle
Les prémisses du vocable se retrouvent dans une série de mythes antiques comme Prométhée, Pygmalion ou encore Talos. D’autres figures vont suivre, comme le golem aux environs du 2ème siècle : un humanoïde fait d’argile créé pour aider ou défendre son créateur d’après le Talmud. Ce mythe est revisité bien plus tard au 19ème siècle avec le Maharal de Prague. Le Chapitre 1 du livret explore plus avant cette thématique et propose de démythologiser ce concept, de comprendre comment il anime et structure notre imaginaire.
La cybernétique
C’est toutefois lors de la seconde guerre mondiale qu’une idée bien plus précise va se former. L’informatique en est à ses débuts, la technique alimente les théories scientifiques qui à leur tour débouche sur de nouvelles applications. Cela transforme petit à petit le regard porté sur l’être humain et en particulier sur ses capacités intellectuelles qui sont alors comparées à des logiciels informatiques. Tout cela se formalise par le mouvement de la cybernétique en 1947. Le mathématicien Norbert Wiener décrit le résultat de conférences rassemblant des scientifiques d’horizons très divers (mathématiciens, anthropologues, économistes, psychologues, etc) portant sur l’étude des mécanismes d’information des systèmes complexes. Il s’agit d’étudier comment l’information caractérise un système.
Par exemple, si nous analysons sous le prisme de l’information la conduite d’une voiture, l’information de départ est le code de la route qui définit toute une sorte de modalité de conduite (limitation de la vitesse, priorité de droite, etc) ainsi que l’infrastructure, les carrefours, les routes et leurs limitations respectives, etc. Lors d’un déplacement un conducteur va recevoir toute une série d’informations : d’autres usagers sur son chemin, des feux verts, rouges oranges, des travaux, un bon ou mauvais état de la route et ainsi de suite. Il va alors en fonction de ces informations adapter sa manière de conduire. Autrement dit, il va transformer sa manière de conduire (initialement dictée par le code de la route et l’infrastructure routière) par les informations pratiques du système. Par sa présence, il va modifier certaines informations du système qui va à son tour modifier sa conduite, c’est-à-dire qu’il a un impact sur la circulation réelle. Cette boucle est appelée un phénomène de rétroaction. Il est donc possible de décrire la dynamique de ce système uniquement par la perspective de l’information. C’est en tout cas l’hypothèse de la cybernétique.
De par cette formalisation, il devient imaginable qu’un être humain puissent être réduit à un être d’information et donc, théoriquement et scientifiquement comparable à un ordinateur. En 1956, John McCarthy propose le vocable « Intelligence artificielle » qui sera défini par son collègue Marvin Minsky comme étant :
Un programme informatique qui est utilisé dans des tâches qui sont effectuées de manière efficace par des êtres humains et qui demandent un haut niveau de processus mentaux comme : l’apprentissage perceptuel, l’organisation de la mémoire et le raisonnement critique.
La cybernétique aura un impact important sur le monde scientifique et permettra l’élaboration des sciences cognitives, des thérapies systémiques, des théories biologiques de l’auto-organisation, et évidemment des sciences autour de l’intelligence artificielle.
L’influence ne sera pas que scientifique ou technique, la cybernétique va également s’infiltrer dans la culture, en particulier avec des termes comme le cyborg, le cyberespace, le cyberpunk et autres mots avec un préfixe cyber.
L’histoire technique et scientifique
L’histoire des techniques est souvent prise par le prisme des usages. Ainsi la voiture électrique succèderait à la voiture thermique, le téléphone portable au téléphone fixe, etc. Même si cela est pertinent, par exemple pour comprendre les impacts culturels (comment les pratiques évoluent), il ne rend pas compte de la réalité technique de ces objets. Par exemple, techniquement, dans son fonctionnement, une voiture électrique est bien plus proche d’une machine à laver que d’une voiture thermique. Il y a donc une claire distinction entre histoire des pratiques humaines et histoire des techniques.
S’intéresser à l’évolution technique permet, entre autres, de comprendre quel contexte économique a été nécessaire pour produire tel ou tel objet, ce qu’il a mobilisé en terme de ressources et d’organisations (logistiques, politiques,…).
Pour exposer cette perspective technique et les enseignements qui lui sont propres, nous allons ici essayer de bien séparer les points de vues.
L’histoire des techniques est rythmée par deux types de progression1.
- La première continue et mineur : elle reflète les petits changements et améliorations d’un objet technique existant (meilleure efficacité d’un moteur, du rendement, etc).
- La deuxième, discontinue et majeur : elle voit l’arrivée de nouveaux objets techniques (l’invention de la machine à vapeur, l’ordinateur, etc) ou une amélioration très forte d’un objet technique existant qui a un impact important sur son fonctionnement (le circuit intégré ou puce électronique en informatique).
De plus, l’invention et l’amélioration d’un objet technique se fait également par des découvertes et maîtrises d’autres objet techniques. Par exemple, les puces électroniques ont pu être inventées grâce à la miniaturisation des composants électroniques. Ce n’est donc pas l’objet technique seul qui doit être considéré, mais tout un écosystème technique pour comprendre leurs évolutions.
Cependant, comme nous l’avons vu, l’intelligence artificielle ne représente pas un objet technique spécifique, mais plutôt une idée. Ce sont en effet des objets techniques complétement différents d’un point de vue technique qui forme son histoire et que nous allons décrire ici.
Les automates
Nous pouvons commencer cette histoire par les automates, ces dispositifs qui permettent de reproduire une séquence d’actions prédéterminées, et ce en toute autonomie. Dès l’Égypte antique, nous retrouvons des statues animées dans le cadre d’événements religieux et vers la fin de cette civilisation, des automates plus avancés comme des corbeaux qui chantent2. La Renaissance voit apparaître un nouvel intérêt pour les automates dans un but de divertissement. En 1744, Jacques de Vaucanson crée un « canard artificiel » qui peut manger, digérer, cancaner et simuler la nage3. Ces automates sont mécaniques. Ce sont donc des ressorts et des engrenages qui sont à l’œuvre dans ses machines. Techniquement nous nous rapprochons plus des horloges mécaniques que des robots actuels ou des programmes informatiques.
L’arrivée de l’informatique
Avec la seconde guerre mondiale arrive les premiers ordinateurs modernes, des machines à calculer électroniques programmable, utilisées pour déchiffrer les communications ennemies. Nous retrouvons deux scientifiques Alan Turing et John von Neumann qui participent tous deux au mouvement de la cybernétique. Fort des nouvelles possibilités techniques, c’est l’exploration d’un nouveau monde qui s’offre aux scientifiques et aux techniciens, penser de nouveaux algorithmes, les tester et les mettre en application.
C’est ainsi que naît en 1951 les Les réseaux de neurones artificiels artificiels, une imitation informatique simplifiée d’un neurone, la cellule à la base de notre système nerveux et de notre cerveau. Ces systèmes à la base du deep learning ou apprentissage profond donneront les grands modèles de langage actuels, les générateurs de textes. Cependant, en pratique, ils seront peu utilisés jusqu’aux années 2000.
Toujours dans la recherche de la reproduction des fonctions cognitives, d’autres algorithmes sont testés. Par exemple en 1966 avec ELIZA, un programme conçu pour converser avec une personne, à l’instar des agents conversationnels actuels. Sa particularité est de simuler un psychotérapeute qui ne fait « que » reformuler les affirmations de son interlocuteur. Le logiciel est très intéressant, mais reste très limité.
Pour cette époque, l’optimisme est à la hauteur de ces nouveaux résultats. Les chercheurs prédisent prochainement un avenir radieux pour l’IA4 :
- En 1958, H. Simon et Allen Newell : « d’ici dix ans un ordinateur sera le champion du monde des échecs » et « d’ici dix ans, un ordinateur découvrira et résoudra un nouveau théorème mathématique majeur ».
- En 1965, H. Simon : « des machines seront capables, d’ici vingt ans, de faire tout travail que l’homme peut faire ».
- En 1967, Marvin Minsky : « dans une génération […] le problème de la création d’une ‘intelligence artificielle’ [sera] en grande partie résolu ».
- En 1970, Marvin Minsky (dans le magazine Life) : « Dans trois à huit ans nous aurons une machine avec l’intelligence générale d’un être humain ordinaire ».
L’effervescence et la fascination expliquent bien entendu cet optimisme, mais pas seulement. La recherche coûte cher et prend du temps, il ne s’agit pas uniquement de se convaincre que la direction des recherches est bonne, mais également de convaincre ceux qui investissent dans celles-ci.
Un premier essoufflement de la recherche se produit pendant les années 1970. Ce n’est pas si simple de faire de l’IA. La technique a ses limites, des contraintes matérielles fortes. Le problème est large et pas très bien défini, l’idée de l’intelligence artificielle se confronte à la matérialité du monde. Les problèmes techniques sont multiples. Pour résoudre des problèmes, l’être humain est confronté à un nombre très important d’informations à traiter. Les relations possibles à faire entre elles sont astronomiques, il faut donc filtrer et synthétiser. Cela demande un stockage et un traitement de l’information, une puissance de calcul bien trop importante pour l’époque. Mais ce n’est pas tout, la logique et les mathématiques ont leurs propres contraintes avec lesquels il faut composer lorsqu’il s’agit de transposer nos fonctions cognitives.
À partir de 1980, les ambitions sont revues à la baisse et la recherche se concentre sur la résolution de tâches beaucoup plus ciblées avec les systèmes experts. Ceux-ci répondent à des questions dans un contexte spécifique, par exemple en médecine pour l’établissement d’un diagnostic de maladies du sang. Ces logiciels sont construits à partir d’une connaissance spécifique et de règles limitées. Ils permettent à partir de données extérieures de déduire un résultat utile, à la prise de décision ou à des recommandations par exemple.
Les résultats de ces nouveaux algorithmes attirent à nouveaux les investisseurs et révolutionnent certains secteurs économiques spécifiques. Mais très rapidement, les limites se font à nouveau sentir et la recherche connait un nouvel essoufflement. En particulier, le besoin de connaissances très larges, de savoirs « généraux » pour résoudre des problèmes.
La fin des années 80 voit également l’arrivée de l’ordinateur personnel qui impacte profondément l’économie informatique. De grosses entreprises font faillites, les techniques et le rapport à l’informatique changent, se spécifient et se concrétisent. L’idée et les promesses de l’IA s’éloignent d’autant plus. Le vocable IA est petit à petit abandonné pour des termes plus spécifiques : robotique, reconnaissance vocales, de formes, exploration de données (data mining), apprentissage machine, etc. À ce moment, ceux qui parlent de l’IA sont plutôt vus comme des rêveurs, et est un repoussoir pour les investisseurs dans la recherche « sérieuse ».
Malgré la déconvenue, les techniques progressent de manière continue. En particulier, la puissance de calcul augmente de manière exponentielle (Loi de Moore). Des choses impossibles dans les années 50 ou 60, deviennent envisageables. De plus, les années 90 voient également la démocratisation d’Internet. Ce nouveau lieu, le cyberespace, va progressivement offrir une nouvelle source de connaissances exploitables par les algorithmes. Ces deux aspects combinés, puissance de calcul et connaissances exploitables vont permettre la maturité d’une catégorie d’algorithme d’IA, l’apprentissage machine ou machine learning : l’utilisation des statistiques pour apprendre et adapter le comportement de l’algorithme.
Dans les années 2000
L’année 2000 voit l’apogée de la bulle Internet, à nouveau des promesses technologiques ne sont pas tenues. S’en suit une reconfiguration économique qui voit l’émergence de grandes sociétés commerciales les GAFAM. Celles-ci sont omniprésentes dans le monde numérique. Pour Facebook et Google, c’est une nécessité. Elles ont besoin d’accumuler un maximum d’informations sur leurs utilisateurs dans le but de créer un profil qui servira à du ciblage publicitaire, la source de leurs revenus. La création de ce profil est fait avec un algorithme statistique qui « apprend » à différencier, à reconnaître et à associer les personnes en fonction des données qu’ils produisent sur Internet ou plus tard avec leur smartphone. Pour cela, les données sont traitées dans des « fermes » de calcul où des centaines, voire des milliers d’ordinateurs traitent en permanence les informations des utilisateurs. Et ça fonctionne très bien, le ciblage publicitaire est très pertinent et ces entreprises engrangent des milliards.
Le succès de ces deux entités commerciales ravivent l’attrait des investisseurs et la course à l’IA. En 2012, des chercheurs montrent les progrès importants qu’ils ont pu obtenir avec un algorithme statistique, l’apprentissage profond. Celui-ci est une amélioration substantielle des Les réseaux de neurones artificiels. En particulier, ils excellent dans la reconnaissance et le traitement d’image. Ces calculs sont particulièrement rapides avec un type de matériel, les processeurs graphiques qui sont optimisés sur le travail de l’image (pour les jeux vidéos par exemple).
Le vocable « intelligence artificielle » revient à la mode et est poussé par Google et Facebook, entre autres. L’espace médiatique est témoin d’une véritable tension entre chercheurs publics et privés. Les sociologues Anne Bellon et Julia Velkovska montrent à la suite d’une analyse des médias que cette « “vague de l’IA” semble plutôt marquer la montée en puissance des acteurs privés (grandes entreprises du numérique) dans le domaine…»5.
Les grands modèles de langage
Les chercheurs ne s’arrêtent pas pour autant au traitement et à la génération d’images avec l’apprentissage profond, ils essayent également de générer et traiter du texte. Pour cela, ils modélisent le langage humain avec cet algorithme, c’est-à-dire qu’ils essayent de réduire le langage, sa grammaire, ses styles, son vocabulaire et le savoir qui va avec, dans un objet mathématique (Les statistiques) produit à partir de l’apprentissage profond. Les essais sont d’abord infructueux, mais en 2017 une équipe de chercheur de Google propose une légère amélioration6 de ce qui a déjà été développé. Celle-ci a trois atouts, elle est simple, elle donne de bons résultats et elle est parallélisable. Le dernier point est fondamentale car il signifie qu’il n’est pas nécessaire d’avoir une machine extrêmement puissante pour traiter toutes les informations, tout le savoir. Il est possible de répartir le traitement entre plusieurs machines moins puissantes. Et le savoir, la connaissance humaine est grande, ce sont donc des centaines de milliers de textes qui sont utilisés pour construire ce modèle, ce grand modèle de langage.
Il faudra alors trois années de recherche pour amasser des textes, créer un modèle et optimiser un logiciel de type agent conversationnel performant. Mais c’est en novembre 2022 que le grand public peut enfin y accéder avec la publication de ChatGPT par OpenAI.
Les résultats sont tels qu’ils créent, à nouveau, un optimisme sur l’avenir de l’IA. Les investisseurs ne manqueront pas d’y investir des milliards, encore aujourd’hui en 2025. À l’heure actuelle, il n’existe toujours pas de modèle économique bénéficiaire chez les sociétés qui commercialisent les agents conversationnels, uniquement des perspectives vagues à moyen ou long terme. L’amélioration des performances commence à diminuer malgré les budgets colossaux et un nouvel essoufflement se fait sentir d’où la crainte d’une nouvelle bulle économique. L’histoire nous le dira.
Footnotes
-
Décrit par Vitruve, un architecte Romain du 1er siècle av. J.-C.. ↩
-
Jacques de Vaucanson, Le Mécanisme du fluteur automate présenté à messieurs de l’Académie royale des sciences, 1738 ↩
-
Voir l’article wikipédia sur l’histoire de l’intelligence artificielle. ↩
-
Conclusion de (Bellon et Velkovska 2023). ↩
-
Voir l’article (Vaswani et al. 2023). ↩