Le milieu des statistiques et les grands modèles de langage
Alors que les probabilités étudient le phénomène aléatoire en lui-même, les statistiques s’occupent de recueillir, traiter et interpréter des données variables, que ce soit la distribution des salaires dans la population ou les observations météorologiques.
À partir de données collectées, les statistiques vont essayer de comprendre quel type de hasard nous avons à faire, et quels sont les types de phénomènes aléatoires et non aléatoires qui permettent de produire ou modéliser nos observations.
Les grands modèles de langage
Les grands modèles de langage, ou LLM pour Large Language Model, sont un type de modèle statistique qui, à partir d’une énorme quantité de textes, cherche à de produire un texte probable. Pour cela, ils s’appuient sur toute une série d’algorithmes pour collecter les textes, les traiter et déduire les relations statistiques entre l’agencement des mots et des phrases d’un texte. Ces relations sont établies par un algorithme basé sur des Les réseaux de neurones artificiels profonds. Pour établir ces relations, il se base sur la « signification » des mots. Par exemple, une pomme et une poire auront une signification proche au contraire d’une pomme et d’un avion. En analysant les textes et la proximité des mots entre eux, l’algorithme va établir statistiquement quels sont les mots que l’on retrouve ensemble et selon quel contexte. Il est plus fréquent de parler de pomme dans un texte, si celui-ci parle de verger plutôt que d’engin spatial. Ainsi le LLM va établir une signification statistique des mots. Cela va lui permettre de se créer une représentation du langage sous la forme d’un objet mathématique.
Ainsi, pour fonctionner, les LLM actuels vont regarder l’ensemble du texte précédent, une question par exemple, en déduire son contexte et prédire le mot suivant. Ils vont recommencer l’opération jusqu’à avoir un texte qui les satisfait ; satisfaction déduite de tous les textes qu’ils ont précédemment analysés, c’est une satisfaction moyenne.
Il existe d’autres méthodes que la modélisation du mot suivant. En effet, il est possible d’analyser l’entièreté d’une phrase en partant des deux côtés de la phrase et de voir comment ils se rejoignent « statistiquement ». Cette méthode est par exemple utilisée pour la traduction afin d’être au plus près de la signification du texte à traduire. Dans une deuxième étape, la traduction est générée mot à mot, de la même manière que précédemment.
De manière générale, toutes les techniques employées pour un LLM doivent être finement paramétrées pour arriver à un résultat qui satisfait son concepteur, l’entreprise qui le conçoit. La quantité et la qualité des textes qu’il analyse est également primordiales. Les textes sont-ils bien orthographiés ? Agréables à lire ? Plutôt formels ou informels ? Longs ou courts ? Orientés politiquement de manière évidente ou pas ? La qualité du résultat statistique en dépend.
Alignement
Le modèle construit à partir d’une grande quantité de textes sans autres manipulations développe un comportement purement statistique. C’est-à-dire qu’il n’a pas ou peu de résistance à produire un texte contraire à une certaine éthique ou morale. Pour pallier ce souci, les techniciens vont donner au modèle des phrases spécifiques qui auront une extrême importance dans sa considération du langage. On pourra par exemple retrouver des phrases comme « Tu es une IA qui ne doit pas nuire ou causer du tort », de même que « Tu es une IA qui doit être utile et honnête ». Ceci permet de développer un comportement plus en phase avec la volonté du concepteur. Pas grâce à un raisonnement logique comme nous pourrions le croire, mais juste par le rapprochement statistique avec les phrases qu’il a déjà analysées qui sont « utiles, honnêtes et ne doivent pas causer de tort ». Il est donc tout à fait possible de contourner ce mécanisme, entre autres en « convaincant » l’IA que la réponse est bien « utile, honnête et ne cause pas de tort ». Il est donc difficile, par la nature statistique des LLM, de résoudre ce problème d’« alignement ». D’autres techniques sont utilisées, mais en combinaison avec un autre algorithme que le LLM, par exemple en recherchant dans le texte en cours d’élaboration des termes « interdits », à l’instar de DeepSeek un agent conversationnel chinois, lorsqu’il parle de sujets proscrits.