À ce stade, vous avez sûrement entendu parler de ChatGPT et de ses capacités de génération de texte. Il a réussi un examen d’école de commerce, dérouté des enseignants cherchant à identifier les tricheurs et aidé des gens à rédiger des courriels pour leurs collègues et êtres chers.
Le fait qu’il ait accompli ces tâches est notable, car les examens, essais et courriels exigent des réponses correctes. Mais être correct n’est pas vraiment le but de ChatGPT — c’est plutôt un sous-produit de son objectif : produire un texte qui sonne naturellement.
Alors, comment fonctionnent les chatbots d’intelligence artificielle, et pourquoi obtiennent-ils certaines réponses justes et d’autres complètement fausses ? Voici un regard à l’intérieur de la boîte.
La technologie derrière les grands modèles de langue comme ChatGPT est similaire à la fonction de texte prédictif que vous voyez lorsque vous composez un message sur votre téléphone. Votre téléphone évaluera ce qui a été tapé et calculera les probabilités de ce qui est le plus susceptible de suivre, basé sur son modèle et ce qu’il a observé de votre comportement passé.
Quiconque est familier avec le processus sait combien de directions différentes une chaîne de texte peut prendre.
Contrairement à la fonction de texte prédictif du téléphone, ChatGPT est dit être génératif (le G dans GPT). Il ne fait pas seulement des prédictions ponctuelles ; au lieu de cela, il est conçu pour créer des chaînes de texte qui ont du sens sur plusieurs phrases et paragraphes. Le résultat est censé avoir du sens et se lire comme si une personne l’avait écrit, et il devrait correspondre à la prompte.
Alors, qu’est-ce qui l’aide à choisir un bon mot suivant, puis un autre mot après cela, et ainsi de suite ?
La référence interne
Il n’y a pas de base de données de faits ou de dictionnaire à l’intérieur de la machine pour l’aider à ” comprendre ” les mots. À la place, le système traite les mots de manière mathématique, comme une collection de valeurs. Vous pouvez penser à ces valeurs comme représentant une certaine qualité que le mot pourrait avoir. Par exemple, le mot est-il complimentaire ou critique ? Doux ou amer ? Bas ou haut ?
En théorie, vous pourriez définir ces valeurs où vous le souhaitez et trouver que vous vous êtes rapproché d’un mot. Voici un exemple fictif pour démontrer l’idée : Le générateur ci-dessous est conçu pour retourner un fruit différent basé sur les trois qualités. Essayez de changer l’une des qualités pour voir comment le résultat change.
Cette technique est appelée plongement de mots, et elle n’est pas nouvelle. Elle a son origine dans le domaine de la linguistique dans les années 1950. Alors que l’exemple ci-dessus utilise juste trois ” qualités “, dans un grand modèle de langue, le nombre de ” qualités ” pour chaque mot serait de centaines, permettant une manière très précise d’identifier les mots.
Apprendre à donner du sens
Lorsque le modèle est nouveau, les qualités associées à chaque mot sont définies de manière aléatoire, ce qui n’est pas très utile, car sa capacité à prédire dépend de leur réglage très précis. Pour y parvenir, il doit être entraîné sur beaucoup de contenu. C’est la grande partie du modèle de langue de grande taille.
Un système comme ChatGPT pourrait être alimenté par des millions de pages web et de documents numériques. (Pensez à la totalité de Wikipedia, aux grands sites d’actualités, aux blogs et aux livres numérisés.) La machine parcourt les données d’entraînement une section à la fois, masquant un mot dans une séquence et calculant une “supposition” des valeurs qui représentent le plus fidèlement ce qui devrait remplir le vide. Lorsque la bonne réponse est révélée, la machine peut utiliser la différence entre ce qu’elle a deviné et le mot réel pour s’améliorer.
C’est un processus long. OpenAI, l’entreprise derrière ChatGPT, n’a pas publié les détails sur la quantité de données d’entraînement intégrées dans ChatGPT ou la puissance informatique utilisée pour son entraînement, mais des chercheurs de Nvidia, de l’Université de Stanford et de Microsoft estiment qu’en utilisant 1 024 unités de traitement graphique, il aurait fallu 34 jours pour entraîner GPT 3, le prédécesseur de ChatGPT. Un analyste a estimé que le coût des ressources informatiques pour entraîner et exécuter de grands modèles de langue pourrait s’étendre à des millions.
ChatGPT dispose également d’une couche supplémentaire d’entraînement, appelée apprentissage par renforcement à partir de retours humains. Alors que l’entraînement précédent consiste à amener le modèle à remplir les textes manquants, cette phase vise à le faire produire des chaînes de texte cohérentes, précises et conversationnelles.
Au cours de cette étape, les personnes évaluent la réponse de la machine, signalant les sorties incorrectes, inutiles ou même carrément absurdes. En utilisant les retours, la machine apprend à prédire si les humains trouveront ses réponses utiles. OpenAI dit que cet entraînement rend la sortie de son modèle plus sûre, plus pertinente et moins susceptible de “halluciner” des faits. Et les chercheurs ont dit que c’est ce qui aligne mieux les réponses de ChatGPT avec les attentes humaines.
À la fin du processus, il n’y a pas d’enregistrement des données d’entraînement originales à l’intérieur du modèle. Il ne contient pas de faits ou de citations qui peuvent être mentionnés — juste comment les mots étaient reliés ou non les uns aux autres en action.
Mettre la formation en pratique
Cet ensemble de données s’avère étonnamment puissant. Lorsque vous tapez votre requête dans ChatGPT, il traduit tout en chiffres en utilisant ce qu’il a appris pendant l’entraînement. Ensuite, il effectue la même série de calculs que ci-dessus pour prédire le mot suivant dans sa réponse. Cette fois, il n’y a pas de mot caché à révéler ; il prédit juste.
Grâce à sa capacité à se référer aux parties antérieures de la conversation, il peut continuer page après page à produire un texte réaliste et sonnant humain qui est parfois, mais pas toujours, correct.
Limitations
À ce stade, il existe de nombreux désaccords sur ce que l’IA est ou sera capable de faire, mais une chose est assez bien convenue — et figure en bonne place sur les interfaces de ChatGPT, Google Bard et Microsoft Bing : Ces outils ne devraient pas être considérés comme fiables lorsque la précision est requise.
Les grands modèles de langage sont capables d’identifier des schémas de texte, pas des faits. Et un certain nombre de modèles, y compris ChatGPT, ont des dates de coupure de connaissances, ce qui signifie qu’ils ne peuvent pas se connecter à internet pour apprendre de nouvelles informations. Cela contraste avec le chatbot Bing de Microsoft, qui peut interroger des ressources en ligne.
Un grand modèle de langage n’est également aussi bon que le matériel qui a été utilisé pour le former. Parce que les modèles identifient des schémas entre les mots, nourrir une IA de texte qui est dangereux ou raciste signifie que l’IA apprendra des schémas de texte qui sont dangereux ou racistes.
OpenAI dit avoir créé des garde-fous pour l’empêcher de diffuser cela, et ChatGPT dit être ” formé pour refuser les demandes inappropriées “, comme nous l’avons découvert lorsqu’il a refusé d’écrire un email colérique exigeant une augmentation. Mais la société admet également que ChatGPT répondra parfois ” à des instructions nuisibles ou exhibera un comportement biaisé “.
Il existe de nombreuses manières utiles de tirer parti de la technologie dès maintenant, telles que rédiger des lettres de motivation, résumer des réunions ou planifier des repas. La grande question est de savoir si les améliorations de la technologie peuvent surmonter certains de ses défauts, lui permettant de créer du texte véritablement fiable.
No Responses