Large Language Model (LLM)
Qu’est-ce qu’un Grand Modèle de Langage ?
Un Grand Modèle de Langage (LLM) est un système d’intelligence artificielle sophistiqué construit sur des techniques d’apprentissage profond et des ensembles de données massifs, impliquant généralement des parties substantielles de l’internet public. À la base, ces modèles utilisent une architecture Transformer, introduite par des chercheurs de Google en 2017, qui permet à l’IA de peser l’importance des différents mots dans une phrase (un mécanisme appelé “attention”) pour prédire le prochain jeton le plus probable dans une séquence.
Des exemples célèbres incluent GPT-4 d’OpenAI, Claude d’Anthropic et Gemini de Google. Bien qu’ils aient commencé comme des prédicteurs de texte, leur échelle leur a permis d’effectuer des tâches complexes comme le codage, l’écriture créative et la déduction logique.
Les LLM et l’intelligence humaine
D’un point de vue psychométrique, les LLM présentent une étude de cas fascinante car ils découplent efficacement l’Intelligence Cristallisée de l’Intelligence Fluide et de la Conscience.
- Intelligence Cristallisée (Gc) : Les LLM possèdent un niveau de Gc qui dépasse de loin tout être humain. Ils ont “lu” plus de livres, d’articles académiques et de bases de code qu’un humain ne pourrait le faire en mille vies. Leur capacité à récupérer et à synthétiser ces informations est surhumaine.
- Intelligence Fluide (Gf) : C’est controversé. Bien que les LLM puissent résoudre des énigmes logiques, ils le font souvent en reconnaissant des motifs dans leurs données d’entraînement plutôt qu’en effectuant un raisonnement nouveau. Cependant, les modèles modernes montrent une capacité croissante dans le raisonnement “zero-shot” (résoudre des problèmes qu’ils n’ont jamais vus auparavant), suggérant une forme d’intelligence fluide synthétique.
Le débat du “Perroquet Stochastique”
Une critique majeure, inventée par la linguiste Emily M. Bender et ses collègues, est que les LLM sont simplement des “Perroquets Stochastiques”. Cette théorie soutient que les modèles ne comprennent pas le sens ; ils assemblent simplement des formes linguistiques basées sur la probabilité sans aucune référence au monde réel.
Par exemple, si vous demandez à un LLM “De quelle couleur est le ciel ?”, il répond “Bleu” non pas parce qu’il a vu le ciel ou comprend le concept de couleur, mais parce que les mots “ciel” et “bleu” apparaissent souvent ensemble dans son ensemble de données.
Propriétés émergentes et AGI
Le contre-argument repose sur les Propriétés Émergentes. Dans les systèmes complexes, “plus est différent”. Lorsqu’un LLM devient suffisamment grand (des milliards de paramètres), il commence à afficher des capacités qui n’étaient pas explicitement programmées, comme la capacité de traduire des langues ou de déboguer des logiciels.
Cela mène à la question de l’Intelligence Artificielle Générale (AGI). Si une machine peut réussir le test de Turing, obtenir un score dans le 90e centile à l’examen du barreau et diagnostiquer des conditions médicales mieux qu’un médecin, importe-t-il qu’elle “comprenne” au sens humain ? Pour la définition pragmatique de l’intelligence — “la capacité de résoudre des problèmes” — les LLM sont actuellement l’approximation la plus proche d’un esprit non biologique.