Sur les propriétés émergentes des GPT

Complément à la conférence de Mélanie Mitchell sur l’avenir de l’intelligence artificielle. Partie II. Un présent déroutant, à la fois étonnant, porteur d’espoirs et de craintes.

Retour vers l’article

♦ ♦ ♦

[S.C.] Sur la question des propriétés émergentes

On savait que la taille d’un modèle de langage était en corrélation avec ses performances pour une gamme de tâches courantes, ce qu’on a appelé « la loi de mise à l’échelle » simplement dérivée des observations empiriques. Elle postule que les performances des grands modèles de langage augmentent de façon prévisible à mesure que la taille de ces modèles augmente, c’est-à-dire en augmentant le nombre de leurs paramètres, le nombre de leurs couches de neurones, en utilisant des ensembles encore plus massifs de données et en augmentant aussi la puissance de calcul. Un modèle plus grand est ainsi censé être plus efficace, plus rapide, et générer moins d’erreurs qu’un plus petit. Bref, pour avoir des systèmes plus intelligents, il n’y aurait plus à attendre de nouvelles percées algorithmiques fondamentales, il suffirait d’augmenter « l’échelle ». C’est l’effet d’échelle ou scaling effect.

Mais les grands modèles de langage se sont aussi révélés capables de faire de choses pour lesquelles ils n’avaient pas été programmés et auxquelles personne ne s’attendait. Certains chercheurs ont alors parlé de « propriétés émergentes ».
Dans un article de 2022 sur les « capacités émergentes » des grands modèles de langage, un groupe chercheurs définit ainsi l’émergence : on parle d’émergence

« lorsque des changements quantitatifs dans un système entraînent des changements qualitatifs dans le comportement ». J. Wei et al., Emergent Abilities of Large Language Models

Ils insistent sur le fait que « les capacités émergentes ne peuvent pas être prédites simplement en extrapolant les performances de modèles plus petits ». Pour eux « l’existence d’une telle émergence soulève la question de savoir si une mise à l’échelle supplémentaire pourrait potentiellement élargir davantage l’éventail des capacités des modèles de langage ».

Quelle est la différence avec l’effet d’échelle ? Pour une tâche donnée, on peut s’attendre à ce qu’un modèle avec 1 milliard de paramètres ait une précision supérieure de 10% à celle qu’obtient un modèle avec 100 millions de paramètres (10% n’est qu’un exemple). Mais les grands modèles de langage avec leurs dizaines ou centaines de milliards de paramètres s’avèrent capables de faire des tâches qu’un modèle plus petit ne peut pas faire du tout et non pas seulement moins bien. Ils acquièrent de manière inattendue et imprévisible des capacités nouvelles, c’est-à-dire qualitativement différentes de celles des modèles plus petits.

Une de ces propriétés émergentes est la capacité à apprendre sans préparation, c’est l’apprentissage zéro-coup (le zero-shot learning), qui n’apparaît qu’à partir d’une certaine échelle. Les grands modèles de langage peuvent avoir des résultats impressionnants sur de nombreuses tâches de ce type. Ils ont des performances meilleures quand on leur donne un ou deux exemples, ce qui est tout aussi remarquable. On parle alors d’apprentissage en quelques coups (few-shot learning). L’apprentissage zero-shot ou few-shot fait référence au nombre d’exemples donnés au modèle avant d’être invité à effectuer une tâche (aucun exemple ou un ou deux).

Dans l’étude mentionnée, les auteurs ont examiné les performances de grands modèles de langage de différentes tailles avec des tâches du type few-shot. Ils ont constaté que la capacité des modèles de langage à faire des additions, des soustractions et des multiplications pouvaient selon eux être qualifiée d’émergente, car un modèle de type GPT-3 n’obtenait presque qu’aucun résultat satisfaisant à moins de 13 milliards de paramètres, et de très bon avec 173 milliards. Les autres modèles ont aussi amélioré brusquement leurs performances en mathématiques, à des questions en histoire, en droit, une fois dépassé un seuil d’environ 70 milliards de paramètres. Les capacités émergentes ne suivent pas la loi d’échelle, elles n’augmentent pas régulièrement. Une conséquence de cette discontinuité est qu’il est difficile d’affirmer péremptoirement qu’avec des tailles encore plus grandes, apparaîtraient d’autres propriétés nouvelles.


« Des lueurs d’intelligence générale artificielle » ?

Comme le fait remarquer Melanie Mitchell, il y a toujours des chercheurs prêts à franchir le pas. Dans un article au titre tapageur (« Des lueurs d’intelligence générale artificielle : premières expériences avec GPT-4 ») une équipe de chercheurs de Microsoft, constatant les performances de GPT-4 sur des tâches que des modèles de langage de plus petite taille n’arrivent pas à faire, écrit :

« La combinaison des capacités à généraliser de GPT-4, de ses nombreuses capacités dans un large éventail de domaines, et de sa performance, sur un large spectre de tâches, de niveau humain ou au-delà, nous permet d’affirmer que GPT-4 est un pas important vers l’AGI. »

L’intelligence générale artificielle (AGI pour Artificial General Intelligence ) est, comme dit Mitchell, le Saint-Graal des chercheurs en IA, c’est-à-dire une intelligence capable d’apprendre aussi bien que les humains qui ont une capacité de généralisation très importante, y compris d’un domaine à un autre, ce qui les rend capables de s’adapter rapidement et sans difficulté particulière à des problèmes inédits.


Une illusion ?

Malgré les études qui documentent ces propriétés émergentes, l’idée ne fait pas consensus chez les chercheurs. Par exemple, dans un article au titre aussi éloquent que le précédent (R. Schaeffer, B. Miranda, and S. Koyejo, « Les capacités émergentes des grands modèles de langage sont-elles un mirage ? », avril 2023) une équipe d’informaticiens de l’Université de Stanford fait valoir que les capacités supposées émergentes résulteraient moins d’un saut qualitatif réel que de la manière de mesurer les performances des modèles.
La forte augmentation des performances censée prouver le phénomène d’émergence pourrait être, au moins partiellement, attribuable au choix de la métrique pour les tâches observées, à la quantité de données utilisées dans les tests pour l’évaluation (des tests sur de petits ensembles de données peuvent donner des estimations exagérément optimistes) et au nombre de modèles à grande échelle utilisés pour l’évaluation (puisqu’il y a moins de grands modèles disponibles que de petits). Les chercheurs de Stanford ne contestent pas les performances étonnantes des grands modèles, mais l’idée que ces capacités émergentes représenteraient un changement fondamental. Il en conclut qu’il est très hasardeux d’extrapoler sur une telle base, et plus encore d’affirmer que d’autres fonctionnalités pourraient facilement émerger avec des données encore plus nombreuses ou différentes, et des modèles encore plus grands.

Ce sur quoi tout le monde s’accorde est qu’il y a bien des propriétés qui émergent à partir d’une certaine taille, sans que l’on sache aujourd’hui pourquoi.

Retour vers l’article