10 lignes de code ont amélioré les mathématiques des grands modèles de 20 %. La recherche sur 'Yeluzi' a également été testée par Google. L'auteur principal est entièrement autodidacte.-Examen du matériel-php.cn

10 lignes de code ont amélioré les mathématiques des grands modèles de 20 %. La recherche sur 'Yeluzi' a également été testée par Google. L'auteur principal est entièrement autodidacte.

WBOY

Libérer： 2024-08-27 15:31:33

original

747 Les gens l'ont consulté

Avec moins de 10 lignes de code, les capacités mathématiques des grands modèles (GSM8k) peuvent être améliorées de 20 % !

Plusieurs chercheurs indépendants ont proposé des améliorations à l'échantillonnage de grands modèles, ce qui a attiré l'attention de la communauté open source.

Actuellement, cette méthode a donné des résultats sur Mistral-7B, et des tests sur Llama3-70B sont également en cours.

10 行代码让大模型数学提升 20%，“野路子”研究谷歌也测上了，主要作者全靠自学成才

Cette méthode est appelée échantillonnage min-p, qui vise à équilibrer la cohérence et la diversité du texte généré.

En termes simples, cela permet au modèle d'exercer différentes caractéristiques dans différentes situations, comme maintenir des performances stables sur des questions factuelles et être créatif dans des scénarios tels que l'écriture.

Actuellement, cette méthode a donné des résultats sur Mistral-7B, et les tests sur Llama-70B sont sur le point de commencer.

10 行代码让大模型数学提升 20%，“野路子”研究谷歌也测上了，主要作者全靠自学成才

Dans l'article, l'auteur mentionne que cette méthode a été largement utilisée par la communauté open source.

10 行代码让大模型数学提升 20%，“野路子”研究谷歌也测上了，主要作者全靠自学成才

Dans le même temps, l'auteur a également révélé que des fabricants de modèles fermés tels qu'Anthropic et Google ont également testé ou sont en train de tester min-p.

10 行代码让大模型数学提升 20%，“野路子”研究谷歌也测上了，主要作者全靠自学成才

La nouvelle a également été confirmée par Google Logan Kilpatrick, le chef de la communauté des développeurs qui est passé d'OpenAI à Google, a répondu "Sur".

10 行代码让大模型数学提升 20%，“野路子”研究谷歌也测上了，主要作者全靠自学成才

Abram Jackson, chercheur chez Microsoft Copilot, a déclaré après l'avoir lu qu'il s'agit de la première amélioration qu'il a constatée concernant l'échantillonnage de jetons dans le processus d'inférence, et qu'il y a encore beaucoup de place à l'amélioration à l'avenir.

10 行代码让大模型数学提升 20%，“野路子”研究谷歌也测上了，主要作者全靠自学成才

Il convient de mentionner que l'auteur principal de cette étude très regardée, Minh Nhat Nguyen, n'a jamais systématiquement appris l'informatique, mais est autodidacte.

Avec l'aide d'une organisation de recherche sur la sécurité de l'IA appelée Apart Research, Minh et d'autres membres de l'équipe ont achevé le projet.

10 行代码让大模型数学提升 20%，“野路子”研究谷歌也测上了，主要作者全靠自学成才

Ajustement dynamique du seuil d'échantillonnage

min-p est une méthode d'échantillonnage par troncature dynamique dont le noyau est de mettre à l'échelle le seuil de probabilité minimum en fonction de la probabilité maximale de la distribution des jetons à chaque étape.

Le but de ceci est principalement d'équilibrer la cohérence et la diversité du texte généré, notamment dans des conditions de température plus élevée.

Plus précisément, min-p introduit un seuil de probabilité de base p_base, qui représente la probabilité minimale requise pour entrer dans le pool d'échantillonnage.

Lors de la génération de jetons à chaque étape, min-p multipliera p_base par la plus grande probabilité de jeton p_max dans la distribution de probabilité actuelle pour obtenir un seuil absolu mis à l'échelle p_scaled.

Seuls les jetons avec une probabilité supérieure ou égale à p_scaled peuvent entrer dans le pool d'échantillonnage.

Lorsque la probabilité de prédiction du modèle pour un certain jeton est très élevée (c'est-à-dire que p_max est très grand), la valeur de p_scaled sera également très élevée, ce qui entraînera une réduction considérable du pool d'échantillonnage et la grande majorité des faibles les jetons de probabilité sont filtrés, ne laissant que quelques-uns avec une confiance élevée. La sélection garantit la cohérence de la sortie

10 行代码让大模型数学提升 20%，“野路子”研究谷歌也测上了，主要作者全靠自学成才

Lorsque les probabilités de prédiction du modèle pour tous les jetons sont relativement proches (p_max est inférieur), la valeur de p_scaled le sera également ; devenir inférieur en conséquence, assouplir les exigences relatives au pool d'échantillonnage et incorporer davantage de jetons à probabilité moyenne donne au modèle plus d'espace pour générer un contenu plus diversifié.

10 行代码让大模型数学提升 20%，“野路子”研究谷歌也测上了，主要作者全靠自学成才

Après avoir déterminé le pool d'échantillonnage, min-p mettra à l'échelle la distribution de probabilité du jeton en fonction de la température.

Il divise la probabilité logarithmique du jeton par un paramètre de température τ, et après normalisation, la distribution de probabilité mise à l'échelle de la température est obtenue.

Une valeur τ supérieure à 1 rendra la distribution de probabilité plus plate, augmentant les chances de sélection de jetons à faible probabilité ; lorsque

τ est inférieur à 1, cela rendra la distribution plus nette, renforçant les avantages des jetons à forte probabilité ; .

Enfin, min-p sélectionne au hasard le jeton suivant dans le pool d'échantillonnage mis à l'échelle en fonction de la distribution de probabilité ajustée.

Stabilité et créativité, "Je veux tout"

Quel est l'effet de la méthode min-p ? L'auteur a utilisé Mistral-7B comme modèle de base pour les tests. Examinons les résultats par scénario.

Dans la tâche d'inférence, l'auteur utilise l'ensemble de données GPQA. Lorsque la température est de 1, vous pouvez voir que min-p a un léger avantage par rapport au top-p passé.

À mesure que la température augmente, le score GPQA montre une tendance globale à la baisse, mais on peut observer que min-p diminue significativement plus lentement que top-p.

La tendance à la baisse de min-p ne devient évidente que lorsque la température atteint 3, lorsque le score de top-p est proche de 0.

En d'autres termes, par rapport à top-p, min-p maintient mieux la stabilité requise dans les tâches d'inférence.

10 行代码让大模型数学提升 20%，“野路子”研究谷歌也测上了，主要作者全靠自学成才

Les tâches mathématiques doivent également maintenir des performances stables. Ici, l'auteur a utilisé l'ensemble de données GSM8K pour les tests.

Le résultat est que le score correspondant à min-p diminue avec la température plus rapidement qu'en GPQA, mais toujours plus lentement que la méthode top-p.

10 行代码让大模型数学提升 20%，“野路子”研究谷歌也测上了，主要作者全靠自学成才

Le troisième type de tâche est l'écriture créative. À l'heure actuelle, les exigences de stabilité ne sont pas si élevées, mais le modèle doit être plus créatif.

Ce test a été réalisé à l'aide de l'ensemble de données AlpacaEval et les données expérimentales ont été obtenues auprès d'un évaluateur indépendant de la communauté open source.

Les résultats expérimentaux montrent que sous les paramètres de température = 1,5 et min-p = 0,1, les performances de min-p sont particulièrement remarquables et peuvent générer un contenu d'écriture créative difficile à générer avec la méthode top-p.

Avec ce paramètre, le texte obtenu par la méthode min-p a atteint un taux de préférence de jugement humain de 58,12 %, ce qui est bien supérieur aux performances d'autres méthodes dans des paramètres similaires.

10 行代码让大模型数学提升 20%，“野路子”研究谷歌也测上了，主要作者全靠自学成才