Maison > Périphériques technologiques > IA > Revue complète de Gemini : De la CMU à GPT 3.5 Turbo, Gemini Pro perd

Revue complète de Gemini : De la CMU à GPT 3.5 Turbo, Gemini Pro perd

WBOY
Libérer: 2023-12-20 21:21:40
avant
1318 Les gens l'ont consulté

Combien pèse le Gémeaux de Google ? Comment se compare-t-il au modèle GPT d’OpenAI ? Ce document CMU a des résultats de mesure clairs


Il y a quelque temps, Google a lancé un concurrent au modèle OpenAI GPT - Gemini. Ce grand modèle est disponible en trois versions – Ultra (la plus performante), Pro et Nano. Les résultats des tests publiés par l'équipe de recherche montrent que la version Ultra surpasse GPT4 dans de nombreuses tâches, tandis que la version Pro est à égalité avec GPT-3.5.

Bien que ces résultats de comparaison soient d'une grande importance pour la recherche de modèles de langage à grande échelle, étant donné que les détails exacts de l'évaluation et les prédictions du modèle n'ont pas encore été rendus publics, cela limite la reproduction et la détection des résultats des tests, ce qui rend difficile pour analyser plus en détail ses détails implicites.

Afin de comprendre la véritable force de Gemini, des chercheurs de l'Université Carnegie Mellon et de BerriAI ont mené une exploration approfondie de la compréhension du langage et des capacités de génération du modèle.
Ils ont testé les capacités de compréhension et de génération de texte de Gemini Pro, GPT 3.5 Turbo, GPT 4 Turbo et Mixtral sur dix ensembles de données. Plus précisément, ils ont testé la capacité du modèle à répondre à des questions basées sur les connaissances sur MMLU, la capacité de raisonnement du modèle sur BigBenchHard, la capacité du modèle à répondre à des questions mathématiques dans des ensembles de données tels que GSM8K et la capacité du modèle à répondre à des questions mathématiques dans des ensembles de données tels que FLORES. La capacité de traduction du modèle ; la capacité de génération de code du modèle a été testée dans des ensembles de données tels que HumanEval ; la capacité du modèle en tant qu'agent qui suit les instructions a été testée dans WebArena.
摸底谷歌Gemini:CMU全面测评,Gemini Pro不敌GPT 3.5 Turbo
Le tableau 1 ci-dessous présente les principaux résultats de la comparaison. Dans l'ensemble, à la date de publication de l'article, Gemini Pro est proche d'OpenAI GPT 3.5 Turbo en termes de précision dans toutes les tâches, mais reste légèrement inférieur. En outre, ils ont également constaté que Gemini et GPT fonctionnaient mieux que le modèle concurrent open source Mixtral.
摸底谷歌Gemini:CMU全面测评,Gemini Pro不敌GPT 3.5 Turbo
Dans l'article, l'auteur fournit une description et une analyse approfondies de chaque tâche. Tous les résultats et le code reproductible peuvent être trouvés sur : https://github.com/neulab/gemini-benchmark
摸底谷歌Gemini:CMU全面测评,Gemini Pro不敌GPT 3.5 Turbo
Lien papier : https://arxiv.org/pdf/2312.11444.pdf

Paramètres expérimentaux

L'auteur a sélectionné quatre modèles : Gemini Pro, GPT 3.5 Turbo, GPT 4 Turbo et Mixtral comme objets de test.
摸底谷歌Gemini:CMU全面测评,Gemini Pro不敌GPT 3.5 Turbo
En raison des différences dans les paramètres expérimentaux lors de l'évaluation des études précédentes, afin de garantir un test équitable, l'auteur a réexécuté l'expérience en utilisant exactement les mêmes mots d'invite et le même protocole d'évaluation. Dans la plupart des évaluations, ils ont utilisé des mots d’invite et des rubriques provenant d’un référentiel standard. Ces ressources de test proviennent de l'ensemble de données fourni avec la version du modèle et de l'outil d'évaluation Eleuther, etc. Parmi eux, les mots d'invite incluent généralement une requête, une saisie, un petit nombre d'exemples, un raisonnement en chaîne de réflexion, etc. Dans certaines évaluations spéciales, les auteurs ont constaté que des ajustements mineurs aux pratiques standard étaient nécessaires. L'ajustement du biais a été effectué dans le référentiel de code correspondant, veuillez vous référer à l'article original.

Les objectifs de cette recherche sont les suivants :

1. Fournir une comparaison objective tierce des capacités des modèles OpenAI GPT et Google Gemini grâce à un code reproductible et des résultats totalement transparents.
2. Étudiez en profondeur les résultats de l'évaluation et analysez dans quels domaines les deux modèles sont les plus performants.

AQ basée sur les connaissances

L'auteur a sélectionné 57 tâches de questions et réponses à choix multiples basées sur les connaissances à partir de l'ensemble de données MMLU, couvrant le thème des STEM, des sciences humaines et sociales, etc. MMLU compte un total de 14 042 échantillons de test et a été largement utilisé pour fournir une évaluation globale des capacités de connaissances des grands modèles de langage.

L'auteur a comparé et analysé les performances globales des quatre objets de test sur MMLU (comme le montre la figure ci-dessous), les performances des sous-tâches et l'impact de la longueur de sortie sur les performances.
摸底谷歌Gemini:CMU全面测评,Gemini Pro不敌GPT 3.5 Turbo
Figure 1 : Précision globale de chaque modèle sur MMLU à l'aide de 5 exemples d'invites et d'invites de chaîne de pensée.

Comme vous pouvez le voir sur la figure, la précision de Gemini Pro est inférieure à celle de GPT 3.5 Turbo et bien inférieure à celle de GPT 4 Turbo.Lorsque vous utilisez l’invite de chaîne de pensée, il y a peu de différence dans les performances de chaque modèle. Les auteurs supposent que cela est dû au fait que MMLU capture principalement des tâches de questions et réponses basées sur la connaissance, qui ne bénéficient peut-être pas de manière significative de messages plus puissants orientés vers le raisonnement.

Il convient de noter que toutes les questions de MMLU sont des questions à choix multiples avec quatre réponses potentielles A à D disposées dans l'ordre. La proportion de chaque option de réponse choisie par chaque modèle est indiquée dans la figure ci-dessous. Vous pouvez voir sur la figure que la distribution des réponses des Gémeaux est très biaisée en faveur du choix de la dernière option D. Cela contraste avec les résultats plus équilibrés donnés par les versions de GPT. Cela peut indiquer que les Gémeaux n'ont pas reçu les ajustements d'instructions approfondis associés aux questions à choix multiples, ce qui a entraîné un biais dans le classement des réponses du modèle.
摸底谷歌Gemini:CMU全面测评,Gemini Pro不敌GPT 3.5 Turbo
Figure 2 : Proportion de réponses aux questions à choix multiples prédites par le modèle testé.

La figure suivante montre les performances du modèle testé sur la sous-tâche de l'ensemble de test MMLU. Gemini Pro fonctionne mal sur la plupart des tâches par rapport à GPT 3.5. Les invites de la chaîne de pensée réduisent la variance entre les sous-tâches.
摸底谷歌Gemini:CMU全面测评,Gemini Pro不敌GPT 3.5 Turbo
Figure 3 : Précision du modèle testé sur chaque sous-tâche.

L'auteur examine en profondeur les forces et les faiblesses de Gemini Pro. Comme le montre la figure 4, Gemini Pro est en retard par rapport à GPT 3.5 dans les tâches de genre humain (sciences sociales), de logique formelle (sciences humaines), de mathématiques élémentaires (STEM) et de médecine professionnelle (domaines professionnels). L'avance est également mince dans les deux tâches pour lesquelles le Gemini Pro est meilleur.
摸底谷歌Gemini:CMU全面测评,Gemini Pro不敌GPT 3.5 Turbo
Figure 4 : Avantages de Gemini Pro et GPT 3.5 sur les tâches MMLU.

Les mauvaises performances du Gemini Pro sur des tâches spécifiques peuvent être attribuées à deux raisons. Premièrement, il existe des situations dans lesquelles les Gémeaux ne peuvent pas répondre. Dans la plupart des sous-tâches MMLU, le taux de réponse API dépasse 95 %, mais les taux correspondants sont nettement inférieurs dans les deux tâches de moralité (taux de réponse de 85 %) et de genre humain (taux de réponse de 28 %). Cela suggère que les performances inférieures de Gemini sur certaines tâches peuvent être dues aux filtres de contenu d'entrée. Deuxièmement, le Gemini Pro est légèrement moins performant en matière de raisonnement mathématique de base requis pour résoudre des tâches de logique formelle et de mathématiques de base.

L'auteur a également analysé comment la longueur de sortie dans l'invite de la chaîne de pensée affecte les performances du modèle, comme le montre la figure 5. En général, les modèles plus puissants ont tendance à effectuer un raisonnement plus complexe et donc à produire des réponses plus longues. Le Gemini Pro présente un avantage notable sur ses « adversaires » : sa précision est moins affectée par la longueur de sortie. Gemini Pro surpasse même GPT 3.5 lorsque la longueur de sortie dépasse 900. Cependant, par rapport à GPT 4 Turbo, Gemini Pro et GPT 3.5 Turbo génèrent rarement de longues chaînes d'inférence.
摸底谷歌Gemini:CMU全面测评,Gemini Pro不敌GPT 3.5 Turbo
Figure 5 : Analyse de la longueur de sortie du modèle testé sur MMLU.

Raisonnement à usage général

Dans l'ensemble de tests BIG-Bench Hard, l'auteur a procédé à une évaluation de la capacité de raisonnement à usage général des sujets testés. BIG-Bench Hard contient 27 tâches de raisonnement différentes telles que le raisonnement arithmétique, symbolique et multilingue, la compréhension des connaissances factuelles, et bien plus encore. La plupart des tâches se composent de 250 paires de questions-réponses, quelques tâches comportant un peu moins de questions.

La figure 6 montre la précision globale du modèle testé. On peut voir que la précision de Gemini Pro est légèrement inférieure à celle de GPT 3.5 Turbo et bien inférieure à celle de GPT 4 Turbo. En comparaison, la précision du modèle Mistral est bien inférieure.
摸底谷歌Gemini:CMU全面测评,Gemini Pro不敌GPT 3.5 Turbo
Figure 6 : Précision globale du modèle testé sur BIG-Bench-Hard.

L'auteur explique plus en détail pourquoi l'inférence générale des Gémeaux fonctionne globalement mal. Premièrement, ils ont examiné l’exactitude en fonction de la longueur des questions. Comme le montre la figure 7, Gemini Pro fonctionne mal sur des problèmes plus longs et plus complexes. Et le modèle GPT, en particulier GPT 4 Turbo, même dans les problèmes très longs, la régression de GPT 4 Turbo est très faible. Cela montre qu’il est robuste et capable de comprendre des questions et des requêtes plus longues et plus complexes. La robustesse du GPT 3.5 Turbo est moyenne. Mixtral a obtenu des résultats stables en termes de longueur des questions, mais avait une précision globale inférieure.
摸底谷歌Gemini:CMU全面测评,Gemini Pro不敌GPT 3.5 Turbo
Figure 7 : Précision du modèle testé sur BIG-Bench-Hard par longueur de question.

L'auteur a analysé s'il existe une différence de précision du modèle testé dans la tâche spécifique BIG-Bench-Hard. La figure 8 montre quelles tâches GPT 3.5 Turbo effectuent mieux que Gemini Pro.

Dans la tâche de "suivi de la position des objets transformés", Gemini Pro a été particulièrement médiocre. Ces tâches impliquent que des personnes échangent des articles et suivent qui possède quelque chose, mais Gemini Pro a souvent du mal à maintenir la commande.
摸底谷歌Gemini:CMU全面测评,Gemini Pro不敌GPT 3.5 Turbo
Figure 8 : GPT 3.5 Turbo surpasse Gemini Pro sur la sous-tâche BIG-Bench-Hard.

Gemini Pro est inférieur à Mixtral dans des tâches telles que les problèmes arithmétiques qui nécessitent des solutions en plusieurs étapes, la recherche d'erreurs de traduction, etc.

Il existe également des tâches pour lesquelles Gemini Pro est meilleur que GPT 3.5 Turbo. La figure 9 montre les six tâches pour lesquelles Gemini Pro mène GPT 3.5 Turbo avec la plus grande marge. Les tâches sont hétérogènes et incluent celles qui nécessitent une connaissance du monde (sports_understanding), la manipulation de piles de symboles (dyck_linguals), le tri des mots par ordre alphabétique (word_sorting) et l'analyse de tables (penguins_in_a_table).
摸底谷歌Gemini:CMU全面测评,Gemini Pro不敌GPT 3.5 Turbo
Figure 9 : Gemini Pro surpasse GPT 3.5 sur la sous-tâche BIG-Bench-Hard.

L'auteur a analysé plus en détail la robustesse du modèle testé dans différents types de réponses, comme le montre la figure 10. Gemini Pro a obtenu les pires résultats dans le type de réponse « Valide/Invalide », qui appartient à la tâche formal_fallacies. Il est intéressant de noter que 68,4 % des questions de cette tâche sont restées sans réponse. Cependant, dans d'autres types de réponses (comprenant des tâches word_sorting et dyck_lingual), Gemini Pro surpasse tous les modèles GPT et Mixtral. Autrement dit, Gemini Pro est particulièrement doué pour réorganiser les mots et générer des symboles dans le bon ordre. De plus, pour les réponses au QCM, 4,39 % des questions n'ont pas pu répondre par Gemini Pro. Les modèles GPT excellent dans ce domaine, et le Gemini Pro peine à rivaliser avec eux.
摸底谷歌Gemini:CMU全面测评,Gemini Pro不敌GPT 3.5 Turbo
Figure 10 : Précision du modèle testé par type de réponse sur BIG-Bench-Hard.

Bref, aucun modèle ne semble montrer la voie sur une tâche précise. Par conséquent, lors de l'exécution de tâches d'inférence à usage général, il vaut la peine d'essayer les modèles Gemini et GPT avant de décider quel modèle utiliser.

Capacité mathématique

Afin d'évaluer la capacité de raisonnement mathématique du modèle testé, l'auteur a sélectionné quatre ensembles de références de problèmes mathématiques :

(1) GSM8K : référence en mathématiques à l'école primaire
(2) SVAMP : vérifiez la capacité de raisonnement en générant des questions en modifiant l'ordre des mots ;
(3) ASDIV : avec différents modes de langage et types de questions ;
(4) MAWPS : contient des problèmes de mots arithmétiques et algébriques ;

L'auteur a comparé la précision de Gemini Pro, GPT 3.5 Turbo, GPT 4 Turbo et Mixtral sur quatre ensembles de tests de problèmes mathématiques, vérifiant leurs performances globales, leurs performances sous différentes complexités de problèmes et différentes chaînes de réflexion. Performances en profondeur.

La figure 11 présente les résultats globaux, la précision de Gemini Pro est légèrement inférieure à celle de GPT 3.5 Turbo et bien inférieure à celle de GPT 4 Turbo dans des tâches telles que GSM8K, SVAMP et ASDIV avec différents modes de langue. Pour les tâches de MAWPS, Gemini Pro est encore légèrement inférieur au modèle GPT, bien que tous les modèles testés atteignent une précision supérieure à 90 %. Dans cette tâche, GPT 3.5 Turbo surpasse de peu GPT 4 Turbo. En comparaison, la précision du modèle Mistral est bien inférieure à celle des autres modèles.
摸底谷歌Gemini:CMU全面测评,Gemini Pro不敌GPT 3.5 Turbo
Figure 11 : Précision globale du modèle testé dans quatre tâches d'ensemble de tests de raisonnement mathématique.

La robustesse de chaque modèle par rapport à la longueur du problème est illustrée à la figure 12. Semblable aux tâches d'inférence de BIG-Bench Hard, le modèle testé a montré une précision réduite lorsqu'il répondait à des questions plus longues.GPT 3.5 Turbo fonctionne mieux que Gemini Pro sur des questions plus courtes, mais régresse plus rapidement, et Gemini Pro est similaire à GPT 3.5 Turbo en termes de précision sur des questions plus longues, mais est toujours légèrement en retard.
摸底谷歌Gemini:CMU全面测评,Gemini Pro不敌GPT 3.5 Turbo
Figure 12 : La précision du modèle testé dans la génération de réponses à différentes longueurs de questions dans quatre tâches d'ensemble de tests de raisonnement mathématique.

De plus, les auteurs ont observé des différences dans la précision des modèles testés lorsque la réponse nécessitait une chaîne de réflexion plus longue. Comme le montre la figure 13, GPT 4 Turbo est très robuste même lors de l'utilisation de longues chaînes d'inférence, tandis que GPT 3.5 Turbo, Gemini Pro et Mixtral présentent des limites lorsque la longueur du COT augmente. Grâce à l'analyse, les auteurs ont également constaté que Gemini Pro surpassait GPT 3.5 Turbo dans les exemples complexes avec des longueurs COT supérieures à 100, mais fonctionnait mal dans les exemples plus courts.
摸底谷歌Gemini:CMU全面测评,Gemini Pro不敌GPT 3.5 Turbo
Figure 13 : Précision de chaque modèle sur GSM8K sous différentes longueurs de chaîne de réflexion.

La figure 14 montre la précision du modèle testé dans la génération de réponses pour différents nombres de chiffres. Les auteurs ont créé trois « compartiments » selon que la réponse contenait 1, 2 ou 3 chiffres ou plus (à l'exception de la tâche MAWPS, qui n'avait pas de réponses à plus de deux chiffres). Comme le montre la figure, GPT 3.5 Turbo semble être plus robuste aux problèmes mathématiques à plusieurs chiffres, tandis que Gemini Pro se dégrade sur les problèmes avec des nombres plus élevés.
摸底谷歌Gemini:CMU全面测评,Gemini Pro不敌GPT 3.5 Turbo
Figure 14 : Précision de chaque modèle dans quatre tâches d'ensemble de tests de raisonnement mathématique lorsque le nombre de chiffres de réponse est différent.

Génération de code

Dans cette partie, l'auteur utilise deux ensembles de données de génération de code - HumanEval et ODEX - pour tester la capacité de codage du modèle. Le premier teste la compréhension de base du code d'un modèle d'un ensemble limité de fonctions dans la bibliothèque standard Python, et le second teste la capacité d'un modèle à utiliser un ensemble plus large de bibliothèques dans l'écosystème Python. L'entrée pour les deux problèmes est constituée d'instructions de tâches écrites en anglais (généralement avec des cas de test). Ces questions sont utilisées pour évaluer la compréhension du langage, la compréhension des algorithmes et la capacité en mathématiques élémentaires du modèle. Au total, HumanEval dispose de 164 échantillons de test et ODEX dispose de 439 échantillons de test.

Tout d'abord, à partir des résultats globaux présentés dans la figure 15, nous pouvons voir que le score Pass@1 de Gemini Pro sur les deux tâches est inférieur à celui de GPT 3.5 Turbo et également bien inférieur à celui de GPT 4 Turbo. Ces résultats indiquent que les capacités de génération de code de Gemini laissent place à des améliorations.
摸底谷歌Gemini:CMU全面测评,Gemini Pro不敌GPT 3.5 Turbo
Figure 15 : Précision globale de chaque modèle dans la tâche de génération de code.

Deuxièmement, l'auteur a analysé la relation entre la longueur de la solution d'or et les performances du modèle dans la figure 16 (a). La longueur de la solution peut expliquer dans une certaine mesure la difficulté de la tâche de génération de code correspondante. Les auteurs constatent que Gemini Pro obtient des scores Pass@1 comparables à GPT 3.5 lorsque la longueur de la solution est inférieure à 100 (comme dans le cas le plus simple), mais il est considérablement en retard lorsque la longueur de la solution s'allonge. Il s'agit d'un contraste intéressant avec les résultats des sections précédentes, dans lesquelles les auteurs ont constaté que Gemini Pro était généralement robuste aux entrées et sorties plus longues dans les tâches en anglais.
摸底谷歌Gemini:CMU全面测评,Gemini Pro不敌GPT 3.5 Turbo
L'auteur a également analysé l'impact des bibliothèques requises pour chaque solution sur les performances du modèle dans la figure 16(b). Dans la plupart des cas d'utilisation de bibliothèques, tels que les mocks, les pandas, numpy et datetime, Gemini Pro fonctionne moins bien que GPT 3.5. Cependant, dans le cas d'utilisation de matplotlib, il surpasse GPT 3.5 et GPT 4, indiquant sa plus grande capacité à effectuer des visualisations de tracé via le code.

Enfin, l'auteur montre plusieurs cas d'échec spécifiques où Gemini Pro est moins performant que GPT 3.5 en génération de code. Premièrement, ils ont remarqué que Gemini était légèrement inférieur à la sélection correcte des fonctions et des paramètres dans l'API Python.Par exemple, étant donné l'invite suivante :
摸底谷歌Gemini:CMU全面测评,Gemini Pro不敌GPT 3.5 Turbo
Gemini Pro a généré le code suivant, ce qui a entraîné une erreur d'incompatibilité de type :
摸底谷歌Gemini:CMU全面测评,Gemini Pro不敌GPT 3.5 Turbo
En revanche, GPT 3.5 Turbo a utilisé le code suivant, qui a obtenu l'effet souhaité :
摸底谷歌Gemini:CMU全面测评,Gemini Pro不敌GPT 3.5 Turbo
De plus, Gemini Pro a un pourcentage d'erreurs plus élevé, où le code exécuté est syntaxiquement correct mais ne correspond pas correctement à des intentions plus complexes. Par exemple, concernant les conseils suivants :
摸底谷歌Gemini:CMU全面测评,Gemini Pro不敌GPT 3.5 Turbo
Gemini Pro a créé une implémentation qui extrait uniquement les numéros uniques sans supprimer ceux qui apparaissent plusieurs fois.
摸底谷歌Gemini:CMU全面测评,Gemini Pro不敌GPT 3.5 Turbo
Traduction automatique

Cet ensemble d'expériences utilise le benchmark de traduction automatique FLORES-200 pour évaluer les capacités multilingues du modèle, en particulier sa capacité à traduire entre différentes paires de langues. Les auteurs se concentrent sur un sous-ensemble différent des 20 langues utilisées dans l'analyse de Robinson et al. (2023), couvrant divers degrés de disponibilité des ressources et de difficulté de traduction. Les auteurs ont évalué 1 012 phrases dans l’ensemble de tests pour toutes les paires de langues sélectionnées.

Dans les tableaux 4 et 5, l'auteur effectue une analyse comparative de Gemini Pro, GPT 3.5 Turbo et GPT 4 Turbo avec des systèmes matures tels que Google Translate. De plus, ils ont comparé le NLLB-MoE, un modèle leader de traduction automatique open source connu pour sa large couverture linguistique. Les résultats montrent que Google Translate surpasse globalement les autres modèles, avec de bons résultats dans 9 langues, suivi de NLLB, qui fonctionne bien dans 6/8 langues sous le paramètre 0/5-shot. Les modèles linguistiques à usage général ont montré des performances compétitives mais n'ont pas encore surpassé les systèmes de traduction automatique spécialisés dans la traduction vers des langues autres que l'anglais.
摸底谷歌Gemini:CMU全面测评,Gemini Pro不敌GPT 3.5 Turbo
Tableau 4 : Performances (score chRF (%)) de chaque modèle pour la traduction automatique dans toutes les langues à l'aide d'indices 0-shot. Le meilleur score est affiché en gras et le meilleur score suivant est souligné.
摸底谷歌Gemini:CMU全面测评,Gemini Pro不敌GPT 3.5 Turbo
Tableau 5 : Performances (score chRF (%)) de chaque modèle pour la traduction automatique utilisant des astuces en 5 étapes pour toutes les langues. Le meilleur score est affiché en gras et le meilleur score suivant est souligné.

La figure 17 montre la comparaison des performances du modèle de langage général dans différentes paires de langues. GPT 4 Turbo présente un biais de performances constant avec NLLB par rapport à GPT 3.5 Turbo et Gemini Pro. GPT 4 Turbo présente également des améliorations plus importantes dans les langages à faibles ressources, tandis que dans les langages à ressources élevées, les performances des deux LLM sont similaires. En comparaison, Gemini Pro a surpassé GPT 3.5 Turbo et GPT 4 Turbo dans 8 langues sur 20 et a atteint des performances optimales dans 4 langues. Cependant, Gemini Pro a montré une forte tendance à bloquer les réponses dans environ 10 paires de langues.
摸底谷歌Gemini:CMU全面测评,Gemini Pro不敌GPT 3.5 Turbo
Figure 17 : Performances de traduction automatique (score chRF (%)) par paires de langues.

La figure 18 montre que Gemini Pro a des performances inférieures dans ces langues car il a tendance à masquer les réponses dans des scénarios de confiance moindre. Si Gemini Pro génère une erreur « Réponse bloquée » dans une configuration à 0 ou 5 tirs, la réponse est considérée comme « bloquée ».
摸底谷歌Gemini:CMU全面测评,Gemini Pro不敌GPT 3.5 Turbo
Figure 18 : Nombre d'échantillons bloqués par Gemini Pro.

Un examen plus approfondi de la figure 19 montre que Gemini Pro surpasse légèrement GPT 3.5 Turbo et GPT 4 Turbo dans l'échantillon non blindé avec une confiance plus élevée.Plus précisément, il surpasse le GPT 4 Turbo de 1,6 chrf et 2,6 chrf aux réglages 5 coups et 0 coup respectivement, et surpasse le GPT 3,5 Turbo de 2,7 chrf et 2 chrf. Cependant, l'analyse préliminaire des auteurs des performances de GPT 4 Turbo et GPT 3.5 Turbo sur ces échantillons montre que la traduction de ces échantillons est généralement plus difficile. Gemini Pro fonctionne mal sur ces échantillons particuliers, et il est particulièrement visible que le Gemini Pro 0-shot masque les réponses alors que le 5-shot ne le fait pas, et vice versa.
摸底谷歌Gemini:CMU全面测评,Gemini Pro不敌GPT 3.5 Turbo
Figure 19 : performance chrf (%) pour les échantillons masqués et non masqués.

Tout au long de l'analyse du modèle, l'auteur a observé que les indices en quelques coups améliorent généralement modérément les performances moyennes, avec des modèles de variance croissants : GPT 4 Turbo

La figure 20 montre des tendances claires par famille de langues ou par écriture. Une observation importante est que le Gemini Pro est compétitif par rapport aux autres modèles sur l’écriture cyrillique, mais pas aussi bien sur d’autres écritures. GPT-4 fonctionne de manière exceptionnelle sur divers scripts, surpassant les autres modèles, parmi lesquels quelques astuces sont particulièrement efficaces. Cet effet est particulièrement évident dans les langues utilisant le sanskrit.
摸底谷歌Gemini:CMU全面测评,Gemini Pro不敌GPT 3.5 Turbo
Figure 20 : Performances de chaque modèle sur différents scripts (chrf (%)).

Agents Web

Enfin, les auteurs examinent la capacité de chaque modèle en tant qu'agent de navigation réseau, une tâche qui nécessite une planification à long terme et une compréhension complexe des données. Ils ont utilisé un environnement de simulation, WebArena, où le succès était mesuré par les résultats d'exécution. Les tâches assignées à l'agent incluent la recherche d'informations, la navigation sur le site Web et la manipulation du contenu et de la configuration. Les tâches couvrent une variété de sites Web, notamment les plateformes de commerce électronique, les forums sociaux, les plateformes de développement de logiciels collaboratifs (telles que gitlab), les systèmes de gestion de contenu et les cartes en ligne.

Les auteurs ont testé le taux de réussite global de Gemini-Pro, le taux de réussite sur différentes tâches, la longueur de réponse, les étapes de la trajectoire et la tendance à prédire l'échec des tâches. Le tableau 6 répertorie les performances globales. Les performances de Gemini-Pro sont proches, mais légèrement inférieures, de GPT-3.5-Turbo. Semblable à GPT-3.5-Turbo, Gemini-Pro fonctionne mieux lorsque l'indice mentionne que la tâche pourrait ne pas être terminée (indice UA). Avec l'indice UA, Gemini-Pro a un taux de réussite global de 7,09 %.
摸底谷歌Gemini:CMU全面测评,Gemini Pro不敌GPT 3.5 Turbo
Tableau 6 : Performances de chaque modèle sur WebArena.

Si vous le décomposez par type de site Web, comme le montre la figure 21, vous pouvez voir que Gemini-Pro fonctionne moins bien que GPT-3.5-Turbo sur gitlab et maps, tandis que sur la gestion des achats, reddit et shopping sites Web Les performances sont proches de GPT-3.5-Turbo. Gemini-Pro surpasse GPT-3.5-Turbo sur les tâches multi-sites, ce qui est cohérent avec les résultats précédents montrant que Gemini fonctionne légèrement mieux sur des sous-tâches plus complexes selon divers benchmarks.
摸底谷歌Gemini:CMU全面测评,Gemini Pro不敌GPT 3.5 Turbo
Figure 21 : Taux de réussite des agents Web du modèle sur différents types de sites Web.

Comme le montre la figure 22, en général, Gemini-Pro prédit que davantage de tâches sont impossibles à accomplir, en particulier lorsqu'un indice UA est donné. Gemini-Pro a prédit que plus de 80,6 % des tâches ne pourraient pas être accomplies compte tenu de l'indice UA, tandis que GPT-3.5-Turbo n'en prévoyait que 47,7 %. Il est important de noter que seulement 4,4 % des tâches de l’ensemble de données sont réellement irréalisables, de sorte que les deux surestiment largement le nombre réel de tâches irréalisables.
摸底谷歌Gemini:CMU全面测评,Gemini Pro不敌GPT 3.5 Turbo
Figure 22 : Numéro de prévision UA.

Dans le même temps, les auteurs ont observé que Gemini Pro était plus susceptible de répondre avec des phrases plus courtes, prenant moins d'étapes avant de parvenir à une conclusion. Comme le montre la figure 23(a), Gemini Pro a plus de la moitié de ses trajectoires avec moins de 10 pas, tandis que la plupart des trajectoires du GPT 3.5 Turbo et du GPT 4 Turbo sont comprises entre 10 et 30 pas.De même, la plupart des réponses de Gemini comportent moins de 100 caractères, tandis que la plupart des réponses de GPT 3.5 Turbo, GPT 4 Turbo et Mixtral comportent plus de 300 caractères (Figure 23 (b)). Les Gémeaux ont tendance à prédire les actions directement, tandis que d'autres modèles raisonnent d'abord puis donnent des prédictions d'actions.
摸底谷歌Gemini:CMU全面测评,Gemini Pro不敌GPT 3.5 Turbo
Figure 23 : Comportement du modèle sur WebArena.

Veuillez vous référer au document original pour plus de détails.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:jiqizhixin.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal