Quelles sont les différences entre le lama, l'alpaga, la vigogne et ChatGPT ? Évaluation de sept grands modèles ChatGPT-IA-php.cn

Les grands modèles de langage (LLM) deviennent populaires partout dans le monde. L'une de leurs applications importantes est le chat, et ils sont utilisés dans les questions et réponses, le service client et bien d'autres aspects. Cependant, les chatbots sont notoirement difficiles à évaluer. On ne sait pas encore exactement dans quelles circonstances ces modèles sont mieux utilisés. Par conséquent, l’évaluation du LLM est très importante.

Auparavant, un blogueur Medium nommé Marco Tulio Ribeiro a mené une #🎜 sur Vicuna-13B, MPT-7b-Chat et ChatGPT 3.5 sur certaines tâches complexes 🎜##🎜 🎜#test. Les résultats montrent que Vicuna est une alternative viable à ChatGPT (3.5) pour de nombreuses tâches, alors que MPT n'est pas encore prêt pour une utilisation dans le monde réel.

Récemment, le professeur agrégé de la CMU Graham Neubig a mené une évaluation détaillée de sept chatbots existants, a produit un outil open source pour une comparaison automatique et a finalement rédigé un rapport d'évaluation. Dans ce rapport, les évaluateurs ont présenté quelques résultats préliminaires d'évaluation et de comparaison des chatbots, dans le but de permettre aux utilisateurs de comprendre plus facilement l'état actuel de tous les modèles open source apparus récemment et des modèles basés sur des API.

Plus précisément, l'évaluateur a créé une nouvelle boîte à outils open source, Zeno Build, pour évaluer le LLM. La boîte à outils combine : (1) une interface unifiée pour utiliser le LLM open source via Hugging Face ou l'API en ligne (2) une interface en ligne pour parcourir et analyser les résultats à l'aide de Zeno, et (3) des métriques pour l'évaluation SOTA du texte à l'aide de Critique ;

Quelles sont les différences entre le lama, lalpaga, la vigogne et ChatGPT ? Évaluation de sept grands modèles ChatGPT

Résultats spécifiques pour participer : https : //zeno-ml-chatbot-report.hf.space/

Ce qui suit est un résumé des résultats de l'évaluation :

# 🎜🎜##🎜 🎜#

Quelles sont les différences entre le lama, lalpaga, la vigogne et ChatGPT ? Évaluation de sept grands modèles ChatGPT Les évaluateurs ont évalué 7 modèles de langage : GPT-2, LLaMa, Alpaca, Vicuna, MPT-Chat, Cohere Command et ChatGPT (gpt-3.5-turbo) ; ## 🎜🎜#

Les modèles sont évalués en fonction de leur capacité à créer des réponses de type humain sur un ensemble de données de service client ; est arrivé en tête, mais le modèle open source Vicuna est également très compétitif 🎜#L'ingénierie rapide est très utile pour améliorer les performances du dialogue du modèle lors des premiers tours de dialogue, mais dans les tours ultérieurs, lorsqu'il y a plus de contexte, l'effet est moins évident

Même un modèle aussi puissant que ChatGPT a de nombreux problèmes évidents, tels que des hallucinations, l'incapacité de explorer plus d’informations, dupliquer du contenu, etc.

Voici les détails de l'examen.
Paramètres
Présentation du modèle
#🎜 🎜 #Evaluator utilise l'ensemble de données du service client DSTC11
. DSTC11 est un ensemble de données du Dialogue Systems Technology Challenge qui vise à prendre en charge des conversations plus informatives et plus engageantes axées sur les tâches en exploitant les connaissances subjectives dans les publications de commentaires.
L'ensemble de données DSTC11 contient plusieurs sous-tâches, telles que le dialogue multi-tours, le dialogue multi-domaine, etc. Par exemple, l'une des sous-tâches est un dialogue à plusieurs tours basé sur des critiques de films, où le dialogue entre l'utilisateur et le système est conçu pour aider l'utilisateur à trouver des films qui correspondent à ses goûts.

Ils ont testé les 7 modèles suivants

GPT-2 : Un modèle de langage classique en 2019. Les évaluateurs l'ont inclus comme référence pour voir dans quelle mesure les progrès récents en matière de modélisation linguistique ont un impact sur la création de meilleurs modèles de discussion.
LLaMa : Un modèle de langage formé à l'origine par Meta AI en utilisant l'objectif de modélisation de langage direct. La version 7B du modèle a été utilisée dans le test, et les modèles open source suivants utilisent également la même version à l'échelle
Alpaca : un modèle basé sur LLaMa, mais avec réglage des instructions ; basé sur LLaMa, explicitement optimisé pour les applications basées sur des chatbots ;
MPT-Chat : un modèle formé à partir de zéro de la même manière que Vicuna, qui a une licence plus commerciale
Cohere Command : une API ; modèle basé sur Cohere, qui a été affiné en termes de conformité des commandes
ChatGPT (gpt-3.5-turbo) : un modèle de chat standard basé sur une API développé par OpenAI ;
Pour tous les modèles, l'examinateur a utilisé les paramètres par défaut. Ceux-ci incluent une température de 0,3, une fenêtre contextuelle de 4 tours de conversation précédents et une invite standard : "Vous êtes un chatbot chargé de bavarder avec les gens."

Metriques d'évaluation

Les évaluateurs évaluent ces modèles en fonction de la similitude de leurs résultats avec les réponses humaines du service client. Cela se fait à l'aide des métriques fournies par la boîte à outils Critique :

chrf : mesure le chevauchement des chaînes ;

BERTScore : mesure le chevauchement des plongements entre deux discours ; la sortie de la prédiction correspond au cycle de discussion précédent.
Ils ont également mesuré le rapport de longueur, en divisant la longueur de la sortie par la longueur de la réponse humaine de référence, pour mesurer le degré de bavardage du chatbot.

Pour approfondir les résultats, l'examinateur a utilisé l'interface d'analyse de Zeno, en particulier son générateur de rapports, pour analyser les résultats en fonction de la position dans la conversation (début, début, segmentation des exemples par type de conversation). longueurs de référence des réponses humaines (courtes, moyennes, longues) et utilisez son interface d'exploration pour voir des exemples de notation mal automatisés et mieux comprendre où chaque modèle échoue.

Résultats

Quelle est la performance globale du modèle ?

Selon toutes ces mesures, gpt-3.5-turbo est clairement le gagnant ; Vicuna est le gagnant de l'open source et GPT-2 n'est pas si bon, ce qui montre l'importance de s'entraîner directement dans le chat.

Ces classements correspondent également à peu près à ceux de lmsys chat arena, qui utilise des tests A/B humains pour comparer les modèles, mais les résultats de Zeno Build sont obtenus sans aucune évaluation humaine.

Concernant la longueur de sortie, la sortie de gpt3.5-turbo est beaucoup plus détaillée que celle des autres modèles, et il semble que les modèles réglés dans le sens du chat donnent généralement une sortie détaillée. Quelles sont les différences entre le lama, lalpaga, la vigogne et ChatGPT ? Évaluation de sept grands modèles ChatGPT

Précision de la longueur de réponse de référence

Quelles sont les différences entre le lama, lalpaga, la vigogne et ChatGPT ? Évaluation de sept grands modèles ChatGPT

Ensuite, les évaluateurs ont utilisé l'interface utilisateur du rapport Zeno pour creuser plus profondément. Premièrement, ils ont mesuré la précision séparément en fonction de la longueur des réponses humaines. Ils ont classé les réponses en trois catégories : courtes (≤ 35 caractères), moyennes (36 à 70 caractères) et longues (≥ 71 caractères) et ont évalué leur précision individuellement.

gpt-3.5-turbo et Vicuna maintiennent la précision même lors de cycles de dialogue plus longs, tandis que la précision des autres modèles diminue.

Quelles sont les différences entre le lama, lalpaga, la vigogne et ChatGPT ? Évaluation de sept grands modèles ChatGPT

La question suivante est de savoir quelle est l'importance de la taille de la fenêtre contextuelle ? Les évaluateurs ont mené des expériences avec Vicuna et la fenêtre contextuelle variait de 1 à 4 discours précédents. Lorsqu'ils ont augmenté la fenêtre contextuelle, les performances du modèle ont augmenté, ce qui indique que des fenêtres contextuelles plus grandes sont importantes.

Quelles sont les différences entre le lama, lalpaga, la vigogne et ChatGPT ? Évaluation de sept grands modèles ChatGPT

Les résultats de l'évaluation montrent qu'un contexte plus long est particulièrement important au milieu et à la fin de la conversation, car les réponses dans ces positions n'ont pas autant de modèles et s'appuient davantage sur ce qui a été dit auparavant. .

Quelles sont les différences entre le lama, lalpaga, la vigogne et ChatGPT ? Évaluation de sept grands modèles ChatGPT

Plus de contexte est particulièrement important lorsque l'on essaie de générer une sortie plus courte de référence (probablement parce qu'il y a plus d'ambiguïté).

Quelles sont les différences entre le lama, lalpaga, la vigogne et ChatGPT ? Évaluation de sept grands modèles ChatGPT

Quelle est l'importance de l'invite ?

L'évaluateur a essayé 5 invites différentes, dont 4 sont universelles, et une est spécifiquement adaptée aux tâches de chat du service client dans le domaine de l'assurance :

Standard : "Vous êtes un chatbot, chargé de discuter avec "
Amical : "Vous êtes un chatbot gentil et amical. Votre tâche est de discuter avec les gens de manière agréable."
Oui Poli : "Vous êtes un chatbot très poli, parlez de manière très formelle et essayez d'éviter de faire des erreurs dans vos réponses. le secteur de l'assurance : "Vous êtes un membre du personnel du service d'assistance de Rivertown Insurance, aidant principalement à résoudre les problèmes de réclamation d'assurance."
En général, en utilisant ces invites, les évaluateurs n'ont pas détecté de différences significatives en raison des différentes invites, mais le chatbot « cynique » était légèrement moins bon, et le chatbot « assurance » sur mesure était globalement légèrement meilleur.

La différence apportée par les différentes invites est particulièrement évidente dans le premier tour de la conversation, ce qui montre que les invites sont les plus importantes lorsqu'il y a peu d'autres contextes sur lesquels s'appuyer.

Quelles sont les différences entre le lama, lalpaga, la vigogne et ChatGPT ? Évaluation de sept grands modèles ChatGPT

Bogues trouvés et atténuations possibles

Enfin, le critique a utilisé l'interface utilisateur d'exploration de Zeno pour essayer de trouver des bogues possibles via gpt-3.5-turbo. Plus précisément, ils ont examiné tous les exemples avec un faible chrf (

Quelles sont les différences entre le lama, lalpaga, la vigogne et ChatGPT ? Évaluation de sept grands modèles ChatGPT

Échec de la sonde

Parfois, le modèle n'est pas en mesure de sonder plus d'informations lorsque cela est réellement nécessaire, par exemple, le modèle n'est pas encore parfait dans la gestion des numéros (les numéros de téléphone doivent comporter 11 chiffres, la longueur des numéros donnés par le modèle ne correspond pas à la réponse). Cela peut être atténué en modifiant l'invite pour rappeler au modèle la longueur requise de certaines informations.

Quelles sont les différences entre le lama, lalpaga, la vigogne et ChatGPT ? Évaluation de sept grands modèles ChatGPT

Contenu en double

Parfois, le même contenu est répété plusieurs fois, par exemple, le chatbot a dit "merci" deux fois ici.

Quelles sont les différences entre le lama, lalpaga, la vigogne et ChatGPT ? Évaluation de sept grands modèles ChatGPT

Une réponse qui a du sens, mais pas comme le font les humains

Parfois, la réponse est raisonnable, mais pas comme le feraient les humains.

Quelles sont les différences entre le lama, lalpaga, la vigogne et ChatGPT ? Évaluation de sept grands modèles ChatGPT

Ce qui précède sont les résultats de l'évaluation. Enfin, les évaluateurs espèrent que ce rapport sera utile aux chercheurs ! Si vous souhaitez toujours essayer d'autres modèles, ensembles de données, invites ou autres paramètres d'hyperparamètres, vous pouvez accéder à l'exemple de chatbot sur le référentiel zeno-build pour l'essayer.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!