La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com
Les auteurs de l'article sont tous du laboratoire de technologie linguistique de l'université de Cambridge. L'un d'eux est Liu Yinhong, un doctorant de troisième année, et ses superviseurs. sont les professeurs Nigel Collier et Ehsan Shareghi. Ses intérêts de recherche portent sur l'évaluation de grands modèles et de textes, la génération de données, etc. Zhou Han, doctorant en deuxième année à Tongyi, est encadré par les professeurs Anna Korhonen et Ivan Vulić. Ses recherches portent sur les grands modèles efficaces.
Le grand modèle présente d'excellentes capacités de suivi des commandes et de généralisation des tâches. Cette capacité unique provient de l'utilisation des données de suivi des commandes et de l'apprentissage par renforcement par rétroaction humaine (RLHF) dans la formation LLM. Dans le paradigme de formation RLHF, le modèle de récompense est aligné sur les préférences humaines sur la base des données de comparaison de classement. Cela améliore l'alignement des LLM sur les valeurs humaines, générant ainsi des réponses qui aident mieux les humains et adhèrent aux valeurs humaines.
Récemment, la première grande conférence de modèles COLM vient d'annoncer les résultats d'acceptation. L'un des travaux les plus performants a analysé le problème de biais de score difficile à éviter et à corriger lorsque le LLM est utilisé comme évaluateur de texte, et a proposé de convertir le problème. problème d'évaluation en un problème de classement des préférences, et a ainsi conçu l'algorithme PairS, un algorithme qui peut rechercher et trier à partir de préférences par paires. En tirant parti des hypothèses d'incertitude et de transitivité LLM, PairS peut donner des classements de préférences efficaces et précis et démontrer une plus grande cohérence avec le jugement humain sur plusieurs ensembles de tests.
Lien de l'article : https://arxiv.org/abs/2403.16950
Titre de l'article : Alignement avec le jugement humain : le rôle de la préférence par paire dans les évaluateurs de grands modèles linguistiques
Adresse Github : https://github.com/cambridgeltl/PairS
Quels sont les problèmes liés à l'évaluation de grands modèles ?
Un grand nombre de travaux récents ont démontré l'excellente performance des LLM dans l'évaluation de la qualité du texte, formant un nouveau paradigme pour l'évaluation sans référence des tâches génératives, évitant ainsi des coûts coûteux d'annotation humaine. Cependant, les évaluateurs LLM sont très sensibles à la conception des invites et peuvent même être affectés par de multiples biais, notamment le biais de position, le biais de verbosité et le biais contextuel. Ces préjugés empêchent les évaluateurs LLM d'être justes et dignes de confiance, entraînant des incohérences et des désalignements avec le jugement humain.
Pour réduire les prédictions biaisées des LLM, des travaux antérieurs ont développé des techniques d'étalonnage pour réduire les biais dans les prédictions des LLM. Nous effectuons d’abord une analyse systématique de l’efficacité des techniques de calage pour aligner les estimateurs LLM ponctuels. Comme le montre la figure 2 ci-dessus, les méthodes de calage existantes n'alignent toujours pas bien l'estimateur LLM, même lorsque des données de supervision sont fournies.
Comme le montre la Formule 1, nous pensons que la principale raison du désalignement de l'évaluation n'est pas les a priori biaisés sur la distribution des scores d'évaluation du LLM, mais le désalignement de la norme d'évaluation, c'est-à-dire la probabilité de l'évaluateur du LLM. Nous pensons que les évaluateurs LLM auront des critères d'évaluation plus cohérents avec ceux des humains lors de l'évaluation par paires. Nous explorons donc un nouveau paradigme d'évaluation LLM pour promouvoir des jugements plus alignés.
Inspiration apportée par RLHF
Comme le montre la figure 1 ci-dessous, inspiré par l'alignement des modèles de récompense via les données de préférence dans RLHF, nous pensons que l'évaluateur LLM peut être obtenu en générant un classement de préférences plus humain. -prédictions alignées. Certains travaux récents ont commencé à obtenir des classements de préférences en demandant à LLM d'effectuer des comparaisons par paires. Cependant, l’évaluation de la complexité et de l’évolutivité des classements de préférences a été largement négligée. Ils ignorent l'hypothèse de transitivité, rendant le nombre de comparaisons O (N^2), rendant le processus d'évaluation coûteux et irréalisable.
PairS: 효율적인 선호 검색 알고리즘
본 연구에서는 두 가지 쌍별 선호 검색 알고리즘(PairS-greedy 및 pairS-beam)을 제안합니다. pairS-greedy는 완전한 전이성 가정과 병합 정렬을 기반으로 하는 알고리즘으로 O(NlogN) 복잡도로 전역 우선 정렬을 얻을 수 있습니다. 전이성 가정은 예를 들어 3명의 후보자에 대해 LLM이 항상 A≻B 및 B≻C이면 A≻C라는 것을 의미합니다. 이 가정 하에서 우리는 쌍별 선호도로부터 선호도 순위를 얻기 위해 전통적인 순위 알고리즘을 직접 사용할 수 있습니다.
하지만 LLM은 완벽한 전이성을 가지지 못하기 때문에 pairS-beam 알고리즘을 설계했습니다. 보다 느슨한 전이성 가정 하에서 선호도 순위에 대한 우도 함수를 도출하고 단순화합니다. pairS-beam은 병합 정렬 알고리즘의 각 병합 연산에서 우도 값을 기반으로 빔 탐색을 수행하고, 선호도의 불확실성을 통해 쌍별 비교 공간을 줄이는 탐색 방법이다. pairS-beam은 대비 복잡도와 순위 품질을 조정하고 선호도 순위의 최대 우도 추정(MLE)을 효율적으로 제공할 수 있습니다. 아래 그림 3에서는 pairS-beam이 병합 작업을 수행하는 방법의 예를 보여줍니다.
실험 결과
폐쇄형 약어 작업 NewsRoom 및 SummEval과 개방형 스토리 생성 작업 HANNA를 포함한 여러 대표 데이터 세트를 테스트하고 LLM 단일 지점에 대한 여러 기준 방법을 비교했습니다. 감독되지 않은 직접 채점, G-Eval, GPTScore 및 감독된 교육 UniEval 및 BARTScore를 포함한 평가. 아래 표 1에서 볼 수 있듯이 pairS는 모든 작업에서 사람 평가보다 사람 평가와의 일관성이 더 높습니다. GPT-4 터보는 SOTA 효과도 달성할 수 있습니다.
이 기사에서는 선호도 순위, 승률 및 ELO 등급에 대한 두 가지 기본 방법도 비교했습니다. pairS는 비교 횟수의 약 30%만으로 동일한 품질 선호도 순위를 달성할 수 있습니다. 또한 이 논문은 쌍별 선호도를 사용하여 LLM 추정기의 전이성을 정량적으로 계산하는 방법과 쌍별 추정기가 교정을 통해 어떤 이점을 얻을 수 있는지에 대한 더 많은 통찰력을 제공합니다.
자세한 연구 내용은 원문을 참고해주세요.
위 내용은 최초의 대형 모델 컨퍼런스인 COLM에서 높은 점수를 받은 논문: 선호도 검색 알고리즘인 pairS를 사용하면 대형 모델의 텍스트 평가를 더욱 효율적으로 수행할 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!