사이즈에만 관련된 모델 선호? Shanghai Jiao Tong University는 인간 선호의 정량적 구성 요소와 32개의 대규모 모델을 종합적으로 분석합니다.

王林
풀어 주다: 2024-03-04 09:31:43
앞으로
991명이 탐색했습니다.

현재의 모델 학습 패러다임에서는 선호도 데이터의 획득과 활용이 필수적인 부분이 되었습니다. 훈련에서는 인간이나 AI 피드백을 기반으로 한 강화학습(RLHF/RLAIF)이나 직접 선호 최적화(DPO) 등 정렬 시 훈련 최적화 대상으로 선호도 데이터가 주로 사용되는 반면, 모델 평가에서는 작업으로 인해 선호도 데이터가 사용되기 때문이다. 일반적으로 문제의 복잡성으로 인해 표준 답변이 없으므로 인간 주석 작성자 또는 고성능 대형 모델(LLM-as-a-Judge)의 선호도 주석이 일반적으로 판단 기준으로 직접 사용됩니다.

위에서 언급한 선호도 데이터의 적용은 광범위한 결과를 얻었지만 선호도 자체에 대한 충분한 연구가 부족하여 보다 신뢰할 수 있는 AI 시스템 구축에 큰 방해가 되었습니다. 이를 위해 상하이자오퉁대학교 생성인공지능연구소(GAIR)는 인간 사용자가 표시하는 선호도와 최대 32개의 인기 대형 언어 모델을 체계적이고 종합적으로 분석하여 다양한 소스의 선호도 데이터가 어떻게 나타나는지 알아보는 새로운 연구 결과를 발표했습니다. 무해함, 유머, 한계 인정 등 미리 정의된 다양한 속성으로 정량적으로 구성됩니다.

에서 수행한 분석은 다음과 같은 특징을 가지고 있습니다.

  • 실제 애플리케이션에 초점: 연구에 사용된 데이터는 모두 실제 사용자 모델 대화에서 파생되므로 실제 애플리케이션에서의 선호도를 더 잘 반영할 수 있습니다.
  • 시나리오 모델링: 다양한 시나리오(예: 일상 커뮤니케이션, 창의적 글쓰기)에 속하는 데이터를 독립적으로 모델링하고 분석하여 다양한 시나리오 간의 상호 영향을 피하고 결론을 더 명확하고 신뢰할 수 있게 만듭니다.
  • 통합 프레임워크: 인간과 대형 모델의 선호도를 분석하기 위해 통합 프레임워크를 채택했으며 확장성이 좋습니다.

연구 결과:

  • 인간 사용자는 모델 응답의 오류에 덜 민감하고, 답변 거부로 이어지는 자신의 한계를 인정하는 것에 대한 명확한 혐오감을 가지며, 주관적인 입장 답변을 지지하는 사용자를 선호합니다. . GPT-4-Turbo와 같은 고급 대형 모델은 오류가 없고 명확하게 표현되며 안전한 응답을 선호합니다.
  • 비슷한 크기의 대형 모델은 유사한 선호도를 보이는 반면, 대형 모델은 정렬 미세 조정 전후의 선호도 구성이 거의 변하지 않고 표현된 선호도의 강도만 변경됩니다.
  • 선호도 기반 평가는 의도적으로 조작될 수 있습니다. 평가자가 좋아하는 속성으로 테스트 중인 모델이 응답하도록 장려하면 점수가 향상될 수 있는 반면, 인기가 가장 낮은 속성을 주입하면 점수가 낮아질 수 있습니다.

사이즈에만 관련된 모델 선호? Shanghai Jiao Tong University는 인간 선호의 정량적 구성 요소와 32개의 대규모 모델을 종합적으로 분석합니다.

"일상 커뮤니케이션" 시나리오에서 선호도 분석 결과에 따라 그림 1은 인간, GPT-4-Turbo 및 LLaMA-2-70B-Chat의 다양한 속성에 대한 선호도를 보여줍니다. 값이 클수록 해당 속성에 대한 선호도가 높음을 나타내고, 값이 50보다 작으면 해당 속성에 관심이 없음을 나타냅니다.

이 프로젝트는 풍부한 콘텐츠와 리소스를 오픈 소스로 제공합니다.

  • 대화형 데모: 모든 분석의 시각화 및 논문에 자세히 표시되지 않은 보다 자세한 결과를 포함하며 새 모델 업로드도 지원합니다. 정량적 선호도 분석.
  • 데이터 세트: 실제 사용자와 최대 32개 대형 모델의 선호도 라벨, 정의된 속성에 대한 자세한 주석을 포함하여 이 연구에서 수집된 사용자 모델 쌍별 대화 데이터가 포함되어 있습니다.
  • 코드: 데이터 수집에 사용되는 자동 주석 프레임워크와 사용 지침을 제공합니다. 분석 결과를 시각화하기 위한 코드도 포함되어 있습니다.

사이즈에만 관련된 모델 선호? Shanghai Jiao Tong University는 인간 선호의 정량적 구성 요소와 32개의 대규모 모델을 종합적으로 분석합니다.

  • Paper: https://arxiv.org/abs/2402.11296
  • Demo: https://huggingface.co/spaces/GAIR/Preference-Dissection-Visualization
  • 코드: https://github.com/GAIR-NLP/Preference-Dissection
  • 데이터 세트: https://huggingface.co/datasets/GAIR/preference-dissection
방법 소개

이 연구에서는 실제 응용 시나리오에서 가져온 ChatbotArena 대화 데이터 세트의 쌍을 이루는 사용자 모델 대화 데이터를 사용했습니다. 각 샘플에는 사용자 질문과 두 가지 모델 응답이 포함되어 있습니다. 연구원들은 먼저 원래 데이터 세트에 이미 포함된 이러한 샘플에 대한 인간 사용자의 선호도 라벨을 수집했습니다. 또한 연구원들은 32개의 서로 다른 개방형 또는 폐쇄형 대형 모델에서 라벨을 추가로 추론하고 수집했습니다.

이 연구에서는 먼저 GPT-4-Turbo를 기반으로 자동 주석 프레임워크를 구축하고 사전 정의된 29개 속성에 대한 점수로 모든 모델 응답에 레이블을 지정했습니다. 그런 다음 한 쌍의 점수 비교 결과를 기반으로 샘플을 얻을 수 있습니다. 각 속성에 대한 "비교 특성"은 예를 들어 응답 A의 무해성 점수가 응답 B의 무해성 점수보다 높으면 이 속성의 비교 특성은 +1이고, 그렇지 않으면 -1이며, 동일하면 0입니다.

구축된 비교 특징과 수집된 이진 선호 라벨을 활용하여 연구자는 베이지안 선형 회귀 모델을 피팅하여 비교 특징과 선호 라벨 간의 매핑 관계를 모델링할 수 있으며, 피팅된 모델의 각 속성에 해당하는 모델 가중치를 간주할 수 있습니다. 전반적인 선호도에 대한 해당 속성의 기여도입니다.

본 연구에서는 다양한 소스에서 선호도 라벨을 수집하고 시나리오 기반 모델링을 수행했기 때문에 각 시나리오에서 각 소스(인간 또는 특정 대형 모델)에 대해 선호도를 속성으로 정량적으로 분해한 결과 집합이 생성되었습니다.

사이즈에만 관련된 모델 선호? Shanghai Jiao Tong University는 인간 선호의 정량적 구성 요소와 32개의 대규모 모델을 종합적으로 분석합니다.

그림 2: 분석 프레임워크의 전체 흐름도

분석 결과

이 연구에서는 먼저 인간 사용자와 GPT-4-Turbo로 대표되는 고성능 대형 모델을 서로 다른 방식으로 분석하고 비교했습니다. 시나리오 다음은 가장 선호되는 속성과 가장 선호되지 않는 세 가지 속성입니다. 인간은 GPT-4-Turbo에 비해 오류에 훨씬 덜 민감하고, 한계를 인정하는 것을 싫어하고 답변을 거부한다는 것을 알 수 있습니다. 또한 인간은 응답이 질문의 잠재적인 오류를 수정하는지 여부에 관계없이 자신의 주관적인 입장에 맞는 응답을 선호하는 경향이 있습니다. 이에 반해 GPT-4-Turbo는 응답 표현의 정확성, 무해성, 명확성에 더 많은 주의를 기울이고 조사의 모호성을 명확히 하는 데 최선을 다하고 있습니다.

사이즈에만 관련된 모델 선호? Shanghai Jiao Tong University는 인간 선호의 정량적 구성 요소와 32개의 대규모 모델을 종합적으로 분석합니다.

그림 3: 다양한 시나리오 또는 쿼리에서 인간과 GPT-4-Turbo의 가장 선호되는 세 가지 속성과 가장 덜 선호되는 속성

사이즈에만 관련된 모델 선호? Shanghai Jiao Tong University는 인간 선호의 정량적 구성 요소와 32개의 대규모 모델을 종합적으로 분석합니다.

그림 4: 인간과 GPT-4-Turbo의 사소한/ 보통/심각한 오류, 50에 가까운 값은 둔감함을 나타냅니다.

또한, 이 연구에서는 서로 다른 대형 모델 간의 선호도 구성 요소의 유사성 정도도 조사했습니다. 대형 모델을 서로 다른 그룹으로 나누어 그룹 내 유사도와 그룹 간 유사도를 각각 계산해 보면, 매개변수의 개수(30B)에 따라 나누어 보면 그룹 내 유사도가 (0.83, 0.88)은 그룹 간 유사성(0.74)보다 분명히 높지만 다른 요인으로 나누어 보면 유사한 현상이 없어 대형 모델에 대한 선호도는 크기에 따라 크게 결정되며 훈련과는 관련이 없음을 나타냅니다. 방법.

사이즈에만 관련된 모델 선호? Shanghai Jiao Tong University는 인간 선호의 정량적 구성 요소와 32개의 대규모 모델을 종합적으로 분석합니다.

그림 5: 다양한 대형 모델(인간 포함) 간의 선호도 유사성을 매개변수 양별로 정렬합니다.

한편, 정렬 미세 조정 후 대형 모델은 사전 훈련된 버전과 거의 동일한 선호도를 보였으며, 표현된 선호도의 강도에서만 변화가 발생한 것으로 연구에서도 밝혀졌습니다. , 정렬된 모델 출력 후보 단어 A와 B에 해당하는 두 응답 간의 확률 차이가 크게 증가합니다.

사이즈에만 관련된 모델 선호? Shanghai Jiao Tong University는 인간 선호의 정량적 구성 요소와 32개의 대규모 모델을 종합적으로 분석합니다.

그림 6: 정렬 미세 조정 전과 후의 대형 모델의 선호도 변화

마지막으로 연구에서는 인간이나 대형 모델의 선호도를 서로 다른 속성으로 정량적으로 분해하여 선호도 기반의 평가 결과를 의도적으로 조작합니다. 현재 널리 사용되는 AlpacaEval 2.0 및 MT-Bench 데이터 세트에서 비훈련(시스템 정보 설정) 및 훈련(DPO) 방법을 통해 평가자(인간 또는 대형 모델)가 선호하는 속성을 주입하면 점수가 크게 향상될 수 있는 반면, 선호되지 않는 속성을 주입하면 점수가 크게 향상될 수 있습니다. 점수를 줄이세요.

사이즈에만 관련된 모델 선호? Shanghai Jiao Tong University는 인간 선호의 정량적 구성 요소와 32개의 대규모 모델을 종합적으로 분석합니다.

그림 7: 두 가지 선호도 평가 기반 데이터 세트인 MT-Bench와 AlpacaEval 2.0을 의도적으로 조작한 결과

Summary

이 연구는 인간 모델과 대형 모델의 정량적 분해에 대한 자세한 분석을 제공합니다. 환경설정 . 연구팀은 인간이 질문에 직접 반응하는 경향이 있고 오류에 덜 민감한 반면, 고성능 대형 모델은 정확성, 명확성 및 무해성에 더 많은 주의를 기울인다는 사실을 발견했습니다. 또한 연구에 따르면 모델 크기는 선호하는 구성 요소에 영향을 미치는 핵심 요소인 반면, 미세 조정을 하면 효과가 거의 없는 것으로 나타났습니다. 또한, 이 연구는 평가자의 선호도 구성 요소를 알 때 조작에 대한 여러 가지 현재 데이터 세트의 취약성을 보여줌으로써 선호도 기반 평가의 단점을 보여줍니다. 연구팀은 또한 향후 추가 연구를 지원하기 위해 모든 연구 자원을 공개적으로 공개했습니다.

위 내용은 사이즈에만 관련된 모델 선호? Shanghai Jiao Tong University는 인간 선호의 정량적 구성 요소와 32개의 대규모 모델을 종합적으로 분석합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:51cto.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
최신 이슈
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿
회사 소개 부인 성명 Sitemap
PHP 중국어 웹사이트:공공복지 온라인 PHP 교육,PHP 학습자의 빠른 성장을 도와주세요!