Google Research는 자체 BIG-Bench 벤치마크를 사용하여 "BIG-Bench Mistake" 데이터 세트를 구축하고, 시중에서 널리 사용되는 언어 모델의 오류 확률 및 오류 수정 기능에 대한 평가 연구를 수행했습니다. 이 계획의 목표는 언어 모델의 품질과 정확성을 향상하고 지능형 검색 및 자연어 처리 분야의 애플리케이션에 대한 더 나은 지원을 제공하는 것입니다.
Google 연구원들은 대규모 언어 모델의 오류 확률과 자체 수정 기능을 평가하기 위해 "BIG-Bench Mistake"라는 특수 데이터세트를 만들었다고 밝혔습니다. 이 데이터세트의 목적은 이러한 기능을 평가하기 위한 과거 데이터세트 부족의 격차를 메우는 것입니다.
연구원들은 PaLM 언어 모델을 사용하여 BIG-Bench 벤치마크에서 5가지 작업을 실행했습니다. 이후 생성된 '사고 사슬' 궤적을 수정하고 '논리적 오류' 부분을 추가한 후 모델을 다시 사용하여 사고 사슬 궤적의 오류를 확인했습니다.
데이터 세트의 정확성을 높이기 위해 Google 연구진은 위 과정을 반복하여 255개의 논리적 오류가 포함된 "BIG-Bench Mistake"라는 전용 벤치마크 데이터 세트를 구성했습니다.
연구원들은 "BIG-Bench Mistake" 데이터 세트의 논리적 오류가 매우 명백하므로 언어 모델이 단순한 논리적 오류부터 연습을 시작하고 점차적으로 언어 모델의 능력을 향상시키는 데 도움이 되는 좋은 테스트 표준으로 사용될 수 있다고 지적했습니다. 오류를 식별합니다.
연구원들은 이 데이터 세트를 사용하여 시중에 판매되는 모델을 테스트했으며 대다수의 언어 모델이 추론 과정에서 발생하는 논리적 오류를 식별하고 자체 수정이 가능하지만 이 프로세스는 "이상적이지 않다"는 것을 발견했습니다. 일반적으로 모델 출력의 내용을 수정하려면 사람의 개입이 필요합니다.
▲ 사진 출처 Google Research 보도 자료
이 사이트는 Google이 "현재 가장 발전된 대형 언어 모델"의 자체 수정 기능이 상대적으로 제한되어 있으며 관련 테스트 결과에서 가장 좋은 성능을 발휘했다고 주장하는 보고서를 통해 알아냈습니다. 모델은 논리적 오류의 52.9%만 발견했습니다.
Google 연구원들은 또한 이 BIG-Bench Mistake 데이터 세트가 모델의 자체 수정 능력을 향상시키는 데 도움이 된다고 주장했습니다. 관련 테스트 작업에 대해 모델을 미세 조정한 후에는 "작은 모델 성능도 일반적으로 제로 샘플을 제안합니다. "큰 모델이 더 좋습니다." 이에 따르면 Google은 모델 오류 수정 측면에서 대규모 언어 모델이 '자체 오류 수정'을 학습하도록 하는 대신 독점 소형 모델을 사용하여 대형 모델을 '감독'할 수 있다고 믿습니다.전용 소형 전용 모델을 배포합니다. 대형 모델을 감독하는 데에는 효율성을 높이고 관련 AI 배포 비용을 줄이며 미세 조정을 더 쉽게 만드는 데 도움이 됩니다.
위 내용은 Google, AI 언어 모델의 자기 수정 기능 향상을 돕기 위해 BIG-Bench Mistake 데이터세트 출시의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!