> 웹3.0 > 본문

지시적 디코딩은 매개변수 업데이트 없이 지시 조정 언어 모델을 향상시킵니다.

Susan Sarandon
풀어 주다: 2024-10-02 18:12:23
원래의
272명이 탐색했습니다.

KAIST AI 연구진은 매개변수 업데이트 없이 Instruction-tuned LM을 향상시키는 방법인 Instructive Decoding(ID)을 선보였습니다.

지시적 디코딩은 매개변수 업데이트 없이 지시 조정 언어 모델을 향상시킵니다.

명령 조정 언어 모델(LM)은 제로샷 설정에서 보이지 않는 작업에 대해 잘 일반화됩니다. 그러나 훈련 데이터 이외의 작업에 대한 성능은 종종 제한적입니다. 대규모 데이터세트를 기반으로 구축되고 수십억 개의 매개변수가 있음에도 불구하고 이러한 LM은 재교육을 받을 필요 없이 몇 가지 예에 대한 응답을 생성할 수 있는 ICL(상황 내 학습)에 탁월합니다. 그러나 훈련 데이터 세트의 범위는 익숙하지 않은 작업에 대한 효율성을 제한합니다. 신속한 엔지니어링 및 출력 다양화와 같은 기술은 성능 향상에 도움이 될 수 있지만 상당한 노력이 필요합니다. 최근 연구에서는 인지 앵커링 효과를 LM에 적용하는 방법을 탐구하여 초기 프롬프트를 강조하면 작업별 반응을 향상하고 지침에 대한 충실도를 높일 수 있음을 시사합니다.

이번 연구에서 KAIST AI 연구원들은 매개변수 업데이트 없이 지침 조정 LM을 향상시키는 방법인 지시적 디코딩(ID)을 도입합니다. 시끄러운 감독 기술에서 영감을 받은 ID는 원래 지침의 변경된 버전인 "노이즈 지침"을 사용하여 다음 토큰을 예측하기 위한 대조 접근 방식을 만듭니다. 특히 "반대" 지침을 사용하여 모델의 출력을 다양한 방향으로 조정함으로써 ID는 작업 전반에 걸쳐 모델 성능을 향상시킵니다. 실험에 따르면 ID로 강화된 작은 모델이 큰 모델보다 성능이 뛰어나 정확도가 크게 향상되었습니다. 이 방법은 지침 준수를 향상하고 전반적인 응답 품질을 향상시켜 다양한 모델과 작업 전반에 걸쳐 그 효과를 입증합니다.

명령 조정의 목표는 사전 훈련된 LM을 미세 조정하여 자연어 지침을 더 잘 따르도록 하는 것입니다. 이를 통해 특히 제로 샷 시나리오에서 보이지 않는 작업에 대한 일반화를 향상시킵니다. 모델이 사전 훈련된 지식에 크게 의존하는 경우가 많지만 훈련 작업의 다양성과 복잡성을 확장하면 이 기능이 향상됩니다. 이전 연구에서는 LM이 익숙한 지침에 민감하고 오해의 소지가 있는 지침을 처리하는 경우에도 민감하며 이러한 민감도는 대조 기술을 통해 활용될 수 있음을 강조합니다. Contrastive Decoding과 같은 텍스트 생성의 대비는 다양한 모델의 출력이나 입력을 비교하여 성능을 향상시킵니다. 이 연구에서는 지시 조정 LM의 일반화를 강화하기 위해 시끄러운 지시를 사용하여 이러한 아이디어를 확장합니다.

지시적 디코딩은 시끄러운 명령에서 생성된 출력을 대조하여 명령 조정 모델의 응답 생성을 향상시킵니다. 이는 초기 정보가 후속 판단에 영향을 미치고 원래 지침과 변경된 지침에서 생성된 반응 간의 차이를 활용하는 앵커링 효과를 기반으로 합니다. 이 방법은 작업 충실도를 보장하면서 모델을 오도하기 위해 잘린 단어, 섞인 단어 또는 임의의 단어와 같은 시끄러운 명령 변형을 사용합니다. 지시적 디코딩은 디코딩 중에 원본 명령과 노이즈가 있는 명령의 로짓을 비교함으로써 모델이 편향을 수정하고 의도한 명령에 더욱 부합하는 응답을 생성하여 보이지 않는 작업에 대한 성능을 개선하는 데 도움이 됩니다.

실험 설정에서는 SUPNATINST 및 UNNATINST 데이터 세트를 사용하여 문법 오류 수정 및 텍스트 함축과 같은 작업 전반에 걸쳐 Tk-Instruct, Alpaca 및 T0과 같은 모델을 평가합니다. Rouge-L, EM(Exact Match), LA(Label Adherence) 및 LC(Label Coherence) 지표는 성능을 평가합니다. ID는 특히 Tk-XXL과 같은 대형 모델의 경우 지속적으로 결과를 개선하여 LA 및 LC를 향상시킵니다. 흥미롭게도 시끄러운 명령은 기본 성능 저하에도 불구하고 ID를 사용하여 출력 품질을 향상시킵니다. 작업별 성능은 다양하지만 '반대' 명령 변형은 작업 전반에 걸쳐 강력한 것으로 입증되었습니다. 전반적으로 ID는 모델 크기와 작업 유형 전반에 걸쳐 상당한 이점을 보여줍니다.

이 연구에서는 교육 조정 언어 모델에서 보이지 않는 작업 일반화의 과제를 조사합니다. 제안된 방법인 ID는 고유한 모델 편향에 대응하기 위해 "잡음" 명령을 사용하여 앵커링 효과를 활용합니다. ID는 변경된 명령에서 생성된 예측과 예측을 대조함으로써 특히 원래 입력에서 가장 많이 벗어나는 "반대" 시끄러운 변형의 경우 모델 성능을 향상시킵니다. 경험적 결과는 예측 다양성이 눈에 띄게 향상되어 여러 작업에 걸쳐 ID의 효율성을 보여줍니다. 이 접근 방식은 추가 매개변수 업데이트가 필요하지 않으므로 언어 ​​모델의 지시 따르기 개선을 위한 실용적인 도구입니다.

문서를 확인해 보세요. 이 연구에 대한 모든 공로는 이 프로젝트의 연구자에게 돌아갑니다. 또한 Twitter에서 우리를 팔로우하고 Telegram 채널과 LinkedIn 그룹에 가입하는 것을 잊지 마세요. 저희 작업이 마음에 드신다면 저희 뉴스레터도 마음에 드실 것입니다.

50,000 ML SubReddit에 참여하는 것을 잊지 마세요

위 내용은 지시적 디코딩은 매개변수 업데이트 없이 지시 조정 언어 모델을 향상시킵니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿