IVG: 추론 시 인간의 가치를 대규모 언어 모델에 통합
연구원들은 기본 모델을 변경하지 않고 암시적 및 명시적 함수를 사용하여 LLM을 미세 조정한 후 인간 가치를 통합하는 추론 시간 정렬 방법을 개발했습니다.
학습 기반 알고리즘으로 모델을 훈련한 후 인간의 가치를 통합하려면 LLM을 미세 조정해야 하는데, 이는 계산 비용과 시간이 많이 소요됩니다. 더욱이 이는 사용자로부터 편향되고 바람직하지 않은 반응을 생성합니다. 추론 시 간섭할 수 있는 알고리즘을 통합하여 사용자 선호도에 실시간으로 효율적으로 적응할 수 있는 모델이 필요합니다. 이 방법을 사용하면 기본 모델을 동결하고 LLM 미세 조정에 드는 계산 비용을 줄임으로써 원하는 결과를 얻기 위해 모델을 반복적으로 재교육하는 것을 피할 수 있습니다.
연구원들은 기본 모델을 변경하지 않고 암시적 및 명시적 함수를 사용하여 LLM을 미세 조정한 후 인간 가치를 통합하는 추론 시간 정렬 방법을 개발했습니다. 암시적 함수는 단어 단위로 평가를 수행하고 가장 높은 확률의 출력을 선호하는 토큰 생성에 사용됩니다. 대조적으로, 명시적 함수는 전체 맥락을 유지하면서 더 큰 텍스트 덩어리를 평가하고 가장 높은 확률로 다음 단어 시퀀스를 생성하기 위해 엄격한 구조를 필요로 합니다. 명시적 함수는 유연성이 없고 계산 비용이 많이 들기 때문에 토큰 수준 최적화를 처리하지 못하는 반면, 암시적 함수는 해석 가능성 문제에 직면하고 빈번한 전달이 필요하므로 실시간 효율성이 낮습니다.
두 기능의 단점을 해결하기 위해 제안된 방법인 IVG(Integrated Value Guidance)는 암시적 함수의 토큰 수준 최적화와 명시적 함수의 더 넓은 관점을 결합합니다. 이는 적응 문제와 정렬 효율성의 상충 관계를 방지하여 성능 불일치를 줄이고 구현을 더 쉽게 만들 수 있었습니다. 이러한 장점은 제어된 감정 생성 및 요약과 같은 작업에서 더 나은 성능을 촉진했습니다. IVG는 GPT-2와 같은 소형 모델과 결합하면 상위 모델과 경쟁할 수 있습니다.
IVG는 모델을 인간의 가치에 맞추기 위해 암시적 함수와 명시적 함수라는 두 가지 가치 함수를 통합합니다. 첫째, 토큰 방식 샘플링은 개별 토큰을 특정 시퀀스 길이로 미세 조정하여 여러 시퀀스를 생성합니다. 그런 다음 청크 수준 빔 검색은 이러한 시퀀스의 확률을 비교하고 확률이 가장 높은 시퀀스를 선택합니다. 이 방법을 사용하면 출력이 더 강력해지지만 잦은 순방향 전달로 인해 추론 시간 동안 계산 능력이 증가하여 응답 속도가 느려집니다.
연구원들은 IVG를 평가하기 위해 두 가지 실험 설정을 사용했습니다. 1. 통제된 감정 생성 및 요약, 2. 지시 따르기. 첫 번째에서는 GPT-2 모델 계열을 사용하여 금 보상 모델의 합성 데이터 세트를 활용하여 긍정적인 영화 리뷰를 생성하고 Reddit 게시물을 요약합니다. 이에 비해 두 번째 모델에는 명령 조정 모델인 AlpacaEval 2.0이 필요합니다. 이는 암시적 기능에 대해 특정 모델을 사용하고 명시적 기능에 대해 보상 기반 모델을 훈련하는 Tulu Guidance와 두 기능 모두에 대해 DPO(Direct Preference Optimization)를 사용하여 모델을 미세 조정하는 Ultraguidance를 사용합니다. 두 번째 실험에서는 GPT-4-turbo를 참고로 반응을 평가하였고, IVG는 꾸준히 좋은 성능을 보였습니다.
이 두 가지 실험 외에도 절제 연구를 통해 청크 수준 빔 검색(CBS)이 미세 조정에 암시적 함수를 사용하는 EFT(에뮬레이터 미세 조정)보다 속도 효율성이 더 높다는 것이 입증되었습니다. 이러한 결과는 CBS가 실제로 사용하기에 훨씬 더 우수하다는 것을 입증했습니다.
결론적으로 IVG(Integrated Value Guidance)는 전통적인 미세 조정의 복잡성을 우회하여 순전히 추론 시간에 대규모 언어 모델을 인간 선호도에 맞추는 새롭고 효율적인 접근 방식을 제공합니다. IVG는 암시적 및 명시적 가치 함수를 활용하여 토큰 방식 샘플링과 청크 수준 디코딩 모두에서 성능을 향상시킵니다. 이는 감정 생성, 요약 및 지시 따르기 작업의 상당한 개선을 통해 입증되었습니다. 결과에 따르면 IVG는 기존 접근 방식을 능가하는 능력에 대한 강력한 경험적 증거를 제공하여 실제 응용 분야에서 대형 모델을 미세 조정하기 위한 유망한 솔루션인 다용도 방법으로 나타났습니다.
50,000 ML SubReddit에 참여하는 것을 잊지 마세요
100만 AI 독자들 앞에 다가가고 싶나요? 여기서 우리와 함께 일하세요
위 내용은 IVG: 추론 시 인간의 가치를 대규모 언어 모델에 통합의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











암호화폐 시장은 소외된 자본이 진입하기 시작하면서 상당한 정서 변화를 겪고 있습니다. Near Protocol(NEAR) 및 Cardano(ADA)와 같은 프로젝트가 다가오는 랠리를 기대하며 가열되고 있습니다.

시바견 생태계를 이끄는 수수께끼의 인물 쿠사마 시토시(Shytoshi Kusama)가 AI 프로젝트와의 협업에 대한 추측을 불러일으켰습니다.

Coinbase의 "기반 에이전트" 플랫폼과 Tether의 로컬 AI SDK는 AI 기반 암호화폐 에이전트의 개발을 단순화하는 것을 목표로 합니다.

Apple은 월요일에 iPhone 16 출시를 준비하고 있으며 iPhone 소비자에게 생성 AI를 도입하여 대대적인 추진을 준비하고 있습니다.

암호화폐 시장에 투자하는 것은 매우 수익성이 높을 수 있으며, 새로운 토큰은 때때로 투자자에게 연간 160,000% 이상의 수익을 안겨줍니다.

이 파트너십은 상용 AI 에이전트와 자동화를 Web3 공간에 통합하는 데 있어 중요한 발전을 의미합니다.

암호화폐 시장이 변동하는 추세에 직면하면서, 현명한 투자자들은 회복력과 성장 잠재력을 보여주는 신흥 프로젝트로 관심을 돌리기 시작했습니다. 비트코인(BTC)의 변동적인 가격 궤적에 대한 우려로 인해

최근 몇 달 동안 Cardano [ADA]는 가격 추세로 인해 "죽은 동전"이라는 꼬리표를 붙이는 등 비판에 직면했습니다. 그러나 이런 부정적임에도 불구하고