대형 언어 모델(LLM)의 발전은 코드 생성 분야의 발전을 크게 주도했습니다. 이전 연구에서는 강화 학습(RL)과 컴파일러 피드백 신호를 결합하여 LLM의 출력 공간을 탐색하여 코드 생성 품질을 최적화했습니다.
그러나 여전히 두 가지 문제가 있습니다.
1. 강화 학습 탐색은 LLM이 "긴 시퀀스 코드"를 생성해야 하는 "복잡한 인간 요구"에 직접 적응하기 어렵습니다. 단위 테스트는 복잡한 코드를 다루지 않을 수 있으므로 실행되지 않은 코드 조각을 사용하여 LLM을 최적화하는 것은 효과적이지 않습니다.
이러한 과제를 해결하기 위해 연구원들은 Fudan University, Huazhong University of Science and Technology 및 Royal Institute of Technology의 전문가가 공동 개발한 StepCoder라는 새로운 강화 학습 프레임워크를 제안했습니다. StepCoder에는 코드 생성의 효율성과 품질을 향상시키도록 설계된 두 가지 핵심 구성 요소가 포함되어 있습니다.
1. CCCS
긴 시퀀스 코드 생성 작업을 코드 완성 하위 작업 과정으로 분류하여 탐색 문제를 해결합니다. 2 제공하기 위해 실행되지 않은 코드 세그먼트 모델을 최적화합니다. 세밀한 최적화.
논문 링크: https://arxiv.org/pdf/2402.01391.pdf
프로젝트 링크: https://github.com/Ablustrund/APPS_Plus
연구원들은 APPS+도 구축했습니다. 강화 학습 훈련에 사용되는 데이터세트로, 단위 테스트의 정확성을 보장하기 위해 수동으로 검증됩니다.
실험 결과에 따르면 이 방법은 출력 공간 탐색 능력을 향상시키고 해당 벤치마크에서 최첨단 방법보다 성능이 뛰어난 것으로 나타났습니다.
StepCoder
코드 생성 과정에서 일반적인 강화 학습 탐색(탐색)은 "보상이 희박하고 지연이 있는 환경"과 "긴 시퀀스가 포함된 복잡한 요구 사항"을 처리하기 어렵습니다.
CCCS(Curriculum of Code Completion Subtasks) 단계에서 연구자들은 복잡한 탐색 문제를 일련의 하위 작업으로 분해합니다. 표준 솔루션의 일부를 프롬프트로 사용하여 LLM은 간단한 시퀀스부터 탐색을 시작할 수 있습니다.
보상 계산은 실행 가능한 코드 조각에만 관련되므로 전체 코드(그림에서 빨간색 부분)를 사용하여 LLM(그림에서 회색 부분)을 최적화하는 것은 부정확합니다.
FGO(Fine-Grained Optimization) 단계에서는 연구원들이 단위 테스트에서 실행되지 않은 토큰(빨간색 부분)을 마스킹하고 실행된 토큰(녹색 부분)만 사용하여 손실 함수를 계산하므로 자세한 Granular 제공이 가능합니다. 최적화.
예비 지식
은 코드 생성을 위한 훈련 데이터 세트라고 가정합니다. 여기서 x, y, u는 각각 인간의 요구(예: 작업 설명), 표준 솔루션 및 단위 테스트 샘플을 나타냅니다.
은 표준 솔루션 yi의 추상 구문 트리를 자동으로 분석하여 얻은 조건문 목록입니다. 여기서 st와 en은 각각 문의 시작 위치와 끝 위치를 나타냅니다.
인간 요구 사항 x의 경우 표준 솔루션 y는 코드 생성 단계에서로 표현될 수 있으며 인간 요구 사항 x가 주어지면 최종 상태는 단위 테스트 u를 통과하는 코드 세트입니다.
방법 세부 정보
StepCoder는 두 가지 주요 구성 요소인 CCCS와 FGO를 통합합니다. 여기서 CCCS의 목적은 코드 생성 작업을 코드 완성 하위 작업 과정으로 분해하여 RL의 탐색 문제를 완화할 수 있는 것입니다. ; FGO는 코드 생성 작업을 위해 특별히 설계되었으며 실행된 코드 조각에 대해서만 손실을 계산하여 세분화된 최적화를 제공합니다. CCCS 코드 생성 과정에서 복잡한 인간 요구 사항을 해결하려면 일련의 긴 조치를 취하는 정책 모델이 필요한 경우가 많습니다. 동시에 컴파일러 피드백은 지연되고 희박합니다. 즉, 정책 모델은 전체 코드가 생성된 후에만 보상을 받습니다. 이 경우 탐색이 매우 어렵습니다. 이 방법의 핵심은 탐색 문제의 긴 목록을 일련의 짧고 탐색하기 쉬운 하위 작업으로 분해하는 것입니다. 연구원들은 코드 생성을 코드 완성 하위 작업으로 단순화합니다. 훈련 데이터 세트의 예 솔루션은 자동으로 구축됩니다. 인간 요구 x의 경우 CCCS의 초기 훈련 단계에서 탐색의 시작점 s*는 최종 상태에 가까운 상태입니다. 구체적으로 연구원들은 인간의 요구 x와 표준 솔루션의 전반부를 제공하고 x'=(x, xp)에 따라 코드를 완성하도록 정책 모델을 훈련시킵니다. y^가 xp와 출력 궤적 τ의 결합 시퀀스, 즉 yˆ=(xp,τ)라고 가정하면, 보상 모델은 y^와 함께 코드 조각 τ의 정확성을 기반으로 보상 r을 제공합니다. 입력으로. 연구원들은 PPO(근위 정책 최적화) 알고리즘을 사용하여 보상 r과 궤적 τ를 활용하여 정책 모델 πθ를 최적화했습니다. 최적화 단계에서 힌트를 제공하는 데 사용되는 표준 솔루션 코드 세그먼트 xp는 정책 모델 πθ 업데이트의 기울기에 영향을 미치지 않도록 마스크됩니다. CCCS는 반대 함수를 최대화하여 정책 모델 πθ를 최적화합니다. 여기서 π^ref는 SFT 모델에 의해 초기화된 PPO의 참조 모델입니다. 훈련이 진행됨에 따라 탐색의 시작점 s*는 점차 표준 솔루션의 시작점을 향해 이동합니다. 특히 각 훈련 샘플마다 임계값 ρ가 설정되고 코드 세그먼트가 누적됩니다. time πθ 정확도가 ρ보다 크면 시작점이 시작점으로 이동합니다. 학습의 후반 단계에서 이 방법의 탐색 프로세스는 원래 강화 학습의 탐색 프로세스와 동일합니다. 즉, s*=0이며 정책 모델은 인간의 요구를 입력으로 사용하여 코드만 생성합니다. 조건문의 시작 위치에서 초기 인식 지점 s*를 샘플링하여 나머지 미작성 코드 세그먼트를 완성합니다. 구체적으로, 조건문이 많을수록 프로그램의 독립적인 경로가 많아지고 논리 복잡성이 높아집니다. 반면, 조건문이 적은 프로그램은 샘플링을 더 자주 수행해야 합니다. 자주. 이 샘플링 방법은 훈련 데이터 세트의 복잡하고 단순한 의미 구조를 모두 고려하면서 대표 코드 구조를 고르게 추출할 수 있습니다. 훈련 단계의 속도를 높이기 위해 연구원들은 i번째 샘플의 강좌 수를 로 설정했습니다. 여기서 Ei는 조건문의 수입니다. i번째 샘플의 교육 과정 범위는 1이 아니라 입니다. CCCS의 주요 내용은 다음과 같이 요약할 수 있습니다. 1. 목표에 가까운 상태(즉, 최종 상태)에서 탐색을 시작하기 쉽습니다. 2. 목표 성별에서 멀리 떨어진 상태에서 탐색을 시작하지만, 목표 달성 방법을 배운 상태를 활용할 수 있으면 탐색이 더 쉬워집니다. FGO 코드 생성에서 보상과 행동의 관계는 다른 강화 학습 작업(예: Atari)과 다릅니다. 코드 생성에서는 보상 계산과 관련이 없는 보상 집합입니다. 생성된 코드는 작업을 제외할 수 있습니다. 특히 단위 테스트의 경우 컴파일러의 피드백은 실행된 코드 조각에만 관련됩니다. 그러나 일반적인 RL 최적화 목표에서는 궤적의 모든 작업이 기울기 계산에 참여하므로 기울기 계산이 부정확합니다. 최적화 정확도를 높이기 위해 연구원들은 단위 테스트에서 실행되지 않은 작업(예: 토큰)과 전략 모델의 손실을 보호했습니다. APPS+dataset 조사 과정에서 연구자들은 현재 사용 가능한 오픈 소스 데이터 세트 중 다음과 같은 대량의 고품질 교육 데이터가 필요하다는 사실을 발견했습니다. 오직 APPS만이 이 요구 사항을 충족합니다. 하나의 요청입니다. 그러나 APPS에는 입력, 출력 또는 표준 솔루션이 누락되거나 표준 솔루션이 컴파일 또는 실행되지 않거나 실행 출력에 차이가 있는 등 잘못된 인스턴스가 있습니다. APPS 데이터 세트를 개선하기 위해 연구원들은 누락된 입력, 출력 또는 표준 솔루션이 있는 인스턴스를 필터링한 다음 각 인스턴스에 대한 단위 테스트의 실행 및 비교를 용이하게 하기 위해 입력 및 출력 형식을 표준화했습니다. 불완전하거나 관련 없는 코드, 구문 오류, API 오용 또는 누락된 라이브러리 종속성을 제거하기 위해 단위 테스트 및 수동 분석이 수행되었습니다. 출력 차이의 경우 연구원은 문제 설명을 수동으로 검토하고 예상 출력을 수정하거나 인스턴스를 제거합니다. 마지막으로 우리는 7456개의 인스턴스를 포함하는 APPS+ 데이터 세트를 구성했습니다. 각 인스턴스에는 프로그래밍 문제 설명, 표준 솔루션, 함수 이름, 단위 테스트(즉, 입력 및 출력) 및 시작 코드(즉, 표준 솔루션) 시작 부분이 포함됩니다. . 코드 생성에서 다른 LLM 및 StepCoder의 성능을 평가하기 위해 연구원들은 APPS+ 데이터 세트에 대한 실험을 수행했습니다. 결과는 RL 기반 모델이 기본 모델 및 SFT 모델을 포함한 다른 언어 모델보다 성능이 우수하다는 것을 보여줍니다. 연구원들은 강화 학습이 컴파일러 피드백에 따라 모델의 출력 공간을 보다 효율적으로 탐색함으로써 코드 생성 품질을 더욱 향상시킬 수 있다고 추론했습니다. 게다가 StepCoder는 다른 RL 기반 방법을 포함한 모든 기본 모델을 능가하며 최고 점수를 획득했습니다. 구체적으로 이 방법은 '입문', '면접', '경쟁' 수준의 시험 문제에서 각각 59.7%, 23.5%, 8.6%의 높은 점수를 얻었습니다. 다른 강화 학습 기반 방법과 비교할 때 이 방법은 복잡한 코드 생성 작업을 코드 완성 하위 작업으로 단순화하여 출력 공간을 탐색하는 데 탁월하며 FGO 프로세스는 정책 모델 효과를 정확하게 최적화하는 데 중요한 역할을 합니다. 또한 동일한 아키텍처 네트워크를 기반으로 하는 APPS+ 데이터 세트에서 StepCoder는 백본 네트워크와 비교하여 미세 조정에 대해 지도 LLM보다 더 나은 성능을 발휘하는 것으로 나타났습니다. 후자는 생성된 코드의 통과율을 거의 향상시키지 않습니다. 이는 또한 모델을 최적화하기 위해 컴파일러 피드백을 사용하는 것이 코드 생성 시 다음 토큰 예측보다 생성된 코드의 품질을 더 향상시킬 수 있음을 직접적으로 보여줍니다. 실험 부분
실험 결과
위 내용은 '코드 생성' 작업을 완료하세요! Fudan et al., StepCoder 프레임워크 출시: 컴파일러 피드백 신호로부터의 강화 학습의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!