'코드 생성' 작업을 완료하세요! Fudan et al., StepCoder 프레임워크 출시: 컴파일러 피드백 신호로부터의 강화 학습-일체 포함-php.cn

실험 부분

집

기술 주변기기

일체 포함

'코드 생성' 작업을 완료하세요! Fudan et al., StepCoder 프레임워크 출시: 컴파일러 피드백 신호로부터의 강화 학습

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Mar 16, 2024 pm 03:55 PM

ai 데이터

대형 언어 모델(LLM)의 발전은 코드 생성 분야의 발전을 크게 주도했습니다. 이전 연구에서는 강화 학습(RL)과 컴파일러 피드백 신호를 결합하여 LLM의 출력 공간을 탐색하여 코드 생성 품질을 최적화했습니다.

그러나 여전히 두 가지 문제가 있습니다.

1. 강화 학습 탐색은 LLM이 "긴 시퀀스 코드"를 생성해야 하는 "복잡한 인간 요구"에 직접 적응하기 어렵습니다. 단위 테스트는 복잡한 코드를 다루지 않을 수 있으므로 실행되지 않은 코드 조각을 사용하여 LLM을 최적화하는 것은 효과적이지 않습니다.

이러한 과제를 해결하기 위해 연구원들은 Fudan University, Huazhong University of Science and Technology 및 Royal Institute of Technology의 전문가가 공동 개발한 StepCoder라는 새로운 강화 학습 프레임워크를 제안했습니다. StepCoder에는 코드 생성의 효율성과 품질을 향상시키도록 설계된 두 가지 핵심 구성 요소가 포함되어 있습니다.

1. CCCS

긴 시퀀스 코드 생성 작업을 코드 완성 하위 작업 과정으로 분류하여 탐색 문제를 해결합니다. 2 제공하기 위해 실행되지 않은 코드 세그먼트 모델을 최적화합니다. 세밀한 최적화.

논문 링크: https://arxiv.org/pdf/2402.01391.pdf

코드 생성 작업을 완료하세요! Fudan et al., StepCoder 프레임워크 출시: 컴파일러 피드백 신호로부터의 강화 학습 프로젝트 링크: https://github.com/Ablustrund/APPS_Plus

연구원들은 APPS+도 구축했습니다. 강화 학습 훈련에 사용되는 데이터세트로, 단위 테스트의 정확성을 보장하기 위해 수동으로 검증됩니다.

실험 결과에 따르면 이 방법은 출력 공간 탐색 능력을 향상시키고 해당 벤치마크에서 최첨단 방법보다 성능이 뛰어난 것으로 나타났습니다.

StepCoder

코드 생성 과정에서 일반적인 강화 학습 탐색(탐색)은 "보상이 희박하고 지연이 있는 환경"과 "긴 시퀀스가 포함된 복잡한 요구 사항"을 처리하기 어렵습니다.

CCCS(Curriculum of Code Completion Subtasks) 단계에서 연구자들은 복잡한 탐색 문제를 일련의 하위 작업으로 분해합니다. 표준 솔루션의 일부를 프롬프트로 사용하여 LLM은 간단한 시퀀스부터 탐색을 시작할 수 있습니다.

코드 생성 작업을 완료하세요! Fudan et al., StepCoder 프레임워크 출시: 컴파일러 피드백 신호로부터의 강화 학습 보상 계산은 실행 가능한 코드 조각에만 관련되므로 전체 코드(그림에서 빨간색 부분)를 사용하여 LLM(그림에서 회색 부분)을 최적화하는 것은 부정확합니다.

FGO(Fine-Grained Optimization) 단계에서는 연구원들이 단위 테스트에서 실행되지 않은 토큰(빨간색 부분)을 마스킹하고 실행된 토큰(녹색 부분)만 사용하여 손실 함수를 계산하므로 자세한 Granular 제공이 가능합니다. 최적화.

예비 지식

은 코드 생성을 위한 훈련 데이터 세트라고 가정합니다. 여기서 x, y, u는 각각 인간의 요구(예: 작업 설명), 표준 솔루션 및 단위 테스트 샘플을 나타냅니다.

은 표준 솔루션 yi의 추상 구문 트리를 자동으로 분석하여 얻은 조건문 목록입니다. 여기서 st와 en은 각각 문의 시작 위치와 끝 위치를 나타냅니다. 코드 생성 작업을 완료하세요! Fudan et al., StepCoder 프레임워크 출시: 컴파일러 피드백 신호로부터의 강화 학습

인간 요구 사항 x의 경우 표준 솔루션 y는 코드 생성 단계에서

코드 생성 작업을 완료하세요! Fudan et al., StepCoder 프레임워크 출시: 컴파일러 피드백 신호로부터의 강화 학습 로 표현될 수 있으며 인간 요구 사항 x가 주어지면 최종 상태는 단위 테스트 u를 통과하는 코드 세트입니다.

방법 세부 정보 코드 생성 작업을 완료하세요! Fudan et al., StepCoder 프레임워크 출시: 컴파일러 피드백 신호로부터의 강화 학습

StepCoder는 두 가지 주요 구성 요소인 CCCS와 FGO를 통합합니다. 여기서 CCCS의 목적은 코드 생성 작업을 코드 완성 하위 작업 과정으로 분해하여 RL의 탐색 문제를 완화할 수 있는 것입니다. ; FGO는 코드 생성 작업을 위해 특별히 설계되었으며 실행된 코드 조각에 대해서만 손실을 계산하여 세분화된 최적화를 제공합니다.

CCCS

코드 생성 과정에서 복잡한 인간 요구 사항을 해결하려면 일련의 긴 조치를 취하는 정책 모델이 필요한 경우가 많습니다. 동시에 컴파일러 피드백은 지연되고 희박합니다. 즉, 정책 모델은 전체 코드가 생성된 후에만 보상을 받습니다. 이 경우 탐색이 매우 어렵습니다.

이 방법의 핵심은 탐색 문제의 긴 목록을 일련의 짧고 탐색하기 쉬운 하위 작업으로 분해하는 것입니다. 연구원들은 코드 생성을 코드 완성 하위 작업으로 단순화합니다. 훈련 데이터 세트의 예 솔루션은 자동으로 구축됩니다.

인간 요구 x의 경우 CCCS의 초기 훈련 단계에서 탐색의 시작점 s*는 최종 상태에 가까운 상태입니다.

구체적으로 연구원들은 인간의 요구 x와 표준 솔루션의 전반부를 제공하고 x'=(x, xp)에 따라 코드를 완성하도록 정책 모델을 훈련시킵니다.

y^가 xp와 출력 궤적 τ의 결합 시퀀스, 즉 yˆ=(xp,τ)라고 가정하면, 보상 모델은 y^와 함께 코드 조각 τ의 정확성을 기반으로 보상 r을 제공합니다. 입력으로.

연구원들은 PPO(근위 정책 최적화) 알고리즘을 사용하여 보상 r과 궤적 τ를 활용하여 정책 모델 πθ를 최적화했습니다.

최적화 단계에서 힌트를 제공하는 데 사용되는 표준 솔루션 코드 세그먼트 xp는 정책 모델 πθ 업데이트의 기울기에 영향을 미치지 않도록 마스크됩니다.

CCCS는 반대 함수를 최대화하여 정책 모델 πθ를 최적화합니다. 여기서 π^ref는 SFT 모델에 의해 초기화된 PPO의 참조 모델입니다.

훈련이 진행됨에 따라 탐색의 시작점 s*는 점차 표준 솔루션의 시작점을 향해 이동합니다. 특히 각 훈련 샘플마다 임계값 ρ가 설정되고 코드 세그먼트가 누적됩니다. time πθ 정확도가 ρ보다 크면 시작점이 시작점으로 이동합니다.

학습의 후반 단계에서 이 방법의 탐색 프로세스는 원래 강화 학습의 탐색 프로세스와 동일합니다. 즉, s*=0이며 정책 모델은 인간의 요구를 입력으로 사용하여 코드만 생성합니다.

조건문의 시작 위치에서 초기 인식 지점 s*를 샘플링하여 나머지 미작성 코드 세그먼트를 완성합니다.

구체적으로, 조건문이 많을수록 프로그램의 독립적인 경로가 많아지고 논리 복잡성이 높아집니다. 반면, 조건문이 적은 프로그램은 샘플링을 더 자주 수행해야 합니다. 자주.

이 샘플링 방법은 훈련 데이터 세트의 복잡하고 단순한 의미 구조를 모두 고려하면서 대표 코드 구조를 고르게 추출할 수 있습니다.

훈련 단계의 속도를 높이기 위해 연구원들은 i번째 샘플의 강좌 수를 로 설정했습니다. 여기서 Ei는 조건문의 수입니다. i번째 샘플의 교육 과정 범위는 1이 아니라 입니다.

CCCS의 주요 내용은 다음과 같이 요약할 수 있습니다.

1. 목표에 가까운 상태(즉, 최종 상태)에서 탐색을 시작하기 쉽습니다.

2. 목표 성별에서 멀리 떨어진 상태에서 탐색을 시작하지만, 목표 달성 방법을 배운 상태를 활용할 수 있으면 탐색이 더 쉬워집니다.

FGO

코드 생성에서 보상과 행동의 관계는 다른 강화 학습 작업(예: Atari)과 다릅니다. 코드 생성에서는 보상 계산과 관련이 없는 보상 집합입니다. 생성된 코드는 작업을 제외할 수 있습니다.

특히 단위 테스트의 경우 컴파일러의 피드백은 실행된 코드 조각에만 관련됩니다. 그러나 일반적인 RL 최적화 목표에서는 궤적의 모든 작업이 기울기 계산에 참여하므로 기울기 계산이 부정확합니다.

최적화 정확도를 높이기 위해 연구원들은 단위 테스트에서 실행되지 않은 작업(예: 토큰)과 전략 모델의 손실을 보호했습니다.

실험 부분

APPS+dataset

조사 과정에서 연구자들은 현재 사용 가능한 오픈 소스 데이터 세트 중 다음과 같은 대량의 고품질 교육 데이터가 필요하다는 사실을 발견했습니다. 오직 APPS만이 이 요구 사항을 충족합니다. 하나의 요청입니다.

그러나 APPS에는 입력, 출력 또는 표준 솔루션이 누락되거나 표준 솔루션이 컴파일 또는 실행되지 않거나 실행 출력에 차이가 있는 등 잘못된 인스턴스가 있습니다.

APPS 데이터 세트를 개선하기 위해 연구원들은 누락된 입력, 출력 또는 표준 솔루션이 있는 인스턴스를 필터링한 다음 각 인스턴스에 대한 단위 테스트의 실행 및 비교를 용이하게 하기 위해 입력 및 출력 형식을 표준화했습니다. 불완전하거나 관련 없는 코드, 구문 오류, API 오용 또는 누락된 라이브러리 종속성을 제거하기 위해 단위 테스트 및 수동 분석이 수행되었습니다.

출력 차이의 경우 연구원은 문제 설명을 수동으로 검토하고 예상 출력을 수정하거나 인스턴스를 제거합니다.

마지막으로 우리는 7456개의 인스턴스를 포함하는 APPS+ 데이터 세트를 구성했습니다. 각 인스턴스에는 프로그래밍 문제 설명, 표준 솔루션, 함수 이름, 단위 테스트(즉, 입력 및 출력) 및 시작 코드(즉, 표준 솔루션) 시작 부분이 포함됩니다. .

실험 결과

코드 생성에서 다른 LLM 및 StepCoder의 성능을 평가하기 위해 연구원들은 APPS+ 데이터 세트에 대한 실험을 수행했습니다.

결과는 RL 기반 모델이 기본 모델 및 SFT 모델을 포함한 다른 언어 모델보다 성능이 우수하다는 것을 보여줍니다.

연구원들은 강화 학습이 컴파일러 피드백에 따라 모델의 출력 공간을 보다 효율적으로 탐색함으로써 코드 생성 품질을 더욱 향상시킬 수 있다고 추론했습니다.

게다가 StepCoder는 다른 RL 기반 방법을 포함한 모든 기본 모델을 능가하며 최고 점수를 획득했습니다.

구체적으로 이 방법은 '입문', '면접', '경쟁' 수준의 시험 문제에서 각각 59.7%, 23.5%, 8.6%의 높은 점수를 얻었습니다.

다른 강화 학습 기반 방법과 비교할 때 이 방법은 복잡한 코드 생성 작업을 코드 완성 하위 작업으로 단순화하여 출력 공간을 탐색하는 데 탁월하며 FGO 프로세스는 정책 모델 효과를 정확하게 최적화하는 데 중요한 역할을 합니다.

또한 동일한 아키텍처 네트워크를 기반으로 하는 APPS+ 데이터 세트에서 StepCoder는 백본 네트워크와 비교하여 미세 조정에 대해 지도 LLM보다 더 나은 성능을 발휘하는 것으로 나타났습니다. 후자는 생성된 코드의 통과율을 거의 향상시키지 않습니다. 이는 또한 모델을 최적화하기 위해 컴파일러 피드백을 사용하는 것이 코드 생성 시 다음 토큰 예측보다 생성된 코드의 품질을 더 향상시킬 수 있음을 직접적으로 보여줍니다.

위 내용은 '코드 생성' 작업을 완료하세요! Fudan et al., StepCoder 프레임워크 출시: 컴파일러 피드백 신호로부터의 강화 학습의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

자바 튜토리얼

1663

Cakephp 튜토리얼

1419

라라벨 튜토리얼

1313

PHP 튜토리얼

1263

C# 튜토리얼

1236

Related knowledge

세계 10 대 통화 거래 플랫폼 중 2025 년 상위 10 개 통화 거래 플랫폼 중 하나 Apr 28, 2025 pm 08:12 PM

2025 년 전 세계의 상위 10 개 암호 화폐 교환에는 Binance, Okx, Gate.io, Coinbase, Kraken, Huobi, Bitfinex, Kucoin, Bittrex 및 Poloniex가 포함됩니다.

비트 코인의 가치는 얼마입니까? Apr 28, 2025 pm 07:42 PM

비트 코인의 가격은 $ 20,000에서 $ 30,000입니다. 1. Bitcoin의 가격은 2009 년 이후 극적으로 변동하여 2017 년에 거의 20,000 달러에 이르렀으며 2021 년에는 거의 60,000 달러에 달합니다. 가격은 시장 수요, 공급 및 거시 경제 환경과 같은 요인의 영향을받습니다. 3. 거래소, 모바일 앱 및 웹 사이트를 통해 실시간 가격을 얻으십시오. 4. 비트 코인 가격은 시장 감정과 외부 요인에 의해 유발되는 변동성이 높습니다. 5. 전통적인 금융 시장과의 특정 관계가 있으며 글로벌 주식 시장, 미국 달러의 강점 등의 영향을받습니다. 6. 장기 추세는 낙관적이지만, 위험은주의해서 평가되어야합니다.

암호 해독 게이트.IO 전략 업그레이드 : Memebox 2.0에서 암호화 자산 관리를 재정의하는 방법? Apr 28, 2025 pm 03:33 PM

Memebox 2.0은 혁신적인 아키텍처 및 성능 혁신을 통해 암호화 자산 관리를 재정의합니다. 1) 자산 사일로, 소득 부패 및 보안 및 편의의 역설의 세 가지 주요 고통 지점을 해결합니다. 2) 지능형 자산 허브, 동적 위험 관리 및 반환 향상 엔진을 통해 크로스 체인 전송 속도, 평균 수율 및 보안 사고 응답 속도가 향상됩니다. 3) 사용자 가치 재구성을 실현하여 자산 시각화, 정책 자동화 및 거버넌스 통합을 사용자에게 제공합니다. 4) 생태 협력 및 규정 준수 혁신을 통해 플랫폼의 전반적인 효과가 향상되었습니다. 5) 앞으로, 스마트 계약 보험 풀, 예측 시장 통합 및 AI 중심 자산 할당이 시작되어 업계의 발전을 계속 이끌 것입니다.

최고 통화 거래 플랫폼은 무엇입니까? 상위 10 개 최신 가상 화폐 거래소 Apr 28, 2025 pm 08:06 PM

현재 10 개의 가상 환전 거래소 중 하나입니다. 1. Binance, 2. OKX, 3. Gate.io, 4. Coin Library, 5. Siren, 6. Huobi Global Station, 7. Bybit, 8. Bitcoin, 10. 비트 스탬프.

세계의 상위 10 개 통화 거래 플랫폼 중 상위 10 개 통화 거래 플랫폼의 최신 버전 Apr 28, 2025 pm 08:09 PM

전 세계의 상위 10 개 암호 화폐 거래 플랫폼에는 Binance, OKX, Gate.io, Coinbase, Kraken, Huobi Global, Bitfinex, Bittrex, Kucoin 및 Poloniex가 포함되며 다양한 거래 방법과 강력한 보안 조치가 제공됩니다.

상위 10 개의 가상 통화 거래 앱은 무엇입니까? 최신 디지털 환전 순위 Apr 28, 2025 pm 08:03 PM

Binance, Okx, Gate.io와 같은 상위 10 개 디지털 환전 거래소는 시스템, 효율적인 다양한 거래 및 엄격한 보안 조치를 개선했습니다.

C에서 Chrono 라이브러리를 사용하는 방법? Apr 28, 2025 pm 10:18 PM

C에서 Chrono 라이브러리를 사용하면 시간과 시간 간격을보다 정확하게 제어 할 수 있습니다. 이 도서관의 매력을 탐구합시다. C의 크로노 라이브러리는 표준 라이브러리의 일부로 시간과 시간 간격을 다루는 현대적인 방법을 제공합니다. 시간과 C 시간으로 고통받는 프로그래머에게는 Chrono가 의심 할 여지없이 혜택입니다. 코드의 가독성과 유지 가능성을 향상시킬뿐만 아니라 더 높은 정확도와 유연성을 제공합니다. 기본부터 시작합시다. Chrono 라이브러리에는 주로 다음 주요 구성 요소가 포함됩니다. std :: Chrono :: System_Clock : 현재 시간을 얻는 데 사용되는 시스템 클럭을 나타냅니다. STD :: 크론

C에서 높은 DPI 디스플레이를 처리하는 방법? Apr 28, 2025 pm 09:57 PM

C에서 높은 DPI 디스플레이를 처리 할 수 있습니다. 1) DPI 및 스케일링을 이해하고 운영 체제 API를 사용하여 DPI 정보를 얻고 그래픽 출력을 조정하십시오. 2) 크로스 플랫폼 호환성을 처리하고 SDL 또는 QT와 같은 크로스 플랫폼 그래픽 라이브러리를 사용하십시오. 3) 성능 최적화를 수행하고 캐시, 하드웨어 가속 및 세부 사항 수준의 동적 조정을 통해 성능 향상; 4) 흐릿한 텍스트 및 인터페이스 요소와 같은 일반적인 문제를 해결하고 DPI 스케일링을 올바르게 적용하여 해결합니다.

See all articles