LLM 마법사의 마술 지팡이를 발견한 UIUC 중국 팀은 코드 데이터의 세 가지 주요 장점을 밝힙니다.-일체 포함-php.cn

대형 모델 시대에는 자연어, 코드 등 언어 모델(LLM) 크기와 학습 데이터가 늘어났습니다.

코드는 인간과 컴퓨터 사이의 중개자로서 높은 수준의 목표를 실행 가능한 중간 단계로 변환합니다. 문법적 표준, 논리적 일관성, 추상화 및 모듈성의 특성을 가지고 있습니다.

일리노이 대학 어바나-샴페인 캠퍼스의 연구팀은 최근 코드를 LLM 교육 데이터에 통합함으로써 얻을 수 있는 다양한 이점을 요약한 검토 보고서를 발표했습니다.

LLM 마법사의 마술 지팡이를 발견한 UIUC 중국 팀은 코드 데이터의 세 가지 주요 장점을 밝힙니다.

문서 링크: https://arxiv.org/abs/2401.00812v1

구체적으로 LLM의 코드 생성 능력을 향상시키는 것 외에도 다음 세 가지 이점도 포함됩니다.

1 LLM의 추론 기능을 활용하여 일련의 보다 복잡한 자연어 작업에 적용할 수 있습니다.

2 LLM을 통해 구조화되고 정확한 중간 단계를 생성할 수 있습니다.

3. 코드 컴파일 및 실행 환경을 사용하여 모델의 추가 개선을 위한 보다 다양한 피드백 신호를 제공할 수 있습니다.

LLM 마법사의 마술 지팡이를 발견한 UIUC 중국 팀은 코드 데이터의 세 가지 주요 장점을 밝힙니다.

또한 연구원들은 LLM이 지침을 이해하고, 목표를 분해하고, 작업을 계획 및 실행하고, 지능형 에이전트(IA)로 활동할 때 피드백을 추출하는 능력도 추적했습니다.

마지막으로 이 기사에서는 "코드를 통한 LLM 강화" 분야의 주요 과제와 향후 연구 방향도 제안합니다.

LLM 마법사의 마술 지팡이를 발견한 UIUC 중국 팀은 코드 데이터의 세 가지 주요 장점을 밝힙니다.

코드 사전 훈련으로 LLM 성능 향상

OpenAI의 GPT Codex를 예로 들면, LLM에 대한 코드 사전 훈련 후 LLM 작업의 범위를 자연어 처리 외에도 확장할 수 있습니다. 수학적 이론에도 사용할 수 있습니다. 코드 생성, 일반적인 프로그래밍 작업 수행, 데이터 검색 등.

코드 생성 작업에는 두 가지 특징이 있습니다. 1) 코드 시퀀스가 효과적으로 실행되어야 하므로 일관된 논리가 있어야 하며, 2) 각 중간 단계는 단계별 논리 검증의 대상이 될 수 있습니다.

사전 훈련에 코드를 활용하고 삽입하면 기존 자연어 다운스트림 작업에서 LLM CoT(사상 사슬) 기술의 성능이 향상될 수 있습니다. 이는 코드 훈련이 LLM의 복잡한 추론 수행 능력을 향상시킬 수 있음을 나타냅니다.

코드의 구조화된 형태로부터 암묵적으로 학습함으로써 Code LLM은 마크업, HTML 및 다이어그램 이해와 관련된 상식 구조 추론 작업에서도 더 나은 성능을 보여줍니다.

기능/기능 종료 지원

최근 연구 결과에 따르면 LLM을 다른 기능 엔드포인트에 연결하면(예: 외부 도구 및 실행 모듈로 LLM 향상) LLM이 작업을 보다 정확하고 안정적으로 수행하는 데 도움이 됩니다.

이러한 기능적 목적을 통해 LLM은 외부 지식을 습득하고, 여러 모달 데이터에 참여하고, 환경과 효과적으로 상호 작용할 수 있습니다.

LLM 마법사의 마술 지팡이를 발견한 UIUC 중국 팀은 코드 데이터의 세 가지 주요 장점을 밝힙니다.

연구원들은 관련 연구에서 공통적인 경향을 관찰했습니다. 즉, LLM은 프로그래밍 언어를 생성하거나 사전 정의된 기능을 활용하여 다른 기능 터미널과의 연결을 설정하는 것, 즉 "코드 중심"입니다. 패러다임.

LLM 추론 메커니즘에서 엄격하게 하드 코딩된 도구 호출의 고정된 실제 프로세스와는 달리, 코드 중심 패러다임을 사용하면 LLM이 동적으로 토큰을 생성하고 적응 가능한 매개변수를 사용하여 실행 모듈을 호출할 수 있으며 LLM에 다른 기능적 터미널 상호 작용을 제공합니다. 애플리케이션의 유연성과 확장성을 향상시키는 간단하고 명확한 방법입니다.

LLM 마법사의 마술 지팡이를 발견한 UIUC 중국 팀은 코드 데이터의 세 가지 주요 장점을 밝힙니다.

중요한 점은 이 패러다임을 통해 LLM은 액세스 가능한 기능 터미널의 수와 다양성을 확장하여 다양한 양식과 도메인에 걸쳐 수많은 기능 터미널과 상호 작용할 수 있다는 것입니다.

이 기사에서는 주로 LLM에 연결된 텍스트 및 다중 모드 도구는 물론 로봇 공학 및 자율 주행을 포함한 물리적 세계의 기능적 끝을 연구하여 다양한 모드 및 영역의 문제를 해결하는 데 있어 LLM의 다양성을 보여줍니다.

자동 피드백을 제공하는 실행 가능한 환경

LLM은 특히 비정적 실제 애플리케이션에서 피드백 신호를 흡수하는 모델의 능력으로 인해 훈련 매개변수 이상의 성능을 나타냅니다.

그러나 피드백 신호 선택은 주의해야 합니다. 시끄러운 신호가 다운스트림 작업에서 LLM의 성능을 방해할 수 있기 때문입니다.

또한 인건비가 높기 때문에 충성도를 유지하면서 자동으로 피드백을 수집하는 것이 중요합니다.

LLM 마법사의 마술 지팡이를 발견한 UIUC 중국 팀은 코드 데이터의 세 가지 주요 장점을 밝힙니다.

LLM을 코드 실행 환경에 포함하면 위 조건에 대한 자동 피드백을 얻을 수 있습니다.

코드 실행은 대체로 결정적이므로 LLM이 코드 실행 결과에서 얻는 피드백은 대상 작업에 충실하게 유지됩니다. 또한 코드 해석기는 LLM이 수동 작업 없이도 내부 피드백을 쿼리할 수 있는 자동화된 경로를 제공합니다. LLM에서 생성된 오류 코드를 디버깅하고 최적화하는 데 사용할 수 있습니다.

또한 코드 환경을 통해 LLM은 이진 정확성 피드백, 결과에 대한 자연어 설명 및 보상 값 순위를 포함하되 이에 국한되지 않는 다양한 외부 피드백 양식을 통합할 수 있으므로 고도로 사용자 정의 가능한 접근 방식을 통해 성능을 향상할 수 있습니다.

LLM 마법사의 마술 지팡이를 발견한 UIUC 중국 팀은 코드 데이터의 세 가지 주요 장점을 밝힙니다.

현재 과제

코드 사전 훈련과 LLM의 추론 향상 간의 인과 관계

코드 데이터의 특정 속성이 LLM의 추론 기능에 기여할 수 있다는 것이 직관적으로 보이지만, 추론 능력 향상에 미치는 영향의 정확한 정도는 여전히 불분명합니다.

연구 작업의 다음 단계에서는 이러한 코드 속성이 훈련 데이터에서 훈련된 LLM의 추론 기능을 실제로 향상시킬 수 있는지 여부를 연구하는 것이 중요합니다.

코드의 특정 속성에 대한 사전 훈련이 LLM의 추론 능력을 직접적으로 향상시킬 수 있다는 것이 사실이라면, 이 현상을 이해하는 것이 현재 모델의 복잡한 추론 능력을 더욱 향상시키는 열쇠가 될 것입니다.

코드에만 국한되지 않는 추론 능력

코드 사전 훈련을 통해 추론 능력이 향상되었음에도 불구하고 기본 모델에는 진정한 일반 인공 지능에서 기대되는 인간과 같은 추론 능력이 여전히 부족합니다.

코드 외에도 수많은 다른 텍스트 데이터 소스가 LLM 추론 기능을 향상시킬 수 있는 잠재력을 갖고 있습니다. 여기서 모호성 부족, 실행 가능성, 논리적 순차 구조 등 코드 고유의 특성이 수집 지침을 제공합니다. 또는 이러한 데이터 세트를 생성합니다.

그러나 언어 모델링 목표를 가지고 대규모 말뭉치에 대한 언어 모델 훈련 패러다임을 계속 고수한다면 형식 언어보다 더 추상적인 순차적으로 읽을 수 있는 언어를 갖는 것이 어려울 것입니다. 기호언어, 디지털 네트워크 환경에 다수 존재한다.

연구원들은 대체 데이터 패턴, 다양한 교육 목표 및 새로운 아키텍처를 탐색하면 모델 추론 기능을 더욱 향상시킬 수 있는 더 많은 기회를 제공할 것이라고 생각합니다.

코드 중심 패러다임 적용의 어려움

LLM에서 코드를 사용하여 다양한 기능 터미널에 연결하는 주요 과제는 올바른 기능 선택을 포함하여 다양한 기능의 올바른 호출 방법을 배우는 것입니다. (함수) 터미널을 실행하고 적절한 시점에 올바른 인수를 전달합니다.

예를 들어 간단한 작업(웹 페이지 탐색)의 경우 마우스 이동, 클릭, 페이지 스크롤과 같은 제한된 동작 기본 세트가 주어지고 몇 가지 예(몇 가지)를 제공하면 강력한 기반 LLM 이러한 기본 요소의 사용을 정확하게 마스터하려면 LLM이 필요한 경우가 많습니다.

다양한 기능을 가진 많은 복잡한 기능이 포함된 도메인별 Python 라이브러리에 대한 호출이 포함된 화학, 생물학, 천문학과 같은 데이터 집약적 분야의 보다 복잡한 작업의 경우 이러한 기능 기능을 올바르게 호출하는 LLM의 학습을 향상시킵니다. LLM이 세분화된 영역에서 전문가 수준의 작업을 수행할 수 있도록 하는 미래 지향적인 방향입니다.

다양한 상호작용과 피드백을 통해 학습하세요

LLM은 종종 사용자 및 환경과의 여러 상호작용을 요구하며, 복잡한 작업의 완성도를 높이기 위해 끊임없이 스스로를 수정합니다.

코드 실행은 안정적이고 사용자 정의 가능한 피드백을 제공하지만, 이 피드백을 완전히 활용할 수 있는 완벽한 방법은 아직 확립되지 않았습니다.

현재 선택 기반 방법은 유용하지만 향상된 성능을 보장할 수 없으며 재귀 기반 방법은 LLM의 상황 학습 능력에 크게 의존하므로 미세 조정 방법이지만 적용 가능성이 제한될 수 있습니다. 지속적인 발전을 이루었지만 데이터 수집 및 미세 조정은 리소스 집약적이며 실제로 사용하기 어렵습니다.

연구원들은 강화 학습이 피드백을 활용하고 개선하는 더 효과적인 방법이 될 수 있으며, 신중하게 설계된 보상 기능을 통해 피드백에 적응할 수 있는 동적 방법을 제공하고 잠재적으로 현재 기술의 한계를 해결할 수 있다고 믿습니다.

그러나 보상 기능을 설계하는 방법과 강화 학습을 LLM과 최적으로 통합하여 복잡한 작업을 완료하는 방법을 이해하려면 여전히 많은 연구가 필요합니다.

위 내용은 LLM 마법사의 마술 지팡이를 발견한 UIUC 중국 팀은 코드 데이터의 세 가지 주요 장점을 밝힙니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!