목차
TensorRT-LLM: 대형 모델 추론 가속 아티팩트
풍부한 LLM 생태계 지원
기내 일괄 처리
FP 8의 H100 Transformer 엔진 사용
기술 주변기기 일체 포함 H100 추론이 8배나 급등했습니다! NVIDIA는 10개 이상의 모델을 지원하는 오픈 소스 TensorRT-LLM을 공식 발표했습니다.

H100 추론이 8배나 급등했습니다! NVIDIA는 10개 이상의 모델을 지원하는 오픈 소스 TensorRT-LLM을 공식 발표했습니다.

Sep 10, 2023 pm 04:41 PM
모델 엔비디아

"GPU 가난한 사람들"이 곤경에 작별을 고하려고 합니다!

방금 NVIDIA는 H100에서 실행되는 대규모 언어 모델의 추론 프로세스를 가속화할 수 있는 TensorRT-LLM이라는 오픈 소스 소프트웨어를 출시했습니다.

H100 추론이 8배나 급등했습니다! NVIDIA는 10개 이상의 모델을 지원하는 오픈 소스 TensorRT-LLM을 공식 발표했습니다.

그렇다면 몇 번이나 개선할 수 있을까요?

TensorRT-LLM과 일련의 최적화 기능(In-Flight 일괄 처리 포함)을 추가한 후 총 모델 처리량이 8배 증가했습니다.

H100 추론이 8배나 급등했습니다! NVIDIA는 10개 이상의 모델을 지원하는 오픈 소스 TensorRT-LLM을 공식 발표했습니다.

TensorRT-LLM 유무에 따른 GPT-J-6B A100 및 H100 비교

또한 Llama 2를 예로 들면 TensorRT-LLM은 A100을 단독으로 사용하는 것에 비해 추론 성능을 향상시킬 수 있습니다. 4.6배 향상

H100 추론이 8배나 급등했습니다! NVIDIA는 10개 이상의 모델을 지원하는 오픈 소스 TensorRT-LLM을 공식 발표했습니다.

Llama 2 70B, A100, H100의 TensorRT-LLM 유무 비교

네티즌들은 TensorRT-LLM과 결합된 super H100이 의심할 여지 없이 현재의 모습을 완전히 바꿀 것이라고 말했습니다. 대규모 언어 모델 추론 상황!

H100 추론이 8배나 급등했습니다! NVIDIA는 10개 이상의 모델을 지원하는 오픈 소스 TensorRT-LLM을 공식 발표했습니다.

TensorRT-LLM: 대형 모델 추론 가속 아티팩트

현재 대형 모델의 거대한 매개변수 규모로 인해 "배포 및 추론"의 어려움과 비용이 항상 높았습니다.

NVIDIA에서 개발한 TensorRT-LLM은 GPU를 통해 LLM의 처리량을 크게 향상하고 비용을 절감하는 것을 목표로 합니다.

H100 추론이 8배나 급등했습니다! NVIDIA는 10개 이상의 모델을 지원하는 오픈 소스 TensorRT-LLM을 공식 발표했습니다.

특히 TensorRT-LLM은 TensorRT의 딥 러닝 컴파일러와 FasterTransformer 커널, 사전 및 사후 처리를 최적화합니다. , 다중 GPU/다중 노드 통신은 간단한 오픈 소스 Python API

에 캡슐화되어 있습니다. NVIDIA는 FasterTransformer를 더욱 강화하여 프로덕션 솔루션으로 만들었습니다.

TensorRT-LLM은 사용하기 쉬운 오픈 소스 및 모듈식 Python 애플리케이션 프로그래밍 인터페이스를 제공하는 것을 볼 수 있습니다.

C++ 또는 CUDA에 대한 심층적인 지식이 필요하지 않은 코더도 다양한 대규모 언어 모델을 배포, 실행 및 디버깅할 수 있으며 뛰어난 성능과 빠른 사용자 정의가 가능합니다.

H100 추론이 8배나 급등했습니다! NVIDIA는 10개 이상의 모델을 지원하는 오픈 소스 TensorRT-LLM을 공식 발표했습니다.

NVIDIA 공식 블로그에 따르면 , TensorRT-LLM은 Nvidia GPU에서 LLM 추론 성능을 향상시키기 위해 네 가지 방법을 채택합니다

먼저, TensorRT-LLM은 현재 10개 이상의 대형 모델에 도입되어 개발자가 즉시 실행할 수 있습니다.

두 번째로, 오픈 소스 소프트웨어 라이브러리인 TensorRT-LLM을 사용하면 LLM이 여러 GPU와 여러 GPU 서버에서 동시에 추론을 수행할 수 있습니다.

이러한 서버는 각각 NVIDIA의 NVLink 및 InfiniBand 상호 연결을 통해 연결됩니다.

세 번째 요점은 "인머신 내 일괄 처리"에 관한 것입니다. 이는 서로 다른 모델의 작업이 다른 작업과 독립적으로 GPU에 들어가고 나갈 수 있도록 하는 새로운 스케줄링 기술입니다.

마지막으로 TensorRT-LLM은 최적화된 경우 H100 Transformer Engine을 사용하여 모델 추론 중 메모리 사용량과 대기 시간을 줄일 수 있습니다.

TensorRT-LLM이 어떻게 모델 성능을 향상하는지 자세히 살펴보겠습니다

풍부한 LLM 생태계 지원

TensorRT-LLM은 오픈 소스 모델 생태계에 탁월한 지원을 제공합니다

다시 작성해야 할 사항 예 : Meta의 Llama 2-70B와 같은 가장 크고 가장 발전된 언어 모델은 실시간 응답을 제공하기 위해 여러 개의 GPU가 함께 작동해야 합니다.

이전에는 LLM 추론의 최고의 성능을 달성하기 위해 개발자가 수동으로 AI 모델을 만들어 여러 조각으로 분해한 후 GPU 간 실행을 조정합니다

H100 추론이 8배나 급등했습니다! NVIDIA는 10개 이상의 모델을 지원하는 오픈 소스 TensorRT-LLM을 공식 발표했습니다.

TensorRT-LLM은 텐서 병렬 기술을 사용하여 가중치 행렬을 각 장치에 분산함으로써 프로세스를 단순화하고 대규모로 효율적인 추론을 가능하게 합니다.

각 모델은 NVLink를 통해 연결된 여러 장치에서 실행될 수 있습니다. 개발자 개입이나 모델 변경 없이 여러 GPU와 여러 서버를 사용할 수 있습니다.

H100 추론이 8배나 급등했습니다! NVIDIA는 10개 이상의 모델을 지원하는 오픈 소스 TensorRT-LLM을 공식 발표했습니다.

새로운 모델 및 모델 아키텍처 출시로 개발자는 TensorRT-LLM의 최신 NVIDIA AI 커널(Kernal) 오픈 소스를 사용하여 모델을 최적화할 수 있습니다.

다시 작성해야 할 사항은 다음과 같습니다. 지원되는 커널 Fusion에는 최신 FlashAttention 구현뿐만 아니라 GPT 모델 실행의 컨텍스트 및 생성 단계에 대한 마스크된 다중 헤드 주의도 포함됩니다.

또한 TensorRT-LLM에는 현재 인기 있는 많은 대규모 언어 모델도 포함되어 있습니다. 최적화되고 즉시 실행 가능한 버전입니다.

이러한 모델에는 Meta Llama 2, OpenAI GPT-2 및 GPT-3, Falcon, mosaic MPT, BLOOM 등 10개 이상이 포함됩니다. 이러한 모든 모델은 사용하기 쉬운 TensorRT-LLM Python API

를 사용하여 호출할 수 있습니다. 이러한 기능은 개발자가 다양한 산업의 다양한 요구 사항을 충족하기 위해 맞춤형 대규모 언어 모델을 더 빠르고 정확하게 구축하는 데 도움이 될 수 있습니다.

기내 일괄 처리

요즘에는 대규모 언어 모델이 매우 다양하게 활용됩니다.

모델은 챗봇의 간단한 Q&A 응답부터 문서 요약 또는 긴 코드 블록 생성에 이르기까지 서로 다른 것처럼 보이는 여러 작업에 동시에 사용할 수 있습니다. 워크로드는 매우 동적이며 출력 크기를 충족해야 합니다. 크기의 순서가 다릅니다.

작업의 다양성으로 인해 요청을 효과적으로 일괄 처리하고 효율적인 병렬 실행을 수행하기가 어려워 일부 요청이 다른 요청보다 일찍 완료될 수 있습니다.

H100 추론이 8배나 급등했습니다! NVIDIA는 10개 이상의 모델을 지원하는 오픈 소스 TensorRT-LLM을 공식 발표했습니다.

이러한 동적 부하를 관리하기 위해 TensorRT-LLM에는 "In-flight 일괄 처리"라는 최적화된 스케줄링 기술이 포함되어 있습니다.

대규모 언어 모델의 핵심 원칙은 모델의 여러 반복을 통해 전체 텍스트 생성 프로세스를 달성할 수 있다는 것입니다.

진행 중인 일괄 처리를 사용하면 TensorRT-LLM 런타임은 다음과 같은 경우 일괄 처리에서 즉시 해제됩니다. 다음 요청 세트로 이동하기 전에 전체 배치가 완료될 때까지 기다리는 대신 시퀀스가 ​​완료됩니다.

새 요청을 실행하는 동안 이전 일괄 처리에서 완료되지 않은 다른 요청이 계속 처리되고 있습니다.

머신 내 일괄 처리 및 추가 커널 수준 최적화를 통해 GPU 활용도가 향상되어 H100의 LLM에 대한 실제 요청 벤치마크의 처리량이 두 배 이상 증가했습니다.

FP 8의 H100 Transformer 엔진 사용

TensorRT- LLM은 또한 대규모 모델 추론 중에 메모리 소비와 대기 시간을 효과적으로 줄일 수 있는 H100 Transformer Engine이라는 기능을 제공합니다.

LLM에는 수십억 개의 모델 가중치와 활성화 함수가 포함되어 있으므로 일반적으로 각각 16비트 메모리를 차지하는 FP16 또는 BF16 값으로 훈련되고 표현됩니다.

그러나 추론 시 대부분의 모델은 8비트 또는 4비트 정수(INT8 또는 INT4)와 같은 양자화 기술을 사용하여 낮은 정밀도로 효율적으로 표현할 수 있습니다.

양자화는 정확도를 희생하지 않고 모델 가중치와 활성화 정확도를 줄이는 프로세스입니다. 정밀도가 낮다는 것은 각 매개변수가 더 작고 모델이 GPU 메모리에서 더 적은 공간을 차지한다는 것을 의미합니다.

H100 추론이 8배나 급등했습니다! NVIDIA는 10개 이상의 모델을 지원하는 오픈 소스 TensorRT-LLM을 공식 발표했습니다.

이런 방식으로 동일한 하드웨어를 사용하여 더 큰 모델을 추론하는 동시에 실행 프로세스 중 메모리 작업에 소요되는 시간을 줄일 수 있습니다.

TensorRT-LLM과 결합된 H100 Transformer Engine 기술을 통해 H100 GPU를 사용하면 사용자는 모델 가중치를 새로운 FP8 형식으로 쉽게 변환하고 모델을 자동으로 컴파일하여 최적화된 FP8 코어를 활용할 수 있습니다.

그리고 이 과정에는 코딩이 필요하지 않습니다! H100에 도입된 FP8 데이터 형식을 통해 개발자는 모델 정확도를 저하시키지 않고 모델을 정량화하고 메모리 소비를 획기적으로 줄일 수 있습니다.

INT8 또는 INT4와 같은 다른 데이터 형식과 비교할 때 FP8 양자화는 가장 빠른 성능을 달성하면서 더 높은 정밀도를 유지하고 구현하기 가장 편리합니다. INT8 또는 INT4와 같은 다른 데이터 형식에 비해 FP8 양자화는 가장 빠른 성능을 달성하면서 더 높은 정확도를 유지하며 구현하기 가장 편리합니다. 하지만 이제 사용자들은 미리 경험할 수 있습니다

응용 프로그램 링크는 다음과 같습니다:

https://developer.nvidia.com/tensorrt-llm-early-access/join

Nvidia도 말했습니다. TensorRT-LLM은 NVIDIA NeMo 프레임워크에 빠르게 통합되었습니다.

이 프레임워크는 NVIDIA가 최근 출시한 AI Enterprise의 일부로, 기업 고객에게 안전하고 안정적이며 관리가 용이한 엔터프라이즈급 AI 소프트웨어 플랫폼을 제공합니다.

개발자와 연구원은 다음에서 NeMo 프레임워크를 사용할 수 있습니다. TensorRT-LLM

에 액세스하려면 NVIDIA NGC 또는 GitHub 프로젝트를 이용해야 합니다. 그러나 조기 액세스 버전을 신청하려면 사용자가 NVIDIA 개발자 프로그램에 등록해야 한다는 점에 유의해야 합니다.

네티즌들 사이에서 뜨거운 논의

Reddit 사용자들은 TensorRT-LLM 출시에 대해 열띤 토론을 벌였습니다

LLM에 맞게 하드웨어를 최적화한 후 효과가 얼마나 향상될지 상상하기 어렵습니다.

그러나 일부 네티즌들은 이 일의 목적이 Lao Huang이 H100을 더 많이 판매하도록 돕는 것이라고 믿습니다.

H100 추론이 8배나 급등했습니다! NVIDIA는 10개 이상의 모델을 지원하는 오픈 소스 TensorRT-LLM을 공식 발표했습니다.

일부 네티즌들은 Tensor RT가 딥 러닝을 로컬에 배포하는 사용자에게도 도움이 된다고 생각합니다. RTX GPU가 있는 한, 향후 유사한 제품의 혜택도 누릴 수 있습니다

H100 추론이 8배나 급등했습니다! NVIDIA는 10개 이상의 모델을 지원하는 오픈 소스 TensorRT-LLM을 공식 발표했습니다.

좀 더 거시적인 관점에서 보면, 아마도 LLM의 경우 하드웨어 수준을 위한 일련의 최적화 조치가 있을 것입니다. LLM을 위해 특별히 설계된 하드웨어도 성능을 향상시키기 위해 등장했을 수도 있습니다. 이러한 상황은 많은 인기 응용 프로그램에서 발생했으며 LLM도 예외는 아닙니다

H100 추론이 8배나 급등했습니다! NVIDIA는 10개 이상의 모델을 지원하는 오픈 소스 TensorRT-LLM을 공식 발표했습니다.

위 내용은 H100 추론이 8배나 급등했습니다! NVIDIA는 10개 이상의 모델을 지원하는 오픈 소스 TensorRT-LLM을 공식 발표했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌
Will R.E.P.O. 크로스 플레이가 있습니까?
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

세계에서 가장 강력한 오픈 소스 MoE 모델이 여기에 있습니다. 중국의 기능은 GPT-4와 비슷하며 가격은 GPT-4-Turbo의 거의 1%에 불과합니다. 세계에서 가장 강력한 오픈 소스 MoE 모델이 여기에 있습니다. 중국의 기능은 GPT-4와 비슷하며 가격은 GPT-4-Turbo의 거의 1%에 불과합니다. May 07, 2024 pm 04:13 PM

기존 컴퓨팅을 능가할 뿐만 아니라 더 낮은 비용으로 더 효율적인 성능을 달성하는 인공 지능 모델을 상상해 보세요. 이것은 공상과학 소설이 아닙니다. DeepSeek-V2[1], 세계에서 가장 강력한 오픈 소스 MoE 모델이 여기에 있습니다. DeepSeek-V2는 경제적인 훈련과 효율적인 추론이라는 특징을 지닌 전문가(MoE) 언어 모델의 강력한 혼합입니다. 이는 236B 매개변수로 구성되며, 그 중 21B는 각 마커를 활성화하는 데 사용됩니다. DeepSeek67B와 비교하여 DeepSeek-V2는 더 강력한 성능을 제공하는 동시에 훈련 비용을 42.5% 절감하고 KV 캐시를 93.3% 줄이며 최대 생성 처리량을 5.76배로 늘립니다. DeepSeek은 일반 인공지능을 연구하는 회사입니다.

MLP를 대체하는 KAN은 오픈소스 프로젝트를 통해 컨볼루션으로 확장되었습니다. MLP를 대체하는 KAN은 오픈소스 프로젝트를 통해 컨볼루션으로 확장되었습니다. Jun 01, 2024 pm 10:03 PM

이달 초 MIT와 기타 기관의 연구자들은 MLP에 대한 매우 유망한 대안인 KAN을 제안했습니다. KAN은 정확성과 해석성 측면에서 MLP보다 뛰어납니다. 그리고 매우 적은 수의 매개변수로 더 많은 수의 매개변수를 사용하여 실행되는 MLP보다 성능이 뛰어날 수 있습니다. 예를 들어 저자는 KAN을 사용하여 더 작은 네트워크와 더 높은 수준의 자동화로 DeepMind의 결과를 재현했다고 밝혔습니다. 구체적으로 DeepMind의 MLP에는 약 300,000개의 매개변수가 있는 반면 KAN에는 약 200개의 매개변수만 있습니다. KAN은 MLP와 같이 강력한 수학적 기반을 가지고 있으며, KAN은 Kolmogorov-Arnold 표현 정리를 기반으로 합니다. 아래 그림과 같이 KAN은

NVIDIA 대화 모델 ChatQA는 버전 2.0으로 발전했으며 컨텍스트 길이는 128K로 언급되었습니다. NVIDIA 대화 모델 ChatQA는 버전 2.0으로 발전했으며 컨텍스트 길이는 128K로 언급되었습니다. Jul 26, 2024 am 08:40 AM

오픈 LLM 커뮤니티는 백개의 꽃이 피어 경쟁하는 시대입니다. Llama-3-70B-Instruct, QWen2-72B-Instruct, Nemotron-4-340B-Instruct, Mixtral-8x22BInstruct-v0.1 등을 보실 수 있습니다. 훌륭한 연기자. 그러나 GPT-4-Turbo로 대표되는 독점 대형 모델과 비교하면 개방형 모델은 여전히 ​​많은 분야에서 상당한 격차를 보이고 있습니다. 일반 모델 외에도 프로그래밍 및 수학을 위한 DeepSeek-Coder-V2, 시각 언어 작업을 위한 InternVL과 같이 핵심 영역을 전문으로 하는 일부 개방형 모델이 개발되었습니다.

공장에서 일하는 테슬라 로봇, 머스크 : 올해 손의 자유도가 22도에 달할 것! 공장에서 일하는 테슬라 로봇, 머스크 : 올해 손의 자유도가 22도에 달할 것! May 06, 2024 pm 04:13 PM

테슬라의 로봇 옵티머스(Optimus)의 최신 영상이 공개됐는데, 이미 공장에서 작동이 가능한 상태다. 정상 속도에서는 배터리(테슬라의 4680 배터리)를 다음과 같이 분류합니다. 공식은 또한 20배 속도로 보이는 모습을 공개했습니다. 작은 "워크스테이션"에서 따고 따고 따고 : 이번에 출시됩니다. 영상에는 옵티머스가 공장에서 이 작업을 전 과정에 걸쳐 사람의 개입 없이 완전히 자율적으로 완료하는 모습이 담겨 있습니다. 그리고 Optimus의 관점에서 보면 자동 오류 수정에 중점을 두고 구부러진 배터리를 집어 넣을 수도 있습니다. NVIDIA 과학자 Jim Fan은 Optimus의 손에 대해 높은 평가를 했습니다. Optimus의 손은 세계의 다섯 손가락 로봇 중 하나입니다. 가장 능숙합니다. 손은 촉각적일 뿐만 아니라

'AI Factory”는 전체 소프트웨어 스택의 재구성을 촉진하고 NVIDIA는 사용자가 배포할 수 있도록 Llama3 NIM 컨테이너를 제공합니다. 'AI Factory”는 전체 소프트웨어 스택의 재구성을 촉진하고 NVIDIA는 사용자가 배포할 수 있도록 Llama3 NIM 컨테이너를 제공합니다. Jun 08, 2024 pm 07:25 PM

이 사이트는 6월 2일 진행 중인 Huang Jen-Hsun 2024 타이페이 컴퓨터 쇼 기조 연설에서 Huang Jen-Hsun이 생성 인공 지능이 전체 소프트웨어 스택의 재구성을 촉진할 것이라고 소개하고 NIM(Nvidia Inference Microservices) 클라우드를 시연했다고 보도했습니다. 네이티브 마이크로서비스. NVIDIA는 "AI 공장"이 새로운 산업 혁명을 일으킬 것이라고 믿습니다. Huang Renxun은 Microsoft가 개척한 소프트웨어 산업을 예로 들어 생성 인공 지능이 전체 스택 재편을 촉진할 것이라고 믿습니다. 모든 규모의 기업이 AI 서비스를 쉽게 배포할 수 있도록 NVIDIA는 올해 3월 NIM(Nvidia Inference Microservices) 클라우드 네이티브 마이크로서비스를 출시했습니다. NIM+는 출시 시간을 단축하도록 최적화된 클라우드 기반 마이크로서비스 제품군입니다.

단일 카드는 듀얼 카드보다 Llama를 70B 더 빠르게 실행합니다. Microsoft는 A100에 FP6을 넣었습니다 | 단일 카드는 듀얼 카드보다 Llama를 70B 더 빠르게 실행합니다. Microsoft는 A100에 FP6을 넣었습니다 | Apr 29, 2024 pm 04:55 PM

FP8 이하의 부동 소수점 수량화 정밀도는 더 이상 H100의 "특허"가 아닙니다! Lao Huang은 모든 사람이 INT8/INT4를 사용하기를 원했고 Microsoft DeepSpeed ​​팀은 NVIDIA의 공식 지원 없이 A100에서 FP6을 실행하기 시작했습니다. 테스트 결과에 따르면 A100에 대한 새로운 방법 TC-FPx의 FP6 양자화는 INT4에 가깝거나 때로는 더 빠르며 후자보다 정확도가 더 높은 것으로 나타났습니다. 또한 오픈 소스로 제공되고 DeepSpeed와 같은 딥 러닝 추론 프레임워크에 통합된 엔드투엔드 대규모 모델 지원도 있습니다. 이 결과는 대형 모델 가속화에도 즉각적인 영향을 미칩니다. 이 프레임워크에서는 단일 카드를 사용하여 Llama를 실행하면 처리량이 듀얼 카드보다 2.65배 더 높습니다. 하나

DPO를 완전히 능가함: Chen Danqi 팀은 단순 선호도 최적화 SimPO를 제안하고 가장 강력한 8B 오픈 소스 모델도 개선했습니다. DPO를 완전히 능가함: Chen Danqi 팀은 단순 선호도 최적화 SimPO를 제안하고 가장 강력한 8B 오픈 소스 모델도 개선했습니다. Jun 01, 2024 pm 04:41 PM

대규모 언어 모델(LLM)을 인간의 가치와 의도에 맞추려면 인간의 피드백을 학습하여 유용하고 정직하며 무해한지 확인하는 것이 중요합니다. LLM 정렬 측면에서 효과적인 방법은 인간 피드백 기반 강화 학습(RLHF)입니다. RLHF 방법의 결과는 훌륭하지만 몇 가지 최적화 문제가 있습니다. 여기에는 보상 모델을 훈련한 다음 해당 보상을 극대화하기 위해 정책 모델을 최적화하는 것이 포함됩니다. 최근 일부 연구자들은 더 간단한 오프라인 알고리즘을 탐구했는데, 그 중 하나가 직접 선호 최적화(DPO)입니다. DPO는 RLHF의 보상 기능을 매개변수화하여 선호도 데이터를 기반으로 직접 정책 모델을 학습하므로 명시적인 보상 모델이 필요하지 않습니다. 이 방법은 간단하고 안정적입니다.

OpenAI 데이터가 필요하지 않습니다. 대규모 코드 모델 목록에 참여하세요! UIUC, StarCoder-15B-Instruct 출시 OpenAI 데이터가 필요하지 않습니다. 대규모 코드 모델 목록에 참여하세요! UIUC, StarCoder-15B-Instruct 출시 Jun 13, 2024 pm 01:59 PM

소프트웨어 기술의 선두에 있는 UIUC Zhang Lingming 그룹은 BigCode 조직의 연구원들과 함께 최근 StarCoder2-15B-Instruct 대규모 코드 모델을 발표했습니다. 이 혁신적인 성과는 코드 생성 작업에서 획기적인 발전을 이루었으며 CodeLlama-70B-Instruct를 성공적으로 능가하고 코드 생성 성능 목록의 최상위에 올랐습니다. StarCoder2-15B-Instruct의 독창성은 순수한 자체 정렬 전략에 있습니다. 전체 훈련 프로세스는 개방적이고 투명하며 완전히 자율적이고 제어 가능합니다. 이 모델은 값비싼 수동 주석에 의존하지 않고 StarCoder-15B 기본 모델을 미세 조정한 것에 대한 응답으로 StarCoder2-15B를 통해 수천 개의 명령을 생성합니다.

See all articles