처리량이 5배 증가합니다. 백엔드 시스템과 프런트엔드 언어를 공동 설계하기 위한 LLM 인터페이스가 여기에 있습니다.-일체 포함-php.cn

집

기술 주변기기

일체 포함

처리량이 5배 증가합니다. 백엔드 시스템과 프런트엔드 언어를 공동 설계하기 위한 LLM 인터페이스가 여기에 있습니다.

PHPz

Mar 01, 2024 pm 10:55 PM

프로젝트 sglang

대형 언어 모델(LLM)은 다중 체인 생성 호출, 고급 힌트 기술, 제어 흐름 및 외부 환경과의 상호 작용이 필요한 복잡한 작업에 널리 사용됩니다. 그럼에도 불구하고 이러한 애플리케이션을 프로그래밍하고 실행하기 위한 현재의 효율적인 시스템에는 심각한 단점이 있습니다.

연구원들은 최근 LLM과의 상호 작용을 향상시키는 것을 목표로 하는 SGLang이라는 새로운 구조적 생성 언어를 제안했습니다. 백엔드 런타임 시스템과 프런트엔드 언어의 설계를 통합함으로써 SGLang은 LLM의 성능을 더욱 향상시키고 제어하기 쉽게 만듭니다. 이번 연구는 머신러닝 분야의 저명한 학자이자 CMU 조교수인 Chen Tianqi가 진행했습니다.

처리량이 5배 증가합니다. 백엔드 시스템과 프런트엔드 언어를 공동 설계하기 위한 LLM 인터페이스가 여기에 있습니다.

일반적으로 SGLang의 기여는 주로 다음과 같습니다.

백엔드에서 연구팀은 자동적이고 효율적인 여러 LLM 생성 호출 전반에 걸쳐 KV 캐시(KV 캐시) 재사용 기술인 RadixAttention을 제안했습니다.
프런트 엔드 개발에서 팀은 생성 프로세스를 제어하기 위해 Python에 내장할 수 있는 유연한 도메인별 언어를 개발했습니다. 이 언어는 인터프리터 모드 또는 컴파일러 모드에서 실행될 수 있습니다.

백엔드 및 프런트엔드 구성 요소가 함께 작동하여 복잡한 LLM 프로그램의 실행 및 프로그래밍 효율성을 향상시킵니다.

이 연구에서는 SGLang을 사용하여 에이전트, 추론, 추출, 대화 및 소수 학습 작업을 포함한 일반적인 LLM 워크로드를 구현하고 NVIDIA A10G GPU에서 Llama-7B 및 Mixtral-8x7B 모델을 채택합니다. 아래 그림 1과 그림 2에서 볼 수 있듯이 SGLang의 처리량은 기존 시스템(예: Guidance 및 vLLM)에 비해 5배 증가합니다.

처리량이 5배 증가합니다. 백엔드 시스템과 프런트엔드 언어를 공동 설계하기 위한 LLM 인터페이스가 여기에 있습니다.

^{그림 1: LLM 작업에 대한 다양한 시스템의 처리량(FP16의 A10G, Llama-7B, 텐서 병렬성 = 1)}

처리량이 5배 증가합니다. 백엔드 시스템과 프런트엔드 언어를 공동 설계하기 위한 LLM 인터페이스가 여기에 있습니다.

^{그림 2: LLM 작업에 대한 다양한 시스템의 처리량( Mixtral-8x7B on A10G, FP16, 텐서 병렬성 = 8)}

백엔드: RadixAttention을 사용한 자동 KV 캐시 재사용

SGLang 런타임 개발 과정에서 이 연구는 복잡한 LLM 프로그램을 최적화하는 열쇠인 KV 캐시 재사용을 발견했습니다. , 현재 시스템에서는 잘 처리되지 않습니다. KV 캐시 재사용은 동일한 접두어를 가진 여러 프롬프트가 중간 KV 캐시를 공유하여 중복 메모리 및 계산을 피할 수 있음을 의미합니다. 여러 LLM 호출이 포함된 복잡한 프로그램에는 다양한 KV 캐시 재사용 모드가 존재할 수 있습니다. 아래 그림 3은 LLM 워크로드에서 일반적으로 발견되는 4가지 패턴을 보여줍니다. 일부 시스템은 특정 시나리오에서 KV 캐시 재사용을 처리할 수 있지만 수동 구성 및 임시 조정이 필요한 경우가 많습니다. 또한 가능한 재사용 패턴의 다양성으로 인해 기존 시스템은 수동 구성을 통해서도 모든 시나리오에 자동으로 적응할 수 없습니다.

처리량이 5배 증가합니다. 백엔드 시스템과 프런트엔드 언어를 공동 설계하기 위한 LLM 인터페이스가 여기에 있습니다.

^{그림 3: KV 캐시 공유 예. 파란색 상자는 공유 가능한 프롬프트 부분, 녹색 상자는 공유할 수 없는 부분, 노란색 상자는 공유할 수 없는 모델 출력입니다. 공유할 수 있는 부분에는 소규모 학습 예시, 자기 일관성 질문, 여러 라운드의 대화에 대한 대화 기록, 생각나무의 검색 기록이 포함됩니다.}

이러한 재사용 기회를 체계적으로 활용하기 위해 이 연구에서는 런타임 시 자동 KV 캐시 재사용을 위한 새로운 방법인 RadixAttention을 제안합니다. 빌드 요청을 완료한 후 KV 캐시를 삭제하는 대신 이 메서드는 빌드 결과의 프롬프트와 KV 캐시를 기수 트리에 유지합니다. 이 데이터 구조를 통해 효율적인 접두사 검색, 삽입 및 제거가 가능합니다. 본 연구에서는 캐시 적중률을 향상시키기 위해 캐시 인식 스케줄링 정책으로 보완된 LRU(최근 사용) 퇴거 정책을 구현합니다.

기수 트리는 트라이(접두사 트리) 대신 공간을 절약하는 대안으로 사용할 수 있습니다. 일반적인 트리와 달리 기수 트리의 가장자리는 단일 요소뿐만 아니라 다양한 길이의 요소 시퀀스로 표시될 수 있으므로 기수 트리의 효율성이 향상됩니다.

이 연구에서는 키 역할을 하는 토큰 시퀀스와 값 역할을 하는 해당 KV 캐시 텐서 간의 매핑을 관리하기 위해 기수 트리를 활용합니다. 이러한 KV 캐시 텐서는 각 페이지가 토큰 크기인 페이지 레이아웃으로 GPU에 저장됩니다.

GPU 메모리 용량이 제한되어 있고 무제한 KV 캐시 텐서를 재교육할 수 없다는 점을 고려하면 제거 전략이 필요합니다. 본 연구에서는 리프 노드를 재귀적으로 제거하기 위해 LRU 제거 전략을 채택했습니다. 또한 RadixAttention은 연속 일괄 처리 및 페이지 주의와 같은 기존 기술과 호환됩니다. 다중 모드 모델의 경우 RadixAttention을 쉽게 확장하여 이미지 토큰을 처리할 수 있습니다.

아래 다이어그램은 여러 수신 요청을 처리할 때 기수 트리가 유지되는 방법을 보여줍니다. 프런트 엔드는 항상 전체 프롬프트를 런타임에 보내고 런타임은 자동으로 접두사 일치, 재사용 및 캐싱을 수행합니다. 트리 구조는 CPU에 저장되며 유지 관리 오버헤드가 낮습니다.

처리량이 5배 증가합니다. 백엔드 시스템과 프런트엔드 언어를 공동 설계하기 위한 LLM 인터페이스가 여기에 있습니다.

^{그림 4. LRU 제거 정책을 사용한 RadixAttention 작업 예를 9단계로 설명합니다.}

그림 4는 다양한 요청에 대한 응답으로 기수 트리가 역동적으로 진화하는 모습을 보여줍니다. 이러한 요청에는 두 개의 채팅 세션, 일련의 퓨샷 학습 쿼리 및 일관된 샘플링이 포함됩니다. 각 트리 가장자리에는 하위 문자열 또는 토큰 시퀀스를 나타내는 레이블이 지정됩니다. 노드는 다양한 상태를 반영하기 위해 색상으로 구분됩니다. 녹색은 새로 추가된 노드를 나타내고, 파란색은 해당 시점에 액세스된 캐시된 노드를 나타내고, 빨간색은 제거된 노드를 나타냅니다.

프런트엔드: SGLang으로 LLM 프로그래밍이 쉬워졌습니다

프론트엔드에서 연구는 고급 프롬프트 기술, 제어 흐름, 다중 양식을 표현할 수 있는 Python에 내장된 도메인별 언어인 SGLang을 제안합니다. , 제약 조건 및 외부 상호 작용을 디코딩합니다. SGLang 기능은 OpenAI, Anthropic, Gemini, 네이티브 모델 등 다양한 백엔드를 통해 실행될 수 있습니다.

처리량이 5배 증가합니다. 백엔드 시스템과 프런트엔드 언어를 공동 설계하기 위한 LLM 인터페이스가 여기에 있습니다.

^{그림 5. SGLang을 사용하여 다차원 기사 채점 구현.}

그림 5는 구체적인 예를 보여줍니다. 다차원 기사 채점을 달성하기 위해 분기-해결-병합 프롬프트 기술을 활용합니다. 이 기능은 LLM을 사용하여 여러 측면에서 기사의 품질을 평가하고, 판단을 결합하고, 요약을 생성하고, 최종 등급을 할당합니다. 강조 표시된 영역은 SGLang API의 사용을 보여줍니다. (1) 포크는 프롬프트의 여러 병렬 복사본을 생성합니다. (2) gen은 LLM 생성을 호출하고 결과를 변수에 저장합니다. 이 호출은 비차단 호출이므로 여러 빌드 호출이 백그라운드에서 동시에 실행될 수 있습니다. (3) [variable_name]은 생성된 결과를 검색합니다. (4) 세대에 제한을 가하도록 선택합니다. (5) run은 해당 매개변수를 사용하여 SGLang 함수를 실행합니다.

이런 SGLang 프로그램이 있으면 인터프리터를 통해 실행하거나 데이터 흐름 그래프로 추적하고 그래프 실행기를 사용하여 실행할 수 있습니다. 후자의 경우 코드 이동, 명령 선택 및 자동 조정과 같은 일부 잠재적인 컴파일러 최적화를 위한 공간이 열립니다.

SGLang의 구문은 Guidance에서 크게 영감을 받았으며 새로운 기본 요소를 도입하고 절차 내 병렬 처리 및 일괄 처리도 처리합니다. 이러한 모든 새로운 기능은 SGLang의 뛰어난 성능에 기여합니다.

벤치마크

연구팀은 일반적인 LLM 워크로드에서 시스템을 테스트하고 달성된 처리량을 보고했습니다.

구체적으로, 연구에서는 FP16 정확도를 사용하고 vllm v0 .2.5, Guidance v0.1.8 및 Hugging Face TGI v1을 사용하여 텐서 병렬 처리를 갖춘 1개의 NVIDIA A10G GPU(24GB)에서 Llama-7B, 8개의 NVIDIA A10G GPU에서 Mixtral-8x7B를 테스트했습니다. .3.0을 기본 시스템으로 사용합니다.

그림 1과 그림 2에 표시된 것처럼 SGLang은 처리량이 5배 증가하여 모든 벤치마크에서 기본 시스템보다 성능이 뛰어납니다. 또한 대기 시간 측면에서도 좋은 성능을 발휘하며, 특히 접두사 캐시 적중이 상당한 이점을 가져올 수 있는 첫 번째 토큰 대기 시간의 경우 더욱 그렇습니다. 이러한 개선은 RadixAttention의 자동 KV 캐시 재사용, 인터프리터를 통해 지원되는 프로그램 내 병렬 처리, 프런트엔드 및 백엔드 시스템의 공동 설계 덕분입니다. 또한 제거 연구에 따르면 캐시 적중이 없는 경우에도 런타임에 RadixAttention이 항상 활성화되는 심각한 오버헤드가 없는 것으로 나타났습니다.

^{참고링크: https://lmsys.org/blog/2024-01-17-sglang/}

위 내용은 처리량이 5배 증가합니다. 백엔드 시스템과 프런트엔드 언어를 공동 설계하기 위한 LLM 인터페이스가 여기에 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7502

Cakephp 튜토리얼

1377

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

ControlNet의 저자가 또 다른 히트를 쳤습니다! 이틀 만에 14,000개의 별을 획득하여 그림에서 그림을 생성하는 전체 과정 Jul 17, 2024 am 01:56 AM

역시 Tusheng 영상이지만 PaintsUndo는 다른 경로를 택했습니다. ControlNet 작성자 LvminZhang이 다시 살기 시작했습니다! 이번에는 회화 분야를 목표로 삼고 있습니다. 새로운 프로젝트인 PaintsUndo는 출시된 지 얼마 되지 않아 1.4kstar(여전히 상승세)를 받았습니다. 프로젝트 주소: https://github.com/lllyasviel/Paints-UNDO 이 프로젝트를 통해 사용자는 정적 이미지를 입력하고 PaintsUndo는 자동으로 라인 초안부터 완성품 따라가기까지 전체 페인팅 과정의 비디오를 생성하도록 도와줍니다. . 그리는 과정에서 선의 변화가 놀랍습니다. 최종 영상 결과는 원본 이미지와 매우 유사합니다. 완성된 그림을 살펴보겠습니다.

RLHF에서 DPO, TDPO까지 대규모 모델 정렬 알고리즘은 이미 '토큰 수준'입니다. Jun 24, 2024 pm 03:04 PM

AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com 인공 지능 개발 과정에서 LLM(대형 언어 모델)의 제어 및 안내는 항상 핵심 과제 중 하나였으며 이러한 모델이 두 가지 모두를 보장하는 것을 목표로 했습니다. 강력하고 안전하게 인간 사회에 봉사합니다. 인간 피드백(RL)을 통한 강화 학습 방법에 초점을 맞춘 초기 노력

오픈 소스 AI 소프트웨어 엔지니어 목록의 1위인 UIUC의 에이전트 없는 솔루션은 SWE 벤치의 실제 프로그래밍 문제를 쉽게 해결합니다. Jul 17, 2024 pm 10:02 PM

AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com 이 논문의 저자는 모두 일리노이 대학교 Urbana-Champaign(UIUC)의 Zhang Lingming 교사 팀 출신입니다. Steven Code Repair, 박사 4년차, 연구원

OpenAI Super Alignment Team의 사후 작업: 두 개의 대형 모델이 게임을 하고 출력이 더 이해하기 쉬워졌습니다. Jul 19, 2024 am 01:29 AM

AI 모델이 내놓은 답변이 전혀 이해하기 어렵다면 감히 사용해 보시겠습니까? 기계 학습 시스템이 더 중요한 영역에서 사용됨에 따라 우리가 그 결과를 신뢰할 수 있는 이유와 신뢰할 수 없는 경우를 보여주는 것이 점점 더 중요해지고 있습니다. 복잡한 시스템의 출력에 대한 신뢰를 얻는 한 가지 가능한 방법은 시스템이 인간이나 다른 신뢰할 수 있는 시스템이 읽을 수 있는 출력 해석을 생성하도록 요구하는 것입니다. 즉, 가능한 오류가 발생할 수 있는 지점까지 완전히 이해할 수 있습니다. 설립하다. 예를 들어, 사법 시스템에 대한 신뢰를 구축하기 위해 우리는 법원이 자신의 결정을 설명하고 뒷받침하는 명확하고 읽기 쉬운 서면 의견을 제공하도록 요구합니다. 대규모 언어 모델의 경우 유사한 접근 방식을 채택할 수도 있습니다. 그러나 이 접근 방식을 사용할 때는 언어 모델이 다음을 생성하는지 확인하세요.

arXiv 논문은 '연발'로 게시될 수 있습니다. Stanford alphaXiv 토론 플랫폼은 온라인이며 LeCun은 이를 좋아합니다. Aug 01, 2024 pm 05:18 PM

건배! 종이 토론이 말로만 진행된다면 어떤가요? 최근 스탠포드 대학교 학생들은 arXiv 논문에 대한 질문과 의견을 직접 게시할 수 있는 arXiv 논문에 대한 공개 토론 포럼인 alphaXiv를 만들었습니다. 웹사이트 링크: https://alphaxiv.org/ 실제로 이 웹사이트를 특별히 방문할 필요는 없습니다. URL에서 arXiv를 alphaXiv로 변경하면 alphaXiv 포럼에서 해당 논문을 바로 열 수 있습니다. 논문, 문장: 오른쪽 토론 영역에서 사용자는 저자에게 논문의 아이디어와 세부 사항에 대해 질문하는 질문을 게시할 수 있습니다. 예를 들어 다음과 같이 논문 내용에 대해 의견을 제시할 수도 있습니다.

Axiom 교육을 통해 LLM은 인과 추론을 학습할 수 있습니다. 6,700만 개의 매개변수 모델은 1조 매개변수 수준 GPT-4와 비슷합니다. Jul 17, 2024 am 10:14 AM

LLM에 인과관계 사슬을 보여주면 공리를 학습합니다. AI는 이미 수학자 및 과학자의 연구 수행을 돕고 있습니다. 예를 들어, 유명한 수학자 Terence Tao는 GPT와 같은 AI 도구의 도움을 받아 자신의 연구 및 탐색 경험을 반복적으로 공유했습니다. AI가 이러한 분야에서 경쟁하려면 강력하고 신뢰할 수 있는 인과관계 추론 능력이 필수적입니다. 본 논문에서 소개할 연구에서는 작은 그래프의 인과 전이성 공리 시연을 위해 훈련된 Transformer 모델이 큰 그래프의 전이 공리로 일반화될 수 있음을 발견했습니다. 즉, Transformer가 단순한 인과 추론을 수행하는 방법을 학습하면 보다 복잡한 인과 추론에 사용될 수 있습니다. 팀이 제안하는 공리적 훈련 프레임워크는 시연만으로 패시브 데이터를 기반으로 인과 추론을 학습하는 새로운 패러다임입니다.

리만 가설의 중요한 돌파구! 타오저쉬안(Tao Zhexuan)은 MIT와 옥스퍼드의 새로운 논문을 적극 추천했으며, 37세의 필즈상 수상자도 참여했다. Aug 05, 2024 pm 03:32 PM

최근 새천년 7대 과제 중 하나로 알려진 리만 가설이 새로운 돌파구를 마련했다. 리만 가설은 소수 분포의 정확한 특성과 관련된 수학에서 매우 중요한 미해결 문제입니다(소수는 1과 자기 자신으로만 나눌 수 있는 숫자이며 정수 이론에서 근본적인 역할을 합니다). 오늘날의 수학 문헌에는 리만 가설(또는 일반화된 형식)의 확립에 기초한 수학적 명제가 천 개가 넘습니다. 즉, 리만 가설과 그 일반화된 형식이 입증되면 천 개가 넘는 명제가 정리로 확립되어 수학 분야에 지대한 영향을 미칠 것이며, 리만 가설이 틀린 것으로 입증된다면, 이러한 제안의 일부도 그 효과를 잃을 것입니다. MIT 수학 교수 Larry Guth와 Oxford University의 새로운 돌파구

LLM은 시계열 예측에 적합하지 않습니다. 추론 능력도 사용하지 않습니다. Jul 15, 2024 pm 03:59 PM

시계열 예측에 언어 모델을 실제로 사용할 수 있나요? Betteridge의 헤드라인 법칙(물음표로 끝나는 모든 뉴스 헤드라인은 "아니오"로 대답할 수 있음)에 따르면 대답은 아니오여야 합니다. 사실은 사실인 것 같습니다. 이렇게 강력한 LLM은 시계열 데이터를 잘 처리할 수 없습니다. 시계열, 즉 시계열은 이름에서 알 수 있듯이 시간 순서대로 배열된 데이터 포인트 시퀀스 집합을 나타냅니다. 시계열 분석은 질병 확산 예측, 소매 분석, 의료, 금융 등 다양한 분야에서 중요합니다. 시계열 분석 분야에서는 최근 많은 연구자들이 LLM(Large Language Model)을 사용하여 시계열의 이상 현상을 분류, 예측 및 탐지하는 방법을 연구하고 있습니다. 이 논문에서는 텍스트의 순차적 종속성을 잘 처리하는 언어 모델이 시계열로도 일반화될 수 있다고 가정합니다.

See all articles

처리량이 5배 증가합니다. 백엔드 시스템과 프런트엔드 언어를 공동 설계하기 위한 LLM 인터페이스가 여기에 있습니다.

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제