330억 개의 대규모 매개변수 모델을 단일 소비자급 GPU에 '삽입'하여 성능 저하 없이 15% 속도 향상
특정 작업에 대한 사전 훈련된 대형 언어 모델(LLM)의 성능은 계속해서 향상되고 있으며, 이후 프롬프트 지침이 적절하다면 더 많은 작업에 더 잘 일반화될 수 있습니다. 훈련 데이터 및 매개변수와 관련하여 최근 추세에 따르면 연구자들은 더 작은 모델에 더 집중하고 있지만 이러한 모델은 더 많은 데이터에 대해 훈련되었으므로 추론 중에 사용하기가 더 쉽습니다.
예를 들어, 매개변수 크기가 7B인 LLaMA는 1T 토큰에서 학습되었지만 평균 성능은 GPT-3보다 약간 낮지만 매개변수 크기는 후자의 1/25입니다. 뿐만 아니라 현재 압축 기술은 이러한 모델을 더욱 압축하여 성능을 유지하면서 메모리 요구 사항을 크게 줄일 수 있습니다. 이러한 개선을 통해 성능이 좋은 모델을 노트북과 같은 최종 사용자 장치에 배포할 수 있습니다.
그러나 이것은 세대 품질을 고려하면서 이러한 모델을 이러한 장치에 맞도록 충분히 작은 크기로 압축하는 방법이라는 또 다른 과제에 직면합니다. 연구에 따르면 압축된 모델은 허용 가능한 정확도로 답변을 생성하지만 기존 3-4비트 양자화 기술은 여전히 정확도를 떨어뜨리는 것으로 나타났습니다. LLM 생성은 순차적으로 수행되고 이전에 생성된 토큰에 의존하기 때문에 작은 상대 오류가 누적되어 심각한 출력 손상으로 이어집니다. 안정적인 품질을 보장하려면 16비트 모델에 비해 예측 성능을 저하시키지 않는 낮은 비트 폭 양자화 방법을 설계하는 것이 중요합니다.
그러나 각 매개변수를 3~4비트로 양자화하면 보통 또는 심지어 높은 정확도 손실이 발생하는 경우가 많습니다. 특히 에지 배포에 이상적인 1~10B 매개변수 범위의 소형 모델의 경우 더욱 그렇습니다.
정확도 문제를 해결하기 위해 워싱턴 대학교, ETH Zurich 및 기타 기관의 연구자들은 새로운 압축 형식과 양자화 기술인 SpQR(Sparse-Quantized Representation, Sparse-Quantized Representation)을 제안했습니다. 처음으로 LLM은 이전 방법과 유사한 압축 수준을 달성하면서 모델 규모 전반에 걸쳐 거의 무손실 압축을 제공합니다.
SpQR은 특히 큰 양자화 오류를 유발하는 비정상적인 가중치를 식별 및 격리하고 LLaMA에서 다른 모든 가중치를 3~4비트로 압축하면서 더 높은 정밀도로 저장하는 방식으로 작동합니다. 그리고 Falcon LLM. 이를 통해 성능 저하 없이 15% 더 빠른 단일 24GB 소비자 GPU에서 33B 매개변수 LLM을 실행할 수 있습니다.
SpQR 알고리즘은 효율적이며 가중치를 다른 형식으로 인코딩하고 런타임에 효율적으로 디코딩할 수 있습니다. 특히, 이 연구는 SpQR에 16비트 기본 모델보다 더 빠른 추론을 가능하게 하면서 4배 이상의 메모리 압축 이득을 달성하는 효율적인 GPU 추론 알고리즘을 제공합니다.
- 논문 주소: https://arxiv.org/pdf/2306.03078.pdf
- 프로젝트 주소: https://github.com/Vahe1994/SpQR
Method
이 연구에서는 하이브리드 희소 양자화를 위한 새로운 형식인 SpQR(Sparse Quantization Representation)을 제안합니다. SpQR(Sparse Quantization Representation)은 거의 무손실을 유지하면서 사전 훈련된 LLM을 매개변수당 3~4비트로 정확하게 압축할 수 있습니다.
구체적으로 연구에서는 전체 과정을 두 단계로 나누었습니다. 첫 번째 단계는 이상값 감지입니다. 연구에서는 먼저 이상값 가중치를 분리하고 해당 양자화가 높은 오류로 이어진다는 것을 보여줍니다. 이상값 가중치는 높은 정밀도로 유지되는 반면 다른 가중치는 낮은 정밀도(예: 3비트 형식)로 저장됩니다. 그런 다음 연구에서는 매우 작은 그룹 크기로 그룹화된 양자화의 변형을 구현하고 양자화 규모 자체가 3비트 표현으로 양자화될 수 있음을 보여줍니다.
SpQR은 정확도를 저하시키지 않으면서 LLM의 메모리 공간을 크게 줄이는 동시에 16비트 추론에 비해 LLM을 20%-30% 더 빠르게 생성합니다.
또한 연구에서는 가중치 행렬에서 민감한 가중치의 위치가 무작위가 아니라 특정 구조를 가지고 있음을 발견했습니다. 정량화 중에 구조를 강조하기 위해 연구에서는 각 무게의 민감도를 계산하고 LLaMA-65B 모델에 대한 이러한 무게 민감도를 시각화했습니다. 아래 그림 2는 LLaMA-65B의 마지막 self-attention 레이어의 출력 투영을 보여줍니다.
이 연구에서는 정량화 프로세스에 두 가지 변경 사항을 적용했습니다. 하나는 작고 민감한 가중치 그룹을 캡처하고 다른 하나는 개별 이상값을 캡처하는 것입니다. 아래 그림 3은 SpQR의 전체 아키텍처를 보여줍니다.
다음 표는 SpQR 양자화 알고리즘을 보여줍니다. 왼쪽의 코드 조각은 전체 프로세스를 설명하고 오른쪽의 코드 조각에는 보조용 서브루틴이 포함되어 있습니다. :
이 연구에서는 SpQR을 두 가지 다른 양자화 방식인 GPTQ, RTN(가장 가까운 값으로 반올림)과 비교하고 두 가지 측정항목을 사용하여 양자화 모델의 성능을 평가했습니다. 첫 번째는 WikiText2, Penn Treebank 및 C4를 포함한 데이터 세트를 사용한 복잡성 측정이고, 두 번째는 WinoGrande, PiQA, HellaSwag, ARC-easy, ARC-challenge의 5가지 작업에 대한 제로 샘플 정확도입니다.
주요 결과. 그림 1 결과는 비슷한 모델 크기에서 SpQR이 특히 작은 모델에서 GPTQ(및 해당 RTN)보다 훨씬 더 나은 성능을 발휘한다는 것을 보여줍니다. 이러한 개선은 SpQR이 더 많은 압축을 달성하는 동시에 손실 저하를 줄이기 때문입니다.
표 1, 표 2 결과는 4비트 양자화의 경우 16비트 기준선에 대한 SpQR의 오류가 GPTQ에 비해 절반으로 줄어든다는 것을 보여줍니다.
표 3은 다양한 데이터세트에 대한 LLaMA-65B 모델의 Perplexity 결과를 보고합니다.
마지막으로 연구에서는 SpQR 추론 속도를 평가합니다. 본 연구에서는 특별히 고안된 희소 행렬 곱셈 알고리즘과 PyTorch에서 구현된 알고리즘(cuSPARSE)을 비교하고 그 결과를 Table 4에 나타내었다. 보시다시피 PyTorch의 표준 희소 행렬 곱셈은 16비트 추론보다 빠르지 않지만 이 기사에서 특별히 설계된 희소 행렬 곱셈 알고리즘은 속도를 약 20-30% 향상시킬 수 있습니다.
위 내용은 330억 개의 대규모 매개변수 모델을 단일 소비자급 GPU에 '삽입'하여 성능 저하 없이 15% 속도 향상의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











기존 컴퓨팅을 능가할 뿐만 아니라 더 낮은 비용으로 더 효율적인 성능을 달성하는 인공 지능 모델을 상상해 보세요. 이것은 공상과학 소설이 아닙니다. DeepSeek-V2[1], 세계에서 가장 강력한 오픈 소스 MoE 모델이 여기에 있습니다. DeepSeek-V2는 경제적인 훈련과 효율적인 추론이라는 특징을 지닌 전문가(MoE) 언어 모델의 강력한 혼합입니다. 이는 236B 매개변수로 구성되며, 그 중 21B는 각 마커를 활성화하는 데 사용됩니다. DeepSeek67B와 비교하여 DeepSeek-V2는 더 강력한 성능을 제공하는 동시에 훈련 비용을 42.5% 절감하고 KV 캐시를 93.3% 줄이며 최대 생성 처리량을 5.76배로 늘립니다. DeepSeek은 일반 인공지능을 연구하는 회사입니다.

이달 초 MIT와 기타 기관의 연구자들은 MLP에 대한 매우 유망한 대안인 KAN을 제안했습니다. KAN은 정확성과 해석성 측면에서 MLP보다 뛰어납니다. 그리고 매우 적은 수의 매개변수로 더 많은 수의 매개변수를 사용하여 실행되는 MLP보다 성능이 뛰어날 수 있습니다. 예를 들어 저자는 KAN을 사용하여 더 작은 네트워크와 더 높은 수준의 자동화로 DeepMind의 결과를 재현했다고 밝혔습니다. 구체적으로 DeepMind의 MLP에는 약 300,000개의 매개변수가 있는 반면 KAN에는 약 200개의 매개변수만 있습니다. KAN은 MLP와 같이 강력한 수학적 기반을 가지고 있으며, KAN은 Kolmogorov-Arnold 표현 정리를 기반으로 합니다. 아래 그림과 같이 KAN은

테슬라의 로봇 옵티머스(Optimus)의 최신 영상이 공개됐는데, 이미 공장에서 작동이 가능한 상태다. 정상 속도에서는 배터리(테슬라의 4680 배터리)를 다음과 같이 분류합니다. 공식은 또한 20배 속도로 보이는 모습을 공개했습니다. 작은 "워크스테이션"에서 따고 따고 따고 : 이번에 출시됩니다. 영상에는 옵티머스가 공장에서 이 작업을 전 과정에 걸쳐 사람의 개입 없이 완전히 자율적으로 완료하는 모습이 담겨 있습니다. 그리고 Optimus의 관점에서 보면 자동 오류 수정에 중점을 두고 구부러진 배터리를 집어 넣을 수도 있습니다. NVIDIA 과학자 Jim Fan은 Optimus의 손에 대해 높은 평가를 했습니다. Optimus의 손은 세계의 다섯 손가락 로봇 중 하나입니다. 가장 능숙합니다. 손은 촉각적일 뿐만 아니라

대규모 언어 모델(LLM)을 인간의 가치와 의도에 맞추려면 인간의 피드백을 학습하여 유용하고 정직하며 무해한지 확인하는 것이 중요합니다. LLM 정렬 측면에서 효과적인 방법은 인간 피드백 기반 강화 학습(RLHF)입니다. RLHF 방법의 결과는 훌륭하지만 몇 가지 최적화 문제가 있습니다. 여기에는 보상 모델을 훈련한 다음 해당 보상을 극대화하기 위해 정책 모델을 최적화하는 것이 포함됩니다. 최근 일부 연구자들은 더 간단한 오프라인 알고리즘을 탐구했는데, 그 중 하나가 직접 선호 최적화(DPO)입니다. DPO는 RLHF의 보상 기능을 매개변수화하여 선호도 데이터를 기반으로 직접 정책 모델을 학습하므로 명시적인 보상 모델이 필요하지 않습니다. 이 방법은 간단하고 안정적입니다.

소프트웨어 기술의 선두에 있는 UIUC Zhang Lingming 그룹은 BigCode 조직의 연구원들과 함께 최근 StarCoder2-15B-Instruct 대규모 코드 모델을 발표했습니다. 이 혁신적인 성과는 코드 생성 작업에서 획기적인 발전을 이루었으며 CodeLlama-70B-Instruct를 성공적으로 능가하고 코드 생성 성능 목록의 최상위에 올랐습니다. StarCoder2-15B-Instruct의 독창성은 순수한 자체 정렬 전략에 있습니다. 전체 훈련 프로세스는 개방적이고 투명하며 완전히 자율적이고 제어 가능합니다. 이 모델은 값비싼 수동 주석에 의존하지 않고 StarCoder-15B 기본 모델을 미세 조정한 것에 대한 응답으로 StarCoder2-15B를 통해 수천 개의 명령을 생성합니다.

위에 작성됨 및 저자의 개인적 이해: 이 문서는 자율 주행 애플리케이션에서 현재 다중 모드 대형 언어 모델(MLLM)의 주요 과제를 해결하는 데 전념하고 있습니다. 이는 MLLM을 2D 이해에서 3D 공간으로 확장하는 문제입니다. 자율주행차(AV)가 3D 환경에 대해 정확한 결정을 내려야 하기 때문에 이러한 확장은 특히 중요합니다. 3D 공간 이해는 정보에 입각한 결정을 내리고 미래 상태를 예측하며 환경과 안전하게 상호 작용하는 차량의 능력에 직접적인 영향을 미치기 때문에 AV에 매우 중요합니다. 현재 다중 모드 대형 언어 모델(예: LLaVA-1.5)은 시각적 인코더의 해상도 제한, LLM 시퀀스 길이 제한으로 인해 저해상도 이미지 입력(예:)만 처리할 수 있는 경우가 많습니다. 하지만 자율주행 애플리케이션에는

다양한 Java 프레임워크의 성능 비교: REST API 요청 처리: Vert.x가 최고이며 요청 속도는 SpringBoot의 2배, Dropwizard의 3배입니다. 데이터베이스 쿼리: SpringBoot의 HibernateORM은 Vert.x 및 Dropwizard의 ORM보다 우수합니다. 캐싱 작업: Vert.x의 Hazelcast 클라이언트는 SpringBoot 및 Dropwizard의 캐싱 메커니즘보다 우수합니다. 적합한 프레임워크: 애플리케이션 요구 사항에 따라 선택하세요. Vert.x는 고성능 웹 서비스에 적합하고, SpringBoot는 데이터 집약적 애플리케이션에 적합하며, Dropwizard는 마이크로서비스 아키텍처에 적합합니다.

1. 소개 지난 몇 년 동안 YOLO는 계산 비용과 감지 성능 간의 효과적인 균형으로 인해 실시간 객체 감지 분야에서 지배적인 패러다임이 되었습니다. 연구원들은 YOLO의 아키텍처 설계, 최적화 목표, 데이터 확장 전략 등을 탐색하여 상당한 진전을 이루었습니다. 동시에 사후 처리를 위해 NMS(비최대 억제)에 의존하면 YOLO의 엔드투엔드 배포가 방해되고 추론 대기 시간에 부정적인 영향을 미칩니다. YOLO에서는 다양한 구성 요소의 설계에 포괄적이고 철저한 검사가 부족하여 상당한 계산 중복이 발생하고 모델 기능이 제한됩니다. 이는 최적이 아닌 효율성을 제공하며 성능 향상을 위한 상대적으로 큰 잠재력을 제공합니다. 이 작업의 목표는 사후 처리와 모델 아키텍처 모두에서 YOLO의 성능 효율성 경계를 더욱 향상시키는 것입니다. 이를 위해
