バイトのオープンソース大規模モデルの定量化のための新しいアイデア、2 ビット量子化モデルの精度は fp16 と同等

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
ディープラーニングの大規模言語モデルの人気が高まるにつれて、大規模言語モデルはますます大きくなり、推論コストも増加しています。モデルの定量化は人気のある研究トピックになっています。
最近、ByteDance は新しい定量化のアイデアを立ち上げ、従来の定量化パラダイムを放棄し、数学的最適化の観点から定量化タスクをモデル化しました。記事は arXiv に投稿されており、コードはオープンソース化されており、記事内のすべての結果をワンクリックで再現できます。この定量化のアイデアは、数学的最適化に基づいており、数学的最適化の観点から定量化タスクをモデル化し、目的関数を最大化するか損失関数を最小化することによって最適解を見つけます。このアイデアは実験で良好な結果をもたらし、満足のいく結果を達成しました。
ペーパーリンク: https://arxiv.org/abs/2404.12759
プロジェクトリンク: https://github.com/bytedance/decoupleQ
W2 オペレーター: https:// /github.com/NVIDIA/TensorRT-LLM/pull/1568
1. 背景
大規模テクノロジーの急速な発展により、推論のコストがますます高くなっています。モデルの定量化は、推論コストを削減するための技術的ソリューションとして、ますます注目され、研究が行われています。ただし、従来の量子化パラダイムでは、モデルの精度は非常に低いビットで急速に低下します。これに基づいて、著者らは新しい定量化のアイデアを提案しました。モデルのパラメータを整数部分と浮動小数点部分に分離し、数学的最適化の観点から定量化タスクをモデル化することで、モデルがより高い精度を維持できるようにしました。この利点は明らかです。敏感なチャネルの扱い方や外れ値の扱い方など、量子化固有の問題に焦点を当てる必要がなくなりました。代わりに、量子化の問題を数学的にモデル化し、次の値を見つけるだけで済みます。適切な最適化目的関数を選択し、この関数を解きます。
2. 従来の量子化
従来、モデルの定量化の考え方は次のとおりです。
ここで、 s と z は量子化前のモデルの線形変換係数であり、スケールと z は次のとおりです。ゼロ点; α と β は、整数表現範囲の上限と下限です。たとえば、int4 量子化の場合、α = -8、β = 7 は、一般に最も近い値に丸められる丸め関数を表します。整数。 s と z の値に関して、一般的に言えば、非対称量子化では次のようにすることができます:
このようにして、
の区間範囲に線形にマッピングされます。 逆量子化では、一般に次の公式が使用されます:
この従来の量子化スキームでは、量子化に特有の多くの詳細な問題に注意を払う必要があります。外れ値については、外れ値処理方法があります。頭痛を治療し、頭痛を治療するというこの処理パラダイムは、複雑で常に変化するビジネス シナリオに対処するのが困難です。バイトダンスの研究者は、これらの問題を抽象化し、定量化の問題をマクロな観点から見ようとしています。抽象的な最適化目的関数を確立し、この目的関数を解くだけで済みます。
数量化における式(1)~(3)の役割を観察すると、考え方を変えると、実際には式(1)と(2)を知る必要がないことがわかります。大規模なモデルを定量化し、それを下流のエンジンの学習者に提供した後は、式 (3) の (3) をさらに掘り下げると、大規模なモデルのパラメーターを整数部分 線形層の場合、次の最適化目的関数を構築できます: ここで、 一般的に言えば、量子化の精度を向上させるために、モデルの重みに対してチャネルごとの量子化を使用できます。チャネルごとの量子化では、式 (4) を最適化するときに、 この時点で、最適化目標は次のように記述できます: (表記を簡単にするために、記事内では記号が再定義されています): ここで、最適化目的関数は です。 , wは 実際、最適化目的関数 (6) は (4) と完全に一致しており、 定量的問題を形式 (5) の数学的最適化問題に変換することが、decoupleQ を従来の定量的論文と区別する鍵となります。 この変換により、方程式 (5) を解くことだけに集中できるようになり、外れ値などの量子化自体の細部に対処する必要がなくなりました。 方程式 (5) の解は簡単ではありません。なぜなら、 量子化モデルの精度をさらに向上させるために、著者は、mse 最小化を層レベルで実行することに加えて、mse 最小化をブロック レベルでも実行できることを指摘しました。つまり、 このステップでは、著者はトランスブロック レベルで、各線形レイヤーを量子化した後、その整数部分 4. W2 オペレーターの実装 量子化モデルを推論するには、業界で利用可能な既製の w2a16 オペレーターが必要です。 w2a16 モデルの効率的な推論を実現するために、w2 の Gemm cuda カーネルを開発しました。 量子化モデル自体は 2 ビットの重みの形式でビデオ メモリにロードおよび保存されるため、比較的少量のビデオ メモリを占有します。私たちの cuda カーネルは、実行時に 2 ビットの重みをレジスタにロードし、ハードウェア命令を使用してそれを bf16 形式に効率的に変換し、アクティブ化して gemm 操作を実行します。このシナリオはレイテンシによって制限されるため、現時点では、行列の乗算は重みメモリ アクセスによって制限され、メモリ アクセスの量が大幅に削減され、モデルのパフォーマンスが向上します。実装プロセスでは、アルゴリズム検索と SpiltK Parallel Reduce を組み合わせてモデルのパフォーマンスをさらに向上させます。実際の測定によれば、batchsize=1 の場合、L カード上の w2a16 Gemm のパフォーマンスは 1.4 倍から 1.7 倍向上します。 w4a16と比較。 aoperatorリンク:https://github.com/nvidia/tensort-llm/pull/1568 5 、オープンソース実験との比較結果は次のとおりです: 内部実験結果は次のとおりです: この表では、著者はワード誤り率 (WER) を使用して ASR の精度を測定しています。著者らは、さまざまな方法を使用してモデルを W2A16g64 に定量化することを試みました。量子化前の浮動小数点モデルのウェルは 6.68% で、GPTQ [1] を使用した量子化後のウェルは 6.83% です。この結果は、量子化後のブロック最小化のウェルと非常に似ています。量子化前の浮動小数点モデル。定量化に必要な時間もレポートします。高い量子化精度の代償として、量子化には長い時間がかかります。実際のビジネスでは、decupleQ を用いてモデルを定量化した後、整数部分を固定し、ラベル付きデータセットを使用してスケールとゼロを微調整することで、モデルの精度がさらに向上します。 オープンソースの比較実験の結果は次のとおりです: この表は、Llama-1/2 における decoupleQ と他の手法の定量的結果の比較です。評価指標にはパープレキシティ(PPL)を使用します。同じ量子化設定では、ほとんどの場合、deoucpleQ の PPL が他の方法よりも低くなることがわかります。 6. ビジネス上の利点 decoupleQ 定量化テクノロジーは現在、ByteDance の音声部門で広く使用されています。音声生成モデル(Text-to-Speech)や音声認識モデル(自動音声認識)などに導入されており、Doubao、Feishu、Douyinなどの製品に実装されています。多くのオンライン ビジネスは、decoupleQ の定量化に基づいて、W4A16 の推論精度が fp16/bf16 の推論と完全に同等であることを示しています。W2A16 の精度は fp16/bf16 の精度よりわずかに劣るだけです (浮動小数点部分 sft を除いた場合)。精度は fp16/bf16 と同レベルです)。この論文では重みのみの定量化のみを紹介していますが、実際のビジネスでは、重みを適切に定量化した後、活性化の定量化ははるかに簡単になります。 fp16、w8fp16、w4fp16 と比較すると、ハードウェア アクセラレーションの点で優れたアクセラレーション効果が得られ、小規模バッチでは、w2 行列乗算のパフォーマンスは fp16 の 5 ~ 6 倍、w4 の 1.5 ~ 1.7 倍になります。 。内部ビジネス モデルに関しては、w2fp16 は fp16 と比較して 3 ~ 5 倍、w4fp16 と比較して 1.25 ~ 1.4 倍パフォーマンスが向上しています。また、モデルの重みによって占有されるメモリも大幅に削減され、より優れたメモリが提供されます。ランタイムに多くのスペースを使用します。 7. 概要と考察 と (s,z) を解く際の最終モデルの最適な精度を必ずしも表すとは限りません。 )、キャリブレーション データのごく一部のみが解決されるため、decoupleQ がキャリブレーション データをオーバーフィットしやすくなります。 それにもかかわらず、著者は、モデルパラメータを整数部分と浮動小数点部分に分離するというアイデアは非常に意味があるとも指摘しました。ラベル付きデータセットが存在する場合、量子化後に整数部分を修正し、そのラベル付きデータセットを使用して (s, z) を具体的にトレーニングすることで、モデルの精度をさらに向上させることができます。これにより、モデルの汎化パフォーマンス (固定整数部分 参考文献: 【1】Elias Frantar、Saleh Ashkboos、Torsten Hoefler、および Dan Alistarh: 生成事前学習変換器の正確な量子化、2022 年。 【2】Wenqi Shao、Mengzhao Chen、Zhaoyang Zhang、Peng Xu、Lirui Zhao、Zhiqian Li、Kaipeng Zhang、Peng Gao、Yu Qiao、および Ping Luo: arXiv プレプリント用の全方向的に調整された量子化。 arXiv:2308.13137、2023 【3】Ji Lin、Jiaming Tang、Haotian Tang、Shang Yang、Xingyu Dang、および Song Han: arXiv プレプリント arXiv のアクティベーション対応重み量子化。 2306.00978、2023. と (s,z) を知るだけで済みます。つまり、式(3)の(s,z)は、通常のアフィン変換の係数とみなしてよく、式(2)においてその意味を保持する必要はない。アフィン変換係数は、数学的最適化手法を通じて取得できます。
と浮動小数点部分 (s,z) に分離できます。このように分離した後、モデルの量子化のプロセスは、モデルの整数部分
と浮動小数点部分 (s,z) を解くプロセスとみなすことができます。ソリューションを最適化することもできます。この目的を達成するには、最適化の目的関数とその制約を決定する必要があります。
は層の入力、
は対称行列です(Xの列がすべて0でない場合、Hは正定対称行列 )。
の各列が個別に最適化されます。したがって、列の 1 つにのみ注目する必要があります。
の特定の列、bは
の対応する列にあります。他のシンボルの定義は以前と同じです。
は逆量子化プロセスです。
には制約、特に非凸制約
があるからです。論文の中で、著者は別の解決策のアイデアを示しています。つまり、(s,z) と w について適切な初期化を行った後、(s,z) と w を交互に反復的に解決します。 (s,z) を解くときは、方程式 (5) が (s,z) に関する制約のない二次形式であることに注意してください。目的関数を直接導出し、導関数をゼロにして解析的解を得ることができます。 w を解くとき、著者は 2 つのレベルの近似を採用します。最初のレベルの近似は収束が高くなりますが、解は遅くなります。2 番目のレベルの近似は、収束がわずかに劣る GPTQ [1] のアイデアをサンプリングします。のほうが速いです。
を修正し、浮動小数点部分 (s, z) とレイヤー ノルムの関連パラメーターを微調整します。実験結果は、この微調整ステップによりモデルの精度がさらに向上することを示しています。
による) が保証されるだけでなく、(浮動小数点部分の微調整により) 特定のサブタスクでその能力を発揮することもできます。 ByteDance の実際のビジネスでは、前のバージョンのモデルが定量化されてオンラインになった後、次のバージョンが更新されると、モデルの浮動小数点部分のみをトレーニングできます。
以上がバイトのオープンソース大規模モデルの定量化のための新しいアイデア、2 ビット量子化モデルの精度は fp16 と同等の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









これも Tusheng のビデオですが、PaintsUndo は別の道を歩んでいます。 ControlNet 作者 LvminZhang が再び生き始めました!今回は絵画の分野を目指します。新しいプロジェクト PaintsUndo は、開始されて間もなく 1.4kstar を獲得しました (まだ異常なほど上昇しています)。プロジェクトアドレス: https://github.com/lllyasviel/Paints-UNDO このプロジェクトを通じて、ユーザーが静止画像を入力すると、PaintsUndo が線画から完成品までのペイントプロセス全体のビデオを自動的に生成するのに役立ちます。 。描画プロセス中の線の変化は驚くべきもので、最終的なビデオ結果は元の画像と非常によく似ています。完成した描画を見てみましょう。

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com この論文の著者は全員、イリノイ大学アーバナ シャンペーン校 (UIUC) の Zhang Lingming 教師のチームのメンバーです。博士課程4年、研究者

AIモデルによって与えられた答えがまったく理解できない場合、あなたはそれをあえて使用しますか?機械学習システムがより重要な分野で使用されるにつれて、なぜその出力を信頼できるのか、またどのような場合に信頼してはいけないのかを実証することがますます重要になっています。複雑なシステムの出力に対する信頼を得る方法の 1 つは、人間または他の信頼できるシステムが読み取れる、つまり、考えられるエラーが発生する可能性がある点まで完全に理解できる、その出力の解釈を生成することをシステムに要求することです。見つかった。たとえば、司法制度に対する信頼を築くために、裁判所に対し、決定を説明し裏付ける明確で読みやすい書面による意見を提供することを求めています。大規模な言語モデルの場合も、同様のアプローチを採用できます。ただし、このアプローチを採用する場合は、言語モデルが

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com 人工知能の開発プロセスにおいて、大規模言語モデル (LLM) の制御とガイダンスは常に中心的な課題の 1 つであり、これらのモデルが両方とも確実に機能することを目指しています。強力かつ安全に人類社会に貢献します。初期の取り組みは人間のフィードバックによる強化学習手法に焦点を当てていました (RL

乾杯!紙面でのディスカッションが言葉だけになると、どんな感じになるでしょうか?最近、スタンフォード大学の学生が、arXiv 論文のオープン ディスカッション フォーラムである alphaXiv を作成しました。このフォーラムでは、arXiv 論文に直接質問やコメントを投稿できます。 Web サイトのリンク: https://alphaxiv.org/ 実際、URL の arXiv を alphaXiv に変更するだけで、alphaXiv フォーラムの対応する論文を直接開くことができます。この Web サイトにアクセスする必要はありません。その中の段落を正確に見つけることができます。論文、文: 右側のディスカッション エリアでは、ユーザーは論文のアイデアや詳細について著者に尋ねる質問を投稿できます。たとえば、次のような論文の内容についてコメントすることもできます。

最近、2000年代の7大問題の一つとして知られるリーマン予想が新たなブレークスルーを達成した。リーマン予想は、数学における非常に重要な未解決の問題であり、素数の分布の正確な性質に関連しています (素数とは、1 とそれ自身でのみ割り切れる数であり、整数論において基本的な役割を果たします)。今日の数学文献には、リーマン予想 (またはその一般化された形式) の確立に基づいた 1,000 を超える数学的命題があります。言い換えれば、リーマン予想とその一般化された形式が証明されれば、これらの 1,000 を超える命題が定理として確立され、数学の分野に重大な影響を与えることになります。これらの命題の一部も有効性を失います。 MIT数学教授ラリー・ガスとオックスフォード大学から新たな進歩がもたらされる

LLM に因果連鎖を示すと、LLM は公理を学習します。 AI はすでに数学者や科学者の研究を支援しています。たとえば、有名な数学者のテレンス タオは、GPT などの AI ツールを活用した研究や探索の経験を繰り返し共有しています。 AI がこれらの分野で競争するには、強力で信頼性の高い因果推論能力が不可欠です。この記事で紹介する研究では、小さなグラフでの因果的推移性公理の実証でトレーニングされた Transformer モデルが、大きなグラフでの推移性公理に一般化できることがわかりました。言い換えれば、Transformer が単純な因果推論の実行を学習すると、より複雑な因果推論に使用できる可能性があります。チームが提案した公理的トレーニング フレームワークは、デモンストレーションのみで受動的データに基づいて因果推論を学習するための新しいパラダイムです。

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com。はじめに 近年、さまざまな分野でマルチモーダル大規模言語モデル (MLLM) の適用が目覚ましい成功を収めています。ただし、多くの下流タスクの基本モデルとして、現在の MLLM はよく知られた Transformer ネットワークで構成されています。
