目次
背景
課題
速報
ホームページ テクノロジー周辺機器 AI 高精度でリソース消費量が少ない大規模モデル向けのこのスパース トレーニング方法が発見されました。

高精度でリソース消費量が少ない大規模モデル向けのこのスパース トレーニング方法が発見されました。

Apr 13, 2023 pm 07:01 PM
モデル

最近、大規模モデルのスパース トレーニングに関する Alibaba Cloud Machine Learning PAI の論文「Parameter-Efficient Sparsity for Large Language Models Fine-Tuning」が、人工知能のトップカンファレンスである IJCAI 2022 に採択されました。
この論文は、パラメータ効率の高いスパース トレーニング アルゴリズム PST を提案しており、重みの重要度指標を分析することにより、このアルゴリズムには低ランクと構造という 2 つの特徴があることが結論付けられています。この結論に基づいて、PST アルゴリズムでは、重みの重要性を計算するために 2 セットの小さな行列が導入され、重要度インデックスを保存および更新するために重みと同じくらい大きな行列が必要であったのに比べて、必要なパラメータの量が減少しています。スパーストレーニング用の更新は大幅に削減されます。一般的に使用されるスパース トレーニング アルゴリズムと比較して、PST アルゴリズムはパラメーターの 1.5% のみを更新しながら、同様のスパース モデルの精度を達成できます。

背景

近年、大手企業や研究機関では、数百億から数万のパラメータを持つさまざまな大規模モデルが提案されています。 . その範囲は数十億から数千億まであり、数十兆という超大型モデルも登場しています。これらのモデルはトレーニングと展開に大量のハードウェア リソースを必要とするため、実装が困難になります。したがって、大規模なモデルのトレーニングとデプロイに必要なリソースをいかに削減するかが緊急の課題となっています。
モデル圧縮テクノロジは、モデルのデプロイに必要なリソースを効果的に削減できます。一部の重みを削除することで、モデル内の疎な計算を密な計算から疎な計算に変換できるため、メモリ使用量が削減され、計算が高速化されます。同時に、他のモデル圧縮方法 (構造化枝刈り/量子化) と比較して、スパース性はモデルの精度を確保しながら高い圧縮率を実現でき、多数のパラメーターを持つ大規模なモデルに適しています。

課題

既存のスパース トレーニング方法は 2 つのカテゴリに分類できます。1 つは重みベースのデータフリー スパース アルゴリズムで、もう 1 つはデータベースのデータです。スパースアルゴリズムで駆動されます。重みベースのスパース アルゴリズムは、次の図に示されています。マグニチュード プルーニング [1] などです。これは、重みの L1 ノルムを計算することで重みの重要性を評価し、これに基づいて対応するスパース結果を生成します。重みベースのスパース アルゴリズムは計算効率が高く、トレーニング データの参加を必要としませんが、計算された重要度インデックスの精度が十分ではないため、最終的なスパース モデルの精度に影響します。

高精度でリソース消費量が少ない大規模モデル向けのこのスパース トレーニング方法が発見されました。

データベースのスパース アルゴリズムを以下の図に示します。たとえば、動きの枝刈り[2]などです。これは、次の方法で重みの重要性を測定します。体重と対応する勾配の積を計算します。このタイプの方法では、特定のデータセットに対する重みの役割が考慮されるため、重みの重要性をより正確に評価できます。ただし、このタイプの方法では、各重みの重要度を計算して保存する必要があるため、重要度インデックス (図の S) を保存するための追加のスペースが必要になることがよくあります。同時に、重みベースのスパース手法と比較して、計算プロセスがより複雑になることがよくあります。これらの欠点は、モデルのサイズが大きくなるにつれてより顕著になります。

高精度でリソース消費量が少ない大規模モデル向けのこのスパース トレーニング方法が発見されました。

要約すると、以前のスパース アルゴリズムは効率的だが精度が十分ではない (重みベースのアルゴリズム)、または正確ではあるが効率が十分ではない (データベースのアルゴリズム)。アルゴリズム)。したがって、大規模なモデルに対して正確かつ効率的にスパース トレーニングを実行できる効率的なスパース アルゴリズムを提案したいと考えています。

速報

データベースのスパース アルゴリズムの問​​題は、通常、重みの重要性を学習するために重みと同じサイズの追加パラメータが導入されることです。ここでは、重みを計算するために追加のパラメーターを導入する重要性を軽減する方法を考えてみましょう。まず、既存の情報を最大限に活用して重みの重要度を計算するために、重みの重要度指数を次の式のように設計します。 # つまり、データフリーの指標とデータ駆動型の指標を組み合わせて、最終モデルの重みの重要性を共同で決定します。以前のデータフリー重要度指数は追加のパラメーターを保存する必要がなく、計算が効率的であることが知られているため、解決する必要があるのは、後のデータ駆動型重要度指数によって導入された追加のトレーニング パラメーターをどのように圧縮するかということです。

高精度でリソース消費量が少ない大規模モデル向けのこのスパース トレーニング方法が発見されました。以前のスパース アルゴリズムに基づいて、データ駆動型重要度インデックスは次のように設計できます

#

そこで、この式で計算された重要度指標の冗長性の分析を開始しました。まず第一に、以前の研究に基づいて、重みと対応する勾配の両方が明らかな低ランク特性を持つことが知られています [3, 4]。そのため、重要度インデックスにも低ランク特性があると推測でき、次の 2 つを導入できます。低ランクのプロパティ 重みと同じくらい大きい、元の重要性インジケーター マトリックスを表す小さなマトリックス。

高精度でリソース消費量が少ない大規模モデル向けのこのスパース トレーニング方法が発見されました。

高精度でリソース消費量が少ない大規模モデル向けのこのスパース トレーニング方法が発見されました。

#第 2 に、モデルの疎化後の結果を分析したところ、明らかな構造的特徴があることがわかりました。上の図に示すように、各画像の右側は最終的なスパース重みの視覚化結果であり、左側は各行/列の対応するスパース率をカウントしたヒストグラムです。左の図の行の 30% の重みのほとんどが削除されており、逆に、右の図の列の 30% の重みのほとんどが削除されていることがわかります。この現象に基づいて、重みの各行/列の重要性を評価するために 2 つの小さな構造化行列を導入します。

#上記の分析に基づいて、データ駆動型重要度インデックスのランクと構造が低いことが判明したため、次の表現に変換できます:

高精度でリソース消費量が少ない大規模モデル向けのこのスパース トレーニング方法が発見されました。

ここで、A と B は低ランクを表し、R と C は構造を表します。このような分析により、元々は重みと同じくらい大きかった重要度指標行列が 4 つの小さな行列に分解され、スパース トレーニングに含まれるトレーニング パラメータが大幅に削減されました。同時に、トレーニング パラメーターをさらに減らすために、前の方法に基づいて重み更新を 2 つの小さな行列 U と V に分解しました。そのため、最終的な重要度インデックスの式は次の形式になります。

#対応するアルゴリズム フレームワーク図は次のとおりです。 高精度でリソース消費量が少ない大規模モデル向けのこのスパース トレーニング方法が発見されました。

最終的な PST アルゴリズムの実験結果は次のとおりです。 NLU (BERT、RoBERTa) および NLG (GPT-2) タスクでのマグニチュード プルーニングと移動プルーニングと比較すると、90% のスパース率で、PST はほとんどのデータ セットで以前のアルゴリズムに匹敵するモデル精度を達成できます。ただし、トレーニングパラメータの 1.5% のみが必要です。 高精度でリソース消費量が少ない大規模モデル向けのこのスパース トレーニング方法が発見されました。

高精度でリソース消費量が少ない大規模モデル向けのこのスパース トレーニング方法が発見されました。

PST テクノロジーは、Alibaba Cloud Machine Learning PAI のモデル圧縮ライブラリに統合されています。アリスマインドプラットフォームの大規模モデル スパーストレーニング機能。 PST は、アリババ グループ内での大規模モデルの使用にパフォーマンスの高速化をもたらしました。数百億個の大規模モデル PLUG 上で、PST はモデルの精度を低下させることなく 2.5 倍高速化し、元のスパース トレーニングと比較してメモリ使用量を 10 倍削減できます。現在、Alibaba Cloud Machine Learning PAIはさまざまな業界で広く使用されており、フルリンクAI開発サービスを提供し、企業向けに独立した制御可能なAIソリューションを実現し、機械学習エンジニアリングの効率を包括的に向上させています。 高精度でリソース消費量が少ない大規模モデル向けのこのスパース トレーニング方法が発見されました。

論文名: 大規模言語モデルのパラメータ効率的なスパース性の微調整

論文著者: Yuchao Li、Fuli Luo、Chuanqi Tan、 Mengdi Wang、Songfang Huang、Shen Li、Junjie Bai

論文の PDF リンク: https://arxiv.org/pdf/2205.11005.pdf

以上が高精度でリソース消費量が少ない大規模モデル向けのこのスパース トレーニング方法が発見されました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

世界で最も強力なオープンソース MoE モデルが登場。GPT-4 に匹敵する中国語機能を備え、価格は GPT-4-Turbo のわずか 1% 近くです 世界で最も強力なオープンソース MoE モデルが登場。GPT-4 に匹敵する中国語機能を備え、価格は GPT-4-Turbo のわずか 1% 近くです May 07, 2024 pm 04:13 PM

従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニング コストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

こんにちは、電気アトラスです!ボストン・ダイナミクスのロボットが復活、180度の奇妙な動きにマスク氏も恐怖 こんにちは、電気アトラスです!ボストン・ダイナミクスのロボットが復活、180度の奇妙な動きにマスク氏も恐怖 Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか?」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

MLP に代わる KAN は、オープンソース プロジェクトによって畳み込みまで拡張されました MLP に代わる KAN は、オープンソース プロジェクトによって畳み込みまで拡張されました Jun 01, 2024 pm 10:03 PM

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

AI が数学研究を破壊する!フィールズ賞受賞者で中国系アメリカ人の数学者が上位 11 件の論文を主導 | テレンス・タオが「いいね!」しました AI が数学研究を破壊する!フィールズ賞受賞者で中国系アメリカ人の数学者が上位 11 件の論文を主導 | テレンス・タオが「いいね!」しました Apr 09, 2024 am 11:52 AM

AI は確かに数学を変えつつあります。最近、この問題に細心の注意を払っている陶哲軒氏が『米国数学協会会報』(米国数学協会会報)の最新号を送ってくれた。 「機械は数学を変えるのか?」というテーマを中心に、多くの数学者が意見を述べ、そのプロセス全体は火花に満ち、ハードコアで刺激的でした。著者には、フィールズ賞受賞者のアクシャイ・ベンカテシュ氏、中国の数学者鄭楽軍氏、ニューヨーク大学のコンピューター科学者アーネスト・デイビス氏、その他業界で著名な学者を含む強力な顔ぶれが揃っている。 AI の世界は劇的に変化しています。これらの記事の多くは 1 年前に投稿されたものです。

Google は大喜び: JAX のパフォーマンスが Pytorch や TensorFlow を上回りました! GPU 推論トレーニングの最速の選択肢となる可能性があります Google は大喜び: JAX のパフォーマンスが Pytorch や TensorFlow を上回りました! GPU 推論トレーニングの最速の選択肢となる可能性があります Apr 01, 2024 pm 07:46 PM

Google が推進する JAX のパフォーマンスは、最近のベンチマーク テストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル 最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

時系列予測 NLP 大規模モデルの新機能: 時系列予測の暗黙的なプロンプトを自動的に生成 時系列予測 NLP 大規模モデルの新機能: 時系列予測の暗黙的なプロンプトを自動的に生成 Mar 18, 2024 am 09:20 AM

今日は、時系列予測のパフォーマンスを向上させるために、時系列データを潜在空間上の大規模な自然言語処理 (NLP) モデルと整合させる方法を提案するコネチカット大学の最近の研究成果を紹介したいと思います。この方法の鍵は、潜在的な空間ヒント (プロンプト) を使用して時系列予測の精度を高めることです。論文タイトル: S2IP-LLM: SemanticSpaceInformedPromptLearningwithLLMforTimeSeriesForecasting ダウンロードアドレス: https://arxiv.org/pdf/2403.05798v1.pdf 1. 大きな問題の背景モデル

テスラのロボットは工場で働く、マスク氏:手の自由度は今年22に達する! テスラのロボットは工場で働く、マスク氏:手の自由度は今年22に達する! May 06, 2024 pm 04:13 PM

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー(テスラの4680バッテリー)を次のように分類します:公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング:今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行​​い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジム ファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

DualBEV: BEVFormer および BEVDet4D を大幅に上回る、本を開いてください! DualBEV: BEVFormer および BEVDet4D を大幅に上回る、本を開いてください! Mar 21, 2024 pm 05:21 PM

この論文では、自動運転においてさまざまな視野角 (遠近法や鳥瞰図など) から物体を正確に検出するという問題、特に、特徴を遠近法 (PV) 空間から鳥瞰図 (BEV) 空間に効果的に変換する方法について検討します。 Visual Transformation (VT) モジュールを介して実装されます。既存の手法は、2D から 3D への変換と 3D から 2D への変換という 2 つの戦略に大別されます。 2D から 3D への手法は、深さの確率を予測することで高密度の 2D フィーチャを改善しますが、特に遠方の領域では、深さ予測に固有の不確実性により不正確さが生じる可能性があります。 3D から 2D への方法では通常、3D クエリを使用して 2D フィーチャをサンプリングし、Transformer を通じて 3D と 2D フィーチャ間の対応のアテンション ウェイトを学習します。これにより、計算時間と展開時間が増加します。

See all articles