目次
(1) 数値偏差に対する数値精度の影響を分離するマイクロベンチマークを設計しました。
(2) Wasserstein Distance メトリクスに基づいてデータ駆動型分析を実行しました。
実験方法
マイクロベンチマークによる数値偏差の定量化
重みの違いによる数値バイアスを理解する
ホームページ テクノロジー周辺機器 AI フラッシュ アテンションは安定していますか?メタとハーバードは、モデルの重みの偏差が桁違いに変動していることを発見しました

フラッシュ アテンションは安定していますか?メタとハーバードは、モデルの重みの偏差が桁違いに変動していることを発見しました

May 30, 2024 pm 01:24 PM
AI 機械学習 AIモデル

Meta FAIR はハーバード大学と連携して、大規模な機械学習によって引き起こされるデータの偏りを最適化するための新しい研究フレームワークを提供しました。

ご存知のとおり、大規模な言語モデルのトレーニングには数か月かかることが多く、数百、さらには数千の GPU が使用されます。 LLaMA2 70B モデルを例にとると、そのトレーニングには合計 1,720,320 GPU 時間が必要です。大規模なモデルのトレーニングには、これらのワークロードの規模と複雑さにより、特有のシステム上の課題が生じます。

最近、多くの機関が、SOTA 生成 AI モデルをトレーニングする際のトレーニング プロセス中の不安定性を報告しています。これらは通常、Google の PaLM モデルなど、トレーニング プロセス中に最大 20 回発生する損失スパイクの形で発生します。スパイク。

このトレーニングの不正確さの根本原因は数値の偏差です。大規模な言語モデルのトレーニングの実行コストは非常に高いため、数値の偏差をどのように定量化するかが重要な問題となっています。

最新の研究では、メタ大学とハーバード大学の研究者が、トレーニング最適化における数値バイアスを理解するための原理に基づいた定量的手法を開発しました。これは、さまざまな最先端の最適化手法を評価し、大規模なモデルのトレーニングに使用した場合に予期しない不安定性が生じる可能性があるかどうかを判断するために使用されます。 研究者らは、既存の最適化手法は一部のタスクではうまく機能するものの、大規模なモデルに適用すると数値的な偏差が発生することを発見しました。この数値的な偏りにより、トレーニング プロセス中に不安定性が生じ、モデルのパフォーマンスが低下する可能性があります。 この問題を解決するために、研究者らは原理に基づいた定量的手法に基づく最適化を提案しました

Flash Attention稳定吗?Meta、哈佛发现其模型权重偏差呈现数量级波动


  • 論文のタイトル: フラッシュアテンションは安定していますか?
  • 論文リンク: https://arxiv.org/pdf/2405.02803

単一の前方パスでは、フラッシュ アテンションの数値偏差が BF16 のベースライン アテンションよりも一桁大きいことがわかりました。

具体的には、この方法は次の 2 つの段階で構成されます:

  • 特定の最適化における数値精度を変動させるマイクロベンチマークを開発する
  • データ駆動型分析を通じて数値を評価するWasserstein 距離に基づくバイアスがモデルの重みの変化にどのように変換されるか。

研究者らは SOTA 最適化技術 Flash Attend を分析し、導入される可能性のある数値偏差を定量化しました。フラッシュ アテンションは、アテンション メカニズムを加速するために広く使用されているテクノロジーであり、Transformer モデルではシステムのボトルネックとみなされることがよくあります。 Flash アテンションは速度を向上させ、メモリ アクセスを削減しますが、アルゴリズムの最適化にも依存しており、アルゴリズムの最適化により数値の偏差が増加する可能性があります。

研究者らは、リスケーリング係数を追加すると意図しない近似が生じ、数値的なトレードオフが生じ、その後トレーニングの安定性に影響を与える可能性があると仮説を立てました。

彼らは、マルチモーダルなテキストから画像へのワークロードのコンテキストで Flash アテンションを分析し、Flash アテンションとそのベースラインの間の数値偏差の潜在的な重要性を判断しました。最終的に、彼らはトレーニング最適化の数値バイアスとその下流効果を定量化するフレームワークを導入しました。

研究者は、数値偏差の定量化において次の 2 つの主な貢献を行いました:

(1) 数値偏差に対する数値精度の影響を分離するマイクロベンチマークを設計しました。

研究者によって設計されたマイクロベンチマークは、従来のブラックボックス最適化 (フラッシュ アテンションなど) によって引き起こされる数値偏差を測定および定量化するために使用される手法です。彼らは、提供されたカーネルでは通常利用できない側面を混乱させることにより、低い数値精度 (BF16) では、フラッシュ アテンションがベースライン アテンションと比較して約 1 桁高い数値バイアスを持つことを発見しました。

(2) Wasserstein Distance メトリクスに基づいてデータ駆動型分析を実行しました。

この分析を通じて、研究者は観察された数値偏差を文脈化し、下流モデルのプロパティへの影響の上限を形成します。研究者のケーススタディでは、観察された数値バイアスの影響を制限することができ、「Flash Attendance では、低精度トレーニング の約 1/2 ~ 1/5 倍のモデル重みバイアスが導入された」ことがわかりました。

この研究は、「数値バイアスに対するトレーニング最適化の影響を定量化するだけでなく、その影響を文脈化する」ための原則に基づいたアプローチを開発することの重要性を強調しています。プロキシを構築して数値バイアスの文脈を文脈化し、下流のモデル効果の可能性を推測することを目的としています。 、トレーニングの不安定さなど)、測定するのが難しいことがよくあります。

実験方法

研究者らはまず、フラッシュアテンションによって引き起こされる数値偏差を分離して研究するためのマイクロベンチマークを開発しました。図 2 に示すように、彼らは Flash アテンションを数値的に再実装して、さまざまな数値精度を分析し、アルゴリズムの各ステップで潜在的な最適化措置を適用しました。

Flash Attention稳定吗?Meta、哈佛发现其模型权重偏差呈现数量级波动

図 2: マイクロベンチマーク設計の概要。

Flash アテンション コアは現在 FP16 および BF16 数値形式のみをサポートしているため、これが必要です。このカーネルは CUDA コードのラッパー API 呼び出しでもあるため、数値バイアスの影響を調べるためにアルゴリズムを混乱させることが困難になります。

対照的に、マイクロベンチマーク設計では、アルゴリズム内での正確な入力と変更が可能です。研究者らは、オリジナルの Flash アテンション カーネルに対してマイクロベンチマークを検証しました。

彼らはさらに、モデル実行中の各ステップでアテンション マトリックスの出力を比較する手法を設計しました。また、アテンションが呼び出されるたびにベースライン アテンションとフラッシュ アテンションを計算するようにモデル コードを変更しました。これにより、同じ入力行列に対する正確な出力行列の比較が可能になります。

これを状況に合わせて説明するために、最大差分メトリクスと Wasserstein Distance メトリクスを使用して、同一の独立したトレーニング実行を使用したトレーニング全体でのモデルの重みの差を定量化しました。

トレーニング実験では、研究者らはテキスト入力を画像に変換する生成 AI ワークロード (つまり、テキストから画像へのモデル) を使用しました。彼らは Shutterstock データセットを使用してモデルを再トレーニングし、NVIDIA 80GB A100 GPU のクラスターで実験を実行しました。

マイクロベンチマークによる数値偏差の定量化

研究者らはまず、フォワードパスプロセスにおけるフラッシュアテンションの影響を分析しました。彼らはマイクロベンチマークを使用して、ランダムに初期化されたクエリ、キー、および値のベクトルが同じであるという条件下で、アテンションによって計算された出力行列に対するさまざまな数値精度の影響を調べました。

図 3 に示すように、研究者が BF16 から FP64 までのさまざまな数値形式を使用すると、仮数部の桁数が増加するにつれて、フラッシュ アテンションとベースライン アテンションの間の数値偏差が減少します。これは、数値の違いが仮数部の桁が少ないことに固有の近似によるものであることを示唆しています。

Flash Attention稳定吗?Meta、哈佛发现其模型权重偏差呈现数量级波动

図 3: フラッシュ アテンションの数値偏差に対する数値形式の影響。

その後、研究者は、標準的な比較のために FP64 数値形式でベースライン注意力の「ゴールデン値」を設定し、さまざまな数値形式での注意力出力をこの値と比較しました (図 4 を参照)。

Flash Attention稳定吗?Meta、哈佛发现其模型权重偏差呈现数量级波动

図 4: FP64 におけるベースライン アテンション「ゴールド値」の比較。

結果は、BF16 では Flash Attendance の数値偏差が Baseline の数値偏差の約 10 倍であることを示しています。

この観測された数値偏差をさらに分析するために、研究者らはタイル サイズと SRAM サイズを一定に保ちながら行列のシーケンス長をスキャンしました (図 5 を参照)。

Flash Attention稳定吗?Meta、哈佛发现其模型权重偏差呈现数量级波动

図 5: フラッシュ アテンションの数値偏差に対するシーケンスの長さの影響。

図に示すように、シーケンスの長さが増加するにつれて、(a) 最大差の上限、または (b) 差の平均および標準偏差によって測定されるかどうかにかかわらず、フラッシュ アテンションとベースラインの差は注意 数値の偏差が増加しています。

さらに、研究者は、数値偏差の影響をより深く理解するために、マイクロベンチマーク設計を使用してさまざまな最適化を行った実験も行っています (図 6 を参照)。

図 6a は、ブロック次元の順序を入れ替えることにより、フラッシュ アテンションとベースライン アテンションの間の数値の差がどのように増加するかを示しています。タイル サイズを正方形に制限するなど、図 6b の他の摂動は数値バイアスに影響を与えません。図 6c は、ブロック/タイル サイズが大きくなるほど、数値偏差が小さくなることを示しています。

Flash Attention稳定吗?Meta、哈佛发现其模型权重偏差呈现数量级波动

図 6: アルゴリズムの変更と、観測された数値偏差に対するその影響。

重みの違いによる数値バイアスを理解する

フラッシュ アテンションはフォワード パス中にアテンション出力に数値バイアスを引き起こす可能性がありますが、この研究の最終目標は、モデル トレーニング中にこれが発生するかどうかを判断し、影響を調査することです。それはトレーニングの不安定さにつながります。

したがって、研究者らは、フラッシュ アテンションがトレーニング中にモデルを変更するかどうか、つまり、上記で観察されたアテンション出力の違いがトレーニング中に更新されたモデルの重みに反映されるかどうかを定量化したいと考えています。

研究者らは 2 つの指標を使用して、ベースライン アテンションを使用してトレーニングされたモデルとフラッシュ アテンションを使用してトレーニングされたモデル間のモデルの重みの違いを測定しました。まず最大差が計算されます。つまり、重み行列間の差の絶対値を見つけて最大値を取得し、次のように偏差の上限を取得します。数値偏差の上限ですが、各行列の分布は考慮されていません。したがって、研究者は、テンソル間の類似性の一般的な尺度である Wasserstein Distance を通じて重みの違いを定量化します。計算的には若干複雑ですが、Wasserstein Distance には、類似性を測定するためのテンソル分布の形状情報が含まれています。計算式は次のように要約されます。

Flash Attention稳定吗?Meta、哈佛发现其模型权重偏差呈现数量级波动

値が小さいほど、行列間の類似性が高くなります。

Flash Attention稳定吗?Meta、哈佛发现其模型权重偏差呈现数量级波动これら 2 つの指標を使用して、研究者らは、トレーニング プロセス全体を通じて、フラッシュ アテンションのモデルの重みがベースライン アテンションと比較してどのように変化したかを定量化しました。トレーニング プロセス全体で、フラッシュ アテンションを追加するとモデルの重みが変化します。トレーニングが継続するにつれて、この差はますます大きくなるだけです。これは、フラッシュ アテンションを使用してトレーニングされたモデルが、ベースライン アテンションを使用してトレーニングされたモデルとは異なることを示しています。トレーニングされた同じモデルが別のモデルに収束しました。

ただし、トレーニングは確率的プロセスであり、モデル構造の特定の変更により、下流の効果と精度の点で同様の結果が生じる可能性があります。これは、フラッシュ アテンションとベースライン アテンションでトレーニングされたモデルの重みが異なる場合でも注目に値します。

モデルを完全にトレーニングして精度を評価することは、特にトレーニングに数か月かかる大規模なモデルの場合、コストがかかり、リソースを大量に消費するタスクです。

Flash Attention稳定吗?Meta、哈佛发现其模型权重偏差呈现数量级波动

研究者は次のことを調査するためにプロキシを設定しました:

(a) これらの重みの変更の重要性は何ですか?

(b) これは、他の広く採用されているトレーニング最適化における標準重量の変更に関連している可能性がありますか?

この目標を達成するために、研究者たちは、さまざまなシナリオの下でトレーニングプロセス中に体重の差がどのように変化するかを比較する一連の実験を設計しました。

フラッシュ アテンションとベースライン アテンションを使用したトレーニング プロセスの比較に加えて、トレーニングの開始時に重みが異なるランダム値に初期化された同じトレーニング プロセス中の重みの違いも定量化しました。ランダムな重みの初期化は一般的な手法であり、多くの場合同等の結果が生成されるため、これにより制限が提供されます。

さらに、研究者たちは、さまざまな精度でトレーニングされたモデルの重みの変化も測定しました。数値精度 (つまり、FP16 対 FP32) は下流の変更を引き起こす可能性があり、これはフラッシュ アテンションの重みの重要性の上限として機能します。

図 8 に示すように、フラッシュ アテンションを使用したモデルの重みバイアス変化率は、さまざまなモデル初期化の重みバイアス変化率と同等か、それより小さいことがわかります (赤と青の曲線の傾きに注目してください)。 。

また、FP16を使用した場合とFP32を使用した場合の重量変化率は高く、異なるモデルを初期化した場合よりも変化が大きくなります。

これらの結果はプロキシを提供し、次のことを示しています: 「フラッシュ アテンションは数値的なバイアスを示しますが、ランダムなモデルの初期化と低精度のトレーニングによって制限されます。また、低精度でトレーニングする場合、導入されるモデルの重みバイアスは約 10% です」 1/2 ~ 1/5 回。「

Flash Attention稳定吗?Meta、哈佛发现其模型权重偏差呈现数量级波动

」 図 8: Wasserstein Distance メトリックを使用して測定されたトレーニング中の相対的な体重差。

研究の詳細については、元の論文を参照してください。

以上がフラッシュ アテンションは安定していますか?メタとハーバードは、モデルの重みの偏差が桁違いに変動していることを発見しましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Bytedance Cutting が SVIP スーパー メンバーシップを開始: 継続的な年間サブスクリプションは 499 元で、さまざまな AI 機能を提供 Bytedance Cutting が SVIP スーパー メンバーシップを開始: 継続的な年間サブスクリプションは 499 元で、さまざまな AI 機能を提供 Jun 28, 2024 am 03:51 AM

このサイトは6月27日、JianyingはByteDanceの子会社であるFaceMeng Technologyによって開発されたビデオ編集ソフトウェアであり、Douyinプラットフォームに依存しており、基本的にプラットフォームのユーザー向けに短いビデオコンテンツを作成すると報告しました。 Windows、MacOS、その他のオペレーティング システム。 Jianyingは会員システムのアップグレードを正式に発表し、インテリジェント翻訳、インテリジェントハイライト、インテリジェントパッケージング、デジタルヒューマン合成などのさまざまなAIブラックテクノロジーを含む新しいSVIPを開始しました。価格的には、クリッピングSVIPの月額料金は79元、年会費は599元(当サイト注:月額49.9元に相当)、継続月額サブスクリプションは月額59元、継続年間サブスクリプションは、年間499元(月額41.6元に相当)です。さらに、カット担当者は、ユーザーエクスペリエンスを向上させるために、オリジナルのVIPに登録している人は、

Rag と Sem-Rag を使用したコンテキスト拡張 AI コーディング アシスタント Rag と Sem-Rag を使用したコンテキスト拡張 AI コーディング アシスタント Jun 10, 2024 am 11:08 AM

検索強化生成およびセマンティック メモリを AI コーディング アシスタントに組み込むことで、開発者の生産性、効率、精度を向上させます。 JanakiramMSV 著者の EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG から翻訳。基本的な AI プログラミング アシスタントは当然役に立ちますが、ソフトウェア言語とソフトウェア作成の最も一般的なパターンに関する一般的な理解に依存しているため、最も適切で正しいコードの提案を提供できないことがよくあります。これらのコーディング アシスタントによって生成されたコードは、彼らが解決する責任を負っている問題の解決には適していますが、多くの場合、個々のチームのコーディング標準、規約、スタイルには準拠していません。これにより、コードがアプリケーションに受け入れられるように修正または調整する必要がある提案が得られることがよくあります。

GenAI および LLM の技術面接に関する 7 つのクールな質問 GenAI および LLM の技術面接に関する 7 つのクールな質問 Jun 07, 2024 am 10:06 AM

AIGC について詳しくは、51CTOAI.x コミュニティ https://www.51cto.com/aigc/Translator|Jingyan Reviewer|Chonglou を参照してください。これらの質問は、インターネット上のどこでも見られる従来の質問バンクとは異なります。既成概念にとらわれずに考える必要があります。大規模言語モデル (LLM) は、データ サイエンス、生成人工知能 (GenAI)、および人工知能の分野でますます重要になっています。これらの複雑なアルゴリズムは人間のスキルを向上させ、多くの業界で効率とイノベーションを推進し、企業が競争力を維持するための鍵となります。 LLM は、自然言語処理、テキスト生成、音声認識、推奨システムなどの分野で幅広い用途に使用できます。 LLM は大量のデータから学習することでテキストを生成できます。

微調整によって本当に LLM が新しいことを学習できるようになるのでしょうか: 新しい知識を導入すると、モデルがより多くの幻覚を生成する可能性があります 微調整によって本当に LLM が新しいことを学習できるようになるのでしょうか: 新しい知識を導入すると、モデルがより多くの幻覚を生成する可能性があります Jun 11, 2024 pm 03:57 PM

大規模言語モデル (LLM) は巨大なテキスト データベースでトレーニングされ、そこで大量の現実世界の知識を取得します。この知識はパラメータに組み込まれており、必要なときに使用できます。これらのモデルの知識は、トレーニングの終了時に「具体化」されます。事前トレーニングの終了時に、モデルは実際に学習を停止します。モデルを調整または微調整して、この知識を活用し、ユーザーの質問により自然に応答する方法を学びます。ただし、モデルの知識だけでは不十分な場合があり、モデルは RAG を通じて外部コンテンツにアクセスできますが、微調整を通じてモデルを新しいドメインに適応させることが有益であると考えられます。この微調整は、ヒューマン アノテーターまたは他の LLM 作成物からの入力を使用して実行され、モデルは追加の実世界の知識に遭遇し、それを統合します。

あなたが知らない機械学習の 5 つの流派 あなたが知らない機械学習の 5 つの流派 Jun 05, 2024 pm 08:51 PM

機械学習は人工知能の重要な分野であり、明示的にプログラムしなくてもコンピューターにデータから学習して能力を向上させる機能を提供します。機械学習は、画像認識や自然言語処理から、レコメンデーションシステムや不正行為検出に至るまで、さまざまな分野で幅広く応用されており、私たちの生活様式を変えつつあります。機械学習の分野にはさまざまな手法や理論があり、その中で最も影響力のある 5 つの手法は「機械学習の 5 つの流派」と呼ばれています。 5 つの主要な学派は、象徴学派、コネクショニスト学派、進化学派、ベイジアン学派、およびアナロジー学派です。 1. 象徴主義は、象徴主義とも呼ばれ、論理的推論と知識の表現のためのシンボルの使用を強調します。この学派は、学習は既存の既存の要素を介した逆演繹のプロセスであると信じています。

新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。 新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。 Jul 25, 2024 am 06:42 AM

編集者 |ScienceAI 質問応答 (QA) データセットは、自然言語処理 (NLP) 研究を促進する上で重要な役割を果たします。高品質の QA データ セットは、モデルの微調整に使用できるだけでなく、大規模言語モデル (LLM) の機能、特に科学的知識を理解し推論する能力を効果的に評価することもできます。現在、医学、化学、生物学、その他の分野をカバーする多くの科学 QA データ セットがありますが、これらのデータ セットにはまだいくつかの欠点があります。まず、データ形式は比較的単純で、そのほとんどが多肢選択式の質問であり、評価は簡単ですが、モデルの回答選択範囲が制限され、科学的な質問に回答するモデルの能力を完全にテストすることはできません。対照的に、自由回答型の Q&A

SOTA パフォーマンス、厦門マルチモーダルタンパク質-リガンド親和性予測 AI 手法、初めて分子表面情報を結合 SOTA パフォーマンス、厦門マルチモーダルタンパク質-リガンド親和性予測 AI 手法、初めて分子表面情報を結合 Jul 17, 2024 pm 06:37 PM

編集者 | KX 医薬品の研究開発の分野では、タンパク質とリガンドの結合親和性を正確かつ効果的に予測することが、医薬品のスクリーニングと最適化にとって重要です。しかし、現在の研究では、タンパク質とリガンドの相互作用における分子表面情報の重要な役割が考慮されていません。これに基づいて、アモイ大学の研究者らは、初めてタンパク質の表面、3D 構造、配列に関する情報を組み合わせ、クロスアテンション メカニズムを使用して異なるモダリティの特徴を比較する、新しいマルチモーダル特徴抽出 (MFE) フレームワークを提案しました。アライメント。実験結果は、この方法がタンパク質-リガンド結合親和性の予測において最先端の性能を達成することを実証しています。さらに、アブレーション研究は、この枠組み内でのタンパク質表面情報と多峰性特徴の位置合わせの有効性と必要性​​を実証しています。 「S」で始まる関連研究

SKハイニックスは8月6日に12層HBM3E、321層NANDなどのAI関連新製品を展示する。 SKハイニックスは8月6日に12層HBM3E、321層NANDなどのAI関連新製品を展示する。 Aug 01, 2024 pm 09:40 PM

8月1日の本サイトのニュースによると、SKハイニックスは本日(8月1日)ブログ投稿を発表し、8月6日から8日まで米国カリフォルニア州サンタクララで開催されるグローバル半導体メモリサミットFMS2024に参加すると発表し、多くの新世代の製品。フューチャー メモリおよびストレージ サミット (FutureMemoryandStorage) の紹介。以前は主に NAND サプライヤー向けのフラッシュ メモリ サミット (FlashMemorySummit) でしたが、人工知能技術への注目の高まりを背景に、今年はフューチャー メモリおよびストレージ サミット (FutureMemoryandStorage) に名前が変更されました。 DRAM およびストレージ ベンダー、さらに多くのプレーヤーを招待します。昨年発売された新製品SKハイニックス

See all articles