ホームページ > テクノロジー周辺機器 > AI > アダプターとGPTに基づく時系列マルチタスク統合大規模モデル

アダプターとGPTに基づく時系列マルチタスク統合大規模モデル

WBOY
リリース: 2023-12-15 13:03:56
転載
878 人が閲覧しました

今日は、大規模モデルの時系列予測に関する最新の研究についてお話したいと思います。Alibaba Damo Academy から、アダプターに基づく一般的な時系列分析フレームワークが提案されており、長期予測、短期予測に使用できます。 -期間予測、およびゼロショット フューショット、異常検出、時系列分類、時系列充填を含む 7 つの時系列タスクで顕著な結果が達成されました。

アダプターとGPTに基づく時系列マルチタスク統合大規模モデル

論文タイトル: One size fits all: 事前トレーニング済み言語モデルと特別に設計されたアダプターを使用したユニバーサル時系列分析

ダウンロード可能なリンク: https:// arxiv .org/pdf/2311.14782v1.pdf

1. 背景

時系列予測の分野では、大規模なモデルを構築する際の困難の 1 つは、次のような十分なトレーニング データが不足していることです。 NLP または CV フィールド。この記事では、NLP または CV の分野でトレーニングされた大規模モデルに基づいて時系列に適応させ、アダプター テクノロジーと組み合わせて、さまざまな時系列の問題を解決するソリューションを提案します。

アダプターは広く使用されています。特に最近の大規模モデルのアプリケーションでは、大規模モデルの軽量な微調整を行うためにアダプターがよく使用されます。アダプターは軽量のネットワークであり、大規模モデルの一部のモジュールにアダプターを挿入し、大規模モデルのパラメーターを固定し、アダプターのパラメーターのみを更新することで、軽量の大規模モデルの微調整を実現できます。

アダプターとGPTに基づく時系列マルチタスク統合大規模モデル写真

次に、Alibaba Damo Academy のこの取り組みで、アダプターを使用して事前トレーニング済みの NLP モデルと CV モデルを組み合わせる方法を紹介します。統一された時系列モデルを構築します。

2. 全体構造

この記事で提案するモデルは、Freeze パラメータの事前学習済み言語モデルに基づいており、4 種類のアダプターを組み合わせて実装されています。モデル全体の構造を次の図に示します。

アダプターとGPTに基づく時系列マルチタスク統合大規模モデル

まず、入力時系列に対して、RevIN メソッドを使用して正規化します。これは、各時系列から平均を引き、分散で割ることを意味します。次に、PatchTST メソッドを使用して、スライディング ウィンドウを通じて時系列を複数のセグメントに分割し、セグメント エンベディングを生成します。処理された時系列は、NLP フィールドの事前トレーニングされた言語モデルに入力されます。トレーニング プロセス全体を通じて、言語モデルの元のパラメーターは変更されず、新しく追加された 4 種類のアダプター パラメーターのみを更新します

3. アダプターの設計

この記事では、4 つのアダプター パラメーターを紹介します。時系列を適応させるという目標を達成するために、NLP および CV の分野の大規模モデルのさまざまな場所に接続できるアダプターのタイプ。これら 4 つのアダプタは、時間アダプタ、チャネル アダプタ、周波数アダプタ、および例外アダプタです。

時間アダプタ: 時間アダプタは、時間次元情報を融合するために使用される MLP ネットワークです。本論文では、時間次元や空間次元の高次元情報を低次元空間にマッピングし、その後高次元空間にマッピングし直すというボトルネック構造を採用する。この目的は、時系列関係を抽出するプロセスでの過剰適合のリスクを回避することです

チャネル アダプター: チャネル アダプターの構造は時間アダプターと似ていますが、実行される点が異なります。空間次元で使用され、多変量シーケンスの変数を抽出するために使用されます。それらの間の関係にも bottleect が使用されます。

アダプターとGPTに基づく時系列マルチタスク統合大規模モデルPicture

周波数アダプター:周波数アダプターは、周波数ドメインで時系列情報を抽出します。この部分は、時系列が周波数ドメインにマッピングされ、MLP が周波数ドメインで実行され、その後時間ドメインにマッピングされて、周波数でのグローバル情報の抽出を実現します。ドメイン。

異常アダプター: この部分は主に新しい時系列異常検出手法を実装します。ここでは注意スコア マトリックスが使用されます。正常なシーケンスの場合、注意スコア マトリックスは周期的な繰り返し特性を示しますが、異常なシーケンスはそうではありません。そこで、本記事では異常アダプタとしてガウシアンカーネルを使用し、アテンションの出力結果とその計算されたKL発散を時系列異常検出に利用します。

アダプターとGPTに基づく時系列マルチタスク統合大規模モデル画像

さらに、さまざまなデータが各アダプタによってさまざまな程度の影響を受けるため、この記事ではゲート ネットワークを使用して、選択的に使用します。アダプター

4と実験結果

では、7つの時系列タスクの効果を比較しましたが、本記事で提案した時系列統合大規模モデルは、各タスクにおいて各種SOTAモデルを上回る結果を達成しました。業界での効果。長期予測タスクを例にとると、GPT2 アダプターに基づく統合モデルが最高のパフォーマンスを発揮します

#########写真############

以上がアダプターとGPTに基づく時系列マルチタスク統合大規模モデルの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート