ホームページ テクノロジー周辺機器 AI RWKV の紹介: リニアトランスフォーマーの台頭と代替手段の模索

RWKV の紹介: リニアトランスフォーマーの台頭と代替手段の模索

Sep 27, 2023 pm 02:01 PM
rwkv

RWKV ポッドキャストに関する私の考えの一部を要約します: https://www. php.cn/link/9bde76f262285bb1eaeb7b40c758b53e

RWKV の紹介: リニアトランスフォーマーの台頭と代替手段の模索


理由代替手段の重要性はそれほど重要ですか?

2023 年の人工知能革命に伴い、Transformer アーキテクチャは現在最高潮に達しています。ただし、成功した Transformer アーキテクチャの採用を急ぐあまり、そこから学べる代替案を見落としがちです。

#エンジニアとして、私たちは画一的なアプローチを採用し、すべての問題に対して同じソリューションを使用すべきではありません。私たちはあらゆる状況でメリットとデメリットを比較検討する必要があります。そうしないと、代替手段があることを知らずに「満足」を感じながら特定のプラットフォームの制限内に閉じ込められてしまうと、一夜にして開発が解放前に戻ってしまう可能性があります

この問題は人工知能の分野に特有のものではなく、古代から現在まで繰り返されてきた歴史的なパターンです。


# 。この物語では、Oracle、MySQL、SQL Server などのさまざまなデータベース管理システムが市場シェアと技術的優位性を求めて激しく競争します。これらの競争は、パフォーマンスや機能に反映されるだけでなく、ビジネス戦略、マーケティング、ユーザー満足度などの多くの側面も関係します。これらのデータベース管理システムは、より多くのユーザーや企業が製品を選択するよう、新しい機能や改善を継続的に導入しています。 SQL 戦争の歴史の 1 ページ。データベース管理システム業界の発展と変革を目撃し、私たちに貴重な経験と教訓を提供してくれました。 #最近のソフトウェア開発における注目すべき例は、SQL サーバーが物理的に制約され始めたときに現れた NoSQL トレンドです。世界中のスタートアップ企業が、その規模には遠く及ばないにもかかわらず、「規模」を理由に NoSQL に注目しています


# しかし、時間の経過とともに、 NoSQL の結果整合性と管理オーバーヘッドの向上、および SSD の速度と容量に関するハードウェア機能の大幅な飛躍により、SQL サーバーはその使いやすさにより最近復活を遂げており、現在では 90% 以上のスタートアップで利用可能です。 十分なスケーラビリティ

#SQL と NoSQL は 2 つの異なるデータベース テクノロジです。 SQLはStructured Query Languageの略で、主に構造化データを処理するために使用されます。 NoSQL は、非構造化データまたは半構造化データの処理に適した非リレーショナル データベースを指します。 SQL が NoSQL よりも優れている、またはその逆であると考える人もいますが、実際には、それぞれのテクノロジーに独自の長所、短所、およびユースケースがあることを意味しているだけです。場合によっては、複雑なリレーショナル データの処理には SQL の方が適している一方、大規模な非構造化データの処理には NoSQL の方が適している場合があります。 ただし、これは 1 つのテクノロジーのみを選択できるという意味ではありません。実際、多くのアプリケーションやシステムは実際に SQL と NoSQL のハイブリッド ソリューションを使用しています。特定のニーズとデータの種類に応じて、問題を解決するために最も適切なテクノロジーを選択できます。 したがって、各テクノロジーの特性と適用可能なシナリオを理解し、特定の状況に基づいて情報に基づいた選択を行うことが重要です。 SQL と NoSQL には、どちらも独自の学習ポイントと推奨される使用例があり、同様のテクノロジーから学び、相互影響を受けることができます

現在トランスフォーマー

    アーキテクチャの最大の問題点は何ですか?
  • 通常、これには計算、コンテキスト サイズ、データセット、アライメントが含まれます。この説明では、計算とコンテキストの長さに焦点を当てます。
  • O(使用/生成されたトークンごとに N^ 2) であるため、二次計算コスト増加によって引き起こされます。これにより、コンテキスト サイズが 100,000 を超えると非常に高価になり、推論とトレーニングに影響します。

#現在の GPU 不足がこの問題をさらに悪化させています。

コンテキスト サイズによりアテンション メカニズムが制限され、「インテリジェント エージェント」の使用例 (smol-dev など) が大幅に制限され、問題の解決が強制されます。コンテキストが大きくなると、必要な回避策は少なくなります。

それでは、この問題をどのように解決すればよいでしょうか?

RWKV の紹介: 線形 Tトランスフォーマー

/モダン大規模な RNN

###RWKV と Microsoft RetNet は、「線形変圧器」と呼ばれる新しいカテゴリの最初の企業です ####### ###### ####### 以下をサポートすることで、上記の 3 つの制限に直接対処します: ############
  • コンテキスト サイズに依存しない線形の計算コスト。
  • # CPU (特に ARM) では、要件が低い RNN モードで妥当なトークン/秒出力を許可します。
  • #RNN には、コンテキスト サイズの厳密な制限はありません。ドキュメント内の制限はガイドラインであり、微調整することができます。

AI モデルを 100k コンテキスト以上のサイズに拡張し続けると、二次関数の計算コストは​​指数関数的に増加し始めます。

ただし、線形トランスフォーマーはリカレント ニューラル ネットワーク アーキテクチャを放棄せず、そのボトルネックを解決せず、置き換えを余儀なくされました。

#ただし、再設計された RNN は Transformer のスケーラブルな教訓を学び、RNN が Transformer と同様に動作できるようにし、これらのボトルネックを解消します。

トレーニング速度の点では、トランスフォーマーを使用するとトランスフォーマーが再び使用可能になり、トレーニングを 1 つ以上にスケールしながら、O(N) コストで効率的に実行できるようになります。同様のパフォーマンス レベルを維持しながら、10 億のパラメータを実現します。

RWKV の紹介: リニアトランスフォーマーの台頭と代替手段の模索

#グラフ: トークンあたりの線形トランスフォーマーの計算コストとトランスフォーマーの指数関数的増加の関係


二乗比を線形スケーリングに適用すると、トークン数 2,000 で 10 倍以上の増加が得られ、トークン長 100,000 で 100 倍以上の増加が得られます。

RWKV は 14B パラメータで、GPT NeoX や他の同様のデータセット (Pile など) に匹敵する最大のオープンソース線形 Transformer です。


RWKV の紹介: リニアトランスフォーマーの台頭と代替手段の模索

RWKV モデルのパフォーマンスは、類似の既存の変圧器モデルと同等です。サイズ、さまざまなベンチマークは


# を示しますが、より簡単に言うと、これは何を意味するのでしょうか? ##############################アドバンテージ################### ##コンテキスト サイズが大きい場合、推論/トレーニングは Transformer よりも 10 倍以上安価です。


RNN モードでは、限られたハードウェアでは実行速度が非常に遅くなる可能性があります。

# 同じデータセット上の Transformer と同様のパフォーマンス

  • RNN には技術的なコンテキスト サイズの制限はありません(コンテキストは無制限!)
  • #欠点
  • スライディング ウィンドウの問題、特定の点を超えると損失のあるメモリ
まだ証明されていません14B パラメータ


トランスの最適化と導入ほど優れていない

  • つまりRWKV はまだ LLaMA2 の 60B パラメータ スケールに達していませんが、適切なサポートとリソースがあれば、特にモデルが小型で効率的な傾向にあるため、より低コストで幅広い環境で実現できる可能性があります
  • ユースケースが効率性にとって重要である場合は、これを検討してください。ただし、これは最終的な解決策ではありません。鍵は健康的な代替案にあります
  • #他の方法を学ぶことを検討する必要があります。代替案とその利点

拡散モデル: テキストでのトレーニングには時間がかかりますが、マルチエポックトレーニングに対しては非常に回復力があります。その理由を解明することは、トークン危機を緩和するのに役立つ可能性があります。

敵対的生成ネットワーク/エージェント: テキストに基づいている場合でも、データセットなしで目的のトレーニング セットを特定のターゲットにトレーニングする手法を使用できます。モデル。


##元のタイトル: RWKV の紹介: リニアトランスの台頭と代替手段の探索

、作成者:

picocreator

##https://www.php.cn/link/b433da1b32b5ca96c0ba7fcb9edba97d

以上がRWKV の紹介: リニアトランスフォーマーの台頭と代替手段の模索の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

カーソルAIでバイブコーディングを試してみましたが、驚くべきことです! カーソルAIでバイブコーディングを試してみましたが、驚くべきことです! Mar 20, 2025 pm 03:34 PM

バイブコーディングは、無限のコード行の代わりに自然言語を使用してアプリケーションを作成できるようにすることにより、ソフトウェア開発の世界を再構築しています。 Andrej Karpathyのような先見の明に触発されて、この革新的なアプローチは開発を許可します

2025年2月のトップ5 Genai発売:GPT-4.5、Grok-3など! 2025年2月のトップ5 Genai発売:GPT-4.5、Grok-3など! Mar 22, 2025 am 10:58 AM

2025年2月は、生成AIにとってさらにゲームを変える月であり、最も期待されるモデルのアップグレードと画期的な新機能のいくつかをもたらしました。 Xai’s Grok 3とAnthropic's Claude 3.7 SonnetからOpenaiのGまで

オブジェクト検出にYolo V12を使用する方法は? オブジェクト検出にYolo V12を使用する方法は? Mar 22, 2025 am 11:07 AM

Yolo(あなたは一度だけ見ています)は、前のバージョンで各反復が改善され、主要なリアルタイムオブジェクト検出フレームワークでした。最新バージョンYolo V12は、精度を大幅に向上させる進歩を紹介します

ChatGpt 4 oは利用できますか? ChatGpt 4 oは利用できますか? Mar 28, 2025 pm 05:29 PM

CHATGPT 4は現在利用可能で広く使用されており、CHATGPT 3.5のような前任者と比較して、コンテキストを理解し、一貫した応答を生成することに大幅な改善を示しています。将来の開発には、よりパーソナライズされたインターが含まれる場合があります

クリエイティブプロジェクトのための最高のAIアートジェネレーター(無料&有料) クリエイティブプロジェクトのための最高のAIアートジェネレーター(無料&有料) Apr 02, 2025 pm 06:10 PM

この記事では、トップAIアートジェネレーターをレビューし、その機能、創造的なプロジェクトへの適合性、価値について説明します。 Midjourneyを専門家にとって最高の価値として強調し、高品質でカスタマイズ可能なアートにDall-E 2を推奨しています。

O1対GPT-4O:OpenAIの新しいモデルはGPT-4Oよりも優れていますか? O1対GPT-4O:OpenAIの新しいモデルはGPT-4Oよりも優れていますか? Mar 16, 2025 am 11:47 AM

OpenaiのO1:12日間の贈り物は、これまでで最も強力なモデルから始まります 12月の到着は、世界の一部の地域で雪片が世界的に減速し、雪片がもたらされますが、Openaiは始まったばかりです。 サム・アルトマンと彼のチームは12日間のギフトを立ち上げています

Google' s Gencast:Gencast Mini Demoを使用した天気予報 Google' s Gencast:Gencast Mini Demoを使用した天気予報 Mar 16, 2025 pm 01:46 PM

Google Deepmind's Gencast:天気予報のための革新的なAI 天気予報は、初歩的な観察から洗練されたAI駆動の予測に移行する劇的な変化を受けました。 Google DeepmindのGencast、グラウンドブレイク

chatgptよりも優れたAIはどれですか? chatgptよりも優れたAIはどれですか? Mar 18, 2025 pm 06:05 PM

この記事では、Lamda、Llama、GrokのようなChatGptを超えるAIモデルについて説明し、正確性、理解、業界への影響における利点を強調しています(159文字)

See all articles