目次
RoPE に基づく大規模モデルは
あと 3 つ
ホームページ テクノロジー周辺機器 AI アルパカファミリーの大型モデルが一斉に進化! 32k コンテキストは GPT-4 に相当し、Tian Yuandong のチームによって作成されました

アルパカファミリーの大型モデルが一斉に進化! 32k コンテキストは GPT-4 に相当し、Tian Yuandong のチームによって作成されました

Jun 28, 2023 pm 10:06 PM
大型モデル アルパカの家族 集団進化

オープンソース アルパカ ラージ モデル LLaMA コンテキストは GPT-4 と同等ですが、簡単な変更が 1 つだけあります。

Meta AI によって提出されたばかりのこの論文は、LLaMA コンテキスト ウィンドウが 2k から 32k に拡張された後、必要な微調整ステップは 1000 未満のみであることを示しています。

コストは、事前トレーニングに比べてごくわずかです。

アルパカファミリーの大型モデルが一斉に進化! 32k コンテキストは GPT-4 に相当し、Tian Yuandong のチームによって作成されました

コンテキスト ウィンドウを拡大するということは、AI の「作業記憶」容量が増加することを意味します。具体的には、次のことが可能になります。

  • より多くの対話をサポートします。 、より安定したロールプレイングなど、忘れ物を減らします。
  • 長い文書や複数の文書を一度に処理するなど、より複雑なタスクを完了するには、より多くの情報を入力します。

さらに重要な意味問題は、LLaMA に基づくすべての大規模なアルパカ モデル ファミリがこの方法を低コストで採用し、集合的に進化できるかということです。

Yangtuo は現在最も包括的なオープンソースの基本モデルであり、完全にオープンソースの商用利用可能な大規模モデルや垂直産業モデルを多数派生させています。

アルパカファミリーの大型モデルが一斉に進化! 32k コンテキストは GPT-4 に相当し、Tian Yuandong のチームによって作成されました

# この論文の責任著者である Tian Yuandong 氏も、友人の輪の中でこの新たな展開を興奮して共有しました。

アルパカファミリーの大型モデルが一斉に進化! 32k コンテキストは GPT-4 に相当し、Tian Yuandong のチームによって作成されました

RoPE に基づく大規模モデルは

新しい方法は位置補間 (Position Interpolation) と呼ばれ、RoPE を使用する大規模モデルに適しています (回転位置エンコーディング)全モデルに適用。

RoPE は、2021 年には Zhuiyi Technology チームによって提案され、現在では大規模モデルで最も一般的な位置エンコード方式の 1 つになりました。

アルパカファミリーの大型モデルが一斉に進化! 32k コンテキストは GPT-4 に相当し、Tian Yuandong のチームによって作成されました

しかし、このアーキテクチャ下で外挿を直接使用してコンテキスト ウィンドウを拡張すると、セルフ アテンション メカニズムが完全に破壊されます。

具体的には、事前トレーニングされたコンテキストの長さを超える部分により、モデルの複雑さがトレーニングされていないモデルと同じレベルまで上昇します。

新しい方法は、位置インデックスを線形に減少させ、前後の位置インデックスと相対距離の範囲の調整を拡大するように変更されました。

アルパカファミリーの大型モデルが一斉に進化! 32k コンテキストは GPT-4 に相当し、Tian Yuandong のチームによって作成されました

# 2 つの違いを表現するには、画像を使用する方が直感的です。

アルパカファミリーの大型モデルが一斉に進化! 32k コンテキストは GPT-4 に相当し、Tian Yuandong のチームによって作成されました

実験結果は、新しい方法が 7B から 65B までの LLaMA 大型モデルに有効であることを示しています。

ロング シーケンス言語モデリング、パスキーの取得、および長いドキュメントの要約では、大幅なパフォーマンスの低下はありません。

アルパカファミリーの大型モデルが一斉に進化! 32k コンテキストは GPT-4 に相当し、Tian Yuandong のチームによって作成されました

#実験に加えて、新しい方法の詳細な証明も論文の付録に記載されています。

アルパカファミリーの大型モデルが一斉に進化! 32k コンテキストは GPT-4 に相当し、Tian Yuandong のチームによって作成されました

あと 3 つ

コンテキスト ウィンドウは、オープン ソースの大規模モデルと商用の大規模モデルとの間の重要なギャップでした。

たとえば、OpenAI の GPT-3.5 は最大 16k、GPT-4 は 32k、AnthropicAI の Claude は最大 100k をサポートします。

同時に、LLaMA や Falcon などの多くの大規模なオープンソース モデルは依然として 2k で止まっています。

今、Meta AI の新しい成果は、このギャップを直接埋めました。

コンテキスト ウィンドウの拡張も、最近の大規模モデル研究の焦点の 1 つであり、位置補間手法に加えて、業界の注目を集めるための多くの試みが行われています。

1. 開発者 kaiokendev は、技術ブログで LLaMa コンテキスト ウィンドウを 8K に拡張する方法を検討しました。

アルパカファミリーの大型モデルが一斉に進化! 32k コンテキストは GPT-4 に相当し、Tian Yuandong のチームによって作成されました

2. データ セキュリティ会社 Soveren の機械学習責任者である Galina Alperovich 氏は、コンテキスト ウィンドウを拡張するための 6 つのヒントを記事にまとめました。

アルパカファミリーの大型モデルが一斉に進化! 32k コンテキストは GPT-4 に相当し、Tian Yuandong のチームによって作成されました

3. Mila、IBM、およびその他の機関のチームも、論文の中で Transformer の位置エンコーディングを完全に削除しようとしました。

アルパカファミリーの大型モデルが一斉に進化! 32k コンテキストは GPT-4 に相当し、Tian Yuandong のチームによって作成されました

必要な友人は、下のリンクをクリックして表示できます~

メタ ペーパー: https://www.php.cn/link / 0bdf2c1f053650715e1f0c725d754b96

コンテキストの拡張は困難ですが、不可能ではありませんhttps://www.php.cn/link/9659078925b57e621eb3f9ef19773ac3

背後にある Secret Sauce コンテキスト ウィンドウLLM で 100K https://www.php.cn/link/09a630e07af043e4cae879dd60db1cac

ポジションレス コーディング ペーパーhttps://www.php.cn/link/fb6c84779f12283a81d739d8f088fc12

以上がアルパカファミリーの大型モデルが一斉に進化! 32k コンテキストは GPT-4 に相当し、Tian Yuandong のチームによって作成されましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

ビッグモデルアプリ Tencent Yuanbao がオンラインになりました! Hunyuan がアップグレードされ、どこにでも持ち運べるオールラウンドな AI アシスタントが作成されました ビッグモデルアプリ Tencent Yuanbao がオンラインになりました! Hunyuan がアップグレードされ、どこにでも持ち運べるオールラウンドな AI アシスタントが作成されました Jun 09, 2024 pm 10:38 PM

5月30日、TencentはHunyuanモデルの包括的なアップグレードを発表し、Hunyuanモデルに基づくアプリ「Tencent Yuanbao」が正式にリリースされ、AppleおよびAndroidアプリストアからダウンロードできるようになりました。前のテスト段階のフンユアン アプレット バージョンと比較して、Tencent Yuanbao は、日常生活シナリオ向けの AI 検索、AI サマリー、AI ライティングなどのコア機能を提供し、Yuanbao のゲームプレイもより豊富で、複数の機能を提供します。 、パーソナルエージェントの作成などの新しいゲームプレイ方法が追加されます。 Tencent Cloud 副社長で Tencent Hunyuan 大型モデルの責任者である Liu Yuhong 氏は、「テンセントは、最初に大型モデルを開発しようとはしません。」と述べました。 Tencent Hunyuan の大型モデルは、ビジネス シナリオにおける豊富で大規模なポーランド テクノロジーを活用しながら、ユーザーの真のニーズを洞察します。

Bytedance Beanbao 大型モデルがリリース、Volcano Engine フルスタック AI サービスが企業のインテリジェントな変革を支援 Bytedance Beanbao 大型モデルがリリース、Volcano Engine フルスタック AI サービスが企業のインテリジェントな変革を支援 Jun 05, 2024 pm 07:59 PM

Volcano Engine の社長である Tan Dai 氏は、大規模モデルを実装したい企業は、モデルの有効性、推論コスト、実装の難易度という 3 つの重要な課題に直面していると述べました。複雑な問題を解決するためのサポートとして、適切な基本的な大規模モデルが必要です。また、サービスは低コストの推論を備えているため、大規模なモデルを広く使用できるようになり、企業がシナリオを実装できるようにするためには、より多くのツール、プラットフォーム、アプリケーションが必要になります。 ——Huoshan Engine 01 社長、Tan Dai 氏。大きなビーンバッグ モデルがデビューし、頻繁に使用されています。モデル効果を磨き上げることは、AI の実装における最も重要な課題です。 Tan Dai 氏は、良いモデルは大量に使用することでのみ磨かれると指摘しました。現在、Doubao モデルは毎日 1,200 億トークンのテキストを処理し、3,000 万枚の画像を生成しています。企業による大規模モデルシナリオの実装を支援するために、バイトダンスが独自に開発した豆包大規模モデルが火山を通じて打ち上げられます。

NVIDIA の大規模モデル推論フレームワークを明らかにする: TensorRT-LLM NVIDIA の大規模モデル推論フレームワークを明らかにする: TensorRT-LLM Feb 01, 2024 pm 05:24 PM

1. TensorRT-LLM の製品位置付け TensorRT-LLM は、NVIDIA が開発した大規模言語モデル (LLM) 向けのスケーラブルな推論ソリューションです。 TensorRT 深層学習コンパイル フレームワークに基づいて計算グラフを構築、コンパイル、実行し、FastTransformer の効率的なカーネル実装を利用します。さらに、デバイス間の通信には NCCL を利用します。開発者は、カットラスに基づいてカスタマイズされた GEMM を開発するなど、技術開発や需要の違いに基づいて特定のニーズを満たすためにオペレーターをカスタマイズできます。 TensorRT-LLM は、NVIDIA の公式推論ソリューションであり、高いパフォーマンスを提供し、実用性を継続的に向上させることに尽力しています。 TensorRT-LL

Shengteng AI テクノロジーを使用した秦嶺・秦川交通モデルは、西安のスマート交通イノベーション センターの構築を支援します Shengteng AI テクノロジーを使用した秦嶺・秦川交通モデルは、西安のスマート交通イノベーション センターの構築を支援します Oct 15, 2023 am 08:17 AM

「高度な複雑性、高度な断片化、およびクロスドメイン」は、輸送業界のデジタル化およびインテリジェントなアップグレードに向かう上で常に主要な問題点でした。最近、チャイナビジョン、西安雁塔区政府、西安未来人工知能コンピューティングセンターが共同で構築したパラメータースケール1000億の「秦嶺・秦川交通モデル」は、スマート交通・交通分野を指向している。西安とその周辺地域にサービスを提供しており、この地域はスマート交通イノベーションの拠点となるでしょう。 「秦嶺・秦川交通モデル」は、オープンシナリオにおける西安の膨大な地元交通生態データ、中国科学ビジョンが自社開発したオリジナルの高度なアルゴリズム、そして西安未来人工知能コンピューティングセンターのShengteng AIの強力なコンピューティング能力を組み合わせたものです。道路網の監視を提供するため、緊急指令、メンテナンス管理、公共交通機関などのスマートな交通シナリオは、デジタルでインテリジェントな変化をもたらします。交通管理には都市ごとに異なる特徴があり、道路の交通状況も異なります。

GPT-4をベンチマーク!中国移動の九天大型モデルが二重登録を通過 GPT-4をベンチマーク!中国移動の九天大型モデルが二重登録を通過 Apr 04, 2024 am 09:31 AM

4月4日のニュースによると、中国サイバースペース局は最近、登録された大型モデルのリストを発表し、その中にチャイナモバイルの「九天自然言語インタラクション大型モデル」が含まれており、チャイナモバイルの九天AI大型モデルが生成人工言語を正式に提供できることを示した。外部世界への諜報機関。チャイナモバイルは、これは中央企業が開発した初めての大規模モデルであり、国家の「生成人工知能サービス登録」と「国内深層合成サービスアルゴリズム登録」の二重登録を通過したと述べた。報告によると、Juiutian の自然言語インタラクション大規模モデルは、強化された業界能力、セキュリティ、信頼性の特徴を持ち、フルスタック ローカリゼーションをサポートしており、90 億、139 億、570 億、1000 億などのさまざまなパラメータ バージョンを形成しており、クラウド、エッジ、エンドでは状況が異なりますが、柔軟に導入できます。

新しいテストベンチマークがリリース、最も強力なオープンソースのLlama 3が困惑 新しいテストベンチマークがリリース、最も強力なオープンソースのLlama 3が困惑 Apr 23, 2024 pm 12:13 PM

テストの問題が簡単すぎると、上位の生徒も下位の生徒も 90 点を獲得でき、その差は広がりません。Claude3、Llama3、さらには GPT-5 などのより強力なモデルが後にリリースされるため、業界はより困難で差別化されたモデルのベンチマークが緊急に必要です。大型モデルアリーナの背後にある組織 LMSYS は、次世代ベンチマーク Arena-Hard を発表し、広く注目を集めました。 Llama3 命令の 2 つの微調整されたバージョンの強度に関する最新のリファレンスもあります。全員が同様のスコアを持っていた以前の MTBench と比較すると、アリーナとハードの識別は 22.6% から 87.4% に増加し、一目で強くも弱くもなりました。 Arena-Hard は、アリーナからのリアルタイムの人間データを使用して構築されており、人間の好みとの一致率は 89.1% です。

産業ナレッジグラフの高度な実践 産業ナレッジグラフの高度な実践 Jun 13, 2024 am 11:59 AM

1. 背景の紹介 まず、Yunwen Technology の開発の歴史を紹介します。 Yunwen Technology Company ...2023 年は大規模モデルが普及する時期であり、多くの企業は大規模モデルの後、グラフの重要性が大幅に低下し、以前に検討されたプリセット情報システムはもはや重要ではないと考えています。しかし、RAG の推進とデータ ガバナンスの普及により、より効率的なデータ ガバナンスと高品質のデータが民営化された大規模モデルの有効性を向上させるための重要な前提条件であることがわかり、ますます多くの企業が注目し始めています。知識構築関連コンテンツへ。これにより、知識の構築と処理がより高いレベルに促進され、探索できる技術や方法が数多く存在します。新しいテクノロジーの出現によってすべての古いテクノロジーが打ち破られるわけではなく、新旧のテクノロジーが統合される可能性があることがわかります。

Xiaomi Byteが力を合わせます! Xiao Ai の Doubao へのアクセスの大規模モデル: 携帯電話と SU7 にすでにインストールされています Xiaomi Byteが力を合わせます! Xiao Ai の Doubao へのアクセスの大規模モデル: 携帯電話と SU7 にすでにインストールされています Jun 13, 2024 pm 05:11 PM

6月13日のニュースによると、Byteの「Volcano Engine」公開アカウントによると、Xiaomiの人工知能アシスタント「Xiao Ai」はVolcano Engineとの協力に達し、両社はbeanbao大型モデルに基づいて、よりインテリジェントなAIインタラクティブ体験を実現するとのこと。 。 ByteDance が作成した大規模な豆包モデルは、毎日最大 1,200 億のテキスト トークンを効率的に処理し、3,000 万個のコンテンツを生成できると報告されています。 Xiaomi は、Doubao 大型モデルを使用して、独自モデルの学習能力と推論能力を向上させ、ユーザーのニーズをより正確に把握するだけでなく、より速い応答速度とより包括的なコンテンツ サービスを提供する新しい「Xiao Ai Classmate」を作成しました。たとえば、ユーザーが複雑な科学的概念について質問する場合、&ldq

See all articles