アルパカファミリーの大型モデルが一斉に進化！ 32k コンテキストは GPT-4 に相当し、Tian Yuandong のチームによって作成されました-AI-php.cn

RoPE に基づく大規模モデルは

あと 3 つ

ホームページ

テクノロジー周辺機器

アルパカファミリーの大型モデルが一斉に進化！ 32k コンテキストは GPT-4 に相当し、Tian Yuandong のチームによって作成されました

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 28, 2023 pm 10:06 PM

大型モデルアルパカの家族集団進化

オープンソースアルパカラージモデル LLaMA コンテキストは GPT-4 と同等ですが、簡単な変更が 1 つだけあります。

Meta AI によって提出されたばかりのこの論文は、LLaMA コンテキストウィンドウが 2k から 32k に拡張された後、必要な微調整ステップは 1000 未満のみであることを示しています。

コストは、事前トレーニングに比べてごくわずかです。

アルパカファミリーの大型モデルが一斉に進化！ 32k コンテキストは GPT-4 に相当し、Tian Yuandong のチームによって作成されました

コンテキストウィンドウを拡大するということは、AI の「作業記憶」容量が増加することを意味します。具体的には、次のことが可能になります。

より多くの対話をサポートします。、より安定したロールプレイングなど、忘れ物を減らします。
長い文書や複数の文書を一度に処理するなど、より複雑なタスクを完了するには、より多くの情報を入力します。

さらに重要な意味問題は、LLaMA に基づくすべての大規模なアルパカモデルファミリがこの方法を低コストで採用し、集合的に進化できるかということです。

Yangtuo は現在最も包括的なオープンソースの基本モデルであり、完全にオープンソースの商用利用可能な大規模モデルや垂直産業モデルを多数派生させています。

アルパカファミリーの大型モデルが一斉に進化！ 32k コンテキストは GPT-4 に相当し、Tian Yuandong のチームによって作成されました

# この論文の責任著者である Tian Yuandong 氏も、友人の輪の中でこの新たな展開を興奮して共有しました。

アルパカファミリーの大型モデルが一斉に進化！ 32k コンテキストは GPT-4 に相当し、Tian Yuandong のチームによって作成されました

RoPE に基づく大規模モデルは

新しい方法は位置補間 (Position Interpolation) と呼ばれ、RoPE を使用する大規模モデルに適しています (回転位置エンコーディング）全モデルに適用。

RoPE は、2021 年には Zhuiyi Technology チームによって提案され、現在では大規模モデルで最も一般的な位置エンコード方式の 1 つになりました。

アルパカファミリーの大型モデルが一斉に進化！ 32k コンテキストは GPT-4 に相当し、Tian Yuandong のチームによって作成されました

しかし、このアーキテクチャ下で外挿を直接使用してコンテキストウィンドウを拡張すると、セルフアテンションメカニズムが完全に破壊されます。

具体的には、事前トレーニングされたコンテキストの長さを超える部分により、モデルの複雑さがトレーニングされていないモデルと同じレベルまで上昇します。

新しい方法は、位置インデックスを線形に減少させ、前後の位置インデックスと相対距離の範囲の調整を拡大するように変更されました。

アルパカファミリーの大型モデルが一斉に進化！ 32k コンテキストは GPT-4 に相当し、Tian Yuandong のチームによって作成されました

# 2 つの違いを表現するには、画像を使用する方が直感的です。

アルパカファミリーの大型モデルが一斉に進化！ 32k コンテキストは GPT-4 に相当し、Tian Yuandong のチームによって作成されました

実験結果は、新しい方法が 7B から 65B までの LLaMA 大型モデルに有効であることを示しています。

ロングシーケンス言語モデリング、パスキーの取得、および長いドキュメントの要約では、大幅なパフォーマンスの低下はありません。

アルパカファミリーの大型モデルが一斉に進化！ 32k コンテキストは GPT-4 に相当し、Tian Yuandong のチームによって作成されました

#実験に加えて、新しい方法の詳細な証明も論文の付録に記載されています。

アルパカファミリーの大型モデルが一斉に進化！ 32k コンテキストは GPT-4 に相当し、Tian Yuandong のチームによって作成されました

あと 3 つ

コンテキストウィンドウは、オープンソースの大規模モデルと商用の大規模モデルとの間の重要なギャップでした。

たとえば、OpenAI の GPT-3.5 は最大 16k、GPT-4 は 32k、AnthropicAI の Claude は最大 100k をサポートします。

同時に、LLaMA や Falcon などの多くの大規模なオープンソースモデルは依然として 2k で止まっています。

今、Meta AI の新しい成果は、このギャップを直接埋めました。

コンテキストウィンドウの拡張も、最近の大規模モデル研究の焦点の 1 つであり、位置補間手法に加えて、業界の注目を集めるための多くの試みが行われています。

1. 開発者 kaiokendev は、技術ブログで LLaMa コンテキストウィンドウを 8K に拡張する方法を検討しました。

アルパカファミリーの大型モデルが一斉に進化！ 32k コンテキストは GPT-4 に相当し、Tian Yuandong のチームによって作成されました

2. データセキュリティ会社 Soveren の機械学習責任者である Galina Alperovich 氏は、コンテキストウィンドウを拡張するための 6 つのヒントを記事にまとめました。

アルパカファミリーの大型モデルが一斉に進化！ 32k コンテキストは GPT-4 に相当し、Tian Yuandong のチームによって作成されました

3. Mila、IBM、およびその他の機関のチームも、論文の中で Transformer の位置エンコーディングを完全に削除しようとしました。

アルパカファミリーの大型モデルが一斉に進化！ 32k コンテキストは GPT-4 に相当し、Tian Yuandong のチームによって作成されました

必要な友人は、下のリンクをクリックして表示できます~

メタペーパー: https://www.php.cn/link / 0bdf2c1f053650715e1f0c725d754b96

コンテキストの拡張は困難ですが、不可能ではありませんhttps://www.php.cn/link/9659078925b57e621eb3f9ef19773ac3

背後にある Secret Sauce コンテキストウィンドウLLM で 100K https://www.php.cn/link/09a630e07af043e4cae879dd60db1cac

ポジションレスコーディングペーパーhttps://www.php.cn/link/fb6c84779f12283a81d739d8f088fc12

以上がアルパカファミリーの大型モデルが一斉に進化！ 32k コンテキストは GPT-4 に相当し、Tian Yuandong のチームによって作成されましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

ホットツール

ホットトピック

Gmailメールのログイン入り口はどこですか？

7435

CakePHP チュートリアル

1359

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

Related knowledge

ビッグモデルアプリ Tencent Yuanbao がオンラインになりました! Hunyuan がアップグレードされ、どこにでも持ち運べるオールラウンドな AI アシスタントが作成されました Jun 09, 2024 pm 10:38 PM

5月30日、TencentはHunyuanモデルの包括的なアップグレードを発表し、Hunyuanモデルに基づくアプリ「Tencent Yuanbao」が正式にリリースされ、AppleおよびAndroidアプリストアからダウンロードできるようになりました。前のテスト段階のフンユアンアプレットバージョンと比較して、Tencent Yuanbao は、日常生活シナリオ向けの AI 検索、AI サマリー、AI ライティングなどのコア機能を提供し、Yuanbao のゲームプレイもより豊富で、複数の機能を提供します。、パーソナルエージェントの作成などの新しいゲームプレイ方法が追加されます。 Tencent Cloud 副社長で Tencent Hunyuan 大型モデルの責任者である Liu Yuhong 氏は、「テンセントは、最初に大型モデルを開発しようとはしません。」と述べました。 Tencent Hunyuan の大型モデルは、ビジネスシナリオにおける豊富で大規模なポーランドテクノロジーを活用しながら、ユーザーの真のニーズを洞察します。

Bytedance Beanbao 大型モデルがリリース、Volcano Engine フルスタック AI サービスが企業のインテリジェントな変革を支援 Jun 05, 2024 pm 07:59 PM

Volcano Engine の社長である Tan Dai 氏は、大規模モデルを実装したい企業は、モデルの有効性、推論コスト、実装の難易度という 3 つの重要な課題に直面していると述べました。複雑な問題を解決するためのサポートとして、適切な基本的な大規模モデルが必要です。また、サービスは低コストの推論を備えているため、大規模なモデルを広く使用できるようになり、企業がシナリオを実装できるようにするためには、より多くのツール、プラットフォーム、アプリケーションが必要になります。 ——Huoshan Engine 01 社長、Tan Dai 氏。大きなビーンバッグモデルがデビューし、頻繁に使用されています。モデル効果を磨き上げることは、AI の実装における最も重要な課題です。 Tan Dai 氏は、良いモデルは大量に使用することでのみ磨かれると指摘しました。現在、Doubao モデルは毎日 1,200 億トークンのテキストを処理し、3,000 万枚の画像を生成しています。企業による大規模モデルシナリオの実装を支援するために、バイトダンスが独自に開発した豆包大規模モデルが火山を通じて打ち上げられます。

NVIDIA の大規模モデル推論フレームワークを明らかにする: TensorRT-LLM Feb 01, 2024 pm 05:24 PM

1. TensorRT-LLM の製品位置付け TensorRT-LLM は、NVIDIA が開発した大規模言語モデル (LLM) 向けのスケーラブルな推論ソリューションです。 TensorRT 深層学習コンパイルフレームワークに基づいて計算グラフを構築、コンパイル、実行し、FastTransformer の効率的なカーネル実装を利用します。さらに、デバイス間の通信には NCCL を利用します。開発者は、カットラスに基づいてカスタマイズされた GEMM を開発するなど、技術開発や需要の違いに基づいて特定のニーズを満たすためにオペレーターをカスタマイズできます。 TensorRT-LLM は、NVIDIA の公式推論ソリューションであり、高いパフォーマンスを提供し、実用性を継続的に向上させることに尽力しています。 TensorRT-LL

Shengteng AI テクノロジーを使用した秦嶺・秦川交通モデルは、西安のスマート交通イノベーションセンターの構築を支援します Oct 15, 2023 am 08:17 AM

「高度な複雑性、高度な断片化、およびクロスドメイン」は、輸送業界のデジタル化およびインテリジェントなアップグレードに向かう上で常に主要な問題点でした。最近、チャイナビジョン、西安雁塔区政府、西安未来人工知能コンピューティングセンターが共同で構築したパラメータースケール1000億の「秦嶺・秦川交通モデル」は、スマート交通・交通分野を指向している。西安とその周辺地域にサービスを提供しており、この地域はスマート交通イノベーションの拠点となるでしょう。「秦嶺・秦川交通モデル」は、オープンシナリオにおける西安の膨大な地元交通生態データ、中国科学ビジョンが自社開発したオリジナルの高度なアルゴリズム、そして西安未来人工知能コンピューティングセンターのShengteng AIの強力なコンピューティング能力を組み合わせたものです。道路網の監視を提供するため、緊急指令、メンテナンス管理、公共交通機関などのスマートな交通シナリオは、デジタルでインテリジェントな変化をもたらします。交通管理には都市ごとに異なる特徴があり、道路の交通状況も異なります。

GPT-4をベンチマーク！中国移動の九天大型モデルが二重登録を通過 Apr 04, 2024 am 09:31 AM

4月4日のニュースによると、中国サイバースペース局は最近、登録された大型モデルのリストを発表し、その中にチャイナモバイルの「九天自然言語インタラクション大型モデル」が含まれており、チャイナモバイルの九天AI大型モデルが生成人工言語を正式に提供できることを示した。外部世界への諜報機関。チャイナモバイルは、これは中央企業が開発した初めての大規模モデルであり、国家の「生成人工知能サービス登録」と「国内深層合成サービスアルゴリズム登録」の二重登録を通過したと述べた。報告によると、Juiutian の自然言語インタラクション大規模モデルは、強化された業界能力、セキュリティ、信頼性の特徴を持ち、フルスタックローカリゼーションをサポートしており、90 億、139 億、570 億、1000 億などのさまざまなパラメータバージョンを形成しており、クラウド、エッジ、エンドでは状況が異なりますが、柔軟に導入できます。

新しいテストベンチマークがリリース、最も強力なオープンソースのLlama 3が困惑 Apr 23, 2024 pm 12:13 PM

テストの問題が簡単すぎると、上位の生徒も下位の生徒も 90 点を獲得でき、その差は広がりません。Claude3、Llama3、さらには GPT-5 などのより強力なモデルが後にリリースされるため、業界はより困難で差別化されたモデルのベンチマークが緊急に必要です。大型モデルアリーナの背後にある組織 LMSYS は、次世代ベンチマーク Arena-Hard を発表し、広く注目を集めました。 Llama3 命令の 2 つの微調整されたバージョンの強度に関する最新のリファレンスもあります。全員が同様のスコアを持っていた以前の MTBench と比較すると、アリーナとハードの識別は 22.6% から 87.4% に増加し、一目で強くも弱くもなりました。 Arena-Hard は、アリーナからのリアルタイムの人間データを使用して構築されており、人間の好みとの一致率は 89.1% です。

産業ナレッジグラフの高度な実践 Jun 13, 2024 am 11:59 AM

1. 背景の紹介まず、Yunwen Technology の開発の歴史を紹介します。 Yunwen Technology Company ...2023 年は大規模モデルが普及する時期であり、多くの企業は大規模モデルの後、グラフの重要性が大幅に低下し、以前に検討されたプリセット情報システムはもはや重要ではないと考えています。しかし、RAG の推進とデータガバナンスの普及により、より効率的なデータガバナンスと高品質のデータが民営化された大規模モデルの有効性を向上させるための重要な前提条件であることがわかり、ますます多くの企業が注目し始めています。知識構築関連コンテンツへ。これにより、知識の構築と処理がより高いレベルに促進され、探索できる技術や方法が数多く存在します。新しいテクノロジーの出現によってすべての古いテクノロジーが打ち破られるわけではなく、新旧のテクノロジーが統合される可能性があることがわかります。

Xiaomi Byteが力を合わせます！ Xiao Ai の Doubao へのアクセスの大規模モデル: 携帯電話と SU7 にすでにインストールされています Jun 13, 2024 pm 05:11 PM

6月13日のニュースによると、Byteの「Volcano Engine」公開アカウントによると、Xiaomiの人工知能アシスタント「Xiao Ai」はVolcano Engineとの協力に達し、両社はbeanbao大型モデルに基づいて、よりインテリジェントなAIインタラクティブ体験を実現するとのこと。。 ByteDance が作成した大規模な豆包モデルは、毎日最大 1,200 億のテキストトークンを効率的に処理し、3,000 万個のコンテンツを生成できると報告されています。 Xiaomi は、Doubao 大型モデルを使用して、独自モデルの学習能力と推論能力を向上させ、ユーザーのニーズをより正確に把握するだけでなく、より速い応答速度とより包括的なコンテンツサービスを提供する新しい「Xiao Ai Classmate」を作成しました。たとえば、ユーザーが複雑な科学的概念について質問する場合、&ldq

See all articles

アルパカファミリーの大型モデルが一斉に進化！ 32k コンテキストは GPT-4 に相当し、Tian Yuandong のチームによって作成されました

RoPE に基づく大規模モデルは

あと 3 つ

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック