GPT-4 モデルアーキテクチャが流出: ハイブリッドエキスパートモデルを使用した 1.8 兆のパラメーターが含まれています-AI-php.cn

ホームページ

テクノロジー周辺機器

GPT-4 モデルアーキテクチャが流出: ハイブリッドエキスパートモデルを使用した 1.8 兆のパラメーターが含まれています

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jul 16, 2023 am 11:53 AM

openai gpt-4

GPT-4 模型架构泄露：包含 1.8 万亿参数、采用混合专家模型

7月13日のニュースによると、海外メディアのセミアナリシスは最近、OpenAIが今年3月にリリースしたGPT-4大規模モデルを明らかにしました。これにはGPT-4モデルのアーキテクチャ、トレーニング、および特定のパラメータと情報（推論インフラストラクチャ、パラメータ量、トレーニングデータセット、トークン数、コスト、専門家の混合モデル）。

GPT-4 模型架构泄露：包含 1.8 万亿参数、采用混合专家模型

▲ 画像ソース半分析

外国メディアは、GPT-4 には 120 層で合計 1 兆 8000 億のパラメーターが含まれているのに対し、GPT-3 にはパラメータは約 1,750 億個しかありません。コストを合理的に保つために、OpenAI はハイブリッドエキスパートモデルを使用してを構築します。

IT ホーム注: 専門家の混合は一種のニューラルネットワークです。システムは、データに基づいて複数のモデルを分離してトレーニングします。各モデルの出力後、システムはこれらのモデルを 1 つの別個のタスクに統合して出力します。。

GPT-4 模型架构泄露：包含 1.8 万亿参数、采用混合专家模型

▲ 画像ソース半分析

GPT-4 は、それぞれ 1110 100 の 16 個の混合エキスパートモデル (専門家の混合) を使用すると報告されています。百万パラメータの場合、各フォワードパスルートは 2 つのエキスパートモデルを通過します。

さらに、550 億の共有注意パラメーターがあり、13 兆のトークンを含むデータセットを使用してトレーニングされました。トークンは一意ではなく、反復回数に基づいてさらに多くのトークンとして計算されます。

GPT-4 事前トレーニングフェーズのコンテキスト長は 8k で、32k バージョンは 8k を微調整した結果です。トレーニングコストは非常に高くなります。海外メディアは、8x H100 では不可能であると述べています。 1 秒あたり 33.33 トークンを達成します。この速度により、必要な高密度パラメーターモデルが提供されるため、モデルのトレーニングには非常に高い推論コストが必要になります。H100 物理マシンの場合、1 時間あたり 1 米ドルと計算すると、1 回のトレーニングのコストは 1 米ドルと同じくらい高くなります6,300万ドル（約4億5,100万元））。

これに関して、OpenAI は、モデルのトレーニングにクラウドの A100 GPU を使用することを選択し、少し長い時間をかけて最終的なトレーニングコストを約 2,150 万米ドル (約 1 億 5,400 万元) に削減しました。トレーニングコストを削減します。コスト。

以上がGPT-4 モデルアーキテクチャが流出: ハイブリッドエキスパートモデルを使用した 1.8 兆のパラメーターが含まれていますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7494

CakePHP チュートリアル

1377

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

世界で最も強力なオープンソース MoE モデルが登場。GPT-4 に匹敵する中国語機能を備え、価格は GPT-4-Turbo のわずか 1% 近くです May 07, 2024 pm 04:13 PM

従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニングコストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

データに最適なエンベディングモデルの選択: OpenAI とオープンソースの多言語エンベディングの比較テスト Feb 26, 2024 pm 06:10 PM

OpenAI は最近、最新世代の埋め込みモデル embeddingv3 のリリースを発表しました。これは、より高い多言語パフォーマンスを備えた最もパフォーマンスの高い埋め込みモデルであると主張しています。このモデルのバッチは、小さい text-embeddings-3-small と、より強力で大きい text-embeddings-3-large の 2 つのタイプに分類されます。これらのモデルがどのように設計され、トレーニングされるかについてはほとんど情報が開示されておらず、モデルには有料 API を介してのみアクセスできます。オープンソースの組み込みモデルは数多くありますが、これらのオープンソースモデルは OpenAI のクローズドソースモデルとどう違うのでしょうか?この記事では、これらの新しいモデルのパフォーマンスをオープンソースモデルと実証的に比較します。データを作成する予定です

Spring Boot と OpenAI の出会いによる新しいプログラミングパラダイム Feb 01, 2024 pm 09:18 PM

2023年、AI技術が注目を集め、プログラミング分野を中心にさまざまな業界に大きな影響を与えています。 AI テクノロジーの重要性に対する人々の認識はますます高まっており、Spring コミュニティも例外ではありません。 GenAI (汎用人工知能) テクノロジーの継続的な進歩に伴い、AI 機能を備えたアプリケーションの作成を簡素化することが重要かつ緊急になっています。このような背景から、AI 機能アプリケーションの開発プロセスを簡素化し、シンプルかつ直観的にし、不必要な複雑さを回避することを目的とした「SpringAI」が登場しました。「SpringAI」により、開発者はAI機能を搭載したアプリケーションをより簡単に構築でき、使いやすく、操作しやすくなります。

二代目アメカ登場！彼は観客と流暢にコミュニケーションをとることができ、表情はよりリアルで、数十の言語を話すことができます。 Mar 04, 2024 am 09:10 AM

人型ロボット「アメカ」が第二世代にバージョンアップ！最近、世界移動通信会議 MWC2024 に、世界最先端のロボット Ameca が再び登場しました。会場周辺ではアメカに多くの観客が集まった。 GPT-4 の恩恵により、Ameca はさまざまな問題にリアルタイムで対応できます。「ダンスをしましょう。」感情があるかどうか尋ねると、アメカさんは非常に本物そっくりの一連の表情で答えました。ほんの数日前、Ameca を支援する英国のロボット企業である EngineeredArts は、チームの最新の開発結果をデモンストレーションしたばかりです。ビデオでは、ロボット Ameca は視覚機能を備えており、部屋全体と特定のオブジェクトを見て説明することができます。最も驚くべきことは、彼女は次のこともできるということです。

大型モデル間の1対1バトル75万ラウンド、GPT-4が優勝、Llama 3が5位にランクイン Apr 23, 2024 pm 03:28 PM

Llama3 に関しては、新しいテスト結果が発表されました。大規模モデル評価コミュニティ LMSYS は、Llama3 が 5 位にランクされ、英語カテゴリでは GPT-4 と同率 1 位にランクされました。このリストは他のベンチマークとは異なり、モデル間の 1 対 1 の戦いに基づいており、ネットワーク全体の評価者が独自の提案とスコアを作成します。最終的に、Llama3 がリストの 5 位にランクされ、GPT-4 と Claude3 Super Cup Opus の 3 つの異なるバージョンが続きました。英国のシングルリストでは、Llama3 がクロードを追い抜き、GPT-4 と並びました。この結果について、Meta の主任科学者 LeCun 氏は非常に喜び、リツイートし、

OpenAI Super Alignment チームの遺作: 2 つの大きなモデルがゲームをプレイし、出力がより理解しやすくなる Jul 19, 2024 am 01:29 AM

AIモデルによって与えられた答えがまったく理解できない場合、あなたはそれをあえて使用しますか?機械学習システムがより重要な分野で使用されるにつれて、なぜその出力を信頼できるのか、またどのような場合に信頼してはいけないのかを実証することがますます重要になっています。複雑なシステムの出力に対する信頼を得る方法の 1 つは、人間または他の信頼できるシステムが読み取れる、つまり、考えられるエラーが発生する可能性がある点まで完全に理解できる、その出力の解釈を生成することをシステムに要求することです。見つかった。たとえば、司法制度に対する信頼を築くために、裁判所に対し、決定を説明し裏付ける明確で読みやすい書面による意見を提供することを求めています。大規模な言語モデルの場合も、同様のアプローチを採用できます。ただし、このアプローチを採用する場合は、言語モデルが

Rust ベースの Zed エディターはオープンソース化されており、OpenAI と GitHub Copilot のサポートが組み込まれています Feb 01, 2024 pm 02:51 PM

著者丨コンパイル: TimAnderson丨プロデュース: Noah|51CTO Technology Stack (WeChat ID: blog51cto) Zed エディタープロジェクトはまだプレリリース段階にあり、AGPL、GPL、および Apache ライセンスの下でオープンソース化されています。このエディターは高性能と複数の AI 支援オプションを備えていますが、現在は Mac プラットフォームでのみ利用可能です。 Nathan Sobo 氏は投稿の中で、GitHub 上の Zed プロジェクトのコードベースでは、エディター部分は GPL に基づいてライセンスされ、サーバー側コンポーネントは AGPL に基づいてライセンスされ、GPUI (GPU Accelerated User) インターフェイス部分はApache2.0ライセンス。 GPUI は Zed チームによって開発された製品です

世界で最も強力なモデルが一夜にして交代し、GPT-4 時代の終わりを告げました。クロード3号は事前にGPT-5を狙撃し、1万ワードの論文を3秒で読み切るなど、人間に近い理解力を持っている。 Mar 06, 2024 pm 12:58 PM

ボリュームはクレイジー、ボリュームはクレイジー、そして大きなモデルがまた変わりました。たった今、世界で最も強力な AI モデルが一夜にして交代し、GPT-4 が祭壇から引き抜かれました。 Anthropic が Claude3 シリーズの最新モデルをリリースしました一言評価: GPT-4 を本当に粉砕します!マルチモーダルと言語能力の指標に関しては、Claude3 が勝ちます。 Anthropic 氏の言葉を借りれば、Claude3 シリーズモデルは、推論、数学、コーディング、多言語理解、視覚において新たな業界のベンチマークを設定しました。 Anthropic は、セキュリティ概念の違いを理由に OpenAI から「離反」した従業員によって設立された新興企業であり、同社の製品は繰り返し OpenAI に大きな打撃を与えてきました。今回、Claude3は大きな手術まで受けました。

See all articles

GPT-4 モデル アーキテクチャが流出: ハイブリッド エキスパート モデルを使用した 1.8 兆のパラメーターが含まれています

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

GPT-4 モデルアーキテクチャが流出: ハイブリッドエキスパートモデルを使用した 1.8 兆のパラメーターが含まれています