ホームページ テクノロジー周辺機器 AI 100,000 米ドル + 26 日で、1,000 億パラメータの低コスト LLM が誕生

100,000 米ドル + 26 日で、1,000 億パラメータの低コスト LLM が誕生

Sep 20, 2023 pm 03:49 PM
大型モデル 理論

デコーダ専用構造 (GPT や LLAMA シリーズ モデルなど)、エンコーダ専用構造 (BERT など)、エンコーダ デコーダ構造 (T5 など) とそのバリアント モデルを含む大規模言語モデル (LLM) )目覚ましい成功を収め、さまざまな言語処理やマルチモーダル タスクで広く使用されています。

このような成功にもかかわらず、LLM のトレーニングは非常に高価であるため、それを行う余裕のある企業はわずかです。さらに、現在の傾向は、将来的にはより大きなトレーニング データが使用されることを示しており、これにより大規模モデルの開発コストがさらに増加することになります。たとえば、LLAMA-1 トレーニングでは 1 ~ 1.4 TB のトークンが使用されますが、Llama 2 では 2 TB に達します。

LLM 開発におけるもう 1 つの重要な課題は評価です。主流の評価方法は、知識評価 (MMLU および C-Eval) と NLP タスク評価の 2 つのカテゴリに分類されます。これらの評価方法は、データ漏洩の問題がある可能性があるため、モデルの機能を正確に反映していない可能性があります。つまり、評価データセットの一部がモデルのトレーニングプロセス中に使用されている可能性があります。さらに、知識指向の評価方法は、知能レベルの評価には適切ではない可能性があります。より公平で客観的な評価方法は、LLM の知能指数 (IQ) を測定することです。これは、トレーニング データには見られない条件やコンテキストに対して LLM を一般化することです。

#成長戦略。トレーニングコストの問題を解決するために、北京知源人工知能研究所や中国科学院コンピューティング技術研究所などの多くの機関が最近、いくつかの試みを行っている。つまり、学習コストの成長戦略を通じて1000億パラメータレベルのLLMをトレーニングするというものだ。初めて。成長とは、トレーニング中のパラメーターの数が固定されず、より小さなモデルからより大きなモデルに拡張されることを意味します。

100,000 米ドル + 26 日で、1,000 億パラメータの低コスト LLM が誕生

  • 論文: https://arxiv.org/pdf/2309.03852.pdf

  • 必要書かれた内容は次のとおりです。 モデルリンク: https://huggingface.co/CofeAI/FLM-101B

図 1 は、成長戦略の典型的な 3 つのシナリオを示しています。 LLM の FLOP はそのパラメータの数にほぼ比例するため、モデル パラメータの変化曲線と X 軸の間の面積はトレーニングの計算コストを表すことができます。

100,000 米ドル + 26 日で、1,000 億パラメータの低コスト LLM が誕生


図 1 (a) は、モデルの成長を伴わない標準的なトレーニング戦略を示しています。1 (b) は、コストの 50% を節約できる線形成長戦略です。1 (c)は中程度の成長戦略であり、コストの 50% 未満を節約できます。1 (d) は急進的な成長戦略で、コストの 50% 以上を節約できます。この分析は、コンピューティング コストをできるだけ節約するには、積極的な成長戦略を採用する必要があることを示しています。

この新しい研究の成長演算子の設計は、論文「マスクされた構造成長による言語モデルの事前トレーニングの 2 倍高速化」の MSG からインスピレーションを受けています。 complete Transformer 構造の 4 つの成長次元すべてをカバーする一連の操作。さらに重要なのは、MSG は機能をしっかりと維持しながら成長できることです。したがって、小さなモデルはより小さなパラメーター検索空間で迅速に学習できますが、その知識は後続のより大きなモデルに継承される可能性があります。これにより、成長戦略では、同じかそれ以下の計算コストを使用して、より優れたパフォーマンスを達成することが可能になります。

オープンソースの FLM-101B モデル。 Zhiyuan Research Institute の研究者は、段階的な成長を通じて 1,010 億個のパラメーターを備えた LLM モデルをトレーニングし、このモデルをオープンソースとしてリリースする予定であるとも述べました。このモデルのアーキテクチャは FreeLM を進化させたものです。したがって、研究者らはこれを FLM-101B (F は Free の略) と名付けました。

#FreeLM フレームワークには 2 つの事前トレーニング目標があり、それぞれ言語シグナルと教師シグナルによって導かれます。この新しい研究では、これら 2 つの目標が共通の言語モデリング パラダイムに統合されます。

IQ 評価ベンチマーク。低コストのトレーニング パラダイムに加えて、チームは、LLM の知能指数 (IQ) 評価のための体系的なベンチマーク セットを提案するという別の貢献も行いました。

これまでの研究では、パープレキシティ レベル (PPL) 指標は生成されたテキストの品質をある程度反映できるものの、信頼できるものではないことが示されています。一方で、LLMの学習データの規模が大きすぎるため、そのモデルが単に知識データを引用しているだけなのか、本当に人間のような推論・分析・汎化能力を実現しているのかを区別することが困難です。この研究が IQ Foundation を定義するもの。一般的に使用される評価指標の一部 (英語の場合は MMLU、中国語の場合は C-Eval) は明らかに知識指向であり、モデルのインテリジェンス レベルを完全に反映することはできません。

健全性チェックのために、チームはテストを実施しました。世界的に有名な大学の 5 人のコンピューター サイエンス研究者が、C-Eval の化学テスト問題を使用して試験を受けました。ボランティアのほとんどは化学について学んだことを忘れていたため、彼らの精度はランダムな推測とほぼ同じくらい優れていたことが判明しました。したがって、専門知識を重視する評価ベンチマークは、モデルの IQ を測るには適切ではありません。

LLM の IQ を包括的に測定するために、チームは IQ の 4 つの主要な側面 (シンボル マッピング、ルール理解、パターン マイニング、アンチ干渉。

  • 言語は本質的に象徴的なものです。 LLM の知能レベルを評価するために、カテゴリ ラベルではなくシンボルを使用した研究がいくつかあります。同様に、チームはシンボリック マッピング アプローチを使用して、目に見えないコンテキストを一般化する LLM の機能をテストしました。

  • 人間の知性の重要な能力は、与えられたルールを理解し、対応するアクションを実行することです。このテスト方法は、さまざまなレベルのテストで広く使用されています。したがって、ここではルールの理解が第二のテストになります。

  • 書き直された内容: パターン マイニングはインテリジェンスの重要な部分であり、帰納と演繹が含まれます。科学の発展の歴史において、この方法は重要な役割を果たします。さらに、さまざまな競技会のテスト問題では、この解答能力が求められることがよくあります。これらの理由から、3 番目の評価指標としてパターン マイニングを選択しました。

  • 最後の非常に重要な指標は、インテリジェンスの中核機能の 1 つでもある耐干渉能力です。研究では、言語と画像の両方がノイズによって容易に妨害されることが指摘されています。これを念頭に置いて、チームは干渉耐性を最終評価基準として使用しました。

もちろん、これら 4 つの指標は、LLM IQ 評価の最終決定ではありませんが、その後の研究開発を刺激する出発点として機能し、最終的にはLLM IQ 評価フレームワークの包括的なセットにつながります。

この研究の主な貢献は次のとおりです:
  • 研究者らは、これは成長戦略を使用して、より多くのトレーニングを行う研究であると述べています。 1,000 人をゼロから、10 億のパラメータに対する LLM 研究の試み。同時に、これは現在最も低コストの 1,000 億パラメータ モデルでもあり、コストはわずか 10 万米ドルです。

  • FreeLM トレーニング目標、潜在的なハイパーパラメータ検索方法、および機能を維持した成長を改善することにより、この研究は不安定性の問題に取り組んでいます。研究者らは、この方法がより広範な科学研究コミュニティにも役立つと信じています。

  • 研究者らはまた、知識指向ベンチマークや新しく提案された系統的 IQ 評価ベンチマークの使用など、新しいモデルと以前の強力なモデルとの実験的な比較も実施しました。実験結果は、FLM-101B モデルが競争力があり堅牢であることを示しています

  • チームは、1,000億パラメータ規模の中国語と英語のバイリンガルLLMの研究開発を促進するため、モデルチェックポイント、コード、関連ツールなどをリリースします。

FLM-101B 設計の概要

FLM-101B はアーキテクチャ的に、バックボーン ネットワークとして FreeLM を使用します。そしてxPosを統合します。モデル サイズに関しては、新しい成長戦略のおかげで、研究者は 1 回のトレーニングで 16B、51B、101B の 3 サイズのモデルを取得できます。

FLM-101B は、トレーニング前の設定に関して、FreeLM のトレーニング戦略を継承しています。

成長戦略の観点からは、異なるサイズのモデルを個別にトレーニングする一般的な方法の代わりに、チームは 16B、51B、および 101B のパラメーターを使用して 3 つのモデルを順番にトレーニングできます。これらの各モデルは、その前の小さなモデルの知識を継承します。

#トレーニング ハードウェアとしては、24 台の DGX-A800 GPU (8x80G) サーバーのクラスターが使用され、FLM-101B のトレーニング時間は 26 日未満です。複数並列戦略とモデル構成については、以下の表 1 および 2 を参照してください。

100,000 米ドル + 26 日で、1,000 億パラメータの低コスト LLM が誕生

100,000 米ドル + 26 日で、1,000 億パラメータの低コスト LLM が誕生

#FLM-101B のトレーニングの安定性

損失発散や勾配爆発などの不安定な問題を解決するために、研究者らは有望な解決策を提案しました。これについては次のように簡単に説明します。
#損失予測。学習の安定性を実現するために新しく提案された方法は次のとおりです。
まず、FLM-16B 学習を開始する前にデータの分布を決定します。
次に、学習率、初期化標準偏差、出力層のソフトマックス温度を含む 3 つのハイパーパラメーターに対してグリッド検索を実行します。グリッド検索は、隠れ状態の次元 (モデル幅) 256、ヘッド数 2、およびパラメーター数 4,000 万のサロゲート モデルを実行することによって実行されます。この代理モデルの他のすべての構造ハイパーパラメーターとトレーニング データは FLM-16B と同じです。 6 ノードでのデータ並列処理を使用した場合、グリッド検索の実行には 24.6 時間かかりました。これは、24 ノード構成を使用するとおよそ 6 時間に相当します。
このグリッド検索を通じて、研究者らは最適なハイパーパラメータを発見しました: 学習率 = 4e-4、標準偏差 = 1.6e-2、ソフトマックス温度 = 2.0。
その後、これらのハイパーパラメータを µP 経由で移行して、不安定性の問題を回避するシームレスなトレーニング エクスペリエンスを実現します。 MSG を組み合わせて使用​​すると、LM-51B と FLM-101B ではその後の成長発散の問題が発生しません。
# 図 2 は、完全なトレーニング損失曲線を示しています。

Bfloat16 による混合精度。混合精度を使用する目的は、実行時のメモリと時間のコストを節約することですが、ここでは Bfloat16 を選択しました。

100,000 米ドル + 26 日で、1,000 億パラメータの低コスト LLM が誕生

ベンチマーク評価
表 3 は、FLM-101B と他のパフォーマンスの比較です。強力なベースラインモデル(LLAMAシリーズモデルおよびGLM-130B)の。

研究者らは、これらの結果はFLM-101Bが事実知識において何の利点も持たないことを示しており、より多くのトレーニングデータを使用できればそのパフォーマンスは継続すると述べています。

100,000 米ドル + 26 日で、1,000 億パラメータの低コスト LLM が誕生

#表 4 は、専門知識の評価に関する eFLM-16B とベースライン モデルの結果を示しています。

特定のトレーニング データが圧倒的な貢献をしている可能性があるため、専門知識を強調するデータセットのスコアは LLM のインテリジェンスのレベルを反映していないことが判明しました。

100,000 米ドル + 26 日で、1,000 億パラメータの低コスト LLM が誕生

#表 5 は、FLM モデルの各段階のパフォーマンスを示しています。

予想どおり、モデルが増えるにつれて FLM のパフォーマンスは向上します。 FLM-101B は、ほぼすべてのミッションで最高のパフォーマンスを発揮しました。これは、モデルが成長するたびに、前の段階からの知識が継承されることを意味します。
IQ 実験

実験では、 LLM の IQ より体系的な評価を行うために、知的財産研究所のチームは既存の IQ 関連データセットを使用し、必要な修正を加え、新しい合成データも生成しました。

具体的には、彼らが提案した IQ 評価では、シンボル マッピング、ルール理解、パターン マイニング、および耐干渉の 4 つの側面が主に考慮されています。これらのタスクには重要な共通点が 1 つあります。それは、すべてが新しいコンテキストでの推論と一般化に依存しているということです。

#次の表は、IQ 実験の結果を示しています。

100,000 米ドル + 26 日で、1,000 億パラメータの低コスト LLM が誕生

100,000 米ドル + 26 日で、1,000 億パラメータの低コスト LLM が誕生

100,000 米ドル + 26 日で、1,000 億パラメータの低コスト LLM が誕生##これらの表から、4 つの IQ 評価ベンチマークにおいて、FLM-101B は GPT-3 に匹敵し、はるかに低い計算コストで GLM-130B よりも優れた結果を達成しています。


研究者らは、トレーニング データの影響に加えて、この利点は、初期段階の小さなモデルがより小さな探索空間を洗練するためである可能性があると推測しています。モデルがさらに大きくなり、より広くなり、汎化機能が強化されても、この利点は引き続き発揮されます。

以上が100,000 米ドル + 26 日で、1,000 億パラメータの低コスト LLM が誕生の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

ビッグモデルアプリ Tencent Yuanbao がオンラインになりました! Hunyuan がアップグレードされ、どこにでも持ち運べるオールラウンドな AI アシスタントが作成されました ビッグモデルアプリ Tencent Yuanbao がオンラインになりました! Hunyuan がアップグレードされ、どこにでも持ち運べるオールラウンドな AI アシスタントが作成されました Jun 09, 2024 pm 10:38 PM

5月30日、TencentはHunyuanモデルの包括的なアップグレードを発表し、Hunyuanモデルに基づくアプリ「Tencent Yuanbao」が正式にリリースされ、AppleおよびAndroidアプリストアからダウンロードできるようになりました。前のテスト段階のフンユアン アプレット バージョンと比較して、Tencent Yuanbao は、日常生活シナリオ向けの AI 検索、AI サマリー、AI ライティングなどのコア機能を提供し、Yuanbao のゲームプレイもより豊富で、複数の機能を提供します。 、パーソナルエージェントの作成などの新しいゲームプレイ方法が追加されます。 Tencent Cloud 副社長で Tencent Hunyuan 大型モデルの責任者である Liu Yuhong 氏は、「テンセントは、最初に大型モデルを開発しようとはしません。」と述べました。 Tencent Hunyuan の大型モデルは、ビジネス シナリオにおける豊富で大規模なポーランド テクノロジーを活用しながら、ユーザーの真のニーズを洞察します。

Bytedance Beanbao 大型モデルがリリース、Volcano Engine フルスタック AI サービスが企業のインテリジェントな変革を支援 Bytedance Beanbao 大型モデルがリリース、Volcano Engine フルスタック AI サービスが企業のインテリジェントな変革を支援 Jun 05, 2024 pm 07:59 PM

Volcano Engine の社長である Tan Dai 氏は、大規模モデルを実装したい企業は、モデルの有効性、推論コスト、実装の難易度という 3 つの重要な課題に直面していると述べました。複雑な問題を解決するためのサポートとして、適切な基本的な大規模モデルが必要です。また、サービスは低コストの推論を備えているため、大規模なモデルを広く使用できるようになり、企業がシナリオを実装できるようにするためには、より多くのツール、プラットフォーム、アプリケーションが必要になります。 ——Huoshan Engine 01 社長、Tan Dai 氏。大きなビーンバッグ モデルがデビューし、頻繁に使用されています。モデル効果を磨き上げることは、AI の実装における最も重要な課題です。 Tan Dai 氏は、良いモデルは大量に使用することでのみ磨かれると指摘しました。現在、Doubao モデルは毎日 1,200 億トークンのテキストを処理し、3,000 万枚の画像を生成しています。企業による大規模モデルシナリオの実装を支援するために、バイトダンスが独自に開発した豆包大規模モデルが火山を通じて打ち上げられます。

「Defect Spectrum」は、従来の欠陥検出の限界を打ち破り、超高精度かつ豊富なセマンティックな産業用欠陥検出を初めて実現します。 「Defect Spectrum」は、従来の欠陥検出の限界を打ち破り、超高精度かつ豊富なセマンティックな産業用欠陥検出を初めて実現します。 Jul 26, 2024 pm 05:38 PM

現代の製造において、正確な欠陥検出は製品の品​​質を確保するための鍵であるだけでなく、生産効率を向上させるための核心でもあります。ただし、既存の欠陥検出データセットには、実際のアプリケーションに必要な精度や意味論的な豊富さが欠けていることが多く、その結果、モデルが特定の欠陥カテゴリや位置を識別できなくなります。この問題を解決するために、広州香港科技大学と Simou Technology で構成されるトップの研究チームは、産業欠陥に関する詳細かつ意味的に豊富な大規模なアノテーションを提供する「DefectSpectrum」データセットを革新的に開発しました。表 1 に示すように、他の産業データ セットと比較して、「DefectSpectrum」データ セットは最も多くの欠陥注釈 (5438 個の欠陥サンプル) と最も詳細な欠陥分類 (125 個の欠陥カテゴリ) を提供します。

NVIDIA 対話モデル ChatQA はバージョン 2.0 に進化し、コンテキストの長さは 128K と記載されています NVIDIA 対話モデル ChatQA はバージョン 2.0 に進化し、コンテキストの長さは 128K と記載されています Jul 26, 2024 am 08:40 AM

オープンな LLM コミュニティは百花繚乱の時代です Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1 などがご覧いただけます。優秀なパフォーマーモデル。しかし、GPT-4-Turboに代表される独自の大型モデルと比較すると、オープンモデルには依然として多くの分野で大きなギャップがあります。一般的なモデルに加えて、プログラミングと数学用の DeepSeek-Coder-V2 や視覚言語タスク用の InternVL など、主要な領域に特化したいくつかのオープン モデルが開発されています。

結晶相問題を解決するための数百万の結晶データを使用したトレーニング、深層学習手法 PhAI が Science 誌に掲載 結晶相問題を解決するための数百万の結晶データを使用したトレーニング、深層学習手法 PhAI が Science 誌に掲載 Aug 08, 2024 pm 09:22 PM

編集者 |KX 今日に至るまで、単純な金属から大きな膜タンパク質に至るまで、結晶学によって決定される構造の詳細と精度は、他のどの方法にも匹敵しません。しかし、最大の課題、いわゆる位相問題は、実験的に決定された振幅から位相情報を取得することのままです。デンマークのコペンハーゲン大学の研究者らは、結晶相の問題を解決するための PhAI と呼ばれる深層学習手法を開発しました。数百万の人工結晶構造とそれに対応する合成回折データを使用して訓練された深層学習ニューラル ネットワークは、正確な電子密度マップを生成できます。この研究では、この深層学習ベースの非経験的構造解法は、従来の非経験的計算法とは異なり、わずか 2 オングストロームの解像度で位相問題を解決できることが示されています。これは、原子解像度で利用可能なデータのわずか 10% ~ 20% に相当します。

Google AI が IMO 数学オリンピック銀メダルを獲得、数理推論モデル AlphaProof が発売、強化学習が復活 Google AI が IMO 数学オリンピック銀メダルを獲得、数理推論モデル AlphaProof が発売、強化学習が復活 Jul 26, 2024 pm 02:40 PM

AI にとって、数学オリンピックはもはや問題ではありません。木曜日、Google DeepMind の人工知能は、AI を使用して今年の国際数学オリンピック IMO の本当の問題を解決するという偉業を達成し、金メダル獲得まであと一歩のところまで迫りました。先週終了したばかりの IMO コンテストでは、代数、組合せ論、幾何学、数論を含む 6 つの問題が出題されました。 Googleが提案したハイブリッドAIシステムは4問正解で28点を獲得し、銀メダルレベルに達した。今月初め、UCLA 終身教授のテレンス・タオ氏が、100 万ドルの賞金をかけて AI 数学オリンピック (AIMO Progress Award) を宣伝したばかりだったが、予想外なことに、AI の問題解決のレベルは 7 月以前にこのレベルまで向上していた。 IMO に関する質問を同時に行うのが最も難しいのは、最も歴史が長く、規模が最も大きく、最も否定的な IMO です。

産業ナレッジグラフの高度な実践 産業ナレッジグラフの高度な実践 Jun 13, 2024 am 11:59 AM

1. 背景の紹介 まず、Yunwen Technology の開発の歴史を紹介します。 Yunwen Technology Company ...2023 年は大規模モデルが普及する時期であり、多くの企業は大規模モデルの後、グラフの重要性が大幅に低下し、以前に検討されたプリセット情報システムはもはや重要ではないと考えています。しかし、RAG の推進とデータ ガバナンスの普及により、より効率的なデータ ガバナンスと高品質のデータが民営化された大規模モデルの有効性を向上させるための重要な前提条件であることがわかり、ますます多くの企業が注目し始めています。知識構築関連コンテンツへ。これにより、知識の構築と処理がより高いレベルに促進され、探索できる技術や方法が数多く存在します。新しいテクノロジーの出現によってすべての古いテクノロジーが打ち破られるわけではなく、新旧のテクノロジーが統合される可能性があることがわかります。

自然の視点: 医療における人工知能のテストは混乱に陥っています。何をすべきでしょうか? 自然の視点: 医療における人工知能のテストは混乱に陥っています。何をすべきでしょうか? Aug 22, 2024 pm 04:37 PM

編集者 | ScienceAI 限られた臨床データに基づいて、何百もの医療アルゴリズムが承認されています。科学者たちは、誰がツールをテストすべきか、そしてどのようにテストするのが最善かについて議論しています。デビン シン氏は、救急治療室で小児患者が治療を長時間待っている間に心停止に陥るのを目撃し、待ち時間を短縮するための AI の応用を模索するようになりました。 SickKids 緊急治療室からのトリアージ データを使用して、Singh 氏らは潜在的な診断を提供し、検査を推奨する一連の AI モデルを構築しました。ある研究では、これらのモデルにより医師の診察が 22.3% 短縮され、医療検査が必要な患者 1 人あたりの結果の処理が 3 時間近く高速化できることが示されました。ただし、研究における人工知能アルゴリズムの成功は、これを証明するだけです。

See all articles