目次
評価結果
ホームページ テクノロジー周辺機器 AI パラメータがほぼ半分であるため、パフォーマンスは Google Minerva に近く、別の大規模な数学モデルはオープンソースです

パラメータがほぼ半分であるため、パフォーマンスは Google Minerva に近く、別の大規模な数学モデルはオープンソースです

Oct 21, 2023 pm 02:13 PM
モデル 電車

現在、さまざまなテキスト混合データでトレーニングされた言語モデルは、非常に一般的な言語理解および生成機能を示し、さまざまなアプリケーションに適応する基本モデルとして使用できます。オープン ダイアログや指示追跡などのアプリケーションでは、自然テキスト配布全体にわたってバランスの取れたパフォーマンスが必要なため、汎用モデルが好まれます。

ただし、特定のドメイン (医療、金融、科学など) 内でパフォーマンスを最大化したい場合は、特定の計算コストでドメイン固有の言語モデルを利用できる場合があります。機能を提供したり、より低い計算コストで特定のレベルの機能を提供したりできます。

プリンストン大学、EleutherAI などの研究者は、数学的問題を解決するためにドメイン固有の言語モデルをトレーニングしました。彼らは次のように考えています: 第一に、数学的問題を解決するには、大量の専門的な事前知識とのパターン マッチングが必要であるため、ドメイン適応性のトレーニングには理想的な環境です。第二に、数学的推論自体が AI の中核的なタスクであり、最後に、実行する能力です。強力な数学的推論 言語モデルは、報酬モデリング、推論強化学習、アルゴリズム推論など、多くの研究トピックの上流にあります。

したがって、彼らは、Proof-Pile-2 の継続的な事前トレーニングを通じて言語モデルを数学に適応させる方法を提案しています。 Proof-Pile-2 は、数学関連のテキストとコードを組み合わせたものです。このアプローチを Code Llama に適用すると、数学的機能が大幅に向上した 7B および 34B の基本言語モデルである LLEMMA が作成されます。

パラメータがほぼ半分であるため、パフォーマンスは Google Minerva に近く、別の大規模な数学モデルはオープンソースです

論文アドレス: https://arxiv.org/pdf/2310.10631.pdf

#プロジェクト アドレス: https://github.com/EleutherAI/math-lm

LLEMMA 7B の 4 ショット Math パフォーマンスは Google Minerva 8B をはるかに上回り、LLEMMA 34B はパフォーマンスはミネルバ 62B に近く、パラメーターはほぼ半分です。

パラメータがほぼ半分であるため、パフォーマンスは Google Minerva に近く、別の大規模な数学モデルはオープンソースです

具体的には、この記事の貢献は次のとおりです:

  • 1. トレーニング済みLLEMMA モデル: 数学専用の 7B および 34B 言語モデルを公開しました。 LLEMMA モデルは、MATH で公開されている最先端の基本モデルです。
  • 2. 特に数学に関連する 11B コード トークンを含むデータセットである AlgebraicStack をリリースしました。
  • 3. LLEMMA は、Python インタプリタと形式的定理証明器という計算ツールを使用して数学的問題を解決できることが実証されています。
  • 4. 以前の数学言語モデル (ミネルバなど) とは異なり、LLEMMA モデルはオープンエンドです。研究者らはトレーニング データとコードを一般に公開しました。これにより、LLEMMA は数学的推論における将来の研究のためのプラットフォームになります。

メソッドの概要

LLEMMA は、数学に特化した 70B および 34B 言語モデルです。これは、Proof-Pile-2 でコード Llama の事前トレーニングを継続することによって取得されます。


パラメータがほぼ半分であるため、パフォーマンスは Google Minerva に近く、別の大規模な数学モデルはオープンソースです

#データ: プルーフパイル-2

研究者らは、科学論文、数学を含むネットワーク データ、数学コードを組み合わせた 550 億トークンである Proof-Pile-2 を作成しました。 Proof-Pile-2 のナレッジ期限は、リーン プルーフステップ サブセットを除き、2023 年 4 月です。

パラメータがほぼ半分であるため、パフォーマンスは Google Minerva に近く、別の大規模な数学モデルはオープンソースです

数値シミュレーション、コンピューター代数システム、形式定理証明器などの計算ツールは、数学者にとってますます重要になっています。そこで研究者らは、数値数学、記号数学、形式数学をカバーする 17 言語のソース コードを含む 11B トークン データ セットである AlgebraicStack を作成しました。データセットは、スタック、GitHub パブリック リポジトリ、および正式な証明ステップ データからのフィルタリングされたコードで構成されます。表 9 は、AlgebraicStack の各言語のトークン数を示しています。

パラメータがほぼ半分であるため、パフォーマンスは Google Minerva に近く、別の大規模な数学モデルはオープンソースです

AlgebraicStack 内の各言語のトークンの数。

研究者らは、数学的コンテンツをフィルター処理した高品質の Web ページで構成される 15B トークン データセットである OpenWebMath を使用しました。 OpenWebMath は、数学関連のキーワードと分類子ベースの数学スコアに基づいて CommonCrawl Web ページをフィルタリングし、数学フォーマット (LATEX、AsciiMath など) を保持し、追加の品質フィルター (プレキシティ、ドメイン、長さなど) とほぼ重複を含みます。

これに加えて、研究者らは、LLaMA トレーニング データセットのオープン レンディションである RedPajama の ArXiv サブセットも使用しました。 ArXiv サブセットには 29B チャンクが含まれています。トレーニング混合物は少量の一般的なドメイン データで構成され、正則化機能として機能します。 LLaMA 2 の事前トレーニング データセットはまだ公開されていないため、研究者らは代替トレーニング データセットとして Pile を使用しました。

モデルとトレーニング

各モデルは Code Llama から初期化され、さらに Code Llama 2 から初期化されます。デコンダのみのトランスフォーマ構造を使用し、500B コード トークンでトレーニングされます。研究者らは、標準的な自己回帰言語モデリング目標を使用して、Proof-Pile-2 で Code Llama モデルのトレーニングを続けました。ここで、LLEMMA 7B モデルには 200B トークンがあり、LLEMMA 34B モデルには 50B トークンがあります。

研究者らは、GPT-NeoX ライブラリを使用して、256 個の A100 40GB GPU 上で bfloat16 混合精度で上記 2 つのモデルをトレーニングしました。彼らは、LLEMMA-7B にはワールド サイズ 2 のテンソル並列処理を、34B にはワールド サイズ 8 のテンソル並列処理を使用しました。また、データ並列レプリカ全体で ZeRO Stage 1 シャード オプティマイザーの状態を使用しました。 Flash アテンション 2 は、スループットを向上させ、メモリ要件をさらに削減するためにも使用されます。

LLEMMA 7B は、42,000 ステップ、グローバル バッチ サイズ 400 万トークン、コンテキスト長 4096 トークンでトレーニングされています。これは、A100 の 23,000 時間に相当します。学習率は 500 ステップ後に 1·10^−4 まで上昇し、48,000 ステップ後には最大学習率の 1/30 まで余弦的に減衰します。

LLEMMA 34B は 12,000 ステップでトレーニングされており、グローバル バッチ サイズも 400 万トークン、コンテキストの長さは 4096 です。これは、A100 の 47,000 時間に相当します。学習率は 500 ステップ後に 5・10^−5 まで上昇し、その後ピーク学習率の 1/30 まで減衰します。

評価結果

実験部分では、研究者はLLEMMAが数学テキストの基本モデルとして使用できるかどうかを評価することを目的としました。彼らは、LLEMMA モデルを比較するために少数ショット評価を利用し、数学的タスクの教師ありサンプルで微調整されていない SOTA モデルに主に焦点を当てています。

研究者らはまず、思考連鎖推論と多数決法を使用して、LLEMMA の数学的問題を解決する能力を評価しました。評価ベンチマークには、MATH と GSM8k が含まれていました。次に、少数ショット ツールの使用と定理の証明を検討します。最後に、メモリとデータの混合の影響について研究します。

思考連鎖 (CoT) を使用して数学の問題を解決する

これらのタスクには、LATEX または自然言語で表現される問題が含まれます外部ツールを使用せずに、独立したテキストの回答を生成します。研究者が使用する評価ベンチマークには、MATH、GSM8k、OCWCourses、SAT、MMLU-STEM などがあります。

結果は以下の表 1 に示されています。Proof-Pile-2 コーパスに対する LLEMMA の継続的な事前トレーニングにより、5 つの数学的ベンチマークにおける少数サンプルのパフォーマンスが向上しました。その中で、LLEMMA 34B は向上しました。 GSM8k では、MATH では Code Llama より 20 パーセント ポイント高く、MATH では Code Llama より 13 パーセント ポイント高くなります。同時に、LLEMMA 7B は独自の Minerva モデルを上回りました。

したがって、研究者らは、Proof-Pile-2 での継続的な事前トレーニングが、事前トレーニングされたモデルの数学的問題を解決する能力の向上に役立つ可能性があると結論付けました。

パラメータがほぼ半分であるため、パフォーマンスは Google Minerva に近く、別の大規模な数学モデルはオープンソースです

#ツールを使用して数学の問題を解決する

これらのタスクには、問題を解決するための計算ツールの使用が含まれます。研究者が使用する評価ベンチマークには、MATH Python や GSM8k Python などがあります。

結果を以下の表 3 に示します。LLEMMA は両方のタスクで Code Llama よりも優れています。両方のツールを使用した場合の MATH および GSM8k のパフォーマンスも、ツールを使用しない場合よりも優れています。

パラメータがほぼ半分であるため、パフォーマンスは Google Minerva に近く、別の大規模な数学モデルはオープンソースです

形式数学

Proof-Pile-2 の AlgebraicStack データセットには、Lean と Isabelle から抽出された形式的な証明を含む、形式的な数学データの 15 億トークンが保持されています。形式数学の完全な研究はこの記事の範囲を超えていますが、次の 2 つのタスクで LLEMMA の数ショットのパフォーマンスを評価します。

パラメータがほぼ半分であるため、パフォーマンスは Google Minerva に近く、別の大規模な数学モデルはオープンソースです

非公式証明タスクから公式証明タスクへ、つまり、公式命題、非公式 LATEX 命題、および非公式 LATEX が与えられた場合証明 この場合、形式的な証明を生成します;

形式間の証明タスクは、一連の証明ステップ (または戦略) を生成することによって形式的な命題を証明することです。

結果は以下の表 4 に示されており、LLEMMA の Proof-Pile-2 での継続的な事前トレーニングにより、2 つの形式的定理証明タスクにおける少数サンプルのパフォーマンスが向上しました。

データ混合の影響

言語モデルをトレーニングするときの一般的なアプローチは、データの高品質のサブセットがアップサンプリングされます。研究者らは、慎重に選択したいくつかのブレンド ウェイトに対して短いトレーニングを実行することで、ブレンド ウェイトを選択しました。次に、高品質の提示されたテキストのセット (ここでは MATH トレーニング セットが使用されました) の混乱を最小限に抑える混合重みが選択されました。

以下の表 5 は、arXiv、Web、コードなどのさまざまなデータ混合でトレーニングした後のモデルの MATH トレーニング セットの複雑さを示しています。

パラメータがほぼ半分であるため、パフォーマンスは Google Minerva に近く、別の大規模な数学モデルはオープンソースです

#技術的な詳細と評価結果については、原著論文を参照してください。

以上がパラメータがほぼ半分であるため、パフォーマンスは Google Minerva に近く、別の大規模な数学モデルはオープンソースですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

オープンソース!ゾーイデプスを超えて! DepthFM: 高速かつ正確な単眼深度推定! オープンソース!ゾーイデプスを超えて! DepthFM: 高速かつ正確な単眼深度推定! Apr 03, 2024 pm 12:04 PM

0.この記事は何をするのですか?私たちは、多用途かつ高速な最先端の生成単眼深度推定モデルである DepthFM を提案します。従来の深度推定タスクに加えて、DepthFM は深度修復などの下流タスクでも最先端の機能を実証します。 DepthFM は効率的で、いくつかの推論ステップ内で深度マップを合成できます。この作品について一緒に読みましょう〜 1. 論文情報タイトル: DepthFM: FastMonocularDepthEstimationwithFlowMatching 著者: MingGui、JohannesS.Fischer、UlrichPrestel、PingchuanMa、Dmytr

世界で最も強力なオープンソース MoE モデルが登場。GPT-4 に匹敵する中国語機能を備え、価格は GPT-4-Turbo のわずか 1% 近くです 世界で最も強力なオープンソース MoE モデルが登場。GPT-4 に匹敵する中国語機能を備え、価格は GPT-4-Turbo のわずか 1% 近くです May 07, 2024 pm 04:13 PM

従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニング コストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

AI が数学研究を破壊する!フィールズ賞受賞者で中国系アメリカ人の数学者が上位 11 件の論文を主導 | テレンス・タオが「いいね!」しました AI が数学研究を破壊する!フィールズ賞受賞者で中国系アメリカ人の数学者が上位 11 件の論文を主導 | テレンス・タオが「いいね!」しました Apr 09, 2024 am 11:52 AM

AI は確かに数学を変えつつあります。最近、この問題に細心の注意を払っている陶哲軒氏が『米国数学協会会報』(米国数学協会会報)の最新号を送ってくれた。 「機械は数学を変えるのか?」というテーマを中心に、多くの数学者が意見を述べ、そのプロセス全体は火花に満ち、ハードコアで刺激的でした。著者には、フィールズ賞受賞者のアクシャイ・ベンカテシュ氏、中国の数学者鄭楽軍氏、ニューヨーク大学のコンピューター科学者アーネスト・デイビス氏、その他業界で著名な学者を含む強力な顔ぶれが揃っている。 AI の世界は劇的に変化しています。これらの記事の多くは 1 年前に投稿されたものです。

こんにちは、電気アトラスです!ボストン・ダイナミクスのロボットが復活、180度の奇妙な動きにマスク氏も恐怖 こんにちは、電気アトラスです!ボストン・ダイナミクスのロボットが復活、180度の奇妙な動きにマスク氏も恐怖 Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか?」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

MLP に代わる KAN は、オープンソース プロジェクトによって畳み込みまで拡張されました MLP に代わる KAN は、オープンソース プロジェクトによって畳み込みまで拡張されました Jun 01, 2024 pm 10:03 PM

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

超知性の生命力が覚醒する!しかし、自己更新 AI の登場により、母親はデータのボトルネックを心配する必要がなくなりました。 超知性の生命力が覚醒する!しかし、自己更新 AI の登場により、母親はデータのボトルネックを心配する必要がなくなりました。 Apr 29, 2024 pm 06:55 PM

世界は狂ったように大きなモデルを構築していますが、インターネット上のデータだけではまったく不十分です。このトレーニング モデルは「ハンガー ゲーム」のようであり、世界中の AI 研究者は、データを貪欲に食べる人たちにどのように餌を与えるかを心配しています。この問題は、マルチモーダル タスクで特に顕著です。何もできなかった当時、中国人民大学学部のスタートアップチームは、独自の新しいモデルを使用して、中国で初めて「モデル生成データフィード自体」を実現しました。さらに、これは理解側と生成側の 2 つの側面からのアプローチであり、両方の側で高品質のマルチモーダルな新しいデータを生成し、モデル自体にデータのフィードバックを提供できます。モデルとは何ですか? Awaker 1.0 は、中関村フォーラムに登場したばかりの大型マルチモーダル モデルです。チームは誰ですか?ソフォンエンジン。人民大学ヒルハウス人工知能大学院の博士課程学生、ガオ・イージャオ氏によって設立されました。

Kuaishou バージョンの Sora「Ke Ling」がテスト用に公開されています。120 秒以上のビデオを生成し、物理学をより深く理解し、複雑な動きを正確にモデル化できます。 Kuaishou バージョンの Sora「Ke Ling」がテスト用に公開されています。120 秒以上のビデオを生成し、物理学をより深く理解し、複雑な動きを正確にモデル化できます。 Jun 11, 2024 am 09:51 AM

何?ズートピアは国産AIによって実現するのか?ビデオとともに公開されたのは、「Keling」と呼ばれる新しい大規模な国産ビデオ生成モデルです。 Sora も同様の技術的ルートを使用し、自社開発の技術革新を多数組み合わせて、大きく合理的な動きをするだけでなく、物理世界の特性をシミュレートし、強力な概念的結合能力と想像力を備えたビデオを制作します。データによると、Keling は、最大 1080p の解像度で 30fps で最大 2 分の超長時間ビデオの生成をサポートし、複数のアスペクト比をサポートします。もう 1 つの重要な点は、Keling は研究所が公開したデモやビデオ結果のデモンストレーションではなく、ショートビデオ分野のリーダーである Kuaishou が立ち上げた製品レベルのアプリケーションであるということです。さらに、主な焦点は実用的であり、白紙小切手を書かず、リリースされたらすぐにオンラインに移行することです。Ke Ling の大型モデルは Kuaiying でリリースされました。

テスラのロボットは工場で働く、マスク氏:手の自由度は今年22に達する! テスラのロボットは工場で働く、マスク氏:手の自由度は今年22に達する! May 06, 2024 pm 04:13 PM

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー(テスラの4680バッテリー)を次のように分類します:公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング:今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行​​い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジム ファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

See all articles