


算数能力はほぼ満点!シンガポール国立大学が Goat をリリースしました。これは、わずか 70 億のパラメーターで GPT-4 を無効にし、最初は 16 桁の乗算と除算をサポートします。
大規模な言語モデルはさまざまな自然言語処理タスクで優れたパフォーマンスを示していますが、算術質問は依然として大きな困難であり、最も強力な GPT-4 であっても対処するのは困難です。基本的な算数の問題付き。
最近、シンガポール国立大学の研究者らは、算術専用モデル Goat を提案しました。LLaMA モデルに基づいて微調整した後、GPT よりも大幅に優れたパフォーマンスを達成しました。 4. 計算スキル。
# 論文リンク: https://arxiv.org/pdf/2305.14201.pdf
合成算術データセットを微調整することで、Goat は BIG ベンチ算術サブタスク
で最先端のパフォーマンスを達成します。 Goat 教師付き微調整のみを通じて、大量の加算および減算演算においてほぼ完璧な精度を達成することが可能であり、Bloom、OPT、GPT-NeoX などの以前のすべての事前トレーニング済み言語モデルを上回ります。ゼロサンプルの Goat-7B を達成 数ショット学習後の精度は PaLM-540 をさえ上回りました 研究者らは、Goat の優れたパフォーマンスは、LLaMA の数値に対する一貫した単語分割技術のおかげであると考えています。
大きな数の乗算や除算など、より困難なタスクを解決するために、研究者らは、算術の学習可能性に応じてタスクを分類し、基本的な算術原理を分解して非表示にする方法も提案しました。 - 複数桁の掛け算や割り算などの学習可能なタスクを一連の学習可能なタスクに分割。
包括的な実験検証の後、この記事で提案されている分解ステップにより、算術パフォーマンスを効果的に向上させることができます。
Goat-7 B は、24 GB VRAM GPU 上の LoRA を使用して効率的にトレーニングでき、他の研究者は、モデル、データセット、および Python を生成した実験を非常に簡単に繰り返すことができます。データセット このスクリプトは間もなくオープンソースになる予定です。
カウントできる言語モデル
言語モデル
LLaMAこれは、公開されているデータセットを使用して数兆のトークンでトレーニングされ、複数のベンチマークで最先端のパフォーマンスを達成する、オープンソースの事前トレーニング済み言語モデルのセットです。
以前の研究結果は、トークン化が LLM の算術能力にとって重要であることを示しています。しかし、一般的に使用されているトークン化技術では数値をうまく表現できません。たとえば、桁数が多すぎる数値は分割されてしまう可能性があります。
LLaMA は、デジタル表現の一貫性を確保するために、数値を複数のトークンに分割することを選択しました。結果に示された並外れた算術能力は、主に LLaMA の数値の一貫した分割によるものです。
実験では、Bloom、OPT、GPT-NeoX、Pythia などの他の微調整された言語モデルは、LLaMA の算術機能に匹敵することができませんでした。
算術タスクの学習可能性
以前、研究者らは中間関数を使用する理論的分析を実施しました。複合タスクを解決するための監視を行い、そのようなタスクは学習可能ではないが、単純なサブタスクの多項式に分解できることを示しました。
つまり、学習不可能な複合問題は、中間監視またはステップ連鎖 (CoT) を使用することで学習できます。
この分析に基づいて、研究者らはまず、学習可能なタスクと学習不可能なタスクを実験的に分類しました。
算術コンピューティングのコンテキストでは、学習可能なタスクとは一般に、モデルを適切にトレーニングして答えを直接生成できるタスクを指し、それによって事前に定義された数の範囲内で十分に高いレベルに達することができます。トレーニング エポック、精度。
学習不可能なタスクとは、大規模なトレーニングを行った後でも、モデルが正しく学習して直接の答えを生成することが難しいタスクです。
タスクの学習可能性の変化の背後にある正確な理由は完全には理解されていませんが、根底にあるパターンの複雑さと、完了するために必要な作業メモリのサイズに関連しているという仮説が立てられます。タスク。
研究者らは、単純化された合成システムで各タスクに合わせてモデルを微調整することで、これらのタスクの実現可能性を実験的に調べました。環境、学習能力。
#学習可能なタスクと学習不可能なタスク
課題分類の結果も人間の知覚と同じで、人間は練習することで頭の中で2つの大きな数の足し算や引き算を手計算なしで直接左(最上位桁)から右へ計算できるようになります。 (最下位桁) 最終的な数値の答えを書きます。
しかし、大きな数の掛け算と割り算を暗算で解くのは難しい課題です。
また、上記のタスクの分類結果が GPT-4 のパフォーマンスと一致していることもわかります。特に、GPT-4 は、大規模なタスクに対する直接的な回答の生成に優れています。数値の加算と減算、そしてマルチビットの乗算と除算のタスクになると精度が大幅に低下します。
GPT-4 のような強力なモデルが学習不可能なタスクを直接解決できないことは、これらのタスクに対する直接の答えを生成することが、たとえ広範なトレーニングを行った後でも非常に困難であることを示している可能性があります。
LLaMA で学習可能なタスクは、他の LLM でも学習できるとは限らないことに注意してください。
さらに、学習不可能として分類されたすべてのタスクがモデルの学習を完全に不可能にするわけではありません。
たとえば、2 桁の数値と 2 桁の数値の乗算は学習不可能なタスクとみなされますが、トレーニング セットに考えられるすべての 2 桁の乗算列挙データが含まれている場合、モデルはまだトレーニング セットをオーバーフィッティングすることで、答えを直接生成できます。
ただし、約 90% の精度を達成するには、プロセス全体で 10 エポック近くが必要です。
記事で提案されている CoT を最終的な答えの前に挿入することにより、モデルは 1 エポックのトレーニング後に 2 桁の乗算で非常に高い精度を達成できます。これは以前の研究とも一致しています。彼らは一貫して、中間監督の存在が学習プロセスを促進すると結論付けています。
#加算と減算
#これら 2 つの算術演算は、モデルの教師あり微調整を通じてのみ学習可能です。これは、直接的な数値回答を正確に生成する並外れた能力を示しています。モデルは加算データの非常に限られたサブセットでトレーニングされましたが、これは、モデルが目に見えないテスト セット、つまりモデルでほぼ完璧な精度を達成したという事実からわかります。 CoT を使用せずに算術演算の基本パターンを捉えることに成功しました。
#乗算
研究者は実験に合格し、乗算が検証されました。 n桁の数と1桁の数の掛け算は学習できますが、複数桁の掛け算は学習できません。この問題を克服するために、研究者らは、答えを生成する前に CoT を生成するように LLM を微調整することを選択し、複数桁の乗算を 5 つの学習可能なサブタスクに分割しました。
1. 抽出、自然言語命令から算術式を抽出
2. 分割、2 つの小さい方を分割 小さな数値は位の値に分割されます
##3. 分布展開に基づく展開、総和
##4. 積、各積を同時に計算##5. 加算用語ごとに、最初の 2 つの用語を追加し、残りの用語をコピーして、最終的な合計を取得します。
割り算
同様に、n 桁を 1 桁で割ることは学習できることが実験的に観察できますが、複数桁の割り算は学習できません。研究者らは、除算の遅さを改善する漸化方程式を使用して、新しい思考連鎖プロンプトを設計しました。
#主なアイデアは、剰余が除数より小さくなるまで被除数から除数の倍数を引くことです。
記事内のデザイン実験は 2 つの正の整数の加算と減算です。各正の整数には最大 16 桁が含まれており、減算演算の結果は負の数になる可能性があります。
生成されるシーケンスの最大長を制限するため、乗算の結果は 12 桁以内の正の整数となり、2 つの正の整数の除算では、被除数は 12 桁未満になります。商は6桁以内です。
研究者らは、Python スクリプトを使用して、約 100 万の質問と回答のペアを生成するデータセットを合成しました。回答には、提案された CoT と最終的な数値出力が含まれており、これらはすべてランダムでした。これにより、インスタンスが重複する確率は非常に低いことが保証されますが、小さな数が複数回サンプリングされる可能性があります。
微調整
モデルが指示に基づいて算術問題を解決できるようにし、自然言語による質問応答を容易にするため、研究者 何百もの指示テンプレートが ChatGPT を使用して生成されました。
命令調整プロセスでは、Alpaca で使用されている方法と同様に、各算術入力のトレーニング セットからテンプレートがランダムに選択され、LLaMA-7B が微調整されます。
Goat-7B は、24 GB VRAM GPU 上の LoRA を使用して微調整でき、A100 GPU で 100,000 サンプルを完了するのにわずか約 1.5 時間しかかかりません微調整し、ほぼ完璧な精度を達成します。
実験結果
GPT-4 は答えを直接生成するのに対し、Goat It は大規模な乗算と除算で Goat と GPT-4 のパフォーマンスを比較するのは不公平に思えます。はデザイン思考の連鎖に依存しているため、GPT-4 を評価する際には、各プロンプトの最後に「Solve it step by step」と追加されます
#ただし、GPT-4 は場合によっては、長い乗算と除算の中間ステップが間違っているにもかかわらず、最終的な答えは依然として正しいことがわかります。これは、GPT-4 が思考を使用していないことを意味します 中間監視最終出力を向上させるためにチェーンを調整します。
最後に、GPT-4 ソリューションから次の 3 つの一般的なエラーが特定されました:
1. 対応する番号の配置
2. 繰り返される数字
3. n 桁と 1 桁を乗算した中間結果は間違っています
から実験結果から、GPT-4 は 8D 8D および 16D 16D タスクで非常に良好に実行することがわかりますが、直感的には 16D 8D の方が 16D 16D easy よりも相対的に優れているはずですが、ほとんどの 16D 8D タスクの計算結果は間違っています。
この正確な原因は不明ですが、考えられる要因の 1 つは、GPT-4 の数値トークン化プロセスに一貫性がなく、2 つの数値の間の位置合わせが困難になっている可能性があります。
以上が算数能力はほぼ満点!シンガポール国立大学が Goat をリリースしました。これは、わずか 70 億のパラメーターで GPT-4 を無効にし、最初は 16 桁の乗算と除算をサポートします。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニング コストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか?」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

AI は確かに数学を変えつつあります。最近、この問題に細心の注意を払っている陶哲軒氏が『米国数学協会会報』(米国数学協会会報)の最新号を送ってくれた。 「機械は数学を変えるのか?」というテーマを中心に、多くの数学者が意見を述べ、そのプロセス全体は火花に満ち、ハードコアで刺激的でした。著者には、フィールズ賞受賞者のアクシャイ・ベンカテシュ氏、中国の数学者鄭楽軍氏、ニューヨーク大学のコンピューター科学者アーネスト・デイビス氏、その他業界で著名な学者を含む強力な顔ぶれが揃っている。 AI の世界は劇的に変化しています。これらの記事の多くは 1 年前に投稿されたものです。

Google が推進する JAX のパフォーマンスは、最近のベンチマーク テストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル 最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー(テスラの4680バッテリー)を次のように分類します:公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング:今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジム ファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

目標検出は自動運転システムにおいて比較的成熟した問題であり、その中でも歩行者検出は最も初期に導入されたアルゴリズムの 1 つです。ほとんどの論文では非常に包括的な研究が行われています。ただし、サラウンドビューに魚眼カメラを使用した距離認識については、あまり研究されていません。放射状の歪みが大きいため、標準のバウンディング ボックス表現を魚眼カメラに実装するのは困難です。上記の説明を軽減するために、拡張バウンディング ボックス、楕円、および一般的な多角形の設計を極/角度表現に探索し、これらの表現を分析するためのインスタンス セグメンテーション mIOU メトリックを定義します。提案された多角形モデルの FisheyeDetNet は、他のモデルよりも優れたパフォーマンスを示し、同時に自動運転用の Valeo 魚眼カメラ データセットで 49.5% の mAP を達成しました。

FP8 以下の浮動小数点数値化精度は、もはや H100 の「特許」ではありません。 Lao Huang は誰もが INT8/INT4 を使用できるようにしたいと考え、Microsoft DeepSpeed チームは NVIDIA からの公式サポートなしで A100 上で FP6 の実行を開始しました。テスト結果は、A100 での新しい方式 TC-FPx の FP6 量子化が INT4 に近いか、場合によってはそれよりも高速であり、後者よりも精度が高いことを示しています。これに加えて、エンドツーエンドの大規模モデルのサポートもあり、オープンソース化され、DeepSpeed などの深層学習推論フレームワークに統合されています。この結果は、大規模モデルの高速化にも即座に影響します。このフレームワークでは、シングル カードを使用して Llama を実行すると、スループットはデュアル カードのスループットの 2.65 倍になります。 1つ
