


最後に、誰かが小規模モデルの過学習を調査しました。その 3 分の 2 でデータ汚染が発生し、Microsoft Phi-3 と Mixtral 8x22B が命名されました。
大規模な言語モデルの推論機能を向上させることは、現在の研究の最も重要な方向性の 1 つであり、この種のタスクでは、最近リリースされた多くの小規模なモデルが良好に機能しているようです。そして、この種のタスクをうまく処理できる。たとえば、Microsoft の Phi-3、Mistral 8x22B などのモデルです。
研究者らは、大規模モデル研究の現在の分野には重要な問題があると指摘しました。それは、多くの研究が既存の LLM の機能を正確にベンチマークできていないということです。これは、現在の LLM 機能レベルの評価とテストにもっと時間を費やす必要があることを示唆しています。
これは、現在の研究のほとんどが GSM8k、MATH、MBPP、HumanEval、SWEBench およびその他のテスト セットをベンチマークとして使用しているためです。モデルはインターネットから収集された大規模なデータ セットでトレーニングされるため、トレーニング データ セットにはベンチマークの質問に非常に類似したサンプルが含まれる可能性があります。
この種の汚染により、モデルの推論能力が誤って評価される可能性があります - 彼らは、トレーニング プロセス中に単に質問に混乱し、たまたま正しい答えを暗唱した可能性があります。
たった今、Scale AI による論文で、 OpenAI の GPT-4、Gemini、Claude、Mistral、Llama、Phi、Abdin を含む最も人気のある大規模モデルの詳細な調査が実施されました。 他のシリーズでパラメータ量が異なるモデル。
テスト結果は、多くのモデルがベンチマーク データによって汚染されているという広く広まった疑惑を裏付けました。
- 論文のタイトル: 小学校の算数における大規模言語モデルのパフォーマンスの慎重な検査
論文リンク: https://arxiv.org/pdf/2405.00332
データ汚染の問題を回避するために、Scale AI の研究者は LLM やその他の合成データ ソースを一切使用しませんでした。 GSM1k データセットは、人間によるアノテーションに完全に依存して作成されました。 GSM8k と同様に、GSM1k には初級レベルの数学の問題が 1,250 問含まれています。公平なベンチマーク テストを保証するために、研究者は GSM1k の難易度分布が GSM8k と同様になるように最善を尽くしてきました。研究者らは GSM1k に関して、一連の主要なオープンソースおよびクローズドソースの大規模言語モデルのベンチマークを実施し、最もパフォーマンスの悪いモデルのパフォーマンスが GSM8k よりも GSM1k で 13% 低いことを発見しました。
特に、少量かつ高品質で知られる Mistral および Phi モデル シリーズは、GSM1k のテスト結果によると、ほぼすべてのバージョンで一貫した過学習の証拠が示されています。しかし、Gemini、GPT、Claude、Llama2 シリーズは適合する兆候をほとんど示していません。 さらに、最も過剰適合したモデルを含むすべてのモデルは、ベースライン データで示されるよりも成功率が低い場合もありましたが、新しい小学校の算数の問題に正常に一般化することができました。
GSM1k データセット
GSM1k には、小学校の算数の問題が 1,250 問含まれています。これらの問題は、基本的な数学的推論だけで解決できます。 Scale AI は、各ヒューマン アノテーターに GSM8k からの 3 つのサンプル質問を示し、同様の難易度の新しい質問をするよう求め、結果として GSM1k データセットが作成されました。 研究者らはヒューマン・アノテーターに対し、高度な数学的概念を一切使用せず、基本的な算術 (加算、減算、乗算、除算) のみを使用して質問を作成するよう求めました。 GSM8k と同様、すべての問題に対する解は正の整数です。 GSM1k データセットの構築には言語モデルは使用されませんでした。
GSM1k データセットのデータ汚染問題を回避するために、Scale AI は現時点ではデータセットを一般公開しませんが、GSM1k 評価フレームワークをオープンソースとして公開します。 EleutherAI の LM 評価ハーネスに基づいています。
しかし、Scale AI は、次の 2 つの条件のいずれかに達した後、完全な GSM1k データセットを MIT ライセンスの下でリリースすると約束します: (1) 異なる事前トレーニング ベースに基づいた 3 つのデータセットがある オープンソースモデル系統のモデルは、2025 年末までに GSM1k で 95% の精度に達します。その時点で、小学校の算数は LLM のパフォーマンスを評価するための有効なベンチマークではなくなる可能性があります。
独自のモデルを評価するために、研究者は API 経由でデータセットを公開します。このリリース アプローチの理由は、LLM ベンダーは通常、モデル モデルのトレーニングに API データ ポイントを使用しないと著者が考えているためです。それにもかかわらず、GSM1k データが API を通じて漏洩した場合、論文の著者は最終的な GSM1k データ セットに含まれないデータ ポイントも保持していることになり、これらのバックアップ データ ポイントは、上記の条件が満たされた場合に GSM1k とともにリリースされます。
彼らは、将来のベンチマーク リリースも同様のパターンに従うことを望んでいます。最初は公開せず、将来の日付、または改ざんを防ぐ特定の条件が満たされたときにリリースすることを事前に約束します。
さらに、Scale AI は GSM8k と GSM1k の間で最大限の一貫性を確保するよう努めています。 ただし、GSM8k のテスト セットは公開されており、モデルのテストに広く使用されているため、GSM1k と GSM8k は理想的な条件下での近似値にすぎません。 GSM8k と GSM1k の分布が完全に一致していない場合、次の評価結果が得られます。
評価結果
モデルを評価するために、研究者らは EleutherAI の LM 評価ハーネス ブランチを使用し、デフォルト設定を使用しました。 GSM8k 問題と GSM1k 問題の実行プロンプトは同じです。GSM8k トレーニング セットから 5 つのサンプルがランダムに選択されます。これは、このフィールドの標準構成でもあります (完全なプロンプト情報については、付録 B を参照してください)。
すべてのオープンソース モデルは、再現性を確保するために温度 0 で評価されます。 LM 評価キットは、応答内の最後の数値回答を抽出し、それを正しい回答と比較します。したがって、サンプルと一致しない形式で「正しい」回答を生成するモデル回答は、不正解としてマークされます。
オープンソース モデルの場合、モデルがライブラリと互換性がある場合、vLLM を使用してモデル推論が高速化されます。そうでない場合は、デフォルトで標準の HuggingFace ライブラリが推論に使用されます。クローズドソース モデルは、評価されるすべての独自モデルの API 呼び出し形式を統一する LiteLLM ライブラリを介してクエリされます。すべての API モデルの結果は、2024 年 4 月 16 日から 4 月 28 日までのクエリからのものであり、デフォルト設定が使用されます。
評価するモデルに関しては、人気に基づいて選択し、OpenLLMLeaderboard で上位にランクされているあまり知られていないモデルもいくつか評価しました。
興味深いことに、研究者らはその過程でグッドハートの法則の証拠を発見しました。多くのモデルは、GSM8k よりも GSM1k でのパフォーマンスがはるかに悪く、モデル推論機能を真に向上させるのではなく、主に GSM8k ベンチマークに対応していることを示しています。すべてのモデルのパフォーマンスを以下の付録 D に示します。
公平な比較を行うために、研究者はGSM8kでのパフォーマンスに応じてモデルを分割し、他のモデルと比較しました。同様に動作するモデルを比較しました (図 5、図 6、図 7)。
#
どのような結論が導き出されましたか?
研究者らは、複数のモデルの客観的な評価結果を提供しましたが、評価結果の解釈は、夢の解釈と同様に、非常に主観的な作業であることが多いとも述べています。論文の最後の部分では、上記の評価の 4 つの影響について、より主観的な方法で詳しく説明しています。単一のデータ ポイントまたはモデル バージョンから結論を引き出すことは多くの場合困難ですが、モデルのファミリーを調べて過剰適合のパターンを観察すると、より決定的なステートメントを得ることができます。 Phi や Mistral などの一部のモデル ファミリでは、ほぼすべてのモデル バージョンとサイズにおいて、GSM1k よりも GSM8k の方がシステム パフォーマンスが向上する傾向が見られます。 Yi、Xwin、Gemma、CodeLlama などの他のモデル ファミリも、程度は低いですが、このパターンを示します。
結論 2: 他のモデル、特に最先端のモデルには、過学習の兆候は見られません。
多くのモデルは、すべてのパフォーマンス領域で小さな過学習を示します。特に、独自の Mistral Large を含むすべての主要モデルまたはほぼ主要モデルは、GSM8k と GSM1k で同様に動作するようです。この点に関して、研究者らは 2 つの考えられる仮説を提案しています。 1) フロンティア モデルは十分に高度な推論機能を備えているため、たとえ GSM8k 問題がトレーニング セットにすでに現れていたとしても、フロンティア モデルは新しい問題に一般化することができます。データの汚染にはもっと注意してください。
各モデルのトレーニング セットを調べてこれらの仮定を判断することは不可能ですが、前者を裏付ける証拠の 1 つは、Mistral Large が Mistral シリーズの中で過学習の兆候を示さない唯一のモデルであるということです。 Mistral がその最大のモデルにデータ汚染がないことを保証するだけであるという仮定は考えにくいようです。そのため研究者らは、十分に強力な LLM がトレーニング中に基本的な推論機能も学習することを支持しています。モデルが特定の難易度の問題を解決するのに十分な推論を学習すると、トレーニング セットに GSM8k が存在する場合でも、新しい問題に一般化できるようになります。
結論 3: 過学習モデルには依然として推論能力があるモデルの過学習に関する多くの研究者の懸念の 1 つは、モデルが推論を実行できないことです。訓練データの答えを記憶しますが、この論文の結果はこの仮説を支持しません。モデルが過剰適合しているという事実は、その推論能力が低いことを意味するのではなく、単にベンチマークが示すほど良くないことを意味します。実際、研究者らは、多くの過適合モデルが依然として推論して新しい問題を解決できることを発見しました。たとえば、
Phi-3 の精度は GSM8k と GSM1k の間でほぼ 10% 低下しましたが、それでも GSM1k の問題の 68% 以上を正確に解決しました。これらの問題は、確かにトレーニング配布には現れませんでした。このパフォーマンスは、約 35 倍のパラメーターを含む dbrx-instruct などのより大きなモデルと同等です。同様に、過剰適合を考慮しても、Mistral モデルは依然として最も強力なオープンソース モデルの 1 つです。 これは、ベンチマーク データが誤ってトレーニング分布に漏れた場合でも、十分に強力なモデルは基本的な推論を学習できるという、この記事の結論に対するさらなる証拠を提供します (これはほとんどの過適合モデルで発生する可能性が高いです)。
結論 4: データ汚染は過学習の完全な説明ではない可能性があります先験的かつ自然な仮説は、過学習の主な原因はデータ汚染であるということです。たとえば、テスト セットは、モデル作成の事前トレーニングまたは命令の微調整部分でリークされます。以前の研究では、モデルがトレーニング中に見たデータに高い対数尤度を割り当てることが示されています (Carlini et al. [2023])。研究者らは、モデルがGSM8kテストセットからサンプルを生成する確率を測定し、GSM8kおよびGSM1kと比較して過学習の程度を比較することにより、データの汚染が過学習の原因であるという仮説を検証しました。
# 研究者らは、データ汚染がすべての原因ではない可能性があると述べています。彼らはこれをいくつかの外れ値で観察しました。これらの外れ値を詳しく見てみると、文字あたりの対数尤度が最も低いモデル (Mixtral-8x22b) と文字あたりの対数尤度が最も高いモデル (Mixtral-8x22b-Instruct) が、同じモデルの単なるバリアントではないことがわかります。同様の程度の過学習があります。さらに興味深いことに、最も過学習されたモデル (Math-Shepherd-Mistral-7B-RL (Yu et al. [2023])) は、文字あたりの対数尤度が比較的低くなります (合成データを使用した Math Shepherd プロセスレベルのデータで報酬モデルをトレーニングする) )。
したがって、研究者らは、たとえ問題自体がデータセットに現れなかったとしても、報酬モデリングプロセスが GSM8k の正しい推論チェーンに関する情報を漏洩した可能性があると仮説を立てました。最終的に、Llema モデルの対数尤度が高く、過学習が最小限であることがわかりました。これらのモデルはオープンソースであり、そのトレーニング データが既知であるため、Llema の論文で説明されているように、GSM8k 問題のいくつかのインスタンスがトレーニング コーパスに表示されます。しかし、著者らは、これらの少数の例では深刻な過剰適合が引き起こされないことを発見しました。これらの外れ値の存在は、GSM8k での過剰適合が純粋にデータの汚染によるものではなく、モデル ビルダーがベースラインと同様の特性を持つデータをトレーニング データとして収集したり、モデルのパフォーマンスに基づいたりするなど、他の間接的な手段によって引き起こされている可能性があることを示唆しています。モデル自体がトレーニング中のどの時点でも GSM8k データセットを認識していなかったとしても、ベンチマークはモデルの最終チェックポイントを選択します。逆もまた真で、少量のデータ汚染が必ずしも過学習につながるわけではありません。
研究の詳細については、元の論文を参照してください。
以上が最後に、誰かが小規模モデルの過学習を調査しました。その 3 分の 2 でデータ汚染が発生し、Microsoft Phi-3 と Mixtral 8x22B が命名されました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











でももしかしたら公園の老人には勝てないかもしれない?パリオリンピックの真っ最中で、卓球が注目を集めています。同時に、ロボットは卓球のプレーにも新たな進歩をもたらしました。先ほど、DeepMind は、卓球競技において人間のアマチュア選手のレベルに到達できる初の学習ロボット エージェントを提案しました。論文のアドレス: https://arxiv.org/pdf/2408.03906 DeepMind ロボットは卓球でどれくらい優れていますか?おそらく人間のアマチュアプレーヤーと同等です: フォアハンドとバックハンドの両方: 相手はさまざまなプレースタイルを使用しますが、ロボットもそれに耐えることができます: さまざまなスピンでサーブを受ける: ただし、ゲームの激しさはそれほど激しくないようです公園の老人。ロボット、卓球用

もうすぐ学校が始まり、新学期を迎える生徒だけでなく、大型AIモデルも気を付けなければなりません。少し前、レディットはクロードが怠け者になったと不満を漏らすネチズンでいっぱいだった。 「レベルが大幅に低下し、頻繁に停止し、出力も非常に短くなりました。リリースの最初の週は、4 ページの文書全体を一度に翻訳できましたが、今では 0.5 ページの出力さえできません」 !」 https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ というタイトルの投稿で、「クロードには完全に失望しました」という内容でいっぱいだった。

8月21日、2024年世界ロボット会議が北京で盛大に開催された。 SenseTimeのホームロボットブランド「Yuanluobot SenseRobot」は、全製品ファミリーを発表し、最近、世界初の家庭用チェスロボットとなるYuanluobot AIチェスプレイロボット - Chess Professional Edition(以下、「Yuanluobot SenseRobot」という)をリリースした。家。 Yuanluobo の 3 番目のチェス対局ロボット製品である新しい Guxiang ロボットは、AI およびエンジニアリング機械において多くの特別な技術アップグレードと革新を経て、初めて 3 次元のチェスの駒を拾う機能を実現しました。家庭用ロボットの機械的な爪を通して、チェスの対局、全員でのチェスの対局、記譜のレビューなどの人間と機械の機能を実行します。

北京で開催中の世界ロボット会議では、人型ロボットの展示が絶対的な注目となっているスターダストインテリジェントのブースでは、AIロボットアシスタントS1がダルシマー、武道、書道の3大パフォーマンスを披露した。文武両道を備えた 1 つの展示エリアには、多くの専門的な聴衆とメディアが集まりました。弾性ストリングのエレガントな演奏により、S1 は、スピード、強さ、正確さを備えた繊細な操作と絶対的なコントロールを発揮します。 CCTVニュースは、「書道」の背後にある模倣学習とインテリジェント制御に関する特別レポートを実施し、同社の創設者ライ・ジエ氏は、滑らかな動きの背後にあるハードウェア側が最高の力制御と最も人間らしい身体指標(速度、負荷)を追求していると説明した。など)、AI側では人の実際の動きのデータが収集され、強い状況に遭遇したときにロボットがより強くなり、急速に進化することを学習することができます。そしてアジャイル

ビジョンとロボット学習の緊密な統合。最近話題の1X人型ロボットNEOと合わせて、2つのロボットハンドがスムーズに連携して服をたたむ、お茶を入れる、靴を詰めるといった動作をしていると、いよいよロボットの時代が到来するのではないかと感じられるかもしれません。実際、これらの滑らかな動きは、高度なロボット技術 + 精緻なフレーム設計 + マルチモーダル大型モデルの成果です。有用なロボットは多くの場合、環境との複雑かつ絶妙な相互作用を必要とし、環境は空間領域および時間領域の制約として表現できることがわかっています。たとえば、ロボットにお茶を注いでもらいたい場合、ロボットはまずティーポットのハンドルを掴んで、お茶をこぼさないように垂直に保ち、次にポットの口がカップの口と揃うまでスムーズに動かす必要があります。 、そしてティーポットを一定の角度に傾けます。これ

貢献者はこの ACL カンファレンスから多くのことを学びました。 6日間のACL2024がタイのバンコクで開催されています。 ACL は、計算言語学と自然言語処理の分野におけるトップの国際会議で、国際計算言語学協会が主催し、毎年開催されます。 ACL は NLP 分野における学術的影響力において常に第一位にランクされており、CCF-A 推奨会議でもあります。今年の ACL カンファレンスは 62 回目であり、NLP 分野における 400 以上の最先端の作品が寄せられました。昨日の午後、カンファレンスは最優秀論文およびその他の賞を発表しました。今回の優秀論文賞は7件(未発表2件)、最優秀テーマ論文賞1件、優秀論文賞35件です。このカンファレンスでは、3 つの Resource Paper Award (ResourceAward) と Social Impact Award (

今日の午後、Hongmeng Zhixingは新しいブランドと新車を正式に歓迎しました。 8月6日、ファーウェイはHongmeng Smart Xingxing S9およびファーウェイのフルシナリオ新製品発表カンファレンスを開催し、パノラマスマートフラッグシップセダンXiangjie S9、新しいM7ProおよびHuawei novaFlip、MatePad Pro 12.2インチ、新しいMatePad Air、Huawei Bisheng Withを発表しました。レーザー プリンタ X1 シリーズ、FreeBuds6i、WATCHFIT3、スマート スクリーン S5Pro など、スマート トラベル、スマート オフィスからスマート ウェアに至るまで、多くの新しいオールシナリオ スマート製品を開発し、ファーウェイは消費者にスマートな体験を提供するフル シナリオのスマート エコシステムを構築し続けています。すべてのインターネット。宏孟志興氏:スマートカー業界のアップグレードを促進するための徹底的な権限付与 ファーウェイは中国の自動車業界パートナーと提携して、

人工知能は想像を超えるスピードで発展しています。 GPT-4 がマルチモーダル技術を一般に公開して以来、マルチモーダル大型モデルは急速な開発段階に入り、純粋なモデルの研究開発から垂直分野での探査と応用へと徐々に移行し、あらゆる分野に深く統合されています。インターフェイス インタラクションの分野では、Google や Apple などの国際的なテクノロジー大手が、携帯電話 AI 革命を前進させる唯一の方法とみなされている大規模なマルチモーダル UI モデルの研究開発に投資してきました。このような状況の中で、中国初の大規模UIモデルが誕生しました。 8月17日、国際エクスペリエンスデザインカンファレンス「IXDC2024」において、AI時代のデザインツールであるMotiffは、独自開発したUIマルチモーダルモデル「Motiff Model」を発表した。世界初のUIデザインツールです
