ホームページ テクノロジー周辺機器 AI 大規模不正モデルを見分ける1つのトリック、医師の弟のオープンソースAI数学「デーモンミラー」

大規模不正モデルを見分ける1つのトリック、医師の弟のオープンソースAI数学「デーモンミラー」

Nov 17, 2023 pm 12:38 PM
ai データ

現在、多くの有名モデルが数学が得意だと主張しています。本当の才能を持っているのは誰でしょうか?連続テスト問題で「カンニング」したのは誰ですか?

今年、誰かがハンガリー国立数学最終試験のために発表されたばかりの問題について包括的なテストを実施しました

多くのモデルが突然成功しました"元の形状になりました。」

大規模不正モデルを見分ける1つのトリック、医師の弟のオープンソースAI数学「デーモンミラー」

最初に緑色の部分を見てください。これらの大規模モデルは、古典的な数学テスト セット GSM8k と新しい論文で同様の結果を示しています。 一緒にそれらは参照標準 を形成します。

##赤い部分

# を見ると、GSM8K での結果は、同じパラメータ スケールを持つ大型モデルの結果よりも大幅に高くなります。到着次第 新品紙のスコアは大幅に下がり、同サイズの大型モデルとほぼ同等でした。 研究者らは、彼らを 「GSM8k でトレーニングを受けた疑いがある、または既知である」

として分類しました。

このテストを見た後、これまで見たことのない質問を評価し始めるべきだと言う人もいます。

この種のテストは、と考える人もいます。誰もが実際に大規模モデルを使用した経験が現在唯一信頼できる評価方法です

大規模不正モデルを見分ける1つのトリック、医師の弟のオープンソースAI数学「デーモンミラー」

Musk Grok は GPT-4 に次いで 2 番目であり、オープンソースの Llemma は優れた結果を示しています

テスター大規模不正モデルを見分ける1つのトリック、医師の弟のオープンソースAI数学「デーモンミラー」

Keiran Paster

はトロント大学の博士課程の学生であり、Google の学生研究者であり、テストの大規模な Lemma モデルの作成者の 1 人です。

大きなモデルにハンガリーの国立高校数学の最終試験を受けさせてください。このトリックは

Musk の xAI大規模不正モデルを見分ける1つのトリック、医師の弟のオープンソースAI数学「デーモンミラー」

から来ています。

xAI の Grok 大規模モデルがネットワーク データ内のテスト問題を誤って認識したという問題を排除するために、いくつかの一般的なテスト セットに加えて、このテストも実施されました 今年のこの試験テストは 5 月末に完了したばかりで、現在の大型モデルでは基本的にこの一連のテスト問題を見る機会がありませんでした。 #xAI は、比較のために GPT-3.5、GPT-4、および Claude 2 がリリースされたときにその結果も発表しました。

この一連のデータに基づいて、Paster はさらなるテストを実施しました。テスト オブジェクトは、強力な数学的機能を備えた複数のオープン ソース モデルでした。

およびテスト問題は、各モデルのテスト スクリプトと回答結果は、誰もが他のモデルを確認してさらにテストできるように、Huggingface

大規模不正モデルを見分ける1つのトリック、医師の弟のオープンソースAI数学「デーモンミラー」 でオープンソース化されています。

結果は、GPT-4 と Claude-2 が最初の段階を形成し、GSM8k と新しい論文で非常に高いスコアを示していることを示しています。 これは、GPT-4 と Claude 2 のトレーニング データに GSM8k のリークされた質問がないという意味ではありませんが、少なくともそれらは優れた一般化機能を備えており、新しい質問を正しく解決できるため、リークされた質問は存在しません。お手入れ。

次に、Musk xAI の Grok-0

(33B) 大規模不正モデルを見分ける1つのトリック、医師の弟のオープンソースAI数学「デーモンミラー」 と Grok-1

(未公開パラメーター スケール)

が良好なパフォーマンスを示しました。

Grok-1 は「不正行為をしないグループ」の中で最も高いスコアを持っており、彼の新しい論文のスコアは Claude 2 よりもさらに高くなっています。 GSM8k 上の Grok-0 のパフォーマンスは GPT3.5-Turbo に近く、新しい論文ではわずかに劣ります。

上記のクローズド モデルを除き、テスト内の他のモデルはすべてオープン ソースです。Code Llama シリーズ

は Meta の独自バージョンです。 Llama 2 の基本的には、自然言語に基づいてコードを生成することに重点を置いて微調整されています。

Code Llama に基づいて、多くの大学や研究機関が共同で Llemma シリーズ を立ち上げ、EleutherAI によってオープンソース化されました。 チームは、科学論文、数学を含むネットワーク データ、および数学的コードから Proof-Pile-2 データセットを収集しました。トレーニング後、Llemma はツールを使用して、それ以上の微調整を行わずに形式的な定理証明を行うことができます。

大規模不正モデルを見分ける1つのトリック、医師の弟のオープンソースAI数学「デーモンミラー」新しい論文によると、Llemma 34B のパフォーマンスは GPT-3.5 Turbo レベルに近いです

大規模不正モデルを見分ける1つのトリック、医師の弟のオープンソースAI数学「デーモンミラー」

Mistral シリーズ は、フランスの AI ユニコーンである Mistral AI によってトレーニングされています。Apache2.0 のオープンソース契約は Llama よりも緩和されており、羊 Tuo ファミリーに次いで、オープンソース コミュニティで最も人気のある基本モデル。

大規模不正モデルを見分ける1つのトリック、医師の弟のオープンソースAI数学「デーモンミラー」

##OpenChat 3.5 および MetaMath Mistral はすべてミストラル エコシステムに基づいて微調整されています。

MetaMath

および MAmmoTH Code は、Code Llama エコシステムに基づいています。 オープンソースの大規模モデルを実際のビジネスに採用することを選択する人は、このグループを避けるように注意する必要があります。なぜなら、これらのモデルはランキングを上げるためだけに優れたパフォーマンスを発揮する可能性が高いためですが、実際の機能はそれほど強力ではない可能性があります。同じスケールの他のモデル

多くのネチズンは、この実験がまさにモデルの実際の状況を理解するために必要なものであると信じて、この実験に対してパスター氏に感謝の意を表しました。 大規模不正モデルを見分ける1つのトリック、医師の弟のオープンソースAI数学「デーモンミラー」

懸念を表明した人もいます: 大規模不正モデルを見分ける1つのトリック、医師の弟のオープンソースAI数学「デーモンミラー」

この日から、大規模モデルをトレーニングする全員が、過去のハンガリーの数学試験問題を追加することになります。

同時に、解決策は、独自のテストを行う

専門の大規模モデル評価会社

# を設立することであると考えています。

#もう 1 つの提案は、過剰適合の問題を軽減するために毎年更新される

大規模不正モデルを見分ける1つのトリック、医師の弟のオープンソースAI数学「デーモンミラー」#テスト ベンチマークを確立することです。

以上が大規模不正モデルを見分ける1つのトリック、医師の弟のオープンソースAI数学「デーモンミラー」の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

node.js環境で403を返すサードパーティインターフェイスの問題を解決する方法は? node.js環境で403を返すサードパーティインターフェイスの問題を解決する方法は? Mar 31, 2025 pm 11:27 PM

node.js環境で403を返すサードパーティインターフェイスの問題を解決します。 node.jsを使用してサードパーティのインターフェイスを呼び出すと、403を返すインターフェイスから403のエラーが発生することがあります...

Laravelでは、検証コードが電子メールで送信できない状況に対処する方法は? Laravelでは、検証コードが電子メールで送信できない状況に対処する方法は? Mar 31, 2025 pm 11:48 PM

Laravelの電子メールの検証コードの送信の障害を処理する方法は、Laravelを使用することです...

システムの再起動後にUnixSocketの権限を自動的に設定する方法は? システムの再起動後にUnixSocketの権限を自動的に設定する方法は? Mar 31, 2025 pm 11:54 PM

システムが再起動した後、UnixSocketの権限を自動的に設定する方法。システムが再起動するたびに、UnixSocketの許可を変更するために次のコマンドを実行する必要があります:sudo ...

ソートを実装し、PHP 2次元アレイにランキングを追加する方法は? ソートを実装し、PHP 2次元アレイにランキングを追加する方法は? Apr 01, 2025 am 07:00 AM

PHPの2次元配列のソートとランキングの実装の詳細な説明この記事では、PHP 2次元配列を並べ替えて、ソート結果に従って各サブアレイを使用する方法を詳細に説明します。

Docker環境にPECLを使用して拡張機能をインストールするときにエラーが発生するのはなぜですか?それを解決する方法は? Docker環境にPECLを使用して拡張機能をインストールするときにエラーが発生するのはなぜですか?それを解決する方法は? Apr 01, 2025 pm 03:06 PM

エラーの原因とソリューションPECLを使用してDocker環境に拡張機能をインストールする場合、Docker環境を使用するときに、いくつかの頭痛に遭遇します...

OUYI OKEXグローバルWebサイト公式ウェブサイトログイン入り口2025 OUYI OKEXグローバルWebサイト公式ウェブサイトログイン入り口2025 Mar 31, 2025 pm 03:45 PM

OUYI OKX(以前のOKEX)Global Stationは、2017年に設立され、マルタに本社を置く世界をリードするデジタル資産サービスプラットフォームです。数千万人のユーザーがいます。このプラットフォームは、150以上の通貨のトランザクションを提供し、厳格な通貨監査メカニズムと市場監視と進捗追跡メカニズムを策定しました。 20を超える主流の法的通貨と、米ドル、ユーロ、ポンドなどの暗号通貨の取引をサポートしています。

PHPは、AESの暗号化と復号化をJavaと一致する方法をどのように実装していますか? PHPは、AESの暗号化と復号化をJavaと一致する方法をどのように実装していますか? Apr 01, 2025 am 07:15 AM

JavaでAESの暗号化と復号化を実装する方法...

Laravelで電子メールの送信が失敗したときに返品コードを取得する方法は? Laravelで電子メールの送信が失敗したときに返品コードを取得する方法は? Apr 01, 2025 pm 02:45 PM

Laravelの電子メールの送信が失敗したときに戻りコードを取得する方法。 Laravelを使用してアプリケーションを開発する場合、検証コードを送信する必要がある状況に遭遇することがよくあります。そして実際には...

See all articles