目次
AI は arXiv で 200 万件の論文を読み取ります
それは数学、物理学、化学、さらには機械学習においても万能です
参考リンク:
ホームページ テクノロジー周辺機器 AI AIがクイズになると大暴れ!ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

AIがクイズになると大暴れ!ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

Apr 11, 2023 pm 11:10 PM
ai openai mit

高校数学の試験に落ちることは、多くの人にとって悪夢です。

AIがクイズになると大暴れ!ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

高校数学のテストが AI ほど良くないと言うなら、それを受け入れるのはさらに難しいでしょうか?

はい、OpenAI の Codex は、MIT の 7 つの高度な数学コースで 81.1% の正解率を達成しました。これは、MIT の学部生にとっては十分なレベルです。

初等微積分から微分方程式、確率論、線形代数まで幅広く、計算だけでなく作図も出題されます。

AIがクイズになると大暴れ!ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

#この件は最近、Weibo でホット検索されています。

AIがクイズになると大暴れ!ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

△「たった」81点、AIへの期待が大きすぎる

さて、Googleから最新ビッグニュースが届きました :

当社の AI は数学だけでなく、理工系科目全体でも最高得点を獲得しました。

テクノロジー大手は、「AI 問題解決者」の育成において新たなレベルに到達したようです。

AIがクイズになると大暴れ!ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

最新の AI 問題作成会社である Google は 4 つの試験を受けました。

数学競技試験MATHで90点を獲得したのは過去3回のIMO金メダリストだけで、一般のコンピュータドクターは40点程度しか取れません。

他の AI の質問回答に関しては、以前の最高スコアはわずか 6.9 ポイントでした...

しかし、今回、Google の新しい AI は、コンピュータ ドクターよりも高い 50 ポイントを獲得しました。

総合試験 MMLU-STEM には数学、物理学、化学、生物学、電子工学、コンピュータ サイエンスが含まれており、問題の難易度は高校レベル、さらには大学レベルに達します。

今回も、Google AIの「完全健康版」が全質問の中で最も高いスコアを獲得し、直接的にスコアを約20ポイント引き上げた。

AIがクイズになると大暴れ!ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

小学校の算数の問題 GSM8k は直接スコアを 78 点まで上げましたが、それに比べて GPT-3 は合格していません (わずか 55 点)。

固体化学、天文学、微分方程式、特殊相対性理論などの MIT の学部および大学院コースであっても、Google の新しい AI は 200 を超える質問の 3 分の 1 近くに答えることができます。

AIがクイズになると大暴れ!ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

最も重要なことは、OpenAIが「プログラミングスキル」に依存して数学で高得点を獲得する手法とは異なり、今回のGoogle AIは「次のように考える」というアプローチをとっているということです。ルジ——

これは、暗記するだけで質問をしない文系学生のようなものですが、彼は科学と工学でより優れた問題解決スキルを習得しています。

この論文の筆頭著者である Lewkowycz 氏も、論文には書かれていないハイライトを共有していたことは言及する価値があります:

私たちのモデルは今年のポーランド数学大学入学試験、スコアは全国平均よりも高かった。

AIがクイズになると大暴れ!ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

これを見て、じっとしていられなくなる親もいます。

娘にこのことを話したら、宿題にAIを使うようになるのではないかと心配です。しかし、それを彼女に伝えなければ、彼女の将来への備えができていないことになります。

AIがクイズになると大暴れ!ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

#業界関係者の目には、算術、論理、代数をハードコーディングせずに言語モデルのみに依存してこのレベルに到達することが最も驚くべきことです。この研究の場所。

AIがクイズになると大暴れ!ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

それでは、これはどのように行われるのでしょうか?

AI は arXiv で 200 万件の論文を読み取ります

新しいモデル Minerva は、Pathway アーキテクチャーに基づく一般言語モデル PaLM に基づいています。

さらなるトレーニングは、それぞれ 80 億、600 億、5,400 億パラメータの PaLM モデルに基づいて実行されます。

ミネルバの質問に答えるアプローチは、コーデックスとはまったく異なります。

Codex の手法は、それぞれの数学の問題をプログラミングの問題に書き直し、コードを書くことで解決します。

一方、ミネルヴァは夢中になって論文を読み、数学記号を自然言語と同じように理解するよう強制しました。

PaLM に基づいてトレーニングを継続します。新しいデータ セットには 3 つの部分があります:

主に、arXiv で収集された 200 万件の学術論文、LaTeX 数式を含む 60 GB の Web ページ、および一部の小規模なデータが含まれています。 PaLM トレーニング段階で使用されるテキスト。

AIがクイズになると大暴れ!ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

通常の NLP データ クリーニング プロセスでは、すべての記号が削除され、純粋なテキストのみが保持されるため、不完全な数式が生成されます。たとえば、アインシュタインの有名な質量エネルギー方程式だけが Emc2 に残ります。

AIがクイズになると大暴れ!ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

しかし今回、Google はすべての数式を保持し、プレーンテキストと同じように Transformer トレーニング プログラムを実行したため、AI は言語を理解するのと同じように記号を理解できるようになりました。

これは、以前の言語モデルと比較して、Minerva が数学的問題でより優れたパフォーマンスを発揮する理由の 1 つです。

しかし、数学の問題を解くことに特化した AI と比較して、Minerva はトレーニングに明示的な基礎となる数学的構造を持たないため、欠点と利点が生じます。

欠点は、AI が正しい答えを得るために間違った手順を使用する可能性があることです。

利点は、さまざまな分野に適応できることです。一部の問題が正式な数学言語で表現できない場合でも、自然言語理解機能を組み合わせることで解決できます。

AI 推論段階では、Minerva は Google が最近開発したいくつかの新しいテクノロジーも組み合わせています。

1 つ目は、今年 1 月に Google Brain チームによって提案された、思考連鎖の思考リンク プロンプトです。

具体的には、質問するときに、ガイドとなる段階的な回答の例を示します。 AI は、質問に答えるときに同様の思考プロセスを使用して、他の方法では誤って答えられる質問に正しく答えることができます。

AIがクイズになると大暴れ!ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

次に、Google と MIT が共同開発した Scrathpad 手法があります。これを使用すると、AI が段階的な計算の中間結果を一時的に保存できます。

AIがクイズになると大暴れ!ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

最後に、今年 3 月にリリースされたばかりの多数決投票方法があります。

AI に同じ質問に複数回答えさせ、最も頻繁に出現した答えを選択させます。

AIがクイズになると大暴れ!ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

これらすべてのテクニックを使用した後、5,400 億のパラメータを持つ Minerva は、さまざまなテスト セットで SOTA に到達します。

Minerva の 80 億パラメータ バージョンでも、競技レベルの数学の問題や MIT オープンコースの問題では、GPT-3 の最新更新版 davinci-002 バージョンのレベルに達することができます。

AIがクイズになると大暴れ!ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

ここまで述べましたが、ミネルヴァは具体的にどのような問題を解決できるでしょうか?

Google はサンプル セットも公開していますので、見てみましょう。

それは数学、物理学、化学、さらには機械学習においても万能です

数学において、ミネルバは暴力的な問題を直接解決するのではなく、人間のように段階的に値を計算することができます。

AIがクイズになると大暴れ!ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

文章問題の場合は、自分で方程式を列挙して簡略化することができます。

AIがクイズになると大暴れ!ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

証拠を導き出すこともできます。

AIがクイズになると大暴れ!ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

物理学では、ミネルバは、中性窒素基底状態 (Z = 7) にある電子の総スピン量子数を求めるなど、大学レベルの問題を解くことができます。

AIがクイズになると大暴れ!ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

生物学や化学では、ミネルバは言語理解能力を利用して、さまざまな多肢選択式の質問に答えることもできます。

次の点突然変異の形式のうち、DNA 配列から形成されるタンパク質に悪影響を及ぼさないものはどれですか?

AIがクイズになると大暴れ!ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

次のうち、放射性元素はどれですか?

AIがクイズになると大暴れ!ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

そして天文学: なぜ地球には強い磁場があるのでしょうか?

AIがクイズになると大暴れ!ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

機械学習の観点から、「分布外サンプル検出」の具体的な意味を説明することで、この用語の別の言い方を正しく示しています。

AIがクイズになると大暴れ!ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

......

しかし、ミネルヴァは時折、方程式の両辺の√を取り消すなどの愚かな間違いを犯します。

AIがクイズになると大暴れ!ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

さらに、ミネルヴァは、次のような推論プロセスは間違っているが、結果は正しいという「偽陽性」の状況を 8% の確率で経験します。

AIがクイズになると大暴れ!ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

分析の結果、チームは主なエラー形式が計算エラーと推論エラーに起因しており、質問の意味の理解エラーに起因するものはほんの一部であることを発見しました。手順内で間違った事実を使用している場合。その他のケース。

計算エラーは、外部計算機または Python インタプリタにアクセスすることで簡単に解決できますが、ニューラル ネットワークが大きすぎるため、他の種類のエラーを調整するのは困難です。

AIがクイズになると大暴れ!ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

全体的に、Minerva のパフォーマンスは多くの人を驚かせており、コメント エリアで API の提供を求めています (残念ながら、Google にはまだ公開計画がありません)。

AIがクイズになると大暴れ!ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

一部のネチズンは、GPT-3 の問題解決精度を過去数日間で 61% 急上昇させた「なだめる」手法と相まって、その精度は依然として高いのではないかと考えていました。さらに改善できるでしょうか?

AIがクイズになると大暴れ!ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

ただし、著者の回答は、このなだめ手法はゼロサンプル学習に属し、どれほど強力であっても、少数サンプルほど優れているわけではない可能性がある、というものです。 4つの例で学びます。

AIがクイズになると大暴れ!ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

一部のネチズンは、質問ができるので、逆に使用できるのかと尋ねました。

AIがクイズになると大暴れ!ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

実際、MIT は OpenAI と提携して、AI を使用して大学生向けに質問を設定しました。

人間による質問とAIによる質問を混ぜて学生にアンケートをとりましたが、AIによる質問かどうかを誰が見ても判断することは困難でした。

AIがクイズになると大暴れ!ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

つまり、現状はAI関係者がこの論文を読むのに忙しいということ以外はありません。

学生たちは、いつか AI を使って宿題ができるようになるのを楽しみにしています。

AIがクイズになると大暴れ!ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

#教師たちも、AI を使ってテスト用紙を作成できる日を楽しみにしています。

AIがクイズになると大暴れ!ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

ペーパーアドレス: https://storage.googleapis.com/minerva-paper/minerva_paper.pdf

デモアドレス: https://minerva- demo.github.io/

関連論文: 思考の連鎖 https://arxiv.org/abs/2201.11903Scrathpads https://arxiv.org/abs/2112.00114多数決 https://arxiv.org /abs/2203.11171

参考リンク:

https://ai.googleblog.com/2022/06/minerva-solve-quantitative-reasoning.html

https: //twitter.com/bneyshabur/status/1542563148334596098

https://twitter.com/alewkowycz/status/1542559176483823622

以上がAIがクイズになると大暴れ!ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回りますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

phpmyAdminはデータテーブルを作成します phpmyAdminはデータテーブルを作成します Apr 10, 2025 pm 11:00 PM

phpMyAdminを使用してデータテーブルを作成するには、次の手順が不可欠です。データベースに接続して、[新しいタブ]をクリックします。テーブルに名前を付けて、ストレージエンジンを選択します(InnoDB推奨)。列名、データ型、null値、その他のプロパティを許可するかどうかなど、列の追加ボタンをクリックして列の詳細を追加します。一次キーとして1つ以上の列を選択します。 [保存]ボタンをクリックして、テーブルと列を作成します。

Oracleデータベースの作成方法Oracleデータベースを作成する方法 Oracleデータベースの作成方法Oracleデータベースを作成する方法 Apr 11, 2025 pm 02:33 PM

Oracleデータベースを作成するのは簡単ではありません。根本的なメカニズムを理解する必要があります。 1.データベースとOracle DBMSの概念を理解する必要があります。 2。SID、CDB(コンテナデータベース)、PDB(プラグ可能なデータベース)などのコアコンセプトをマスターします。 3。SQL*Plusを使用してCDBを作成し、PDBを作成するには、サイズ、データファイルの数、パスなどのパラメーターを指定する必要があります。 4.高度なアプリケーションは、文字セット、メモリ、その他のパラメーターを調整し、パフォーマンスチューニングを実行する必要があります。 5.ディスクスペース、アクセス許可、パラメーター設定に注意し、データベースのパフォーマンスを継続的に監視および最適化します。 それを巧みに習得することによってのみ、継続的な練習が必要であることは、Oracleデータベースの作成と管理を本当に理解できます。

Oracleデータベースの作成方法Oracleデータベースの作成方法 Oracleデータベースの作成方法Oracleデータベースの作成方法 Apr 11, 2025 pm 02:36 PM

Oracleデータベースを作成するには、一般的な方法はDBCAグラフィカルツールを使用することです。手順は次のとおりです。1。DBCAツールを使用してDBNAMEを設定してデータベース名を指定します。 2. SyspasswordとSystemPassWordを強力なパスワードに設定します。 3.文字セットとNationalCharactersetをAL32UTF8に設定します。 4.実際のニーズに応じて調整するようにMemorySizeとTableSpacesizeを設定します。 5. logfileパスを指定します。 高度な方法は、SQLコマンドを使用して手動で作成されますが、より複雑でエラーが発生しやすいです。 パスワードの強度、キャラクターセットの選択、表空間サイズ、メモリに注意してください

Oracleデータベースステートメントの作成方法 Oracleデータベースステートメントの作成方法 Apr 11, 2025 pm 02:42 PM

Oracle SQLステートメントのコアは、さまざまな条項の柔軟なアプリケーションと同様に、選択、挿入、更新、削除です。インデックスの最適化など、ステートメントの背後にある実行メカニズムを理解することが重要です。高度な使用法には、サブクエリ、接続クエリ、分析関数、およびPL/SQLが含まれます。一般的なエラーには、構文エラー、パフォーマンスの問題、およびデータの一貫性の問題が含まれます。パフォーマンス最適化のベストプラクティスには、適切なインデックスの使用、Select *の回避、条項の最適化、およびバインドされた変数の使用が含まれます。 Oracle SQLの習得には、コードライティング、デバッグ、思考、基礎となるメカニズムの理解など、練習が必要です。

mysqlデータテーブルフィールド操作ガイドの追加、変更、削除方法ガイド mysqlデータテーブルフィールド操作ガイドの追加、変更、削除方法ガイド Apr 11, 2025 pm 05:42 PM

MySQLのフィールド操作ガイド:フィールドを追加、変更、削除します。フィールドを追加:table table_nameを変更するcolumn_name data_type [not null] [default default_value] [プライマリキー] [auto_increment]フィールドの変更:column_name data_typeを変更するcolumn_name data_type [not null] [default default_value] [プライマリキー]

MySQLデータベースのネストされたクエリインスタンスの詳細な説明 MySQLデータベースのネストされたクエリインスタンスの詳細な説明 Apr 11, 2025 pm 05:48 PM

ネストされたクエリは、1つのクエリに別のクエリを含める方法です。これらは主に、複雑な条件を満たし、複数のテーブルを関連付け、要約値または統計情報を計算するデータを取得するために使用されます。例には、平均賃金を超える従業員を見つけること、特定のカテゴリの注文を見つけること、各製品の総注文量の計算が含まれます。ネストされたクエリを書くときは、サブ征服を書き、結果を外側のクエリ(エイリアスまたは条項として参照)に書き込み、クエリパフォーマンスを最適化する必要があります(インデックスを使用)。

Oracleデータベーステーブルの整合性の制約は何ですか? Oracleデータベーステーブルの整合性の制約は何ですか? Apr 11, 2025 pm 03:42 PM

Oracleデータベースの整合性の制約により、以下を含むデータの精度を確保できます。NULL:NULL値は禁止されています。一意:単一のヌル値を許可する一意性を保証します。一次キー:一次キーの制約、一意を強化し、ヌル値を禁止します。外部キー:テーブル間の関係を維持する、外部キーはプライマリテーブルのプライマリキーを参照します。チェック:条件に応じて列の値を制限します。

オラクルは何をしますか オラクルは何をしますか Apr 11, 2025 pm 06:06 PM

Oracleは、世界最大のデータベース管理システム(DBMS)ソフトウェア会社です。その主な製品には、次の機能が含まれます。リレーショナルデータベース管理システム(Oracle Database)開発ツール(Oracle Apex、Oracle Visual Builder)ミドルウェア(Oracle Weblogic Server、Oracle SOA Suite)Cloud Service(Oracle Cloud Infrastructure)Cloud ServiceおよびBusiness Intelligence(Oracle Analytics Cloud、Oracle Essbase)Blockchain(Oracle Blockchain Pla

See all articles