コンピュータが得意なことは何かと尋ねると、その答えの中で必ず数学が挙げられます。一流の学者は、長い研究期間を経て、数学的計算におけるコンピューターの発展の研究において驚くべき成果を達成しました。
たとえば、昨年、カリフォルニア大学バークレー校、OpenAI、Google の研究者は、GPT-3、DALL・E 2 などの言語モデルで大きな進歩を遂げました。開発されています。しかし、これまで言語モデルは、「アリスはボブよりも 5 個多いボールを持っており、チャーリーに 4 個のボールを与えた後、ボブは 2 個のボールを持っています。アリスにボールをいくつ持っているか尋ねてください。」のような、口頭で説明されるいくつかの単純な数学的問題を解決できませんでした。 ?" 言語モデルの場合、正しい答えを出すのは少し「難しい」かもしれません。
「コンピューターが数学に非常に優れていると言うとき、それは特定の特定の事柄に非常に優れているという意味です」と、Google の機械学習専門家であるガイ・ガー・アリ氏は述べています。コンピュータが算術演算に優れているのは事実ですが、特定のモード以外ではコンピュータは無力であり、単純なテキスト記述の質問には答えることができません。
Google 研究者のイーサン ダイアーはかつてこう言いました:「数学の研究をする人は、厳格な推論システムを持っています。彼らが知っていることと理解していないことの間には明らかなギャップがあります。」
文章問題や定量的推論の問題を解くのは、他の問題とは異なり、堅牢性と厳密性が必要なため、難しいものです。プロセスのどの段階でも間違えると、間違った答えが得られます。 DALL・E は絵を描くのが得意ですが、生成される画像は時々奇妙で、指が欠けたり、目が奇妙に見えたりします。それは誰もが受け入れることができますが、数学では間違いが発生するため、許容範囲は非常に小さくなります。 OpenAI の機械学習専門家である Vineet Kosaraju 氏も、「言語モデルによって生じる数学的エラー (10 を 10 ではなく 1 と 0 と誤解するなど) に対する私たちの許容度はまだ比較的小さいです。」とこの考えを表明しています。
# 「私たちが数学を勉強するのは、それが独立していて非常に興味深いと思うからです」と OpenAI の機械学習専門家、カール・コッベ氏は言います。機械学習モデルは、より大きなデータ サンプルでトレーニングされると、より堅牢になり、エラーが少なくなります。しかし、モデルのスケールアップは定量的推論によってのみ可能であるようです。研究者らは、言語モデルによって犯された間違いには、より的を絞ったアプローチが必要であると思われることに気づきました。
昨年、カリフォルニア大学バークレー校と OpenAI の 2 つの研究チームが、それぞれデータ セット MATH と GSM8K をリリースしました。これら 2 つのデータ セットには、何千もの幾何学、代数学、初等数学、など数学の問題。 「これがデータセットに問題があるのかどうかを確認したかったのです」と、AI セキュリティセンターの研究者で数学を専門とするスティーブン・バサート氏は言う。言語モデルは文章問題が苦手であることが知られていますが、この問題では言語モデルのパフォーマンスはどの程度悪いのでしょうか? より適切にフォーマットされた大規模なデータ セットを導入することで解決できるのでしょうか?
MATH データセットでは、トップの言語モデルは 7% の精度を達成しました。これに対し、人間の大学院生の精度は 40%、オリンピックチャンピオンの精度は 90% でした。 GSM8K データセット (小学校レベルの問題) では、モデルは 20% の精度を達成しました。実験では、OpenAI は微調整と検証という 2 つの手法を使用し、その結果、モデルが自身のエラーの多くの例を確認できることが示されました。これは貴重な発見です。
当時、GSM8K で 80% の精度を達成するには、OpenAI のモデルを 100 倍のデータでトレーニングする必要がありました。しかし今年6月、Googleは78%の精度を達成したMinervaをリリースした。この結果は予想を上回り、研究者らは予想よりも早い結果が出たと述べた。
論文アドレス: https://arxiv.org/pdf/2206.14858.pdf
Minerva は、Google が自社開発した Pathways Language Model (PaLM) に基づいており、arXiv、LaTeX、その他の数学形式を含む、より多くの数学データ セットを備えています。ミネルヴァが採用するもう 1 つの戦略は、ミネルヴァが大きな問題を小さな部分に分割する、思考の連鎖の促しです。さらに、Minerva は多数決を使用し、モデルに 1 つの答えを見つけるよう求めるのではなく、100 個の答えを見つけるように求めます。これらの答えのうち、ミネルヴァは最も一般的なものを選択します。 これらの新しい戦略から得られる利益は大きく、Minerva は MATH、GSM8K、MMLU (化学や生物学を含むより一般的なアルゴリズムのセット) で最大 50% の精度を達成しました。 STEM 問題の正解率は 80% 近くです。ミネルバに少し調整した問題をやり直すように依頼したところ、同様にうまく機能し、その能力が記憶だけから来ているわけではないことを示しました。 ミネルヴァは、奇妙で混乱を招く推論を持ちながらも、正しい答えを導き出すことができます。ミネルバのようなモデルは人間と同じ答えに到達するかもしれませんが、彼らがたどる実際のプロセスは大きく異なる可能性があります。 Google の機械学習専門家であるイーサン ダイアー氏は、「数学の世界では、何かを知っているか知らないかの間には、厳密な推論システムがあるという考えがあると思います。しかし、人々は一貫性のない答えを出し、間違いを犯し、核となる概念を適用できません。機械学習のフロンティアでは、境界があいまいです。
以上がGoogle と OpenAI の学者が AI について語る: 言語モデルは数学を「征服」するために懸命に取り組んでいるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。