ホームページ テクノロジー周辺機器 AI Google と OpenAI の学者が AI について語る: 言語モデルは数学を「征服」するために懸命に取り組んでいる

Google と OpenAI の学者が AI について語る: 言語モデルは数学を「征服」するために懸命に取り組んでいる

Apr 13, 2023 am 11:37 AM
ai 数学

コンピュータが得意なことは何かと尋ねると、その答えの中で必ず数学が挙げられます。一流の学者は、長い研究期間を経て、数学的計算におけるコンピューターの発展の研究において驚くべき成果を達成しました。

たとえば、昨年、カリフォルニア大学バークレー校、OpenAI、Google の研究者は、GPT-3、DALL・E 2 などの言語モデルで大きな進歩を遂げました。開発されています。しかし、これまで言語モデルは、「アリスはボブよりも 5 個多いボールを持っており、チャーリーに 4 個のボールを与えた後、ボブは 2 個のボールを持っています。アリスにボールをいくつ持っているか尋ねてください。」のような、口頭で説明されるいくつかの単純な数学的問題を解決できませんでした。 ?" 言語モデルの場合、正しい答えを出すのは少し「難しい」かもしれません。

「コンピューターが数学に非常に優れていると言うとき、それは特定の特定の事柄に非常に優れているという意味です」と、Google の機械学習専門家であるガイ・ガー・アリ氏は述べています。コンピュータが算術演算に優れているのは事実ですが、特定のモード以外ではコンピュータは無力であり、単純なテキスト記述の質問には答えることができません。

Google 研究者のイーサン ダイアーはかつてこう言いました:「数学の研究をする人は、厳格な推論システムを持っています。彼らが知っていることと理解していないことの間には明らかなギャップがあります。」

文章問題や定量的推論の問題を解くのは、他の問題とは異なり、堅牢性と厳密性が必要なため、難しいものです。プロセスのどの段階でも間違えると、間違った答えが得られます。 DALL・E は絵を描くのが得意ですが、生成される画像は時々奇妙で、指が欠けたり、目が奇妙に見えたりします。それは誰もが受け入れることができますが、数学では間違いが発生するため、許容範囲は非常に小さくなります。 OpenAI の機械学習専門家である Vineet Kosaraju 氏も、「言語モデルによって生じる数学的エラー (10 を 10 ではなく 1 と 0 と誤解するなど) に対する私たちの許容度はまだ比較的小さいです。」とこの考えを表明しています。

# 「私たちが数学を勉強するのは、それが独立していて非常に興味深いと思うからです」と OpenAI の機械学習専門家、カール・コッベ氏は言います。

機械学習モデルは、より大きなデータ サンプルでトレーニングされると、より堅牢になり、エラーが少なくなります。しかし、モデルのスケールアップは定量的推論によってのみ可能であるようです。研究者らは、言語モデルによって犯された間違いには、より的を絞ったアプローチが必要であると思われることに気づきました。

昨年、カリフォルニア大学バークレー校と OpenAI の 2 つの研究チームが、それぞれデータ セット MATH と GSM8K をリリースしました。これら 2 つのデータ セットには、何千もの幾何学、代数学、初等数学、など数学の問題。 「これがデータセットに問題があるのか​​どうかを確認したかったのです」と、AI セキュリティセンターの研究者で数学を専門とするスティーブン・バサート氏は言う。言語モデルは文章問題が苦手であることが知られていますが、この問題では言語モデルのパフォーマンスはどの程度悪いのでしょうか? より適切にフォーマットされた大規模なデータ セットを導入することで解決できるのでしょうか?

MATH データセットでは、トップの言語モデルは 7% の精度を達成しました。これに対し、人間の大学院生の精度は 40%、オリンピックチャンピオンの精度は 90% でした。 GSM8K データセット (小学校レベルの問題) では、モデルは 20% の精度を達成しました。実験では、OpenAI は微調整と検証という 2 つの手法を使用し、その結果、モデルが自身のエラーの多くの例を確認できることが示されました。これは貴重な発見です。

当時、GSM8K で 80% の精度を達成するには、OpenAI のモデルを 100 倍のデータでトレーニングする必要がありました。しかし今年6月、Googleは78%の精度を達成したMinervaをリリースした。この結果は予想を上回り、研究者らは予想よりも早い結果が出たと述べた。

Google と OpenAI の学者が AI について語る: 言語モデルは数学を「征服」するために懸命に取り組んでいる

論文アドレス: https://arxiv.org/pdf/2206.14858.pdf

Minerva は、Google が自社開発した Pathways Language Model (PaLM) に基づいており、arXiv、LaTeX、その他の数学形式を含む、より多くの数学データ セットを備えています。ミネルヴァが採用するもう 1 つの戦略は、ミネルヴァが大きな問題を小さな部分に分割する、思考の連鎖の促しです。さらに、Minerva は多数決を使用し、モデルに 1 つの答えを見つけるよう求めるのではなく、100 個の答えを見つけるように求めます。これらの答えのうち、ミネルヴァは最も一般的なものを選択します。

これらの新しい戦略から得られる利益は大きく、Minerva は MATH、GSM8K、MMLU (化学や生物学を含むより一般的なアルゴリズムのセット) で最大 50% の精度を達成しました。 STEM 問題の正解率は 80% 近くです。ミネルバに少し調整した問題をやり直すように依頼したところ、同様にうまく機能し、その能力が記憶だけから来ているわけではないことを示しました。

ミネルヴァは、奇妙で混乱を招く推論を持ちながらも、正しい答えを導き出すことができます。ミネルバのようなモデルは人間と同じ答えに到達するかもしれませんが、彼らがたどる実際のプロセスは大きく異なる可能性があります。

Google の機械学習専門家であるイーサン ダイアー氏は、「数学の世界では、何かを知っているか知らないかの間には、厳密な推論システムがあるという考えがあると思います。しかし、人々は一貫性のない答えを出し、間違いを犯し、核となる概念を適用できません。機械学習のフロンティアでは、境界があいまいです。

以上がGoogle と OpenAI の学者が AI について語る: 言語モデルは数学を「征服」するために懸命に取り組んでいるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Debianログを介してシステムのパフォーマンスを監視する方法 Debianログを介してシステムのパフォーマンスを監視する方法 Apr 02, 2025 am 08:00 AM

Debianシステムログ監視のマスターは、効率的な動作とメンテナンスの鍵です。システムの動作条件をタイムリーに理解し、障害をすばやく見つけ、システムのパフォーマンスを最適化するのに役立ちます。この記事では、一般的に使用されるいくつかの監視方法とツールを紹介します。 SysStat Toolkitを使用したシステムリソースの監視SysStat Toolkitは、CPUロード、メモリ使用量、ディスクI/O、ネットワークスループットなど、さまざまなシステムリソースメトリックを収集、分析、レポートするための一連の強力なコマンドラインツールを提供します。 MPSTAT:マルチコアCPUの統計。ピドスタ

Debian Syslogのトラブルシューティング方法 Debian Syslogのトラブルシューティング方法 Apr 02, 2025 am 09:00 AM

Syslog for Debian Systemsは、システム管理者が問題を診断するための重要なツールです。この記事では、一般的なSyslogの問題をトラブルシューティングするためのいくつかの手順とコマンドを提供します。1。最新のログのリアルタイム表示:Tail-F/var/log/syslog viewingカーネルログ(スタートエラーとドライバーの問題):DMESGはJournalCtl(Debian8以上、SystemD System)を使用します。 2。システムリソースの監視と表示プロセスとリソースの使用法:Psaux(高いリソース占有プロセスを見つける)リアルタイム監視

DebianのGolangログの回転戦略は何ですか DebianのGolangログの回転戦略は何ですか Apr 02, 2025 am 08:39 AM

Debian Systemsでは、GOのログローテーションは通常、GO標準ライブラリに付属する機能ではなく、サードパーティライブラリに依存しています。 Lumberjackは一般的に使用されるオプションです。さまざまなログフレームワーク(ZapやLogrusなど)で使用して、ログファイルの自動回転と圧縮を実現できます。 LumberJackおよびZAPライブラリを使用したサンプル構成:packagemainimport( "gopk.in/natefinch/lumberjack.v2" "go.uber.org/zap" "go.uber.org/zap/zapcor

GoおよびViperライブラリを使用するときにポインターを渡す必要があるのはなぜですか? GoおよびViperライブラリを使用するときにポインターを渡す必要があるのはなぜですか? Apr 02, 2025 pm 04:00 PM

ポインター構文とviperライブラリの使用における問題への取り組みGO言語でプログラミングするとき、特にポインターの構文と使用を理解することが重要です...

Go Gin Frameworkのすべてのコントローラーがパブリックデータを利用できるようにするにはどうすればよいですか? Go Gin Frameworkのすべてのコントローラーがパブリックデータを利用できるようにするにはどうすればよいですか? Apr 02, 2025 am 10:21 AM

すべてのコントローラーにGogin Frameworkでパブリックデータを取得するにはどうすればよいですか? goを使って...

言語スライスに行く:シングルエレメントスライスインデックス1インターセプトの場合、なぜエラーを報告しないのですか? 言語スライスに行く:シングルエレメントスライスインデックス1インターセプトの場合、なぜエラーを報告しないのですか? Apr 02, 2025 pm 02:24 PM

Go Language Slice Index:エラーなしでインデックス1からシングルエレメントスライスインターセプトがインターセプトされるのはなぜですか? GO言語では、スライスは底部を参照できる柔軟なデータ構造です...

GolangのLinux Iptablesリンクリストに操作を実装する方法は? GolangのLinux Iptablesリンクリストに操作を実装する方法は? Apr 02, 2025 am 10:18 AM

Golangを使用してLinuxを実装しています...

GO言語の範囲を使用してマップを通過してマップを保存するのに、なぜすべての値が最後の要素になるのですか? GO言語の範囲を使用してマップを通過してマップを保存するのに、なぜすべての値が最後の要素になるのですか? Apr 02, 2025 pm 04:09 PM

GOのマップイテレーションにより、すべての値が最後の要素になるのはなぜですか? Go言語では、いくつかのインタビューの質問に直面したとき、あなたはしばしば地図に遭遇します...

See all articles