ホームページ

テクノロジー周辺機器

Google の大規模モデル研究は激しい論争を引き起こしました。トレーニングデータを超えた一般化能力が疑問視されており、ネットユーザーは AGI 特異点が遅れる可能性があると述べています。

Google の大規模モデル研究は激しい論争を引き起こしました。トレーニングデータを超えた一般化能力が疑問視されており、ネットユーザーは AGI 特異点が遅れる可能性があると述べています。

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Nov 13, 2023 am 08:26 AM

グーグルモデル

Google DeepMind によって最近発見された新しい結果は、Transformer 分野で広範な論争を引き起こしました:

その一般化能力は、トレーニングデータを超えるコンテンツには拡張できません。

この結論はまださらに検証されていませんが、多くの著名人を驚かせています。たとえば、ケラスの父親であるフランソワ・ショレ氏は、もしこのニュースが本当なら、と述べました。、それは大きなニュースになるでしょう、モデル界では大きな出来事です。

Google Transformer は今日の大規模モデルの背後にあるインフラストラクチャであり、私たちがよく知っている GPT の「T」はそれを指します。

一連の大規模モデルは強力なコンテキスト学習機能を示し、例を迅速に学習して新しいタスクを完了できます。

しかし現在、Google の研究者もその致命的な欠陥を指摘しているようです。それは、トレーニングデータ、つまり人間の既存の知識を超えると無力です。

一時期、多くの専門家は、AGI は再び手の届かないものになったと信じていました。

一部のネチズンは、論文には見落とされている重要な詳細がいくつかあると指摘しました。たとえば、実験には GPT-2 の規模のみが含まれ、トレーニングは含まれていませんデータが十分に豊富ではない

時間が経つにつれて、この論文を注意深く研究したネットユーザーが研究結果自体には何も間違っていないことを指摘するようになりましたが、人々はそれを踏まえた過剰な解釈。

この論文がネチズンの間で激しい議論を引き起こした後、著者の一人も次の 2 つの点を公に明らかにしました:

まず第一に、実験では単純なトランスフォーマーを使用しました。は「大きな」モデルでも言語モデルでもありません;

第二に、モデルは新しいタスクを学習できますが、新しいタイプタスク##に一般化することはできません。

#その後、別のネチズンが Colab でこの実験を繰り返しましたが、まったく異なる結果が得られました。

それでは、まずこの論文と、別の結果を提案したサミュエルの発言を見てみましょう。

新しい関数はほとんど予測不可能です

この実験では、著者は Jax ベースの機械学習フレームワークを使用して、GPT-2 のサイズに近い Transformer モデルをトレーニングしました。デコーダ部分

このモデルには 12 層、8 つのアテンションヘッドが含まれており、埋め込み空間次元は 256、パラメータ数は約 950 万です。

その一般化能力をテストするために、著者はテストオブジェクトとして関数を選択しました。彼らは、一次関数と正弦関数をトレーニングデータとしてモデルに入力します。

これら 2 つの関数は、現時点でモデルに既知であり、予測結果は当然非常に良好です。しかし、研究者が一次関数を入力すると、正弦関数の凸組み合わせを実行すると問題が発生します。

凸面の組み合わせはそれほど神秘的ではありません。著者は f(x)=a·kx (1-a)sin(x) という形式の関数を作成しました。私たちの意見では、それは次のとおり 2 つの関数に過ぎません。比率は単純に合計されます。

私たちがこのように考える理由は、私たちの脳には一般化能力があるためですが、大規模モデルは異なります

線形関数と正弦関数しか学習していないモデルにとって、単純な足し算は斬新に見えます

この新しい関数については、Transformer の予測の精度はほとんどありません (図 4c を参照)。そのため、著者は、モデルには関数に関する一般化能力が欠けていると考えています

彼の結論をさらに検証するために、著者は線形または正弦関数の重みを調整しましたが、それでも Transformer の予測パフォーマンスは大きく変わりませんでした。

例外が 1 つだけあります。項目の 1 つの重みが 1 に近い場合、モデルの予測結果は実際の状況とより一致します。

##重みが 1 の場合、未知の新しい関数がトレーニング中に見られた関数になることを意味します。この種のデータは明らかにモデルの一般化能力には役立ちません

さらなる実験では、Transformer が関数の種類に非常に敏感であるだけでなく、同じ種類の関数であっても不慣れな状態になる可能性があることも示しました。

研究者らは、サイン関数の周波数を変更すると、たとえ単純な関数モデルであっても、予測結果が変化するように見えることを発見しました。

周波数がトレーニングの関数に近い場合にのみデータ、モデル頻度が高すぎるか低すぎる場合にのみ、より正確な予測を行うことができます。頻度が高すぎるか低すぎる場合、予測結果に重大な偏差が生じます...

Google の大規模モデル研究は激しい論争を引き起こしました。トレーニングデータを超えた一般化能力が疑問視されており、ネットユーザーは AGI 特異点が遅れる可能性があると述べています。 #したがって、著者は条件が少しでも良ければと考えていますが、それは少し異なります。大規模なモデルではどうすればよいかわかりません。これは一般化能力が低いということを意味しませんか?

著者は、研究におけるいくつかの制限と、関数データの観察をトークン化された自然言語の問題に適用する方法についても説明します。

チームは言語モデルでも同様の実験を試みましたが、いくつかの障害に遭遇し、タスクファミリー(ここでは関数の種類に相当)や凸の組み合わせなどを適切に定義する方法はまだ解決されていません。

ただし、Samuel のモデルは規模が小さく、レイヤーが 4 つしかありません。Colab で 5 分間トレーニングした後は、線形関数と正弦関数の組み合わせに適用できます

##一般化できない場合はどうすればよいか Google の大規模モデル研究は激しい論争を引き起こしました。トレーニングデータを超えた一般化能力が疑問視されており、ネットユーザーは AGI 特異点が遅れる可能性があると述べています。

記事全体の包括的な内容に基づくと、この記事における Quora CEO の結論は非常に限定的であり、多くの仮定が真実である場合にのみ確立できます

スローン賞受賞者でUCLA教授のGu Quanquan氏は、論文の結論自体は物議を醸すものではないが、過度に解釈すべきではないと述べた。 Google の大規模モデル研究は激しい論争を引き起こしました。トレーニングデータを超えた一般化能力が疑問視されており、ネットユーザーは AGI 特異点が遅れる可能性があると述べています。

以前の研究によると、Transformer モデルは、トレーニング前のデータと大きく異なるコンテンツに直面した場合にのみ一般化できません。実際、大規模モデルの汎化能力は通常、タスクの多様性と複雑さによって評価されます。

Transformer の汎化能力を注意深く調査すると、残念ながらかなりの時間がかかると思います。弾丸だ、もう少し長く飛べ。 Google の大規模モデル研究は激しい論争を引き起こしました。トレーニングデータを超えた一般化能力が疑問視されており、ネットユーザーは AGI 特異点が遅れる可能性があると述べています。

しかし、一般化能力が本当に欠けているとしても、何ができるでしょうか?

NVIDIA AI 科学者ジムファン氏は、「Transformer

は万能薬ではないため、この現象は実際には驚くべきことではありません。

トレーニングデータが適切であるため、大規模モデルのパフォーマンスは良好です。私たちが重視するコンテンツ

。

Jim はさらに付け加えました。「これは、1,000 億枚の犬と猫の写真を使用して視覚モデルをトレーニングし、そのモデルに航空機を識別させて、次のことを見つけてください、と言っているようなものです。」うわー、本当に彼のことを知りません。

#人間が未知の課題に直面したとき、大規模モデルに限らず、解決策が見つからない可能性があります。これは人間には汎化能力が欠けていることも意味しているのでしょうか？

したがって、目標指向のプロセスでは、それが大規模なモデルであれ人間であれ、最終的な目標は問題を解決することであり、一般化は手段にすぎません

この表現を中国語に変えてください。汎化能力が足りないので、学習サンプル以外のデータがなくなるまで学習させます。

それでは、この研究についてどう思いますか?

文書アドレス: https://arxiv.org/abs/2311.00871

以上がGoogle の大規模モデル研究は激しい論争を引き起こしました。トレーニングデータを超えた一般化能力が疑問視されており、ネットユーザーは AGI 特異点が遅れる可能性があると述べています。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

ホットツール

ホットトピック

Gmailメールのログイン入り口はどこですか？

7503

CakePHP チュートリアル

1377

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

Deepseekをコメントする方法 Feb 19, 2025 pm 05:42 PM

DeepSeekは、強力な情報を取得することですが、その不利な点は遅いことです。

DeepSeekを検索する方法 Feb 19, 2025 pm 05:39 PM

DeepSeekは、特定のデータベースまたはシステムでのみ検索する独自の検索エンジンであり、より速く、より正確です。それを使用する場合、ユーザーはドキュメントを読み、さまざまな検索戦略を試し、ユーザーエクスペリエンスに関するヘルプを求めてフィードバックを求めて、利点を最大限に活用することをお勧めします。

セサミオープンドア交換Webページ登録リンクゲートトレーディングアプリ登録Webサイト最新 Feb 28, 2025 am 11:06 AM

この記事では、SESAME Open Exchange（gate.io）Webバージョンの登録プロセスとGate Tradingアプリを詳細に紹介します。 Web登録であろうとアプリの登録であろうと、公式Webサイトまたはアプリストアにアクセスして、本物のアプリをダウンロードし、ユーザー名、パスワード、電子メール、携帯電話番号、その他の情報を入力し、電子メールまたは携帯電話の確認を完了する必要があります。

Bybit Exchangeリンクを直接ダウンロードしてインストールできないのはなぜですか？ Feb 21, 2025 pm 10:57 PM

Bybit Exchangeリンクを直接ダウンロードしてインストールできないのはなぜですか？ BYBITは、ユーザーにトレーディングサービスを提供する暗号通貨交換です。 Exchangeのモバイルアプリは、次の理由でAppStoreまたはGooglePlayを介して直接ダウンロードすることはできません。1。AppStoreポリシーは、AppleとGoogleがApp Storeで許可されているアプリケーションの種類について厳しい要件を持つことを制限しています。暗号通貨交換アプリケーションは、金融サービスを含み、特定の規制とセキュリティ基準を必要とするため、これらの要件を満たしていないことがよくあります。 2。法律と規制のコンプライアンス多くの国では、暗号通貨取引に関連する活動が規制または制限されています。これらの規制を遵守するために、BYBITアプリケーションは公式Webサイトまたはその他の認定チャネルを通じてのみ使用できます

セサミオープンドアトレーディングプラットフォームダウンロードモバイルバージョンgateioトレーディングプラットフォームのダウンロードアドレス Feb 28, 2025 am 10:51 AM

アプリをダウンロードしてアカウントの安全を確保するために、正式なチャネルを選択することが重要です。

Crypto Digital Asset Trading App（2025グローバルランキング）に推奨されるトップ10 Mar 18, 2025 pm 12:15 PM

この記事では、Binance、Okx、Gate.io、Bitflyer、Kucoin、Bybit、Coinbase Pro、Kraken、Bydfi、Xbit分散化された交換など、注意を払う価値のある上位10の暗号通貨取引プラットフォームを推奨しています。これらのプラットフォームには、トランザクションの数量、トランザクションの種類、セキュリティ、コンプライアンス、特別な機能の点で独自の利点があります。適切なプラットフォームを選択するには、あなた自身の取引体験、リスク許容度、投資の好みに基づいて包括的な検討が必要です。この記事があなたがあなた自身に最適なスーツを見つけるのに役立つことを願っています

Binance Binance公式Webサイト最新バージョンログインポータル Feb 21, 2025 pm 05:42 PM

Binance Webサイトログインポータルの最新バージョンにアクセスするには、これらの簡単な手順に従ってください。公式ウェブサイトに移動し、右上隅の[ログイン]ボタンをクリックします。既存のログインメソッドを選択してください。「登録」してください。登録済みの携帯電話番号または電子メールとパスワードを入力し、認証を完了します（モバイル検証コードやGoogle Authenticatorなど）。検証が成功した後、Binance公式WebサイトLogin Portalの最新バージョンにアクセスできます。

2025年のBitgetの最新のダウンロードアドレス：公式アプリを取得する手順 Feb 25, 2025 pm 02:54 PM

このガイドは、AndroidおよびiOSシステムに適した公式Bitget Exchangeアプリの詳細なダウンロードとインストール手順を提供します。このガイドは、公式ウェブサイト、App Store、Google Playなど、複数の権威ある情報源からの情報を統合し、ダウンロードおよびアカウント管理中の考慮事項を強調しています。ユーザーは、App Store、公式WebサイトAPKダウンロード、公式Webサイトジャンプ、完全な登録、ID検証、セキュリティ設定など、公式チャネルからアプリをダウンロードできます。さらに、ガイドはよくある質問や考慮事項をカバーします。

See all articles

Google の大規模モデル研究は激しい論争を引き起こしました。トレーニングデータを超えた一般化能力が疑問視されており、ネットユーザーは AGI 特異点が遅れる可能性があると述べています。

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

Google の大規模モデル研究は激しい論争を引き起こしました。トレーニング データを超えた一般化能力が疑問視されており、ネットユーザーは AGI 特異点が遅れる可能性があると述べています。

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

Google の大規模モデル研究は激しい論争を引き起こしました。トレーニングデータを超えた一般化能力が疑問視されており、ネットユーザーは AGI 特異点が遅れる可能性があると述べています。