ChatGPT の恩恵により、大規模な意思決定モデルが AGI に一歩近づきます
過去 1 年足らずの間に、ChatGPT と GPT-4 が次々にリリースされ、AI に対する人々の理解を常に刷新してきました。
新しいテクノロジーは変化をもたらし、AI が人間に取って代わるかどうかについての議論も引き起こしており、OpenAI CEO のサム アルトマン氏も、人工知能テクノロジーの強力な機能について懸念を公に表明しています。
最近、ユニバーシティ カレッジ ロンドン (UCL) のコンピュータ サイエンス学部教授である Wang Jun 氏は、AI Technology Review のインタビューで、ChatGPT は強力な言語機能と対話機能を備えているものの、体系的な意思決定を行うことはできないと認めました。制御、グループコラボレーション、動的スケジューリングなど、これらは AI テクノロジーの波のより革新的な部分です。
Wang Jun は、ユニバーシティ カレッジ ロンドン (UCL) のコンピューター サイエンス学部の教授であり、アラン チューリング研究所のチューリング フェローです。彼の主な研究は、機械学習、強化学習、マルチエージェント、データマイニング、計算広告、推奨システムなどを含むインテリジェント情報システムであり、Google Scholar では 16,000 回以上引用され、120 以上の学術論文を発表しています。何度も引用され、最優秀論文賞を受賞しました。
王君
2022年4月、上海デジタルブレイン研究所が正式に設立され、Enigma Tech(中国名「エニグマテクノロジー」)がインキュベートされ、社内に設立されました。」)、王軍氏は上海デジタル脳研究所の共同創設者兼所長を務め、パズル技術の主任研究員を務めており、今年下半期、デジタル脳研究所は世界初のパズル技術を開発しました。 CV、NLP、強化学習、マルチエージェントを統合した大規模なマルチエージェント意思決定モデル。企業がマルチシナリオの意思決定問題を解決できるよう支援することに特化しています。
Wang Jun 氏は、ChatGPT の登場により、これまでの大規模なモデルのトレーニングにおけるしきい値を下げる方法の問題が解決されたと考えています。自然言語処理と大規模な意思決定モデルを組み合わせることで、ChatGPT はチャットだけでなく、 , しかしまた、AIGC (AI Generated Content、コンテンツ制作) に基づいて、AIGA (AI Generated Actions、意思決定生成) をさらに探求し、モデルの思考と意思決定の機能を特定のシナリオに適用できるようにします。企業と人々が意思決定の問題を解決できるよう真に支援し、人類はより創造的な活動に解放されます。
1. マルチエージェント システムの「インテリジェンス」に向けて
AI インテリジェンスを探索するプロセスは、定義上の問題の究極の追求と切り離すことができません。
Wang Jun は、知性への道を 2 つの段階に分けています。最初のステップは、生物システム(生命システム(人間は生物システムに属する))と非生物システムの違いを明確にすることです。
2013 年、生物物理学者のジェレミー イングランドは、生命の起源が熱力学の必然的な結果であるとする「散逸駆動適応」という画期的な理論を提案しました。特定の条件下では分子システムはそれを通過しません。エネルギーを消費して継続的なエネルギー消費と「エントロピー」の増大を促進します。
エントロピー増加とエントロピー減少の理論では、生体が無秩序から秩序に変化するプロセスは、エネルギーを吸収し続け、エントロピーを減少させ続けます。Wang Jun 氏は、AI は人間から生成されたものであるため、エネルギーも吸収すると考えています。人間がエントロピーの減少を完了できるようにするためのエネルギーを提供するというミッションにおいて、基本的な問題を解決する鍵となるのは、知能をどのように定義するか、そして一定レベルの知能を達成するために AI が吸収する必要があるエネルギー量です。
画像の分類と認識に AI を使用すると、分類アルゴリズムの精度は 98% に達します。 AI は分類を通じて、無秩序な画像コンテンツの構成を秩序ある規則的な画像に変換するのに役立ち、システムの不確実性が低減され、エントロピーが低減されます。エントロピー削減には計算も必要であり、これによりアルゴリズムの計算能力が決まります。計算能力は消費されるエネルギーを反映します。
Wang Jun 氏は、インテリジェンスへの第 2 ステップは、生物学的システムといわゆる AI システムの意識を区別することだと考えています。現在、人工知能はツールとして存在しています アルゴリズムは AI の働きの優秀さを判断するだけです 機械自体は考えません 最終的に機械が人間と同じ思考能力を発揮できるようにするには、まず人間の脳のさまざまな現象を理解する必要がありますAI に対する認識の懸念。
Wang Jun の見解では、意識は知性の重要な現れです。哺乳類は意識を検出し、意識を知覚し、主観的な感情を形成することができます。同時に、複数の個体が環境と相互作用するとき、それ以外のものが存在する必要があります。単一の個人が、意識を持った別の個人が環境に影響を与え、共鳴することで、主観的な感情を表現することができます。
これに関連して、Wang Jun と彼のチームは、AI 研究において、意識を誘導するには複数のエージェントの相互作用 (マルチエージェント) を使用する必要があると提案しました。
大規模なモデルを例に挙げます。クロスタスクは人為的に定義され、特定の特定のタスクに限定されます。アルゴリズムを設計してマシンに実行させることで、よりインテリジェントな AI を生み出すことは困難です。モデルの思考力や決断力が向上しない。
Wang Jun 氏は AI Technology Review に対し、「複数のことを同時に進める場合、指針となる大きなアイデアが必要です。そうでない場合は、明らかに固有の法則が欠如しています。」この法則は、マシン モデルをリードしています。より大きな成功への「インテリジェントな」クリティカル パス。
DeepMind は 2022 年 5 月に、CV と NLP を組み合わせた汎用エージェント「GATO」をリリースしました。Atari ゲームをプレイしたり、映像字幕を出力したり、ロボット アームでブロックを積み上げたり、人とチャットしたりすることができます。テキスト、関節トルク、ボタン押下、またはその他のトークンを (単語ごとに) コンテキストに基づいて出力するかどうかを決定できるこの作品は、当時多くの議論を引き起こしました。ワン・ジュンも信者の一人だ。
実際、2021 年から、Wang Jun と彼のチームは、クロスタスクを実現し、CV、NLP、強化学習、マルチエージェントを統合された意思決定にネストできる意思決定モデルの作成について検討し始めました。模型製作も可能です。 「GATO」の出現により、Wang Jun は大型モデルの広大な探索可能空間を確認できるようになりました。「これは、1 つのモデルが複数の分野のタスクを解決することが一般的な傾向であることを証明するのに十分です。」
決定-大規模なモデルの作成は、単にモデル サイズの意味に基づいて行うことはできません。出発とは、本質的に、データセットでの強化学習による環境との継続的なインタラクションによって達成される一定レベルの認知です。この問題を克服するにはどうすればよいでしょうか?最大の技術的ポイントは、強化学習と環境相互作用の複雑さを軽減することです。
元のデータは、このリンクにおいて重要な役割を果たします。
他のタスクや環境と対話するアルゴリズムによって生成された元のデータをトレーニングすることで、事前トレーニング モデルを構築します。このモデルは、新しいタスクに直面したときにすぐに適用でき、それによって法則、関係性を実現し、価値を最大化します。データ。事前トレーニング データ セットが拡大し続けると、すべてのタスクをカバーできるまでモデルも大きくなります。
最終結果は、問題を解決するための方法が収集され、複数の方向性がスケジュール設定可能でタスク間で一般化できるマルチエージェントに集約および統合されます。マルチエージェントエージェントは、バランス関係を考慮する必要があることがよくあります。つまり、自分の目標を達成しながら、相手も目標を達成でき、安定したバランスを維持するためにお互いを抑制します。
実際のアプリケーション シナリオでは、マルチ エージェントは、検索、レコメンデーション、さらにはインターネット広告など、多くの実際的な問題の解決にも役立ちます。これは本質的に、ユーザーが必要なコンテンツを見つけるのを支援するための意思決定プロセスです。 , このコンテンツはユーザーの好みに沿ったものであり、「あなたに勧めることは実際に決定です。」
マルチエージェントの利点は、クロスタスク機能を最大限に活用できることです。
実際、Wang Jun 氏とその学生 Zhang Weinan (上海交通大学教授) は 2017 年の初めに、自然言語処理 (NLP) に強化学習を追加するクロスタスクの試みを開始しました。
これまで、自然言語処理で GAN を使用してテキストを生成していたとき、単語インデックスと単語ベクトルの変換プロセスでデータが不連続であるため、パラメーターの微調整が機能しないことがよくありました。 GAN のみの判別モデル 生成されたデータは全体としてスコア化されますが、テキストは一般に単語ごとに生成されるため、詳細を制御することが困難です。
この目的のために、彼らは強化学習戦略を活用することで離散データに GAN を適用するという問題を解決した SeqGAN モデルを提案しました。これは強化学習を使用して生成言語を訓練した最初の論文の 1 つでもあります自然言語処理や情報検索などさまざまな分野に応用できるテキスト生成モデルを実現します。
論文アドレス: https://arxiv.org/pdf/1609.05473.pdf
「強化学習と意思決定は本質的に同じです。 「強化学習は意思決定の問題の一部を解決できます。」 Wang Jun 氏の見解では、意思決定は長期的な研究課題です。大規模なマルチエージェント意思決定モデルの提案は、一般化した後、特定の分野で独自の利点を形成する可能性があります。 AI すべての問題のほとんどは、大規模な意思決定モデルの助けを借りて解決できます。
2. AIGA は AIGC よりもさらに一歩進んでいます
ChatGPT による人気はまだ去っていません。3 月 15 日、マルチモーダル事前トレーニング済み大規模モデル GPT のリリース後、 4、別の破壊的な出来事 変化が起こります。
この一般的な人工知能を対象としたコンテストでは、ChatGPT と GPT-4 がゴールではなく、より価値のある産業革命とその波にさらされているイノベーションに重点が置かれています。
この期間中、Wang Jun は市場資本を懸念する友人たちとも緊密なコミュニケーションを続けていました。
Wang Jun 氏の見解では、学界の問題の中には大胆さが足りず、リソースの制約を受けるものもあり、問題について考えることは特定の要因によって制約されることになります。産業界では、大規模な意思決定モデルはより豊富なアプリケーション シナリオを持つことができ、伝統的な産業、インターネット検索の推奨、産業用インターネットなど、さまざまな意思決定が必要となります。
この考えに基づいて、Wang Jun は、大規模な意思決定モデルを産業界、学界、研究に統合する可能性を検討し始めました。
1 年間の準備期間を経て、上海デジタル ブレイン研究所は 2022 年 4 月に正式に設立されました。エニグマ テック (「エニグマ テクノロジー」) は社内で育成および設立され、主に科学研究成果をもたらす責任を負っています。 Digital Brain Research Institute を業界に 実際のシナリオと実際のビジネス データを Digital Research Institute に提供するために実装されました。 Wang Jun は、数学研究所の共同創設者および所長を務め、パズル テクノロジーの主任科学者も務めています。
大規模なモデルが実際のアプリケーション シナリオに導入されると、企業は多くの場合 2 つの大きな問題点に直面します。それは、モデルが広域ではないことと、導入の敷居が高いということです。
古典的な機械学習手法では、カスタマイズされたモデルが採用されています。企業がタスクを発行すると、最初に問題を定義し、トレーニング用のデータを収集し、モデルをテストします。二次タスクが発行された後、モデルは次のことを行う必要があります。データを収集し、問題を定義し、再度データを収集します。データ トレーニングとモデル テストにより、多くの場合、企業は展開時に多くの財務的および人的リソースを失い、広範囲にわたるデータは強力ではありません。一方で、大規模モデルの利用にはエンジニアの非常に高い技術力と一定の最適化経験が必要であり、企業の参加の敷居は高い。
Wang Jun は、ChatGPT を大規模な意思決定モデルと組み合わせることで、低しきい値の広範囲の問題を効果的に解決できると信じています。
このような考えの下、Wang Jun はパズル技術チームを率いて DB 大型モデル (AIGA 方向大型モデル、AIGA: AI Generated Actions、意思決定生成) を提案しました。その最初の DB1 は世界初のマルチモーダル モデルです。 DeepMind によって開始された GATO に対してベンチマークされた大規模な意思決定モデルは、マルチエージェントを完全にサポートし、1,000 を超える意思決定タスクを同時に処理できます。
車両コラボレーション タスクにおける DB1 のパフォーマンス
ChatGPT を大規模な意思決定モデルと組み合わせることで、ChatGPT はチャットだけでなく、 AIGC では、AIGA をさらに探索して、モデルの思考と意思決定の機能を特定のシナリオに適用します。結果として生じる相互作用は、特定のシナリオの環境と相互作用し、小さなデータで大きなタスクを完了でき、実際の産業シナリオに直接対応できます。ビッグデータの助け このモデルはタスクの閉ループを実現し、ロボットのコラボレーション、機器のダイナミクス、エンタープライズ自律スケジューリング、ソフトウェア開発などの幅広いアプリケーションを可能にします。
そして、企業や人々が意思決定の問題を解決できるよう真に支援し、人間をより創造的な活動に解放します。 「最終的には、人類全体の進歩に大きな促進をもたらすでしょう。そうすれば、真のAGI(汎用人工知能)を生み出すことができます。」
現在のデジタルブレイン研究所の基本構成構築は完了しており、事業内容はアルゴリズム、システムから具体的なエンジニアリングプロジェクトに至るまで、レコメンデーションシステム、故障予測、自動運転、市場設計、ゲームシナリオ、EDA最適化などの現実的な課題を解決するシナリオに応用可能企業運営上の問題。
研究室を出てデジタルブレイン研究所を設立したワン・ジュンさんの気持ちや状態は全く異なり、研究においてすべての要素を一緒に考慮することは不可能です。この問題を解決するには、他のことが必要です。まず単純化とは、次の問題に進む前に実際の問題を解決することを意味しますが、研究の実施は複数の問題の集合となる可能性が高く、各問題を 1 つずつ解決する必要があり、その解決方法が必要になります。一律に適用する問題。
昨年 7 月、AI Technology Review は光栄にも王軍学部長と詳細な議論を行うことができました。その際、彼は数学研究所の目標は意思決定の知能を促進することであると述べました。研究とAI研究、そして中国で最善を尽くすための、最も基礎的な研究。
わずか 1 年の間に、安定拡散、ChatGPT、GPT-4 などのモデルが登場したことで、Wang Jun は AI テクノロジーの革命的な進歩を実感し、驚きました。また、数学研究所についての理解も深まりました。具体的な目標では、大規模な意思決定モデルを特定のシナリオに適用して、実際的に重要な問題を解決します。
学術界から産業界まで、デジタル ブレイン研究所は長い間開発されておらず、そのプロトタイプは Wang Jun の人工知能の探求の方向性も反映しています。 「私たちはただ自分たちの道を進みたいだけです。産業界、学界、研究をどのように組み合わせて新しい道を切り開き、これまで尋ねられたことのない質問を投げかけることができるでしょうか。」
3. 王軍との対話
数理科学研究所の実装意思決定の大規模モデル
#AI テクノロジーのレビュー: 過去 1 年間に大規模なマルチエージェント意思決定モデルに関して数学研究所が行った取り組みと進歩を紹介しましょう。
Wang Jun: 私は昨年の夏から新しいトピックを計画し始めました。大きなモデルは NLP や CV で使用されるだけでなく、意思決定にも大きな役割を果たしていると感じました。当時、DeepMind の「GATO」さまざまなタスクを大きなモデルに入れて Transform で学習するという統合を試みた作業にインスピレーションを得たので、それを基にさらに探索することにし、ビデオや画像データ、自然言語データ、ロボットを含む大規模な意思決定モデルを作成しました。データ、さらには最適化タスクの実行方法、生産スケジュールの調整方法、車両の最適化方法などのソルバー データも含まれます。約10億または15億のパラメータを持つ大規模なモデルを作成しましたが、これは初期段階の探索ではありましたが、大規模なモデルが自然言語処理だけでなく、意思決定にも重要な役割を果たしていることが証明されました。
少し前、私たちはフットボール ゲームに取り組んでいて、未解決の問題を発見しました。強化学習、AlphaGo、StarCraft、Dota、その他のゲーム システムの現在の研究ロジックでは、人が増えれば増えるほど、より多くの意思決定が行われるようになります。 make Space もより複雑になります。
これに関して、私たちはゲームシーンのサッカーを研究ポイントとして使用し、単純な 2 人サッカーから 5 人、11 人までの大規模なマルチエージェント意思決定モデルで多くの試みを行いました。 。これは強化学習にとって比較的大規模で挑戦的なシナリオですが、現時点では問題の性質が完全に解決されていない、または非常にうまく解決されているため、私たちはこの問題に多くの時間を費やし、何らかの解決策を講じたいと考えています。成果。
AI テクノロジー レビュー: ChatGPT のリリース後、数理研究所の研究にどのような影響を及ぼしますか?
Wang Jun: 私たちは常に意思決定に重点を置いてきましたし、これまでもそうでした。しかし、ChatGPT が登場した後、私たちはその言語機能に非常に驚きました。それは私たちの予想を完全に上回り、意思決定タスクの促進にも一定の役割を果たしました。
意思決定の最適化のプロセスでは、広範囲と低いしきい値という 2 つの主要な問題点を解決する必要があります。
大規模な意思決定モデルは、モデルの広範な問題をある程度解決します。新しいタスクは反復と微調整のために大規模モデルに配置されます。大規模なモデルはさまざまな意思決定に対処できます。問題を起こしている。
閾値が低いという問題は、AI 企業では一般的です。これまで、大規模なモデルを使用するには、エンジニアの非常に高い能力が必要でした。最適化の経験を持つ人が、問題の意思決定プロセスに参加することが求められることがよくありました。個人と企業の両方において、その敷居は非常に高いため、AI の使用コストも増加します。
使用の敷居が低いという問題を解決するために、私たちは以前、自然言語よりも複雑かつ厳密でありながら、実際のプログラミングよりも単純で、誰でも使用できる比較的単純な言語、ChatGPT を発明することを構想していました。の出現により、機械の自然言語が人間との通常のコミュニケーションのレベルに到達できることが突然認識され、敷居の低さの問題点が一気に解決されました。私たちにとって、この変更の影響は非常に大きいです。
さらに興味深いのは、ChatGPT には特定の論理的推論機能があり、複雑な問題をいくつかの下位問題に分解するのに役立ちます。この下位問題部分は当初、専門家が手動で分解する必要がありましたが、ChatGPT を介してセマンティックが実現されました。理解すると、例が得られると、問題を基本的な問題に分解でき、基本的な問題の既存の意思決定機能を大規模な意思決定モデルを通じて直接呼び出すことができます。
ChatGPT 意思決定のしきい値を下げる
AI テクノロジー コメント: マルチエージェント意思決定の大規模モデルは多くの分野をカバーします。データ要件は何ですか? ChatGPT と組み合わせた後、特定の分野のデータに特別なニーズはありますか?
Wang Jun: いくつかの特定の要件があります。
自然言語データはオフラインであり、方法論的な学習に属します。意思決定には多くのデータ生成機能が必要であり、シミュレーターが必要です。例えば、ロボット犬に歩行訓練をさせる場合、雨の日やその他の環境でデータを収集するために犬を歩かせるのではなく、まず外界によく似たシミュレーターを構築し、そのシミュレーターを使用してデータを収集することがよくあります。モデルが学習された後、モデルはフィードバックを与えるために実際のシーンに置かれ、その後再び学習するために戻ってくるため、その意思決定能力を実際のアプリケーションに迅速に移すことができます。大型モデルの技術で雨の日も、階段を歩くときも、砂の上を歩くときも、さまざまなシーンをカバーします。
さまざまな環境での機械仕掛けの犬の散歩
2 番目の困難は、意思決定データのトレーニングが自然言語処理よりも難しいことです。このプロセスではデータが常に生成されます。データ生成の効率、生成場所、およびそれをさまざまな学習モジュールにどのように割り当てるかが重要です。学習には、統一されたシステムレベルのソリューションが必要ですが、これまでに、主にこの強化学習トレーニング方法で使用される大規模な学習方法のセットを特別に開発しました。しかし、ChatGPT の登場以降、大規模なオラクル モデルに基づく学習方法は適さなくなりました。
AI テクノロジーのコメント: 特定のシナリオで、ChatGPT を使用して大規模な意思決定モデルと組み合わせるにはどうすればよいですか?
Wang Jun: 機械仕掛けの犬の例を取り上げます: 当初、私たちは機械仕掛けの犬を訓練する古典的な方法を使用していましたが、問題は、機械仕掛けの犬が単一の環境で問題なく道路を歩くことです。雨の日も雪の日もあり、歩くことはできませんでしたが、大規模なモデル ソリューションを追加すると、機械仕掛けの犬は基本的な対話機能を持ち始め、推論を実行できるようになりました。ロボット犬にメッセージを送信する命令を送信すると、モデルは自動的にタスクを 1 ~ 5 つの基本ステップに分解します。各モジュールには、ポイント A からポイント B までの経路計画など、送信に対応するロジックがあります。
犬ロボット自体には東へ行く、西へ行くという概念はなく、座標のみを持っているため、対話型の命令を特定のセマンティクスと組み合わせて対応させる必要がありますが、ChatGPTを介して命令を変換する必要はありません直接対話できるプログラミング言語です。質問を受け取った後、ロボット犬は命令をいくつかの異なる質問に分解します。最初にチャットの一部を最適化し、アクション、決定、セマンティクスを生成された自然言語と照合します。 ChatGPTによる。
これが私たちの次の研究の主な方向性になりました。私たちはそれを AIGA (AI がアクションを生成する) と呼んでいます。初期段階では、ChatGPT が AIGC をもたらしました。大規模な意思決定モデルと組み合わせることで、私たちはさらに進んで変化しました。コンテンツの生成からアクションを生成するには、決定を生成します。
デジタル総研の強みは大規模な意思決定モデルにあるため、私たちは大規模な意思決定モデルの方向性を主張しています。私たちは、それが意思決定を行う上で非常に価値があると考えています。 ChatGPT を大規模な意思決定モデルと組み合わせると、生成されるインタラクションは質問に答える能力に限定されなくなり、複雑で複雑な構造を理解できるかどうかも決まります。特定のシナリオの環境とインタラクションすることで、ChatGPT を組み合わせることができます。ロボットのコラボレーション、デバイスダイナミクス、エンタープライズ自律スケジューリング、ソフトウェア開発、その他の幅広いアプリケーションを実現するための大規模な意思決定モデルを使用します。
自然言語は基礎です
AI テクノロジーの解説: マルチモーダル データをトレーニングした後、パラメーターの数はどの程度まで多くの機能に到達しますか? テキスト、画像、音声、ビデオ...マルチモーダル モデルに大きな影響を与えるのはどのモダリティですか?
Wang Jun: データの観点から見ると、「大きな努力が奇跡を生む」という考えには一定の限界があり、この限界をまだ完全には理解していませんが、私たちは限界を完全に理解しているわけではないと感じています。 ChatGPTのトレーニングの学習に焦点を当てています。
ChatGPT の言語スキルと会話スキルは強力ですが、ChatGPT は何を吸収するかを本当に理解していますか?理解されていないと思います。推測ゲームをさせる 表面上は遊べるようですが、実際には頭の中で数字を推測することはできず、推測することもできません。 ChatGPT は元のトレーニング データの論理的な内容を記憶することに重点が置かれており、情報を照合する能力は非常に強力ですが、真に理解する能力は非常に弱いです。
その制限を打ち破るにはどうすればよいでしょうか?世界全体に対するモデルの理解をトレーニングに加える必要があると思いますが、世界を記述する数学的モデルを構築し、その理解を世界モデルに落とし込まなければ、周囲の世界に対する理解は深まりません。の。簡単な例を挙げると、ChatGPT に人間のチェスの棋力データが 2000 点未満であると与えた場合、モデルが人間を模倣するだけの場合、2000 点を超える知能を模倣することはできません。
Wang Jun のチームが以前に行った AI 作成アシスタント
データは非常に重要ですが、同時にモデルのサイズも重要ですも非常に重要であり、それを改善するにはさまざまなトレーニング方法が必要です。
マルチモダリティでは、自然言語が基礎となります。人々が考えるとき、言語は思考の伝達者です。言語は比較的明確な論理的記述を構築しますが、100% 厳密ではない可能性があり、いくつかの不明確な記述や不明確な記述も含まれます。曖昧な側面はありますが、非常に複雑な論理関係を表現するにはこれで十分です。
しかし同時に、自然言語に暗黙的に含まれる意味情報と表現が非常に重要であることも明確に認識する必要があります。最も重要なことは対話に含まれる意味関係であり、他のマルチモーダルモードが来た場合、対応する意味表現を一致させることで他のモダリティに移行できます。
自然言語に基づいて、モデルに参加する他のモダリティを追加できます。
AI テクノロジー レビュー: マルチモーダルな大規模モデルや意思決定の大規模モデルに対する「人間のフィードバック」データの影響をどのように見ていますか?
Wang Jun: 人間によるフィードバック データが必要ですが、その量は以前の教師あり学習の要件ほど多くはありません。基本モデルをガイドする目的で、基本モデルには数回のデモンストレーションを行うだけで済みます。新しいトレンドやミッションシナリオに適応し、ベーシックモデル本来の性能を発揮します。これは、古典的な機械学習トレーニング モデルの革新です。
これまで、ほとんどの AI 企業はカスタマイズされたモデルで機械学習を使用していました。タスクが来ると、最初に問題を定義し、トレーニング用のデータを収集し、モデルをテストしました。2 番目のタスクが発行された後、彼らはトレーニングやモデルのテストのためのデータの収集は、再現が難しいだけでなく、導入には多大な資金と人的リソースを消費します。
ChatGPT 後の機械学習は、まず大規模なモデルに基づいています。具体的な問題が何であるかを知る必要はありません。最初にモデルを構築し、それから顧客やメーカーに配布し、模倣を配置できます。トレーニング機能を持たない大規模なモデル。機能のある企業の場合、企業は展開してから全体のプロセスを逆に定義します。その本質は、大規模なモデルをアクティブにして特定のタスクに適用し、タスクを定義して結果を出力することです。モデルに対する「人間のフィードバック」データの影響を大幅に軽減し、広帯域かつ低しきい値の AI を真に実現します。
AI テクノロジー コメント: ChatGPT コンテストのこのラウンドでは、コンピューティング能力とモデルは以前の 2 つの期間ほど重要ではなくなりましたが、シナリオとデータがこのラウンドの鍵になると信じている人もいます。思いますか?
Wang Jun: モデルは非常に重要です。現在、一部の大型モデルの言語機能が向上しているため、モデルは人間を理解できるようになりますが、これは単なる見かけにすぎません。いくつかの単語にのみ依存して次の単語を予測する基本的なモデルのトレーニング方法では、より優れた知能を生み出すことは難しく、モデルの思考能力と意思決定能力を向上させることはできず、これら 2 つは人工知能の最も基本的な能力です。環境とどのように対話するかを知ること。
このモデルの観点から見ると、モデルはまだ革新する必要があります。変換アーキテクチャは非常に優れていますが、だからといって前進を止めてもよいというわけではありません。革新的で創造的で思慮深いものがまだ必要です。 . ニューラル ネットワーク モデルが登場します。
コンピューティング能力、モデル、データ、シナリオはすべて非常に重要です。データとコンピューティング能力が一定のレベルに達すると、新しいイノベーションが現れる必要があります。イノベーションの後、データとコンピューティング能力の変数は次のとおりです。蓄積し、ある高みに到達し、イノベーションを起こすというスパイラルプロセスです。
シナリオが目的 最終的には、研究を単に学術レベルで終わらせるのではなく、シナリオで問題を定義し、解決する必要があります。シーンが実行された後は、新しいモデルまたは手法が使用され、データとコンピューティング能力を使用してシーンをさらなる極限に到達させます。
ChatGPT は非常に広範囲に対応しますが、すべての AI の問題を解決できるわけではありません。次のシナリオでは何を考え、どのような問題を解決できるでしょうか?問題の核心は、モデルの思考能力と意思決定能力を特定のシナリオに真に適用できるようにすることであると同時に、モデルは環境、人々、さまざまなシナリオと相互作用し、最終的に全体への影響を実現する必要があります。それは人類全体の進歩に大きな促進をもたらしました。
この場合、本物の AGI を生み出すことができます。これは数学研究所の目標でもあります。
以上がChatGPT の恩恵により、大規模な意思決定モデルが AGI に一歩近づきますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









DALL-E 3は、前モデルより大幅に改良されたモデルとして2023年9月に正式導入されました。これは、複雑な詳細を含む画像を作成できる、これまでで最高の AI 画像ジェネレーターの 1 つと考えられています。ただし、発売当初は対象外でした

従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニング コストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー(テスラの4680バッテリー)を次のように分類します:公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング:今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジム ファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

目標検出は自動運転システムにおいて比較的成熟した問題であり、その中でも歩行者検出は最も初期に導入されたアルゴリズムの 1 つです。ほとんどの論文では非常に包括的な研究が行われています。ただし、サラウンドビューに魚眼カメラを使用した距離認識については、あまり研究されていません。放射状の歪みが大きいため、標準のバウンディング ボックス表現を魚眼カメラに実装するのは困難です。上記の説明を軽減するために、拡張バウンディング ボックス、楕円、および一般的な多角形の設計を極/角度表現に探索し、これらの表現を分析するためのインスタンス セグメンテーション mIOU メトリックを定義します。提案された多角形モデルの FisheyeDetNet は、他のモデルよりも優れたパフォーマンスを示し、同時に自動運転用の Valeo 魚眼カメラ データセットで 49.5% の mAP を達成しました。

FP8 以下の浮動小数点数値化精度は、もはや H100 の「特許」ではありません。 Lao Huang は誰もが INT8/INT4 を使用できるようにしたいと考え、Microsoft DeepSpeed チームは NVIDIA からの公式サポートなしで A100 上で FP6 の実行を開始しました。テスト結果は、A100 での新しい方式 TC-FPx の FP6 量子化が INT4 に近いか、場合によってはそれよりも高速であり、後者よりも精度が高いことを示しています。これに加えて、エンドツーエンドの大規模モデルのサポートもあり、オープンソース化され、DeepSpeed などの深層学習推論フレームワークに統合されています。この結果は、大規模モデルの高速化にも即座に影響します。このフレームワークでは、シングル カードを使用して Llama を実行すると、スループットはデュアル カードのスループットの 2.65 倍になります。 1つ

前に書かれたプロジェクトのリンク: https://nianticlabs.github.io/mickey/ 2 枚の写真が与えられた場合、それらの写真間の対応関係を確立することで、それらの間のカメラのポーズを推定できます。通常、これらの対応は 2D 対 2D であり、推定されたポーズはスケール不定です。いつでもどこでもインスタント拡張現実などの一部のアプリケーションでは、スケール メトリクスの姿勢推定が必要なため、スケールを回復するために外部深度推定器に依存します。この論文では、3D カメラ空間でのメトリックの対応を予測できるキーポイント マッチング プロセスである MicKey を提案します。画像全体の 3D 座標マッチングを学習することで、相対的なメトリックを推測できるようになります。

ソフトウェア テクノロジの最前線に立つ UIUC Zhang Lingming のグループは、BigCode 組織の研究者とともに、最近 StarCoder2-15B-Instruct 大規模コード モデルを発表しました。この革新的な成果により、コード生成タスクにおいて大きな進歩が達成され、CodeLlama-70B-Instruct を上回り、コード生成パフォーマンス リストのトップに到達しました。 StarCoder2-15B-Instruct のユニークな特徴は、その純粋な自己調整戦略であり、トレーニング プロセス全体がオープンで透過的で、完全に自律的で制御可能です。このモデルは、高価な手動アノテーションに頼ることなく、StarCoder-15B 基本モデルの微調整に応じて、StarCoder2-15B を介して数千の命令を生成します。
