### トラブルを招く!
AI は、人間が GitHub でどのように更新 (コミット) を送信するかを「観察」し、人間のプログラマーを真似てコードを変更しました...最終的に、AI は無事に「訓練」されました インテリジェントなロボットが誕生しました:コミットの説明と、送信前後のコードを比較する差分データを組み合わせたものは、AI にとって優れた学習教材となります。
研究者らは、GPT-3 アーキテクチャ AI モデルをトレーニングするために、明確な説明と少量の修正コードを含む提出されたデータの一部を選別しました。
これは、AI にコードの一部を意図的に変更する方法を人間のプログラマーから学習させるのと同じです。
この論文で使用されるモデルは、GPT-3 のフルバージョンの 1,750 億個のパラメータほど大きい必要はなく、最大 7 億 5,000 万個のパラメータで十分です。
このようにして、遺伝的アルゴリズムにおける突然変異オペレーターの役割を果たす基本的な AI モデルが得られます。
AI に新しいロボットを設計させる次のプロセスは 3 つのステップに分かれています。
最初のステップは、従来の MAP-Elites アルゴリズムを使用してロボットの初期セットを生成することです。
これは、ロボットが異なる動作をし、すべてが高品質であることを保証する QD (Quality Diversity) アルゴリズムです。
2 番目のステップでは、最初のステップで生成された初期データを事前トレーニングに使用して、AI がまずトレーニング データ内でロボットの設計を学習できるようにします。分布。
これは、インターネット上のすべての人に衝撃を与えた冒頭のアニメーション画像で、AI が動かない「ブロック」を交互に跳ねる脚を備えた移動ロボットに段階的に変換する様子を示しています。
3 番目のステップは、AI がさまざまな地形条件に応じて環境に適応できるロボットを生成できるように、強化学習アルゴリズムを微調整することです。
最終的に、研究者らは効果を実証するために、最初の 3 つのシードから進化したロボットを選択しました。
構造や動作方法が全く異なることが分かります。
この研究が発表されると、一石で何千もの波を引き起こしたと言えます。
多くのネチズンは、「大規模モデル進化アルゴリズム」を組み合わせるこの斬新な方法に驚いています:
関連研究を行った研究者も、「考えもしなかった」と述べています。大規模なモデルを使用して差分形式で突然変異を学習できるということ:
研究モデルとそれ自体についての議論に加えて、一部のネチズンは次の写真も追加しました。
うーん...ちょっと似ていますね。
この研究のチームメンバーは全員 OpenAI の出身です。
この論文の最初の著者は、機械学習科学者の Joel Lehman です。重点分野には、人工知能セキュリティ、強化学習、オープン検索アルゴリズムが含まれます。
同時に、ジョエル・リーマンは以前、人工知能の開発についての考えに基づいた科学本「なぜ偉大さを計画できないのか: 客観性の秘密」を共著しました:
この研究の次のステップについては、Joel Lehman 自身が次のように述べています:
もう 1 つの重要な問題があります。それは、モデルが他の環境にどの程度適用できるかということです。
GP における変異の有効性は ELM によって大幅に改善できるようになり、幅広い新しい応用や研究の方向性を刺激することになります。
では、この研究はあなたに新たなインスピレーションを与えてくれましたか?
参考リンク:
[1]https://arxiv.org/abs/2206.08896
[2]https://twitter. com/joelbot3000/status/1538770905119150080?s=21&t=l8AASYjgC6RAEEimcQaFog
以上がAI はエージェントを進化させるために独自のコードを作成します。 OpenAIの大きなモデルは「人間の思考」のような味わいの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。