


OpenAI の共同創設者 Karpathy が記事を公開しました: 自動運転を例として AGI を説明します!元のテキストは削除されました。今すぐブックマークしてください
「汎用人工知能」については、OpenAIの科学者であるKarpathy氏が解説を行った。
数日前、Karpathy 氏は個人ブログに「AGI の事例としての自動運転の研究」という記事を公開しました。
理由はわかりませんが、彼はこの記事を削除しました。幸いなことに、ネットワーク バックアップがあります。 。
#誰もが知っているように、Karpathy は OpenAI の創設メンバーの 1 人であるだけでなく、AI の元シニア ディレクターおよび責任者でもあります。テスラの自動運転オートパイロット。
彼は自動運転をケーススタディとして AGI を研究していますが、この記事の見解は実に一読の価値があります。
自動運転
LLM の発生により、AGI がいつ登場するかについて多くの疑問が生じています。議論がどのようなものであるか。
AGI の将来について希望に満ち、楽観視している人もいます。そして、恐怖と悲観に満ちている人もいます。
残念ながら、議論の多くは抽象的すぎるため、人々の意見が互いに矛盾する原因となっています。
したがって、私はこの主題をより具体的にアプローチするために、常に具体的な類似点や歴史的な先例を探しています。
特に、「AGI はどうなると思いますか?」と聞かれたとき、私は個人的に自動運転を例に挙げるのが好きです。この記事ではその理由を説明したいと思います。 AGI の一般的な定義から始めましょう:
AGI: 最も経済的に価値のあるタスクにおいて人間の能力を超える自律システム。
この AGI 定義には 2 つの特定の要件があることに注意してください。
まず第一に、これは完全に自律的なシステムです。つまり、人間の監視がほとんど、あるいはまったくなくても自動的に動作します。
第 2 に、最も経済的に価値のある作業を自律的に実行します。データのこの部分については、私は個人的に米国労働統計局の職業指数を参照することを好みます。
これらの両方の特性を持つシステムは、AGI と呼ばれます。
この記事で私が提案したいのは、最近の自動運転機能の開発は、ますます進歩する自動運転機能の非常に良い初期の例であるということです。自動化の社会的力学は、AGI の全体的な外観と感情の研究に拡張できます。
私がそう思う理由は、この分野にはいくつかの特徴があるからです。シンプルに「それは大変なことだ」と言うことができます。自動運転は非常に理解しやすく、社会にとってより一般的なものになります。
それは経済の大部分を占めており、大量の人員を雇用しています。運転は非常に複雑な問題ですが、すでに自動化が実現されており、社会から大きな注目を集めています。
もちろん、大規模な自動化を実現している業界は他にもありますが、私はそれらの業界に個人的に詳しくないか、上記の特性のいくつかが欠けています。
L2 レベルの自動化
運転の自動化は、AI の分野において非常に困難な問題と考えられており、一夜にして達成できるものではありません。
これは、運転タスクを段階的に自動化するプロセスを通じて形成され、このプロセスには「ツールベース AI」の多くの段階が含まれます。
車両自動化の観点から見ると、現在、多くの車両に L2 レベルの運転支援システムが搭載されています。つまり、人間のドライバーと協力して出発地から目的地までの移動を完了できる AI です。
L2 はまだ完全に自律化されていませんが、すでに運転における多くの基本的なタスクを処理できます。
場合によっては、自動駐車など、操作プロセス全体を自動的に完了することもできます。
このプロセスでは、人間は主に監督の役割を果たしますが、いつでも引き継いで直接運転したり、高度な指示を出したりすることもできます(車線変更要求など)。
一部の側面 (車線の中央を維持する、迅速な意思決定など) では、AI のパフォーマンスは人間のパフォーマンスを上回りますが、まれな状況ではまだ及ばないことがあります。
これは、他の業界、特に LLM の最近の技術的進歩で見てきた多くの AI ツールと非常に似ています。
たとえば、プログラマーとして、GitHub Copilot を使用してコードの一部を自動的に完成させたり、GPT-4 を使用してより複雑な関数を作成したりする場合、実際には基本的な機能を引き継ぎます。
##しかし、繰り返しになりますが、必要に応じていつでも介入して調整することができます。
言い換えれば、Copilot と GPT-4 は、プログラミング分野における「二次」自動化ツールのようなものです。
同様の「レベル 2」自動化ソリューションは業界全体に多数ありますが、TurboTax から Amazon の倉庫ロボット、さまざまな「ツールベースの AI」に至るまで、すべてが大きなモデルに基づいているわけではありません。翻訳、執筆、アート、法律、マーケティングなどの分野で。
完全自動運転
時間の経過とともに、一部のシステムは新たな信頼性レベルに到達しました。今日のウェイモのように。
「完全自動運転」が徐々に実現しつつある。
サンフランシスコでは、アプリを開くだけで Waymo 自動運転車が呼び出され、目的地まで安全に届けてくれます。
#これは本当にすごいことです。運転の知識がなくても、道路状況に注意する必要もなく、ゆったりと座って仮眠するだけで、スタート地点からゴール地点までシステムが連れて行ってくれます。 。私が話をする多くの人々と同様に、私は個人的に Uber よりも Waymo を好み、ほぼ都市部の交通手段にのみ Waymo を使用しています。
より安定した予測可能な走行体験が得られ、運転プロセスがスムーズになり、ドライバーがあなたの話を聞いているときに何を考えているかを気にすることなく音楽を聴くことができます。
「複合経済」
自動運転技術は現実化しましたが、まだ多くの技術が必要です。人々は Uber の利用を選択します。なぜ?まず第一に、多くの人は移動手段として Waymo を選択できることを知りません。たとえそれを知っていたとしても、多くの人は依然として自動化システムに対する十分な信頼を欠いており、人間のドライバーによる運転を好みます。
ただし、自動運転を受け入れても、ドライバーとの会話や他者との交流を楽しむなど、人間のドライバーを好む人もいるでしょう。
単に個人的な好みというだけでなく、現在のアプリケーションで待ち時間が増大していることから、Waymo が供給不足の問題に直面していることがわかります。市場に出回っている車両の数は需要を満たすにははるかに不十分です。
これの一部は、Waymo がリスクと世論の管理と監視に非常に慎重であることかもしれません。
一方、私の知る限り、Waymoは規制当局によって制限されており、一定台数の車両しか路上に配備できません。もう1つの制限要因は、Waymoが一夜にしてUberを完全に置き換えることはできないことだ。
彼らはインフラストラクチャを構築し、自動車を生産し、事業を拡大する必要があります。
私は個人的に、経済の他の分野でも同じ状況が自動化に直面すると信じています。すぐに自動化を導入する人や企業もいますが、多くの人は (1) これらのテクノロジーを理解していません、そして (2) (3)たとえ理解できたとしても、彼らは人間と協力することを好みます。 しかし、それを超えると、需要が供給を上回り、AGI は開発者の自制、規制上の制約、ニーズなどのリソース不足など、同じ理由で同じ制約にさらされることになります。より多くの GPU データセンターを構築します。 リソースの制約についてすでに示唆したように、このテクノロジーの世界的な展開には非常に費用がかかり、また多くの費用がかかります。人材不足で昇進スピードも遅い。 現在、Waymo はサンフランシスコとフェニックスでしか運転できませんが、テクノロジー自体は多用途で拡張性があるため、同社はすぐにロサンゼルスやオースティンの待機場所にも拡大する可能性があります。 自動運転車は、大雪での運転など、他の環境要因によっても制限される可能性があります。まれに、オペレーターの救助が必要になる場合もあります。 さらに、技術力の拡張には多大なリソースコストが必要であり、無料ではありません。 たとえば、Waymo は別の都市に入る前に、道路地図の描画、全体的な知覚経路計画、特定の特殊な状況や地域の規制に適応するためのアルゴリズムの制御などのリソースを投資する必要があります。 仕事のたとえが示すように、多くのタスクは特定の状況でのみ自動化される可能性があり、スケールアップには多大な作業が必要になります。 いずれの場合でも、自動運転技術自体は普遍的で拡張性があり、その応用の可能性は時間の経過とともに徐々に広がっていくでしょう。 自動運転技術が徐々に統合されていくプロセスについて特に興味深いと感じた点の 1 つ—— ほんの数年前、人々はそれがうまく機能するかどうか、さらには実現可能かどうかについて、熱心に議論し、疑問と不安でいっぱいでした。広く懸念されている問題。しかし今、自動運転はもはや夢の夢ではなく、現実に現れてきました。 単なる研究プロトタイプではなく、お金で購入できる完全に自動化された移動手段となります。 現在の応用範囲内で、自動運転技術は完全な自律性を実現しています。 しかし、全体として、これはあまり多くの人々の注目を集めていないようです。私が話をする人のほとんど(技術者も含めて!)は、この発展についてさえ知りません。 Waymo に乗ってサンフランシスコの路上を走ると、たくさんの好奇の目で見られることに気づくでしょう。彼らはまず驚き、次に好奇の目で見つめます。 その後、彼らは自分たちの人生を歩んでいきます。 自動運転技術が他の業界でも完全自動運転を実現すれば、世界は混乱しないかもしれません。 #ほとんどの人は、最初はこの変化にさえ気づかないかもしれません。気づいたとしても、好奇心旺盛にそれを見つめるだけで、拒否から受け入れまでさまざまな反応を示し、その後は無視するかもしれません。 これに腹を立て、Waymo 車の前にトラフィックコーンを設置するなどの抗議行動を起こす人もいるかもしれません。 もちろん、これまでのところ、私たちはこの現象が完全に実現されるのを目撃するにはまだ程遠いです。しかし、それが起こるとき、私はそれがほぼ予測できることを期待しています。 雇用について話すとき、Waymoが明らかにドライバーの地位を置き換えたことは否定できません。 しかし同時に、以前には存在しなかった多くの仕事も生まれ、これらの役職は比較的目立たなくなりました。たとえば、ニューラル ネットワークのトレーニング データを収集するアノテーター、リモートサポートに遭遇するのは、問題の車のカスタマー サービス スタッフ、フリートの構築とメンテナンスを担当するスタッフなどです。 最初に生まれたのは、これらの洗練されたハイテク自動車を製造するために設計されたセンサーと関連インフラストラクチャの全く新しい産業でした。 人々が一般的に仕事について考えるのと同じように、多くの役職が変化し、その結果消滅する役職もありますが、多くの新しい役職も登場します。 これは、単純なポジションの削減ではなく、実際には仕事の形態の変化ですが、ポジションの削減が最も直感的な変化です。 全体的な雇用が時間の経過とともに減少しないと言うのは難しいですが、変化のペースは単純に予想されるよりもはるかに遅いです。 最後に、自動運転分野における競争環境についてお話したいと思います。 数年前、自動運転車の会社が雨後の筍のように出現していました。しかし今日、人々がこのテクノロジーの複雑さを徐々に認識するにつれて(個人的には、現在の人工知能とコンピューティングテクノロジーに基づいて自動化は依然として非常に難しいと信じています)、この分野は大規模な統合を経験しています。 その中で、Waymo は自動運転の将来を完全に実証した最初の企業となりました。 これにもかかわらず、Cruise、Zoox、そして私の個人的なお気に入りの Tesla など、まだ追いつきつつある企業がいくつかあります。 私の経験とこの分野への参加に基づいて、ここで簡単に言及したいと思います。私の考えでは、自動運転業界の最終目標は、地球規模で完全自動運転を実現することです。 Waymo は、まず自動運転を実現してから世界に展開する戦略を選択しましたが、Tesla は最初に世界に展開し、その後徐々に自動運転技術を向上させました。 明らかに、これら 2 つの企業はまったく異なる調整に直面することになります。1 社は主にソフトウェアに取り組んでおり、もう 1 社はハードウェアに取り組んでいます。 現在、私は同社の製品に非常に満足しており、個人的にはテクノロジー自体を全面的にサポートしています。 同様に、他の多くの産業も急速な成長と拡大の段階を迎える可能性があります (2015 年頃の自動運転分野など)。結局のところ、競争に生き残れるのはほんの少数の企業だけかもしれません。 このプロセスでは、多くの実用的な AI 補助ツール (現在の L2 ADAS 機能など) といくつかのオープン プラットフォーム (Comma など) が広く使用されます。 上記は、汎用人工知能の将来についての私の見解です。インテリジェンス (AGI) 開発の一般的な考え方。 そのような変化がさまざまな速度で経済全体に広がり、多くの予測不可能な相互作用や連鎖反応を伴うことを想像してください。 このアイデアは完璧ではないかもしれませんが、覚えておく価値があり、参考になるモデルだと思います。 ミームの観点から見ると、AGI は、人間の制御を逃れ、サイバー空間で再帰的に自己強化し、致死性の病原体やナノボットを生み出し、最終的には銀河系を A に変える一種のテクノロジーに関連しています。灰色のグー超知性とは程遠い。 これに比べて、これは自動運転技術の開発に似ています。この技術は急速に進歩しており、自動化が可能です。社会を変えるテクノロジー。その開発速度は、教育を受けた労働力、情報、材料、エネルギー、規制などの多くの面で制限されるでしょう。 この点において、社会は観察者であると同時に参加者でもあります。 #世界は崩壊しませんが、適応し、変化し、再構築します。 自動運転そのものに関する限り、交通の自動化により安全性が大幅に向上し、街はより新鮮でスムーズになり、道路の両側を占拠していた駐車場や駐車車両は徐々になくなり、道が開けます。もっとたくさんのスペース。 私は個人的に、汎用人工知能 (AGI) によってもたらされるあらゆる変化に期待でいっぱいです。 つまり、カルパシーは AGI を自動運転の開発に近いものと考えています。この特定の例えは、多くの人によって議論されるきっかけとなりました。ネチズンたち。 「FSD を実現できなかったのに、FSD を AGI と比較することに決めた男を見て、私たちはまだ何十年もあるという自信を実際に持ちました。」 ええ、彼は「G」を忘れたようです。数十年前、ノーヴィグが人工知能に関する著作の中で、「知能」とは全能を意味するわけではない、知的エージェントが役立つためには、小さな問題を解決できれば十分である、と述べたことを思い出します。私の意見では、これが G の由来です。 そして今、突然以前の狭義の定義に戻ってしまったのでしょうか? LLM と自動運転から AGI への道はまだ見えません。 もちろん、Waymo が自動運転車を開発したのと同じように、AGI の開発は徐々にゆっくり進む可能性があります。ただし、これは多くの方法のうちの 1 つにすぎず、大規模な LLM をスケーリングするなど、非常に異なる方法で AGI が出現することもあります。
テクノロジーのグローバル化
社会の反応: すぐに「通り過ぎる雲」になった
経済的影響
競争環境
汎用人工知能 (AGI)
ネチズンの間で熱い議論が行われています
以上がOpenAI の共同創設者 Karpathy が記事を公開しました: 自動運転を例として AGI を説明します!元のテキストは削除されました。今すぐブックマークしてくださいの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









上記と著者の個人的な理解 3 次元ガウシアンプラッティング (3DGS) は、近年、明示的な放射線フィールドとコンピューター グラフィックスの分野で出現した革新的なテクノロジーです。この革新的な方法は、数百万の 3D ガウスを使用することを特徴とし、主に暗黙的な座標ベースのモデルを使用して空間座標をピクセル値にマッピングする神経放射線場 (NeRF) 方法とは大きく異なります。明示的なシーン表現と微分可能なレンダリング アルゴリズムにより、3DGS はリアルタイム レンダリング機能を保証するだけでなく、前例のないレベルの制御とシーン編集も導入します。これにより、3DGS は、次世代の 3D 再構築と表現にとって大きな変革をもたらす可能性のあるものとして位置付けられます。この目的を達成するために、私たちは 3DGS 分野における最新の開発と懸念について初めて体系的な概要を提供します。

昨日の面接で、ロングテール関連の質問をしたかと聞かれたので、簡単にまとめてみようと思いました。自動運転のロングテール問題とは、自動運転車におけるエッジケース、つまり発生確率が低い考えられるシナリオを指します。認識されているロングテール問題は、現在、単一車両のインテリジェント自動運転車の運用設計領域を制限している主な理由の 1 つです。自動運転の基礎となるアーキテクチャとほとんどの技術的問題は解決されており、残りの 5% のロングテール問題が徐々に自動運転の開発を制限する鍵となってきています。これらの問題には、さまざまな断片的なシナリオ、極端な状況、予測不可能な人間の行動が含まれます。自動運転におけるエッジ シナリオの「ロング テール」とは、自動運転車 (AV) におけるエッジ ケースを指します。エッジ ケースは、発生確率が低い可能性のあるシナリオです。これらの珍しい出来事

0.前面に書かれています&& 自動運転システムは、さまざまなセンサー (カメラ、ライダー、レーダーなど) を使用して周囲の環境を認識し、アルゴリズムとモデルを使用することにより、高度な知覚、意思決定、および制御テクノロジーに依存しているという個人的な理解リアルタイムの分析と意思決定に。これにより、車両は道路標識の認識、他の車両の検出と追跡、歩行者の行動の予測などを行うことで、安全な運行と複雑な交通環境への適応が可能となり、現在広く注目を集めており、将来の交通分野における重要な開発分野と考えられています。 。 1つ。しかし、自動運転を難しくしているのは、周囲で何が起こっているかを車に理解させる方法を見つけることです。これには、自動運転システムの 3 次元物体検出アルゴリズムが、周囲環境にある物体 (位置を含む) を正確に認識し、記述することができる必要があります。

StableDiffusion3 の論文がついに登場しました!このモデルは2週間前にリリースされ、Soraと同じDiT(DiffusionTransformer)アーキテクチャを採用しており、リリースされると大きな話題を呼びました。前バージョンと比較して、StableDiffusion3で生成される画像の品質が大幅に向上し、マルチテーマプロンプトに対応したほか、テキスト書き込み効果も向上し、文字化けが発生しなくなりました。 StabilityAI は、StableDiffusion3 はパラメータ サイズが 800M から 8B までの一連のモデルであると指摘しました。このパラメーター範囲は、モデルを多くのポータブル デバイス上で直接実行できることを意味し、AI の使用を大幅に削減します。

自動運転では軌道予測が重要な役割を果たしており、自動運転軌道予測とは、車両の走行過程におけるさまざまなデータを分析し、将来の車両の走行軌跡を予測することを指します。自動運転のコアモジュールとして、軌道予測の品質は下流の計画制御にとって非常に重要です。軌道予測タスクには豊富な技術スタックがあり、自動運転の動的/静的知覚、高精度地図、車線境界線、ニューラル ネットワーク アーキテクチャ (CNN&GNN&Transformer) スキルなどに精通している必要があります。始めるのは非常に困難です。多くのファンは、できるだけ早く軌道予測を始めて、落とし穴を避けたいと考えています。今日は、軌道予測に関するよくある問題と入門的な学習方法を取り上げます。関連知識の紹介 1. プレビュー用紙は整っていますか? A: まずアンケートを見てください。

原題: SIMPL: ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving 論文リンク: https://arxiv.org/pdf/2402.02519.pdf コードリンク: https://github.com/HKUST-Aerial-Robotics/SIMPL 著者単位: 香港科学大学DJI 論文のアイデア: この論文は、自動運転車向けのシンプルで効率的な動作予測ベースライン (SIMPL) を提案しています。従来のエージェントセントとの比較

先頭と開始点に書かれている エンドツーエンドのパラダイムでは、統一されたフレームワークを使用して自動運転システムのマルチタスクを実現します。このパラダイムの単純さと明確さにも関わらず、サブタスクにおけるエンドツーエンドの自動運転手法のパフォーマンスは、依然としてシングルタスク手法に比べてはるかに遅れています。同時に、以前のエンドツーエンド手法で広く使用されていた高密度鳥瞰図 (BEV) 機能により、より多くのモダリティやタスクに拡張することが困難になります。ここでは、スパース検索中心のエンドツーエンド自動運転パラダイム (SparseAD) が提案されています。このパラダイムでは、スパース検索は、高密度の BEV 表現を使用せずに、空間、時間、タスクを含む運転シナリオ全体を完全に表します。具体的には、統合されたスパース アーキテクチャが、検出、追跡、オンライン マッピングなどのタスク認識のために設計されています。さらに、重い

この 1 か月間、いくつかのよく知られた理由により、私は業界のさまざまな教師やクラスメートと非常に集中的な交流をしてきました。この交換で避けられない話題は当然、エンドツーエンドと人気の Tesla FSDV12 です。この機会に、現時点での私の考えや意見を整理し、皆様のご参考とご議論に役立てたいと思います。エンドツーエンドの自動運転システムをどのように定義するか、またエンドツーエンドで解決することが期待される問題は何でしょうか?最も伝統的な定義によれば、エンドツーエンド システムとは、センサーから生の情報を入力し、関心のある変数をタスクに直接出力するシステムを指します。たとえば、画像認識では、従来の特徴抽出 + 分類子方式と比較して、CNN はエンドツーエンドと言えます。自動運転タスクでは、各種センサー(カメラ/LiDAR)からのデータを入力
