スタンフォード大学の「バーチャルタウン」と「ウエストワールド」から着想を得た25種類のAIエージェントのソースコードが公開
「ウエストワールド」をよく知っている視聴者は、このショーが未来の世界にある巨大なハイテク成人向けテーマパークを舞台としていることを知っています。ロボットは人間と同様の行動能力を持ち、見聞きしたものを記憶することができます。 、核となるストーリーラインを繰り返します。これらのロボットは毎日リセットされ、初期状態に戻ります。
スタンフォード大学の論文「Generative Agents: Interactive Simulacra of Human Behavior」の発表後、このシナリオは制限されなくなりました。映画やテレビドラマで、AI はこのシーンを再現することに成功しました
スモールビルの「仮想都市」の概要
- 論文アドレス: https://arxiv.org/pdf/2304.03442v1.pdf
- プロジェクト アドレス: https://github.com/joonspk-research/generative_agents
研究者たちは、25 人の AI エージェントを含む Smallville という仮想都市の作成に成功しました。彼らは町に住み、仕事を持ち、噂話を交換し、社会活動に参加し、友人を作ります。新しい友人を作り、さらにはホストもしますバレンタインデーのパーティー。町の住人にはそれぞれ独自の個性と背景ストーリーがあります。
「町の住人」のリアリティを高めるために、スモールビルの町にはカフェ、バー、公園、学校、寮、住宅、店舗。 Smallville では、住民はこれらの場所の間を自由に移動し、他の住民と交流し、お互いに挨拶することさえできます。出入り
#街の住人は人間と同じようにどのように行動するのでしょうか?たとえば、朝食に火がついているのを見ると、率先してストーブの火を消します、トイレに誰かを見つけたら外で待ちます、話したい人に会うと立ち止まります。残念ながら、この研究は当時公表されておらず、さらなる情報は出版された論文を通じてのみ入手できました。しかし、時間が経った今、研究者らは研究をオープンソース化しました。このニュースは、スタンフォード大学の博士課程の学生で論文の著者の一人であるJoon Sung Park氏も認めました。
##プロジェクトのオープンソースにより、ゲーム業界に幅広い影響を与え、ネチズンの期待に応えることが期待されます。将来のコンピューター ゲームでは、各住民が独立した生活、仕事、趣味を持ち、プレイヤーがリアルに住民と対話できる仮想都市が表示される可能性があります
## "私は、この研究が AGI の始まりであると信じています。やるべきことはまだたくさんありますが、これは正しい道です。ついに、オープンソースがここにあります!」
ネチズンはこの研究をビデオ ゲーム「ザ・シムズ」に応用することも望んでいます
しかし、これについて懸念を表明する人もいます。 。 AI エージェントを構築するには大規模なモデルに依存する必要があることは誰もが知っていますが、問題を考慮する必要があります。LLM は人間によって徐々に「飼いならされ」ているため、人間の実際の感情や行動を完全に反映することができず、人間が考えている行動しか示すことができません。そして、怒り、犯罪、不平等、嫉妬、暴力などの行動が大幅に弱まります。したがって、AI エージェントが人間の現実の生活を完全に再現することは困難です。
いずれにせよ、人々は依然として、 Smallville Passion に関するオープンソースの懸念
スタンフォードのオープンソース Smallville の「仮想タウン」に加えて、他の AI エージェントもいくつかリストしたいと思います
スタートアップの Fable は AI エージェントを使用して、 AI を完全に活用した仮想都市。脚本、アニメーション、監督、編集などの制作プロセスを完了し、「サウスパーク」エピソードの撮影に成功しました
NVIDIA AI Agent Voyager GPT-4 に接続すると、人間の介入なしで Minecraft をプレイできます。
SenseTime、清華大学、その他の機関が共同開発したジェネラリスト AI エージェントである Ghost in the Minecraft (GITM) が、Minecraft でパフォーマンスを実証しました以前のすべてのエージェントの優れたパフォーマンスを上回り、トレーニング コストを大幅に削減
さらに多くの研究があるため、すべてをリストすることはできません。 Stanford Virtual Town のオープンソースにより、より多くの企業や機関がこのランクに加わると考えています
以上がスタンフォード大学の「バーチャルタウン」と「ウエストワールド」から着想を得た25種類のAIエージェントのソースコードが公開の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









テキスト注釈は、テキスト内の特定のコンテンツにラベルまたはタグを対応させる作業です。その主な目的は、特に人工知能の分野で、より深い分析と処理のためにテキストに追加情報を提供することです。テキスト注釈は、人工知能アプリケーションの教師あり機械学習タスクにとって非常に重要です。これは、自然言語テキスト情報をより正確に理解し、テキスト分類、感情分析、言語翻訳などのタスクのパフォーマンスを向上させるために AI モデルをトレーニングするために使用されます。テキスト アノテーションを通じて、AI モデルにテキスト内のエンティティを認識し、コンテキストを理解し、新しい同様のデータが出現したときに正確な予測を行うように教えることができます。この記事では主に、より優れたオープンソースのテキスト注釈ツールをいくつか推奨します。 1.LabelStudiohttps://github.com/Hu

画像の注釈は、ラベルまたは説明情報を画像に関連付けて、画像の内容に深い意味と説明を与えるプロセスです。このプロセスは機械学習にとって重要であり、画像内の個々の要素をより正確に識別するために視覚モデルをトレーニングするのに役立ちます。画像に注釈を追加することで、コンピュータは画像の背後にあるセマンティクスとコンテキストを理解できるため、画像の内容を理解して分析する能力が向上します。画像アノテーションは、コンピュータ ビジョン、自然言語処理、グラフ ビジョン モデルなどの多くの分野をカバーする幅広い用途があり、車両が道路上の障害物を識別するのを支援したり、障害物の検出を支援したりするなど、幅広い用途があります。医用画像認識による病気の診断。この記事では主に、より優れたオープンソースおよび無料の画像注釈ツールをいくつか推奨します。 1.マケセンス

顔の検出および認識テクノロジーは、すでに比較的成熟しており、広く使用されているテクノロジーです。現在、最も広く使用されているインターネット アプリケーション言語は JS ですが、Web フロントエンドでの顔検出と認識の実装には、バックエンドの顔認識と比較して利点と欠点があります。利点としては、ネットワーク インタラクションの削減とリアルタイム認識により、ユーザーの待ち時間が大幅に短縮され、ユーザー エクスペリエンスが向上することが挙げられます。欠点としては、モデル サイズによって制限されるため、精度も制限されることが挙げられます。 js を使用して Web 上に顔検出を実装するにはどうすればよいですか? Web 上で顔認識を実装するには、JavaScript、HTML、CSS、WebRTC など、関連するプログラミング言語とテクノロジに精通している必要があります。同時に、関連するコンピューター ビジョンと人工知能テクノロジーを習得する必要もあります。 Web 側の設計により、次の点に注意してください。

マルチモーダル文書理解機能のための新しい SOTA!アリババの mPLUG チームは、最新のオープンソース作品 mPLUG-DocOwl1.5 をリリースしました。これは、高解像度の画像テキスト認識、一般的な文書構造の理解、指示の遵守、外部知識の導入という 4 つの主要な課題に対処するための一連のソリューションを提案しています。さっそく、その効果を見てみましょう。複雑な構造のグラフをワンクリックで認識しMarkdown形式に変換:さまざまなスタイルのグラフが利用可能:より詳細な文字認識や位置決めも簡単に対応:文書理解の詳しい説明も可能:ご存知「文書理解」 「」は現在、大規模な言語モデルの実装にとって重要なシナリオです。市場には文書の読み取りを支援する多くの製品が存在します。その中には、主にテキスト認識に OCR システムを使用し、テキスト処理に LLM と連携する製品もあります。

最新の AIGC オープンソース プロジェクト、AnimagineXL3.1 をご紹介します。このプロジェクトは、アニメをテーマにしたテキストから画像へのモデルの最新版であり、より最適化された強力なアニメ画像生成エクスペリエンスをユーザーに提供することを目的としています。 AnimagineXL3.1 では、開発チームは、モデルのパフォーマンスと機能が新たな高みに達することを保証するために、いくつかの重要な側面の最適化に重点を置きました。まず、トレーニング データを拡張して、以前のバージョンのゲーム キャラクター データだけでなく、他の多くの有名なアニメ シリーズのデータもトレーニング セットに含めました。この動きによりモデルの知識ベースが充実し、さまざまなアニメのスタイルやキャラクターをより完全に理解できるようになります。 AnimagineXL3.1 では、特別なタグと美学の新しいセットが導入されています

FP8 以下の浮動小数点数値化精度は、もはや H100 の「特許」ではありません。 Lao Huang は誰もが INT8/INT4 を使用できるようにしたいと考え、Microsoft DeepSpeed チームは NVIDIA からの公式サポートなしで A100 上で FP6 の実行を開始しました。テスト結果は、A100 での新しい方式 TC-FPx の FP6 量子化が INT4 に近いか、場合によってはそれよりも高速であり、後者よりも精度が高いことを示しています。これに加えて、エンドツーエンドの大規模モデルのサポートもあり、オープンソース化され、DeepSpeed などの深層学習推論フレームワークに統合されています。この結果は、大規模モデルの高速化にも即座に影響します。このフレームワークでは、シングル カードを使用して Llama を実行すると、スループットはデュアル カードのスループットの 2.65 倍になります。 1つ

論文のアドレス: https://arxiv.org/abs/2307.09283 コードのアドレス: https://github.com/THU-MIG/RepViTRepViT は、モバイル ViT アーキテクチャで優れたパフォーマンスを発揮し、大きな利点を示します。次に、この研究の貢献を検討します。記事では、主にモデルがグローバル表現を学習できるようにするマルチヘッド セルフ アテンション モジュール (MSHA) のおかげで、軽量 ViT は一般的に視覚タスクにおいて軽量 CNN よりも優れたパフォーマンスを発揮すると述べられています。ただし、軽量 ViT と軽量 CNN のアーキテクチャの違いは十分に研究されていません。この研究では、著者らは軽量の ViT を効果的なシステムに統合しました。

最新の国内大規模オープンソース MoE モデルは、デビュー直後から人気を集めています。 DeepSeek-V2 のパフォーマンスは GPT-4 レベルに達しますが、オープンソースで商用利用は無料で、API 価格は GPT-4-Turbo のわずか 1% です。そのため、公開されるとすぐに大きな話題を呼びました。公開されているパフォーマンス指標から判断すると、DeepSeekV2 の包括的な中国語機能は多くのオープンソース モデルの機能を上回っています。同時に、GPT-4Turbo や Wenkuai 4.0 などのクローズド ソース モデルも第一段階にあります。総合的な英語力もLLaMA3-70Bと同じ第一段階にあり、同じくMoEであるMixtral8x22Bを上回っています。また、知識、数学、推論、プログラミングなどでも優れたパフォーマンスを示します。 128K コンテキストをサポートします。これをイメージしてください
