大規模モデルと具体化されたインテリジェンスの火花、ICML 2024 MFM-EAI ワークショップの論文募集とチャレンジが開始-AI-php.cn

ホームページ

テクノロジー周辺機器

大規模モデルと具体化されたインテリジェンスの火花、ICML 2024 MFM-EAI ワークショップの論文募集とチャレンジが開始

PHPz

Jul 15, 2024 am 11:57 AM

業界身体化された知性マルチモーダル基本モデル workshop

大模型与具身智能的火花，ICML 2024 MFM-EAI Workshop征稿和挑战赛启动

ワークショップホームページ： https://icml-mfm-eai.github.io/

概要

近年、CLIP、ImageBind、DALL・Eなどのマルチモーダル基本モデル(MFM)が注目されています。 3. GPT-4V、Gemini、Sora は、人工知能の分野で最も注目を集め、急速に発展している分野の 1 つとなっています。同時に、LLaVA、LAMM、MiniGPT-4、Stable Diffusion、OpenSora などの代表的なオープンソースプロジェクトによる MFM オープンソースコミュニティも出現しました。

従来のコンピュータービジョンや自然言語処理モデルとは異なり、このタイプの MFM は一般的な問題の解決策を積極的に模索しています。 MFM を導入することにより、エンボディドインテリジェンス (EAI) は、シミュレータや現実世界の環境でさまざまな複雑なタスクをより適切に処理できるようになります。ただし、MFM と EAI の交差点には、エージェントの長期的な意思決定、エージェントの動作計画、新しい環境の一般化機能など、まだ検討および解決されていない多くの問題がまだあります。

このワークショップは、

生成モデルに基づく世界モデル、
模倣学習データ収集など、いくつかの重要な問題を探ることに専念します。
ワークショップ論文募集

このワークショップは、マルチモーダル基本モデル (MFM)、身体性知能 (EAI)、および 2 つの研究の共通点に焦点を当てています。この論文募集のトピックには以下が含まれますが、これらに限定されません:

オープンエンドシナリオでのMFMのトレーニングと評価

MFMを利用した身体化エージェントのためのフレームワーク設計
知覚と高MFM によって権限を与えられた身体化エージェントでのレベル計画
MFM によって権限を与えられた身体化エージェントでの意思決定と低レベルの制御
身体化エージェントの能力の評価
世界シミュレータとしての生成モデル
EAI を強化する際の MFM の限界
投稿ルール

この投稿は OpenReview プラットフォームを通じて二重盲検審査の対象となります。応募作品の本文は4ページまでとし、参考文献や補足資料の長さの制限はありません。

提出フォーマットとテンプレートは、ICML 2024 提出ガイドラインに従います: https://icml.cc/Conferences/2024/CallForPapers

タイムノード

すべてのタイムノードは[AoE](地球上のどこでも)です。

MFM-EAI チャレンジ大模型与具身智能的火花，ICML 2024 MFM-EAI Workshop征稿和挑战赛启动

3 つのトラック (同時に参加可能)

EgoPlan チャレンジ

EgoPlan Challenge は、現実世界のシナリオでマルチモーダルな大規模モデルを評価するように設計されています。ターゲティング人間の日常的な活動に関わる現実世界のタスクを計画する能力。モデルは、タスクの目標の説明、一人称視点のビデオ、現在の環境の観察に基づいて、タスクを完了するための合理的なアクションを選択する必要があります。

コンテスト公式サイト：https://chenyi99.github.io/ego_plan_challenge/

登録期間: 今から 2024 年 7 月 1 日まで
賞品設定:
優勝者: $800
- イノベーション賞: $600

コンポーザブル汎化エージェントチャレンジ

コンポーザブル汎化エージェントチャレンジは、オープンシナリオでの計画と実行を組み合わせたシステムのタスク機能と汎化機能を評価することを目的としています。モデルは言語タスクの記述とマルチモーダル視覚入力に基づいてタスク分解を実行し、コントローラーは分解されたサブタスクを実行します。

詳細は 7 月に発表されます

ワールドモデルチャレンジ

ワールドモデルチャレンジは、身体化されたインテリジェンスシナリオにおけるワールドシミュレーターのアプリケーションパフォーマンスを評価することを目的としています。このモデルは、具体化されたタスクの説明とリアルタイムのシーン観察に基づいてタスクの指示に従うビデオを生成し、ビデオ生成の品質とエージェントがタスクを完了するようにガイドする能力を評価します。

詳細は7月に発表します