ホームページ

テクノロジー周辺機器

Meituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイルマルチモーダル大型モデル MobileVLM を開発しました。

Meituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイルマルチモーダル大型モデル MobileVLM を開発しました。

王林

Jan 08, 2024 pm 02:46 PM

業界

モバイル端末に大型モデルがやってくる波はますます強くなり、ついに誰かがマルチモーダルな大型モデルをモバイル端末に移しました。最近、美団、浙江大学などが、LLMベーストレーニング、SFT、VLMのプロセス全体を含む、モバイル端末上に展開できるマルチモーダル大規模モデルを発表しました。おそらく近い将来、誰もが自分の大型モデルを便利に、早く、低コストで所有できるようになるでしょう。

MobileVLM は、モバイルデバイス向けに設計された、高速かつ強力でオープンなビジュアル言語アシスタントです。これは、ゼロからトレーニングされた 1.4B および 2.7B パラメーター言語モデル、CLIP 方式で事前トレーニングされたマルチモーダルビジョンモデル、プロジェクションによる効率的なクロスモーダルインタラクションなど、モバイルデバイス向けのアーキテクチャ設計とテクノロジーを組み合わせたものです。 MobileVLM のパフォーマンスは、さまざまなビジュアル言語ベンチマークにおける大規模モデルと同等です。さらに、Qualcomm Snapdragon 888 CPU と NVIDIA Jeston Orin GPU での最速の推論速度を実証します。

##論文アドレス: https://arxiv.org/pdf/2312.16886.pdf

はじめに

大規模マルチモダリティモデル(LMM)、特に視覚言語モデル (VLM) ファミリーは、知覚と推論の能力が大幅に強化されているため、ユニバーサルアシスタントを構築するための有望な研究方向となっています。ただし、事前トレーニングされた大規模言語モデル (LLM) とビジュアルモデルの表現をどのように接続し、クロスモーダル特徴を抽出し、視覚的な質問応答、画像字幕、視覚的な知識推論、対話などのタスクを完了する方法は常に問題でした。。

このタスクにおける GPT-4V と Gemini の優れたパフォーマンスは、何度も証明されています。ただし、これらの独自モデルの技術的な実装の詳細はまだ十分に理解されていません。同時に、研究コミュニティは一連の言語調整方法も提案しています。たとえば、Flamingo はビジュアルトークンを活用して、ゲートされたクロスアテンションレイヤーを通じて凍結された言語モデルを条件付けします。 BLIP-2 は、この対話は不十分であると考え、フリーズされたビジュアルエンコーダから最も有用な機能を抽出し、フリーズされた LLM に直接フィードする軽量のクエリトランスフォーマ (Q-Former と呼ばれる) を導入します。 MiniGPT-4 は、BLIP-2 のフリーズされたビジュアルエンコーダーと、プロジェクションレイヤーを介してフリーズされた言語モデル Vicuna を組み合わせます。さらに、LLaVA は、単純なトレーニング可能なマッピングネットワークを適用して、視覚的特徴を、言語モデルによって処理される単語埋め込みと同じ次元の埋め込みトークンに変換します。

大規模なマルチモーダルデータの多様性に適応するために、トレーニング戦略が徐々に変化していることは注目に値します。 LLaVA は、LLM の命令調整パラダイムをマルチモーダルシナリオに再現する最初の試みとなる可能性があります。マルチモーダル命令トレースデータを生成するために、LLaVA は画像の説明文や画像のバウンディングボックス座標などのテキスト情報を純粋言語モデル GPT-4 に入力します。 MiniGPT-4 は、まず画像説明文の包括的なデータセットでトレーニングされ、次に [画像とテキスト] のペアのキャリブレーションデータセットで微調整されます。 InstructBLIP は、事前トレーニングされた BLIP-2 モデルに基づいてビジュアル言語コマンドチューニングを実行し、Q-Former はコマンドチューニング形式で編成されたさまざまなデータセットでトレーニングされます。 mPLUG-Owl は 2 段階のトレーニング戦略を導入しています。まず視覚部分を事前トレーニングし、次に LoRA を使用して、さまざまなソースからの命令データに基づいて大規模言語モデル LLaMA を微調整します。

#VLM における上記の進歩にもかかわらず、コンピューティングリソースが限られている場合には、依然としてクロスモーダル機能を使用する必要があります。 Gemini は、さまざまなマルチモーダルベンチマークで sota を上回り、低メモリデバイス向けに 1.8B および 3.25B パラメータを備えたモバイルグレードの VLM を導入しています。また、Gemini は蒸留や量子化などの一般的な圧縮技術も使用します。このペーパーの目標は、公開データセットと視覚認識と推論のための利用可能なテクノロジーを使用してトレーニングされ、リソースに制約のあるプラットフォーム向けに調整された、初のオープンなモバイルグレード VLM を構築することです。この記事の貢献は次のとおりです。

MobileVLM

全体的なアーキテクチャ設計

研究者らは、リソースが限られたエッジデバイスで効率的な視覚認識と推論を達成するという主な目標を考慮して、図 1 に示すように MobileVLM の全体的なアーキテクチャを設計しました。モデルは 3 つのコンポーネントで構成されます: 1) ビジュアルエンコーダ、2) カスタマイズされた LLM エッジデバイス (MobileLLaMA)、3) アライメント用の効率的なマッピングネットワーク (論文では「Lightweight Downsampling Mapping」、LDP と呼ばれます)空間。

画像

Meituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイルマルチモーダル大型モデル MobileVLM を開発しました。

を入力として受け取ると、ビジュアルエンコーダ F_enc は画像認識のための視覚的埋め込み Meituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイルマルチモーダル大型モデル MobileVLM を開発しました。

を抽出します。ここで、N_v = HW/P^2 は画像ブロックの数を表し、D_v は画像ブロックの隠れ層サイズを表します。視覚的な埋め込み。画像トークン処理の効率の問題を軽減するために、研究者らは、視覚特徴圧縮と視覚テキストモーダル整列のための軽量マッピングネットワーク P を設計しました。次のように、 f を単語埋め込み空間に変換し、後続の言語モデルに適切な入力次元を提供します:

このようにして、イメージ# のトークンが取得されます # #そしてテキストトークン Meituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイルマルチモーダル大型モデル MobileVLM を開発しました。

。N_t はテキストトークンの数を表し、D_t は単語埋め込みスペースのサイズを表します。現在の MLLM 設計パラダイムでは、LLM の計算量とメモリ消費量が最も大きくなります。これを考慮して、この記事では、速度の点でかなりの利点があり、自己回帰手法を実行できる、推論に適した一連の LLM をモバイルアプリケーション向けに調整します。マルチモーダル入力 Meituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイルマルチモーダル大型モデル MobileVLM を開発しました。

、L は出力トークンの長さを表します。このプロセスは Meituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイルマルチモーダル大型モデル MobileVLM を開発しました。

で表すことができます。 Meituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイルマルチモーダル大型モデル MobileVLM を開発しました。

Visual Encoder

本書のセクション 5.1 によると、原文へ実証分析のために、研究者らは、ビジュアルエンコーダF_encとして解像度336×336の事前トレーニング済みCLIP ViT-L/14を使用しました。 Visual Transformer (ViT) は、画像を均一なサイズの画像ブロックに分割し、各画像ブロックに対して線形埋め込みを実行します。その後、位置エンコーディングと統合した後、結果のベクトルシーケンスが通常の変換エンコーダに供給されます。通常、分類に使用されるトークンは、後続の分類タスクのシーケンスに追加されます。

MobileLLaMA

言語モデルについては、この記事では LLaMA のサイズを次のように縮小します。つまり、この論文で提案されているモデルは、ほとんどすべての一般的な推論フレームワークをシームレスにサポートできます。さらに、研究者らは、適切なモデルアーキテクチャを選択するために、エッジデバイス上のモデルの遅延も評価しました。 Neural Architecture Search (NAS) は良い選択ですが、現在、研究者はそれを現在のモデルにすぐには適用していません。表 2 に、この論文のアーキテクチャの詳細な設定を示します。

具体的には、この記事では、語彙サイズ 32000 の LLaMA2 のセンテンスピーストークナイザーを使用し、埋め込み層を最初からトレーニングします。これにより、その後の蒸留が容易になります。リソースが限られているため、事前トレーニング段階ですべてのモデルで使用されるコンテキストの長さは 2k です。ただし、「位置補間による大規模言語モデルのコンテキストウィンドウの拡張」で説明されているように、推論中のコンテキストウィンドウはさらに 8k まで拡張できます。その他のコンポーネントの詳細設定は以下の通りです。

RoPE を適用して位置情報を挿入します。
事前正規化を適用してトレーニングを安定させます。具体的には、この論文ではレイヤー正規化の代わりに RMSNorm を使用し、MLP 拡張率には 4 ではなく 8/3 を使用します。
GELU の代わりに SwiGLU アクティベーション関数を使用します。

効率的なマッピングネットワーク

ビジュアルエンコーダーと言語モデルの間のマッピングネットワークは、マルチモーダル機能を調整するために重要です。既存のモードには、Q-Former と MLP プロジェクションの 2 つがあります。 Q-Former は、各クエリに含まれるビジュアルトークンの数を明示的に制御して、最も関連性の高いビジュアル情報を強制的に抽出します。しかし、この方法ではトークンの空間的位置情報の喪失が避けられず、収束速度も遅い。さらに、エッジデバイスでの推論には効率的ではありません。対照的に、MLP は空間情報を保存しますが、多くの場合、背景などの役に立たないトークンが含まれます。パッチサイズが P の画像の場合、N_v = HW/P^2 のビジュアルトークンを LLM に注入する必要があるため、全体の推論速度が大幅に低下します。 ViT の条件付き位置コーディングアルゴリズム CPVT からインスピレーションを得た研究者は、畳み込みを使用して位置情報を強化し、ビジュアルエンコーダーのローカルインタラクションを促進します。具体的には、効率的であり、さまざまなエッジデバイスで十分にサポートされているディープコンボリューション (PEG の最も単純な形式) に基づくモバイルフレンドリーな操作を調査しました。

空間情報を保持し、計算コストを最小限に抑えるために、この記事ではストライド 2 の畳み込みを使用し、それによってビジュアルトークンの数を 75% 削減します。この設計により、全体的な推論速度が大幅に向上します。ただし、実験結果によると、トークンサンプルの数を減らすと、OCR などの下流タスクのパフォーマンスが大幅に低下します。この影響を軽減するために、研究者らは単一の PEG を置き換えるより強力なネットワークを設計しました。 Lightweight Downsampling Mapping (LDP) と呼ばれる効率的なマッピングネットワークの詳細なアーキテクチャを図 2 に示します。特に、このマッピングネットワークに含まれるパラメータの数は 2,000 万未満で、ビジュアルエンコーダよりも約 81 倍高速に実行されます。

この記事では、トレーニングがバッチサイズの影響を受けないように、「バッチ正規化」の代わりに「レイヤー正規化」を使用します。形式的には、LDP (P と表記) はビジュアル埋め込み Meituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイルマルチモーダル大型モデル MobileVLM を開発しました。

を入力として受け取り、効率的に抽出され位置合わせされたビジュアルトークン Meituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイルマルチモーダル大型モデル MobileVLM を開発しました。

を出力します。

#式は次のとおりです。

実験結果

#MobileLLaMA の評価結果

表 3 では、研究者はこの記事で提案された結果を 2 つの基準で評価しました。自然言語ベンチマーク: モデルは、それぞれ言語理解と常識推論を対象とした 2 つのベンチマークで広範囲に評価されました。前者の評価では、この記事では言語モデル評価ハーネスを使用します。実験結果は、MobileLLaMA 1.4B が TinyLLaMA 1.1B、Gaoptica 1.3B、OPT 1.3B、Pythia 1.4B などの最新のオープンソースモデルと同等であることを示しています。 MobileLLaMA 1.4B は、2T レベルのトークンでトレーニングされ、MobileLLaMA 1.4B の 2 倍高速である TinyLLaMA 1.1B よりも優れたパフォーマンスを示していることは注目に値します。表 5 に示すように、3B レベルでは、MobileLLaMA 2.7B は INCITE 3B (V1) および OpenLLaMA 3B (V1) と同等のパフォーマンスを示します。Snapdragon 888 CPU では、MobileLLaMA 2.7B は OpenLLaMA 3B より約 40% 高速です。

#SOTA VLM との比較

これはこの論文では、GQA、ScienceQA、TextVQA、POPE、および MME における LLaVA のマルチモーダルパフォーマンスを評価しています。また、本稿ではMMBenchを用いた総合比較も行っています。表 4 に示すように、MobileVLM は、パラメーターが削減され、トレーニングデータが限られているにもかかわらず、競争力のあるパフォーマンスを達成します。場合によっては、そのメトリックは、以前の最先端のマルチモーダル視覚言語モデルよりも優れたパフォーマンスを発揮することさえあります。

MobileVLM with LoRA

##低ランク適応 (LoRA) は、より少ないトレーニング可能なパラメーターで使用できます。完全に微調整された LLM よりもさらに優れたパフォーマンス。この論文では、この実践の実証的研究を実施して、そのマルチモーダルなパフォーマンスを検証します。具体的には、VLM 視覚命令の調整フェーズ中に、この論文は LoRA マトリックスを除くすべての LLM パラメータを凍結します。 MobileLLaMA 1.4B と MobileLLaMA 2.7B では、更新されたパラメーターはそれぞれ完全な LLM の 8.87% と 7.41% にすぎません。 LoRA の場合、この記事では lora_r を 128 に、lora_α を 256 に設定します。結果を表 4 に示します。LoRA を使用した MobileVLM は、6 つのベンチマークで完全な微調整に匹敵するパフォーマンスを達成しており、これは LoRA の結果と一致していることがわかります。

モバイルデバイスでの遅延テスト

研究著者Realme GT 携帯電話と NVIDIA Jetson AGX Orin プラットフォームでの MobileLLaMA と MobileVLM の推論遅延を評価しました。この携帯電話は、Snapdragon 888 SoC と 8 GB の RAM を搭載しており、26 TOPS のコンピューティング能力を提供します。 Orin は 32 GB のメモリを搭載し、275 TOPS という驚異的なコンピューティング能力を提供します。 CUDA バージョン 11.4 を使用し、最新の並列コンピューティングテクノロジをサポートしてパフォーマンスを向上させます。

#アブレーション実験

##ビジュアルバックボーンネットワーク

表 7 では、研究者は、さまざまなスケールとさまざまな数のビジュアルトークンでマルチモーダルパフォーマンスを比較しました。すべての実験では、ビジュアルエンコーダとして CLIP ViT を使用しました。

#VL マッピングネットワーク Meituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイルマルチモーダル大型モデル MobileVLM を開発しました。

機能の相互作用とトークンどちらの相互作用も有益であり、研究者らは前者には深さ畳み込みを、後者にはポイント畳み込みを使用しました。表 9 は、さまざまな VL マップされたネットワークのパフォーマンスを示しています。表 9 の行 1 は LLaVA で使用されるモジュールで、2 つの線形層を通じて特徴空間を変換するだけです。行 2 は、トークン相互作用のために各 PW (ポイント単位) の前に DW (深さ方向) 畳み込みを追加します。これは、ストライド 2 で 2x ダウンサンプリングを使用します。 2 つのフロントエンド PW レイヤーを追加すると、より多くの機能レベルの対話が可能になり、トークンの削減によって生じるパフォーマンスの損失が補われます。行 4 と行 5 は、パラメータを追加しても望ましい効果が得られないことを示しています。行 4 と行 6 は、マッピングネットワークの最後でトークンをダウンサンプリングするとプラスの効果があることを示しています。

ビジュアル解像度とトークン数 Meituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイルマルチモーダル大型モデル MobileVLM を開発しました。

ビジュアルトークンの数は直接影響するため、このペーパーでは、モーダルモデルの推論速度について、入力解像度 (RIR) を下げることと軽量ダウンサンプリングプロジェクター (LDP) を使用するという 2 つの設計オプションを比較します。

#SFT の定量分析

LLaMA で微調整された Vicuna は、大規模なマルチモーダルモデルに広く使用されています。表 10 は、2 つの一般的な SFT パラダイム、アルパカとビクーニャを比較しています。研究者らは、SQA、VQA、MME、MMBench のスコアがすべて大幅に改善されたことを発見しました。これは、Vicuna 会話モードで ShareGPT のデータを使用して大規模な言語モデルを微調整すると、最終的に最高のパフォーマンスが得られることを示しています。 SFT のプロンプト形式と下流タスクのトレーニングをより適切に統合するために、この論文では MobileVLM の会話モードを削除し、vicunav1 が最高のパフォーマンスを発揮することを発見しました。

結論

要するに、MobileVLM はモバイルおよびモバイル向けに設計されたツールスイートです。 IoT デバイス向けにカスタマイズされた効率的かつ強力なモバイルビジュアル言語モデル。この文書では、言語モデルと視覚的マッピングネットワークをリセットします。研究者らは、適切なビジュアルバックボーンネットワークの選択、効率的なマッピングネットワークの設計、言語モデル SFT (事前トレーニングと指示調整を含む 2 段階のトレーニング戦略) や LoRA ファインなどのトレーニングソリューションを通じてモデルの機能を強化するために広範な実験を実施しました。チューニングです。研究者は、主流の VLM ベンチマークで MobileVLM のパフォーマンスを厳密に評価しました。 MobileVLM は、一般的なモバイルデバイスや IoT デバイスでも前例のない速度を示します。研究者らは、MobileVLM がモバイルデバイスや自動運転車に導入されるマルチモーダルアシスタントや、より広範な人工知能ロボットなどの幅広いアプリケーションに新たな可能性を開くと考えています。

以上がMeituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイルマルチモーダル大型モデル MobileVLM を開発しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Java チュートリアル

1661

CakePHP チュートリアル

1417

Laravel チュートリアル

1311

PHP チュートリアル

1261

C# チュートリアル

1234

Related knowledge

DeepMind ロボットが卓球をすると、フォアハンドとバックハンドが空中に滑り出し、人間の初心者を完全に打ち負かしました Aug 09, 2024 pm 04:01 PM

でももしかしたら公園の老人には勝てないかもしれない？パリオリンピックの真っ最中で、卓球が注目を集めています。同時に、ロボットは卓球のプレーにも新たな進歩をもたらしました。先ほど、DeepMind は、卓球競技において人間のアマチュア選手のレベルに到達できる初の学習ロボットエージェントを提案しました。論文のアドレス: https://arxiv.org/pdf/2408.03906 DeepMind ロボットは卓球でどれくらい優れていますか?おそらく人間のアマチュアプレーヤーと同等です: フォアハンドとバックハンドの両方: 相手はさまざまなプレースタイルを使用しますが、ロボットもそれに耐えることができます: さまざまなスピンでサーブを受ける: ただし、ゲームの激しさはそれほど激しくないようです公園の老人。ロボット、卓球用

初のメカニカルクロー！元羅宝は2024年の世界ロボット会議に登場し、家庭に入ることができる初のチェスロボットを発表した Aug 21, 2024 pm 07:33 PM

8月21日、2024年世界ロボット会議が北京で盛大に開催された。 SenseTimeのホームロボットブランド「Yuanluobot SenseRobot」は、全製品ファミリーを発表し、最近、世界初の家庭用チェスロボットとなるYuanluobot AIチェスプレイロボット - Chess Professional Edition（以下、「Yuanluobot SenseRobot」という）をリリースした。家。 Yuanluobo の 3 番目のチェス対局ロボット製品である新しい Guxiang ロボットは、AI およびエンジニアリング機械において多くの特別な技術アップグレードと革新を経て、初めて 3 次元のチェスの駒を拾う機能を実現しました。家庭用ロボットの機械的な爪を通して、チェスの対局、全員でのチェスの対局、記譜のレビューなどの人間と機械の機能を実行します。

クロードも怠け者になってしまった！ネチズン: 自分に休日を与える方法を学びましょう Sep 02, 2024 pm 01:56 PM

もうすぐ学校が始まり、新学期を迎える生徒だけでなく、大型AIモデルも気を付けなければなりません。少し前、レディットはクロードが怠け者になったと不満を漏らすネチズンでいっぱいだった。「レベルが大幅に低下し、頻繁に停止し、出力も非常に短くなりました。リリースの最初の週は、4 ページの文書全体を一度に翻訳できましたが、今では 0.5 ページの出力さえできません」 !」 https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ というタイトルの投稿で、「クロードには完全に失望しました」という内容でいっぱいだった。

世界ロボット会議で「未来の高齢者介護の希望」を担う家庭用ロボットを囲みました Aug 22, 2024 pm 10:35 PM

北京で開催中の世界ロボット会議では、人型ロボットの展示が絶対的な注目となっているスターダストインテリジェントのブースでは、AIロボットアシスタントS1がダルシマー、武道、書道の3大パフォーマンスを披露した。文武両道を備えた 1 つの展示エリアには、多くの専門的な聴衆とメディアが集まりました。弾性ストリングのエレガントな演奏により、S1 は、スピード、強さ、正確さを備えた繊細な操作と絶対的なコントロールを発揮します。 CCTVニュースは、「書道」の背後にある模倣学習とインテリジェント制御に関する特別レポートを実施し、同社の創設者ライ・ジエ氏は、滑らかな動きの背後にあるハードウェア側が最高の力制御と最も人間らしい身体指標（速度、負荷）を追求していると説明した。など）、AI側では人の実際の動きのデータが収集され、強い状況に遭遇したときにロボットがより強くなり、急速に進化することを学習することができます。そしてアジャイル

ACL 2024 賞の発表: HuaTech による Oracle 解読に関する最優秀論文の 1 つ、GloVe Time Test Award Aug 15, 2024 pm 04:37 PM

貢献者はこの ACL カンファレンスから多くのことを学びました。 6日間のACL2024がタイのバンコクで開催されています。 ACL は、計算言語学と自然言語処理の分野におけるトップの国際会議で、国際計算言語学協会が主催し、毎年開催されます。 ACL は NLP 分野における学術的影響力において常に第一位にランクされており、CCF-A 推奨会議でもあります。今年の ACL カンファレンスは 62 回目であり、NLP 分野における 400 以上の最先端の作品が寄せられました。昨日の午後、カンファレンスは最優秀論文およびその他の賞を発表しました。今回の優秀論文賞は7件（未発表2件）、最優秀テーマ論文賞1件、優秀論文賞35件です。このカンファレンスでは、3 つの Resource Paper Award (ResourceAward) と Social Impact Award (

Li Feifei 氏のチームは、ロボットに空間知能を与え、GPT-4o を統合する ReKep を提案しました Sep 03, 2024 pm 05:18 PM

ビジョンとロボット学習の緊密な統合。最近話題の1X人型ロボットNEOと合わせて、2つのロボットハンドがスムーズに連携して服をたたむ、お茶を入れる、靴を詰めるといった動作をしていると、いよいよロボットの時代が到来するのではないかと感じられるかもしれません。実際、これらの滑らかな動きは、高度なロボット技術 + 精緻なフレーム設計 + マルチモーダル大型モデルの成果です。有用なロボットは多くの場合、環境との複雑かつ絶妙な相互作用を必要とし、環境は空間領域および時間領域の制約として表現できることがわかっています。たとえば、ロボットにお茶を注いでもらいたい場合、ロボットはまずティーポットのハンドルを掴んで、お茶をこぼさないように垂直に保ち、次にポットの口がカップの口と揃うまでスムーズに動かす必要があります。、そしてティーポットを一定の角度に傾けます。これ

宏蒙スマートトラベルS9とフルシナリオ新製品発売カンファレンス、多数の大ヒット新製品が一緒にリリースされました Aug 08, 2024 am 07:02 AM

今日の午後、Hongmeng Zhixingは新しいブランドと新車を正式に歓迎しました。 8月6日、ファーウェイはHongmeng Smart Xingxing S9およびファーウェイのフルシナリオ新製品発表カンファレンスを開催し、パノラマスマートフラッグシップセダンXiangjie S9、新しいM7ProおよびHuawei novaFlip、MatePad Pro 12.2インチ、新しいMatePad Air、Huawei Bisheng Withを発表しました。レーザープリンタ X1 シリーズ、FreeBuds6i、WATCHFIT3、スマートスクリーン S5Pro など、スマートトラベル、スマートオフィスからスマートウェアに至るまで、多くの新しいオールシナリオスマート製品を開発し、ファーウェイは消費者にスマートな体験を提供するフルシナリオのスマートエコシステムを構築し続けています。すべてのインターネット。宏孟志興氏：スマートカー業界のアップグレードを促進するための徹底的な権限付与ファーウェイは中国の自動車業界パートナーと提携して、

分散型人工知能カンファレンス DAI 2024 論文募集: エージェントデイ、強化学習の父であるリチャードサットン氏が出席します。 Yan Shuicheng、Sergey Levine、DeepMind の科学者が基調講演を行います Aug 22, 2024 pm 08:02 PM

会議の紹介科学技術の急速な発展に伴い、人工知能は社会の進歩を促進する重要な力となっています。この時代に、分散型人工知能 (DAI) の革新と応用を目撃し、参加できることは幸運です。分散型人工知能は人工知能分野の重要な分野であり、近年ますます注目を集めています。大規模言語モデル (LLM) に基づくエージェントは、大規模モデルの強力な言語理解機能と生成機能を組み合わせることで、自然言語対話、知識推論、タスク計画などにおいて大きな可能性を示しました。 AIAgent は大きな言語モデルを引き継ぎ、現在の AI 界隈で話題になっています。アウ

See all articles

Meituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイル マルチモーダル大型モデル MobileVLM を開発しました。

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

Meituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイルマルチモーダル大型モデル MobileVLM を開発しました。