ホームページ テクノロジー周辺機器 AI Meituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイル マルチモーダル大型モデル MobileVLM を開発しました。

Meituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイル マルチモーダル大型モデル MobileVLM を開発しました。

Jan 08, 2024 pm 02:46 PM
業界

モバイル端末に大型モデルがやってくる波はますます強くなり、ついに誰かがマルチモーダルな大型モデルをモバイル端末に移しました。最近、美団、浙江大学などが、LLMベーストレーニング、SFT、VLMのプロセス全体を含む、モバイル端末上に展開できるマルチモーダル大規模モデルを発表しました。おそらく近い将来、誰もが自分の大型モデルを便利に、早く、低コストで所有できるようになるでしょう。

MobileVLM は、モバイル デバイス向けに設計された、高速かつ強力でオープンなビジュアル言語アシスタントです。これは、ゼロからトレーニングされた 1.4B および 2.7B パラメーター言語モデル、CLIP 方式で事前トレーニングされたマルチモーダル ビジョン モデル、プロジェクションによる効率的なクロスモーダル インタラクションなど、モバイル デバイス向けのアーキテクチャ設計とテクノロジーを組み合わせたものです。 MobileVLM のパフォーマンスは、さまざまなビジュアル言語ベンチマークにおける大規模モデルと同等です。さらに、Qualcomm Snapdragon 888 CPU と NVIDIA Jeston Orin GPU での最速の推論速度を実証します。

Meituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイル マルチモーダル大型モデル MobileVLM を開発しました。

  • ##論文アドレス: https://arxiv.org/pdf/2312.16886.pdf
  • #コード アドレス: https://github.com/Meituan- AutoML /MobileVLM

はじめに

大規模マルチモダリティ モデル(LMM)、特に視覚言語モデル (VLM) ファミリーは、知覚と推論の能力が大幅に強化されているため、ユニバーサル アシスタントを構築するための有望な研究方向となっています。ただし、事前トレーニングされた大規模言語モデル (LLM) とビジュアル モデルの表現をどのように接続し、クロスモーダル特徴を抽出し、視覚的な質問応答、画像字幕、視覚的な知識推論、対話などのタスクを完了する方法は常に問題でした。 。

このタスクにおける GPT-4V と Gemini の優れたパフォーマンスは、何度も証明されています。ただし、これらの独自モデルの技術的な実装の詳細はまだ十分に理解されていません。同時に、研究コミュニティは一連の言語調整方法も提案しています。たとえば、Flamingo はビジュアル トークンを活用して、ゲートされたクロス アテンション レイヤーを通じて凍結された言語モデルを条件付けします。 BLIP-2 は、この対話は不十分であると考え、フリーズされたビジュアル エンコーダから最も有用な機能を抽出し、フリーズされた LLM に直接フィードする軽量のクエリ トランスフォーマ (Q-Former と呼ばれる) を導入します。 MiniGPT-4 は、BLIP-2 のフリーズされたビジュアル エンコーダーと、プロジェクション レイヤーを介してフリーズされた言語モデル Vicuna を組み合わせます。さらに、LLaVA は、単純なトレーニング可能なマッピング ネットワークを適用して、視覚的特徴を、言語モデルによって処理される単語埋め込みと同じ次元の埋め込みトークンに変換します。

大規模なマルチモーダル データの多様性に適応するために、トレーニング戦略が徐々に変化していることは注目に値します。 LLaVA は、LLM の命令調整パラダイムをマルチモーダル シナリオに再現する最初の試みとなる可能性があります。マルチモーダル命令トレースデータを生成するために、LLaVA は画像の説明文や画像のバウンディングボックス座標などのテキスト情報を純粋言語モデル GPT-4 に入力します。 MiniGPT-4 は、まず画像説明文の包括的なデータセットでトレーニングされ、次に [画像とテキスト] のペアのキャリブレーション データセットで微調整されます。 InstructBLIP は、事前トレーニングされた BLIP-2 モデルに基づいてビジュアル言語コマンド チューニングを実行し、Q-Former はコマンド チューニング形式で編成されたさまざまなデータセットでトレーニングされます。 mPLUG-Owl は 2 段階のトレーニング戦略を導入しています。まず視覚部分を事前トレーニングし、次に LoRA を使用して、さまざまなソースからの命令データに基づいて大規模言語モデル LLaMA を微調整します。

#VLM における上記の進歩にもかかわらず、コンピューティング リソースが限られている場合には、依然としてクロスモーダル機能を使用する必要があります。 Gemini は、さまざまなマルチモーダル ベンチマークで sota を上回り、低メモリ デバイス向けに 1.8B および 3.25B パラメータを備えたモバイル グレードの VLM を導入しています。また、Gemini は蒸留や量子化などの一般的な圧縮技術も使用します。このペーパーの目標は、公開データセットと視覚認識と推論のための利用可能なテクノロジーを使用してトレーニングされ、リソースに制約のあるプラットフォーム向けに調整された、初のオープンなモバイル グレード VLM を構築することです。この記事の貢献は次のとおりです。

    この記事では、マルチモーダル視覚言語モデルのフルスタック変換である MobileVLM を提案します。モバイルシナリオ向けにカスタマイズされています。著者らによると、これは詳細で再現可能で強力なパフォーマンスをゼロから提供する初めてのビジュアル言語モデルだという。研究者たちは、管理されたオープンソースのデータセットを通じて、一連の高性能の基本言語モデルとマルチモーダルモデルを確立しました。
  1. この論文では、ビジュアル エンコーダーの設計に関して広範なアブレーション実験を実施し、さまざまなトレーニング パラダイム、入力解像度、モデル サイズに対する VLM のパフォーマンス感度を体系的に評価します。
  2. この論文では、視覚的特徴とテキスト特徴の間の効率的なマッピング ネットワークを設計します。これにより、推論の消費を削減しながら、マルチモーダルな特徴をより適切に調整できます。
  3. この記事で設計されたモデルは、Qualcomm のモバイル CPU と 65.5 インチ プロセッサで測定された速度 21.5 トークン/秒で、低電力モバイル デバイス上で効率的に実行できます。
  4. MobileVLM は、ベンチマークで多数のマルチモーダル大規模モデルと同等のパフォーマンスを示し、多くの実際的なタスクでのアプリケーションの可能性を証明しています。この記事はエッジ シナリオに焦点を当てていますが、MobileVLM は、クラウド内の強力な GPU でのみサポートできる多くの最先端の VLM よりも優れたパフォーマンスを発揮します。

MobileVLM

全体的なアーキテクチャ設計
研究者らは、リソースが限られたエッジ デバイスで効率的な視覚認識と推論を達成するという主な目標を考慮して、図 1 に示すように MobileVLM の全体的なアーキテクチャを設計しました。モデルは 3 つのコンポーネントで構成されます: 1) ビジュアル エンコーダ、2) カスタマイズされた LLM エッジ デバイス (MobileLLaMA)、3) アライメント用の効率的なマッピング ネットワーク (論文では「Lightweight Downsampling Mapping」、LDP と呼ばれます)空間。
画像 Meituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイル マルチモーダル大型モデル MobileVLM を開発しました。 を入力として受け取ると、ビジュアル エンコーダ F_enc は画像認識のための視覚的埋め込み Meituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイル マルチモーダル大型モデル MobileVLM を開発しました。 を抽出します。ここで、N_v = HW/P^2 は画像ブロックの数を表し、D_v は画像ブロックの隠れ層サイズを表します。視覚的な埋め込み。画像トークン処理の効率の問題を軽減するために、研究者らは、視覚特徴圧縮と視覚テキストモーダル整列のための軽量マッピングネットワーク P を設計しました。次のように、 f を単語埋め込み空間に変換し、後続の言語モデルに適切な入力次元を提供します:

Meituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイル マルチモーダル大型モデル MobileVLM を開発しました。

このようにして、イメージ# のトークンが取得されます # #そしてテキスト トークン Meituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイル マルチモーダル大型モデル MobileVLM を開発しました。。N_t はテキスト トークンの数を表し、D_t は単語埋め込みスペースのサイズを表します。現在の MLLM 設計パラダイムでは、LLM の計算量とメモリ消費量が最も大きくなります。これを考慮して、この記事では、速度の点でかなりの利点があり、自己回帰手法を実行できる、推論に適した一連の LLM をモバイル アプリケーション向けに調整します。マルチモーダル入力Meituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイル マルチモーダル大型モデル MobileVLM を開発しました。、L は出力トークンの長さを表します。このプロセスは Meituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイル マルチモーダル大型モデル MobileVLM を開発しました。 で表すことができます。 Meituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイル マルチモーダル大型モデル MobileVLM を開発しました。

Visual Encoder

本書のセクション 5.1 によると、原文へ 実証分析のために、研究者らは、ビジュアルエンコーダF_encとして解像度336×336の事前トレーニング済みCLIP ViT-L/14を使用しました。 Visual Transformer (ViT) は、画像を均一なサイズの画像ブロックに分割し、各画像ブロックに対して線形埋め込みを実行します。その後、位置エンコーディングと統合した後、結果のベクトル シーケンスが通常の変換エンコーダに供給されます。通常、分類に使用されるトークンは、後続の分類タスクのシーケンスに追加されます。

MobileLLaMA

言語モデルについては、この記事では LLaMA のサイズを次のように縮小します。つまり、この論文で提案されているモデルは、ほとんどすべての一般的な推論フレームワークをシームレスにサポートできます。さらに、研究者らは、適切なモデル アーキテクチャを選択するために、エッジ デバイス上のモデルの遅延も評価しました。 Neural Architecture Search (NAS) は良い選択ですが、現在、研究者はそれを現在のモデルにすぐには適用していません。表 2 に、この論文のアーキテクチャの詳細な設定を示します。

具体的には、この記事では、語彙サイズ 32000 の LLaMA2 のセンテンスピーストークナイザーを使用し、埋め込み層を最初からトレーニングします。これにより、その後の蒸留が容易になります。リソースが限られているため、事前トレーニング段階ですべてのモデルで使用されるコンテキストの長さは 2k です。ただし、「位置補間による大規模言語モデルのコンテキスト ウィンドウの拡張」で説明されているように、推論中のコンテキスト ウィンドウはさらに 8k まで拡張できます。その他のコンポーネントの詳細設定は以下の通りです。

  • RoPE を適用して位置情報を挿入します。
  • 事前正規化を適用してトレーニングを安定させます。具体的には、この論文ではレイヤー正規化の代わりに RMSNorm を使用し、MLP 拡張率には 4 ではなく 8/3 を使用します。
  • GELU の代わりに SwiGLU アクティベーション関数を使用します。

Meituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイル マルチモーダル大型モデル MobileVLM を開発しました。

効率的なマッピング ネットワーク

ビジュアル エンコーダーと言語モデルの間のマッピング ネットワークは、マルチモーダル機能を調整するために重要です。既存のモードには、Q-Former と MLP プロジェクションの 2 つがあります。 Q-Former は、各クエリに含まれるビジュアル トークンの数を明示的に制御して、最も関連性の高いビジュアル情報を強制的に抽出します。しかし、この方法ではトークンの空間的位置情報の喪失が避けられず、収束速度も遅い。さらに、エッジデバイスでの推論には効率的ではありません。対照的に、MLP は空間情報を保存しますが、多くの場合、背景などの役に立たないトークンが含まれます。パッチ サイズが P の画像の場合、N_v = HW/P^2 のビジュアル トークンを LLM に注入する必要があるため、全体の推論速度が大幅に低下します。 ViT の条件付き位置コーディング アルゴリズム CPVT からインスピレーションを得た研究者は、畳み込みを使用して位置情報を強化し、ビジュアル エンコーダーのローカル インタラクションを促進します。具体的には、効率的であり、さまざまなエッジ デバイスで十分にサポートされているディープ コンボリューション (PEG の最も単純な形式) に基づくモバイル フレンドリーな操作を調査しました。

空間情報を保持し、計算コストを最小限に抑えるために、この記事ではストライド 2 の畳み込みを使用し、それによってビジュアル トークンの数を 75% 削減します。この設計により、全体的な推論速度が大幅に向上します。ただし、実験結果によると、トークン サンプルの数を減らすと、OCR などの下流タスクのパフォーマンスが大幅に低下します。この影響を軽減するために、研究者らは単一の PEG を置き換えるより強力なネットワークを設計しました。 Lightweight Downsampling Mapping (LDP) と呼ばれる効率的なマッピング ネットワークの詳細なアーキテクチャを図 2 に示します。特に、このマッピング ネットワークに含まれるパラメータの数は 2,000 万未満で、ビジュアル エンコーダよりも約 81 倍高速に実行されます。

Meituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイル マルチモーダル大型モデル MobileVLM を開発しました。

この記事では、トレーニングがバッチ サイズの影響を受けないように、「バッチ正規化」の代わりに「レイヤー正規化」を使用します。形式的には、LDP (P と表記) はビジュアル埋め込み Meituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイル マルチモーダル大型モデル MobileVLM を開発しました。 を入力として受け取り、効率的に抽出され位置合わせされたビジュアル トークン Meituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイル マルチモーダル大型モデル MobileVLM を開発しました。 を出力します。

#式は次のとおりです。

Meituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイル マルチモーダル大型モデル MobileVLM を開発しました。

実験結果

#MobileLLaMA の評価結果

表 3 では、研究者はこの記事で提案された結果を 2 つの基準で評価しました。自然言語ベンチマーク: モデルは、それぞれ言語理解と常識推論を対象とした 2 つのベンチマークで広範囲に評価されました。前者の評価では、この記事では言語モデル評価ハーネスを使用します。実験結果は、MobileLLaMA 1.4B が TinyLLaMA 1.1B、Gaoptica 1.3B、OPT 1.3B、Pythia 1.4B などの最新のオープンソース モデルと同等であることを示しています。 MobileLLaMA 1.4B は、2T レベルのトークンでトレーニングされ、MobileLLaMA 1.4B の 2 倍高速である TinyLLaMA 1.1B よりも優れたパフォーマンスを示していることは注目に値します。表 5 に示すように、3B レベルでは、MobileLLaMA 2.7B は INCITE 3B (V1) および OpenLLaMA 3B (V1) と同等のパフォーマンスを示します。Snapdragon 888 CPU では、MobileLLaMA 2.7B は OpenLLaMA 3B より約 40% 高速です。

Meituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイル マルチモーダル大型モデル MobileVLM を開発しました。

Meituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイル マルチモーダル大型モデル MobileVLM を開発しました。

#SOTA VLM との比較

これはこの論文では、GQA、ScienceQA、TextVQA、POPE、および MME における LLaVA のマルチモーダル パフォーマンスを評価しています。また、本稿ではMMBenchを用いた総合比較も行っています。表 4 に示すように、MobileVLM は、パラメーターが削減され、トレーニング データが限られているにもかかわらず、競争力のあるパフォーマンスを達成します。場合によっては、そのメトリックは、以前の最先端のマルチモーダル視覚言語モデルよりも優れたパフォーマンスを発揮することさえあります。

MobileVLM with LoRA

##低ランク適応 (LoRA) は、より少ないトレーニング可能なパラメーターで使用できます。完全に微調整された LLM よりもさらに優れたパフォーマンス。この論文では、この実践の実証的研究を実施して、そのマルチモーダルなパフォーマンスを検証します。具体的には、VLM 視覚命令の調整フェーズ中に、この論文は LoRA マトリックスを除くすべての LLM パラメータを凍結します。 MobileLLaMA 1.4B と MobileLLaMA 2.7B では、更新されたパラメーターはそれぞれ完全な LLM の 8.87% と 7.41% にすぎません。 LoRA の場合、この記事では lora_r を 128 に、lora_α を 256 に設定します。結果を表 4 に示します。LoRA を使用した MobileVLM は、6 つのベンチマークで完全な微調整に匹敵するパフォーマンスを達成しており、これは LoRA の結果と一致していることがわかります。

モバイル デバイスでの遅延テスト

研究著者Realme GT 携帯電話と NVIDIA Jetson AGX Orin プラットフォームでの MobileLLaMA と MobileVLM の推論遅延を評価しました。この携帯電話は、Snapdragon 888 SoC と 8 GB の RAM を搭載しており、26 TOPS のコンピューティング能力を提供します。 Orin は 32 GB のメモリを搭載し、275 TOPS という驚異的なコンピューティング能力を提供します。 CUDA バージョン 11.4 を使用し、最新の並列コンピューティング テクノロジをサポートしてパフォーマンスを向上させます。

#アブレーション実験

##ビジュアル バックボーン ネットワーク
表 7 では、研究者は、さまざまなスケールとさまざまな数のビジュアル トークンでマルチモーダル パフォーマンスを比較しました。すべての実験では、ビジュアル エンコーダとして CLIP ViT を使用しました。

#VL マッピング ネットワークMeituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイル マルチモーダル大型モデル MobileVLM を開発しました。

機能の相互作用とトークン どちらの相互作用も有益であり、研究者らは前者には深さ畳み込みを、後者にはポイント畳み込みを使用しました。表 9 は、さまざまな VL マップされたネットワークのパフォーマンスを示しています。表 9 の行 1 は LLaVA で使用されるモジュールで、2 つの線形層を通じて特徴空間を変換するだけです。行 2 は、トークン相互作用のために各 PW (ポイント単位) の前に DW (深さ方向) 畳み込みを追加します。これは、ストライド 2 で 2x ダウンサンプリングを使用します。 2 つのフロントエンド PW レイヤーを追加すると、より多くの機能レベルの対話が可能になり、トークンの削減によって生じるパフォーマンスの損失が補われます。行 4 と行 5 は、パラメータを追加しても望ましい効果が得られないことを示しています。行 4 と行 6 は、マッピング ネットワークの最後でトークンをダウンサンプリングするとプラスの効果があることを示しています。

ビジュアル解像度とトークン数Meituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイル マルチモーダル大型モデル MobileVLM を開発しました。

ビジュアル トークンの数は直接影響するため、このペーパーでは、モーダル モデルの推論速度について、入力解像度 (RIR) を下げることと軽量ダウンサンプリング プロジェクター (LDP) を使用するという 2 つの設計オプションを比較します。

#SFT の定量分析


LLaMA で微調整された Vicuna は、大規模なマルチモーダル モデルに広く使用されています。表 10 は、2 つの一般的な SFT パラダイム、アルパカとビクーニャを比較しています。研究者らは、SQA、VQA、MME、MMBench のスコアがすべて大幅に改善されたことを発見しました。これは、Vicuna 会話モードで ShareGPT のデータを使用して大規模な言語モデルを微調整すると、最終的に最高のパフォーマンスが得られることを示しています。 SFT のプロンプト形式と下流タスクのトレーニングをより適切に統合するために、この論文では MobileVLM の会話モードを削除し、vicunav1 が最高のパフォーマンスを発揮することを発見しました。
結論

Meituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイル マルチモーダル大型モデル MobileVLM を開発しました。

要するに、MobileVLM はモバイルおよびモバイル向けに設計されたツールスイートです。 IoT デバイス向けにカスタマイズされた効率的かつ強力なモバイル ビジュアル言語モデル。この文書では、言語モデルと視覚的マッピング ネットワークをリセットします。研究者らは、適切なビジュアル バックボーン ネットワークの選択、効率的なマッピング ネットワークの設計、言語モデル SFT (事前トレーニングと指示調整を含む 2 段階のトレーニング戦略) や LoRA ファインなどのトレーニング ソリューションを通じてモデルの機能を強化するために広範な実験を実施しました。チューニングです。研究者は、主流の VLM ベンチマークで MobileVLM のパフォーマンスを厳密に評価しました。 MobileVLM は、一般的なモバイル デバイスや IoT デバイスでも前例のない速度を示します。研究者らは、MobileVLM がモバイル デバイスや自動運転車に導入されるマルチモーダル アシスタントや、より広範な人工知能ロボットなどの幅広いアプリケーションに新たな可能性を開くと考えています。

以上がMeituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイル マルチモーダル大型モデル MobileVLM を開発しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

DeepMind ロボットが卓球をすると、フォアハンドとバックハンドが空中に滑り出し、人間の初心者を完全に打ち負かしました DeepMind ロボットが卓球をすると、フォアハンドとバックハンドが空中に滑り出し、人間の初心者を完全に打ち負かしました Aug 09, 2024 pm 04:01 PM

でももしかしたら公園の老人には勝てないかもしれない?パリオリンピックの真っ最中で、卓球が注目を集めています。同時に、ロボットは卓球のプレーにも新たな進歩をもたらしました。先ほど、DeepMind は、卓球競技において人間のアマチュア選手のレベルに到達できる初の学習ロボット エージェントを提案しました。論文のアドレス: https://arxiv.org/pdf/2408.03906 DeepMind ロボットは卓球でどれくらい優れていますか?おそらく人間のアマチュアプレーヤーと同等です: フォアハンドとバックハンドの両方: 相手はさまざまなプレースタイルを使用しますが、ロボットもそれに耐えることができます: さまざまなスピンでサーブを受ける: ただし、ゲームの激しさはそれほど激しくないようです公園の老人。ロボット、卓球用

初のメカニカルクロー!元羅宝は2024年の世界ロボット会議に登場し、家庭に入ることができる初のチェスロボットを発表した 初のメカニカルクロー!元羅宝は2024年の世界ロボット会議に登場し、家庭に入ることができる初のチェスロボットを発表した Aug 21, 2024 pm 07:33 PM

8月21日、2024年世界ロボット会議が北京で盛大に開催された。 SenseTimeのホームロボットブランド「Yuanluobot SenseRobot」は、全製品ファミリーを発表し、最近、世界初の家庭用チェスロボットとなるYuanluobot AIチェスプレイロボット - Chess Professional Edition(以下、「Yuanluobot SenseRobot」という)をリリースした。家。 Yuanluobo の 3 番目のチェス対局ロボット製品である新しい Guxiang ロボットは、AI およびエンジニアリング機械において多くの特別な技術アップグレードと革新を経て、初めて 3 次元のチェスの駒を拾う機能を実現しました。家庭用ロボットの機械的な爪を通して、チェスの対局、全員でのチェスの対局、記譜のレビューなどの人間と機械の機能を実行します。

クロードも怠け者になってしまった!ネチズン: 自分に休日を与える方法を学びましょう クロードも怠け者になってしまった!ネチズン: 自分に休日を与える方法を学びましょう Sep 02, 2024 pm 01:56 PM

もうすぐ学校が始まり、新学期を迎える生徒だけでなく、大型AIモデルも気を付けなければなりません。少し前、レディットはクロードが怠け者になったと不満を漏らすネチズンでいっぱいだった。 「レベルが大幅に低下し、頻繁に停止し、出力も非常に短くなりました。リリースの最初の週は、4 ページの文書全体を一度に翻訳できましたが、今では 0.5 ページの出力さえできません」 !」 https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ というタイトルの投稿で、「クロードには完全に失望しました」という内容でいっぱいだった。

世界ロボット会議で「未来の高齢者介護の希望」を担う家庭用ロボットを囲みました 世界ロボット会議で「未来の高齢者介護の希望」を担う家庭用ロボットを囲みました Aug 22, 2024 pm 10:35 PM

北京で開催中の世界ロボット会議では、人型ロボットの展示が絶対的な注目となっているスターダストインテリジェントのブースでは、AIロボットアシスタントS1がダルシマー、武道、書道の3大パフォーマンスを披露した。文武両道を備えた 1 つの展示エリアには、多くの専門的な聴衆とメディアが集まりました。弾性ストリングのエレガントな演奏により、S1 は、スピード、強さ、正確さを備えた繊細な操作と絶対的なコントロールを発揮します。 CCTVニュースは、「書道」の背後にある模倣学習とインテリジェント制御に関する特別レポートを実施し、同社の創設者ライ・ジエ氏は、滑らかな動きの背後にあるハードウェア側が最高の力制御と最も人間らしい身体指標(速度、負荷)を追求していると説明した。など)、AI側では人の実際の動きのデータが収集され、強い状況に遭遇したときにロボットがより強くなり、急速に進化することを学習することができます。そしてアジャイル

ACL 2024 賞の発表: HuaTech による Oracle 解読に関する最優秀論文の 1 つ、GloVe Time Test Award ACL 2024 賞の発表: HuaTech による Oracle 解読に関する最優秀論文の 1 つ、GloVe Time Test Award Aug 15, 2024 pm 04:37 PM

貢献者はこの ACL カンファレンスから多くのことを学びました。 6日間のACL2024がタイのバンコクで開催されています。 ACL は、計算言語学と自然言語処理の分野におけるトップの国際会議で、国際計算言語学協会が主催し、毎年開催されます。 ACL は NLP 分野における学術的影響力において常に第一位にランクされており、CCF-A 推奨会議でもあります。今年の ACL カンファレンスは 62 回目であり、NLP 分野における 400 以上の最先端の作品が寄せられました。昨日の午後、カンファレンスは最優秀論文およびその他の賞を発表しました。今回の優秀論文賞は7件(未発表2件)、最優秀テーマ論文賞1件、優秀論文賞35件です。このカンファレンスでは、3 つの Resource Paper Award (ResourceAward) と Social Impact Award (

宏蒙スマートトラベルS9とフルシナリオ新製品発売カンファレンス、多数の大ヒット新製品が一緒にリリースされました 宏蒙スマートトラベルS9とフルシナリオ新製品発売カンファレンス、多数の大ヒット新製品が一緒にリリースされました Aug 08, 2024 am 07:02 AM

今日の午後、Hongmeng Zhixingは新しいブランドと新車を正式に歓迎しました。 8月6日、ファーウェイはHongmeng Smart Xingxing S9およびファーウェイのフルシナリオ新製品発表カンファレンスを開催し、パノラマスマートフラッグシップセダンXiangjie S9、新しいM7ProおよびHuawei novaFlip、MatePad Pro 12.2インチ、新しいMatePad Air、Huawei Bisheng Withを発表しました。レーザー プリンタ X1 シリーズ、FreeBuds6i、WATCHFIT3、スマート スクリーン S5Pro など、スマート トラベル、スマート オフィスからスマート ウェアに至るまで、多くの新しいオールシナリオ スマート製品を開発し、ファーウェイは消費者にスマートな体験を提供するフル シナリオのスマート エコシステムを構築し続けています。すべてのインターネット。宏孟志興氏:スマートカー業界のアップグレードを促進するための徹底的な権限付与 ファーウェイは中国の自動車業界パートナーと提携して、

Li Feifei 氏のチームは、ロボットに空間知能を与え、GPT-4o を統合する ReKep を提案しました Li Feifei 氏のチームは、ロボットに空間知能を与え、GPT-4o を統合する ReKep を提案しました Sep 03, 2024 pm 05:18 PM

ビジョンとロボット学習の緊密な統合。最近話題の1X人型ロボットNEOと合わせて、2つのロボットハンドがスムーズに連携して服をたたむ、お茶を入れる、靴を詰めるといった動作をしていると、いよいよロボットの時代が到来するのではないかと感じられるかもしれません。実際、これらの滑らかな動きは、高度なロボット技術 + 精緻なフレーム設計 + マルチモーダル大型モデルの成果です。有用なロボットは多くの場合、環境との複雑かつ絶妙な相互作用を必要とし、環境は空間領域および時間領域の制約として表現できることがわかっています。たとえば、ロボットにお茶を注いでもらいたい場合、ロボットはまずティーポットのハンドルを掴んで、お茶をこぼさないように垂直に保ち、次にポットの口がカップの口と揃うまでスムーズに動かす必要があります。 、そしてティーポットを一定の角度に傾けます。これ

7つの「ソラレベル」ビデオ生成アーティファクトをテストしました。誰が「鉄の玉座」に昇る能力を持っていますか? 7つの「ソラレベル」ビデオ生成アーティファクトをテストしました。誰が「鉄の玉座」に昇る能力を持っていますか? Aug 05, 2024 pm 07:19 PM

Machine Power Report 編集者: Yang Wen AI ビデオ サークルの王になれるのは誰ですか?アメリカのテレビシリーズ「ゲーム・オブ・スローンズ」に「鉄の玉座」というものがあります。伝説によれば、それは最高の権威を象徴する敵が捨てた数千の剣を溶かした巨大なドラゴン「黒死病」によって作られたとされています。この鉄の椅子に座るために、主要な家族は争いと争いを始めました。 Sora の登場以来、AI ビデオ界では活発な「ゲーム オブ スローンズ」が立ち上がっています。このゲームの主なプレーヤーには、国内の Kuaishou Keling、ByteDream だけでなく、海の向こうの RunwayGen-3 や Luma も含まれます。およびZhimo。今日は、誰が AI ビデオサークルの「鉄の玉座」に座る資格があるかを評価して確認します。 -1- ヴィンセントビデオ

See all articles