PixelLM: SA に依存せずにピクセルレベルの推論を効率的に実装するバイトマルチモーダル大規模モデル
マルチモーダルな大型モデルが急増していますが、画像編集、自動運転、ロボット工学などのきめ細かいタスクで実用化する準備はできていますか?
最新のモデルの機能は依然として、画像全体または特定の領域のテキスト説明を生成することに限定されており、ピクセルレベルの理解 (オブジェクトのセグメンテーションなど) の機能は比較的限定されています。
この問題に対応して、ユーザーのセグメント化命令 (たとえば、「写真の中のビタミン C が豊富な果物をセグメント化してください」) を処理するために、マルチモーダルな大規模モデルの使用を検討する取り組みが始まりました。
しかし、市販されている方法にはすべて 2 つの大きな欠点があります:
1) 現実世界のシナリオでは不可欠な、複数のターゲット オブジェクトが関与するタスクを処理できません。 #2) SAM のような事前トレーニング済みの画像セグメンテーション モデルに依存しており、SAM の 1 回の前方伝播に必要な計算量は、Llama-7B が 500 個を超えるトークンを生成するのに十分です。
この問題を解決するために、Bytedance Intelligent Creation チームは北京交通大学および北京科学技術大学の研究者と協力して、PixelLM を提案しました。PixelLM は、 SAM に依存しないでください。
詳しく紹介する前に、PixelLM のいくつかのグループの実際のセグメンテーション効果を体験してみましょう:
以前の作品と比較した PixelLM の利点は次のとおりです:
任意の数のオープン ドメイン ターゲットやさまざまな複雑な推論セグメンテーション タスクを適切に処理できます。- コストのかかる追加のセグメンテーション モデルを回避し、効率とさまざまなアプリケーションへの移行機能を向上させます。
- さらに、この研究分野でのモデルのトレーニングと評価をサポートするために、研究チームは GPT の助けを借りて、LVIS データセットに基づいて多目的推論セグメンテーション シナリオ用のデータセットを構築しました。 4V. MUSE には、900,000 を超えるインスタンス セグメンテーション マスクを含む 200,000 を超える質問と回答のペアが含まれています。
上記の効果を達成するために、この研究はどのように行われたのでしょうか?
背後にある原理
図論文のフレームワーク図に示されているように、PixelLM アーキテクチャは非常にシンプルであり、4 つの要素で構成されています。主要部分。後の 2 つは PixelLM の中核です:
- 大規模言語モデル
- 軽量ピクセル デコーダー
- Seg コードブック
- Seg コードブックには、CLIP-ViT のさまざまなスケールでターゲット情報をエンコードするために使用される学習可能なトークンが含まれています。次に、ピクセル デコーダは、これらのトークンと CLIP-ViT の画像特徴に基づいてオブジェクトのセグメンテーション結果を生成します。この設計のおかげで、PixelLM は外部セグメンテーション モデルなしで高品質のセグメンテーション結果を生成でき、モデルの効率が大幅に向上します。
研究者の説明によると、Seg コードブック内のトークンは L 個のグループに分割でき、各グループには N 個のトークンが含まれ、各グループは CLIP-ViT 視覚機能のスケールに対応します。
入力画像の場合、PixelLM は、CLIP-ViT ビジュアル エンコーダーによって生成された画像特徴から L スケール特徴を抽出します。最後の層はグローバル画像情報をカバーし、LLM が画像の内容を理解するために使用します。
セグメント コードブックのトークンは、テキスト命令および画像特徴の最後の層とともに LLM に入力され、自己回帰の形式で出力が生成されます。出力には、LLM によって処理されたセグメント コードブック トークンも含まれます。これらのトークンは、L スケール CLIP-ViT 機能とともにピクセル デコーダーに入力されて、最終的なセグメンテーション結果が生成されます。
図
図では、なぜ各グループに N が含まれるように設定する必要があるのでしょうか。トークン??研究者らは、次の図を参照して説明しました:
複数のターゲット、または非常に複雑なセマンティクスを持つターゲットが関与するシナリオでは、LLM は詳細なテキスト応答を提供できますが、単一のトークンだけでは完全にキャプチャできない可能性があります。ターゲットセマンティクスの内容。
複雑な推論シナリオにおけるモデルの能力を強化するために、研究者らは各スケール グループ内に複数のトークンを導入し、1 つのトークンの線形融合演算を実行しました。トークンがデコーダーに渡される前に、線形投影レイヤーを使用して各グループ内のトークンがマージされます。
次の図は、各グループに複数のトークンがある場合の効果を示しています。アテンション マップは、デコーダーによって処理された後の各トークンの様子です。この視覚化は、複数のトークンが一意で補完的な情報を提供し、その結果、より効果的なセグメンテーション出力が得られることを示しています。
写真
さらに、複数のターゲットを区別するモデルの能力を強化するために、PixelLM は追加のターゲット精製損失も設計しました。
MUSE データセット
上記のソリューションが提案されていますが、モデルの機能を最大限に活用するには、モデルには依然として適切なトレーニング データが必要です。現在利用可能な公開データセットをレビューしたところ、既存のデータには次のような大きな制限があることがわかりました:
1) オブジェクトの詳細の説明が不十分;
2) 複雑な推論と複数のターゲット番号に関する問題の欠如 -答えは正しいです。
これらの問題を解決するために、研究チームは GPT-4V を使用して自動データ アノテーション パイプラインを構築し、MUSE データ セットを生成しました。以下の図は、MUSE 生成時に使用されるプロンプトと生成されるデータの例を示しています。
画像
MUSE では、すべてのインスタンス マスクは LVIS データセットから取得され、画像コンテンツに基づいて生成された詳細なテキスト説明が追加されます。 MUSE には 246,000 の質問と回答のペアが含まれており、各質問と回答のペアには平均 3.7 のターゲット オブジェクトが含まれます。さらに、研究チームは、データセットの徹底的な統計分析を実施しました。
カテゴリ統計: MUSE には、元の LVIS データセットからの 1,000 以上のカテゴリと、質問と回答に基づいた独自の説明を持つ 900,000 のインスタンスがあります。ペアはコンテキストによって異なります。図 (a) は、すべての質問と回答のペアにわたる各カテゴリのインスタンスの数を示しています。
トークン数の統計: 図 (b) は、インスタンスに記述されているトークンの数の分布を示しています。一部のインスタンスの記述には、100 を超えるトークンが含まれています。これらの説明は単純なカテゴリ名に限定されるものではなく、GPT-4V ベースのデータ生成プロセスを通じて、外観、プロパティ、他のオブジェクトとの関係など、各インスタンスに関する詳細情報が豊富に含まれています。データセット内の情報の深さと多様性により、トレーニングされたモデルの汎化能力が強化され、オープンドメインの問題を効果的に解決できるようになります。
ターゲット数の統計: 図 (c) は、各質問と回答のペアのターゲット数の統計を示しています。ターゲットの平均数は 3.7 で、最大ターゲット数は 34 に達します。この数は、単一の画像に対するほとんどのターゲット推論シナリオをカバーできます。
アルゴリズム評価
研究チームは、MUSE ベンチマーク、参照セグメンテーション ベンチマーク、および複数参照セグメンテーション ベンチマークを含む 3 つのベンチマークで PixelLM のパフォーマンスを評価しました。研究チームは、1 つの問題で参照セグメンテーション ベンチマークの各画像に含まれる複数のターゲットを連続的にセグメント化するモデルを必要としています。
同時に、PixelLM は複数のターゲットが関係する複雑なピクセル推論タスクを処理する最初のモデルであるため、研究チームはモデルの比較分析を行うために 4 つのベースラインを確立しました。
ベースラインのうち 3 つは、PixelLM で最も関連性の高い作業である LISA に基づいており、次のものが含まれます:
1) オリジナル LISA;
2) LISA_rec: 最初に質問を入力します。 LLAVA-13B: ターゲットのテキスト返信を取得し、LISA を使用してテキストを分割します。
3) LISA_aug: MUSE を LISA トレーニング データに直接追加します。
4) もう 1 つは、LLM を使用しない一般的なセグメンテーション モデルである SEEM です。
写真
3 つのベンチマークのほとんどの指標で、PixelLM のパフォーマンスは他の方法よりも優れており、PixelLM は SAM に依存していないため、その TFLOP は同じサイズのモデルに比べてはるかに低いです。
興味のある友人は、まずこの波をフォローし、コードがオープンソースになるのを待つことができます~
参考リンク:
[1]https://www.php.cn / link/9271858951e6fe9504d1f05ae8576001
[2]https://www.php.cn/link/f1686b4badcf28d33ed632036c7ab0b8
以上がPixelLM: SA に依存せずにピクセルレベルの推論を効率的に実装するバイトマルチモーダル大規模モデルの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニング コストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー(テスラの4680バッテリー)を次のように分類します:公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング:今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジム ファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

ソフトウェア テクノロジの最前線に立つ UIUC Zhang Lingming のグループは、BigCode 組織の研究者とともに、最近 StarCoder2-15B-Instruct 大規模コード モデルを発表しました。この革新的な成果により、コード生成タスクにおいて大きな進歩が達成され、CodeLlama-70B-Instruct を上回り、コード生成パフォーマンス リストのトップに到達しました。 StarCoder2-15B-Instruct のユニークな特徴は、その純粋な自己調整戦略であり、トレーニング プロセス全体がオープンで透過的で、完全に自律的で制御可能です。このモデルは、高価な手動アノテーションに頼ることなく、StarCoder-15B 基本モデルの微調整に応じて、StarCoder2-15B を介して数千の命令を生成します。

大規模言語モデル (LLM) を人間の価値観や意図に合わせるには、人間のフィードバックを学習して、それが有用で、正直で、無害であることを確認することが重要です。 LLM を調整するという点では、ヒューマン フィードバックに基づく強化学習 (RLHF) が効果的な方法です。 RLHF 法の結果は優れていますが、最適化にはいくつかの課題があります。これには、報酬モデルをトレーニングし、その報酬を最大化するためにポリシー モデルを最適化することが含まれます。最近、一部の研究者はより単純なオフライン アルゴリズムを研究しており、その 1 つが直接優先最適化 (DPO) です。 DPO は、RLHF の報酬関数をパラメータ化することで、選好データに基づいてポリシー モデルを直接学習するため、明示的な報酬モデルの必要性がなくなります。この方法は簡単で安定しています

1. はじめに ここ数年、YOLO は、計算コストと検出パフォーマンスの効果的なバランスにより、リアルタイム物体検出の分野で主流のパラダイムとなっています。研究者たちは、YOLO のアーキテクチャ設計、最適化目標、データ拡張戦略などを調査し、大きな進歩を遂げました。同時に、後処理に非最大抑制 (NMS) に依存すると、YOLO のエンドツーエンドの展開が妨げられ、推論レイテンシに悪影響を及ぼします。 YOLO では、さまざまなコンポーネントの設計に包括的かつ徹底的な検査が欠けており、その結果、大幅な計算冗長性が生じ、モデルの機能が制限されます。効率は最適ではありませんが、パフォーマンス向上の可能性は比較的大きくなります。この作業の目標は、後処理とモデル アーキテクチャの両方から YOLO のパフォーマンス効率の境界をさらに改善することです。この目的を達成するために

上記と著者の個人的な理解: この論文は、自動運転アプリケーションにおける現在のマルチモーダル大規模言語モデル (MLLM) の主要な課題、つまり MLLM を 2D 理解から 3D 空間に拡張する問題の解決に特化しています。自動運転車 (AV) は 3D 環境について正確な決定を下す必要があるため、この拡張は特に重要です。 3D 空間の理解は、情報に基づいて意思決定を行い、将来の状態を予測し、環境と安全に対話する車両の能力に直接影響を与えるため、AV にとって重要です。現在のマルチモーダル大規模言語モデル (LLaVA-1.5 など) は、ビジュアル エンコーダーの解像度制限や LLM シーケンス長の制限により、低解像度の画像入力しか処理できないことがよくあります。ただし、自動運転アプリケーションには次の要件が必要です。

さまざまな Java フレームワークのパフォーマンス比較: REST API リクエスト処理: Vert.x が最高で、リクエスト レートは SpringBoot の 2 倍、Dropwizard の 3 倍です。データベース クエリ: SpringBoot の HibernateORM は Vert.x や Dropwizard の ORM よりも優れています。キャッシュ操作: Vert.x の Hazelcast クライアントは、SpringBoot や Dropwizard のキャッシュ メカニズムよりも優れています。適切なフレームワーク: アプリケーションの要件に応じて選択します。Vert.x は高パフォーマンスの Web サービスに適しており、SpringBoot はデータ集約型のアプリケーションに適しており、Dropwizard はマイクロサービス アーキテクチャに適しています。
