目次
結論の共有
画像生成に関する視点
ホームページ テクノロジー周辺機器 AI Nanyang Polytechnic は、完全なシーン グラフから PSG を生成し、ピクセル レベルでオブジェクトの位置を特定し、56 の関係を予測するタスクを提案しました。

Nanyang Polytechnic は、完全なシーン グラフから PSG を生成し、ピクセル レベルでオブジェクトの位置を特定し、56 の関係を予測するタスクを提案しました。

Apr 12, 2023 pm 01:16 PM
AI モデル

もう 2022 年ですが、現在のコンピューター ビジョン タスクのほとんどは依然として画像認識のみに焦点を当てています。たとえば、画像分類タスクでは、モデルが画像内のオブジェクト カテゴリを識別することだけが必要です。ターゲット検出や画像セグメンテーションなどのタスクではさらにオブジェクトの位置を見つける必要がありますが、そのようなタスクはモデルがシーンを包括的かつ深く理解していることを実証するにはまだ十分ではありません。

次の図 1 は例です。コンピューター ビジョン モデルが写真内の人、象、フェンス、木などのみを検出する場合、通常、モデルが検出しているとは考えられません。モデルは状況を理解しましたが、「餌を与えない」という警告を発するなど、理解に基づいてより高度な決定を下すこともできません。

Nanyang Polytechnic は、完全なシーン グラフから PSG を生成し、ピクセル レベルでオブジェクトの位置を特定し、56 の関係を予測するタスクを提案しました。

図 1: 元の図例

実際には、知恵として都市、自動運転、スマート製造などの現実世界の AI シナリオの多くでは、シーン内のターゲットの位置を特定することに加えて、通常、モデルが画像内のさまざまな被写体間の関係を推論して予測することも期待されます。たとえば、自動運転アプリケーションでは、自動運転車は、道端の歩行者がカートを押しているのか、自転車に乗っているのかを分析する必要があります。状況に応じて、対応するその後の決定が異なる場合があります。

スマートファクトリーのシナリオでは、オペレーターが安全かつ正しく稼働しているかどうかを判断するには、監視側モデルにも被験者間の関係を理解する能力が必要です。既存のメソッドのほとんどは、いくつかのハードコーディングされたルールを手動で設定します。このため、モデルには一般化が欠けており、他の特定の状況に適応することが困難になります。

シーン グラフ生成タスク (シーン グラフ生成、または SGG) は、上記の問題を解決するように設計されています。 SGG タスクでは、ターゲット オブジェクトを分類して位置を特定するための要件に加えて、オブジェクト間の関係を予測するためのモデルも必要です (図 2 を参照)。

Nanyang Polytechnic は、完全なシーン グラフから PSG を生成し、ピクセル レベルでオブジェクトの位置を特定し、56 の関係を予測するタスクを提案しました。

#図 2: シーン グラフの生成

従来のシーン グラフ生成タスクデータセットには通常、オブジェクトの境界ボックス アノテーションと、境界ボックス間の関係のアノテーションが含まれます。ただし、この設定にはいくつかの固有の欠陥があります:

(1) 境界ボックスはオブジェクトを正確に特定できません: 図 2 に示すように、人物にラベルを付ける場合、境界ボックスは必然的に失敗します。

(2) 背景はマークできません: 図 2 に示すように、象の後ろの木は境界ボックスでマークされており、画像全体がほぼ覆われているため、背景間の関係に正確に注釈を付けることができないため、シーン グラフが画像を完全にカバーして包括的なシーンを理解することも不可能になります。

したがって、著者は、細かく注釈が付けられた大規模な PSG データ セットを使用したフル シーン グラフ生成 (PSG) タスクを提案します。

Nanyang Polytechnic は、完全なシーン グラフから PSG を生成し、ピクセル レベルでオブジェクトの位置を特定し、56 の関係を予測するタスクを提案しました。

図 3: フル シーン グラフの生成図 3 に示すように、このタスクではパノラマ セグメンテーションを使用して、包括的かつ正確な結果を実現します。オブジェクトと背景を配置することで、シーン グラフ生成タスクの固有の欠点に対処し、この分野を包括的で深いシーンの理解に向けて前進させます。 論文情報

Nanyang Polytechnic は、完全なシーン グラフから PSG を生成し、ピクセル レベルでオブジェクトの位置を特定し、56 の関係を予測するタスクを提案しました。

論文リンク: https://arxiv.org/abs/2207.11247プロジェクトページ: https ://psgdataset.org/OpenPSG コードベース: https://github.com/Jingkang50/OpenPSGCompetition リンク: https://www.cvmart.net/race/10349/baseECCV'22 SenseHuman ワークショップ リンク: https://sense- human.github.io/HuggingFace デモリンク: https://huggingface.co/spaces/ECCV2022/PSG

著者が提案した PSG データ セットには、ココの約 50,000 枚の画像が含まれており、セグメント化されたブロック間の関係をマークするココの既存のパノラマ セグメンテーション アノテーションに基づいています。著者は、位置関係(上、前など)、物体間の共通の関係(ぶら下がっているなど)、共通の生物学的動作(歩く、立つなど)、人間と人間の関係など、56種類の関係を丁寧に定義しています。行動(料理など)、交通シーンでの関係(運転、乗車など)、動作シーンでの関係(蹴りなど)、背景間の関係(囲みなど)。著者は、アノテーターに対し、曖昧な表現ではなくより正確な動詞表現を使用し、図内の関係に可能な限り完全に注釈を付けることを要求しています。

Nanyang Polytechnic は、完全なシーン グラフから PSG を生成し、ピクセル レベルでオブジェクトの位置を特定し、56 の関係を予測するタスクを提案しました。

PSG モデル効果の表示##タスクの利点

著者は、以下の例を通じて、フル シーン グラフ生成 (PSG) タスクの利点を再度理解しました。

Nanyang Polytechnic は、完全なシーン グラフから PSG を生成し、ピクセル レベルでオブジェクトの位置を特定し、56 の関係を予測するタスクを提案しました。

左の図は、従来の図からのものです。 SGG タスク Set Visual Genome (VG-150) のデータ。検出フレームに基づく注釈は通常不正確であり、検出フレームによってカバーされるピクセルはオブジェクト、特に椅子や木などの背景を正確に特定できないことがわかります。同時に、検出フレームに基づく関係アノテーションは、通常、「人には頭がある」や「人は服を着ている」など、退屈な関係にラベルを付ける傾向があります。

対照的に、右の図で提案されている PSG タスクは、より包括的 (前景と背景の相互作用を含む)、より明確 (適切なオブジェクトの粒度)、およびより正確 (ピクセル レベルの精度) を提供します。シーンの理解の分野を前進させるためのシーン グラフ表現。

2 つの主要なタイプの PSG モデル

提案された PSG タスクをサポートするために、著者は 4 つの 2 段階メソッドを実装したオープン ソース コード プラットフォーム OpenPSG を構築しました。単一段階のメソッドは、誰でも開発、使用、分析するのに便利です。

Nanyang Polytechnic は、完全なシーン グラフから PSG を生成し、ピクセル レベルでオブジェクトの位置を特定し、56 の関係を予測するタスクを提案しました。

2 段階の方法では、最初の段階で Panoptic-FPN を使用して画像のパノラマ セグメンテーションを実行します。

次に、パノラマセグメンテーションによって得られたオブジェクトの特徴と、オブジェクト融合の各ペアの関係の特徴を抽出し、それらを関係予測の次の段階に送ります。このフレームワークは、従来のシーン グラフ生成の古典的な手法である IMP、VCTree、Motifs、および GPSNet を統合して再現しています。

Nanyang Polytechnic は、完全なシーン グラフから PSG を生成し、ピクセル レベルでオブジェクトの位置を特定し、56 の関係を予測するタスクを提案しました。

PSGFormer は、デュアル デコーダ DETR に基づくシングルステージ方式です。このモデルは、まず a) で畳み込みニューラル ネットワーク バックボーンを通じて画像の特徴を抽出し、位置コーディング情報をエンコーダーの入力として追加し、同時にトリプルを表すクエリのセットを初期化します。 DETR と同様に、b) では、モデルはクロスアテンション操作のために、トリプルを表すクエリとともにエンコーダーの出力をキーと値としてデコーダーに入力します。次にモデルは、デコードされた各クエリを c) の主語、動詞、目的語のトリプレットに対応する予測モジュールに入力し、最終的に対応するトリプレットの予測結果を取得します。

Nanyang Polytechnic は、完全なシーン グラフから PSG を生成し、ピクセル レベルでオブジェクトの位置を特定し、56 の関係を予測するタスクを提案しました。

PSGFormer は、ダブル デコードに基づく DETR の 1 段階方式です。モデル a) CNN を通じて画像特徴を抽出し、位置エンコード情報をエンコーダーに入力し、オブジェクトと関係をそれぞれ表す 2 セットのクエリを初期化します。次に、ステップ b) で、モデルは、エンコーダによってエンコードされた画像情報に基づいて、それぞれオブジェクト デコーダとリレーション エンコーダでのクロスアテンション デコーディングを通じてオブジェクト クエリとリレーション クエリを学習します。

両方のタイプのクエリを学習した後、c) のマッピングを通じて照合して、ペアになったトリプル クエリを取得します。最後に、d) で、オブジェクト クエリと関係クエリに関する予測が予測ヘッドを通じて完了し、c) のマッチング結果に基づいて最終的なトリプル予測結果が得られます。

PSGTR と PSGFormer はどちらも DETR に基づいて拡張および改良されたモデルです。違いは、PSGTR は一連のクエリを使用してトリプルを直接モデル化するのに対し、PSGFormer は 2 つのクエリ セットを使用してオブジェクトと関係モデリングをモデル化することです。各方法には一長一短がありますので、詳しくは論文内の実験結果をご参照ください。

結論の共有

SGG タスクで有効な方法のほとんどは、PSG タスクでも引き続き有効です。ただし、データセットに関する強力な統計的事前分布や、主語、述語、および目的語の述語方向に関する事前分布を利用する一部の方法は、それほど効果的ではない可能性があります。これは、従来の VG データセットに比べて PSG データセットの偏りがそれほど深刻ではなく、述語動詞の定義がより明確で学習しやすいという事実によるものと考えられます。したがって、著者らは、その後の手法が視覚情報の抽出と画像自体の理解に焦点を当てることを望んでいます。統計的事前分布はデータセットのブラッシングに効果的かもしれませんが、必須ではありません。

2 段階モデル​​と比較して、現在、1 段階モデル​​の方が優れた結果を達成できます。これは、単一段階モデル​​の関係に関する監視信号を特徴マップに直接転送できるため、関係信号がより多くのモデル学習に参加し、関係の把握に有益であるためと考えられます。ただし、この記事ではいくつかのベースライン モデルを提案するだけであり、1 段階モデル​​や 2 段階モデル​​の最適化を行っていないため、必ずしも 1 段階モデル​​が 2 段階モデル​​よりも強いとは言えません。これはまた、出場者が探求を続けることを期待しています。

従来の SGG タスクと比較して、PSG タスクはパノラマ セグメンテーション マップに基づいて関係マッチングを実行し、各関係におけるサブジェクトとオブジェクトの ID の確認を必要とします。オブジェクト ID の分割を完了するためにパノラマ セグメンテーション マップを 2 段階で直接予測するのと比較して、1 段階モデル​​では一連の後処理を通じてこのステップを完了する必要があります。既存の単一ステージ モデルがさらに改善およびアップグレードされた場合、単一ステージ モデルでオブジェクト ID の確認をより効果的に完了し、より優れたパノラマ セグメンテーション画像を生成する方法は、引き続き検討する価値のあるトピックです。

最後に、みなさんもぜひ HuggingFace を試してみてください:

Nanyang Polytechnic は、完全なシーン グラフから PSG を生成し、ピクセル レベルでオブジェクトの位置を特定し、56 の関係を予測するタスクを提案しました。

デモ: https:/ /huggingface .co/spaces/ECCV2022/PSG

画像生成に関する視点

最近人気のあるテキスト入力ベースの生成モデル (DALL-E 2 など) ) これは本当に驚くべきことですが、一部の研究によると、これらの生成モデルは、テキスト内で表現されている空間的関係さえ理解せずに、テキスト内の複数のエンティティを単に貼り合わせているだけである可能性があります。以下に示すように、入力は「カップにスプーン」ですが、生成された画像は「スプーンにカップ」のままです。

Nanyang Polytechnic は、完全なシーン グラフから PSG を生成し、ピクセル レベルでオブジェクトの位置を特定し、56 の関係を予測するタスクを提案しました。

偶然にも、PSG データ セットにはマスク ベースのシーン グラフ関係がマークされています。作成者は、シーン グラフとパノラマ セグメンテーション マスクをトレーニング ペアとして使用して text2mask モデルを取得し、マスクに基づいてより詳細な画像を生成できます。したがって、PSG データセットは、関係に焦点を当てた画像生成のための潜在的なソリューションも提供する可能性があります。

追伸: この分野で包括的なシーン認識を共同で研究することを奨励することを目的とした「PSG チャレンジ」が本格化しています。何百万もの賞品があなたを待っています!競争リンク: https://www.cvmart.net/race/10349/base

以上がNanyang Polytechnic は、完全なシーン グラフから PSG を生成し、ピクセル レベルでオブジェクトの位置を特定し、56 の関係を予測するタスクを提案しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Bytedance Cutting が SVIP スーパー メンバーシップを開始: 継続的な年間サブスクリプションは 499 元で、さまざまな AI 機能を提供 Bytedance Cutting が SVIP スーパー メンバーシップを開始: 継続的な年間サブスクリプションは 499 元で、さまざまな AI 機能を提供 Jun 28, 2024 am 03:51 AM

このサイトは6月27日、JianyingはByteDanceの子会社であるFaceMeng Technologyによって開発されたビデオ編集ソフトウェアであり、Douyinプラットフォームに依存しており、基本的にプラットフォームのユーザー向けに短いビデオコンテンツを作成すると報告しました。 Windows、MacOS、その他のオペレーティング システム。 Jianyingは会員システムのアップグレードを正式に発表し、インテリジェント翻訳、インテリジェントハイライト、インテリジェントパッケージング、デジタルヒューマン合成などのさまざまなAIブラックテクノロジーを含む新しいSVIPを開始しました。価格的には、クリッピングSVIPの月額料金は79元、年会費は599元(当サイト注:月額49.9元に相当)、継続月額サブスクリプションは月額59元、継続年間サブスクリプションは、年間499元(月額41.6元に相当)です。さらに、カット担当者は、ユーザーエクスペリエンスを向上させるために、オリジナルのVIPに登録している人は、

Rag と Sem-Rag を使用したコンテキスト拡張 AI コーディング アシスタント Rag と Sem-Rag を使用したコンテキスト拡張 AI コーディング アシスタント Jun 10, 2024 am 11:08 AM

検索強化生成およびセマンティック メモリを AI コーディング アシスタントに組み込むことで、開発者の生産性、効率、精度を向上させます。 JanakiramMSV 著者の EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG から翻訳。基本的な AI プログラミング アシスタントは当然役に立ちますが、ソフトウェア言語とソフトウェア作成の最も一般的なパターンに関する一般的な理解に依存しているため、最も適切で正しいコードの提案を提供できないことがよくあります。これらのコーディング アシスタントによって生成されたコードは、彼らが解決する責任を負っている問題の解決には適していますが、多くの場合、個々のチームのコーディング標準、規約、スタイルには準拠していません。これにより、コードがアプリケーションに受け入れられるように修正または調整する必要がある提案が得られることがよくあります。

微調整によって本当に LLM が新しいことを学習できるようになるのでしょうか: 新しい知識を導入すると、モデルがより多くの幻覚を生成する可能性があります 微調整によって本当に LLM が新しいことを学習できるようになるのでしょうか: 新しい知識を導入すると、モデルがより多くの幻覚を生成する可能性があります Jun 11, 2024 pm 03:57 PM

大規模言語モデル (LLM) は巨大なテキスト データベースでトレーニングされ、そこで大量の現実世界の知識を取得します。この知識はパラメータに組み込まれており、必要なときに使用できます。これらのモデルの知識は、トレーニングの終了時に「具体化」されます。事前トレーニングの終了時に、モデルは実際に学習を停止します。モデルを調整または微調整して、この知識を活用し、ユーザーの質問により自然に応答する方法を学びます。ただし、モデルの知識だけでは不十分な場合があり、モデルは RAG を通じて外部コンテンツにアクセスできますが、微調整を通じてモデルを新しいドメインに適応させることが有益であると考えられます。この微調整は、ヒューマン アノテーターまたは他の LLM 作成物からの入力を使用して実行され、モデルは追加の実世界の知識に遭遇し、それを統合します。

OpenAI データは必要ありません。大規模なコード モデルのリストに加わりましょう。 UIUC が StarCoder-15B-Instruct をリリース OpenAI データは必要ありません。大規模なコード モデルのリストに加わりましょう。 UIUC が StarCoder-15B-Instruct をリリース Jun 13, 2024 pm 01:59 PM

ソフトウェア テクノロジの最前線に立つ UIUC Zhang Lingming のグループは、BigCode 組織の研究者とともに、最近 StarCoder2-15B-Instruct 大規模コード モデルを発表しました。この革新的な成果により、コード生成タスクにおいて大きな進歩が達成され、CodeLlama-70B-Instruct を上回り、コード生成パフォーマンス リストのトップに到達しました。 StarCoder2-15B-Instruct のユニークな特徴は、その純粋な自己調整戦略であり、トレーニング プロセス全体がオープンで透過的で、完全に自律的で制御可能です。このモデルは、高価な手動アノテーションに頼ることなく、StarCoder-15B 基本モデルの微調整に応じて、StarCoder2-15B を介して数千の命令を生成します。

新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。 新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。 Jul 25, 2024 am 06:42 AM

編集者 |ScienceAI 質問応答 (QA) データセットは、自然言語処理 (NLP) 研究を促進する上で重要な役割を果たします。高品質の QA データ セットは、モデルの微調整に使用できるだけでなく、大規模言語モデル (LLM) の機能、特に科学的知識を理解し推論する能力を効果的に評価することもできます。現在、医学、化学、生物学、その他の分野をカバーする多くの科学 QA データ セットがありますが、これらのデータ セットにはまだいくつかの欠点があります。まず、データ形式は比較的単純で、そのほとんどが多肢選択式の質問であり、評価は簡単ですが、モデルの回答選択範囲が制限され、科学的な質問に回答するモデルの能力を完全にテストすることはできません。対照的に、自由回答型の Q&A

Yolov10: 詳細な説明、展開、アプリケーションがすべて 1 か所にまとめられています。 Yolov10: 詳細な説明、展開、アプリケーションがすべて 1 か所にまとめられています。 Jun 07, 2024 pm 12:05 PM

1. はじめに ここ数年、YOLO は、計算コストと検出パフォーマンスの効果的なバランスにより、リアルタイム物体検出の分野で主流のパラダイムとなっています。研究者たちは、YOLO のアーキテクチャ設計、最適化目標、データ拡張戦略などを調査し、大きな進歩を遂げました。同時に、後処理に非最大抑制 (NMS) に依存すると、YOLO のエンドツーエンドの展開が妨げられ、推論レイテンシに悪影響を及ぼします。 YOLO では、さまざまなコンポーネントの設計に包括的かつ徹底的な検査が欠けており、その結果、大幅な計算冗長性が生じ、モデルの機能が制限されます。効率は最適ではありませんが、パフォーマンス向上の可能性は比較的大きくなります。この作業の目標は、後処理とモデル アーキテクチャの両方から YOLO のパフォーマンス効率の境界をさらに改善することです。この目的を達成するために

SOTA パフォーマンス、厦門マルチモーダルタンパク質-リガンド親和性予測 AI 手法、初めて分子表面情報を結合 SOTA パフォーマンス、厦門マルチモーダルタンパク質-リガンド親和性予測 AI 手法、初めて分子表面情報を結合 Jul 17, 2024 pm 06:37 PM

編集者 | KX 医薬品の研究開発の分野では、タンパク質とリガンドの結合親和性を正確かつ効果的に予測することが、医薬品のスクリーニングと最適化にとって重要です。しかし、現在の研究では、タンパク質とリガンドの相互作用における分子表面情報の重要な役割が考慮されていません。これに基づいて、アモイ大学の研究者らは、初めてタンパク質の表面、3D 構造、配列に関する情報を組み合わせ、クロスアテンション メカニズムを使用して異なるモダリティの特徴を比較する、新しいマルチモーダル特徴抽出 (MFE) フレームワークを提案しました。アライメント。実験結果は、この方法がタンパク質-リガンド結合親和性の予測において最先端の性能を達成することを実証しています。さらに、アブレーション研究は、この枠組み内でのタンパク質表面情報と多峰性特徴の位置合わせの有効性と必要性​​を実証しています。 「S」で始まる関連研究

SKハイニックスは8月6日に12層HBM3E、321層NANDなどのAI関連新製品を展示する。 SKハイニックスは8月6日に12層HBM3E、321層NANDなどのAI関連新製品を展示する。 Aug 01, 2024 pm 09:40 PM

8月1日の本サイトのニュースによると、SKハイニックスは本日(8月1日)ブログ投稿を発表し、8月6日から8日まで米国カリフォルニア州サンタクララで開催されるグローバル半導体メモリサミットFMS2024に参加すると発表し、多くの新世代の製品。フューチャー メモリおよびストレージ サミット (FutureMemoryandStorage) の紹介。以前は主に NAND サプライヤー向けのフラッシュ メモリ サミット (FlashMemorySummit) でしたが、人工知能技術への注目の高まりを背景に、今年はフューチャー メモリおよびストレージ サミット (FutureMemoryandStorage) に名前が変更されました。 DRAM およびストレージ ベンダー、さらに多くのプレーヤーを招待します。昨年発売された新製品SKハイニックス

See all articles