ホームページ

テクノロジー周辺機器

ICML 2024 | 文字インタラクション画像、あなたのプロンプトの言葉がよりよく理解できるようになりました、北京大学が意味認識に基づく文字インタラクション画像生成フレームワークを開始

ICML 2024 | 文字インタラクション画像、あなたのプロンプトの言葉がよりよく理解できるようになりました、北京大学が意味認識に基づく文字インタラクション画像生成フレームワークを開始

PHPz

Aug 08, 2024 pm 09:01 PM

業界 SA-HOI

ICML 2024 | 人物交互图像，现在更懂你的提示词了，北大推出基于语义感知的人物交互图像生成框架

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。投稿メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

この論文の筆頭著者と責任著者はどちらも北京大学王宣コンピュータサイエンス研究所のMIPL研究室の出身です。筆頭著者は博士課程の学生です。 Xu Zhu、責任著者は博士指導者のLiu Yangです。近年、MIPL研究所はIJCV、CVPR、AAAI、ICCV、ICML、ECCVなどのトップカンファレンスで数多くの代表的な結果を発表しており、国内および国内のCV分野のヘビー級大会で多くのチャンピオン賞を受賞しています。海外の機関も幅広く協力しています。

キャラクターインタラクション画像生成とは、テキスト記述要件を満たす画像を生成することを指し、その内容は人と物体との間のインタラクションであり、画像は可能な限り現実的で意味論的であることが求められます。近年、テキスト生成画像モデルは現実の画像の生成において大きな進歩を遂げていますが、これらのモデルは、人間のインタラクションを主なコンテンツとして忠実度の高い画像を生成するという点で依然として課題に直面しています。この困難は主に 2 つの側面から生じます。第 1 に、人間の姿勢の複雑さと多様性が合理的なキャラクター生成に課題をもたらし、第 2 に、インタラクティブな境界領域 (インタラクティブな意味が豊富な領域) の信頼性の低い生成が、キャラクターのインタラクティブな意味表現の失敗につながる可能性があります。不十分。

上記の問題に応えて、北京大学の研究チームは、人間の姿勢の生成品質とインタラクション境界領域情報をガイドとして使用する、姿勢とインタラクションを意識した人間インタラクション画像生成フレームワーク (SA-HOI) を提案しました。ノイズ除去プロセスにより、より合理的でリアルなキャラクターインタラクションイメージが生成されます。また、生成された画像の品質を総合的に評価するために、包括的なヒューマンインタラクション画像生成ベンチマークも提案しました。

ICML 2024 | 人物交互图像，现在更懂你的提示词了，北大推出基于语义感知的人物交互图像生成框架

紙のリンク: https://proceedings.mlr.press/v235/xu24e.html
プロジェクトのホームページ: https://sites.google.com/view/sa-hoi/
ソースコードリンク: https://github.com/XZPKU/SA-HOI
研究室ホームページ: http://www.wict.pku.edu.cn/mipl

SA-HOI は Aセマンティックを意識したヒューマンインタラクション画像生成方法は、ヒューマンインタラクション画像生成の全体的な品質を向上させ、人体の姿勢とインタラクティブセマンティクスの両方から生じる既存の生成問題を軽減します。画像反転方法を組み合わせることで、反復反転および画像補正プロセスが生成され、生成された画像を徐々に自己補正して品質を向上させることができます。

研究チームは論文の中で、人間と物体、人間と動物、人間と人間の相互作用をカバーする初の人間相互作用画像生成ベンチマークも提案し、人間相互作用画像生成のための対象を絞った評価指標を設計しました。広範な実験により、この方法は、人間のインタラクション画像生成と従来の画像生成の両方の評価基準の下で、既存の拡散ベースの画像生成方法よりも優れていることが示されています。 methodはじめにメソッドはじめに

ポスチャーとインタラクティブなガイダンス

（ポーズと相互作用ガイダンス、豚）および帯状の反転と修正プロセス（反復反転および改良パイプライン、IIR）。

PIG では、特定のキャラクターインタラクションテキスト説明とノイズに対して、まず安定拡散モデル (Stable Diffusion [2]) を使用してを初期画像として生成し、姿勢検出器 [3] を使用して画像を取得します。人体の関節位置と対応する信頼度スコアを使用して、低品質のポーズ領域を強調表示するポーズマスクを構築します。

インタラクティブなガイダンスでは、セグメンテーションモデルを使用してインタラクション境界領域の位置を特定し、キーポイントと対応する信頼スコアを取得し、インタラクションマスクでインタラクション領域を強調表示して、インタラクション境界の意味表現を強化します。各ノイズ除去ステップで、とが制約として使用され、これらの強調表示された領域が修正され、それによってこれらの領域に存在する生成の問題が軽減されます。さらに、IIR は画像反転モデル N を組み合わせて、さらなる修正が必要な画像からノイズ n とテキスト記述の埋め込み t を抽出し、PIG を使用して画像に次の修正を実行し、品質評価器 Q を使用します。補正された画像の品質を評価し、操作を使用して画像の品質を徐々に向上させます。 🎙

ポーズとインタラクションに基づくサンプリングの擬似コードを図 2 に示します。各ノイズ除去ステップでは、まず、安定拡散モデル (安定拡散) で設計された予測ノイズ ϵt と中間再構成 ϵt を取得します。次に、ガウスぼかし G on を適用して劣化した潜在特徴とを取得し、その後、対応する潜在特徴の情報をノイズ除去プロセスに導入します。

とはとを生成するために使用され、とでポーズ品質の低い領域を強調表示して、これらの領域での歪みの生成を減らすようにモデルをガイドします。低品質領域を改善するようにモデルを導くために、ポーズスコアの低い領域が次の式によって強調表示されます:

ここで、、x、y は画像のピクセルごとの座標、H、W は画像サイズ、σ はガウス分布の分散です。は、i 番目の関節を中心とした注意を表します。すべての関節の注意を組み合わせることで、最終的な注意マップを形成し、しきい値を使用してをマスクに変換できます。

ここで、ϕt はタイムステップ t でマスクを生成するしきい値です。同様に、インタラクティブなガイダンスの場合、論文の著者はセグメンテーションモデルを使用してオブジェクトの外側の輪郭点 O と人体の関節点 C を取得し、人とオブジェクトの間の距離行列 D を計算し、そのキーポイントをサンプリングします。同じ方法でインタラクティブなアテンションとマスクが生成され、最終的な予測ノイズの計算に適用されます。

反復反転と画像補正プロセス

為了即時獲取生成影像的品質評估，論文作者引入品質評估器 Q，用於作為迭代式操作的指導。對於第 k 輪的圖像，採用評估器 Q 獲取其質量分數，然後基於生成。為了在最佳化後保留的主要內容，需要相應的雜訊作為去噪的初始值。

然而，這樣的噪聲不是現成可得的，為此引入圖像反演方法來獲取其噪聲潛在特徵和文本嵌入，作為 PIG 的輸入，生成優化後的結果。

透過比較前後迭代輪次中的質量分數，可以判斷是否要繼續進行最佳化：當和之間沒有顯著差異，即低於閾值θ，可以認為該流程可能已經對影像做出了充足的修正，因此結束優化並輸出品質分數最高的影像。

人物互動影像產生基準

^{+「影像」產生任務設計的現有模型和基準，論文作者收集並整合了一個人物互動影像生成基準，包括一個含有150 個人物互動類別的真實人物互動影像資料集，以及若干為人物互動影像產生客製化的評量指標。}該資料集從開源人物交互檢測資料集 HICO-DET [5] 中篩選得到 150 個人物交互類別，涵蓋了人 - 物體、人 - 動物和人 - 人三種不同交互場景。共計收集了 5k 人物交互真實圖像作為該論文的參考資料集，用於評估生成人物交互圖像的品質。

為了更好地評估生成的人物交互圖像質量，論文作者為人物交互生成量身定制了幾個測評標準，從可靠性(Authenticity)、可行性(Plausibility) 和保真度(Fidelity) 的角度全面評估生成影像。在可靠性上，論文作者引入姿勢分佈距離和人 - 物體距離分佈，評估生成結果和真實圖像是否接近：生成結果在分佈意義上越接近真實圖像，就說明品質越好。可行性上，採用計算姿勢置信度分數來衡量產生人體關節的可信度和合理性。在保真度上，採用人物互動偵測任務，以及圖文檢索任務評估產生影像與輸入文字之間的語意一致性。

實驗結果

與現有方法的對比實驗結果如表 1 和表 2 所示，分別對比了人物交互影像產生指標和常規影像產生指標上的表現。

¢ 表2：與現有方法使用常規影像產生指標時的實驗結果相較

^{實驗結果表明，該論文中的方法在人體生成質量，交互語義表達，人物交互距離，人體姿態分佈，整體圖像質量等多個維度的測評上都優於現有模型。}此外，論文作者還進行了主觀評測，邀請眾多用戶從人體質量，物體外觀，交互語義和整體質量等多個角度進行評分，實驗結果證明SA-HOI 的方法在各個角度都更符合人類審美。

^{表 3：與現有方法的主觀評測結果}
的定義中對質化實驗方法中，同一個群體描述了不同類別對比的互動性對比。在上方的組圖中，採用了新方法的模型準確地表達了 “親吻” 的語義，並且生成的人體姿勢也更合理。在下方的組圖中，論文中的方法也成功緩解了其他方法中存在的人體扭曲和畸變，並且通過在手與手提箱交互的區域生成手提箱的拉桿來增強“拿手提箱” 這個交互的語意表達，從而得到在人體姿態和交互語意兩方面都優於其他方法的結果。

圖 4：作用中對接一個結果視覺化^{相比與原始資料一樣為視覺化}。

參考文獻：

[1] Rombach, R., Blattmann, A., Lorenz, D., Esser, P., and Ommer, B. High-resolution image synthesis with latent0. Proceedings of the IEEE/CVF
Conference on Computer Vision and Pattern Recognition (CVPR), pp. 10684–10695, June 2022
. uggingface .co/CompVis/stable-diffusion-v1-4.

[3] Chen, K., Wang, J., Pang, J., Cao, Y., Xiong, Y., Li, X, J., Pang, J., Cao, Y., Xiong, Y., Li, X, J., Pang, J., Cao, Y., Xiong, Y., Li, X, J., Pang, J., Cao, Y., Xiong, Y., Li, X, J., Pang, X. ., Sun, S., Feng, W., Liu, Z., Xu, J., Zhang, Z., Cheng, D., Zhu, C^{., Cheng, T., Zhao, Q., Li , B., Lu, X., Zhu, R., Wu, Y., Dai, J., Wang, J., Shi, J., Ouyang, W., Loy, C. C., and Lin, D. MMDetection: Open mmlab detection toolbox and benchmark. arXiv preprint arXiv:1906.07155, 2019.}

^{[4] Ron Mokady, Anidtz, Kullfir Abman, Kofir Abt. text inversion for editing real images using guided diffusion models. arXiv preprint}

^{arXiv:2211.09794, 2022. arXiv:2211.09794, 2022. , Jiaxuan Wang, and Jia Deng. HICO: A benchmark for recognizing human-object interactions in images. In Proceedings of the IEEE International Conference on Computer Vision, 2015.}

以上がICML 2024 | 文字インタラクション画像、あなたのプロンプトの言葉がよりよく理解できるようになりました、北京大学が意味認識に基づく文字インタラクション画像生成フレームワークを開始の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Java チュートリアル

1664

CakePHP チュートリアル

1423

Laravel チュートリアル

1321

PHP チュートリアル

1269

C# チュートリアル

1249

Related knowledge

DeepMind ロボットが卓球をすると、フォアハンドとバックハンドが空中に滑り出し、人間の初心者を完全に打ち負かしました Aug 09, 2024 pm 04:01 PM

でももしかしたら公園の老人には勝てないかもしれない？パリオリンピックの真っ最中で、卓球が注目を集めています。同時に、ロボットは卓球のプレーにも新たな進歩をもたらしました。先ほど、DeepMind は、卓球競技において人間のアマチュア選手のレベルに到達できる初の学習ロボットエージェントを提案しました。論文のアドレス: https://arxiv.org/pdf/2408.03906 DeepMind ロボットは卓球でどれくらい優れていますか?おそらく人間のアマチュアプレーヤーと同等です: フォアハンドとバックハンドの両方: 相手はさまざまなプレースタイルを使用しますが、ロボットもそれに耐えることができます: さまざまなスピンでサーブを受ける: ただし、ゲームの激しさはそれほど激しくないようです公園の老人。ロボット、卓球用

初のメカニカルクロー！元羅宝は2024年の世界ロボット会議に登場し、家庭に入ることができる初のチェスロボットを発表した Aug 21, 2024 pm 07:33 PM

8月21日、2024年世界ロボット会議が北京で盛大に開催された。 SenseTimeのホームロボットブランド「Yuanluobot SenseRobot」は、全製品ファミリーを発表し、最近、世界初の家庭用チェスロボットとなるYuanluobot AIチェスプレイロボット - Chess Professional Edition（以下、「Yuanluobot SenseRobot」という）をリリースした。家。 Yuanluobo の 3 番目のチェス対局ロボット製品である新しい Guxiang ロボットは、AI およびエンジニアリング機械において多くの特別な技術アップグレードと革新を経て、初めて 3 次元のチェスの駒を拾う機能を実現しました。家庭用ロボットの機械的な爪を通して、チェスの対局、全員でのチェスの対局、記譜のレビューなどの人間と機械の機能を実行します。

クロードも怠け者になってしまった！ネチズン: 自分に休日を与える方法を学びましょう Sep 02, 2024 pm 01:56 PM

もうすぐ学校が始まり、新学期を迎える生徒だけでなく、大型AIモデルも気を付けなければなりません。少し前、レディットはクロードが怠け者になったと不満を漏らすネチズンでいっぱいだった。「レベルが大幅に低下し、頻繁に停止し、出力も非常に短くなりました。リリースの最初の週は、4 ページの文書全体を一度に翻訳できましたが、今では 0.5 ページの出力さえできません」 !」 https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ というタイトルの投稿で、「クロードには完全に失望しました」という内容でいっぱいだった。

世界ロボット会議で「未来の高齢者介護の希望」を担う家庭用ロボットを囲みました Aug 22, 2024 pm 10:35 PM

北京で開催中の世界ロボット会議では、人型ロボットの展示が絶対的な注目となっているスターダストインテリジェントのブースでは、AIロボットアシスタントS1がダルシマー、武道、書道の3大パフォーマンスを披露した。文武両道を備えた 1 つの展示エリアには、多くの専門的な聴衆とメディアが集まりました。弾性ストリングのエレガントな演奏により、S1 は、スピード、強さ、正確さを備えた繊細な操作と絶対的なコントロールを発揮します。 CCTVニュースは、「書道」の背後にある模倣学習とインテリジェント制御に関する特別レポートを実施し、同社の創設者ライ・ジエ氏は、滑らかな動きの背後にあるハードウェア側が最高の力制御と最も人間らしい身体指標（速度、負荷）を追求していると説明した。など）、AI側では人の実際の動きのデータが収集され、強い状況に遭遇したときにロボットがより強くなり、急速に進化することを学習することができます。そしてアジャイル

ACL 2024 賞の発表: HuaTech による Oracle 解読に関する最優秀論文の 1 つ、GloVe Time Test Award Aug 15, 2024 pm 04:37 PM

貢献者はこの ACL カンファレンスから多くのことを学びました。 6日間のACL2024がタイのバンコクで開催されています。 ACL は、計算言語学と自然言語処理の分野におけるトップの国際会議で、国際計算言語学協会が主催し、毎年開催されます。 ACL は NLP 分野における学術的影響力において常に第一位にランクされており、CCF-A 推奨会議でもあります。今年の ACL カンファレンスは 62 回目であり、NLP 分野における 400 以上の最先端の作品が寄せられました。昨日の午後、カンファレンスは最優秀論文およびその他の賞を発表しました。今回の優秀論文賞は7件（未発表2件）、最優秀テーマ論文賞1件、優秀論文賞35件です。このカンファレンスでは、3 つの Resource Paper Award (ResourceAward) と Social Impact Award (

Li Feifei 氏のチームは、ロボットに空間知能を与え、GPT-4o を統合する ReKep を提案しました Sep 03, 2024 pm 05:18 PM

ビジョンとロボット学習の緊密な統合。最近話題の1X人型ロボットNEOと合わせて、2つのロボットハンドがスムーズに連携して服をたたむ、お茶を入れる、靴を詰めるといった動作をしていると、いよいよロボットの時代が到来するのではないかと感じられるかもしれません。実際、これらの滑らかな動きは、高度なロボット技術 + 精緻なフレーム設計 + マルチモーダル大型モデルの成果です。有用なロボットは多くの場合、環境との複雑かつ絶妙な相互作用を必要とし、環境は空間領域および時間領域の制約として表現できることがわかっています。たとえば、ロボットにお茶を注いでもらいたい場合、ロボットはまずティーポットのハンドルを掴んで、お茶をこぼさないように垂直に保ち、次にポットの口がカップの口と揃うまでスムーズに動かす必要があります。、そしてティーポットを一定の角度に傾けます。これ

分散型人工知能カンファレンス DAI 2024 論文募集: エージェントデイ、強化学習の父であるリチャードサットン氏が出席します。 Yan Shuicheng、Sergey Levine、DeepMind の科学者が基調講演を行います Aug 22, 2024 pm 08:02 PM

会議の紹介科学技術の急速な発展に伴い、人工知能は社会の進歩を促進する重要な力となっています。この時代に、分散型人工知能 (DAI) の革新と応用を目撃し、参加できることは幸運です。分散型人工知能は人工知能分野の重要な分野であり、近年ますます注目を集めています。大規模言語モデル (LLM) に基づくエージェントは、大規模モデルの強力な言語理解機能と生成機能を組み合わせることで、自然言語対話、知識推論、タスク計画などにおいて大きな可能性を示しました。 AIAgent は大きな言語モデルを引き継ぎ、現在の AI 界隈で話題になっています。アウ

宏蒙スマートトラベルS9とフルシナリオ新製品発売カンファレンス、多数の大ヒット新製品が一緒にリリースされました Aug 08, 2024 am 07:02 AM

今日の午後、Hongmeng Zhixingは新しいブランドと新車を正式に歓迎しました。 8月6日、ファーウェイはHongmeng Smart Xingxing S9およびファーウェイのフルシナリオ新製品発表カンファレンスを開催し、パノラマスマートフラッグシップセダンXiangjie S9、新しいM7ProおよびHuawei novaFlip、MatePad Pro 12.2インチ、新しいMatePad Air、Huawei Bisheng Withを発表しました。レーザープリンタ X1 シリーズ、FreeBuds6i、WATCHFIT3、スマートスクリーン S5Pro など、スマートトラベル、スマートオフィスからスマートウェアに至るまで、多くの新しいオールシナリオスマート製品を開発し、ファーウェイは消費者にスマートな体験を提供するフルシナリオのスマートエコシステムを構築し続けています。すべてのインターネット。宏孟志興氏：スマートカー業界のアップグレードを促進するための徹底的な権限付与ファーウェイは中国の自動車業界パートナーと提携して、

See all articles

ICML 2024 | 文字インタラクション画像、あなたのプロンプトの言葉がよりよく理解できるようになりました、北京大学が意味認識に基づく文字インタラクション画像生成フレームワークを開始

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック