


ICML 2024 | 文字インタラクション画像、あなたのプロンプトの言葉がよりよく理解できるようになりました、北京大学が意味認識に基づく文字インタラクション画像生成フレームワークを開始

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。投稿メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
キャラクターインタラクション画像生成とは、テキスト記述要件を満たす画像を生成することを指し、その内容は人と物体との間のインタラクションであり、画像は可能な限り現実的で意味論的であることが求められます。近年、テキスト生成画像モデルは現実の画像の生成において大きな進歩を遂げていますが、これらのモデルは、人間のインタラクションを主なコンテンツとして忠実度の高い画像を生成するという点で依然として課題に直面しています。この困難は主に 2 つの側面から生じます。第 1 に、人間の姿勢の複雑さと多様性が合理的なキャラクター生成に課題をもたらし、第 2 に、インタラクティブな境界領域 (インタラクティブな意味が豊富な領域) の信頼性の低い生成が、キャラクターのインタラクティブな意味表現の失敗につながる可能性があります。不十分。
上記の問題に応えて、北京大学の研究チームは、人間の姿勢の生成品質とインタラクション境界領域情報をガイドとして使用する、姿勢とインタラクションを意識した人間インタラクション画像生成フレームワーク (SA-HOI) を提案しました。ノイズ除去プロセスにより、より合理的でリアルなキャラクター インタラクション イメージが生成されます。また、生成された画像の品質を総合的に評価するために、包括的なヒューマンインタラクション画像生成ベンチマークも提案しました。
紙のリンク: https://proceedings.mlr.press/v235/xu24e.html
プロジェクトのホームページ: https://sites.google.com/view/sa-hoi/
ソースコードリンク: https://github.com/XZPKU/SA-HOI
研究室ホームページ: http://www.wict.pku.edu.cn/mipl
SA-HOI は Aセマンティックを意識したヒューマン インタラクション画像生成方法は、ヒューマン インタラクション画像生成の全体的な品質を向上させ、人体の姿勢とインタラクティブ セマンティクスの両方から生じる既存の生成問題を軽減します。画像反転方法を組み合わせることで、反復反転および画像補正プロセスが生成され、生成された画像を徐々に自己補正して品質を向上させることができます。
研究チームは論文の中で、人間と物体、人間と動物、人間と人間の相互作用をカバーする初の人間相互作用画像生成ベンチマークも提案し、人間相互作用画像生成のための対象を絞った評価指標を設計しました。広範な実験により、この方法は、人間のインタラクション画像生成と従来の画像生成の両方の評価基準の下で、既存の拡散ベースの画像生成方法よりも優れていることが示されています。 methodはじめにメソッドはじめに
ポスチャーとインタラクティブなガイダンス(ポーズと相互作用ガイダンス、豚)および帯状の反転と修正プロセス(反復反転および改良パイプライン、IIR)。 PIG では、特定のキャラクター インタラクション テキスト説明 インタラクティブなガイダンスでは、セグメンテーション モデルを使用してインタラクション境界領域の位置を特定し、キー ポイント ポーズとインタラクションに基づくサンプリングの擬似コードを図 2 に示します。各ノイズ除去ステップでは、まず、安定拡散モデル (安定拡散) で設計された予測ノイズ ϵt と中間再構成 ϵt を取得します。次に、ガウスぼかし G on を適用して劣化した潜在特徴 と を取得し、その後、対応する潜在特徴の情報をノイズ除去プロセスに導入します。 ここで、 ここで、ϕt はタイム ステップ t でマスクを生成するしきい値です。同様に、インタラクティブなガイダンスの場合、論文の著者はセグメンテーション モデルを使用してオブジェクトの外側の輪郭点 O と人体の関節点 C を取得し、人とオブジェクトの間の距離行列 D を計算し、そのキー ポイントをサンプリングします。同じ方法でインタラクティブなアテンション 反復反転と画像補正プロセス 為了即時獲取生成影像的品質評估,論文作者引入品質評估器 Q,用於作為迭代式 操作的指導。對於第 k 輪的圖像 然而,這樣的噪聲不是現成可得的,為此引入圖像反演方法 透過比較前後迭代輪次中的質量分數,可以判斷是否要繼續進行最佳化:當 人物互動影像產生基準 為了更好地評估生成的人物交互圖像質量,論文作者為人物交互生成量身定制了幾個測評標準,從可靠性(Authenticity)、可行性(Plausibility) 和保真度(Fidelity) 的角度全面評估生成影像。在可靠性上,論文作者引入姿勢分佈距離和人 - 物體距離分佈,評估生成結果和真實圖像是否接近:生成結果在分佈意義上越接近真實圖像,就說明品質越好。可行性上,採用計算姿勢置信度分數來衡量產生人體關節的可信度和合理性。在保真度上,採用人物互動偵測任務,以及圖文檢索任務評估產生影像與輸入文字之間的語意一致性。 與現有方法的對比實驗結果如表 1 和表 2 所示,分別對比了人物交互影像產生指標和常規影像產生指標上的表現。 實驗結果表明,該論文中的方法在人體生成質量,交互語義表達,人物交互距離,人體姿態分佈,整體圖像質量等多個維度的測評上都優於現有模型。 此外,論文作者還進行了主觀評測,邀請眾多用戶從人體質量,物體外觀,交互語義和整體質量等多個角度進行評分,實驗結果證明SA-HOI 的方法在各個角度都更符合人類審美。 表 3:與現有方法的主觀評測結果 圖 4:作用中對接一個結果視覺化相比與原始資料一樣為視覺化。 參考文獻: [1] Rombach, R., Blattmann, A., Lorenz, D., Esser, P., and Ommer, B. High-resolution image synthesis with latent0. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 10684–10695, June 2022 . uggingface .co/CompVis/stable-diffusion-v1-4. [3] Chen, K., Wang, J., Pang, J., Cao, Y., Xiong, Y., Li, X, J., Pang, J., Cao, Y., Xiong, Y., Li, X, J., Pang, J., Cao, Y., Xiong, Y., Li, X, J., Pang, J., Cao, Y., Xiong, Y., Li, X, J., Pang, X. ., Sun, S., Feng, W., Liu, Z., Xu, J., Zhang, Z., Cheng, D., Zhu, C., Cheng, T., Zhao, Q., Li , B., Lu, X., Zhu, R., Wu, Y., Dai, J., Wang, J., Shi, J., Ouyang, W., Loy, C. C., and Lin, D. MMDetection: Open mmlab detection toolbox and benchmark. arXiv preprint arXiv:1906.07155, 2019. [4] Ron Mokady, Anidtz, Kullfir Abman, Kofir Abt. text inversion for editing real images using guided diffusion models. arXiv preprint arXiv:2211.09794, 2022. arXiv:2211.09794, 2022. , Jiaxuan Wang, and Jia Deng. HICO: A benchmark for recognizing human-object interactions in images. In Proceedings of the IEEE International Conference on Computer Vision, 2015. とノイズ
に対して、まず安定拡散モデル (Stable Diffusion [2]) を使用して
を初期画像として生成し、姿勢検出器 [3] を使用して画像を取得します。人体の関節位置
と対応する信頼度スコア
を使用して、低品質のポーズ領域を強調表示するポーズ マスク
を構築します。
と対応する信頼スコア
を取得し、インタラクション マスク
でインタラクション領域を強調表示して、インタラクション境界の意味表現を強化します。各ノイズ除去ステップで、
と
が制約として使用され、これらの強調表示された領域が修正され、それによってこれらの領域に存在する生成の問題が軽減されます。さらに、IIR は画像反転モデル N を組み合わせて、さらなる修正が必要な画像からノイズ n とテキスト記述の埋め込み t を抽出し、PIG を使用して画像に次の修正を実行し、品質評価器 Q を使用します。補正された画像の品質を評価し、 操作を使用して画像の品質を徐々に向上させます。 🎙
と
は
と
を生成するために使用され、
と
でポーズ品質の低い領域を強調表示して、これらの領域での歪みの生成を減らすようにモデルをガイドします。低品質領域を改善するようにモデルを導くために、ポーズ スコアの低い領域が次の式によって強調表示されます:
、x、y は画像のピクセルごとの座標、H、W は画像サイズ、σ はガウス分布の分散です。
は、i 番目の関節を中心とした注意を表します。すべての関節の注意を組み合わせることで、最終的な注意マップ
を形成し、しきい値を使用して
をマスク
に変換できます。
とマスク
が生成され、最終的な予測ノイズの計算に適用されます。
,採用評估器 Q 獲取其質量分數
,然後基於
生成
。為了在最佳化後保留
的主要內容,需要相應的雜訊作為去噪的初始值。
來獲取其噪聲潛在特徵
和文本嵌入
,作為 PIG 的輸入,生成優化後的結果
。
和
之間沒有顯著差異,即低於閾值θ,可以認為該流程可能已經對影像做出了充足的修正,因此結束優化並輸出品質分數最高的影像。
+「影像」產生任務設計的現有模型和基準,論文作者收集並整合了一個人物互動影像生成基準,包括一個含有150 個人物互動類別的真實人物互動影像資料集,以及若干為人物互動影像產生客製化的評量指標。 該資料集從開源人物交互檢測資料集 HICO-DET [5] 中篩選得到 150 個人物交互類別,涵蓋了人 - 物體、人 - 動物和人 - 人三種不同交互場景。共計收集了 5k 人物交互真實圖像作為該論文的參考資料集,用於評估生成人物交互圖像的品質。
¢ 表2:與現有方法使用常規影像產生指標時的實驗結果相較
以上がICML 2024 | 文字インタラクション画像、あなたのプロンプトの言葉がよりよく理解できるようになりました、北京大学が意味認識に基づく文字インタラクション画像生成フレームワークを開始の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











でももしかしたら公園の老人には勝てないかもしれない?パリオリンピックの真っ最中で、卓球が注目を集めています。同時に、ロボットは卓球のプレーにも新たな進歩をもたらしました。先ほど、DeepMind は、卓球競技において人間のアマチュア選手のレベルに到達できる初の学習ロボット エージェントを提案しました。論文のアドレス: https://arxiv.org/pdf/2408.03906 DeepMind ロボットは卓球でどれくらい優れていますか?おそらく人間のアマチュアプレーヤーと同等です: フォアハンドとバックハンドの両方: 相手はさまざまなプレースタイルを使用しますが、ロボットもそれに耐えることができます: さまざまなスピンでサーブを受ける: ただし、ゲームの激しさはそれほど激しくないようです公園の老人。ロボット、卓球用

8月21日、2024年世界ロボット会議が北京で盛大に開催された。 SenseTimeのホームロボットブランド「Yuanluobot SenseRobot」は、全製品ファミリーを発表し、最近、世界初の家庭用チェスロボットとなるYuanluobot AIチェスプレイロボット - Chess Professional Edition(以下、「Yuanluobot SenseRobot」という)をリリースした。家。 Yuanluobo の 3 番目のチェス対局ロボット製品である新しい Guxiang ロボットは、AI およびエンジニアリング機械において多くの特別な技術アップグレードと革新を経て、初めて 3 次元のチェスの駒を拾う機能を実現しました。家庭用ロボットの機械的な爪を通して、チェスの対局、全員でのチェスの対局、記譜のレビューなどの人間と機械の機能を実行します。

もうすぐ学校が始まり、新学期を迎える生徒だけでなく、大型AIモデルも気を付けなければなりません。少し前、レディットはクロードが怠け者になったと不満を漏らすネチズンでいっぱいだった。 「レベルが大幅に低下し、頻繁に停止し、出力も非常に短くなりました。リリースの最初の週は、4 ページの文書全体を一度に翻訳できましたが、今では 0.5 ページの出力さえできません」 !」 https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ というタイトルの投稿で、「クロードには完全に失望しました」という内容でいっぱいだった。

北京で開催中の世界ロボット会議では、人型ロボットの展示が絶対的な注目となっているスターダストインテリジェントのブースでは、AIロボットアシスタントS1がダルシマー、武道、書道の3大パフォーマンスを披露した。文武両道を備えた 1 つの展示エリアには、多くの専門的な聴衆とメディアが集まりました。弾性ストリングのエレガントな演奏により、S1 は、スピード、強さ、正確さを備えた繊細な操作と絶対的なコントロールを発揮します。 CCTVニュースは、「書道」の背後にある模倣学習とインテリジェント制御に関する特別レポートを実施し、同社の創設者ライ・ジエ氏は、滑らかな動きの背後にあるハードウェア側が最高の力制御と最も人間らしい身体指標(速度、負荷)を追求していると説明した。など)、AI側では人の実際の動きのデータが収集され、強い状況に遭遇したときにロボットがより強くなり、急速に進化することを学習することができます。そしてアジャイル

貢献者はこの ACL カンファレンスから多くのことを学びました。 6日間のACL2024がタイのバンコクで開催されています。 ACL は、計算言語学と自然言語処理の分野におけるトップの国際会議で、国際計算言語学協会が主催し、毎年開催されます。 ACL は NLP 分野における学術的影響力において常に第一位にランクされており、CCF-A 推奨会議でもあります。今年の ACL カンファレンスは 62 回目であり、NLP 分野における 400 以上の最先端の作品が寄せられました。昨日の午後、カンファレンスは最優秀論文およびその他の賞を発表しました。今回の優秀論文賞は7件(未発表2件)、最優秀テーマ論文賞1件、優秀論文賞35件です。このカンファレンスでは、3 つの Resource Paper Award (ResourceAward) と Social Impact Award (

ビジョンとロボット学習の緊密な統合。最近話題の1X人型ロボットNEOと合わせて、2つのロボットハンドがスムーズに連携して服をたたむ、お茶を入れる、靴を詰めるといった動作をしていると、いよいよロボットの時代が到来するのではないかと感じられるかもしれません。実際、これらの滑らかな動きは、高度なロボット技術 + 精緻なフレーム設計 + マルチモーダル大型モデルの成果です。有用なロボットは多くの場合、環境との複雑かつ絶妙な相互作用を必要とし、環境は空間領域および時間領域の制約として表現できることがわかっています。たとえば、ロボットにお茶を注いでもらいたい場合、ロボットはまずティーポットのハンドルを掴んで、お茶をこぼさないように垂直に保ち、次にポットの口がカップの口と揃うまでスムーズに動かす必要があります。 、そしてティーポットを一定の角度に傾けます。これ

今日の午後、Hongmeng Zhixingは新しいブランドと新車を正式に歓迎しました。 8月6日、ファーウェイはHongmeng Smart Xingxing S9およびファーウェイのフルシナリオ新製品発表カンファレンスを開催し、パノラマスマートフラッグシップセダンXiangjie S9、新しいM7ProおよびHuawei novaFlip、MatePad Pro 12.2インチ、新しいMatePad Air、Huawei Bisheng Withを発表しました。レーザー プリンタ X1 シリーズ、FreeBuds6i、WATCHFIT3、スマート スクリーン S5Pro など、スマート トラベル、スマート オフィスからスマート ウェアに至るまで、多くの新しいオールシナリオ スマート製品を開発し、ファーウェイは消費者にスマートな体験を提供するフル シナリオのスマート エコシステムを構築し続けています。すべてのインターネット。宏孟志興氏:スマートカー業界のアップグレードを促進するための徹底的な権限付与 ファーウェイは中国の自動車業界パートナーと提携して、

会議の紹介 科学技術の急速な発展に伴い、人工知能は社会の進歩を促進する重要な力となっています。この時代に、分散型人工知能 (DAI) の革新と応用を目撃し、参加できることは幸運です。分散型人工知能は人工知能分野の重要な分野であり、近年ますます注目を集めています。大規模言語モデル (LLM) に基づくエージェントは、大規模モデルの強力な言語理解機能と生成機能を組み合わせることで、自然言語対話、知識推論、タスク計画などにおいて大きな可能性を示しました。 AIAgent は大きな言語モデルを引き継ぎ、現在の AI 界隈で話題になっています。アウ
