ACM MM 2023 | DiffBFR: Meitu と中国科学技術大学が共同提案した騒音抑制面修復手法
ブラインドフェイス復元 (BFR) の目標は、低品質の顔画像から高品質の顔画像を復元することです。これはコンピュータ ビジョンとグラフィックスの分野で重要なタスクであり、監視画像の復元、古い写真の復元、顔画像の超解像度など、さまざまなシナリオで広く使用されています。なぜなら、不確実性の劣化は画像の品質を損ない、さらにはぼやけ、ノイズ、ダウンサンプリング、圧縮アーティファクトなどの画像情報の損失につながるからです。従来の BFR 手法は通常、敵対的生成ネットワーク (GAN) に依存し、生成事前分布、参照事前分布、幾何学的事前分布など、さまざまな顔固有の事前分布を設計することでこれらの問題を解決していました。これらの手法は最先端のレベルに達していますが、細部を復元しながらリアルな質感を得るという目標を完全に達成することはできません。
画像復元プロセスでは、通常、顔画像のデータセットが分散されています。高次元空間 であり、分布の特徴的な次元はロングテール分布の形をとります。画像分類タスクのロングテール分布とは異なり、画像復元におけるロングテール地域特徴は、ほくろ、しわ、色調など、同一性には小さな影響を与えるが、視覚効果には大きな影響を与える属性を指します。
図 1 に示す簡略化によると、元の意味を変えないようにするには、実験結果を中国語に書き直す必要がありますが、過去の GAN ベースの手法では、結果を処理する際に明らかな問題があることがわかります。ロングテール分布の先頭と末尾のサンプルを同時に取得する 画像を修復する 過剰な平滑化や細部の損失が発生する可能性があります。拡散確率モデル (DPM) に基づく手法は、実際のデータ分布に適合しながら、ロングテール分布をより適切に適合させ、テールの特性を維持することができます。書き直す必要があるのは次のとおりです: ロングテール問題に関する GAN ベースおよび DPM ベースのテスト
Meitu Imaging Research Institute (MT Lab) と中国科学院大学の研究者が共同で新しいブラインドフェイスを提案しましたDPM テクノロジーに基づく画像修復手法 DiffBFR は、ブラインドの顔画像の復元に成功し、低品質 (LQ) の顔画像を高品質 (HQ) に修復します。## 書き直す必要があるのは次のとおりです: 論文リンク: https://arxiv.org/abs/2305.04517
#DPM ベースのブラインドフェイス画像修復法 - DiffBFR
研究では、拡散モデルがトレーニングの回避に優れていることが判明しましたモード崩壊とフィッティング ロングテール分布の生成においては GAN 法よりも優れています。したがって、DiffBFR は、顔の事前情報の埋め込みを強化するために拡散確率モデルを使用することを選択し、これをソリューションとして DPM を選択するための基本フレームワークとして使用します。これは、拡散モデルには、あらゆる分布範囲内で高品質の画像を生成する強力な機能があるためです。
論文に記載されている顔データセット上の特徴のロングテール分布と過度の平滑化を解決するために過去の GAN 手法に基づいた問題を解決するため、この研究では、近似のロングテール分布をよりよく適合させ、修復プロセスにおける過度の平滑化の問題を克服するための合理的な設計を検討します。 MNIST データセット上で同じパラメータサイズを使用した GAN と DPM の簡単な実験 (図 1) を通じて、この研究では、DPM 手法がロングテール分布に合理的に適合できるのに対し、GAN は頭部の特徴とテール フィーチャを無視するため、テール フィーチャを生成できません。したがって、BFR
(1) ID 復元モジュール (IRM):
このモジュールの目的は、顔の詳細を保持することです。同時に、低品質画像にノイズの一部を追加することにより、逆のプロセスで純粋なガウスランダム分布を使用するノイズ除去方法を置き換える、切り捨てられたサンプリング方法が提案されます。この論文は、この変更により DPM の理論的証拠の下限 (ELBO) が縮小され、それによってより元の詳細が復元されることを理論的に証明しています。理論的証明に基づいて、異なる入力サイズを持つ 2 つのカスケード条件付き拡散モデルが導入され、サンプリング効果が強化され、高解像度画像を直接生成するトレーニングの困難さが軽減されます。同時に、条件付き入力の品質が高ければ高いほど、実際のデータ分布に近づき、復元された画像がより正確になることがさらに証明されています。これは、DiffBFR が最初に低解像度の画像を復元する理由でもあります。
(2) テクスチャ拡張モジュール (TEM):
画像をテクスチャ研磨するために使用される方法は、無条件拡散モデルを導入することです。このモデルは低品質の画像から完全に独立しているため、復元結果が実際の画像データにさらに近づきます。この論文は、純粋に高品質の画像でトレーニングされた無条件拡散モデルが、ピクセルレベル空間での出力画像の正しい分布に寄与することを理論的に証明しています。つまり、このモデルを使用した後、ペイントされたイメージの分布は、使用前よりも FID が低くなり、全体的に高品質のイメージの分布により似ています。具体的には、タイム ステップでサンプリングを切り捨てることでアイデンティティ情報を保持し、ピクセル レベルのテクスチャを磨きます。
DiffBFR のサンプリング推論ステップを図 2 に示し、サンプリングの概略図を示します。推論プロセスを図 3 に示します
書き換える必要がある内容は次のとおりです。 図 2 は、DiffBFR メソッドのサンプリング推論ステップを示しています
#書き直す必要がある内容は次のとおりです。 図 3 に、DiffBFR メソッドのサンプリング推論プロセスの概略図を示します。
##元の意味を変えないように、実験結果を中国語に書き直す必要があります
BFR 法のパフォーマンス視覚化効果の比較を図 6 に示します
モデルでは、視覚化を通じて IRM と TEM のパフォーマンスを比較できます
モデルでは、図 8 に示すように、IRM と TEM が比較されます
書き直す必要があるのは次のとおりです: さまざまなパラメーターの下で図 9 の IRM パフォーマンスを比較します
図 10 では、パラメータのさまざまなパフォーマンスを比較する必要があります
書き換える必要がある内容は次のとおりです。 図 11 に DiffBFR の各モジュールのパラメータ設定を示します。
要約とは、情報やアイデアを簡潔に再表現するプロセスです。そして明確な道。元の意味は変わりませんが、異なる語彙と文構造を使用して同じ考えを示しています。要約の目的は、読者が伝えられる情報をより簡単に理解して消化できるように、より明確で簡潔なプレゼンテーションを提供することです。要約は、学術論文、ビジネスレポート、日常のコミュニケーションなど、重要なアイデアや結論を伝えるために使用できるさまざまな状況で役立ちます。つまり、要約は、情報をより効果的に伝え、理解するのに役立つ重要なコミュニケーション ツールです。
この論文では、トレーニングの問題を解決するために、拡散モデルに基づいたブラインド劣化顔画像復元モデル DiffBFR を提案します。以前の GAN 手法に基づくモデルの崩壊とロングテールの消失。拡散モデルに事前知識を埋め込むことで、ランダムな著しく劣化した顔画像から高品質で鮮明な復元画像を生成できます。具体的には、この研究では、それぞれ現実を復元し、詳細を復元するために使用される、IRM と TEM という 2 つのモジュールを提案します。理論的な導出と実験による画像実証によりモデルの優位性を証明し、既存の最先端手法との定性的・定量的な比較を行います
リライトが必要な内容は: 研究チーム## ####
この論文は、Meitu Imaging Research Institute (MT Lab) と中国科学院大学の研究者によって共同提案されました。 Meitu Imaging Research Institute (MT Lab) は 2010 年に設立されました。Meitu のチームで、コンピューター ビジョン、ディープ ラーニング、拡張現実などの分野でのアルゴリズム研究、エンジニアリング開発、製品実装に重点を置いています。チームは設立以来、コンピュータ ビジョン分野の研究の探求に注力しており、2013 年には Meitu のソフトウェアおよびハードウェア製品に技術サポートを提供するためにディープ ラーニングの導入を開始しました。同時に、イメージング業界の複数の垂直分野に的を絞った SaaS サービスも提供し、最先端のイメージング技術を通じて Meitu の人工知能製品のエコロジー開発を促進します。彼らは、CVPR、ICCV、ECCV などのトップ国際大会に参加し、10 回以上の優勝と準優勝を獲得し、48 以上のトップ国際学術会議論文を発表しています。 Meitu Imaging Research Institute (MT Lab) は、長年にわたってイメージング分野の研究開発に取り組んできており、豊富な技術埋蔵量を蓄積しており、写真、ビデオ、デザイン、デジタル人材の分野で豊富な技術導入経験を持っています。
以上がACM MM 2023 | DiffBFR: Meitu と中国科学技術大学が共同提案した騒音抑制面修復手法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック

7月29日、AITO Wenjieの40万台目の新車のロールオフ式典に、ファーウェイの常務取締役、ターミナルBG会長、スマートカーソリューションBU会長のYu Chengdong氏が出席し、スピーチを行い、Wenjieシリーズモデルの発売を発表した。 8月にHuawei Qiankun ADS 3.0バージョンが発売され、8月から9月にかけて順次アップグレードが行われる予定です。 8月6日に発売されるXiangjie S9には、ファーウェイのADS3.0インテリジェント運転システムが初搭載される。 LiDARの支援により、Huawei Qiankun ADS3.0バージョンはインテリジェント運転機能を大幅に向上させ、エンドツーエンドの統合機能を備え、GOD(一般障害物識別)/PDP(予測)の新しいエンドツーエンドアーキテクチャを採用します。意思決定と制御)、駐車スペースから駐車スペースまでのスマート運転のNCA機能の提供、CAS3.0のアップグレード

先月、OnePlus は Snapdragon 8 Gen3 を搭載した最初のタブレットである OnePlus Tablet Pro をリリースしました。最新のニュースによると、このタブレットの「ベビー代替」バージョンである OPPOPad3 も間もなくリリースされる予定です。上の写真は OPPOPad2 を示しています。 Digital Chat Station によると、OPPOPad3 の外観と構成は OnePlus Tablet Pro とまったく同じです。 カラー: ゴールド、ブルー (OnePlus のグリーンとダーク グレーとは異なります)。 /12/16GB+512GB 発売日:今年第4四半期(10月~12月)の新製品:探す

現代の製造において、正確な欠陥検出は製品の品質を確保するための鍵であるだけでなく、生産効率を向上させるための核心でもあります。ただし、既存の欠陥検出データセットには、実際のアプリケーションに必要な精度や意味論的な豊富さが欠けていることが多く、その結果、モデルが特定の欠陥カテゴリや位置を識別できなくなります。この問題を解決するために、広州香港科技大学と Simou Technology で構成されるトップの研究チームは、産業欠陥に関する詳細かつ意味的に豊富な大規模なアノテーションを提供する「DefectSpectrum」データセットを革新的に開発しました。表 1 に示すように、他の産業データ セットと比較して、「DefectSpectrum」データ セットは最も多くの欠陥注釈 (5438 個の欠陥サンプル) と最も詳細な欠陥分類 (125 個の欠陥カテゴリ) を提供します。

オープンな LLM コミュニティは百花繚乱の時代です Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1 などがご覧いただけます。優秀なパフォーマーモデル。しかし、GPT-4-Turboに代表される独自の大型モデルと比較すると、オープンモデルには依然として多くの分野で大きなギャップがあります。一般的なモデルに加えて、プログラミングと数学用の DeepSeek-Coder-V2 や視覚言語タスク用の InternVL など、主要な領域に特化したいくつかのオープン モデルが開発されています。

AI にとって、数学オリンピックはもはや問題ではありません。木曜日、Google DeepMind の人工知能は、AI を使用して今年の国際数学オリンピック IMO の本当の問題を解決するという偉業を達成し、金メダル獲得まであと一歩のところまで迫りました。先週終了したばかりの IMO コンテストでは、代数、組合せ論、幾何学、数論を含む 6 つの問題が出題されました。 Googleが提案したハイブリッドAIシステムは4問正解で28点を獲得し、銀メダルレベルに達した。今月初め、UCLA 終身教授のテレンス・タオ氏が、100 万ドルの賞金をかけて AI 数学オリンピック (AIMO Progress Award) を宣伝したばかりだったが、予想外なことに、AI の問題解決のレベルは 7 月以前にこのレベルまで向上していた。 IMO に関する質問を同時に行うのが最も難しいのは、最も歴史が長く、規模が最も大きく、最も否定的な IMO です。

編集者 |KX 今日に至るまで、単純な金属から大きな膜タンパク質に至るまで、結晶学によって決定される構造の詳細と精度は、他のどの方法にも匹敵しません。しかし、最大の課題、いわゆる位相問題は、実験的に決定された振幅から位相情報を取得することのままです。デンマークのコペンハーゲン大学の研究者らは、結晶相の問題を解決するための PhAI と呼ばれる深層学習手法を開発しました。数百万の人工結晶構造とそれに対応する合成回折データを使用して訓練された深層学習ニューラル ネットワークは、正確な電子密度マップを生成できます。この研究では、この深層学習ベースの非経験的構造解法は、従来の非経験的計算法とは異なり、わずか 2 オングストロームの解像度で位相問題を解決できることが示されています。これは、原子解像度で利用可能なデータのわずか 10% ~ 20% に相当します。

編集者 | ScienceAI 限られた臨床データに基づいて、何百もの医療アルゴリズムが承認されています。科学者たちは、誰がツールをテストすべきか、そしてどのようにテストするのが最善かについて議論しています。デビン シン氏は、救急治療室で小児患者が治療を長時間待っている間に心停止に陥るのを目撃し、待ち時間を短縮するための AI の応用を模索するようになりました。 SickKids 緊急治療室からのトリアージ データを使用して、Singh 氏らは潜在的な診断を提供し、検査を推奨する一連の AI モデルを構築しました。ある研究では、これらのモデルにより医師の診察が 22.3% 短縮され、医療検査が必要な患者 1 人あたりの結果の処理が 3 時間近く高速化できることが示されました。ただし、研究における人工知能アルゴリズムの成功は、これを証明するだけです。

新しいNIO NIO Phone (NIOPhone 2)は7月27日に発売されます。発売日が近づく 7 月 24 日、NIO Technology (Anhui) Co., Ltd. の副社長である Bai Jian 氏が、NIO Phone についてネチズンの間で最もよく寄せられた 2 つの質問に答えました。 NIOPhone 「なぜ NIO は携帯電話の製造にこだわるのですか?」 新しい NIOPhone に関連するほぼすべてのコメント領域で同様の質問が表示されます。 Bai Jian氏は、Weilai社は非常に早くから携帯電話の製造について考え、計画し始めており、一部の携帯電話ブランドが自動車の製造を始めているので、一部の人が言うように、それは気まぐれではなかった、と答えた。 Bai Jian が新しい NIOPhone の「スマートカーと携帯電話」に関するニュースを発表
