Home Technology peripherals AI ECCV 2024|BlazeBVD, a general method for blind video de-flickering, is here, jointly proposed by Meitu and the National University of Science and Technology of China

ECCV 2024|BlazeBVD, a general method for blind video de-flickering, is here, jointly proposed by Meitu and the National University of Science and Technology of China

Jul 23, 2024 pm 03:13 PM
project BlazeBVD

ECCV 2024|盲视频去闪烁通用方法BlazeBVD来了,美图&国科大联合提出
The AIxiv column is a column where this site publishes academic and technical content. In the past few years, the AIxiv column of this site has received more than 2,000 reports, covering top laboratories from major universities and companies around the world, effectively promoting academic exchanges and dissemination. If you have excellent work that you want to share, please feel free to contribute or contact us for reporting. Submission email: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

In recent years, the short video ecosystem has rapidly emerged, and creative and editing tools around short videos are constantly emerging. Meitu’s professional Wink, a mobile video editing tool, takes the lead with its unique video quality restoration capabilities, and the number of users at home and abroad continues to rise.

Behind the popularity of Wink’s image quality repair function is Meitu’s insight into users’ video creation pain points such as blurry images, severe noise, and low image quality amid the accelerated release of demand for video editing applications. At the same time, it is also based on the powerful video restoration and video enhancement technology support of Meitu Imaging Research Institute (MT Lab). It has currently launched Image Quality Restoration - HD, Image Quality Restoration - Ultra HD, Image Quality Restoration - Portrait Enhancement, and Resolution. Rate improvement and other functions.

Recently, Meitu Imaging Research Institute (MT Lab) and the University of Chinese Academy of Sciences have proposed a new blind video deflickering (BVD) method based on STE, BlazeBVD, to deal with illumination flicker degradation. Unknown low-quality video, keeping the integrity of the original video content and color as much as possible, has been accepted by the top computer vision conference ECCV 2024.

ECCV 2024|盲视频去闪烁通用方法BlazeBVD来了,美图&国科大联合提出

  • 論文リンク: https://arxiv.org/pdf/2403.06243v1

BlazeBVD は、ビデオのちらつきが時間の一貫性に影響を与えやすいシナリオを目的としていますが、時間の一貫性は高品質であることが必要です。ビデオ出力の条件によっては、ビデオのちらつきが弱い場合でも、視聴体験に重大な影響を与える可能性があります。その原因は一般的に劣悪な撮影環境や撮影機材のハードウェア制限によって引き起こされますが、ビデオフレームに画像処理技術が適用されると、この問題はさらに悪化することがよくあります。さらに、敵対的生成ネットワーク (GAN) や拡散モデル (DM) に基づくものなど、最近のビデオ生成タスクでも、ちらつきアーティファクトや色の歪みの問題が頻繁に発生します。したがって、さまざまなビデオ処理シナリオでは、ビデオのちらつきを排除し、ビデオ コンテンツの整合性を維持するためにブラインド ビデオ デフリッカー (BVD) を検討することが重要です。

BVD タスクはビデオのちらつきの原因や程度に影響されず、現在主に古い映画の復元、高速カメラ撮影、色の歪み処理など幅広い応用が期待されています。 、などとビデオのフリッカー タイプ、フリッカーの程度とは関係のないタスク、およびビデオのフリッカー タイプや参照ビデオ入力などの追加のガイダンス情報を必要とせずに、単一のフリッカー ビデオを操作するだけでよいタスク。さらに、BVD は現在、従来のフィルタリング、強制時間的整合性、およびアトラス手法に主に焦点を当てています。そのため、深層学習手法は BVD タスクにおいて大幅な進歩を遂げていますが、事前知識の欠如により、アプリケーション レベルでは大きな妨げとなっています。 BVD は依然として多くの課題に直面しています。

BlazeBVD: ブラインド ビデオのフリッカー除去効果を効果的に改善します

古典的なフリッカー除去方法であるスケールタイム イコライゼーション (STE) からインスピレーションを得た BlazeBVD は、ヒストグラム支援ソリューションを導入しています。画像ヒストグラムは、ピクセル値の分布として定義され、任意のビデオに対して、ガウス フィルタリングを使用してヒストグラムを平滑化し、ヒストグラム イコライゼーションを使用して各画像を補正することができます。フレーム内のピクセル値を変更することで、ビデオの視覚的な安定性が向上します。 STE は一部の軽微なちらつきに対してのみ効果がありますが、次のことが検証されます。

  1. ヒストグラムはピクセル値よりもはるかにコンパクトで、光とちらつきの情報を適切に描写できます。
  2. ヒストグラムシーケンスの平滑化後のビデオには、視覚的に明らかなちらつきはありません。

したがって、STE とヒストグラムからの手がかりを利用して、ブラインド ビデオのちらつき除去の品質と速度を向上させることが可能です。

BlazeBVD は、これらのヒストグラムを平滑化することにより、特異なフレーム コレクション、フィルターされたライト マップ、および露出マスク マップを生成し、照明の変動や露出過多または露出不足が存在する場合でも、高速かつ安定したテクスチャ回復を実現します。以前のディープ ラーニング手法と比較して、BlazeBVD はヒストグラムを慎重に使用して BVD タスクの学習の複雑さを初めて軽減し、ビデオ データの学習の複雑さとリソース消費を簡素化します。その中心は、A フィルター処理を含む STE の前にフリッカーを使用することです。グローバルなフリッカーの除去をガイドするイルミネーション マップ、フリッカー フレーム インデックスを特定する単一フレーム セット、および露出過度や暗さによって局所的に影響を受ける領域を特定する露出マップです。

同時に、BlazeBVD はフリッカー事前分布を使用して、グローバル フリッカー除去モジュール (GFRM) とローカル フリッカー除去モジュール (LFRM) を組み合わせて、個々の隣接フレームのグローバル イルミネーションとローカル露出テクスチャを効果的に補正します。さらに、フレーム間の一貫性を高めるために、軽量タイミング ネットワーク (TCM) が統合されており、多くの時間を費やすことなくパフォーマンスが向上します。

ECCV 2024|盲视频去闪烁通用方法BlazeBVD来了,美图&国科大联合提出

️図 1: ブラインド ビデオのフリッカー除去タスクにおける BlazeBVD 手法と既存の手法の結果の比較
具体的には、BlazeBVD には 3 つのステージが含まれています:

まず、STE を導入します。照明空間内のビデオ フレームのヒストグラム シーケンスが修正され、特異なフレーム セット、フィルタリングされた照明マップ、および露出マップを含むフリッカ プリアが抽出されます。
  • 第 2 に、フィルタリングされたイルミネーション マップは安定した時間パフォーマンスを備えているため、ビデオ フレームの色補正をガイドする 2D ネットワークを含むグローバル フリッカー除去モジュール (GFRM) のキュー条件として使用されます。一方、ローカル フリッカー除去モジュール (LFRM) は、オプティカル フロー情報に基づいて、ローカル露出マップによってマークされた露出過度または暗いエリアを回復します。
  • 最後に、すべてのフレームを処理するために軽量テンポラル ネットワーク (TCM) が導入され、ビデオの一貫性を向上させるために適応型マスク重み付け損失が設計されています。
合成ビデオ、実際のビデオ、生成されたビデオに関する包括的な実験を通じて、BlazeBVD の優れた定性的および定量的結果を実証し、最先端のモデルよりも 10 倍速いモデル推論速度を達成しました。推論速度。

ECCV 2024|盲视频去闪烁通用方法BlazeBVD来了,美图&国科大联合提出

図 2: BlazeBVD のトレーニングと推論のプロセス

実験結果
多数の実験により、ブラインドビデオフラッシュタスクの一般的な方法であるBlazeBVDが、データセットや実際のデータセットに関する以前の研究よりも優れており、アブレーション実験でもBlazeBVDによって設計されたモジュールの有効性が検証されています。

ECCV 2024|盲视频去闪烁通用方法BlazeBVD来了,美图&国科大联合提出

図 3: ベースライン手法との視覚的な比較

ECCV 2024|盲视频去闪烁通用方法BlazeBVD来了,美图&国科大联合提出

図 4: アブレーション実験

ECCV 2024|盲视频去闪烁通用方法BlazeBVD来了,美图&国科大联合提出画像技術を使用して生産性を向上

これこの論文では、2D ネットワークを使用して、照明の変化やビデオの局所的な露出の問題によって影響を受ける低品質のフリッカーを修復する、ブラインド ビデオ フリッカー タスク用の一般的な方法 BlazeBVD を提案しています。その核心は、照明空間の STE フィルター内でフリッカー事前処理を前処理し、これらの事前処理をグローバル フリッカー除去モジュール (GFRM) およびローカル フリッカー除去モジュール (LFRM) と組み合わせて使用​​し、グローバル フリッカーとローカル露出テクスチャを補正することです。最後に、軽量テンポラル ネットワーク (TCM) を使用してビデオの一貫性とフレーム間の一貫性を向上させ、モデル推論で 10 倍の高速化も実現します。

中国のイメージングとデザイン分野の探求者として、Meitu は中核となる研究開発センター、Meitu Imaging Research Institute (MT Lab) として、便利で効率的な AI 機能をリリースし続け、革新的なサービスとエクスペリエンスをユーザーに提供します。今後も AI 機能を繰り返しアップグレードして、ビデオクリエイターに新しいビデオ作成方法を提供し、より広い世界を切り開いていきます。

The above is the detailed content of ECCV 2024|BlazeBVD, a general method for blind video de-flickering, is here, jointly proposed by Meitu and the National University of Science and Technology of China. For more information, please follow other related articles on the PHP Chinese website!

Statement of this Website
The content of this article is voluntarily contributed by netizens, and the copyright belongs to the original author. This site does not assume corresponding legal responsibility. If you find any content suspected of plagiarism or infringement, please contact admin@php.cn

Hot AI Tools

Undresser.AI Undress

Undresser.AI Undress

AI-powered app for creating realistic nude photos

AI Clothes Remover

AI Clothes Remover

Online AI tool for removing clothes from photos.

Undress AI Tool

Undress AI Tool

Undress images for free

Clothoff.io

Clothoff.io

AI clothes remover

Video Face Swap

Video Face Swap

Swap faces in any video effortlessly with our completely free AI face swap tool!

Hot Tools

Notepad++7.3.1

Notepad++7.3.1

Easy-to-use and free code editor

SublimeText3 Chinese version

SublimeText3 Chinese version

Chinese version, very easy to use

Zend Studio 13.0.1

Zend Studio 13.0.1

Powerful PHP integrated development environment

Dreamweaver CS6

Dreamweaver CS6

Visual web development tools

SublimeText3 Mac version

SublimeText3 Mac version

God-level code editing software (SublimeText3)

Hot Topics

Java Tutorial
1664
14
PHP Tutorial
1267
29
C# Tutorial
1239
24
The author of ControlNet has another hit! The whole process of generating a painting from a picture, earning 1.4k stars in two days The author of ControlNet has another hit! The whole process of generating a painting from a picture, earning 1.4k stars in two days Jul 17, 2024 am 01:56 AM

It is also a Tusheng video, but PaintsUndo has taken a different route. ControlNet author LvminZhang started to live again! This time I aim at the field of painting. The new project PaintsUndo has received 1.4kstar (still rising crazily) not long after it was launched. Project address: https://github.com/lllyasviel/Paints-UNDO Through this project, the user inputs a static image, and PaintsUndo can automatically help you generate a video of the entire painting process, from line draft to finished product. follow. During the drawing process, the line changes are amazing. The final video result is very similar to the original image: Let’s take a look at a complete drawing.

Topping the list of open source AI software engineers, UIUC's agent-less solution easily solves SWE-bench real programming problems Topping the list of open source AI software engineers, UIUC's agent-less solution easily solves SWE-bench real programming problems Jul 17, 2024 pm 10:02 PM

The AIxiv column is a column where this site publishes academic and technical content. In the past few years, the AIxiv column of this site has received more than 2,000 reports, covering top laboratories from major universities and companies around the world, effectively promoting academic exchanges and dissemination. If you have excellent work that you want to share, please feel free to contribute or contact us for reporting. Submission email: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com The authors of this paper are all from the team of teacher Zhang Lingming at the University of Illinois at Urbana-Champaign (UIUC), including: Steven Code repair; Deng Yinlin, fourth-year doctoral student, researcher

From RLHF to DPO to TDPO, large model alignment algorithms are already 'token-level' From RLHF to DPO to TDPO, large model alignment algorithms are already 'token-level' Jun 24, 2024 pm 03:04 PM

The AIxiv column is a column where this site publishes academic and technical content. In the past few years, the AIxiv column of this site has received more than 2,000 reports, covering top laboratories from major universities and companies around the world, effectively promoting academic exchanges and dissemination. If you have excellent work that you want to share, please feel free to contribute or contact us for reporting. Submission email: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com In the development process of artificial intelligence, the control and guidance of large language models (LLM) has always been one of the core challenges, aiming to ensure that these models are both powerful and safe serve human society. Early efforts focused on reinforcement learning methods through human feedback (RL

arXiv papers can be posted as 'barrage', Stanford alphaXiv discussion platform is online, LeCun likes it arXiv papers can be posted as 'barrage', Stanford alphaXiv discussion platform is online, LeCun likes it Aug 01, 2024 pm 05:18 PM

cheers! What is it like when a paper discussion is down to words? Recently, students at Stanford University created alphaXiv, an open discussion forum for arXiv papers that allows questions and comments to be posted directly on any arXiv paper. Website link: https://alphaxiv.org/ In fact, there is no need to visit this website specifically. Just change arXiv in any URL to alphaXiv to directly open the corresponding paper on the alphaXiv forum: you can accurately locate the paragraphs in the paper, Sentence: In the discussion area on the right, users can post questions to ask the author about the ideas and details of the paper. For example, they can also comment on the content of the paper, such as: "Given to

Posthumous work of the OpenAI Super Alignment Team: Two large models play a game, and the output becomes more understandable Posthumous work of the OpenAI Super Alignment Team: Two large models play a game, and the output becomes more understandable Jul 19, 2024 am 01:29 AM

If the answer given by the AI ​​model is incomprehensible at all, would you dare to use it? As machine learning systems are used in more important areas, it becomes increasingly important to demonstrate why we can trust their output, and when not to trust them. One possible way to gain trust in the output of a complex system is to require the system to produce an interpretation of its output that is readable to a human or another trusted system, that is, fully understandable to the point that any possible errors can be found. For example, to build trust in the judicial system, we require courts to provide clear and readable written opinions that explain and support their decisions. For large language models, we can also adopt a similar approach. However, when taking this approach, ensure that the language model generates

A significant breakthrough in the Riemann Hypothesis! Tao Zhexuan strongly recommends new papers from MIT and Oxford, and the 37-year-old Fields Medal winner participated A significant breakthrough in the Riemann Hypothesis! Tao Zhexuan strongly recommends new papers from MIT and Oxford, and the 37-year-old Fields Medal winner participated Aug 05, 2024 pm 03:32 PM

Recently, the Riemann Hypothesis, known as one of the seven major problems of the millennium, has achieved a new breakthrough. The Riemann Hypothesis is a very important unsolved problem in mathematics, related to the precise properties of the distribution of prime numbers (primes are those numbers that are only divisible by 1 and themselves, and they play a fundamental role in number theory). In today's mathematical literature, there are more than a thousand mathematical propositions based on the establishment of the Riemann Hypothesis (or its generalized form). In other words, once the Riemann Hypothesis and its generalized form are proven, these more than a thousand propositions will be established as theorems, which will have a profound impact on the field of mathematics; and if the Riemann Hypothesis is proven wrong, then among these propositions part of it will also lose its effectiveness. New breakthrough comes from MIT mathematics professor Larry Guth and Oxford University

The first Mamba-based MLLM is here! Model weights, training code, etc. have all been open source The first Mamba-based MLLM is here! Model weights, training code, etc. have all been open source Jul 17, 2024 am 02:46 AM

The AIxiv column is a column where this site publishes academic and technical content. In the past few years, the AIxiv column of this site has received more than 2,000 reports, covering top laboratories from major universities and companies around the world, effectively promoting academic exchanges and dissemination. If you have excellent work that you want to share, please feel free to contribute or contact us for reporting. Submission email: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com. Introduction In recent years, the application of multimodal large language models (MLLM) in various fields has achieved remarkable success. However, as the basic model for many downstream tasks, current MLLM consists of the well-known Transformer network, which

LLM is really not good for time series prediction. It doesn't even use its reasoning ability. LLM is really not good for time series prediction. It doesn't even use its reasoning ability. Jul 15, 2024 pm 03:59 PM

Can language models really be used for time series prediction? According to Betteridge's Law of Headlines (any news headline ending with a question mark can be answered with "no"), the answer should be no. The fact seems to be true: such a powerful LLM cannot handle time series data well. Time series, that is, time series, as the name suggests, refers to a set of data point sequences arranged in the order of time. Time series analysis is critical in many areas, including disease spread prediction, retail analytics, healthcare, and finance. In the field of time series analysis, many researchers have recently been studying how to use large language models (LLM) to classify, predict, and detect anomalies in time series. These papers assume that language models that are good at handling sequential dependencies in text can also generalize to time series.

See all articles