이미지의 넓은 부분이 누락되더라도 사실적으로 복원할 수 있는 새로운 모델인 CM-GAN은 전체적인 구조와 텍스처 디테일을 고려합니다.
이미지 복원은 이미지에서 누락된 부분을 완성하는 것을 말하며, 이는 컴퓨터 비전의 기본 작업 중 하나입니다. 이 방향에는 객체 제거, 이미지 대상 변경, 이미지 합성 등과 같은 많은 실용적인 응용 프로그램이 있습니다.
초기 인페인팅 방법은 이미지의 누락된 부분을 채우기 위해 이미지 블록 합성이나 색상 확산을 기반으로 했습니다. 보다 복잡한 이미지 구조를 달성하기 위해 연구자들은 심층 생성 네트워크를 활용하여 시각적 콘텐츠와 모양을 예측하는 데이터 기반 접근 방식으로 전환하고 있습니다. 생성적 인페인팅 모델은 대규모 이미지 세트에 대한 훈련과 재구성 및 적대적 손실의 도움을 받아 자연 이미지와 사람 얼굴을 포함한 다양한 유형의 입력 데이터에 대해 시각적으로 더 매력적인 결과를 생성하는 것으로 나타났습니다.
그러나 기존 작업은 단순한 이미지 구조를 완성하는 것만으로는 좋은 결과를 보여줄 수 없으며, 복잡한 전체 구조와 충실도가 높은 디테일을 갖춘 이미지 콘텐츠를 생성하는 것은 특히 이미지에 구멍이 있는 경우에는 여전히 큰 도전입니다.
기본적으로 이미지 인페인팅은 두 가지 주요 문제에 직면해 있습니다. 하나는 글로벌 컨텍스트를 불완전한 영역에 정확하게 전파하는 방법이고, 다른 하나는 글로벌 단서와 일치하는 실제 로컬 세부 정보를 합성하는 것입니다. 전역 컨텍스트 전파 문제를 해결하기 위해 기존 네트워크는 인코더-디코더 구조, 아트러스 컨볼루션, 컨텍스트 주의 또는 푸리에 컨볼루션을 활용하여 장거리 기능 종속성을 통합하고 효과적인 수용 필드를 확장합니다. 또한 2단계 접근 방식과 반복적인 구멍 채우기는 전체 구조를 향상시키기 위해 대략적인 결과를 예측하는 데 의존합니다. 그러나 이러한 모델에는 마스크되지 않은 영역의 높은 수준의 의미를 포착하고 이를 홀에 효과적으로 전파하여 전체 전역 구조를 합성하는 메커니즘이 부족합니다.
이를 기반으로 University of Rochester와 Adobe Research의 연구원들은 전체 구조와 로컬 세부 사항을 더 잘 합성할 수 있는 새로운 생성 네트워크인 CM-GAN(Cascaded Modulation GAN)을 제안했습니다. CM-GAN에는 홀이 있는 입력 이미지에서 다중 스케일 특징 표현을 추출하기 위한 푸리에 컨볼루션 블록이 있는 인코더가 포함되어 있습니다. CM-GAN에는 각 스케일 레이어에 새로운 계단식 전역 공간 변조 블록을 설정하는 2스트림 디코더도 있습니다.
각 디코더 블록에서 먼저 전역 변조를 적용하여 대략적이고 의미 인식 구조 합성을 수행한 다음 공간 변조를 수행하여 공간 적응 방식으로 특징 맵을 추가로 조정합니다. 또한, 본 연구에서는 실제 장면에서 물체 제거 작업의 요구 사항을 충족하기 위해 캐비티 내 아티팩트를 방지하기 위한 물체 인식 훈련 방식을 설계했습니다. 이 연구는 CM-GAN이 정량적 평가와 정성적 평가 모두에서 기존 방법보다 훨씬 뛰어난 성능을 보인다는 것을 보여주기 위해 광범위한 실험을 수행했습니다.
- 논문 주소: https://arxiv.org/pdf/2203.11947.pdf
- 프로젝트 주소: https://github.com/htzheng/CM-GAN-Inpainting
먼저 이미지 복구 효과를 살펴보겠습니다. 다른 방법과 비교하여 CM-GAN은 더 나은 텍스처를 재구성할 수 있습니다.
CM-GAN은 더 나은 전역 구조를 합성할 수 있습니다.
CM-GAN은 더 나은 객체 경계를 가지고 있습니다.
본 연구의 방법과 실험 결과를 살펴보겠습니다.
방법
캐스케이드 변조 GAN
이미지 완성의 글로벌 컨텍스트를 더 잘 모델링하기 위해 이 연구에서는 공간 코드 변조를 통해 글로벌 코드 변조를 계단식으로 처리하는 새로운 메커니즘을 제안합니다. 이 메커니즘은 부분적으로 유효하지 않은 기능을 처리하는 동시에 공간 영역에 전역 컨텍스트를 더 잘 주입하는 데 도움이 됩니다. 새로운 아키텍처 CM-GAN은 아래 그림 1과 같이 전체 구조와 로컬 세부 사항을 잘 합성할 수 있습니다.
아래 그림 2(왼쪽)에 표시된 것처럼 CM-GAN은 시각적 출력을 생성하기 위해 하나의 인코더 분기와 두 개의 병렬 계단식 디코더 분기를 기반으로 합니다. 인코더는 이미지와 마스크의 일부를 입력으로 사용하고 다중 스케일 기능 맵을 생성합니다 .
대부분의 인코더-디코더 방법과 달리, 전체 구조를 완성하기 위해 본 연구에서는 완전 연결 계층의 최고 수준 기능 에서 전역 스타일 코드 를 추출한 다음
정규화를 수행합니다. 또한 MLP 기반 매핑 네트워크는 이미지 생성의 무작위성을 시뮬레이션하기 위해 노이즈로부터 스타일 코드를 생성합니다. 코드 w는 s와 결합되어 후속 디코딩 단계에서 사용되는 전역 코드 g = [s; w]를 생성합니다.
글로벌 공간 캐스케이드 변조. 디코딩 단계에서 글로벌 컨텍스트를 더 잘 연결하기 위해 본 연구에서는 글로벌 공간 계단식 변조(CM)를 제안합니다. 그림 2(오른쪽)에 표시된 것처럼 디코딩 단계는 전역 변조 블록(GB)과 공간 변조 블록(SB)의 두 가지 분기를 기반으로 하며 전역 기능 F_g와 로컬 기능 F_s를 병렬로 업샘플링합니다.
CM-GAN은 기존 방식과 달리 홀 영역에 전역 컨텍스트를 주입하는 새로운 방식을 도입합니다. 개념적 수준에서 이는 각 규모의 기능 간 계단식 전역 및 공간 변조로 구성되며 자연스럽게 전역 컨텍스트 모델링을 위한 세 가지 보상 메커니즘을 통합합니다. 1) 기능 업샘플링, 3) 공간 변조.
객체 인식 훈련
훈련용 마스크를 생성하는 알고리즘이 중요합니다. 기본적으로 샘플링된 마스크는 실제 사용 사례에서 그려진 마스크와 유사해야 하며, 마스크는 전체 개체나 새 개체의 큰 부분을 가리지 않아야 합니다. 지나치게 단순화된 마스킹 방식으로 인해 아티팩트가 발생할 수 있습니다.
모델이 구멍 내에서 새로운 객체를 합성하는 것을 방지하면서 실제 객체 제거 사용 사례를 더 잘 지원하기 위해 이 연구에서는 아래 4와 같이 훈련 중에 보다 사실적인 마스크를 생성하는 객체 인식 훈련 방식을 제안합니다.
구체적으로 연구에서는 먼저 훈련 이미지를 파노라마 분할 네트워크 PanopticFCN에 전달하여 매우 정확한 인스턴스 수준 분할 주석을 생성한 다음 자유 구멍과 객체 구멍의 혼합을 초기 마스크로 샘플링합니다. 마지막으로 구멍과 이미지의 각 인스턴스 사이의 중첩 비율을 계산합니다. 중첩 비율이 임계값보다 크면 메서드는 구멍에서 전경 인스턴스를 제외합니다. 그렇지 않으면 구멍은 변경되지 않고 그대로 유지되고 임계값이 0.5로 설정된 상태로 시뮬레이션된 개체가 완성됩니다. 이 연구에서는 과적합을 방지하기 위해 객체 마스크를 무작위로 확장하고 변환합니다. 또한 이 연구에서는 구멍 근처의 배경 픽셀이 칠해진 영역으로 누출되는 것을 방지하기 위해 인스턴스 분할 경계의 구멍을 확대합니다.
Masked-R_1 정규화를 사용한 훈련 목표
모델은 적대적 손실과 분할 기반 지각 손실의 조합으로 훈련되었습니다. 실험에 따르면 이 방법은 적대적 손실만 사용하는 경우에도 좋은 결과를 얻을 수 있지만 지각 손실을 추가하면 성능이 더욱 향상될 수 있습니다.
또한, 이 연구는 특히 안정적인 인페인팅 작업의 적대적 훈련을 위한 Masked-R_1 정규화를 제안합니다. 여기서 마스크 m은 마스크 외부의 그래디언트 페널티 계산을 피하기 위해 활용됩니다.
Experiments
본 연구에서는 Places2 데이터셋을 대상으로 512×512 해상도의 이미지 인페인팅 실험을 수행하였고, 모델의 정량적, 정성적 평가 결과를 제시하였습니다.
정량적 평가: 아래 표 1은 CM-GAN과 다른 마스킹 방법의 비교를 보여줍니다. 결과는 CM-GAN이 FID, LPIPS, U-IDS 및 P-IDS 측면에서 다른 방법보다 훨씬 뛰어난 성능을 보인다는 것을 보여줍니다. 지각 손실의 도움으로 LaMa, CM-GAN은 사전 훈련된 지각 모델이 제공하는 추가 의미론적 지침 덕분에 CoModGAN 및 기타 방법보다 훨씬 더 나은 LPIPS 점수를 달성합니다. LaMa/CoModGAN과 비교하여 CM-GAN은 FID를 3.864/3.724에서 1.628로 줄입니다.
아래 표 3에서 볼 수 있듯이 미세 조정 여부에 관계없이 CM-GAN은 LaMa 및 CoModGAN 마스크 모두에서 LaMa 및 CoModGAN보다 훨씬 더 나은 성능 향상을 달성하여 모델에 일반화가 있음을 나타냅니다. CoModGAN 마스크, 객체 인식 마스크에서 훈련된 CM-GAN의 성능이 CoModGAN 마스크의 성능보다 여전히 우수하다는 점은 주목할 가치가 있으며, 이는 CM-GAN이 더 나은 생성 능력을 가지고 있음을 확인합니다.
정성적 평가: 그림 5, 그림 6, 그림 8은 합성 마스크 측면에서 CM-GAN 방식과 SOTA 방식의 시각적 비교 결과를 보여줍니다. ProFill은 일관되지 않은 전역 구조를 생성할 수 있고, CoModGAN은 구조적 아티팩트와 색상 반점을 생성하며, LaMa는 자연 장면에서 큰 이미지 흐림 현상이 발생하는 경향이 있습니다. 대조적으로, CM-GAN 방법은 보다 일관된 의미 구조와 명확한 질감을 생성하며 다양한 시나리오에 적용할 수 있습니다. ㅋㅋㅋ . 절제 실험 결과는 아래 표 2와 그림 7에 나타내었다.
본 연구에서는 CM-GAN 방식의 시각적 생성 품질을 더 잘 평가하기 위해 사용자 연구도 수행했으며 그 결과는 아래 표 5와 같습니다. 또한 부록에서는 독자의 참고를 위해 보다 시각적인 비교와 실험적 분석을 제공합니다.
위 내용은 이미지의 넓은 부분이 누락되더라도 사실적으로 복원할 수 있는 새로운 모델인 CM-GAN은 전체적인 구조와 텍스처 디테일을 고려합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











AppleID를 사용하여 iTunesStore에 로그인하면 "이 AppleID는 iTunesStore에서 사용되지 않았습니다"라는 오류가 화면에 표시될 수 있습니다. 걱정할 오류 메시지는 없습니다. 다음 솔루션 세트에 따라 문제를 해결할 수 있습니다. 수정 1 – 배송 주소 변경 iTunes Store에 이 메시지가 나타나는 주된 이유는 AppleID 프로필에 올바른 주소가 없기 때문입니다. 1단계 – 먼저 iPhone에서 iPhone 설정을 엽니다. 2단계 – AppleID는 다른 모든 설정보다 우선해야 합니다. 그러니 열어보세요. 3단계 – 거기에서 “결제 및 배송” 옵션을 엽니다. 4단계 – Face ID를 사용하여 액세스 권한을 확인하세요. 단계

그래서 지난 파티에서 멋진 사진을 많이 찍으셨는데 아쉽게도 찍은 사진이 대부분 빨간 눈이었어요. 사진 자체는 훌륭하지만, 사진 속의 빨간 눈이 이미지를 망치네요. 말할 것도 없이, 파티 사진 중 일부는 친구의 휴대폰에서 찍은 것일 수도 있습니다. 오늘은 사진에서 적목 현상을 제거하는 방법을 살펴보겠습니다. 사진에서 눈이 빨간 이유는 무엇입니까? 플래시를 사용하여 사진을 촬영할 때 적목 현상이 자주 발생합니다. 이는 플래시에서 나오는 빛이 눈 뒤쪽으로 직접적으로 비치면서 눈 밑 혈관에 빛이 반사되어 사진에 눈이 충혈되는 효과를 주기 때문입니다. 다행스럽게도 기술이 지속적으로 발전함에 따라 일부 카메라에는 이러한 문제를 효과적으로 해결할 수 있는 적목 보정 기능이 탑재되었습니다. 이 기능을 사용하면 카메라가 사진을 찍습니다.

Win11 사용자가 자격 증명을 사용하여 로그인하면 자격 증명을 확인할 수 없다는 오류 메시지가 표시됩니다. 무슨 일입니까? 편집자가 이 문제를 조사한 후 이 문제를 직간접적으로 발생시키는 여러 가지 상황이 있을 수 있다는 사실을 발견했습니다.

많은 친구들이 컴퓨터 운영 체제를 사용할 때 항상 블루 스크린을 경험합니다. 최신 win11 시스템도 블루 스크린의 운명을 피할 수 없습니다. 따라서 오늘은 win11 블루 스크린을 복구하는 방법에 대한 튜토리얼을 가져왔습니다. 블루 스크린이 발생했는지 여부에 관계없이 필요할 경우 먼저 배울 수 있습니다. win11 블루스크린 해결방법 1. 블루스크린이 발생하면 먼저 시스템을 다시 시작하여 정상적으로 시작되는지 확인하세요. 2. 정상적으로 시작할 수 있으면 바탕화면의 "컴퓨터"를 마우스 오른쪽 버튼으로 클릭하고 "관리"를 선택합니다. 3. 팝업창 왼쪽의 "시스템 도구"를 확장한 후 "이벤트 뷰어"를 선택합니다. 4. 창에서 이벤트 뷰어를 통해 블루스크린이 발생한 구체적인 문제가 무엇인지 확인할 수 있습니다. 5. 그런 다음 블루 스크린 상황과 이벤트를 따르십시오.

PHP 500 오류에 대한 종합 가이드: 원인, 진단 및 수정 사항 PHP 개발 중에 HTTP 상태 코드 500과 관련된 오류가 자주 발생합니다. 이 오류는 일반적으로 "500InternalServerError"라고 불리며, 이는 서버 측에서 요청을 처리하는 동안 알 수 없는 오류가 발생했음을 의미합니다. 이 기사에서는 PHP500 오류의 일반적인 원인, 진단 방법, 수정 방법을 살펴보고 참조할 수 있는 구체적인 코드 예제를 제공합니다. 1.500 오류의 일반적인 원인 1.

1. win+r을 눌러 실행창을 열고 [regedit]를 입력한 후 Enter를 눌러 레지스트리 편집기를 엽니다. 2. 열린 레지스트리 편집기에서 [HKEY_LOCAL_MACHINESOFTWAREMicrosoftWindowsCurrentVersionRun]을 클릭하여 확장합니다. 오른쪽 빈 공간에서 마우스 오른쪽 버튼을 클릭한 후 [새로 만들기 - 문자열 값]을 선택하고 이름을 [systray.exe]로 변경합니다. 3. systray.exe를 두 번 클릭하여 열고 수치 데이터를 [C:WindowsSystem32systray.exe]로 수정한 후 [확인]을 클릭하여 설정을 저장합니다.

어떤 친구들은 네트워크 카드 드라이버가 비정상이어서 컴퓨터가 인터넷에 연결할 수 없다는 것을 발견하고 이를 수리하는 방법을 알고 싶어합니다. 실제로 현재 시스템에는 자체 드라이버 복구 기능이 있으므로 수동으로 업데이트하기만 하면 됩니다. 드라이버가 작동하지 않으면 드라이버 소프트웨어를 사용할 수 있습니다. 네트워크 카드 드라이버가 비정상이고 인터넷에 연결할 수 없는 문제를 해결하는 방법: 추신: 이 문제가 갑자기 발생하는 경우 먼저 컴퓨터를 다시 시작해도 여전히 작동하지 않으면 다음 작업을 계속하십시오. . 방법 1: 1. 먼저 작업 표시줄을 마우스 오른쪽 버튼으로 클릭하고 "시작 메뉴"를 선택합니다. 2. 마우스 오른쪽 버튼 클릭 메뉴에서 "장치 관리자"를 엽니다. 3. "네트워크 어댑터"를 클릭한 후 "드라이버 업데이트"를 선택하고 "드라이버 자동 검색"을 클릭하면 정상적으로 인터넷 서핑이 가능합니다. 5. 일부 사용자도 이 문제의 영향을 받습니다.

컴퓨터를 시작한 후 블루 스크린이 자주 표시되는 경우 Windows 시스템으로 인해 csrss.exe 파일에 심각한 오류(중지 코드 0xF4)가 발생했기 때문일 수 있습니다. 이제 해결 방법을 살펴보겠습니다! csrss.exe 블루 스크린 수정 방법 먼저 "Ctrl+Alt+Del" 키를 동시에 누르면 Microsoft Windows 작업 관리자의 인터페이스가 나타납니다. "작업 관리자" 탭을 클릭하면 화면에 실행 중인 모든 프로그램과 해당 프로그램이 차지하는 리소스 및 기타 정보가 나열됩니다. 다시 클릭하여 "프로세스" 탭으로 이동하고 "이미지 이름"을 다시 클릭한 다음 목록에서 "csrss.exe" 파일을 찾으세요. "프로세스 종료" 버튼을 클릭하세요
