CVPR\'24 | LightDiff: 저조도 장면의 확산 모델로 밤을 직접 조명합니다!
원제: Light the Night: A Multi-Condition Diffusion Framework for Unpaired Low-Light Enhancement in Autonomous Driving
논문 링크: https://arxiv.org/pdf/2404.04804.pdf
저자 소속: Cleveland State University University of Texas at Austin A*STAR New York University, University of California, Los Angeles
논문 아이디어:
LightDiff는 자율주행의 시각 중심 인식 시스템의 효율성과 확장성을 향상시키는 기술입니다. LiDAR 시스템은 최근 상당한 주목을 받았습니다. 그러나 이러한 시스템은 저조도 조건에서 어려움을 겪는 경우가 많으며 잠재적으로 성능과 안전에 영향을 미칠 수 있습니다. 이 문제를 해결하기 위해 이 기사에서는 자율 주행 애플리케이션에서 저조도 이미지 품질을 개선하도록 설계된 자동화된 프레임워크인 LightDiff를 소개합니다. 구체적으로 본 논문에서는 다중 조건 제어 확산 모델을 채택합니다. LightDiff는 쌍별 데이터를 수동으로 수집할 필요가 없으며 대신 동적 데이터 저하 프로세스를 활용합니다. 깊이 맵, RGB 이미지, 텍스트 캡션 등 다양한 양식의 입력 가중치를 적응적으로 제어하여 저조도 및 저조도 조건에서 콘텐츠 일관성을 동시에 유지할 수 있는 새로운 다중 조건 어댑터가 통합되어 있습니다. 또한, LightDiff는 증강된 이미지를 탐지 모델의 지식과 일치시키기 위해 퍼셉트론별 점수를 보상으로 사용하여 강화 학습을 통한 확산 훈련 프로세스를 안내합니다. NuScenes 데이터세트에 대한 광범위한 실험에서는 LightDiff가 야간 조건에서 여러 최첨단 3D 감지기의 성능을 크게 향상시키는 동시에 높은 시각적 품질 점수를 달성하여 자율 주행 안전을 보장할 수 있는 잠재력을 강조할 수 있음을 보여줍니다.
주요 기여:
본 논문에서는 자율 주행에서 저조도 카메라 이미지를 향상시켜 광범위한 야간 데이터 수집의 필요성을 줄이고 주간 성능을 유지하기 위한 조명 확산(LightDiff) 모델을 제안합니다.
본 논문에서는 깊이 맵과 이미지 캡션을 포함한 여러 입력 모드를 통합하고, 높은 시각적 품질을 유지하면서 이미지 변환 시 의미 무결성을 보장하기 위한 다중 조건 어댑터를 제안합니다. 본 논문에서는 효율적인 모델 훈련을 달성하기 위해 주간 데이터에서 주야간 이미지 쌍을 생성하는 실용적인 프로세스를 채택합니다.
이 문서에서는 확산 프로세스가 인간의 시각적 인식에 도움이 되는 강점을 갖고 지각 모델 수행을 활용하도록 하기 위해 지각적으로 맞춤화된 도메인 지식(신뢰할 수 있는 LiDAR 및 통계 분포의 일관성)과 결합된 강화 학습을 사용하는 미세 조정 메커니즘을 소개합니다. 지각 모델링. 이 방법은 인간의 시각적 인식에 있어 상당한 이점을 가지며, 지각 모델의 장점도 가지고 있습니다.
nuScenes 데이터세트에 대한 광범위한 실험에서는 LightDiff가 야간의 3D 차량 감지 성능을 크게 향상시키고 여러 시야각 측정 항목에서 다른 생성 모델보다 성능이 뛰어난 것으로 나타났습니다.
웹 디자인:
그림 1. 밤의 운전 시나리오는 낮보다 더 치명적입니다. 밤에는 사망률이 훨씬 높습니다 [4]. 이 글은 야간 운전의 전반적인 안전성을 향상시키기 위해 야간 이미지를 향상시키는 것을 목표로 합니다.
그림 1에서 볼 수 있듯이 야간 운전은 인간에게 어려운 일이며, 특히 자율주행차의 경우 더욱 그렇습니다. 이 과제는 2018년 3월 18일 Uber Advanced Technologies Group의 자율주행차가 애리조나에서 보행자를 들이받아 사망한 재앙적인 사건으로 강조되었습니다[37]. 저조도 환경에서 차량이 보행자를 정확하게 감지하지 못해 발생한 이번 사건은 특히 이러한 까다로운 환경에서 자율주행차의 안전 문제를 전면에 불러일으켰습니다. 비전 중심 자율 주행 시스템이 카메라 센서에 점점 더 의존함에 따라, 차량의 전반적인 안전을 보장하기 위해 저조도 조건에서 안전 문제를 해결하는 것이 점점 더 중요해지고 있습니다.
직관적인 해결책은 대량의 야간 운전 데이터를 수집하는 것입니다. 그러나 이 방법은 노동집약적이고 비용이 많이 들 뿐만 아니라, 야간과 주간의 영상 분포 차이로 인해 주간 모델의 성능을 저하시킬 수도 있다. 이러한 과제를 해결하기 위해 이 논문에서는 수동 데이터 수집의 필요성을 없애고 주간 모델 성능을 유지하는 새로운 접근 방식인 조명 확산(LightDiff) 모델을 제안합니다.
LightDiff의 목표는 저조도 카메라 이미지를 향상하고 지각 모델의 성능을 향상시키는 것입니다. LightDiff는 동적 저조도 감쇠 프로세스를 사용하여 기존 주간 데이터로부터 훈련을 위한 합성 주야간 이미지 쌍을 생성합니다. 다음으로, 이 논문에서는 야간 장면을 주간 장면으로 효과적으로 변환하는 고품질 시각 효과를 생성할 수 있는 Stable Diffusion[44] 기술을 채택합니다. 그러나 원래의 Stable Diffusion 모델이 직면했던 과제였던 자율주행에서는 의미적 일관성을 유지하는 것이 매우 중요합니다. 이를 극복하기 위해 LightDiff는 추정 깊이 맵 및 카메라 이미지 캡션과 같은 여러 입력 양식을 다중 조건 어댑터와 결합합니다. 이 어댑터는 각 입력 형식의 가중치를 지능적으로 결정하여 높은 시각적 품질을 유지하면서 변환된 이미지의 의미적 무결성을 보장합니다. 인간의 시각뿐만 아니라 인식 모델에 대해서도 확산 프로세스를 더 밝게 하기 위해 이 백서에서는 강화 학습을 사용하여 이 백서의 LightDiff를 미세 조정하고 인식에 맞게 조정된 도메인 지식을 루프에 추가합니다. 이 논문은 자율 주행 데이터 세트인 nuScenes[7]에 대한 광범위한 실험을 수행하고 LightDiff가 두 가지 최첨단 모델인 BEVDepth[32] 및 BEVStereo에 대한 야간 3D 차량 감지의 평균 정확도(AP)를 크게 향상시킬 수 있음을 보여줍니다. .[31]은 4.2%, 4.6% 개선되었다.
그림 2. 이 기사의 조명 확산 모델(LightDiff) 아키텍처. 훈련 단계에서 훈련 데이터 생성 프로세스를 통해 쌍을 이루는 데이터를 수동으로 수집하지 않고도 삼봉 데이터를 획득할 수 있습니다. 이 백서의 LightDiff는 다중 조건 어댑터를 사용하여 LiDAR 및 분산 보상 모델링(LDRM)과 결합된 여러 조건에 동적으로 가중치를 부여하여 인식 중심 제어를 가능하게 합니다.
그림 3. 이 기사의 훈련 데이터 생성 프로세스. 저조도 저하 변환[9]은 훈련 단계에서만 구현됩니다. 훈련된 깊이 추정 네트워크는 동결되어 이 문서의 조명 확산 모델의 훈련 및 테스트 단계에 사용됩니다.
그림 4. 반복 조명 추론의 개략도. 텍스트 힌트 및 깊이 맵 생성의 정확성을 향상시켜 어두운 이미지의 해로운 영향을 완화하도록 설계되었습니다.
실험 결과:
그림 5. nuScenes 검증 세트의 야간 이미지 샘플에 대한 시각적 비교.
그림 6. nuScenes 검증 세트의 샘플 야간 이미지에 대한 3D 감지 결과 시각화. 본 논문에서는 BEVDepth[32]를 3차원 검출기로 사용하여 카메라의 정면도와 Bird's-Eye-View를 시각화한다.
그림 7. MultiCondition Adapter가 있거나 없는 이 기사의 LightDiff의 시각적 효과를 보여줍니다. ControlNet [55]에 대한 입력은 동일한 텍스트 큐 및 깊이 맵을 포함하여 일관되게 유지됩니다. 다중 조건 어댑터를 사용하면 향상 중에 더 나은 색상 대비와 더 풍부한 세부 정보를 얻을 수 있습니다.
그림 8. 다양한 모달 입력에 대한 주의 지도의 예.
그림 9. ReLI(반복 조명 추론)를 통한 향상된 다중 모드 생성의 개략도. ReLI를 한 번 호출하면 텍스트 힌트 및 깊이 맵 예측의 정확도가 향상됩니다.
요약:
이 기사에서는 저조도 환경에서 이미지 품질을 개선하고 인식으로 인해 직면한 비전 중심 문제를 완화하는 것을 목표로 하는 자율 주행 애플리케이션용으로 설계된 도메인별 프레임워크인 LightDiff를 소개합니다. 시스템. 동적 데이터 저하 프로세스, 다양한 입력 양식에 대한 다중 조건 어댑터, 강화 학습을 사용한 지각별 점수 기반 보상 모델링을 활용함으로써 LightDiff는 nuScenes 데이터세트의 야간 이미지 품질과 3D 성능을 크게 향상시킵니다. 차량 감지 성능. 이 혁신은 대량의 야간 데이터가 필요하지 않을 뿐만 아니라 이미지 변환의 의미 무결성을 보장하여 자율 주행 시나리오에서 안전성과 신뢰성을 향상시킬 수 있는 잠재력을 보여줍니다. 사실적인 주야간 이미지 쌍이 없으면 어두운 주행 이미지를 자동차 조명과 합성하기가 매우 어려워 이 분야에 대한 연구가 제한됩니다. 향후 연구는 고품질 교육 데이터를 더 잘 수집하거나 생성하는 데 중점을 둘 수 있습니다.
인용:
@ARTICLE{2024arXiv240404804L,
author = {{Li}, Jinlong 및 {Li}, Baolu 및 {Tu}, Zhengzhong 및 {Liu}, Xinyu 및 {Guo}, Qing 및 {Juefei- Xu}, Felix 및 {Xu}, Runsheng 및 {Yu}, Hongkai},
title = "{Light the Night: A Multi-Condition Diffusion Framework for Unpaired Low-Light Enhancement in Autonomous Driving}",
journal = {arXiv e-prints},
keywords = {컴퓨터 과학 - 컴퓨터 비전 및 패턴 인식},
연도 = 2024,
월 = 4월,
eid = {arXiv:2404.04804},
pages = {arXiv:2404.04804},
doi = {10.48550/arXiv.2404.04804},
archivePrefix = {arXiv},
eprint = {2404.04804},
primaryClass = {cs.CV},
adsurl = {https://ui.adsabs.harvard.edu/abs/2024arXiv240404804L },
adsnote = {SAO/NASA 천체 물리학 데이터 시스템에서 제공}
}
위 내용은 CVPR\'24 | LightDiff: 저조도 장면의 확산 모델로 밤을 직접 조명합니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











Java 프레임워크에 대한 상용 지원의 비용/성능 평가에는 다음 단계가 포함됩니다. 필요한 보증 수준과 SLA(서비스 수준 계약) 보장을 결정합니다. 연구지원팀의 경험과 전문성. 업그레이드, 문제 해결, 성능 최적화와 같은 추가 서비스를 고려하십시오. 위험 완화 및 효율성 향상을 기준으로 비즈니스 지원 비용을 평가합니다.

중국과학원 자동화 연구소의 심층 강화 학습 팀은 Li Auto 등과 함께 다중 모드 대형 언어 모델인 MLLM(PlanAgent)을 기반으로 자율 주행을 위한 새로운 폐쇄 루프 계획 프레임워크를 제안했습니다. 이 방법은 장면에 대한 조감도와 그래프 기반 텍스트 프롬프트를 입력으로 취하고, 다중 모드 대형 언어 모델의 다중 모드 이해 및 상식 추론 기능을 활용하여 장면 이해부터 생성까지 계층적 추론을 수행합니다. 수평 및 수직 이동 지침을 작성하고 플래너가 요구하는 지침을 추가로 생성합니다. 이 방법은 대규모의 까다로운 nuPlan 벤치마크에서 테스트되었으며 실험에서는 PlanAgent가 일반 시나리오와 롱테일 시나리오 모두에서 최첨단(SOTA) 성능을 달성하는 것으로 나타났습니다. PlanAgent는 기존의 LLM(Large Language Model) 방식과 비교하여

위 작성 및 저자 개인 이해: 최근 딥러닝 기술의 발전과 획기적인 발전으로 대규모 기반 모델(Foundation Models)이 자연어 처리 및 컴퓨터 비전 분야에서 상당한 성과를 거두었습니다. 자율주행에 기본 모델을 적용하는 것도 시나리오에 대한 이해와 추론을 향상시킬 수 있는 큰 발전 전망을 가지고 있습니다. 풍부한 언어와 시각적 데이터에 대한 사전 학습을 통해 기본 모델은 자율주행 시나리오의 다양한 요소를 이해하고 해석하고 추론을 수행할 수 있으며, 의사 결정 및 계획을 추진하기 위한 언어 및 동작 명령을 제공합니다. 기본 모델은 일상적인 운전 및 데이터 수집 중에 발생할 가능성이 없는 롱테일 분포에서 드물게 실행 가능한 기능을 제공하기 위해 운전 시나리오에 대한 이해를 통해 데이터를 보강할 수 있습니다.

PHP 프레임워크의 학습 곡선은 언어 숙련도, 프레임워크 복잡성, 문서 품질 및 커뮤니티 지원에 따라 달라집니다. PHP 프레임워크의 학습 곡선은 Python 프레임워크에 비해 높고 Ruby 프레임워크에 비해 낮습니다. Java 프레임워크에 비해 PHP 프레임워크는 학습 곡선이 적당하지만 시작하는 데 걸리는 시간이 더 짧습니다.

경량 PHP 프레임워크는 작은 크기와 낮은 리소스 소비를 통해 애플리케이션 성능을 향상시킵니다. 그 특징은 다음과 같습니다: 작은 크기, 빠른 시작, 낮은 메모리 사용량, 향상된 응답 속도 및 처리량, 리소스 소비 감소 실제 사례: SlimFramework는 500KB에 불과한 REST API를 생성하며 높은 응답성과 높은 처리량을 제공합니다.

Golang 프레임워크에서는 명확하고 포괄적인 문서를 작성하는 것이 중요합니다. 모범 사례에는 Google의 Go 코딩 스타일 가이드와 같은 확립된 문서 스타일을 따르는 것이 포함됩니다. 제목, 부제, 목록 등 명확한 조직 구조를 사용하고 탐색 기능을 제공하세요. 시작 안내서, API 참조 및 개념을 포함하여 포괄적이고 정확한 정보를 제공합니다. 코드 예제를 사용하여 개념과 사용법을 설명합니다. 문서를 계속 업데이트하고, 변경 사항을 추적하고, 새로운 기능을 문서화하세요. GitHub 문제 및 포럼과 같은 지원 및 커뮤니티 리소스를 제공합니다. API 문서와 같은 실용적인 예제를 만듭니다.

애플리케이션 시나리오를 기반으로 최고의 Go 프레임워크를 선택하세요. 애플리케이션 유형, 언어 기능, 성능 요구 사항 및 생태계를 고려하세요. Common Go 프레임워크: Gin(웹 애플리케이션), Echo(웹 서비스), Fiber(높은 처리량), gorm(ORM), fasthttp(속도). 실제 사례: REST API(Fiber) 구축 및 데이터베이스(gorm)와 상호 작용. 프레임워크를 선택하세요. 주요 성능을 위해서는 fasthttp를 선택하고, 유연한 웹 애플리케이션을 위해서는 Gin/Echo를, 데이터베이스 상호작용을 위해서는 gorm을 선택하세요.

Go 프레임워크 개발에서 일반적인 과제와 해결 방법은 다음과 같습니다. 오류 처리: 관리에는 오류 패키지를 사용하고 중앙에서 오류를 처리하려면 미들웨어를 사용합니다. 인증 및 권한 부여: 타사 라이브러리를 통합하고 사용자 정의 미들웨어를 생성하여 자격 증명을 확인합니다. 동시 처리: 고루틴, 뮤텍스 및 채널을 사용하여 리소스 액세스를 제어합니다. 단위 테스트: 격리를 위해 getest 패키지, 모의 및 스텁을 사용하고, 충분성을 보장하기 위한 코드 적용 도구를 사용합니다. 배포 및 모니터링: Docker 컨테이너를 사용하여 배포를 패키징하고, 데이터 백업을 설정하고, 로깅 및 모니터링 도구를 사용하여 성능과 오류를 추적합니다.
