독일 대학 최고의 비주얼 팀의 'arXiv 맞춤형 플랫폼'인 무료 맞춤형 학술 논문 추천 시스템 출시
10밀리초 안에 이미지가 생성되고, 1분에 6,000개의 이미지가 생성되는 것이 컨셉인가요?
아래 사진을 보면 AI의 초능력을 깊이 느낄 수 있습니다.
Pictures
2차원 소녀 사진이 생성하는 프롬프트에 계속해서 새로운 요소를 추가해도 다양한 스타일의 사진 변화가 순식간에 번쩍입니다.
Pictures
이러한 놀라운 실시간 사진 생성 속도는 일본 UC Berkeley, University of Tsukuba 등의 연구진이 제안한 StreamDiffusion의 결과입니다.
이 새로운 솔루션은 100fps 이상의 실시간 대화형 이미지 생성을 가능하게 하는 확산 모델 프로세스입니다.
Pictures
문서 주소: https://arxiv.org/abs/2312.12491
StreamDiffusion은 오픈 소스 이후 GitHub를 직접 장악하여 3.7,000개의 별을 획득했습니다.
Pictures
StreamDiffusion은 시퀀스 노이즈 제거 대신 일괄 처리 전략을 혁신적으로 사용합니다. 이는 기존 방법보다 약 1.5배 빠릅니다. 또한 저자가 제안한 새로운 RCFG(Residual Classifier-Free Guide) 알고리즘은 기존의 분류자 없는 지침보다 2.05배 더 빠를 수 있습니다.
가장 주목할만한 점은 새로운 방식이 RTX 4090에서 91.07fps의 이미지 간 생성 속도를 달성할 수 있다는 것입니다.
Pictures
미래에는 메타버스, 비디오 게임 그래픽 렌더링, 라이브 비디오 스트리밍과 같은 다양한 시나리오에서 StreamDiffusion의 빠른 생성이 이러한 애플리케이션의 높은 처리량 요구를 충족할 수 있습니다.
특히 실시간 이미지 생성은 게임 개발 및 비디오 렌더링 분야에 종사하는 사람들에게 강력한 편집 및 창의적 기능을 제공할 수 있습니다.
Pictures
실시간 이미지 생성을 위해 특별히 설계됨
현재 다양한 분야에서 확산 모델을 적용하려면 인간-컴퓨터 상호 작용의 효율성을 보장하기 위해 처리량이 높고 대기 시간이 짧은 확산 파이프라인이 필요합니다
일반적인 예는 확산 모델을 사용하여 사용자 입력에 원활하게 반응할 수 있는 가상 캐릭터 VTuber를 만드는 것입니다.
Pictures
높은 처리량과 실시간 상호 작용 기능을 향상시키기 위해 현재 연구 방향은 주로 노이즈 제거 반복 횟수를 줄이는 데 중점을 두고 있습니다. 하나.
일반적인 전략은 다단계 확산 모델을 여러 단계로 세분화하고 ODE를 사용하여 확산 과정을 재구성하는 것입니다. 효율성을 향상시키기 위해 확산 모델도 정량화되었습니다.
최신 논문에서 연구자들은 직교 방향에서 시작하여 대화형 이미지 생성의 높은 처리량을 위해 설계된 실시간 확산 파이프라인인 StreamDiffusion을 도입했습니다.
기존 모델 설계 작업을 StreamDiffusion과 통합하는 동시에 N단계 노이즈 제거 확산 모델을 사용하여 높은 처리량을 유지하고 사용자에게 보다 유연한 옵션을 제공할 수 있습니다
사진
실시간 이미지 생성|첫 번째와 두 번째 열: AI를 활용한 실시간 드로잉 예시, 세 번째 열: 3D 아바타에서 2D 일러스트레이션을 실시간 렌더링합니다. 열 4 및 5: 라이브 카메라 필터. 실시간 이미지 생성 | 첫 번째와 두 번째 열은 AI를 활용한 실시간 드로잉의 예시를 보여주고, 세 번째 열은 3D 아바타를 실시간 렌더링하여 2D 일러스트를 생성하는 과정을 보여줍니다. 네번째와 다섯번째 열은 실시간 카메라 필터의 효과를 보여줍니다
구체적으로 어떻게 구현되나요?
StreamDiffusion Architecture
StreamDiffusion은 처리량을 늘리도록 설계된 새로운 확산 파이프라인입니다.
여러 핵심 부분으로 구성됩니다:
스트리밍 일괄 처리 전략, RCFG(Residual Classifier-Free Guide), 입력 및 출력 큐, 확률적 유사성 필터(Stochastic Likerity Filter), 사전 계산 프로그램, 마이크로 자동 인코더 모델 가속 도구.
Batch denoising
확산 모델에서는 Denoising 단계가 순차적으로 수행되므로 단계 수에 비례하여 U-Net의 처리 시간이 늘어납니다.
그러나 고화질 이미지를 생성하려면 단계 수를 늘려야 합니다.
대화형 확산에서 지연 시간이 높은 생성 문제를 해결하기 위해 연구자들은 스트림 배치(Stream Batch)라는 방법을 제안했습니다.
아래 그림에 표시된 것처럼 최신 방법에서는 다음 입력 이미지를 처리하기 전에 단일 이미지의 노이즈가 완전히 제거될 때까지 기다리는 대신 각 노이즈 제거 단계 후에 다음 입력 이미지가 승인됩니다.
이것은 노이즈 제거 배치를 형성하며 각 이미지의 노이즈 제거 단계는 시차를 두고 있습니다.
이 인터리빙된 노이즈 제거 단계를 일괄 처리로 연결함으로써 연구원은 U-Net을 사용하여 연속 입력의 일괄 처리를 효율적으로 처리할 수 있습니다.
시간 단계 t에서 인코딩된 입력 이미지는 시간 단계 t+n에서 생성 및 디코딩됩니다. 여기서 n은 노이즈 제거 단계 수입니다.
Pictures
RCFG(Residual Classifier-Free Guidance)
CFG(Common Classifier-Free Guidance)는 무조건 또는 부정 조건항과 원시 조건항 사이의 벡터를 계산하는 방법입니다. . 원래 조건의 효과를 향상시키는 알고리즘입니다.
Pictures
프롬프트 효과를 높이는 등의 이점을 가져올 수 있습니다.
그러나 음의 조건부 잔여 잡음을 계산하려면 각 입력 잠재 변수를 음의 조건부 임베딩과 쌍을 이루어 각 추론 시간마다 U-Net으로 전달해야 합니다.
이 문제를 해결하기 위해 저자는 혁신적인 RCFG(Residual Classifier-Free Bootstrapping)를 소개합니다.
이 방법은 가상 잔여 노이즈를 사용하여 음의 조건을 근사하므로 음의 조건부 노이즈만 계산할 수 있습니다. 이를 통해 음수 조건부 삽입 시 추가 U-Net 추론 계산 비용을 크게 절감
입력 및 출력 큐
입력 이미지를 파이프라인 관리가 가능한 텐서 데이터 형식으로 변환, 역방향 그러나 디코딩된 텐서를 다시 변환 출력 이미지에는 무시할 수 없는 추가 처리 시간이 필요합니다.
신경망 추론 파이프라인에 이러한 이미지 처리 시간이 추가되는 것을 방지하기 위해 우리는 이미지 사전 처리와 사후 처리를 서로 다른 스레드로 분리하여 병렬 처리를 허용합니다.
또한 입력 텐서 큐를 사용하면 장치 장애나 통신 오류로 인해 입력 이미지가 일시적으로 중단되는 경우에도 대처할 수 있어 원활한 스트리밍이 가능합니다.
사진
확률적 유사성 필터
아래와 같이 핵심 확산 추론 파이프라인에는 VAE 및 U-Net이 포함됩니다.
노이즈 제거 일괄 처리 및 사전 계산된 힌트 임베딩 캐시, 샘플링된 노이즈 캐시 및 스케줄러 값 캐시를 도입하여 추론 파이프라인 속도를 향상하고 실시간 이미지 생성을 지원합니다.
확률적 유사성 필터링(SSF)은 GPU 전력 소비를 절약하도록 설계되었으며 확산 모델 파이프라인을 동적으로 닫아 빠르고 효율적인 실시간 추론을 달성할 수 있습니다.
Image
사전 계산
U-Net 아키텍처에는 입력 잠재 변수와 조건부 임베딩이 모두 필요합니다.
일반적으로 조건부 임베딩은 "힌트 임베딩"에서 파생되며 다른 프레임 간에 변경되지 않습니다.
이를 최적화하기 위해 연구원들은 힌트 임베딩을 미리 계산하고 캐시에 저장합니다. 대화형 또는 스트리밍 모드에서는 미리 계산된 힌트 내장 캐시가 호출됩니다.
U-Net에서는 각 프레임의 키와 값 계산이 미리 계산된 힌트 임베딩을 기반으로 구현됩니다.
따라서 연구진은 이러한 키와 값 쌍을 저장하여 재사용이 가능하도록 U-Net을 수정했습니다. . 입력 프롬프트가 업데이트될 때마다 연구원들은 U-Net 내에서 이러한 키와 값 쌍을 다시 계산하고 업데이트합니다.
모델 가속 및 작은 자동 인코더
속도를 최적화하기 위해 정적 배치 크기와 고정 입력 크기(높이 및 너비)를 사용하도록 시스템을 구성했습니다.
이 접근 방식을 사용하면 계산 그래프와 메모리 할당이 특정 입력 크기에 최적화되어 처리 속도가 빨라집니다.
그러나 이는 다양한 모양(예: 다양한 높이와 너비)의 이미지를 처리해야 하는 경우 다양한 배치 크기(노이즈 제거 단계의 배치 크기 포함)를 사용한다는 의미입니다.
실험적 평가
노이즈 제거 배치의 정량적 평가
그림 8은 배치 노이즈 제거와 원래 순차 U-Net 루프의 효율성 비교를 보여줍니다.
일괄 노이즈 제거 전략을 구현할 때 연구원들은 처리 시간이 크게 개선되었습니다. 이는 순차적 노이즈 제거 단계를 사용하는 기존 U-Net 루프에 비해 시간을 절반으로 줄입니다.
신경 모듈 가속 도구인 TensorRT를 적용하더라도 연구원이 제안한 스트림 일괄 처리는 다양한 노이즈 제거 단계에서 원래 순차 확산 파이프라인의 효율성을 크게 향상시킬 수 있습니다.
Image
또한 연구원들은 최신 방법을 Huggingface Diffusers에서 개발한 AutoPipeline-ForImage2Image 파이프라인과 비교했습니다.
평균 추론 시간 비교는 표 1에 나와 있습니다. 최신 파이프라인을 보면 속도가 크게 향상되었음을 알 수 있습니다.
TensorRT를 사용할 때 StreamDiffusion은 10개의 노이즈 제거 단계를 실행할 때 13배의 속도 향상을 달성할 수 있습니다. 단일 노이즈 제거 단계만 포함하면 속도 증가는 59.6배에 도달할 수 있습니다
TensorRT가 없어도 StreamDiffusion은 단일 단계 노이즈 제거를 사용할 때 AutoPipeline보다 29.7배 빠르고, 10단계 노이즈 제거를 사용할 때 8.3배 향상됩니다.
Pictures
표 2는 RCFG와 일반 CFG를 사용한 흐름 확산 파이프라인의 추론 시간을 비교합니다.
단일 단계 잡음 제거의 경우 Onetime-Negative RCFG와 기존 CFG의 추론 시간은 거의 동일합니다.
따라서 단일 단계 잡음 제거에서 일회용 RCFG와 기존 CFG의 추론 시간은 거의 동일합니다. 그러나 노이즈 제거 단계 수가 증가함에 따라 기존 CFG에서 RCFG로의 추론 속도 향상이 더욱 분명해졌습니다.
5단계 노이즈 제거에서 자기 음성 RCFG는 기존 CFG보다 2.05배 빠르고, 일회성 음성 RCFG는 기존 CFG보다 1.79배 빠릅니다.
Pictures
Pictures
이후, 연구진은 제안된 SSF의 에너지 소비에 대한 종합적인 평가를 실시했습니다. 이 프로세스의 결과는 그림 6과 그림 7에서 볼 수 있습니다.
이 그림은 주기적 정적 특징이 포함된 장면에 대한 입력 비디오에 SSF(임계값 θ를 0.98로 설정)를 적용할 때 GPU 사용 패턴을 보여줍니다
비교 분석 결과, 입력 이미지가 주로 정적 이미지이고 유사도가 높은 경우 SSF를 사용하면 GPU 사용량을 크게 줄일 수 있는 것으로 나타났습니다.
Pictures
절제 연구
다양한 노이즈 제거 단계에서 다양한 모듈이 평균 추론 시간에 미치는 영향이 표 3에 나와 있습니다. 보시다시피, 이미지 대 이미지 생성 프로세스에서 다양한 모듈의 감소가 검증됩니다. 🎙 , 어떤 형태의 CFG도 사용하지 않으면 특히 효율적으로 구현되지 않는 색상 변경이나 존재하지 않는 요소 추가와 같은 측면에서 약한 정렬 단서를 보여줍니다.
반대로 CFG 또는 RCFG를 사용하면 머리 색깔 변경, 신체 패턴 추가, 안경과 같은 물체 포함 등 원본 이미지를 수정하는 기능이 향상됩니다. 특히 RCFG를 사용하면 표준 CFG에 비해 단서의 영향을 향상시킬 수 있습니다.
Pictures
마지막으로 표준 텍스트-이미지 생성 결과의 품질은 그림 11에 나와 있습니다.
sd-turbo 모델을 사용하면 단 한 단계만으로 그림 11과 같은 고품질 이미지를 생성할 수 있습니다.
연구원이 제안한 흐름 확산 파이프라인과 sd-turbo 모델을 사용하여 GPU: RTX 4090, CPU: Core i9-13900K, OS: Ubuntu 22.04.3 LTS 환경에서 이미지를 생성하면 100fps 이상을 달성합니다. 이러한 고품질 이미지를 빠른 속도로 생성하는 것이 가능합니다.
Pictures
네티즌들이 시작하고 2차원 아가씨들의 대거 몰려왔습니다
최신 프로젝트의 코드는 오픈 소스로 공개되었으며 Github에서 별 3700개를 모았습니다.
Pictures
프로젝트 주소: https://github.com/cumulo-autumn/StreamDiffusion
사진
및 실시간 애니메이션.
Pictures
10배속 손으로 그린 세대.
Pictures
Pictures
Pictures
어린이 신발에 관심이 있으신 분들은 직접 만들어 보시는 건 어떨까요?
참고자료:
https://www.php.cn/link/f9d8bf6b7414e900118caa579ea1b7be
https://www.php.cn/link/75a6e5 99 3aefba4f6cb07254637a6133
위 내용은 독일 대학 최고의 비주얼 팀의 'arXiv 맞춤형 플랫폼'인 무료 맞춤형 학술 논문 추천 시스템 출시의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











2020년 3월 31일, 하츠네 미쿠는 한때 그녀와 결혼하기 위해 수백만 달러를 썼던 일본 오타쿠와 공식적으로 "이혼"했습니다. 그로부터 거의 4년이 지났습니다. 사실 두 사람이 결혼했을 때 많은 사람들은 부부에 대해 낙관하지 않았다. 결국 3차원에 사는 사람이 2차원의 종이 사람과 결혼한다는 것은 매우 터무니없는 일이었다. 그러나 일본의 오타쿠 곤도 히데히코는 네티즌들의 비난에도 굴하지 않고 결국 하츠네 미쿠와 결혼식을 올렸다. 하츠네 미쿠와의 생활 꽤 좋았지만, 불행하게도 그들의 결혼생활은 그리 오래가지 못했습니다. 1세대 하츠네 모델의 Gatebox 저작권이 만료되면서 곤도 아키히코의 아내인 하츠네 미쿠도 마찬가지였습니다.

GEMM(일반 행렬 곱셈)은 많은 응용 프로그램과 알고리즘의 중요한 부분이며 컴퓨터 하드웨어 성능을 평가하는 중요한 지표 중 하나이기도 합니다. GEMM 구현에 대한 심층적인 연구와 최적화는 고성능 컴퓨팅과 소프트웨어와 하드웨어 시스템 간의 관계를 더 잘 이해하는 데 도움이 될 수 있습니다. 컴퓨터 과학에서 GEMM의 효과적인 최적화는 컴퓨팅 속도를 높이고 리소스를 절약할 수 있으며, 이는 컴퓨터 시스템의 전반적인 성능을 향상시키는 데 중요합니다. GEMM의 작동 원리와 최적화 방법에 대한 심층적인 이해는 현대 컴퓨팅 하드웨어의 잠재력을 더 잘 활용하고 다양하고 복잡한 컴퓨팅 작업에 대한 보다 효율적인 솔루션을 제공하는 데 도움이 될 것입니다. GEMM의 성능을 최적화하여

7월 29일, AITO Wenjie의 400,000번째 신차 출시 행사에 Huawei 전무이사이자 Terminal BG 회장이자 Smart Car Solutions BU 회장인 Yu Chengdong이 참석하여 연설을 했으며 Wenjie 시리즈 모델이 출시될 것이라고 발표했습니다. 올해 출시 예정 지난 8월 Huawei Qiankun ADS 3.0 버전이 출시되었으며, 8월부터 9월까지 순차적으로 업그레이드를 추진할 계획입니다. 8월 6일 출시되는 Xiangjie S9에는 화웨이의 ADS3.0 지능형 운전 시스템이 최초로 탑재됩니다. LiDAR의 도움으로 Huawei Qiankun ADS3.0 버전은 지능형 주행 기능을 크게 향상시키고, 엔드투엔드 통합 기능을 갖추고, GOD(일반 장애물 식별)/PDP(예측)의 새로운 엔드투엔드 아키텍처를 채택합니다. 의사결정 및 제어), 주차공간부터 주차공간까지 스마트 드라이빙의 NCA 기능 제공, CAS3.0 업그레이드

Taobao를 사용하는 과정에서 우리가 알고 있는 몇몇 친구들의 추천을 받는 경우가 많습니다. 관심 있는 친구들은 이 기능을 끄는 방법을 소개합니다. 휴대폰에서 "타오바오" 앱을 연 후 페이지 오른쪽 하단의 "내 타오바오"를 클릭하여 개인 센터 페이지에 들어간 후 오른쪽 상단의 "설정" 기능을 클릭하여 설정 페이지로 들어갑니다. . 2. 설정 페이지로 이동한 후 '개인정보 보호'를 찾아 이 항목을 클릭하여 들어갑니다. 3. 개인정보 페이지에 '친구 추천'이 있습니다. 현재 상태가 '켜짐'으로 표시되면 클릭하여 닫으세요. 4. 마지막으로 팝업창에서 "나에게 친구 추천" 뒤에 전환 버튼이 있을 것입니다. 이를 클릭하면 버튼이 회색으로 설정됩니다.

Apple 16 시스템의 최고 버전은 iOS16.1.4입니다. iOS16 시스템의 최고 버전은 사람마다 다를 수 있으며 일상적인 사용 경험의 추가 및 개선도 많은 사용자로부터 호평을 받았습니다. Apple 16 시스템의 가장 좋은 버전은 무엇입니까? 답변: iOS16.1.4 iOS 16 시스템의 가장 좋은 버전은 사람마다 다를 수 있습니다. 공개 정보에 따르면 2022년에 출시된 iOS16은 매우 안정적이고 성능이 뛰어난 버전으로 평가되며, 사용자들은 전반적인 경험에 상당히 만족하고 있습니다. 또한, iOS16에서는 새로운 기능 추가와 일상 사용 경험 개선도 많은 사용자들에게 호평을 받고 있습니다. 특히 업데이트된 배터리 수명, 신호 성능 및 발열 제어 측면에서 사용자 피드백은 비교적 긍정적이었습니다. 그러나 iPhone14를 고려하면

Java 에뮬레이터는 컴퓨터나 장치에서 Java 애플리케이션을 실행할 수 있는 소프트웨어입니다. Java 가상 머신을 시뮬레이션하고 Java 바이트코드를 실행할 수 있으므로 사용자는 다양한 플랫폼에서 Java 프로그램을 실행할 수 있습니다. Java 시뮬레이터는 소프트웨어 개발, 학습 및 테스트에 널리 사용됩니다. 이 기사에서는 다양한 사용자의 요구 사항을 충족하고 사용자가 Java 프로그램을 보다 효율적으로 개발하고 실행하는 데 도움이 되는 다섯 가지 유용하고 실용적인 Java 에뮬레이터를 소개합니다. 최초의 에뮬레이터는 Eclipse였습니다. Ecl

초보자부터 전문가까지: 다섯 가지 필수 C 컴파일러 권장 사항 컴퓨터 과학이 발전하면서 점점 더 많은 사람들이 프로그래밍 언어에 관심을 가지게 되었습니다. C 언어는 시스템 수준 프로그래밍에서 널리 사용되는 고급 언어로서 프로그래머들에게 항상 사랑받아 왔습니다. 효율적이고 안정적인 코드를 작성하기 위해서는 자신에게 맞는 C언어 컴파일러를 선택하는 것이 중요합니다. 이 기사에서는 초보자와 전문가가 선택할 수 있는 다섯 가지 필수 C 언어 컴파일러를 소개합니다. GNU 컴파일러 컬렉션인 GCCGCC는 가장 일반적으로 사용되는 C 언어 컴파일러 중 하나입니다.

4월 11일, 화웨이는 처음으로 HarmonyOS 4.2 100개 시스템 업그레이드 계획을 공식 발표했습니다. 이번에는 휴대폰, 태블릿, 시계, 헤드폰, 스마트 스크린 및 기타 장치를 포함하여 180개 이상의 장치가 업그레이드에 참여할 것입니다. 지난달 HarmonyOS4.2 100대 업그레이드 계획이 꾸준히 진행됨에 따라 Huawei Pocket2, Huawei MateX5 시리즈, nova12 시리즈, Huawei Pura 시리즈 등을 포함한 많은 인기 모델도 업그레이드 및 적응을 시작했습니다. 더 많은 Huawei 모델 사용자가 HarmonyOS가 제공하는 일반적이고 종종 새로운 경험을 즐길 수 있을 것입니다. 사용자 피드백에 따르면 HarmonyOS4.2를 업그레이드한 후 Huawei Mate60 시리즈 모델의 경험이 모든 측면에서 개선되었습니다. 특히 화웨이 M
