Sora 'Ke Ling'의 Kuaishou 버전이 테스트용으로 공개되었습니다. 120초가 넘는 비디오를 생성하고 물리학을 더 잘 이해하며 복잡한 움직임을 정확하게 모델링할 수 있습니다.-일체 포함-php.cn

뭐? 주토피아는 국내 AI로 현실이 되는 걸까?

Sora Ke Ling의 Kuaishou 버전이 테스트용으로 공개되었습니다. 120초가 넘는 비디오를 생성하고 물리학을 더 잘 이해하며 복잡한 움직임을 정확하게 모델링할 수 있습니다.

영상과 함께 노출된 것은 '켈링'이라는 국내 대형 영상세대 신모델입니다.

Sora는 유사한 기술 경로를 사용하고 자체 개발한 여러 기술 혁신을 결합하여 크고 합리적인 움직임뿐만 아니라 물리적 세계의 특성을 시뮬레이션하고 강력한 개념적 결합 능력과 상상력을 갖춘 비디오를 제작합니다.

데이터에 따르면 Keling은 최대 2분30fps, 최대 1080p의 해상도로 매우 긴 비디오 생성을 지원하며 다양한 화면 비율을 지원합니다.

또 중요한 점은 Keling이 실험실에서 공개하는 데모나 영상 결과 시연이 아니라 단편 영상 분야의 선두주자인 Kuaishou가 출시한 제품 수준 애플리케이션이라는 점입니다.

그리고 가장 중요한 것은 백지 수표를 쓰지 않고 실용적인 것입니다. 즉시 출시됩니다, Ke Ling 대형 모델이 Kuaiying APP에서 공식적으로 초대 테스트를 열었습니다.

더 이상 고민하지 말고 커링의 걸작을 보여드리겠습니다~

세계의 법칙을 더 잘 이해하고 복잡한 움직임을 정확하게 묘사할 수 있는 사람입니다

오프닝 영상을 통해 모두가 이미 커링의 풍부한 상상력을 느꼈을 것이라고 믿습니다.

Keling은 상상력이 풍부하고 제약이 없을 뿐만 아니라 움직임을 묘사할 때 실제 운동 법칙을 준수합니다. 복잡하고 대규모의 시공간 움직임도 정확하게 묘사할 수 있습니다.

예를 들어 도로를 고속으로 달리는 이 호랑이는 일관적인 화면과 합리적인 카메라 각도의 변화, 호랑이 팔다리의 조화로운 움직임을 보여줄 뿐만 아니라, 달리는 동안 몸통이 흔들리는 모습도 생생하게 표현합니다.

우주 비행사가 달을 달리는 장면도 있는데 움직임이 부드럽고 걸음걸이와 그림자의 움직임이 합리적이고 적절해서 놀랍습니다.

켈링 대형 모델은 움직임 외에도 실제 물리적 세계의 특성을 시뮬레이션할 수 있으며 생성된 비디오는 물리 법칙에 더 부합합니다.

우유를 붓는 영상에서는 기계적 중력의 법칙과 액체의 수위 상승이 모두 현실과 일치합니다. 고려 사항:

또한 광학적 반사 법칙도 고려됩니다. 매끄러운 표면의 그림자에 있는 고양이의 발과 건반이 모두 동시에 변화합니다. 본체.

또한 과 실제 물리적 세계 사이의 상호 작용도 실제로 반영될 수 있습니다. 아래 비디오에서 햄버거를 먹는 어린 소년의 생성된 비디오에는 이빨 자국이 항상 남아 있습니다. 물고, 어린 소년은 먹는 것을 즐긴다. 마치 그 일이 눈앞에서 일어나는 것처럼 말이다.

대형 모델의 경우 물리 법칙을 따르는 것이 여전히 상당히 어렵고, 심지어 소라도 완전히 수행할 수 없다는 점을 아셔야 합니다.

예를 들어, 같은 햄버거를 먹는 장면에서 소라가 생성한 영상은 사람의 손에 손가락이 3개밖에 없다는 단점이 있을 뿐만 아니라, 물린 위치가 버거에 있는 물린 자국과 일치하지 않는다는 점까지.. .

현실 세계뿐만 아니라 물리 법칙과 운동 법칙, 그리고 상상력의 장면을 Ke Ling은 쉽게 파악할 수 있습니다.

예를 들어, 안경을 쓴 이 토끼는 여유롭게 만족하며 커피를 마시고 신문을 읽고 있습니다.

동시에 Ke Ling의 디테일 묘사도 매우 좋습니다. 예를 들어 천천히 피어나는 두 개의 꽃, 꽃잎과 수술의 디테일을 볼 수 있습니다.

또한 Keling은 보다 사실적인 비디오를 생성할 뿐만 아니라 최대 1080p 해상도, 최대 2분 길이(프레임 속도 30fps)의 비디오를 생성하며 자유로운 화면비를 지원합니다.

세로 영상도 포함되어 있어 Kuaishou의 단편 영상 생태계와 상당히 일치한다고 할 수 있습니다.

사진 속은 기차가 앞으로 달리고 있고, 창밖의 풍경은 봄, 여름, 가을, 겨울의 사계절을 지나며 2분짜리 사진 전체가 매우 일관적입니다.

이제 효과는 충분히 입증되었다고 생각합니다. 그래도 만족스럽지 않다면 Keling 공식 웹사이트 플랫폼(포털 기사 끝부분 참조)에 접속하세요. 더 많은 마법의 AI 영상을 감상해보세요!

(참고: 본 글의 영상은 압축되었으며, 고화질, 최신 효과는 공식 홈페이지에 적용됩니다.)

그렇다면 이 켈링 영상에는 어떤 독특한 기술이 사용된 걸까요?

기본 비디오 생성 기술 경로

전체적으로 Keling의 대형 모델은 기본 Wensheng 비디오 기술 경로를 채택하여 이미지 생성 + 타이밍 모듈의 조합을 대체합니다. 이는 Keling의 긴 생성 시간, 프레임 이유이기도 합니다. 효율성이 높으며 복잡한 움직임의 핵심 비밀을 정확하게 처리할 수 있습니다.

구체적으로 Kuaishou 빅 모델 팀은 우수한 비디오 생성 모델이 모델 설계, 데이터 보증, 컴퓨팅 효율성 및 모델 기능 확장이라는 네 가지 핵심 요소를 고려해야 한다고 믿습니다.

소라와 같은 모델 아키텍처, 스케일링 법칙이 검증되었습니다

모델 설계부터 먼저 두 가지 요소를 고려해야 합니다. 하나는 충분히 강하고적합 능력이고 다른 하나는 충분합니다. 매개변수 용량.

아키텍처 선택 측면에서 Keling의 전체 프레임워크는 Sora와 같은

DiT 구조를 채택하고 Transformer를 사용하여 전통적인 확산 모델의 컨벌루션 네트워크 기반 U-Net을 대체합니다.

Transformer는 더 강력한 처리 및 생성 기능, 더 강력한 확장 기능, 더 나은 융합 효율성을 갖추고 있어 복잡한 작업을 처리할 때 수신 필드와 위치 정확도 간의 과도한 중복성과 비호환성으로 인해 U-Net의 한계를 해결합니다.

이를 바탕으로 Kuaishou 대형 모델 팀은

숨겨진 공간 인코딩/디코딩, 타이밍 모델링 및 모델의 기타 모듈도 업그레이드했습니다.

현재 잠재 공간 인코딩/디코딩에서 주류 비디오 생성 모델은 일반적으로 공간 압축을 위해 Stable Diffusion의 2D VAE를 사용하지만 이는 비디오에 대한 명백한 정보 중복성을 갖습니다.

따라서 Kuaishou 대형 모델 팀은

3D VAE 네트워크를 자체 개발하여 공간과 시간의 동기 압축을 달성하고, 더 높은 재구성 품질을 얻고, 훈련 성능과 효과 간의 최상의 균형을 달성했습니다.

또한 시간 정보 모델링 측면에서 Kuaishou 대형 모델 팀은 계산적으로 효율적인

full attention 메커니즘(3D Attention)을 시공간 모델링 모듈로 설계했습니다.

이 방법은 복잡한 시공간 동작을 보다 정확하게 모델링하는 동시에 계산 비용을 고려하여 모델의 모델링 기능을 효과적으로 향상시킬 수 있습니다.

물론 모델 자체의 기능 외에도 사용자가 입력한 텍스트 프롬프트 단어도 최종 생성 효과에 중요한 영향을 미칩니다.

이를 위해 팀에서는 사용자가 입력하는 프롬프트 단어의 고품질 확장 및 최적화를 수행할 수 있는

전용 언어 모델을 특별히 설계했습니다.

데이터는 어떻게 구성되나요? 자체 구축한 고품질 데이터 스크리닝 솔루션

모델 디자인에 대해 이야기하면 데이터도 모델 성능에 중요합니다.

실제로 훈련 데이터의 규모와 품질이 부족한 것은 많은 비디오 생성 모델 개발자가 직면한 골치 아픈 문제이기도 합니다.

온라인 비디오는 일반적으로 품질이 낮고 교육 요구 사항을 충족하기 어렵습니다. Kuaishou 대형 모델 팀은 훈련 데이터를 개선하거나 훈련 데이터의 분포를 조정할 수 있는 비교적 완전한

태그 시스템을 구축했습니다.

기본 영상 품질, 심미성, 자연성 등 다차원에서 영상 데이터 품질을 특성화하고, 각 차원에 맞는 다양한 맞춤형 라벨 기능을 디자인하는 시스템입니다.

비디오 생성 모델을 훈련할 때 모델에 비디오와 해당 텍스트 설명을 동시에 제공해야 합니다. 비디오 자체의 품질도 보장됩니다. 해당 텍스트 설명을 얻는 방법은 무엇입니까?

개발팀은 정확하고 상세하며 구조화된 동영상 설명을 생성할 수 있는 동영상 설명 모델을 특별히 개발했습니다. 비디오 생성 모델의 텍스트 명령 응답성을 크게 향상시킵니다.

모델이 아무리 뛰어나도 노력과 연습이 분리될 수 없습니다.

이제 모델과 데이터를 사용할 수 있으므로 컴퓨팅 효율성도 따라잡아야 합니다. 그래야만 대규모 데이터에 대한 교육을 완료할 수 있습니다. 제한된 시간 동안 상당한 효과를 볼 수 있습니다.

더 높은 컴퓨팅 효율성을 얻기 위해 Keling Large Model은 업계에서 현재 주류인 DDPM 솔루션을 채택하지 않고 확산 모델 기반으로 전송 경로가 더 짧은 흐름 모델을 사용합니다.

다른 차원에서 보면 컴퓨팅 성능 부족은 많은 AI 실무자가 직면한 문제이기도 합니다. OpenAI와 같은 대형 모델 기업도 컴퓨팅 성능 리소스가 부족합니다.

이 문제는 단시간에 완전히 해결되지 않을 수도 있지만, 전체적인 하드웨어 자원이 제한된 상황에서 컴퓨팅 파워의 효율성을 최대한 향상시키는 것이 가능한 일입니다.

Kuaishou 대형 모델 팀은 분산 훈련 클러스터를 사용했으며 연산자 최적화, 재계산 전략 최적화 및 기타 수단을 통해 Keling 대형 모델의 하드웨어 활용도를 크게 향상했습니다.

훈련 과정에서 Keling은 한 단계에서 올바른 것을 선택하지 않고 단계별 훈련 전략을 채택하여 점차적으로 해상도를 향상시켰습니다.

초기 저해상도 단계에서 가장 중요한 것은 데이터는 개념적 다양성에 대한 모델의 이해와 모델링 능력을 향상시킵니다.

다음 고해상도 단계에서는 모델 성능을 더욱 향상시키고 향상시킬 목적으로 데이터의 품질이 더욱 중요한 고려 사항이 되기 시작합니다. 자세한 성능.

이러한 전략을 채택하면 양과 질의 장점을 효과적으로 결합하여 모든 훈련 단계에서 모델을 최적화하고 개선할 수 있습니다.

요구 사항은 끊임없이 변화하며 모델은 적응 가능합니다.

기본 모델의 연구 개발 외에도 Kuaishou 대형 모델 팀은 종횡비와 같은 다차원에서 역량을 확장했습니다.

종횡비 측면에서 Keling은 주류 모델을 사용하여 고정 해상도로 훈련하지 않습니다.

전통적인 방법은 다양한 종횡비의 실제 데이터를 다룰 때 일반적으로 전처리 논리를 도입하여 원본 데이터의 구성을 파괴하여 생성된 결과의 구성이 좋지 않기 때문입니다.

반면 Kuaishou 대형 모델 팀의 솔루션을 사용하면 모델이 다양한 종횡비의 데이터를 직접 처리할 수 있으며 원본 데이터의 구성을 보존할 수 있습니다.

앞으로 몇 분 또는 그 이상의 비디오 생성에 대한 수요에 대처하기 위해 팀은 명백한 효과 저하 없이 자동 회귀를 기반으로 하는 비디오 타이밍 확장 솔루션도 개발했습니다.

Keling은 텍스트 입력 외에도 카메라 움직임, 프레임 속도, 가장자리/키 포인트/깊이 등 다양한 제어 정보 입력을 지원하여 사용자에게 풍부한 콘텐츠 제어 기능을 제공합니다.

대형 모델을 만들지 마세요, 응용이 마지막 단어입니다

대형 모델 산업은 오늘날까지 "롤링"되어 왔으며 기술적 하이라이트 순간을 너무 많이 목격했지만 기술 혁신의 원래 의도는 여전히 응용입니다.

Kuaishou Keling 비디오 생성 모델은 선도적인 단편 비디오 제조업체에서 탄생했으며 계속해서 응용 분야를 모색하고 있습니다. Ke Ling의 대형 모델은 아무런 번거로움 없이 출시되자마자 온라인에 올라간다는 점을 언급할 가치가 있습니다! 케이크를 그리지 마세요! 케이크를 그리지 마세요!

Keling의 Wensheng 비디오 모델 이 공식적으로 Kuaiying APP 에서 베타 테스트를 시작했습니다. 현재 공개된 버전은 720P 비디오 생성을 지원하며 수직 비디오 생성 기능도 곧 제공될 예정입니다.

Wensheng Video 외에도 Kuaishou는 Keling 대형 모델을 기반으로 하는 다른 애플리케이션도 출시했습니다. 예를 들어 "AI Dance King"은 Kuaishou 및 Kuaiying 앱에서 출시되었습니다.

3개 주제이든 2개 주제이든 전신 사진만 업로드하면 캐릭터는 몇 분 만에 음악에 맞춰 우아하게 춤을 출 수 있고, 병마용과 말조차도 가장 눈부신 민족 스타일로 춤을 출 수 있습니다.

Kuaishou 대형 모델 팀은 비디오 생성 모듈 외에도 자체 개발한 3D 얼굴 재구성 기술과 배경 안정화 및 리디렉션 모듈을 추가하여 표정과 움직임 효과를 더욱 생생하게 표시합니다.

게다가, 캐릭터가 춤추면서 입을 벌리고 노래할 수 있는 최신 "AI 노래와 춤" 기술도 데뷔했습니다.

스포일러 하나 더, Keling 모델을 기반으로 한 Tusheng Video 기능도 가까운 시일 내에 사용자에게 제공될 예정입니다.

실제로 Kuaishou도 선도적인 비디오 제조업체로서 이전에 언어 모델과 Vincentian 그래프 모델을 출시한 적이 있습니다.

이러한 모델을 기반으로 AI 카피라이팅, AI 생성 사진, AI 생성 비디오 및 더 많은 AI 생성 기능이 Kuaishou 및 Kuaiying 앱에서 출시되었습니다.

비디오 생성 측면에서 Kuaishou는 여러 대학 또는 과학 연구 기관과 협력하여 제어 가능한 모션 비디오 생성 알고리즘인 Direct-a-Video, 다중 모드 생성 알고리즘인 Video-LaVIT, I2V-Adapter 및 다중 모드 미적 평가 모델 UNIAA와 같은 핵심 기술인 Tusheng 비디오 알고리즘은 Keling 모델에 대한 심층적인 기술 축적을 축적했습니다.

이제 Kuaishou의 완전한 Wensheng 비디오 기능이 드디어 그랜드 데뷔했습니다. 독특한 장면 장점과 폭넓은 적용 시나리오를 갖춘 단편 비디오 트랙의 거물인 Kuaishou가 비디오 생성 기능을 최초로 구현하기를 기대합니다. 짧은 비디오 시나리오.

AI 영상 제작에 관심이 있다면 Kuaiying APP에 접속해 알아보세요.

포털: https://www.php.cn/link/1e4dc58a5c8c8908a4d317d6ef44a4d0

위 내용은 Sora 'Ke Ling'의 Kuaishou 버전이 테스트용으로 공개되었습니다. 120초가 넘는 비디오를 생성하고 물리학을 더 잘 이해하며 복잡한 움직임을 정확하게 모델링할 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!