미친 듯이 죽여라! Google은 비디오를 음성으로 전환하고 사실적인 음향 효과로 인해 AI 비디오가 침묵에 작별을 고합니다!-일체 포함-php.cn

호황을 누리고 있는 AI 산업은 모두를 놀라게 했습니다.

요즘 바다 건너 사람들이 미쳐가는 요즘!

Luma의 설렘은 아직 가시지 않았습니다. 어젯밤 Runway가 왕의 폭탄인 Gen-3 Alpha를 출시했습니다. (자세한 내용은 다음을 참조하세요: 소라 출시 런웨이 버전: 높은 충실도, 초일관성, Gen-3 Alpha가 네티즌들을 놀라게 했습니다)

게다가 잠에서 깨어났을 때 Google DeepMind가 나올 것이라고는 예상하지 못했습니다. V2A(영상 음성 변환) 기술의 발전 과정을 조용히 공개한 새로운 소식도 있었습니다.

미친 듯이 죽여라! Google은 비디오를 음성으로 전환하고 사실적인 음향 효과로 인해 AI 비디오가 침묵에 작별을 고합니다!

이 기능은 아직 대중에게 공개되지 않았지만 공식 비디오 데모를 보면 효과가 상당히 부드럽습니다. 동시에 Google DeepMind는 모든 예제가 V2A 기술과 가장 발전된 생성 비디오 모델 Veo에 의해 공동으로 생성되었음을 강조했습니다.

오디오 프롬프트: 스릴 넘치는 공포 영화 사운드트랙, 콘크리트에 울려퍼지는 발자국 소리. (영화, 스릴러, 공포영화, 음악, 긴장감, 분위기, 콘크리트 위의 발자국)

검은 불빛이 켜진 폐창고에서 검은 옷을 입은 남자가 유령처럼 천천히 걷는데, 이상한 음악과 발자국 소리가 어우러져 분위기가 고조된다. 레이맨은 정말 무섭습니다.

오디오 프롬프트: 달빛에 늑대가 울부짖습니다. (달을 향해 울부짖는 늑대)

영상 데모가 나오자마자 댓글란에 Qing Yishui가 질문했습니다. 언제쯤 출시되나요?

일부 네티즌들은 오픈소스 커뮤니티가 사이버 보살이 되어 구글의 기술을 카피하기를 희망하고 있습니다.

실제로 구글 딥마인드가 공식 발표된 지 얼마 지나지 않아 AI 오디오 분야의 '리더'인 일레븐랩스가 적절한 음향 효과를 생성할 수 있는 업로드 영상의 자동 더빙 프로젝트를 오픈소스로 공개하기도 했습니다. 비디오용.

링크:

https://elevenlabs.io/docs/api-reference/how-to-use-text-to-sound- Effects

요즘 AI 경쟁 크고 작은 제조업체 간의 경쟁은 더욱 공평한 경쟁의 장을 만들 것이며, 이러한 기술이 성숙되면 AI 비디오 분야에서 무한한 가능성이 생길 것입니다.

AI Video 무성 영화에 작별 인사

우리 모두 알고 있듯이 비디오 생성 모델은 놀라운 속도로 발전하고 있습니다. 하지만 연초 세계를 충격에 빠뜨린 소라든, 최근의 켈링, 루마, 젠3알파든 모두 예외 없이 '무성영화'다.

그리고 Google DeepMind의 V2A(비디오-오디오) 기술은 동기식 오디오-비주얼 생성을 가능하게 합니다. 비디오 픽셀과 자연어 텍스트 단서를 결합하여 화면 동작에 대한 풍부한 음성 해설을 생성할 수 있습니다.

기술 적용 측면에서 V2A 기술은 Veo와 같은 비디오 생성 모델과 결합하여 극적인 사운드 트랙, 사실적인 사운드 효과 또는 일치하는 비디오 캐릭터와 스타일이 포함된 대화 장면을 만들 수 있습니다.

기록 자료, 무성 영화 및 기타 전통적인 이미지에 대한 오디오 트랙을 생성하여 창의적 가능성을 넓힐 수도 있습니다.

오디오 프롬프트: 달걀 껍질이 깨지는 소리와 함께 정글에서 귀여운 아기 공룡들이 지저귀는 소리입니다. (귀여운 아기 공룡의 울음소리, 정글의 분위기, 계란이 깨지는 소리)

오디오 프롬프트: 자동차 미끄러지는 소리, 엔진 굉음, 천사 같은 전자 음악이 함께합니다. (자동차 미끄러짐, 자동차 엔진 스로틀링, 천사 같은 전자 음악)

오디오 프롬프트: 해질녘에 초원에 아름다운 하모니카 소리가 들립니다. (프레리에서 해가 지면서 천천히 감미로운 하모니카가 연주됩니다.)

V2A 기술은 모든 비디오 입력에 대해 무제한의 오디오 트랙을 생성할 수 있습니다. 사용자는 원하는 소리의 생성을 안내하는 "긍정적인 신호"를 정의하거나 원하지 않는 소리를 피하기 위한 "부정적인 신호"를 정의하도록 선택할 수 있습니다.

이러한 유연성을 통해 사용자는 오디오 출력을 더 효과적으로 제어할 수 있으므로 신속하게 다양한 오디오 출력을 시도하고 가장 적합한 것을 선택할 수 있습니다.

오디오 프롬프트: 우주선이 광대한 공간에서 속도를 내고 있고, 별들이 그 주위를 날아다니며 공상과학적인 느낌으로 가득 찬 빠른 속도로 날아갑니다. (광활한 우주를 질주하는 우주선, 그 위를 지나가는 별, 고속, SF)

오디오 프롬프트: 천상의 첼로 분위기(에테리얼 첼로 분위기)

오디오 프롬프트: 광활한 우주 속을 여행하는 우주선 빠른 속도로 움직이는 우주와 그 주위를 빠르게 지나가는 별들로 인해 공상과학적인 느낌을 줍니다. (광활한 우주를 질주하는 우주선, 그 위를 질주하는 별, 고속, SF)

작동 원리

연구팀은 자기회귀 및 확산 방법을 시도하여 가장 많은 것을 발견했습니다. 확장 가능한 AI 아키텍처. 확산 방법은 비디오와 오디오 정보를 동기화하기 위한 오디오 생성에서 가장 현실적이고 매력적인 결과를 제공합니다.

V2A 시스템은 먼저 비디오 입력을 압축 표현으로 인코딩한 다음 확산 모델을 통해 무작위 노이즈로부터 오디오를 반복적으로 개선합니다. 이 프로세스는 시각적 입력과 주어진 자연어 단서에 의해 안내되어 단서와 밀접하게 일치하는 동기화되고 사실적인 오디오를 생성합니다. 마지막으로 오디오 출력은 오디오 파형으로 디코딩되어 비디오 데이터와 결합됩니다.

더 높은 품질의 오디오를 생성하고 모델이 특정 사운드를 생성하도록 안내하기 위해 연구팀은 훈련 과정에서 사운드 및 대화 텍스트를 자세히 설명하는 AI 생성 주석을 포함하여 더 많은 정보를 추가했습니다.

비디오, 오디오 및 추가 주석에 대한 교육을 통해 이 기술은 주석이나 텍스트에 제공된 정보에 응답하면서 특정 오디오 이벤트를 다양한 시각적 장면과 연관시키는 방법을 학습합니다.

Google은 원시 픽셀을 이해하고 텍스트 힌트 추가는 선택 사항이기 때문에 자사의 기술이 기존 비디오-오디오 솔루션과 다르다는 점을 강조합니다. 또한 시스템에서는 생성된 사운드와 비디오를 수동으로 정렬할 필요가 없으므로 창작 과정이 크게 단순화됩니다.

하지만 Google의 기술은 완벽하지 않으며 일부 버그를 해결하기 위해 여전히 열심히 노력하고 있습니다. 예를 들어, 비디오 입력 품질은 오디오 출력 품질에 직접적인 영향을 미치며, 비디오의 아티팩트나 왜곡으로 인해 오디오 품질이 저하될 수 있습니다.

동시에 립싱크 기능도 최적화하고 있습니다.

V2A 기술은 입력된 텍스트에서 음성을 생성하고 이를 캐릭터의 입 움직임과 동기화하려고 시도합니다. 그러나 비디오 모델이 텍스트 내용에 맞게 조정되지 않으면 입 모양과 음성이 맞지 않을 수 있습니다. 동조. 그들은 립싱크를 더욱 자연스럽게 만들기 위해 이 기술을 개선하고 있습니다.

오디오 프롬프트: 음악, 대본 "이 칠면조 정말 멋져요. 배가 너무 고파요."(음악, 대본: "이 칠면조 정말 멋져요. 배가 너무 고파요.")

아마도 심층 위조 기술로 인해 발생하는 수많은 사회 문제에 대해 Google DeepMind는 생존에 대한 열망으로 가득 차 있으며, V2A 기술은 대중에게 공개되기 전에 엄격한 보안 평가 및 테스트를 거쳐 AI 기술을 책임감 있게 개발하고 배포할 것을 약속해 왔습니다.

또한 SynthID 툴킷을 V2A 연구에 통합하여 모든 AI 생성 콘텐츠에 워터마크를 추가하여 기술 오용을 방지했습니다.

^{참조 링크:}

^{https://deepmind.google/discover/blog/genelating-audio-for-video/}

^{https://x.com/ GoogleDeepMind/상태/1802733643992850760}

위 내용은 미친 듯이 죽여라! Google은 비디오를 음성으로 전환하고 사실적인 음향 효과로 인해 AI 비디오가 침묵에 작별을 고합니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!