사진을 찍으면 동영상이 생성됩니다. 입을 벌리고 고개를 끄덕이는 것, 감정, 분노, 슬픔, 기쁨을 모두 입력으로 제어할 수 있습니다.
최근 Microsoft에서 실시한 연구에 따르면 비디오 처리 소프트웨어 PS가 얼마나 유연한지 밝혀졌습니다.
이 연구에서는 AI에게 사진을 주기만 하면 사진 속 인물의 비디오를 생성할 수 있습니다. , 캐릭터의 표정과 움직임을 텍스트를 통해 제어할 수 있습니다. 예를 들어, "입을 벌려라"라는 명령을 내리면 영상 속 캐릭터는 실제로 입을 벌리게 됩니다.
슬픈 명령을 내리면 슬픈 표정을 짓고 머리를 움직입니다.
"놀라움"이라는 명령이 주어지면 아바타의 이마 라인이 함께 압착됩니다.
또한 가상 캐릭터의 입 모양과 움직임을 음성과 동기화하는 음성을 제공할 수도 있습니다. 또는 아바타가 모방할 수 있는 라이브 비디오를 제공할 수 있습니다
아바타의 움직임에 대해 고개를 끄덕이거나 돌리거나 기울이는 등 더 많은 사용자 정의 편집이 필요한 경우 이 기술도 지원됩니다
이 연구는 GAIA(Generative AI for Avatar, Generative AI for Avatar)라고 불리며, 그 데모가 소셜미디어를 통해 퍼지기 시작했습니다. 많은 사람들이 그 효과에 감탄하고 죽은 사람을 "부활"시키는 데 사용하기를 희망합니다.
그러나 일부 사람들은 이러한 기술의 지속적인 발전으로 인해 온라인 비디오가 진짜와 가짜를 구별하기 어렵게 만들거나 범죄자에 의해 사기에 이용될 것이라고 걱정합니다. 앞으로도 사기방지 대책은 더욱 강화될 것으로 보입니다.
GAIA의 혁신적인 점은 무엇인가요?
제로 샘플 말하는 가상 캐릭터 생성 기술은 음성을 기반으로 자연스러운 영상을 합성하여 생성된 입 모양, 표정, 머리 자세가 음성 내용과 일치하도록 하는 것을 목표로 합니다. 이전 연구에서는 일반적으로 각 가상 캐릭터에 대한 특정 모델의 특정 훈련 또는 조정이 필요하거나 추론 중에 템플릿 비디오를 활용하여 고품질 결과를 달성해야 합니다. 최근 연구자들은 단순히 대상 아바타의 인물 이미지를 외형 기준으로 활용하여 제로샷 말하는 아바타를 생성하는 방법을 설계하고 개선하는 데 집중하고 있다. 그러나 이러한 방법은 일반적으로 작업의 난이도를 줄이기 위해 워핑 기반 모션 표현 및 3DMM(3D Morphable Model)과 같은 도메인 사전을 사용합니다. 이러한 경험적 방법은 효과적이긴 하지만 다양성을 제한하고 부자연스러운 결과를 초래할 수 있습니다. 따라서 데이터 배포를 통한 직접 학습이 향후 연구의 초점입니다
이 기사에서 Microsoft 연구원은 음성 및 단일 인물 사진에서 자연스럽게 말하는 사람을 합성할 수 있는 GAIA(Generative AI for Avatar)를 제안했습니다. 도메인 사전은 생성 프로세스 중에 제거됩니다.
프로젝트 주소: https://microsoft.github.io/GAIA/관련 프로젝트의 세부 정보는 이 링크에서 확인할 수 있습니다
문서 링크: https://arxiv.org/pdf/ 2311.15230 .pdf
Gaia는 두 가지 주요 통찰력을 공개합니다.
-
음성을 사용하여 가상 캐릭터의 움직임을 주도하고, 가상 캐릭터의 배경과 모습은 영상 내내 변하지 않습니다. 이에 영감을 받아 이 논문은 각 프레임의 동작과 모양을 분리합니다. 여기서 모양은 프레임 간에 공유되지만 동작은 각 프레임마다 고유합니다. 음성에서 동작을 예측하기 위해 본 논문에서는 동작 시퀀스를 동작 잠재 시퀀스로 인코딩하고 입력 음성을 조건으로 한 확산 모델을 사용하여 잠재 시퀀스를 예측합니다. 표정과 머리 자세가 매우 다양하기 때문에 대규모의 다양한 데이터 세트가 필요합니다. 따라서 본 연구에서는 연령, 성별, 피부타입, 말하기 스타일이 서로 다른 16K명의 고유한 화자로 구성된 고품질의 말하는 아바타 데이터세트를 수집하여 생성 결과를 자연스럽고 다양하게 만들었습니다.
위의 두 가지 통찰력을 바탕으로 본 논문에서는 VAE(Variational Autoencoder)(주황색 모듈)와 확산 모델(청색 및 녹색 모듈)으로 구성된 GAIA 프레임워크를 제안합니다.
VAE의 주요 기능은 움직임과 모습을 분해하는 것입니다. 두 개의 인코더(모션 인코더 및 모양 인코더)와 디코더로 구성됩니다. 훈련 중에 모션 인코더에 대한 입력은 얼굴 랜드마크의 현재 프레임이고, 모양 인코더에 대한 입력은 현재 비디오 클립에서 무작위로 샘플링된 프레임입니다.
이 두 인코더의 출력을 기반으로 이후에 현재 프레임을 재구성하기 위해 최적화된 디코더. 훈련된 VAE를 얻으면 모든 훈련 데이터에 대한 잠재적인 동작(예: 모션 인코더의 출력)을 얻게 됩니다.
그런 다음 이 문서에서는 음성에서 무작위로 샘플링된 프레임을 기반으로 동작을 예측하도록 훈련된 확산 모델을 사용합니다. 비디오 클립 모션 잠재 시퀀스를 통해 생성 프로세스에 대한 모양 정보 제공
추론 프로세스에서 대상 가상 캐릭터의 참조 초상화 이미지가 주어지면 확산 모델은 이미지와 입력 음성 시퀀스를 조건으로 사용하여 음성 내용을 따르는 모션 잠재 시퀀스. 생성된 모션 잠재 시퀀스와 참조 초상화 이미지는 VAE 디코더를 통과하여 말하는 비디오 출력을 합성합니다.
이 연구는 HDTF(고화질 말하는 얼굴 데이터 세트) 및 캐주얼 대화 데이터 세트 v1&v2(CC v1&v2)를 포함한 다양한 소스에서 데이터 세트를 수집하여 데이터 측면에서 구조화되었습니다. 이 세 가지 데이터 세트 외에도 연구에서는 7K 시간의 비디오와 8K 화자 ID가 포함된 대규모 내부 말하기 아바타 데이터 세트도 수집했습니다. 데이터 세트의 통계적 개요는 표 1에 나와 있습니다.
필요한 정보를 학습하기 위해 이 기사에서는 훈련 데이터의 품질을 보장하기 위한 몇 가지 자동 필터링 전략을 제안합니다. 움직임이 보이려면 아바타의 정면 방향이 카메라를 향해야 합니다.
안정성을 보장하기 위해 영상 속 얼굴 움직임은 매끄럽고 빠르게 흔들리지 않아야 합니다.
극단적인 경우를 걸러내기 위해; 입술 움직임과 말이 일치하지 않는 경우 아바타를 삭제해야 합니다. 마스크를 착용하거나 무음 프레임을 유지하세요.
- 이 문서에서는 필터링된 데이터에 대해 VAE 및 확산 모델을 교육합니다. 실험 결과에서 이 논문은 세 가지 주요 결론을 얻었습니다.
- GAIA는 자연성, 다양성, 입술 동기화 품질 및 시각적 품질 측면에서 우수한 성능으로 제로 샘플 말하기 가상 캐릭터 생성이 가능합니다. 연구원의 주관적인 평가에 따르면 GAIA는 모든 기본 방법을 훨씬 능가합니다.
- 훈련 모델의 크기는 150M에서 2B까지이며 결과는 더 큰 모델이 더 나은 결과를 생성하기 때문에 확장 가능하다는 것을 보여줍니다.
GAIA는 제어 가능한 말하기 아바타 생성 및 텍스트 명령 아바타 생성을 포함하여 다양한 애플리케이션을 가능하게 하는 일반적이고 유연한 프레임워크입니다.
- GAIA의 효과는 어떤가요?
- 실험 중에 연구에서는 GAIA를 FOMM, HeadGAN 및 Face-vid2vid를 포함한 세 가지 강력한 기준과 비교했습니다. 결과는 표 2에 나와 있습니다. GAIA의 VAE는 이전의 비디오 기반 기준에 비해 일관된 개선을 달성하여 GAIA가 모양과 동작 표현을 성공적으로 분해한다는 것을 보여줍니다.
-
음성 기반 결과. 음성 기반 말하기 아바타 생성은 음성에서 동작을 예측하여 달성됩니다. 표 3과 그림 2는 GAIA와 MakeItTalk, Audio2Head 및 SadTalker 방법의 정량적, 정성적 비교를 제공합니다.
주관적 평가 측면에서 GAIA가 모든 기본 방법보다 훨씬 뛰어난 성능을 보인다는 것은 데이터를 통해 분명합니다. 보다 구체적으로, 그림 2에서 볼 수 있듯이 참조 이미지에 눈을 감았거나 비정상적인 머리 자세가 있더라도 기본 방법의 생성 결과는 일반적으로 참조 이미지에 크게 의존하는 반면 GAIA는 다양한 참조 이미지에서 좋은 성능을 나타냅니다. 더 높은 자연스러움, 높은 입술 동기화, 더 나은 시각적 품질 및 모션 다양성으로 견고하고 결과를 생성합니다
표 3에 따르면 최고의 MSI 점수는 GAIA에서 생성된 비디오가 뛰어난 모션 안정성을 가지고 있음을 보여줍니다. Sync-D 점수는 8.528로 실제 영상 점수(8.548)에 가까워 생성된 영상의 립싱크가 우수함을 알 수 있습니다. 표 6에 자세히 설명된 대로 확산 훈련이 없는 모델이 더 나은 FID 점수를 달성한 것으로 나타났기 때문에 이 연구는 다양한 머리 자세의 영향을 받았을 수 있는 기준선과 비슷한 FID 점수를 달성했습니다.
위 내용은 사진을 찍으면 동영상이 생성됩니다. 입을 벌리고 고개를 끄덕이는 것, 감정, 분노, 슬픔, 기쁨을 모두 입력으로 제어할 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











기존 컴퓨팅을 능가할 뿐만 아니라 더 낮은 비용으로 더 효율적인 성능을 달성하는 인공 지능 모델을 상상해 보세요. 이것은 공상과학 소설이 아닙니다. DeepSeek-V2[1], 세계에서 가장 강력한 오픈 소스 MoE 모델이 여기에 있습니다. DeepSeek-V2는 경제적인 훈련과 효율적인 추론이라는 특징을 지닌 전문가(MoE) 언어 모델의 강력한 혼합입니다. 이는 236B 매개변수로 구성되며, 그 중 21B는 각 마커를 활성화하는 데 사용됩니다. DeepSeek67B와 비교하여 DeepSeek-V2는 더 강력한 성능을 제공하는 동시에 훈련 비용을 42.5% 절감하고 KV 캐시를 93.3% 줄이며 최대 생성 처리량을 5.76배로 늘립니다. DeepSeek은 일반 인공지능을 연구하는 회사입니다.

이달 초 MIT와 기타 기관의 연구자들은 MLP에 대한 매우 유망한 대안인 KAN을 제안했습니다. KAN은 정확성과 해석성 측면에서 MLP보다 뛰어납니다. 그리고 매우 적은 수의 매개변수로 더 많은 수의 매개변수를 사용하여 실행되는 MLP보다 성능이 뛰어날 수 있습니다. 예를 들어 저자는 KAN을 사용하여 더 작은 네트워크와 더 높은 수준의 자동화로 DeepMind의 결과를 재현했다고 밝혔습니다. 구체적으로 DeepMind의 MLP에는 약 300,000개의 매개변수가 있는 반면 KAN에는 약 200개의 매개변수만 있습니다. KAN은 MLP와 같이 강력한 수학적 기반을 가지고 있으며, KAN은 Kolmogorov-Arnold 표현 정리를 기반으로 합니다. 아래 그림과 같이 KAN은

테슬라의 로봇 옵티머스(Optimus)의 최신 영상이 공개됐는데, 이미 공장에서 작동이 가능한 상태다. 정상 속도에서는 배터리(테슬라의 4680 배터리)를 다음과 같이 분류합니다. 공식은 또한 20배 속도로 보이는 모습을 공개했습니다. 작은 "워크스테이션"에서 따고 따고 따고 : 이번에 출시됩니다. 영상에는 옵티머스가 공장에서 이 작업을 전 과정에 걸쳐 사람의 개입 없이 완전히 자율적으로 완료하는 모습이 담겨 있습니다. 그리고 Optimus의 관점에서 보면 자동 오류 수정에 중점을 두고 구부러진 배터리를 집어 넣을 수도 있습니다. NVIDIA 과학자 Jim Fan은 Optimus의 손에 대해 높은 평가를 했습니다. Optimus의 손은 세계의 다섯 손가락 로봇 중 하나입니다. 가장 능숙합니다. 손은 촉각적일 뿐만 아니라

8월 14일 이 사이트의 소식에 따르면 오늘 8월 패치 화요일 이벤트 당일 마이크로소프트는 22H2와 23H2용 KB5041585 업데이트, 21H2용 KB5041592 업데이트를 포함해 윈도우 11 시스템용 누적 업데이트를 출시했다. 위 장비가 8월 누적 업데이트로 설치된 후, 본 사이트에 첨부된 버전번호 변경 사항은 다음과 같습니다. 21H2 장비 설치 후, 장비 설치 후 버전번호가 Build22000.314722H2로 증가되었습니다. Windows 1121H2용 KB5041585 업데이트의 주요 내용은 다음과 같습니다.

6월 3일자 뉴스에 따르면, 마이크로소프트는 모든 윈도우 10 사용자에게 적극적으로 전체 화면 알림을 보내 윈도우 11 운영체제로의 업그레이드를 독려하고 있다. 이 이동에는 하드웨어 구성이 새 시스템을 지원하지 않는 장치가 포함됩니다. 2015년부터 Windows 10은 거의 70%의 시장 점유율을 차지하며 Windows 운영 체제로서의 지배력을 확고히 자리 잡았습니다. 하지만 시장점유율은 82%를 훨씬 웃돌며, 2021년 출시 예정인 윈도우 11보다 시장점유율이 훨씬 높다. Windows 11이 출시된 지 거의 3년이 지났지만 시장 침투 속도는 여전히 느립니다. Microsoft는 Windows 10에 대한 기술 지원을 2025년 10월 14일 이후 종료한다고 발표했습니다.

대규모 언어 모델(LLM)을 인간의 가치와 의도에 맞추려면 인간의 피드백을 학습하여 유용하고 정직하며 무해한지 확인하는 것이 중요합니다. LLM 정렬 측면에서 효과적인 방법은 인간 피드백 기반 강화 학습(RLHF)입니다. RLHF 방법의 결과는 훌륭하지만 몇 가지 최적화 문제가 있습니다. 여기에는 보상 모델을 훈련한 다음 해당 보상을 극대화하기 위해 정책 모델을 최적화하는 것이 포함됩니다. 최근 일부 연구자들은 더 간단한 오프라인 알고리즘을 탐구했는데, 그 중 하나가 직접 선호 최적화(DPO)입니다. DPO는 RLHF의 보상 기능을 매개변수화하여 선호도 데이터를 기반으로 직접 정책 모델을 학습하므로 명시적인 보상 모델이 필요하지 않습니다. 이 방법은 간단하고 안정적입니다.

소프트웨어 기술의 선두에 있는 UIUC Zhang Lingming 그룹은 BigCode 조직의 연구원들과 함께 최근 StarCoder2-15B-Instruct 대규모 코드 모델을 발표했습니다. 이 혁신적인 성과는 코드 생성 작업에서 획기적인 발전을 이루었으며 CodeLlama-70B-Instruct를 성공적으로 능가하고 코드 생성 성능 목록의 최상위에 올랐습니다. StarCoder2-15B-Instruct의 독창성은 순수한 자체 정렬 전략에 있습니다. 전체 훈련 프로세스는 개방적이고 투명하며 완전히 자율적이고 제어 가능합니다. 이 모델은 값비싼 수동 주석에 의존하지 않고 StarCoder-15B 기본 모델을 미세 조정한 것에 대한 응답으로 StarCoder2-15B를 통해 수천 개의 명령을 생성합니다.

위에 작성됨 및 저자의 개인적 이해: 이 문서는 자율 주행 애플리케이션에서 현재 다중 모드 대형 언어 모델(MLLM)의 주요 과제를 해결하는 데 전념하고 있습니다. 이는 MLLM을 2D 이해에서 3D 공간으로 확장하는 문제입니다. 자율주행차(AV)가 3D 환경에 대해 정확한 결정을 내려야 하기 때문에 이러한 확장은 특히 중요합니다. 3D 공간 이해는 정보에 입각한 결정을 내리고 미래 상태를 예측하며 환경과 안전하게 상호 작용하는 차량의 능력에 직접적인 영향을 미치기 때문에 AV에 매우 중요합니다. 현재 다중 모드 대형 언어 모델(예: LLaVA-1.5)은 시각적 인코더의 해상도 제한, LLM 시퀀스 길이 제한으로 인해 저해상도 이미지 입력(예:)만 처리할 수 있는 경우가 많습니다. 하지만 자율주행 애플리케이션에는
