영상 생성이 본격화되고 있으며, 피카는 위대한 장군을 맞이했습니다.
피카창립 과학자를 맡고 있는 Google 연구원 Omer Bar-Tal입니다.
한 달 전, 영상생성 모델 Lumiere을 공동저자로 구글에 공개했는데, 그 효과가 놀라웠어요.
당시 네티즌들은 '구글이 영상세대 전쟁에 가세했는데, 또 볼만한 좋은 방송이 있다'고 말했다.
Stability AI CEO, 전 Google 동료 및 기타 업계 관계자들이 축복을 보냈습니다.
Omer Bar-Tal은 2021년 텔아비브 대학교 수학과 컴퓨터공학과를 졸업한 후 Weizmann Institute of Science에 진학했습니다. 주로 이미지 및 비디오 합성 분야 연구에 중점을 두고 컴퓨터 과학 석사 학위를 취득합니다.
그의 논문 결과는 Text2LIVE(ECCV 2022 Oral), MultiDiffusion(ICML 2023) 및 TokenFlow(ICLR 2024)와 같은 최고의 컨퍼런스에서 여러 차례 승인되었습니다.
TokenFlow를 예로 들어 그들은 확산 모델을 기반으로 텍스트 기반 비디오 편집을 구현하는 프레임워크를 제안하여 교육이나 미세 조정 없이 비디오 편집 작업을 지원했습니다.
이번 Pika에 합류하기 전 그는 Google Research에서 9개월 동안 학생 연구원으로 일했습니다. 마침내 7개월 간의 연구 끝에 공동 저자로 Lumiere를 시작했습니다. 이때는 아직 석사학위를 취득하지 말았어야 합니다.
Lumiere의 혁신은 STU-Net(시공간 U-Net) 아키텍처를 제안한다는 것입니다. 즉, 공간적 차원과 시간적 차원 모두에서 비디오를 다운샘플링 및 업샘플링하고 중간에 비디오 압축을 얻습니다. 네트워크 시공간 표현의 계층.
Lumiere는 3천만 개의 동영상을 학습한 후 동영상 녹화, 동영상 편집 및 복구, 이미지를 동영상으로 변환, 동영상 스타일화 등 다양한 기능을 지원할 수 있습니다.
당시 Jeff Dean은 다음과 같이 극찬했습니다. 멀티모달 비디오 세대 혁명이 일어나고 있습니다.
피카 합류가 공식 발표된 후 관계자들과 투자자들도 축하의 인사를 보냈습니다.
며칠 전 Pika의 중국인 연구원 Yilun Du가 논문을 발표했는데, 그 사람은 이제 막 MIT에서 박사 학위를 취득하고 (또는 아직 졸업하지 않았을 수도 있음)을 졸업했어야 했는데, 논문 단위는 여전히 MIT입니다. .
또한 공식 홈페이지에서는 아직 인원을 모집하고 있습니다.
위 내용은 Google AI 라이징 스타가 피카로 전환: 비디오 세대 뤼미에르, 창립 과학자 역할의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!