최근에는 빈센트 영상, 투 영상 등으로 영상세대 모델 트랙이 붐을 일으키고 있습니다. 하지만 시중에는 수많은 모델이 있음에도 불구하고 대부분의 사람들은 내부 테스트 자격이 없어 체험하지 못하고 '모델'만 바라보며 한숨을 쉬고 있습니다. 얼마 전 루첸 테크놀로지의 오픈소라(Open-Sora) 모델에 대해 보도한 바 있습니다. 세계 최초의 오픈소스 소라형 모델로, 다양한 유형의 영상에서 뛰어난 성능을 발휘할 뿐만 아니라 가격이 저렴하고 누구나 사용할 수 있습니다. 작동합니까? 사용하는 방법? 이 사이트의 리뷰를 살펴보겠습니다.
최근 오픈소라의 새로운 오픈소스 버전 1.2는 최대 16초 길이의 720p 고화질 영상을 생성할 수 있습니다. 공식 영상 효과는 다음과 같습니다.
생성된 효과는 정말 놀랍습니다. 배경에 있는 너무 많은 독자들이 경험을 시작하고 싶어합니다.
내부 베타 인증을 기다리기 위해 긴 대기열이 필요한 많은 폐쇄 소스 소프트웨어와 비교할 때, 이 완전한 오픈 소스 Open-Sora는 분명히 접근성이 더 높습니다. 하지만 Open-Sora의 공식 Github에는 기술과 코드가 가득합니다. 직접 경험을 배포하고 싶다면 모델의 높은 하드웨어 요구 사항은 말할 것도 없고, 구성할 때 사용자의 코딩 기술에도 큰 어려움이 있습니다. 환경.
그럼 초보 AI 사용자도 오픈소라를 쉽게 사용할 수 있는 방법은 없을까요?
먼저 결론: 예, 한 번의 클릭으로 배포할 수 있으며, 시작 후 비디오 길이, 프레임, 렌즈 및 기타 매개 변수를 코드 없이 제어할 수도 있습니다.
기대되시나요? 그럼 Open-Sora 배포를 구현하는 방법을 살펴보겠습니다. 기사 마지막에는 기술적인 배경 지식 없이도 작동할 수 있는 보모 수준의 자세한 튜토리얼과 사용 주소가 있습니다.
Gradio 기반 시각화 솔루션
Open-Sora의 최신 기술 내용과 관련하여 심층 보고서를 작성했습니다. 보고서에서는 OpenSora 모델의 핵심 아키텍처와 혁신적인 VAE(비디오 압축 네트워크)에 중점을 두었습니다. 기사 마지막 부분에서 Luchen Open-Sora 팀은 한 번의 클릭으로 배포할 수 있는 Gradio 애플리케이션을 제공한다고 언급했습니다. 그렇다면 이 Gradio 애플리케이션은 정확히 어떤 모습일까요?
Gradio 자체는 기계 학습 모델의 신속한 배포를 위해 설계된 Python 패키지입니다. 이를 통해 개발자는 모델의 입력과 출력을 정의하여 웹 인터페이스를 자동으로 생성할 수 있으므로 모델의 온라인 표시 및 상호 작용 프로세스가 단순화됩니다.
Open-Sora의 GitHub 홈페이지를 자세히 읽어본 결과 해당 애플리케이션이 Open-Sora 모델과 Gradio를 유기적으로 결합하여 우아하고 간결한 상호 작용 솔루션을 제공한다는 것을 확인했습니다.
그래픽 인터페이스를 사용하여 작업을 더 쉽게 만듭니다. 인터페이스에서 사용자는 생성된 비디오의 지속 시간, 종횡비 및 해상도와 같은 기본 매개변수를 자유롭게 수정할 수 있으며, 생성된 비디오의 동작 진폭, 미적 점수 및 고급 렌즈 이동 방법을 독립적으로 조정할 수도 있습니다. 또한 프롬프트를 최적화하기 위해 GPT-4 호출을 지원하므로 중국어와 영어 텍스트 입력을 모두 지원할 수 있습니다.
애플리케이션을 배포한 후 사용자는 Open-Sora 모델을 사용할 때 코드를 작성할 필요가 없습니다. 비디오를 생성하기 위해 다양한 매개변수 조합을 시도하려면 프롬프트를 입력하고 클릭하여 매개변수를 바꾸면 됩니다. 생성된 비디오는 Gradio 인터페이스에도 직접 표시되며 복잡한 경로 없이 웹페이지에서 직접 다운로드할 수도 있습니다. ㅋㅋ 이미지 출처: https://github.com/hpcaitech/Open-Sora/blob/main/assets/readme/gradio_basic.png
Open-Sora 팀에 스크립트가 있다는 것을 알았습니다. Gradio에 모델을 적용하는 방법은 Github에서 제공되며 배포를 위한 명령줄 코드도 제공됩니다. 그러나 배포된 코드를 성공적으로 실행하려면 복잡한 환경 구성을 거쳐야 합니다. Open-Sora의 기능을 충분히 경험하려면, 특히 장기간 고해상도(예: 720P 16초) 동영상을 생성하려면 성능이 좋고 대용량 비디오 메모리를 갖춘 그래픽 카드가 필요합니다(공식 제품은 H800입니다). . Gradio의 솔루션에는 이 두 가지 문제를 해결하는 방법이 언급되지 않은 것 같습니다.이 두 가지 문제는 언뜻 보면 매우 어려워 보일 수 있지만 Luchenyun에 의해 완벽하게 해결되어 기술 없이도 쉽게 배포할 수 있습니다. 시작하는 방법? 이 사이트에는 매우 간단한 튜토리얼이 있습니다. 초간단 원클릭 배포 튜토리얼
Luchen Cloud에 Open-Sora를 배포하는 것이 얼마나 쉬운가요?먼저 Luchenyun에서는 다양한 유형의 그래픽 카드를 제공하며, 그 중 A800, H800과 같은 고급 그래픽 카드도 쉽게 대여할 수 있습니다. 테스트 결과, 이 80GB 비디오 메모리 카드는 단일 카드로 Open-Sora 프로젝트의 추론 요구 사항을 충족할 수 있습니다.
둘째, 루첸클라우드에서는 오픈소라 프로젝트 전용 이미지를 탑재했습니다. 마치 짐을 들고 들어갈 수 있는 잘 꾸며진 방과 같은 이미지입니다. 전체 운영 환경을 원클릭으로 시작할 수 있어 복잡한 환경 구성이 필요하지 않습니다.
마지막으로 Luchenyun은 매우 유리한 가격과 매우 맞춤화된 서비스를 제공합니다. A800 카드 가격은 시간당 10위안 미만이며, 이미지 초기화 시간은 청구되지 않습니다. 클라우드 호스트는 청구를 중지하기 위해 언제든지 종료될 수 있습니다. 즉, 시간당 10위안 미만의 비용으로 Open-Sora가 선사하는 놀라운 경험을 마음껏 즐기실 수 있습니다! 또한, 기사 마지막 부분에 100위안 쿠폰을 얻을 수 있는 방법도 포함되어 있습니다. 서둘러서 계정을 등록하여 쿠폰을 받고 튜토리얼을 따라해 보세요!
Luchenyun 웹사이트: https://cloud.luchentech.com/
먼저 Luchenyun에 계정을 등록하려면 웹사이트에 들어가세요. 메인페이지에 들어가자마자 컴퓨팅파워마켓에서 임대 가능한 기계들을 바로 보실 수 있습니다. 쿠폰을 받거나 10위안을 충전하면 Luchenyun의 사용자 가이드에 따라 클라우드 호스트 구축을 시작할 수 있습니다.
첫 번째 단계는 거울을 선택하는 것입니다. 공개 이미지를 열자마자 가장 먼저 클릭하게 되는 것이 오픈소라(1.2)인데 정말 편리합니다.
두 번째 단계는 청구 방법을 선택하는 것입니다. 청구방법은 선불청구와 선불청구 두 가지가 있습니다. 우리는 그것을 시도한 결과 조수 측정이 비용을 절약하고 유휴 기간 동안 A800이 훨씬 더 저렴하다는 것을 발견했습니다!
Open-Sora 추론의 경우 A800이면 충분합니다. 1카드 구성을 선택하고 SSH 연결, 스토리지 지속성 및 마운트된 공개 데이터(모델 가중치 포함)를 허용했습니다. 이러한 기능은 무료이며, 더 많은 편의성을 제공하고, 초심각적입니다.
선택 후 생성을 클릭하세요. 클라우드 호스트의 시작 시간은 매우 짧으며, 머신은 수십 초 내에 시작됩니다. 이 기간은 과금되지 않으므로 비교적 큰 이미지를 접하고 시간이 오래 걸리더라도 비용은 걱정하지 않으셔도 됩니다.
3단계에서는 클라우드 호스트 페이지에서 JupyerLab을 클릭하여 웹페이지에 들어갑니다. 들어가자마자 터미널이 열렸습니다.
클라우드 호스트의 파일을 보기 위해 ls를 입력하면 초기 경로에 Open-Sora 폴더가 있음을 알 수 있습니다.
오픈소라 전용 이미지를 사용하고 있기 때문에 별도의 환경 설치가 필요하지 않습니다. 가장 시간이 많이 걸리는 단계가 완벽하게 해결되었습니다.
이때 Gradio를 실행하는 명령을 직접 입력하면 Gradio를 빠르게 시작하고 진정한 원클릭 배포를 달성할 수 있습니다.
Bashpython gradio/app.py
속도가 매우 빠르고, 그라디오가 실행되기까지 10초도 채 걸리지 않습니다.
그러나 이 그라디오는 기본적으로 서버의 http://0.0.0.0:7860에서 실행되는 것으로 나타났습니다. 로컬 브라우저에서 사용하려면 먼저 SSH 공개 키를 머신의 Luchen Cloud에 추가해야 합니다. . 이 단계도 매우 간단합니다. 아래 파일을 입력하고 로컬 머신의 비밀 키를 붙여넣기만 하면 됩니다.
다음으로 로컬 완료 포트 매핑 지침도 작성해야 합니다. 이 스크린샷의 지침을 따르면 이를 사용할 때 자체 클라우드 호스트의 특정 주소와 포트로 바꿔야 합니다.
그런 다음 해당 웹페이지를 열면 곧 시각적인 작업 인터페이스가 나타납니다.
먼저 영어 프롬프트를 무작위로 입력하고 클릭하여 생성을 시작했습니다(기본 480p가 사용되었으므로 더 빠릅니다).
a river flowing through a rich landscape of trees and mountains (一条河流流经茂密的树木和山脉)
很快生成就完成了,耗时约 40 秒。生成结果整体还不错,有河有山有树木,和指令符合。但是我们期待的是雄鹰从高处俯瞰的效果。
没关系,调整了指令再来一次:
a bird's eye view of a river flowing through a rich landscape of trees and mountains (鸟瞰河流流经树木和山脉的丰富景观)
这次生成的内容果然带上了鸟瞰效果。不错,这个模型还是很听话的。
如前文所说,gradio 界面上还有很多其他选项,比如调整分辨率、画幅长宽比、视频时长,甚至还能控制视频的动态效果幅度等,可玩性非常强,我们测试时使用的是 480P 分辨率,而最高可支持 720P,大家可以逐个尝试,看看不同选项搭配的效果。
想要进阶?微调也能轻松上手
此外,继续深挖 Open-Sora 的网页,我们发现他们还提供了继续微调模型的代码指令。使用自己喜欢的类型的视频微调模型的话,就能让这个模型生成更符合我的审美要求的视频了!
让我们用潞晨云的公开数据中提供的视频数据来验证一下。
由于环境全都是配置好的,我们只需复制粘贴训练指令。
torchrun --standalone --nproc_per_node 1 scripts/train.py configs/opensora-v1-2/train/stage1.py --data-path /root/commonData/Inter4K/meta/meta_inter4k_ready.csv
这边输出了一连串模型训练的信息。
训练已经正常启动了,居然只要单卡就能训!
( 踩坑提示:在此之前我们遭遇了一次 OOM, 结果发现程序挂了以后显存依旧被占用,然后发现是忘记关闭上一步 Gradio 的推理了 ORZ,所以大家用单卡训的时候一定要记得关掉 Gradio,因为 Gradio 上面加载了模型一直在等待用户输入来进行推理)。
以下是我们训练的时候 GPU 资源占用情况:
简单算一笔账,训练一步大约耗时约 20 秒,根据 Open-Sora 提供的数据,训练 70k 步(如下图所示),那他们耗时大约在 16 天左右,和他们文档中声称的 2 周左右相近(假设他们的所有机器各完成一个 step 的时间和我们这台机器相似)。
在这 70k 步中,第一阶段占 30k 步,第二阶段占 23k 步,那第三阶段其实只训练了 17k 步。而这个第三阶段,就是用高质量视频进行微调,用来大幅度提升模型质量,也就是我们现在想要做的事情。
不过,从报告中看,他们的训练使用了 12 台 8 卡机器,所以如果我们用潞晨云平台训练和第三阶段相同的数据量,大约需要:
95 小时 * 8 卡 * 12 台 * 10 元 / 小时 = 91200 元
이 수치는 아직 평가의 한계점이지만 Vincent 전용 영상 모델을 제작하기에는 매우 비용 효율적입니다. 특히 기업의 경우 기본적으로 준비 작업이 필요하지 않습니다. 단계별 튜토리얼을 따르면 100,000위안 이하의 비용으로 세부 조정을 완료할 수 있습니다. 전문 분야에서 Open-Sora의 더욱 향상된 버전을 볼 수 있기를 기대합니다!
마지막으로 앞서 말씀드렸던 100위안 쿠폰 혜택 이벤트도 추가해보겠습니다~ 비록 저희 리뷰 비용이 10위안 미만이지만, 그래도 돈은 아껴야 해요!
Luchen Cloud의 공식 정보를 보면 사용자가 소셜 미디어 및 전문 포럼(예: Zhihu, Xiaohongshu, Weibo, CSDN 등)에서 자신의 경험을 공유하는 것을 볼 수 있습니다(#Luchenyun 또는 @Luchen Technology 사용). ), 효과적으로 한 번 공유하면 100위안 바우처(1주일 동안 유효)를 받을 수 있습니다. 이는 평가 중에 생성된 5~600개의 동영상에 해당합니다~
마지막으로 관련 리소스 링크를 편집했습니다. 모두가 빠르게 시작할 수 있도록 아래에 설명되어 있습니다. 당장 해보고 싶은 친구들은 클릭 한 번으로 원본 텍스트를 읽고 클릭 한 번으로 전송하고 AI 영상 여행을 시작해보세요!
관련 리소스 링크:
Lu Chenyun 플랫폼: https://cloud.luchentech.com/
Open-Sora 코드 베이스: https://github.com/hpcaitech / Open-Sora/tree/main?tab=readme-ov-file#inference
Bilibili 튜토리얼: https://www.bilibili.com/video/BV1ow4m1e7PX/?vd_source=c6b752764cd36ff0e535a768e35d98d2
위 내용은 빨리 오세요! 루첸 오픈소라에서는 양털을 수집할 수 있고, 10위안만 내면 쉽게 동영상 생성을 시작할 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!