达摩院发布一站式AI视频创作平台\'寻光\'，打造全新AI工作流-人工智能-PHP中文网

首页

科技周边

人工智能

达摩院发布一站式AI视频创作平台\'寻光\'，打造全新AI工作流

PHPz

Jul 12, 2024 pm 04:24 PM

达摩院产业世界人工智能大会寻光

今年是 AI 视频生成爆发的元年，以 Sora 为代表的算法模型和产品应用不断涌现。短短几个月内，我们目睹了几十种视频生成工具的问世，基于 AI 的视频创作方式开始流行起来。

但新技术也引发更多的挑战与质疑，除了大家熟知的 “开盲盒” 现象，AI 所生成的视频内容也因可控性差、处理工作流繁琐而频频被诟病。

OpenAI 曾经邀请专业视频制作团队对 Sora 进行了测试，其中来自于多伦多的 Shy Kids 团队，利用 Sora 制作了一个气球人主题的短片，把创意和 AI 技术进行了完美的结合，让人印象深刻。

$达摩院发布一站式AI视频创作平台\寻光\，打造全新AI工作流\寻光\，打造全新AI工作流\寻光\，打造全新AI工作流\寻光\，打造全新AI工作流\寻光\，打造全新AI工作流\寻光\，打造全新AI工作流\寻光\，打造全新AI工作流\寻光\，打造全新AI工作流\寻光\，打造全新AI工作流\寻光\，打造全新AI工作流$

整个短片其实并不是 Sora 直接输出的结果，而是由多个视频片段组成，且 Sora 在生成不同视频时，很难保证主角的一致性。因此，在引入了大量的人工后期编辑，他们才呈现出最终的短片效果。Shy Kids 的主创们总结，“Sora 的技术很酷，但是它的生成过程很难控制。”

对生成内容的精准可控，是 AI 视频创作中的重要需求，也是今天算法面临的一大挑战。

为此，在刚结束的上海世界人工智能大会（WAIC）上，达摩院发布了一站式 AI 视频创作平台 “寻光”。

其定位为 PUGC 一站式 AI 视频创作平台，可辅助用户创作剧本、分镜图等，并通过工作流整合提升创作全流程的效率，支持对生成及上传素材进行丰富的 AI 编辑，提供人物控制、场景控制、风格迁移、运镜控制、目标新增 / 消除 / 修改等十多种 AI 编辑功能，让视频中的元素和对象精准可控。

达摩院希望借由寻光平台进一步提升 AI 视频创作的效率，目标是用 AI 能力重塑传统视频制作的整个流程，打造 AI 时代的全新视频工作流。

业界首次落地

基于图层的视频编辑

在寻光研发的初期，达摩院还与影视传媒从业者及创作者进行了广泛且密集调研，了解其对于视频 AIGC 创作的需求与痛点。他们发现，视频图层几乎是所有视频创作者们提到频次最高、最迫切的需求。

基于此，寻光平台首次在行业推出系统性的视频图层编辑功能。用户通过文本输入，即可生成符合文本描述且具有透明背景的视频，并且一键将其融合到其他背景视频当中。在传统视频生成能力的基础上，用图层这样一种更灵活的形式来产生内容。

寻光更提供图层拆解功能，轻轻一圈，选定目标立刻拆解为单独的图层视频，再丝滑嵌入不同的背景视频。

用户可以将不同的前景图层跟不同的背景进行图层融合，组合出更多新的视频。图层融合的能力进一步激发 AI 创作力和想象力，同时能够保持多个分镜头之间的场景和人物的一致性。

在达摩院看来，AI 不会取代创作者的工作，而是会优化视频创作的工作流，成为创意驱动的新引擎。

一站式 AI 创作平台

更简洁的交互，更丰富的编辑能力

剧本创作、分镜设计、素材编辑…… 传统的视频创作步骤分工明晰、周期冗长。在 AI 技术的加持下，原本分散在不同制作流程中的创作步骤，如今都可以在寻光平台上流畅完成。

“我们希望让视频编辑像操作 ppt 一样简洁直观，容易上手。” 达摩院视觉技术实验室高级算法专家陈威华在现场介绍，寻光平台的一大亮点在交互方面。

寻光平台在设计时便充分考虑到 AI 视频创作的特点，将每个视频项目抽象为多个分镜头画面，用户可根据剧本自动生成一组分镜头，也可以自己上传原始视频素材，由算法切分成多个分镜头。

在创作空间里，用户可以很方便的查看每一个分镜头，一个场景内的多个分镜头可以收起或者展开，场景之间可以通过拖拽来调整顺序，场景内的分镜头也可以进行拖拽。用户也可以在任意位置上进行分镜头的添加和新建，可调用图片生成或者视频生成能力去产生内容，也可以添加自己已有的各种素材。

对于每个分镜头，寻光提供完整且智能的 AI 视频编辑能力进行处理，可依据用户意图，在语义层面而不是像素层面实现编辑。分镜头里的人体、人脸、前景、背景等任意局部目标，都可以进行精细化的编辑和修改。

比如，理解空间景深的运镜控制；

又比如，能够理解物体相对关系的目标消除 / 修改。

在对视频全局元素的编辑上，寻光平台提供了超过 20 种的风格迁移。

寻光也提供帧率控制、视频超分等实用的视频编辑功能。

“我们希望一个视频里的所有元素都是可编辑、可修改的，这样可以给用户的创作提供最大的自由度”，陈威华说。

写在最后

今天，我们正处在 AIGC 的变革浪潮之中，AI 有可能催生出新的视频工作流。无论是专业的影视从业者还是热爱创作的 UGC 用户，都将从中获益。

“工欲善其事，必先利其器”，达摩院希望寻光视频创作平台能够成为每一位创作者的专属视频工作室，实现 AI 与创作者之间更紧密、高效的协作，真正释放 AI 的生产力。

为此，达摩院视觉技术实验室已做了大量技术储备。该实验室致力于多模态视觉信号的理解与生成技术研究，当前的重点研究方向包括更加精准的图像 / 视频 / 3D 内容生成，更加可控的图像 / 视频 / 3D 内容编辑，更加高效的生成框架，多模态的理解 - 生成框架等。

陈威华表示，“寻光”将于近期开放内测，持续迭代，优化交互，欢迎创作者们来定制属于自己的 AI 工作流。

^{内测申请地址：}

^{https://xunguang.damo-vision.com/}

以上是达摩院发布一站式AI视频创作平台\'寻光\'，打造全新AI工作流的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7864

Java教程

1649

CakePHP 教程

1404

Laravel 教程

1300

PHP教程

1242

显示更多

Related knowledge

DeepMind机器人打乒乓球，正手、反手溜到飞起，全胜人类初学者 Aug 09, 2024 pm 04:01 PM

但可能打不过公园里的老大爷？巴黎奥运会正在如火如荼地进行中，乒乓球项目备受关注。与此同时，机器人打乒乓球也取得了新突破。刚刚，DeepMind提出了第一个在竞技乒乓球比赛中达到人类业余选手水平的学习型机器人智能体。论文地址：https://arxiv.org/pdf/2408.03906DeepMind这个机器人打乒乓球什么水平呢？大概和人类业余选手不相上下：正手反手都会：对手采用多种打法，该机器人也能招架得住：接不同旋转的发球：不过，比赛激烈程度似乎不如公园老大爷对战。对机器人来说，乒乓球运动

首配机械爪！元萝卜亮相2024世界机器人大会，发布首个走进家庭的国际象棋机器人 Aug 21, 2024 pm 07:33 PM

8月21日，2024世界机器人大会在北京隆重召开。商汤科技旗下家用机器人品牌“元萝卜SenseRobot”家族全系产品集体亮相，并最新发布元萝卜AI下棋机器人——国际象棋专业版（以下简称“元萝卜国象机器人”），成为全球首个走进家庭的国际象棋机器人。作为元萝卜的第三款下棋机器人产品，全新的国象机器人在AI和工程机械方面进行了大量专项技术升级和创新，首次在家用机器人上实现了通过机械爪拾取立体棋子，并进行人机对弈、人人对弈、记谱复盘等功能，

Claude也变懒了！网友：学会给自己放假了 Sep 02, 2024 pm 01:56 PM

开学将至，该收心的不止有即将开启新学期的同学，可能还有AI大模型。前段时间，Reddit上挤满了吐槽Claude越来越懒的网友。「它的水平下降了很多，经常停顿，甚至输出也变得很短。在发布的第一周，它可以一次性翻译整整4页文稿，现在连半页都输出不了了！」https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一个名为「对Claude彻底失望了的帖子里」，满满地

世界机器人大会上，这家承载「未来养老希望」的国产机器人被包围了 Aug 22, 2024 pm 10:35 PM

正在北京举行的世界机器人大会上，人形机器人的展示成为了现场绝对的焦点，在星尘智能的展台上，由于AI机器人助理S1在一个展区上演扬琴、武术、书法三台大戏，能文能武，吸引了大量专业观众和媒体的驻足。在带弹性的琴弦上的优雅演奏，让S1展现出速度、力度、精度兼具的精细操作和绝对掌控。央视新闻对「书法」背后的模仿学习和智能控制进行了专题报道，公司创始人来杰解释到，丝滑动作的背后，是硬件侧追求最好力控和最仿人身体指标（速度、负载等），而是在AI侧则采集人的真实动作数据，让机器人遇强则强，快速学习进化。而敏捷

ACL 2024奖项公布：华科大破译甲骨文最佳论文之一、GloVe时间检验奖 Aug 15, 2024 pm 04:37 PM

本届ACL大会，投稿者「收获满满」。为期六天的ACL2024正在泰国曼谷举办。ACL是计算语言学和自然语言处理领域的顶级国际会议，由国际计算语言学协会组织，每年举办一次。一直以来，ACL在NLP领域的学术影响力都位列第一，它也是CCF-A类推荐会议。今年的ACL大会已是第62届，接收了400余篇NLP领域的前沿工作。昨天下午，大会公布了最佳论文等奖项。此次，最佳论文奖7篇（两篇未公开）、最佳主题论文奖1篇、杰出论文奖35篇。大会还评出了资源论文奖（ResourceAward）3篇、社会影响力奖（

鸿蒙智行享界S9及全场景新品发布会，多款重磅新品齐发 Aug 08, 2024 am 07:02 AM

今天下午，鸿蒙智行正式迎来了新品牌与新车。 8月6日，华为举行鸿蒙智行享界S9及华为全场景新品发布会，带来了全景智慧旗舰轿车享界S9、问界新M7Pro和华为novaFlip、MatePadPro12.2英寸、全新MatePadAir、华为毕升激光打印机X1系列、FreeBuds6i、WATCHFIT3和智慧屏S5Pro等多款全场景智慧新品，从智慧出行、智慧办公到智能穿戴，华为全场景智慧生态持续构建，为消费者带来万物互联的智慧体验。鸿蒙智行：深度赋能，推动智能汽车产业升级华为联合中国汽车产业伙伴，为

李飞飞团队提出ReKep，让机器人具备空间智能，还能整合GPT-4o Sep 03, 2024 pm 05:18 PM

视觉与机器人学习的深度融合。当两只机器手丝滑地互相合作叠衣服、倒茶、将鞋子打包时，加上最近老上头条的1X人形机器人NEO，你可能会产生一种感觉：我们似乎开始进入机器人时代了。事实上，这些丝滑动作正是先进机器人技术+精妙框架设计+多模态大模型的产物。我们知道，有用的机器人往往需要与环境进行复杂精妙的交互，而环境则可被表示成空间域和时间域上的约束。举个例子，如果要让机器人倒茶，那么机器人首先需要抓住茶壶手柄并使之保持直立，不泼洒出茶水，然后平稳移动，一直到让壶口与杯口对齐，之后以一定角度倾斜茶壶。这

分布式人工智能盛会DAI 2024征稿：Agent Day，强化学习之父Richard Sutton将出席！颜水成、Sergey Levine以及DeepMind科学家将做主旨报告 Aug 22, 2024 pm 08:02 PM

会议简介随着科技的飞速发展，人工智能已经成为了推动社会进步的重要力量。在这个时代，我们有幸见证并参与到分布式人工智能（DistributedArtificialIntelligence，DAI）的创新与应用中。分布式人工智能是人工智能领域的重要分支，这几年引起了越来越多的关注。基于大型语言模型（LLM）的智能体（Agent）异军突起，通过结合大模型的强大语言理解和生成能力，展现出了在自然语言交互、知识推理、任务规划等方面的巨大潜力。AIAgent正在接棒大语言模型，成为当前AI圈的热点话题。Au

See all articles

达摩院发布一站式AI视频创作平台\'寻光\'，打造全新AI工作流

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题