目录
引言" >引言
介绍
技术概览" >技术概览
应用" >应用
结语
作者介绍" >作者介绍
首页 科技周边 人工智能 快手提出亿级别多模态短视频百科体系——快知(Kuaipedia)

快手提出亿级别多模态短视频百科体系——快知(Kuaipedia)

May 20, 2023 pm 05:10 PM
快知(kuaiped

引言

当前,越来越多的短视频用户不仅希望利用碎片化的时间来休闲娱乐,也开始希望能够在短视频平台中获取更多知识。2021年,快手泛知识内容播放量同比增长58.11%,平台全年有超过3300万场泛知识直播 [1]。为了更好地理解和组织泛知识视频,快手MMU联合哈尔滨工业大学等提出业界首个多模态短视频百科——“快知(Kuaipedia)”:通过多模态和知识图谱技术从海量短视频中挖掘大规模高质量的知识视频,并将其结构化,形成体系化的短视频百科知识库,为用户提供更好的知识获取体验,同时激发创作者创造优质知识内容,构建良性的知识分享生态。

快手提出亿级别多模态短视频百科体系——快知(Kuaipedia)

论文链接:https://www.php.cn/link/b0da9d8dd88178e3bb138e08742eb2e2

项目主页:https://www.php.cn/link/1a725948eb0c738707b5c026a65ba618

团队从快手海量短视频中挖掘出亿级别知识类视频,并对其进行了结构化,构建了千万级词条和知识点视频百科体系。“快知(Kuaipedia)”的提出有助于学界推动AI通过多模态信息理解世界知识,且在产业界落地有较大想象空间。

快手提出亿级别多模态短视频百科体系——快知(Kuaipedia)

介绍

百科全书(Encyclopedia),可以追溯到希腊和罗马,也是17-18世纪法国启蒙运动的一个杰出的成果。知识百科通常是指一个是概要介绍人类全部知识或某一特定领域或学科的工具书或纲要,在互联网急速发展的当下,网络百科成为知识新的载体,如维基百科、百度百科等。但这些百科通常以图文、表格为载体,比较难以表达一些需要生动演示的知识,比如教程(How-to)类知识。图一展示了使用图文讲述 “柴犬”-“怎么画” 这一知识的困境。而通过短视频,我们能够很好地对这些知识进行一个阐释和学习。

具体视频见https://www.php.cn/link/70e9dbe24ba303f2d25ac34d3ae945c5

快手提出亿级别多模态短视频百科体系——快知(Kuaipedia)

图一:图文在how-to类知识上知识传递的困境,图文来自短视频的帧截图

随着内容行业和媒体形态的不断迭代,短视频已经越来越成为知识传播者的主要媒介,尤其是在一些技能和特长类的知识传播,天然就有它的一些优势。而在当下,尽管有公开的网络百科中有视频的内容,但通常是偏简介形式(如秒懂百科),没有将短视频最大程度的进行利用,因此短视频在知识百科中的表达能力被严重低估。比如当人们讲到“柴犬”,人们除了“简介” 以外,还关注“怎么挑”、“怎么梳毛”、“怎么纠正护食”等。因此我们认为将知识类的短视频结构化,构成结构化的短视频百科是一条理解世界知识、帮助人类以更高效率传播知识的有效途径。

参考国家标准科普知识,技能(How)类归结为教程知识,在快手海量的视频中挖掘出高质的知识视频。此外,我们将短视频中抽取的知识主体以词条形式呈现(如柴犬),并抽取视频中讲解的该词条具体的知识点(如柴犬-挑选、柴犬-护食纠正等),最终构成了一个短视频的百科知识体系,如图二所示。

快手提出亿级别多模态短视频百科体系——快知(Kuaipedia)

图二:快知——多模态短视频百科概览

“快知(Kuaipedia)”的提出有以下几个贡献:

“快知”的定义:我们开创性地定义了一个全新的多模态知识百科库,以词条、知识点、知识类短视频以及它们间的关系共同构成。这是业界首个结构化的多模态短视频百科。

构建大规模短视频百科的方法:我们提出使用知识视频识别、词条知识点挖掘、多模态知识链接的组合来构建大规模的短视频百科。并开创性提出“多模态知识链接”任务,作为传统实体链接的一个外延和扩展。

富有潜力和想象空间的应用:在学术上,“快知”以崭新的知识点短视频化组织形式,能够突破目前机器仅靠图文知识图谱(KG)理解世界知识的上限,在KG的一些下游任务如实体链接、实体分类,或者NLP、CV等内容理解下游任务上,有非常大的潜力。在产业界,“快知”这样的形式能够助力短视频平台进行高效地运营、组织内容,提升用户对知识的理解与消费效率。

技术概览

为了实现上述的短视频百科结构化,核心技术包括以下三个主要步骤,如图三所示。

知识视频识别:通过多模态视频预训练模型,理解并识别海量视频中知识类视频;

词条和知识点挖掘:通过多源知识库融合“自顶向下”构建词条体系,再通过对用户搜索query挖掘“自底向上”构建词条与知识点关系,形成词条知识点树

多模态知识链接:创新性地扩展传统“实体链接”任务,提出通过多模态内容理解技术将视频链接到词条(如柴犬)的某一个知识点(如护食纠正)上的“多模态知识链接”任务。

快手提出亿级别多模态短视频百科体系——快知(Kuaipedia)

图三:快知构建技术链路

通过大量详实的人工评测,快知所挖掘的知识点与视频已具备较高的准确率和质量。更详细的算法和实验数据具体参见论文或者我们的Github主页(见文章开头)。

应用

首先,“快知(Kuaipedia)”这样的多模态短视频百科体系,在学术界对于推动AI理解世界知识的技术发展有极大的潜力。一方面,“快知”突破图文和表格的局限,通过更丰富的知识点和短视频来描述某一个实体或者概念,这种方式能够推动多模态知识图谱技术的发展。另一方面,这些知识点和短视频有助于AI更好地理解世界知识,尤其是一些图文难表述的 How-to 类知识,这种多模态知识能够增强AI对世界的理解,对KG、NLP、CV等领域的下游应用都很有帮助。我们在CCKS实体链指的任务上,证明“快知”多模态知识的简单引入就能有效提升BERT在实体链接和在实体分类上的性能。

此外,“快知”在产业落地极具想象力,在短视频生态向“泛知识”拓展的过程中,现有的形式约束了其传播方式,“快知”通过结构化的内容,能提升平台的运营和分发效率,更好地满足用户的求知诉求。我们将该项技术首先在健康垂类进行了落地尝试,快手健康团队此前以病种为组织维度,纯人工挖掘了一批优质PUGC内容,但是存在疾病知识体系不完善、权威性知识视频量级小等痛点,难以高效率构建完整、大规模、结构化的疾病视频体系。利用“快知”的技术后,自动化地挖掘出了一批高质量、有快手特色的知识点和知识视频,丰富了疾病类内容,比纯人工构建提效几十倍。目前这批内容已经在快手App精选页上线:点击精选视频流中某个疾病类视频的「底部通栏」,唤起「快手健康」半屏页,用户可以消费该视频所属词条下的相关知识点和相关知识视频,如图四所示。

快手提出亿级别多模态短视频百科体系——快知(Kuaipedia)

图四:快知在健康场景落地

除健康外,“快知”还覆盖了教育、美食、三农、亲子、法律、科技、金融等众多领域的知识内容,有着较大的应用潜力。

结语

面对泛知识类内容在短视频行业的发展前景,我们提出了“快知(Kuaipedia)”多模态短视频百科体系,从存量的海量短视频内容入手,通过多模态知识图谱构建技术挖掘出亿级别高质量的知识视频,并将知识内容结构化,构建业界首个大规模体系化的短视频百科知识库,其在学术界和产业界有较大的潜力和想象空间。

作者介绍

第一作者:潘浩杰

快手MMU知识图谱中心成员,快知项目负责人,本硕毕业于浙大和港科大,曾在阿里云PAI负责大规模NLP算法与框架,在ACL、EMNLP、KDD、AIJ等顶会顶刊中发表10余篇论文,多项国内和美国专利,详见知乎。2021年加入快手。


通讯作者:付瑞吉

快手MMU知识图谱中心负责人,本硕博毕业于哈工大,中科大博士后。曾担任科大讯飞AI研究院副院长,获吴文俊人工智能科技进步奖一等奖。在ACL、EMNLP、Coling、IJCAI、TASLP等国际会议和期刊上发表学术论文多篇,申请(获得)国家发明专利四十余项。2021年加入快手。

合作老师:刘铭

教授/博士生生导师,哈尔滨工业大学计算学部。先后主持国家重点研发计划项目课题、国家自然科学基金、中国博士后科学基金特别资助、中国博士后科学基金面上资助一等资助、黑龙江省面上基金等多项基金项目。获黑龙江省科学技术一等奖,哈尔滨市科技成果,第六届全国青年人工智能创新创业大会一等奖。 近年来以第一作者或通讯作者发表CCFA/B类论文20余篇,参编教材一部,英文译著一部。担任NLPCC2020、CCKS2020、COLING2022知识图谱领域主席,CCKS2019出版主席、CCKS2021评测主席、CCKS2022讲习班主席。

参考文献

[1] 快手,2022快手泛知识内容生态报告.

[2] 国家标准委:知识管理框架,GB/T 23703.

以上是快手提出亿级别多模态短视频百科体系——快知(Kuaipedia)的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

<🎜>:泡泡胶模拟器无穷大 - 如何获取和使用皇家钥匙
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系统,解释
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆树的耳语 - 如何解锁抓钩
3 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

热门话题

Java教程
1667
14
CakePHP 教程
1426
52
Laravel 教程
1328
25
PHP教程
1273
29
C# 教程
1255
24
10个生成AI编码扩展,在VS代码中,您必须探索 10个生成AI编码扩展,在VS代码中,您必须探索 Apr 13, 2025 am 01:14 AM

嘿,编码忍者!您当天计划哪些与编码有关的任务?在您进一步研究此博客之前,我希望您考虑所有与编码相关的困境,这是将其列出的。 完毕? - 让&#8217

GPT-4O vs OpenAI O1:新的Openai模型值得炒作吗? GPT-4O vs OpenAI O1:新的Openai模型值得炒作吗? Apr 13, 2025 am 10:18 AM

介绍 Openai已根据备受期待的“草莓”建筑发布了其新模型。这种称为O1的创新模型增强了推理能力,使其可以通过问题进行思考

pixtral -12b:Mistral AI&#039;第一个多模型模型 - 分析Vidhya pixtral -12b:Mistral AI&#039;第一个多模型模型 - 分析Vidhya Apr 13, 2025 am 11:20 AM

介绍 Mistral发布了其第一个多模式模型,即Pixtral-12b-2409。该模型建立在Mistral的120亿参数Nemo 12B之上。是什么设置了该模型?现在可以拍摄图像和Tex

如何在SQL中添加列? - 分析Vidhya 如何在SQL中添加列? - 分析Vidhya Apr 17, 2025 am 11:43 AM

SQL的Alter表语句:动态地将列添加到数据库 在数据管理中,SQL的适应性至关重要。 需要即时调整数据库结构吗? Alter表语句是您的解决方案。本指南的详细信息添加了Colu

如何使用AGNO框架构建多模式AI代理? 如何使用AGNO框架构建多模式AI代理? Apr 23, 2025 am 11:30 AM

在从事代理AI时,开发人员经常发现自己在速度,灵活性和资源效率之间进行权衡。我一直在探索代理AI框架,并遇到了Agno(以前是Phi-

超越骆驼戏:大型语言模型的4个新基准 超越骆驼戏:大型语言模型的4个新基准 Apr 14, 2025 am 11:09 AM

陷入困境的基准:骆驼案例研究 2025年4月上旬,梅塔(Meta)揭开了Llama 4套件的模特套件,具有令人印象深刻的性能指标,使他们对GPT-4O和Claude 3.5 Sonnet等竞争对手有利地定位。伦斯的中心

OpenAI以GPT-4.1的重点转移,将编码和成本效率优先考虑 OpenAI以GPT-4.1的重点转移,将编码和成本效率优先考虑 Apr 16, 2025 am 11:37 AM

该版本包括三种不同的型号,GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO,标志着向大语言模型景观内的特定任务优化迈进。这些模型并未立即替换诸如

多动症游戏,健康工具和AI聊天机器人如何改变全球健康 多动症游戏,健康工具和AI聊天机器人如何改变全球健康 Apr 14, 2025 am 11:27 AM

视频游戏可以缓解焦虑,建立焦点或支持多动症的孩子吗? 随着医疗保健在全球范围内挑战,尤其是在青年中的挑战,创新者正在转向一种不太可能的工具:视频游戏。现在是世界上最大的娱乐印度河之一

See all articles