再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手-人工智能-PHP中文网

设计思路

视觉意图预测模型

实用性调研

首页

科技周边

人工智能

再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 12, 2023 pm 07:10 PM

谷歌视频

最近几年，「视频会议」在工作中的占比逐渐增加，厂商也开发了各种诸如实时字幕等技术以方便会议中不同语言的人之间交流。

但还有一个痛点，要是对话中提到了一些对方很陌生的名词，并且很难用语言描述出来，比如食物「寿喜烧」，或是说「上周去了某个公园度假」，很难用语言给对方描述出的美景；甚至是指出「东京位于日本关东地区」，需要一张地图来展示等，如果只用语言可能会让对方越来越迷茫。

再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手

最近，谷歌在人机交互顶级会议ACM CHI（Conference on Human Factors in Computing Systems）上展示了一个系统Visual Captions，介绍了远程会议中的一个全新视觉解决方案，可以在对话背景中生成或检索图片以提高对方对复杂或陌生概念的了解。

再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手

论文链接：https://research.google/pubs/pub52074/

代码链接：https://github.com/google/archat

Visual Captions系统基于一个微调后的大型语言模型，可以在开放词汇的对话中主动推荐相关的视觉元素，并已融入开源项目ARChat中。

再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手

在用户调研中，研究人员邀请了实验室内的26位参与者，与实验室外的10位参与者对系统进行评估，超过80%的用户基本都认同Video Captions可以在各种场景下能提供有用、有意义的视觉推荐，并可以提升交流体验。

设计思路

在开发之前，研究人员首先邀请了10位内部参与者，包括软件工程师、研究人员、UX设计师、视觉艺术家、学生等技术与非技术背景的从业者，讨论对实时视觉增强服务的特定需求和期望。

两次会议后，根据现有的文本转图像系统，确立了预期原型系统的基本设计，主要包括八个维度（记为D1至D8）。

D1：时序，视觉增强系统可与对话同步或异步展现

D2：主题，可用于表达和理解语音内容

D3：视觉，可使用广泛的视觉内容、视觉类型和视觉源

D4：规模，根据会议规模的不同，视觉增强效果可能有所不同

D5：空间，视频会议是在同一地点还是在远程设置中

D6：隐私，这些因素还影响视觉效果是否应该私下显示、在参与者之间共享或向所有人公开

D7：初始状态，参与者还确定了他们希望在进行对话时与系统交互的不同方式，例如，不同级别的「主动性」，即用户可以自主确定系统何时介入聊天D8：交互，参与者设想了不同的交互方法，例如，使用语音或手势进行输入

再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手

用动态的视觉效果增强语言交流的设计空间

根据初步反馈，研究人员设计了Video Caption系统，专注于生成语义相关的视觉内容、类型和来源的同步视觉效果。

虽然在探索性会议中的想法大多关注于一对一远程对话的形式，Video Caption同样也可以用于一对多的（例如，向观众进行演示）和多对多场景（多人会议讨论）的部署。

除此之外，最能补充对话的视觉效果在很大程度上取决于讨论的上下文，所以需要一个专门制作的训练集。

研究人员收集了1595个四元组，包括语言、视觉内容、类型、来源，涵盖了各种上下文场景，包括日常对话、讲座、旅行指南等。

比如用户说「我很想看看！」（I would love to see it!）对应于「面部微笑」（face smiling）的视觉内容、「表情符号」（emoji）的视觉类型和「公共搜索」（public search）的视觉源。

「她有没有告诉你我们去墨西哥的事？」对应于「来自墨西哥之旅的照片」的视觉内容、「照片」的视觉类型以及「个人相册」的视觉源。

该数据集VC 1.5K目前已开源。

再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手

数据链接：https://github.com/google/archat/tree/main/dataset

视觉意图预测模型

为了预测哪些视觉效果可以补充对话，研究人员使用VC1.5K数据集基于大型语言模型训练了一个视觉意图预测模型。

在训练阶段，每个视觉意图解析为「 of from 」的格式。

再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手

基于该格式，系统可以处理开放词汇会话和上下文预测视觉内容、视觉源和视觉类型。

再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手

这种方法在实践中也优于基于关键词的方法，因为后者无法处理开放式词汇的例子，比如用户可能会说「你的艾米阿姨将在这个星期六来访」，没有匹配到关键词，也就无法推荐相关的视觉类型或视觉来源。

研究人员使用VC1.5K数据集中的1276个（80%）样本来微调大型语言模型，其余319个（20%）示例作为测试数据，并使用token准确率指标来度量微调模型的性能，即模型正确预测的样本中token正确的百分比。

最终模型可以实现97%的训练token准确率和87%的验证token准确率。

实用性调研

为了评估训练的视觉字幕模型的实用性，研究团队邀请了89名参与者执行846项任务，要求对效果进行打分，1为非常不同意（strongly disagree）、7为非常同意（strongly agree）。

实验结果显示，大多数参与者更喜欢在对话中看到视觉效果（Q1），83% 给出了5-有些同意（somewhat agree）以上的评价。

此外，参与者认为显示的视觉效果是有用的且信息丰富的（Q2），82%给出了高于5分的评价；高质量的（Q3），82%给出了高于5分的评价；并与原始语音相关（Q4，84%）。

参与者还发现预测的视觉类型（Q5，87%）和视觉来源（Q6，86%）在相应对话的背景下是准确的。

再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手

研究参与者对可视化预测模型的技术评价结果进行评分

基于该微调的视觉意图预测模型，研究人员在ARChat平台上开发了Visual Captions，可以直接在视频会议平台（如Google Meet）的摄像头流上添加新的交互式小部件。

在系统工作流程中，Video Captions可以自动捕获用户的语音、检索最后的句子、每隔100毫秒将数据输入到视觉意图预测模型中、检索相关视觉效果，然后提供推荐的视觉效果。

再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手

Visual Captions的系统工作流

Visual Captions在推荐视觉效果时提供三个级别的可选主动性：

自动显示（高主动性）：系统自主搜索并向所有会议参与者公开显示视觉效果，无需用户交互。

自动推荐（中等主动性）：推荐的视觉效果显示在私人滚动视图中，然后用户点击一个视觉对象可以进行公开展示；在这种模式下，系统会主动推荐视觉效果，但用户决定何时显示以及显示什么。

按需建议（低主动性）：用户按下空格键后，系统才会推荐视觉效果。

研究人员在对照实验室研究（n = 26）和测试阶段部署研究（n = 10）中评估了Visual Captions系统，参与者发现，实时视觉效果有助于解释不熟悉的概念、解决语言歧义，并使对话更具吸引力，从而促进了现场对话。

再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手

参与者的task load指数和Likert scale评级，包括无VC、以及三个不同主动性的VC

与会者还报告了在现场进行交互中的不同的系统偏好，即在不同的会议场景中使用不同程度的VC主动性

以上是再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7672

CakePHP 教程

1393

C# 教程

1206

steam的账户名称是什么格式

win11激活密钥永久

显示更多

Related knowledge

deepseek怎么评论 Feb 19, 2025 pm 05:42 PM

DeepSeek是一款功能强大的信息检索工具，其优势在于能够深入挖掘信息，但缺点是速度较慢、结果呈现方式较简单且数据库覆盖范围有限，需要根据具体需求权衡其利弊。

芝麻开门交易所网页注册链接 gate交易app注册网址最新 Feb 28, 2025 am 11:06 AM

本文详细介绍了芝麻开门交易所（Gate.io）网页版和Gate交易App的注册流程。无论是网页注册还是App注册，都需要访问官方网站或应用商店下载正版App，然后填写用户名、密码、邮箱和手机号等信息，并完成邮箱或手机验证。

Bybit交易所链接为什么不能直接下载安装？ Feb 21, 2025 pm 10:57 PM

为什么Bybit交易所链接无法直接下载安装？Bybit是一个加密货币交易所，为用户提供交易服务。该交易所的移动应用程序不能直接通过AppStore或GooglePlay下载，原因如下：1.应用商店政策限制苹果公司和谷歌公司对应用商店中允许的应用程序类型有严格的要求。加密货币交易所应用程序通常不符合这些要求，因为它们涉及金融服务，需要遵循特定的法规和安全标准。2.法律法规合规在许多国家/地区，与加密货币交易相关的活动都受到监管或限制。为了遵守这些规定，Bybit应用程序只能通过官方网站或其他授权渠

芝麻开门交易所网页版登入口最新版gateio官网入口 Mar 04, 2025 pm 11:48 PM

详细介绍芝麻开门交易所网页版登入口操作，含登录步骤、找回密码流程，还针对登录失败、无法打开页面、收不到验证码等常见问题提供解决方法，助你顺利登录平台。

芝麻开门交易平台下载手机版 gateio交易平台下载地址 Feb 28, 2025 am 10:51 AM

选择正规渠道下载App，保障您的账户安全至关重要。

加密数字资产交易APP推荐top10（2025全球排名） Mar 18, 2025 pm 12:15 PM

本文推荐十大值得关注的加密货币交易平台，涵盖币安(Binance)、OKX、Gate.io、BitFlyer、KuCoin、Bybit、Coinbase Pro、Kraken、BYDFi和XBIT去中心化交易所。这些平台在交易币种数量、交易类型、安全性、合规性、特色功能等方面各有千秋，例如币安以其全球最大的交易量和丰富的功能着称，而BitFlyer则凭借其日本金融厅牌照和高安全性吸引亚洲用户。选择合适的平台需要根据自身交易经验、风险承受能力和投资偏好进行综合考量。希望本文能帮助您找到最适合自

币安binance官网最新版登录入口 Feb 21, 2025 pm 05:42 PM

访问币安官方网站最新版登录入口，只需遵循这些简单步骤。前往官方网址，点击右上角的“登录”按钮。选择您现有的登录方式，如果是新用户，请“注册”。输入您的注册手机号或邮箱和密码，并完成身份验证（例如手机验证码或谷歌身份验证器）。成功验证后，即可访问币安官方网站的最新版登录入口。

Bitget交易平台官方App下载安装地址 Feb 25, 2025 pm 02:42 PM

本指南提供了 Bitget 交易所官方 App 的详细下载和安装步骤，适用于安卓和 iOS 系统。指南整合了来自多个权威来源的信息，包括官网、App Store 和 Google Play，并强调了下载和账户管理过程中的注意事项。用户可以从官方渠道下载 App，包括应用商店、官网 APK 下载和官网跳转，并完成注册、身份验证和安全设置。此外，指南还涵盖了常见问题和注意事项，例如

See all articles

再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手

设计思路

视觉意图预测模型

实用性调研

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题