目录
系统主要特点
论文速览
实验
小结
首页 科技周边 人工智能 Prompt都不需要了,动动手就能玩多模态对话系统,iChat来啦!

Prompt都不需要了,动动手就能玩多模态对话系统,iChat来啦!

May 15, 2023 pm 05:55 PM
机器人 指令 prompt

夕小瑶科技说 原创
 作者 | 智商掉了一地

近日有很多团队基于用户友好的 ChatGPT 进行再创作,其中不乏有比较亮眼的成果。InternChat工作强调了用户友好性,这是通过超越语言的方式(光标与手势)与聊天机器人交互来进行多模态任务的。InternChat 的命名也比较有趣,代表着互动(interaction)、非语言(nonverbal)和聊天机器人(chatbots),可以简称为iChat。与现有依赖纯语言的交互系统不同,iChat 通过加入指向指令,显著提高用户与聊天机器人之间的交流效率。此外,作者还提供了一个名为哈士奇(Husky)的大型视觉语言模型,可以进行 capture 和视觉问答,在仅用 70 亿参数的情况下,也能给 GPT-3.5-turbo 留下深刻印象。

不过由于 Demo 网站过于火爆,团队官方暂时关停了体验页面,咱们先通过下面这个视频来了解这项工作内容吧~

论文题目:
InternChat: Solving Vision-Centric Tasks by Interacting with Chatbots Beyond Language

论文链接:
https://www.php.cn/link/7c9966afcc510cf5a40621d1d92bdaf1

Demo 地址:
https://www.php.cn/link/e355ad06c5a89f911fbb0aff2de52435

项目地址:
https://www.php.cn/link/2d13d901966a8eaa7f9c943eba6a540b

系统主要特点

作者在项目首页上提供了一些任务截图,可以直观地看到这个交互系统的一些功能与效果:

(a)移除遮盖的对象

Prompt都不需要了,动动手就能玩多模态对话系统,iChat来啦!


(b)交互式图像编辑

Prompt都不需要了,动动手就能玩多模态对话系统,iChat来啦!

(c)图像生成

Prompt都不需要了,动动手就能玩多模态对话系统,iChat来啦!

(d)交互式视觉问答

Prompt都不需要了,动动手就能玩多模态对话系统,iChat来啦!

(e)交互式图像生成

Prompt都不需要了,动动手就能玩多模态对话系统,iChat来啦!

(f)视频高光解释

Prompt都不需要了,动动手就能玩多模态对话系统,iChat来啦!

论文速览

这里首先介绍本文中提及的两个概念:

  • 以视觉为中心的任务:为了让计算机能够理解它们从世界中看到的内容并做出相应反应。
  • 非语言指令形式的交流:光标和手势之类的指向动作。

Prompt都不需要了,动动手就能玩多模态对话系统,iChat来啦!

▲图1 iChat 的整体架构

iChat 结合指向和语言指令的优势来执行以视觉为中心的任务。如图 1 所示,这个系统由 3 个主要组件组成:

  1. 处理图像或视频上指向指令的感知单元;
  2. 具有可以准确解析语言指令的辅助控制机制的 LLM 控制器;
  3. 集成 HuggingFace 各种在线模型、用户训练的私人模型以及其他应用(如计算器、搜索引擎)的开放世界工具包。

它可以在 3 个层级上有效运行,分别是:

  1. 基础交互;
  2. 语言引导的交互;
  3. 指向-语言增强的交互。

由此,如图 2 所示,当纯语言的系统无法完成任务时,该系统仍可以成功执行复杂的交互任务。

Prompt都不需要了,动动手就能玩多模态对话系统,iChat来啦!

▲图2 指向-语言驱动的交互系统优势

实验

首先我们来看,同时结合语言和非语言指令来提升用于与交互系统之间的沟通效果。为了证明这种混合模式与单纯语言指令相比的优点,研究团队进行了一个用户调查。参与者与 Visual ChatGPT 和 iChat 聊天,并反馈他们的使用感受。表 1 和 2 的结果表明,iChat 比 Visual ChatGPT 更高效且对用户友好。

Prompt都不需要了,动动手就能玩多模态对话系统,iChat来啦!

▲表1 “移除某物”的用户调查

Prompt都不需要了,动动手就能玩多模态对话系统,iChat来啦!

▲表2 “用某物代替某物”的用户调查

小结

不过,目前该系统仍存在着一些局限性,包括了:

  • iChat 的高效性在很大程度上取决于其底层开放源代码模型的质量和准确性。然而,这些模型可能存在一些局限或偏见,进而对 iChat 的性能造成不利影响。
  • 随着用户交互变得更加复杂或实例数量增多,系统需要维护准确性和响应时间,这对于 iChat 来说可能具有挑战性。
  • 此外,当前的视觉和语言基础模型之间缺乏可学习的协作,例如缺乏被指令数据调整的功能。
  • iChat 可能会在应对训练数据之外的新颖或不常见情况时遇到困难,导致性能受到影响。
  • 在不同设备和平台上实现无缝集成可能会面临挑战,因为硬件能力、软件限制和可访问性要求各不相同。

在项目主页列出的计划清单上,目前还有几项目标尚未达成,其中就有小编每次在新的对话系统上都要体验的中文交互,目前该系统应该还是暂不支持中文问题,不过这貌似没办法,由于多模态数据集多是基于英文的,英汉互译较为浪费线上资源和处理时间,估计汉化之路还是需要一段时间的。

以上是Prompt都不需要了,动动手就能玩多模态对话系统,iChat来啦!的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它们
4 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

泰拉瑞亚怎么用指令获得物品?-泰拉瑞亚怎么收藏物品? 泰拉瑞亚怎么用指令获得物品?-泰拉瑞亚怎么收藏物品? Mar 19, 2024 am 08:13 AM

泰拉瑞亚怎么用指令获得物品?一、什么是泰拉瑞亚给予物品指令在泰拉瑞亚游戏中,给予物品指令是一项非常实用的功能。通过这个指令,玩家可以直接获取需要的物品,而不必费力地去打怪或者传送到某个地点。这样可以极大地节省时间,提高游戏的效率,让玩家更专注于探索和建设世界。总的来说,这个功能让游戏体验变得更加流畅和愉快。二、如何使用泰拉瑞亚给予物品指令1.打开游戏并进入游戏界面。2.按下键盘上的“Enter”键,打开聊天窗口。3.在聊天窗口中输入指令的格式:“/give[玩家名称][物品ID][物品数量]”。

第二代Ameca来了!和观众对答如流,面部表情更逼真,会说几十种语言 第二代Ameca来了!和观众对答如流,面部表情更逼真,会说几十种语言 Mar 04, 2024 am 09:10 AM

人形机器人Ameca升级第二代了!最近,在世界移动通信大会MWC2024上,世界上最先进机器人Ameca又现身了。会场周围,Ameca引来一大波观众。得到GPT-4加持后,Ameca能够对各种问题做出实时反应。「来一段舞蹈」。当被问及是否有情感时,Ameca用一系列的面部表情做出回应,看起来非常逼真。就在前几天,Ameca背后的英国机器人公司EngineeredArts刚刚演示了团队最新的开发成果。视频中,机器人Ameca具备了视觉能力,能看到并描述房间整个情况、描述具体物体。最厉害的是,她还能

时间序列预测+NLP大模型新作:为时序预测自动生成隐式Prompt 时间序列预测+NLP大模型新作:为时序预测自动生成隐式Prompt Mar 18, 2024 am 09:20 AM

今天我想分享一个最新的研究工作,这项研究来自康涅狄格大学,提出了一种将时间序列数据与自然语言处理(NLP)大模型在隐空间上对齐的方法,以提高时间序列预测的效果。这一方法的关键在于利用隐空间提示(prompt)来增强时间序列预测的准确性。论文标题:S2IP-LLM:SemanticSpaceInformedPromptLearningwithLLMforTimeSeriesForecasting下载地址:https://arxiv.org/pdf/2403.05798v1.pdf1、问题背景大模型

AI如何使机器人更具自主性和适应性? AI如何使机器人更具自主性和适应性? Jun 03, 2024 pm 07:18 PM

在工业自动化技术领域,最近有两个热点很难被忽视:人工智能(AI)和英伟达(Nvidia)。不要改变原内容的意思,微调内容,重写内容,不要续写:“不仅如此,这两者密切相关,因为英伟达在不仅仅局限于其最开始的图形处理单元(GPU),正在将其GPU技术扩展到数字孪生领域,同时紧密连接着新兴的AI技术。”最近,英伟达与众多工业企业达成了合作,包括领先的工业自动化企业,如Aveva、罗克韦尔自动化、西门子和施耐德电气,以及泰瑞达机器人及其MiR和优傲机器人公司。Recently,Nvidiahascoll

2 个月不见,人形机器人 Walker S 会叠衣服了 2 个月不见,人形机器人 Walker S 会叠衣服了 Apr 03, 2024 am 08:01 AM

机器之能报道编辑:吴昕国内版的人形机器人+大模型组队,首次完成叠衣服这类复杂柔性材料的操作任务。随着融合了OpenAI多模态大模型的Figure01揭开神秘面纱,国内同行的相关进展一直备受关注。就在昨天,国内"人形机器人第一股"优必选发布了人形机器人WalkerS深入融合百度文心大模型后的首个Demo,展示了一些有趣的新功能。现在,得到百度文心大模型能力加持的WalkerS是这个样子的。和Figure01一样,WalkerS没有走动,而是站在桌子后面完成一系列任务。它可以听从人类的命令,折叠衣物

首个自主完成人类任务机器人出现,五指灵活速度超人,大模型加持虚拟空间训练 首个自主完成人类任务机器人出现,五指灵活速度超人,大模型加持虚拟空间训练 Mar 11, 2024 pm 12:10 PM

这周,由OpenAI、微软、贝佐斯和英伟达投资的机器人公司FigureAI宣布获得接近7亿美元的融资,计划在未来一年内研发出可独立行走的人形机器人。而特斯拉的擎天柱也屡屡传出好消息。没人怀疑,今年会是人形机器人爆发的一年。一家位于加拿大的机器人公司SanctuaryAI最近发布了一款全新的人形机器人Phoenix。官方号称它能以和人类一样的速率自主完成很多工作。世界上第一台能以人类速度自主完成任务的机器人Pheonix可以轻轻地抓取、移动并优雅地将每个对象放置在它的左右两侧。它能够自主识别物体的

塑造未来的十款类人机器人 塑造未来的十款类人机器人 Mar 22, 2024 pm 08:51 PM

以下10款类人机器人正在塑造我们的未来:1、ASIMO:ASIMO由Honda开发,是最知名的人形机器人之一。ASIMO高4英尺,重119磅,配备先进的传感器和人工智能功能,使其能够在复杂的环境中导航并与人类互动。ASIMO的多功能性使其适用于各种任务,从帮助残疾人到在活动中进行演示。2、Pepper:由SoftbankRobotics创建,Pepper旨在成为人类的社交伴侣。凭借其富有表现力的面孔和识别情绪的能力,Pepper可以参与对话、在零售环境中提供帮助,甚至提供教育支持。Pepper的

人形机器人会变魔术了,春晚节目组了解一下 人形机器人会变魔术了,春晚节目组了解一下 Feb 04, 2024 am 09:03 AM

一眨眼的功夫,机器人都已经学会变魔术了?只见它先是拿起桌上的水勺,向观众证明了里面什么也没有……然后,它又把手中鸡蛋似的物体放了进去,然后把水勺放回桌子上,开始“施法”……就在它把水勺再次拿起的时候,奇迹发生了。原先放进去的鸡蛋不翼而飞,跳出的东西变成了一个篮球……再来看一遍连贯动作:△此动图为二倍速一套动作下来如行云流水,只有把视频用0.5倍速反复观看,才终于发现了其中的端倪:如果手速再快一些,大概真的就可以瞒天过海了。有网友感叹,机器人变魔术的水平比自己还要高:为我们表演这段魔术的,是Mag

See all articles