夕小瑶科技说 原创
作者 | 智商掉了一地
近日有很多团队基于用户友好的 ChatGPT 进行再创作,其中不乏有比较亮眼的成果。InternChat工作强调了用户友好性,这是通过超越语言的方式(光标与手势)与聊天机器人交互来进行多模态任务的。InternChat 的命名也比较有趣,代表着互动(interaction)、非语言(nonverbal)和聊天机器人(chatbots),可以简称为iChat。与现有依赖纯语言的交互系统不同,iChat 通过加入指向指令,显著提高用户与聊天机器人之间的交流效率。此外,作者还提供了一个名为哈士奇(Husky)的大型视觉语言模型,可以进行 capture 和视觉问答,在仅用 70 亿参数的情况下,也能给 GPT-3.5-turbo 留下深刻印象。
不过由于 Demo 网站过于火爆,团队官方暂时关停了体验页面,咱们先通过下面这个视频来了解这项工作内容吧~
论文题目:
InternChat: Solving Vision-Centric Tasks by Interacting with Chatbots Beyond Language
论文链接:
https://www.php.cn/link/7c9966afcc510cf5a40621d1d92bdaf1
Demo 地址:
https://www.php.cn/link/e355ad06c5a89f911fbb0aff2de52435
项目地址:
https://www.php.cn/link/2d13d901966a8eaa7f9c943eba6a540b
作者在项目首页上提供了一些任务截图,可以直观地看到这个交互系统的一些功能与效果:
(a)移除遮盖的对象
(b)交互式图像编辑
(c)图像生成
(d)交互式视觉问答
(e)交互式图像生成
(f)视频高光解释
这里首先介绍本文中提及的两个概念:
▲图1 iChat 的整体架构
iChat 结合指向和语言指令的优势来执行以视觉为中心的任务。如图 1 所示,这个系统由 3 个主要组件组成:
它可以在 3 个层级上有效运行,分别是:
由此,如圖 2 所示,當純語言的系統無法完成任務時,該系統仍可成功執行複雜的互動任務。
▲圖2 指向-語言驅動的互動系統優勢
首先我們來看,同時結合語言和非語言指令來提升用於與互動系統之間的溝通效果。為了證明這種混合模式與單純語言指令相比的優點,研究團隊進行了一個使用者調查。參與者與 Visual ChatGPT 和 iChat 聊天,並回饋他們的使用感受。表 1 和 2 的結果表明,iChat 比 Visual ChatGPT 更有效率且對使用者友好。
▲表1 「移除某物」的使用者調查
▲表2 「用某物代替某物」的使用者調查
不過,目前系統仍有一些局限性,包括了:
在項目主頁列出的計劃清單上,目前還有幾項目標尚未達成,其中就有小編每次在新的對話系統上都要體驗的中文交互,目前該系統應該還是暫不支援中文問題,不過這似乎沒辦法,由於多模態資料集多是基於英文的,英漢互譯較為浪費線上資源和處理時間,估計漢化之路還是需要一段時間的。
以上是Prompt都不需要了,動手就能玩多模態對話系統,iChat來啦!的詳細內容。更多資訊請關注PHP中文網其他相關文章!