首頁 > 科技週邊 > 人工智慧 > Prompt都不需要了,動手就能玩多模態對話系統,iChat來啦!

Prompt都不需要了,動手就能玩多模態對話系統,iChat來啦!

WBOY
發布: 2023-05-15 17:55:06
轉載
1084 人瀏覽過

夕小瑶科技说 原创
 作者 | 智商掉了一地

近日有很多团队基于用户友好的 ChatGPT 进行再创作,其中不乏有比较亮眼的成果。InternChat工作强调了用户友好性,这是通过超越语言的方式(光标与手势)与聊天机器人交互来进行多模态任务的。InternChat 的命名也比较有趣,代表着互动(interaction)、非语言(nonverbal)和聊天机器人(chatbots),可以简称为iChat。与现有依赖纯语言的交互系统不同,iChat 通过加入指向指令,显著提高用户与聊天机器人之间的交流效率。此外,作者还提供了一个名为哈士奇(Husky)的大型视觉语言模型,可以进行 capture 和视觉问答,在仅用 70 亿参数的情况下,也能给 GPT-3.5-turbo 留下深刻印象。

不过由于 Demo 网站过于火爆,团队官方暂时关停了体验页面,咱们先通过下面这个视频来了解这项工作内容吧~

论文题目:
InternChat: Solving Vision-Centric Tasks by Interacting with Chatbots Beyond Language

论文链接:
https://www.php.cn/link/7c9966afcc510cf5a40621d1d92bdaf1

Demo 地址:
https://www.php.cn/link/e355ad06c5a89f911fbb0aff2de52435

项目地址:
https://www.php.cn/link/2d13d901966a8eaa7f9c943eba6a540b

系统主要特点

作者在项目首页上提供了一些任务截图,可以直观地看到这个交互系统的一些功能与效果:

(a)移除遮盖的对象

Prompt都不需要了,動手就能玩多模態對話系統,iChat來啦!


(b)交互式图像编辑

Prompt都不需要了,動手就能玩多模態對話系統,iChat來啦!

(c)图像生成

Prompt都不需要了,動手就能玩多模態對話系統,iChat來啦!

(d)交互式视觉问答

Prompt都不需要了,動手就能玩多模態對話系統,iChat來啦!

(e)交互式图像生成

Prompt都不需要了,動手就能玩多模態對話系統,iChat來啦!

(f)视频高光解释

Prompt都不需要了,動手就能玩多模態對話系統,iChat來啦!

论文速览

这里首先介绍本文中提及的两个概念:

  • 以视觉为中心的任务:为了让计算机能够理解它们从世界中看到的内容并做出相应反应。
  • 非语言指令形式的交流:光标和手势之类的指向动作。

Prompt都不需要了,動手就能玩多模態對話系統,iChat來啦!

▲图1 iChat 的整体架构

iChat 结合指向和语言指令的优势来执行以视觉为中心的任务。如图 1 所示,这个系统由 3 个主要组件组成:

  1. 处理图像或视频上指向指令的感知单元;
  2. 具有可以准确解析语言指令的辅助控制机制的 LLM 控制器;
  3. 集成 HuggingFace 各种在线模型、用户训练的私人模型以及其他应用(如计算器、搜索引擎)的开放世界工具包。

它可以在 3 个层级上有效运行,分别是:

  1. 基礎互動;
  2. 語言引導的互動;
  3. 指向-語言增強的互動。

由此,如圖 2 所示,當純語言的系統無法完成任務時,該系統仍可成功執行複雜的互動任務。

Prompt都不需要了,動手就能玩多模態對話系統,iChat來啦!

▲圖2 指向-語言驅動的互動系統優勢

#實驗

首先我們來看,同時結合語言和非語言指令來提升用於與互動系統之間的溝通效果。為了證明這種混合模式與單純語言指令相比的優點,研究團隊進行了一個使用者調查。參與者與 Visual ChatGPT 和 iChat 聊天,並回饋他們的使用感受。表 1 和 2 的結果表明,iChat 比 Visual ChatGPT 更有效率且對使用者友好。

Prompt都不需要了,動手就能玩多模態對話系統,iChat來啦!

▲表1 「移除某物」的使用者調查

Prompt都不需要了,動手就能玩多模態對話系統,iChat來啦!

▲表2 「用某物代替某物」的使用者調查

小結

不過,目前系統仍有一些局限性,包括了:

  • iChat 的高效性在很大程度上取決於其底層開放原始碼模型的品質和準確性。然而,這些模型可能存在一些限製或偏見,進而對 iChat 的表現造成不利影響。
  • 隨著使用者互動變得更加複雜或實例數量增多,系統需要維護準確性和回應時間,這對 iChat 來說可能具有挑戰性。
  • 此外,目前的視覺和語言基礎模型之間缺乏可學習的協作,例如缺乏被指令資料調整的功能。
  • iChat 可能會在應對訓練資料以外的新穎或不常見情況時遇到困難,導致效能受到影響。
  • 在不同裝置和平台上實現無縫整合可能會面臨挑戰,因為硬體能力、軟體限制和可存取性要求各不相同。

在項目主頁列出的計劃清單上,目前還有幾項目標尚未達成,其中就有小編每次在新的對話系統上都要體驗的中文交互,目前該系統應該還是暫不支援中文問題,不過這似乎沒辦法,由於多模態資料集多是基於英文的,英漢互譯較為浪費線上資源和處理時間,估計漢化之路還是需要一段時間的。

以上是Prompt都不需要了,動手就能玩多模態對話系統,iChat來啦!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:51cto.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板