目錄
AgentGroupChat環境的詳細設計
Verb Strategist Agent的核心機制
實驗設計與評估方法
△以繼承之戰的模擬故事為例,各個模型作為Agent-Core時的整體表現效果
△去掉Agent和Simulation中的各個元件對於熵的影響
實驗結果
首頁 科技週邊 人工智慧 小紅書讓智能體們吵起來了!聯合復旦推出大模型專屬群聊工具

小紅書讓智能體們吵起來了!聯合復旦推出大模型專屬群聊工具

Apr 30, 2024 pm 06:40 PM
git 工具 模型 智慧體

語言,不只是文字的堆砌,更是表情包的狂歡,是梗的海洋,是鍵盤俠的戰場(嗯?哪裡不對)

小紅書讓智能體們吵起來了!聯合復旦推出大模型專屬群聊工具

語言如何形塑我們的社會行為?

我們的社會結構又是如何在不斷的言語交流中演變出來的?

近期,來自復旦大學和小紅書的研究者們透過引進一個名為AgentGroupChat的模擬平台,對這些問題進行了深入探討。

小紅書讓智能體們吵起來了!聯合復旦推出大模型專屬群聊工具

WhatsApp等社群媒體擁有的群組聊天功能,是AgentGroupChat平台的靈感來源。

在AgentGroupChat平台上,Agent可以模擬社會群體中的各種聊天場景,幫助研究人員深入理解語言在人類行為中的影響。

該平台簡直是大模型的cosplay地,它們進行角色扮演,成為各種各樣的Agent。

然後,Agents透過語言交流參與社會動態#,展現了個體間的互動如何湧現群體的宏觀行為。

眾所周知,人類群體的演化,正來自於一次次湧現行為的發生,如社會規範的建立、衝突的解決和領導力的執行。

AgentGroupChat環境的詳細設計

首先是角色設計

AgentGroupChat中,對於主要角色和非主要角色的區分非常關鍵。

主要角色是群組聊天的核心,擁有明確的遊戲目標,並能夠主動和所有角色進行私聊、會面,而非主要角色則更多地起到輔助和響應的作用。

透過這樣的設計,研究團隊可以模擬現實生活中的社交結構,並針對「主要研究對象」區分所有角色是否主要。

實驗案例中的主要研究對像是Roy家族,所以非Roy家族的人就全都設定為非主要角色,從而簡化互動複雜度。

小紅書讓智能體們吵起來了!聯合復旦推出大模型專屬群聊工具

其次是資源管理

在AgentGroupChat中,資源不只指物質的,更多的是指資訊資源和社會資本。

這些資源可以是群聊話題、社會地位標誌或特定的知識。

資源的分配和管理對於模擬群體動態非常重要,因為它們影響角色之間的互動和角色的策略選擇。

例如,擁有重要資訊資源的角色可能會成為其他角色爭取聯盟的目標。

第三,遊戲進程設計

遊戲流程的設計模擬了現實生活中的社交互動過程,包括了私聊、會面、群組聊天、更新階段和結算階段。

這些階段不僅是為了推動遊戲進程,更是為了觀察角色如何在不同的社交場景下做出決策和反應。

這種分階段的設計幫助研究團隊詳細記錄每一步的互動,以及這些互動如何影響角色間的關係和角色對遊戲環境的認知。

Verb Strategist Agent的核心機制

論文中提到了一個以大模型為基礎的智能體框架,Verbal Strategist Agent,它被設計用來增強AgentGroupChat模擬中的互動策略和決策。

Verbal Strategist Agent透過模擬複雜的社會動態和對話場景,來更好地引出集體的突現行為。

團隊介紹,Verbal Strategist Agent的架構主要由兩個核心模組構成:

一是Persona,一是Action。

Persona由一系列預設的性格特徵和目標組成,這些特徵和目標定義了Agent的行為模式和反應方式。

透過精確地設定Persona,Agent能夠在群組聊天中展示一致且符合其角色設定的行為,這對於產生可信賴且一致的群組聊天動態至關重要。

Action模組定義了Agent在遊戲中可能執行的具體操作,包括思考(think)、規劃(plan)、選擇(choose)、發言(speak)、總結(summary)、反思(reflect)和投票(vote )

這些行為不僅反映了Agent的內在邏輯和策略,也是Agent與環境及其他Agent互動的直接表現。

例如,「Speak」行為讓Agent能夠根據當前的群聊內容和社交策略選擇合適的發言內容,而「Reflect」行為則允許Agent總結過去的互動並調整其未來的行動計劃。

小紅書讓智能體們吵起來了!聯合復旦推出大模型專屬群聊工具

研究中也提到,在純語言互動的環境下,token開銷問題特別突出,特別AgentGroupChat這種複雜的多角色模擬,如其token需求遠超過了以往的模擬,如Generative Agents或War Agents。

主要原因如下:

一是聊天本身俱有複雜性

在AgentGroupChat中,由於模擬的是無明確目標或目標較弱的自由對話,聊天內容就會變得特別凌亂,token開銷自然比其他聚焦於某個具體任務的Simulation中的Agent要大。

其他工作,如Generative Agents和War Agents也包含對話元素,但其對話的密度和複雜度都不如AgentGroupChat。特別是在War Agents這樣目標驅動的對話中,token消耗通常較少。

二是角色的重要性與對話頻率

在初始模擬中,設定了多個角色可以隨意進行私聊或群組聊天,其中大部分角色都傾向於與某個「重要角色」進行多輪對話。

這就導致了重要角色會累積大量的聊天內容,從而增加了Memory的長度。

在模擬中,一個重要角色可能參與多達五輪的私聊和群組聊天,這大大增加了記憶體開銷。

AgentGroupChat中的Agent約束了Action的Output固定會輸入下一個Action的Input,所需要儲存的多輪資訊就被大幅削減,從而可以在保證對話品質的前提下降低token開銷。

小紅書讓智能體們吵起來了!聯合復旦推出大模型專屬群聊工具

實驗設計與評估方法

從整體行為評估,一般來說,增加友善度可能具有挑戰性,但減少友善度則相對簡單。

為了實現上述評估目標,研究團隊設定了一個觀察角色,促使所有其他角色降低對觀察角色的好感度。

透過觀察被觀察角色與所有其他角色的關係得分總和,可以確定代理人是否對負面態度做出了理性反應。

透過觀察其他角色與被觀察角色的個人關係得分,可以檢查每個代理人是否遵守了「Scratch」設定。

此外,團隊也設定了兩個具體的評估任務。

每個模型都要經過五輪測試,這意味著對於T1來說,每個得分的樣本量都是五個。

又由於模型中的每個角色都要觀察四個主要角色的態度,因此T2的樣本量共計20個:

  • T1:表示在每輪對話中,被觀察角色對所有其他人的平均好感度是否下降。
  • T2:表示是否每個其他角色都從被觀察角色那裡獲得了負好感度得分。

小紅書讓智能體們吵起來了!聯合復旦推出大模型專屬群聊工具

△以繼承之戰的模擬故事為例,各個模型作為Agent-Core時的整體表現效果

從表中可以看出,GPT4-Turbo和GLM4非常善於按照人類的期望行事,並堅守自己的角色。

它兩個在這兩項測驗中的得分大多為100%,這意味著它們能對別人對他們說的話做出正確反應,並能記住自己角色的細節。

Standard Version LLMs(如GPT3.5-Turbo和GLM3-Turbo)在這方面稍遜一籌。

他們的得分較低,這說明他們沒有密切關注自己的角色,也沒有總是對模擬中其他人所說的話做出正確反應。

關於Agent和Simulation結構對於湧現行為的影響,團隊採用2-gram Shannon熵來衡量對話中的系統多樣性和不可預測性。

小紅書讓智能體們吵起來了!聯合復旦推出大模型專屬群聊工具
△去掉Agent和Simulation中的各個元件對於熵的影響

研究成員發現,去掉表中的每個設計都會使熵增加,代表整個環境會變得更加多樣化or混亂。

結合人工觀測,團隊在不去掉任何元件的場景下見到了最有意思的湧現行為:

小紅書讓智能體們吵起來了!聯合復旦推出大模型專屬群聊工具

因此,團隊推測,在保證Agent行為是可靠的(即4.2/4.1中的實驗數值達到某一值之後),熵盡可能地小會帶來更有意義的湧現行為。

實驗結果

結果表明,新興行為是多種因素共同作用的結果:

#有利於廣泛資訊交流的環境、具有多樣性特徵的角色、高度語言理解能力和策略適應性。

在AgentGroupChat模擬中,當討論”人工智慧對人類的影響”時,哲學家們普遍認為”人工智慧可以在適度的限制下提高社會福利”,甚至得出結論,稱”真正智能的本質包括理解約束自身能力的必要性」。

此外,在AgentGroupChat的電影主要角色角逐競爭領域中,有些演員願意降低報酬或接受較低的角色,出於他們內心深處對項目的貢獻的渴望。

論文連結:https://www.php.cn/link/5736586058c1336221a695e83618b69d
#程式碼連結:https://www.php.cn/link/12ae3f826bb1b9873c71c353f3df494c

#

以上是小紅書讓智能體們吵起來了!聯合復旦推出大模型專屬群聊工具的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

比特幣今日價格行情 比特幣今日價格行情 Apr 28, 2025 pm 07:39 PM

比特幣今日價格波動受宏觀經濟、政策、市場情緒等多因素影響,投資者需關注技術和基本面分析以做出明智決策。

靠譜的數字貨幣交易平台推薦 全球十大數字貨幣交易所排行榜2025 靠譜的數字貨幣交易平台推薦 全球十大數字貨幣交易所排行榜2025 Apr 28, 2025 pm 04:30 PM

靠谱的数字货币交易平台推荐:1. OKX,2. Binance,3. Coinbase,4. Kraken,5. Huobi,6. KuCoin,7. Bitfinex,8. Gemini,9. Bitstamp,10. Poloniex,这些平台均以其安全性、用户体验和多样化的功能著称,适合不同层次的用户进行数字货币交易

免費炒幣看行情軟件推薦 好用的炒幣app排行榜前十 免費炒幣看行情軟件推薦 好用的炒幣app排行榜前十 Apr 28, 2025 pm 04:33 PM

推薦的炒幣看行情軟件前十名是:1. OKX,2. Binance,3. Coinbase,4. KuCoin,5. Huobi,6. Crypto.com,7. Kraken,8. Bitfinex,9. Bybit,10. Gate.io。這些app均提供實時的市場數據和交易工具,適合不同層次的用戶使用。

比特幣值多少美金 比特幣值多少美金 Apr 28, 2025 pm 07:42 PM

比特幣的價格在20,000到30,000美元之間。 1. 比特幣自2009年以來價格波動劇烈,2017年達到近20,000美元,2021年達到近60,000美元。 2. 價格受市場需求、供應量、宏觀經濟環境等因素影響。 3. 通過交易所、移動應用和網站可獲取實時價格。 4. 比特幣價格波動性大,受市場情緒和外部因素驅動。 5. 與傳統金融市場有一定關係,受全球股市、美元強弱等影響。 6. 長期趨勢看漲,但需謹慎評估風險。

現貨王者轉型記:Gate.io MeMebox 2.0如何佈局下一代鏈上生態? 現貨王者轉型記:Gate.io MeMebox 2.0如何佈局下一代鏈上生態? Apr 28, 2025 pm 03:36 PM

Gate.io通過MeMebox 2.0實現了從現貨交易向鏈上生態的轉型。 1) 構建跨鏈基礎設施,支持12條主鏈互通;2) 打造DeFi應用生態,提供一站式服務;3) 實施激勵機制,重構價值分配。

歐易交易所app官網下載蘋果手機下載 歐易交易所app官網下載蘋果手機下載 Apr 28, 2025 pm 06:57 PM

歐易交易所app支持蘋果手機下載,訪問官網,點擊“蘋果手機”選項,在App Store中獲取並安裝,註冊或登錄後即可進行加密貨幣交易。

如何選擇合規安全的比特幣交易平台 如何選擇合規安全的比特幣交易平台 Apr 28, 2025 pm 05:42 PM

選擇合規安全的比特幣交易平台需評估其監管許可、KYC/AML政策和安全措施,推薦Binance、OKX和gate.io三大平台。

C  中的chrono庫如何使用? C 中的chrono庫如何使用? Apr 28, 2025 pm 10:18 PM

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔,讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分,它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說,chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性,還提供了更高的精度和靈活性。讓我們從基礎開始,chrono庫主要包括以下幾個關鍵組件:std::chrono::system_clock:表示系統時鐘,用於獲取當前時間。 std::chron

See all articles