想像一下,您正在參加一個充滿活力的雞尾酒會,局間充滿了熱烈的談話聲和玻璃杯碰撞的叮噹聲。
此時,您作為一個悠閒的觀察者,怡然自得地躲在角落。然而,就算沒有處在聚會的中心,您還是可以輕鬆地弄清楚不同人之間的社會關係,了解正在發生的事情,甚至透過閱讀人們的言語和非言語線索來讀懂明里暗裡的社交訊息。
如果一個LLM能夠復現這種程度的社交能力呢?這不,Koko Mind就是這麼東西。
隨便打開一個視頻,模型就開始分析人物表情,得出人物情緒的結論。
然後,在右邊的prompt欄也可以提出問題,讓AI進一步分析影片中暗流湧動的社交謎題。
(說實話對有些人來說這都很難)
圖片
基於電影:為了避免資料污染,這部分資料是基於從2022年後上映的電影中提取的各種場景。 GPT-4負責塑造這些場景,在保留核心本質的同時添加了自己的元素。
基於ToMi:該部分包含由模擬資料集ToMi支援的數據,其中涉及將物理物件移動到不同的地方,這是心理理論的經典測試。當然,這些社交互動還得被GPT-4修飾、被擴展一下。
社會關係:關注人際動態與關係。
以下則是一些有趣的要點:
#在兩個模型中,與Claude相比,GPT-4在識別獲勝模型方面表現出更大的確定性和信心。
##################當上下文沒有非語言線索,且互動要麼完全由GPT-4生成,要麼基於電影時,Claude的表現優於GPT- 4。 #####################而如果上下文包含了非語言線索,那麼GPT-4總是比Claude更好。 ###############(一個可能的解釋是,GPT-4是一種多模態模型可以更好地理解額外的非語言資訊。)###### #######在部落格中,研究人員繪製了表格,可以清楚的看到各個模型的表現。 ######圖片
結果雖然在很多方面都令人興奮,但也有一定的限制。首先, Koko Mind的規模相對較小,這可能會限制研究人員結論的廣泛適用性和全面性。
其次, Koko Mind中的所有互動都是由GPT-4產生的,需要手動驗證,這使得資料集難以擴展。
另外,雖然Koko Mind在資料集中提供了經過人工驗證的答案,研究人員在評估時沒有使用這些答案作為參考,並且由於這些答案是由GPT-4生成的,因此它們可能偏向GPT-4。
未來的研究可以集中在如何評估模型上具有經過人工驗證的機器生成的參考答案。
當然,雖說有這樣或那樣的限制,研究人員仍將Koko Mind視為未來與社會智慧、多模態語言模型等相關的研究的跳板。
以上是「社交達人」GPT-4!解讀表情、揣測心理全都會的詳細內容。更多資訊請關注PHP中文網其他相關文章!