あなたは、活発な会話とグラスのカチャカチャという音で満たされた活気に満ちたカクテル パーティーにいると想像してください。
現時点では、あなたは隅に喜んで隠れて、のんびりと観察しています。しかし、パーティーの中心にいなくても、人々の言語的および非言語的な合図を読み取ることで、さまざまな人々の間の社会的関係を簡単に把握し、何が起こっているのかを理解し、さらには公然および秘密の社会的メッセージを解読することさえできます。
LLM がこのレベルのソーシャル スキルを再現できたらどうなるでしょうか?いいえ、それがココマインドです。
ビデオを開くだけで、モデルがキャラクターの表情の分析を開始し、キャラクターの感情についての結論を導き出します。
その後、右側のプロンプト列で質問して、AI がビデオ内の社会的パズルの底流をさらに分析できるようにすることもできます。
(正直に言うと、これは難しい人もいます)
写真
Koko Mind には、150 の複雑なマルチパーティのソーシャル インタラクションと自由テキストの質問と回答が含まれています。
データの多様性とスケーラビリティを確保し、データ汚染を回避するために、すべてのソーシャル インタラクション、質問と回答は GPT-4 によって生成され、その後人間の専門家によって検証されます。
分析データは 3 つの異なるソースに基づいています:
写真
それぞれの社会的相互作用について、研究者は社会理解に密接に関連する以下の側面を調査するためにさまざまな質問をします。
研究者らは、括弧内の非言語的手がかり (例: 緊張してコーヒーを飲むなど) を文脈から削除しました。
以下は興味深い点です:
ブログでは、研究者は各モデルのパフォーマンスを明確に確認するために表を描きました。
写真
結果は、多くの点で刺激的ですが、一定の制限もあります。まず、ココ マインドは比較的小規模であるため、研究者の結論の広範な適用性と包括性が制限される可能性があります。
第 2 に、Koko Mind のすべてのインタラクションは GPT-4 によって生成され、手動による検証が必要なため、データセットの拡張が困難になります。
また、Koko Mind は人間が検証した回答をデータセットで提供していますが、研究者は評価する際にこれらの回答を参考として使用しておらず、これらの回答は GPT-4 によって生成されているため、そのため、GPT-4 に偏っている可能性があります。
将来の研究は、人間が検証し、機械が生成した参照回答に基づいてモデルを評価する方法に焦点を当てる可能性があります。
もちろん、何らかの制限があるにもかかわらず、研究者は依然としてココ マインドを社会的知性、マルチモーダル言語モデルなどに関連する将来の研究への出発点とみなしています。
以上が「ソーシャルマスター」GPT-4!表現を解釈し、心理を推測する方法を知るの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。