合成データの生成

エージェントモデリング

シミュレーション実験

ホームページ

テクノロジー周辺機器

Fudan が「ニュースレコメンデーションエコシステムシミュレーター」SimuLine をリリース: 1 台のマシンで 10,000 人の読者、1,000 人の作成者、100 ラウンド以上のレコメンデーションをサポート

Fudan が「ニュースレコメンデーションエコシステムシミュレーター」SimuLine をリリース: 1 台のマシンで 10,000 人の読者、1,000 人の作成者、100 ラウンド以上のレコメンデーションをサポート

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 12, 2023 am 11:57 AM

データ研究

オンラインニュースコミュニティの進化を理解することは、より効果的なニュースレコメンデーションシステムを設計するために重要ですが、適切なデータセットとプラットフォームが欠如しているため、レコメンデーションシステムがコミュニティの進化にどのような影響を与えるかを理解するには既存の研究が限られており、次善の結果が得られます。長期的な実用性に影響を与える可能性のあるシステム設計。

この問題に対応して、復旦大学コンピューターサイエンス学部の CISL 研究チームは、ニュースレコメンデーションエコシステム進化シミュレーションプラットフォームである SimuLine を開発しました。

SimuLine は、事前学習済み言語モデル (事前学習済み言語モデル) と逆傾向スコア (逆傾向スコア) に基づいて実際のデータから人間の行動を反映する潜在空間を構築し、エージェントベースのモデルを使用します。シミュレーション (エージェントベースのモデリング) は、ニュース推奨エコシステムの進化のダイナミクスをシミュレートします。

SimuLine は、単一サーバー (256G メモリ、消費者向けグラフィックカード) 上で 10,000 人の読者と 1,000 人の作成者を対象とした 100 ラウンドの作成、推奨、インタラクションシミュレーションをサポートし、包括的な分析も提供します。定量的な指標、視覚化、テキストによる説明を含むフレームワーク。

広範なシミュレーション実験により、コミュニティの進化プロセスを理解し、推奨アルゴリズムをテストする上で SimuLine が大きな可能性を秘めていることがわかりました。

著者: Zhang Guangping、Li Dongsheng、Gu Hansu、Lu Tun、Shang Li、Gu Ning

論文アドレス: https://arxiv.org/abs/2305.14103

ニュース推奨エコシステム進化シミュレーションプラットフォーム

ソーシャルメディア (ソーシャルメディア) の人気に伴い、人々はニュースを公開したり入手したりするためにオンラインニュースコミュニティにますます依存しています。毎日、何百万ものニュースがコンテンツ作成者によってさまざまな Web サイトで公開されています。このタイプのオンラインニュースコミュニティはレコメンド方式で配信されており、多くのユーザーに読まれています。

ニュースコンテンツの制作と利用により、オンラインニュースコミュニティはダイナミックな進化の過程にあります。

他のタイプのオンラインコミュニティと同様に、オンラインニュースコミュニティの発展も有名なライフサイクル理論に従います。つまり、「立ち上げ」 - 「成長」 - を経ます。「成熟」～「衰退」の段階。

ライフサイクル理論の観点を通じて、膨大な量の研究がオンラインコミュニティの進化モデルを調査し、ライフサイクルの各段階の運用についての提案を行ってきました。

しかし、オンラインニュースコミュニティの最も重要な技術インフラストラクチャの 1 つであるレコメンデーションシステムがオンラインニュースコミュニティの進化に与える影響はまだ不明です。

この謎を解決するために、復旦大学コンピュータサイエンス学部の CISL 研究チームは、次の 3 つの研究課題に焦点を当て、シミュレーション実験を通じてその答えを見つけようとしました。

##1) ニュースレコメンデーションエコシステム (NRE) のライフサイクルの各段階の特徴は何ですか?

2) NRE の進化を推進する主な要因は何ですか?また、これらの要因はどのように相互作用して進化のプロセスに影響を与えますか?

3) レコメンデーションシステムの設計戦略を通じて複数の当事者間の長期的な有効性を向上させ、コミュニティが「衰退」に陥るのを回避するにはどうすればよいでしょうか?

これら 3 つの研究課題に答えるために、CISL 研究チームは、ニュースレコメンデーションエコシステム進化シミュレーションプラットフォームである SimuLine を開発しました。

SimuLine はまず、現実世界のデータセットに基づいて合成データを生成します。元のデータセットに固有の露出バイアスの問題 (露出バイアス) を解決するために、SimuLine では逆傾向スコア (Inverse Propensity Score) を導入してバイアスを排除しました。

人間の意思決定プロセスに近い潜在空間を確立するために、SimuLine では大規模コーパスに基づく事前学習済み言語モデル (Pretrained Language Model) を導入して潜在空間を構築します。エージェントモデル (エージェントベースのモデリング) に基づくシミュレーションは、ニュース推奨エコシステムにおけるユーザー、コンテンツ作成者、推奨システムの動作と対話をシミュレートします。

合成データの生成

ユーザーを表すシミュレーターを構築しようとするとき、最初に頭に浮かぶ疑問は「ユーザーのさまざまな行動はどのようにあるべきか?」ということです。

この問題には、実際には、レコメンデーションシステムの分野で広く使用されている非常に直接的な解決策があります。それは、潜在空間 (Latent Space) を構築し、ユーザーの空間を結合することです。すべてのニュースコンテンツはこのスペースにマッピングされます。

このように、潜在空間内のベクトルの類似性を通じてユーザーのニュースに対する愛情を測定し、一連の行動ロジックとルールを定義するのは非常に便利です。

##ビルド

では、何をどのように構築するかこの隠し空間のこと？

一部の学生は、「これの何がそんなに難しいのですか!? それはレコメンデーションアルゴリズムが使用されることです。レコメンデーションを使用して学習したほうが良いのではありませんか?」と言いました。アルゴリズム? "

これは確かに方法ですが、明らかな問題もいくつかあります。

CISC 研究チームにとって最も不可解なのは、「アルゴリズム交絡」と呼ばれる論理的脆弱性です。つまり、推奨アルゴリズム A を使用して潜在空間を構築し、ユーザーをマップした場合です。とニュースが行動上の意思決定の本当の基盤である場合、その後のシミュレーションプロセスで使用されるアルゴリズム B は、アルゴリズム A に適合するものではないでしょうか (これは、蒸留学習をある程度知っている学生には馴染みがあるでしょう)。

また、現在の推奨アルゴリズムの多くは依然としてブラックボックスモデルであり、アルゴリズム交絡を無視してスルーしても、シミュレーションデータを分析する際には問題ありません。あなたは混乱するでしょう (この次元は大きくなっていますが、この次元は何を表しているのでしょうか???)。

研究チームが途方に暮れているとき、白い閃光が横切りました。以前、言語モデルが大規模な言語モデルに基づいて訓練されたという記事を見たような気がしました。スケールコーパス (当時はまだ Bert の世界、ChatGPT はまだ誕生していません) は、人間の基本的な認識 (つまり、有名な王 – 男性女性 = 女王) を示すことができます。

#これは潜在スペースの構築に非常に適しているのではないでしょうか:

#1. ユーザーとニュースをエンコードできます;

#2. 大規模なコーパスからグローバルテキスト表現を学習することにより、それが体現する人間の認識は基本的かつ普遍的なものになるため、アルゴリズム交絡の問題が回避されます。

#3. 潜在空間の各次元が何を表すかは明確ではありませんが、この空間の理解には影響しません。同様のベクトル検索を通じて空間内の各点にそれを提供することができます。文章。

#これは本当に素晴らしいです!決めるのはあなたです！

#マッピング

##隠れた空間を解決する次のステップは、ユーザーとニュースをこのスペースにマッピングすることです。 ニュースは話しやすいです。ニュースにはリッチテキスト情報が含まれている必要があり、直接エンコードできますが、ユーザーはそれをどのように扱うべきでしょうか?ユーザーが履歴で気に入ったニュースを使用して平均を見つけることはできますか?

それはできません!

忌まわしいアルゴリズム混乱が名前を変えて再び登場しました。今回は露出バイアスと呼ばれています。これは、ユーザーの「いいね」の記録が必ずしもユーザーの興味を完全に反映しているわけではないことを意味します。ユーザーが見たニュースであり、ユーザーが見たニュース自体がレコメンドシステムによってフィルタリングされているため、ユーザーが見ていなかったため気に入らなかった可能性があります。

幸いなことに、何年にもわたる急速な進歩を経て、レコメンデーションシステムの分野の武器は十分にあります。研究チームは、この問題を解決するための便利な武器を Unbiased Recommendation ウェアハウスから見つけました。逆傾向スコア (IPS)。

簡単に言うと、露出密度を推定することで推奨サンプルに重みを付け、それによってモデル学習プロセス中にもたらされるバイアスを相殺し、ユーザーのエンコード問題が次のようになるようにすることです。解決しました。

最終的なコンテンツ作成者に関しては、彼らのコンテンツ公開行動は露出バイアスによって干渉されず、彼らの過去の記録が直接重み付けされます。実際、上記の操作の後、データの準備作業はほぼ完了しましたが、まだ 2 つの欠点があります。

· まず、データのスケールが調整されていないため、調整できない可能性があります。 (小さなロバが大きな粉砕機を引く/大きなロバが外国人労働者を粉砕する);

· 第二に、ユーザーのプライバシーは尊重されません。そこで研究チームは、元のデータセットのユーザーコーディングに基づいて生成モデルの層を追加しました。

ニュースプラットフォームは常にパーティションナビゲーション (金融、スポーツ、テクノロジーなど) を使用して設計されており、さまざまなパーティションにユーザーが集まっていることも明らかであることを考慮して、研究チームはガウスを推進しました。混合モデル (GMM) がこのタスクを担当します。

エージェントモデリング

データの予備準備作業が完了したら、ユーザーの行動のモデリングを開始できます。

研究チームは、エージェントベースのモデリング手法を採用しました。これは、個人の行動と個人間の相互作用をモデル化し、多数のエージェントを配置することでグループのダイナミクスをシミュレートすることです。エージェントの。

ユーザーのオンラインニュースを読むプロセスを簡単に思い出してください (たとえば、次の記事を読んだ場合)今日のヘッドラインなど）を使用すると、ユーザーはまず特定のページで推奨システムによって推奨される一連のニュースを確認し、次にユーザーは各ニュースのタイトル、写真、概要を閲覧するだけになります。ニュースを読んだ後、ユーザーがそのニュースが良い、読む価値がある、または自分の意見と一致していると感じた場合、ユーザーは「いいね！」を通じてニュースに対する自分の意見を表明します。およびその他の方法での認識。

定義

このプロセスでは、ユーザーとニュースの間のインタラクションは 3 つのレベル (露出、クリックといいね）。クリックといいねはユーザーのアクティブな動作であり、ユーザーエージェントで定義する必要があります。

ここで研究チームは、ユーザーのクリック行動を確率的な選択行動、つまりユーザーとニュースの一致度（ニュースの潜在空間の類似度）に基づいて要約しています。度測定は 2 つ使用できます）、ユーザーは一定の確率でリストから興味のあるニュースを選択し、クリックして読んでしまいます。

この定義は、最も一致するニュースを直接クリックするよりも柔軟です。つまり、必ずしも一致度の高いニュースが読まれることを意味するわけではなく、より柔軟です。現実の状況と一致しています。

「いいね！」の動きについては、単純にニュースの一致度を考慮することはできず、結局のところ、ニュースでは見出しを掴むという現象が今でもよく見られるのはご存知のとおりです。。

そこで、研究チームは、ニュースレポートの価値を一般的に表すために「ニュースの質」という抽象的な概念を導入しました。品質は共に特徴付けられます。

研究チームは、エージェントの類似行動を制御するために期待モデルを採用し、具体的には、まず、ユーザーが特定のニュースを読むことの効用(Utility)を、興味関心の一致度とニュースの品質に基づいて計算しました。ユーティリティユーザーの期待を超えた場合 (研究チームは、この期待の特定の値を表すためにハイパーパラメータのしきい値を使用します)、同様の動作がトリガーされます。

このデザインを直観的に説明すると、ニュースが自分の好みに合っているか、レポート自体が非常に客観的で包括的であるためであっても、そのニュースが私を幸せにする場合、私はそうは思わないということです。彼のようにケチになってください。

さらに、ニュースを読むプロセスにおいて、ユーザーの興味や意見は明らかに静的ではありません。

たとえば、ユーザーが非常に気に入ったニュースレポートを見た場合、関連するニュースをさらに深く掘り下げたいというユーザーの欲求が刺激される可能性があります。ユーザーの感覚まったくナンセンスな内容であり、ユーザーが将来同様のレポートを見た場合、レポートの詳細を確認するためにクリックする可能性は低くなります。

この現象は、研究チームによってユーザードリフトモデルとしてモデル化されました。

#クリエイティブな行動のモデリング

次のモデリングクリエイティブな行動ニュースクリエイターの。

現実世界におけるニュースの作成はさまざまな要因の影響を受けますが、研究チームはここではそれを貪欲なプロセスとして単純化しています。もっと見る多くの読者に支持されました。

特定のエージェント行動制御研究チームは、ユーザーのクリックと同様のソリューションを採用しており、クリエイターは前回作成したニュースなどに基づいて確率サンプリングを実施し、新しいニュースを選択します。一連のクリエイティブなトピックを作成し、その後、そのトピックに基づいてニュースを作成します。ニュース作成のプロセスも同様に、潜在空間内のトピック中心のガウス分布からのサンプリングのプロセスとしてモデル化されます。

ニュースの内容 (潜在空間表現) に加えて、ニュースの品質もモデル化する必要があります。これは、現実の法則と一致する 2 つの基本的な仮定に基づいています:

1. 著者の「いいね！」の数と収入の間には正の相関関係があり、「いいね！」が多いほど、著者の「いいね！」が増えることを意味します。いいねをもらうと作者に「いいね！」が増える読書による収入はあるが、「いいね！」の数が増えると、1回の「いいね！」あたりの収入は徐々に減っていきます;

2.高収入のクリエイターより十分な予算があるため、より高品質のコンテンツが作成されるでしょう。これに基づいて、ニュース作成の品質を制御するために、前のラウンドの「いいね！」の数から次のラウンドのニュースの品質へのマッピング関数を構築できます。

#レコメンデーションシステムのモデリング

最後に、レコメンデーションシステム行動がモデル化されています。

アルゴリズム推奨とコールドスタート推奨は、ニュース推奨システムの 2 つの基本コンポーネントです。パーソナライズされたアルゴリズムの推奨を提供するために、推奨システムはまず BPR などの推奨アルゴリズムを使用して、過去のインタラクションデータから埋め込み空間内のユーザーとニュースの表現を学習します (研究チームは潜在空間を使用して、大規模言語モデルのエンコード実際のユーザー関心空間。推奨アルゴリズムによって学習され、推奨リストの生成に使用される空間を参照するために埋め込み空間を使用します。

ただし、ユーザーのような行動の不確実性とニュースの有効期間の制限により、アルゴリズムの推奨事項がすべてのユーザーをカバーすることを保証することはできません。ギャップのこの部分については、単純なランダムな推奨事項を使用します。このギャップを埋めるために使用できます。

過去のインタラクション記録が不足しているため、新しく作成されたニュースはアルゴリズムの推奨に参加できません。SimuLine は、ランダムな推奨とヒューリスティックな推奨アルゴリズム (歴史的にお気に入りの作成者からの新しいレポートなど) などを適用します。コールドスタートニュースを推奨する戦略。

さらに、SimuLine は、ニュース速報、コンテンツ作成者ベースのプロモーション、トピックベースのプロモーションなど、他のヒューリスティックニュース推奨戦略もサポートしています。

すべてのレコメンデーション戦略には独立したプッシュクォータがあり、レコメンデーションシステムはすべてのチャネルからのニュースレコメンデーションを組み合わせて、最終的なレコメンデーションリストを形成します。

シミュレーション実験

データは揃っています。モデルが構築されました!以下はエキサイティングな実験です。

研究チームは、ニュース推奨の分野で広く使用されている Adressa データセットを選択しました。このデータセットは、ノルウェーのニュース Web サイト www.adressa.no の完全なウェログを提供します。 2017 年 2 月のある週のデータです。他の優れたニュース推奨データセット (Microsoft の MIND など) と比較して、非常に重要なニュース著者情報をネイティブに提供します。これに対応して、言語モデルではノルウェー語をネイティブにサポートする BPEmb が使用されます。導入の詳細については、この文書の第 4 章の最初のセクションを参照してください。

では、SimuLine のシミュレーション結果を分析するにはどうすればよいでしょうか? SimuLine は、参考のために複数の視点からの包括的な解析フレームワークを提供します。

1 つ目は、最も一般的に使用される定量的な指標評価システムです。

ニュース推奨エコシステムの進化プロセスを完全に反映するために、研究チームは既存の文献に記載されている定量的指標を要約し、それらから比較的完全な評価セットを構築しました。システム:

1) 「いいね！」の数とそのジニ指数を含むインタラクティブ性。ジニ指数が低いほど公平性が高いことを表します。

2) 対象範囲 (アルゴリズムの推奨事項によってカバーされるユーザーとニュースの数を含む);

3) 品質 (制限時間内のニュースの平均品質を含み、ユーザー数で重み付け) likes 制限時間内のニュースの平均品質、およびニュースの品質といいね数の間のピアソン相関係数;

4) ユーザー間の Jaccard インデックスを含む均質化により、ユーザー間の平均品質が高くなります。値が大きいほど、ユーザー間で読むニュースの重複の度合いが高くなります。

5) ユーザーとお気に入りのニュースの間の潜在空間表現のコサイン類似度を含む一致度。

1. ライフサイクル

次の 3 つの図エージェントのハイパーパラメータ条件を変えた場合の、ユーザ、作成者、推薦システムの定量的な評価結果をそれぞれ示します。

シミュレーションプロセスと結果は、さまざまなハイパーパラメーターの下で比較的安定しており、約 10 ラウンドと 20 ラウンドに分割されていることがわかります。程度)、システムの進化は明らかな段階を示しています (図では段階遷移のラウンドを描くために青い垂直線が使用されています)。これは有名なライフサイクル理論と一致しています。

最初の発見は次のとおりです。

レコメンデーションシステムによって駆動されるオンラインニュースコミュニティは、さまざまなユーザーグループの下で「立ち上がり」-「成長」-「成熟」を自然に示します。「＆衰退」のライフサイクル。

#2. ユーザーの差別化

定量的な指標に加えて、視覚化も支援するために重要です。コミュニティ進化プロセスツールを理解する上で。

研究チームは、PCA の次元削減視覚化を通じて、システム進化プロセスの次のスナップショットを取得しました (ニュースは青でマークされ、同様のレコードを持つユーザーは緑でマークされ、同様のレコードのないユーザーは緑でマークされています)ユーザーは赤色でマークされます。ノードのサイズはいいね/いいねの数を表します)。

#定量的指標は多段階のパターンを示していますが、潜在空間表現の進化傾向が見られることがわかります。これは一貫しています。つまり、ユーザーはループ内ユーザーとループ外ユーザーに段階的に分割されます。

サークル内のユーザーは関心が集中した安定したコミュニティを形成しますが、サークル外のユーザーは関心が分散しています。

第 10 ラウンドから第 20 ラウンドまでの進化プロセスでは、ユーザーは基本的に差別化を完了しており、成長段階がユーザー参加において重要な決定的な役割を果たしていることがわかります。

これは 2 番目の発見につながります: レコメンデーションシステムによって推進されるオンラインニュースコミュニティは必然的にコミュニティのトピックの収束を生み出し、ユーザーの差別化につながり、ユーザーを決定します。参加重要な時期は成長段階です。

#3. 関心の同化

前述したように、SimuLine は大規模な事前トレーニング済み言語モデルを通じて潜在空間を構築するため、空間内の各ベクトルは類似の単語検索を通じて解釈でき、ケースを理解するための研究に役立ちます。個々のユーザーの進化。

研究チームは、サークル内ユーザーとサークル外ユーザーからそれぞれ 3 人のユーザーをランダムに選択しました。次の表は、彼らの興味の推移を示しています。

サークル内のユーザーの興味は、より抽象的、広範囲、一般的なものになってきています。たとえば、「俳優」から「仕事」へ、「オスロ」から「ノルウェー」から「ヨーロッパ」へ。進化速度はユーザーごとに異なりますが、50周目でほぼ収束します。この現象は、レコメンデーションシステムとの継続的な対話の結果として、ユーザーの好みがパーソナライズされたニッチなトピックからプラットフォーム上で広く議論されているトレンドのトピックへと徐々に移行することを反映しています。

サークル外のユーザーの場合、興味は多少変わりますが、常に特定の個人化されたトピックに焦点を当てています。たとえば、ユーザー No. 4 と No. 6 は、シミュレーションプロセスを通じてそれぞれ「スポーツ選手」、「お茶」、「紙幣」に興味を持ち続けました。

これは 3 番目の発見につながります。

推奨システムによって駆動されるオンラインニュースコミュニティでは、ユーザーの個人的な関心は、推奨システムとの継続的な対話のプロセスに同化されます。

#4. スタートアップ段階 #上記の定量的指標、視覚化、テキスト翻訳のための 3 つの強力なツールを使用して、SimuLine はシステムの進化プロセスの包括的な物理的検査を実行できます。

レコメンドシステムによるオンラインニュースコミュニティの進化過程はライフサイクル理論と一致しているので、コミュニティがライフサイクル理論に沿ってどのように進化していくのかをライフサイクルの観点から分析してみましょう。ライフサイクル。

まず、最初の 10 ラウンドにほぼ相当する起動フェーズを分析してみましょう。

システムはゼロから構築されているため、レコメンデーションシステムには、初期段階でレコメンデーションアルゴリズムをトレーニングするためのデータが不足しています。したがって、この段階では、ランダムな推奨事項とヒューリスティックな推奨事項を使用してユーザーのコールドスタートの問題を解決することが最優先事項となります。

より正確なアルゴリズムの推奨を使用できないため、この段階の推奨結果は、関心の一致の点で満足のいくものではないことがよくあります。したがって、この段階での同様の動作は、主に次のような要因によって引き起こされます。ニュースの質、反映定量的指標の観点から見ると、質と人気の間には強い正の相関関係があります。

さらに一歩進んで、スタートアップ段階におけるコミュニティ進化の 2 つの主な原動力を突き止めることができます:

1) 品質のフィードバックループ、つまり品質と人気は正の相関関係に基づいて相互に促進し、良いものであればあるほど、より多くの人に好まれ、より多くの人に好まれます。著者収入が高ければ高いほど、著者はより質の高いニュースレポートを作成する意欲が高まる;

2) 関心の質の混乱、つまり、ユーザーを正確に推定するのに十分な情報を蓄積した後関心データ量以前に、推奨アルゴリズムは品質主導の類似行動をユーザーの関心によって引き起こされる行動と混同してしまう可能性があります。これら 2 つの推進力が相互に促進し、人気コンテンツクリエイターの過剰露出が徐々に増加し (クリエイターとニュースのジニ指数の上昇に反映)、ユーザーの個人的な興味の満足をさらに圧迫します (ユーザーの視聴率の低下に反映)好きなニュース間の潜在的な空間的類似性)。しかし、ほとんどのユーザーは依然としてニュース品質の向上による恩恵を受けることができます (ユーザーの行動傾向のジニ指数の低下に反映されています)。

まとめると、4 番目の発見が得られます。起動フェーズでは、システムはランダムなレコメンデーションや質の高いニュースからユーザーの興味を推定するためのデータを蓄積し、次の解決策を行います。コールドスタートユーザーの質問の問題。品質のフィードバックループと関心と品質の混乱は、露出過剰による非常に人気のあるコンテンツクリエイターの出現に貢献します。

#5. 成長段階

データの蓄積に伴い、推奨アルゴリズムによるユーザーの興味の推定はますます正確になり、同様の行動は品質主導型から関心主導型に徐々に移行し、品質と人気の相関関係は徐々に弱まります。シミュレーションのラウンド数が増加するにつれて、スタートアップ期間中に作成されたニュースは徐々に有効期限が切れ、推奨候補から撤退します。関心と品質の混乱は最初に解消され始め、徐々に品質フィードバックループの最終終了につながります。

成長段階では、各サークルのユーザーエリアのニュース密度は不均一で、主流のニューストピックの方向の密度が高く、その他の方向の密度が高くなります。は比較的低いです。

その結果、ユーザーが好むニュースは、統計的に主流のニューストピックに近い可能性が高くなります。このような類似行動の微妙な偏りは引き続き現れ、ユーザーの関心は高まり続けます。その影響を受けて、徐々に主流のニューストピックに近づいてきています。

逆に、サークル外のユーザーは「いいねがつかない - アルゴリズムのおすすめではカバーできない - おすすめの精度が低い - さらにいいねが少ない」という行き詰まりに陥ります。彼らはその質の高さからニュースを好むことがありますが、推奨アルゴリズムはデータ制限時間内に彼らの関心を推定するのに十分なデータを蓄積できません。ニュースの質の向上は、より頻繁でバランスの取れた「いいね！」行動によって促進されましたが、高品質のニュースの人気が低下したため、「いいね！」の数によって加重されたニュースの品質は概して安定したままでした。

品質フィードバックループの終了により、コンテンツ作成者は過度の注目を受けることができなくなり、ニュースの品質が低下します。品質に敏感なユーザーは品質を好まなくなる可能性があり、ユーザーカバレッジの低下につながります。

要約すると、5 番目の発見が得られます。成長段階では、サークル内のユーザーは分布の偏りの影響を受けて共通のトピックに向かって進化しますが、サークル外のユーザーは分布の偏りの影響を受けて共通のトピックに向かって進化します。サークルは行き詰まり、ユーザーの差別化につながります。アルゴリズムの推奨がますます正確になると、品質のフィードバックループが終わり、その結果、コミュニティは品質に敏感なユーザーの一部を失います。

#6. 成熟段階と衰退段階
## ラウンド 20 付近では、コミュニティは成熟期と衰退期に入り、ほとんどの主要な指標が安定します。

この段階では、サークル内のユーザーは共通トピックのバブル内に動的に留まります。別のニュースをクリックすると、興味がバブルの端に移る可能性がありますが、密度差によりすぐに中心に戻ります。

ニュースの「いいね！」のジニ指数は高く、コンテンツ作成者の「いいね！」のジニ指数は低く、同じ作成者によって作成されたニュースであっても、そのニュースの人気が高いことを示しています。大きく異なります。大きな違いです。

貪欲な作成メカニズムに加えて、ニュース作成プロセス自体も非常にランダムであるため、バブルも自然な拡大傾向を示します。

バブルの拡大によりニュース候補は多様化する一方、話題に敏感なユーザーの一部が徐々に離脱することもある。

6 番目の発見は、次のことから得られます。成熟期と衰退期では、サークル内のユーザーが共通のトピックを共有し、コンテンツ作成者がこれらのトピックを中心にさまざまなニュースを公開します。コミュニティは安定したゆっくりとした拡大を維持してきましたが、同時に興味に敏感な一部のユーザーを失いました。

# 7. 進化はどのようにして起こりますか?

発見 1 ～ 6 は、研究チームが焦点を当てた最初の研究課題に答えました。ニュース推奨エコシステム (ニュースとは何ですか)レコメンデーションエコシステム（NRE）のライフサイクルの各段階の特徴は何ですか？

次に、すべての知識をまとめて、2 番目の研究の疑問に答えてみましょう。NRE の進化を推進する主要な要因は何ですか、また、これらの要因はどのように相互作用して、進化の過程に影響を与える？？

次の図は、オンラインニュースコミュニティの進化の主要な要因と影響メカニズムをまとめたもので、露出バイアスとデッドロックの再発が主な理由であることがわかります。サークル内のユーザーとサークル外のユーザーがなぜ異なるのか進化傾向の違いが直接的な原因となり、ユーザーの差別化とトピックの収束がさらに進みました。

露出バイアスの再発は、さまざまな要因が組み合わさって引き起こされます。

まず、情報理論の観点から、推奨アルゴリズムは情報圧縮のプロセスとして説明できます。これにより、必然的に人気バイアスが生じ、頻繁に表示されるニュースが偏ってしまいます。データセット (つまり、「いいね!」の数が多いニュース) は、レコメンデーションのパフォーマンスを向上させるためにより効果的にエンコードされます。コミュニティの進化プロセスに反映されているように、広く議論されている共通のトピックが、アルゴリズム推奨チャネル上のパーソナライズされたトピックの露出リソースを占領することが反映されています。

第二に、コンテンツ作成者の利益追求の性質により、公共の関心のあるトピックを中心にニュースを作成する意欲が高まり、当然のことながらニュースの密度の変化につながります。マストピックからパーソナライズされたトピックへの解放。トピックは減少します。この意味で、プロセス全体を通してランダムな推奨が使用されたとしても、分布の偏りによってコミュニティはトピックが収束する方向に発展する可能性があります。

最後に、フィルターバブルと露出バイアスは相互に促進し合い、ユーザーの興味に微妙な変化をもたらします。このアルゴリズムは、ユーザーが過去に気に入ったニュースに基づいて同様のレポートを推奨するため、ニュースへの露出が限定されているため、ユーザーは露出バイアスを認識しにくくなります。

さらに、人気ニュースに対するレコメンデーションシステムの偏りは、進化のさまざまな段階でさまざまな影響を及ぼします。

スタートアップ段階では、関心と質の混乱があり、ニュースの質と人気の間には強い相関関係があり、人気の偏りは特に高いニュースの露出の強化に反映されます。 -質の高いニュース。

データの蓄積とアルゴリズムの推奨パフォーマンスの向上により、同様の行動は品質主導と比較して関心によってますます推進され、その結果、関心と品質の混乱および品質と人気の相関が弱まります。人気バイアスも、質の高いニュースを推奨することから、単に人気の高いニュースを推奨することに徐々に進化してきました。

この新旧の勢いの転換プロセスにおいて、人気が高く質の高いニューストピックを育成することは、ユーザーの参加を促進する上で重要な役割を果たします。

要約すると、7 番目の発見が得られます: 人気バイアス、ニュース配信バイアス、フィルターバブルが共同して露出バイアスを引き起こし、ユーザーの差別化とトピックの集中に影響を与えます。重要な要素。サークル外のユーザー間の行き詰まりを打破するには、人気があり質の高いニュースが重要です。

#8. コミュニティの衰退を回避するにはどうすればよいですか?
#最後に、SimuLine の強力なシミュレーションおよび解析機能を利用して、3 番目の研究課題「どのように解決するか」を検討します。レコメンデーションシステムの設計戦略によって、長期的な多者間の有効性を向上させ、コミュニティが「衰退」に陥ることを回避できるでしょうか?

研究チームは、サブスクリプションベースのニュースのコールドスタート、ホットサーチリスト、トピックのプロモーション、およびクリエイターのプロモーションという、最も基本的で一般的なヒューリスティック推奨方法のうちの 4 つをテストしました。次の 3 つの図は、基本的な推奨システムに上記の 4 つの方法を適用したコミュニティ進化の結果を示しています。

## (1) サブスクリプションベースのニュースコールドスタートは、ユーザーとコンテンツ作成者の間に安定したクロスラウンド露出関係を形成することを試み、それによってスタートアップ段階で発生する品質フィードバックループを強化します。

しかし、このアプローチは深刻な独占につながり、先行者利益を達成していないコンテンツ作成者は品質フィードバックループによって抑圧され、アルゴリズムの適用範囲とコンテンツの平均品質が破壊されます。その結果、コミュニティ全体の生態学的多様性が深刻な課題にさらされています。

(2) ホット検索リストは最も一般的なオンラインコミュニティコンポーネントであり、ニュースの品質と人気の間の正の相関関係に依存しており、この方法によりユーザーに高品質のニュースの推奨を提供できます。同時に、活用と探索の観点から、ニュース速報を読むことは、ユーザーの既存の興味の限界を打ち破る一種のユーザー探索とみなすこともでき、フィルターバブルの悪影響を軽減するのに役立ちます。

ただし、このアプローチでは、前の記事で説明した人気と品質の相関関係の崩壊を防ぐことはできず、速報ニュースの推奨効果の低下につながる可能性があります。

(3) 最後に、プラットフォームのプロモーションですが、特定のトピックや特定の著者への露出を増やすことで、プラットフォームは推奨コンテンツを積極的に規制することもできます。コンテンツクリエイターを宣伝すると、安定した露出関係を構築し、質の高いフィードバックループを利用して、人気の高い高品質のニュースを育成できます。

しかし、サブスクリプションに基づくニュースのコールドスタート戦略とは異なり、現在の品質フィードバックループが有害な独占を助長する前に、プロモーションを積極的に終了できるため、ユーザーエクスペリエンスと創造性が確保されます。人。インタレストマッチングとは独立したニュース普及チャネルとして、フィルターバブルの悪影響を軽減することもできます。さらに、品質のフィードバックループを再構築することで、人気のニュースに対する推奨システムの偏りを、高品質のニュースに対する有益な推奨に向けることもできます。

SimuLine は、特定のトピックのプロモーションをターゲットとした実験でトピックをランダムに選択します。これは、人気のあるトピックとパーソナライズされたトピックがプロモーションされる可能性が同じであることを意味します。そのため、トピックの露出が比較的低いパーソナリティの場合、影響は大きくなります。プロモーションの規模は比較的大きいです。

この方法は、理論的にはサークル外のユーザーの参加を増やすために使用できますが、宣伝ニュースの品質が保証できないため、露出量を収益に換算するのは困難です。「いいね！」の数に応じてこの方法が行われるため、効果は限定的です。

要約すると、8 番目の発見が得られます。

一般的なレコメンデーションシステム設計戦略の中で、コンテンツ作成者に対する定期的なプロモーションが最も効果的です。質の高いフィードバックループを積極的に構築することで、コミュニティ全体に人気のある質の高いニューストピックの波を作り出すことができ、同時にプラットフォームは定期的なリセットを通じて独占を制御できます。概要

この記事では、CISL 研究チームは、ニュース推奨エコシステムの進化プロセスを分析するためのシミュレーションプラットフォームである SimuLine を設計および開発しました。オンラインニュースコミュニティの進化プロセスの詳細な分析が SimuLine に基づいて行われました。

SimuLine は人間の行動をよく反映した理解可能な潜在空間を構築し、これに基づいてエージェントベースのモデリングを通じてニュース推奨エコシステムの詳細なシミュレーションを実行します。

研究チームは、オンラインニュースコミュニティの発展のライフサイクル全体 (新興、成長、成熟、衰退の各段階を含む) を分析し、各段階の特徴を分析し、進化のプロセスを示す関係図を提案しました。主要な要因と影響メカニズム。

最後に、研究チームは、サブスクリプションベースのニュースのコールドスタート、ホットニュース、プラットフォームのプロモーションの使用など、レコメンデーションシステムの設計戦略がコミュニティの進化に与える影響を調査しました。

将来的には、CISL 研究チームは、より強力で現実的なシミュレーションを実行するために、ニュースのテキストコンテンツの生成とソーシャルネットワーク活動の行動モデリングを検討します。

研究チームは、SimuLine がレコメンダーシステム評価の優れたツールとしても使用でき、オンラインユーザー実験とデータセットに基づくオフライン実験に加えて 3 番目のオプションを提供できると考えています (これも同様です)これに最適なツールです。これが SimuLine という名前の主な理由です)。

研究チームは、レコメンデーションシステムの研究コミュニティが最近、レコメンデーションにおける露出バイアスの問題に対処することを目的として、一連のバイアス補正レコメンデーションアルゴリズムを提案していることにも気づきました。ユーザーの差別化とトピックの集中の要因。直接的な原因。

この記事は、特定の推奨アルゴリズムではなく、推奨システムのシステム設計について議論することに重点を置いているため、研究チームはこの問題を未解決のトピックとして残し、SimuLine が将来の研究を促進できることを期待しています。この方向に研究してください。

以上がFudan が「ニュースレコメンデーションエコシステムシミュレーター」SimuLine をリリース: 1 台のマシンで 10,000 人の読者、1,000 人の作成者、100 ラウンド以上のレコメンデーションをサポートの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7651

CakePHP チュートリアル

1392

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTミニクロスワードの回答

110

Related knowledge

ddrescue を使用して Linux 上のデータを回復する Mar 20, 2024 pm 01:37 PM

DDREASE は、ハードドライブ、SSD、RAM ディスク、CD、DVD、USB ストレージデバイスなどのファイルデバイスまたはブロックデバイスからデータを回復するためのツールです。あるブロックデバイスから別のブロックデバイスにデータをコピーし、破損したデータブロックを残して正常なデータブロックのみを移動します。 ddreasue は、回復操作中に干渉を必要としないため、完全に自動化された強力な回復ツールです。さらに、ddasue マップファイルのおかげでいつでも停止および再開できます。 DDREASE のその他の主要な機能は次のとおりです。リカバリされたデータは上書きされませんが、反復リカバリの場合にギャップが埋められます。ただし、ツールに明示的に指示されている場合は切り詰めることができます。複数のファイルまたはブロックから単一のファイルにデータを復元します

オープンソース！ゾーイデプスを超えて！ DepthFM: 高速かつ正確な単眼深度推定! Apr 03, 2024 pm 12:04 PM

0.この記事は何をするのですか?私たちは、多用途かつ高速な最先端の生成単眼深度推定モデルである DepthFM を提案します。従来の深度推定タスクに加えて、DepthFM は深度修復などの下流タスクでも最先端の機能を実証します。 DepthFM は効率的で、いくつかの推論ステップ内で深度マップを合成できます。この作品について一緒に読みましょう〜 1. 論文情報タイトル: DepthFM: FastMonocularDepthEstimationwithFlowMatching 著者: MingGui、JohannesS.Fischer、UlrichPrestel、PingchuanMa、Dmytr

Excelのフィルター機能を複数条件で使う方法 Feb 26, 2024 am 10:19 AM

Excel で複数の条件によるフィルタリングを使用する方法を知る必要がある場合は、次のチュートリアルで、データを効果的にフィルタリングおよび並べ替えできるようにするための手順を説明します。 Excel のフィルタリング機能は非常に強力で、大量のデータから必要な情報を抽出するのに役立ちます。設定した条件でデータを絞り込み、条件に合致した部分のみを表示することができ、データ管理を効率化できます。フィルター機能を利用すると、目的のデータを素早く見つけることができ、データの検索や整理の時間を節約できます。この機能は、単純なデータリストに適用できるだけでなく、複数の条件に基づいてフィルタリングすることもできるため、必要な情報をより正確に見つけることができます。全体として、Excel のフィルタリング機能は非常に実用的です。

Google は大喜び: JAX のパフォーマンスが Pytorch や TensorFlow を上回りました! GPU 推論トレーニングの最速の選択肢となる可能性があります Apr 01, 2024 pm 07:46 PM

Google が推進する JAX のパフォーマンスは、最近のベンチマークテストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

iPhoneのセルラーデータインターネット速度が遅い：修正 May 03, 2024 pm 09:01 PM

iPhone のモバイルデータ接続に遅延や遅い問題が発生していませんか?通常、携帯電話の携帯インターネットの強度は、地域、携帯ネットワークの種類、ローミングの種類などのいくつかの要因によって異なります。より高速で信頼性の高いセルラーインターネット接続を実現するためにできることがいくつかあります。解決策 1 – iPhone を強制的に再起動する場合によっては、デバイスを強制的に再起動すると、携帯電話接続を含む多くの機能がリセットされるだけです。ステップ 1 – 音量を上げるキーを 1 回押して放します。次に、音量小キーを押して、もう一度放します。ステップ 2 – プロセスの次の部分は、右側のボタンを押し続けることです。 iPhone の再起動が完了するまで待ちます。セルラーデータを有効にし、ネットワーク速度を確認します。もう一度確認してください修正 2 – データモードを変更する 5G はより優れたネットワーク速度を提供しますが、信号が弱い場合はより適切に機能します

超知性の生命力が覚醒する！しかし、自己更新 AI の登場により、母親はデータのボトルネックを心配する必要がなくなりました。 Apr 29, 2024 pm 06:55 PM

世界は狂ったように大きなモデルを構築していますが、インターネット上のデータだけではまったく不十分です。このトレーニングモデルは「ハンガーゲーム」のようであり、世界中の AI 研究者は、データを貪欲に食べる人たちにどのように餌を与えるかを心配しています。この問題は、マルチモーダルタスクで特に顕著です。何もできなかった当時、中国人民大学学部のスタートアップチームは、独自の新しいモデルを使用して、中国で初めて「モデル生成データフィード自体」を実現しました。さらに、これは理解側と生成側の 2 つの側面からのアプローチであり、両方の側で高品質のマルチモーダルな新しいデータを生成し、モデル自体にデータのフィードバックを提供できます。モデルとは何ですか? Awaker 1.0 は、中関村フォーラムに登場したばかりの大型マルチモーダルモデルです。チームは誰ですか?ソフォンエンジン。人民大学ヒルハウス人工知能大学院の博士課程学生、ガオ・イージャオ氏によって設立されました。

テスラのロボットは工場で働く、マスク氏：手の自由度は今年22に達する！ May 06, 2024 pm 04:13 PM

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー（テスラの4680バッテリー）を次のように分類します：公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング：今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジムファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

柔軟かつ高速な 5 本の指を備え、人間のタスクを自律的に完了する初のロボットが登場、大型モデルが仮想空間トレーニングをサポート Mar 11, 2024 pm 12:10 PM

今週、OpenAI、Microsoft、Bezos、Nvidiaが投資するロボット企業FigureAIは、7億ドル近くの資金調達を受け、来年中に自立歩行できる人型ロボットを開発する計画であると発表した。そしてテスラのオプティマスプライムには繰り返し良い知らせが届いている。今年が人型ロボットが爆発的に普及する年になることを疑う人はいないだろう。カナダに拠点を置くロボット企業 SanctuaryAI は、最近新しい人型ロボット Phoenix をリリースしました。当局者らは、多くのタスクを人間と同じ速度で自律的に完了できると主張している。人間のスピードでタスクを自律的に完了できる世界初のロボットである Pheonix は、各オブジェクトを優しくつかみ、動かし、左右にエレガントに配置することができます。自律的に物体を識別できる

See all articles

Fudan が「ニュース レコメンデーション エコシステム シミュレーター」SimuLine をリリース: 1 台のマシンで 10,000 人の読者、1,000 人の作成者、100 ラウンド以上のレコメンデーションをサポート

合成データの生成

エージェント モデリング

シミュレーション実験

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

Fudan が「ニュースレコメンデーションエコシステムシミュレーター」SimuLine をリリース: 1 台のマシンで 10,000 人の読者、1,000 人の作成者、100 ラウンド以上のレコメンデーションをサポート

エージェントモデリング