マスク氏の「オープンソースへの取り組み」がついに実現した。
たった今、マスク氏が公式に発表しました:
大部分の (Twitter の) レコメンデーション アルゴリズムが今日オープンソースになり、残りもそれに続くでしょう。
#そしてマスク氏はすぐに、GitHub 上の Twitter 推奨アルゴリズムのソース コードのアドレスを示しました。
わずか数時間で、数万のスターが獲得されました:
さらに、マスク氏は次のようにも言いました:
Push Theユーザーの提案に基づく推奨アルゴリズムは 24 ~ 48 時間ごとに更新されます。
#毎日 5 億件のツイートから推奨を行うと主張するこの巨大なアルゴリズムの正体が、この時点でついに明らかになりました。
レポートによると、Twitter のレコメンデーション システムは、ツイート、ユーザー、インタラクション データから潜在的な情報を抽出できる一連のコア モデルと機能に基づいています。
これらのモデルの役割は、「将来他のユーザーと交流する可能性はどのくらいですか?」や「Twitter にはどのようなコミュニティがあるか」など、Twitter ネットワークにおける重要な質問に答えることです。
これらの質問に正確に答えることができれば、Twitter がより関連性の高いおすすめを提供できるようになります。
Twitter のレコメンデーション システムは 3 つの部分で構成されています:
「For You」タイムラインの構築と配信を担当するサービスは「Home Mixer」と呼ばれます。
「Home Mixer」は、コンテンツの動的なフローの構築を支援するカスタム Scala フレームワークである「Product Mixer」の上に構築されています。
このサービスは、さまざまな候補ソース、スコアリング機能、ヒューリスティック、フィルターを接続するソフトウェア バックボーンとして機能します。
Twitter は複数の候補ソースを使用して、ユーザーに関連する最近のツイートを取得します。
Twitter はリクエストごとに、これらのソースからの数億件のツイートのプールから最適な 1,500 件のツイートを抽出しようとします。
フォローしている人 (内部ネットワーク) とフォローしていない人 (外部ネットワーク) から候補者を見つけます。
現在、「あなたへのおすすめ」タイムラインは、平均 50% が内部ネットワークのツイート、50% が外部ネットワークのツイートで構成されています (ただし、これはユーザーによって異なる場合があります)。
ネットワーク内ソースは最大の候補ソースであり、これをフォローしているユーザーに最も関連性の高い最新のツイートを提供することを目的としています。
ロジスティック回帰モデルを使用して、フォローしているユーザーのツイートを関連性に基づいて効率的にランク付けします。上位にランクされたツイートは次のステージに送られます。
内部ネットワークのツイートをランク付けする最も重要なコンポーネントはリアル グラフです。
Real Graph は、2 人のユーザー間のインタラクションの可能性を予測するために使用されるモデルです。ユーザーとツイート作成者のリアル グラフ スコアが高いほど、より多くのツイートが含まれます。
最近、内部ネットワークのソースが Twitter の調査対象となっています。 Twitter は最近、各ユーザーのツイート キャッシュから内部ネットワークのツイートを提供するために使用していた 12 年間使用していた Fanout サービスの使用を停止しました。
ユーザーのネットワーク外で関連するツイートを見つけるのは難しい問題です。
投稿者をフォローしていない場合、そのツイートが自分に関連しているかどうかをどうやって知ることができるのでしょうか?
この目的を達成するために、Twitter はこの問題を解決するために 2 つのアプローチを採用しました。
1 つはソーシャル グラフです。
この方法は、あなたがフォローしている人、または同様の興味を持つ人々のアクティビティを分析することによって、あなたに関連すると思われるものを推定することです。
主に参加グラフをたどって、次の手順に従って次の質問に答えます:
チームは、これらの質問への回答に基づいて候補ツイートを生成し、ロジット モデルを使用して結果のツイートをランク付けしました。
このタイプのグラフ トラバーサルは、外部ネットワークの推奨事項に不可欠です。チームは、これらのトラバーサルを実行するために、ユーザーとツイートの間のリアルタイム インタラクション グラフを維持するグラフ処理エンジンである GraphJet を開発しました。
Twitter のエンゲージメントおよびアテンション ネットワークを検索するためのこのヒューリスティックは有用であることが証明されていますが、埋め込まれた空間的アプローチは、外部ネットワークからのツイートのより大きなソースとなっています。
2 つ目はスペースの埋め込みです。
埋め込まれた空間的アプローチは、コンテンツの類似性に関するより一般的な質問、つまりどのツイートやユーザーが私の興味を共有しているか、という質問に答えることを目的としています。
埋め込みは、ユーザーの興味やツイートのコンテンツのデジタル表現を生成することによって機能します。この埋め込み空間内の任意の 2 人のユーザー、ツイート、またはユーザーとツイートのペアの間の類似性を計算できます。
正確な埋め込みが生成される限り、この類似性は相関関係の代用として使用できます。
Twitter の最も便利な埋め込みスペースの 1 つは SimClusters です。
SimClusters は、カスタム行列因数分解アルゴリズムを使用して、影響力のあるユーザーのグループによって固定されたコミュニティ (145,000 のコミュニティ、3 週間ごとに更新) を検出します。
ユーザーとツイートはコミュニティ スペースに表示され、複数のコミュニティに属することができます。コミュニティの規模は、個人的な友人グループの数千ユーザーから、ニュースやポップ カルチャーの数億人までさまざまです。
…
その他の関連情報詳細については、記事の最後にあるリンクをクリックしてください~
Twitter のアルゴリズムはオープンソースであり、素早いネチズンは...ビッグになる方法をまとめ始めていますアルゴリズムに基づく V :
あなたをフォローしている人の数とあなたをフォローしている人の数の比率は非常に重要です。TwitterBlue の購読には一定の役割があります...
#参考リンク:
[1]
https://www.php.cn/link/ce2b9a26bddc32cba5af69372ee14c00 [2]
https://www.php.cn /link/e55bc0255c752d1cb05da10c0f1f5026 [3]
https://www.php.cn/link/10fe8dc69a0964edc16fed1a1bd55716 [4]
https://www.php.cn/link/51f4efbfb3e18f4ea053c4d3d282c4e2
以上がマスク氏が Twitter 推奨アルゴリズムをオープンソース化、GitHub は数秒でスター数 10,000 に到達、24 ~ 48 時間ごとに進化すると約束の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。