der Spiegelは、大規模な言語モデル(LLMS)を使用してニュース記事の推奨事項を改善します。 オフライン実験では、読書の履歴に基づいて読者の関心を予測するLLMの能力を評価しました。
方法論:
読者の調査データは、好みの基本的な真実を提供しました。 各参加者の読書履歴と記事の利息評価が使用されました。 AnthropicのClaude 3.5 Sonnet LLMは、推奨エンジンとして機能し、新しい記事への関心を予測するために、各読者の履歴(タイトルと要約)を受け取りました(スコア0-1000)。 JSON出力形式は、構造化された結果を保証しました。 LLMの予測は、実際の調査評価と比較されました。 詳細な方法論を入手できます:
ニュース推奨システムのオフライン評価への混合メソッドアプローチ
重要な調査結果:
印象的な結果が達成されました。 Precision@5は56%に達しました - 5つの記事を推奨するとき、3つ近くがユーザーの最高評価の記事の1つでした。 ユーザーの24%について、4つまたは5つのトップ記事が正しく予測されました。さらに41%の場合、5人中3人が正しかった。 これは、ランダムな推奨事項(38.8%)、人気ベースの推奨事項(42.1%)、および以前の埋め込みベースのアプローチ(45.4%)を大幅に上回る。 チャートは、他の方法よりもLLMアプローチのパフォーマンスの隆起を示しています。 2番目のメトリックであるスピアマン相関は0.41に達し、埋め込みベースのアプローチ(0.17)を大幅に超えており、優先強度の優れた理解を示しています。説明可能性:
LLMの説明可能性は重要な利点です。 例は、システムが読み取りパターンを分析し、推奨事項を正当化する方法を示しています:
この透明性は、信頼とパーソナライズを強化します
課題と将来の方向性:
<code>User has 221 articles in reading history Top 5 Predicted by Claude: ... (List of articles with scores and actual ratings) Claude's Analysis: ... (Analysis of reading patterns and scoring rationale)</code>
LLMの強力な予測力と説明可能性により、ニュースの推奨に役立ちます。 推奨事項を超えて、ユーザーの行動とコンテンツの旅を分析する新しい方法を提供し、パーソナライズされた概要と洞察を可能にします。
謝辞
この調査では、匿名化された集約されたユーザーデータを利用しました。 LinkedInから詳細な議論を歓迎します [1] Dairui、Liu&Yang、Boming&Du、Honghui&Greene、Derek&Hurley、Neil&Lawlor、Aonghus&Dong、Ruihai&Li、Irene。 (2024)。 RECPROMPT:大規模な言語モデルを使用したニュース推奨のためのセルフチューニングプロンプトフレームワーク。参考文献
以上が大規模な言語モデルで説明可能なニュースの推奨事項を作成しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。