大型モデルは新たな研究ブームを牽引しており、産業界と学術界の両方で数多くの革新的な成果が生まれています。
Xiaohongshu 技術チームもこの波の中で常に模索しており、多くの論文の研究結果が ICLR、ACL、CVPR、AAAI、SIGIR、WWW などのトップ国際会議で頻繁に発表されています。
大規模モデルと自然言語処理の交差点で、どのような新しい機会と課題が発見されているのでしょうか?
大規模モデルの効果的な評価方法にはどのようなものがありますか?どうすればアプリケーション シナリオにうまく統合できるでしょうか?
6月27日19:00〜21:30、【REDtechがやってくる】『Little Red Book 2024 Large Model Frontier Paper Sharing』第11号がオンライン放送されます!
REDtechはXiaohongshuコミュニティ検索チームをライブブロードキャストルームに特別に招待し、2024年にXiaohongshuが出版した6つの大規模なモデル研究論文を共有します。 Xiaohongshu Jingpai LTRの責任者であるFeng Shaoxiong氏は、Li Yiwei氏、Wang Xinglin氏、Yuan Peiwen氏、Zhang Chao氏らと協力して、最新の大型モデルの解読および蒸留技術、大型モデルの評価方法、および大型モデルの使用について話し合いました。 Xiaohonshu プラットフォーム上の実用的なアプリケーションのモデル。
アクティビティアジェンダ
01 スカイハイコストの脱出: 多段階推論の早期停止の自己矛盾 / ICLR 2024 に選出
スカイハイコストの脱出: 早期停止の自己整合性マルチステップ推論 性的手法 | 共有者: Li Yiwei
自己一貫性 (SC) は、複数の思考チェーンを生成し、最終的な答えとして多数決を採用する解読戦略です。モデルのパフォーマンス。しかし、これは、あらかじめ設定されたサイズのサンプルを複数必要とする、コストのかかる方法です。 ICLR 2024 で、Xiaohongshu 氏は、SC のコストを大幅に削減できる、シンプルでスケーラブルなサンプリング プロセスである早期停止自己一貫性 (ESC) を提案しました。これに基づいて、チームはさらに、さまざまなタスクやモデルのパフォーマンスとコストのバランスを動的に選択するための ESC 制御スキームを導き出しました。 3 つの主流の推論タスク (数学、常識、記号推論) に関する実験結果は、ESC が元のパフォーマンスをほぼ維持しながら、6 つのベンチマーク全体の平均サンプル数を大幅に削減することを示しています。
論文アドレス: https://arxiv.org/abs/2401.10480
02 本質を統合し、ドロスを排除: 自由形式言語生成のためのきめ細かい自己一貫性 / ACL 2024 に選出
選択細かい点: 自由形式生成タスクのための細粒度自己一貫性手法| 共有者: Wang Xinglin
Xiaohongshu は、ACL 2024 で細粒度自己一貫性 (FSC) 手法を提案しました。 -自由形式生成タスクのパフォーマンスにおける一貫性メソッド。研究チームはまず、実験を通じて、自由形式生成タスクに対する既存の自己矛盾のない手法の欠点は、粒度の粗い共通サンプル選択に起因しており、異なるサンプルの粒度の細かいフラグメント間の共通知識を効果的に利用できないことを分析しました。これに基づいて、チームは大規模モデルの自己融合に基づく FSC 手法を提案し、実験により、かなりの消費量を維持しながら、コード生成、要約生成、および数学的推論タスクで大幅に優れたパフォーマンスを達成することが確認されました。
論文アドレス: https://github.com/WangXinglin/FSC
03 BatchEval: Towards Human-like Text Evaluation / ACL 2024に選出、フィールド委員長が満点を付けて最優秀論文を推薦
Mai人間レベルのテキスト評価を目指して| 共有者: Yuan Peiwen
Xiaohongshu は、より低いオーバーヘッドで人間のようなテキスト評価効果を実現できる BatchEval メソッドを ACL 2024 で提案しました。研究チームはまず、評価の頑健性における既存のテキスト評価手法の欠点が評価スコアの不均一な分布に起因し、スコア統合における次善のパフォーマンスが評価視点の多様性の欠如に起因していることを理論レベルから分析しました。これに基づいて、人間の評価プロセスにおけるサンプル間の比較からインスピレーションを得て、多様な視点によるより三次元的かつ包括的な評価ベンチマークを確立するために、BatchEval が類推的に提案されました。現在のいくつかの最先端のメソッドと比較して、BatchEval は評価オーバーヘッドと評価効果の両方で大幅に優れたパフォーマンスを実現します。
論文アドレス: https://arxiv.org/abs/2401.00437
04 相互一貫性によるSuperLLMの監督不十分な評価/ACL 2024に選出
相互一貫性による正確な監督信号の欠如下で超人レベルを達成一貫性 大規模言語モデルの評価| 共有者: Yuan Peiwen
Xiaohongshu は、ACL 2024 で PEEM 手法を提案しました。これは、モデル間の相互一貫性を通じて人間のレベルを超えた大規模な言語モデルの正確な評価を実現できます。研究チームはまず、大規模な言語モデルの急速な開発傾向が、多くの面で徐々に人間のレベルに達し、あるいは超えることを加速させるだろうと分析した。この状況では、人間はもはや正確な評価信号を提供できなくなるだろう。このシナリオでの能力評価を実現するために、チームはモデル間の相互整合性を評価信号として使用するというアイデアを提案し、評価サンプルが無限の場合、参照モデル間に独立した予測分布が存在することを導き出しました。および評価対象のモデルを指定すると、参照モデル間のこの一貫性をモデルの機能の正確な尺度として使用できます。これに基づいて、チームはEMアルゴリズムに基づくPEEM手法を提案し、実験により、実際には上記の条件の不足を効果的に軽減し、人間のレベルを超える大規模な言語モデルの正確な評価を達成できることを確認しました。
論文アドレス: https://github.com/ypw0102/PEEM
05 Turning Dust into Gold: Distilling Complex Reasoning Capabilities from LLMs by Leveraging Negative Data / AAAI 2024 Oral に選出
プロモーションにネガティブサンプルを使用大規模モデル 推論機能の抽出 | 共有者: Li Yiwei
大規模言語モデル (LLM) は、さまざまな推論タスクでうまく機能しますが、そのブラックボックス特性と膨大な数のパラメーターが、実際の広範な適用の妨げとなります。特に複雑な数学的問題を扱う場合、LLM は誤った推論の連鎖を生成することがあります。従来の研究方法では、肯定的なサンプルからの知識のみが伝達され、間違った答えを含む合成データは無視されます。 AAAI 2024 で、Xiaohongshu 検索アルゴリズム チームは革新的なフレームワークを提案し、モデル蒸留プロセスにおけるネガティブ サンプルの価値を初めて提案および検証し、ポジティブ サンプルの使用に加えて完全な分析を行うモデル特化フレームワークを構築しました。ネガティブサンプルの使用 LLM の知識を高めるため。このフレームワークには、ネガティブ支援トレーニング (NAT)、ネガティブ キャリブレーション強化 (NCE)、動的自己一貫性 (ASC) を含む 3 つのシリアル化ステップが含まれており、トレーニングから推論までのプロセス全体をカバーします。広範な一連の実験により、LLM 知識の蒸留におけるネガティブ データの重要な役割が実証されています。
論文アドレス: https://arxiv.org/abs/2312.12832
06 NoteLLM: A Retrievable Large Language Model for Note Recommendation / WWW 2024に選出
大規模言語モデルに基づくノートコンテンツ表現推奨システム| 共有者: Zhang Chao
Xiaohonshu APP は毎日大量の新しいメモを生成します。これらの新しいコンテンツを興味のあるユーザーに効果的に推奨するにはどうすればよいですか?メモの内容に基づく推奨表現は、メモのコールド スタートの問題を軽減する方法であり、多くの下流アプリケーションの基礎でもあります。近年、大規模言語モデルは、その強力な一般化機能とテキスト理解機能により大きな注目を集めています。したがって、私たちは大規模な言語モデルを使用して、メモ内容の理解を高めるためのメモ内容表現推奨システムを構築したいと考えています。強化された表現の生成とマルチモーダルなコンテンツ表現の生成という 2 つの観点から、私たちの最近の取り組みを紹介します。現在、このシステムは小紅書社の複数のビジネスシナリオに適用され、大きなメリットをもたらしています。 紙アドレス: https://arxiv.org/abs/2403.01744ライブ視聴方法
ライブ放送時間: 2024年6月27日 19:00〜21:30
ライブブロードキャストプラットフォーム: WeChatビデオアカウント[REDtech]、同じ名前のBilibili、Douyin、Xiaohongshuアカウントでライブブロードキャストします。
友達を招待してライブ配信ギフトの予約をしてください
Xiaohongshu コミュニティ検索チームは現在、複数のポジションを募集しています。このチームは、Xiaohongshu の検索結果の最適化と切断の探索を担当しています。 -エッジテクノロジーを活用し、中国最大のライフサーチエンジンの構築に取り組んでいます。ぜひご参加ください!以上が小紅書の大規模なモデル論文共有セッションには、4 つの主要な国際会議の著者が集まりましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。