小红书这场大模型论文分享会，集齐了四大国际顶会的作者-人工智能-PHP中文网

大模型正引领新一轮的研究热潮，业界和学术界都涌现出了众多的创新成果。

小红书技术团队也在这一浪潮中不断探索，多篇论文研究成果在 ICLR、ACL、CVPR、AAAI、SIGIR、WWW 等国际顶会上频频亮相。

在大模型与自然语言处理的交汇处，我们发现了哪些新机遇和挑战？

对于大模型，有哪些有效的评测方法？它又如何更好地融入到应用场景中的呢？

6 月 27 日 19:00-21:30，【REDtech 来了】第十一期《小红书 2024 大模型前沿论文分享》线上开播！

REDtech 特别邀请了小红书社区搜索团队来到直播间，他们将分享 6 篇小红书在 2024 年发表的大模型研究论文。小红书精排 LTR 负责人冯少雄，携手多位顶会论文作者李易为、王星霖、袁沛文、张超等人，共同探讨最新的大模型解码与蒸馏技术、大模型评测方法，以及大模型在小红书平台上的实际应用。

预约直播，多篇论文一作作者在线与你交流！你将获得关于大模型技术的最新见解，探讨未来的发展趋势，并交流如何利用这些前沿技术提升用户体验，推动平台智能化发展。

活动议程 小红书这场大模型论文分享会，集齐了四大国际顶会的作者

01 Escape Sky-high Cost: Early-stopping Self-Consistency for Multi-step Reasoning / 入选 ICLR 2024

针对大模型多步推理中高成本问题的早停自洽性方法｜分享人：李易为

自洽性方法（Self-Consistency，SC）一直是思维链推理中广泛使用的解码策略，通过生成多个思维链并取多数答案作为最终答案，来提高模型的性能。但它是一种高成本的方法，需要进行预设大小的多次采样。在 ICLR 2024 上，小红书提出一种简单且可扩展的采样过程 —— 早停自洽性方法（Early-Stopping Self-Consistency，ESC），它能在不牺牲性能的情况下，大幅度降低 SC 的成本。在此基础上，团队进一步推导出一种 ESC 控制方案，以动态选择不同任务和模型的性能 - 成本平衡。三种主流推理任务（数学，常识和符号推理）的实验结果显示，ESC 在六个基准测试中显著降低了平均采样次数，同时几乎保持原有性能。

论文地址：https://arxiv.org/abs/2401.10480

02 Integrate the Essence and Eliminate the Dross: Fine-Grained Self-Consistency for Free-Form Language Generation / 入选 ACL 2024

去粗取精：面向自由格式生成任务的细粒度自洽性方法｜ 分享人：王星霖

小红书在 ACL 2024 中提出了 Fine-Grained Self-Consistency (FSC) 方法，能够显著提升自洽性方法在自由格式生成任务上的表现。团队首先通过实验分析了现有面向自由格式生成任务的自洽性方法的不足来自于粗粒度的共性样本选择，其无法有效利用不同样本细粒度片段之间的共性知识。在此基础上团队提出了基于大模型自融合的 FSC 方法，实验证实其在代码生成、摘要生成以及数学推理任务上都取得了显著更优的表现，同时保持了相当的消耗。

论文地址：https://github.com/WangXinglin/FSC

03 BatchEval: Towards Human-like Text Evaluation / 入选 ACL 2024，领域主席给出满分评分，并推荐最佳论文

迈向人类水平的文本评测｜ 分享人：袁沛文

小红书在 ACL 2024 中提出了 BatchEval 方法，能够以更低的开销达到类人水平的文本评测效果。团队首先从理论层面分析了现有文本评测方法在评测鲁棒性方面的不足来自于评测打分分布不均匀、在得分集成方面的次优表现源自于评测视角多样性的缺失。在此基础上，受人类评测过程中通过样本间比较来建立更加立体全面、视角多样的评测基准启发，类比提出了 BatchEval。与当前最先进的若干方法相比，BatchEval 在评测开销与评测效果两方面都取得了显著更优的表现。

论文地址：https://arxiv.org/abs/2401.00437

04 Poor-Supervised Evaluation for SuperLLM via Mutual Consistency / 入选 ACL 2024

通过互一致性实现准确监督信号匮乏下的超人水平大语言模型评测｜ 分享人：袁沛文

Xiaohongshu mencadangkan kaedah PEEM dalam ACL 2024, yang boleh mencapai penilaian tepat model bahasa besar di luar tahap manusia melalui konsistensi bersama antara model. Pasukan itu mula-mula menganalisis bahawa aliran semasa perkembangan pesat model bahasa besar akan mempercepatkan capaian secara beransur-ansur atau bahkan melebihi tahap manusia dalam banyak aspek Di bawah keadaan ini, manusia tidak lagi dapat memberikan isyarat penilaian yang tepat. Untuk merealisasikan penilaian keupayaan dalam senario ini, pasukan mencadangkan idea untuk menggunakan konsistensi bersama antara model sebagai isyarat penilaian, dan memperoleh bahawa apabila sampel penilaian adalah tidak terhingga, jika terdapat taburan ramalan bebas antara model rujukan dan model yang hendak dinilai, maka Konsistensi antara model rujukan ini boleh digunakan sebagai ukuran tepat keupayaan model. Atas dasar ini, pasukan mencadangkan kaedah PEEM berdasarkan algoritma EM, dan eksperimen mengesahkan bahawa ia boleh mengurangkan ketidakcukupan keadaan di atas secara berkesan dalam realiti, dengan itu mencapai penilaian tepat model bahasa besar yang melebihi tahap manusia.

Alamat kertas: https://github.com/ypw0102/PEEM

05 Menukar Debu Menjadi Emas: Menyuling Keupayaan Penaakulan Kompleks daripada LLM dengan Memanfaatkan Data Negatif / Dipilih dalam AAAI 2024 Lisan

untuk mempromosikan sampel negatif model besar Penyulingan keupayaan penaakulan |. Pekongsi: Li Yiwei

Model bahasa besar (LLM) berprestasi baik pada pelbagai tugas penaakulan, tetapi sifat kotak hitamnya dan sejumlah besar parameter menghalang penggunaannya yang meluas dalam amalan. Terutama apabila menangani masalah matematik yang kompleks, LLM kadangkala menghasilkan rantaian penaakulan yang salah. Kaedah penyelidikan tradisional hanya memindahkan pengetahuan daripada sampel positif dan mengabaikan data sintetik tersebut dengan jawapan yang salah. Pada AAI 2024, pasukan algoritma carian Xiaohongshu mencadangkan rangka kerja yang inovatif, mencadangkan dan mengesahkan nilai sampel negatif dalam proses penyulingan model buat kali pertama, dan membina rangka kerja pengkhususan model yang, selain menggunakan sampel positif, juga dibuat sepenuhnya penggunaan sampel negatif Untuk memperhalusi pengetahuan LLM. Rangka kerja tersebut merangkumi tiga langkah bersiri, termasuk Latihan Berbantu Negatif (NAT), Peningkatan Penentukuran Negatif (NCE) dan Ketekalan Diri Dinamik (ASC), meliputi keseluruhan proses daripada latihan hingga inferens. Satu siri eksperimen yang meluas menunjukkan peranan kritikal data negatif dalam penyulingan pengetahuan LLM.

Alamat kertas: https://arxiv.org/abs/2312.12832

06 NotaLLM: Model Bahasa Besar yang Boleh Diperoleh untuk Pengesyoran Nota / Dipilih untuk WWW 2024

model kandungan berdasarkan sistem perwakilan bahasa yang besar Dikongsi oleh: Zhang Chao

APP Xiaohongshu menjana sejumlah besar nota baharu setiap hari Bagaimana untuk mengesyorkan kandungan baharu ini dengan berkesan kepada pengguna yang berminat? Perwakilan pengesyoran berdasarkan kandungan nota adalah kaedah untuk mengurangkan masalah permulaan sejuk nota dan juga merupakan asas untuk banyak aplikasi hiliran. Dalam tahun-tahun kebelakangan ini, model bahasa besar telah menarik banyak perhatian kerana keupayaan generalisasi dan pemahaman teks yang kuat. Oleh itu, kami berharap dapat menggunakan model bahasa yang besar untuk membina sistem pengesyoran perwakilan kandungan nota untuk meningkatkan pemahaman kandungan nota. Kami memperkenalkan kerja terbaru kami dari dua perspektif: menjana perwakilan yang dipertingkatkan dan perwakilan kandungan berbilang mod. Pada masa ini, sistem ini telah digunakan pada pelbagai senario perniagaan Xiaohongshu dan mencapai faedah yang ketara.

Alamat kertas: https://arxiv.org/abs/2403.01744

小红书这场大模型论文分享会，集齐了四大国际顶会的作者

Cara untuk menonton secara langsung

Masa siaran langsung 227,-1: 22 Jun: 00:00
Platform Siaran Langsung: Akaun video WeChat [REDtech], siaran langsung di akaun Bilibili, Douyin dan Xiaohongshu dengan nama yang sama.

Pada masa yang sama, siaran langsung juga akan disiarkan secara serentak pada akaun video WeChat rakan kongsi [Jichi Platform], [Tapak Ini] dan [Datawhale].

Anda dialu-alukan untuk mengisi soal selidik dan beritahu kami isu yang anda ambil berat tentang model besar, dan berinteraksi dengan tetamu secara mendalam semasa siaran langsung.

小红书这场大模型论文分享会，集齐了四大国际顶会的作者

Imbas kod QR di bawah untuk memasuki kumpulan komunikasi siaran langsung, dan anda akan mendapat pautan siaran langsung dan mulakan peringatan secepat mungkin; anda boleh membungkus dan mendapatkan [koleksi PDF kertas] yang teratur dengan satu klik , dan anda juga akan berpeluang untuk berkomunikasi secara langsung dengan pengarang kertas kerja! Kawan -kawan untuk membuat temujanji untuk hadiah siaran langsung. -teknologi canggih, dan komited untuk membina enjin carian hayat terbesar di China. Kami harap anda boleh sertai!

小红书这场大模型论文分享会，集齐了四大国际顶会的作者