小紅書這場大模型論文分享會,集齊了四大國際頂會的作者
大模型正引領新一輪的研究熱潮,業界和學術界都湧現出了眾多的創新成果。
小紅書技術團隊也在這一浪潮中不斷探索,多篇論文研究成果在 ICLR、ACL、CVPR、AAAI、SIGIR、WWW 等國際頂會上頻頻亮相。
在大模型與自然語言處理的交會處,我們發現了哪些新機會與挑戰?
對於大模型,有哪些有效的評測方法?它又如何更好地融入應用程式場景中的呢?
6 月 27 日 19:00-21:30,【REDtech 來了】第十一期《小紅書 2024 大模型前沿論文分享》線上開播!
REDtech 特別邀請了小紅書社群搜尋團隊來到直播間,他們將分享 6 篇小紅書在 2024 年發表的大模型研究論文。小紅書精排LTR 負責人馮少雄,攜手多位頂會論文作者李易為、王星霖、袁沛文、張超等人,共同探討最新的大模型解碼與蒸餾技術、大模型評測方法,以及大模型在小紅書平台上的實際應用。
活動議程
01 Escape Sky-high Cost: Early-stopping Self-Consistency for Multi-step Reasoning / 入選>
針對大模型多步驟推理中高成本問題的早停自洽性方法| 分享人:李易為
自洽性方法(Self-Consistency ,SC)一直是思維鏈推理中廣泛使用的解碼策略,透過產生多個思維鏈並取多數答案作為最終答案,來提高模型的效能。但它是一種高成本的方法,需要進行預設大小的多次取樣。在ICLR 2024 上,小紅書提出一個簡單且可擴展的取樣過程- 早停自洽性方法(Early-Stopping Self-Consistency,ESC),它能在不犧牲效能的情況下,大幅降低SC 的成本。在此基礎上,團隊進一步推導出一種 ESC 控制方案,以動態選擇不同任務和模型的效能 - 成本平衡。三個主流推理任務(數學,常識和符號推理)的實驗結果顯示,ESC 在六個基準測試中顯著降低了平均採樣次數,同時幾乎保持原始效能。 論文地址:https://arxiv.org/abs/2401.1048002 Integrate the Essence and Eliminate the Dross: Fine-Grained Self-Consistency for Free-Form Langu / 入選ACL 2024
去粗取精:面向自由格式生成任務的細粒度自洽性方法| 分享人:王星霖分享人
:王星霖 小紅書在ACL 2024 中提出了Fine-Grained Self-Consistency (FSC) 方法,能夠顯著提升自洽性方法在自由格式產生任務上的表現。團隊首先透過實驗分析了現有面向自由格式產生任務的自洽性方法的不足來自於粗粒度的共性樣本選擇,其無法有效利用不同樣本細粒度片段之間的共通性知識。在此基礎上團隊提出了基於大模型自融合的 FSC 方法,實驗證實其在程式碼生成、摘要生成以及數學推理任務上都取得了顯著更優的表現,同時保持了相當的消耗。論文地址:https://github.com/WangXinglin/FSC
03 BatchEval: Towards Human-like Text Evaluation / 入選ACL 2024,領域主席給予滿分評分,領域主席並推薦最佳論文邁向人類層級的文字評測|
分享人:袁沛文
小紅書在ACL 2024中提出了BatchEval 方法,能夠以更低的開銷達到類人層級的文字評測效果。團隊首先從理論層面分析了現有文本評測方法在評測魯棒性方面的不足來自於評測打分分佈不均勻、在得分集成方面的次優表現源自於評測視角多樣性的缺失。在此基礎上,受人類評測過程中透過樣本間比較來建立更立體全面、視角多樣的評測基準啟發,類比提出了 BatchEval。與目前最先進的若干方法相比,BatchEval 在評測開銷與評測效果兩方面都取得了顯著更優的表現。論文地址:https://arxiv.org/abs/2401.00437
04 Poor-Supervised Evaluation for SuperLLM via Mutual Consistency / 入選ACL 2024透過互一致實現準確監督訊號匱乏下的超人水平大語言模型評測| 分享人:袁沛文
小紅書在 ACL 2024 中提出了 PEEM 方法,其能夠透過模型間的互一致性來實現對於超越人類水平的大語言模型的準確評測。團隊首先分析了當前大語言模型快速發展的趨勢會加速其在多個方面逐漸達到甚至超越人類水平,在此情況下,人類將難以再提供準確的評測訊號。為實現該場景下的能力評測,團隊提出了以模型間的互一致性為評測訊號的設想,並推導出了在評測樣本無窮時,如果存在參考模型與待評測模型間預測分佈獨立,則與此參考模型間的一致性可以作為模型能力的準確量測。在此基礎上,團隊提出了基於 EM 演算法的 PEEM 方法,實驗證實其能夠有效緩解現實中上述條件的不充足,從而實現對超越人類水平的大語言模型的準確評測。
論文地址:https://github.com/ypw0102/PEEM
05 Turning Dust into Gold:Distilling Complex Reasoning Capabilities from LLMs by Leveraging NAAAegative / plex Reasoning Capabilities from LLMs by Leveraging NAAAegative / 14424
利用負樣本促進大模型推理能力的蒸餾| 分享人:李易為
大語言模型(LLMs)在各種推理任務上表現優異,但其黑盒屬性和龐大參數量阻礙了它在實踐中的廣泛應用。特別是在處理複雜的數學問題時,LLMs 有時會產生錯誤的推理鏈。傳統研究方法僅從正樣本中遷移知識,而忽略了那些帶有錯誤答案的合成資料。在AAAI 2024 上,小紅書搜尋演算法團隊提出了一個創新框架,首次提出並驗證了負樣本在模型蒸餾過程中的價值,建立一個模型專業化框架,除了使用正樣本外,還充分利用負樣本來提煉LLM 的知識。該框架包括三個序列化步驟,包括負向協助訓練(NAT)、負向校準增強(NCE)和動態自洽性(ASC),涵蓋從訓練到推理的全階段過程。一系列廣泛的實驗,展示了負向數據在 LLM 知識蒸餾中的關鍵作用。
論文地址:https://arxiv.org/abs/2312.12832
06 NoteLLM: A Retrievable Large Language Model for Note Recommendation / 入選WWW 2024
基於大語言模型的筆記內容表徵推薦系統|分享人:張超小紅書APP 每天都有大量新書產生,如何有效地將這些新內容推薦給有興趣的用戶呢?基於筆記內容的推薦表徵是緩解筆記冷啟動問題的一種方法,也是眾多下游應用的基礎。近年來,大語言模型因其強大的泛化性和文字理解能力而備受關注。因此,我們希望利用大語言模型建構筆記內容表徵推薦系統,以增強筆記內容的理解。我們從產生增強表徵以及多模態內容表徵兩個角度介紹我們近期的工作。目前該系統已應用於小紅書多個業務場景並取得顯著收益。
論文網址:https://arxiv.org/abs/2403.01744
直播觀看方式:微信視訊號碼【小紅書技術REDtech】,B 站、抖音、小紅書同名帳號即時直播。
掃描?下方二維碼進入直播交流群,將第一時間獲取直播連結及開播提醒;可一鍵打包獲取精心整理的【論文PDF 合集】 ,還有機會與論文作者直接交流!
邀請好友預約直播好禮
小紅書社群搜尋團隊多多工作團隊在熱招中,團隊負責小紅書搜尋效果的優化和尖端技術的探索,致力於打造中國最大的生活搜尋引擎。期待你的加入!以上是小紅書這場大模型論文分享會,集齊了四大國際頂會的作者的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

8月21日,2024世界機器人大會在北京隆重召開。商湯科技旗下家用機器人品牌「元蘿蔔SenseRobot」家族全系產品集體亮相,並最新發布元蘿蔔AI下棋機器人-國際象棋專業版(以下簡稱「元蘿蔔國象機器人」),成為全球首個走進家庭的西洋棋機器人。作為元蘿蔔的第三款下棋機器人產品,全新的國象機器人在AI和工程機械方面進行了大量專項技術升級和創新,首次在家用機器人上實現了透過機械爪拾取立體棋子,並進行人機對弈、人人對弈、記譜複盤等功能,

開學將至,該收心的不只即將開啟新學期的同學,可能還有AI大模型。前段時間,Reddit擠滿了吐槽Claude越來越懶的網友。 「它的水平下降了很多,經常停頓,甚至輸出也變得很短。在發布的第一周,它可以一次性翻譯整整4頁文稿,現在連半頁都輸出不了!」https:// www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一個名為“對Claude徹底失望了的帖子裡”,滿滿地

在北京舉行的世界機器人大會上,人形機器人的展示成為了現場絕對的焦點,在星塵智能的展台上,由於AI機器人助理S1在一個展區上演揚琴、武術、書法三台大戲,能文能武,吸引了大量專業觀眾和媒體的駐足。在有彈性的琴弦上優雅的演奏,讓S1展現出速度、力度、精準度兼具的精細操作與絕對掌控。央視新聞對「書法」背後的模仿學習和智慧控制進行了專題報道,公司創始人來傑解釋到,絲滑動作的背後,是硬體側追求最好力控和最仿人身體指標(速度、負載等),而是在AI側則採集人的真實動作數據,讓機器人遇強則強,快速學習進化。而敏捷

本屆ACL大會,投稿者「收穫滿滿」。為期六天的ACL2024正在泰國曼谷舉辦。 ACL是計算語言學和自然語言處理領域的頂級國際會議,由國際計算語言學協會組織,每年舉辦一次。一直以來,ACL在NLP領域的學術影響力都名列第一,它也是CCF-A類推薦會議。今年的ACL大會已是第62屆,接收了400餘篇NLP領域的前沿工作。昨天下午,大會公佈了最佳論文等獎項。此次,最佳論文獎7篇(兩篇未公開)、最佳主題論文獎1篇、傑出論文獎35篇。大會也評出了資源論文獎(ResourceAward)3篇、社會影響力獎(

目前為止,AI穿戴裝置賽道還沒有任何一個產品取得特別好的成績。今年年初在MWC24橫空出世的AIPin,評樣機一經寄出,發佈時被狂吹的「AI神話」也開始破滅,短短幾個月就經歷了大規模退貨;同樣開局賣爆的RabbitR1則相對好些,但也在大批交付時受到了類似「Android套殼」的不利評價。現在,又有一家公司進入了AI穿戴裝置賽道。科技媒體TheVerge昨天發布博文,表示AI新創公司Plaud推出了一款名為NotePin產品。有別於仍在「畫餅」階段的AIFriend,NotePin目前已開始

視覺與機器人學習的深度融合。當兩隻機器手絲滑地互相合作疊衣服、倒茶、將鞋子打包時,加上最近老上頭條的1X人形機器人NEO,你可能會產生一種感覺:我們似乎開始進入機器人時代了。事實上,這些絲滑動作正是先進機器人技術+精妙框架設計+多模態大模型的產物。我們知道,有用的機器人往往需要與環境進行複雜精妙的交互,而環境則可被表示成空間域和時間域上的限制。舉個例子,如果要讓機器人倒茶,那麼機器人首先需要抓住茶壺手柄並使之保持直立,不潑灑出茶水,然後平穩移動,一直到讓壺口與杯口對齊,之後以一定角度傾斜茶壺。這

會議簡介隨著科技的快速發展,人工智慧成為了推動社會進步的重要力量。在這個時代,我們有幸見證並參與分散式人工智慧(DistributedArtificialIntelligence,DAI)的創新與應用。分散式人工智慧是人工智慧領域的重要分支,這幾年引起了越來越多的關注。基於大型語言模型(LLM)的智能體(Agent)異軍突起,透過結合大模型的強大語言理解和生成能力,展現了在自然語言互動、知識推理、任務規劃等方面的巨大潛力。 AIAgent正在接棒大語言模型,成為目前AI圈的熱門話題。 Au

小紅書如何移除粉絲第一步:開啟【小紅書】APP進入主頁,點選如下圖所示的【粉絲】按鍵;第二步:進入到粉絲的頁面,選擇需要移除掉的粉絲;第三步:來到個人資訊的頁面點擊右上角的三個點圖示;第四步:頁面挑戰出來小視窗選擇【拉黑】按鍵;第五步:之後視窗中出現一個選項,點選【拉黑】選項即可移除。
