無需人工標註！ LLM加持文本嵌入學習：輕鬆支援100種語言，適配數十萬名下游任務-人工智慧-PHP中文網

以大模型提昇文字嵌入

1. 合成資料產生

2. 訓練

#實驗結果

合成資料統計

主要結果

首頁

科技週邊

人工智慧

無需人工標註！ LLM加持文本嵌入學習：輕鬆支援100種語言，適配數十萬名下游任務

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 30, 2024 pm 09:39 PM

模型訓練

文字嵌入（word embedding）是自然語言處理（NLP）領域的基礎技術，它能夠將文字對應到語意空間，並轉化為稠密的向量表示。這種方法已被廣泛應用於各種NLP任務，包括資訊檢索（IR）、問答、文字相似度計算和推薦系統等。透過文本嵌入，我們可以更好地理解文本的含義和關係，從而提高NLP任務的效果。

在資訊檢索（IR）領域，第一階段的檢索通常使用文字嵌入進行相似度計算。它透過在大規模語料庫中召回一個小的候選文件集，然後進行細粒度的計算。基於嵌入的檢索也是檢索增強生成（RAG）的重要組成部分。它使得大型語言模型（LLM）能夠存取動態的外部知識，而無需修改模型參數。這樣一來，IR系統可以更好地利用文字嵌入和外部知識，提高檢索效果。

早期的文本嵌入學習方法如word2vec和GloVe雖然被廣泛應用，但它們的靜態特性限制了對自然語言中豐富上下文資訊的捕捉能力。然而，隨著預訓練語言模型的興起，一些新方法如Sentence-BERT和SimCSE透過微調BERT來學習文本嵌入，在自然語言推理（NLI）資料集上取得了顯著的進展。這些方法利用BERT的上下文感知能力，能夠更好地理解文本的語義和語境，從而提高了文本嵌入的品質和表達能力。透過預訓練和微調的結合，這些方法能夠從大規模的語料庫中學習到更豐富的語義信息，為自然語言處理

為了提高文本嵌入性能和魯棒性，先進的方法如E5和BGE採用了多階段訓練。它們首先對數十億個弱監督文本對進行預訓練，然後再在幾個標註資料集上進行微調。這種策略能夠有效地提昇文本嵌入的表現。

現有的多階段方法仍有兩個缺陷：

#1.建構一個複雜的多階段訓練pipeline，需要大量的工程工作來管理大量的相關性資料對（relevance pairs）。

2. 微調依賴人工收集的資料集，而這些資料集往往受到任務多樣性和語言覆蓋範圍的限制。

大部分方法都使用BERT式編碼器，忽略了更好的LLM和相關技術的訓練進展。

微軟的研究團隊最近提出了一種簡單而高效的文字嵌入訓練方法，以克服先前方法存在的一些缺陷。這種方法不需要複雜的管道設計或人工建構的資料集，而是利用LLM來合成多樣化的文字資料。透過這種方法，他們能夠為近100種語言的數十萬個文本嵌入任務產生高品質的文本嵌入，而整個訓練過程不到1000步。

無需人工標註！ LLM加持文本嵌入學習：輕鬆支援100種語言，適配數十萬名下游任務

論文連結：https://arxiv.org/abs/2401.00368

#具體來說，研究人員使用兩步驟提示策略，首先提示LLM腦力激盪候選任務池，然後提示LLM從池中產生給定任務的資料。

為了涵蓋不同的應用場景，研究人員為每個任務類型設計了多個提示模板，並將不同模板產生的資料進行聯合收割機組合，以提高多樣性。

實驗結果證明，當「僅對合成資料」進行微調時，Mistral-7B在BEIR和MTEB基準上獲得了非常有競爭力的性能；當同時加入合成和標註資料微調時，即可達到sota效能。

以大模型提昇文字嵌入

1. 合成資料產生

利用GPT-4等最先進的大型語言模型（LLM）來合成資料越來越受到重視，可以增強模型在多任務和多語言上的能力多樣性，進而可以訓練出更健壯的文本嵌入，在各種下游任務（如語義檢索、文本相似度計算、聚類）中都能表現良好。

為了產生多樣化的合成數據，研究人員提出了一個簡單的分類法，先將嵌入任務分類，然後再對每類任務使用不同的提示模板。

非對稱任務（Asymmetric Tasks）

包含查詢（query）和文件在語意上相關但彼此不互為改寫（paraphrase）的任務。

根據查詢和文檔的長度，研究人員進一步將非對稱任務分為四個子類別：短-長匹配（短查詢和長文檔，商業搜尋引擎中的典型場景），長-短匹配，短-短匹配和長-長匹配。

對於每個子類別，研究人員設計了一個兩步驟提示模板，首先提示LLM腦力激盪的任務列表，然後產生一個具體的例子的任務定義的條件；從GPT -4的輸出大多連貫一致，品質很高。

無需人工標註！ LLM加持文本嵌入學習：輕鬆支援100種語言，適配數十萬名下游任務

在初步實驗中，研究人員也嘗試使用單一提示產生任務定義和查詢文件對，但資料多樣性不如上述的兩步方法。

對稱任務

#主要包括具有相似語意但不同表面形式的查詢和文件。

文中研究了兩個應用場景：單語種（monolingual）語義文本相似性（STS）和雙文本檢索，並且為每個場景設計了兩個不同的提示模板，根據其特定目標進行定制，由於任務的定義比較簡單，所以腦力激盪步驟可以省略。

為了進一步提高提示詞的多樣性，提高合成資料的多樣性，研究人員在每個提示板中加入了幾個佔位符，在運行時隨機採樣，例如“{query_length}”代表從集合“{少於5個單詞，5-10個單詞，至少10個單詞}”中採樣的。

為了產生多語言數據，研究人員從XLM-R的語言清單中取樣「{language}」的值，給予高資源語言更多的權重；任何不符合預定義JSON格式的產生資料都會在解析過程中被丟棄；也會根據精確的字串比對刪除重複項。

2. 訓練

給定一個相關的查詢-文檔對，先使用原始查詢q 來產生一個新的指令q_inst，其中「{task_definition}」是嵌入任務的一句話所描述的佔位符。

無需人工標註！ LLM加持文本嵌入學習：輕鬆支援100種語言，適配數十萬名下游任務

對於產生的合成數據，使用腦力激盪步驟的輸出；對於其他數據集，例如MS-MARCO，研究人員手動建立任務定義並將其應用於資料集中的所有查詢，不修改文件端的任何指令前綴。

透過這種方式，可以預先建立文件索引，並且可以透過僅更改查詢端來自訂要執行的任務。

給定一個預先訓練的LLM，將一個[EOS]標記附加到查詢和文件的末尾，然後饋送到LLM中，透過取得最後一層[EOS]向量來取得查詢和文件嵌入。

然後採用標準的InfoNCE loss對批內negatives和hard negatives進行損失計算。

無需人工標註！ LLM加持文本嵌入學習：輕鬆支援100種語言，適配數十萬名下游任務

其中ℕ表示所有negatives的集合，無需人工標註！ LLM加持文本嵌入學習：輕鬆支援100種語言，適配數十萬名下游任務是用來計算查詢和文件之間的匹配分數， t是一個溫度超參數，在實驗中固定為0.02

無需人工標註！ LLM加持文本嵌入學習：輕鬆支援100種語言，適配數十萬名下游任務

#實驗結果

合成資料統計

研究人員使用Azure OpenAI服務產生了500k個樣本，包含150k條獨特指令，其中25%由GPT-3.5-Turbo生成，剩餘由GPT-4生成，總共消耗了1.8億個token 。

主要語言是英語，總共涵蓋93種語言；對於75種低資源語言，平均每種語言約有1k個樣本。

無需人工標註！ LLM加持文本嵌入學習：輕鬆支援100種語言，適配數十萬名下游任務

在資料品質方面，研究人員發現GPT-3.5-Turbo的部分輸出並沒有嚴格遵循提示範本中規定的準則，但儘管如此，整體品質仍然是可以接受的，初步實驗也證明了採用這一資料子集的好處。

模型微調與評估

#研究者對預訓練Mistral-7B使用上述損失微調1個epoch，遵循RankLLaMA的訓練方法，並使用秩為16的LoRA。

為了進一步降低GPU記憶體需求，採用梯度檢查點、混合精度訓練和DeepSpeed ZeRO-3等技術。

在訓練資料方面，同時使用了產生的合成資料和13個公共資料集，採樣後產生了約180萬個範例。

為了與先前的一些工作進行公平比較，研究人員也報告了當唯一的標註監督是MS-MARCO篇章排序資料集時的結果，還在MTEB基准上對模型進行了評估。

主要結果

下表中可以看到，文中得到的模型「E5mistral-7B full data」在MTEB基準測試中獲得了最高的平均分，比之前最先進的模型高出2.4分。

在「w/ synthetic data only」設定中，沒有使用標註資料進行訓練，但效能仍然很有競爭力。

無需人工標註！ LLM加持文本嵌入學習：輕鬆支援100種語言，適配數十萬名下游任務

研究人員也對幾種商業文本嵌入模型進行了比較，但由於這些模型缺乏透明度和文檔，因此無法進行公平的比較。

不過，在BEIR基準上的檢索效能比較結果中可以看到，訓練得到的模型在很大程度上優於目前的商業模型。

無需人工標註！ LLM加持文本嵌入學習：輕鬆支援100種語言，適配數十萬名下游任務

多語言檢索

#為了評估模型的多語言能力，研究人員在MIRACL資料集上進行了評估，包含18種語言的人工標註查詢和相關性判斷。

結果顯示，該模型在高資源語言上超過了mE5-large，尤其是在英語上，性能表現更出色；不過對於低資源語言來說，該模型與mE5-base相比仍不理想。

研究人員將此歸因於Mistral-7B主要在英語資料上進行了預訓練，預測多語言模型可以用該方法來彌補這一差距。

以上是無需人工標註！ LLM加持文本嵌入學習：輕鬆支援100種語言，適配數十萬名下游任務的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學

1666

CakePHP 教程

1426

Laravel 教程

1328

PHP教程

1273

C# 教程

1253

Related knowledge

開源！超越ZoeDepth！ DepthFM：快速且精確的單目深度估計！ Apr 03, 2024 pm 12:04 PM

0.這篇文章乾了啥？提出了DepthFM：一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外，DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高，可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題：DepthFM:FastMonocularDepthEstimationwithFlowMatching作者：MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

全球最強開源 MoE 模型來了，中文能力比肩 GPT-4，價格僅 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想像一下，一個人工智慧模型，不僅擁有超越傳統運算的能力，還能以更低的成本實現更有效率的效能。這不是科幻，DeepSeek-V2[1]，全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合（MoE）語言模型，具有訓練經濟、推理高效的特點。它由236B個參數組成，其中21B個參數用於啟動每個標記。與DeepSeek67B相比，DeepSeek-V2效能更強，同時節省了42.5%的訓練成本，減少了93.3%的KV緩存，最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI顛覆數學研究！菲爾茲獎得主、華裔數學家領銜11篇頂刊論文｜陶哲軒轉贊 Apr 09, 2024 am 11:52 AM

AI，的確正在改變數學。最近，一直十分關注這個議題的陶哲軒，轉發了最近一期的《美國數學學會通報》（BulletinoftheAmericanMathematicalSociety）。圍繞著「機器會改變數學嗎？」這個話題，許多數學家發表了自己的觀點，全程火花四射，內容硬核，精彩紛呈。作者陣容強大，包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化，要知道，其中許多文章是在一年前提交的，而在這一

替代MLP的KAN，被開源專案擴展到卷積了 Jun 01, 2024 pm 10:03 PM

本月初，來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如，作者表示，他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說，DeepMind的MLP有大約300,000個參數，而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎，MLP基於通用逼近定理，而KAN基於Kolmogorov-Arnold表示定理。如下圖所示，KAN在邊上具

你好，電動Atlas！波士頓動力機器人復活，180度詭異動作嚇到馬斯克 Apr 18, 2024 pm 07:58 PM

波士頓動力Atlas，正式進入電動機器人時代！昨天，液壓Atlas剛「含淚」退出歷史舞台，今天波士頓動力就宣布：電動Atlas上崗。看來，在商用人形機器人領域，波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後，短短十幾小時內，就已經有一百多萬觀看。舊人離去，新角色登場，這是歷史的必然。毫無疑問，今年是人形機器人的爆發年。網友銳評：機器人的進步，讓今年看起來像人類的開幕式動作、自由度遠超人類，但這真不是恐怖片？影片一開始，Atlas平靜地躺在地上，看起來應該是仰面朝天。接下來，讓人驚掉下巴

特斯拉機器人進廠打工，馬斯克：手的自由度今年將達到22個！ May 06, 2024 pm 04:13 PM

特斯拉機器人Optimus最新影片出爐，已經可以在工廠裡打工了。正常速度下，它分揀電池（特斯拉的4680電池）是這樣的：官方還放出了20倍速下的樣子——在小小的「工位」上，揀啊揀啊揀：這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作，是完全自主的，全程沒有人為的干預。而且在Optimus的視角之下，它還可以把放歪了的電池重新撿起來放置，主打一個自動糾錯：對於Optimus的手，英偉達科學家JimFan給出了高度的評價：Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

FisheyeDetNet：首個以魚眼相機為基礎的目標偵測演算法 Apr 26, 2024 am 11:37 AM

目標偵測在自動駕駛系統當中是一個比較成熟的問題，其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而，利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大，標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述，我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示，並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型，並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

$牛津大學最新！ Mickey：3D中的2D影像匹配SOTA！ (CVPR\'24)$ 牛津大學最新！ Mickey：3D中的2D影像匹配SOTA！ (CVPR\'24) Apr 23, 2024 pm 01:20 PM

寫在前面項目連結：https://nianticlabs.github.io/mickey/給定兩張圖片，可以透過建立圖片之間的對應關係來估計它們之間的相機姿態。通常，這些對應關係是二維到二維的，而我們估計的姿態在尺度上是不確定的。一些應用，例如隨時隨地實現即時增強現實，需要尺度度量的姿態估計，因此它們依賴外部的深度估計器來恢復尺度。本文提出了MicKey，這是一個關鍵點匹配流程，能夠夠預測三維相機空間中的度量對應關係。透過學習跨影像的三維座標匹配，我們能夠在沒有深度測試的情況下推斷度量相對

See all articles

無需人工標註！ LLM加持文本嵌入學習：輕鬆支援100種語言，適配數十萬名下游任務

以大模型提昇文字嵌入

1. 合成資料產生

2. 訓練

#實驗結果

合成資料統計

主要結果

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題