首頁 > 科技週邊 > 人工智慧 > LLMS合成數據生成

LLMS合成數據生成

PHPz
發布: 2025-02-25 16:54:10
原創
323 人瀏覽過

>檢索授權的發電(RAG):革新財務數據分析

>本文探討了金融公司中檢索增強發電(RAG)的普及,重點介紹了它如何簡化知識訪問並應對LLM驅動的解決方案中的關鍵挑戰。 RAG將獵犬(位置相關文檔)與大語言模型(LLM)(合成響應)結合在一起,證明對客戶支持,研究和內部知識管理等任務非常寶貴。 有效的LLM評估至關重要。 受測試驅動的開發啟發,一種評估驅動的方法使用可測量的基準來驗證和完善AI工作流程。 對於抹布,這涉及創建代表性輸入輸出對(例如,用於聊天機器人或源文檔和預期摘要的問答對)。 傳統上,該數據集創建在很大程度上依賴於主題專家(SME),從而導致了耗時,不一致和昂貴的過程。 此外,LLMS在文檔(表格,圖表)中處理視覺元素的局限性阻礙了準確性,而標準的OCR工具通常會掉落。

>

克服多模式能力

>多模式基礎模型的出現提供了解決方案。 這些模型同時處理文本和視覺內容,消除了單獨的文本提取的需求。 他們可以攝入整個頁面,識別佈局結構,圖表和表格,從而提高準確性,可擴展性和減少手動努力。 >

案例研究:財富管理研究報告分析

>本研究使用2023 Cerulli報告(結合文本和復雜視覺效果的典型財富管理文件)來演示自動化的問答生成。 目的是產生包含視覺元素的問題並產生可靠的答案。 該過程採用了人類的Claude Sonnet 3.5,該過程在內部處理PDF到圖像轉換,簡化了工作流程並降低了代碼複雜性。 > 提示指示該模型分析特定頁面,標識頁面標題,創建引用視覺或文本內容的問題,並為每個問題生成兩個不同的答案。 實施了一種比較學習方法,提供了兩個答案,以評估和選擇優越的響應。這反映了人類決策,其中比較替代方案簡化了過程。 這與“我們從LLM的一年中學到的知識”中強調了最佳實踐,強調了對LLM評估的成對比較的穩定性。

> 優化工作流程:緩存,批處理和頁面選擇>

實施了幾個優化:>

  • 緩存:>緩存大大降低了成本。 處理報告而無需緩存的報告費用為9美元;通過緩存,價格為3美元(節省3倍)。 節省成本的規模更加戲劇性。 >
  • >批處理處理:使用Anthropic的批次API減半成本,證明比單獨處理更具成本效益。 >
  • >頁面選擇:
  • 以10頁批量處理文檔可以在精度和效率之間達到最佳平衡。 使用清晰的頁面標題作為錨,證明比僅依靠頁碼鏈接Q&A對與其來源更可靠。 >
  • 示例輸出和福利

> >一個示例顯示了LLM如何準確地從報告中的表中合成信息,以回答有關AUM分佈的問題。 總體好處包括:

通過緩存和批處理處理,

>大幅降低

  • 減少了中小企業的時間和精力,使他們可以專注於更高價值的任務。
  • 這種方法展示了一種可擴展且具有成本效益的解決方案,用於為破布系統創建評估數據集,從而利用多模式LLM的功能提高財務數據分析的準確性和效率。 原始文本中的圖像如下:

以上是LLMS合成數據生成的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板