雙語強國Exaone 3.5設定了新的AI標準-人工智慧-PHP中文網

LG AI研究揭示了Exaone 3.5：一種強大的多語言大語言模型。最新的迭代具有增強的AI功能和可訪問性，於2024年12月發布。 Exaone3.5提供了三種不同的型號尺寸：24億，78億和320億個參數，每個參數都針對不同的性能需求進行了優化 - 從移動應用程序到計算較密集的任務。它在英語和韓文方面的雙語能力，再加上改進的跟踪和長篇小說的理解，將其定位為各個部門的多功能工具。

關鍵學習點

*本文是*** 數據科學blogathon的一部分。 目錄的

>基於推理的LLM的功能？

Exaone 3.5
了解直接偏好優化（DPO）
數據去污染過程
>性能基準
>在Google Colab上運行Exaone 3.5（70億參數模型），通過Ollama
>帶有不同提示的模型測試
現實世界應用程序示例
結論
常見問題
> 基於推理的LLM，例如Exaone 3.5，在需要邏輯推理，解決問題和模式識別的複雜任務上表現出色。它們基於基於高級變壓器的網絡，有效地處理順序數據和廣泛的上下文。在大規模數據集中培訓，他們識別信息中的關係，產生準確的響應，解決問題，並精確地按照說明。

Exaone 3.5模型體系結構

Exaone 3.5採用了僅解碼器的變壓器體系結構，這是現代LLM設計的標準，以其處理順序數據效率而聞名。該體系結構已優化，可用於遵循指令，確保對用戶命令的有效理解和執行。其三個變體（2.4b，7.8b和32b參數）的關鍵規格為：

：32,768令牌
：32
：14,336 Exaone 3.5

擴展上下文長度 Bilingual Powerhouse EXAONE 3.5 Sets New AI Standards ：最大上下文長度（32,768代幣）允許有效地處理較大的文本而不會犧牲連貫性。

Exaone 3.5使用了兩個階段的訓練過程：通用域培訓，然後進行特定於任務的微調，以進行長篇文化的理解。預培訓可以消除重複和個人身份信息，提高績效並降低基礎設施成本。培訓後，SFT和DPO增強了跟隨指導和用戶偏好對齊。 >

嚴格的去污過程消除了訓練集中的有偏見的數據，從而確保了無偏見的評估。這涉及將培訓數據與評估數據集的迭代比較。

> 了解直接偏好優化（DPO）

DPO是一種新穎的算法，用於通過將它們與人類的偏好保持一致，繞過傳統強化學習的複雜性，是通過將它們與人類的偏好保持一致的。與需要復雜的獎勵建模的RLHF不同，DPO使用直接的分類損失簡化了該過程，以根據用戶偏好優化模型響應。這會導致穩定，高效和計算輕量級訓練。請注意，DPO需要一個包含三重態的偏好數據集（提示，選擇答案，拒絕答案）。

數據去污染過程數據淨化是通過從訓練數據集中刪除受污染的示例來改善模型概括的關鍵過程。網上爬行的數據通常包含測試集示例，導致評估有偏差。 Exaone 3.5使用基因級匹配方法來識別和刪除這些受污染的樣品。

這些架構增強功能使Exaone 3.5在實際應用中表現出色，同時保持跨基準的強大性能。