本週一,Stability AI 開源了小體量預訓練模型 Stable Code Instruct 3B。
Stable Code Instruct 3B 是建立在 Stable Code 3B 基礎上的指令調整編碼語言模型(Code LM)。透過提供自然語言提示,該模型可應用於多種任務,包括程式碼生成、數學問題以及其他與軟體工程相關的任務。
Stability AI聲稱,他們的模型在規模為3B時表現出了最先進的性能,優於CodeLlama的7B Instruct等更大規模的模型,在軟體工程相關任務中,甚至與StarChat的15B模型性能相當。
Stable Code Instruct 3B已經升級了程式碼補全功能,並且支援自然語言交互,旨在提高程式設計和軟體開發任務的效率和直覺性。實驗結果顯示,這個模型在各種編碼相關任務中表現優異,超過了Codellama 7B Instruct和DeepSeek-Coder Instruct 1.3B等競爭對手模型。
Stable Code 建立在 Stable LM 3B 的基礎上。 Stable Code 是因果純解碼器transformer,類似於LLaMA 架構,與LLaMA 的主要區別如下:
下表給出了預訓練語料庫資料集的取樣權重、 epoch、類別等資訊。
#根據Stack Overflow 2023 開發者調查報告,Stable Code Instruct 3B 重點專注於Python、Javascript、Java、C、C 和Go 等語言,這些語言對於各種開發人員來說是最受歡迎和最有影響力的。雖然這些語言被選為訓練的重點,但該模型也針對其他廣泛採用的語言(例如 SQL、PHP 和 Rust)進行了訓練。
即使對於原本未包含在訓練集中的語言(例如Lua),Stable Code Instruct 3B 也能提供強大的測試性能。這種熟練程度可能源自於其對底層編碼原理的理解,以及利用編碼任務固有的可預測性,在不同程式環境中適應概念的能力。
Stable Code Instruct 3B 不僅精通程式碼生成,還精通 FIM(Fill in the Middle)任務、資料庫查詢、程式碼翻譯、解釋和創建。其指令調整使其能夠理解並按照細緻入微的指令採取行動,促進除簡單代碼完成之外的廣泛編碼任務,包括數學理解、邏輯推理和圍繞軟體開發處理複雜的技術描述。
與Codellama 7B Instruct 和DeepSeek-Coder Instruct 1.3B 等領先模型相比,Stable Code Instruct 3B 在一系列編碼任務中展現出卓越的表現。
研究團隊也在 Multi-PL 基準上比較了三種模型。儘管參數量較少,但 Stable Code Instruct 3B 在所有語言上的表現都明顯優於 CodeLlama Instruct。
下表8 展示了幾個模型在FIM 任務上的表現:
實驗測試表明,Stable Code Instruct 3B 在程式碼完成準確性、對自然語言指令的理解以及跨不同程式語言的能力方面可與其他模型媲美甚至超越。
Stable Code Instruct 3B 的參數規模和低硬體要求使其可供廣泛的受眾使用,使開發人員能夠更有效率地工作。值得一提的是,Stable Code Instruct 3B 現在可以透過 Stability AI 會員資格用於商業目的。
以上是Stability AI開源3B程式碼產生模型:可補全,還能Debug的詳細內容。更多資訊請關注PHP中文網其他相關文章!