Jamba 1.5:具有混合Mamba-Transformer架構
JAMBA 1.5:一種強大的混合語言模型,用於長篇文化處理
Jamba 1.5是AI21實驗室的尖端大語言模型,具有令人印象深刻的處理能力,可處理廣泛的文本上下文。有兩個版本可供選擇:Jamba 1.5大型(940億參數)和Jamba 1.5 Mini(120億個參數) - 它利用了將MAMBA結構化狀態空間模型(SSM)與傳統變壓器結構相結合的獨特混合體系結構。這種創新的方法可以處理空前的256K有效上下文窗口,這是開源模型的重大飛躍。
關鍵功能:
- 龐大的上下文窗口:最多256K令牌的過程,非常適合冗長的文檔和復雜的任務。
- 混合體系結構:結合了變壓器和MAMBA模型的優勢,以獲得最佳效率和性能。
- 有效的量化:利用專家量定量化來減少記憶足跡和更快的處理。
- 多語言支持:跨九種語言有效地發揮作用:英語,西班牙語,法語,葡萄牙語,意大利語,荷蘭語,德語,阿拉伯語和希伯來語。
- 多功能應用程序:適用於廣泛的NLP任務,包括問答,摘要,文本生成和分類。
- 可訪問的部署:可通過AI21的Studio API,擁抱的臉和雲合作夥伴獲得。
建築細節:
方面 | 細節 |
---|---|
基礎體系結構 | 混合變壓器 - 曼巴(Mamba |
模型變體 | jamba-1.5大(94B活動參數,總計398b)和jamba-1.5-mini(12B活動參數,總計52B) |
層組成 | 9個街區,每個街區有8層; 1:7變壓器與曼巴層的比率 |
專家的混合物(MOE) | 16位專家,選擇每個令牌的前2個 |
隱藏的尺寸 | 8192 |
注意力頭 | 64個查詢頭,8個鑰匙值頭 |
上下文長度 | 多達256K令牌 |
量化技術 | MOE和MLP層的ExpertsInt8 |
激活功能 | 集成的變壓器和MAMBA激活 |
效率 | 在8x80GB GPU上針對高吞吐量和低潛伏期進行了優化 |
訪問和利用Jamba 1.5:
Jamba 1.5很容易通過AI21的工作室API和擁抱的臉訪問。該模型可以針對特定域進行微調,以進一步提高性能。下面提供了使用AI21 API的Python示例:
Python示例:
從AI21導入AI21Client 來自AI21.models.Chat Import Chatmessage 消息= [ChatMessage(content =“ 2-3行中的令牌是什麼? 客戶端= ai21client(api_key ='')#替換'用API鍵 響應= client.chat.completions.create( 消息=消息, 型號=“ jamba-1.5-mini”, 流= true ) 零件回應: 打印(塊。
結論:
Jamba 1.5代表了大型語言模型的重大進步,提供了強大的功率和效率融合。它處理異常長上下文的能力,再加上其多功能應用程序和可訪問的部署選項,使其成為多種NLP任務的寶貴工具。
常見問題(常見問題解答):(類似於原始問題,但出於簡潔而改寫)
- Q1:什麼是Jamba 1.5?答:具有94B(大)或12B(mini)參數的混合變壓器 - 曼巴(Mamba)大型語言模型,優化了用於遵循和長篇文章處理的說明。
- Q2:Jamba 1.5如何有效地處理長上下文?答:通過其混合體系結構和ExpertsInt8量化,啟用了256K令牌上下文窗口,並減少了內存使用情況。
- Q3:什麼是expertsint8量化?答:使用MOE和MLP層中INT8精度的壓縮技術,以提高效率。
- 問題4:Jamba 1.5公開可用嗎?答:是的,在Jamba Open Model許可下,可以通過擁抱臉訪問。
以上是Jamba 1.5:具有混合Mamba-Transformer架構的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

嘿,編碼忍者!您當天計劃哪些與編碼有關的任務?在您進一步研究此博客之前,我希望您考慮所有與編碼相關的困境,這是將其列出的。 完畢? - 讓&#8217

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

Shopify首席執行官TobiLütke最近的備忘錄大膽地宣布AI對每位員工的基本期望是公司內部的重大文化轉變。 這不是短暫的趨勢。這是整合到P中的新操作範式

介紹 想像一下,穿過美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

介紹 Openai已根據備受期待的“草莓”建築發布了其新模型。這種稱為O1的創新模型增強了推理能力,使其可以通過問題進行思考

SQL的Alter表語句:動態地將列添加到數據庫 在數據管理中,SQL的適應性至關重要。 需要即時調整數據庫結構嗎? Alter表語句是您的解決方案。本指南的詳細信息添加了Colu

對於那些可能是我專欄新手的人,我廣泛探討了AI的最新進展,包括體現AI,AI推理,AI中的高科技突破,及時的工程,AI培訓,AI,AI RE RE等主題
