pixtral -12b:Mistral AI'第一個多模型模型 - 分析Vidhya
介紹
Mistral發布了其第一個多模式模型,即Pixtral-12b-2409。該模型建立在Mistral的120億個參數Nemo 12b的基礎上。是什麼設置了該模型?現在可以將圖像和文本用於輸入。讓我們更多地看一下模型,如何使用它,執行任務以及您需要知道的其他知識。
在本文中,您將了解PixTral-12b模型。該AI模型使用深度學習和一種特殊類型的網絡來創建圖像。我們將研究其工作原理,在機器學習中的用途以及與GPT-3的比較。您還將看到為什麼其性能如此令人印象深刻。
概述
- 發現Mistral的新PixTral-12b,這是一種多模型,結合了用於多功能AI應用程序的文本和圖像處理。
- 了解如何使用Mistral的最新AI模型PixTral-12b,旨在處理文本和高分辨率圖像。
- 探索PixTral-12b模型的功能和用例,該模型具有視覺適配器,可增強圖像理解。
- 了解Pixtral-12b的多模式特徵及其在圖像字幕,故事產生等中的潛在應用。
- 了解PixTral-12b的設計,性能以及如何用於特定的多模式任務。
目錄
- 什麼是pixtral-12b?
- 如何使用PixTral-12b-2409?
什麼是pixtral-12b?
PixTral-12b是一種源自Mistral的Nemo 12B的多模型模型,並增加了400m參數視覺適配器。 Mistral可以從Torrent文件或Apache 2.0許可證上下載。讓我們看一下PixTral-12b模型的一些技術功能:
特徵 | 細節 |
型號大小 | 120億參數 |
層 | 40層 |
視覺適配器 | 使用GELU激活的4億參數 |
圖像輸入 | 通過URL或base64接受1024 x 1024圖像,分為16 x 16像素貼片 |
視覺編碼器 | 2D繩(旋轉位置嵌入)增強了空間理解 |
詞彙大小 | 最多131,072個令牌 |
特殊令牌 | img,img_break和img_end |
如何使用PixTral-12b-2409?
截至2024年9月15日,該模型目前在Mistral的Le Chat或La Plateforme上尚未可用來直接使用聊天界面或通過API訪問聊天界面,但是我們可以通過Torrent鏈接下載該模型,並使用它,甚至可以使用它來滿足我們的需求。我們還可以在擁抱臉的幫助下使用該模型。讓我們詳細了解它們:
洪流鏈接使用:
磁鐵:? XT = urn:BTIH:7278E625DE2B1DA598B23954C13933047126238A&DN = PIXTRAL-12B--<br> 240910&tr = udp:/%http://2ftracker.opentrackr.org:1337/noins&tr = udp%<br> 3A/%http://2fopen.demonii.com:1337/noins&tr = http:/%http:// 2ftrac<br> ker.ipv6tracker.org:80/announce
我使用的是Ubuntu筆記本電腦,因此我將使用傳輸應用程序(已在大多數Ubuntu計算機中預安裝)。您可以使用任何其他應用程序下載開源模型的Torrent鏈接。
- 單擊左上方的“文件”,然後選擇“打開URL”選項。然後,您可以粘貼複製的鏈接。
- 您可以單擊“打開”並下載PixTral-12b型號。將下載包含這些文件的文件夾:
擁抱臉
該型號需要高GPU,因此我建議您使用Runpod.i''I'''將使用RunPod進行PixTral-12b-12b型號的演示。如果您使用的是帶有40 GB磁盤的RunPod實例,建議您使用A100 PCIE GPU。
我們將在VLLM的幫助下使用PixTral-12b。確保執行以下安裝。
! PIP安裝VLLM<br><br> ! pip安裝 - 升級mistral_common
轉到此鏈接:擁抱臉並同意訪問模型。然後轉到您的個人資料,單擊“ access_tokens”,然後創建一個。如果您沒有訪問令牌,請確保已選中以下框:
現在,運行以下代碼並粘貼訪問令牌以通過擁抱的臉進行身份驗證:
從huggingface_hub導入筆記本_login Notebook_login()
這將需要一段時間,因為25 GB型號被下載以供使用:
從vllm導入llm 來自vllm.sampling_params導入SamplingParams model_name =“ mistralai/pixtral-12b-2409” Sampling_Params = SamplingParams(MAX_TOKENS = 8192) llm = llm(model = model_name,tokenizer_mode =“ mistral”,max_model_len = 70000) 提示=“描述此圖像” image_url =“ https://images.news18.com/ibnlive/uploads/2024/07/suryakumar-yadav-catch-catch-catch-catch-catch-1-2024-07-4a496281eb830a6fc76fc7ab41e92a2a0d295ed295ee-3x2.jpg” 消息= [ { “角色”:“用戶”, “ content”:[{{“ type”:“ text”,“ text”:stress},{“ type”:“ image_url”,“ image_url”:{“ url”:image_url}}] },, 這是給出的
我要求模型描述以下圖像,該圖像來自T20世界杯2024:
輸出= llm.Chat(消息,Sampling_Params = Sampling_Params) print('\ n'輸出[0] .outputs [0] .TEXT)
輸出
處理提示:100%|██████████| 1/1 [00:06 輸入:429.80 Toks/s,輸出:51.54 Toks/s]<br>該圖像是三個幀的複合材料,顯示了一個板球運動員,<br> 可能來自T20世界杯。這是一個詳細的摘要:<br><br> 1。 **左幀**:<br> - 跳躍中的球員,雙臂伸出來向上抬頭,<br> 試圖捕捉板球。<br> - 他穿著藍色球衣,名稱為“ Surya”和數字“ 63”<br> 印在背面。<br> - 他的表情強烈而專注,強調集中<br> 捕獲所需的。<br><br> 2。 **中間框架**:<br> - 球員的手托the割在一起,距離接近更近<br> 球。<br> - 他穿著紅色袖子的相同藍色球衣,這也包括<br> “印度”團隊徽標和讚助商的品牌,特別是來自阿迪達斯。<br> - 現在球非常接近他的手,表明很有可能<br> 成功的收穫。<br><br> 3。 **正確的框架**:<br> - 球員已經成功地抓住了球,雙手舉起了<br> 他的頭緊緊抓住他的左手。<br> - 他以廣闊的微笑表現出勝利的表情,通常<br> 與成功捕獲有關。<br> - 他的統一性和舉起的手傳達了一種勝利感和偉大<br> 努力。<br><br>所有框架的背景都有廣告牌,表明“ T20世界<br> 杯子,“特別是“阿聯酋”的突出跡象,其中有<br> 大概贊助了活動。田野上有綠草,<br> 反映比賽期間的實際比賽條件。<br><br>總體而言,圖像說明了板球比賽中的關鍵時刻,展示了<br> 球員的運動技巧和團隊精神。<br>
從輸出來看,我們可以看到該模型能夠從T20世界杯中識別圖像,並且能夠區分同一圖像中的幀以解釋發生了什麼。
提示=“寫一個描述可能發生的整個事件的故事” image_url =“ https://images.news18.com/ibnlive/uploads/2024/07/suryakumar-yadav-catch-catch-catch-catch-catch-1-2024-07-4a496281eb830a6fc76fc7ab41e92a2a0d295ed295ee-3x2.jpg” 消息= [ { “角色”:“用戶”, “ content”:[{{“ type”:“ text”,“ text”:stress},{“ type”:“ image_url”,“ image_url”:{“ url”:image_url}}] },, 這是給出的 輸出= llm.Chat(消息,Sampling_Params = Sampling_Params) print('\ n'輸出[0] .outputs [0] .TEXT)
輸出
處理提示:100%|██████████| 1/1 [00:06 輸入:401.77 Toks/s,輸出:52.92 Toks/s]<br>在一個熙熙t的體育場的中心,T20世界杯正在如火如荼地進行。這<br> 氣氛是電動的,人群在座位的邊緣,急切地<br> 觀看印度與他們強大的競爭對手之一之間的比賽。這<br> 重點轉移到印度野外球員,特別是Suryakumar Yadav,<br> 策略性位置在邊界線上。<br><br>當球從對方射擊後,球駛向空中<br> 擊球手Suryakumar的眼睛遵循其軌跡。具有古老的本能<br> 在無數小時的練習中,他知道這是他的時刻。這<br> 鮑爾高高,給了他足夠的時間來評估自己的道路和計劃<br> 他的下一步。<br><br>在第一個快照中,Suryakumar蹲在帽子上,眼睛固定在<br> 當它達到頂峰時。期待是明顯的。他的隊友看著<br> 希望他能夠完美地執行捕獲量。<br><br>第二張快照捕捉了純粹的運動能力的時刻。爆發<br> 能量和敏捷性,Suryakumar Springs採取了行動。他迅速迅速<br> 向前邁進,他的身體渴望達到製作所需的高度<br> 抓住。球略高於他的頭頂,他伸開手臂,手指<br> 擴展廣泛,準備獲得獎品。<br><br>在最後的快照中,Suryakumar的臉部成就點亮了。他的<br> 眼睛專注於球,現在安全地藏在他的手掌中。人群<br> 歡呼雀躍,承認傑出的努力。他的隊友<br> 沖向他,慶祝可能扭轉潮流的關鍵捕獲<br> 比賽。<br><br>這種成功的播放序列不僅突出了Suryakumar的個人<br> 技巧,但也強調了戰略團隊合作,並確定了精神<br> 在著名的T20世界杯上定義印度板球隊。<br>
當被要求寫一個有關圖像的故事時,該模型可以收集有關環境特徵以及框架中發生的事情的上下文。
結論
PixTral-12b模型顯著提高了Mistral的AI功能,將文本和圖像處理融合以擴展其用例。其處理高分辨率1024 x 1024圖像具有詳細了解空間關係及其強大語言功能的能力,使其成為多模式任務(例如圖像字幕,故事產生等)的絕佳工具。
儘管具有強大的功能,但該模型可以進一步調整以滿足特定需求,無論是改善圖像識別,增強語言的生成還是將其調整為更專業的領域。對於想要根據其用例定制模型的開發人員和研究人員來說,這種靈活性是一個至關重要的優勢。
Q1。什麼是vllm?A. VLLM是一個優化的庫,可有效推斷大型語言模型,從而提高模型執行過程中的速度和內存使用情況。
Q2。 SamplingParams有什麼用?答:VLLM中的SamplingParams控制模型如何生成文本,指定參數,例如文本生成的最大令牌和採樣技術。
Q3。該模型可以在Mistral的Le Chat上提供嗎?答:是的,Mistral開發人員關係負責人Sophia Yang提到該模型將很快在Le Chat和Le Platform上提供。
以上是pixtral -12b:Mistral AI&#039;第一個多模型模型 - 分析Vidhya的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

嘿,編碼忍者!您當天計劃哪些與編碼有關的任務?在您進一步研究此博客之前,我希望您考慮所有與編碼相關的困境,這是將其列出的。 完畢? - 讓&#8217

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

Shopify首席執行官TobiLütke最近的備忘錄大膽地宣布AI對每位員工的基本期望是公司內部的重大文化轉變。 這不是短暫的趨勢。這是整合到P中的新操作範式

介紹 想像一下,穿過美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

介紹 Openai已根據備受期待的“草莓”建築發布了其新模型。這種稱為O1的創新模型增強了推理能力,使其可以通過問題進行思考

SQL的Alter表語句:動態地將列添加到數據庫 在數據管理中,SQL的適應性至關重要。 需要即時調整數據庫結構嗎? Alter表語句是您的解決方案。本指南的詳細信息添加了Colu

對於那些可能是我專欄新手的人,我廣泛探討了AI的最新進展,包括體現AI,AI推理,AI中的高科技突破,及時的工程,AI培訓,AI,AI RE RE等主題
