目錄
介紹
概述
目錄
什麼是pixtral-12b?
如何使用PixTral-12b-2409?
擁抱臉
結論
首頁 科技週邊 人工智慧 pixtral -12b:Mistral AI'第一個多模型模型 - 分析Vidhya

pixtral -12b:Mistral AI'第一個多模型模型 - 分析Vidhya

Apr 13, 2025 am 11:20 AM

介紹

Mistral發布了其第一個多模式模型,即Pixtral-12b-2409。該模型建立在Mistral的120億個參數Nemo 12b的基礎上。是什麼設置了該模型?現在可以將圖像和文本用於輸入。讓我們更多地看一下模型,如何使用它,執行任務以及您需要知道的其他知識。

在本文中,您將了解PixTral-12b模型。該AI模型使用深度學習和一種特殊類型的網絡來創建圖像。我們將研究其工作原理,在機器學習中的用途以及與GPT-3的比較。您還將看到為什麼其性能如此令人印象深刻。

pixtral -12b:Mistral AI'第一個多模型模型 - 分析Vidhya

概述

  1. 發現Mistral的新PixTral-12b,這是一種多模型,結合了用於多功能AI應用程序的文本和圖像處理。
  2. 了解如何使用Mistral的最新AI模型PixTral-12b,旨在處理文本和高分辨率圖像。
  3. 探索PixTral-12b模型的功能和用例,該模型具有視覺適配器,可增強圖像理解。
  4. 了解Pixtral-12b的多模式特徵及其在圖像字幕,故事產生等中的潛在應用。
  5. 了解PixTral-12b的設計,性能以及如何用於特定的多模式任務。

目錄

  • 什麼是pixtral-12b?
  • 如何使用PixTral-12b-2409?

什麼是pixtral-12b?

PixTral-12b是一種源自Mistral的Nemo 12B的多模型模型,並增加了400m參數視覺適配器。 Mistral可以從Torrent文件或Apache 2.0許可證上下載。讓我們看一下PixTral-12b模型的一些技術功能:

特徵 細節
型號大小 120億參數
40層
視覺適配器 使用GELU激活的4億參數
圖像輸入 通過URL或base64接受1024 x 1024圖像,分為16 x 16像素貼片
視覺編碼器 2D繩(旋轉位置嵌入)增強了空間理解
詞彙大小 最多131,072個令牌
特殊令牌 img,img_break和img_end

如何使用PixTral-12b-2409?

截至2024年9月15日,該模型目前在Mistral的Le Chat或La Plateforme上尚未可用來直接使用聊天界面或通過API訪問聊天界面,但是我們可以通過Torrent鏈接下載該模型,並使用它,甚至可以使用它來滿足我們的需求。我們還可以在擁抱臉的幫助下使用該模型。讓我們詳細了解它們:

洪流鏈接使用:

磁鐵:? XT = urn:BTIH:7278E625DE2B1DA598B23954C13933047126238A&DN = PIXTRAL-12B--<br> 240910&tr = udp:/%http://2ftracker.opentrackr.org:1337/noins&tr = udp%<br> 3A/%http://2fopen.demonii.com:1337/noins&tr = http:/%http:// 2ftrac<br> ker.ipv6tracker.org:80/announce
登入後複製

我使用的是Ubuntu筆記本電腦,因此我將使用傳輸應用程序(已在大多數Ubuntu計算機中預安裝)。您可以使用任何其他應用程序下載開源模型的Torrent鏈接。

pixtral -12b:Mistral AI&#039;第一個多模型模型 - 分析Vidhya

  • 單擊左上方的“文件”,然後選擇“打開URL”選項。然後,您可以粘貼複製的鏈接。

pixtral -12b:Mistral AI&#039;第一個多模型模型 - 分析Vidhya

  • 您可以單擊“打開”並下載PixTral-12b型號。將下載包含這些文件的文件夾:

pixtral -12b:Mistral AI&#039;第一個多模型模型 - 分析Vidhya

擁抱臉

該型號需要高GPU,因此我建議您使用Runpod.i''I'''將使用RunPod進行PixTral-12b-12b型號的演示。如果您使用的是帶有40 GB磁盤的RunPod實例,建議您使用A100 PCIE GPU。

我們將在VLLM的幫助下使用PixTral-12b。確保執行以下安裝。

 ! PIP安裝VLLM<br><br> ! pip安裝 - 升級mistral_common
登入後複製

轉到此鏈接:擁抱臉並同意訪問模型。然後轉到您的個人資料,單擊“ access_tokens”,然後創建一個。如果您沒有訪問令牌,請確保已選中以下框:

pixtral -12b:Mistral AI&#039;第一個多模型模型 - 分析Vidhya

現在,運行以下代碼並粘貼訪問令牌以通過擁抱的臉進行身份驗證:

從huggingface_hub導入筆記本_login

Notebook_login()
登入後複製

這將需要一段時間,因為25 GB型號被下載以供使用:

從vllm導入llm

來自vllm.sampling_params導入SamplingParams

model_name =“ mistralai/pixtral-12b-2409”

Sampling_Params = SamplingParams(MAX_TOKENS = 8192)

llm = llm(model = model_name,tokenizer_mode =“ mistral”,max_model_len = 70000)

提示=“描述此圖像”

image_url =“ https://images.news18.com/ibnlive/uploads/2024/07/suryakumar-yadav-catch-catch-catch-catch-catch-1-2024-07-4a496281eb830a6fc76fc7ab41e92a2a0d295ed295ee-3x2.jpg”

消息= [

{

“角色”:“用戶”,

“ content”:[{{“ type”:“ text”,“ text”:stress},{“ type”:“ image_url”,“ image_url”:{“ url”:image_url}}]

},,

這是給出的
登入後複製

我要求模型描述以下圖像,該圖像來自T20世界杯2024:

pixtral -12b:Mistral AI&#039;第一個多模型模型 - 分析Vidhya

輸出= llm.Chat(消息,Sampling_Params = Sampling_Params)

print('\ n'輸出[0] .outputs [0] .TEXT)
登入後複製

輸出

處理提示:100%|██████████| 1/1 [00:06  輸入:429.80 Toks/s,輸出:51.54 Toks/s]<br>該圖像是三個幀的複合材料,顯示了一個板球運動員,<br> 可能來自T20世界杯。這是一個詳細的摘要:<br><br> 1。 **左幀**:<br>  - 跳躍中的球員,雙臂伸出來向上抬頭,<br> 試圖捕捉板球。<br>  - 他穿著藍色球衣,名稱為“ Surya”和數字“ 63”<br> 印在背面。<br>  - 他的表情強烈而專注,強調集中<br> 捕獲所需的。<br><br> 2。 **中間框架**:<br>  - 球員的手托the割在一起,距離接近更近<br> 球。<br>  - 他穿著紅色袖子的相同藍色球衣,這也包括<br> “印度”團隊徽標和讚助商的品牌,特別是來自阿迪達斯。<br>  - 現在球非常接近他的手,表明很有可能<br> 成功的收穫。<br><br> 3。 **正確的框架**:<br>  - 球員已經成功地抓住了球,雙手舉起了<br> 他的頭緊緊抓住他的左手。<br>  - 他以廣闊的微笑表現出勝利的表情,通常<br> 與成功捕獲有關。<br>  - 他的統一性和舉起的手傳達了一種勝利感和偉大<br> 努力。<br><br>所有框架的背景都有廣告牌,表明“ T20世界<br> 杯子,“特別是“阿聯酋”的突出跡象,其中有<br> 大概贊助了活動。田野上有綠草,<br> 反映比賽期間的實際比賽條件。<br><br>總體而言,圖像說明了板球比賽中的關鍵時刻,展示了<br> 球員的運動技巧和團隊精神。<br>
登入後複製

從輸出來看,我們可以看到該模型能夠從T20世界杯中識別圖像,並且能夠區分同一圖像中的幀以解釋發生了什麼。

提示=“寫一個描述可能發生的整個事件的故事”

image_url =“ https://images.news18.com/ibnlive/uploads/2024/07/suryakumar-yadav-catch-catch-catch-catch-catch-1-2024-07-4a496281eb830a6fc76fc7ab41e92a2a0d295ed295ee-3x2.jpg”

消息= [

{

“角色”:“用戶”,

“ content”:[{{“ type”:“ text”,“ text”:stress},{“ type”:“ image_url”,“ image_url”:{“ url”:image_url}}]

},,

這是給出的

輸出= llm.Chat(消息,Sampling_Params = Sampling_Params)

print('\ n'輸出[0] .outputs [0] .TEXT)
登入後複製

輸出

處理提示:100%|██████████| 1/1 [00:06  輸入:401.77 Toks/s,輸出:52.92 Toks/s]<br>在一個熙熙t的體育場的中心,T20世界杯正在如火如荼地進行。這<br> 氣氛是電動的,人群在座位的邊緣,急切地<br> 觀看印度與他們強大的競爭對手之一之間的比賽。這<br> 重點轉移到印度野外球員,特別是Suryakumar Yadav,<br> 策略性位置在邊界線上。<br><br>當球從對方射擊後,球駛向空中<br> 擊球手Suryakumar的眼睛遵循其軌跡。具有古老的本能<br> 在無數小時的練習中,他知道這是他的時刻。這<br> 鮑爾高高,給了他足夠的時間來評估自己的道路和計劃<br> 他的下一步。<br><br>在第一個快照中,Suryakumar蹲在帽子上,眼睛固定在<br> 當它達到頂峰時。期待是明顯的。他的隊友看著<br> 希望他能夠完美地執行捕獲量。<br><br>第二張快照捕捉了純粹的運動能力的時刻。爆發<br> 能量和敏捷性,Suryakumar Springs採取了行動。他迅速迅速<br> 向前邁進,他的身體渴望達到製作所需的高度<br> 抓住。球略高於他的頭頂,他伸開手臂,手指<br> 擴展廣泛,準備獲得獎品。<br><br>在最後的快照中,Suryakumar的臉部成就點亮了。他的<br> 眼睛專注於球,現在安全地藏在他的手掌中。人群<br> 歡呼雀躍,承認傑出的努力。他的隊友<br> 沖向他,慶祝可能扭轉潮流的關鍵捕獲<br> 比賽。<br><br>這種成功的播放序列不僅突出了Suryakumar的個人<br> 技巧,但也強調了戰略團隊合作,並確定了精神<br> 在著名的T20世界杯上定義印度板球隊。<br>
登入後複製

當被要求寫一個有關圖像的故事時,該模型可以收集有關環境特徵以及框架中發生的事情的上下文。

結論

PixTral-12b模型顯著提高了Mistral的AI功能,將文本和圖像處理融合以擴展其用例。其處理高分辨率1024 x 1024圖像具有詳細了解空間關係及其強大語言功能的能力,使其成為多模式任務(例如圖像字幕,故事產生等)的絕佳工具。

儘管具有強大的功能,但該模型可以進一步調整以滿足特定需求,無論是改善圖像識別,增強語言的生成還是將其調整為更專業的領域。對於想要根據其用例定制模型的開發人員和研究人員來說,這種靈活性是一個至關重要的優勢。

Q1。什麼是vllm?

A. VLLM是一個優化的庫,可有效推斷大型語言模型,從而提高模型執行過程中的速度和內存使用情況。

Q2。 SamplingParams有什麼用?

答:VLLM中的SamplingParams控制模型如何生成文本,指定參數,例如文本生成的最大令牌和採樣技術。

Q3。該模型可以在Mistral的Le Chat上提供嗎?

答:是的,Mistral開發人員關係負責人Sophia Yang提到該模型將很快在Le Chat和Le Platform上提供。

以上是pixtral -12b:Mistral AI&#039;第一個多模型模型 - 分析Vidhya的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1657
14
CakePHP 教程
1415
52
Laravel 教程
1309
25
PHP教程
1257
29
C# 教程
1229
24
開始使用Meta Llama 3.2 -Analytics Vidhya 開始使用Meta Llama 3.2 -Analytics Vidhya Apr 11, 2025 pm 12:04 PM

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

10個生成AI編碼擴展,在VS代碼中,您必須探索 10個生成AI編碼擴展,在VS代碼中,您必須探索 Apr 13, 2025 am 01:14 AM

嘿,編碼忍者!您當天計劃哪些與編碼有關的任務?在您進一步研究此博客之前,我希望您考慮所有與編碼相關的困境,這是將其列出的。 完畢? - 讓&#8217

AV字節:Meta&#039; llama 3.2,Google的雙子座1.5等 AV字節:Meta&#039; llama 3.2,Google的雙子座1.5等 Apr 11, 2025 pm 12:01 PM

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

向員工出售AI策略:Shopify首席執行官的宣言 向員工出售AI策略:Shopify首席執行官的宣言 Apr 10, 2025 am 11:19 AM

Shopify首席執行官TobiLütke最近的備忘錄大膽地宣布AI對每位員工的基本期望是公司內部的重大文化轉變。 這不是短暫的趨勢。這是整合到P中的新操作範式

視覺語言模型(VLMS)的綜合指南 視覺語言模型(VLMS)的綜合指南 Apr 12, 2025 am 11:58 AM

介紹 想像一下,穿過​​美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

GPT-4O vs OpenAI O1:新的Openai模型值得炒作嗎? GPT-4O vs OpenAI O1:新的Openai模型值得炒作嗎? Apr 13, 2025 am 10:18 AM

介紹 Openai已根據備受期待的“草莓”建築發布了其新模型。這種稱為O1的創新模型增強了推理能力,使其可以通過問題進行思考

如何在SQL中添加列? - 分析Vidhya 如何在SQL中添加列? - 分析Vidhya Apr 17, 2025 am 11:43 AM

SQL的Alter表語句:動態地將列添加到數據庫 在數據管理中,SQL的適應性至關重要。 需要即時調整數據庫結構嗎? Alter表語句是您的解決方案。本指南的詳細信息添加了Colu

最新的最佳及時工程技術的年度彙編 最新的最佳及時工程技術的年度彙編 Apr 10, 2025 am 11:22 AM

對於那些可能是我專欄新手的人,我廣泛探討了AI的最新進展,包括體現AI,AI推理,AI中的高科技突破,及時的工程,AI培訓,AI,AI RE RE等主題

See all articles