谷歌發布最新「讀屏」AI！ PaLM 2-S自動產生數據，多項理解任務刷新SOTA-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

谷歌發布最新「讀屏」AI！ PaLM 2-S自動產生數據，多項理解任務刷新SOTA

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Mar 06, 2024 pm 06:30 PM

Google ai

每個人想要的大模型，是真·智能的那種......

這不，Google團隊就做出來了一個強大的「讀屏」AI。

研究人員稱之為ScreenAI，是一種理解使用者介面和資訊圖表的全新視覺語言模型。

谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA

論文網址：https://arxiv.org/pdf/2402.04615.pdf

ScreenAI的核心是一種新的螢幕截圖文字表示方法，可以識別UI元素的類型和位置。

研究人員使用Google語言模型PaLM 2-S產生了合成訓練數據，這些數據被用來訓練模型，以回答與螢幕資訊、螢幕導航和螢幕內容摘要相關的問題。值得一提的是，這種方法為提高模型在處理螢幕相關任務時的表現提供了新的想法。

谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA

舉個栗子，例如開啟一音樂APP頁面，可以詢問「有幾首歌時長少於30秒」？

ScreenAI便給了簡單的答案：1。

谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA

再例如指令ScreenAI開啟選單，就可以選取。

谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA

架構靈感來源－PaLI

圖1中展示了ScreenAI模型架構。研究人員受到了PaLI系列模型架構（由一個多模態編碼器區塊組成）的啟發。

此編碼器區塊包含一個類似ViT的視覺編碼器和一個消費圖像（consuming image）和文字輸入的mT5語言編碼器，後面接著一個自回歸解碼器。

輸入影像透過視覺編碼器轉換為一系列嵌入，這些嵌入與輸入文字嵌入結合，一起輸入mT5語言編碼器。

編碼器的輸出傳遞給解碼器，產生文字輸出。

這種泛化公式能夠使用相同的模型架構，解決各種視覺和多模態任務。這些任務可以重新表述為文字圖像（輸入）到文字（輸出）的問題。

與文字輸入相比，影像嵌入構成了多模態編碼器輸入長度的重要部分。

簡而言之，此模型採用影像編碼器與語言編碼器擷取影像與文字特徵，將二者融合後輸入解碼器產生文字。

這種建構方式可以廣泛適用於影像理解等多模態任務。

谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA

另外，研究人員也進一步擴展了PaLI的編碼器-解碼器架構，以接受各種影像分塊模式。

原始的PaLI架構只接受固定網格模式的影像區塊來處理輸入影像。然而，研究人員在螢幕相關領域遇到的數據，跨越了各種各樣的分辨率和寬高比。

為了使單一模型能夠適應所有螢幕形狀，有必要使用適用於各種形狀影像的分塊策略。

為此，Google團隊借鑒了Pix2Struct中引入的一種技術，允許根據輸入圖像形狀和預定義的最大塊數，生成任意網格形狀的圖像塊，如圖1所示。

這樣能夠適應各種格式和寬高比的輸入影像，而無需對影像進行填充或拉伸以固定其形狀，從而使模型更通用，能夠同時處理移動設備（即縱向）和桌上型電腦（即橫向）的影像格式。

模型配置

研究人員訓練了3種不同大小的模型，包含670M、2B和5B參數。

對於670M和2B參數模型，研究人員從視覺編碼器和編碼器-解碼器語言模型的預訓練單峰檢查點開始。

對於5B參數模型，從 PaLI-3的多模態預訓練檢查點開始，其中ViT與基於UL2的編碼器-解碼器語言模型一起訓練。

表1中可以看到視覺與語言模型之間的參數分佈。

谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA

#自動資料產生

研究人員稱，模型開發的預訓練階段很大程度上，取決於對龐大且多樣化的資料集的存取。

然而手動標註廣泛的資料集是不切實際的，因此Google團隊的策略是－自動資料生成。

這種方法利用專門的小模型，每個模型都擅長高效且高精度地產生和標記資料。

與手動標註相比，這種自動化方法不僅高效且可擴展，而且還確保了一定程度的資料多樣性和複雜性。

第一步是讓模型全面了解文字元素、各種螢幕元件及其整體結構和層次結構。這種基礎理解對於模型準確解釋各種使用者介面並與之互動的能力至關重要。

這裡，研究人員透過爬蟲應用程式和網頁，從各種裝置（包括桌上型電腦、行動裝置和平板電腦）收集了大量螢幕截圖。

然後，這些螢幕截圖會使用詳細的標籤進行標註，這些標籤描述了UI 元素、它們的空間關係以及其他描述性資訊。

此外，為了給預訓練資料注入更大的多樣性，研究人員也利用語言模型的能力，特別是PaLM 2-S分兩個階段產生QA對。

首先產生先前描述的螢幕模式。隨後，作者設計一個包含螢幕模式的提示，指導語言模型產生合成資料。

經過幾次迭代後，可以確定一個有效產生所需任務的提示，如附錄C所示。

谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA

為了評估這些生成回應的質量，研究人員對資料的子集進行了手動驗證，以確保達到預定的品質要求。

此方法在圖2中進行了描述，大幅提升預訓練資料集的深度與廣度。

透過利用這些模型的自然語言處理能力，結合結構化的螢幕模式，便可以模擬各種使用者互動和情境。

谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA

兩組不同任務

接下來，研究者為模型定義了兩組不同的任務：一組初始的預訓練任務和一組後續的微調任務。

這兩組的差異主要在於兩個面向：

- 真實資料的來源：對於微調任務，標記由人類評估者提供或驗證。對於預訓練任務，標記是使用自監督學習方法推斷的或使用其他模型產生的。

- 資料集的大小：通常預訓練任務包含大量的樣本，因此，這些任務用於透過更擴展的一系列步驟來訓練模型。

表2顯示所有預訓練任務的摘要。

在混合資料中，資料集按其大小按比例加權，每個任務允許的最大權重。

谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA

將多模態來源納入多工訓練中，從語言處理到視覺理解和網頁內容分析，使模型能夠有效處理不同的場景，並增強其整體多功能性和性能。

谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA

研究人員在微調期間使用各種任務和基準來估計模型的品質。表3總結了這些基準，包括現有的主要螢幕、資訊圖表和文件理解基準。

谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA

實驗結果

圖4顯示了ScreenAI模型的效能，並將其與各種與螢幕和資訊圖形相關的任務上的最新SOT結果進行了比較。

可以看到，ScreenAI在不同任務上取得的領先效能。

在表4中，研究人員呈現了使用OCR資料的單一任務微調結果。

對於QA任務，增加OCR可以提高效能（例如Complex ScreenQA、MPDocVQA和InfoVQA上高達4.5%）。

然而，使用OCR會稍微增加輸入長度，導致整體訓練速度更慢。它還需要在推理時獲得OCR結果。

谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA

另外，研究人員使用以下模型規模進行了單一任務實驗：6.7億參數、20億參數和50億參數。

在圖4中可以觀察到，對於所有任務，增加模型規模都可以改善效能，在最大規模下的改進還沒有飽和。

對於需要更複雜的視覺文字和算術推理的任務（例如InfoVQA、ChartQA和Complex ScreenQA），20億參數模型和50億參數模型之間的改進明顯大於6.7億參數模型和20億參數模型。

谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA

最後，圖5顯示了，對於長寬比>1.0的影像（橫向模式影像），pix2struct分割策略明顯優於固定網格分割。

對於縱向模式影像，趨勢相反，但固定網格分割僅稍微好一些。

鑑於研究人員希望ScreenAI模型能夠在不同長寬比的圖像上使用，因此選擇使用pix2struct分割策略。

谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA

Google研究人員表示，ScreenAI模型還需要在一些任務上進行更多研究，以縮小與GPT-4和Gemini等更大模型的差距。

以上是谷歌發布最新「讀屏」AI！ PaLM 2-S自動產生數據，多項理解任務刷新SOTA的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

Java教學

1670

CakePHP 教程

1428

Laravel 教程

1329

PHP教程

1276

C# 教程

1256

Related knowledge

量化交易所排行榜2025 數字貨幣量化交易APP前十名推薦 Apr 30, 2025 pm 07:24 PM

交易所內置量化工具包括：1. Binance（幣安）：提供Binance Futures量化模塊，低手續費，支持AI輔助交易。 2. OKX（歐易）：支持多賬戶管理和智能訂單路由，提供機構級風控。獨立量化策略平台有：3. 3Commas：拖拽式策略生成器，適用於多平台對沖套利。 4. Quadency：專業級算法策略庫，支持自定義風險閾值。 5. Pionex：內置16 預設策略，低交易手續費。垂直領域工具包括：6. Cryptohopper：雲端量化平台，支持150 技術指標。 7. Bitsgap：

輕鬆協議（Easeprotocol.com）將ISO 20022消息標准直接實現為區塊鏈智能合約 Apr 30, 2025 pm 05:06 PM

這種開創性的開發將使金融機構能夠利用全球認可的ISO20022標準來自動化不同區塊鏈生態系統的銀行業務流程。 Ease協議是一個企業級區塊鏈平台，旨在通過易用的方式促進廣泛採用，今日宣布已成功集成ISO20022消息傳遞標準，直接將其納入區塊鏈智能合約。這一開發將使金融機構能夠使用全球認可的ISO20022標準，輕鬆自動化不同區塊鏈生態系統的銀行業務流程，該標準正在取代Swift消息傳遞系統。這些功能將很快在“EaseTestnet”上進行試用。 EaseProtocolArchitectDou

數字貨幣app有前途嗎蘋果手機數字貨幣交易平台app下載TOP10 Apr 30, 2025 pm 07:00 PM

數字貨幣App的前景廣闊，具體體現在：1. 技術創新驅動功能升級，通過DeFi與NFT融合及AI與大數據應用提升用戶體驗；2. 監管合規化趨勢，全球框架完善及AML、KYC要求趨嚴；3. 功能多元化與服務拓展，整合借貸、理財等服務並優化用戶體驗；4. 用戶基數與全球化擴張，預計2025年用戶規模突破10億。

幣圈中的三巨頭是哪些？虛擬幣主流交易所APP前十名推薦 Apr 30, 2025 pm 06:27 PM

在幣圈中，所謂的三巨頭通常指的是三種最具影響力和廣泛使用的加密貨幣。這些加密貨幣在市場上佔據了重要的地位，並在交易量和市值方面都表現出色。同時，虛擬幣主流交易所APP也是投資者和交易者進行加密貨幣交易的重要工具。本文將詳細介紹幣圈中的三巨頭以及推薦前十名的虛擬幣主流交易所APP。

已倒閉的加密交易所FTX在最新嘗試中對特定發行人採取法律訴訟 Apr 30, 2025 pm 05:24 PM

在其最新嘗試中，已解決的加密交易所FTX採取了法律行動，以收回債務並償還客戶。在收回債務和償還客戶的最新努力中，已解決的加密交易所FTX已對特定發行人提起法律訴訟。 FTX交易和FTX恢復信託基金已針對未能履行其協議的某些代幣發行人提起訴訟，以將約定的硬幣匯出到交易所。具體來說，重組團隊在周一就合規性問題起訴了NFTStarsLimited和OrosemiInc.。 FTX正在起訴令牌發行人，以收回到期硬幣。 FTX曾經是美國最傑出的加密貨幣交易平台之一。該銀行在2022年11月因報導稱其創始人山姆·

AI和作曲家：增強代碼質量和開發 May 09, 2025 am 12:20 AM

AI在Composer中主要通過依賴推薦、依賴衝突解決和代碼質量提升來提高開發效率和代碼質量。 1.AI可以根據項目需求推薦合適的依賴包。 2.AI提供智能解決方案來處理依賴衝突。 3.AI審查代碼並提供優化建議，提升代碼質量。通過這些功能，開發者可以更專注於業務邏輯的實現。

全球十大支持多鏈交易的加密貨幣平台2025年權威發布 May 08, 2025 pm 07:15 PM

根據 2025 年權威機構的最新評估和行業趨勢，以下是全球十大支持多鏈交易的加密貨幣平台，結合交易量、技術創新、合規性及用戶口碑綜合分析：

2025年十大數字虛擬幣交易APP排行十大數字幣交易所app匯總 May 08, 2025 pm 05:24 PM

2025年十大數字虛擬幣交易APP排行：1. Binance：全球領先，提供高效交易和多種金融產品。 2. OKX：創新多樣，支持多種交易類型。 3. Huobi：穩定可靠，服務優質。 4. Coinbase：新手友好，界面簡潔。 5. Kraken：專業交易者首選，工具強大。 6. Bitfinex：高效交易，交易對豐富。 7. Bittrex：安全合規，監管合作。

See all articles

谷歌發布最新「讀屏」AI！ PaLM 2-S自動產生數據，多項理解任務刷新SOTA

架構靈感來源－PaLI

兩組不同任務

實驗結果

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題