社群

學習

工具庫

AI工具

休閒

繁体中文

首頁 > 科技週邊 > 人工智慧 > iPhone中隱藏的機器人：基於GPT-2架構，附有emoji分詞器，由MIT校友開發

iPhone中隱藏的機器人：基於GPT-2架構，附有emoji分詞器，由MIT校友開發

PHPz

發布： 2023-09-20 13:05:09

轉載

825 人瀏覽過

發燒友們已經揭開了蘋果Transformer的「秘密」

在大型模型浪潮的影響下，即使是保守的蘋果公司，在每次發布會上也必定會提及"Transformer"

例如，在今年的WWDC上，蘋果就已宣布，船新版本的iOS和macOS將內建Transformer語言模型，以提供帶有文字預測功能的輸入法。

iPhone中隱藏的機器人：基於GPT-2架構，附有emoji分詞器，由MIT校友開發

雖然蘋果官方沒有透露更多信息，但技術愛好者們卻迫不及待

一位名叫Jack Cook的小哥，成功地翻開了macOS Sonoma beta的新篇章，意外地發現了許多新的資訊

模型架構上，Cook小哥認為蘋果的語言模型更像是基於GPT-2打造的。
在分詞器（tokenizer）方面，表情符號在其中十分突出。

更多細節，一起來看。

基於GPT-2架構

首先，讓我們回顧一下蘋果基於Transformer的語言模型在iPhone、MacBook等裝置上能夠實現的功能

#需要重寫的內容是：主要體現在輸入法方面。在語言模型的支持下，蘋果自帶的輸入法可以實現單字預測和糾錯的功能

iPhone中隱藏的機器人：基於GPT-2架構，附有emoji分詞器，由MIT校友開發

#Jack Cook小哥具體測試了一下，發現這個功能主要實現的是針對單字的預測。

需要進行改寫的內容是：△來源：Jack Cook的部落格文章

模型有時也會預測即將出現的多個單字，但這僅限於句子語意十分明顯的情況，比較類似Gmail裡的自動完成功能。

需要進行改寫的內容是：△來源：Jack Cook的部落格文章

那麼這個模型具體被裝在了哪裡？一通深入挖掘之後，Cook小哥確定：

我在 /System/Library/LinguisticData/RequiredAssets_en.bundle/AssetData/en.lm/unilm.bundle 中找到了預測文字模型。

原因是：

unilm.bundle中的許多檔案在macOS Ventura（13.5）裡並不存在，僅出現在了新版本macOS Sonoma beta（14.0）。
unilm.bundle中存在一個sp.dat文件，這在Ventura和Sonoma beta裡都能找到，但Sonoma beta的版本中更新了明顯像是分詞器的一組token。
sp.dat中token的數量跟unilm.bundle中的兩個文件－unilm_joint_cpu.espresso.shape和unilm_joint_ane.espresso.shape能搭配得上。這兩個檔案描述了Espresso/CoreML模型中各層的形狀。

進一步推測，根據unilm_joint_cpu中所描述的網路結構，小哥認為蘋果模型是基於GPT-2架構建構的

主要的組成部分包括令牌嵌入、位置編碼、解碼器區塊和輸出層，在每個解碼器區塊中都會出現類似"gpt2_transformer_layer_3d"這樣的詞彙

需要進行改寫的內容是：△來源： Jack Cook的部落格文章

根據每層大小，小哥也推測蘋果模型約有3400萬個參數，隱藏層大小為512。換句話說，它比GPT-2最小版本還要小

小哥認為，這主要是因為蘋果想要一種不太耗電，但同時能夠快速、頻繁運行的模型。

而蘋果官方在WWDC上的說法是，「每點擊一個鍵，iPhone就會運行模型一次」。

然而，這也意味著這個文本預測模型無法很好地續寫句子或段落

#需要進行改寫的內容是：△來源： Jack Cook的部落格文章

模型架構之外，Cook小哥還挖出了分詞器（tokenizer）的相關資訊。

他在unilm.bundle/sp.dat裡發現了一組數量為15000的token，值得關注的是，其中包含100個emoji。

Cook揭秘庫克

雖然這個Cook不是那個庫克，但小哥的部落格文章一發布，仍然吸引了很多關注

iPhone中隱藏的機器人：基於GPT-2架構，附有emoji分詞器，由MIT校友開發

基於他的發現，網友們熱烈地討論起蘋果在使用者體驗和尖端科技應用之間的平衡大法。

iPhone中隱藏的機器人：基於GPT-2架構，附有emoji分詞器，由MIT校友開發

回到Jack Cook本人，他本科和碩士畢業於MIT的電腦專業，目前還在攻讀牛津大學的網路社會科學碩士學位。

他之前曾在英偉達實習，專注於研究BERT等語言模式。他也擔任《紐約時報》的自然語言處理高級研發工程師

以上是iPhone中隱藏的機器人：基於GPT-2架構，附有emoji分詞器，由MIT校友開發的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

ai 研究

來源：51cto.com

上一篇：6自由度機器人的下一個進化階段下一篇：深入探索！ Neuralink公司正在尋找志願者進行首次人體試驗

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

編碼的關鍵：為初學者釋放 C 的力量

2024-10-13 11:44:01
使用 PHP 和 MySQL 將您的網站連接到資料庫

2024-10-13 09:56:31
使用 Python 解決問題：作為初學者，解鎖強大的解決方案

2024-10-11 20:58:41
Python 的力量，簡單：一種適合初學者的程式設計方法

2024-10-11 16:53:11
PHP 與社群媒體：將您的網站與世界融為一體

2024-10-11 11:54:51
使用 PHP 的動態圖像畫廊：在線展示您的作品

2024-10-10 16:21:01
使用 PHP 建立 API 和 Web 服務

2024-10-10 15:18:02
揭秘 Java：為新程式設計師提供一條清晰、簡單的道路

2024-10-10 13:34:01
使用 C 創建遊戲和圖形：有趣且實用的介紹

2024-10-10 13:26:26
王者榮耀程咬金怎麼玩？

2024-10-10 11:38:42

最新問題

function_exists()無法判定自訂函數 function test() { return true; } if (function_exists('TEST')) { ech...

來自於 2024-04-29 11:01:01

0

3

2501

google 瀏覽器手機版顯示的怎麼實現老師您好，google 瀏覽器怎麼變成手機版樣式的？

來自於 2024-04-23 00:22:19

0

11

2644

子窗口操作父窗口，輸出沒反應前兩句可執行，最後一句沒辦法應

來自於 2024-04-19 15:37:47

0

1

2236

父視窗沒有輸出 document.onclick = function(){ window.opener.document.write('我是子視窗的輸出'); ...

來自於 2024-04-18 23:52:34

0

1

2102

關於CSS心智圖的課件在哪？課件

來自於 2024-04-16 10:10:18

0

0

2205

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1428521
php入門教程之一週學會PHP

4279882
JAVA 初級入門影片教學

2587719
小甲魚零基礎入門學習Python影片教學

511065
PHP 零基礎入門教學

869010

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板