LeCun領導下的Meta AI，押注自監督-人工智慧-PHP中文網

大火的 Transformer

視訊和音訊的自監督學習

首頁

科技週邊

人工智慧

LeCun領導下的Meta AI，押注自監督

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 09, 2023 am 09:01 AM

meta 神經網路架構自監督學習

自監督學習真的是通往 AGI 的關鍵一步？

Meta 的 AI 首席科學家 Yann LeCun 在談到「此時此刻要採取的具體措施」時，也沒有忘記遠期的目標。他在一次採訪時說：「我們想要建造像動物和人類一樣學習的智慧機器。」

近年來，Meta 發表了一系列關於 AI 系統自監督學習（SSL）的論文。 LeCun 堅定地認為，SSL 是 AI 系統的必要前提，它可以幫助 AI 系統建立世界模型，以獲得類似人類的能力，如理性、常識，以及將技能和知識從一個環境遷移到另一個環境的能力。

他們的新論文展示了一種被稱為掩蔽自編碼器（MAE）的自監督系統如何學會從非常零散、不完整的數據中重建圖像、視頻甚至音頻。雖然 MAE 並不是一個新的想法，但 Meta 已經將這項工作擴展到了新的領域。

LeCun 說，透過研究如何預測丟失的數據，無論是靜態圖像還是視訊或音訊序列，MAE 系統都是在建立世界模型。他說：「如果它能預測影片中即將發生的事情，它必須明白世界是三維的，有些物體是無生命的，它們自己不會移動，其他物體是有生命的，很難預測，一直到預測有生命的人的複雜行為。」一旦AI 系統有了一個精確的世界模型，它就可以使用這個模型來規劃行動。

LeCun 說，「智慧的本質是學會預測。」雖然他並沒有聲稱 Meta 的 MAE 系統接近通用人工智慧，但他認為這是通往通用人工智慧的重要一步。

但並非所有人都同意 Meta 的研究人員走在通往通用人工智慧的正確道路上。 Yoshua Bengio 有時會與 LeCun 就 AI 領域的重大想法進行友好的辯論。在給 IEEE Spectrum 的一封電子郵件中，Bengio 闡述了他們在目標上的一些不同和相似之處。

Bengio 寫道：「我真的不認為我們目前的方法（無論是不是自監督）足以彌合人工與人類智慧水平的差距。」他說，該領域需要取得「質的進步」，才能真正推動科技向人類規模的人工智慧靠攏。

對於LeCun 的「對世界的推理能力是智慧的核心要素」這一觀點，Bengio 表示贊同，但他的團隊並沒有把重點放在能夠預測的模型上，而是放在了能夠以自然語言的形式呈現知識的模型上。他指出，這樣的模型將允許我們將這些知識片段結合起來，以解決新問題，進行反事實模擬，或研究可能的未來。 Bengio 的團隊開發了一種新的神經網路框架，它比致力於端到端學習的 LeCun 所青睞的框架更具模組化的性質。

大火的 Transformer

Meta 的 MAE 建立在一個名為 Transformer 的神經網路架構基礎上。這種架構最初在自然語言處理領域走紅，之後擴展到電腦視覺等多個領域。

當然，Meta 並不是第一個成功將 Transformer 用到視覺任務中的團隊。 Meta AI 的研究者 Ross Girshick 介紹說，Google在視覺 Transformer（ViT）上的研究啟發了 Meta 的團隊，「ViT 架構的採用幫助（我們）消除了試驗過程中遇到的一些障礙」。

Girshick 是Meta 第一篇MAE 系統論文的作者之一，這篇論文的一作是何愷明，他們論述了一種非常簡單的方法：掩蔽輸入圖像的隨機區塊並重建丟失的像素。

LeCun領導下的Meta AI，押注自監督

這種模型的訓練類似於BERT 以及其他一些基於Transformer 的語言模型，研究人員會向它們展示巨大的文字資料庫，但有些字是缺少的，或者說被「掩蔽」了。模型需要自己預測缺失的詞，然後被遮蔽的詞會被揭開，這樣模型就能檢查自己的工作並更新自己的參數。這過程會一直重複下去。 Girshick 解釋說，為了在視覺上做類似的事情，研究小組將影像分解成 patch，然後遮蔽一些 patch 並要求 MAE 系統預測影像缺失的部分。

該團隊的突破之一是意識到，掩蔽大部分圖像會獲得最好的結果，這與語言 transformer 有著關鍵區別，後者可能只會掩蔽 15% 的單字。「語言是一種極其密集和高效的交流系統，每個符號都包含很多含義，」Girshick 說，「但是圖像——這些來自自然世界的信號——並不是為了消除冗餘而構建的。所以我們才能在創建JPG 圖像時很好地壓縮內容。」

LeCun領導下的Meta AI，押注自監督

Meta AI 的研究人員試驗需要遮蔽多少影像才能獲得最佳效果。

Girshick 解釋說，透過遮蔽影像中超過 75% 的 patch，他們消除了影像中的冗餘，否則會使任務變得過於瑣碎，不適合訓練。他們那個由兩部分組成的 MAE 系統首先使用一個編碼器，透過訓練資料集學習像素之間的關係，然後一個解碼器盡最大努力從掩蔽影像中重建原始影像。在此訓練方案完成後，編碼器還可以進行微調，用於分類和目標偵測等視覺任務。

Girshick 說，「最終讓我們興奮的點在於，我們看到了這個模型在下游任務中的結果。」當使用編碼器完成目標識別等任務時，「我們看到的收益非常可觀。」他指出，繼續增大模型可以獲得更好的性能，這對未來的模型來說是一個有潛力的方向，因為SSL「具有使用大量數據而不需要手動註釋的潛力」。

全力以赴地學習海量的未經篩選的資料集可能是 Meta 提高 SSL 結果的策略，但也是一個越來越有爭議的方法。 Timnit Gebru 等人工智慧倫理研究人員已經呼籲大家注意大型語言模式學習的未經整理的資料集固有的偏見，這些偏見有時會導致災難性的結果。

視訊和音訊的自監督學習

在視訊MAE 系統中，掩蔽物遮蔽了每個視訊幀的95%，因為幀之間的相似性意味著視訊訊號比靜態圖像有更多的冗餘。 Meta 研究人員 Christoph Feichtenhofer 說，就視訊而言，MAE 方法的一大優勢是視訊通常需要大量計算，而 MAE 通過屏蔽每幀高達 95% 的內容，減少了高達 95% 的計算成本。

這些實驗中使用的影片片段只有幾秒鐘，但 Feichtenhofer 表示，用較長的影片訓練人工智慧系統是一個非常活躍的研究主題。想像一下，你有一個虛擬助理，他有你家的視頻，可以告訴你一個小時之前你把鑰匙放在哪裡了。

更直接地說，我們可以想像圖像和視訊系統對Facebook 和Instagram 上的內容審核所需的分類任務都很有用，Feichtenhofer 說，「integrity」是一種可能的應用，「我們正在與產品團隊溝通，但這是非常新的，我們還沒有任何具體的項目。」

對於音訊MAE 工作，Meta AI 的團隊表示他們將很快將研究成果發佈在arXiv 上。他們發現了一個巧妙的方法來應用掩蔽技術。他們將聲音檔案轉換為聲譜圖，即訊號中頻率頻譜的視覺表徵，然後將部分影像遮蔽起來進行訓練。重建的音訊令人印象深刻，儘管該模型目前只能處理幾秒鐘的片段。

該音訊系統的研究人員Bernie Huang 說，這項研究的潛在應用包括分類任務，透過填充資料包被drop 時遺失的音訊來輔助基於IP 的語音傳輸（VoIP），或找到更有效的壓縮音訊檔案的方法。

Meta 一直在進行開源 AI 的研究，如這些 MAE 模型，也為人工智慧社群提供了一個預先訓練的大型語言模型。但批評人士指出，儘管在研究方面如此開放，但 Meta 還沒有把它的核心商業演算法開放出來供大家研究，也就是那些控制新聞推播、推薦和廣告植入的演算法。

以上是LeCun領導下的Meta AI，押注自監督的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學

1666

CakePHP 教程

1425

Laravel 教程

1325

PHP教程

1272

C# 教程

1252

Related knowledge

首個超越GPT4o級開源模型！ Llama 3.1洩密：4050億參數，下載連結、模型卡都有了 Jul 23, 2024 pm 08:51 PM

快準備好你的GPU！ Llama3.1終於現身了，不過出處卻不是Meta官方。今日，Reddit上新版Llama大模型洩漏的消息遭到了瘋傳，除了基礎模型，還包括8B、70B和最大參數的405B的基準測試結果。下圖為Llama3.1各版本與OpenAIGPT-4o、Llama38B/70B的比較結果。可以看到，即使是70B的版本，也在多項基準上超過了GPT-4o。圖源：https://x.com/mattshumer_/status/1815444612414087294顯然，3.1版本的8B和70

六年種方式快速體驗最新發布的 Llama 3！ Apr 19, 2024 pm 12:16 PM

Meta昨晚發布了Llama38B和70B模型，Llama3指令調整模型針對對話/聊天用例進行了微調和優化，在常見基準測試中優於許多現有的開源聊天模型。例如，Gemma7B和Mistral7B。 Llama+3模型對數據和規模進行了提升，達到了新的高度。它是在Meta最近發布的兩個客製化的24KGPU叢集上，對超過15Ttoken的資料進行訓練的。這個訓練資料集比Llama2大7倍，包含多4倍的程式碼。這使得Llama模型的能力達到了目前的最高水平，它支援8K以上的文字長度，是Llama2的兩倍。下面

最強模型Llama 3.1 405B正式發布，祖克柏：開源引領新時代 Jul 24, 2024 pm 08:23 PM

剛剛，大家期待已久的Llama3.1官方正式發售了！ Meta官方發出了「開源引領新時代」的聲音。在官方部落格中，Meta表示：「直到今天，開源大語言模型在功能和效能方面大多落後於封閉模型。現在，我們正在迎來一個開源引領的新時代。我們公開發布MetaLlama3.1405B，我們認為這是世界上最大、功能最強大的開源基礎模型。長文《OpenSourceAIIsthePathForward》，

Llama3突然來襲！開源社群再次沸騰：GPT4級模式自由訪問時代到來 Apr 19, 2024 pm 12:43 PM

Llama3來了！就在剛剛，Meta官網上新，官方宣布了Llama380億和700億參數版本。並且推出即為開源SOTA：Meta官方數據顯示，Llama38B和70B版本在各自參數規模上超越一眾對手。 8B模型在MMLU、GPQA、HumanEval等多項基準上都勝過Gemma7B和Mistral7BInstruct。而70B模型則超越了閉源的當紅炸子雞Claude3Sonnet，和谷歌的GeminiPro1.5打得有來有回。 Huggingface連結一出，開源社群再次沸騰。眼尖的盲生還第一時間發現

新款經濟實惠的 Meta Quest 3S VR 頭戴裝置出現在 FCC 上，暗示即將推出 Sep 04, 2024 am 06:51 AM

Meta Connect 2024 活動定於 9 月 25 日至 26 日舉行，在本次活動中，該公司預計將推出一款價格實惠的新型虛擬實境耳機。據傳這款 VR 耳機是 Meta Quest 3S，它似乎已經出現在 FCC 清單上。這個建議

分析師討論傳聞中的 Meta Quest 3S VR 耳機的發布定價 Aug 27, 2024 pm 09:35 PM

自 Meta 首次發布 Quest 3（亞馬遜售價 499.99 美元）以來，已經過去一年多了。此後，蘋果推出了價格昂貴得多的 Vision Pro，而位元組跳動現在在中國推出了 Pico 4 Ultra。然而，有

預計2024年，Meta計畫推出名為'Orion'的革命性AR眼鏡原型 Jan 04, 2024 pm 09:35 PM

12月24日消息，meta,一家在社群媒體界有著巨大影響力的科技企業，現正將其雄厚的期望寄託於擴增實境(AR)眼鏡，一種被認為是下一代運算平台的技術。近期，meta的技術主管安德魯・博斯沃思(AndrewBosworth)在一次採訪中透露，該公司預計在2024年推出一款代號為「Orion」的先進AR眼鏡原型。長期以來，meta在AR技術上的投入絲毫不亞於其他領域，他們投入了巨額資金，達數十億美元，旨在打造一款能與iPhone相媲美的革命性產品。儘管去年他們宣布終止Orion眼鏡的大規模生產計劃，

META是什麼意思 Mar 05, 2024 pm 12:18 PM

META通常指一個名為Meta宇宙（Metaverse）的虛擬世界或平台。 meta元宇宙，是人類運用數位科技建構的，由現實世界映射或超越現實世界，可與現實世界互動的虛擬世界，具備新型社會體系的數位生活空間。

See all articles

LeCun領導下的Meta AI，押注自監督

大火的 Transformer

視訊和音訊的自監督學習

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題