DeepMind CEO：LLM+樹搜尋就是AGI技術線路，AI科研依賴工程能力，閉源模型就是比開源安全-人工智慧-PHP中文網

Google在2月之後突然切換到了996模式，不到一個月的時間拋出了5個模型。

而DeepMind CEO Hassabis本人也是四處為自家的產品站台，曝出了許多幕後的開發內幕。

在他看來，雖然還需要技術突破，但現在人類通往AGI之路已經出現。

而DeepMind和GoogleBrain的合併，標誌著AI技術發展已經進入了新的時代。

問：DeepMind一直站在技術的前端。例如像AlphaZero這樣系統，內部的智能體能夠經過一連串思考，達成最終目標。這是否意味著大型語言模型（LLM）也能夠加入這種研究的行列？

Hassabis認為，大型模型有巨大的潛力，需要進一步優化，以提高其預測精度，從而建立更可靠的世界模型。儘管這一步驟至關重要，但這可能不足以建立一個完整的通用人工智慧（AGI）系統。

在此基礎上，我們正在開發類似AlphaZero的規劃機制，透過世界模型來製定實現具體世界目標的計畫。

這包括將不同的思維或推理鏈串聯起來，或利用樹搜尋來探索廣闊的可能性空間。

這些都是目前我們的大型模型所缺少的環節。

問：從純粹的強化學習（RL）方法出發，是否有可能直接邁向 AGI 呢？

看來，大型語言模型會構成基礎先驗知識，然後在此基礎上進一步研究。

理論上，完全採用開發AlphaZero的方式是有可能的。

DeepMind和RL社群的一些人正在致力於這個方向，他們從零開始，不依賴任何先驗知識或數據，完全建立新的知識體系。

我認為，利用現有的世界知識——例如網路上的資訊和我們已經收集的數據——將是實現AGI的最快途徑。

我們現在已經有了能吸收這些資訊的可擴展演算法——Transformers，我們完全可以利用這些現有的模型作為先驗知識來進行預測和學習。

因此，我認為，最終的AGI系統一定將包括現在的大模型作為解決方案的一部分。

但光有大模型還不足夠，我們還需要在其上加入更多的規劃和搜尋的能力。

問：面對這些方法所需的巨大運算資源，我們要如何突破呢？

即使是AlphaGo這樣的系統，由於需要在決策樹的每個節點上進行計算，也是相當昂貴的。

我們致力於開發樣本高效的方法和重複利用現有資料的策略，例如經驗回放（experience replay），以及探索更有效率的方法。

實際上，如果世界模型夠好，你的搜尋就可以更有效率。

以Alpha Zero為例，它在圍棋和象棋等遊戲中的表現超過了世界冠軍水平，但其搜尋的範圍遠小於傳統的暴力搜尋方法。

這表明，改進模型可以使搜尋更有效率，從而達到更遠的目標。

但在定義獎勵函數和目標時，如何確保系統朝著正確的方向發展，將是我們面臨的挑戰之一。

Google為什麼半個月可以出5個模型？

問：可以談談為什麼Google和DeepMind同時研究這麼多不同的模型嗎？

因為我們一直在進行基礎研究，我們有大量的基礎研究工作，涵蓋各種不同的創新和方向。

這意味著，我們同時在建立主要的模型軌道——核心Gemini模型，同時也有許多更具探索性的專案正在進行。

當這些探索計畫取得一些成果時，我們會將其融入主分支，進入下一版的Gemini，這就是為什麼你會看到1.5緊跟在1.0之後發布，因為我們已經在研究下一個版本了，因為我們有多個團隊在不同的時間尺度上工作，彼此之間進行循環，這就是我們能夠持續進步的方式。

我希望這將成為我們的新常態，以這種高速度發布產品，當然，同時還要非常負責任，牢記發布安全的模型是我們的第一要務。

問：我想問的是你們最近的一次重大發布，即Gemini 1.5 Pro，你們的新 Gemini Pro 1.5模型可以處理高達一百萬個token。你能解釋一下這意味著什麼以及為什麼上下文視窗是一個很重要的技術指標嗎？

DeepMind CEO：LLM+树搜索就是AGI技术线路，AI科研依赖工程能力，闭源模型就是比开源安全

是的，這非常重要。長上下文可以被視為模型的工作記憶，即它一次可以記住並處理多少資料。

你擁有的上下文越長，它的準確性也很重要，從長上下文中回憶事物的精確度也同樣重要，你就可以考慮到更多的數據和上下文。

因此，一百萬意味著你可以處理巨大的書籍、完整的電影、大量的音訊內容，例如完整的程式碼庫。

如果你有一個更短的上下文窗口，例如只有十萬這個級別，那麼你只能處理其中的片段，模型就無法對你感興趣的整個語料庫進行推理或檢索。

因此，這實際上為所有類型的新用例提供了可能性，這些是小上下文無法完成的。

問：我從人工智慧研究人員那裡聽說，這些大上下文視窗的問題是它們非常消耗計算資源。例如，如果你上傳了一整部電影或一本生物學教科書，並詢問關於它的問題，就需要更多的處理能力來處理所有這些並做出回應。如果很多人都這樣做，成本會很快增加。 Google DeepMind是否提出了一些巧妙的創新來使這些龐大的上下文視窗更有效率，還是Google只是承擔了所有這些額外計算的成本？

是的，這是一個全新的創新，因為如果沒有創新，你無法擁有這麼長的脈絡。

但這仍然需要花很高昂的運算成本，所以我們正在努力優化。

如果你用滿了整個上下文視窗的話。上傳資料的初始處理可能需要幾分鐘。

但如果你考慮到這就像是在一兩分鐘內觀看整部電影或閱讀整部《戰爭與和平》，那麼這還不算太壞，然後你就能回答任何關於它的問題了。

然後我們想確保的是，一旦你上傳並處理了文檔、視頻或音頻，那麼隨後的問題和回答應該更快。

這就是我們目前正在努力的方向，我們非常有信心能將其縮短到幾秒鐘的時間內。

問：你說你們已經測試了高達一千萬token的系統了，效果如何？

在我們的測試中效果非常好。因為計算成本還比較高，目前還不實際提供服務。

但在精確度和回憶方面，它的表現非常出色。

問：我想問你關於Gemini的問題，Gemini能做什麼特別的事情，之前的Google語言模型或其他模型做不到的？

嗯，我認為Gemini，尤其是1.5版本的激動人心之處在於其天生的多模態特性，我們從頭開始構建它，使其能夠處理任何類型的輸入：文字、圖像、程式碼、影片。

如果你結合長上下文，你就會看到它的潛力。例如，你可以想像你在聽一整場講座，或是有一個重要的概念你想了解，你想快轉到那裡。

所以現在我們可以將整個程式碼庫放入上下文視窗中，這對於新程式設計師的入門非常有用。假設你是星期一開始上班的新工程師，通常你需要去查閱數以十萬計的程式碼行，你要如何存取某個函數？

你需要去詢問程式碼庫的專家。但現在實際上你可以使用Gemini作為編碼助手，以這種有趣的方式。它會回傳一些摘要，告訴你程式碼的重要部分在哪裡，你就可以開始工作了。

我認為擁有這種能力非常有幫助，讓你的日常工作流程更有效率。

我非常期待看到Gemini在像slack這樣的東西中被整合進去後的表現，以及你的一般工作流程。未來的工作流程是什麼樣的？我認為我們才剛開始體會到改變。

Google開源的首要任務是保證安全

問：我現在想轉向 Gemma，你們剛剛發布的一系列輕量級開源模型。今天，是否透過開源發布基礎模型，或將它們保持封閉，似乎是最具爭議的話題之一。到目前為止，Google一直將其基礎模型保持為封閉來源。為什麼現在選擇開源？你如何看待這樣一種批評，即透過開源使基礎模型可用，增加了它們被惡意行為者使用的風險和可能性？

是的，我實際上公開討論了這個問題很多次。

其中一個主要擔憂是，通常來說，開源和開放研究顯然是有益的。但這裡有一個特定的問題，那就是與AGI和AI技術相關的問題，因為它們是通用的。

一旦你發布了它們，惡意行為者就可能將它們用於有害的目的。

當然，一旦你開源了某樣東西，你就沒有真正的辦法再收回來了，不像API訪問之類的，如果發現下游有之前沒人考慮到的有害用例，你可以直接切斷存取。

我認為這意味著對於安全性、穩健性和負責任性的門檻甚至更高。隨著我們接近 AGI，它們將擁有更強大的能力，所以我們必須更加小心，考慮它們可能被惡意行為者用於什麼。

我還沒有從那些支持開源的人那裡聽到一個好的論點，例如開源的極端主義者，他們中有很多是我在學術界尊敬的同事，他們如何回答這個問題，－－符合防範開源模型對於會讓更多的惡意行為者的訪問模型的問題？

我們需要更多地考慮這些問題，因為這些系統變得越來越強大。

問：那麼，為什麼Gemma沒有讓你擔憂這個問題呢？