我的領導馬斯克:痛恨開會,不要非技術中層,推崇裁員

PHPz
發布: 2024-04-01 09:01:33
轉載
1139 人瀏覽過

馬斯克稱得上是個「魔鬼老闆」這事兒,已經出了名了。

現在,他的老部下卡帕西(Andrej Karpathy)又在最新訪談中「錘」了他一把(doge):

我不得不懇求祂允許我招人。

(馬斯克)總是預設要裁掉員工。

我的領導馬斯克:痛恨開會,不要非技術中層,推崇裁員

喜歡裁人之外,在這場紅杉組織的AI Ascent活動上,卡帕西也揭秘了更多馬斯克管理公司的細節:

痛恨開會、拒絕躺平、比起跟VP更喜歡直接和工程師們聊工作……

#另外,他也聊了不少大傢伙關心的大模型話題,包括:

  • LLM OS
  • 規模重要嗎?
  • 年輕的新創公司要如何與OpenAI競爭?

更多細節,以下奉上文字版分享~

(Claude 3也有貢獻)

大語言模型是新時代的CPU

Q:安德烈,非常感謝你今天加入我們。 OpenAI最初的辦公室就在我們舊金山辦公室的對面,當時你們很多人都擠在一起。

除了在巧克力工廠樓上工作,實現了威利旺卡的夢想,在這裡工作還有哪些令你難忘的時刻?

卡帕西:是的,OpenAI最初的辦公室就在那裡,如果不算Greg的公寓的話。

我們在那裡待了大約兩年,樓下就是巧克力工廠,味道一直很香。那時團隊大概有10-20多人。

我們在那裡度過了一段非常有趣的時光。老黃在GTC大會上提到的,他把第一台DGX超級電腦送到OpenAI的事,就發生在那裡。

我的領導馬斯克:痛恨開會,不要非技術中層,推崇裁員

Q:安德烈其實是不需要介紹的,但我還是想提一下他的背景。他師從Geoffrey Hinton和李飛飛,最早因為在史丹佛大學開設的深度學習課程成名。

2015年他共同創辦了OpenAI。 2017年,他被馬斯克挖走了。

大家可能不太記得當時的狀況了:特斯拉經歷了6任Autopilot負責人,每個人都只做了6個月。我記得安德烈接手這個職位時,我還祝他好運來著。

沒多久,他就回到了OpenAI。而現在他擁有完全的自由,可以想做什麼就做什麼。所以我們很期待聽他今天分享的見解。

我最欣賞安德烈的地方在於,他是一位令人著迷的未來主義思想家,他是堅定的樂觀主義者,同時他也是非常務實的建設者。今天他會和我們分享一些關於這些方面的見解。

首先,即使在7年前,AGI看起來也是一個在我們有生之年幾乎不可能實現的目標。而現在它似乎已經在望了。 你對未來10年有什麼看法?

卡帕西:你說的沒錯。幾年前,AGI的路徑還很不明朗,還處於非常學術化的探討階段。但現在已經很清楚了,大家都在努力填補這片空白。

優化工作正在如火如荼地進行中。大致來說,每個人都在努力建立「大模型作業系統(LLM OS)」。

我喜歡把它比喻成一個作業系統。你要準備好各種外圍設備,然後把它們連接到一個新的CPU上。 這些週邊設備包括文字、圖像、音訊等各種模態。 CPU就是語言模型本身。它還將與我們已經建造的所有Software 1.0基礎設施相連。

我認為大家都在努力建構這樣一個東西,然後把它定製成適用於各個經濟領域的產品。

總的來說,發展方向就是我們可以調整這些相對獨立的agent,給它們一個高層次的任務,讓它們專門從事各種工作。這將非常有趣和令人興奮。而且不只一個agent,會有很多agent。想像一下那會是什麼樣子?

我的領導馬斯克:痛恨開會,不要非技術中層,推崇裁員

Q:如果未來真的如你所說,那我們現在該如何調整自己的生活方式?

卡帕西:我不知道。我想我們必須努力去建構它,去影響它,確保它是正向的。總之就是盡量讓結果變好。

Q:既然你現在是自由人,我想提一個顯著的問題,那就是OpenAI正在主導整個生態。

今天在座的大多數人都是創業者,他們試圖開闢一些小眾市場,並祈禱OpenAI不會在一夜之間把他們打垮。

你認為其中還有機會嗎? OpenAI會在哪些領域繼續佔主導地位?

卡帕西:我的整體印像是,OpenAI正在努力建立LLM作業系統。正如我們今天早些時候聽到的,OpenAI正試圖開發一個平台。在此基礎上,你可以在不同的垂直領域建立不同的公司。

作業系統的類比其實很有意思,因為像Windows這樣的作業系統,也自帶一些預設的應用程序,像是瀏覽器。

所以我認為,OpenAI或其他公司可能也會推出一些預設的應用,但這並不意味著你不能在其上面運行不同的瀏覽器,你可以在他們的基礎之上運行不同的agent。

會有一些預設應用,但也可能會有一個充滿活力的生態系統,有各種各樣的應用,針對具體場景進行了微調。

我很喜歡用早期的iPhone應用程式來類比。這些應用程式一開始都有點像開玩笑,需要時間來發展。我想我們現在正在經歷同樣的事情。人們正在努力弄清楚這個東西擅長什麼?不擅長什麼?我如何使用它?如何程式設計?如何調試?如何讓它執行實際任務?需要什麼樣的監督?因為它相當自主,但不完全自主的。所以監督應該是什麼樣的呢?評估應該是什麼樣的?有很多事情需要思考,需要理解。我認為需要一些時間來弄清楚如何與這種新的基礎設施合作。所以我認為在未來幾年我們會看到這一點。

Q:現在大語言模型的競賽正在如火如荼地進行,有OpenAI、Anthropic、Mistral、Llama、Gemini,還有整個開源模型生態系統,以及大量的小模型。你如何預見生態系未來的發展?

卡帕西:是的,所以我再次強調,作業系統的類比很有意思。我們有Windows、macOS這樣閉源的系統,也有開源的Linux。我認為大模型可能也會是這樣的格局。

我們稱呼這些模型的時候也要小心,你列舉的許多模型,像是Llama、Mistral等,我不認為它們是真正的開源。這就像是把一個作業系統的二進位檔案扔出來,你可以使用它,但不是完全有用。確實有一些我認為是完全開源的語言模型,它們完整地發布了編譯「作業系統」所需的全部基礎設施,從資料收集到模型訓練。這比只拿到模型權重肯定要好得多,因為你可以微調模型。

但我認為有一個微妙的問題,就是你不能完全微調模型,因為你微調得越多,它在其他所有任務上的表現就會越差。

所以如果你想增加某種能力而不影響其他能力,實際上可能需要混合先前的資料集分佈和新的資料集分佈來進行訓練。如果只給你模型權重,你其實做不到這一點。你需要訓練循環,需要資料集等。所以你在使用這些模型時實際上是受限的。

它們肯定是有幫助的,但我們可能需要更好的術語對其進行描述。開放權重模型、開源模型,還有專有模型,生態系統可能會是這樣的。而且很可能會與我們今天的生態系統非常相似。

我的領導馬斯克:痛恨開會,不要非技術中層,推崇裁員

規模是最主要決定因素

Q:我想問的另一個問題,就是規模。簡單來說,規模似乎是最重要的。數據規模、算力規模。因此,大型研究實驗室、大型科技巨頭今天擁有巨大的優勢。你對此有何看法?規模就是一切嗎?如果不是,還有什麼重要的?

卡帕西:我認為規模絕對是第一位的。

其中有一些細節確實需要處理好。我認為資料集的準備工作也很重要,要讓資料非常好、非常乾淨,這可以讓運算效率提升。

但我認為規模將是主要的決定因素,是第一主成分,當然你還需要把其他很多事情做好。

如果沒有規模,那你從根本上就無法訓練這些大模型。如果你只做微調之類的工作,可能不需要那麼大的規模,但我們還沒有真正看到這一點完全實現。

Q:你能詳細說說除了規模之外,你認為還有哪些重要因素嗎,可能優先順序低?

卡帕西:首先,你不能只訓練這些模型。如果你只是提供資金和規模,實際上訓練這些模型仍然非常困難。

部分原因是基礎設施太新了,還在開發中,還不完善。但在這種規模上訓練模型是極為困難的,是一個非常複雜的分散式最佳化問題。這方面的人才目前其實相當稀缺。這基本上是一個瘋狂的事情,模型在成千上萬個GPU上運行,在不同的時間點隨機失敗。監控這個過程,讓它運作起來,實際上是極其困難的挑戰。

直到最近,GPU才像預期的那樣能處理1萬個GPU的工作負載。所以我認為很多基礎設施在這種壓力下都在吱吱作響,我們需要解決這個問題。

現在,如果你只是給某人一大筆錢或大量的GPU,我不確定他們是否能直接生產出大模型,這就是為什麼不僅僅是規模的問題。你實際上需要大量的專業知識,包括基礎設施方面、演算法方面,以及數據方面,要非常謹慎。

Q:生態系統發展得如此之快,一年前我們認為存在的一些挑戰,現在也越來越多地解決。幻覺、上下文視窗、多模態能力、推理速度越來越快、成本越來越低。現在還有哪些語言模型研究的挑戰讓你夜不能寐?你認為有哪些問題夠緊迫,但也是可以解決的?

卡帕西:我認為在演算法方面,我想了很多的一個問題是擴散模型和自回歸模型之間的明顯區別。它們都是表示機率分佈的方法。事實證明,不同的模態顯然適合其中之一。我認為可能有一些空間來統一它們,或以某種方式將它們聯繫起來。

我想指出的另一件事是,運行大模型的基礎設施的內在效率。我的大腦耗電量大概是20瓦。老黃在GTC上剛剛談到了他們要建造的大型超級計算機,數字都是兆瓦級的。所以也許你不需要那麼多能量來運行一個大腦。我不知道具體需要多少,但我認為可以肯定地說,在運行這些模型的效率方面,我們還可以1000倍到100萬倍地提升。

我認為部分原因是目前的電腦根本不適合這個工作負載。英偉達的GPU朝著這個方向邁出了很好的一步,因為你需要極高的並行性。我們實際上並不關心以某種方式依賴資料的順序計算。我們只是需要在許多不同的陣列元素上執行相同的演算法。所以我認為第一個是調整電腦架構以適應新的資料工作流程,第二是推動我們目前看到有改進的東西。

第一個可能是精度。我們看到精準度從最初的64位雙精度下降到現在的4、5、6位,甚至根據你所讀的論文不同,可能是1.5到8位。所以我認為精準度是控制這個問題的一個很大的槓桿。

第二個當然是稀疏性。事實上,大模型中的許多參數都是零,或是接近零。所以如果你能以某種方式利用這一點,比如說讓稀疏矩陣乘法變得更有效率,那就太好了。這方面有一些有前景的研究。

此外還有一些有趣的想法,例如奇異值分解(SVD),看看是否可以將其分解成更小的矩陣,然後重新組合。例如只計算前向傳播,不做反向傳播,訓練一個較小的模型來預測較大模型的輸出。

所以我認為,從根本上講,要解決兩個問題:

一個是建立更合適的硬體。另一個是找到更好的演算法,在保持效能的同時提高效率。

我認為這兩個面向都還有很大的探索空間。從能源效率的角度來看,如果我們能縮小與大腦的差距,那將是一個巨大的進步。這可能意味著我們每個人都可以負擔得起一個模型,或在我們的設備上運行一個模型,而不需要連接到雲端。

馬斯克「管理世界上最大的新創公司」

我的領導馬斯克:痛恨開會,不要非技術中層,推崇裁員

Q:好的,我們換個話題。你曾與這個時代的許多偉人並肩工作過,OpenAI的Sam、Greg及其他團隊成員,還有馬斯克。

在座有多少人聽過關於美國賽艇隊和日本賽艇隊的笑話?這是個有趣的故事。馬斯克分享過這個笑話,我認為它反映了他在打造企業文化和團隊方面的許多理念。故事中有兩支隊伍,日本隊有4名劃手和1名舵手,美國隊有4名舵手和1名劃手。有人猜得出當美國隊輸了後他們會怎麼做嗎?大聲說出來。完全正確,他們會開除那個劃手。

馬斯克分享這個例子,我認為是在闡述他對於僱用合適的人才、打造合適團隊的看法。透過與這些不可思議的領導者的密切合作,你學到了什麼?

卡帕西:我想说马斯克管理公司的方式非常独特。我觉得人们并没有真正意识到它有多特别。即便是听别人讲,你也很难完全理解。我觉得这很难用语言描述。我甚至都不知道从何说起。但这确实是一种非常独特、与众不同的方式。

用我的话说,他在管理全球最大的创业公司。我觉得我现在也很难描述清楚,这可能需要更长时间来思考和总结。

不过首先,他喜欢由实力强大且技术含量高的小团队来组成公司

在其他公司,发展的过程中团队规模往往会变大。而马斯克则总是反对团队过度扩张。为了招募员工,我不得不做很多努力。我必须恳求他允许我招人。

另外,大公司通常很难摆脱绩效不佳的员工。而马斯克则更愿意主动裁人。

事实上,为了留住一些员工,我不得不据理力争,因为他总是默认要裁掉他们。

所以第一点就是,保持一支实力强劲、技术过硬的小团队。绝对不要有那种非技术型的中层管理。这是最重要的一点。

第二点则是他如何营造工作氛围,以及当他走进办公室时给人的感觉。

他希望工作环境充满活力。人们四处走动,思考问题,专注于令人兴奋的事物。他们或是在白板上写写画画,或是在电脑前敲代码。他不喜欢一潭死水,不喜欢办公室里没有生机。

他也不喜欢冗长的会议,总是鼓励人们在会议毫无意义时果断离场。你真的能看到,如果你对会议毫无贡献也没有收获,那就可以直接走人,他非常支持这一点。我想这在其他公司是很难见到的。

所以我认为营造积极向上的工作氛围是他灌输的第二个重要理念。也许这其中还包括,当公司变大后,往往会过度呵护员工。而在他的公司不会如此。公司的文化就是你要拿出百分之百的专业能力,工作节奏和强度都很高。

我想最后一点或许是最独特、最有趣也最不寻常的,就是他与团队如此紧密地联系在一起

通常一个公司的CEO是一个遥不可及的人,管理着5层下属,只和副总裁沟通,副总裁再和他们的下属主管沟通,主管再和经理层沟通,你只能和直属上司对话。但马斯克经营公司的方式完全不同。他会亲自来到办公室,直接与工程师交谈。

我们开会时,会议室里经常是50个人和马斯克面对面,他直接跟工程师对话。他不想只是和副总裁、主管们说话。

通常一个CEO会把99%的时间花在和副总裁沟通上,而他可能有50%的时间在和工程师交流。所以如果团队规模小且高效,那么工程师和代码就是最可信的信息源。他们掌握第一手的真相。马斯克要直接和工程师交流,以了解实际情况,讨论如何改进。

所以我想说,他与团队联系紧密,而不是遥不可及,这一点非常独特。

此外,他在公司内部行使权力的方式也不同寻常。比如如果他与工程师交谈,了解到一些阻碍项目进展的问题。比如工程师说,“我没有足够的GPU来运行程序”,他会记在心里。如果他两次听到类似的抱怨,他就会说:“好,这是个问题。那现在的时间表是什么?什么时候能解决?”

如果得不到满意的答复,他会说,“我要和GPU集群的负责人谈谈”,然后有人就会打电话给那个负责人,他会直截了当地说:“现在就把集群容量翻一倍。从明天开始每天向我汇报进展,直到集群规模扩大一倍。”

对方可能会推脱说还要经过采购流程,需要6个月时间之类的。这时马斯克就会皱起眉头,说:“好,我要和黄仁勋谈谈。”然后他就会直接铲除项目障碍。

所以我认为大家并没有真正意识到他是如何深度参与各项工作,扫清障碍,施加影响力的。

老实说,离开这样的环境去一家普通公司,你真的会想念这些独特的地方。

以上是我的領導馬斯克:痛恨開會,不要非技術中層,推崇裁員的詳細內容。更多資訊請關注PHP中文網其他相關文章!

來源:51cto.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板