位元組跳動楊震原:抖音如何用好機器學習
「數位化時代,問題可以定量評估,機器學習可以圍繞目標做更聰明、高效的優化。」
4月18日,火山引擎發布自研DPU等系列雲產品,並推出新版機器學習平台,支援企業客戶更好地訓練AI大模型。位元組跳動副總裁楊震原以《抖音的機器學習實踐》為主題,分享了他對機器學習的理解。
楊震原認為,機器學習系統的核心競爭力,在於每次實驗都能很快、很便宜。演算法工程師能聚焦在自己的工作上,用很低成本不斷去試錯,這樣才能實現業務的敏捷迭代與創新。他表示:「火山引擎機器學習平台是內外統一的,火山引擎客戶和抖音用的是同樣的平台。我希望公司內部打磨的這些技術能夠服務更多的客戶,支持大家做智能化的創新。 」
以下為楊震原演講全文:
#早安!大家知道,抖音等業務是火山引擎的內部客戶,都跑在火山引擎的雲上。今天我會分享下公司內部業務的一些實務經驗:火山引擎是如何支援抖音用好機器學習的。
先說為什麼要聊機器學習,什麼場景、什麼狀況要用機器學習系統?用機器學習會有什麼樣的挑戰?我們是怎麼解決這些挑戰的?
我認為機器學習很重要的一點,就是把問題數位化。先數位化,然後讓這個問題可以定量評估。 當問題可以定量評估的時候,接下來就可以智慧化,進一步用一些機器學習的方法來優化。
之前有些朋友問我,說「震原,能不能幫我搞模型?」我問他想用這個模型做什麼?他其實自己並沒有想清楚。
我想透過幾個例子來具體說明下機器學習的用法。
例如效果廣告,對於商家來講,是不是能用合理的錢找到客戶?對平台來講,有一個廣告位,是不是能夠把最適合的廣告放到這個位置上?這個問題要怎麼評估呢?很簡單,我們看轉換率就可以了,所以它的目標可以很清楚地定義出來。
能夠清楚定義目標,就可以做A/B實驗,可以判斷什麼方法比較好,進而可以用機器學習進一步去優化。最後往往會發現,用人工的方法,例如圈選用戶這些方法做效果廣告,很難做得用機器學習。
再比如,優惠券發放。同樣的錢該發給哪些用戶,能為平台帶來更長期的留存?這也是可以精確地定量和評估的問題。這樣的問題,我們就可以思考用什麼樣的演算法,用什麼樣的機器學習去優化。
運力調度,這是大家很熟悉的叫車領域,也是可以定量評估的,可以透過成單率評估。如果配對得不好,我就不能把司機和乘客有效地匹配起來。自動駕駛就不多說了,這個領域想評估效果,實際上的維度更多,例如安全性、時間、舒適度等等。
講了這麼多,核心的問題是要能夠把問題定義清楚,先數字化,再去做智慧化。
我們用機器學習做智慧化,會有什麼樣的問題呢?主要說兩個問題,第一個是複雜,第二個是貴。
為什麼要說複雜?因為機器學習軟體堆疊很深,它需要有平台,有PyTorch平台,有TensorFlow,還有很多的平台。也涉及到框架、作業系統,還有底層的硬體。大家最近出門,都問對方有幾張GPU卡,你如果沒有,都不好意思跟人家打招呼。但其實很多人並不知道用這些卡片的效率到底是什麼樣子。所以機器學習的軟體堆疊是很深的,而且是挺複雜的一件事情,每個環節都要做對、做好。
再說說很貴的問題。人力貴,一個非常優秀的演算法工程師很貴,也不是那麼容易就能找到。除了人才昂貴,數據也很貴,高品質的數據成本很高。硬體就不說了,高性能GPU的價格大家都知道。
所以,機器學習是一件既複雜又昂貴的事情。那抖音是怎麼處理這個既複雜又昂貴的事情,更好地運用機器學習助力業務發展的呢?
先簡單介紹一下我們的平台,我們最主要的兩個平台,一個是推薦廣告平台,還有一個是通用平台,包括CV(電腦視覺) 、NLP(自然語言處理)平台等等。
推薦平台,每週會有上萬個模型在上面訓練,因為我們有很多產品,不同場景都會頻繁訓練模型。 CV/NLP平台,模型訓練的數字會更大,每週約有20萬個模型的訓練規模。而且這兩個平台上日常還跑著大量的線上服務。
舉個例子。例如,抖音的推薦系統有很多模型,其中某個模型需要用15個月的樣本來訓練,也就是說在15個月的時間裡不斷構築訓練數據,這個數據量是非常大的。但在我們的機器學習平台上,我們只需要5個小時,就可以完成這個模型的訓練,核算下來成本只要5000塊人民幣。對於一個演算法工程師來講,他早晨做這個模型訓練,下午就到線上做AB實驗了,大大提高了產品迭代效率。
機器學習做得好不好,我覺得可以用這個三角形來表示,其中最重要的是演算法。 演算法在效果上做到領先,就能對業務產生很大的價值。 支撐演算法效果的需求,有兩件事,一個是硬體ROI,一個是人力ROI。
硬體ROI指的是單位模型的成本。在市場競爭裡,別人花一萬塊做一個模型,你如果花一萬塊能做十個同類的模型,這場仗就穩了。人力ROI,是說招一個厲害的演算法工程師進來,他能否發揮最大潛能,主要看系統能否支援他足夠容易、足夠敏捷地去嘗試新的想法。
如何提高硬體ROI?潮汐、混部,這是我們常用的一些方法。本質上一句話,就是如何提高裝置利用率,這也是雲端原生的基本想法。我們把不同任務混在一起,互相錯峰,透過智慧調度,把它們的利用率都跑得很高,這樣可以大大提升資源的利用率,去壓縮每個實驗的成本。
在硬體成本以外,還有很重要的一點,就是機器學習的這套基礎設施是不是足夠易用。開個玩笑:很多做數學的人,不喜歡你搞電腦科學,尤其做深度學習,說你們這群人就在這裡“煉丹”,經常不能解釋你這個東西為什麼好,你為什麼需要不斷做實驗?但是我們從實用的角度來講,必須得不斷做實驗,不斷去嘗試,這個領域很多新的發現,都是不斷嘗試做出來的。
如何讓每次嘗試更快、更便宜,這就是核心競爭力。想一勞永逸,一把做出一個非常完美的模型,這是很難實現的。
火山引擎要做的,就是把平台的工作做好。大家可以看到,資料處理的整個過程、模型訓練、評估到上線,再到AB測試,全平台有統一的整合。 演算法工程師不需要反覆去溝通各種環節,串連各種業務,他可以更聚焦在自己的工作上。
再看個例子,這是一個很有意思的特效(抖音AI繪畫),估計很多朋友都用過。大概是去年年底,這個特效特別火紅。大家猜猜,做這個特效對抖音來講投入了多少人力?或許很多人都想不到,演算法工程師就投入了一個人,他在平台上寫了一些研究的程式碼,大概花了一個星期就完成了模型的訓練,經過一些調教之後就發佈到線上了。
当时产品预估可能有200QPS的峰值流量,上线我们按照2000QPS来做的,没想到上线几个小时就打满了。我们很快做了大量扩容,很短时间内容量再扩大10倍,到支持20000QPS。
可以看到整个过程,参与的人数是非常少的,同时扩容效率也非常高。很多人说模型训练的开销大,其实从长期来看,推理的开销会显著大于训练。AI绘画这个模型,在火山引擎平台推理的效率大概比原生Pytorch 模型快5倍。上线之后又做了一些针对性的优化,还可以更快,大概快10倍,提高了一个数量级。
有了这样的平台支持,工程师就可以快速尝试各种想法,不管是跟进进展,还是开拓创新,都可以做得很快。
最后,大家能够看到,在抖音、今日头条、懂车帝这样一些APP上,开屏会显示:火山引擎提供计算服务。我们所讲的机器学习平台是内外统一的,火山引擎客户和抖音用的是同样的平台。我希望公司内部打磨的这些技术能够服务更多的客户,支持大家做智能化的创新。谢谢大家。
以上是位元組跳動楊震原:抖音如何用好機器學習的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

外國女人表情包有哪些?近期有個外國女人的表情包在網路上非常火,相信很多小夥伴在刷影片時都會遇見,下面小編就來給大家分享幾個對應的表情包,感興趣的快來看看吧。外國女子表情包大全

本站6月27日訊息,剪映是由位元組跳動旗下臉萌科技開發的一款影片剪輯軟體,依託於抖音平台且基本面向該平台用戶製作短影片內容,並相容於iOS、安卓、Windows 、MacOS等作業系統。剪映官方宣布會員體系升級,推出全新SVIP,包含多種AI黑科技,例如智慧翻譯、智慧劃重點、智慧包裝、數位人合成等。價格方面,剪映SVIP月費79元,年費599元(本站註:折合每月49.9元),連續包月則為59元每月,連續包年為499元每年(折合每月41.6元) 。此外,剪映官方也表示,為提升用戶體驗,向已訂閱了原版VIP

已老實求放過梗是什麼意思? 「已老實求放過」作為一個網絡流行語,源自於一系列關於商品價格上調引發的幽默討論,這一表達現多用於自嘲或調侃情境中,意指個體面對特定情形(如壓力、調侃或玩笑)時,感覺自己無力反抗或辯駁,下面就跟著小編一起來看看這個梗的介紹吧。已老實求放過梗介紹來源:已老實求放過這個梗起源於“給你加個準時寶就老實了”,後來演變為“利群漲兩塊就老實了”和“冰紅茶漲一塊就老實了」。網友大呼“已老實求降價”,最後發展為“已老實求放過”且有表情包誕生。用處:用於在破防的時候或無可奈何,甚至是自我

小弟膜拜膜拜你表情包有哪些?小弟膜拜膜拜你表情包源於網絡博主何丟丟不走丟創作的“大哥與小弟系列”,在該系列中,小弟面對難題時大哥及時相助,隨後小弟便會用這句台詞表達極度崇拜和感激之情,形成了風趣又不失恭敬的網梗,下面就跟著小編一起來欣賞一下表情包吧。小弟膜拜膜拜你表情包大全

紅溫是什麼梗?紅溫梗源自電競圈,特別指前《英雄聯盟》職業選手Uzi在比賽緊張或激動時臉部變紅的現象,成為網路上描述人因激動,焦慮而滿臉通紅的趣味表達,下面就跟著小編一起來看看這個梗的具體介紹吧。紅溫梗意義介紹「紅溫」作為一個網絡梗,源自於電競領域的直播文化,特別是與《英雄聯盟》(LeagueofLegends)相關的社區。這個梗初始是用來描述前職業選手Uzi(簡自豪)在比賽中的一個特徵現象。 Uzi在比賽時,因為緊張、專注或情緒激動,臉部會變得異常紅潤,這一狀態被觀眾戲謔地比喻為遊戲內英雄“蘭博

因為他善梗是什麼意思?相信有不少的小夥伴都有看到有很多短視頻評論區裡有這麼一句評論吧,那這因為他善是什麼意思呢,那今天小編就為大家帶來了因為他善梗介紹,還不清楚的小夥伴快來一起看看吧。因為他善梗介紹來源:「因為他善」這個梗源自網絡,特別是短視頻平台如抖音上的一個熱梗,與知名相聲演員郭德綱的一個段子有關。在這個段子裡,郭德綱以幽默的方式列舉了幾種不做某事的理由,每一條理由的結尾都是“因為他善”,形成了一個詼諧的邏輯閉環,實際上並沒有直接的因果關係,而是無厘頭的搞笑表達。熱梗:例如,「會做的我不

寢室哪有冷氣是什麼梗? 「寢室哪有空調」這個網梗,源自學生群體對宿舍缺乏空調這一生活現狀的詼諧吐槽,透過誇張與自嘲的方式,表達了在炎炎夏日里對涼爽舒適環境的渴望與現實條件的反差,下面就跟著小編一起來看看這個梗的介紹吧。寢室哪有空調是什麼梗來源:「寢室哪有空調」這個梗來自於校園生活的一種調侃,特別是針對那些住宿條件較為基礎、未配備空調的學校寢室環境。它反映出學生對於改善住宿條件,特別是在炎炎夏天對空調需求的渴望。這個梗在網路上流傳,常用於學生之間的交流,用來幽默地表達對炎熱天氣下沒有空調的無奈和

機器學習是人工智慧的重要分支,它賦予電腦從數據中學習的能力,並能夠在無需明確編程的情況下改進自身能力。機器學習在各個領域都有廣泛的應用,從影像辨識和自然語言處理到推薦系統和詐欺偵測,它正在改變我們的生活方式。機器學習領域存在著多種不同的方法和理論,其中最具影響力的五種方法被稱為「機器學習五大派」。這五大派分別為符號派、聯結派、進化派、貝葉斯派和類推學派。 1.符號學派符號學(Symbolism),又稱符號主義,強調利用符號進行邏輯推理和表達知識。該學派認為學習是一種逆向演繹的過程,透過現有的
