“Dalam era digital, masalah boleh dinilai secara kuantitatif dan pembelajaran mesin boleh membuat pengoptimuman yang lebih bijak dan cekap di sekitar matlamat
Pada 18 April, Volcano Engine telah dikeluarkan daripada Membangunkan satu siri produk awan seperti DPU, dan melancarkan versi baharu platform pembelajaran mesin untuk menyokong pelanggan perusahaan untuk melatih model AI besar dengan lebih baik. Yang Zhenyuan, Naib Presiden ByteDance, berkongsi pemahamannya tentang pembelajaran mesin dengan tema "Amalan Pembelajaran Mesin Douyin".
Yang Zhenyuan percaya bahawa daya saing teras sistem pembelajaran mesin ialah setiap percubaan boleh dilakukan dengan cepat dan murah. Jurutera algoritma boleh memberi tumpuan kepada kerja mereka sendiri dan terus mencuba dan membuat kesilapan pada kos yang sangat rendah Hanya dengan cara ini lelaran dan inovasi perniagaan dapat dicapai. Beliau berkata: "Platform pembelajaran mesin Volcano Engine disatukan secara dalaman dan luaran. Pelanggan Volcano Engine dan Douyin menggunakan platform yang sama. Saya berharap teknologi yang digilap dalam syarikat ini dapat memberi perkhidmatan kepada lebih ramai pelanggan dan menyokong semua orang dalam membuat inovasi pintar "
Berikut ialah teks penuh ucapan Yang Zhenyuan:
Selamat pagi! Seperti yang kita sedia maklum, Douyin dan perniagaan lain ialah pelanggan dalaman Volcano Engine, dan semuanya berjalan pada awan Volcano Engine. Hari ini saya akan berkongsi beberapa pengalaman praktikal dalam perniagaan dalaman syarikat: bagaimana Enjin Volcano menyokong penggunaan pembelajaran mesin Douyin.
Pertama sekali, mengapa kita perlu bercakap tentang pembelajaran mesin dalam senario apa dan dalam keadaan apakah kita harus menggunakan sistem pembelajaran mesin? Apakah cabaran menggunakan pembelajaran mesin? Bagaimanakah kami menyelesaikan cabaran ini?
Saya rasa titik yang sangat penting dalam pembelajaran mesin ialah mendigitalkan masalah. Digitize dahulu, kemudian jadikan masalah boleh dinilai secara kuantitatif. Apabila masalah boleh dinilai secara kuantitatif, ia kemudiannya boleh dibuat pintar dan terus dioptimumkan menggunakan beberapa kaedah pembelajaran mesin.
Ada kawan bertanya kepada saya sebelum ini, "Zhenyuan, boleh awak tolong saya buat model?" Malah, dia sendiri tidak memikirkannya dengan jelas.
Saya ingin menerangkan penggunaan pembelajaran mesin melalui beberapa contoh.
Sebagai contoh, pengiklanan prestasi, untuk peniaga, bolehkah mereka mencari pelanggan dengan wang yang berpatutan? Untuk platform, jika ada ruang pengiklanan, bolehkah iklan yang paling sesuai diletakkan di posisi ini? Bagaimana untuk menilai masalah ini? Ia sangat mudah, kita hanya melihat pada kadar penukaran, jadi matlamatnya boleh ditakrifkan dengan jelas.
Jika anda boleh mentakrifkan matlamat dengan jelas, anda boleh melakukan percubaan A/B, menilai kaedah yang lebih baik, dan kemudian menggunakan pembelajaran mesin untuk mengoptimumkan lagi. Pada akhirnya, sering didapati bahawa menggunakan kaedah manual, seperti memilih pengguna untuk melakukan pengiklanan yang berkesan, adalah sukar untuk dilakukan dengan lebih baik daripada menggunakan pembelajaran mesin.
Contoh lain ialah pengeluaran kupon. Kepada pengguna manakah wang yang sama harus diagihkan, yang boleh membawa pengekalan jangka panjang ke platform? Ini juga merupakan soalan yang boleh diukur dan dinilai dengan tepat. Untuk masalah sedemikian, kita boleh memikirkan jenis algoritma yang hendak digunakan dan jenis pembelajaran mesin yang akan digunakan untuk pengoptimuman.
Penjadualan kapasiti, yang merupakan medan yang semua orang biasa, juga boleh dinilai secara kuantitatif dan boleh dinilai melalui kadar siap pesanan. Jika padanan tidak bagus, saya tidak dapat menandingi pemandu dan penumpang dengan berkesan. Saya tidak akan bercakap banyak tentang pemanduan autonomi Jika anda ingin menilai kesan dalam bidang ini, sebenarnya terdapat lebih banyak dimensi, seperti keselamatan, masa, keselesaan, dsb.
Setelah berkata begitu banyak perkara, isu terasnya ialah dapat mentakrifkan masalah dengan jelas, mendigitalkannya dahulu, dan kemudian menjadikannya pintar.
Apakah jenis masalah yang akan berlaku apabila kita menggunakan pembelajaran mesin untuk menjadikan perkara itu pintar? Terdapat dua masalah utama yang pertama adalah rumit dan kedua adalah mahal.
Mengapa ia rumit? Oleh kerana susunan perisian pembelajaran mesin sangat mendalam, ia memerlukan platform, termasuk platform PyTorch, TensorFlow dan banyak platform lain. Ia juga melibatkan rangka kerja, sistem pengendalian dan perkakasan asas. Apabila semua orang keluar baru-baru ini, mereka sentiasa bertanya antara satu sama lain berapa banyak kad GPU yang mereka ada. Jika anda tidak mempunyai satu, anda akan malu untuk bertanya khabar kepada mereka. Tetapi sebenarnya, ramai orang tidak tahu bagaimana kecekapan menggunakan kad ini. Oleh itu, susunan perisian pembelajaran mesin adalah sangat mendalam dan kompleks, dan setiap pautan mesti dilakukan dengan betul dan baik.
Mari kita bercakap tentang isu mahal. Tenaga manusia mahal, dan jurutera algoritma yang sangat baik adalah sangat mahal dan tidak mudah dicari. Selain bakat yang mahal, data juga mahal, dan data berkualiti tinggi kos yang tinggi. Belum lagi perkakasan, semua orang tahu harga GPU berprestasi tinggi.
Jadi, pembelajaran mesin adalah perkara yang kompleks dan mahal. Jadi bagaimanakah Douyin mengendalikan perkara yang rumit dan mahal ini dan menggunakan pembelajaran mesin dengan lebih baik untuk membantu pembangunan perniagaan?
Pertama sekali, mari kita perkenalkan secara ringkas dua platform utama kami ialah satu platform pengiklanan yang disyorkan, dan satu lagi adalah platform umum, termasuk CV (Computer Vision ), platform NLP (pemprosesan bahasa semula jadi) dan sebagainya.
Platform yang disyorkan, berpuluh-puluh ribu model dilatih padanya setiap minggu, kerana kami mempunyai banyak produk dan kerap melatih model dalam senario yang berbeza. Pada platform CV/NLP, bilangan latihan model akan lebih besar, dengan skala latihan kira-kira 200,000 model setiap minggu. Selain itu, sebilangan besar perkhidmatan dalam talian sedang berjalan di kedua-dua platform ini setiap hari.
Beri saya contoh. Sebagai contoh, sistem pengesyoran Douyin mempunyai banyak model, salah satunya memerlukan 15 bulan sampel untuk dilatih, yang bermaksud bahawa data latihan mesti dibina secara berterusan selama 15 bulan Jumlah data ini sangat besar. Tetapi pada platform pembelajaran mesin kami, kami hanya memerlukan 5 jam untuk melengkapkan latihan model ini, dan kos yang dikira hanya 5,000 yuan. Bagi seorang jurutera algoritma, dia melatih model pada waktu pagi dan melakukan eksperimen AB dalam talian pada sebelah petang, yang meningkatkan kecekapan lelaran produk.
Sama ada pembelajaran mesin berjalan dengan baik atau tidak, saya rasa ia boleh diwakili oleh segi tiga ini, yang paling penting ialah algoritma. Jika algoritma mendahului prestasi, ia boleh membawa nilai yang besar kepada perniagaan. Terdapat dua perkara yang menyokong keperluan kesan algoritma, satu ialah ROI perkakasan dan satu lagi ialah ROI manusia.
ROI Perkakasan merujuk kepada kos seunit model. Dalam persaingan pasaran, jika orang lain membelanjakan 10,000 yuan untuk membuat model, jika anda membelanjakan 10,000 yuan untuk membuat sepuluh model yang serupa, pertempuran akan menjadi stabil. ROI manusia merujuk kepada merekrut jurutera algoritma yang berkuasa Sama ada dia boleh memaksimumkan potensinya bergantung terutamanya pada sama ada sistem boleh menyokongnya untuk mencuba idea baharu dengan cukup mudah dan pantas.
Bagaimana untuk meningkatkan ROI perkakasan? Air pasang dan bahagian bercampur, ini adalah beberapa kaedah yang biasa kami gunakan. Pada dasarnya, ia adalah cara untuk meningkatkan penggunaan peranti, yang juga merupakan idea asas awan asli. Kami menggabungkan tugasan yang berbeza bersama-sama, berperingkat-peringkat kemuncak satu sama lain dan menjalankannya pada kadar penggunaan yang tinggi melalui penjadualan pintar Ini boleh meningkatkan penggunaan sumber dan mengurangkan kos setiap percubaan.
Selain kos perkakasan, terdapat juga perkara yang sangat penting, iaitu sama ada infrastruktur pembelajaran mesin cukup mudah untuk digunakan. Hanya bergurau: Ramai orang yang membuat matematik tidak suka anda melakukan sains komputer, terutamanya pembelajaran mendalam Mereka mengatakan bahawa anda hanya "memurnikan elixir" di sini Anda sering tidak dapat menjelaskan mengapa barangan anda bagus, dan mengapa anda melakukannya perlu terus buat eksperimen? Tetapi dari sudut praktikal, kita mesti terus mencuba dan mencuba Banyak penemuan baru dalam bidang ini dibuat melalui percubaan berterusan.
Bagaimana untuk membuat setiap percubaan lebih cepat dan lebih murah, ini adalah daya saing teras. Sukar untuk mencapai model yang sempurna sekali dan untuk semua.
Apa yang perlu dilakukan oleh Enjin Gunung Berapi ialah melakukan kerja yang baik di platform. Seperti yang anda lihat, keseluruhan proses pemprosesan data, latihan model, penilaian, dalam talian dan ujian AB disatukan dan disepadukan di seluruh platform. Jurutera algoritma tidak perlu berulang kali berkomunikasi dengan pelbagai pautan dan menghubungkan pelbagai perniagaan Dia boleh lebih fokus pada kerjanya sendiri.
Mari lihat contoh lain Ini adalah kesan istimewa yang sangat menarik (lukisan TikTok AI). Sekitar penghujung tahun lepas, kesan istimewa ini menjadi sangat popular. Teka berapa banyak tenaga kerja yang dilaburkan Douyin untuk membuat kesan istimewa ini? Ramai orang mungkin tidak menyangka bahawa jurutera algoritma melabur satu orang, dan dia menulis beberapa kod penyelidikan pada platform Ia mengambil masa kira-kira seminggu untuk menyelesaikan latihan model, dan selepas beberapa pelarasan, ia dikeluarkan dalam talian.
Pada masa itu, produk itu dianggarkan mempunyai trafik puncak sebanyak 200QPS Kami merancang untuk melancarkannya pada 2000QPS Secara tidak dijangka, ia akan penuh dalam masa beberapa jam selepas pelancaran. Kami dengan cepat melakukan banyak pengembangan, dan kapasiti berkembang 10 kali ganda dalam tempoh masa yang singkat untuk menyokong 20,000 QPS.
Anda boleh melihat keseluruhan proses Bilangan orang yang mengambil bahagian adalah sangat kecil, dan kecekapan pengembangan juga sangat tinggi. Ramai orang mengatakan bahawa latihan model adalah mahal Malah, dalam jangka panjang, kos inferens akan jauh lebih besar daripada latihan. Kecekapan inferens model lukisan AI pada platform Volcano Engine adalah kira-kira lima kali lebih pantas daripada model Pytorch asli. Selepas pergi ke dalam talian, beberapa pengoptimuman yang disasarkan telah dibuat, dan ia boleh menjadi lebih pantas, kira-kira 10 kali lebih pantas, yang merupakan urutan peningkatan magnitud.
Dengan sokongan platform sedemikian, jurutera boleh mencuba pelbagai idea dengan pantas, sama ada mereka membuat susulan terhadap kemajuan atau merintis inovasi, mereka boleh melakukannya dengan cepat.
Akhir sekali, anda dapat melihat bahawa pada beberapa apl seperti Douyin, Toutiao dan Dianchedi, skrin akan memaparkan: Volcano Engine menyediakan perkhidmatan pengkomputeran. Platform pembelajaran mesin yang kita bicarakan adalah bersatu secara dalaman dan luaran pelanggan Volcano Engine dan Douyin menggunakan platform yang sama. Saya berharap teknologi yang digilap dalam syarikat ini dapat memberi perkhidmatan kepada lebih ramai pelanggan dan menyokong semua orang dalam inovasi pintar. Terima kasih semua.
Atas ialah kandungan terperinci ByteDance Yang Zhenyuan: Bagaimana Douyin memanfaatkan pembelajaran mesin dengan baik. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!