


Latihan amalan pengoptimuman kos model pengiklanan Tencent berdasarkan 'Tai Chi'
Dalam beberapa tahun kebelakangan ini, model ditambah data besar telah menjadi paradigma standard untuk pemodelan dalam bidang AI. Dalam adegan pengiklanan, model besar menggunakan lebih banyak parameter model dan menggunakan lebih banyak data latihan Model tersebut mempunyai keupayaan ingatan dan keupayaan generalisasi yang lebih kuat, membuka lebih banyak ruang untuk meningkatkan kesan pengiklanan. Walau bagaimanapun, sumber yang diperlukan untuk model besar dalam proses latihan juga telah meningkat secara eksponen, dan tekanan penyimpanan dan pengkomputeran merupakan cabaran besar kepada platform pembelajaran mesin.
Platform Pembelajaran Mesin Tencent Taiji terus meneroka penyelesaian pengurangan kos dan peningkatan kecekapan, menggunakan sumber penggunaan hibrid dalam mengiklankan senario latihan luar talian untuk mengurangkan kos sumber dengan banyak, menyediakan Pengiklanan Tencent dengan hibrid murah teras 50W penggunaan sumber setiap hari, membantu Pengiklanan Tencent mengurangkan kos sumber latihan model luar talian sebanyak 30%. Pada masa yang sama, melalui satu siri kaedah pengoptimuman, kestabilan sumber lokasi bersama adalah sama dengan sumber biasa.
1. Pengenalan
Dalam beberapa tahun kebelakangan ini, apabila model besar telah mencapai kejayaan besar dalam menyapu pelbagai senarai data besar dalam bidang NLP, model ditambah data besar telah menjadi Paradigma standard untuk pemodelan dalam domain AI. Pemodelan carian, pengiklanan dan pengesyoran tidak terkecuali Dengan ratusan bilion parameter pada setiap masa, model bersaiz T telah menjadi standard untuk senario ramalan utama juga telah menjadi tumpuan perlumbaan senjata di kalangan teknologi utama syarikat.
Dalam senario pengiklanan, model besar menggunakan lebih banyak parameter model dan menggunakan lebih banyak data latihan Model tersebut mempunyai keupayaan ingatan dan generalisasi yang lebih kuat, yang meningkatkan kesan pengiklanan ke atas membuka lebih banyak ruang. Walau bagaimanapun, sumber yang diperlukan untuk model besar dalam proses latihan juga telah meningkat secara eksponen, dan tekanan penyimpanan dan pengkomputeran merupakan cabaran besar kepada platform pembelajaran mesin. Pada masa yang sama, bilangan percubaan yang boleh disokong oleh platform secara langsung mempengaruhi kecekapan lelaran algoritma Cara menyediakan lebih banyak sumber percubaan pada kos yang lebih rendah adalah tumpuan usaha platform.
Platform Pembelajaran Mesin Tencent Taiji terus meneroka penyelesaian pengurangan kos dan peningkatan kecekapan, menggunakan sumber penggunaan hibrid dalam mengiklankan senario latihan luar talian untuk mengurangkan kos sumber dengan banyak, menyediakan Pengiklanan Tencent dengan hibrid murah teras 50W penggunaan sumber setiap hari, membantu Pengiklanan Tencent mengurangkan kos sumber latihan model luar talian sebanyak 30%. Pada masa yang sama, melalui satu siri kaedah pengoptimuman, kestabilan sumber lokasi bersama adalah sama dengan sumber biasa.
2 Pengenalan kepada Platform Pembelajaran Mesin Taiji
Platform Pembelajaran Mesin Taiji komited untuk membenarkan pengguna memberi tumpuan lebih lanjut mengenai penyelesaian masalah dan aplikasi AI perniagaan, penyelesaian sehenti untuk jurutera algoritma untuk menyelesaikan masalah kejuruteraan seperti pemprosesan ciri, latihan model dan perkhidmatan model dalam proses aplikasi AI. Pada masa ini, ia menyokong perniagaan utama seperti pengiklanan dalam syarikat, carian, permainan, Persidangan Tencent dan Tencent Cloud.
Platform Pengiklanan Taiji ialah platform pembelajaran mesin berprestasi tinggi yang direka oleh Sistem Pengiklanan Taiji yang menyepadukan latihan model dan penaakulan dalam talian Platform ini mempunyai keupayaan latihan dan penaakulan bagi model trilion parameter. Pada masa ini, platform menyokong penarikan semula pengiklanan Tencent, kedudukan kasar, kedudukan yang baik, berpuluh-puluh latihan model dan inferens dalam talian pada masa yang sama, platform Taiji menyediakan pendaftaran ciri sehenti, rakaman tambahan sampel, latihan model, penilaian model dan ujian dalam talian; keupayaan, sangat meningkatkan keupayaan Meningkatkan kecekapan pembangun.
- Platform latihan : Pada masa ini, latihan model menyokong dua mod latihan, CPU dan GPU, menggunakan pengendali cekap yang dibangunkan sendiri dan latihan ketepatan campuran . Dengan teknologi selari 3D dan lain-lain, kelajuan latihan ditingkatkan sebanyak 1 urutan magnitud berbanding dengan sistem sumber terbuka industri.
- Rangka kerja inferens : Rangka kerja pengkomputeran heterogen HCF (Rangka Kerja Pengkomputeran Heterogen) Taiji yang dibangunkan sendiri, melalui lapisan perkakasan, lapisan kompilasi dan perisian Pengoptimuman sambungan lapisan menyediakan pengoptimuman prestasi muktamad.
3. Pelaksanaan khusus pengoptimuman kos
(1) Pengenalan kepada rancangan keseluruhan
Dengan pembangunan berterusan platform Tai Chi, bilangan dan jenis tugasan semakin meningkat dari hari ke hari, dan permintaan untuk sumber juga semakin meningkat. Untuk mengurangkan kos dan meningkatkan kecekapan, platform Tai Chi di satu pihak meningkatkan prestasi platform dan mempercepatkan latihan sebaliknya, kami juga mencari sumber yang lebih murah untuk memenuhi permintaan yang semakin meningkat untuk sumber;
Fengluan - Platform data besar asli awan dalaman Tencent menggunakan teknologi asli awan untuk menaik taraf keseluruhan seni bina data besar syarikat. Untuk memenuhi permintaan sumber yang terus berkembang bagi perniagaan data besar, Fengluan telah memperkenalkan sumber lokasi bersama, yang bukan sahaja dapat memenuhi permintaan sumber, tetapi juga mengurangkan kos sumber dengan banyak. Fengluan menyediakan satu siri penyelesaian untuk sumber lokasi bersama dalam senario berbeza, menukar sumber lokasi bersama yang tidak stabil kepada sumber stabil yang telus kepada perniagaan. Keupayaan lokasi bersama Fengluan menyokong tiga jenis sumber lokasi bersama:
- gunakan semula sumber terbiar dalam talian. Disebabkan oleh kemuncak dan palung sumber dalam talian, anggaran penggunaan sumber yang terlalu tinggi, dan pemecahan sumber kluster, penggunaan sumber kluster adalah rendah dan terdapat sejumlah besar sumber terbiar. Fengluan mengetik sumber terbiar sementara ini untuk menjalankan tugas data besar, dan sedang melaksanakannya dalam senario seperti pengiklanan dalam talian, storan, hiburan sosial dan permainan.
- Pinjaman sumber luar talian yang fleksibel. Sesetengah tugas pada platform data besar juga mempunyai fenomena pasang surut Apabila penggunaan sumber kluster data besar rendah pada siang hari, Fengluan menyokong pinjaman fleksibel sementara beberapa sumber, dan kemudian mendapatkan semula sumber ini sebelum puncak kluster data besar. tiba. Senario ini sangat sesuai untuk menyelesaikan masalah tugasan dalam talian yang memerlukan sejumlah besar sumber untuk sementara waktu semasa cuti dan promosi utama Fengluan kini menyokong cuti utama seperti Festival Musim Bunga dan 618.
- Gunakan semula sumber pengkomputeran. Sumber pengkomputeran dilombong daripada sumber terbiar mesin mika dalam bentuk CVM berkualiti rendah yang dipanggil CVM berkualiti rendah merujuk kepada memulakan mesin maya CVM dengan keutamaan CPU yang lebih rendah pada mesin maya ini didahulukan oleh mesin maya lain dalam masa nyata. Berdasarkan maklumat sumber yang disediakan oleh kuasa pengkomputeran asas, Fengluan telah membuat banyak pengoptimuman dalam aspek seperti penjadualan, perlindungan lebihan dan pemindahan kuasa pengkomputeran Pada masa ini, tugasan data besar dengan berjuta-juta teras berjalan secara stabil pada sumber kuasa pengkomputeran.
Pada masa yang sama, Fengluan memperkenalkan teknologi kluster maya asli awan untuk melindungi ciri penyebaran yang disebabkan oleh sumber lokasi bersama asas yang datang dari bandar dan wilayah yang berbeza . Platform Taiji bersambung terus kepada kelompok penyewa Fengluan, yang sepadan dengan pelbagai sumber lokasi bersama yang mendasari Kelompok penyewa mempunyai perspektif kelompok yang bebas dan lengkap, dan platform Taiji juga boleh disambungkan dengan lancar.
(2) Pelan penggunaan bercampur sumber
Sumber terbiar dalam talian
Seperti yang ditunjukkan dalam rajah di bawah, ia adalah seni bina asas Caelus Pelbagai komponen dan modul bekerjasama antara satu sama lain untuk memastikan kualiti penggunaan campuran dalam banyak aspek.
Pertama sekali, Caelus memastikan kualiti perkhidmatan operasi dalam talian dalam semua aspek, yang juga merupakan salah satu prasyarat penting untuk lokasi bersama Contohnya, melalui pengesanan dan pemprosesan gangguan yang cepat mekanisme, ia secara aktif merasakan kualiti perkhidmatan dalam talian, pemprosesan tepat pada masanya, dan menyokong kaedah pengembangan pemalam untuk menyokong keperluan pengesanan gangguan khusus perniagaan melalui pengasingan sumber dimensi penuh, strategi pengurusan sumber yang fleksibel, dsb., keutamaan tinggi perkhidmatan dalam talian; dipastikan.
Kedua, Caelus memastikan SLO pekerjaan luar talian dalam banyak aspek, seperti: memadankan sumber yang sesuai dengan pekerjaan melalui sumber lokasi bersama dan potret kerja luar talian untuk mengelakkan persaingan sumber mengoptimumkan strategi penyingkiran pekerjaan luar talian dan mengutamakan pengusiran , menyokong keluar yang anggun, dan strateginya adalah fleksibel dan boleh dikawal. Tidak seperti kerja luar talian data besar, yang kebanyakannya kerja singkat (minit atau bahkan saat), kebanyakan kerja Tai Chi mengambil masa yang lebih lama untuk dijalankan (jam atau bahkan hari). Melalui ramalan sumber jangka panjang dan potret pekerjaan, kami boleh membimbing penjadualan dengan lebih baik untuk mencari sumber yang sesuai untuk kerja dengan masa berjalan yang berbeza dan keperluan sumber yang berbeza, dan mengelakkan pekerjaan diusir selepas berjalan selama berjam-jam atau bahkan berhari-hari, mengakibatkan kehilangan status pekerjaan, pembaziran sumber dan masa. Apabila kerja luar talian perlu dialih keluar, pemindahan langsung masa jalan akan digunakan terlebih dahulu untuk memindahkan contoh kerja dari satu mesin ke mesin yang lain, sambil mengekalkan status memori dan IP tidak akan berubah, hampir tidak akan ada kesan pada kerja itu, yang sangat meningkatkan kecekapan kerja. Untuk menggunakan sumber lokasi bersama dengan lebih baik, Caelus juga mempunyai lebih banyak keupayaan Untuk mendapatkan butiran, lihat penyelesaian lokasi bersama senario penuh Caelus ( https://www.php.cn/link/caaeb10544b465034f389991efc90877).
Sumber Air Pasang Surut
Tugas data besar secara amnya agak besar semasa hari. Terdapat kurang tugas pada waktu malam, jadi Fengluan memindahkan beberapa sumber data besar yang terbiar pada siang hari ke platform Taiji, dan mengitar semula sumber ini pada waktu malam. Ciri sumber Tidal ialah tugas data besar pada nod hampir terkeluar sepenuhnya, tetapi perkhidmatan penyimpanan data besar HDFS masih dikekalkan pada nod Perkhidmatan HDFS tidak boleh terjejas semasa menjalankan kerja Tai Chi. Apabila platform Taiji menggunakan sumber pasang surut, ia perlu mencapai persetujuan dengan platform Fengluan Platform Fengluan akan menyaring sekumpulan nod terlebih dahulu berdasarkan data sejarah pada titik masa tetap Selepas tugas data besar dengan anggun, ia akan maklumkan platform Taiji bahawa nod baharu telah menyertai, dan platform Taiji akan bermula ke Kluster penyewa menyerahkan lebih banyak tugas. Sebelum masa peminjaman tiba, Fengluan memberitahu Platform Taiji bahawa beberapa nod perlu dikitar semula, dan Platform Taiji mengembalikan nod dalam cara yang teratur.
Seperti yang ditunjukkan dalam rajah di bawah, perlombongan, pengurusan dan penggunaan sumber air pasang surut melibatkan pembahagian kerja dan kerjasama pelbagai sistem:
- Sistem pemindahan sumber data besar: Sistem ini akan berdasarkan keadaan kerja yang berbeza pada setiap mesin dan data pengendalian kluster pada tempoh lalu, berdasarkan mesin algoritma pembelajaran, Cari nod mesin yang paling sesuai untuk berada di luar talian untuk memenuhi keperluan sumber tertentu dan mempunyai kesan paling sedikit pada menjalankan kerja, kemudian melarang penjadualan kerja baharu untuk nod ini dan tunggu kerja yang dijalankan pada nod selesai dijalankan, memaksimumkan Kurangkan kesan ke atas operasi data besar.
- Sistem lokasi bersama Caelus : Walaupun kerja data besar tidak lagi dijalankan pada sumber mesin yang dikosongkan oleh sistem pemindahan, terdapat kerja data besar masih berjalan pada mereka perkhidmatan HDFS juga menyediakan perkhidmatan membaca dan menulis data. Untuk melindungi perkhidmatan HDFS, sistem lokasi bersama Caelus diperkenalkan untuk menggunakan HDFS sebagai perkhidmatan dalam talian Melalui kaedah jaminan perkhidmatan dalam talian Caelus (seperti mengesan sama ada ia terjejas melalui penunjuk utama HDFS), kualiti bagi. Perkhidmatan HDFS tidak terjejas.
- Gunakan sumber Tidal melalui kelompok maya: Sumber mesin yang dipindahkan ini akan diurus dan dijadualkan secara seragam oleh Fengluan, dan disusun ke dalam kelompok maya. kaedah disediakan kepada platform Taiji dan menyediakan antara muka asli K8S Ini melindungi perbezaan sumber asas daripada platform atas dan memastikan aplikasi menggunakan sumber dengan cara yang sama.
- Disambungkan dengan latihan resume titik putus lapisan aplikasi: Sumber pasang surut akan dikitar semula pada waktu malam untuk menjalankan kerja data besar untuk mengurangkan Kepada mengurangkan kesan kitar semula, titik putus menyambung semula fungsi latihan puncak dan lapisan aplikasi telah dibuka untuk merealisasikan penukaran sumber tanpa mengganggu latihan, dan operasi perniagaan yang berterusan tidak akan terjejas selepas bertukar.
Sumber pengkomputeran
Ciri sumber pengkomputeran ialah ia memberikan CVM eksklusif kepada perniagaan agak mesra untuk pengguna perniagaan. Walau bagaimanapun, cabaran menggunakan sumber pengkomputeran ialah sumber CPU CVM berkualiti rendah pada peringkat mesin mika akan ditindas oleh CVM dalam talian pada bila-bila masa, mengakibatkan sumber pengkomputeran yang sangat tidak stabil:
- Kuasa pengkomputeran Ketidakstabilan mesin: Mesin pengkomputeran mungkin di luar talian disebabkan penyatuan sumber yang berpecah-belah, kuasa yang tidak mencukupi dalam bilik komputer, dsb.
- Keutamaan rendah sumber pengkomputeran: Untuk memastikan kualiti perkhidmatan mesin CVM biasa tidak terjejas, kerja pada sumber pengkomputeran mempunyai keutamaan paling rendah dan akan diberikan tanpa syarat kepada kerja pada sumber yang berkualiti tinggi Mengalah, mengakibatkan prestasi yang sangat tidak stabil.
- Kekerapan pengusiran yang tinggi: Pelbagai sebab (prestasi sumber pengkomputeran yang tidak mencukupi, ruang cakera yang tidak mencukupi, cakera tersekat, dll.) akan mencetuskan pengusiran secara aktif pod, meningkatkan kebarangkalian kegagalan pod.
Untuk menyelesaikan masalah ketidakstabilan sumber kuasa pengkomputeran, pelbagai keupayaan diperluaskan melalui lapisan kawalan utama puncak dan gunung, dan sumber kuasa pengkomputeran dioptimumkan dari banyak aspek untuk meningkatkan kestabilan kuasa pengkomputeran. pelbagai penunjuk prestasi mesin dan menjana Penunjuk Pengagregatan meramalkan sumber tersedia CVM berkualiti rendah pada masa hadapan Maklumat ini digunakan oleh penjadual untuk menjadualkan pod dan komponen pengusiran untuk mengusir pod untuk memenuhi keperluan sumber pod.
② Pengoptimuman penjadualan:
- Penjadualan bandar yang sama: Jadualkan PST dan kerja latihan ke bilik komputer yang sama di bandar yang sama, meminimumkan kelewatan rangkaian antara kejadian kerja dan kos lebar jalur rangkaian di bandar yang sama juga lebih rendah memainkan peranan dalam mengurangkan kos.
- Pengoptimuman penjadualan mesin tunggal: Digabungkan dengan hasil ramalan sumber dan penunjuk seperti masa curi CPU, pilih CPU dengan prestasi yang lebih baik untuk tugas mengikat teras untuk meningkatkan prestasi kerja dengan lebih baik.
- Penjadualan Gred: Melabel dan menggredkan semua sumber terurus secara automatik dan menjadualkan kerja secara automatik dengan keperluan pemulihan bencana yang tinggi seperti Pengurus Kerja sebagai sumber yang agak stabil.
- Menala parameter penjadualan: Berdasarkan potret sumber dan data ramalan, penjadual mengutamakan nod dengan prestasi yang lebih baik dan lebih kestabilan untuk kerja. Di samping itu, untuk menyelesaikan masalah tamat tempoh eselon yang disebabkan oleh langkah yang tidak konsisten, contoh kerja yang sama dijadualkan pada mesin dengan prestasi yang serupa
③ Jaminan kualiti perkhidmatan masa jalan
- Fasa pengusiran aktif memperkenalkan migrasi panas masa jalan, supaya perniagaan pada asasnya tidak dapat dilihat: untuk mengatasi ketidakstabilan sumber dan pengusiran pod, aplikasi akan dimatikan menyelesaikan masalah, melaksanakan migrasi panas masa jalan, dan menyediakan pelbagai strategi migrasi panas untuk memenuhi keperluan senario yang berbeza. Menurut data dalam talian semasa, apabila menggunakan strategi keutamaan migrasi, untuk bekas dengan memori besar, masa gangguan migrasi langsung adalah lebih daripada 10 saat. Kami juga melaksanakan masa gangguan berterusan tanpa saiz memori (strategi pemulihan-pertama). Pada masa ini, lebih daripada 20,000 pod berjaya dipindahkan secara aktif setiap hari, dan penghijrahan panas merentas kelompok disokong, yang mengurangkan kesan pengusiran.
- Optimumkan strategi pengusiran untuk meminimumkan kesan pengusiran: setiap kali setiap mesin diusir, pod dimulakan selepas pengusiran akan diberi keutamaan untuk mengelak daripada menjejaskan sudah dimulakan Setiap tugas hanya mengusir satu nod pada satu masa untuk mengelakkan pengusiran atas dan hiliran satu tugas, menyebabkan permulaan semula peringkat tugas apabila pod diusir, ia akan dipautkan dengan rangka kerja Flink lapisan atas untuk memberitahu Flink secara proaktif; untuk pemulihan mata tunggal yang cepat.
④ Pengoptimuman maklum balas kendiri : Melalui potret sumber, mesin dengan prestasi buruk diganti secara berkala dan disambungkan dengan platform asas untuk mencapai detasmen CVM yang lancar memberikan Fengluan peluang untuk memindahkan contoh permohonan satu demi satu tanpa menjejaskan perniagaan, mengurangkan kesan pada kejadian.
⑤ Meningkatkan keupayaan pemulihan bencana lapisan Flink, menyokong permulaan semula titik tunggal dan penjadualan hierarki
TM (Tugas Keupayaan permulaan semula satu titik Pengurus) menghalang kegagalan Tugas daripada menyebabkan keseluruhan DAG gagal, dan boleh menyesuaikan diri dengan ciri preemptif kuasa pengkomputeran dengan lebih baik untuk mengelakkan penantian kerja yang berlebihan yang disebabkan oleh penjadualan kumpulan, dan mengelakkan pembaziran penggunaan yang berlebihan; TM Pod.
(3) Penyelesaian pengoptimuman lapisan aplikasi
Toleransi kesalahan perniagaan
Tugas latihan luar talian harus digunakan Premis utama sumber murah ialah ia tidak boleh menjejaskan operasi biasa tugas asal pada sumber, jadi sumber lokasi bersama mempunyai cabaran utama berikut:
- Sumber lokasi bersama kebanyakannya adalah sumber sementara akan kerap pergi ke luar talian
- Sumber lokasi bersama Mekanisme pengusiran automatik juga meningkatkan kebarangkalian kegagalan nod dan pod.
Untuk memastikan tugasan dapat berjalan dengan stabil pada sumber lokasi bersama, platform menggunakan tiga -strategi toleransi kesalahan peringkat Khususnya Penyelesaian adalah seperti berikut:
- Teknologi pemindahan panas: rasa lebih awal sebelum Pengurus Tugas hampir diusir, dan pindahkan Pengurus Tugas yang sepadan ke pod lain pada masa yang sama, gunakan pemampatan memori, penstriman serentak, silang; penghijrahan panas berkelompok, dsb. Keupayaan untuk terus mengoptimumkan kadar kejayaan penghijrahan terma.
- Task Manager Mulakan Semula: Apabila Pengurus Tugas dalam tugasan gagal kerana pengecualian atau pengusiran, keseluruhan tugasan tidak akan gagal dan keluar terus, tetapi akan menyimpan status Pengurus Tugas terlebih dahulu . , dan kemudian mulakan semula Pengurus Tugas, dengan itu mengurangkan kebarangkalian kegagalan keseluruhan tugasan.
- Pemulihan Penuh Tugas: Apabila tugasan berada dalam keadaan tidak dapat dipulihkan kerana status Flink yang tidak normal, permulaan semula Pengurus Kerja akan dicetuskan untuk memastikan kestabilan Pengurus Kerja , platform Gunakan sumber bebas dengan kestabilan yang baik untuk memastikan status tugas biasa.
- Sambung semula latihan pada titik putus: Jika strategi toleransi kesalahan sebelumnya gagal, platform akan memulakan semula tugas berdasarkan ckpt tertentu dalam sejarah.
Melalui toleransi kesalahan lapisan perniagaan, kestabilan tugas yang dijalankan pada sumber lokasi bersama telah meningkat daripada kurang daripada 90% pada mulanya kepada 99.5% pada akhirnya, dengan sumber eksklusif asas dan biasa Kestabilan tugas di atas kekal sama.
Penjadualan pasang surut tugas
Mengikut keperluan sumber pasang surut, tugas latihan luar talian hanya boleh digunakan pada siang hari dan perlu disediakan untuk dalam talian penggunaan perniagaan pada waktu malam, jadi platform Tai Chi Ia adalah perlu untuk memulakan tugas latihan secara automatik mengikut ketersediaan sumber pada siang hari membuat sandaran sejuk untuk tugas pada waktu malam, dan menghentikan tugas latihan yang sepadan pada masa yang sama; Pada masa yang sama, keutamaan setiap penjadualan tugas diuruskan melalui baris gilir pengurusan tugasan Tugasan baharu yang dimulakan pada waktu malam secara automatik akan memasuki keadaan baris gilir dan menunggu tugasan baharu dimulakan keesokan harinya.
Cabaran Teras:
- Fenomena Pasang Surut: Sumber tersedia semasa hari Disediakan untuk tugas luar talian dan perlu dikitar semula pada waktu malam.
- Perubahan dinamik dalam sumber: Pada siang hari, sumber juga tidak stabil dan akan berubah pada bila-bila masa Secara amnya, terdapat lebih sedikit sumber pada waktu pagi, dan kemudian sumber secara beransur-ansur Meningkatkan, dan sumber mencapai kemuncaknya pada waktu malam.
Penyelesaian:
- Strategi penjadualan sedar sumber: Semasa peningkatan beransur-ansur sumber pada waktu pagi, penjadualan pasang surut Perkhidmatan perlu merasakan perubahan sumber dan membuat susulan status sumber untuk memulakan tugas untuk meneruskan latihan.
- Keupayaan sandaran model automatik: Sebelum kitar semula sumber pada waktu malam, semua tugasan yang dijalankan pada platform semasa perlu disandarkan langkah demi langkah, yang memberi tekanan pada storan dan lebar jalur platform Ia sangat besar, kerana terdapat beratus-ratus tugas pada platform, dan saiz sandaran sejuk bagi setiap tugas berkisar antara beberapa ratus G hingga beberapa terabait Jika sandaran sejuk dilakukan pada masa yang sama, ratusan daripada terabait data perlu dihantar dan disimpan dalam masa yang singkat Kedua-dua storan dan rangkaian adalah cabaran besar, jadi kita perlu mempunyai strategi penjadualan yang munasabah dan secara beransur-ansur menyimpan model.
- Keupayaan penjadualan sumber pintar: Berbanding dengan latihan tradisional, penjadualan pasang surut mempunyai model sandaran untuk setiap tugas apabila sumber dikitar semula pada waktu malam dan apabila tugas baru dimulakan setiap pagi Overhed adalah overhed tambahan Untuk mengurangkan overhed tambahan ini, apabila menjadualkan, kita perlu menilai tugasan yang boleh diselesaikan pada hari yang sama dan tugasan yang perlu dijalankan untuk beberapa hari pada hari yang sama, kami memberi keutamaan untuk memperuntukkan lebih banyak sumber kepada mereka, untuk memastikan tugas itu selesai pada hari yang sama.
Melalui pengoptimuman ini, kami boleh memastikan bahawa tugasan boleh berjalan dengan stabil pada sumber pasang surut dan pada dasarnya tidak mengetahui lapisan perniagaan. Pada masa yang sama, kelajuan menjalankan tugas tidak akan terjejas dengan ketara, dan overhed tambahan yang disebabkan oleh penjadualan mula dan berhenti tugas dikawal dalam 10%.
4. Kesan dalam talian dan prospek masa hadapan
Penyelesaian pengoptimuman pengedaran hibrid luar talian Taiji telah dilaksanakan dalam senario pengiklanan Tencent, menyediakan teras 30W untuk semua cuaca untuk model luar talian pengiklanan Tencent penyelidikan dan latihan setiap hari Sumber penggunaan bercampur, sumber pasang surut teras 20W, ingatan semula pengiklanan sokongan, kedudukan kasar, latihan model berbilang senario kedudukan halus. Dari segi kos sumber, untuk tugasan dengan beban pengiraan yang sama, kos sumber penggunaan hibrid ialah 70% daripada sumber biasa. Selepas pengoptimuman, kestabilan sistem dan kadar kejayaan tugas kelompok fizikal pada asasnya adalah sama.
Pada masa hadapan, di satu pihak, kami akan terus meningkatkan penggunaan sumber pengkomputeran hibrid, terutamanya aplikasi sumber pengkomputeran hibrid sebaliknya, perniagaan dalam talian syarikat; menjadi berasaskan GPU, jadi Dalam aplikasi sumber campuran, sebagai tambahan kepada sumber CPU tradisional, sumber GPU dalam talian juga akan cuba digunakan semasa latihan luar talian.
Itu sahaja perkongsian hari ini, terima kasih semua.
Atas ialah kandungan terperinci Latihan amalan pengoptimuman kos model pengiklanan Tencent berdasarkan 'Tai Chi'. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Kemahiran pemprosesan struktur data besar: Pecahan: Pecahkan set data dan proseskannya dalam bahagian untuk mengurangkan penggunaan memori. Penjana: Hasilkan item data satu demi satu tanpa memuatkan keseluruhan set data, sesuai untuk set data tanpa had. Penstriman: Baca fail atau hasil pertanyaan baris demi baris, sesuai untuk fail besar atau data jauh. Storan luaran: Untuk set data yang sangat besar, simpan data dalam pangkalan data atau NoSQL.

Dalam era Internet, data besar telah menjadi sumber baharu Dengan peningkatan berterusan teknologi analisis data besar, permintaan untuk pengaturcaraan data besar menjadi semakin mendesak. Sebagai bahasa pengaturcaraan yang digunakan secara meluas, kelebihan unik C++ dalam pengaturcaraan data besar telah menjadi semakin menonjol. Di bawah ini saya akan berkongsi pengalaman praktikal saya dalam pengaturcaraan data besar C++. 1. Memilih struktur data yang sesuai Memilih struktur data yang sesuai adalah bahagian penting dalam menulis program data besar yang cekap. Terdapat pelbagai struktur data dalam C++ yang boleh kita gunakan, seperti tatasusunan, senarai terpaut, pepohon, jadual cincang, dsb.

AEC/O (Seni Bina, Kejuruteraan & Pembinaan/Operasi) merujuk kepada perkhidmatan komprehensif yang menyediakan reka bentuk seni bina, reka bentuk kejuruteraan, pembinaan dan operasi dalam industri pembinaan. Pada tahun 2024, industri AEC/O menghadapi cabaran yang berubah-ubah di tengah-tengah kemajuan teknologi. Tahun ini dijangka menyaksikan integrasi teknologi termaju, menandakan anjakan paradigma dalam reka bentuk, pembinaan dan operasi. Sebagai tindak balas kepada perubahan ini, industri mentakrifkan semula proses kerja, melaraskan keutamaan, dan meningkatkan kerjasama untuk menyesuaikan diri dengan keperluan dunia yang berubah dengan pantas. Lima arah aliran utama berikut dalam industri AEC/O akan menjadi tema utama pada 2024, mengesyorkan ia bergerak ke arah masa depan yang lebih bersepadu, responsif dan mampan: rantaian bekalan bersepadu, pembuatan pintar

1. Latar Belakang Pembinaan 58 Portrait Platform Pertama sekali, saya ingin berkongsi dengan anda latar belakang pembinaan 58 Portrait Platform. 1. Pemikiran tradisional platform pemprofilan tradisional tidak lagi mencukupi Membina platform pemprofilan pengguna bergantung pada keupayaan pemodelan gudang data untuk menyepadukan data daripada pelbagai barisan perniagaan untuk membina potret pengguna yang tepat untuk memahami tingkah laku, minat pengguna dan keperluan, dan menyediakan keupayaan sampingan, akhirnya, ia juga perlu mempunyai keupayaan platform data untuk menyimpan, bertanya dan berkongsi data profil pengguna dan menyediakan perkhidmatan profil dengan cekap. Perbezaan utama antara platform pemprofilan perniagaan binaan sendiri dan platform pemprofilan pejabat pertengahan ialah platform pemprofilan binaan sendiri menyediakan satu barisan perniagaan dan boleh disesuaikan atas permintaan platform pertengahan pejabat berkhidmat berbilang barisan perniagaan, mempunyai kompleks pemodelan, dan menyediakan lebih banyak keupayaan umum. 2.58 Potret pengguna latar belakang pembinaan potret di platform tengah 58

Dalam era data besar hari ini, pemprosesan dan analisis data telah menjadi sokongan penting untuk pembangunan pelbagai industri. Sebagai bahasa pengaturcaraan dengan kecekapan pembangunan tinggi dan prestasi unggul, bahasa Go telah secara beransur-ansur menarik perhatian dalam bidang data besar. Walau bagaimanapun, berbanding dengan bahasa lain seperti Java dan Python, bahasa Go mempunyai sokongan yang agak tidak mencukupi untuk rangka kerja data besar, yang telah menyebabkan masalah bagi sesetengah pembangun. Artikel ini akan meneroka sebab utama kekurangan rangka kerja data besar dalam bahasa Go, mencadangkan penyelesaian yang sepadan dan menggambarkannya dengan contoh kod khusus. 1. Pergi bahasa

Pelancaran produk musim luruh 2023 Yizhiwei telah berakhir dengan jayanya! Marilah kita sama-sama meninjau sorotan persidangan itu! 1. Keterbukaan inklusif pintar menjadikan kembar digital produktif Ning Haiyuan, pengasas bersama Kangaroo Cloud dan Ketua Pegawai Eksekutif Yizhiwei, membuat ucapan pembukaan: Pada mesyuarat strategik syarikat tahun ini, kami meletakkan hala tuju utama penyelidikan dan pembangunan produk sebagai “inklusif pintar. keterbukaan” "Tiga keupayaan teras, memfokuskan pada tiga kata kunci teras "keterbukaan inklusif pintar", kami seterusnya mencadangkan matlamat pembangunan "menjadikan kembar digital sebagai kuasa yang produktif". 2. EasyTwin: Teroka enjin kembar digital baharu yang lebih mudah digunakan 1. Dari 0.1 hingga 1.0, teruskan meneroka enjin pemaparan gabungan kembar digital untuk mendapatkan penyelesaian yang lebih baik dengan mod penyuntingan 3D yang matang, pelan tindakan interaktif yang mudah dan aset model yang besar

Sebagai bahasa pengaturcaraan sumber terbuka, bahasa Go secara beransur-ansur mendapat perhatian dan penggunaan yang meluas dalam beberapa tahun kebelakangan ini. Ia digemari oleh pengaturcara kerana kesederhanaan, kecekapan, dan keupayaan pemprosesan serentak yang berkuasa. Dalam bidang pemprosesan data besar, bahasa Go juga mempunyai potensi yang kuat Ia boleh digunakan untuk memproses data besar-besaran, mengoptimumkan prestasi, dan boleh disepadukan dengan baik dengan pelbagai alatan dan rangka kerja pemprosesan data besar. Dalam artikel ini, kami akan memperkenalkan beberapa konsep asas dan teknik pemprosesan data besar dalam bahasa Go dan menunjukkan cara menggunakan bahasa Go melalui contoh kod tertentu.

Dalam pemprosesan data besar, menggunakan pangkalan data dalam memori (seperti Aerospike) boleh meningkatkan prestasi aplikasi C++ kerana ia menyimpan data dalam memori komputer, menghapuskan kesesakan I/O cakera dan meningkatkan kelajuan akses data dengan ketara. Kes praktikal menunjukkan bahawa kelajuan pertanyaan menggunakan pangkalan data dalam memori adalah beberapa urutan magnitud lebih cepat daripada menggunakan pangkalan data cakera keras.
