Dalam beberapa tahun kebelakangan ini, model ditambah data besar telah menjadi paradigma standard untuk pemodelan dalam bidang AI. Dalam adegan pengiklanan, model besar menggunakan lebih banyak parameter model dan menggunakan lebih banyak data latihan Model tersebut mempunyai keupayaan ingatan dan keupayaan generalisasi yang lebih kuat, membuka lebih banyak ruang untuk meningkatkan kesan pengiklanan. Walau bagaimanapun, sumber yang diperlukan untuk model besar dalam proses latihan juga telah meningkat secara eksponen, dan tekanan penyimpanan dan pengkomputeran merupakan cabaran besar kepada platform pembelajaran mesin.
Platform Pembelajaran Mesin Tencent Taiji terus meneroka penyelesaian pengurangan kos dan peningkatan kecekapan, menggunakan sumber penggunaan hibrid dalam mengiklankan senario latihan luar talian untuk mengurangkan kos sumber dengan banyak, menyediakan Pengiklanan Tencent dengan hibrid murah teras 50W penggunaan sumber setiap hari, membantu Pengiklanan Tencent mengurangkan kos sumber latihan model luar talian sebanyak 30%. Pada masa yang sama, melalui satu siri kaedah pengoptimuman, kestabilan sumber lokasi bersama adalah sama dengan sumber biasa.
Dalam beberapa tahun kebelakangan ini, apabila model besar telah mencapai kejayaan besar dalam menyapu pelbagai senarai data besar dalam bidang NLP, model ditambah data besar telah menjadi Paradigma standard untuk pemodelan dalam domain AI. Pemodelan carian, pengiklanan dan pengesyoran tidak terkecuali Dengan ratusan bilion parameter pada setiap masa, model bersaiz T telah menjadi standard untuk senario ramalan utama juga telah menjadi tumpuan perlumbaan senjata di kalangan teknologi utama syarikat.
Dalam senario pengiklanan, model besar menggunakan lebih banyak parameter model dan menggunakan lebih banyak data latihan Model tersebut mempunyai keupayaan ingatan dan generalisasi yang lebih kuat, yang meningkatkan kesan pengiklanan ke atas membuka lebih banyak ruang. Walau bagaimanapun, sumber yang diperlukan untuk model besar dalam proses latihan juga telah meningkat secara eksponen, dan tekanan penyimpanan dan pengkomputeran merupakan cabaran besar kepada platform pembelajaran mesin. Pada masa yang sama, bilangan percubaan yang boleh disokong oleh platform secara langsung mempengaruhi kecekapan lelaran algoritma Cara menyediakan lebih banyak sumber percubaan pada kos yang lebih rendah adalah tumpuan usaha platform.
Platform Pembelajaran Mesin Tencent Taiji terus meneroka penyelesaian pengurangan kos dan peningkatan kecekapan, menggunakan sumber penggunaan hibrid dalam mengiklankan senario latihan luar talian untuk mengurangkan kos sumber dengan banyak, menyediakan Pengiklanan Tencent dengan hibrid murah teras 50W penggunaan sumber setiap hari, membantu Pengiklanan Tencent mengurangkan kos sumber latihan model luar talian sebanyak 30%. Pada masa yang sama, melalui satu siri kaedah pengoptimuman, kestabilan sumber lokasi bersama adalah sama dengan sumber biasa.
Platform Pembelajaran Mesin Taiji komited untuk membenarkan pengguna memberi tumpuan lebih lanjut mengenai penyelesaian masalah dan aplikasi AI perniagaan, penyelesaian sehenti untuk jurutera algoritma untuk menyelesaikan masalah kejuruteraan seperti pemprosesan ciri, latihan model dan perkhidmatan model dalam proses aplikasi AI. Pada masa ini, ia menyokong perniagaan utama seperti pengiklanan dalam syarikat, carian, permainan, Persidangan Tencent dan Tencent Cloud.
Platform Pengiklanan Taiji ialah platform pembelajaran mesin berprestasi tinggi yang direka oleh Sistem Pengiklanan Taiji yang menyepadukan latihan model dan penaakulan dalam talian Platform ini mempunyai keupayaan latihan dan penaakulan bagi model trilion parameter. Pada masa ini, platform menyokong penarikan semula pengiklanan Tencent, kedudukan kasar, kedudukan yang baik, berpuluh-puluh latihan model dan inferens dalam talian pada masa yang sama, platform Taiji menyediakan pendaftaran ciri sehenti, rakaman tambahan sampel, latihan model, penilaian model dan ujian dalam talian; keupayaan, sangat meningkatkan keupayaan Meningkatkan kecekapan pembangun.
Dengan pembangunan berterusan platform Tai Chi, bilangan dan jenis tugasan semakin meningkat dari hari ke hari, dan permintaan untuk sumber juga semakin meningkat. Untuk mengurangkan kos dan meningkatkan kecekapan, platform Tai Chi di satu pihak meningkatkan prestasi platform dan mempercepatkan latihan sebaliknya, kami juga mencari sumber yang lebih murah untuk memenuhi permintaan yang semakin meningkat untuk sumber;
Fengluan - Platform data besar asli awan dalaman Tencent menggunakan teknologi asli awan untuk menaik taraf keseluruhan seni bina data besar syarikat. Untuk memenuhi permintaan sumber yang terus berkembang bagi perniagaan data besar, Fengluan telah memperkenalkan sumber lokasi bersama, yang bukan sahaja dapat memenuhi permintaan sumber, tetapi juga mengurangkan kos sumber dengan banyak. Fengluan menyediakan satu siri penyelesaian untuk sumber lokasi bersama dalam senario berbeza, menukar sumber lokasi bersama yang tidak stabil kepada sumber stabil yang telus kepada perniagaan. Keupayaan lokasi bersama Fengluan menyokong tiga jenis sumber lokasi bersama:
Pada masa yang sama, Fengluan memperkenalkan teknologi kluster maya asli awan untuk melindungi ciri penyebaran yang disebabkan oleh sumber lokasi bersama asas yang datang dari bandar dan wilayah yang berbeza . Platform Taiji bersambung terus kepada kelompok penyewa Fengluan, yang sepadan dengan pelbagai sumber lokasi bersama yang mendasari Kelompok penyewa mempunyai perspektif kelompok yang bebas dan lengkap, dan platform Taiji juga boleh disambungkan dengan lancar.
Seperti yang ditunjukkan dalam rajah di bawah, ia adalah seni bina asas Caelus Pelbagai komponen dan modul bekerjasama antara satu sama lain untuk memastikan kualiti penggunaan campuran dalam banyak aspek.
Pertama sekali, Caelus memastikan kualiti perkhidmatan operasi dalam talian dalam semua aspek, yang juga merupakan salah satu prasyarat penting untuk lokasi bersama Contohnya, melalui pengesanan dan pemprosesan gangguan yang cepat mekanisme, ia secara aktif merasakan kualiti perkhidmatan dalam talian, pemprosesan tepat pada masanya, dan menyokong kaedah pengembangan pemalam untuk menyokong keperluan pengesanan gangguan khusus perniagaan melalui pengasingan sumber dimensi penuh, strategi pengurusan sumber yang fleksibel, dsb., keutamaan tinggi perkhidmatan dalam talian; dipastikan.
Kedua, Caelus memastikan SLO pekerjaan luar talian dalam banyak aspek, seperti: memadankan sumber yang sesuai dengan pekerjaan melalui sumber lokasi bersama dan potret kerja luar talian untuk mengelakkan persaingan sumber mengoptimumkan strategi penyingkiran pekerjaan luar talian dan mengutamakan pengusiran , menyokong keluar yang anggun, dan strateginya adalah fleksibel dan boleh dikawal. Tidak seperti kerja luar talian data besar, yang kebanyakannya kerja singkat (minit atau bahkan saat), kebanyakan kerja Tai Chi mengambil masa yang lebih lama untuk dijalankan (jam atau bahkan hari). Melalui ramalan sumber jangka panjang dan potret pekerjaan, kami boleh membimbing penjadualan dengan lebih baik untuk mencari sumber yang sesuai untuk kerja dengan masa berjalan yang berbeza dan keperluan sumber yang berbeza, dan mengelakkan pekerjaan diusir selepas berjalan selama berjam-jam atau bahkan berhari-hari, mengakibatkan kehilangan status pekerjaan, pembaziran sumber dan masa. Apabila kerja luar talian perlu dialih keluar, pemindahan langsung masa jalan akan digunakan terlebih dahulu untuk memindahkan contoh kerja dari satu mesin ke mesin yang lain, sambil mengekalkan status memori dan IP tidak akan berubah, hampir tidak akan ada kesan pada kerja itu, yang sangat meningkatkan kecekapan kerja. Untuk menggunakan sumber lokasi bersama dengan lebih baik, Caelus juga mempunyai lebih banyak keupayaan Untuk mendapatkan butiran, lihat penyelesaian lokasi bersama senario penuh Caelus ( https://www.php.cn/link/caaeb10544b465034f389991efc90877).
Tugas data besar secara amnya agak besar semasa hari. Terdapat kurang tugas pada waktu malam, jadi Fengluan memindahkan beberapa sumber data besar yang terbiar pada siang hari ke platform Taiji, dan mengitar semula sumber ini pada waktu malam. Ciri sumber Tidal ialah tugas data besar pada nod hampir terkeluar sepenuhnya, tetapi perkhidmatan penyimpanan data besar HDFS masih dikekalkan pada nod Perkhidmatan HDFS tidak boleh terjejas semasa menjalankan kerja Tai Chi. Apabila platform Taiji menggunakan sumber pasang surut, ia perlu mencapai persetujuan dengan platform Fengluan Platform Fengluan akan menyaring sekumpulan nod terlebih dahulu berdasarkan data sejarah pada titik masa tetap Selepas tugas data besar dengan anggun, ia akan maklumkan platform Taiji bahawa nod baharu telah menyertai, dan platform Taiji akan bermula ke Kluster penyewa menyerahkan lebih banyak tugas. Sebelum masa peminjaman tiba, Fengluan memberitahu Platform Taiji bahawa beberapa nod perlu dikitar semula, dan Platform Taiji mengembalikan nod dalam cara yang teratur.
Seperti yang ditunjukkan dalam rajah di bawah, perlombongan, pengurusan dan penggunaan sumber air pasang surut melibatkan pembahagian kerja dan kerjasama pelbagai sistem:
Ciri sumber pengkomputeran ialah ia memberikan CVM eksklusif kepada perniagaan agak mesra untuk pengguna perniagaan. Walau bagaimanapun, cabaran menggunakan sumber pengkomputeran ialah sumber CPU CVM berkualiti rendah pada peringkat mesin mika akan ditindas oleh CVM dalam talian pada bila-bila masa, mengakibatkan sumber pengkomputeran yang sangat tidak stabil:
Untuk menyelesaikan masalah ketidakstabilan sumber kuasa pengkomputeran, pelbagai keupayaan diperluaskan melalui lapisan kawalan utama puncak dan gunung, dan sumber kuasa pengkomputeran dioptimumkan dari banyak aspek untuk meningkatkan kestabilan kuasa pengkomputeran. pelbagai penunjuk prestasi mesin dan menjana Penunjuk Pengagregatan meramalkan sumber tersedia CVM berkualiti rendah pada masa hadapan Maklumat ini digunakan oleh penjadual untuk menjadualkan pod dan komponen pengusiran untuk mengusir pod untuk memenuhi keperluan sumber pod.
② Pengoptimuman penjadualan:
Untuk memastikan kualiti perkhidmatan operasi Tai Chi, terdapat lebih banyak pengoptimuman dalam strategi penjadualan berdasarkan keperluan kerja dan ciri-ciri prestasi operasi telah dipertingkatkan lebih daripada 2 kali ganda.③ Jaminan kualiti perkhidmatan masa jalan
④ Pengoptimuman maklum balas kendiri : Melalui potret sumber, mesin dengan prestasi buruk diganti secara berkala dan disambungkan dengan platform asas untuk mencapai detasmen CVM yang lancar memberikan Fengluan peluang untuk memindahkan contoh permohonan satu demi satu tanpa menjejaskan perniagaan, mengurangkan kesan pada kejadian.
⑤ Meningkatkan keupayaan pemulihan bencana lapisan Flink, menyokong permulaan semula titik tunggal dan penjadualan hierarki
TM (Tugas Keupayaan permulaan semula satu titik Pengurus) menghalang kegagalan Tugas daripada menyebabkan keseluruhan DAG gagal, dan boleh menyesuaikan diri dengan ciri preemptif kuasa pengkomputeran dengan lebih baik untuk mengelakkan penantian kerja yang berlebihan yang disebabkan oleh penjadualan kumpulan, dan mengelakkan pembaziran penggunaan yang berlebihan; TM Pod.
Tugas latihan luar talian harus digunakan Premis utama sumber murah ialah ia tidak boleh menjejaskan operasi biasa tugas asal pada sumber, jadi sumber lokasi bersama mempunyai cabaran utama berikut:
Untuk memastikan tugasan dapat berjalan dengan stabil pada sumber lokasi bersama, platform menggunakan tiga -strategi toleransi kesalahan peringkat Khususnya Penyelesaian adalah seperti berikut:
Melalui toleransi kesalahan lapisan perniagaan, kestabilan tugas yang dijalankan pada sumber lokasi bersama telah meningkat daripada kurang daripada 90% pada mulanya kepada 99.5% pada akhirnya, dengan sumber eksklusif asas dan biasa Kestabilan tugas di atas kekal sama.
Mengikut keperluan sumber pasang surut, tugas latihan luar talian hanya boleh digunakan pada siang hari dan perlu disediakan untuk dalam talian penggunaan perniagaan pada waktu malam, jadi platform Tai Chi Ia adalah perlu untuk memulakan tugas latihan secara automatik mengikut ketersediaan sumber pada siang hari membuat sandaran sejuk untuk tugas pada waktu malam, dan menghentikan tugas latihan yang sepadan pada masa yang sama; Pada masa yang sama, keutamaan setiap penjadualan tugas diuruskan melalui baris gilir pengurusan tugasan Tugasan baharu yang dimulakan pada waktu malam secara automatik akan memasuki keadaan baris gilir dan menunggu tugasan baharu dimulakan keesokan harinya.
Melalui pengoptimuman ini, kami boleh memastikan bahawa tugasan boleh berjalan dengan stabil pada sumber pasang surut dan pada dasarnya tidak mengetahui lapisan perniagaan. Pada masa yang sama, kelajuan menjalankan tugas tidak akan terjejas dengan ketara, dan overhed tambahan yang disebabkan oleh penjadualan mula dan berhenti tugas dikawal dalam 10%.
Penyelesaian pengoptimuman pengedaran hibrid luar talian Taiji telah dilaksanakan dalam senario pengiklanan Tencent, menyediakan teras 30W untuk semua cuaca untuk model luar talian pengiklanan Tencent penyelidikan dan latihan setiap hari Sumber penggunaan bercampur, sumber pasang surut teras 20W, ingatan semula pengiklanan sokongan, kedudukan kasar, latihan model berbilang senario kedudukan halus. Dari segi kos sumber, untuk tugasan dengan beban pengiraan yang sama, kos sumber penggunaan hibrid ialah 70% daripada sumber biasa. Selepas pengoptimuman, kestabilan sistem dan kadar kejayaan tugas kelompok fizikal pada asasnya adalah sama.
Pada masa hadapan, di satu pihak, kami akan terus meningkatkan penggunaan sumber pengkomputeran hibrid, terutamanya aplikasi sumber pengkomputeran hibrid sebaliknya, perniagaan dalam talian syarikat; menjadi berasaskan GPU, jadi Dalam aplikasi sumber campuran, sebagai tambahan kepada sumber CPU tradisional, sumber GPU dalam talian juga akan cuba digunakan semasa latihan luar talian.
Itu sahaja perkongsian hari ini, terima kasih semua.
Atas ialah kandungan terperinci Latihan amalan pengoptimuman kos model pengiklanan Tencent berdasarkan 'Tai Chi'. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!