Persidangan Antarabangsa VLDB 2023 telah berjaya diadakan di Vancouver, Kanada. Persidangan VLDB adalah salah satu daripada tiga persidangan teratas dengan sejarah panjang dalam bidang pangkalan data Nama penuhnya ialah Persidangan Pangkalan Data Berskala Besar. Setiap persidangan memfokuskan pada memaparkan hala tuju terkini penyelidikan pangkalan data, teknologi terkini dalam industri, dan peringkat R&D pelbagai negara, menarik penyertaan daripada institusi penyelidikan terkemuka dunia
Persidangan itu memfokuskan pada inovasi sistem, kesempurnaan, dan reka bentuk eksperimen Terdapat keperluan yang sangat tinggi dalam aspek lain. Kadar penerimaan kertas VLDB secara amnya rendah, kira-kira 18%. Persaingan lebih sengit tahun ini. Menurut data rasmi, sebanyak 9 kertas kerja VLDB memenangi anugerah kertas terbaik tahun ini, termasuk daripada Universiti Stanford, Universiti Carnegie Mellon, Penyelidikan Microsoft, Penyelidikan VMware, Meta dan universiti terkenal dunia, institusi penyelidikan dan gergasi teknologi Among mereka, kertas kerja "FEBench: Penanda Aras untuk Pengekstrakan Ciri Data Hubungan Masa Nyata" yang disiapkan bersama oleh 4Paradigm, Universiti Tsinghua dan Universiti Nasional Singapura memenangi anugerah Naib Johan untuk kertas industri terbaik.
Kertas kerja ini adalah kerjasama antara 4Paradigm, Universiti Tsinghua dan Universiti Nasional Singapura. Kertas kerja mencadangkan penanda aras ujian pengiraan ciri masa nyata berdasarkan pengumpulan senario sebenar dalam industri, yang digunakan untuk menilai sistem membuat keputusan masa nyata berdasarkan pembelajaran mesin Sila klik pautan berikut untuk melihat kertas: https ://github.com/decis -bench/febench/blob/main/report/febench.pdf
Alamat projek: https://github.com/decis-bench/febench Kandungan yang perlu ditulis semula ialah: Alamat projek ialah https://github.com/decis-bench/febench
Latar belakang projek
Kandungan ditulis semula: Rajah 1. Aplikasi pengiraan ciri masa nyata dalam aplikasi anti-penipuan
Secara umumnya, platform pengiraan ciri masa nyata perlu memenuhi dua keperluan asas berikut:
Konsistensi dalam talian dan luar talian: kerana aplikasi Pembelajaran mesin secara amnya dibahagikan kepada dua proses: latihan berdasarkan data sejarah dan penaakulan berdasarkan data masa nyata. Oleh itu, memastikan ketekalan logik pengiraan ciri dalam talian dan luar talian adalah penting untuk memastikan keputusan akhir perniagaan dalam talian dan luar talian yang konsisten.
Kecekapan perkhidmatan dalam talian: Perkhidmatan dalam talian disasarkan kepada data dan pengiraan masa nyata, memenuhi keperluan kependaman rendah, konkurensi tinggi dan ketersediaan tinggi.
Prinsip Teknikal
Pembinaan penanda aras FEBench terutamanya merangkumi tiga aspek kerja: pengumpulan set data, kandungan yang dijana pertanyaan perlu ditulis semula dan apabila kandungan itu ditulis semula, templat yang sesuai perlu dipilih Pengumpulan Set Data Pasukan penyelidik telah mengumpulkan sejumlah 118 set data yang boleh digunakan dalam senario pengiraan ciri masa nyata ini datang daripada tapak web data awam seperti Kaggle, Tianchi, UCI ML, KiltHub dan. data awam dalaman dalam Paradigma Keempat , meliputi senario penggunaan biasa dalam dunia perindustrian, seperti kewangan, runcit, perubatan, pembuatan, pengangkutan dan senario industri lain. Pasukan penyelidik selanjutnya mengelaskan set data yang dikumpul mengikut bilangan jadual dan saiz set data, seperti yang ditunjukkan dalam Rajah 3 di bawah. Kandungan yang ditulis semula: Carta bilangan jadual dan saiz set data dalam FEBench adalah seperti berikut: Kandungan yang dijana oleh pertanyaan perlu ditulis semula Gunakan model regresi logistik untuk menilai hubungan antara ciri pertanyaan dan ciri pelaksanaan pertanyaan, menggunakan ciri sebagai input model dan masa pelaksanaan pertanyaan ciri sebagai output model. Kepentingan ciri yang berbeza pada hasil pengelompokan dipertimbangkan dengan menggunakan berat regresi setiap ciri sebagai berat pengelompokan Berdasarkan ciri pertanyaan berwajaran, algoritma DBSCAN digunakan untuk membahagikan pertanyaan ciri kepada berbilang kelompok. Carta berikut menunjukkan taburan 118 set data di bawah pelbagai penunjuk pertimbangan. Rajah (a) menunjukkan penunjuk sifat statistik, termasuk bilangan lajur keluaran, jumlah bilangan pengendali pertanyaan dan bilangan tahap subkueri bersarang Rajah (b) menunjukkan penunjuk dengan korelasi tertinggi dengan masa pelaksanaan pertanyaan, termasuk bilangan operasi pengagregatan, Bilangan tahap subkueri bersarang dan bilangan tetingkap masa Apa yang perlu ditulis semula ialah: Penilaian penanda aras (OpenMLDB dan Flink) Dalam kajian itu, penyelidik menggunakan FEBench untuk menguji dua sistem perindustrian biasa, iaitu Flink dan OpenMLDB. Flink ialah platform pengkomputeran yang konsisten pemprosesan kumpulan dan strim, manakala OpenMLDB ialah platform pengkomputeran ciri masa nyata khusus. Melalui ujian dan analisis, para penyelidik menemui kebaikan dan keburukan setiap sistem dan sebab di sebaliknya. Keputusan eksperimen menunjukkan bahawa disebabkan reka bentuk seni bina yang berbeza, terdapat perbezaan dalam prestasi antara Flink dan OpenMLDB. Pada masa yang sama, ini juga menggambarkan kepentingan FEBench dalam menganalisis keupayaan sistem sasaran. Secara ringkasnya, kesimpulan utama kajian adalah seperti berikut Flink adalah dua urutan magnitud lebih perlahan daripada OpenMLDB dalam kependaman (Rajah 6). Penyelidik menganalisis bahawa sebab utama jurang terletak pada kaedah pelaksanaan yang berbeza bagi kedua-dua seni bina sistem, sebagai sistem khusus untuk pengiraan ciri masa nyata, termasuk jadual langkau dua lapisan berasaskan memori dan struktur data lain yang dioptimumkan untuk masa. Data siri Akhirnya, Berbanding dengan Flink, ia mempunyai kelebihan prestasi yang jelas dalam senario pengiraan ciri. Sudah tentu, sebagai sistem tujuan umum, Flink mempunyai rangkaian senario terpakai yang lebih luas daripada OpenMLDB. . Ambil perhatian bahawa nombor berikut menunjukkan prestasi kependaman yang dinormalkan kepada OpenMLDB dan TP-50 Flink masing-masing, dan tidak mewakili perbandingan prestasi mutlak.
Ditulis semula sebagai: OpenMLDB mempunyai masalah yang jelas dengan kependaman ekor, manakala kependaman ekor Flink lebih stabil (lihat Rajah 7). Perlu diingat bahawa nombor berikut menormalkan prestasi kependaman kepada prestasi OpenMLDB dan Flink di bawah TP-50 masing-masing, bukannya perbandingan prestasi mutlak Rajah 7. Hujung ekor OpenMLDB dan Flink Perbandingan kependaman (dinormalkan kepada kependaman TP-50 masing-masing) Rajah 8 menunjukkan analisis penunjuk mikroarkitektur OpenMLDB dan Flink
Pahami analisis pelan pelaksanaan Q0 sebagai contoh: perbezaan dalam rancangan pelaksanaan antara Flink dan OpenMLDB. Pengendali pengiraan dalam Flink mengambil masa paling banyak, manakala OpenMLDB mengurangkan kependaman pelaksanaan dengan mengoptimumkan tetingkap dan menggunakan teknik pengoptimuman seperti fungsi agregat tersuai. Gambar kesembilan menunjukkan perbandingan antara OpenMLDB dan Flink dari segi pelan pelaksanaan (Q0) Projek OpenMLDB: https://github.com/apache/flink .com/4paradigm/OpenMLDB
Bahagikan ciri setiap pertanyaan kepada lima bahagian: bilangan lajur output, jumlah bilangan. pengendali pertanyaan , kekerapan kejadian pengendali kompleks, bilangan peringkat subkueri bersarang dan bilangan tupel maksimum dalam tetingkap masa. Memandangkan pertanyaan kejuruteraan ciri biasanya melibatkan tetingkap masa dan kerumitan pertanyaan tidak dipengaruhi oleh saiz data kelompok, saiz set data tidak disertakan sebagai salah satu ciri pengelompokan.
Para penyelidik menjalankan analisis yang lebih mendalam tentang keputusan prestasi di atas:
Jika pengguna menjangkakan untuk menghasilkan semula keputusan eksperimen di atas, atau menjalankan ujian penanda aras pada sistem tempatan pengarang kertas juga Keputusan ujian digalakkan untuk diserahkan dan dikongsi dalam komuniti), anda boleh melawati laman utama projek FEBench untuk mendapatkan maklumat lanjut.
Projek Flink: https://github.com/apache/flink
Atas ialah kandungan terperinci Anugerah VLDB 2023 diumumkan, kertas kerja bersama dari Universiti Tsinghua, 4Paradigm, dan NUS memenangi Anugerah Kertas Perindustrian Terbaik. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!