Lawan masalah 'keanggunan konsep'! Google mengeluarkan rangka kerja persepsi masa baharu: ketepatan pengecaman imej meningkat sebanyak 15%-AI-php.cn

Dalam penyelidikan pembelajaran mesin, hanyutan konsep sentiasa menjadi masalah yang sukar. Ia merujuk kepada perubahan dalam pengedaran data dari semasa ke semasa, menyebabkan keberkesanan model terjejas. Keadaan ini memaksa penyelidik untuk sentiasa menyesuaikan model untuk menyesuaikan diri dengan pengedaran data baharu. Kunci untuk menyelesaikan masalah hanyutan konsep adalah untuk membangunkan algoritma yang boleh mengesan dan menyesuaikan diri dengan perubahan dalam data tepat pada masanya. Contoh yang jelas ialah paparan imej tanda aras pembelajaran tidak pegun CLEAR, yang mendedahkan perubahan ketara dalam. ciri visual objek sepanjang dekad yang lalu berubah.

Fenomena ini dipanggil "slow concept drift" dan menimbulkan cabaran teruk kepada model pengelasan objek. Apabila rupa atau atribut objek berubah dari semasa ke semasa, cara memastikan model boleh menyesuaikan diri dengan perubahan ini dan terus mengklasifikasikan dengan tepat menjadi tumpuan penyelidikan.

Baru-baru ini, menghadapi cabaran ini, pasukan penyelidik Google AI mencadangkan kaedah dipacu pengoptimuman yang dipanggil MUSCATEL (Pembelajaran Temporal Berbilang Skala), yang berjaya meningkatkan model dalam prestasi Fokus data yang besar dan berubah. Hasil penyelidikan ini telah diterbitkan di AAAAI2024. Lawan masalah keanggunan konsep! Google mengeluarkan rangka kerja persepsi masa baharu: ketepatan pengecaman imej meningkat sebanyak 15%

Alamat kertas: https://arxiv.org/abs/2212.05908 Lawan masalah keanggunan konsep! Google mengeluarkan rangka kerja persepsi masa baharu: ketepatan pengecaman imej meningkat sebanyak 15%

Pada masa ini, kaedah arus perdana untuk hanyut kebarangkalian ialah pembelajaran dalam talian dan pembelajaran berterusan (dalam talian dan teruskan pembelajaran).

Konsep utama kaedah ini adalah untuk mengemas kini model secara berterusan untuk menyesuaikan diri dengan data terkini untuk memastikan keberkesanan model. Walau bagaimanapun, pendekatan ini menghadapi dua cabaran utama.

Kaedah ini selalunya memfokuskan hanya pada data terkini, mengabaikan maklumat berharga yang terkandung dalam data lepas. Di samping itu, mereka menganggap bahawa sumbangan semua kejadian data mereput secara seragam dari semasa ke semasa, yang tidak konsisten dengan keadaan sebenar. Kaedah

MUSCATEL boleh menyelesaikan masalah ini dengan berkesan Ia memberikan markah kepentingan kepada contoh latihan dan mengoptimumkan prestasi model dalam keadaan akan datang.

Untuk tujuan ini, para penyelidik memperkenalkan model tambahan yang menggabungkan kejadian dan umur mereka untuk menjana skor. Model tambahan dan model utama belajar secara kolaboratif untuk menyelesaikan dua masalah teras.

Kaedah ini mempunyai prestasi cemerlang dalam aplikasi praktikal Dalam eksperimen set data sebenar berskala besar yang meliputi 39 juta foto dan bertahan selama 9 tahun, berbanding kaedah asas pembelajaran keadaan mantap yang lain, ketepatan meningkat sebanyak 15%. .

Pada masa yang sama, ia juga menunjukkan hasil yang lebih baik daripada kaedah SOTA dalam dua set data pembelajaran tidak pegun dan persekitaran pembelajaran berterusan.

Cabaran konsep drift to supervised learning

Untuk mengkaji cabaran konsep drift to supervised learning, penyelidik membandingkan latihan luar talian (latihan luar talian) dan latihan berterusan (sambungan latihan) dalam tugasan klasifikasi foto. menggunakan kira-kira 39 juta foto media sosial dari tempoh 10 tahun.

Seperti yang ditunjukkan dalam rajah di bawah, walaupun prestasi awal model latihan luar talian adalah tinggi, ketepatannya berkurangan dari semasa ke semasa, dan pemahaman data awal berkurangan disebabkan oleh pelupaan bencana.

Sebaliknya, walaupun prestasi awal model latihan berterusan adalah lebih rendah, ia kurang bergantung pada data lama dan merosot lebih cepat semasa ujian.

Ini menunjukkan bahawa data berkembang dari semasa ke semasa dan kebolehgunaan kedua-dua model berkurangan. Hanyutan konsep menimbulkan cabaran kepada pembelajaran diselia, yang memerlukan pengemaskinian berterusan model untuk menyesuaikan diri dengan perubahan dalam data.

MUSCATEL

Lawan masalah keanggunan konsep! Google mengeluarkan rangka kerja persepsi masa baharu: ketepatan pengecaman imej meningkat sebanyak 15%

MUSCATEL ialah pendekatan inovatif yang direka untuk menyelesaikan masalah hanyutan konsep yang perlahan. Ia bertujuan untuk mengurangkan kemerosotan prestasi model pada masa hadapan dengan bijak menggabungkan kelebihan pembelajaran luar talian dan pembelajaran berterusan.

Dalam menghadapi data latihan yang besar, MUSCATEL menunjukkan daya tarikannya yang unik. Ia bukan sahaja bergantung pada pembelajaran luar talian tradisional, tetapi juga mengawal selia dan mengoptimumkan impak data lalu dengan teliti atas dasar ini, meletakkan asas yang kukuh untuk prestasi model masa depan.

Untuk meningkatkan lagi prestasi model utama pada data baharu, MUSCATEL memperkenalkan model tambahan.

Berdasarkan matlamat pengoptimuman dalam rajah di bawah, model tambahan latihan memberikan pemberat kepada setiap titik data berdasarkan kandungan dan umurnya. Reka bentuk ini membolehkan model menyesuaikan diri dengan lebih baik kepada perubahan dalam data masa hadapan dan mengekalkan keupayaan pembelajaran berterusan.

Lawan masalah keanggunan konsep! Google mengeluarkan rangka kerja persepsi masa baharu: ketepatan pengecaman imej meningkat sebanyak 15%

Untuk mengembangkan bersama model tambahan dan model utama, MUSCATEL juga menggunakan strategi meta-pembelajaran.

Kunci kepada strategi ini adalah untuk memisahkan sumbangan contoh contoh dan umur secara berkesan, dan menetapkan pemberat dengan menggabungkan berbilang skala masa pereputan tetap, seperti yang ditunjukkan dalam rajah di bawah.

Lawan masalah keanggunan konsep! Google mengeluarkan rangka kerja persepsi masa baharu: ketepatan pengecaman imej meningkat sebanyak 15%

Selain itu, MUSCATEL belajar untuk "mengedarkan" setiap contoh pada skala masa yang paling sesuai untuk pembelajaran yang lebih tepat.

Skor berat contoh

Seperti yang ditunjukkan dalam rajah di bawah, dalam cabaran pengecaman objek CLEAR, model bantu terpelajar berjaya melaraskan berat objek: berat objek dengan penampilan baharu meningkat, dan berat objek dengan penampilan lama berkurangan.

Lawan masalah keanggunan konsep! Google mengeluarkan rangka kerja persepsi masa baharu: ketepatan pengecaman imej meningkat sebanyak 15%

Melalui penilaian kepentingan ciri berasaskan kecerunan, boleh didapati bahawa model tambahan memfokuskan pada subjek dalam imej, dan bukannya latar belakang atau ciri yang tidak bergantung pada umur contoh, sekali gus menunjukkan ciri tersebut. keberkesanan.

Lawan masalah keanggunan konsep! Google mengeluarkan rangka kerja persepsi masa baharu: ketepatan pengecaman imej meningkat sebanyak 15%

Satu kejayaan ketara dalam tugas pengelasan foto berskala besar

Tugas pengelasan foto berskala besar (PCAT) telah dikaji pada set data YFCC100M, menggunakan data lima tahun pertama sebagai set latihan, dan data lima tahun lepas sebagai set ujian.

Berbanding dengan garis dasar tidak berwajaran dan teknik pembelajaran teguh yang lain, kaedah MUSCATEL menunjukkan kelebihan yang jelas.

Lawan masalah keanggunan konsep! Google mengeluarkan rangka kerja persepsi masa baharu: ketepatan pengecaman imej meningkat sebanyak 15%

Perlu diperhatikan bahawa kaedah MUSCATEL secara sedar melaraskan ketepatan data dari masa lalu yang jauh sebagai pertukaran untuk peningkatan prestasi yang ketara semasa ujian. Strategi ini bukan sahaja mengoptimumkan keupayaan model untuk menyesuaikan diri dengan data masa hadapan, tetapi juga menunjukkan kemerosotan yang lebih rendah semasa ujian. Kebolehgunaan luas yang disahkan merentas set data , saiz data juga berjulat dari 10k hingga 39 juta kejadian. Perlu diingat bahawa kaedah terbaik sebelum ini mungkin berbeza untuk setiap set data. Walau bagaimanapun, seperti yang ditunjukkan dalam rajah di bawah, dalam konteks kepelbagaian dalam kedua-dua data dan kaedah, kaedah MUSCATEL telah menunjukkan kesan keuntungan yang ketara. Keputusan ini menunjukkan sepenuhnya kebolehgunaan MUSCATEL secara meluas.

Meluaskan algoritma pembelajaran berterusan untuk menghadapi cabaran pemprosesan data berskala besar

Apabila berhadapan dengan pergunungan data berskala besar, kaedah pembelajaran luar talian tradisional mungkin terasa tidak mencukupi. Lawan masalah keanggunan konsep! Google mengeluarkan rangka kerja persepsi masa baharu: ketepatan pengecaman imej meningkat sebanyak 15%

Dengan memikirkan masalah ini, pasukan penyelidik bijak menyesuaikan kaedah yang diilhamkan oleh pembelajaran berterusan untuk menyesuaikan dengan mudah kepada pemprosesan data berskala besar.

Kaedah ini sangat mudah, iaitu menambahkan pemberat masa pada setiap kelompok data, dan kemudian mengemas kini model secara berurutan.

Walaupun masih terdapat beberapa batasan kecil dalam melakukan ini, seperti kemas kini model hanya boleh berdasarkan data terkini, kesannya sangat baik!

Dalam ujian penanda aras klasifikasi foto di bawah, kaedah ini menunjukkan prestasi yang lebih baik daripada algoritma pembelajaran berterusan tradisional dan pelbagai algoritma lain.

Selain itu, memandangkan ideanya berjalan lancar dengan banyak kaedah sedia ada, diharapkan apabila digabungkan dengan kaedah lain, kesannya akan menjadi lebih menakjubkan!

Lawan masalah keanggunan konsep! Google mengeluarkan rangka kerja persepsi masa baharu: ketepatan pengecaman imej meningkat sebanyak 15%

Secara umumnya, pasukan penyelidik berjaya menggabungkan pembelajaran luar talian dan berterusan untuk menyelesaikan masalah hanyutan data yang telah lama melanda industri.

Strategi inovatif ini bukan sahaja mengurangkan fenomena "pelupaan bencana" model dengan ketara, tetapi juga membuka laluan baharu untuk pembangunan masa depan pembelajaran berterusan data berskala besar, menyuntik tenaga baharu ke dalam keseluruhan bidang pembelajaran mesin .

Atas ialah kandungan terperinci Lawan masalah 'keanggunan konsep'! Google mengeluarkan rangka kerja persepsi masa baharu: ketepatan pengecaman imej meningkat sebanyak 15%. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!