


ICML 2024|. Model bahasa besar membantu tugas pengesanan luar pengedaran berasaskan CLIP
Apabila pengedaran set data latihan dan set data ujian adalah sama, model pembelajaran mesin boleh menunjukkan prestasi unggul. Walau bagaimanapun, dalam persekitaran dunia terbuka, model sering menghadapi sampel OOD di luar pengedaran boleh menyebabkan model berkelakuan dalam cara yang tidak dapat diramalkan, dan akibat ralat mungkin membawa maut, terutamanya dalam senario berisiko tinggi seperti. sebagai pemanduan autonomi [1, 2]. Oleh itu, pengesanan OOD adalah penting untuk memastikan kebolehpercayaan model pembelajaran mesin dalam penggunaan sebenar.
Kebanyakan kaedah pengesanan OOD [1, 3] boleh mengesan sampel OOD secara berkesan berdasarkan pengelas In-Distribution (ID) yang terlatih. Walau bagaimanapun, untuk set data ID yang berbeza, mereka perlu melatih semula pengelas untuk pengesanan OOD. Tambahan pula, kaedah ini hanya bergantung pada corak visual dan mengabaikan hubungan antara imej visual dan label teks. Dengan kemunculan model bahasa visual berskala besar (Model Vision-Manguage, VLM, seperti CLIP [4]), pengesanan OOD tangkapan sifar menjadi mungkin [5]. Dengan membina pengelas teks dengan hanya label kategori ID, adalah mungkin untuk mengesan sampel OOD merentas set data ID yang berbeza tanpa melatih semula pengelas.
Walaupun kaedah pengesanan luar pengedaran berasaskan CLIP sedia ada mempamerkan prestasi yang mengagumkan, mereka sering gagal apabila menemui sampel luar pengedaran yang sukar dikesan Kami percaya bahawa kaedah sedia ada hanya bergantung pada label kategori ID Pendekatan untuk membina pengelas teks sebahagian besarnya mengehadkan keupayaan sedia ada CLIP untuk mengenal pasti sampel daripada ruang label terbuka. Seperti yang ditunjukkan dalam Rajah 1 (a), kaedah membina pengelas teks yang hanya bergantung pada label kategori ID adalah sukar untuk membezakan sampel OOD yang sukar dikesan (set data ID: CUB-200-2011, dataset OOD: Tempat).
Rajah 1. Gambarajah skematik motivasi penyelidikan: (a) bina pengelas teks hanya bergantung pada label kategori ID, (b) gunakan label OOD sebenar, (c) gunakan LLM untuk membayangkan potensi pendedahan terpencil
Dalam karya ini , kami mencadangkan kaedah pengesanan luar pengedaran yang dipanggil Envisioning Outlier Exposure (EOE), yang memanfaatkan pengetahuan pakar dan keupayaan inferens model bahasa besar (LLM) untuk membayangkan potensi pendedahan terpencil, dengan itu meningkatkan prestasi pengesanan OOD (ditunjukkan dalam Rajah 1 (c)) tanpa mengakses sebarang data OOD sebenar. Kami mereka bentuk (1) isyarat LLM berdasarkan persamaan visual untuk menjana label kelas terpencil yang berpotensi khusus untuk pengesanan OOD, dan (2) fungsi pemarkahan baharu berdasarkan potensi penalti terpencil untuk membezakan sampel OOD yang sukar dikenal pasti dengan berkesan. Eksperimen menunjukkan bahawa EOE mencapai prestasi unggul dalam tugasan OOD yang berbeza dan boleh menskalakan dengan berkesan kepada dataset ImageNet-1K.
ØPautan kertas: https://arxiv.org/pdf/2406.00806
ØPautan kod: https://github.com/tmlr-group/EOE
Seterusnya kami akan berkongsi secara ringkas hasil penyelidikan dengan anda arah pengesanan luar pengedaran baru-baru ini diterbitkan di ICML 2024.
Pengetahuan awal
Pengenalan kaedah
EOE bertujuan untuk meningkatkan prestasi pengesanan OOD tangkapan sifar dengan memanfaatkan LLM untuk menjana label kategori outlier yang berpotensi. Walau bagaimanapun, memandangkan kategori OOD yang ditemui semasa model digunakan tidak diketahui, maka, bagaimanakah kita harus membimbing LLM untuk menjana label kategori luar yang diperlukan? Selepas mendapat label kelas terpencil, bagaimanakah kita boleh membezakan antara sampel ID dan OOD dengan lebih baik? Untuk menangani isu ini, kami mencadangkan pembayang LLM khusus untuk pengesanan OOD yang direka berdasarkan prinsip persamaan visual dan memperkenalkan fungsi pemarkahan novel untuk membezakan sampel ID/OOD dengan lebih baik. Rangka kerja keseluruhan pendekatan kami ditunjukkan dalam Rajah 2. . kelas "burung" ”), dan terdapat persamaan visual yang wujud antara subkelas (cth., “burung pipit” dan “walet”). Oleh itu, adalah lebih sesuai untuk mengarahkan LLM untuk terus menyediakan subkategori yang berbeza dalam kategori utama yang sama.
Tiga jenis gesaan LLM pengesanan OOD di atas ditunjukkan dalam Rajah 3
Rajah 3. Tiga jenis gesaan LLM direka berdasarkan prinsip persamaan visual
Rajah 4. pseudokod EOE
Kelebihan kaedah kami diringkaskan seperti berikut:
EOE tidak bergantung pada pengetahuan terdahulu data OOD yang tidak diketahui, jadi ia amat sesuai untuk senario dunia terbuka.
Sampel sifar: Model pra-latihan yang sama boleh digunakan dengan berkesan pada pelbagai set data ID khusus tugas tanpa perlu melatih setiap set data ID tertentu secara berasingan. EOE mencapai prestasi pengesanan OOD yang unggul dengan mengetahui hanya tag kelas ID.
Skalabilitas dan serba boleh: Berbanding dengan kaedah pengesanan OOD sifar tangkapan sedia ada [6] yang turut menjana label kelas OOD terpendam, EOE boleh digunakan dengan mudah pada set data berskala besar seperti ImageNet-1K. Tambahan pula, EOE menunjukkan kepelbagaian dalam tugas yang berbeza, termasuk pengesanan Far, Near dan Fine-grainedOOD.
Hasil eksperimen
Kami menjalankan eksperimen pada berbilang set data tugas OOD yang berbeza. Jadual 1 menunjukkan hasil percubaan pengesanan Far OOD pada ImageNet-1K, dengan Ground Truth mewakili prestasi apabila menggunakan label OOD sebenar, yang tidak tersedia dalam penggunaan sebenar. Keputusan menunjukkan bahawa EOE adalah setanding dengan kaedah penalaan halus dan mengatasi MCM [5].
Jadual 1. Keputusan percubaan OOD Jauh
Kami juga melaporkan hasil percubaan pada tugas OOD Berhampiran dan OOD Berbutir Halus Seperti yang ditunjukkan dalam Jadual 2 dan Jadual 3, kedua-duanya mencapai prestasi pengesanan yang terbaik.
Jadual 2. Berhampiran keputusan percubaan OOD
Jadual 3. Keputusan percubaan OOD berbutir halus
Kami menjalankan eksperimen ablasi pada setiap model LLM dan fungsi gesaan: termasuk LLM yang berbeza fungsi pemarkahan bilangan label kelas OOD yang berpotensi dengan panjang yang berbeza. Eksperimen menunjukkan bahawa fungsi pemarkahan yang kami reka dan gesaan LLM direka berdasarkan prinsip persamaan visual mencapai prestasi optimum, dan kaedah kami mencapai prestasi cemerlang pada LLM yang berbeza dan bilangan label kelas OOD yang berpotensi dengan panjang yang berbeza. Pada masa yang sama, kami juga menjalankan eksperimen ablasi pada struktur model bahasa visual Sila rujuk artikel asal untuk mendapatkan keputusan eksperimen yang terperinci. . EOE ,Sebenarnya, label kelas anomali yang dijana tidak mungkin mempunyai kebarangkalian tinggi untuk mencapai kelas OOD sebenar. Ini kerana data OOD yang ditemui dalam penggunaan sebenar model adalah pelbagai dan tidak dapat diramalkan. Walau bagaimanapun, berpandukan peraturan persamaan visual, walaupun kelas OOD sebenar tidak terkena, label kelas abnormal yang berpotensi yang dijana oleh EOE masih boleh meningkatkan prestasi model dalam pengesanan OOD.
Untuk menggambarkan hujah di atas, kami menunjukkan visualisasi yang diperoleh daripada output softmax skor padanan label melalui T-SNE. Hasil visualisasi antara EOE kami dan kaedah perbandingan MCM ditunjukkan dalam Rajah 6. Berdasarkan label kelas ID ImageNet-10, LLM menjana kemungkinan label anomali "kapal selam" berdasarkan peraturan persamaan visual. Apabila menemui kelas OOD "lokomotif stim" (kelas dalam ImageNet-20), "lokomotif stim" mempunyai persamaan tertinggi dengan "kapal selam" dalam dan . Oleh itu, EOE akan mengelompokkannya sebagai "kapal selam" dan dengan itu mengesannya sebagai kelas OOD. Walau bagaimanapun, jika tiada label kelas terpencil yang berpotensi, kita dapati MCM cenderung untuk mengumpulkan semua label kelas OOD bersama-sama. Ini boleh mengakibatkan pengecaman sampel OOD yang sukar dikenal pasti sebagai kelas ID. Ringkasnya, dalam rangka kerja EOE kami, 1) sampel OOD yang tergolong dalam kelas yang sama cenderung dikelompokkan bersama, 2) sampel dari kumpulan yang sama diklasifikasikan ke dalam kelas terpencil yang diandaikan ("Steam") yang mana ia secara visual serupa ” vs
[2] Yang, J., Zhou, K., Li, Y., dan Liu, Z. Pengesanan luar pengedaran umum: Tinjauan pracetak arXiv arXiv:2110.11334, 2021.
[3] Liu. , W., Wang, X., Owens, J., dan Li, Y. Pengesanan luar pengedaran berasaskan tenaga Dalam NeurIPS, 2020.
[4] Radford, A., Kim, J. W., Hallacy. , C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., et al Mempelajari model visual yang boleh dipindahkan daripada penyeliaan bahasa semula jadi . Dalam ICML, 2021.
[5] Ming, Y., Cai, Z., Gu, J., Sun, Y., Li, W., dan Li, Y. Menyelidiki pengesanan luar pengedaran dengan perwakilan bahasa penglihatan Dalam NeurIPS, 2022.
[6] Esmaeilpour, S., Liu, B., Robertson, E., dan Shu, L. Zeroshot pengesanan luar pengedaran berdasarkan klip model pra-latihan . Dalam AAAI, 2022.
Pengenalan kepada kumpulan penyelidik
Kumpulan Penyelidikan Pembelajaran Mesin dan Penaakulan yang Boleh Dipercayai (Kumpulan TMLR) Universiti Baptist Hong Kong terdiri daripada beberapa profesor muda, penyelidik pasca doktoral, pelajar doktor falsafah pelajar dan Ia terdiri daripada pembantu penyelidik, dan pasukan penyelidik bergabung dengan Jabatan Sains Komputer, Pusat Pengajian Sains. Kumpulan penyelidikan pakar dalam pembelajaran perwakilan boleh dipercayai, pembelajaran boleh dipercayai berdasarkan penaakulan sebab, model asas yang boleh dipercayai dan algoritma lain yang berkaitan, teori dan reka bentuk sistem, serta aplikasi dalam sains semula jadi Arah penyelidikan khusus dan hasil yang berkaitan boleh didapati pada kumpulan Github (https://github.com/tmlr-group). Pasukan penyelidikan dibiayai oleh dana penyelidikan kerajaan dan dana penyelidikan industri, seperti Hong Kong Research Grants Council Outstanding Young Scholars Program, National Natural Science Foundation of China projek am dan projek belia, serta dana penyelidikan saintifik daripada Microsoft, NVIDIA, Baidu, Alibaba, Tencent dan syarikat lain. Profesor muda dan penyelidik kanan bekerjasama, dan sumber pengkomputeran GPU adalah mencukupi. Ia mempunyai pengambilan jangka panjang ramai penyelidik pasca doktoral, pelajar kedoktoran, pembantu penyelidik dan pelatih penyelidikan. Selain itu, kumpulan kami juga mengalu-alukan permohonan daripada felo pasca doktoral lawatan yang dibiayai sendiri, pelajar kedoktoran dan pembantu penyelidik untuk sekurang-kurangnya 3-6 bulan, dan akses jauh disokong. Pelajar yang berminat sila hantar resume dan pelan penyelidikan awal anda ke alamat e-mel (bhanml@comp.hkbu.edu.hk).
Atas ialah kandungan terperinci ICML 2024|. Model bahasa besar membantu tugas pengesanan luar pengedaran berasaskan CLIP. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas











Dalam pembuatan moden, pengesanan kecacatan yang tepat bukan sahaja kunci untuk memastikan kualiti produk, tetapi juga teras untuk meningkatkan kecekapan pengeluaran. Walau bagaimanapun, set data pengesanan kecacatan sedia ada selalunya tidak mempunyai ketepatan dan kekayaan semantik yang diperlukan untuk aplikasi praktikal, menyebabkan model tidak dapat mengenal pasti kategori atau lokasi kecacatan tertentu. Untuk menyelesaikan masalah ini, pasukan penyelidik terkemuka yang terdiri daripada Universiti Sains dan Teknologi Hong Kong Guangzhou dan Teknologi Simou telah membangunkan set data "DefectSpectrum" secara inovatif, yang menyediakan anotasi berskala besar yang kaya dengan semantik bagi kecacatan industri. Seperti yang ditunjukkan dalam Jadual 1, berbanding set data industri lain, set data "DefectSpectrum" menyediakan anotasi kecacatan yang paling banyak (5438 sampel kecacatan) dan klasifikasi kecacatan yang paling terperinci (125 kategori kecacatan

Editor |KX Sehingga hari ini, perincian dan ketepatan struktur yang ditentukan oleh kristalografi, daripada logam ringkas kepada protein membran yang besar, tidak dapat ditandingi oleh mana-mana kaedah lain. Walau bagaimanapun, cabaran terbesar, yang dipanggil masalah fasa, kekal mendapatkan maklumat fasa daripada amplitud yang ditentukan secara eksperimen. Penyelidik di Universiti Copenhagen di Denmark telah membangunkan kaedah pembelajaran mendalam yang dipanggil PhAI untuk menyelesaikan masalah fasa kristal Rangkaian saraf pembelajaran mendalam yang dilatih menggunakan berjuta-juta struktur kristal tiruan dan data pembelauan sintetik yang sepadan boleh menghasilkan peta ketumpatan elektron yang tepat. Kajian menunjukkan bahawa kaedah penyelesaian struktur ab initio berasaskan pembelajaran mendalam ini boleh menyelesaikan masalah fasa pada resolusi hanya 2 Angstrom, yang bersamaan dengan hanya 10% hingga 20% daripada data yang tersedia pada resolusi atom, manakala Pengiraan ab initio tradisional

Komuniti LLM terbuka ialah era apabila seratus bunga mekar dan bersaing Anda boleh melihat Llama-3-70B-Instruct, QWen2-72B-Instruct, Nemotron-4-340B-Instruct, Mixtral-8x22BInstruct-v0.1 dan banyak lagi. model yang cemerlang. Walau bagaimanapun, berbanding dengan model besar proprietari yang diwakili oleh GPT-4-Turbo, model terbuka masih mempunyai jurang yang ketara dalam banyak bidang. Selain model umum, beberapa model terbuka yang mengkhusus dalam bidang utama telah dibangunkan, seperti DeepSeek-Coder-V2 untuk pengaturcaraan dan matematik, dan InternVL untuk tugasan bahasa visual.

Bagi AI, Olimpik Matematik tidak lagi menjadi masalah. Pada hari Khamis, kecerdasan buatan Google DeepMind menyelesaikan satu kejayaan: menggunakan AI untuk menyelesaikan soalan sebenar IMO Olimpik Matematik Antarabangsa tahun ini, dan ia hanya selangkah lagi untuk memenangi pingat emas. Pertandingan IMO yang baru berakhir minggu lalu mempunyai enam soalan melibatkan algebra, kombinatorik, geometri dan teori nombor. Sistem AI hibrid yang dicadangkan oleh Google mendapat empat soalan dengan betul dan memperoleh 28 mata, mencapai tahap pingat perak. Awal bulan ini, profesor UCLA, Terence Tao baru sahaja mempromosikan Olimpik Matematik AI (Anugerah Kemajuan AIMO) dengan hadiah berjuta-juta dolar Tanpa diduga, tahap penyelesaian masalah AI telah meningkat ke tahap ini sebelum Julai. Lakukan soalan secara serentak pada IMO Perkara yang paling sukar untuk dilakukan dengan betul ialah IMO, yang mempunyai sejarah terpanjang, skala terbesar dan paling negatif

Pada tahun 2023, hampir setiap bidang AI berkembang pada kelajuan yang tidak pernah berlaku sebelum ini. Pada masa yang sama, AI sentiasa menolak sempadan teknologi trek utama seperti kecerdasan yang terkandung dan pemanduan autonomi. Di bawah trend berbilang modal, adakah status Transformer sebagai seni bina arus perdana model besar AI akan digoncang? Mengapakah penerokaan model besar berdasarkan seni bina MoE (Campuran Pakar) menjadi trend baharu dalam industri? Bolehkah Model Penglihatan Besar (LVM) menjadi satu kejayaan baharu dalam penglihatan umum? ...Daripada surat berita ahli PRO 2023 laman web ini yang dikeluarkan dalam tempoh enam bulan lalu, kami telah memilih 10 tafsiran khas yang menyediakan analisis mendalam tentang aliran teknologi dan perubahan industri dalam bidang di atas untuk membantu anda mencapai matlamat anda dalam bidang baharu. tahun. Tafsiran ini datang dari Week50 2023

Editor |ScienceAI Question Answering (QA) set data memainkan peranan penting dalam mempromosikan penyelidikan pemprosesan bahasa semula jadi (NLP). Set data QA berkualiti tinggi bukan sahaja boleh digunakan untuk memperhalusi model, tetapi juga menilai dengan berkesan keupayaan model bahasa besar (LLM), terutamanya keupayaan untuk memahami dan menaakul tentang pengetahuan saintifik. Walaupun pada masa ini terdapat banyak set data QA saintifik yang meliputi bidang perubatan, kimia, biologi dan bidang lain, set data ini masih mempunyai beberapa kekurangan. Pertama, borang data adalah agak mudah, kebanyakannya adalah soalan aneka pilihan. Ia mudah dinilai, tetapi mengehadkan julat pemilihan jawapan model dan tidak dapat menguji sepenuhnya keupayaan model untuk menjawab soalan saintifik. Sebaliknya, Soal Jawab terbuka

Editor |. KX Retrosynthesis ialah tugas kritikal dalam penemuan ubat dan sintesis organik, dan AI semakin digunakan untuk mempercepatkan proses. Kaedah AI sedia ada mempunyai prestasi yang tidak memuaskan dan kepelbagaian terhad. Dalam amalan, tindak balas kimia sering menyebabkan perubahan molekul tempatan, dengan pertindihan yang besar antara bahan tindak balas dan produk. Diilhamkan oleh ini, pasukan Hou Tingjun di Universiti Zhejiang mencadangkan untuk mentakrifkan semula ramalan retrosintetik satu langkah sebagai tugas penyuntingan rentetan molekul, secara berulang menapis rentetan molekul sasaran untuk menghasilkan sebatian prekursor. Dan model retrosintetik berasaskan penyuntingan EditRetro dicadangkan, yang boleh mencapai ramalan berkualiti tinggi dan pelbagai. Eksperimen yang meluas menunjukkan bahawa model itu mencapai prestasi cemerlang pada set data penanda aras standard USPTO-50 K, dengan ketepatan 1 teratas 60.8%.

Editor |. ScienceAI Berdasarkan data klinikal yang terhad, beratus-ratus algoritma perubatan telah diluluskan. Para saintis sedang membahaskan siapa yang harus menguji alat dan cara terbaik untuk melakukannya. Devin Singh menyaksikan seorang pesakit kanak-kanak di bilik kecemasan mengalami serangan jantung semasa menunggu rawatan untuk masa yang lama, yang mendorongnya untuk meneroka aplikasi AI untuk memendekkan masa menunggu. Menggunakan data triage daripada bilik kecemasan SickKids, Singh dan rakan sekerja membina satu siri model AI untuk menyediakan potensi diagnosis dan mengesyorkan ujian. Satu kajian menunjukkan bahawa model ini boleh mempercepatkan lawatan doktor sebanyak 22.3%, mempercepatkan pemprosesan keputusan hampir 3 jam bagi setiap pesakit yang memerlukan ujian perubatan. Walau bagaimanapun, kejayaan algoritma kecerdasan buatan dalam penyelidikan hanya mengesahkan perkara ini
