Kami meletakkan di belakang kami satu tahun lagi perkembangan menarik dalam pembelajaran mendalam dalam kecerdasan buatan (AI)—setahun yang dipenuhi dengan kemajuan yang ketara, kontroversi dan, sudah tentu, kontroversi. Ketika kita mengakhiri tahun 2022 dan bersedia untuk menyambut 2023, berikut ialah aliran keseluruhan yang paling ketara dalam pembelajaran mendalam tahun ini.
Satu tema yang kekal berterusan dalam pembelajaran mendalam sejak beberapa tahun kebelakangan ini ialah penciptaan Daya penggerak untuk rangkaian saraf yang lebih besar. Ketersediaan sumber komputer membolehkan pembangunan seni bina mesra skala seperti rangkaian saraf berskala serta perkakasan AI khusus, set data besar dan model pengubah.
Pada masa ini, syarikat memperoleh hasil yang lebih baik dengan menskalakan rangkaian saraf ke skala yang lebih besar. Pada tahun lalu, DeepMind mengeluarkan Gopher, model bahasa besar (LLM) dengan 280 bilion parameter; ; Microsoft dan NVIDIA mengeluarkan Megatron-Turing NLG, LLM parameter 530 bilion.
Salah satu aspek skala yang menarik ialah keupayaan untuk muncul, di mana model yang lebih besar berjaya menyelesaikan tugas yang mustahil untuk model yang lebih kecil. Fenomena ini amat menarik dalam LLM, di mana apabila skala meningkat, model menunjukkan hasil yang menjanjikan pada julat tugas dan penanda aras yang lebih luas.
Walau bagaimanapun, perlu diingat bahawa walaupun dalam model terbesar, beberapa masalah asas pembelajaran mendalam masih tidak dapat diselesaikan (lebih lanjut mengenai perkara ini kemudian).
Banyak aplikasi pembelajaran mendalam yang berjaya memerlukan manusia melabelkan contoh latihan, yang juga dikenali sebagai pembelajaran terselia. Tetapi kebanyakan data yang tersedia di internet tidak disertakan dengan label bersih yang diperlukan untuk pembelajaran yang diselia. Anotasi data adalah mahal dan perlahan, mewujudkan kesesakan. Itulah sebabnya penyelidik telah lama mencari kemajuan dalam pembelajaran tanpa pengawasan, di mana model pembelajaran mendalam dilatih tanpa data beranotasi manusia.
Bidang ini telah mencapai kemajuan besar dalam beberapa tahun kebelakangan ini, terutamanya dalam bidang LLM, yang kebanyakannya dilatih mengenai sejumlah besar set data mentah yang dikumpul daripada Internet. Walaupun LL.M. terus mendapat tempat pada tahun 2022, kami juga melihat trend lain dalam teknik pembelajaran tanpa pengawasan semakin popular.
Sebagai contoh, model teks ke imej telah mencapai kemajuan yang menakjubkan tahun ini. Model seperti OpenAI's DALL-E 2, Google's Imagen dan Stability AI's Stable Diffusion menunjukkan kuasa pembelajaran tanpa pengawasan. Tidak seperti model teks-ke-imej lama yang memerlukan pasangan imej dan penerangan yang beranotasi dengan baik, model ini menggunakan set data besar imej berkapsyen longgar yang sudah wujud di Internet. Saiz besar set data latihan mereka (yang hanya mungkin kerana tiada pelabelan manual diperlukan) dan kebolehubahan skema sari kata membolehkan model ini mencari pelbagai corak kompleks antara maklumat teks dan visual. Oleh itu, mereka lebih fleksibel dalam menghasilkan imej untuk pelbagai penerangan.
Penjana teks-ke-imej mempunyai satu lagi ciri menarik: ia menggabungkan berbilang jenis data dalam satu model . Keupayaan mengendalikan berbilang corak membolehkan model pembelajaran mendalam melaksanakan tugas yang lebih kompleks.
Multimodaliti sangat penting untuk kecerdasan manusia dan haiwan. Sebagai contoh, apabila anda melihat pokok dan mendengar angin berdesir di dahannya, otak anda boleh menyambungkannya dengan cepat. Begitu juga, apabila anda melihat perkataan "pokok", anda boleh mencipta imej pokok dengan cepat, mengingati bau pokok pain selepas hujan atau mengimbas kembali pengalaman lain yang pernah anda alami sebelum ini.
Jelas sekali, pelbagai modaliti memainkan peranan penting dalam menjadikan sistem pembelajaran mendalam lebih fleksibel. Ini mungkin paling baik ditunjukkan oleh DeepMind's Gato, model pembelajaran mendalam yang dilatih pada pelbagai jenis data, termasuk imej, teks dan data proprioceptive. Gato cemerlang dalam pelbagai tugas, termasuk kapsyen imej, dialog interaktif, mengawal lengan robot dan bermain permainan. Ini berbeza dengan model pembelajaran mendalam klasik yang direka untuk melaksanakan satu tugasan.
Sesetengah penyelidik telah mencadangkan konsep bahawa kita hanya memerlukan sistem seperti Gato untuk melaksanakan kecerdasan buatan (AGI). Walaupun ramai saintis tidak bersetuju dengan pandangan ini, pastinya multimodaliti telah membawa pencapaian penting kepada pembelajaran mendalam.
Walaupun pencapaian pembelajaran mendalam yang mengagumkan, beberapa isu dalam bidang tersebut masih belum dapat diselesaikan. Ini termasuk sebab, komposisi, akal, penaakulan, perancangan, fizik intuitif, dan abstraksi dan analogi.
Ini adalah beberapa misteri kecerdasan yang masih dikaji oleh saintis dalam pelbagai bidang. Pendekatan pembelajaran mendalam berasaskan skala dan data semata-mata telah membantu meningkatkan kemajuan dalam beberapa masalah ini, tetapi gagal memberikan penyelesaian yang jelas.
Sebagai contoh, LLM yang lebih besar boleh mengekalkan keselarasan dan ketekalan merentas teks yang lebih panjang. Tetapi mereka gagal dalam tugas yang memerlukan penaakulan dan perancangan langkah demi langkah yang teliti.
Begitu juga, penjana teks-ke-imej mencipta grafik yang menakjubkan tetapi membuat kesilapan asas apabila diminta melukis imej yang memerlukan komposisi atau mempunyai penerangan yang kompleks.
Saintis yang berbeza sedang membincangkan dan meneroka cabaran ini, termasuk beberapa perintis pembelajaran mendalam. Yang paling terkenal ialah Yann LeCun, pencipta rangkaian saraf konvolusional (CNN) yang memenangi Anugerah Turing, yang baru-baru ini menulis artikel panjang lebar tentang batasan LLM yang hanya belajar daripada teks. LeCun sedang mengusahakan seni bina pembelajaran mendalam yang boleh mempelajari model dunia dan boleh menyelesaikan beberapa cabaran yang sedang dihadapi dalam bidang tersebut.
Pembelajaran mendalam telah datang jauh. Tetapi semakin banyak kemajuan yang kita capai, semakin kita menyedari cabaran untuk mencipta sistem yang benar-benar pintar. Tahun depan pastinya akan menarik seperti tahun ini.
Atas ialah kandungan terperinci Trend pembangunan dan isu pembelajaran mendalam pada tahun 2022. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!