Prinsip fizikal yang memberi inspirasi kepada seni kecerdasan buatan moden, meneroka kemungkinan kecerdasan buatan generatif baru sahaja bermula-AI-php.cn

Biar sistem penjanaan imej DALL·E 2 yang dicipta oleh OpenAI melukis gambar "ikan emas menghirup Coca-Cola di pantai" dan ia akan mengeluarkan imej yang nyata. Program ini menemui imej pantai, ikan emas, dan Coca-Cola semasa latihan, tetapi tidak mungkin untuk melihat imej ketiga-tiga pada masa yang sama. Walau bagaimanapun, DALL·E 2 boleh menggabungkan konsep ini menjadi sesuatu yang mungkin membanggakan Dalí.

DALL·E 2 ialah model generatif - sistem yang cuba menggunakan data latihan untuk menjana perkara baharu yang menyaingi data dalam kualiti dan kepelbagaian. Ini adalah salah satu masalah paling sukar dalam pembelajaran mesin, dan untuk sampai ke tahap ini merupakan perjalanan yang sukar.

Model penjanaan imej penting pertama menggunakan kaedah kecerdasan buatan yang dipanggil rangkaian saraf - program yang terdiri daripada berbilang lapisan unit pengiraan yang dipanggil neuron buatan . Tetapi walaupun kualiti imej mereka menjadi lebih baik, model tersebut terbukti tidak boleh dipercayai dan sukar untuk dilatih. Sementara itu, model generatif yang berkuasa—yang dicipta oleh penyelidik pasca doktoral yang meminati fizik—tidak aktif sehingga dua pelajar siswazah membuat penemuan teknologi yang menghidupkan semula binatang itu.

DALL·E 2 ialah binatang yang begitu hebat. Cerapan utama yang membolehkan imej DALL·E 2, serta imej pesaingnya Stable Diffusion dan Imagen, datang dari dunia fizik. Sistem yang menyokongnya dipanggil model resapan dan sangat diilhamkan oleh termodinamik bukan keseimbangan, yang mengawal fenomena seperti resapan bendalir dan gas. "Terdapat banyak teknik yang pada asalnya dicipta oleh ahli fizik yang kini sangat penting dalam pembelajaran mesin," kata Yang Song, penyelidik pembelajaran mesin di OpenAI.

Kekuatan model ini mengejutkan industri dan pengguna. "Ini adalah masa yang menarik untuk model generatif," kata Anima Anandkumar, seorang saintis komputer di Institut Teknologi California dan pengarah kanan penyelidikan pembelajaran mesin di Nvidia.

Walaupun imej realistik yang dicipta oleh model penyebaran kadangkala mengekalkan kecenderungan sosial dan budaya, dia berkata, "Kami telah menunjukkan bahawa model generatif berguna untuk tugas hiliran, [yang] meningkatkan ramalan Keadilan model kecerdasan buatan 》

Kebarangkalian tinggi

Untuk memahami cara mencipta data bagi imej, mari mulakan dengan hanya dua fasa imej ringkas yang terdiri daripada piksel skala kelabu bersebelahan. Kami boleh menerangkan sepenuhnya imej ini dengan dua nilai berdasarkan naungan setiap piksel (dari 0 untuk hitam penuh hingga 255 untuk putih penuh). Anda boleh menggunakan dua nilai ini untuk memplot imej sebagai titik dalam ruang 2D.

Jika kita memplot berbilang imej sebagai titik, pengelompokan mungkin berlaku - sesetengah imej dan nilai piksel sepadannya muncul lebih kerap daripada yang lain. Sekarang bayangkan bahawa terdapat permukaan melengkung di atas satah, dengan ketinggian permukaan sepadan dengan ketumpatan kelompok. Permukaan ini memplot taburan kebarangkalian. Anda berkemungkinan besar untuk mencari satu titik data di bawah bahagian tertinggi permukaan, dan jarang di bawah bahagian terendah permukaan.

Prinsip fizikal yang memberi inspirasi kepada seni kecerdasan buatan moden, meneroka kemungkinan kecerdasan buatan generatif baru sahaja bermula

DALL·E 2 mencipta imej "Ikan Emas Menghirup Coca-Cola di Pantai" ini. Program ini, yang dicipta oleh OpenAI, mungkin tidak pernah menemui imej yang serupa, tetapi masih boleh menjananya sendiri.

Kini anda boleh menggunakan taburan kebarangkalian ini untuk menjana imej baharu. Apa yang anda perlu lakukan ialah menjana titik data baharu secara rawak, sambil mematuhi kekangan menjana lebih banyak data yang mungkin lebih kerap - satu proses yang dipanggil "mensampel" pengedaran. Setiap titik baharu adalah imej baharu.

Analisis yang sama digunakan pada foto skala kelabu yang lebih realistik, seperti satu juta piksel setiap satu. Hanya sekarang, bukannya dua paksi, melukis setiap imej memerlukan sejuta. Taburan kebarangkalian untuk imej sedemikian ialah permukaan berjuta tambah satu dimensi yang kompleks. Jika anda mencuba pengedaran ini, anda akan menghasilkan sejuta nilai piksel. Cetak piksel ini pada sekeping kertas dan imej kemungkinan besar akan kelihatan seperti foto daripada set data asal.

Cabaran pemodelan generatif adalah untuk mempelajari taburan kebarangkalian kompleks ini untuk beberapa set imej yang membentuk data latihan. Taburan berguna sebahagiannya kerana ia menangkap pelbagai maklumat tentang data, dan sebahagiannya kerana penyelidik boleh menggabungkan taburan kebarangkalian daripada jenis data yang berbeza, seperti teks dan imej, untuk mengarang output ultra-realistik, seperti ikan emas menghirup pantai Minum Coca-Cola. "Anda boleh mencampur dan memadankan konsep yang berbeza... untuk mencipta senario baharu yang tidak pernah dilihat dalam data latihan," kata Anandkumar.

Pada tahun 2014, model yang dipanggil Generative Adversarial Network (GAN) menjadi yang pertama menjana imej realistik. "Ia sangat mengujakan," kata Anandkumar. Tetapi GAN sukar untuk dilatih: mereka mungkin tidak mempelajari pengedaran kebarangkalian penuh, dan mungkin hanya menjana imej daripada subset pengedaran. Sebagai contoh, GAN yang dilatih mengenai imej pelbagai haiwan mungkin hanya menghasilkan imej anjing.

Pembelajaran mesin memerlukan model yang lebih berkuasa. Jascha Sohl-Dickstein, yang karyanya diilhamkan oleh fizik, akan memberikan jawapan.

Prinsip fizikal yang memberi inspirasi kepada seni kecerdasan buatan moden, meneroka kemungkinan kecerdasan buatan generatif baru sahaja bermula

Jascha Sohl-Dickstein.

Tempat teruja

Sebelum dan selepas penciptaan GAN, Sohl-Dickstein adalah seorang postdoc di Universiti Stanford, mempelajari model generatif Juga berminat dengan termodinamik bukan keseimbangan. Cabang fizik ini mengkaji sistem yang tidak berada dalam keseimbangan terma—yang menukar jirim dan tenaga secara dalaman dan dengan persekitarannya.

Contoh ilustrasi ialah titisan dakwat biru meresap melalui bekas air. Pada mulanya, ia membentuk bintik hitam di satu tempat. Pada ketika ini, jika anda ingin mengira kebarangkalian mencari molekul dakwat dalam beberapa isipadu kecil bekas, anda memerlukan taburan kebarangkalian yang dengan jelas memodelkan keadaan awal sebelum dakwat mula merebak. Tetapi pengedaran ini adalah kompleks dan oleh itu sukar untuk dijadikan sampel.

Walau bagaimanapun, akhirnya dakwat merebak ke seluruh air, menjadikan air menjadi biru muda. Ini boleh dicapai dengan taburan kebarangkalian molekul yang lebih mudah dan seragam yang diterangkan oleh ungkapan matematik yang mudah. Termodinamik nonequilibrium menerangkan taburan kebarangkalian pada setiap langkah dalam proses resapan. Yang penting, setiap langkah boleh diterbalikkan - dengan langkah yang cukup kecil, anda boleh kembali daripada pengedaran mudah kepada pengedaran yang kompleks.

Prinsip fizikal yang memberi inspirasi kepada seni kecerdasan buatan moden, meneroka kemungkinan kecerdasan buatan generatif baru sahaja bermula

Jascha Sohl-Dickstein mencipta pendekatan pemodelan generatif baharu berdasarkan prinsip resapan. ——Asako Miyakawa

Sohl-Dickstein membangunkan algoritma pemodelan generatif menggunakan prinsip resapan. Ideanya mudah: Algoritma mula-mula menukar imej kompleks dalam set data latihan kepada hingar ringkas—sama seperti menukar daripada setitik dakwat kepada air biru muda yang meresap—dan kemudian mengajar sistem cara membalikkan proses, menukar hingar ke dalam untuk imej.

Begini cara ia berfungsi. Pertama, algoritma mendapatkan imej daripada set latihan. Seperti sebelum ini, dengan mengandaikan bahawa setiap satu juta piksel mempunyai beberapa nilai, kita boleh memplot imej sebagai titik dalam ruang berjuta dimensi. Algoritma menambah sedikit bunyi pada setiap piksel pada setiap langkah masa, bersamaan dengan penyebaran dakwat selepas langkah masa yang kecil. Apabila proses ini berterusan, nilai piksel menjadi semakin kurang berkaitan dengan nilainya dalam imej asal, dan piksel kelihatan lebih seperti taburan hingar yang mudah. (Algoritma ini juga menyenggol setiap nilai piksel setiap kali melangkah sedikit ke arah asal, iaitu nilai sifar pada semua paksi ini. Siulan ini menghalang nilai piksel daripada menjadi terlalu besar untuk dikendalikan dengan mudah oleh komputer.)

Melakukan ini untuk semua imej dalam set data, taburan kompleks awal titik dalam ruang berjuta dimensi (yang tidak boleh diterangkan dan dijadikan sampel dengan mudah) menjadi taburan normal yang mudah di sekitar titik asal.

Sohl-Dickstein berkata: "Jujukan transformasi sangat perlahan menjadikan pengedaran data anda menjadi bunyi bising yang besar" ini memberi anda sampel yang boleh dijadikan sampel pengedaran dengan mudah .

Seterusnya ialah bahagian pembelajaran mesin: suapkan rangkaian saraf imej bising yang diperoleh daripada hantaran hadapan dan latihnya untuk meramalkan imej kurang bising yang muncul selangkah lebih awal. Ia membuat kesilapan pada mulanya, jadi anda melaraskan parameter rangkaian untuk menjadikannya lebih baik. Akhirnya, rangkaian saraf boleh menukar imej bising yang mewakili sampel daripada pengedaran mudah kepada imej yang mewakili sampel daripada pengedaran kompleks dengan pasti.

Rangkaian terlatih ialah model generatif yang matang. Kini anda tidak memerlukan imej asal untuk melakukan hantaran ke hadapan: anda mempunyai penerangan matematik yang lengkap tentang pengedaran mudah, jadi anda boleh mencuba terus daripadanya. Rangkaian saraf boleh menukar sampel ini—yang pada asasnya hanya statik—menjadi imej akhir yang menyerupai imej dalam set data latihan.

Sohl-Dickstein mengimbas kembali keluaran pertama model penyebarannya. "Anda mengeliat dan berkata, 'Saya rasa gumpalan berwarna itu kelihatan seperti trak,'" katanya. "Saya menghabiskan masa berbulan-bulan merenung corak piksel yang berbeza cuba melihat struktur yang saya suka, [dan ini lebih teratur daripada yang pernah saya dapat sebelum ini.] Saya sangat teruja." Melihat masa depan

Sohl-Dickstein menerbitkan algoritma model resapannya pada tahun 2015, tetapi ia masih jauh ketinggalan berbanding keupayaan GAN. Walaupun model resapan boleh mencuba keseluruhan pengedaran dan tidak pernah meludahkan hanya subset imej, imej kelihatan lebih teruk dan prosesnya terlalu perlahan. "Saya tidak fikir ia menarik pada masa itu, " kata Sohl-Dickstein.

Prinsip fizikal yang memberi inspirasi kepada seni kecerdasan buatan moden, meneroka kemungkinan kecerdasan buatan generatif baru sahaja bermula

Alamat kertas:

https://doi.org/10.48550/arXiv.1503.03585Dua pelajar yang tidak mengenali Sohl-Dickstein mahupun satu sama lain mengambil masa untuk menyambungkan titik-titik daripada kerja asal kepada model penyebaran moden seperti DALL·E 2. Yang pertama ialah Song, kemudian pelajar kedoktoran di Universiti Stanford. Pada 2019, dia dan mentornya menerbitkan kaedah baharu untuk membina model generatif yang tidak menganggarkan taburan kebarangkalian data (permukaan dimensi tinggi). Sebaliknya, ia menganggarkan kecerunan taburan (anggap ia sebagai cerun permukaan berdimensi tinggi).

Prinsip fizikal yang memberi inspirasi kepada seni kecerdasan buatan moden, meneroka kemungkinan kecerdasan buatan generatif baru sahaja bermula

Yang Song membantu mencadangkan teknik baharu untuk menjana imej dengan melatih rangkaian untuk mentafsir imej bising dengan cekap.

Lagu mendapati bahawa jika dia mula-mula mengganggu setiap imej dalam set data latihan dengan peningkatan tahap hingar dan kemudian rangkaian sarafnya meramalkan imej asal menggunakan kecerunan taburan, ia bekerja Untuk menolaknya, tekniknya mempunyai kesan terbaik. Setelah dilatih, rangkaian sarafnya boleh melukis imej bising daripada pengedaran mudah dan secara beransur-ansur menukarnya kembali kepada imej yang mewakili set data latihan. Kualiti imejnya bagus, tetapi model pembelajaran mesinnya sangat lambat untuk dijadikan sampel. Dan dia melakukannya tanpa mengetahui apa-apa tentang kerja Sohl-Dickstein. "Saya tidak tahu apa-apa tentang model penyebaran," kata Song. "Selepas kertas kerja 2019 kami diterbitkan, saya menerima e-mel daripada Jascha. Dia menunjukkan kepada saya bahawa [model kami] sangat berkait rapat."

2020 Pelajar kedua melihat hubungan ini dan menyedari bahawa karya Song boleh menambah baik model penyebaran Sohl-Dickstein. Jonathan Ho baru-baru ini menyelesaikan penyelidikan PhD dalam pemodelan generatif di University of California, Berkeley, tetapi sedang meneruskan penyelidikannya. "Saya fikir ini adalah subdisiplin pembelajaran mesin yang paling indah dari segi matematik," katanya.

Ho mereka bentuk semula dan mengemas kini model penyebaran Sohl-Dickstein menggunakan beberapa idea Song dan kemajuan lain dalam bidang rangkaian saraf. "Saya tahu bahawa untuk mendapatkan perhatian masyarakat, saya memerlukan model itu untuk menghasilkan sampel yang cantik," katanya. "Saya yakin ia adalah perkara paling penting yang boleh saya lakukan pada masa itu."

Nalurinya betul. Ho dan rakan sekerja mengumumkan model resapan baharu dan dipertingkat ini dalam kertas kerja 2020 bertajuk "Model Resapan Kebarangkalian Denoising." Ia dengan cepat menjadi mercu tanda yang kini para penyelidik merujuknya hanya sebagai DDPM. Pada penanda aras kualiti imej yang membandingkan pengedaran imej yang dijana dengan pengedaran imej latihan, model ini sepadan atau melebihi semua model generatif yang bersaing, termasuk GAN. Ia tidak mengambil masa lama untuk syarikat besar mengambil perhatian. Hari ini, DALL·E 2, Stable Diffusion, Imagen dan model komersial lain menggunakan beberapa variasi DDPM.

Jonathan Ho dan rakan sekerja menggabungkan kaedah Sohl-Dickstein dan Song untuk membolehkan model penyebaran moden seperti DALL· E2.

Model resapan moden juga mempunyai elemen utama: model bahasa besar (LLM), seperti GPT-3. Ini adalah model generatif yang dilatih pada teks Internet untuk mempelajari taburan kebarangkalian ke atas perkataan dan bukannya imej. Pada tahun 2021, Ho (kini seorang saintis penyelidikan di syarikat stealth) dan rakan sekerjanya Tim Salimans di Google Research dan kumpulan lain di tempat lain menunjukkan cara menggabungkan maklumat daripada LLM dan model resapan penjanaan imej menggunakan teks (mis., " Goldfish Menghirup Coca-Cola on the Beach") untuk membimbing proses resapan dan dengan itu penjanaan imej. Proses "penyebaran berpandu" ini adalah di sebalik kejayaan model teks ke imej seperti DALL·E 2.

"Mereka jauh melebihi jangkaan paling liar saya," kata Ho. "Saya tidak akan berpura-pura saya telah melihat semuanya."

Mencipta soalan

Walaupun model ini berjaya, DALL·E 2 dan Imej rakan sebayanya masih jauh dari sempurna. Model bahasa yang besar boleh mencerminkan bias budaya dan sosial, seperti perkauman dan seksisme, dalam teks yang dihasilkannya. Ini kerana mereka dilatih tentang teks yang ditarik balik daripada internet, selalunya mengandungi bahasa perkauman dan seksis. LLM yang mempelajari taburan kebarangkalian pada teks sedemikian penuh dengan berat sebelah yang sama. Model resapan juga dilatih pada imej tidak dipilih yang diambil dari internet, yang mungkin mengandungi data berat sebelah yang sama. Tidak hairanlah jika menggabungkan LLM dengan model komunikasi hari ini kadangkala menghasilkan imej yang mencerminkan penyakit sosial.

Anandkumar mempunyai pengalaman peribadi. Dia terkejut apabila dia cuba menghasilkan avatar bergaya dirinya menggunakan aplikasi berdasarkan model penyebaran. "Begitu banyak imej yang sangat seksual," katanya, "dan apa yang dipersembahkan kepada lelaki bukanlah dia sendirian."

Pincangan ini boleh dikurangkan dengan mengisih dan menapis data (tugas yang amat sukar memandangkan saiz set data yang besar) atau dengan memeriksa isyarat input dan output model ini . "Sudah tentu, tiada pengganti untuk ujian keselamatan yang teliti dan meluas" bagi model, kata Ho. "Ini adalah cabaran penting untuk bidang ini." "Saya sangat suka petikan Richard Feynman: 'Apa yang saya tidak boleh cipta, saya tidak faham,'" katanya. Pemahaman yang meningkat membolehkan pasukannya membangunkan model generatif yang, sebagai contoh, menjana data latihan sintetik untuk kelas yang kurang diwakili untuk tugas ramalan, seperti ton kulit yang lebih gelap untuk pengecaman wajah, membantu meningkatkan keadilan. Model generatif juga boleh memberi kita cerapan tentang cara otak kita memproses input yang bising, atau cara ia membangkitkan imej mental dan mempertimbangkan tindakan masa hadapan. Membina model yang lebih kompleks boleh memberikan AI keupayaan serupa.

Anandkumar berkata: "Saya rasa kita baru mula meneroka kemungkinan kecerdasan buatan generatif

Atas ialah kandungan terperinci Prinsip fizikal yang memberi inspirasi kepada seni kecerdasan buatan moden, meneroka kemungkinan kecerdasan buatan generatif baru sahaja bermula. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!