Apa yang dipanggil "AI generatif" yang muncul dalam beberapa tahun kebelakangan ini menarik minat gergasi teknologi Silicon Valley dan institusi modal teroka jenis AI ini boleh menjana imej yang sepadan berdasarkan sebilangan kecil perkataan dalam beberapa saat . Penganalisis meramalkan bahawa teknologi ini akan digunakan secara meluas dalam pelbagai industri dan menjana trilion dolar dalam nilai ekonomi.
Walaupun imej yang dihasilkan oleh program komputer ini tidak sempurna, seperti jari tambahan pada tangan, lenturan anggota badan yang tidak wajar, dsb. Pada masa yang sama, penjana imej juga menghadapi masalah semasa memproses teks, seperti menjana simbol tidak bermakna. Walau bagaimanapun, program penjanaan imej ini mungkin merupakan permulaan ledakan teknologi. David Beisel, pelabur di NextView Ventures, firma modal teroka Silicon Valley, berkata: "Dalam tiga bulan yang lalu, istilah 'kecerdasan buatan generatif' telah menjadi bualan
Sejak 2021, teknologi AI generatif telah mencapai kemajuan yang besar, malah memberi inspirasi kepada ramai orang untuk berhenti kerja untuk memulakan syarikat baharu, mengimpikan bahawa AI boleh menggerakkan generasi baharu gergasi teknologi pada masa hadapan.
Bidang AI telah berkembang pesat sejak lima tahun yang lalu atau lebih, tetapi kebanyakan kemajuan ini berkaitan dengan memahami data sedia ada. Model AI telah menjadi cukup cekap untuk mengenali sama ada terdapat kucing dalam foto yang diambil oleh seseorang dengan telefon mereka. Selain itu, model ini cukup dipercayai untuk menyampaikan berbilion hasil carian ke enjin carian Google setiap hari. Walau bagaimanapun, model AI generatif boleh menjana perkara baharu sepenuhnya yang tidak tersedia sebelum ini. Dengan kata lain, mereka mencipta, bukan hanya menganalisis, data.
Boris Dayma, pengasas AI dan platform pembelajaran mesin Craiyon Productive AI, berkata: “Perkara yang paling mengagumkan ialah AI generatif Mereka juga boleh mencipta perkara baharu hanya mencipta imej lama yang serupa, tetapi juga mencipta perkara baharu yang sama sekali berbeza daripada sebelumnya ”
Sequoia Capital, firma modal teroka terkenal di Silicon Valley ) yang disiarkan di tapak webnya: "Dari permainan kepada pengiklanan kepada undang-undang, AI generatif mempunyai potensi untuk mengubah semua bidang di mana kreativiti manusia dimainkan oleh teknologi ini berpotensi untuk menjana trilion dolar dalam nilai ekonomi." Lebih menarik, Sequoia Capital juga menegaskan dalam siaran itu. artikel yang disebutkan di atas sebahagiannya ditulis oleh GPT-3, yang merupakan AI generatif yang mampu menjana teks.
Penjanaan imej menggunakan teknik daripada subset pembelajaran mesin yang dipanggil pembelajaran mendalam. Pembelajaran mendalam telah mendorong banyak kemajuan dalam AI sejak kertas penting 2012 mengenai klasifikasi imej menghidupkan semula minat dalam teknologi. Pembelajaran mendalam menggunakan model yang dilatih pada set data yang besar sehingga program memahami perhubungan dalam data tersebut. Model itu kemudiannya boleh digunakan dalam aplikasi seperti mengenal pasti sama ada terdapat anjing dalam gambar atau menterjemah teks.
Penjana Imej berfungsi dengan membalikkan proses ini. Daripada menterjemah bahasa Inggeris ke bahasa Perancis, mereka menukar frasa bahasa Inggeris kepada imej. Mereka biasanya terdiri daripada dua bahagian utama, satu yang memproses frasa awal dan satu lagi yang menukar data kepada imej.
Bahagian pertama AI generatif adalah berdasarkan kaedah yang dipanggil Generative Adversarial Networks (GAN). Sebelum ini, GAN ini sering digunakan untuk menjana foto orang yang tidak wujud. Pada asasnya, mereka bekerja dengan mengadu dua model AI antara satu sama lain untuk mencipta imej yang lebih baik yang memenuhi matlamat yang telah ditetapkan.
Kaedah yang lebih baharu selalunya menggunakan penukar, konsep yang pertama kali dicadangkan oleh Google dalam kertas kerja 2017. Ini adalah teknologi baru muncul yang boleh memanfaatkan set data yang lebih besar, walaupun kos latihannya boleh mencecah jutaan dolar.
Penjana imej pertama yang mendapat banyak perhatian ialah Dall-E, sebuah projek yang dilancarkan pada 2021 oleh OpenAI permulaan Silicon Valley. OpenAI mengeluarkan versi yang dikemas kini dan lebih berkuasa tahun ini. "Dengan Dall-E 2, inilah saatnya kita menyeberangi Lembah Uncanny," kata Christian Cantrell, seorang pembangun yang pakar dalam AI generatif
Satu lagi penjana imej berasaskan AI yang biasa digunakan ialah Craiyon, dahulunya dikenali sebagai. Dall-E Mini, yang boleh didapati dalam talian. Selepas pengguna memasukkan frasa, mereka boleh melihat lukisan yang terhasil dalam penyemak imbas dalam beberapa minit.
Sejak dilancarkan pada Julai 2021, Craiyon kini menjana kira-kira 10 juta imej setiap hari, dengan jumlah 1 bilion imej yang tidak pernah dilihat sebelum ini, menurut Daima, pencipta AI dan mesin platform pembelajaran gambar Craiyon Productive AI. Selepas penggunaan meningkat awal tahun ini, Daimar mula mendedikasikan seluruh tenaganya kepada Craiyon. Katanya, dia menumpukan penggunaan iklan untuk memastikan pengguna bebas kerana kos pelayan tapak itu tinggi. Craiyon mempunyai akaun Twitter khusus untuk menyiarkan imej yang paling pelik dan paling kreatif, dan ia mempunyai lebih 1 juta pengikut.
Tetapi projek yang paling mencetuskan semangat ialah Stable Diffusion, yang telah dikeluarkan kepada umum pada bulan Ogos tahun ini. Kodnya tersedia di GitHub dan boleh dijalankan pada komputer, dalam awan atau melalui antara muka pengaturcaraan. Ini membolehkan pengguna menyesuaikan kod program dengan tujuan mereka sendiri atau membina program baharu di atasnya.
Sebagai contoh, Stable Diffusion disepadukan ke dalam Adobe Photoshop melalui pemalam yang membolehkan pengguna menjana latar belakang dan bahagian lain imej, yang kemudiannya boleh dimanipulasi secara langsung dalam apl menggunakan lapisan dan alatan PS lain untuk mengubah AI yang dijana beralih daripada teknologi yang menghasilkan imej siap kepada alat yang boleh digunakan oleh profesional.
Pembangun pemalam, Cantrell, bekerja di Adobe selama 20 tahun dan meletak jawatan tahun ini untuk memberi tumpuan kepada AI generatif. Veteran itu berkata pemalam itu telah dimuat turun berpuluh ribu kali. Artis memberitahunya bahawa mereka menggunakannya di banyak tempat yang tidak pernah dia jangkakan, seperti menghidupkan Godzilla atau mencipta imej Spider-Man dalam sebarang pose yang boleh dibayangkan oleh artis itu.
Seni baru muncul menggunakan AI generatif ialah cara membina frasa "gesaan," yang menjana imej. Enjin carian yang dipanggil Lexica boleh menyambungkan imej Stable Diffusion dengan rentetan perkataan yang tepat yang boleh digunakan untuk menjananya. Platform seperti Reddit dan Discord mempunyai petua tentang cara untuk mendapatkan orang ramai memasukkan frasa yang mereka ingin hasilkan imej.
Ramai pelabur melihat AI generatif sebagai platform yang berpotensi mengubah, seperti telefon pintar atau Internet Sama seperti zaman awal. Peralihan ini meluaskan saiz pasaran berpotensi yang mungkin boleh menggunakan teknologi ini.
Cantrell percaya bahawa AI generatif adalah serupa dengan teknologi yang lebih asas, iaitu pangkalan data. Beliau berkata: "AI Generatif adalah sedikit seperti pangkalan data. Pangkalan data membantu membuka kunci potensi besar aplikasi. Hampir setiap aplikasi yang kita gunakan dalam kehidupan dibina di atas pangkalan data, tetapi tiada siapa yang mengambil berat tentang cara pangkalan data berfungsi. , mereka hanya tahu bagaimana untuk menggunakannya bertaruh pada kawasan yang berpotensi besar. Tetapi dia memberi amaran bahawa AI generatif kini berada dalam "fasa rasa ingin tahu" lebih dekat dengan kemuncak kitaran gembar-gembur. Syarikat dalam peringkat ini mungkin gagal kerana mereka tidak memberi tumpuan kepada penggunaan khusus yang perniagaan atau pengguna sanggup bayar.
Orang lain dalam bidang ini percaya bahawa syarikat pemula yang merintis teknologi ini hari ini akhirnya boleh mencabar gergasi perisian yang kini menguasai bidang AI, termasuk Google, syarikat induk Facebook Meta, dan Microsoft, dan menetapkan peringkat untuk kebangkitan generasi gergasi teknologi akan datang Buka jalan.
Ketua Pegawai Eksekutif Hugging Face Clement Delangue berkata: "Akan ada sejumlah besar syarikat baharu bernilai trilion dolar yang dilahirkan, dan syarikat pemula ini akan menggunakan teknologi baharu ini kepada Basics ialah platform pembangun yang serupa dengan GitHub yang menjadi tuan rumah model AI terlatih, termasuk Craiyon dan Stable Diffusio. Matlamatnya adalah untuk memudahkan pengaturcara membina teknologi AI.
Sesetengah syarikat telah menerima pelaburan yang besar. Huging Face bernilai $2 bilion selepas mengumpul dana awal tahun ini daripada pelabur termasuk Lux Capital dan Sequoia Capital. OpenAI, syarikat permulaan yang paling menonjol dalam ruang, telah menerima lebih daripada $1 bilion dalam pembiayaan daripada Microsoft dan Khosla Ventures. Sementara itu, pembangun Stable Diffusion Stability AI sedang berbincang untuk mendapatkan modal teroka pada penilaian sehingga $1 bilion.
Pembekal perkhidmatan awan seperti Amazon, Microsoft dan Google juga mungkin mendapat manfaat, kerana AI generatif boleh menjadi teknologi intensif pengiraan. Meta dan Google telah mengupah ramai orang yang bijak dalam bidang ini untuk menyepadukan teknologi canggih ini ke dalam produk syarikat. Pada bulan September, Meta mengumumkan inisiatif AI yang dipanggil Make-A-Video yang membawa teknologi ke peringkat seterusnya dengan menjana video dan bukannya hanya imej.
Ketua Pegawai Eksekutif Meta Mark Zuckerberg menyiarkan di halaman Facebooknya: "Ini adalah satu kemajuan yang menakjubkan. Menjana video adalah lebih sukar daripada menjana foto kerana di samping membetulkannya Selain menjana setiap piksel, sistem mesti juga meramalkan bagaimana ia akan berubah dari semasa ke semasa.” Baru-baru ini, Google turut mengeluarkan program yang dipanggil kod Phenaki yang boleh menukar teks kepada video yang berdurasi beberapa minit.
Kegilaan itu juga boleh memberi rangsangan kepada pembuat cip seperti Nvidia, AMD dan Intel, yang pemproses grafiknya sesuai untuk melatih dan menggunakan model AI. Pada persidangan minggu lepas, Ketua Pegawai Eksekutif Nvidia Jensen Huang menyerlahkan AI generatif sebagai penggunaan utama cip terbaharu syarikat, dengan mengatakan teknologi sedemikian boleh merevolusikan komunikasi tidak lama lagi.
Walau bagaimanapun, faedah AI generatif kepada pengguna akhir masih terhad. Banyak keseronokan hari ini berkisar pada percubaan percuma atau kos rendah. Sebagai contoh, sesetengah pengarang telah mencuba menggunakan penjana imej untuk mencipta ilustrasi untuk artikel mereka. Nvidia sedang bereksperimen dengan menggunakan model untuk menjana imej 3D baharu orang, haiwan, kenderaan atau perabot yang boleh mengisi dunia permainan maya.
Akhirnya, semua orang yang membangunkan AI generatif perlu bergelut dengan isu etika yang ditimbulkan oleh penjana imej.
Pertama ialah isu pekerjaan. Walaupun banyak program memerlukan pemproses grafik yang berkuasa, kandungan yang dijana komputer masih jauh lebih murah daripada kos masa seorang ilustrator profesional, yang boleh dibayar ratusan dolar setiap jam. AI Generatif boleh menimbulkan masalah besar bagi artis, juruvideo dan orang lain yang mencari rezeki untuk mencipta karya mereka. "Ternyata model pembelajaran mesin mungkin menjadi lebih baik, lebih pantas dan lebih murah daripada manusia," kata Michael Dempsey, rakan kongsi pengurusan di Compound VC
Mengenai keaslian dan pemilikan, generasi AI Moden juga akan membawa cabaran yang lebih kompleks. Model AI ini dilatih menggunakan sejumlah besar imej sedia ada, dan masih diperdebatkan sama ada pencipta imej asal memiliki hak cipta kepada imej yang dijana dalam gaya asal. Seorang artis baru-baru ini memenangi pertandingan seni di Colorado, Amerika Syarikat, menggunakan imej yang dicipta terutamanya oleh AI generatif yang dipanggil MidJourney. Dia berkata dalam temu bual selepas kemenangannya bahawa dia memilih salah satu daripada ratusan imej yang dia hasilkan dan kemudian mengubah dan memprosesnya dalam PS.
Sesetengah imej yang dijana oleh Stable Diffusion kelihatan seperti tera air, menunjukkan bahawa sebahagian daripada set data asal dilindungi oleh hak cipta. Beberapa panduan petua menasihatkan pengguna untuk menggunakan nama artis hidup yang khusus untuk mencapai hasil yang lebih baik dalam meniru gaya kreatif artis tersebut. Bulan lalu, Getty Images melarang pengguna memuat naik imej AI generatif ke pangkalan data imej stoknya kerana kebimbangan mengenai pertikaian pelanggaran hak cipta.
Penjana imej juga boleh digunakan untuk mencipta imej baharu watak atau objek tanda dagangan, seperti Minions, watak Marvel atau takhta daripada Game of Thrones. Apabila perisian penjanaan imej menjadi lebih baik, ia juga berpotensi untuk menipu pengguna supaya mempercayai maklumat palsu, atau menunjukkan imej atau video peristiwa yang tidak pernah berlaku.
Pembangun juga mesti bergelut dengan kemungkinan model AI yang dilatih pada jumlah data yang besar mungkin mengandungi berat sebelah yang berkaitan dengan jantina, bangsa atau budaya dalam data, yang boleh menyebabkan model muncul dalam output Jenis ini prasangka. Huging Face telah menerbitkan bahan mengenai isu etika dan membincangkan isu membangunkan model AI secara bertanggungjawab.
Ketua Pegawai Eksekutif Hugging Face Clement de Lange berkata: "Kami melihat cabaran jangka pendek dan semasa dengan model ini kerana model ini adalah model berkemungkinan, dilatih pada set data yang besar, dan cenderung menyerap banyak bias." Dia memetik contoh AI generatif yang diminta untuk melukis potret "jurutera perisian," dan ia menghasilkan imej lelaki kulit putih.
Atas ialah kandungan terperinci Silicon Valley bertaruh bahawa AI generatif semakin meningkat, membolehkan anda menukar teks mudah kepada imej atau video. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!