Apakah trend dalam pembangunan kecerdasan buatan pada tahun 2022?
Pastikan anda menyebut kebangkitan "AI berbilang modal", terutamanya alatan penjanaan teks ke imej.
Dari DALL-E kepada Imagen, Parti, Nuwa, dll., ia boleh menjana imej berkualiti tinggi yang menakjubkan.
Contoh paling tipikal ini ialah Dall-E2 OpenAI.
Sejak Dall-E keluar, anda mungkin telah melihatnya menjana banyak gambar gaya lukisan, seperti angkasawan menunggang kuda di angkasa.
Walau bagaimanapun, terdapat sangat sedikit imej yang menyatakan konsep abstrak melalui Dall-E.
Tidak, Gabriele Sgroi, seorang saintis pembelajaran mesin, datang untuk meneroka cara DALL-E melaksanakan tugasan ini.
Dia menguji pastel minyak dan gaya lukisan pada tema seperti kesedihan, cinta, kemarahan, kebahagiaan, keadilan dan ketidakadilan.
Sedih
Marah
Kebahagiaan
Cinta
Kesedihan
Cinta
Marah
Terdapat konsep abstrak lain untuk dihayati: keadilan dan ketidakadilanKeadilan
Ketidakadilan
Gabriele Sgroi percaya lukisan itu akan menjadi lebih Berwawasan, daripada mengehadkan imej emosi kepada ekspresi muka orang.
Semua imej dalam artikel ini (termasuk imej muka depan) dijana menggunakan DALL-E dengan memilih semua imej yang disediakan oleh generasi pertama daripada gesaan yang diberikan.
Seperti yang dapat dilihat daripada contoh-contoh ini, walaupun emosi yang diberikan tidak selalunya dapat dikenal pasti dengan jelas, DALL-E mempunyai kesan keseluruhan yang kuat untuk gaya lukisan Tunjukkan lebih banyak gambar abstrak dan kompleks.
Antaranya, kebanyakan gambar yang mewakili keadilan menggambarkan dewi Yunani, tetapi imej yang mewakili ketidakadilan benar-benar mengelirukan.
Secara keseluruhan, Sgroi memerhatikan bahawa keputusan banyak bergantung pada gaya yang dipilih.
Dan dalam kebanyakan kes, DALL-E akan menulis nama emosi pada lukisan yang dihasilkan.
Secara keseluruhannya, DALL-E nampaknya menunjukkan tahap pemahaman tentang emosi yang diuji, mengaitkannya dengan betul dengan ekspresi muka dan warna atau simbol yang biasanya dikaitkan dengannya sepasang.
Sgroi berkata adalah menarik untuk menyiasat lebih lanjut perbezaan dalam perwakilan emosi yang sama merentas gaya dan untuk mengkaji sama ada kecenderungan yang diperhatikan antara emosi positif dan negatif berlaku. benar dalam contoh lain masih wujud, ia akan menjadi menarik.
Ironinya, DALL-E 2 mendakwa pandai memahami gesaan teks yang digunakan untuk menjana imej.
Namun, sesetengah netizen mendapati apabila teks itu tidak dapat difahami buat masa ini, kandungan teks akan diletakkan dalam imej yang dihasilkan.
Seperti "Ini Bukan Paip", lukisan oleh artis Rene Magritte.
Terdapat juga kecerdasan buatan Janelle Shane yang meminta DALL-E 2 menjana logo syarikat, tetapi mendapati bahawa tiada gambar dapat mengeja perkataan dengan betul.
Contoh penjanaan Waffle House
Juga , anda boleh katakan DALL-E 2 memahami beberapa undang-undang saintifik.
Kerana ia boleh menggambarkan objek jatuh dengan mudah atau angkasawan terapung di angkasa.
Walau bagaimanapun, jika seseorang ingin menghasilkan anatomi, imej X-ray, bukti matematik atau pelan tindakan, imej yang terhasil mungkin betul secara cetek, tetapi pada asasnya Semua salah.
Contohnya dalam gambar sistem suria yang dilukis mengikut skala, boleh dikatakan kucar-kacir, dengan bentuk bumi di bahagian bawah. sudut kiri dan objek yang kelihatan seperti telur rebus di sudut kiri atas.
Penyelidik OpenAI Aditya Ramesh menerangkan bahawa ia cuba untuk membuat sesuatu yang serupa secara visual tanpa memahami maksudnya.
Jadi DALL-E 2 tidak tahu apa itu sains, ia hanya tahu membaca teks dan melukis ilustrasi.
Selain itu, apabila DALL-E 2 menjana wajah manusia, ia sangat realistik sehingga hampir sukar dipercayai.
Semasa latihan, OpenAI memperkenalkan langkah perlindungan deepfake untuk menghalangnya daripada mengingati wajah yang sering muncul di Internet.
Jika imej yang dimuat naik mengandungi wajah sebenar, malah orang yang tidak dikenali, sistem akan menolak untuk menjana kandungan tersebut.
Bagaimanapun, satu lagi masalah timbul, OpenAI berkata bahawa sistem ini dioptimumkan untuk imej dengan satu fokus perhatian
Contohnya, menghasilkan potret terperinci "seorang angkasawan merenung Bumi dengan ekspresi rindu di wajahnya" sangat berjaya.
Walau bagaimanapun, apabila DALL-E diminta menjana imej berbilang orang serentak, ia ranap secara langsung. Jadi ia menjadi sangat teruk dalam menghasilkan syot kumpulan dan adegan orang ramai.
Selain itu, DALL-E juga menjana beberapa imej berat sebelah.
Pada masa ini, pasukan OpenAI telah mula membetulkan bias melalui pembelajaran mesin.
Sebagai contoh, semasa latihan DALL-E 2, penyelidik melaraskan kaedah latihan dan meningkatkan berat imej wanita supaya mereka lebih berkemungkinan dihasilkan .
DALL-E akan membawa lebih banyak kejutan pada masa hadapan.
Atas ialah kandungan terperinci Bolehkah AI memetakan emosi? Lihat bagaimana DALL-E menyatakan abstraksi. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!