Janus ialah rangka kerja autoregresif baharu yang menyepadukan pemahaman dan penjanaan pelbagai mod. Tidak seperti model sebelumnya, yang menggunakan pengekod visual tunggal untuk tugas pemahaman dan penjanaan, Janus memperkenalkan dua laluan pengekodan visual yang berasingan untuk fungsi ini.
Berikut ialah langkah untuk menjalankan Janus dalam Google Colab:
1 2 3 4 5 6 |
|
Gunakan kod berikut untuk memuatkan model yang diperlukan untuk tugas penglihatan:
1 2 3 4 5 6 7 8 9 10 11 12 |
|
Seterusnya, muatkan imej dan tukarkannya kepada format yang boleh difahami oleh model:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 |
|
Akhir sekali, jalankan model untuk menjana respons:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 |
|
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 |
|
Output menunjukkan pemahaman yang sesuai tentang imej, termasuk warna dan teksnya.
Muatkan model yang diperlukan untuk tugas penjanaan imej dengan kod berikut:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 |
|
Seterusnya, sediakan gesaan berdasarkan permintaan pengguna:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 |
|
Fungsi berikut digunakan untuk menjana imej. Secara lalai, 16 imej dijana:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 |
|
Imej yang dijana akan disimpan dalam folder generated_samples.
Di bawah ialah contoh imej yang dijana:
Atas ialah kandungan terperinci Janus B: Model Bersatu untuk Pemahaman Multimodal dan Tugasan Penjanaan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!