Mollick membentangkan makna model penjanaan imej baru
Baru -baru ini, model generasi imej baru yang dikeluarkan oleh Google dan Openai telah menarik perhatian yang meluas, dan teknologi terasnya sama sekali berbeza dengan model sebelumnya. Artikel Ethan Mollick dalam satu perkara yang berguna meneroka mekanisme kerja model -model baru ini dan kesannya kepada pengguna manusia. Artikel ini akan menafsirkan pandangan Mollick.
Potensi generasi imej multimodal
Mollick menegaskan bahawa sistem penjanaan imej tradisional adalah hasil kerja kolaboratif pelbagai model, dan bukan satu model melengkapkan semua tugas.
"Pada masa lalu, model bahasa yang besar (LLM) yang dihasilkan tidak dilakukan secara langsung oleh LLM. AI akan menghantar teks kepada alat penjanaan imej bebas dan kemudian memaparkan hasilnya.
Model penyebaran telah menjadi perkara masa lalu
Model lama bergantung terutamanya pada kerja model penyebaran. Prinsip kerja model penyebaran adalah: memperkenalkan imej ke dalam bunyi bising, melakukan pemprosesan abstraksi, dan kemudian keluarkan bunyi untuk menghasilkan imej yang sepadan dengan prompt di perpustakaan imej komputer yang diketahui.
Walau bagaimanapun, batasan kaedah ini adalah bahawa imej yang dihasilkan tidak mempunyai alasan dan penghakiman model sendiri, dan hanya gabungan mudah perpustakaan imej yang sedia ada dan tidak dapat memberikan maklumat yang berharga.
Kelebihan kawalan multimodal
Hari ini, kemunculan teknologi kawalan multimodal telah mengubah keadaan ini sepenuhnya.
Mollick memberikan contoh: mendorong model untuk menghasilkan "bilik tanpa gajah dan menandakan sebabnya". Model tradisional menghasilkan imej yang mengandungi gajah kerana ia tidak dapat memahami konteks prompt. Teks yang dihasilkan juga mungkin tidak bermakna atau bahkan mengandungi aksara fiksyen, kerana pemahaman model tentang huruf juga berpunca daripada data latihan.
Model multimodal dapat menghasilkan imej yang memenuhi keperluan dan menambah komen, seperti "pintu terlalu kecil", menjelaskan mengapa tidak ada gajah di dalam bilik.
Cabaran hujung dari model tradisional
Kelemahan model tradisional yang signifikan ialah apabila ia diperlukan untuk mengecualikan elemen, ia akan mengandungi elemen itu kerana ia tidak dapat memahami arahan. Di samping itu, setiap pengubahsuaian atau pelarasan mengubah struktur asas imej. Sebagai contoh, mengubahsuai topi watak boleh membawa kepada perubahan lengkap dalam imej watak.
Model penjanaan imej multimodal boleh membuat pelarasan halus berdasarkan mengekalkan hasil asal.
Penyelenggaraan alam sekitar
Mollick juga menunjukkan satu lagi contoh: Otter memegang item tertentu dalam satu tangan dan kemudian muncul dalam konteks yang berbeza dan dalam gaya yang berbeza. Ini menunjukkan keupayaan integrasi halus penjana imej multimodal.
Persembahan lengkap
Mollick juga menunjukkan cara merancang persembahan lengkap menggunakan model multimodal, seperti cadangan mengenai guacamole. Hanya berikan arahan mudah, dan model boleh mencari maklumat yang relevan di Internet, mengintegrasikannya, dan menghasilkan hasil akhir.
Seperti yang dikatakan Mollick, ini dengan cepat akan membawa kepada penggantian banyak kerja manusia. Kita perlu mempertimbangkan untuk mewujudkan rangka kerja yang sama.
Atas ialah kandungan terperinci Mollick membentangkan makna model penjanaan imej baru. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas











Semasa bekerja pada AIS AI, pemaju sering mendapati diri mereka menavigasi perdagangan antara kelajuan, fleksibiliti, dan kecekapan sumber. Saya telah meneroka rangka kerja AI yang agentik dan menjumpai Agno (sebelum ini adalah Phi-

Pelepasan ini termasuk tiga model yang berbeza, GPT-4.1, GPT-4.1 Mini dan GPT-4.1 Nano, menandakan langkah ke arah pengoptimuman khusus tugas dalam landskap model bahasa yang besar. Model-model ini tidak segera menggantikan antara muka yang dihadapi pengguna seperti

Pernyataan Jadual Alter SQL: Menambah lajur secara dinamik ke pangkalan data anda Dalam pengurusan data, kebolehsuaian SQL adalah penting. Perlu menyesuaikan struktur pangkalan data anda dengan cepat? Pernyataan Jadual ALTER adalah penyelesaian anda. Butiran panduan ini menambah colu

Simulasi Rocket dilancarkan dengan Rocketpy: Panduan Komprehensif Artikel ini membimbing anda melalui mensimulasikan pelancaran roket kuasa tinggi menggunakan Rocketpy, perpustakaan Python yang kuat. Kami akan merangkumi segala -galanya daripada menentukan komponen roket untuk menganalisis simula

Dalam perkembangan penting bagi komuniti AI, Agentica dan bersama-sama AI telah mengeluarkan model pengekodan AI sumber terbuka bernama DeepCoder-14b. Menawarkan keupayaan penjanaan kod setanding dengan pesaing sumber tertutup seperti OpenAI

Gergasi Chip Nvidia berkata pada hari Isnin ia akan memulakan pembuatan superkomputer AI - mesin yang boleh memproses sejumlah besar data dan menjalankan algoritma kompleks - sepenuhnya dalam A.S. untuk kali pertama. Pengumuman itu datang selepas Presiden Trump Si

Penyelidikan terobosan HiddenLayer mendedahkan kelemahan kritikal dalam model bahasa yang besar (LLMS). Penemuan mereka mendedahkan teknik bypass sejagat, yang digelar "Bonfetri Policy," mampu mengelakkan hampir semua LLM utama

Guy Peri adalah maklumat utama dan pegawai digital McCormick. Walaupun hanya tujuh bulan ke dalam peranannya, Peri pesat memajukan transformasi komprehensif keupayaan digital syarikat. Tumpuan kerjaya beliau terhadap data dan analisis memberitahu
