Hasilkan set data dengan GPT-3.5! SOTA baharu untuk penyuntingan imej oleh Universiti Peking Tiangong dan pasukan lain boleh mensimulasikan adegan dunia fizikal dengan tepat-AI-php.cn

Hasilkan set data dengan GPT-3.5! SOTA baharu untuk penyuntingan imej oleh Universiti Peking Tiangong dan pasukan lain boleh mensimulasikan adegan dunia fizikal dengan tepat

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Lepaskan： 2024-06-02 17:18:08

asal

955 orang telah melayarinya

Terdapat banyak kaedah untuk menyunting imej berkualiti tinggi, tetapi sukar untuk menyatakan dunia fizikal sebenar dengan tepat.

Kemudian, cuba Edit Dunia.

Hasilkan set data dengan GPT-3.5! SOTA baharu untuk penyuntingan imej oleh Universiti Peking Tiangong dan pasukan lain boleh mensimulasikan adegan dunia fizikal dengan tepat Pictures

Peking University, Tiamat AI, Tiangong AI, dan Mila Labs mencadangkan EditWorld, yang memperkenalkan tugas penyuntingan baharu, penyuntingan imej arahan dunia. Ia mentakrifkan dan mengkategorikan arahan berdasarkan pelbagai senario dunia.

Hasilkan set data dengan GPT-3.5! SOTA baharu untuk penyuntingan imej oleh Universiti Peking Tiangong dan pasukan lain boleh mensimulasikan adegan dunia fizikal dengan tepat Pictures

Sebuah set data berbilang modal dengan arahan dunia dibina dengan sokongan set model pra-latihan seperti GPT-3.5, Video-LLava dan SDXL.

Model pengeditan imej berasaskan resapan EditWorld telah dilatih pada set data ini, dan hasilnya ialah prestasi tugas baharunya jauh lebih baik daripada kaedah pengeditan sedia ada, mencapai SOTA.

SOTA baharu untuk penyuntingan imej

Kaedah sedia ada mencapai pengeditan imej berkualiti tinggi melalui pelbagai cara, termasuk tetapi tidak terhad kepada kawalan teks, operasi menyeret dan mengecat. Antaranya, kaedah penyuntingan menggunakan arahan telah mendapat perhatian meluas kerana kemudahan penggunaannya.

Walaupun kaedah penyuntingan imej mampu menghasilkan hasil yang berkualiti tinggi, mereka masih menghadapi kesukaran dalam mengendalikan dinamik dunia yang menyampaikan dinamik visual sebenar dalam dunia fizikal.

Seperti yang ditunjukkan dalam Rajah 1, InstructPix2pix mahupun MagicBrush tidak boleh menjana hasil pengeditan yang munasabah.

Hasilkan set data dengan GPT-3.5! SOTA baharu untuk penyuntingan imej oleh Universiti Peking Tiangong dan pasukan lain boleh mensimulasikan adegan dunia fizikal dengan tepat Pictures

Untuk menyelesaikan masalah ini, pasukan memperkenalkan tugas baharu yang dipanggil penyuntingan imej arahan dunia, yang membolehkan penyuntingan imej mencerminkan "dinamik dunia" dalam dunia fizikal dan media maya sebenar.

Secara khusus, mereka mentakrifkan dan mengklasifikasikan pelbagai arahan dinamik dunia dan mencipta set data latihan pelbagai mod baharu berdasarkan arahan ini, yang mengandungi sejumlah besar tiga kali ganda input-arahan-output.

Akhir sekali, pasukan itu melatih model penyebaran berpandukan teks menggunakan set data yang direka dengan teliti dan mencadangkan strategi manipulasi imej sifar tangkapan untuk mencapai penyuntingan imej yang diarahkan oleh dunia.

Berdasarkan senario tugasan dalam dunia nyata dan media maya, penyuntingan imej arahan dunia dibahagikan kepada 7 kategori, setiap kategori ditakrifkan dan diperkenalkan, dan sampel data disediakan.

Hasilkan set data dengan GPT-3.5! SOTA baharu untuk penyuntingan imej oleh Universiti Peking Tiangong dan pasukan lain boleh mensimulasikan adegan dunia fizikal dengan tepat Gambar

Kemudian pasukan mereka bentuk dua cabang: penjanaan teks-ke-gambar dan pengekstrakan papan cerita video untuk mendapatkan set data.

Cawangan imej penjanaan teks adalah untuk memperkayakan kekayaan pemandangan data Di bawah cawangan ini, pasukan mula-mula menggunakan GPT untuk menghasilkan empat kali ganda teks (termasuk penerangan imej input, arahan, penerangan imej output dan kata kunci), dan kemudian menggunakan input dan. output Penerangan menjana gambar yang sepadan dengan teks, dan menggunakan peta perhatian yang sepadan dengan kata kunci untuk mencari kedudukan penyuntingan dan mendapatkan topeng penyuntingan Pada masa yang sama, untuk memastikan ketekalan ciri utama kedua-dua gambar , pasukan memperkenalkan kaedah penyesuaian segera imej IP-Adapter Akhirnya, pasukan menggunakan Penyesuai IP dan ControlNet, digabungkan dengan peta cerdik bagi imej output dan ciri gesaan imej bagi imej input, dan menggunakan Lukisan Imej untuk melaraskan. imej output untuk mendapatkan data penyuntingan yang lebih berkesan.

Hasilkan set data dengan GPT-3.5! SOTA baharu untuk penyuntingan imej oleh Universiti Peking Tiangong dan pasukan lain boleh mensimulasikan adegan dunia fizikal dengan tepat Gambar

Selepas menggunakan cawangan gambar penjanaan teks untuk mendapatkan data kaya pemandangan, untuk menambah data sebenar pada set data, pasukan mengekstrak bingkai utama berkualiti tinggi daripada video sebagai data penyuntingan. Secara khusus, pasukan mengekstrak dua bingkai dengan korelasi yang kuat dan perbezaan struktur yang besar daripada papan cerita video sebagai bingkai permulaan dan terakhir, dan memotong papan cerita baharu, dan menggunakan model berbilang modal yang besar untuk menukar papan cerita Selepas menerangkan, pasukan akhirnya menggunakan bingkai permulaan dan penamat sebagai imej input dan imej output, dan menggunakan penerangan yang diperoleh sebagai arahan, dengan itu memperoleh data penyuntingan yang diperlukan.

Melangkah lebih jauh, pasukan menggunakan semakan semula manual data yang dijana untuk meningkatkan lagi kualiti data.

Pasukan menggunakan set data untuk memperhalusi model InstructPix2Pix Pada masa yang sama, untuk melindungi kawasan bukan pengeditan dan mencapai pengeditan yang lebih tepat, pasukan mencadangkan strategi pasca edit.

Hasilkan set data dengan GPT-3.5! SOTA baharu untuk penyuntingan imej oleh Universiti Peking Tiangong dan pasukan lain boleh mensimulasikan adegan dunia fizikal dengan tepat Pictures

Akhir sekali, dapat dilihat bahawa pendekatan pasukan boleh mencapai penyuntingan imej arahan dunia dengan sangat baik.

Pautan kertas:
https://www.php.cn/link/154d7da9e669c75ee317d46614381dd8
Pautan kod:
47https://www.php.cn/link/e6da29eefd

Atas ialah kandungan terperinci Hasilkan set data dengan GPT-3.5! SOTA baharu untuk penyuntingan imej oleh Universiti Peking Tiangong dan pasukan lain boleh mensimulasikan adegan dunia fizikal dengan tepat. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!