Pemahaman Multimodal Perniagaan Baidu dan Amalan Inovasi AIGC-AI-php.cn

百度商业多模态理解及 AIGC 创新实践

1. Multi-modal pemahaman media kaya

#🎜🎜🎜🎜 pertama sekali, pemahaman kita tentang Persepsi kandungan multimodal.

1. Pemahaman pelbagai mod

Meningkatkan keupayaan pemahaman kandungan, membolehkan sistem pengiklanan memahami kandungan dengan lebih baik dalam senario tersegmen.

百度商业多模态理解及 AIGC 创新实践

Apabila meningkatkan keupayaan pemahaman kandungan, anda akan menghadapi banyak masalah praktikal:

#🎜 🎜🎜#

Terdapat banyak senario dan industri perniagaan komersil adalah berlebihan dan akan membawa kepada kesesuaian yang berlebihan pemodelan.
Teks yang lemah di sekeliling bahan visual komersial boleh membawa kepada kes ilustrasi yang buruk.
Sistem ini penuh dengan ciri ID yang tidak bermakna dan mempunyai generalisasi yang lemah.
Dalam era media kaya, cara menggunakan semantik visual dengan berkesan dan cara mengintegrasikan ciri kandungan, ciri video dan ciri lain ini adalah apa yang perlu kita lakukan Ia digunakan untuk meningkatkan persepsi kandungan media kaya dalam sistem.

百度商业多模态理解及 AIGC 创新实践

Apakah perwakilan multimodal yang baik?

Adalah perlu untuk meluaskan skop aplikasi data dari segi keluasan, untuk meningkatkan kesan visual dari segi kedalaman, dan pada masa yang sama memastikan penalaan halus data daripada tempat kejadian.

Sebelum ini, idea konvensional adalah untuk melatih model untuk mempelajari modaliti imej, tugas autoregresif, dan kemudian melakukan tugasan teks, dan kemudian menggunakan beberapa model menara berkembar untuk merapatkan hubungan modal antara keduanya. Pada masa itu, pemodelan teks agak mudah, dan semua orang lebih mempelajari cara memodelkan penglihatan. Ia bermula dengan CNN, dan kemudiannya memasukkan beberapa kaedah berdasarkan pengesanan sasaran untuk meningkatkan perwakilan visual, seperti kaedah bbox Walau bagaimanapun, kaedah ini mempunyai keupayaan pengesanan yang terhad dan terlalu berat, yang tidak sesuai untuk latihan data berskala besar.

Menjelang 2020 dan 2021, kaedah VIT telah menjadi arus perdana. Salah satu model yang lebih terkenal yang perlu saya nyatakan di sini ialah CLIP, model yang dikeluarkan oleh OpenAI pada tahun 2020, yang berdasarkan seni bina menara berkembar untuk perwakilan teks dan visual. Kemudian gunakan kosinus untuk menutup jarak antara keduanya. Model ini sangat baik untuk mendapatkan semula, tetapi kurang berkemampuan dalam beberapa tugas yang memerlukan penaakulan logik seperti tugas VQA.

Perwakilan pembelajaran:

Meningkatkan keupayaan persepsi asas bahasa semula jadi terhadap penglihatan.

百度商业多模态理解及 AIGC 创新实践

Matlamat kami adalah untuk meningkatkan persepsi visual asas bahasa semula jadi. Dari segi data, domain perniagaan kami mempunyai berbilion-bilion data, tetapi masih tidak mencukupi. Kami perlu mengembangkan lagi, memperkenalkan data lepas daripada domain perniagaan dan membersihkan serta menyusunnya. Satu set latihan peringkat berpuluh bilion telah dibina.

Kami membina model perwakilan + penjanaan berbilang mod VICAN-12B, menggunakan tugas penjanaan untuk membenarkan pemulihan visual teks, dan seterusnya memastikan kesan gabungan perwakilan visual pada teks. Meningkatkan keupayaan persepsi asas bahasa semula jadi kepada penglihatan. Gambar di atas menunjukkan struktur keseluruhan model Anda boleh melihat bahawa ia adalah struktur komposit menara berkembar + menara tunggal. Kerana perkara pertama yang perlu diselesaikan ialah tugas mendapatkan imej berskala besar. Bahagian dalam kotak di sebelah kiri adalah apa yang kita panggil visual perceptron, iaitu struktur ViT dengan skala 2 bilion parameter. Bahagian kanan boleh dilihat dalam dua lapisan Bahagian bawah adalah timbunan pengubah teks untuk mendapatkan semula, dan bahagian atas adalah untuk penjanaan. Model ini dibahagikan kepada tiga tugas, satu tugas generasi, satu tugas klasifikasi, dan satu lagi tugas perbandingan gambar Model ini dilatih berdasarkan tiga matlamat yang berbeza ini, jadi ia telah mencapai keputusan yang agak baik, tetapi kami akan mengoptimumkannya lagi.

Satu set penyelesaian perwakilan global berbilang senario yang cekap, bersatu dan boleh dipindahkan.

Digabungkan dengan data senario perniagaan, model LLM diperkenalkan untuk meningkatkan keupayaan pemahaman model. Model CV ialah perceptron dan model LLM ialah pemaham. Pendekatan kami adalah untuk memindahkan ciri visual dengan sewajarnya, kerana seperti yang dinyatakan sebentar tadi, perwakilan adalah berbilang modal dan model besar adalah berdasarkan teks. Kami hanya perlu menyesuaikannya dengan model besar Wenxin LLM kami, jadi kami perlu menggunakan perhatian Combo untuk melakukan gabungan ciri yang sepadan. Kami perlu mengekalkan keupayaan penaakulan logik model besar, jadi kami cuba untuk tidak membiarkan model besar sahaja dan hanya menambah data maklum balas senario perniagaan untuk menggalakkan penyepaduan ciri visual ke dalam model besar. Kita boleh menggunakan beberapa pukulan untuk menyokong tugasan. Tugas utama termasuk:

Penerangan gambar, sebenarnya, ia bukan sekadar penerangan, tetapi kejuruteraan terbalik Prompt , grafik dan teks berkualiti tinggi Data boleh digunakan sebagai sumber data yang lebih baik untuk gambar rajah Vincentian kami nanti.
Kawalan korelasi imej dan teks, kerana perniagaan perlu mengkonfigurasi dan memahami maklumat imej, dan mencari imej pengiklanan kami Semantik perkataan dan gambar sebenarnya perlu dikawal Sudah tentu, ini adalah cara yang sangat umum untuk membuat pertimbangan yang relevan pada gambar dan gesaan.
Risiko gambar & kawalan pengalaman Kami telah dapat menerangkan kandungan gambar dengan lebih baik, jadi kami hanya perlu menggunakan Sampel kecil pemindahan data untuk kawalan risiko dengan jelas boleh memberitahu sama ada ia melibatkan beberapa isu risiko.

Di bawah, saya akan menumpukan pada penalaan halus berasaskan adegan.

2. Penalaan halus berasaskan senario

Senario pengambilan visual, penalaan halus menara berkembar berdasarkan perwakilan asas.

百度商业多模态理解及 AIGC 创新实践

Berdasarkan perwakilan asas, digabungkan dengan model teks besar, isyarat maklum balas klik gambar dari pelbagai adegan perniagaan digunakan sebagai Pelabel untuk memperhalusi pencirian Hubungan susunan separa antara gambar dan teks dalam adegan yang berbeza. Kami telah menjalankan penilaian ke atas 7 set data utama, dan kesemuanya boleh mencapai keputusan SOTA.

Senario pengisihan, diilhamkan oleh pembahagian teks, mengukur semantik ciri berbilang modal.

百度商业多模态理解及 AIGC 创新实践

Selain pencirian, masalah lain ialah bagaimana untuk meningkatkan kesan visual dalam adegan pengisihan. Mari kita lihat latar belakang medan berskala besar DNN diskret ialah arah pembangunan arus perdana model kedudukan dalam industri, dan ciri diskret juga merupakan teras pengoptimuman model kedudukan. Teks dimasukkan ke dalam model, ditandakan berdasarkan pembahagian perkataan, dan digabungkan dengan ciri diskret lain untuk mencapai hasil yang baik. Bagi visi, kami berharap untuk mengiktirafnya juga.

Ciri jenis ID sebenarnya merupakan ciri yang sangat diperibadikan, tetapi apabila ciri umum menjadi lebih serba boleh, ketepatan penciriannya mungkin menjadi lebih teruk. Kita perlu melaraskan titik imbangan ini secara dinamik melalui data dan tugasan. Maksudnya, kami berharap dapat mencari skala yang paling berkaitan dengan data, untuk "membahagikan" ciri ke dalam ID dengan sewajarnya dan untuk membahagikan ciri berbilang modal seperti teks. Oleh itu, kami mencadangkan kaedah pembelajaran kuantifikasi kandungan berskala berbilang peringkat untuk menyelesaikan masalah ini.

Isih senario, gabungan ciri berbilang modal dan model MmDict.

百度商业多模态理解及 AIGC 创新实践

Ia terbahagi kepada dua langkah pertama ialah mempelajari kebijaksanaan, dan langkah kedua ialah mempelajari integrasi.

Langkah1: Pelajari diskret

① Gunakan pengaktifan jarang untuk menyatakan isyarat berterusan dengan beberapa isyarat diskret. iaitu, melalui penyahaktifan; ciri dan kemudian mengaktifkan ID dalam buku kod berbilang modal yang sepadan Walau bagaimanapun, hanya terdapat operasi argmax, yang akan membawa kepada masalah yang tidak boleh dibezakan Pada masa yang sama, untuk mengelakkan keruntuhan ruang ciri, neuron pengaktifan Interaksi maklumat neuron tidak aktif.

② Memperkenalkan strategi STE untuk menyelesaikan masalah ketakbolehbezaan rangkaian, membina semula ciri asal dan memastikan perhubungan pesanan separa kekal tidak berubah.

Melalui kaedah pengekod-penyahkod, ciri padat dikuantasikan urutan, dan kemudian ciri terkuantasi dipulihkan dengan cara yang betul. Adalah perlu untuk memastikan bahawa hubungan pesanan separanya kekal tidak berubah sebelum dan selepas pemulihan, dan ia hampir boleh mengawal kehilangan kuantitatif ciri pada tugas tertentu kepada kurang daripada 1%. mempunyai sifat generalisasi.

Langkah2: Belajar menggabungkan

① Gabungan dengan model pengisihan pada lapisan Jarang untuk pendiskretan berskala besar.

Kemudian penggunaan semula lapisan tersembunyi yang disebut tadi diletakkan terus di atas, tetapi kesannya adalah purata. Jika anda mengecamnya, mengukurnya dan menggabungkannya dengan lapisan ciri yang jarang dan jenis ciri lain, ia akan mempunyai kesan yang lebih baik.

② Melalui pusat -> baki 2 tingkat, S-M-L 3 skala, kurangkan kerugian.

Sudah tentu kami juga menggunakan beberapa kaedah sisa dan pelbagai skala. Mulai tahun 2020, kami telah menurunkan kerugian kuantifikasi secara beransur-ansur, mencecah di bawah satu mata tahun lepas, supaya selepas model besar mengekstrak ciri, kami boleh menggunakan kaedah kuantifikasi yang boleh dipelajari ini untuk mencirikan kandungan visual, dengan ID perkaitan semantik Ciri-ciri sebenarnya sangat sesuai untuk sistem perniagaan semasa kami, termasuk kaedah penyelidikan penerokaan sedemikian pada ID sistem pengesyoran.

2. Qingduo

1 Komersial AIGC mengintegrasikan pemasaran secara mendalam untuk meningkatkan produktiviti kandungan dan mengoptimumkan kecekapan dan kesan hubungan

#🎜🎜. 🎜#

百度商业多模态理解及 AIGC 创新实践

Baidu Marketing AIGC platform kreatif membentuk gelung tertutup yang sempurna daripada inspirasi kepada penciptaan kepada penghantaran. Daripada dekonstruksi, penjanaan dan maklum balas, kami mempromosikan dan mengoptimumkan AIGC kami.

#🎜 🎜🎜#Gesaan perniagaan yang baik mempunyai elemen berikut: 百度商业多模态理解及 AIGC 创新实践

Peta pengetahuan, contohnya, menjual kereta, apa sebenarnya yang diperlukan untuk kereta? Apakah elemen komersial yang disertakan? tajuk atau penerangan pemasaran itu.

Titik jualan, titik jualan sebenarnya adalah ciri ciri produk, yang merupakan sebab paling kuat untuk penggunaan.
Potret pengguna dibahagikan kepada jenis yang berbeza berdasarkan perbezaan dalam pandangan tingkah laku sasaran, disusun dengan cepat bersama-sama, dan kemudian yang baru diperolehi Jenis diekstrak untuk membentuk jenis potret pengguna.
3 Pemasaran modal komposit penjanaan video manusia digital, cipta manusia digital dalam masa 3 minit
Penjanaan video kini agak matang. Tetapi ia sebenarnya masih mempunyai beberapa masalah:

Penulisan skrip: terhad oleh pengetahuan dan pengalaman manusia, sukar untuk mengekalkan penulisan berkualiti tinggi dan keseragaman serius .

百度商业多模态理解及 AIGC 创新实践 Penyediaan bahan: Pasukan profesional, pelakon, rizab bahan dan alat kos tinggi lain diperkasakan, memfokuskan pada "pemasangan dan sintesis".

Pasca pengeluaran: Pasca pengeluaran bergantung pada percubaan dan kesilapan manual, dan operasinya menyusahkan.

Pada peringkat awal, masukkan melalui prompt, jenis video yang ingin anda hasilkan, jenis orang yang anda ingin pilih, dan biarkan dia sebutkan apa yang anda mahu, semua lulus gesaan untuk memasukkan, dan kemudian kami boleh mengawal model besar kami dengan tepat untuk menjana skrip yang sepadan mengikut daya tarikannya.
Seterusnya kita boleh memanggil semula orang digital yang sepadan melalui pangkalan data manusia digital kami, tetapi kami mungkin menggunakan teknologi AI untuk meningkatkan lagi kepelbagaian orang digital, seperti penggantian muka , penggantian latar belakang, aksen dan penggantian suara untuk menyesuaikan diri dengan gesaan kami Akhirnya, skrip, penggantian bentuk bibir digital, penggantian latar belakang, penggantian muka, selepas penindasan video, anda boleh mendapatkan video yang dituturkan. Pelanggan boleh menggunakan manusia digital untuk memperkenalkan beberapa titik jualan pemasaran yang sepadan dengan produk. Dengan cara ini, anda boleh menjadi orang digital dalam masa 3 minit, yang sangat meningkatkan keupayaan pengiklan untuk menjadi orang digital.
4. Penjanaan imej poster pemasaran, penjanaan imej pemasaran digabungkan dengan perwakilan pelbagai mod

Model besar juga boleh membantu perniagaan Menyedari penjanaan poster pemasaran dan penggantian latar belakang produk. Kami sudah mempunyai berpuluh-puluh bilion perwakilan berbilang modal Lapisan tengah ialah penyebaran yang kami pelajari berdasarkan perwakilan dinamik yang baik. Selepas latihan dengan data besar, pelanggan juga mahukan sesuatu yang diperibadikan secara khusus, jadi kami juga perlu menambah beberapa kaedah penalaan halus.

Kami menyediakan penyelesaian untuk membantu pelanggan memperhalusi, penyelesaian untuk memuatkan parameter kecil secara dinamik untuk model besar, yang juga merupakan penyelesaian biasa dalam industri.

Pertama sekali, kami menyediakan pelanggan dengan keupayaan menjana gambar. Pelanggan boleh menukar latar belakang di belakang gambar melalui pengeditan atau gesaan.

Atas ialah kandungan terperinci Pemahaman Multimodal Perniagaan Baidu dan Amalan Inovasi AIGC. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!