Dalam episod podcast AI + a16z ini, Ketua Saintis Luma Jiaming Song menyertai Rakan Kongsi Umum a16z Anjney Midha untuk membincangkan kerjaya Jiaming yang dihormati dalam model video
Episod podcast AI + a16z ini menampilkan Ketua Saintis Lagu Luma Jiaming perbualan dengan Rakan Kongsi Am a16z Anjney Midha tentang kerjaya Jiaming yang mengagumkan dalam bidang model video, yang memuncak pada keluaran model video 3D Dream Machine Luma terbaru, yang mempamerkan keupayaannya untuk membuat alasan tentang dunia merentasi pelbagai dimensi. Jiaming membincangkan evolusi model imej dan video, visinya untuk masa depan model multimodal, dan alasannya di sebalik keupayaan Dream Machine untuk menunjukkan keupayaan penaakulan yang muncul. Menurut Jiaming, model itu dilatih mengenai jumlah data video berkualiti tinggi yang, jika diukur berhubung dengan data bahasa, akan berjumlah ratusan trilion token.
Berikut adalah coretan daripada perbincangan mereka, di mana Jiaming menerangkan “ pelajaran pahit" dalam konteks latihan model generatif, dan dalam proses itu merumuskan komponen utama mengapa Dream Machine boleh melakukan apa yang dilakukannya dengan menggunakan data video yang kaya konteks:
"Untuk banyak masalah yang berkaitan dengan kecerdasan buatan, selalunya lebih produktif dalam jangka masa panjang untuk menggunakan kaedah yang lebih mudah tetapi lebih banyak mengira, [daripada] cuba membangunkan priors dan kemudian cuba memanfaatkan priors supaya anda boleh menggunakan kurang pengiraan.
“Kes dalam soalan ini mula-mula berlaku dalam bahasa, di mana orang pada mulanya mengusahakan pemahaman bahasa, cuba menggunakan tatabahasa atau penghuraian semantik, teknik jenis ini. Tetapi akhirnya tugas-tugas ini mula digantikan oleh model bahasa yang besar. Dan kes yang sama berlaku dalam domain penglihatan, juga . . . dan kini orang ramai telah menggunakan ciri pembelajaran mendalam untuk hampir semua tugasan. Ini ialah demonstrasi yang jelas tentang cara menggunakan lebih banyak pengiraan dan kurangkan keutamaan adalah baik.
“Tetapi bagaimanakah ia berfungsi dengan bahasa? Bahasa dengan sendirinya juga merupakan binaan manusia. Sudah tentu, ia adalah jenis pengetahuan yang sangat baik dan sangat mampat, tetapi ia pastinya jauh lebih sedikit data daripada apa yang manusia ambil dari hari ke hari dari dunia nyata. . .
“[Dan] ia adalah saiz set data yang jauh lebih kecil daripada isyarat visual. Dan kita sudah hampir meletihkan . . . sumber bahasa berkualiti tinggi yang kita ada di dunia. Kepantasan manusia boleh menghasilkan bahasa pastinya tidak mencukupi untuk memenuhi tuntutan undang-undang skala. Jadi, walaupun kita mempunyai dunia di mana kita boleh meningkatkan infrastruktur pengiraan untuk itu, kita sebenarnya tidak mempunyai infrastruktur untuk meningkatkan usaha data . . .
“Walaupun orang akan berhujah bahawa kemunculan model bahasa yang besar sudah menjadi bukti undang-undang skala . . . menentang kaedah berasaskan peraturan dalam pemahaman bahasa, kami berhujah bahawa bahasa dengan sendirinya juga merupakan keutamaan dalam menghadapi lebih banyak isyarat data yang lebih kaya yang berlaku di dunia fizikal.”
Atas ialah kandungan terperinci Ketua Saintis Luma Jiaming Song mengenai Sejarah Model Imej dan Video dan Masa Depan Model Multimodal. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!