Terdapat berita baik dalam bidang penjanaan audio: Stability AI baru sahaja mengumumkan pelancaran model terbuka Stable Audio Open, yang boleh menjana data audio berkualiti tinggi.
Alamat projek: https://huggingface.co/stabilityai/stable-audio-open-1.0
Dengan produk Stable Audio komersial Stability AI (yang boleh menjana trek muzik yang lebih panjang dan koheren sehingga tiga minit ), Audio Open Stabil menjana sehingga 47 saat data audio berkualiti tinggi melalui penghantaran teks ringkas.
Mockup ini dicipta untuk penghasilan muzik dan reka bentuk bunyi. Ia termasuk rentak dram, riff instrumental, bunyi ambien, rakaman foley dan sampel audio lain untuk digunakan dalam penghasilan muzik dan reka bentuk bunyi. Walaupun ia boleh menjana coretan muzik pendek, ia tidak dioptimumkan untuk lagu penuh, melodi atau vokal.
Kelebihan utama Stable Audio Open ialah pengguna boleh memperhalusi model berdasarkan data audio tersuai mereka sendiri.
Sebagai contoh, berikut ialah rentak baharu yang dijana oleh pemain drum yang menala halus berdasarkan sampel rakaman dramnya sendiri: Jana audio burung menyanyi di hutan: Kemudian jana muzik rock "bergerak setiap masa" : Butiran latihan dan set data
Stable+Audio+Open ialah model resapan terpendam berdasarkan seni bina Transformer. Terdiri daripada tiga komponen: pengekod automatik yang memampatkan bentuk gelombang ke dalam panjang jujukan yang boleh diurus, pembenaman teks berasaskan T5 untuk pelaziman teks dan model penyebaran berasaskan Transformer (DiT) yang beroperasi dalam pengekod automatik dan pembenaman teks. Model ini direka bentuk untuk mencapai keseimbangan antara kecekapan spatial dan kualiti penjanaan pertuturan.
Antara penjana muzik dalaman, apabila sesetengah penjana, termasuk Kestabilan, menjadi semakin popular, isu hak cipta dan kemungkinan penyalahgunaan hak cipta oleh sesetengah pencipta penjana telah menjadi tumpuan. Walau bagaimanapun, sesetengah pencipta penjana boleh menggunakan hak cipta sebagai cara untuk mendapat perhatian.
Dalam latihan model ini, kestabilan dan kecerdasan buatan akan memantau kualiti data latihan untuk memastikan kestabilan model. "Isu hak cipta" dalam latihan model graf Vincentian pernah menyebabkan syarikat ini terlibat dalam kontroversi. Oleh itu, Stable+Audio+Open dilatih menggunakan data audio daripada FreeSound dan Free Music Archive untuk memastikan tiada bahan berhak cipta atau proprietari digunakan. Ini memastikan bahawa mana-mana orang atau organisasi yang menggunakan Stable+Audio+Open tidak akan melanggar sebarang hak cipta atau hak proprietari.
Set data mengandungi sejumlah 486492 rekod audio, yang mana 472618 daripada Freesound dan 13874 daripada Arkib Muzik Percuma. Semua fail audio berlesen CC0, CC BY atau CC Sampling+. Data ini digunakan untuk melatih pengekod auto dan DiT, dan penyelidik menggunakan model T5 pra-terlatih yang tersedia secara terbuka (t5-base) untuk pelaziman teks.
Sebelum memulakan latihan, penyelidik menjalankan analisis mendalam untuk memastikan tiada muzik berhak cipta yang tidak dibenarkan dalam data latihan.
Mereka mula-mula mengenal pasti sampel muzik dalam FreeSound menggunakan pengelas muzik PANN berdasarkan kategori AudioSet. Sampel muzik yang dikenal pasti mempunyai sekurang-kurangnya 30 saat muzik yang diramalkan tergolong dalam kategori berkaitan muzik dengan ambang 0.15 (kebarangkalian keluaran PANN berjulat dari 0 hingga 1).
Sampel muzik yang dikenal pasti dihantar ke perkhidmatan pengenalan Audible Magic, syarikat pengesan kandungan yang dipercayai, untuk memastikan tiada muzik berhak cipta hadir. Audible Magic membenderakan muzik yang nampaknya mempunyai hak cipta, dan ini dialih keluar sebelum latihan pada set data. Kebanyakan kandungan yang dipadamkan adalah rakaman langsung dengan muzik latar belakang berhak cipta. Selepas pemprosesan di atas, penyelidik memperoleh 266324 CC0, 194840 CC-BY dan 11454 CC sampel + rekod audio.
Perkara terakhir yang perlu dipastikan ialah tiada kandungan berhak cipta dalam subset FMA. Dalam kes ini prosedurnya berbeza sedikit kerana subset FMA mengandungi isyarat muzik. Penyelidik menjalankan carian metadata terhadap pangkalan data besar muzik berhak cipta dan membenderakan sebarang kemungkinan padanan, yang disemak secara individu oleh manusia. Selepas proses ini, 8967 CC-BY dan 4907 CC0 muzik akhirnya diperolehi.
Limitations
Stable Audio Open 1.0 Sebagai model penjanaan audio, terdapat juga beberapa had, termasuk:
. tidak berprestasi sama baik pada pelbagai genre muzik dan kesan bunyi yang tersediaAtas ialah kandungan terperinci Model penjanaan audio 47 saat sumber terbuka AI kestabilan boleh menjana serangga, burung, muzik rock dan rentak gendang.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!