오디오 생성 분야에 좋은 소식이 있습니다. Stability AI는 고품질 오디오 데이터를 생성할 수 있는 개방형 모델 Stable Audio Open의 출시를 방금 발표했습니다.
프로젝트 주소: https://huggingface.co/stabilityai/stable-audio-open-1.0
Stability AI의 상용 Stable Audio 제품(최대 3분의 길고 일관된 음악 트랙을 생성할 수 있음), Stable Audio Open은 간단한 텍스트 전달을 통해 최대 47초의 고품질 오디오 데이터를 생성합니다.
이 모형은 음악 제작 및 사운드 디자인을 위해 제작되었습니다. 여기에는 음악 제작 및 사운드 디자인에 사용할 수 있는 드럼 비트, 악기 리프, 주변 소리, 폴리 녹음 및 기타 오디오 샘플이 포함되어 있습니다. 짧은 음악 조각을 생성할 수 있지만 전체 노래, 멜로디 또는 보컬에는 최적화되어 있지 않습니다.
Stable Audio Open의 가장 큰 장점은 사용자가 자신의 맞춤형 오디오 데이터를 기반으로 모델을 미세 조정할 수 있다는 것입니다.
예를 들어, 드러머가 자신의 드럼 녹음 샘플을 기반으로 미세 조정하여 생성한 새 비트는 다음과 같습니다. 숲에서 노래하는 새의 오디오 생성: 그런 다음 "매번 이동" 록 음악을 생성합니다. : 훈련 세부 정보 및 데이터 세트
Stable+Audio+Open은 Transformer 아키텍처를 기반으로 하는 잠재 확산 모델입니다. 파형을 관리 가능한 시퀀스 길이로 압축하는 자동 인코더, 텍스트 조절을 위한 T5 기반 텍스트 임베딩, 자동 인코더 및 텍스트 임베딩 내에서 작동하는 DiT(변환기 기반 확산) 모델의 세 가지 구성 요소로 구성됩니다. 이 모델은 공간 효율성과 음성 생성 품질 간의 균형을 맞추도록 설계되었습니다.
내부 음원 생성기들 사이에서는 Stability를 비롯한 일부 생성기의 인기가 높아지면서 일부 생성기 생성기의 저작권 문제 및 저작권 남용 가능성이 주목을 받고 있습니다. 그러나 일부 생성기 제작자는 자신을 주목받는 방식으로 저작권을 사용할 수 있습니다.
이 모델 훈련에서는 안정성과 인공 지능이 모델의 안정성을 보장하기 위해 훈련 데이터의 품질을 모니터링합니다. 빈첸시안 그래프 모델 트레이닝의 '저작권 문제'로 인해 이 회사는 한때 깊은 논란에 휩싸인 적도 있었습니다. 따라서 Stable+Audio+Open은 FreeSound 및 Free Music Archive의 오디오 데이터를 사용하여 교육되어 저작권이 있거나 독점 자료가 사용되지 않도록 합니다. 이는 Stable+Audio+Open을 사용하는 개인이나 조직이 저작권이나 소유권을 침해하지 않도록 보장합니다.
데이터 세트에는 총 486,492개의 오디오 레코드가 포함되어 있으며 그 중 472618개는 Freesound에서, 13874개는 Free Music Archive에서 제공됩니다. 모든 오디오 파일은 CC0, CC BY 또는 CC Sampling+ 라이센스가 있습니다. 이 데이터는 오토인코더와 DiT를 훈련하는 데 사용되었으며, 연구원들은 텍스트 조건화를 위해 공개적으로 사용 가능한 사전 훈련된 T5 모델(t5-base)을 사용했습니다.
훈련을 시작하기 전, 연구원들은 훈련 데이터에 허가받지 않은 저작권 음악이 없는지 심층 분석을 실시했습니다.
그들은 처음으로 AudioSet 카테고리를 기반으로 한 PANN 음악 분류기를 사용하여 FreeSound에서 음악 샘플을 식별했습니다. 식별된 음악 샘플에는 임계값이 0.15인 음악 관련 카테고리에 속할 것으로 예측되는 최소 30초의 음악이 있습니다(PANN 출력 확률 범위는 0에서 1까지).
식별된 음악 샘플은 저작권이 있는 음악이 존재하지 않는지 확인하기 위해 신뢰할 수 있는 콘텐츠 탐지 회사인 Audible Magic의 식별 서비스로 전송됩니다. Audible Magic은 저작권이 있는 것으로 보이는 음악에 플래그를 지정하며 데이터 세트에 대한 교육 전에 제거됩니다. 삭제된 콘텐츠의 대부분은 저작권이 있는 배경음악이 포함된 라이브 녹음이었습니다. 위의 처리 후 연구원은 266324 CC0, 194840 CC-BY 및 11454 CC 샘플 + 오디오 레코드를 얻었습니다.
마지막으로 확인해야 할 것은 FMA 하위 집합에 저작권 보호 콘텐츠가 없다는 것입니다. 이 경우 FMA 하위 집합에 음악 신호가 포함되어 있으므로 절차가 약간 다릅니다. 연구자들은 저작권이 있는 음악의 대규모 데이터베이스에 대해 메타데이터 검색을 수행하고 가능한 일치 항목을 표시한 후 사람이 개별적으로 검토합니다. 이런 과정을 거쳐 최종적으로 8967 CC-BY와 4907 CC0 음악을 얻게 되었습니다.
제한 사항
Stable Audio Open 1.0 오디오 생성 모델로서 다음과 같은 몇 가지 제한 사항도 있습니다.
사실적인 소리를 생성할 수 없습니다.
은 영어 설명으로 훈련되었으며 다른 언어에서는 잘 수행되지 않습니다.
은 모든 음악 스타일과 문화에 적용할 수 없으며 훈련 데이터의 다양성이 부족합니다. 사용 가능한 다양한 음악 장르 및 음향 효과에서 똑같이 잘 수행되지 않습니다.
때로는 어떤 유형의 텍스트 설명이 최상의 생성 결과를 제공하는지 평가하기 어렵고 즐거운 만족스러운 결과를 얻으려면 엔지니어링이 필요할 수 있습니다.
Stable Audio Open이 개방형 모델이라는 점은 주목할 가치가 있지만 기술적으로는 오픈 소스가 아닙니다. Stable Audio Open은 실제 OSI(Open Source Initiative) 승인 라이선스를 사용하지 않지만 Stability AI 비상업적 연구 커뮤니티 계약 라이선스에 따라 사용자에게 제공됩니다.
동시에 Stable Audio Open은 서비스 약관에 따라 상업적 목적으로 사용할 수 없습니다. 게다가, 서로 다른 음악 스타일과 문화에 걸쳐, 또는 영어가 아닌 다른 언어로 설명될 때에도 똑같이 잘 수행되지 않습니다.
안정성 AI는 이를 훈련 데이터에 탓합니다. 모델 설명은 다음과 같습니다. "데이터 소스에는 다양성이 부족할 수 있으며 모든 문화가 데이터 세트에 동일하게 표현되지는 않습니다. 모델에서 생성된 샘플은 훈련 데이터의 편향을 반영합니다."
위 내용은 Stability AI의 오픈 소스 47초 오디오 생성 모델은 곤충, 새, 록 음악 및 드럼 비트를 생성할 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!