支援跨語言、人聲狗吠互換,僅利用最近鄰的簡單語音轉換模型有多神奇
AI 參與的語音世界真神奇,既可以將一個人的語音換成任何其他人的語音,也可以與動物之間的語音互換。
我們知道,語音轉換的目標是將來源語音轉換為目標語音,並保持內容不變。最近的任意到任意(any-to-any)語音轉換方法提高了自然度和說話者相似度,但複雜性卻大大增加了。這意味著訓練和推理的成本變得更高,使得改進效果難以評估和建立。
問題來了,高品質的語音轉換需要複雜性嗎?在近日南非斯坦陵布什大學的一篇論文中,幾位研究者探討了這個問題。
- #論文網址:https://arxiv.org/pdf/2305.18975.pdf
- GitHub 地址:https://bshall.github.io/knn-vc/
#研究亮點在於:他們引入了K 最近鄰語音轉換( kNN-VC),一種簡單而強大的任意到任意語音轉換方法。在過程中不訓練顯式轉換模型,而是簡單地使用了 K 最近鄰迴歸。
具體而言,研究者首先使用自監督語音表示模型來提取源話語和參照話語的特徵序列,然後透過將源表示的每個影格替換為參照中的最近鄰來轉換成目標說話者,最後使用神經聲碼器對轉換後的特徵進行合成以獲得轉換後的語音。
從結果來看,儘管KNN-VC 很簡單,但與幾個基線語音轉換系統相比,它在主觀和客觀評估中都能媲美甚至提高了清晰度和說話者相似度。
我們來欣賞 KNN-VC 語音轉換的效果。先來看人聲轉換,將 KNN-VC 應用於 LibriSpeech 資料集中未見過的來源說話者和目標說話者。
來源語音00:11
#合成語音100:11
合成語音200:11
#KNN-VC 也支援了跨語言語音轉換,例如西班牙語到德語、德語到日語、漢語到西班牙語。
來源漢語00:08
#目標西班牙文00:05
合成語音300:08
#更令人稱奇的是,KNN-VC 還能將人聲與狗吠聲互換。
來源狗吠00:09
#來源人聲00:05
合成語音400:08
合成語音500:05
我們接下來看KNN-VC 如何運作以及與其他jixian 方法的比較結果。
方法概覽及實驗結果
kNN-VC 的架構圖如下所示,遵循了編碼器- 轉換器- 聲碼器結構。首先編碼器提取來源語音和參照語音的自監督表示,然後轉換器將每個來源幀映射到參考中它們的最近鄰,最後聲碼器根據轉換後的特徵產生音訊波形。
其中編碼器採用 WavLM,轉換器採用 K 近期鄰回歸、聲碼器採用 HiFiGAN。唯一需要訓練的組件是聲碼器。
對於 WavLM 編碼器,研究者只使用預先訓練的 WavLM-Large 模型,並在文中不對它做任何訓練。對於 kNN 轉換模型,kNN 是非參數,不需要任何訓練。對於 HiFiGAN 聲碼器,採用原始 HiFiGAN 作者的 repo 對 WavLM 特徵進行聲碼處理,成為唯一需要訓練的部分。
圖片
在實驗中,研究者首先將KNN-VC 與其他基準方法進行比較,使用了最大可用目標數據(每個說話者大約8 分鐘的音訊)來測試語音轉換系統。
对于 KNN-VC,研究者使用所有目标数据作为匹配集。对于基线方法,他们对每个目标话语的说话者嵌入求平均。
下表 1 报告了每个模型的清晰度、自然度和说话者相似度的结果。可以看到,kNN-VC 实现了与最佳基线 FreeVC 相似的自然度和清晰度,但说话者相似度却显著提高了。这也印证了本文的论断:高质量的语音转换不需要增加复杂性。
此外,研究者想要了解有多少改进得益于在预匹配数据上训练的 HiFi-GAN,以及目标说话者数据大小对清晰度和说话者相似度的影响有多大。
下图 2 展示了两种 HiFi-GAN 变体在不同目标说话者大小时的 WER(越小越好)和 EER(越高越好)关系图。
图片
网友热评
对于这个「仅利用最近邻」的语音转换新方法 kNN-VC,有人认为,文中使用了预训练语音模型,因此用「仅」不太准确。但不可否认,kNN-VC 仍然要比其他模型简单。
结果也证明了,与非常复杂的任意到任意语音转换方法相比,kNN-VC 即便不是最好,也同样有效。
图片
还有人表示,人声与狗吠互换的例子非常有趣。
图片
以上是支援跨語言、人聲狗吠互換,僅利用最近鄰的簡單語音轉換模型有多神奇的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

CentOS 關機命令為 shutdown,語法為 shutdown [選項] 時間 [信息]。選項包括:-h 立即停止系統;-P 關機後關電源;-r 重新啟動;-t 等待時間。時間可指定為立即 (now)、分鐘數 ( minutes) 或特定時間 (hh:mm)。可添加信息在系統消息中顯示。

檢查CentOS系統中HDFS配置的完整指南本文將指導您如何有效地檢查CentOS系統上HDFS的配置和運行狀態。以下步驟將幫助您全面了解HDFS的設置和運行情況。驗證Hadoop環境變量:首先,確認Hadoop環境變量已正確設置。在終端執行以下命令,驗證Hadoop是否已正確安裝並配置:hadoopversion檢查HDFS配置文件:HDFS的核心配置文件位於/etc/hadoop/conf/目錄下,其中core-site.xml和hdfs-site.xml至關重要。使用

CentOS系統下GitLab的備份與恢復策略為了保障數據安全和可恢復性,CentOS上的GitLab提供了多種備份方法。本文將詳細介紹幾種常見的備份方法、配置參數以及恢復流程,幫助您建立完善的GitLab備份與恢復策略。一、手動備份利用gitlab-rakegitlab:backup:create命令即可執行手動備份。此命令會備份GitLab倉庫、數據庫、用戶、用戶組、密鑰和權限等關鍵信息。默認備份文件存儲於/var/opt/gitlab/backups目錄,您可通過修改/etc/gitlab

在CentOS系統上啟用PyTorchGPU加速,需要安裝CUDA、cuDNN以及PyTorch的GPU版本。以下步驟將引導您完成這一過程:CUDA和cuDNN安裝確定CUDA版本兼容性:使用nvidia-smi命令查看您的NVIDIA顯卡支持的CUDA版本。例如,您的MX450顯卡可能支持CUDA11.1或更高版本。下載並安裝CUDAToolkit:訪問NVIDIACUDAToolkit官網,根據您顯卡支持的最高CUDA版本下載並安裝相應的版本。安裝cuDNN庫:前

Docker利用Linux內核特性,提供高效、隔離的應用運行環境。其工作原理如下:1. 鏡像作為只讀模板,包含運行應用所需的一切;2. 聯合文件系統(UnionFS)層疊多個文件系統,只存儲差異部分,節省空間並加快速度;3. 守護進程管理鏡像和容器,客戶端用於交互;4. Namespaces和cgroups實現容器隔離和資源限制;5. 多種網絡模式支持容器互聯。理解這些核心概念,才能更好地利用Docker。

在 CentOS 上安裝 MySQL 涉及以下步驟:添加合適的 MySQL yum 源。執行 yum install mysql-server 命令以安裝 MySQL 服務器。使用 mysql_secure_installation 命令進行安全設置,例如設置 root 用戶密碼。根據需要自定義 MySQL 配置文件。調整 MySQL 參數和優化數據庫以提升性能。

CentOS系統下查看GitLab日誌的完整指南本文將指導您如何查看CentOS系統中GitLab的各種日誌,包括主要日誌、異常日誌以及其他相關日誌。請注意,日誌文件路徑可能因GitLab版本和安裝方式而異,若以下路徑不存在,請檢查GitLab安裝目錄及配置文件。一、查看GitLab主要日誌使用以下命令查看GitLabRails應用程序的主要日誌文件:命令:sudocat/var/log/gitlab/gitlab-rails/production.log此命令會顯示produc

在CentOS系統上進行PyTorch分佈式訓練,需要按照以下步驟操作:PyTorch安裝:前提是CentOS系統已安裝Python和pip。根據您的CUDA版本,從PyTorch官網獲取合適的安裝命令。對於僅需CPU的訓練,可以使用以下命令:pipinstalltorchtorchvisiontorchaudio如需GPU支持,請確保已安裝對應版本的CUDA和cuDNN,並使用相應的PyTorch版本進行安裝。分佈式環境配置:分佈式訓練通常需要多台機器或單機多GPU。所
