社群

學習

工具庫

AI工具

休閒

繁体中文

首頁 > 科技週邊 > 人工智慧 > 國內推出全新語音對話大模型：李開復領銜，零一萬物參與，支援中英雙語與多模態，開源可商用

國內推出全新語音對話大模型：李開復領銜，零一萬物參與，支援中英雙語與多模態，開源可商用

王林

發布： 2023-09-22 16:53:01

轉載

1263 人瀏覽過

首個中英雙語的語音對話開源大模型來了！

這幾天，一篇關於語音-文本多模態大模型的論文出現在arXiv上，署名公司中出現了李開復旗下大模型公司01.ai——零一萬物的名字。

國內推出全新語音對話大模型：李開復領銜，零一萬物參與，支援中英雙語與多模態，開源可商用圖片

這篇論文介紹了一個名為LLaSM的中英雙語可商用對話模型。該模型不僅支援錄音和文字輸入，而且能夠實現「混合雙打」的功能

國內推出全新語音對話大模型：李開復領銜，零一萬物參與，支援中英雙語與多模態，開源可商用圖片

研究指出，「語音聊天」是AI與人之間更方便自然的互動方式，不只是透過文字輸入

用上大模型，有網友已經在想「躺著說話就能寫程式碼」的場景了。

國內推出全新語音對話大模型：李開復領銜，零一萬物參與，支援中英雙語與多模態，開源可商用圖片

這項研究是由LinkSoul.AI、北京大學和零一萬物共同完成的，目前已經開源，並且可以直接在抱抱臉中進行試玩

國內推出全新語音對話大模型：李開復領銜，零一萬物參與，支援中英雙語與多模態，開源可商用圖片

讓我們一起來看看它的效果如何吧

支援文字語音輸入，手機也可玩

據研究人員表示，LLaSM是第一個支援中英文雙語語音-文字多模態對話的開源可商用對話模型。

那麼，就來看看它的語音文字輸入和中英雙語能力如何。

首先，讓我們進行一次中英文化碰撞，用英文來評價李白：

國內推出全新語音對話大模型：李開復領銜，零一萬物參與，支援中英雙語與多模態，開源可商用 #圖片

還可以，正確地說出了李白的朝代。如果看不懂英文，讓它直接翻譯成中文也沒問題：

國內推出全新語音對話大模型：李開復領銜，零一萬物參與，支援中英雙語與多模態，開源可商用圖片

#在接下來的練習中，讓我們試試看中英混合提問，將一個「炸食物」一詞加入中文句子。模型的輸出效果也相當不錯：

國內推出全新語音對話大模型：李開復領銜，零一萬物參與，支援中英雙語與多模態，開源可商用圖片

讓我們再試探模型，讓它進行一些評價，看看李白和杜甫哪個更厲害

可以觀察到，在經過一段時間的思考後，這個模型給出了非常客觀中立的評價，同時也具備了大型模型所必備的基本知識和常識（手動狗頭）

國內推出全新語音對話大模型：李開復領銜，零一萬物參與，支援中英雙語與多模態，開源可商用圖片

當然，不只電腦，手機也能玩。

我們試著用語音輸入「給我推薦一個食譜吧」：

可以看到模型準確地輸出了一個「茄子起司」的食譜，就是不知道好不好吃。

不過，我們在嘗試的時候也發現，這個模型有時候會出bug。

例如有時候它並不能很好地「聽懂人話」。

要求輸出中英混合的內容，它會假裝看不懂並輸出英文：

國內推出全新語音對話大模型：李開復領銜，零一萬物參與，支援中英雙語與多模態，開源可商用 #圖片

當中英混合詢問想聽「Taylor Swift的Red」時，模型出現了嚴重的錯誤，不斷重複輸出同一句話，甚至無法停止…

國內推出全新語音對話大模型：李開復領銜，零一萬物參與，支援中英雙語與多模態，開源可商用圖片

整體來看，當遇到中英混合的提問或要求時，模型輸出能力還是不太行。

不過分開的話，它的中英文表達能力還是不錯的。

那麼，這樣的模型究竟是怎麼實現的呢？

做了個什麼新模型？

從試玩來看，LLaSM主要有兩個特點：一個是支援中英輸入，另一個是語音文字雙輸入。

要做到這兩點，分別需要在架構和訓練資料上做一些調整。

架構上，LLaSM將目前的語音辨識模型和大語言模型做了個整合。

LLaSM由三個部分構成，分別包含自動語音辨識模型Whisper、模態轉接器和大模型LLaMA。

在這個過程中，Whisper負責接收原始語音輸入並輸出語音特徵的向量表示。模態適配器的作用是對齊語音和文字嵌入。而LLaMA則負責理解語音和文字輸入的指令，並產生回應

國內推出全新語音對話大模型：李開復領銜，零一萬物參與，支援中英雙語與多模態，開源可商用圖片

##模型的訓練分為兩個階段。第一階段是訓練模態適配器，此時編碼器和大模型被凍結，讓模型學習語音和文字的對齊。第二階段是凍結編碼器，訓練模態適配器和大模型，以提升模型的多模態對話能力

訓練資料上，研究人員整理出了一個包含19.9萬個對話和50.8萬個語音-文字樣本的資料集LLaSM-Audio-Instructions。

在50.8萬個語音-文字樣本中，有8萬個是中文語音樣本，而42.8萬個是英文語音樣本

研究者主要基於WizardLM、ShareGPT和GPT-4 -LLM等資料集，透過文字轉語音技術，給這些資料集產生語音包，同時過濾掉無效對話。

國內推出全新語音對話大模型：李開復領銜，零一萬物參與，支援中英雙語與多模態，開源可商用圖片

這也是目前最大的中英文語音文字指令遵循資料集，不過目前還在整理中，據研究人員表示，整理完後會進行開源。

然而，目前還沒有對比該論文與其他語音模型或文本模型的輸出效果

作者介紹

這篇論文的作者來自LinkSoul.AI、北京大學和零一萬物

共同一作Yu Shu和Siwei Dong皆來自LinkSoul.AI，先前曾在北京智源人工智慧研究院工作。

LinkSoul.AI是一家AI新創公司，之前推出過首個開源Llama 2的中文語言大模型。

國內推出全新語音對話大模型：李開復領銜，零一萬物參與，支援中英雙語與多模態，開源可商用圖片

作為李開復旗下的大模型公司，零一萬物也在這次研究中有所貢獻。作者Wenhao Huang的Hugging Face主頁顯示，他畢業於復旦大學。

國內推出全新語音對話大模型：李開復領銜，零一萬物參與，支援中英雙語與多模態，開源可商用圖片

論文網址：

#https://www.php.cn/link/47c917b09f2bc64b2916c0824c715923

Demo位址：

https://www.php.cn/link/bcd0049c35799cdf57d06eaf2eb3cff6#

以上是國內推出全新語音對話大模型：李開復領銜，零一萬物參與，支援中英雙語與多模態，開源可商用的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

適配器模型國產語音

上一篇：AI生成個人寫真瞬間走紅！妙鴨相機推出免費試用，限首次使用者下一篇：小葉子鋼琴智慧陪練深耕人工智慧建構智慧化音樂學習生態

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

創造未來：零基礎的 Java 編程

2024-10-13 13:32:21
你並不孤單：在社群的支持下掌握 Python

2024-10-12 11:58:51
從新手到程式設計師：利用 Python 程式設計的力量

2024-10-11 20:06:51
像程式設計師一樣思考：學習 Java 基礎知識

2024-10-11 18:59:31
Java 變得簡單：程式設計能力的初學者指南

2024-10-11 18:30:51
使用 PHP 建立部落格：一個適合初學者的項目

2024-10-11 15:51:51
講系統語言：學習 C，一次一行

2024-10-11 15:42:10
C 語言的資料結構與演算法：適合初學者的方法

2024-10-11 14:41:20
不流淚編碼：輕鬆學習 C

2024-10-11 14:08:31
使用 Java 進行資料分析：資訊處理初學者指南

2024-10-11 13:42:21

最新問題

javascript - autodesk forge viewer 多模型載入模型瀏覽器問題

來自於 1970-01-01 08:00:00

0

0

0

關於模型的問題

來自於 1970-01-01 08:00:00

0

0

0

模型不收斂是怎麼回事？

來自於 1970-01-01 08:00:00

0

0

0

Laravel關聯模型的問題

來自於 1970-01-01 08:00:00

0

0

0

Laravel - 將模型關係更新到另一個模型

來自於 1970-01-01 08:00:00

0

0

0

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1432311
php入門教程之一週學會PHP

4287401
JAVA 初級入門影片教學

2620343
小甲魚零基礎入門學習Python影片教學

513542
PHP 零基礎入門教學

872598

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板