世界首款真開源類ChatGPT大模型Dolly 2.0，可隨意修改商用-人工智慧-PHP中文網

眾所周知，在ChatGPT 的問題上OpenAI 並不Open，從Meta 那裡開源的羊駝系列模型也因為數據集等問題“僅限於學術研究類應用”，在人們還在因為尋找繞過限制方法的時候，主打100% 開源的大模型來了。

4 月12 日，Databricks 發布了Dolly 2.0，這是兩週前發布的類別ChatGPT 人類互動性（指令遵循）大語言模型（LLM）的另一個新版本。

Databricks 表示，Dolly 2.0 是業界第一個開源、遵循指令的LLM，它在透明且免費提供的資料集上進行了微調，該資料集也是開源的，可用於商業目的。這意味著 Dolly 2.0 可用於建立商業應用程序，無需支付 API 存取費用或與第三方共享資料。

世界首款真开源类ChatGPT大模型Dolly 2.0，可随意修改商用

專案連結：https://huggingface.co/databricks/dolly-v2-12b
#資料集：https://github.com/databrickslabs/dolly/tree/master/data

根據Databricks 執行長Ali Ghodsi 的說法，雖然有其他大模型可以用於商業目的，但「它們不會像Dolly 2.0 那樣與你交談。」而且基於Dolly 2.0 模型，用戶可以修改和改進訓練數據，因為它是在開源許可下免費提供的。所以你可以製作自己的 Dolly 版本。

Databricks 也發布了 Dolly 2.0 在其上進行微調的資料集，稱為 databricks-dolly-15k。這是由數千名Databricks 員工產生的超過1.5 萬筆記錄的語料庫，Databricks 稱這是「第一個開源的、人工生成的指令語料庫，專門設計用於讓大型語言能夠展示出ChatGPT 的神奇互動性。」

Dolly 2.0 是怎麼誕生的

在過去的兩個月裡，業界、學界紛紛追趕OpenAI 提出了一波遵循指令的類ChatGPT 大模型，這些版本被許多定義視為開源（或提供某種程度的開放性或有限存取）。其中 Meta 的 LLaMA 最受關注，它引發了大量進一步改進的模型，如 Alpaca、Koala、Vicuna 以及 Databricks 的 Dolly 1.0。

但另一方面，許多這些「開放」模型都處於「工業限制」之下，因為它們接受了旨在限製商業用途的條款的資料集的訓練——例如來自StanfordAlpaca 計畫的5.2 萬個問答資料集，是根據OpenAI 的ChatGPT 的輸出進行訓練的。而 OpenAI 的使用條款包括一條規則，就是你不能使用 OpenAI 的服務反過來與其競爭。

Databricks 思考了解決這個問題的方法：新提出的Dolly 2.0 是一個120 億參數的語言模型，它基於開源EleutherAI pythia 模型系列，專門針對小型開源指令記錄語料庫進行了微調（databricks-dolly-15k），該資料集由Databricks 員工生成，許可條款允許出於任何目的使用、修改和擴展，包括學術或商業應用。

到目前為止，在 ChatGPT 的輸出上訓練的模型一直處於合法的灰色地帶。「整個社區一直在小心翼翼地解決這個問題，每個人都在發布這些模型，但沒有一個可以用於商業用途，」Ghodsi 表示。「這就是我們非常興奮的原因。」

「其他人都想做得更大，但我們實際上對更小的東西感興趣，」Ghodsi 在談到Dolly的微縮規模時說。「其次，我們翻閱了所有的答案，它是高品質的。」

Ghodsi 表示，他相信Dolly 2.0 將啟動「雪球」效應，讓人工智慧領域的其他人加入並提出其他替代方案。他解釋說，對商業用途的限制是一個需要克服的大障礙：「我們現在很興奮，因為我們終於找到了一個繞過它的方法。我保證你會看到人們將這15,000 個問題應用於現有的每一個模型，他們會看到這些模型中有多少突然變得有點神奇，你可以與它們互動。」

手搓資料集

要下載 Dolly 2.0 模型的權重，只需存取 Databricks Hugging Face 頁面，並存取 databricks-labs 的 Dolly repo，下載 databricks-dolly-15k 資料集。

「databricks-dolly-15k」資料集包含15,000 個高品質的人類產生的prompt / 回復對，由5000 多名Databricks 員工在2023 年3 月和4 月期間撰寫，專門設計用於指令調優大型語言模型。這些訓練記錄自然、富有表現力，旨在代表廣泛的行為，從腦力激盪、內容生成到資訊擷取和總結。

根據該資料集的授權條款（Creative Commons Attribution-ShareAlike 3.0 Unported License），任何人都可因任何目的使用、修改或擴展這個資料集，包括商業應用。

目前，這一資料集是首個開源的、由人類產生的指令資料集。

為什麼要建立這樣一個資料集？團隊也在部落格中解釋了原因。

建立 Dolly 1.0 或任何遵循 LLM 的指令的一個關鍵步驟是，在指令和回復對的資料集上訓練模型。 Dolly 1.0 的訓練費用為 30 美元，使用的是史丹佛大學 Alpaca 團隊用 OpenAI API 創建的資料集。

在 Dolly 1.0 發布之後，就有很多人要求試用，此外還有一部分用戶希望在商業上使用這個模型。

但訓練資料集包含 ChatGPT 的輸出，正如史丹佛大學團隊所指出的，服務條款試圖阻止任何人創建一個與 OpenAI 競爭的模型。

先前，所有的知名指令遵循模型（Alpaca、Koala、GPT4All、Vicuna）都受到這種限制：禁止商業使用。為了解決這個難題，Dolly 團隊開始尋找方法來建立一個沒有商業用途限制的新資料集。

具體而言，團隊從 OpenAI 公佈的研究論文中得知，最初的 InstructGPT 模型是在一個由 13000 個指令遵循行為演示組成的資料集上訓練出來的。受此啟發，他們開始研究是否可以在 Databricks 員工的帶領下取得類似的結果。

結果發現，產生 13000 個問題和答案比想像中更難。因為每個答案都必須是原創的，不能從 ChatGPT 或網路上的任何地方複製，否則會「污染」資料集。但 Databricks 有超過 5000 名員工，他們對 LLM 非常感興趣。因此，團隊進行了一次眾包實驗，創造了比 40 位標註者為 OpenAI 創造的更高品質的資料集。

當然，這份工作耗時且耗力，為了激勵大家，團隊設立置一個競賽，前 20 名的標註者將獲得驚喜大獎。同時，他們也列出了 7 項非常具體的任務：