全球最強AI程式設計師：GPT-4o加持，需求到跑通只要84秒-人工智慧-PHP中文網

大家都在排 waitlist。

大模型正在「取代人類程式設計師」的道路上快速前進。

今年3 月，人工智慧軟體工程師Devin 引爆了AI 社區，該產品由OpenAI 的GPT-4 基礎大型語言模型（LLM）提供支持，可以在收到自然語言文字指令後自主編寫和編輯程式碼。

但在生成式 AI 領域，快速發展是主旋律，現在技術又迭代了。

本週，一家 Y Combinator 支持，名為 Cosine 的創業公司宣布推出自己的全新自主 AI 工程師 Genie。該公司表示，Genie 的表現輕鬆超越了 Devin，在第三方基準測試 SWE-Bench 上的得分為 30%，而 Devin 的得分僅為 13.8%。

新工具甚至超過了亞馬遜的 Q 和 Factory 的 Code Droid 的 19%，現在是全球性能最好的 AI 程式設計師。

「這個模型遠不止於一個基準跑分而已：它是以像人類SWE（軟體工程師）一樣思考和行動為目標從頭開始訓練的，」Cosine 的聯合創始人兼首席執行官Alistair Pullen 表示。

會修Bug，能寫程式碼的Genie

作為先進的AI 軟體工程模型，Genie 可以依照人類工程師的指示自主處理各種編碼任務，包括bug 修復、功能建構、程式碼重構、程式碼測試等。

Genie 可以完全自主運行，也可以與使用者合作完成任務。

它支援多種程式語言，在技術報告中顯示，其中包括JavaScript、Python、TypeScript、TSX、Java、C#、C++、C、Rust、Scala、 Kotlin、Swift、Golang、PHP、Ruby。

Cosine 聲稱 Genie 可以模擬人類工程師的認知過程。「讓它觀察人類工程師是如何運作的，並模仿這個過程。」Alistair Pullen 表示。

一直以來，安全問題是大家比較關心的，Genie 生成的代碼存儲在用戶的GitHub 倉庫中，因而Cosine 不會保留代碼副本，從而避免了隨之而來的安全風險。

此外，Cosine 的軟體平台已經整合了 Slack 和系統通知，它就像一位 AI 同事，提醒用戶狀態或標記 issues。

Alistair Pullen 示範如何使用 Genie 來解決實際問題。目標是 GitHub 上的一個 issue，我們只需要直接往裡丟鏈接，AI 會自動分析問題，自動開始思考解決這個問題需要用到哪些文件，一直到滿足要求為止。

全球最強AI程式設計師：GPT-4o加持，需求到跑通只要84秒

然後，Genie 會開始嘗試將問題分解成許多解決步驟，隨後產生程式碼。

全球最強AI程式設計師：GPT-4o加持，需求到跑通只要84秒

接著就是跑程式碼了，如果產生的程式碼有問題，它就自動尋找出問題的地方進行分析、修改，然後再嘗試執行。

全球最強AI程式設計師：GPT-4o加持，需求到跑通只要84秒

最後輸出結果：兩份檔案、17 次測試，僅用時 84 秒。

全球最強AI程式設計師：GPT-4o加持，需求到跑通只要84秒

這不知道比人類程式設計師快上多少倍了。

長上下文由OpenAI 模型提供支援

與許多依賴基礎模型並輔以少量工具的AI 模型不同，Genie 是透過專有流程開發的。

就模型而言，Genie 基於（目前）非通用的GPT-4o 變體構建而成，OpenAI 允許Cosine 將其作為實驗訪問計劃的一部分進行訓練。

透過技術報告我們得知，當研究者開始建立 Genie 之初，他們只能在 16-32k 範圍內微調相對較短的上下文視窗模型。

為了解決這個問題，團隊人員對這些模型進行了大量的早期探索，並在超過1 億個token 的大量資料集上對它們進行訓練，雖然發現架構具有一定優勢，但還是面臨模型在特定時間內可以處理的資訊量的限制。

在嘗試了各種壓縮 / 分塊方法後，團隊認為唯一的解決方案是使用更大的上下文模型，儘管當時沒有可供使用的模型。

幸運的是，不久之後，能夠確保訓練長上下文的 OpenAI 模型出現了。

Cosine 在其部落格文章中表示，他們花了將近一年的時間來整理資料集，在最近的訓練運行中，Genie 接受了數十億個token 資料的訓練，所選的資料包含了使用者目前最關心的程式語言。以下是訓練Genie 的過程中不同程式語言資料所佔的比例：

以下是Bug 修復、重構等不同功能的資料佔比：

價格方面，根據Pullen 透漏， Genie 最初定價將分為兩個層級：

入門級選項，定價約在20 美元左右。這個層級會有一些功能和使用限制，適合個人和小型團隊使用；

企業級選項，提供擴展功能，使用幾乎不受限制，好比擁有了一個精通代碼的AI 同事。但這個層級的定價將會更高。

Genie 的推出對軟體開發團隊具有深遠的影響，特別是那些希望提高生產力並減少花在日常任務上的時間的團隊。憑藉其自主處理複雜程式設計挑戰的能力，Genie 可能會改變工程資源的分配方式，使團隊能夠專注於更具策略性的計劃。

Pullen 表示，對他來說，工程資源不再成為限制是一個巨大的推動力，特別是在創辦公司以來。他認為，一個能夠快速進入未知程式碼庫並解決未見過的問題的 AI 同事，其價值顯而易見，並且對世界有著巨大的影響。

未來，該公司打算擴大其模型組合，包括用於簡單任務的小模型和能夠處理更複雜挑戰的大模型。此外，Cosine 還計劃將其工作拓展到開源社群。

現在 Genie 已向部分使用者推出，但更廣泛的存取權限尚未完全開放。

申請地址：https://cosine.sh/register

創始團隊：只有五人

提出Genie 的創業公司Cosine 由Pullen、Sam Stenner 和Yang Li 於2022 年創立，其使命是透過應用人類推理的方式來解決複雜問題，從而突破AI 的界限。顯然，他們的努力是從軟體工程開始。

其中，Yang Li 是一名華人，他碩士畢業於牛津大學，在 2021 年曾入選福布斯 30 Under 30 歐洲區名單。

Cosine 已經從 Uphonest 和 SOMA Capital 籌集了 250 萬美元的種子資金，Lakestar、Focal 等公司也參與其中。

團隊規模雖小，但 Cosine 已經在 AI 領域取得了重大進展，而 Genie 只是一個開始。「我們堅信能夠為任何工作和產業建構起人類層級的推理能力，」Pullen 在公告文章中表示。「軟體工程只是最直觀的起點，我們很快就會展示我們正在研究的其他一切。」

^{參考內容：}

^{https://venturebeat.com/ai/4-considerations-to-help-organizations-implement-an-ai-code-of-conducts/}

^{https://cosine.sh/blog/genie-technical-report}

^{https ://cosine.sh/blog/state-of-the-art}

以上是全球最強AI程式設計師：GPT-4o加持，需求到跑通只要84秒的詳細內容。更多資訊請關注PHP中文網其他相關文章！