デビンを超えて! SWEBench はランキング リストに新しいプレーヤーを迎えました -
StarShip CodeGen Agent は、Yao Ban 率いる新興企業 OpenCSG がプロデュースし、23.67% のスコアで世界 2 位にランクされました。
同時に、非GPT-4oベースモデル(SOTA)の最高記録を樹立しました。
SWebench の評価は実際のプログラミング シナリオに非常に近く、非常に難しいことは周知のとおりです。モデルが要件を理解し、複数の関数/クラス、さらにはファイルの変更を調整する必要があるだけでなく、モデルが次のことを行う必要もあります。実行環境と対話し、非常に長いコンテキストを処理し、従来のコード生成タスクの複雑な論理的推論を実行します。
この難しい実際のテストでは、業界で最も先進的な GPT4 と Devin は問題の 1.74% と 13.86% しか解決できません。
この成果は、より実用的でインテリジェントで自律的な方向で言語モデルの開発を促進する OpenCSG に基づく先導的な動きです。この動きは、より実用的でインテリジェントで自律的な方向で言語モデル アプリケーションの開発を促進する上で国内企業が講じた重要な一歩を示しています。
2024 年 3 月、初の AI ソフトウェア エンジニアである Devin の出現により、テクノロジーの世界全体が爆発しました。一連の論争を伴いましたが、Devin の強力なイノベーション能力と大きな可能性は、多くの AI 愛好家や実践者に新たな期待をもたらしました。 デビンは、優れたアルゴリズムと強力なプログラミング能力で知られており、深い技術スキルと広範な知識を蓄えています。彼の研究結果と開発されたソフトウェアは常に画期的な進歩と革新を続けており、多くの AI 愛好家や実践者をもたらしています
Devin はコーディング タスクを簡単に解決できるだけでなく、プロジェクトの計画から展開まで、ソフトウェア開発のサイクル全体を独立して完了することができます。 Web サイトの構築、自律的なバグの検索と修正、AI モデルのトレーニングと微調整などが含まれますが、これらに限定されません。
なぜ Devin は GPT4 などの基本モデルのプログラミング機能にあえて挑戦するのでしょうか?
重要なのは、ソフトウェア エンジニアはコードを書くだけでなく、要件の理解、コードの解釈、プログラミングの計画、コードの生成、デバッグ、例外の修復なども行うということです。ここでの各リンクは、大規模モデル プログラミングの使いやすさと効果に影響します。
そのような現実のシナリオのために、プリンストン大学は、エンドツーエンドのコード生成機能を定量的に評価するツールである SWEBench を提案しました。 SWEBench での
GPT-4 のスコアはわずか 1.74% であり、RAG テクノロジーを使用したとしても、そのスコアは 3% 未満であり、これは、の基本モデルのみに依存して現実世界のプログラミング問題を直接解決することは不可能であることを示しています。 。
そして、Devin の技術革新はエージェントベースのワークフロー構築に基づいており、SWEBench のソリューション速度を新たなレベルに引き上げます。
3 月には、Devin が単独で 13.86% の問題解決率でリストのトップとなり、これにより、「大規模モデル プログラミング」が、ほとんど使用できない状態から「日の目を見る」まで直接的に改善されました。シリコンバレーの大手企業や大手モデルのスタートアップがSE向けLLMの分野に参入し、この記録は塗り替えられ続けています。
2024 年 4 月末時点での最高記録は、Amazon AI チームが立ち上げた Amazon Q Developer Agent が樹立した 20.33% です。
さらに残念なのは、中国企業が基本モデルリストに「百花を咲かせる」ことに比べ、OpenCSGがこの記録を塗り替えるまで、中国企業はこの困難な挑戦にほとんど参加していなかったことだ。
SWEBench の最新の評価結果が更新されました。同社が立ち上げた OpenCSG StarShip CodeGen Agent は、Lite 評価で 23.67% の合格率を達成しました。デビンとアマゾンの業績を上回っただけではありません。
OpenCSG(Open Expression)は、大規模なモデルエコロジカルコミュニティを構築し、人工知能業界の上流と下流のエンタープライズチェーンを統合してソリューションとツールプラットフォームを共同提供することに特化した会社です。垂直産業における大規模モデルのアプリケーション向け。
チームは、オープンソースと大規模モデルの複合化において深い経験を持っています -
CEOのChen Ranは、オープンソースソフトウェアの分野で著名な起業家であり、オープンソース分野で多くの営利企業の構築に成功しています。
CTO Wang Weiは清華大学八尾クラス05出身で、人工知能の分野で長年の研究開発経験があります。
同社の中核となる研究開発チームには、清華大学、北京大学、ウォートン大学、香港科技大学、その他の大学からのエリート学生も集められています。
では、そのようなチームはどのようにして新記録を樹立するのでしょうか?
現在、多くの企業が基本モデル、垂直ドメインモデル、RAG、その他のテクノロジを積極的に探索および実践していますが、OpenCSG は次のことに重点を置く方向を選択しています。プログラミング エージェントの革新的な開発と大規模モデルの徹底的な最適化に専念しています。アルゴリズム。
エージェント レベル: LLM+RAG や一般的なエージェント フレームワークとは異なり、OpenCSG StarShip CodeGen エージェントは、ソフトウェア研究開発の分野で高度にカスタマイズおよび最適化されたエージェント向けに設計されており、研究開発のすべての段階を統合しています (要件の理解、コード LLM エージェントを通じて実装され、綿密な最適化のための AST 構文分析、依存関係の検索などのソフトウェア エンジニアリング手法と組み合わせて、優れたパフォーマンスを実現するよう努めています。すべてのリンクを統合し、最終的には統合によってより高精度のコード生成を実現します。
アルゴリズムレベル: コードバージョンの変更によって引き起こされる API の競合などの典型的な問題に対応して、OpenCSG は適応教師モデルを提案します。これは、教師モデルを通じてコードバージョンの変更記録を分析し、高品質のプログラミングデータを生成し、それを使用してベーシックモデルの発電効果を向上させます。評価によると、これらのイノベーションによってもたらされる改善は、特に API 構造が頻繁に更新される一般的なプロジェクトのシナリオにおいて、現在の RAG モデルよりも大幅に優れています。この部分の関連結果は論文としてまとめられ、国際会議に提出されています。 OpenCSG CodeGen Agent が他のモデルの中で際立っているのは、この
アルゴリズム + エンジニアリングの 2 つの側面からのアプローチと継続的改善モデルです。 「StarShip はあらゆる種類の家電製品です」
StarShip の製品の位置付けについて、OpenCSG CEO の Chen Ran 氏は次のように述べています。
StarShip は、大規模モデル向けのソフトウェア開発を再構築するという当社のビジョンに取り組んでいます。ユーザーは、StarShip の組み込みエージェントを通じて独自のデジタル従業員チームを形成します。 CodeGen Agent は、プラットフォームに組み込まれたデジタル プログラマーであり、現在、CodeReview Agent コード レビューアーと CodeSearch コード質問応答エンジニアがリリースされています。コーディング支援ツールとは異なり、私たちはこれらのデジタル ワーカーが人間の介入を必要とせずに直接かつ独立して作業することを期待しています。将来的には、要件、設計、コーディング、テスト、運用と保守のあらゆる側面を完全にカバーできるよう、より多くの種類のデジタル従業員をリリースする予定です。CTO の Wang Wei 氏は、この道は課題に満ちているが非常に興味深いと述べ、「第一原則から言えば、大型モデルによる生産性の向上は、もはや『はい』か『いいえ』の問題ではなく、いつ、どのように行うかの問題です。」と述べました。 StarShip は、どこで、どのような形で私たちが与えようとしている答えです。「
StarShip に加えて、OpenCSG チームも非常に生産的です:
CSGHub オープンソース モデル プラットフォーム、wukong 事前トレーニング モデル、CSGCoder Fine。 -チューニングコード、モデルなど。これらの製品は業界で正確に位置づけられており、好評を博しています。 これらの製品の迅速な発売と反復は、市場の需要を満たすだけでなく、大規模なモデルをすべての企業の全員に提供するという共通の目標にも役立ちます。
大きなモデルがすべての企業とすべての人々に力を与えることを可能にするためには、水や電気のような大きなモデルを作る必要があります。大きなモデルが電力エネルギーであれば、CSGHub は電力ネットワークであり、StarShip は最終的に数千世帯に電力を供給するさまざまな家電製品です。OpenCSG のコンセプトはオープンソースであり、オープンソースをコアとして主張する企業として、オープンソースのモデルとコードを実現するだけでなく、プラットフォームもオープンソース化します。
CTO の Wang Wei は次のようにまとめました。当社はオープンソースの恩恵を受けている若い会社なので、短期間である程度の成果を上げることができます。同時に、オープンソース コミュニティにも貢献していきます。これがオープンソース コミュニティの基本原則です。さらに、オープンソースは単なるモデルであり、製品の価値はモデルよりも重要であるという Sam Altman の声明に非常に同意します。
「ベンチマーク自体は単なる数字です。GPT4-o のリリースにより、SWEBench のテスト スコアは間もなく 30% を超えると予想され、来年には 50% を超える可能性があります。そして、私たちはこれらの背後にある製品価値をより懸念しています。数値:モデルの機能とエンジニアリング技術の向上により、デジタル従業員は量的な変化から質的な変化をもたらし、使いやすいものから使いやすいものになり、さまざまな業界で包括的な爆発を引き起こすでしょう。」と王偉氏は説明しました。ビッグモデルの時代のトレンド。企業から個人に至るまで、私たち全員がこれに備える必要があります。」
以上がデビンを超えて! Yao Ban が率いる彼らは、大規模モデル プログラミングの世界新記録を樹立しましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。