オープンソース AI プログラマーが登場: GPT-4 の祝福、デビンに匹敵する能力、1 日あたり 1.4,000 スター

WBOY
リリース: 2024-04-03 15:01:20
転載
1095 人が閲覧しました

AIGC の詳細については、次のサイトをご覧ください:

51CTO AI.x コミュニティ

https://www.51cto.com/ aigc/

最近、多くの人がAIに仕事を代替されるのではないかと懸念しています。

先月 AI 界で有名になった「最初の AI プログラマー」である Devin は、大規模なモデル機能を使用してフルスタックのスキルを習得しました。彼に必要なのは人間だけです。自然言語による指示を与え、複雑なコーディング タスクを自動化します。

Devin が実証したツールの機能は、特にクローズド ソース ルートをとるこの新興企業にとって、非常に驚​​くべきものです。現在、このクローズドベータ割り当てを利用できるのは少数の人だけです。

火曜日、プリンストン大学 NLP グループの研究者は、AI プログラマのオープンソース バージョンである SWE-agent をリリースしました。これは、1 日足らずで GitHub で数千のスターを獲得しました。 。この SWE エージェントは深層学習テクノロジーに基づいており、効率的で信頼性の高いコードを自動的に作成できます。彼のリリースは広く注目を集め、多くの開発者が彼の技術とパフォーマンスに高い評価を表明しました。これらの成果は、NLP 分野における AI 研究の進歩を証明するものでもあります。

开源版AI程序员来了:GPT-4加持,能力比肩Devin,一天1.4k Star

SWE-agent は、GitHub リポジトリの問題を自律的に解決するための新しいシステムです。 SWE ベンチでの Devin と同様の精度を達成し、平均 93 秒かかりました。

开源版AI程序员来了:GPT-4加持,能力比肩Devin,一天1.4k Star

  • プロジェクト Web サイト: https://swe-agent.com/
  • GitHub :https://github.com/princeton-nlp/SWE-agent

プロジェクトの作者である John Yang 氏は、関連論文 4月10日バージョンもアップ予定です。

原則として、SWE エージェントは、大規模なモデル (GPT-4 など) をソフトウェア エンジニアリング エージェントに変換することで、実際の G​​itHub リポジトリのバグや問題を修正できます。

完全な SWE ベンチ テスト セットにおいて、SWE エージェントは問題の 12.29% を解決し、SOTA パフォーマンスを達成しました。

开源版AI程序员来了:GPT-4加持,能力比肩Devin,一天1.4k Star

開発中の自動化を実現するために、SWE エージェントは、ファイルを開いたり、ファイルの内容を検索したり、自動構文チェックを使用したりできる専用の端末と対話して動作します。 、特定の行を編集し、テストを作成して実行することもできます。

このプロジェクトの開発者は、慎重に UI インターフェイスを設計し、GitHub に導入しました。

エージェント コンピューター インターフェイス (ACI)

研究チームは、大規模モデル (LM) 中心のシンプルなコマンドとフィードバック形式を設計しました。モデルを使用すると、エージェント コンピューター インターフェイス (ACI) として知られる、リポジトリの参照、コード ファイルの表示、編集、実行がより簡単になります。研究チームは、リポジトリ レベルでコード化されたエージェントの ACI 設計を簡単に反復できるように、SWE エージェント リポジトリも構築しました。

言語モデルには優れたプロンプト エンジニアリングが必要であるのと同様に、優れた ACI 設計はエージェント使用時により良い結果につながります。 ACI が適切に調整されていないベースライン エージェントのパフォーマンスは、SWE エージェントよりもはるかに悪くなります。

SWE-agent には、研究チームがエージェントとコンピューターのインターフェイスの設計中に非常に役立つと判断した次のような機能が含まれています。 1. 編集コマンドの発行時に実行され、コード構文が間違っている場合は編集コマンドを実行させないリンターを追加します。

2. エージェントに専用のファイル ビューアを提供します。研究チームは、このファイル ビューアが 1 ラウンドあたり 100 行のみを表示する場合に最適に機能すること、およびファイル エディタには上下にスクロールしてファイル内で検索を実行するためのコマンドがあることを発見しました。

3. 特別に構築されたディレクトリ全体の文字列検索コマンドをエージェントに提供します。研究チームは、ツールが一致を簡潔にリストすることが重要であることを発見しました。少なくとも 1 つの一致があるすべてのファイルをリストするだけです。研究では、モデルに各一致に関するコンテキストをさらに示すと、モデルが混乱しすぎることがわかりました。

4. コマンドの出力が空の場合は、「コマンドは正常に実行されましたが、出力は生成されませんでした。」というメッセージが返されます。

今後出版される論文でさらに詳しい情報が記載されます。

安装与使用

要使用 SWE-agent,首先要设置好如下条件:

1. 安装 Docker,并在本地启动 Docker;

2. 安装 Miniconda,并使用 conda env create -fenvironment.yml 创建 swe-agent 环境;

3. 使用 conda activate swe-agent 激活;

4. 运行 ./setup.sh 创建 swe-agent docker 镜像;

5. 在此存储库的根目录下创建一个 keys.cfg 文件并填写以下内容:

OPENAI_API_KEY: 'OpenAI API Key Here if using OpenAI Model (optional)'ANTHROPIC_API_KEY: 'Anthropic API Key Here if using Anthropic Model (optional)'GITHUB_TOKEN: 'GitHub Token Here (required)'
ログイン後にコピー

SWE-agent pipeline 包含两个步骤:

  • 第一步:SWE-agent 接收输入的 GitHub 问题,并返回尝试修复它的拉取请求(pull request);
  • 第二步:评估拉取请求以验证它确实解决了问题(目前仅适用于 SWE-bench 基准测试中的问题)。

如果想在整个 SWE-bench 上运行和评估,最简单的方法是使用 x86 机器。

python run.py --model_name gpt4 \--data_path https://github.com/pvlib/pvlib-python/issues/1603 --config_file config/default_from_url.yaml
ログイン後にコピー
python run.py --model_name gpt4 \--per_instance_cost_limit 2.00 \--config_file ./config/default.yaml
ログイン後にコピー

如果想运行 SWE-bench 中的单个问题,可以使用 --instance_filter:

python run.py --model_name gpt4 \--instance_filter marshmallow-code__marshmallow-1359
ログイン後にコピー

想了解更多AIGC的内容,请访问:

51CTO AI.x社区

https://www.51cto.com/aigc/

以上がオープンソース AI プログラマーが登場: GPT-4 の祝福、デビンに匹敵する能力、1 日あたり 1.4,000 スターの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート