오픈 소스 AI 프로그래머가 여기 있습니다: GPT-4 축복, Devin에 필적하는 능력, 하루 1.4k 별

WBOY
풀어 주다: 2024-04-03 15:01:20
앞으로
1095명이 탐색했습니다.

AIGC에 대해 자세히 알아보려면 다음을 방문하세요.

51CTO AI.x 커뮤니티

https://www.51cto.com/aigc/

최근 많은 사람들이 자신의 AI 작업을 교체하고 걱정하고 있습니다.

지난달 AI계에서 큰 인기를 끌었던 '최초의 AI 프로그래머' 데빈은 대형 모델 역량을 활용해 풀스택 기술을 마스터했으며, 자연어만 있으면 복잡한 코드 작업을 자동으로 완료할 수 있다. 인간으로부터의 지시.

Devin이 보여준 도구 기능은 매우 놀랍습니다. 특히 비공개 소스 경로를 택하는 이 스타트업 회사의 경우 더욱 그렇습니다. 현재 이 비공개 베타 할당량을 사용할 수 있는 사람은 소수입니다.

화요일, 프린스턴 대학교 NLP 그룹의 연구원들은 오픈 소스 AI 프로그래머인 SWE-agent를 출시했습니다. SWE-agent는 하루도 안 되어 수천 개의 GitHub 스타를 받았습니다. 이 SWE 에이전트는 딥러닝 기술을 기반으로 하며 효율적이고 안정적인 코드를 자동으로 작성할 수 있습니다. 그의 출시는 광범위한 관심을 끌었으며 많은 개발자들이 그의 기술과 성능에 대해 높은 평가를 표명했습니다. 이러한 성과는 NLP 분야의 AI 연구 발전을 입증하기도 합니다.

开源版AI程序员来了:GPT-4加持,能力比肩Devin,一天1.4k Star

SWE-agent는 GitHub 리포지토리의 문제를 자율적으로 해결하기 위한 새로운 시스템입니다. 평균 93초가 소요되어 SWE 벤치에서 Devin과 유사한 정확도를 달성했습니다.

开源版AI程序员来了:GPT-4加持,能力比肩Devin,一天1.4k Star

  • 프로젝트 웹사이트: https://swe-agent.com/
  • GitHub: https://github.com/princeton-nlp/SWE-agent

The 프로젝트 저자인 John Yang은 관련 논문의 사전 인쇄 버전도 4월 10일에 업로드될 것이라고 말했습니다.

원칙적으로 SWE 에이전트는 대규모 모델(예: GPT-4)을 소프트웨어 엔지니어링 에이전트로 전환하여 실제 GitHub 리포지토리의 버그와 문제를 수정할 수 있습니다.

전체 SWE-벤치 테스트 세트에서 SWE-agent는 문제의 12.29%를 해결하여 SOTA 성능을 달성했습니다.

开源版AI程序员来了:GPT-4加持,能力比肩Devin,一天1.4k Star

개발 프로세스에 자동화를 제공하기 위해 SWE-agent는 파일 내용 열기, 검색, 자동 구문 검사 사용, 특정 줄 편집, 테스트 작성 및 실행이 가능한 전용 터미널과 상호 작용하여 작동합니다. .

이 프로젝트의 개발자는 UI 인터페이스를 신중하게 디자인하여 GitHub에 소개했습니다.

에이전트-컴퓨터 인터페이스(ACI)

연구팀은 대형 모델이 더 쉽게 저장소를 찾아보고, 보고, 편집하고 실행할 수 있도록 간단한 LM(대형 모델) 중심 명령 및 피드백 형식을 설계했습니다. 코드 파일을 ACI(에이전트-컴퓨터 인터페이스)라고 합니다. 또한 연구팀은 리포지토리 수준 코딩 에이전트의 ACI 설계를 쉽게 반복할 수 있도록 SWE 에이전트 리포지토리를 구축했습니다.

언어 모델에 신속한 엔지니어링이 필요한 것처럼, 좋은 ACI 디자인은 에이전트를 사용할 때 더 나은 결과로 이어집니다. 잘 조정된 ACI가 없는 기본 에이전트는 SWE 에이전트보다 성능이 훨씬 떨어집니다.

SWE-agent에는 다음을 포함하여 연구팀이 에이전트-컴퓨터 인터페이스 설계 중에 매우 유용하다고 판단한 기능이 포함되어 있습니다.

1 코드 구문이 있는 경우 편집 명령이 실행될 때 실행되는 린터를 추가합니다. 올바르지 않으면 편집 명령이 전달되지 않습니다.

2. 에이전트를 위해 특별히 제작된 파일 뷰어를 제공합니다. 연구팀은 이 파일 뷰어가 라운드당 100줄만 표시할 때 가장 잘 작동한다는 사실을 발견했으며, 파일 편집기에는 파일 내에서 위아래로 스크롤하고 검색을 수행하는 명령이 있다는 사실을 발견했습니다.

3. 에이전트를 위해 특별히 제작된 디렉터리 전체 문자열 검색 명령을 제공합니다. 연구팀은 도구 목록이 간결하게 일치하는 것이 중요하다는 사실을 발견했습니다. 최소한 하나의 일치 항목이 있는 모든 파일을 나열하면 됩니다. 연구에 따르면 각 경기에 대한 더 많은 맥락을 모델에 표시하는 것은 모델에 너무 혼란스러울 수 있다는 것이 밝혀졌습니다.

4. 명령 출력이 비어 있으면 "명령이 성공적으로 실행되었지만 출력이 생성되지 않았습니다."라는 메시지가 반환됩니다.

향후 출판되는 논문에서 더 많은 정보를 자세히 설명할 것입니다.

설치 및 사용

SWE-agent를 사용하려면 먼저 다음 조건을 설정해야 합니다.

1. Docker를 로컬로 설치하고

2. fenvironment.yml은

3. conda activate swe-agent를 사용하여

4.swe-agent 도커 이미지를 생성합니다. 5. 이 저장소의 루트 디렉터리에keys.cfg 파일을 생성하고 다음 콘텐츠를 입력합니다.

OPENAI_API_KEY: 'OpenAI API Key Here if using OpenAI Model (optional)'ANTHROPIC_API_KEY: 'Anthropic API Key Here if using Anthropic Model (optional)'GITHUB_TOKEN: 'GitHub Token Here (required)'
로그인 후 복사
SWE-agent 파이프라인은 두 단계로 구성됩니다.

1단계: SWE-agent 수신 GitHub 문제를 입력하고 풀 요청을 반환하여 수정을 시도합니다.

  • 2단계: 풀 요청을 평가하여 실제로 문제가 해결되는지 확인합니다(현재 SWE-bench 벤치마크의 문제에만 사용 가능).
  • 전체 SWE 벤치에서 실행하고 평가하려는 경우 가장 쉬운 방법은 x86 머신을 사용하는 것입니다.

python run.py --model_name gpt4 \--data_path https://github.com/pvlib/pvlib-python/issues/1603 --config_file config/default_from_url.yaml
로그인 후 복사
python run.py --model_name gpt4 \--per_instance_cost_limit 2.00 \--config_file ./config/default.yaml
로그인 후 복사
SWE-bench에서 단일 질문을 실행하려면 --instance_filter를 사용할 수 있습니다.

python run.py --model_name gpt4 \--instance_filter marshmallow-code__marshmallow-1359
로그인 후 복사
AIGC에 대해 자세히 알아보려면 다음을 방문하세요.
51CTO AI .x 커뮤니티


https://www.51cto.com/aigc/

위 내용은 오픈 소스 AI 프로그래머가 여기 있습니다: GPT-4 축복, Devin에 필적하는 능력, 하루 1.4k 별의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:51cto.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿