Devin을 능가하는 Yao Ban은 OpenCSG를 이끌고 대형 모델 프로그래밍 분야에서 새로운 세계 기록을 세웠습니다.
중국의 대규모 모델 스타트업 OpenCSG가 출시한 StarShip CodeGen Agent가 혁신을 통해 Prince WEBench(대형 모델의 Real Independent Program Evaluation of Large Models) 순위에서 세계 2위를 달성했습니다. 동시에 GPT-4o 모델을 기반으로 최고기록(SOTA)을 생성했다. (단어 수: 37)
SWEBench 평가는 실제 프로그래밍 시나리오와 매우 유사하며 매우 어렵습니다. 이를 위해서는 모델이 요구 사항을 이해하고 여러 함수/클래스 간의 변경 사항을 조정해야 할 뿐만 아니라 모델이 실행과 상호 작용해야 합니다. 환경을 관리하고 매우 긴 컨텍스트를 처리하며 기존 코드 생성 작업을 뛰어 넘는 복잡한 논리적 추론을 수행합니다. 이 어려운 실제 테스트에서 업계에서 가장 발전된 GPT4와 Devin은 1.74%와 13.86%의 문제만 해결할 수 있습니다. OpenCSG의 이러한 성과는 국내 기업이 보다 실용적이고 지능적이며 자율적인 방향으로 언어 모델 개발을 촉진하는 데 있어서 선도적인 조치를 취한 것입니다.
Devin - 대형 모델 프로그래밍의 혁신
2024년 3월, 최초의 AI 소프트웨어 엔지니어인 Devin의 등장은 기술 세계 전체를 뒤흔들었습니다. 일련의 논란이 수반되지만 Devin의 강력한 혁신 역량과 엄청난 잠재력은 많은 AI 애호가와 실무자에게 새로운 기대를 불러일으켰습니다. Devin은 코딩 작업을 쉽게 해결할 수 있을 뿐만 아니라 웹 사이트 구축, 독립적인 버그 찾기 및 수정, AI 모델 교육 및 미세 조정 등을 포함하되 이에 국한되지 않고 프로젝트 계획부터 배포까지 전체 소프트웨어 개발 주기를 독립적으로 완료할 수 있습니다.
대형 모델 프로그래밍의 진짜 도전
데빈은 왜 감히 GPT4와 같은 기본 모델의 프로그래밍 능력에 도전할까요? 핵심은 소프트웨어 엔지니어가 코드를 작성할 뿐만 아니라 요구 사항 이해, 코드 해석, 프로그래밍 계획, 코드 생성, 디버깅 및 예외 복구 등도 포함한다는 것입니다. 여기의 각 링크는 대규모 모델 프로그래밍의 유용성과 효과에 영향을 미칩니다.
이러한 실제 시나리오를 위해 프린스턴 대학에서는 엔드투엔드 코드 생성 기능을 정량적으로 평가하는 도구인 SWEBench(https://arxiv.org/abs/2310.06770)를 제안했습니다. SWEBench에서 GPT-4의 점수는 1.74%에 불과하며 RAG 기술을 사용해도 점수가 3%를 넘지 않습니다. 이는 기본 모델에만 의존하여 실제 프로그래밍 문제를 직접 해결하는 것이 불가능함을 보여줍니다.
Devin의 기술 혁신은 에이전트 기반 워크플로우 구축을 기반으로 하며, 이는 SWEBench의 솔루션 속도를 새로운 차원으로 끌어올립니다. 3월에는 Devin이 단독으로 해결한 문제 해결률 13.86%로 1위에 올랐으며, 이는 "대형 모델 프로그래밍"을 거의 사용할 수 없는 상태에서 "오늘의 빛을 보는" 상태로 직접적으로 개선했습니다. 실리콘밸리의 주요 기업과 대형 모델 스타트업에서 SE를 위한 LLM을 채용하고 있으며, 이 기록은 지속적으로 수정되고 있습니다. 2024년 4월 말 기준 아마존 AI팀이 출시한 아마존 Q 개발자 에이전트(Amazon Q Developer Agent)가 20.33%로 최고 기록을 세웠다. 아쉽게도 기본 모델 명단에 오른 중국 기업의 '백송이 꽃 피우기'에 비하면, 이번 OpenCSG가 이 기록을 수정하기 전까지 중국 기업은 이 어려운 도전에 거의 참여하지 않았다.
중국 스타트업의 돌파구
최근 SWEBench 최신 평가 결과가 업데이트됐다. 회사가 출시한 OpenCSG StarShip CodeGen Agent가 Lite 평가에서 23.67%의 합격률을 기록했다. 이 성과는 Devin과 Amazon의 결과를 능가했을 뿐만 아니라 혁신적인 GPT4-o 기본 모델의 역사적 기록(SOTA)을 세웠습니다.
OpenCSG는 설립된 지 1년밖에 되지 않았습니다. 오픈 소스 및 대규모 모델 합성에 대한 깊은 경험을 가진 팀입니다. CEO Chen Ran은 오픈 소스 소프트웨어 분야에서 잘 알려진 기업가이며 많은 것을 성공적으로 구축했습니다. 오픈 소스 분야의 상업 기업 CTO인 Wang Wei는 2005년 Tsinghua University의 Yao Class 출신이며 인공 지능 분야에서 다년간의 R&D 경험을 보유하고 있습니다. 또한 회사의 핵심 R&D 팀은 Tsinghua University, Peking University, 와튼(Wharton), 홍콩과기대 및 기타 대학. 그런 팀은 어떻게 새로운 기록을 만들어 내는 걸까요?
신기록, 모델+AgentWorking together
현재 많은 기업들이 기본 모델, 수직 도메인 모델, RAG 및 기타 기술을 적극적으로 탐구하고 실천하고 있는 반면, OpenCSG는 프로그래밍에 전념하는 집중 방향을 선택했습니다. 에이전트 대규모 모델 알고리즘의 혁신적인 개발 및 심층 최적화.
Agent레벨: LLM+RAG 또는 일반 에이전트 프레임워크와는 달리 OpenCSG StarShip CodeGen 에이전트는 소프트웨어 연구 및 개발 분야에서 고도로 맞춤화되고 최적화된 에이전트를 위해 설계되었습니다. 연구 및 개발의 모든 단계를 통합합니다(요구 사항 이해 , 코드 검색, 프로그래밍 계획 및 코드 작성, 루프 검증 등)을 LLM Agent를 통해 구현하고 AST 구문 분석, 종속성 검색 등의 소프트웨어 엔지니어링 방법과 결합하여 심층적인 최적화를 위해 노력합니다. 모든 링크에서 탁월한 성능을 발휘하고 최종적으로 통합을 통해 더 높은 정밀도의 코드 생성을 달성합니다.
알고리즘 수준: 코드 버전 변경으로 인한 API 충돌과 같은 일반적인 문제에 대응하여 OpenCSG는 교사 모델을 통해 코드 버전 변경 기록을 분석하여 고품질 프로그래밍 데이터를 생성하고 이를 활용하는 적응형 교사 모델을 제안합니다. 기본 모델의 생성 효과를 향상시킵니다. 평가에 따르면 이러한 혁신으로 인한 개선 사항은 특히 API 구조가 자주 업데이트되는 인기 있는 프로젝트 시나리오에서 현재 RAG 모델보다 훨씬 더 좋습니다. 본 부분의 관련 결과는 논문으로 작성되어 국제학술대회에 제출되었습니다.
OpenCSG CodeGen 에이전트가 다른 모델보다 돋보일 수 있는 것은 바로 이 알고리즘 + 엔지니어링 및 지속적인 개선 모델입니다.
StarShip의 별바다
CodeGen Agent의 실제 평가가 작은 테스트라면 StarShip은 OpenCSG의 원대한 청사진을 담고 있습니다. StarShip의 제품 포지셔닝과 관련하여 OpenCSG CEO Chen Ran은 다음과 같이 말했습니다. "StarShip은 대형 모델을 통해 소프트웨어 개발을 재구성하려는 우리의 비전을 담고 있습니다. 사용자는 StarShip에 내장된 에이전트를 통해 자신의 디지털 직원 팀을 구성합니다. CodeGen 에이전트는 플랫폼에 내장되어 있습니다. CodeReview를 포함한 디지털 프로그래머 에이전트 코드 검토자 및 CodeSearch 코드 질문 및 답변 엔지니어는 현재 출시되었습니다. 코드 지원 도구와 달리 이러한 디지털 직원은 향후 모든 측면을 포괄적으로 다루면서 수동 지원 개입 없이 직접 작업할 수 있기를 바랍니다.
CTO Wang Wei는 이 길은 도전으로 가득 차 있지만 매우 흥미롭다고 말했습니다. “첫 번째 원칙에서는 대형 모델이 생산성을 향상시킬 수 있다는 것이 더 이상 문제가 되지 않습니다. '예' 또는 '아니요'이지만 언제, 어디서, 어떤 형태로 제공하려는 대답은 StarShip입니다."
StarShip 외에도 OpenCSG 팀도 꽤 생산적입니다. CSGHub 오픈 소스 모델 플랫폼, wukong 사전 훈련 모델, CSGCoder 미세 조정 코드 모델 등 이러한 제품은 업계에서 정확한 위치에 있으며 호평을 받고 있습니다.이러한 제품의 신속한 출시와 반복은 시장 수요를 충족할 뿐만 아니라 대형 모델을 통해 모든 기업의 모든 사람에게 역량을 부여한다는 공통 목표를 달성합니다. "대형 모델이 모든 기업과 모든 사람에게 힘을 실어주려면 물과 전기와 같은 대형 모델을 만들어야 합니다. 대형 모델이 전기 에너지라면 CSGHub는 전력망이고 StarShip은 다양한 가전제품입니다. 궁극적으로 Empowering 수천 가구.”
오픈 소스를 수용하고 오픈 소스를 넘어
OpenCSG의 개념은 오픈 소스를 핵심으로 주장하는 회사로, 모델과 코드의 오픈 소스를 실현할 뿐만 아니라, 뿐만 아니라 플랫폼을 오픈 소스로 만듭니다.
"저희는 젊은 회사입니다. 오픈소스의 이점을 활용하면 더 짧은 시간 내에 어떤 결과를 얻을 수 있습니다. 동시에 오픈소스 커뮤니티에 전액 환원하겠습니다. 이것이 오픈소스의 기본 원칙입니다. 또한 저는 Sam의 의견에 매우 동의합니다. Altman에 따르면 오픈 소스는 단지 모델일 뿐이며 모델보다 제품 가치가 더 중요합니다."라고 CTO인 Wang Wei는 결론지었습니다.
“벤치마크 자체는 숫자에 불과합니다. GPT4-o 출시로 SWEBench의 테스트 점수는 곧 30%를 넘을 것으로 예상되며, 내년에는 낙관적인 추정치도 50%를 넘을 수 있습니다. 그리고 이러한 이면의 제품 가치에 더욱 관심이 쏠립니다. 숫자: 모델 역량과 엔지니어링 기술의 향상으로 디지털 직원은 사용성에서 사용 용이성으로 양적 변화에서 질적 변화를 이끌어 다양한 산업 분야에서 포괄적인 폭발을 가져올 것입니다.”라고 Wang Wei는 설명했습니다. 빅모델 시대의 트렌드, 기업부터 개인까지 모두가 이에 대비해야 합니다.”
위 내용은 Devin을 능가하는 Yao Ban은 OpenCSG를 이끌고 대형 모델 프로그래밍 분야에서 새로운 세계 기록을 세웠습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

하지만 공원에 있는 노인을 이길 수는 없을까요? 파리올림픽이 본격화되면서 탁구가 많은 주목을 받고 있다. 동시에 로봇은 탁구 경기에서도 새로운 돌파구를 마련했습니다. 방금 DeepMind는 탁구 경기에서 인간 아마추어 선수 수준에 도달할 수 있는 최초의 학습 로봇 에이전트를 제안했습니다. 논문 주소: https://arxiv.org/pdf/2408.03906 DeepMind 로봇은 탁구를 얼마나 잘 치나요? 아마도 인간 아마추어 선수들과 동등할 것입니다: 포핸드와 백핸드 모두: 상대는 다양한 플레이 스타일을 사용하고 로봇도 견딜 수 있습니다: 다양한 스핀으로 서브를 받습니다. 그러나 게임의 강도는 그만큼 강렬하지 않은 것 같습니다. 공원에 있는 노인. 로봇용, 탁구용

8월 21일, 2024년 세계로봇대회가 베이징에서 성대하게 개최되었습니다. SenseTime의 홈 로봇 브랜드 "Yuanluobot SenseRobot"은 전체 제품군을 공개했으며, 최근에는 Yuanluobot AI 체스 두는 로봇인 체스 프로페셔널 에디션(이하 "Yuanluobot SenseRobot")을 출시하여 세계 최초의 A 체스 로봇이 되었습니다. 집. Yuanluobo의 세 번째 체스 게임 로봇 제품인 새로운 Guoxiang 로봇은 AI 및 엔지니어링 기계 분야에서 수많은 특별한 기술 업그레이드와 혁신을 거쳤으며 처음으로 3차원 체스 말을 집는 능력을 실현했습니다. 가정용 로봇의 기계 발톱을 통해 체스 게임, 모두 체스 게임, 기보 복습 등과 같은 인간-기계 기능을 수행합니다.

개학이 코앞으로 다가왔습니다. 새 학기를 앞둔 학생들뿐만 아니라 대형 AI 모델도 스스로 관리해야 합니다. 얼마 전 레딧에는 클로드가 게으르다고 불평하는 네티즌들이 붐볐습니다. "레벨이 많이 떨어졌고, 자주 멈췄고, 심지어 출력도 매우 짧아졌습니다. 출시 첫 주에는 4페이지 전체 문서를 한 번에 번역할 수 있었지만 지금은 반 페이지도 출력하지 못합니다. !" https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ "클로드에게 완전히 실망했습니다"라는 제목의 게시물에

베이징에서 열린 세계로봇컨퍼런스에서는 휴머노이드 로봇의 전시가 현장의 절대 화두가 됐다. 스타더스트 인텔리전트 부스에서는 AI 로봇 어시스턴트 S1이 덜시머, 무술, 서예 3대 퍼포먼스를 선보였다. 문학과 무술을 모두 갖춘 하나의 전시 공간은 수많은 전문 관객과 미디어를 끌어 모았습니다. 탄력 있는 현의 우아한 연주를 통해 S1은 정밀한 작동과 속도, 힘, 정밀성을 갖춘 절대적인 제어력을 보여줍니다. CCTV 뉴스는 '서예'의 모방 학습 및 지능형 제어에 대한 특별 보도를 진행했습니다. 회사 설립자 Lai Jie는 부드러운 움직임 뒤에 하드웨어 측면이 최고의 힘 제어와 가장 인간과 유사한 신체 지표(속도, 하중)를 추구한다고 설명했습니다. 등)이지만 AI측에서는 사람의 실제 움직임 데이터를 수집해 로봇이 강한 상황에 직면했을 때 더욱 강해지고 빠르게 진화하는 방법을 학습할 수 있다. 그리고 민첩하다

참가자들은 이번 ACL 컨퍼런스에서 많은 것을 얻었습니다. ACL2024는 6일간 태국 방콕에서 개최됩니다. ACL은 전산언어학 및 자연어 처리 분야 최고의 국제학술대회로 국제전산언어학회(International Association for Computational Linguistics)가 주최하고 매년 개최된다. ACL은 NLP 분야에서 학술 영향력 1위를 항상 차지하고 있으며, CCF-A 추천 컨퍼런스이기도 합니다. 올해로 62회째를 맞이하는 ACL 컨퍼런스에는 NLP 분야의 최신 저서가 400편 이상 접수됐다. 어제 오후 컨퍼런스에서는 최우수 논문과 기타 상을 발표했습니다. 이번에 최우수논문상 7개(미출판 2개), 우수주제상 1개, 우수논문상 35개가 있다. 이 컨퍼런스에서는 또한 3개의 리소스 논문상(ResourceAward)과 사회적 영향상(Social Impact Award)을 수상했습니다.

비전과 로봇 학습의 긴밀한 통합. 최근 화제를 모으고 있는 1X 휴머노이드 로봇 네오(NEO)와 두 개의 로봇 손이 원활하게 협력해 옷 개기, 차 따르기, 신발 싸기 등을 하는 모습을 보면 마치 로봇 시대로 접어들고 있다는 느낌을 받을 수 있다. 실제로 이러한 부드러운 움직임은 첨단 로봇 기술 + 정교한 프레임 디자인 + 다중 모드 대형 모델의 산물입니다. 우리는 유용한 로봇이 종종 환경과 복잡하고 절묘한 상호작용을 요구한다는 것을 알고 있으며, 환경은 공간적, 시간적 영역에서 제약으로 표현될 수 있습니다. 예를 들어, 로봇이 차를 따르도록 하려면 먼저 로봇이 찻주전자 손잡이를 잡고 차를 흘리지 않고 똑바로 세운 다음, 주전자 입구와 컵 입구가 일치할 때까지 부드럽게 움직여야 합니다. 을 누른 다음 주전자를 특정 각도로 기울입니다. 이것

컨퍼런스 소개 과학기술의 급속한 발전과 함께 인공지능은 사회 발전을 촉진하는 중요한 힘이 되었습니다. 이 시대에 우리는 분산인공지능(DAI)의 혁신과 적용을 목격하고 참여할 수 있어 행운입니다. 분산 인공지능(Distributed Artificial Intelligence)은 인공지능 분야의 중요한 한 분야로, 최근 몇 년간 점점 더 많은 주목을 받고 있습니다. 대규모 언어 모델(LLM) 기반 에이전트가 갑자기 등장했습니다. 대규모 모델의 강력한 언어 이해와 생성 기능을 결합하여 자연어 상호 작용, 지식 추론, 작업 계획 등에 큰 잠재력을 보여주었습니다. AIAgent는 빅 언어 모델을 이어받아 현재 AI계에서 화제가 되고 있습니다. 오

오늘 오후 Hongmeng Zhixing은 공식적으로 새로운 브랜드와 신차를 환영했습니다. 8월 6일, Huawei는 Hongmeng Smart Xingxing S9 및 Huawei 전체 시나리오 신제품 출시 컨퍼런스를 개최하여 파노라마식 스마트 플래그십 세단 Xiangjie S9, 새로운 M7Pro 및 Huawei novaFlip, MatePad Pro 12.2인치, 새로운 MatePad Air, Huawei Bisheng을 선보였습니다. 레이저 프린터 X1 시리즈, FreeBuds6i, WATCHFIT3 및 스마트 스크린 S5Pro를 포함한 다양한 새로운 올-시나리오 스마트 제품, 스마트 여행, 스마트 오피스, 스마트 웨어에 이르기까지 화웨이는 풀 시나리오 스마트 생태계를 지속적으로 구축하여 소비자에게 스마트한 경험을 제공합니다. 만물인터넷. Hongmeng Zhixing: 스마트 자동차 산업의 업그레이드를 촉진하기 위한 심층적인 권한 부여 화웨이는 중국 자동차 산업 파트너와 손을 잡고
