


GPT-4 코딩 능력이 21% 향상되었습니다! MIT의 새로운 방법을 통해 LLM은 성찰하는 법을 배울 수 있습니다. 네티즌 : 인간이 생각하는 것과 같은 방식입니다
노스이스턴대학교와 MIT가 최근 발표한 논문인 Reflexion에 나온 방법입니다.
이 글은 AI 뉴미디어 큐빗(공개 계정 ID: QbitAI)의 승인을 받아 재인쇄되었습니다.
GPT-4가 다시 진화합니다!
간단한 방법으로 GPT-4와 같은 대규모 언어 모델을 학습하여 성능을 직접적으로 30% 향상시킬 수 있습니다.
이전에는 큰 언어 모델이 잘못된 대답을 하기도 했고, 아무 말도 하지 않고 사과하는 경우가 많았고, 그 다음엔 으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으으라고 계속해서 추측을 했습니다.
이제 더 이상 이런 일이 없을 것입니다. 새로운 방법이 추가되면서 GPT-4는 어디가 잘못됐는지 반성할 뿐만 아니라 개선 전략도 제시할 예정입니다.
예를 들어 "루프에 갇힌" 이유를 자동으로 분석합니다.
또는 자신의 잘못된 검색 전략을 반영합니다.
이것은 Northeastern University에서 발표한 최신 논문의 방법입니다. 그리고 MIT: Reflexion.
GPT-4뿐만 아니라 다른 대규모 언어 모델에도 적용 가능하여 독특한 인간 성찰 능력을 학습할 수 있습니다.
논문이 사전 인쇄 플랫폼 arxiv에 게재되었습니다.
이로 인해 네티즌들은 "AI 진화 속도가 우리의 적응력을 넘어섰고, 우리는 멸망하게 될 것"이라고 직접적으로 말했습니다.
일부 네티즌들은 개발자들에게 '취업 경고'를 보내기도 했습니다.
이 방법을 사용하면 시간당 코드 작성 비용이 일반 개발자보다 저렴합니다.
반성을 달성하기 위해 바이너리 보상 메커니즘을 사용하세요
네티즌들이 말했듯이, Reflexion이 GPT-4에 부여한 반성 능력은 인간의 사고 과정과 유사합니다.
두 단어로 요약할 수 있습니다. 피드백.
이 피드백 프로세스는 크게 세 가지 단계로 나눌 수 있습니다.
- 1. 평가: 현재 생성된 답변의 정확성 테스트
- 2. 자기 성찰 생성: 오류 식별 - 구현 수정
- 3. 반복적인 피드백 루프 실행
평가 과정의 첫 번째 단계에서 가장 먼저 거치는 것은 LLM(Large Language Model)의 자체 평가입니다.
즉, LLM은 외부 피드백이 없을 때 먼저 답변 자체를 반성해야 합니다.
자기성찰은 어떻게 하나요?
연구팀은 바이너리 보상 메커니즘을 사용하여 현재 상태에서 LLM이 수행하는 작업에 값을 할당합니다.
1은 생성된 결과가 괜찮다는 것을 의미하고, 0은 생성된 결과가 좋지 않음을 의미합니다. .
다중값 또는 연속 출력과 같은 좀 더 설명적인 보상 메커니즘 대신 바이너리를 사용하는 이유는 외부 입력이 없다는 사실과 관련이 있습니다.
외부 피드백 없이 자기 성찰을 수행하려면 답변이 이진 상태로 제한되어야 합니다. 그래야만 LLM이 의미 있는 추론을 할 수 있습니다.
자체 평가 후 바이너리 보상 메커니즘의 출력이 1이면 자체 반사 장치가 활성화되지 않고 0이면 LLM이 반사 모드를 켭니다.
반영 과정에서 모델은 휴리스틱 기능 h(아래 참조)를 트리거합니다. 인간의 사고 과정과 유사하게 h는 감독과 동일한 역할을 합니다.
그러나 인간의 사고와 마찬가지로 LLM도 반사 과정에 한계가 있는데, 이는 함수의 Ω 및 ε에 반영될 수 있습니다.
Ω은 연속 동작이 반복되는 횟수를 나타냅니다. 일반적으로 이 값은 3으로 설정됩니다. 이는 반사 과정에서 한 단계가 3번 반복되면 바로 다음 단계로 점프한다는 의미입니다.
그리고 ε은 반영 과정에서 수행할 수 있는 최대 작업 수를 나타냅니다.
감독이 있기 때문에 수정도 수행해야 합니다. 수정 과정의 기능은 다음과 같습니다.
그 중 "실패 궤적"을 통해 자기 성찰 모델을 학습합니다. 특정 필드의 반사 쌍"이 나타나고 데이터세트의 특정 문제에 대한 도메인별 솔루션에 대한 액세스를 허용하지 않습니다.
이런 식으로 LLM은 반성 과정에서 더욱 "혁신적인" 것들을 생각해 낼 수 있습니다. 반성 후 성능이 30% 가까이 향상되었습니다GPT-4 등 LLM도 자기반성을 할 수 있는데 구체적인 효과는 무엇인가요? 연구팀은 ALFWorld 및 HotpotQA 벤치마크에서 이 접근 방식을 평가했습니다. 100개의 질문과 답변 쌍으로 구성된 HotpotQA 테스트에서 Reflexion 방법을 사용한 LLM은 여러 차례의 성찰과 반복된 질문 끝에 LLM의 성능이 거의 30% 향상되었습니다. Reflexion을 사용하지 않고 Q&A를 반복한 후에도 성능에 변화가 없었습니다.위 내용은 GPT-4 코딩 능력이 21% 향상되었습니다! MIT의 새로운 방법을 통해 LLM은 성찰하는 법을 배울 수 있습니다. 네티즌 : 인간이 생각하는 것과 같은 방식입니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











StableDiffusion3의 논문이 드디어 나왔습니다! 이 모델은 2주 전에 출시되었으며 Sora와 동일한 DiT(DiffusionTransformer) 아키텍처를 사용합니다. 출시되자마자 큰 화제를 불러일으켰습니다. 이전 버전과 비교하여 StableDiffusion3에서 생성된 이미지의 품질이 크게 향상되었습니다. 이제 다중 테마 프롬프트를 지원하고 텍스트 쓰기 효과도 향상되었으며 더 이상 잘못된 문자가 표시되지 않습니다. StabilityAI는 StableDiffusion3이 800M에서 8B 범위의 매개변수 크기를 가진 일련의 모델임을 지적했습니다. 이 매개변수 범위는 모델이 많은 휴대용 장치에서 직접 실행될 수 있어 AI 사용이 크게 줄어든다는 것을 의미합니다.

프랑스 파리에서 열린 최고의 컴퓨터 비전 컨퍼런스 ICCV2023이 막 끝났습니다! 올해 최우수 논문상은 그야말로 '신들의 싸움'이다. 예를 들어 최우수 논문상을 수상한 두 논문에는 빈센트 그래프 AI 분야를 전복한 작품인 ControlNet이 포함됐다. 오픈 소스 이후 ControlNet은 GitHub에서 24,000개의 별을 받았습니다. 확산 모델이든, 컴퓨터 비전 전체 분야이든, 이 논문의 수상은 당연한 것입니다. 최우수 논문상에 대한 명예로운 언급은 또 다른 유명한 논문인 Meta의 "Separate Everything" "Model SAM에 수여되었습니다. "Segment Everything"은 출시 이후 뒤에서 나온 모델을 포함해 다양한 이미지 분할 AI 모델의 "벤치마크"가 되었습니다.

Neural Radiance Fields가 2020년에 제안된 이후 관련 논문의 수가 기하급수적으로 늘어났습니다. 이는 3차원 재구성의 중요한 분야가 되었을 뿐만 아니라 자율 주행을 위한 중요한 도구로서 연구 분야에서도 점차 활발해졌습니다. NeRF는 지난 2년 동안 갑자기 등장했습니다. 주로 특징점 추출 및 일치, 에피폴라 기하학 및 삼각측량, PnP 및 번들 조정 및 기존 CV 재구성 파이프라인의 기타 단계를 건너뛰고 메쉬 재구성, 매핑 및 광 추적도 건너뛰기 때문입니다. , 2D에서 직접 입력된 이미지를 이용해 방사선장을 학습한 후, 방사선장에서 실제 사진에 가까운 렌더링 이미지를 출력합니다. 즉, 신경망을 기반으로 한 암시적 3차원 모델을 지정된 관점에 맞추도록 합니다.

AAAI 2023 논문 제출 마감일이 다가오던 무렵, AI 제출 그룹의 익명 채팅 스크린샷이 갑자기 Zhihu에 나타났습니다. 그 중 한 명은 "3000위안 강력한 수락" 서비스를 제공할 수 있다고 주장했습니다. 해당 소식이 알려지자 네티즌들은 곧바로 공분을 샀다. 그러나 아직 서두르지 마십시오. Zhihu 상사 "Fine Tuning"은 이것이 아마도 "언어적 즐거움"일 가능성이 높다고 말했습니다. 『파인튜닝』에 따르면 인사와 갱범죄는 어느 분야에서나 피할 수 없는 문제다. openreview의 등장으로 cmt의 다양한 단점이 점점 더 명확해졌습니다. 앞으로는 작은 서클이 운영할 수 있는 공간은 더 작아지겠지만 항상 여유가 있을 것입니다. 이는 개인적인 문제이지 투고 시스템이나 메커니즘의 문제가 아니기 때문입니다. 오픈R을 소개합니다

생성형 AI(Generative AI)는 인공 지능 커뮤니티를 휩쓸었습니다. 개인과 기업 모두 Vincent 사진, Vincent 비디오, Vincent 음악 등과 같은 관련 모달 변환 애플리케이션을 만드는 데 열중하기 시작했습니다. 최근 ServiceNow Research, LIVIA 등 과학 연구 기관의 여러 연구자들이 텍스트 설명을 기반으로 논문에서 차트를 생성하려고 시도했습니다. 이를 위해 그들은 FigGen이라는 새로운 방법을 제안했고, 관련 논문도 ICLR2023에 TinyPaper로 포함됐다. 그림 논문 주소: https://arxiv.org/pdf/2306.00800.pdf 어떤 사람들은 '논문에서 차트를 생성하는 데 무엇이 그렇게 어렵나요?'라고 묻습니다. 이것이 과학 연구에 어떻게 도움이 됩니까?

CoRL은 2017년 처음 개최된 이후 로봇공학과 머신러닝이 교차하는 분야에서 세계 최고의 학술 컨퍼런스 중 하나로 자리매김했습니다. CoRL은 이론과 응용을 포함하여 로봇공학, 기계학습, 제어 등 다양한 주제를 다루는 로봇학습 연구를 위한 단일 주제 컨퍼런스입니다. 2023 CoRL 컨퍼런스는 11월 6일부터 9일까지 미국 애틀랜타에서 개최됩니다. 공식 자료에 따르면 올해 CoRL에는 25개국 199편의 논문이 선정됐다. 인기 있는 주제로는 운영, 강화 학습 등이 있습니다. CoRL은 AAAI, CVPR 등 대규모 AI 학술회의에 비해 규모는 작지만, 올해 대형 모델, 체화된 지능, 휴머노이드 로봇 등 개념의 인기가 높아지면서 관련 연구도 주목할 만하다.

방금 CVPR 2023에서는 다음과 같은 기사를 발표했습니다. 올해 우리는 기록적인 9,155편의 논문을 접수했으며(CVPR2022보다 12% 더 많음), 2,360편의 논문을 접수했으며 합격률은 25.78%입니다. 통계에 따르면 2010년부터 2016년까지 7년간 CVPR 제출 건수는 1,724건에서 2,145건으로 증가하는 데 그쳤다. 2017년 이후 급등하며 급속한 성장기에 접어들었고, 2019년에는 처음으로 5,000건을 돌파했고, 2022년에는 투고 건수가 8,161건에 이르렀다. 보시다시피 올해 총 9,155편의 논문이 제출되어 역대 최고 기록을 세웠습니다. 전염병이 완화된 후 올해 CVPR 정상회담은 캐나다에서 개최될 예정입니다. 올해는 단일 트랙 컨퍼런스 형식을 채택하고 기존 구술 선발 방식을 폐지한다. 구글 조사

모든 사람이 계속해서 자신의 대형 모델을 업그레이드하고 반복함에 따라 컨텍스트 창을 처리하는 LLM(대형 언어 모델)의 능력도 중요한 평가 지표가 되었습니다. 예를 들어, 스타 모델 GPT-4는 50페이지의 텍스트에 해당하는 32k 토큰을 지원합니다. OpenAI의 전 멤버가 설립한 Anthropic은 Claude의 토큰 처리 능력을 약 75,000단어에 해당하는 100k로 늘렸습니다. "해리포터"를 한 번의 클릭으로 요약하는 것과 같습니다. "First. Microsoft의 최신 연구에서는 이번에 Transformer를 10억 개의 토큰으로 직접 확장했습니다. 이는 전체 코퍼스 또는 전체 인터넷을 하나의 시퀀스로 처리하는 등 매우 긴 시퀀스를 모델링하는 새로운 가능성을 열어줍니다. 비교하자면 일반적인
