4월 4일자 소식에 따르면 OpenAI의 최신 언어 모델 GPT-4는 인간처럼 다양한 텍스트를 생성할 수 있을 뿐만 아니라 테스트를 설계하고 실행하여 자체 성능을 평가하고 향상시킬 수 있습니다. 이 "반사" 기술을 통해 GPT-4는 많은 어려운 테스트에서 상당한 개선을 달성할 수 있었고 테스트 성능은 30% 향상되었습니다.
GPT-4는 GPT, GPT-2, GPT-3 이후 OpenAI가 출시한 가장 발전된 시스템으로, 현재 가장 큰 다중 모드 모델입니다(이미지 및 텍스트 입력 및 텍스트 출력 가능). 인공 신경망을 사용하여 인간의 글쓰기를 모방하는 딥 러닝 기술을 활용합니다.
연구원 Noah Shinn과 Ashwin Gopinath는 논문에서 다음과 같이 썼습니다. "우리는 AI 에이전트가 인간의 자아를 시뮬레이션하고 자신의 성능을 평가할 수 있는 새로운 기술을 개발했습니다. 다양한 테스트를 완료할 때 GPT-4는 몇 가지 추가 단계를 추가합니다. 자체 테스트를 설계하여 자체 답변을 확인하고, 오류와 단점을 식별한 다음, 결과에 따라 개선할 수 있습니다.”
HumanEval 코딩 테스트에서 GPT-4는 자체 테스트를 사용합니다. 반사 루프를 사용하여 정확도가 67%에서 88%로 증가합니다
GPT-4는 설계 및 실행 테스트를 통과할 수 있습니다. AlfWorld 테스트 결과에서 볼 수 있듯이 자체 성능을 비판하면 성능이 크게 향상될 수 있습니다
연구팀은 이 기술을 사용하여 GPT-4에 대한 여러 가지 성능 테스트를 수행했습니다. HumanEval 테스트에서 GPT-4는 이전에 볼 수 없었던 164개의 Python 프로그래밍 문제를 해결해야 했습니다. 원래 정확도는 67%였으며 반사 기술을 사용한 후에는 정확도가 88%로 증가했습니다. Alfworld 테스트에서 AI는 다양한 대화형 환경에서 허용된 여러 작업을 수행하여 결정을 내리고 다단계 작업을 해결해야 합니다. 반사 기술을 사용한 후 GPT-4의 정확도는 73%에서 97%로 증가했으며 단 4개의 작업 실패만 발생했습니다. HotPotQA 테스트에서 GPT-4는 Wikipedia에 액세스하여 여러 지원 문서의 내용 분석과 추론이 필요한 100개의 질문에 답했습니다. 원래 정확도는 34%였으며, 반사 기술을 사용한 후 정확도는 54%로 증가했습니다.
이 연구는 AI 문제에 대한 해결책이 때때로 AI 자체에 의존한다는 것을 보여줍니다. IT House는 이것이 두 AI가 서로의 기술을 향상시키는 방법인 생성적 적대 네트워크와 약간 비슷하다는 것을 발견했습니다. 예를 들어 한 AI는 실제 그림처럼 보이는 일부 그림을 생성하려고 시도하고 다른 AI는 구별을 시도합니다. 어느 것이 가짜인지. 하지만 이 경우 GPT는 작가이자 편집자로서 자기 성찰을 통해 결과물의 품질을 향상시킵니다.
위 내용은 '자기 성찰' 이후 GPT-4의 능력이 크게 향상되었으며, 테스트 성능이 30% 증가했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!