강화 학습 모델은 정확성, 일관성, 게임 숙달 또는 하나의 정답 찾기가 목표인 경우 생성 AI를 능가합니다.
GPT-4와 같은 대규모 언어 모델은 매우 설득력 있는 고품질의 부드럽고 자연스러운 텍스트를 생성할 수 있다는 점에서 주목할 만합니다. 안타깝게도 과장된 광고도 마찬가지입니다. Microsoft 연구자들은 Microsoft가 자금을 지원한 OpenAI GPT-4 모델을 "일반 인공 지능의 불꽃"을 보여주는 것으로 숨 막히게 설명합니다.
물론 Microsoft가 환각 경향을 언급하지 않는 한 생성된 오류 텍스트는 잘못된 것임에 틀림없습니다. GPT는 체스나 바둑 같은 게임을 잘하지 못하고 수학도 잘하지 못하며, GPT가 작성하는 코드에는 오류와 미묘한 허점이 있을 수 있습니다.
이것이 대규모 언어 모델이 모두 과대 광고라는 의미는 아닙니다. 다른 기술과의 차이점을 지나치게 과장하지 않고 GenAI(생성 인공 지능)를 논의하려면 몇 가지 새로운 각도가 필요합니다.
IEEESpectrum 기사에 자세히 설명된 것처럼 OpenAI의 Ilya Sutskever와 같은 일부 전문가는 인간의 피드백으로 강화 학습을 추가하면 LLM 환상을 없앨 수 있다고 믿습니다. 그러나 Meta의 Yann LeCun 및 Geoff Hinton(최근 Google에서 은퇴)과 같은 사람들은 대규모 언어 모델에 더 근본적인 결함이 있다고 생각합니다. 두 사람 모두 대규모 언어 모델에는 언어가 설명하는 근본적인 현실을 이해하는 데 중요한 비언어적 지식이 부족하다고 믿습니다.
Diffblue의 CEO인 Mathew Lodge는 인터뷰에서 더 나은 솔루션이 있다고 지적했습니다. 그는 "작고 빠르며 저렴한 강화 학습 모델은 게임 플레이부터 코드 작성까지 다양한 작업에서 수천억 개의 매개변수를 사용하는 대규모 언어 모델을 쉽게 물리칠 수 있습니다."라고 말했습니다. AI 골드를 찾으려면?
체스 그랜드 마스터 Levy Rozman이 ChatGPT(채팅 기반 인공 지능)와 대결하는 영상을 게시했습니다. 모델은 자신의 조각을 캡처하는 것을 포함하여 일련의 우스꽝스럽고 불법적인 움직임을 보였습니다. 최고의 오픈 소스 체스 소프트웨어(신경망을 전혀 사용하지 않는 Stockfish)를 사용하면 대규모 언어 모델이 합법적인 움직임을 찾을 수 없기 때문에 ChatGPT가 10개 미만의 움직임으로 이길 수 있습니다. 이는 대규모 언어 모델이 일반 인공 지능의 주장에 훨씬 못 미친다는 것을 증명하며, 이는 고립된 예가 아닙니다.
강화 학습 알고리즘으로 인해 Google AlphaGo는 현재 가장 성능이 뛰어난 바둑 인공 지능입니다. 강화 학습은 문제에 대한 다양한 솔루션을 생성하고, 이를 시도하고, 결과를 사용하여 다음 제안을 개선한 다음 프로세스를 수천 번 반복하여 최상의 결과를 찾는 방식으로 작동합니다.
AlphaGo의 경우 AI는 다양한 수를 시도하고 이것이 좋은 수인지, 이 위치에서 게임에서 승리할 가능성이 있는지 예측합니다. 피드백을 사용하여 유망한 동작 순서를 "추적"하고 다른 가능한 동작을 생성합니다. 효과는 가능한 움직임을 검색하는 것입니다.
이 프로세스를 확률 검색이라고 합니다. 동작은 많지만 모두 시도할 필요는 없지만 인내심을 갖고 가장 좋은 동작을 찾을 수 있는 영역을 검색할 수 있습니다. 이것은 게임에 아주 효과적입니다. 알파고는 과거에도 바둑 고수들을 이겼습니다. AlphaGo는 완벽한 것은 아니지만 현재 사용할 수 있는 최고의 대규모 언어 모델보다 더 나은 성능을 발휘합니다.
확률 대 정확도
가장 좋은 논증은 귀납법이라고 할 수 있습니다. GPT-4는 크기가 더 크기 때문에 일부 언어 작업에서는 GPT-3보다 낫습니다. 따라서 더 큰 모델이 더 좋습니다.
Lodge의 견해는 GPT-4가 여전히 GPT-3가 직면한 과제를 극복해야 하므로 문제가 있다는 것입니다. 그 중 하나는 수학입니다. GPT-4는 덧셈 연산에서는 GPT-3보다 우수하지만 곱셈 및 기타 수학 연산에서는 여전히 병목 현상이 있습니다.
언어 모델의 크기를 늘려도 이러한 문제가 마법처럼 해결되지 않으며 OpenAI에 따르면 더 큰 모델은 해결책이 아닙니다. 그 이유는 OpenAI 포럼이 지적한 것처럼 대규모 언어 모델의 근본적인 특성에 있습니다. “대규모 언어 모델은 본질적으로 확률적이며 수학 및 물리학 문제에서 관찰한 패턴을 기반으로 가능한 출력을 생성하여 작동합니다. , 하나의 정답을 찾을 가능성은 희박합니다.”
인공지능 과정에서 강화학습을 기반으로 하는 방법은 목표를 추구하는 과정이기 때문에 더욱 정확한 결과를 도출할 수 있습니다. 강화학습은 원하는 목표를 달성하기 위해 목표에 가장 가까운 최선의 답을 반복적으로 찾습니다. Lodge는 대규모 언어 모델 코스가 "목표를 반복하거나 찾기 위해 설계되지 않았습니다. 한두 번 '충분히 좋은' 답변을 제공하도록 설계되었습니다."라고 지적합니다.
"원샷" 답변은 모델은 프롬프트의 단어 시퀀스를 예측하여 첫 번째 답을 얻습니다. "퓨샷 학습"에는 더 나은 예측을 생성하는 데 도움이 되도록 모델에 추가 샘플이나 단서를 제공하는 것이 포함됩니다. 대규모 언어 모델은 종종 더 나은 답변의 가능성을 높이기 위해 임의성을 추가(즉, "무작위화")하므로 동일한 질문에 대해 다른 답변을 제공합니다.
대규모 언어 모델 세계가 강화 학습을 무시하는 것은 아닙니다. GPT-4는 "인간 피드백과 강화 학습"(RLHF)을 결합합니다. 인간 조작자가 훈련한 핵심 모델은 특정 답을 선호하지만, 이것이 처음에 모델이 생성한 답을 근본적으로 바꾸지는 않습니다. Lodge는 대규모 언어 모델이 "Wayne Gretzky likes ice..."라는 문장의 공백을 메우기 위해 다음과 같은 옵션을 제공할 수 있다고 지적합니다.
1. 웨인 그레츠키는 아이스크림을 좋아합니다.
2. 웨인 그레츠키는 아이스하키를 좋아합니다.
3. 웨인 그레츠키는 얼음 낚시를 좋아합니다.
4. 웨인 그레츠키는 스케이트를 좋아합니다.
5. 웨인 그레츠키는 아이스 와인을 좋아합니다.
인간 운영자가 답변을 분류하면서 전설적인 캐나다 하키 선수가 아이스크림의 폭넓은 매력에도 불구하고 아이스하키와 스케이팅을 선호한다는 결론을 내렸을 수도 있습니다. 사람이 순위를 매기고 더 많은 사람이 작성한 응답을 사용하여 모델을 훈련합니다. GPT-4는 Wayne Gretzky의 선호도를 정확하게 아는 척하지 않으며 메시지가 표시될 때 가능한 최선의 작업을 수행할 뿐입니다.
마지막으로 대규모 언어 모델은 매우 정확하거나 일관성이 있도록 설계되지 않았습니다. 일반성을 대가로 정확도와 결정론적 동작 사이에는 균형이 있습니다. Lodge에게 이것이 의미하는 바는 AI를 대규모로 적용할 때 강화 학습이 생성 AI를 능가한다는 것입니다.
소프트웨어 개발은 어떻습니까? 제가 이 글을 쓰는 동안 GenAI는 이미 GitHubCopilot 또는 AmazonCodeWhisperer와 같은 도구를 사용하여 생산성을 높이려는 개발자에게 기회를 열어주고 있습니다. 이것은 추측이 아닙니다. 그런 일이 일어났습니다. 이러한 도구는 통합 개발 환경에서 삽입 지점 전후의 코드를 기반으로 다음에 나타날 코드를 예측할 수 있습니다.
실제로 Visual Studio Magazine의 David Ramel이 말했듯이 최신 버전의 Copilot은 이미 Java 코드의 61%를 생성합니다. 이로 인해 소프트웨어 개발자의 작업이 줄어들 것이라고 우려하는 분들은 이러한 도구를 사용하려면 코드가 올바르게 컴파일되고 실행되도록 완료를 확인하고 편집하기 위해 부지런한 사람의 감독이 필요하다는 점을 기억하십시오. 자동 완성 기능은 초창기부터 IDE의 필수 요소였으며 Copilot 및 기타 코드 생성기를 통해 더욱 유용해졌습니다. 대규모 자율 코딩은 다릅니다. 실제로 Java 코드의 61%를 작성해야 합니다.
그러나 강화 학습은 대규모의 정밀한 자율 코딩을 가능하게 한다고 Lodge는 말했습니다. 물론 그는 이렇게 말하는 데 큰 관심을 갖고 있습니다. 2019년에 그의 회사인 Diffblue는 강화 학습을 기반으로 한 상용 단위 테스트 작성 도구인 Cover를 출시했습니다. Cover는 사람의 개입 없이 완전한 단위 테스트 모음을 작성하므로 복잡하고 오류가 발생하기 쉬운 작업을 대규모로 자동화할 수 있습니다.
롯지는 편파적인 편인가요? 그는 강화 학습이 소프트웨어 개발에서 GenAI를 능가한다는 자신의 믿음을 정당화하는 많은 경험을 가지고 있습니다. 오늘날 Diffblue는 강화 학습을 사용하여 가능한 모든 테스트 방법의 공간을 검색하고 각 방법에 대한 테스트 코드를 자동으로 작성하며 작성된 테스트 중에서 가장 좋은 테스트를 선택합니다. 강화 학습 보상 기능은 테스트 범위 및 미학을 포함한 다양한 기준을 기반으로 하며, 그 중 하나에는 사람이 작성한 코딩 스타일을 따르는 것이 포함됩니다. 이 도구는 평균 1초 안에 각 방법에 대한 테스트를 생성합니다.
Lodge는 아무도 이해하지 못하는 프로그램에 대한 10,000개의 단위 테스트를 자동으로 작성하는 것이 목표라면 강화 학습이 유일한 실제 솔루션이라고 믿습니다. "대규모 언어 모델은 경쟁할 수 없습니다. 인간은 이 규모에서 모델을 효과적으로 감독하고 코드를 수정할 방법이 없습니다. 모델을 더 크고 복잡하게 만드는 것은 이 문제를 해결하지 못합니다.
결론: 대규모 언어 모델이 가장 강력합니다." 이는 범용 언어 프로세서라는 사실에 있습니다. 그들은 명시적으로 훈련받지 않은 언어 작업을 수행할 수 있습니다. 이는 그들이 콘텐츠 생성(카피라이팅) 및 기타 여러 가지 일을 훌륭하게 수행할 수 있음을 의미합니다. Lodge는 다음과 같이 강조했습니다. "그러나 이것이 더 정확하고 일관되며 대규모로 사용할 수 있는 강화 학습을 기반으로 하는 인공 지능 모델을 대규모 언어 모델로 대체하는 것은 아닙니다."
위 내용은 대규모 언어 모델이 코딩에 적합하지 않습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!