2022년 마지막 달, OpenAI는 오랫동안 기다려온 GPT-4는 아니지만 인기 대화 로봇인 ChatGPT로 일년 내내 사람들의 기대에 부응했습니다.
ChatGPT를 사용해 본 사람이라면 누구나 ChatGPT가 진정한 "육각형 전사"라는 것을 이해할 수 있습니다. ChatGPT는 채팅, 검색, 번역에 사용할 수 있을 뿐만 아니라 스토리 작성, 코드 작성, 디버깅 및 작업에도 사용할 수 있습니다. 작은 프로젝트도 개발하고, 게임도 하고, 미국 대학 입학 시험도 치르고... 어떤 사람들은 이제부터 인공지능 모델은 ChatGPT와 두 가지밖에 없을 것이라고 농담했습니다.
출처: https://twitter.com/Tisoga/status/1599347662888882177
ChatGPT는 놀라운 기능으로 인해 출시 후 단 5일 만에 100만 명의 사용자를 유치했습니다. 많은 사람들은 이러한 추세가 계속된다면 ChatGPT가 곧 Google과 같은 검색 엔진과 Stack Overflow와 같은 프로그래밍 질문 및 답변 커뮤니티를 대체할 것이라고 과감하게 예측합니다. ㅋㅋㅋ , 그리고 보지 마세요 조심스럽게 볼 수도 없기 때문에 질문에 대한 답변이 혼란스러워집니다. 이 "매우 강력하지만 오류가 발생하기 쉬운" 속성은 외부 세계에 많은 논의 여지를 제공했습니다. 모두가 알고 싶어합니다.
ChatGPT의 단점은 무엇인가요? 미래에는 검색엔진을 대체하게 될까요?
그것의 출현은 우리 AI 연구에 어떤 영감을 주나요?
Xiaohongshu 커뮤니티 부서의 멀티미디어 지능형 알고리즘 책임자인 Zhang Debing은 GreenTong의 수석 과학자이자 Kuaishou의 다중 모드 지능형 생성 책임자였습니다. 그는 기술 연구에 풍부한 경험을 가지고 있습니다. 국제 권위 있는 얼굴 인식 대회에서 FRVT 세계 챔피언십을 포함해 여러 학술 대회 우승을 차지했으며, 보안, 소매, 보안 등 TO B 시나리오에 CV, 멀티 모달 및 기타 기술 적용을 촉진했습니다. 스포츠는 물론, 단편 영상, 광고 등 C사이드 시나리오에서도 사업을 진행했습니다.
세 명의 게스트가 진행한 토론에서는 ChatGPT의 현재 기능과 문제점에 초점을 맞추었을 뿐만 아니라 향후 동향과 전망에 대해서도 기대했습니다. 다음에서는 교류 내용을 정리하고 요약한다. OpenAI 공동 창업자인 Greg Brockman은 최근 트위터를 통해 2023년은 2022년이 AI 발전과 도입에 있어서 지루한 해가 될 것이라고 말했습니다. 이미지 출처: https://twitter.com/gdb/status/1609244547460255744 ChatGPT를 사용해 본 많은 사람들처럼 세 명의 게스트도 ChatGPT의 강력한 기능에 깊은 인상을 받았습니다. 그 중 Zhang Debing은 ChatGPT를 Linux 터미널로 작동시키는 예를 들었습니다. ChatGPT에 대략적인 시스템 구성을 알려주고 이를 기반으로 몇 가지 명령을 실행하도록 하는 것입니다. ChatGPT는 긴 작업 기록을 기억할 수 있다는 것이 밝혀졌습니다. , 이전과 이후의 논리적 관계는 매우 일관됩니다(예를 들어 파일에 몇 줄의 문자를 쓴 다음 파일에 어떤 문자가 기록되었는지 표시하면 표시됩니다). DeepMind 연구원 Jonas Degrave는 ChatGPT를 사용하여 Linux 터미널의 예로 작동합니다. 사진 출처: https://www.engraved.blog/building-a-virtual-machine-inside/ 이 결과로 인해 Zhang Debing 등은 ChatGPT가 사용자를 속이기 위해 백그라운드에서 터미널을 열었는지 궁금해했습니다. 그래서 그들은 몇 가지 테스트를 수행했습니다. ChatGPT가 매우 복잡한 명령을 실행하도록 합니다(예: 두 개의 for 루프는 각각 10억 번 실행됩니다). ChatGPT가 실제로 터미널을 열면 잠시 동안 작동이 중단됩니다. 결과는 예상치 못한 것이었습니다. ChatGPT는 이 프로세스를 빠르게 건너뛰고 이 명령 다음에 다음 결과를 표시했습니다. 이로 인해 Zhang Debing과 다른 사람들은 ChatGPT가 전체 데모의 논리를 대략적으로 이해했으며 특정 "사고" 능력을 가지고 있음을 깨닫게 되었습니다. 그렇다면 이 강력한 능력은 어디서 나오는 걸까요? Zhang Lei는 두 가지 가설을 제시했습니다. 한 가지 가설은 이 능력 자체가 대형 모델에 내장되어 있는데 이전에 제대로 출시한 적이 없다는 것이고, 또 다른 가설은 대형 모델에 내장된 능력이 실제로 그렇게 강하지 않아서 인간을 사용해야 한다는 것입니다. 이를 처리할 수 있는 힘이 있습니다. . Zhang Debing과 Li Lei는 모두 첫 번째 가설에 동의합니다. GPT-3 및 후속 모델에서 사용하는 "사전 훈련 + 프롬프트" 패러다임에서는 대규모 모델을 훈련하고 미세 조정하는 데 필요한 데이터 양에 몇 차수 차이가 있음을 직관적으로 확인할 수 있기 때문입니다. 데이터의 양은 훨씬 더 분명합니다. 더욱이 그들이 사용하는 상황 내 학습은 모델 매개변수 업데이트가 필요하지 않으며 모델이 답변을 출력하도록 유도하기 위해 입력 텍스트의 컨텍스트에 소수의 레이블이 지정된 샘플만 넣으면 됩니다. 이는 ChatGPT의 강력한 기능이 실제로 내생적임을 나타내는 것 같습니다. 기존 미세 조정 방법과 GPT-3의 상황별 학습 방법 비교. 또한 ChatGPT의 힘은 비밀 무기인 RLHF(Reinforcement Learning with Human Feedback)이라는 훈련 방법에 의존합니다. OpenAI에서 발표한 공식 정보에 따르면 이 훈련 방법은 세 단계로 나눌 수 있습니다[1]: 이 세 단계 중 두 단계는 RLHF에서 소위 '인간 피드백'이라고 불리는 수동 주석을 사용합니다. Li Lei는 이 방법으로 얻은 결과가 예상치 못한 것이라고 말했습니다. 이전에는 기계 번역 연구를 할 때 일반적으로 BLEU 점수(사람의 판단과 강한 상관관계가 있는 빠르고 저렴하며 언어 독립적인 자동 기계 번역 평가 방법)를 사용하여 모델을 안내하는 경우가 있었습니다. 모델이 점점 더 커지면 그 효과는 계속 약해집니다. 그래서, 그들의 경험에 따르면 GPT-3와 같은 매우 큰 모델을 피드백의 도움으로 훈련시키는 것은 이론적으로 크게 향상되지 않습니다. 그러나 ChatGPT의 놀라운 결과는 이러한 경험을 뒤집습니다. Li Lei는 이것이 ChatGPT에 대해 모든 사람에게 충격을 주고 모든 사람에게 연구 개념을 바꾸도록 상기시키는 것이라고 믿습니다. 그러나 세 명의 손님은 충격에도 불구하고 ChatGPT의 현재 단점도 지적했습니다. 우선 앞서 언급했듯이 생성되는 답변 중 일부는 정확하지 않고 "심각한 넌센스"가 때때로 나타나며 논리적 추론이 그리 좋지 않습니다. 이미지 출처 : https://m.huxiu.com/article/735909.html 두 번째로 ChatGPT와 같은 대형 모델을 실용화하려면 배포가 필요합니다. 필수 비용이 상당히 높습니다. 그리고 현재 모델이 크기를 한두 배 줄여서 이러한 강력한 기능을 유지할 수 있다는 명확한 증거는 없습니다. "이러한 놀라운 기능을 대규모로만 유지할 수 있다면 아직 적용하기에는 멀었습니다."라고 Zhang Debing은 말했습니다. 마지막으로 ChatGPT는 일부 특정 작업(예: 번역)에 대해 SOTA에 도달하지 못할 수 있습니다. ChatGPT의 API는 아직 출시되지 않았고 일부 벤치마크에서는 그 기능을 알 수 없지만 Li Lei의 학생들은 GPT-3 테스트 중에 GPT-3가 번역 작업을 훌륭하게 완료할 수 있지만 ChatGPT만큼 좋지 않다는 것을 발견했습니다. 현재 모델은 별도로 학습된 이중 언어 모델이 여전히 더 나쁩니다(BLEU 점수 차이는 5~10점). 이를 바탕으로 Li Lei는 ChatGPT가 일부 벤치마크에서 SOTA에 도달하지 못할 수도 있고 심지어 SOTA에서 어느 정도 떨어져 있을 수도 있다고 추측했습니다. ChatGPT가 Google과 같은 검색 엔진을 대체할 수 있나요? AI 연구에 어떤 영감을 주나요?
이와 관련하여 Li Lei는 지금 교체에 관해 이야기하기에는 다소 이르다고 생각합니다. 우선, 신기술의 대중성과 상업적 성공 사이에는 종종 깊은 격차가 존재한다. 초기에는 구글 글래스도 차세대 상호작용 방식이 될 것이라고 말했지만, 그 약속을 지키지 못했다. 지금까지. 둘째, ChatGPT는 일부 질문 및 답변 작업에서 검색 엔진보다 더 나은 성능을 발휘하지만 검색 엔진이 수행하는 요구 사항은 이러한 작업에만 국한되지 않습니다. 따라서 그는 반드시 기존의 성숙한 제품을 대체하는 것을 목표로 하기보다는 ChatGPT 자체의 장점을 기반으로 제품을 만들어야 한다고 믿습니다. 후자는 매우 어려운 일입니다. 많은 AI 연구자들은 최근 인기 있는 "youChat"에서 알 수 있듯이 ChatGPT와 검색 엔진이 함께 작동할 수 있다고 믿습니다. 이미지 출처: https://twitter.com/rasbt/status/1606661571459137539 Zhang Debing도 비슷한 견해를 갖고 있으며, ChatGPT가 단기적으로 검색 엔진을 대체하는 것은 비현실적이라고 믿습니다. 인터넷 리소스에 액세스할 수 없으면 오해의 소지가 있는 정보가 생성될 수 있는 등 여전히 많은 문제가 있습니다. 또한, 그 능력이 다중 모드 검색 시나리오로 일반화될 수 있는지 여부는 여전히 불분명합니다. 하지만 ChatGPT의 등장이 실제로 AI 연구자들에게 많은 영감을 주었다는 것은 부인할 수 없습니다. Li Lei는 가장 주목할만한 점은 상황 내 학습 능력이라고 지적했습니다. 이전의 많은 연구에서 모든 사람들은 어떤 방식으로든 기존 모델의 잠재력을 활용하는 방법을 무시했습니다(예를 들어 기계 번역 모델은 더 나은 번역을 생성할 수 있는지 확인하기 위한 힌트를 제공하지 않고 번역에만 사용됩니다). 하지만 GPT-3과 ChatGPT가 해냈습니다. 따라서 Li Lei는 모든 이전 모델을 이러한 형태의 맥락 내 학습으로 변경하고 텍스트, 이미지 또는 기타 형태의 프롬프트를 제공하여 능력을 최대한 발휘할 수 있는지 생각했습니다. 유망한 연구 방향. 두 번째 주목할만한 점은 ChatGPT 에서 중요한 역할을 하는 사람의 피드백입니다. Li Lei는 실제로 Google 검색의 성공은 주로 인간의 피드백(검색 결과를 클릭할지 여부)을 쉽게 얻을 수 있기 때문이라고 언급했습니다. ChatGPT는 사람들에게 답변을 작성하고 모델에서 생성된 답변의 순위를 매기도록 요청하여 많은 인간 피드백을 얻습니다. 그러나 이 획득 방법은 상대적으로 비용이 많이 듭니다(최근 일부 연구에서는 이 문제를 지적했습니다). 따라서 Li Lei는 앞으로 우리가 고려해야 할 것은 어떻게 하면 저렴한 비용으로 효율적으로 많은 양의 인간 피드백을 얻을 수 있는지라고 믿습니다. 사진 출처: https://twitter.com/yizhongwyz/status/1605382356054859777 다중 양식에 종사하는 사람 Xiaohongshu 역동적인 지능 창조를 연구하는 Zhang Debing에게 ChatGPT는 또한 많은 영감을 제공합니다. 우선, 이 모델은 복잡한 다단계 대화, 다양한 쿼리의 일반화, 생각의 연쇄(Chain of Thought) 등 다양한 시나리오에서 소규모 모델에 비해 대규모 NLP 모델의 상당한 개선을 직관적으로 보여줍니다. 관련 기능은 현재 소형 모델에서는 사용할 수 없습니다. Zhang Debing은 NLP 대형 모델의 이러한 관련 기능이 크로스 모달 생성에서도 시도되고 검증될 수 있다고 믿습니다. 현재 크로스 모달 모델은 모델 규모에서 GPT-3 및 ChatGPT에 비해 여전히 상당한 격차가 있으며 NLP 분기 표현 기능의 향상을 보여주는 크로스 모달 시나리오 작업도 많이 있어 정교함에 영향을 미칩니다. 시각적 생성 결과에 많은 도움이 됩니다. 크로스모달 모델의 규모가 더욱 확장될 수 있다면 모델 역량의 '출현'도 기대해 볼 만할 것입니다. 둘째, 1세대 GPT-3처럼 현재의 멀티모달 세대 결과는 선택했을 때 매우 좋고 놀라운 결과를 볼 수 있는 경우가 많지만, 세대 제어성은 여전히 개선의 여지가 많습니다. ChatGPT는 이 문제를 어느 정도 개선한 것으로 보이며, 생성된 것들은 인간의 바람에 더 부합합니다. 따라서 Zhang Debing은 고품질 데이터 기반의 미세 조정, 강화 학습 등 ChatGPT의 여러 아이디어를 참조하여 크로스 모달 생성을 시도할 수 있다고 지적했습니다.. 이 연구 결과는 전자상거래 및 기타 시나리오의 지능형 고객 서비스, 검색 시나리오의 사용자 쿼리 및 사용자 메모에 대한 보다 정확한 이해, 스마트 생성 시나리오의 사용자 이해를 포함하여 Xiaohongshu의 다양한 비즈니스에 적용될 것입니다. 자료는 지능형 사운드트랙, 카피라이팅 생성, 크로스모달 변환 및 생성 생성 등에 사용됩니다. 각 시나리오에서 모델 크기가 압축되고 모델 정확도가 지속적으로 향상됨에 따라 애플리케이션의 깊이와 폭이 계속해서 향상되고 확장됩니다. 월간 활성 사용자가 2억 명에 달하는 UGC 커뮤니티인 Xiaohongshu는 커뮤니티 콘텐츠의 풍부함과 다양성을 갖춘 매우 대규모의 다중 모드 데이터 컬렉션을 만들었습니다. 정보 검색, 정보 추천, 정보 이해, 특히 지능 창조 관련 기술 분야에서 대량의 실제 데이터가 축적되었으며, 기반이 되는 다중 모드 학습, 통합 표현 학습 및 기타 방향에서도 독특하고 실용적인 혁신을 제공합니다. 이 들판. Xiaohongshu는 여전히 강력한 성장 모멘텀을 유지하고 있는 몇 안 되는 인터넷 제품 중 하나입니다. 그래픽, 텍스트 및 비디오 콘텐츠에 동등하게 관심을 기울이는 제품 형태 덕분에 Xiaohongshu는 멀티모달, 오디오 및 비디오 분야에서 강력한 입지를 확보하고 있습니다. 검색 및 방송 푸시 필드는 많은 최첨단 응용 프로그램 문제에 직면하고 발생합니다. 이로 인해 많은 기술 인재들이 합류하게 되었습니다. Xiaohongshu 기술팀의 많은 구성원은 Google, Facebook, BAT 등 국내외 일류 제조업체에서 근무한 경험이 있습니다. 이러한 기술적 과제는 기술 인력에게 새로운 분야에 완전히 참여하거나 중요한 역할을 할 수 있는 기회도 제공합니다. 앞으로 Xiaohongshu 기술팀이 제공할 수 있는 인재 성장의 공간은 그 어느 때보다 넓어질 것이며, 더욱 뛰어난 AI 기술 인재들의 합류를 기다리고 있습니다. 동시에 Xiaohongshu는 업계와의 소통도 매우 중요하게 생각합니다. "REDtech iscoming"은 업계 선두를 위해 Xiaohongshu 기술팀이 만든 기술 생방송 칼럼입니다. 올해 초부터 Xiaohongshu 기술팀은 다중 양식, NLP, 기계 학습, 추천 알고리즘 등 분야의 리더, 전문가 및 학자들과 심층적인 교류와 대화를 진행하여 문제를 탐구하고 해결하기 위해 노력해 왔습니다. 학문적 연구와 Xiaohongshu의 실제 경험을 통해 귀중한 기술적 문제를 논의합니다. ChatGPT의 강력한 기능은 어디서 나오는 걸까요?
ChatGPT에 대한 다양한 논의 중 가장 뜨거운 주제는 '검색엔진을 대체할 수 있을까'입니다. 최근 New York Times는 ChatGPT의 인기로 인해 Google이 강력한 적처럼 느껴졌다고 보도했습니다. 그들은 모두가 ChatGPT와 같은 챗봇을 사용하면 광고가 포함된 Google 링크를 클릭하는 사람이 아무도 없을 것이라고 우려하고 있습니다. 전체 수익의 81.4%). The New York Times가 입수한 메모와 녹음에서 Google CEO Sundar Pichai는 "Google의 AI 전략을 정의"하고 "ChatGPT 위협의 영향을 처리하기 위한 회사 내 여러 팀의 작업을 방해"하기 위해 회의를 진행했습니다.[2 ].
Xiaohongshu "잔디 심기" 신기술
위 내용은 ChatGPT의 카니발 뒤에는 여전히 단점이 있지만 2023년에 할 수 있는 많은 영감이 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!