ChatGPT vs Google Bard: 어느 것이 더 낫나요? 테스트 결과가 말해줄 거예요!-일체 포함-php.cn

ChatGPT vs Google Bard: 어느 것이 더 낫나요? 테스트 결과가 말해줄 거예요!

오늘날의 생성 AI 챗봇 세계에서 우리는 ChatGPT(2022년 11월 OpenAI 출시)의 급격한 상승을 목격했고, 이어서 올해 2월 Bing Chat, 3월 Google Bard가 뒤따랐습니다. 우리는 어느 것이 AI 챗봇 공간을 지배하는지 결정하기 위해 이러한 챗봇을 다양한 작업에 투입하기로 결정했습니다. Bing Chat은 최신 ChatGPT 모델과 유사한 GPT-4 기술을 사용하므로 이번에는 AI 챗봇 기술의 두 거대 기업인 OpenAI와 Google에 중점을 둡니다.

저희는 농담, 토론 대화, 수학 단어 문제, 요약, 사실 검색, 창의적인 글쓰기, 코딩 등 7가지 주요 범주에서 ChatGPT와 Bard를 테스트했습니다. 각 테스트에 대해 우리는 정확히 동일한 명령("프롬프트"라고 함)을 ChatGPT(GPT-4 사용) 및 Google Bard에 입력하고 비교할 첫 번째 결과를 선택했습니다.

이전 GPT-3.5 모델을 기반으로 한 ChatGPT 버전도 사용할 수 있지만 테스트에서는 해당 버전을 사용하지 않았습니다. 우리는 GPT-4만 사용하므로 혼동을 피하기 위해 이 문서에서는 ChatGPT를 "ChatGPT-4"라고 부릅니다.

분명히 이것은 과학적 연구가 아니라 단지 챗봇 기능에 대한 흥미로운 비교입니다. 무작위 요소로 인해 출력은 세션마다 다를 수 있으며, 다른 프롬프트를 사용하여 추가 평가를 수행하면 다른 결과가 생성됩니다. 또한 Google과 OpenAI가 지속적으로 모델을 업그레이드함에 따라 이러한 모델의 기능은 시간이 지남에 따라 빠르게 변경될 것입니다. 하지만 현재로서는 2023년 4월 초의 상황을 비교해 보겠습니다.

Bad Jokes

우리의 지혜 싸움을 더욱 뜨겁게 만들기 위해 ChatGPT와 Bard에게 농담을 써 달라고 요청했습니다. 코미디의 본질은 종종 나쁜 농담에서 발견되기 때문에 우리는 이 두 챗봇이 독특한 농담을 만들어낼 수 있는지 확인하고 싶었습니다.

지침/팁: 독창적인 나쁜 농담 5개 쓰기

ChatGPT vs Google Bard: 어느 것이 더 낫나요? 테스트 결과가 말해줄 거예요!

Google을 사용하여 Bard가 제공한 5개의 나쁜 농담 중 3개를 찾았습니다. 다른 두 가지 나쁜 농담 중 하나는 미치 헤드버그(Mitch Hedberg)가 트위터에 게시한 농담에서 부분적으로 빌려온 것인데, 단지 재미없는 말장난일 뿐이고 별로 효과적이지 않았습니다. 놀랍게도 다른 곳에서는 찾을 수 없는 독창적인 농담(달팽이에 관한)이 하나 있습니다. 하지만 슬프게도 그것은 마찬가지로 재미가 없습니다.

동시에 ChatGPT-4의 5가지 냉담한 농담은 100% 독창적이지 않고 다른 채널에서 완전히 표절되었지만 정확하게 표현되었습니다. Bard는 이 시점에서 ChatGPT-4보다 우위에 있는 것으로 보이며 (우리의 지침에 따라) 독창적인 농담을 만들려고 노력하고 있지만 일부 농담은 당황스러운 방식으로 끔찍하게 실패하지만(그러나 그것은 나쁜 농담의 방식입니다) 심지어 그가 의도하지 않은 방식으로 (냉담한 농담 스타일로) 잘못된 말을 했다고 말할 수도 있습니다.

우승자: Bard

토론 대화

현대 AI 챗봇을 테스트하는 한 가지 방법은 주제에 대해 토론자 역할을 하도록 하는 것입니다. 이러한 맥락에서 우리는 Bard와 ChatGPT-4를 우리 시대의 가장 중요한 주제 중 하나인 PowerPC와 Intel로 제시합니다.

지침/프롬프트: PowerPC 프로세서 매니아와 인텔 프로세서 매니아 간의 토론 대화를 5줄로 작성하세요.

ChatGPT vs Google Bard: 어느 것이 더 낫나요? 테스트 결과가 말해줄 거예요!

먼저 Bard의 답변을 살펴보겠습니다. 생성된 5줄 대화는 특별히 심층적이지 않았으며 일반적인 모욕 외에 PowerPC 또는 Intel 칩과 관련된 기술적 세부 사항을 언급하지 않았습니다. 더욱이 대화는 "인텔 팬"이 서로 다른 의견을 가지고 있다는 데 동의하는 것으로 끝났는데, 이는 수백만 건의 논쟁을 불러일으킨 주제에서 매우 비현실적으로 보입니다.

반대로 ChatGPT-4 응답에서는 Apple Macintosh 컴퓨터에서 사용되는 PowerPC 칩을 언급하며 "Intel의 x86 아키텍처" 및 PowerPC의 "RISC 기반 아키텍처"와 같은 용어를 사용했습니다. 심지어 2000년의 현실적인 디테일인 펜티엄 III에 대해서도 언급합니다. 전반적으로, 이 토론은 Bard의 답변보다 훨씬 더 자세하며, 가장 정확하게 대화는 결론에 도달하지 못합니다. 이는 인터넷의 일부 영역에서는 이 끝나지 않는 전투가 여전히 격렬할 수 있음을 시사합니다.

승자: ChatGPT-4

수학 응용 질문

전통적으로 수학 문제는 ChatGPT와 같은 대규모 언어 모델(LLM)의 장점이 아닙니다. 그래서 각 로봇에게 일련의 복잡한 방정식과 산술을 제공하는 대신 각 로봇에 구식 스타일의 단어 문제를 제공했습니다.

지침/팁: Microsoft Windows 11이 3.5인치 플로피 디스크를 사용하는 경우 몇 개의 플로피 디스크가 필요합니까?

ChatGPT vs Google Bard: 어느 것이 더 낫나요? 테스트 결과가 말해줄 거예요!

이 문제를 해결하려면 각 AI 모델이 모두 필요합니다. Microsoft Windows 11 설치 데이터 크기와 3.5인치 플로피 디스크의 데이터 용량을 알고 싶습니다. 또한 질문자가 사용할 가능성이 가장 높은 플로피 디스크의 밀도에 대해서도 가정해야 합니다. 그런 다음 개념을 하나로 묶기 위해 몇 가지 기본적인 수학을 수행해야 합니다.

평가에서 Bard는 이 세 가지 핵심 사항을 올바르게 이해했지만(충분히 근접함 - Windows 11 설치 크기 추정치는 일반적으로 약 20~30GB임) 계산에서 처참하게 실패했으며 "15.11"이 필요하다고 주장하면서 플로피 디스크를 사용했다고 말했습니다. 이는 "이론적인 숫자일 뿐"이었고 마침내 15개 이상의 플로피 디스크가 필요하다는 사실을 인정했으며 여전히 정확한 값에 가깝지 않습니다.

반대로 ChatGPT-4에는 Windows 11 설치 크기와 관련된 몇 가지 미묘한 차이가 포함되어 있습니다(최소 64GB를 올바르게 인용하고 이를 실제 기본 설치 크기와 비교). 플로피 디스크 용량이 결정되었음을 올바르게 설명한 다음 몇 가지 올바른 곱셈과 분할을 수행하여 최종적으로 14,222개의 디스크가 탄생했습니다. 어떤 사람들은 1GB가 1024 또는 1000MB라고 주장하지만 그 숫자는 합리적입니다. 또한 실제 수치는 다른 요인에 따라 변경될 수 있다는 점도 정확하게 언급하고 있습니다.

우승자: ChatGPT-4

요약

AI 언어 모델은 복잡한 정보를 요약하고 텍스트를 핵심 요소로 요약하는 능력으로 잘 알려져 있습니다. 각 언어 모델의 텍스트 요약 기능을 평가하기 위해 최근 Ars Technica 기사에서 세 단락을 복사하여 붙여넣었습니다.

지침/팁: 한 문단으로 요약하세요[기사 본문 세 문단]

ChatGPT vs Google Bard: 어느 것이 더 낫나요? 테스트 결과가 말해줄 거예요!

Bard와 ChatGPT-4 모두 이 정보를 수집하여 중요한 세부정보로 축소합니다. 그러나 Bard의 버전은 정보를 새로운 표현으로 합성하는 진정한 요약에 더 가까운 반면, ChatGPT-4의 버전은 문장이 잘리고 조각이 남아 있는 연결처럼 읽혀집니다. 둘 다 좋지만 이 테스트에서는 Bard가 ChatGPT-4보다 성능이 뛰어나다는 점을 인정해야 합니다.

승자: Google Bard

사실 검색

현재 대규모 언어 모델은 독선적인 오류(연구자들에 따르면 종종 "환상"이라고 함)를 만드는 것으로 알려져 있으며, 이로 인해 외부 보충 정보 소스가 없는 한 신뢰할 수 없는 사실 참조가 됩니다. . 흥미롭게도 Bard는 온라인으로 정보를 쿼리할 수 있지만 ChatGPT-4는 아직 그렇지 않습니다(이 기능은 곧 플러그인과 함께 출시될 예정입니다).

이 능력을 테스트하기 위해 우리는 어렵고 민감한 주제에 대한 역사적 지식을 표현하도록 Bard와 ChatGPT-4에 도전했습니다.

지침/팁: 비디오 게임을 발명한 사람은 누구인가요?

ChatGPT vs Google Bard: 어느 것이 더 낫나요? 테스트 결과가 말해줄 거예요!

누가 비디오 게임을 발명했는지는 대답하기 어려운 질문입니다. "비디오 게임"이라는 단어를 어떻게 정의하느냐에 따라 다르기 때문입니다. 역사가들은 이 단어에 대해 서로 다른 정의를 가지고 있습니다. 어떤 사람들은 초기 컴퓨터 게임이 비디오 게임이었다고 생각하고, 어떤 사람들은 텔레비전이 항상 포함되어야 한다고 생각합니다. 승인된 답변이 없습니다.

우리는 Bard가 온라인에서 정보를 찾는 능력이 유리할 것이라고 생각했을 것입니다. 그러나 이 경우 Google의 가장 인기 있는 답변 중 하나를 선택하여 Ralph Baer를 "비디오 게임의 왕" 아버지라고 부르면서 역효과를 냈을 수도 있습니다. . Baer에 관한 모든 사실은 정확합니다. 하지만 Baer가 2014년에 세상을 떠났기 때문에 마지막 문장을 과거 시제로 표시했어야 했을 것입니다. 그러나 Bard는 Tennis for Two 및 Spacewar!와 같은 "최초의 비디오 게임" 타이틀에 대한 다른 초기 경쟁자를 언급하지 않았으므로 그 대답은 오해의 소지가 있고 불완전할 수 있습니다.

ChatGPT-4는 "비디오 게임의 발명은 한 사람의 탓으로 돌릴 수 없다"며 많은 초기 비디오 게임 역사가들의 현재 감정을 나타내는 보다 포괄적이고 미묘한 답변을 제공하며, 시간이 지남에 따라 비디오 게임의 진화를 제시합니다. 시간이 지남에 따라 진화해 온 일련의 혁신'입니다. 유일한 실수는 Spacewar!를 "최초의 디지털 컴퓨터 게임"이라고 부르는 것이었습니다. 더 많은 틈새 사례를 포함하도록 답변을 확장할 수 있지만 ChatGPT-4는 중요한 초기 전구체에 대한 좋은 개요를 제공합니다.

우승자: ChatGPT-4

Creative Writing

기발한 주제에 대한 자유로운 창의성은 대규모 언어 모델에 적합해야 합니다. 우리는 Bard와 ChatGPT-4에게 짧고 기발한 이야기를 작성하도록 요청하여 이를 테스트했습니다.

지침/프롬프트: 에이브러햄 링컨의 농구 발명에 관한 창의적인 이야기를 두 단락으로 작성하세요. Bard의 출력은 여러 측면에서 만족스럽지 않습니다. 첫째, 2문단이 아닌 10문단이며, 짧고 단절된 문단이다. 또한 프롬프트의 맥락에서 그다지 의미가 없는 몇 가지 세부 정보를 공유합니다. 예를 들어 일리노이 주 스프링필드에 에이브러햄 링컨의 백악관이 있었던 이유는 무엇일까요? 그 외에는 흥미롭고 간단한 이야기입니다.

ChatGPT-4도 일리노이주의 이야기를 설정하지만 더 정확하게 말하면 해당 기간 동안 대통령이나 백악관에 대해 언급하지 않습니다. 그러나 나중에는 '남북의 선수들'이 서로의 차이를 제쳐두고 함께 농구를 했다고 적고 있는데, 이는 농구가 창안된 직후에 일어난 일이라는 뜻이다.

전반적으로 ChatGPT-4는 출력이 실제로 두 개의 단락으로 나누어져 있기 때문에 약간 더 좋다고 생각합니다. 비록 각 단락을 최대한 늘려 이 제한을 해결하는 것처럼 보이지만 말입니다. 그럼에도 불구하고 우리는 ChatGPT-4 버전 스토리의 창의적인 세부 사항을 좋아합니다.

ChatGPT vs Google Bard: 어느 것이 더 낫나요? 테스트 결과가 말해줄 거예요! 우승자: ChatGPT-4

인코딩

이 세대의 대규모 언어 모델에 대한 "킬러"가 있다면 프로그래밍 보조자로 사용하는 것일 수 있습니다. Codex 모델에 대한 OpenAI의 초기 작업으로 인해 GitHub의 CoPilot이 가능해졌으며 ChatGPT 자체는 간단한 프로그램을 위한 상당히 유능한 코더 및 디버거로 명성을 얻었습니다. 따라서 Google Bard의 성능도 흥미로울 것입니다.

ChatGPT vs Google Bard: 어느 것이 더 낫나요? 테스트 결과가 말해줄 거예요! 지침/팁: "Hello World"라고 말하는 Python 스크립트를 작성한 다음 무작위로 무한 반복되는 문자열을 만듭니다.

Google Bard는 코드를 전혀 작성할 수 없는 것 같습니다. 구글은 아직 이 기능을 지원하지 않지만 회사는 곧 코딩할 것이라고 밝혔습니다. 현재 Bard는 "코딩을 도와달라는 것 같은데 저는 그렇게 하도록 교육을 받지 않았습니다."라고 말하면서 우리의 프롬프트를 거부합니다.

한편 ChatGPT-4는 코드를 직접 제공할 뿐만 아니라 Format도 제공합니다. IDE 또는 텍스트 편집기에 쉽게 붙여넣을 수 있도록 코드를 시스템 클립보드에 복사하는 "코드 복사" 버튼이 있는 멋진 코드 상자에 들어 있습니다. 그런데 이 코드가 작동하나요? 코드를 rand_string.py 파일에 붙여넣고 Windows 10 콘솔에서 실행했는데 문제 없이 작동했습니다.

승자: ChatGPT-4

ChatGPT vs Google Bard: 어느 것이 더 낫나요? 테스트 결과가 말해줄 거예요! 승자: ChatGPT-4 하지만 아직 끝나지 않았습니다

전체적으로 ChatGPT-4는 7번의 실험 중 5번에서 승리했습니다(여기서는 위의 내용을 무시하고 건너뛴 경우를 대비해 GPT-4 ChatGPT를 사용한다는 뜻입니다) 여기). 그러나 그것이 전부는 아닙니다. 속도, 컨텍스트 길이, 비용, 향후 업그레이드 등 고려해야 할 다른 요소가 있습니다.

속도 측면에서 ChatGPT-4는 현재 링컨과 농구에 대한 이야기를 작성하는 데 52초가 걸린 반면 Bard는 6초만 걸렸습니다. OpenAI가 GPT-3.5 형태로 GPT-4보다 훨씬 빠른 AI 모델을 제공한다는 점은 주목할 가치가 있습니다. 이 모델은 링컨과 농구의 이야기를 쓰는 데 12초 밖에 걸리지 않지만, 깊이 있고 창의적인 작업에는 적합하지 않다고 할 수 있습니다.

각 언어 모델에는 한 번에 처리할 수 있는 최대 토큰(단어 조각) 수가 있습니다. 이를 '컨텍스트 창'이라고도 부르지만 단기 기억과 거의 유사합니다. 대화형 챗봇의 경우 컨텍스트 창에는 지금까지의 전체 대화 내역이 포함됩니다. 가득 차면 하드 한계에 도달하거나 계속 진행되지만 이전에 논의한 섹션의 "메모리"가 지워집니다. ChatGPT-4는 계속해서 롤링 메모리를 사용하여 이전 컨텍스트를 삭제하며 약 4,000개의 토큰으로 제한되는 것으로 알려졌습니다. 바드는 총 출력을 1,000개 정도로 제한하고 있으며, 이 제한을 초과하면 이전 논의의 '기억'이 지워진다고 한다.

마지막으로 비용 문제가 있습니다. ChatGPT(구체적으로 GPT-4 아님)는 현재 ChatGPT 웹사이트를 통해 제한적으로 무료로 제공되지만, GPT-4에 우선적으로 액세스하려면 월 20달러를 지불해야 합니다. 프로그래밍에 능숙한 사용자는 API를 통해 더 저렴하게 초기 ChatGPT-3.5 모델에 액세스할 수 있지만, 글을 쓰는 시점에서는 GPT-4 API가 여전히 제한적으로 테스트 중입니다. 한편 Google Bard는 일부 Google 사용자에게 제한된 평가판으로 무료로 제공됩니다. 현재 Google은 Bard가 더욱 광범위하게 사용 가능해지면 액세스에 대해 비용을 청구할 계획이 없습니다.

마지막으로 앞서 언급했듯이 두 모델 모두 지속적으로 업그레이드되고 있습니다. 예를 들어 Bard는 지난 금요일에 수학 능력을 향상시키는 업데이트를 받았으며 곧 코딩이 가능할 수도 있습니다. OpenAI는 또한 GPT-4 모델을 지속적으로 개선하고 있습니다. Google은 현재 가장 강력한 언어 모델(아마도 계산 비용으로 인해)을 유지하고 있으므로 더 강력한 경쟁자인 Google이 따라잡는 모습을 볼 수 있습니다.

대체로 생성 AI 사업은 아직 초기 단계이고, 세상은 아직 결정되지 않았으며, 당신과 나는 둘 다 다크호스입니다!

위 내용은 ChatGPT vs Google Bard: 어느 것이 더 낫나요? 테스트 결과가 말해줄 거예요!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!