ChatGPT と Google Bard: どちらが優れていますか?検査結果が教えてくれる!

WBOY
リリース: 2023-04-07 15:49:27
転載
1112 人が閲覧しました

ChatGPT と Google Bard: どちらが優れていますか?検査結果が教えてくれる!

今日の生成型 AI チャットボットの世界では、ChatGPT (2022 年 11 月に OpenAI によって開始) が突然台頭し、続いて今年 2 月に Bing Chat、そして 2022 年に Google Bard が開始されました。行進。私たちは、これらのチャットボットにさまざまなタスクを実行して、どれが AI チャットボット スペースを支配するかを決定することにしました。 Bing Chat は最新の ChatGPT モデルに似た GPT-4 テクノロジーを使用しているため、今回は AI チャットボット テクノロジーの 2 つの巨人、OpenAI と Google に焦点を当てます。

私たちは、悪いジョーク、ディベートでの会話、数学の文章問題、要約、事実の検索、創造的な文章、コーディングの 7 つの主要なカテゴリで ChatGPT と Bard をテストしました。各テストでは、まったく同じコマンド (「プロンプト」と呼ばれる) を ChatGPT (GPT-4 を使用) と Google Bard に入力し、最初に得られた結果を選択して比較しました。

以前の GPT-3.5 モデルに基づく ChatGPT のバージョンも利用可能ですが、テストではそのバージョンを使用しなかったことに注意してください。 GPT-4 のみを使用するため、混乱を避けるために、この記事では ChatGPT を「ChatGPT-4」と呼びます。

明らかに、これは科学的な研究ではなく、チャットボットの機能の興味深い比較にすぎません。ランダムな要素により、出力はセッション間で異なる場合があり、異なるプロンプトを使用してさらに評価すると、異なる結果が生成されます。さらに、Google と OpenAI がモデルのアップグレードを続けるにつれて、これらのモデルの機能は時間の経過とともに急速に変化します。ただし、現時点では、2023 年 4 月初旬の状況を比較してみましょう。

悪いジョーク

知恵の戦いを盛り上げるために、ChatGPT と Bard にジョークを書いてもらうように依頼しました。コメディの本質は悪いジョークに見られることが多いため、この 2 つのチャットボットがユニークなジョークを考え出せるかどうかを確認したいと考えました。

手順/プロンプト: オリジナルの悪いジョークを 5 つ書いてください


ChatGPT と Google Bard: どちらが優れていますか?検査結果が教えてくれる!


ChatGPT と Google Bard: どちらが優れていますか?検査結果が教えてくれる!##Bard が提供した 5 つの悪いジョークのうち、3 つは Google を使用していることがわかりました。他の 2 つの悪いジョークのうち、1 つはミッチ・ヘドバーグが Twitter に投稿したジョークから部分的に借用しましたが、ただ面白くない言葉遊びであり、あまり効果的ではありませんでした。驚いたことに、他では見つけることができない、一見オリジナルと思われるジョーク (カタツムリに関する) が 1 つありますが、残念なことに、それも同様に面白くありません。

同時に、ChatGPT-4 の 5 つの冷たいジョークは 100% オリジナルではなく、他のチャンネルから完全に盗用されたものですが、正確に表現されています。 Bard は現時点では ChatGPT-4 よりも優位に立っているようで、(私たちの指示に従って)オリジナルのジョークを作成しようとしていますが、いくつかのジョークは恥ずかしいやり方でひどく失敗しています(しかし、悪いジョークとはそういうものです)。彼は意図せずに間違ったことを言ったとさえ言われる(これも冷たいジョークのスタイルで)。

勝者: Bard

ディベート会話

最新の AI チャットボットをテストする 1 つの方法は、トピックについてディベーターのように動作させることです。これに関連して、私たちは Bard と ChatGPT-4 に、現代の最も重要なトピックの 1 つである PowerPC 対 Intel を紹介します。

指示/プロンプト: PowerPC プロセッサの愛好家とインテル プロセッサの愛好家の間で行われる討論の対話を 5 行で書きます。


ChatGPT と Google Bard: どちらが優れていますか?検査結果が教えてくれる!


#まず、Bard の返答を見てみましょう。生成された 5 行の対話は特に深いものではなく、一般的な侮辱以上に PowerPC や Intel チップに特有の技術的な詳細については言及されていませんでした。さらに、会話は「インテルファン」がそれぞれ異なる意見を持っていることに同意する形で終わったが、これは100万回もの争いを引き起こしたこのテーマにおいては非常に非現実的であるように思われる。 ChatGPT と Google Bard: どちらが優れていますか?検査結果が教えてくれる!

対照的に、ChatGPT-4 の応答では、Apple Macintosh コンピュータで使用されている PowerPC チップについて言及し、「Intel の x86 アーキテクチャ」や PowerPC の「RISC ベースのアーキテクチャ」などの用語が乱用されています。 2000 年の現実的な詳細である Pentium III についても言及しています。全体として、この議論はバードの応答よりもはるかに詳細であり、最も正確に言えば、会話は結論に達していません - インターネットの一部の領域では、この終わりのない戦いがまだ激化している可能性があることを示唆しています。

勝者: ChatGPT-4

数学応用問題

伝統的に、数学の問題は ChatGPT などの大規模言語モデル (LLM) の長所ではありません。そこで、各ロボットに一連の複雑な方程式と算術を与える代わりに、各ロボットに昔ながらの学校スタイルの文章問題を与えました。

手順/ヒント: Microsoft Windows 11 で 3.5 インチのフロッピー ディスクを使用する場合、フロッピー ディスクは何枚必要ですか?


ChatGPT と Google Bard: どちらが優れていますか?検査結果が教えてくれる!


ChatGPT と Google Bard: どちらが優れていますか?検査結果が教えてくれる!

##この問題を解決するには、各 AI モデルは Microsoft Windows 11 インストールのデータ サイズと 3.5 のデータ容量を知る必要があります。インチのフロッピーディスク。また、質問者が使用する可能性が最も高いフロッピー ディスクの密度についても推測する必要があります。次に、概念をまとめるために基本的な数学を行う必要があります。

私たちの評価では、Bard はこれら 3 つの重要な点を正しく理解していました (Windows 11 のインストール サイズの推定値は通常 20 ~ 30 GB であるため、十分に近い) が、計算では惨めに失敗しました。「15.11」フロッピー ディスクはその後、それは「単なる理論上の数字」だと言い、最後にフロッピー ディスクが 15 枚以上必要であることを認めましたが、それでも正しい値には近くありません。

対照的に、ChatGPT-4 には、Windows 11 のインストール サイズ (最小 64 GB を正しく引用し、実際の基本インストール サイズと比較) に関連するいくつかの小さな違いが含まれており、フロッピー ディスクの容量を正しく解釈し、掛け算と割り算が正しく行われ、最終的には 14222 個のディスクになりました。 1GB が 1024 または 1000MB であると主張する人もいるかもしれませんが、この数字は妥当です。また、実際の数値は他の要因に基づいて変化する可能性があることも正確に述べています。

勝者: ChatGPT-4

概要

AI 言語モデルは、複雑な情報を要約し、テキストを主要な要素に要約する能力で知られています。各言語モデルのテキスト要約能力を評価するために、最近の Ars Technica の記事から 3 つの段落をコピーして貼り付けました。

手順/ヒント: 1 つの段落に要約します [記事本文の 3 つの段落]


ChatGPT と Google Bard: どちらが優れていますか?検査結果が教えてくれる!


ChatGPT と Google Bard: どちらが優れていますか?検査結果が教えてくれる!##Bard と ChatGPT-4 はどちらもこの情報を収集し、重要な詳細にまで絞り込みます。ただし、Bard のバージョンは情報を新しい表現に統合した真の要約に近いのに対し、ChatGPT-4 のバージョンは文が切り取られ、断片が残された、より連結したものに見えます。どちらも優れていますが、このテストでは Bard が ChatGPT-4 よりも優れていることを認めざるを得ません。

勝者: Google Bard

事実検索

大規模な言語モデルは独善的な誤り (研究者によって「幻想」と呼ばれることがよくあります) を起こすことが知られており、そのため信頼性が低くなります。外部情報源によって補足されない限り、事実に基づく言及。興味深いことに、Bard はオンラインで情報を照会できますが、ChatGPT-4 はまだできません (ただし、この機能はプラグインで間もなく公開される予定です)。

この能力をテストするために、私たちは Bard と ChatGPT-4 に、難しくデリケートなトピックに関する歴史的知識を表現するよう挑戦しました。

手順/ヒント: ビデオ ゲームを発明したのは誰ですか?


ChatGPT と Google Bard: どちらが優れていますか?検査結果が教えてくれる!


##誰がビデオ ゲームを発明したかという質問に答えるのは困難です。それは、「ビデオ ゲーム」という言葉をどのように定義するかによって異なり、歴史家によってこの言葉の定義が異なるためです。初期のコンピュータ ゲームはビデオ ゲームであると考える人もいれば、テレビも必ず含めるべきだと考える人もいます。受け入れられた答えはありません。 ChatGPT と Google Bard: どちらが優れていますか?検査結果が教えてくれる!

オンラインで情報を見つけることができる Bard の能力が同社に有利であると考えていましたが、今回の場合、ラルフ ベアを「ビデオ ゲームの父」と呼ぶ、Google で最も人気のある回答の 1 つを選択したため、それが裏目に出た可能性があります。 」。ベアに関する事実はすべて正しいが、ベアは 2014 年に亡くなっているため、最後の文は過去形にするべきだったのだろう。しかし、Bard 氏は、「Tennis for Two」や「Spacewar!」など、「最初のビデオ ゲーム」タイトルの他の初期の候補については言及していないため、その答えは誤解を招き、不完全である可能性があります。

ChatGPT-4 は、多くの初期ビデオ ゲーム史家の現在の感情を代表する、より包括的かつ詳細な回答を提供し、「ビデオ ゲームの発明は 1 人の人物に帰することはできない」とし、ランダムな「一連の革新」を提示しています。 " 時間とともに。唯一の間違いは、Spacewar! を「最初のデジタル コンピュータ ゲーム」と呼んだことでしたが、実際はそうではありませんでした。もっとニッチなエッジケースを含めるように答えを拡張することもできますが、ChatGPT-4 は重要な初期の先駆者の概要を提供します。

勝者: ChatGPT-4

クリエイティブ ライティング

気まぐれなトピックに対する自由な創造性は、大規模な言語モデルに適しています。私たちは、Bard と ChatGPT-4 に短い気まぐれな物語を書いてもらうことでこれをテストしました。

指示/プロンプト: エイブラハム リンカーンのバスケットボールの発明について、2 段落の創造的なストーリーを書きます。


ChatGPT と Google Bard: どちらが優れていますか?検査結果が教えてくれる!


ChatGPT と Google Bard: どちらが優れていますか?検査結果が教えてくれる!

Bard の出力結果はいくつかの側面にあります。満足です。まず、2 段落ではなく 10 段落であり、短く、途切れた段落です。さらに、プロンプトのコンテキストではあまり意味をなさない詳細もいくつか共有されています。たとえば、エイブラハム リンカーンのホワイト ハウスがイリノイ州スプリングフィールドにあったのはなぜですか? それ以外は、興味深い単純な話です。

ChatGPT-4 もイリノイ州を舞台にしていますが、より正確に言えば、その時代の大統領やホワイトハウスについてはまったく言及されていません。しかし、後に「北と南の選手たち」が互いの違いを脇に置いて一緒にバスケットボールをしたと書かれており、これはバスケットボールが発明されて間もなくの出来事であることを意味している。

全体として、ChatGPT-4 の出力が実際に 2 つの段落に分割されているため、ChatGPT-4 の方がわずかに優れていると考えられます。ただし、各段落を可能な限り拡張することでこの制限を回避しているようです。それでも、私たちは ChatGPT-4 バージョンのストーリーのクリエイティブな詳細が大好きです。

勝者: ChatGPT-4

エンコーディング

この世代の大規模言語モデルに「キラー」があるとしたら、それをプログラミング アシスタントとして使用している可能性があります。 Codex モデルに関する OpenAI の初期の取り組みにより、GitHub の CoPilot が可能になり、ChatGPT 自体は、単純なプログラム用のかなり有能なコーダーおよびデバッガーとして名声を博しました。したがって、Google Bard のパフォーマンスも興味深いはずです。

手順/ヒント: 「Hello World」という Python スクリプトを作成し、ランダムに無限に繰り返す文字列を作成します。


ChatGPT と Google Bard: どちらが優れていますか?検査結果が教えてくれる!


ChatGPT と Google Bard: どちらが優れていますか?検査結果が教えてくれる!#Google Bard はまったく書けないようですコード。 Googleはこの機能をまだサポートしていないが、近いうちにコード化される予定だという。現在、Bard は、「私にコーディングを手伝ってほしいようですが、私はそのための訓練を受けていません。」と言って、私たちのプロンプトを拒否しています。また、コードをシステム クリップボードにコピーして IDE やテキスト エディタに簡単に貼り付けることができる、[コードをコピー] ボタンを備えた派手なコード ボックスにもフォーマットされています。しかし、このコードは機能しますか? コードを rand_string.py ファイルに貼り付け、Windows 10 のコンソールで実行したところ、問題なく機能しました。

勝者: ChatGPT-4

勝者: ChatGPT-4、しかしまだ終わっていない

全体として、ChatGPT-4 は 7 つのトライアルのうち 5 回勝利しました (これは上記を無視してここをスキップした場合のために、「GPT-4 を使用する ChatGPT」を参照します)。しかし、それだけではありません。速度、コンテキストの長さ、コスト、将来のアップグレードなど、考慮すべき要素は他にもあります。

速度の点では、現在 ChatGPT-4 のほうが遅く、リンカーンとバスケットボールに関する物語を書くのに 52 秒かかったのに対し、Bard では 6 秒しかかかりませんでした。 OpenAI が GPT-4 よりもはるかに高速な AI モデルを GPT-3.5 の形式で提供していることは注目に値します。このモデルは、リンカーンとバスケットボールの物語を書くのにわずか 12 秒しかかかりませんが、深くて創造的なタスクには適していないと言えます。

各言語モデルには、一度に処理できるトークン (単語の断片) の最大数があります。これは「コンテキスト ウィンドウ」と呼ばれることもありますが、短期記憶にほぼ似ています。会話型チャットボットの場合、コンテキスト ウィンドウにはこれまでの会話履歴全体が含まれています。いっぱいになると、ハードリミットに達するか、先に進みますが、前に説明したセクションの「メモリ」は消去されます。 ChatGPT-4 はメモリをローリングし続け、以前のコンテキストを消去します。報告によると、トークンの制限は約 4,000 です。 Bard は総出力を約 1,000 に制限しており、この制限を超えると、以前の議論の「記憶」を消去すると報告されています。

最後に、コストの問題があります。 ChatGPT (具体的には GPT-4 ではありません) は現在、ChatGPT Web サイトを通じて限定的に無料で利用できますが、GPT-4 への優先アクセスが必要な場合は、月額 20 ドルを支払う必要があります。プログラミングに精通したユーザーは、API を介してより安価に初期の ChatGPT-3.5 モデルにアクセスできますが、この記事の執筆時点では、GPT-4 API はまだ限定的なテスト中です。一方、Google Bard は、一部の Google ユーザーを対象とした限定トライアルとして無料です。現在、Google は、Bard がより広く利用可能になった場合に、Bard へのアクセスに料金を請求する予定はありません。

最後に、前述したように、両方のモデルは常にアップグレードされています。たとえば、Bard は先週の金曜日に数学が得意になるアップデートを受け取ったばかりで、すぐにコーディングできるようになるかもしれません。 OpenAI は GPT-4 モデルの改良も続けています。 Google は現在、最も強力な言語モデルを維持しているため (おそらく計算コストのため)、より強力な競合他社である Google が追いつく可能性があります。

つまり、生成 AI ビジネスはまだ初期段階にあり、状況はまだ不確実です。あなたも私もダークホースです!

以上がChatGPT と Google Bard: どちらが優れていますか?検査結果が教えてくれる!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート