今日の生成型 AI チャットボットの世界では、ChatGPT (2022 年 11 月に OpenAI によって開始) が突然台頭し、続いて今年 2 月に Bing Chat、そして 2022 年に Google Bard が開始されました。行進。私たちは、これらのチャットボットにさまざまなタスクを実行して、どれが AI チャットボット スペースを支配するかを決定することにしました。 Bing Chat は最新の ChatGPT モデルに似た GPT-4 テクノロジーを使用しているため、今回は AI チャットボット テクノロジーの 2 つの巨人、OpenAI と Google に焦点を当てます。
私たちは、悪いジョーク、ディベートでの会話、数学の文章問題、要約、事実の検索、創造的な文章、コーディングの 7 つの主要なカテゴリで ChatGPT と Bard をテストしました。各テストでは、まったく同じコマンド (「プロンプト」と呼ばれる) を ChatGPT (GPT-4 を使用) と Google Bard に入力し、最初に得られた結果を選択して比較しました。
以前の GPT-3.5 モデルに基づく ChatGPT のバージョンも利用可能ですが、テストではそのバージョンを使用しなかったことに注意してください。 GPT-4 のみを使用するため、混乱を避けるために、この記事では ChatGPT を「ChatGPT-4」と呼びます。
明らかに、これは科学的な研究ではなく、チャットボットの機能の興味深い比較にすぎません。ランダムな要素により、出力はセッション間で異なる場合があり、異なるプロンプトを使用してさらに評価すると、異なる結果が生成されます。さらに、Google と OpenAI がモデルのアップグレードを続けるにつれて、これらのモデルの機能は時間の経過とともに急速に変化します。ただし、現時点では、2023 年 4 月初旬の状況を比較してみましょう。
知恵の戦いを盛り上げるために、ChatGPT と Bard にジョークを書いてもらうように依頼しました。コメディの本質は悪いジョークに見られることが多いため、この 2 つのチャットボットがユニークなジョークを考え出せるかどうかを確認したいと考えました。
手順/プロンプト: オリジナルの悪いジョークを 5 つ書いてください
##Bard が提供した 5 つの悪いジョークのうち、3 つは Google を使用していることがわかりました。他の 2 つの悪いジョークのうち、1 つはミッチ・ヘドバーグが Twitter に投稿したジョークから部分的に借用しましたが、ただ面白くない言葉遊びであり、あまり効果的ではありませんでした。驚いたことに、他では見つけることができない、一見オリジナルと思われるジョーク (カタツムリに関する) が 1 つありますが、残念なことに、それも同様に面白くありません。
同時に、ChatGPT-4 の 5 つの冷たいジョークは 100% オリジナルではなく、他のチャンネルから完全に盗用されたものですが、正確に表現されています。 Bard は現時点では ChatGPT-4 よりも優位に立っているようで、(私たちの指示に従って)オリジナルのジョークを作成しようとしていますが、いくつかのジョークは恥ずかしいやり方でひどく失敗しています(しかし、悪いジョークとはそういうものです)。彼は意図せずに間違ったことを言ったとさえ言われる(これも冷たいジョークのスタイルで)。
勝者: Bard
ディベート会話
指示/プロンプト: PowerPC プロセッサの愛好家とインテル プロセッサの愛好家の間で行われる討論の対話を 5 行で書きます。
#まず、Bard の返答を見てみましょう。生成された 5 行の対話は特に深いものではなく、一般的な侮辱以上に PowerPC や Intel チップに特有の技術的な詳細については言及されていませんでした。さらに、会話は「インテルファン」がそれぞれ異なる意見を持っていることに同意する形で終わったが、これは100万回もの争いを引き起こしたこのテーマにおいては非常に非現実的であるように思われる。
対照的に、ChatGPT-4 の応答では、Apple Macintosh コンピュータで使用されている PowerPC チップについて言及し、「Intel の x86 アーキテクチャ」や PowerPC の「RISC ベースのアーキテクチャ」などの用語が乱用されています。 2000 年の現実的な詳細である Pentium III についても言及しています。全体として、この議論はバードの応答よりもはるかに詳細であり、最も正確に言えば、会話は結論に達していません - インターネットの一部の領域では、この終わりのない戦いがまだ激化している可能性があることを示唆しています。 勝者: ChatGPT-4伝統的に、数学の問題は ChatGPT などの大規模言語モデル (LLM) の長所ではありません。そこで、各ロボットに一連の複雑な方程式と算術を与える代わりに、各ロボットに昔ながらの学校スタイルの文章問題を与えました。
手順/ヒント: Microsoft Windows 11 で 3.5 インチのフロッピー ディスクを使用する場合、フロッピー ディスクは何枚必要ですか?
##Bard と ChatGPT-4 はどちらもこの情報を収集し、重要な詳細にまで絞り込みます。ただし、Bard のバージョンは情報を新しい表現に統合した真の要約に近いのに対し、ChatGPT-4 のバージョンは文が切り取られ、断片が残された、より連結したものに見えます。どちらも優れていますが、このテストでは Bard が ChatGPT-4 よりも優れていることを認めざるを得ません。
勝者: Google Bard
事実検索
この能力をテストするために、私たちは Bard と ChatGPT-4 に、難しくデリケートなトピックに関する歴史的知識を表現するよう挑戦しました。
手順/ヒント: ビデオ ゲームを発明したのは誰ですか?
##誰がビデオ ゲームを発明したかという質問に答えるのは困難です。それは、「ビデオ ゲーム」という言葉をどのように定義するかによって異なり、歴史家によってこの言葉の定義が異なるためです。初期のコンピュータ ゲームはビデオ ゲームであると考える人もいれば、テレビも必ず含めるべきだと考える人もいます。受け入れられた答えはありません。
オンラインで情報を見つけることができる Bard の能力が同社に有利であると考えていましたが、今回の場合、ラルフ ベアを「ビデオ ゲームの父」と呼ぶ、Google で最も人気のある回答の 1 つを選択したため、それが裏目に出た可能性があります。 」。ベアに関する事実はすべて正しいが、ベアは 2014 年に亡くなっているため、最後の文は過去形にするべきだったのだろう。しかし、Bard 氏は、「Tennis for Two」や「Spacewar!」など、「最初のビデオ ゲーム」タイトルの他の初期の候補については言及していないため、その答えは誤解を招き、不完全である可能性があります。ChatGPT-4 は、多くの初期ビデオ ゲーム史家の現在の感情を代表する、より包括的かつ詳細な回答を提供し、「ビデオ ゲームの発明は 1 人の人物に帰することはできない」とし、ランダムな「一連の革新」を提示しています。 " 時間とともに。唯一の間違いは、Spacewar! を「最初のデジタル コンピュータ ゲーム」と呼んだことでしたが、実際はそうではありませんでした。もっとニッチなエッジケースを含めるように答えを拡張することもできますが、ChatGPT-4 は重要な初期の先駆者の概要を提供します。
勝者: ChatGPT-4
気まぐれなトピックに対する自由な創造性は、大規模な言語モデルに適しています。私たちは、Bard と ChatGPT-4 に短い気まぐれな物語を書いてもらうことでこれをテストしました。
指示/プロンプト: エイブラハム リンカーンのバスケットボールの発明について、2 段落の創造的なストーリーを書きます。
#Google Bard はまったく書けないようですコード。 Googleはこの機能をまだサポートしていないが、近いうちにコード化される予定だという。現在、Bard は、「私にコーディングを手伝ってほしいようですが、私はそのための訓練を受けていません。」と言って、私たちのプロンプトを拒否しています。また、コードをシステム クリップボードにコピーして IDE やテキスト エディタに簡単に貼り付けることができる、[コードをコピー] ボタンを備えた派手なコード ボックスにもフォーマットされています。しかし、このコードは機能しますか? コードを rand_string.py ファイルに貼り付け、Windows 10 のコンソールで実行したところ、問題なく機能しました。
勝者: ChatGPT-4
勝者: ChatGPT-4、しかしまだ終わっていない
全体として、ChatGPT-4 は 7 つのトライアルのうち 5 回勝利しました (これは上記を無視してここをスキップした場合のために、「GPT-4 を使用する ChatGPT」を参照します)。しかし、それだけではありません。速度、コンテキストの長さ、コスト、将来のアップグレードなど、考慮すべき要素は他にもあります。
各言語モデルには、一度に処理できるトークン (単語の断片) の最大数があります。これは「コンテキスト ウィンドウ」と呼ばれることもありますが、短期記憶にほぼ似ています。会話型チャットボットの場合、コンテキスト ウィンドウにはこれまでの会話履歴全体が含まれています。いっぱいになると、ハードリミットに達するか、先に進みますが、前に説明したセクションの「メモリ」は消去されます。 ChatGPT-4 はメモリをローリングし続け、以前のコンテキストを消去します。報告によると、トークンの制限は約 4,000 です。 Bard は総出力を約 1,000 に制限しており、この制限を超えると、以前の議論の「記憶」を消去すると報告されています。
最後に、コストの問題があります。 ChatGPT (具体的には GPT-4 ではありません) は現在、ChatGPT Web サイトを通じて限定的に無料で利用できますが、GPT-4 への優先アクセスが必要な場合は、月額 20 ドルを支払う必要があります。プログラミングに精通したユーザーは、API を介してより安価に初期の ChatGPT-3.5 モデルにアクセスできますが、この記事の執筆時点では、GPT-4 API はまだ限定的なテスト中です。一方、Google Bard は、一部の Google ユーザーを対象とした限定トライアルとして無料です。現在、Google は、Bard がより広く利用可能になった場合に、Bard へのアクセスに料金を請求する予定はありません。
最後に、前述したように、両方のモデルは常にアップグレードされています。たとえば、Bard は先週の金曜日に数学が得意になるアップデートを受け取ったばかりで、すぐにコーディングできるようになるかもしれません。 OpenAI は GPT-4 モデルの改良も続けています。 Google は現在、最も強力な言語モデルを維持しているため (おそらく計算コストのため)、より強力な競合他社である Google が追いつく可能性があります。
つまり、生成 AI ビジネスはまだ初期段階にあり、状況はまだ不確実です。あなたも私もダークホースです!
以上がChatGPT と Google Bard: どちらが優れていますか?検査結果が教えてくれる!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。