大型モデルシーリングGPT-4、バカになってしまったのか?
最初に数人のユーザーが疑問を提起し、その後、多数のネチズンがそれに気づいたと述べ、多くの証拠を投稿しました。
GPT-4 の 3 時間と 25 の対話クォータを一度に使い果たしたのに、まだ自分の問題を解決できなかったと報告した人もいます。コードの問題。
仕方なく GPT-3.5 に切り替えましたが、問題は解決しました。
全員のフィードバックを要約すると、最も重要な症状は次のとおりです。
これにより多くの人が迷惑を被りましたOpenAIはコスト削減のために手を抜いているのだろうか?
2 か月前、GPT-4 は世界で最も優れたライティング アシスタントでしたが、数週間前には平凡なものに陥り始めました。計算能力を削減したか、知能を低下させたのではないかと思います。
これは必然的に人々に Microsoft の新しい Bing を思い出させます。Bing は「デビュー時に最高潮に達した」ものの、後に「前部ロボトミー手術」を受けました。悪い点...
ネチズンがお互いの経験を共有した後、「数週間前から悪化し始めた」というのが全員の一致した意見になりました。
Hacker News、Reddit、Twitterなどの技術コミュニティでも世論の嵐が形成されました。
今や当局は黙ってはいられない。
OpenAI 開発者プロモーション アンバサダーの Logan Kilpatrick は、ネチズンの質問に次のように答えました。
API は、当社からの通知なしに変更されることはありません。そこのモデルは静止しています。
心配したネチズンは確認を求め続け、「ということは、GPT-4 は 3 月 14 日にリリースされて以来、静的だったということですね」 ?「 ?」、ローガンからも肯定的な返事が返ってきた。
「一部のプロンプト ワードのパフォーマンスが一貫していないことに気付きました。大規模なモデル自体が不安定なだけが原因ですか?」でも、「はい」が得られました。 " 返事。
しかし、これまでのところ、GPT-4 の Web バージョンがダウングレードされているかどうかに関する 2 つの質問には答えられておらず、Logan には返答がありません。その他のコンテンツも掲載しております。
それでは、具体的に何が起こっているのでしょうか?ご自身で試してみてはいかがでしょうか。
GPT-4 のコーディングスキルが低下したというネチズンの意見が一般的だったので、私たちは簡単な実験を行いました。
3 月末、私たちは GPT-4 に「エリクサーを作成」させ、Python で多層パーセプトロンを記述して XOR ゲートを実装する実験を行いました。
△ShareGPT スクリーンショット、インターフェースは若干異なります
フレームワークなしで numpy を使用するように GPT-4 を変更した後、最初の時間 結果は間違っています。
コードを 2 回変更すると、正しい結果が得られました。 1 回目は隠れニューロンの数を変更し、2 回目は活性化関数を sigmoid から Tanh に変更します。
6 月 2 日、私たちは GPT-4 にこのタスクを完了させようと再度試みましたが、中国語のプロンプト単語に変更されました。
今回 GPT-4 は初めてフレームワークを使用しませんでしたが、指定されたコードは依然として間違っていました。
たった 1 回の修正で正しい結果が得られ、学習エポック数と学習率を直接増加させるという考えに変更されました。
人の心理的感覚の違いはさておき、API のバージョンと Web バージョンが必ずしも一致していないのではないかと疑う人もいますが、確たる証拠はありません。 。
もう 1 つの推測は、プラグインが有効になっている場合、プラグインの余分なプロンプト ワードは、解決すべき問題に対する一種の汚染とみなされる可能性があるということです。
△WebPilot プラグインの追加のプロンプト ワード
このネチズンは、彼の意見では、GPT のパフォーマンスは優れていると述べました。プラグイン機能の公開テストが開始されてから発生しました。
また、OpenAI の従業員に、モデル自体は変わっていないが、推論パラメータは変わったかどうかを尋ねた人もいました。
Qubits は、iOS 上の ChatGPT のシステム プロンプト ワードが Web バージョンと一致していないという誤った「拷問」も行いました。
△成功しない可能性があり、回答を拒否される可能性が高くなります。
では、次の場合は、 Web バージョンで続行し、気づかずに iOS バージョンのダイアログで開くと、GPT-4 の答えがより簡単になっていることがわかります。
つまり、GPT-4 がリリース以来愚かになったかどうかは、まだ未解決の謎です。
しかし、一つだけ確かなことは:
3 月 14 日にみんなで遊び始めた GPT-4 は、最初から論文に載っていたものほど良くはありませんでした。
Microsoft Research が発行した 150 ページを超える論文 「AGI の火花: GPT-4 の初期実験」 では、次のように明確に述べられています。 :
GPT-4の開発が完了する前に試験資格を取得し、長期試験を実施しました。
その後、論文に掲載された多くの驚くべき例について、ネチズンは GPT-4 の公開バージョンを使用してそれらをうまく再現できませんでした。
現在、学術界では、その後のRLHFトレーニングによってGPT-4がより人間に適合した、つまり人間の指示により従順になり、人間の価値観と一致したものの、それによってGPT-4が人間の価値観と一致するようになったという見解もあります。独自の論理を使うなど、能力が低下します。
この論文の著者の 1 人であるマイクロソフトの科学者 Zhang Yi も、中国のポッドキャスト プログラム「What's Next|Technology Knows Early」の S7E11 号で言及しました:
そのバージョン現行モデルよりも優れたモデルであり、誰もが入手できる GPT-4 はさらに強力です。
たとえば、Microsoft チームは論文の中で、GPT-4 の機能の変更を追跡するために、GPT-4 で LaTeX の TikZ を使用して一定の間隔でユニコーンを描画できるようにしたと述べています。
論文に示されている最後の結果は非常に完全なものです。
しかし、論文の筆頭著者であるセバスチャン・ビューベックは後にMITでの講演でさらなる情報を明らかにした。
その後、OpenAI がセキュリティ問題に注意を払い始めたとき、後続のバージョンではこのタスクの点でますます性能が低下しました。
人間に合わせながらも AI 自身の能力の上限を減らさないトレーニング方法が、多くのチームの研究の方向性となっています。今ではまだ初期段階にあります。
専門の研究チームに加えて、AI に関心のあるネチズンも独自の方法を使用して AI 機能の変化を追跡しています。
誰かが GPT-4 に、1 日 1 回ユニコーンを描き、それを Web サイトで公開記録するように依頼しました。
4月12日以来、私はまだユニコーンの全体的な形状を見ていません。
もちろん、Web サイトの作成者は、GPT-4 に SVG 形式を使用して画像を描画できるようにしたと述べました。これは、TikZ 形式とは異なります。紙なのでインパクトがあります。
そして、4 月に描いたものは今描いているものと同じくらいひどいようで、明らかな後退はありません。
最後に聞きますが、あなたは GPT-4 ユーザーですか?ここ数週間で GPT-4 の機能が低下したと感じましたか?コメントエリアでのチャットへようこそ。
ビューベック氏のスピーチ: https://www.php.cn/link/a8a5d22acb383aae55937a6936e120b0
張儀氏のインタビュー: https://www.php.cn/link/ 764f9642ebf04622c53ebc366a68c0a7
GPT-4 ユニコーンを毎日 1 つhttps://www.php.cn/link/7610db9e380ba9775b3c215346184a87
参考リンク:
[1]https://www.php.cn/link/cd3e48b4bce1f295bd8ed1eb90eb0d85
[2]https://www.php.cn/link/fc2dc7d20994a777cfd5e6de734fe254
[3]https://www.php.cn/link/4dcfbc057e2ae8589f9bbd98b591c50a
[4]https://www.php.cn/link/0007cda84fafdcf42f96c4f4adb7f8ce
[5]https://www.php.cn/link/cd163419a5f4df0ba7e252841f95fcc1
[6]https://www.php.cn/link/afb0b97df87090596ae7c503f60bb23f
[7]https://www.php.cn/link/ef8f94395be9fd78b7d0aecf7864a03
[8]https://www.php.cn/link/30082754836bf11b2c31a0fd3cb4b091
[9]https://www.php.cn/link/14553eed6ae802daf3f8e8c10b1961f0
#
以上がGPT-4がバカになって世論を巻き起こす!テキストコードの品質は低下しており、OpenAIはコスト削減と材料削減に関する質問に答えたばかりです。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。