GPT-4 は 論文レビューを行うことができますか?
スタンフォード大学や他の大学の研究者が実際にテストしました。
彼らは、Nature、ICLR、その他のトップカンファレンスからの何千もの論文を GPT-4 に投げ込み、レビューコメント (修正提案などを含む) を生成させ、それらを人間によって与えられた意見を比較してください。
調査の結果、次のことが判明しました。
GPT-4 によって提案された意見の 50% 以上が、少なくとも 1 人の人間の査読者と一致しています。
著者の 82.4% 以上が、GPT-4 によって提供された意見が非常に役立つと感じています
この研究がどのような啓発をもたらすか私たち? ?
結論は次のとおりです:
具体的に見てみましょう。 GPT-4 論文レビュー レベルの実際のテストGPT-4 の可能性を証明するために、研究者たちはまず GPT-4 を使用して高品質な人間によるフィードバックに代わるものはまだありませんが、GPT-4 は著者が 正式な査読前に初稿を改善するのに役立ちます。
自動パイプラインを作成しました。 #####。 PDF 形式の論文全体を分析し、タイトル、要約、図、表のタイトル、その他のコンテンツを抽出してプロンプトを作成します
その後、GPT-4 にレビュー コメントを提供させます。 このうち、意見は各トップカンファレンスの基準と同じであり、次の 4 つの部分から構成されています。 研究の重要性と新規性、および受理または承認の可能性がある理由拒否と改善の提案具体的な実験は
2 つの側面から実行されました。最初に定量的な実験を行います:
既存の論文を読み、フィードバックを生成し、実際の人間の意見と系統的に比較して重複部分を特定します。パートここで、チームは Nature の本号と主要なサブジャーナルから 3096 件の記事と、ICLR Machine Learning Conference (昨年と今年を含む)
から 1709 件の記事を選択し、合計 4805 件を選択しました。記事。 そのうち、Nature の論文には合計 8,745 件の人による査読コメントが含まれ、ICLR 会議には 6,506 件のコメントが含まれていました。
GPT-4 が意見を出した後、パイプラインは一致リンクで人間の引数と GPT-4 の引数をそれぞれ抽出し、セマンティック テキスト マッチングを実行して重複する引数を見つけます。 GPT-4 意見の妥当性と信頼性を測定するために使用されます。
結果は次のとおりです:
1. GPT-4 の意見は人間の査読者の実際の意見とかなり重複しています
全体として、Nature 論文では次のように述べられています。 GPT-4 では 57.55% の意見が少なくとも 1 人の人間の査読者と一致していますが、ICLR ではこの数字は 77.18% にも上ります。
GPT-4 を各レビュー担当者の意見とさらに注意深く比較した結果、チームは次のことを発見しました。
GPT-4 は、 Nature 論文 重複率は人間の査読者では 30.85%、ICLR では 39.23% に低下しました。
ただし、これは 2 人の人間の査読者間の重複率に匹敵します。 Nature 論文では、人間の平均重複率は 28.58% ですが、ICLR では 35.25%さらに、論文の成績レベルも分析しました
(口頭発表、スポットライト、または直接拒否)次のことが判明しました:
弱い論文の場合、 GPT-4 と人間の審査員の間の重複率は増加すると予想されます。現在の 30% 以上から、50% 近くまで増やすことができます。これは、GPT-4 が高い識別能力を持ち、品質の悪い論文を識別できることを示しています。
著者も正式に提出する前に、GPT-4 によって与えられた修正意見を試すことができます。2. GPT-4 は非普遍的なフィードバックを提供できます
いわゆる非普遍的なフィードバックとは、GPT-4 が次のような普遍的なフィードバックを提供しないことを意味します。複数の論文に適用可能。レビューコメント。ここで、著者らは「ペアごとの重複率」指標を測定し、Nature と ICLR の両方で 0.43% と 3.91% に大幅に減少したことを発見しました。
これは、GPT-4 が特定の目標を持っていることを示しています3、主要かつ普遍的な問題について人間の意見と合意に達することができます
一般的に、最も早く出現し、複数のレビュー担当者によって言及されているコメントは、多くの場合、重要で共通の問題を表しています。
ここで、チームは、LLM が、全員が一致して認識する複数の共通の問題または欠陥を特定する可能性が高いことも発見しました。レビュー担当者
GPT-4 の全体的なパフォーマンスは許容範囲です
4. GPT-4 によって与えられた意見は、人間とは異なるいくつかの側面を強調しています
この研究では、GPT-4は人間よりも研究そのものの意味についてコメントする可能性が7.27倍、研究の新規性についてコメントする可能性が10.69倍高いことが判明しました。
GPT-4 も人間も追加の実験を推奨することがよくありますが、人間はアブレーション実験により重点を置いており、GPT-4 はより多くのデータセットでそれらを試すことを推奨しています。
著者らは、これらの発見は、GPT-4 と人間の審査員がさまざまな側面に異なる重点を置いていることを示しており、両者の協力が潜在的な利点をもたらす可能性があると述べました。
定量的実験の先には、ユーザー調査があります。
さまざまな機関から AI および計算生物学の分野の合計 308 人の研究者がこの研究に参加し、レビューのために論文を GPT-4 にアップロードしました
研究チームは、次の点について意見を収集しました。 GPT-4 レビュー担当者からの実際のフィードバック。
全体として、参加者の半数以上 (57.4%) が、GPT-4 によって生成されたフィードバックが役立つと感じました。人間には考えられない点もある。
そして、調査対象者の 82.4% が、少なくとも一部の人間の査読者からのフィードバックよりも有益であると回答しました。
さらに、半数以上 (50.5%) が、論文を改善するために GPT-4 などの大型モデルをさらに使用することに意欲を示しました。
そのうちの 1 人は、GPT-4 では結果が得られるまでに 5 分しかかからないと言いました。このフィードバックは非常に速く、研究者が論文を改善するのに非常に役立ちます。
もちろん、著者は次のように強調しています:
GPT-4 の機能にもいくつかの制限があります
最も明白なのは、GPT-4 がより集中していることです。 「全体的なレイアウト」に関して、特定のテクノロジー領域に関する詳細なアドバイス (例: モデル アーキテクチャ) がありません。
したがって、著者の最終結論が述べているように:
正式なレビューの前に、人間のレビュー担当者からの質の高いフィードバックが非常に重要ですが、実験と建設を補うために最初に水をテストすることができます。詳細は見逃される可能性があります。
もちろん、次の点にも注意してください。
正式なレビューでは、レビュー担当者は LLM に依存せず、独立して参加する必要があります。
この研究 著者は 3 人です 、全員中国人で、スタンフォード大学コンピュータ サイエンス学部の出身です。
彼らは:
紙のリンク: https://arxiv.org/abs/2310.01783
以上がNature に論文を投稿するときは、まず GPT-4 について質問してください。スタンフォード大学は実際に 5,000 件の論文をテストし、意見の半分は人間の査読者の意見と同じでしたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。