著者 1 人は全員中国人です

ホームページ

テクノロジー周辺機器

Nature に論文を投稿するときは、まず GPT-4 について質問してください。スタンフォード大学は実際に 5,000 件の論文をテストし、意見の半分は人間の査読者の意見と同じでした

Nature に論文を投稿するときは、まず GPT-4 について質問してください。スタンフォード大学は実際に 5,000 件の論文をテストし、意見の半分は人間の査読者の意見と同じでした

PHPz

Oct 06, 2023 pm 02:37 PM

ai 紙

GPT-4 は 論文レビューを行うことができますか?

スタンフォード大学や他の大学の研究者が実際にテストしました。

彼らは、Nature、ICLR、その他のトップカンファレンスからの何千もの論文を GPT-4 に投げ込み、レビューコメント (修正提案などを含む) を生成させ、それらを人間によって与えられた意見を比較してください。

調査の結果、次のことが判明しました。

GPT-4 によって提案された意見の 50% 以上が、少なくとも 1 人の人間の査読者と一致しています。

著者の 82.4% 以上が、GPT-4 によって提供された意見が非常に役立つと感じています

この研究がどのような啓発をもたらすか私たち？？

結論は次のとおりです:

高品質な人間によるフィードバックに代わるものはまだありませんが、GPT-4 は著者が 正式な査読前に初稿を改善するのに役立ちます。

具体的に見てみましょう。

GPT-4 論文レビューレベルの実際のテスト

GPT-4 の可能性を証明するために、研究者たちはまず GPT-4 を使用して

自動パイプラインを作成しました。＃＃＃＃＃。 PDF 形式の論文全体を分析し、タイトル、要約、図、表のタイトル、その他のコンテンツを抽出してプロンプトを作成します

その後、GPT-4 にレビューコメントを提供させます。

このうち、意見は各トップカンファレンスの基準と同じであり、次の 4 つの部分から構成されています。

研究の重要性と新規性、および受理または承認の可能性がある理由拒否と改善の提案

具体的な実験は Nature に論文を投稿するときは、まず GPT-4 について質問してください。スタンフォード大学は実際に 5,000 件の論文をテストし、意見の半分は人間の査読者の意見と同じでした

2 つの側面から実行されました。

最初に定量的な実験を行います:

既存の論文を読み、フィードバックを生成し、実際の人間の意見と系統的に比較して重複部分を特定します。パートここで、チームは Nature の本号と主要なサブジャーナルから 3096 件の記事と、ICLR Machine Learning Conference (昨年と今年を含む)

から 1709 件の記事を選択し、合計 4805 件を選択しました。記事。

そのうち、Nature の論文には合計 8,745 件の人による査読コメントが含まれ、ICLR 会議には 6,506 件のコメントが含まれていました。

GPT-4 が意見を出した後、パイプラインは一致リンクで人間の引数と GPT-4 の引数をそれぞれ抽出し、セマンティックテキストマッチングを実行して重複する引数を見つけます。 GPT-4 意見の妥当性と信頼性を測定するために使用されます。

結果は次のとおりです: Nature に論文を投稿するときは、まず GPT-4 について質問してください。スタンフォード大学は実際に 5,000 件の論文をテストし、意見の半分は人間の査読者の意見と同じでした

1. GPT-4 の意見は人間の査読者の実際の意見とかなり重複しています

全体として、Nature 論文では次のように述べられています。 GPT-4 では 57.55% の意見が少なくとも 1 人の人間の査読者と一致していますが、ICLR ではこの数字は 77.18% にも上ります。

GPT-4 を各レビュー担当者の意見とさらに注意深く比較した結果、チームは次のことを発見しました。

GPT-4 は、 Nature 論文重複率は人間の査読者では 30.85%、ICLR では 39.23% に低下しました。 Nature に論文を投稿するときは、まず GPT-4 について質問してください。スタンフォード大学は実際に 5,000 件の論文をテストし、意見の半分は人間の査読者の意見と同じでした

ただし、これは 2 人の人間の査読者間の重複率に匹敵します。

Nature 論文では、人間の平均重複率は 28.58% ですが、ICLR では 35.25%

さらに、論文の成績レベルも分析しました

(口頭発表、スポットライト、または直接拒否)

次のことが判明しました: Nature に論文を投稿するときは、まず GPT-4 について質問してください。スタンフォード大学は実際に 5,000 件の論文をテストし、意見の半分は人間の査読者の意見と同じでした

弱い論文の場合、 GPT-4 と人間の審査員の間の重複率は増加すると予想されます。現在の 30% 以上から、50% 近くまで増やすことができます。

これは、GPT-4 が高い識別能力を持ち、品質の悪い論文を識別できることを示しています。

著者も正式に提出する前に、GPT-4 によって与えられた修正意見を試すことができます。

2. GPT-4 は非普遍的なフィードバックを提供できます

いわゆる非普遍的なフィードバックとは、GPT-4 が次のような普遍的なフィードバックを提供しないことを意味します。複数の論文に適用可能。レビューコメント。

ここで、著者らは「ペアごとの重複率」指標を測定し、Nature と ICLR の両方で 0.43% と 3.91% に大幅に減少したことを発見しました。

これは、GPT-4 が特定の目標を持っていることを示しています

3、主要かつ普遍的な問題について人間の意見と合意に達することができます

一般的に、最も早く出現し、複数のレビュー担当者によって言及されているコメントは、多くの場合、重要で共通の問題を表しています。

ここで、チームは、LLM が、全員が一致して認識する複数の共通の問題または欠陥を特定する可能性が高いことも発見しました。レビュー担当者

GPT-4 の全体的なパフォーマンスは許容範囲です

4. GPT-4 によって与えられた意見は、人間とは異なるいくつかの側面を強調しています

この研究では、GPT-4は人間よりも研究そのものの意味についてコメントする可能性が7.27倍、研究の新規性についてコメントする可能性が10.69倍高いことが判明しました。

GPT-4 も人間も追加の実験を推奨することがよくありますが、人間はアブレーション実験により重点を置いており、GPT-4 はより多くのデータセットでそれらを試すことを推奨しています。

著者らは、これらの発見は、GPT-4 と人間の審査員がさまざまな側面に異なる重点を置いていることを示しており、両者の協力が潜在的な利点をもたらす可能性があると述べました。

定量的実験の先には、ユーザー調査があります。

さまざまな機関から AI および計算生物学の分野の合計 308 人の研究者がこの研究に参加し、レビューのために論文を GPT-4 にアップロードしました

研究チームは、次の点について意見を収集しました。 GPT-4 レビュー担当者からの実際のフィードバック。

全体として、参加者の半数以上 (57.4%) が、GPT-4 によって生成されたフィードバックが役立つと感じました。人間には考えられない点もある。

そして、調査対象者の 82.4% が、少なくとも一部の人間の査読者からのフィードバックよりも有益であると回答しました。

さらに、半数以上 (50.5%) が、論文を改善するために GPT-4 などの大型モデルをさらに使用することに意欲を示しました。

そのうちの 1 人は、GPT-4 では結果が得られるまでに 5 分しかかからないと言いました。このフィードバックは非常に速く、研究者が論文を改善するのに非常に役立ちます。

もちろん、著者は次のように強調しています:

GPT-4 の機能にもいくつかの制限があります

最も明白なのは、GPT-4 がより集中していることです。「全体的なレイアウト」に関して、特定のテクノロジー領域に関する詳細なアドバイス (例: モデルアーキテクチャ) がありません。

したがって、著者の最終結論が述べているように:

正式なレビューの前に、人間のレビュー担当者からの質の高いフィードバックが非常に重要ですが、実験と建設を補うために最初に水をテストすることができます。詳細は見逃される可能性があります。

もちろん、次の点にも注意してください。

正式なレビューでは、レビュー担当者は LLM に依存せず、独立して参加する必要があります。

著者 1 人は全員中国人です

この研究 著者は 3 人です 、全員中国人で、スタンフォード大学コンピュータサイエンス学部の出身です。

彼らは:

Liang Weixin、同校の博士課程の学生であり、スタンフォード AI 研究所の学生でもあります(SAIL) )メンバー。彼はスタンフォード大学で電気工学の修士号を取得し、浙江大学でコンピュータサイエンスの学士号を取得しています。
Yuhui Zhang も博士課程の学生で、マルチモーダル AI システムを研究しています。清華大学で学士号を取得し、スタンフォード大学で修士号を取得しました。
Cao Hancheng は、同校の 5 年生の博士課程候補者で、経営科学と工学を専攻しており、スタンフォード大学の NLP および HCI グループにも参加しています。以前は清華大学電子工学部を卒業し、学士号を取得しました。

紙のリンク: https://arxiv.org/abs/2310.01783

以上がNature に論文を投稿するときは、まず GPT-4 について質問してください。スタンフォード大学は実際に 5,000 件の論文をテストし、意見の半分は人間の査読者の意見と同じでしたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

ホットツール

ホットトピック

Gmailメールのログイン入り口はどこですか？

7455

CakePHP チュートリアル

1375

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

vue.jsのストリングをオブジェクトに変換するためにどのような方法が使用されますか？ Apr 07, 2025 pm 09:39 PM

vue.jsのオブジェクトに文字列を変換する場合、標準のjson文字列にはjson.parse（）が推奨されます。非標準のJSON文字列の場合、文字列は正規表現を使用して処理し、フォーマットまたはデコードされたURLエンコードに従ってメソッドを削減できます。文字列形式に従って適切な方法を選択し、バグを避けるためにセキュリティとエンコードの問題に注意してください。

インストール後にMySQLの使用方法 Apr 08, 2025 am 11:48 AM

この記事では、MySQLデータベースの操作を紹介します。まず、MySQLWorkBenchやコマンドラインクライアントなど、MySQLクライアントをインストールする必要があります。 1. mysql-uroot-pコマンドを使用してサーバーに接続し、ルートアカウントパスワードでログインします。 2。CreatedAtaBaseを使用してデータベースを作成し、データベースを選択します。 3. createTableを使用してテーブルを作成し、フィールドとデータ型を定義します。 4. INSERTINTOを使用してデータを挿入し、データをクエリし、更新することでデータを更新し、削除してデータを削除します。これらの手順を習得することによってのみ、一般的な問題に対処することを学び、データベースのパフォーマンスを最適化することでMySQLを効率的に使用できます。

MySQLを解決する方法は開始できません Apr 08, 2025 pm 02:21 PM

MySQLの起動が失敗する理由はたくさんあり、エラーログをチェックすることで診断できます。一般的な原因には、ポートの競合（ポート占有率をチェックして構成の変更）、許可の問題（ユーザー許可を実行するサービスを確認）、構成ファイルエラー（パラメーター設定のチェック）、データディレクトリの破損（テーブルスペースの復元）、INNODBテーブルスペースの問題（IBDATA1ファイルのチェック）、プラグインロード障害（エラーログのチェック）が含まれます。問題を解決するときは、エラーログに基づいてそれらを分析し、問題の根本原因を見つけ、問題を防ぐために定期的にデータをバックアップする習慣を開発する必要があります。

vue.js文字列タイプの配列をオブジェクトの配列に変換する方法は？ Apr 07, 2025 pm 09:36 PM

概要：Vue.js文字列配列をオブジェクト配列に変換するための次の方法があります。基本方法：定期的なフォーマットデータに合わせてマップ関数を使用します。高度なゲームプレイ：正規表現を使用すると、複雑な形式を処理できますが、慎重に記述して考慮する必要があります。パフォーマンスの最適化：大量のデータを考慮すると、非同期操作または効率的なデータ処理ライブラリを使用できます。ベストプラクティス：コードスタイルをクリアし、意味のある変数名とコメントを使用して、コードを簡潔に保ちます。

Laravelの地理空間：インタラクティブマップと大量のデータの最適化 Apr 08, 2025 pm 12:24 PM

700万のレコードを効率的に処理し、地理空間技術を使用したインタラクティブマップを作成します。この記事では、LaravelとMySQLを使用して700万を超えるレコードを効率的に処理し、それらをインタラクティブなマップの視覚化に変換する方法について説明します。最初の課題プロジェクトの要件：MySQLデータベースに700万のレコードを使用して貴重な洞察を抽出します。多くの人は最初に言語をプログラミングすることを検討しますが、データベース自体を無視します。ニーズを満たすことができますか？データ移行または構造調整は必要ですか？ MySQLはこのような大きなデータ負荷に耐えることができますか？予備分析：キーフィルターとプロパティを特定する必要があります。分析後、ソリューションに関連している属性はわずかであることがわかりました。フィルターの実現可能性を確認し、検索を最適化するためにいくつかの制限を設定しました。都市に基づくマップ検索

Vue Axiosのタイムアウトを設定する方法 Apr 07, 2025 pm 10:03 PM

Vue axiosのタイムアウトを設定するために、Axiosインスタンスを作成してタイムアウトオプションを指定できます。グローバル設定：Vue.Prototype。$ axios = axios.create（{Timeout：5000}）;単一のリクエストで：this。$ axios.get（ '/api/users'、{timeout：10000}）。

MySQLインストール後にデータベースのパフォーマンスを最適化する方法 Apr 08, 2025 am 11:36 AM

MySQLパフォーマンスの最適化は、インストール構成、インデックス作成、クエリの最適化、監視、チューニングの3つの側面から開始する必要があります。 1。インストール後、INNODB_BUFFER_POOL_SIZEパラメーターやclose query_cache_sizeなど、サーバーの構成に従ってmy.cnfファイルを調整する必要があります。 2。過度のインデックスを回避するための適切なインデックスを作成し、説明コマンドを使用して実行計画を分析するなど、クエリステートメントを最適化します。 3. MySQL独自の監視ツール（ShowProcessList、ShowStatus）を使用して、データベースの健康を監視し、定期的にデータベースをバックアップして整理します。これらの手順を継続的に最適化することによってのみ、MySQLデータベースのパフォーマンスを改善できます。

リモートシニアバックエンジニア（プラットフォーム）がサークルが必要です Apr 08, 2025 pm 12:27 PM

リモートシニアバックエンジニアの求人事業者：サークル場所：リモートオフィスジョブタイプ：フルタイム給与：$ 130,000- $ 140,000職務記述書サークルモバイルアプリケーションとパブリックAPI関連機能の研究開発に参加します。ソフトウェア開発ライフサイクル全体をカバーします。主な責任は、RubyonRailsに基づいて独立して開発作業を完了し、React/Redux/Relay Front-Endチームと協力しています。 Webアプリケーションのコア機能と改善を構築し、機能設計プロセス全体でデザイナーとリーダーシップと緊密に連携します。肯定的な開発プロセスを促進し、反復速度を優先します。 6年以上の複雑なWebアプリケーションバックエンドが必要です

See all articles

Nature に論文を投稿するときは、まず GPT-4 について質問してください。スタンフォード大学は実際に 5,000 件の論文をテストし、意見の半分は人間の査読者の意見と同じでした

著者 1 人は全員中国人です

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック