GPT-4 の出現により、多くの人が科学研究を心配し、NLP など存在しないと冗談を言う人さえいました。
# 心配するよりも、単に「論文の方法を変更する」だけで、科学研究に使用する方が良いでしょう。
ハーバード大学の生物統計学博士であるカリーム・カー氏は、GPTなどの大規模言語モデルツールを使用したことがあると言った。 -4 学術研究を実施した。
# これらのツールは非常に強力ですが、非常に痛い落とし穴もいくつかあると彼は言いました。
LLM の使用に関するアドバイスに関する彼のツイートは、LeCun を推薦することにもなりました。
#Kareem Carr が AI ツールを使用して科学研究を行う方法を見てみましょう。
冒頭で、Carr 氏は最初で最も重要なルールを与えました。原則:
#自分自身で検証できない情報について大規模言語モデル (LLM) に尋ねたり、実行されたかどうかを検証できないタスクの実行を LLM に依頼したりしないでください。正しく完了しました。
唯一の例外は、LLM にアパートの装飾のアイデアを求めるなど、重要なタスクではない場合です。
#「文献レビューのベスト プラクティスを使用して、過去 10 年間の乳がん研究に関する研究を要約します。」文献が正しく要約されているかどうかを直接確認できないため、これは不適切なリクエストです。
# その代わりに、「過去 10 年間の乳がん研究に関するトップレビュー論文のリストを教えてください。」と尋ねてください。
# このようなプロンプトは、ソースを検証するだけでなく、自分自身で信頼性を検証することもできます。
LLM にコードの作成を依頼したり、関連情報を検索したりするのは非常に簡単ですが、プロンプトの品質は出力内容に影響を与える可能性がありますが、大きな違いがあります。品質を向上させるためにできることは次のとおりです:
コンテキストの設定:
•どの情報を使用する必要があるかを LLM に明示的に指示する
##•用語と記号を使用して、正しいコンテキスト情報に向けて LLM を方向付ける
リクエストの処理方法についてアイデアがある場合は、使用する具体的な方法を LLM に伝えてください。たとえば、「この不等式を解く」は、「コーシー・シュワルツの定理を使用してこの不等式を解き、完全二乗を適用する」に変更する必要があります。
#これらの言語モデルはあなたが思っているよりも言語的に複雑であり、非常に曖昧なヒントでも役に立つことに注意してください。
より具体的に:
これは問題ではありません。 Google 検索なので、あなたの問題を正確に論じているサイトがあるかどうか心配する必要はありません。
「二次項の連立方程式を解くにはどうすればよいですか?」このプロンプトは明確ではありません。「x=(1/2 )( を解くa b) および y=(1/3)(a^2 ab b^2) a と b に関する連立方程式。
出力形式を定義します。
LLM の柔軟性を利用して、出力を次のようにフォーマットします。
• コード
• 数式
• 記事
##• チュートリアル
• 簡単なガイド
##表、プロット、チャートなどを生成するコードを要求することもできます。
#LLM の出力結果が得られますが、これは始まりにすぎません。出力内容を確認する必要があるためです。これには以下が含まれます:
#• 不一致の発見
• Google 用語による検索ツールの出力コンテンツ、サポート可能なソースの入手
#• 可能であれば、自分でテストするコードを作成してください自己検証を行う理由は、LLM が見かけのプロ意識と矛盾する奇妙な間違いを犯すことが多いためです。たとえば、LLM は非常に高度な数学的概念について言及しているものの、単純な代数問題については混乱している可能性があります。
もう一度質問してください:
大規模言語モデルの生成 内容はランダムです。新しいウィンドウを作成して再度質問すると、より適切な答えが得られる場合があります。#さらに、複数の LLM ツールを使用します。 Kareem Carr 氏は現在、自身のニーズに応じて科学研究で Bing AI、GPT-4、GPT-3.5、Bard AI を使用しています。ただし、それぞれに独自の長所と短所があります。
#見積生産性
見積# #Carr の経験によれば、異なる視点を得るには、GPT-4 と Bard AI の両方に同時に同じ数学的質問をするのが最善です。 Bing AI は Web 検索で動作します。 GPT-4 は GPT-3.5 よりもはるかにスマートですが、現在 OpenAI は 3 時間で 25 メッセージに制限されており、アクセスがより困難になっています。
#引用の問題に関しては、参考文献の引用は LLM の特に弱点です。 LLM が提供する参照が存在する場合もあれば、存在しない場合もあります。
以前、あるネチズンが同じ問題に遭遇し、ChatGPT にリストの数学的性質に関する参考資料を提供するよう依頼しましたが、ChatGPT はエラー メッセージを生成したと述べました。存在しない参照は、誰もが「幻想」問題と呼ぶものです。
ただし、Kareem Carr 氏は、誤った引用がまったく役に立たないわけではないと指摘しています。
#彼の経験によれば、捏造された参考文献内の単語は、実際の用語や関連分野の研究者に関連していることがよくあります。したがって、これらの用語をグーグル検索すると、探している情報に近づくことがよくあります。
#さらに、ソースを検索する場合は、Bing も適しています。
生産性
LLM による生産性の向上については、「LLM はできる生産性が 10 倍、さらには 100 倍も向上します。」
カー氏の経験では、この種の加速は、仕事が二重チェックされていない場合にのみ意味があり、これは学者である人にとっては当てはまりますが、それは無責任です。
ただし、LLM はカリーム カーの学業ワークフローを大幅に改善しました。次の点が含まれます。
## -プロトタイプのアイデア設計 - 消えたアイデアの特定 - 退屈なデータ再フォーマット作業のスピードアップ - 新しいプログラミング言語、パッケージ、コンセプトの学習 - Google 検索
現在の LLM を使用, カー氏は、次に何をすべきかに費やす時間が減ったと言います。 LLM は、漠然とした、または不完全なアイデアを完全なソリューションに発展させるのに役立ちます。
# さらに、LLM のおかげで、Carr が主な目標とは関係のないサイド プロジェクトに費やす時間が削減されました。
#フロー状態になり、続けることができることがわかりました。これは、燃え尽き症候群になることなく、長時間働くことができることを意味します。
最後のアドバイス: 副業に巻き込まれないように注意してください。これらのツールによる生産性の突然の向上は、個人にとって陶酔し、気が散ってしまう可能性があります。
ChatGPT の経験について、Carr はかつて LinkedIn に投稿して、ChatGPT を使用した後の感想を共有しました。
##データ サイエンティストとして、私は数週間にわたって OpenAI の ChatGPT を実験してきました。人々が思っているほど良いものではありません。
#最初はがっかりしましたが、ChatGPT のようなシステムは標準的なデータ分析ワークフローに多大な価値を追加できると私は感じています。
現時点では、この値がどこにあるのかは明らかではありません。 ChatGPT は、単純なことについては細部を間違える可能性があり、複数の推論ステップを必要とする問題を解決することはできません。
#今後の新しいタスクごとに、ChatGPT のソリューションの試みを評価して改善する方が簡単なのか、それとも最初から始める方が簡単なのかという主な疑問が残ります。
#ChatGPT に対する貧弱なソリューションであっても、ゼロから始めると活性化されなかった脳の関連部分が活性化する傾向があることがわかりました。
#彼らがいつも言うように、自分で計画を立てるよりも計画を批判するほうが簡単です。
ネットユーザーは AI が出力したコンテンツを検証する必要があり、ほとんどの場合、人工知能の正解率は約90%。しかし、残りの 10% のミスは致命的となる可能性があります。
カーは冗談を言いました、もしそれが100%だったら、私には仕事がないでしょう。
では、なぜ ChatGPT は誤った参照を生成するのでしょうか?
ChatGPT は統計モデルを使用して、ユーザーが提供したコンテキストと一致する確率に基づいて次の単語、文、段落を推測することは注目に値します。
言語モデルのソース データは非常に大きいため、「圧縮」する必要があり、これにより最終的な統計モデルの精度が失われます。
これは、元のデータに正しいステートメントがあったとしても、モデルの「歪み」によって「あいまいさ」が生じ、モデルが最も「もっともらしい」ステートメントを生成します。
#つまり、このモデルには、生成される出力が真のステートメントと同等かどうかを評価する機能がありません。
また、このモデルは、公益法人「Common Crawl」などを通じて収集されたパブリックネットワークのクローリングデータやクローリングデータをもとに作成されています。 21歳の時点で。
#公共のインターネット上のデータはほとんどフィルタリングされていないため、このデータには大量の誤った情報が含まれている可能性があります。
NewsGuard による最近の分析により、GPT-4 は実際には GPT-3.5 よりもエラー メッセージを生成する可能性が高いことが判明しました。 、返信の説得力がより詳細で説得力があります。
NewsGuard は 1 月に初めて GPT-3.5 をテストし、100 件中 80 件のフェイク ニュース ナラティブが生成されることが判明しました。その後、3月に行われたGPT-4のテストでは、GPT-4が100件の虚偽の物語すべてに対して誤って誤解を招くような反応を示したことが判明した。
#LLM ツールの使用中には、ソースの検証とテストが必要であることがわかります。
以上がルカンが強くお勧めします!ハーバード大学の医師が、あらゆるワークフローに至るまで科学研究に GPT-4 を使用する方法を共有しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。