紙版「ChatGPT」が登場!論文を読みながら同時に質問できる ネチズン:論文を読むことで時間を節約できます。
科学研究者に朗報です! 「ChatGPT」は、特に論文と対話するためにここにあります。
新聞を読むのが面倒ですか?問題はありません。このツールに調べてもらい、質問がある場合は質問してください。
このプロセス全体で行うべきことは、書類をアップロードして質問することだけです。
しかし、混乱して、その答えが信じられないと感じていますか?
問題ありません。解答は紙のどのページのどこに記載されているかが明記されているので、いつでもテストを受けることができます。
これはネチズンに直接、とてもクールだと言わせました:
私は論文を書いているので、文献を読む時間が直接的に大幅に節約されます。
一部のネチズンは、これがこれまで見た中で最高の AI ツールであると一方的に発表しました。
この小さなツールは ResearchGPT と呼ばれ、プロジェクトはオープン ソースであり、GitHub で 400 回スター付けされています。 #####################使い方?
ResearchGPT を使用するには、まず OpenAI API キーを取得する必要があります。
##キーを入力後、読みたい論文のPDFまたはリンクを直接アップロードすると、左側に論文の原文が表示され、右側に論文の原文が表示されます。 、直接質問することができます。 #####################答えはなんですか?デモに直接アクセスしてください:
そうは言っても、このツールはどのようにして論文にスムーズに回答できるのでしょうか?
次に、論文内の該当部分を直接検索しますが、セマンティック検索を行う方法については、答えは非常に簡単です:
OpenAI 埋め込みモデルの API を使用します。
ここでは、プロンプトの単語と論文内のテキストの単語埋め込みベクトルの間のコサイン類似度を直接使用して、関連性の高いテキストを検索して抽出します。 。
これらのテキスト ResearchGP も、回答の最後に 1 つずつ記載されます。
答えが論文内のどこにあるかが指摘されたので、残っているのは最後のステップである要約だけです。このステップは、次のステップに直接スローされます。 GPT-3 やります。
この場合、このアイデアとフレームワーク技術に基づいて、あらゆるテキストベースのコンテンツをチャットに使用できますか?弟自身もこう言いました:
はい!この技術フレームワークに基づいて、コードベース、文書、財務報告書、裁判例などを読みたくない場合は、ツールに説明させることができます。
しかし、一部のネチズンは、このツールはチャートを理解できるのでしょうか?と興味を持っています。 (結局のところ、一部の論文では依然としてチャートが非常に重要です)
ただし、このツールを開発した人は直接断固拒否しました。
やる気のない量子ビットも、最も単純な形式を理解できるかどうかを確認するために自分自身で試してみましたが、その結果は次のようになりました:
えっと、答えはわかりません。それは全くの間違いであり、問題とは無関係としか言いようがありません。 (これは ChatGPT のナンセンスに似ています)
しかし、一般に、チャートの問題が関係しない場合は、ResearchGPT を引き続き使用できます。
興味があれば、記事の最後にあるリンクをクリックして自分で試してみてください~
著者紹介
このツールを作成した人の名前は次のとおりです。 Mukul 氏の自己紹介も興味深いもので、私はデータ サイエンティストであり開発者であるだけでなく、研究者、ライター、デザイナーでもあると述べています。
私の兄も以前に、Web を検索することで質問に答えることができる WebGPT を構築したことがあり、内容の要約にも GPT-3 を使用しています。
ポータル: https://www.php.cn/link/9c58da3f0418ebdb53c02615f9ab7282
参考リンク:
[1] https://twitter.com/mukul0x/status/1625673579399446529?s=20
[2] https://github.com/mukulpatnaik / Researchgpt
[3] https://www.reddit.com/r/GPT3/comments/112ncf0/introducing_researchgpt_an_opensource_research/
以上が紙版「ChatGPT」が登場!論文を読みながら同時に質問できる ネチズン:論文を読むことで時間を節約できます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









DALL-E 3は、前モデルより大幅に改良されたモデルとして2023年9月に正式導入されました。これは、複雑な詳細を含む画像を作成できる、これまでで最高の AI 画像ジェネレーターの 1 つと考えられています。ただし、発売当初は対象外でした

従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニング コストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー(テスラの4680バッテリー)を次のように分類します:公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング:今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジム ファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

大規模言語モデル (LLM) を人間の価値観や意図に合わせるには、人間のフィードバックを学習して、それが有用で、正直で、無害であることを確認することが重要です。 LLM を調整するという点では、ヒューマン フィードバックに基づく強化学習 (RLHF) が効果的な方法です。 RLHF 法の結果は優れていますが、最適化にはいくつかの課題があります。これには、報酬モデルをトレーニングし、その報酬を最大化するためにポリシー モデルを最適化することが含まれます。最近、一部の研究者はより単純なオフライン アルゴリズムを研究しており、その 1 つが直接優先最適化 (DPO) です。 DPO は、RLHF の報酬関数をパラメータ化することで、選好データに基づいてポリシー モデルを直接学習するため、明示的な報酬モデルの必要性がなくなります。この方法は簡単で安定しています

ソフトウェア テクノロジの最前線に立つ UIUC Zhang Lingming のグループは、BigCode 組織の研究者とともに、最近 StarCoder2-15B-Instruct 大規模コード モデルを発表しました。この革新的な成果により、コード生成タスクにおいて大きな進歩が達成され、CodeLlama-70B-Instruct を上回り、コード生成パフォーマンス リストのトップに到達しました。 StarCoder2-15B-Instruct のユニークな特徴は、その純粋な自己調整戦略であり、トレーニング プロセス全体がオープンで透過的で、完全に自律的で制御可能です。このモデルは、高価な手動アノテーションに頼ることなく、StarCoder-15B 基本モデルの微調整に応じて、StarCoder2-15B を介して数千の命令を生成します。

上記と著者の個人的な理解: この論文は、自動運転アプリケーションにおける現在のマルチモーダル大規模言語モデル (MLLM) の主要な課題、つまり MLLM を 2D 理解から 3D 空間に拡張する問題の解決に特化しています。自動運転車 (AV) は 3D 環境について正確な決定を下す必要があるため、この拡張は特に重要です。 3D 空間の理解は、情報に基づいて意思決定を行い、将来の状態を予測し、環境と安全に対話する車両の能力に直接影響を与えるため、AV にとって重要です。現在のマルチモーダル大規模言語モデル (LLaVA-1.5 など) は、ビジュアル エンコーダーの解像度制限や LLM シーケンス長の制限により、低解像度の画像入力しか処理できないことがよくあります。ただし、自動運転アプリケーションには次の要件が必要です。

1. はじめに ここ数年、YOLO は、計算コストと検出パフォーマンスの効果的なバランスにより、リアルタイム物体検出の分野で主流のパラダイムとなっています。研究者たちは、YOLO のアーキテクチャ設計、最適化目標、データ拡張戦略などを調査し、大きな進歩を遂げました。同時に、後処理に非最大抑制 (NMS) に依存すると、YOLO のエンドツーエンドの展開が妨げられ、推論レイテンシに悪影響を及ぼします。 YOLO では、さまざまなコンポーネントの設計に包括的かつ徹底的な検査が欠けており、その結果、大幅な計算冗長性が生じ、モデルの機能が制限されます。効率は最適ではありませんが、パフォーマンス向上の可能性は比較的大きくなります。この作業の目標は、後処理とモデル アーキテクチャの両方から YOLO のパフォーマンス効率の境界をさらに改善することです。この目的を達成するために
