In March this year, NVIDIA CEO Jensen Huang held a very special event. He invited the authors of the seminal paper "Attention Is All You Need" to gather at GTC to talk about the future development direction of generative AI.
"Everything we enjoy today in our field can be traced back to that moment... You changed the world..." Huang Jenxun said at the scene.
For a scientific research-oriented industry like AI, the next opportunity to change the world may also be hidden in a certain paper.
Therefore, We have seen an unusual phenomenon in this circle: some CEOs with non-technical backgrounds have also begun to stay up late reading papers, hoping to reduce the trial and error cost of decision-making.
If this is the case for CEO, let alone other practitioners in the field. Some time ago, OpenAI, Google, and Meta have been making big moves, and some startups are also constantly launching new models and methods. I believe many practitioners will feel that there are too many papers to cover.
Leaving papers to AI to summarize is a common reading method nowadays, but many AI summaries lack clear levels and detailed descriptions of innovations and limitations. We need to go through several rounds of questioning to form a complete understanding of the paper. Know. Moreover, some key model architecture diagrams and experimental result diagrams have to be found in the paper by yourself, and the actual time saved is very limited.
In the latest update of Tencent’s “Yuanbao”, we saw solutions to these problems. Their newly launched "Deep Reading Mode" supports intensive reading of long texts, can output modular analysis with pictures and texts, and is very suitable for reading papers.
In order to verify the effect of this new function, this website conducted a first-hand actual test.
"Intensive Reading" of the paper, where is the essence?
What is it like to use AI to read papers? A lot of the time it's this: you throw it a PDF and it returns a summary + several summaries (sometimes up to 10). This information is indeed helpful, but sometimes it is difficult to distinguish which ones are the highlights, what the paper solves and what it does not solve, and what core issues are worth looking at.
Our actual testing found that "Yuanbao" solves these problems by providing a series of modular and structured information.
Take a SIGGRAPH paper we tested as an example. If you throw the paper in directly, the summary it returns is not much different from other AIs. However, as long as you scroll down patiently, you will see a button to "read the document in depth". This is the "one-click" switch for intensive reading of the paper.
Different from the previous interface that summarized the paper, the intensive reading page will dismantle the paper in a very hierarchical manner. The research background, research methods, experimental design, result analysis, and overall conclusion are each organized into a module, which is very similar to This site usually introduces the layout of papers. All of these can be quickly jumped to via the outline on the left.
Although each module does not have many words, these words are actually very informative. For example, in the research background module, the "Research Difficulties" paragraph describes four difficulties in just three short sentences, and "Related Work" is a highly condensed version of the "related work" in Chapter 2. In one paragraph, it describes the four difficulties in this field. The main technical routes are clearly introduced. Therefore, after reading this module, we can basically understand what problem the paper studies and what kind of research status we are facing.
In addition to these conventional structured information, Yuanbao's Intensive Reading also has an eye-catching design - It will list the advantages and disadvantages of the paper, so that researchers can quickly understand what they can learn from this paper What issues have been discovered and what issues are worthy of further research?
なぜこの機能がそれほど重要なのでしょうか?台湾の清華大学の彭明輝教授はかつて、論文の読み方についての記事で、論文は教科書とは異なり、他人が編集・整理した体系的な知識を提供するものであるのに対し、論文は読者が未整理の知識を自分で検索して整理する必要があると述べた。知識をフィルタリングして整理します。その中でも、既存の研究の長所と短所を分析する能力は特に重要であり、批判的思考の重要な部分であり、学術研究において自分自身を向上させるための重要な方法です。 Yuanbao は、論文の長所と短所を迅速に分析して要約することにより、研究者がスクリーニングと事前理解にかかる時間を大幅に節約し、研究に直接関連する論文により早く集中できるようにします。
ただし、前の情報が退屈すぎると思われる場合は、最後の 「重要な質問と回答」モジュール に直接ジャンプすることもできます。ここでは、論文の価値をすぐに理解し、時間をかけて原文を読む価値があるかどうかを判断するのに役立つ、最も重要な質問をいくつか紹介します。もちろん、これまでの AI アシスタントの多くも、回答の最後にいくつかの重要な質問を提示しており、ワンクリックで回答を得ることができますが、初心者や学際的な背景を持つ読者にとっては、それは簡単ではないかもしれません。どの質問がより重要であるかを判断できるようになります。元寶の直接的な表現は、より直感的に感じられます。
オリジナルの写真の数、AIが論文を読むのに写真は添付できないと誰が言ったのですか?
論文を読むとき、多くの人は写真を見ながら論文の説明を読む習慣があります。この方法の方が早くて理解しやすいです。ただし、現在市場にあるほとんどの AI アプリケーションはテキスト結果を返します。画像を見たい場合は、元のテキストで検索する必要があります。
テストの結果、元宝は紙の写真を直接切り取って段落の対応する位置に配置できる数少ないAIの1つであることがわかりました。たとえば、特定のモジュールのアーキテクチャについて話した場合、対応するアーキテクチャ図が表示されます:
特定のモジュールの実験結果について話した場合、対応するグラフが表示されます:
ご存知のとおり、大規模モデルの錯視問題を完全に解決する方法はありません。したがって、この元の数値の提示は、実際にはより信頼性の高い出力方法であり、読者がいつでもモデルの答えを確認することが容易になり、参考として使用する場合にはより安全です。
さらに、ブログやその他の外部出力を書く必要がある場合、Yuanbao はグラフの描画にも役立ち、データの場所を指示する必要がなく、関連するテーブルを見つけることができることもわかりました。論文自体に記載されており、データを抽出してプロットします。この機能は、精読ページの右側にある「質問する」ボタンから呼び出すことができます。
いつでもどこでも好きなときに読書できます。論文を読むのには多くの障害があると誰が言いましたか?
画像やテキストによる構造化された情報と出力に加えて、Yuanbao には実際に論文を読むのをより便利にする非常に実用的な小さな機能がいくつかあることもテスト中にわかりました。
1 つ目は 単語翻訳と検索 で、「原文」読み取りインターフェイスの 2 つの実用的な小さな機能です。クロスワード翻訳は、英語が苦手な読者がいつでもどこでも言語の壁を取り除くのに役立ちます。たとえば、クロスワード検索はプラグイン化されており、検索できるようになります。いつでも関連情報を入手できます。さらに、Yuanbao 氏の説明は単なる要約ではなく、モジュール形式で拡張されており、細部にわたって本当に「構造化」され、「有益」です。
2つ目は「オフライン読書」です。この機能の実用性は、精読コンテンツや原文を「機内モード」で断片的な時間を無駄にすることなく復習できることです。これにより航空会社は高速鉄道との競争である程度の地位を取り戻すことができる。おそらく、研究者たちの次のインスピレーションは、機内で集中的に読んだ本を見直すことから得られるでしょう。
最後の小さな機能は「電卓」です。少し前に、AI が 9.9 と 9.11 のどちらが大きいかを区別できないという理由で多くの議論を引き起こしました。 Yuanbao には、正確な計算に基づいて回答が生成されることを保証する統合された計算機機能があることがわかりました。この機能は実験データを読み取るときに非常に役立ちます。
長文の精読の裏には専門家の指導があることが判明
公式情報によると、Tencent Yuanbaoのアップグレードは「長文の精読」に焦点を当てており、最大50万語近くの入力をネイティブでサポートできるという。テストで使用した紙はこの長さに遠く及ばず、私たちが日常的に触れる紙のほとんどはこの長さに達することができません。したがって、Yuanbao を使用して論文を集中的に読む場合は、ほとんどの場合、コンテキスト ウィンドウで十分です。そのモジュール性、グラフィックおよびテキスト出力、および単語検索や翻訳などの小さな機能も、論文を読むのを本当に便利かつ効率的にし、「実用性」にさらに一歩近づきます。
この進化は、その背後にあるモデル、つまり Tencent Hunyuan の大型モデルのアップグレードと切り離すことができません。専門分野におけるモデルの専門性と実用性を向上させるために、Tencent Hunyuan チーム が専門分野の専門家を特別に招待し、各専門分野のコアスキルを要約し、専門的な質問に対する回答基準 を策定したと報告されています。実ドメインとして利用可能 専門家がサービスを提供します。そのため、使用してみて、Yuanbao は読者が必要とする情報とその情報をどのように提示すべきかを理解していると感じました。
論文だけでなく、財務報告書や調査報告書などの長文を集中的に読むこともできる新機能です。このようなシナリオでは、情報を多面的に整理し、レポートの内容に基づいてデュポン分析チャートなどの専門的なチャートを生成できるため、これらのドキュメントを理解できない人でも会社の財務状況やその他の情報を理解できるようになります。
しかし、論文を読むという文脈では、元宝にはまだ改善の余地があり、元のテキストを読むインターフェースで完全な元のテキストと翻訳の比較が不足していたり、数式の認識が十分に正確でない場合があります。 。また、Yuanbao が将来のアップデートでこれらの問題を改善できることを期待しています。
しかし、リリースされてから 2 か月以上しか経っていないアプリであるにもかかわらず、Tencent Yuanbao のパフォーマンスはすでに期待を上回っています。その進化の軌跡により、大規模モデルがどのように段階的に新しい生産性を実現していくのかを知ることができます。また、このアプリが私たちにさらなる驚きをもたらすことを楽しみにしています。
The above is the detailed content of This large model really cured my paper reading disorder. For more information, please follow other related articles on the PHP Chinese website!