今年 3 月、NVIDIA CEO のジェンスン・ファンは非常に特別なイベントを開催しました。彼は、独創的な論文「Attending Is All You Need」の著者たちを GTC に招待し、生成 AI の将来の開発の方向性について話し合いました。
「私たちが今日この分野で楽しんでいることはすべて、その瞬間に遡ることができます...あなたは世界を変えました...」ファン・ジェンシュンは現場で言いました。
AIのような科学研究志向の業界にとって、世界を変える次のチャンスはある論文の中に隠されている可能性もあります。
そのため、このサークルでは珍しい現象が見られました。技術系ではない背景を持つ一部の CEO も、意思決定の試行錯誤のコストを削減することを望んで、夜更かしして論文を読み始めています。
これが CEO に当てはまれば、ましてやその分野の他の実務家は言うまでもありません。少し前から、OpenAI、Google、Meta が大きな動きを見せており、一部のスタートアップも新しいモデルや手法を次々と発表しており、多くの実務家は取り上げるべき論文が多すぎると感じると思います。
論文の要約を AI に任せることは、今日では一般的な読書方法ですが、多くの AI 要約には、明確なレベルや革新性と限界の詳細な説明が欠けており、論文を完全に理解するには、何回かの質問を行う必要があります。さらに、一部の主要なモデル アーキテクチャ図や実験結果図は論文の中から自分で探す必要があり、実際に節約できる時間は非常に限られています。
テンセントの「元宝」の最新アップデートでは、これらの問題の解決策が見られました。新たに開始された「深読モード」は、長文の集中読解をサポートし、写真とテキストを使用したモジュラー分析の出力をサポートし、論文を読むのに非常に適しています。
この新機能の効果を検証するために、当サイトでは実機テストを実施しました。
論文の「精読」、本質はどこにあるのか?
AI を使って論文を読むのはどのような感じですか?多くの場合、これは次のようなものです。PDF を投げると、概要と複数の概要 (場合によっては最大 10 件) が返されます。この情報は確かに役に立ちますが、どれがハイライトなのか、この論文で何が解決され、何が解決されないのか、どの中心的な問題に注目する価値があるのかを区別するのが難しい場合があります。
実際のテストでは、「Yuanbao」が一連のモジュール化された構造化された情報を提供することでこれらの問題を解決することがわかりました。
私たちがテストした SIGGRAPH 論文を例として取り上げます。論文を直接投げ込んだ場合、返される要約は他の AI とそれほど変わりません。ただし、辛抱強く下にスクロールすると、「文書を詳しく読む」ボタンが表示されます。これは、論文を集中的に読むための「ワンクリック」スイッチです。
論文を要約した以前のインターフェースとは異なり、精読ページでは、研究背景、研究方法、実験計画、結果分析、全体的な結論がそれぞれ非常に階層的に整理されています。このサイトでは通常、論文のレイアウトを紹介します。これらはすべて、左側のアウトラインからすぐにジャンプできます。
各モジュールには多くの単語はありませんが、これらの単語は実際には非常に有益です。たとえば、研究の背景モジュールでは、「研究の困難さ」の段落で 4 つの困難をわずか 3 つの短い文で説明しており、「関連作業」は第 2 章の「関連作業」を高度に凝縮したものです。1 つの段落で次のことが説明されています。この分野における 4 つの困難な主な技術ルートが明確に紹介されています。したがって、このモジュールを読むと、その論文がどのような問題を研究しており、どのような研究状況に直面しているのかを基本的に理解することができます。 これらの従来の構造化された情報に加えて、Yuanbao の集中読解には目を引くデザインもあります -論文の長所と短所をリストするので、研究者はこの論文から何が学べるのか、どのような問題があるのかをすぐに理解できます発見されましたが、さらに研究する価値のある問題は何ですか?
為什麼這個功能如此重要?中國台灣清華大學教授彭明輝在論文閱讀的一篇文章中曾經寫道,論文和課本不同,課本會提供別人整理、組織好的系統性知識,而論文要求讀者自己從無組織的知識中檢索、篩選、組織知識。其中,分析既有研究優缺點的能力尤其重要,這是批判性思考的關鍵部分,也是學術研究中自我提升的重要途徑。元寶透過快速分析和總結論文的優缺點,可以幫助研究者節省大量篩選和初步理解的時間,使他們能夠更快地專注於與自己研究直接相關的論文。
不過,如果你覺得前面這些資訊太繁瑣,你也可以直接跳到最後的「關鍵問題與解答」模組。這裡會列出幾個最關鍵的問題,讓你快速了解論文的價值,進而判斷是否值得花時間去讀原文。當然,之前的許多 AI 助理也會在答案末尾呈現一些關鍵問題,點一下就能得到答案,但如果你是初學者或跨學科背景的讀者,你可能不太容易判斷哪些問題比較關鍵。元寶這種直接呈現的方式感覺更加直觀。
原圖原數,誰說 AI 讀論文不能配圖?
在讀論文時,很多人都有一個習慣,一邊看圖,一邊看論文描述。這樣理解起來更快、更容易。但是,現在市面上大部分 AI 應用程式回傳的都是文字結果,想看圖的話要自己去原文找。
我們在測試中發現,元寶是為數不多的直接把論文圖截出來並放到段落對應位置的 AI。例如,如果在某個模組講架構,那它會把對應的架構圖放上:
如果在某個模組講實驗結果,那它會把對應的圖表放上:
眾所周知,大模型的幻覺問題現在還沒辦法完全解決。因此,這種原圖原數的呈現其實是一種更可靠的輸出方式,方便讀者隨時驗證模型的答案,在用作參考時更加保險。
此外,我們還發現,如果你有寫博客等對外輸出的需求,元寶還可以幫你繪製圖表,而且你不需要告訴它數據去哪裡找,它能自己定位到論文中的相關表格,並將資料提取出來進行繪製。這項功能可以透過精讀頁面右側的「提問」按鈕來喚起。
隨時隨地想讀就讀,誰說讀論文障礙重重?
除了結構化的資訊和圖文並茂的輸出,我們在測試中還發現,元寶其實有一些非常實用的小功能,能讓讀論文這件事變得更加方便。
首先是劃詞翻譯和搜尋,這是「原文」閱讀介面的兩個實用小功能。劃詞翻譯可以幫助英語不好的讀者隨時隨地掃清語言障礙,劃詞搜尋則更進一步,像是把元寶的搜尋功能做成了一個插件,可以隨時搜相關資訊。而且,元寶給的解釋不只是簡短的總結,還有模組化的展開,真是把「結構化」、「有資訊量」做到每一個細節裡了。
其次是「離線閱讀」。這個功能的實用之處在於:它可以讓你在「飛航模式」下回看精讀內容及原文,不浪費一點碎片時間。這讓航空公司在與高鐵的競爭中扳回一城。說不定,研究者的下一個靈感就是在飛機上回看精讀時產生的。
最後一個小功能是「計算器」。前段時間,AI 因為分不清 9.9 和 9.11 哪個大而引發了許多討論。在元寶中,我們發現它整合了計算器功能,能夠確保根據準確的計算結果來產生答案。這種功能在我們閱讀實驗數據時非常有用。
長文精讀的背後:原來有專家指導
根據官方訊息,騰訊元寶的這次升級主打「長文精讀」,可原生支援最長近 50 萬字的輸入。我們在測驗中用到的論文遠遠沒有達到這個長度,日常所接觸的論文大多也達不到。所以用元寶來精讀論文,大部分情況下上下文視窗都是夠用的。它的模組化、圖文並茂輸出以及劃詞搜尋、翻譯等小功能也讓讀論文這件事真正變得方便、高效,向著「實用性」又邁近了一步。
這種進化離不開其背後模型 —— 騰訊混元大模型的升級。據悉,為了在專業領域中提昇模型的專業性和實用性,騰訊混元團隊專門邀請領域專家概括各專業領域的核心技能,並製定了專業問題的回答標準,使得模型能夠作為真正的領域專家來提供服務。所以我們用下來就感覺,元寶是知道論文讀者需要什麼資訊以及資訊應該如何呈現的。
除了論文,這個新功能還可以用來精讀財報、研報等長文。在這些場景中,它可以從多個維度梳理訊息,根據報告內容生成杜邦分析圖等專業圖表,讓不懂這些文件的人也能看懂企業的財務狀況等資訊。
不過,就讀論文這個場景來說,元寶依然存在一些改進空間,例如在閱讀原文介面缺乏完整的原文 - 譯文對照,對公式的識別有時不夠準確等。我們也希望元寶能在未來的更新中改進這些問題。
但作為一款推出僅兩個多月的應用,騰訊元寶的表現已經有點超乎預期。它的進化軌跡讓我們看到,大模型將如何一步一步變成新的生產力。我們也期待這個 APP 能帶給我們更多驚喜。
以上がこの大きなモデルは私の論文読書障害を本当に治してくれましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。