올해 3월, 엔비디아 CEO 젠슨 황(Jensen Huang)은 아주 특별한 행사를 열었습니다. 그는 세미나리 논문 "Attention Is All You Need"의 저자들을 GTC에 초대하여 생성 AI의 향후 개발 방향에 대해 논의했습니다.
"오늘 우리가 이 분야에서 즐기는 모든 것은 그 순간으로 거슬러 올라갑니다... 당신이 세상을 바꾸었습니다..." Huang Jenxun은 현장에서 말했습니다.
AI와 같은 과학 연구 중심 산업의 경우, 세상을 바꿀 다음 기회가 특정 논문에 숨겨져 있을 수도 있습니다.
따라서 우리는 이 분야에서 특이한 현상을 목격했습니다. 기술적 배경이 없는 일부 CEO도 의사 결정의 시행착오 비용을 줄이기 위해 늦게까지 신문을 읽기 시작했습니다.
CEO가 그렇다면 해당 분야의 다른 실무자는 물론이고요. 얼마 전부터 OpenAI, Google, Meta가 큰 움직임을 보이고 있으며, 일부 스타트업에서도 계속해서 새로운 모델과 방법을 출시하고 있으며, 많은 실무자들이 다루어야 할 논문이 너무 많다고 느낄 것이라고 생각합니다.
논문을 AI에 맡기는 것은 오늘날 일반적인 읽기 방법이지만, 많은 AI 요약에는 혁신과 한계에 대한 명확한 수준과 자세한 설명이 부족합니다. 게다가 일부 주요 모델 아키텍처 다이어그램과 실험 결과 다이어그램은 직접 논문에서 찾아야 하며 실제 절약되는 시간은 매우 제한적입니다.
Tencent의 “Yuanbao” 최신 업데이트에서 우리는 이러한 문제에 대한 해결책을 보았습니다. 새로 출시된 "심층 읽기 모드"는 긴 글의 집중 읽기를 지원하고, 그림과 텍스트가 포함된 모듈식 분석을 출력할 수 있으며, 논문 읽기에 매우 적합합니다.
이 새로운 기능의 효과를 확인하기 위해 본 사이트에서는 직접 실제 테스트를 진행했습니다.
논문의 '정독', 본질은 어디에?
AI를 사용하여 논문을 읽는 것은 어떤가요? 대부분의 경우 PDF를 전송하면 요약 + 여러 요약(때로는 최대 10개)이 반환됩니다. 이 정보는 실제로 도움이 되지만, 어떤 것이 하이라이트인지, 어떤 것이 이 논문에서 해결되고 어떤 것이 해결되지 않는지, 어떤 핵심 문제가 살펴볼 가치가 있는지 구별하기 어려울 때가 있습니다.
실제 테스트에서 "Yuanbao"는 일련의 모듈식 및 구조화된 정보를 제공하여 이러한 문제를 해결하는 것으로 나타났습니다.
우리가 테스트한 SIGGRAPH 논문을 예로 들어보겠습니다. 종이를 직접 던지면 반환되는 요약은 다른 AI와 크게 다르지 않습니다. 그러나 인내심을 갖고 아래로 스크롤하면 "문서를 자세히 읽기" 버튼이 표시됩니다. 이는 논문을 집중적으로 읽을 수 있는 "원클릭" 스위치입니다.
논문을 요약했던 기존 인터페이스와 달리 집중 읽기 페이지에서는 논문을 매우 계층적으로 해체합니다. 연구 배경, 연구 방법, 실험 설계, 결과 분석, 전반적인 결론이 각각 구성되어 있습니다. 이 사이트는 일반적으로 논문의 레이아웃을 소개합니다. 이들 모두는 왼쪽의 개요를 통해 빠르게 이동할 수 있습니다.
각 모듈에는 단어가 많지 않지만 실제로 이 단어는 매우 유익합니다. 예를 들어 연구 배경 모듈에서 "연구 어려움" 문단은 단 세 개의 짧은 문장으로 네 가지 어려움을 설명하고, "관련 연구"는 2장의 "관련 연구"를 고도로 압축한 버전입니다. 한 문단에서는 설명합니다. 이 분야의 네 가지 어려움이 명확하게 소개되어 있습니다. 따라서 이 모듈을 읽고 나면 우리는 논문이 어떤 문제를 연구하고 있는지, 우리가 직면하고 있는 연구 현황은 어떤 것인지 기본적으로 이해할 수 있다.
이러한 기존의 구조화된 정보 외에도 Yuanbao의 집중 읽기에는 눈길을 끄는 디자인도 있습니다. - 논문의 장점과 단점을 나열합니다. 이를 통해 연구자는 이 논문에서 무엇을 배울 수 있는지 빠르게 이해할 수 있습니다. 발견되었으며 어떤 문제가 추가 연구에 가치가 있습니까?
なぜこの機能がそれほど重要なのでしょうか?台湾の清華大学の彭明輝教授はかつて、論文の読み方についての記事で、論文は教科書とは異なり、他人が編集・整理した体系的な知識を提供するものであるのに対し、論文は読者が未整理の知識を自分で検索して整理する必要があると述べた。知識をフィルタリングして整理します。その中でも、既存の研究の長所と短所を分析する能力は特に重要であり、批判的思考の重要な部分であり、学術研究において自分自身を向上させるための重要な方法です。 Yuanbao は、論文の長所と短所を迅速に分析して要約することにより、研究者がスクリーニングと事前理解にかかる時間を大幅に節約し、研究に直接関連する論文により早く集中できるようにします。
ただし、前の情報が退屈すぎると思われる場合は、最後の 「重要な質問と回答」モジュール に直接ジャンプすることもできます。ここでは、論文の価値をすぐに理解し、時間をかけて原文を読む価値があるかどうかを判断するのに役立つ、最も重要な質問をいくつか紹介します。もちろん、これまでの AI アシスタントの多くも、回答の最後にいくつかの重要な質問を提示しており、ワンクリックで回答を得ることができますが、初心者や学際的な背景を持つ読者にとっては、それは簡単ではないかもしれません。どの質問がより重要であるかを判断できるようになります。元寶の直接的な表現は、より直感的に感じられます。
元の写真番号、AI が論文を読むのに写真は添付できないと誰が言ったのですか?
論文を読むとき、多くの人は写真を見ながら論文の説明を読む習慣があります。この方法の方が早くて理解しやすいです。ただし、現在市場にあるほとんどの AI アプリケーションはテキスト結果を返します。画像を見たい場合は、元のテキストで検索する必要があります。
テストの結果、元宝は紙の写真を直接切り取って段落の対応する位置に配置できる数少ないAIの1つであることがわかりました。たとえば、特定のモジュールのアーキテクチャについて話すと、対応するアーキテクチャ図が表示されます:
特定のモジュールの実験結果について話すと、対応するチャートが表示されます:
ご存知のとおり、大規模モデルの錯視問題を完全に解決する方法はありません。したがって、この元の数値の提示は、実際にはより信頼性の高い出力方法であり、読者がいつでもモデルの答えを確認することが容易になり、参考として使用する場合にはより安全です。
さらに、ブログやその他の外部出力を書く必要がある場合、Yuanbao はグラフの描画にも役立ち、データの場所を指示する必要がなく、関連するテーブルを見つけることができることもわかりました。論文自体でデータを抽出し、プロットします。この機能は、精読ページの右側にある「質問する」ボタンから呼び出すことができます。
いつでもどこでも好きなときに読書できます。論文を読むのには多くの障害があると誰が言いましたか?
画像やテキストによる構造化された情報と出力に加えて、Yuanbao には実際に論文を読むのをより便利にする非常に実用的な小さな機能がいくつかあることもテスト中にわかりました。
1 つ目は 単語翻訳と検索 で、「原文」読み取りインターフェイスの 2 つの実用的な小さな機能です。クロスワード翻訳は、英語が苦手な読者がいつでもどこでも言語の壁を取り除くのに役立ちます。たとえば、クロスワード検索はプラグイン化されており、検索できるようになります。いつでも関連情報を入手できます。さらに、Yuanbao 氏の説明は単なる要約ではなく、モジュール形式で拡張されており、細部にわたって実に「構造化」され、「有益」です。
2つ目は「オフライン読書」です。この機能の実用性は、精読コンテンツや原文を「機内モード」で断片的な時間を無駄にすることなく復習できることです。これにより航空会社は高速鉄道との競争である程度の地位を取り戻すことができる。おそらく、研究者たちの次のインスピレーションは、機内で集中的に読んだ本を見直すことから得られるでしょう。
最後の小さな機能は「電卓」です。少し前に、AI が 9.9 と 9.11 のどちらが大きいかを区別できなかったことが大きな議論を巻き起こしました。 Yuanbao には、正確な計算に基づいて回答が生成されることを保証する統合された計算機機能があることがわかりました。この機能は実験データを読み取るときに非常に役立ちます。
長文の精読の裏には専門家の指導があることが判明
公式情報によると、Tencent Yuanbaoのアップグレードは「長文の精読」に焦点を当てており、最大50万語近くの入力をネイティブでサポートできるという。テストで使用した紙はこの長さに遠く及ばず、私たちが日常的に触れる紙のほとんどはこの長さに達することができません。したがって、Yuanbao を使用して論文を集中的に読む場合は、ほとんどの場合、コンテキスト ウィンドウで十分です。そのモジュール性、グラフィックおよびテキスト出力、および単語検索や翻訳などの小さな機能も、論文を読むのを本当に便利かつ効率的にし、「実用性」にさらに一歩近づきます。
この進化は、その背後にあるモデル、つまり Tencent Hunyuan の大型モデルのアップグレードと切り離すことができません。専門分野におけるモデルのプロフェッショナリズムと実用性を向上させるために、Tencent Hunyuan チーム は特別に各分野の専門家を招待して各専門分野のコアスキルを概説し、専門的な質問に対する回答基準 を策定したと報告されています。モデルは実際のドメインとして使用できます。専門家がサービスを提供します。そのため、使用してみて、Yuanbao は読者が必要とする情報とその情報をどのように提示すべきかを理解していると感じました。
論文だけでなく、財務報告書や調査報告書などの長文を集中的に読むこともできる新機能です。このようなシナリオでは、情報を多面的に整理し、レポートの内容に基づいてデュポン分析チャートなどの専門的なチャートを生成できるため、これらのドキュメントを理解できない人でも会社の財務状況やその他の情報を理解できるようになります。
しかし、論文を読むという文脈では、元宝にはまだ改善の余地があり、元のテキストを読むインターフェースで完全な元のテキストと翻訳の比較が不足していたり、数式の認識が十分に正確でない場合があります。 。また、Yuanbao が将来のアップデートでこれらの問題を改善できることを期待しています。
しかし、リリースされてから 2 か月以上しか経っていないアプリであるにもかかわらず、Tencent Yuanbao のパフォーマンスはすでに期待を上回っています。その進化の軌跡により、大規模モデルがどのように段階的に新しい生産性を実現していくのかを知ることができます。また、このアプリが私たちにさらなる驚きをもたらすことを楽しみにしています。
위 내용은 이 대형 모델은 나의 독서 장애를 정말 치료해주었습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!