En mars de cette année, Jensen Huang, PDG de NVIDIA, a organisé un événement très spécial. Il a invité les auteurs de l'article fondateur « Attention Is All You Need » à se réunir au GTC pour discuter de l'orientation future du développement de l'IA générative.
"Tout ce dont nous bénéficions aujourd'hui dans notre domaine remonte à ce moment-là... Vous avez changé le monde...", a déclaré Huang Renxun sur les lieux.
Pour une industrie axée sur la recherche scientifique comme l'IA, la prochaine opportunité de changer le monde peut également être cachée dans un certain article.
Par conséquent, Nous avons observé un phénomène inhabituel dans ce cercle : certains PDG ayant une formation non technique ont également commencé à veiller tard pour lire des articles, dans l'espoir de réduire le coût des essais et des erreurs liés à la prise de décision.
Si tel est le cas du PDG, sans parler des autres praticiens du domaine. Il y a quelque temps, OpenAI, Google et Meta ont fait de grands progrès, et certaines startups lancent également constamment de nouveaux modèles et méthodes. Je pense que de nombreux praticiens auront l'impression qu'il y a trop d'articles à couvrir.
Laisser les articles à l'IA pour résumer est une méthode de lecture courante de nos jours, mais de nombreux résumés d'IA manquent de niveaux clairs et de descriptions détaillées des innovations et des limites. Nous devons passer par plusieurs séries de questions pour acquérir une compréhension complète de l'article. De plus, certains diagrammes d'architecture de modèle clés et diagrammes de résultats expérimentaux doivent être trouvés par vous-même dans l'article, et le temps réel gagné est très limité.
Dans la dernière mise à jour de « Yuanbao » de Tencent, nous avons vu des solutions à ces problèmes. Leur nouveau « Deep Reading Mode » prend en charge la lecture intensive de textes longs, peut produire une analyse modulaire avec des images et des textes, et est très approprié pour la lecture d'articles.
Afin de vérifier l'effet de cette nouvelle fonction, ce site Web a effectué un test réel de première main.
"Lecture intensive" du papier, où est l'essentiel ?
Qu'est-ce que ça fait d'utiliser l'IA pour lire des articles ? La plupart du temps, c'est comme ça : vous lui lancez un PDF et il renvoie un résumé + un certain nombre de résumés (parfois jusqu'à 10). Ces informations sont effectivement utiles, mais il est parfois difficile de distinguer quels sont les points saillants, ce que le document résout et ce qu'il ne résout pas, et quelles questions fondamentales méritent d'être examinées.
Nos tests réels ont révélé que "Yuanbao" résout ces problèmes en fournissant une série d'informations modulaires et structurées.
Prenons comme exemple un papier SIGGRAPH que nous avons testé. Si vous jetez le papier directement, le résumé qu’il renvoie n’est pas très différent de celui des autres IA. Cependant, tant que vous faites défiler patiemment vers le bas, vous verrez un bouton pour « lire le document en profondeur ». Il s'agit du commutateur « en un clic » pour une lecture intensive du papier.
Différent de l'interface précédente qui résumait l'article, la page de lecture intensive démontera l'article de manière très hiérarchique Le contexte de la recherche, les méthodes de recherche, la conception expérimentale, l'analyse des résultats et la conclusion globale sont chacun organisés. dans un module très similaire à Ce site présente généralement la mise en page des articles. Tous ces éléments peuvent être rapidement accessibles via le contour sur la gauche.
Bien que chaque module ne contienne pas beaucoup de mots, ces mots sont en réalité très informatifs. Par exemple, dans le module de base de recherche, le paragraphe « Difficultés de recherche » décrit quatre difficultés en seulement trois phrases courtes, et « Travail connexe » est une version très condensée du « travail connexe » du chapitre 2. En un paragraphe, il décrit les quatre difficultés dans ce domaine. Les principales voies techniques sont clairement présentées. Par conséquent, après avoir lu ce module, nous pouvons fondamentalement comprendre à quel problème l'article étudie et à quel type de statut de recherche nous sommes confrontés.
En plus de ces informations structurées conventionnelles, la lecture intensive de Yuanbao a également un design accrocheur - Il énumérera les avantages et les inconvénients de l'article, afin que les chercheurs puissent rapidement comprendre ce qu'ils peuvent apprendre de cet article. des questions qui méritent une étude plus approfondie ?
이 기능이 왜 그렇게 중요한가요? 대만 칭화대학교 펑밍후이 교수는 논문 읽기에 관한 글에서 논문은 교과서와 다르다고 썼는데, 교과서는 남이 정리하고 정리한 체계적인 지식을 제공하는 반면, 논문은 정리되지 않은 지식을 독자가 스스로 검색하고 정리하도록 요구한다. 지식을 필터링하고 정리합니다. 그 중에서도 기존 연구의 장점과 단점을 분석하는 능력은 특히 중요합니다. 이는 비판적 사고의 핵심이자 학술 연구에서 자신을 향상시키는 중요한 방법입니다. Yuanbao는 논문의 장점과 단점을 신속하게 분석하고 요약함으로써 연구자가 심사 및 사전 이해에 많은 시간을 절약할 수 있도록 하여 연구와 직접적으로 관련된 논문에 더욱 빠르게 집중할 수 있도록 해줍니다.
그러나 이전 정보가 너무 지루하다고 생각되면 마지막 "주요 질문 및 답변" 모듈으로 바로 이동할 수도 있습니다. 다음은 논문의 가치를 빠르게 이해하고, 원문을 읽는 데 시간을 투자할 가치가 있는지 판단하는 데 도움이 되는 가장 중요한 질문 중 일부입니다. 물론, 이전의 많은 AI 비서들도 답변 말미에 몇 가지 핵심 질문을 제시할 예정이며, 클릭 한 번으로 답변을 얻을 수 있지만, 초보자이거나 학제간 배경을 가진 독자라면 쉽지 않을 수도 있습니다. 어떤 질문이 더 중요한지 판단할 수 있습니다. Yuanbao를 직접적으로 표현하는 것이 더 직관적으로 느껴집니다.
원래 그림번호, AI 독서지는 그림을 첨부할 수 없다고 누가 말했나요?
논문을 읽을 때, 많은 사람들은 사진을 보면서 논문에 대한 설명을 읽는 습관을 갖고 있습니다. 이렇게 이해하는 것이 더 빠르고 쉽습니다. 하지만 현재 시중에 나와 있는 대부분의 AI 애플리케이션은 텍스트 결과를 반환합니다. 사진을 보려면 원본 텍스트에서 해당 내용을 찾아야 합니다.
테스트에서 Yuanbao는 종이 그림을 직접 오려서 문단의 해당 위치에 배치할 수 있는 몇 안 되는 AI 중 하나라는 것을 발견했습니다. 예를 들어 특정 모듈의 아키텍처에 대해 이야기하면 해당 아키텍처 다이어그램이 표시됩니다:
특정 모듈의 실험 결과에 대해 이야기하면 해당 차트가 표시됩니다.
우리 모두 알고 있듯이 대형 모델의 착시 문제를 완전히 해결할 수 있는 방법은 없습니다. 따라서 이러한 원본 수치 제시는 실제로 독자가 모델의 답변을 언제든지 쉽게 확인할 수 있고 참고용으로 사용하는 것이 더 안전한 출력 방법이므로 더욱 신뢰할 수 있습니다.
또한 블로그나 기타 외부 출력을 작성해야 하는 경우 Yuanbao가 차트를 그리는 데 도움을 줄 수 있으며 데이터를 찾을 위치를 알려줄 필요가 없다는 사실도 발견했습니다. 종이 자체에 데이터를 추출하고 플롯합니다. 이 기능은 집중독서 페이지 오른쪽에 있는 '질문하기' 버튼을 통해 호출할 수 있습니다.
언제 어디서나 책을 읽는 데 장애물이 많다고 누가 말했습니까?
구조화된 정보와 그림 및 텍스트 출력 외에도 Yuanbao에는 실제로 논문 읽기를 더욱 편리하게 할 수 있는 매우 실용적인 작은 기능이 있다는 사실도 테스트 중에 발견했습니다.
첫 번째는 "원문" 읽기 인터페이스의 두 가지 실용적인 작은 기능인 단어 번역 및 검색입니다. 십자말 번역은 영어가 서툰 독자들에게 언제 어디서나 언어 장벽을 해소하는 데 도움이 되며, 십자말 검색은 한 단계 더 발전하여 검색이 가능하도록 Yuanbao의 검색 기능을 플러그인으로 만들었습니다. 언제든지 관련 정보를 확인하세요. 더욱이 Yuanbao가 제공한 설명은 간단한 요약일 뿐만 아니라 모듈식 확장이기도 합니다. 모든 세부 사항이 실제로 "구조화"되어 있고 "유익"합니다.
두 번째는 "오프라인 읽기"입니다. 이 기능의 실용성은 단편적인 시간을 낭비하지 않고 "비행기 모드"에서 집중 독서 내용과 원문을 검토할 수 있다는 것입니다. 이를 통해 항공사는 고속철도와의 경쟁에서 어느 정도 입지를 되찾을 수 있습니다. 어쩌면 연구자들의 다음 영감은 비행기에서 집중적으로 읽은 내용을 검토하면서 나올 수도 있습니다.
마지막 작은 기능은 "Calculator"입니다. 얼마 전 AI는 9.9와 9.11 중 어느 것이 더 큰지 구분할 수 없어 많은 논의를 불러일으켰습니다. Yuanbao에는 정확한 계산을 기반으로 답변이 생성되도록 보장하는 통합 계산기 기능이 있음을 발견했습니다. 이 기능은 실험 데이터를 읽을 때 매우 유용합니다.
긴 기사 집중 읽기 이면에는 전문가의 지도가 있었던 것으로 밝혀졌습니다
공식 정보에 따르면 Tencent Yuanbao의 업그레이드는 "긴 기사 집중 읽기"에 중점을 두고 있으며 기본적으로 최대 500,000 단어에 가까운 입력을 지원할 수 있습니다. 우리가 시험에 사용한 논문은 이 길이에 미치지 못하고, 우리가 매일 접하는 대부분의 논문도 이 길이에 미치지 못합니다. 따라서 Yuanbao를 사용하여 논문을 집중적으로 읽을 때 대부분의 경우 컨텍스트 창으로 충분합니다. 모듈성, 그래픽 및 텍스트 출력, 단어 검색 및 번역과 같은 작은 기능도 논문 읽기를 정말 편리하고 효율적으로 만들어 "실용성"에 한 걸음 더 다가갑니다.
이러한 진화는 그 뒤에 있는 모델, 즉 Tencent Hunyuan 대형 모델의 업그레이드와 분리될 수 없습니다. 전문 분야에서 모델의 전문성과 실용성을 향상시키기 위해 Tencent Hunyuan 팀은 특별히 도메인 전문가를 초청하여 각 전문 분야의 핵심 기술을 요약하고 전문적인 질문에 대한 답변 표준을 공식화하여 모델이 실제 도메인으로 활용이 가능하며 전문가가 서비스를 제공합니다. 그래서 그것을 사용한 후에 우리는 Yuanbao가 독자들에게 어떤 정보가 필요한지, 그 정보가 어떻게 제시되어야 하는지를 알고 있다고 느낍니다.
논문 외에도 재무 보고서, 연구 보고서 및 기타 긴 텍스트를 집중적으로 읽는 데에도 이 새로운 기능을 사용할 수 있습니다. 이러한 시나리오에서는 다양한 차원의 정보를 분류하고 보고서 내용을 기반으로 DuPont 분석 차트와 같은 전문적인 차트를 생성할 수 있으므로 이러한 문서를 이해하지 못하는 사람들도 회사의 재무 상태 및 기타 정보를 이해할 수 있습니다.
그러나 논문 읽기의 맥락에서 Yuanbao는 원문 읽기 인터페이스에서 완전한 원문-번역 비교가 부족하고 공식 인식이 때때로 충분히 정확하지 않은 등 여전히 개선의 여지가 있습니다. . 또한 Yuanbao가 향후 업데이트에서 이러한 문제를 개선할 수 있기를 바랍니다.
하지만 출시된 지 두 달이 조금 넘은 앱인데도 Tencent Yuanbao의 성과는 이미 기대치를 뛰어넘었습니다. 진화의 궤적을 통해 우리는 대형 모델이 얼마나 새로운 생산성을 단계적으로 구현하는지 확인할 수 있습니다. 우리는 또한 이 앱이 우리에게 더 많은 놀라움을 가져다주기를 기대합니다.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!