Herausgeber |. ScienceAI
Kürzlich hat Tom M. Mitchell, Professor an der Carnegie Mellon University und bekannt als „Vater des maschinellen Lernens“, ein neues Whitepaper zu KI für die Wissenschaft geschrieben, das sich auf die Diskussion „Wie kann künstliche Intelligenz“ konzentrieren Intelligenz die wissenschaftliche Entwicklung beschleunigen? Wie kann die US-Regierung dazu beitragen, dieses Ziel zu erreichen?“ Dieses Thema.
ScienceAI hat den vollständigen Text des Original-Whitepapers zusammengestellt, ohne seine ursprüngliche Bedeutung zu ändern. Der Inhalt ist wie folgt.
Der Bereich der künstlichen Intelligenz hat in letzter Zeit erhebliche Fortschritte gemacht, einschließlich groß angelegter Sprachmodelle wie GPT, Claude und Gemini, was die Möglichkeit erhöht, dass eine sehr positive Auswirkung der künstlichen Intelligenz darin bestehen könnte, den Übergang von der Zellbiologie zur Zellbiologie erheblich zu beschleunigen Forschungsfortschritte in einer Vielzahl von wissenschaftlichen Bereichen, von der Materialwissenschaft über Wetter- und Klimamodellierung bis hin zu Neurowissenschaften. Hier fassen wir kurz diese Chance der KI-Wissenschaft zusammen und was die US-Regierung tun kann, um sie zu nutzen.
Der überwiegende Teil der wissenschaftlichen Forschung in fast allen Bereichen kann heute als „Einzelgänger“-Wissenschaft eingestuft werden.
Mit anderen Worten: Wissenschaftler und ihre Forschungsteams aus einem Dutzend Forschern kommen auf eine Idee, führen Experimente durch, um sie zu testen, schreiben die Ergebnisse auf und veröffentlichen sie, teilen ihre experimentellen Daten vielleicht im Internet und wiederholen dann den Vorgang.
Andere Wissenschaftler können diese Ergebnisse durch das Lesen veröffentlichter Arbeiten konsolidieren, aber Dieser Prozess ist aus mehreren Gründen fehleranfällig und äußerst ineffizient:
(1) Es ist für einzelne Wissenschaftler unmöglich, bereits veröffentlichte Arbeiten auf ihrem Gebiet zu lesen. Alle Artikel Die veröffentlichten Ergebnisse sind daher teilweise blind für andere relevante Studien. (2) In Zeitschriftenpublikationen beschriebene Experimente lassen zwangsläufig viele Details aus, was es für andere schwierig macht, ihre Ergebnisse zu reproduzieren und auf den Ergebnissen aufzubauen. (3) Eine einzige Analyse experimenteller Datensätze ist häufig erforderlich isoliert durchgeführt, ohne Daten aus anderen verwandten Experimenten anderer Wissenschaftler einzubeziehen (und daher keine wertvollen Informationen einzubeziehen).
In den nächsten zehn Jahren kann künstliche Intelligenz Wissenschaftlern helfen, die oben genannten drei Probleme zu überwinden.
KI kann dieses wissenschaftliche Forschungsmodell des „Einsamen Ranger“ in ein Modell der „gemeinschaftlichen wissenschaftlichen Entdeckung“ verwandeln. Insbesondere kann KI verwendet werden, um einen neuen Typ von Computer-Forschungsassistenten zu schaffen, der menschlichen Wissenschaftlern hilft, diese Probleme zu überwinden, indem er:
Welche wissenschaftlichen Durchbrüche könnte dieser Paradigmenwechsel in der wissenschaftlichen Praxis bringen?
Hier ein paar Beispiele:
이 기회를 현실로 바꾸려면 다음과 같은 몇 가지 요소가 필요합니다.
많은 실험 데이터
기본 텍스트 기반 모델의 한 가지 교훈은 더 많은 데이터를 학습할수록 더 강력해진다는 것입니다. 경험이 풍부한 과학자들도 점점 더 다양해지는 실험 데이터의 가치를 잘 알고 있습니다. 과학 분야에서 엄청난 발전을 이루고 우리가 원하는 기본 모델 유형을 훈련하려면 전체 과학계에서 기여한 다양한 데이터 세트를 공유하고 공동으로 분석하는 능력을 크게 발전시켜야 합니다.
과학 출판물에 접근하여 컴퓨터로 읽을 수 있는 능력
여기서 기회의 핵심 부분은 현재 상황을 바꾸는 것입니다. 과학자들은 해당 분야 관련 출판물의 1%를 읽을 가능성이 낮지만 컴퓨터는 100%를 읽습니다. 출판물과 현재 과학 문제와의 관련성을 요약하고 내용과 의미를 논의할 수 있는 대화형 인터페이스를 제공합니다. 이를 위해서는 온라인 문헌에 대한 접근뿐만 아니라 그러한 '문학 조수'를 구축하기 위한 AI 연구가 필요합니다.
컴퓨팅 및 네트워크 리소스
GPT 및 Gemini와 같은 텍스트 기반 기본 모델은 개발에 많은 양의 처리 리소스가 소비되는 것으로 알려져 있습니다. 다양한 과학 분야의 기본 모델을 개발하려면 많은 양의 컴퓨팅 리소스가 필요합니다. 그러나 많은 AI 과학적 노력에서 계산 요구 사항은 GPT와 같은 LLM을 교육하는 데 필요한 것보다 훨씬 작을 가능성이 높으므로 정부 연구소에서 수행하는 것과 유사한 투자를 통해 달성할 수 있습니다.
예를 들어, 약물 설계를 위한 단백질 분석에 혁명을 일으킨 AI 모델인 AlphaFold는 GPT 및 Gemini와 같은 기본 텍스트 기반 모델보다 훈련 계산을 훨씬 적게 사용합니다. 데이터 공유를 지원하려면 대규모 컴퓨터 네트워크가 필요하지만 현재 인터넷은 이미 대규모 실험 데이터 세트를 전송하기 위한 충분한 출발점을 제공하고 있습니다. 따라서 AI 기반 과학 발전을 지원하기 위한 하드웨어 비용은 잠재적 이점에 비해 상당히 낮을 가능성이 높습니다.
새로운 기계 학습 및 AI 방법
현재 기계 학습 방법은 인간이 조사할 수 없는 거대한 데이터 세트에서 통계적 규칙성을 발견하는 데 매우 유용합니다. 예를 들어 AlphaFold는 대량의 단백질 서열과 신중하게 측정된 3D 구조에서 수행됩니다. 훈련됨). 새로운 기회의 핵심 부분은 현재의 기계 학습 방법(데이터의 통계적 상관 관계 발견)을 두 가지 중요한 방향으로 확장하는 것입니다. (1) 데이터의 상관 관계 찾기에서 인과 관계 찾기로 이동하고 (2) 대규모 데이터만 찾는 것에서 이동 규모 구조화된 데이터세트 학습은 구조화된 대규모 데이터세트와 대규모 연구 문헌으로부터 학습하는 방향으로 이동합니다. 즉, 실험 데이터와 다른 사람이 자연어로 표현한 발표된 가설 및 주장을 통해 인간 과학자처럼 학습하는 것입니다. 대규모 텍스트 컬렉션을 소화, 요약 및 추론하는 고급 기능을 갖춘 LLM의 최근 등장은 이 새로운 종류의 기계 학습 알고리즘의 기반을 제공할 수 있습니다.
정부는 어떻게 해야 할까요? 핵심은 위의 네 부분을 지원하고 과학계를 통합하여 인공 지능을 기반으로 한 새로운 방법을 탐색하여 연구 진행을 촉진하는 것입니다. 따라서 정부는 다음과 같은 조치를 취하는 것을 고려해야 합니다.
Erkunden Sie spezifische Möglichkeiten in bestimmten Bereichen der Wissenschaft. Finanzieren Sie multiinstitutionelle Forschungsteams in vielen wissenschaftlichen Bereichen, um Visionen und vorläufige Ergebnisse zu präsentieren, die zeigen, wie KI verwendet werden kann, um den Fortschritt in ihren Bereichen erheblich zu beschleunigen, und was erforderlich ist, um dies zu skalieren Ansatz. Diese Arbeit sollte nicht in Form von Zuschüssen an einzelne Institutionen finanziert werden, da die größten Fortschritte durch die Integration von Daten und Forschungsergebnissen vieler Wissenschaftler an vielen Institutionen erzielt werden können. Stattdessen ist es wahrscheinlich am effektivsten, wenn es von einem Team von Wissenschaftlern aus vielen Institutionen durchgeführt wird, die Möglichkeiten und Ansätze vorschlagen, die ihr Engagement in der wissenschaftlichen Gemeinschaft insgesamt inspirieren.
Beschleunigen Sie die Erstellung neuer experimenteller Datensätze, um neue Basismodelle zu trainieren und Daten der gesamten Wissenschaftlergemeinschaft zur Verfügung zu stellen:
Erstellen Sie Standards für den Datenaustausch, um einem Wissenschaftler die bequeme Nutzung experimenteller Daten verschiedener Wissenschaftler zu ermöglichen Legen Sie den Grundstein für nationale Datenressourcen in jedem relevanten wissenschaftlichen Bereich. Beachten Sie, dass es bereits frühere Erfolge bei der Entwicklung und Verwendung solcher Standards gab, die als Ausgangsvorlage für Standardbemühungen dienen können (z. B. der Erfolg des Datenaustauschs während des Humangenomprojekts).
Erstellen und unterstützen Sie Websites zum Datenaustausch für alle relevanten Bereiche. So wie GitHub zur Anlaufstelle für Softwareentwickler geworden ist, um Softwarecode beizutragen, zu teilen und wiederzuverwenden, kann die Erstellung eines GitHub für wissenschaftliche Datensätze sowohl als Datenspeicher als auch als Suchmaschine zum Entdecken von Themen im Zusammenhang mit bestimmten Themen, Hypothesen oder anderen dienen Planen Sie ein Experiment mit dem relevantesten Datensatz.
Untersuchen Sie, wie Sie Anreizmechanismen aufbauen können, um den Datenaustausch zu maximieren. Derzeit gibt es in den Wissenschaftsbereichen große Unterschiede in dem Ausmaß, in dem einzelne Wissenschaftler ihre Daten teilen und in dem Ausmaß, in dem gewinnorientierte Organisationen ihre Daten für die wissenschaftliche Grundlagenforschung nutzen. Der Aufbau einer großen, gemeinsam nutzbaren nationalen Datenressource ist ein wesentlicher Bestandteil der wissenschaftlichen Möglichkeiten der KI, und der Aufbau einer überzeugenden Anreizstruktur für den Datenaustausch wird der Schlüssel zum Erfolg sein.
Finanzieren Sie gegebenenfalls die Entwicklung automatisierter Labore (z. B. Roboterlabore für Chemie-, Biologie- usw. Experimente, die von vielen Wissenschaftlern über das Internet genutzt werden können), um Experimente effizient durchzuführen und diese in einem Standardformat zu generieren. Ein großer Vorteil der Einrichtung solcher Labore besteht darin, dass sie auch die Entwicklung von Standards fördern, die die zu befolgenden experimentellen Verfahren genau spezifizieren und so die Reproduzierbarkeit experimenteller Ergebnisse erhöhen. So wie wir von GitHubs für Datensätze profitieren können, können wir auch von verwandten GitHubs profitieren, um Komponenten experimenteller Protokolle zu teilen, zu ändern und wiederzuverwenden.
Um eine neue Generation von Werkzeugen der künstlichen Intelligenz zu schaffen, ist Folgendes erforderlich:
Die Finanzierung relevanter KI-Grundlagenforschung, die speziell für wissenschaftliche Forschungsmethoden entwickelt wurde. Dies sollte die Entwicklung von „Grundlagenmodellen“ im weitesten Sinne als Instrumente zur Beschleunigung der Forschung in verschiedenen Bereichen und zur Beschleunigung des Übergangs von der „Einzelgänger“-Wissenschaft zu einem leistungsfähigeren Paradigma der „gemeinschaftlichen wissenschaftlichen Entdeckung“ umfassen.
Unterstützt die Forschung insbesondere durch das Lesen der Forschungsliteratur, das Kritisieren von Annahmen und Verbesserungsvorschlägen und hilft Wissenschaftlern dabei, Ergebnisse aus der wissenschaftlichen Literatur auf eine Weise abzuleiten, die für ihre aktuellen Fragen direkt relevant ist.
Unterstützt insbesondere Forschung, die maschinelles Lernen von der Entdeckung von Korrelationen auf die Entdeckung von Kausalitäten ausdehnt, insbesondere in Umgebungen, in denen neue Experimente geplant und durchgeführt werden können, um kausale Hypothesen zu testen.
Unterstützt insbesondere die Ausweitung der Forschung zu Algorithmen des maschinellen Lernens, von der reinen Verwendung großer Datenmengen als Eingabe bis hin zur Verwendung sowohl großer experimenteller Daten als auch vollständiger Forschungsliteratur auf diesem Gebiet als Eingabe, um statistische Regelmäßigkeiten in experimentellen Daten und Forschung zu generieren Literatur Die Annahmen, Erklärungen und Argumente, die in diskutiert werden.
Verwandter Inhalt:
Das obige ist der detaillierte Inhalt von„Vater des maschinellen Lernens' Mitchell schreibt: Wie KI die wissenschaftliche Entwicklung beschleunigt und wie die Vereinigten Staaten Chancen nutzen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!