Künstliche Intelligenz ist eine strategische Technologie, die eine neue Runde der technologischen Revolution und des industriellen Wandels anführt. Mehrere Forschungsergebnisse und Daten zeigen, dass die Vereinigten Staaten weltweit führend in der wissenschaftlichen Grundlagenforschung, der technologischen Innovation und den industriellen Anwendungen künstlicher Intelligenz sind. Indikatoren wie hochrangige wissenschaftliche Arbeiten zur künstlichen Intelligenz, Anzahl der Spitzenwissenschaftler, Anzahl der Unternehmen der künstlichen Intelligenz usw Der Investitionsumfang ist allen anderen Ländern voraus.
Die US-Regierung legt großen Wert auf die Innovation und Entwicklung der Technologie der künstlichen Intelligenz. Gemäß dem National AI Initiative Act von 2020 verlangt der Kongress, dass die National Science Foundation (NSF) und das Büro für Wissenschafts- und Technologiepolitik des Weißen Hauses (OSTP) im Januar 2023 eine Arbeitsgruppe bilden, um die Vereinigten Staaten zu untersuchen und zu formulieren Der Fahrplan für den Aufbau der Infrastruktur der Artificial Intelligence Research Resource (NAIRR) festigt den Wettbewerbsvorteil der Vereinigten Staaten im Bereich der künstlichen Intelligenz, erweitert die Möglichkeiten für alle Parteien in den Vereinigten Staaten, wichtige künstliche Intelligenz und Bildungsressourcen zu erhalten, und treibt die Innovation und Innovation im Bereich der künstlichen Intelligenz in den USA weiter voran wirtschaftlicher Wohlstand.
Der Hintergrund und die Bedeutung des Baus von NAIRR in den Vereinigten Staaten
Bauhintergrund
Die US-Regierung ist der Ansicht, dass ihre Führungsposition im Bereich der künstlichen Intelligenz in Frage gestellt wird und ihr Wettbewerbsvorteil Gefahr läuft, geschwächt zu werden. Es gibt zwei Hauptprobleme: Erstens sind die Investitionen in Forschung und Entwicklung im Bereich der künstlichen Intelligenz sowie in Bildungsressourcen ungleich verteilt. Forschungsdaten zeigen, dass sich aus Investitionssicht die Höhe der Investitionen in künstliche Intelligenz aus dem privaten Sektor in den Vereinigten Staaten von 2020 bis 2021 mehr als verdoppelt hat, die Zahl neuer Unternehmen für künstliche Intelligenz jedoch zurückgeht; und Rasse der US-amerikanischen Doktoranden im Bereich der künstlichen Intelligenz. Die Verteilung, die Geschlechterverteilung und der tatsächliche Anteil der Bevölkerung sind sehr unterschiedlich, was die Innovation und Entwicklung der künstlichen Intelligenz einschränken wird. Zweitens verfügen wissenschaftliche Forschungseinrichtungen über unzureichende Rechenressourcen und Datenressourcen. Aus Sicht der Rechenleistung befinden sich die fortschrittlichsten Rechenleistungsplattformen im Besitz branchenführender privater Institutionen, und wissenschaftlichen Forschungseinrichtungen fehlen Rechenleistungsplattformen, um die Forschung und Entwicklung im Bereich der künstlichen Intelligenz zu unterstützen Die Ausbildung von Modellen für künstliche Intelligenz ist im Besitz privater Institutionen und großer Internet-Plattformen. Obwohl die US-Regierung weiterhin Daten offenlegt, reichen diese für die Forschung im Bereich der künstlichen Intelligenz immer noch nicht aus.
Die Arbeitsgruppe wies darauf hin, dass der Mangel an ausreichenden Forschungsressourcen für künstliche Intelligenz das Innovationsökosystem für künstliche Intelligenz in den USA einschränken wird, was dazu führen wird, dass sich Top-Talente von akademischen Forschungseinrichtungen auf eine kleine Anzahl ressourcenreicher Unternehmen konzentrieren Wenn sich dieser Trend langfristig durchsetzt, wird er die Wettbewerbsfähigkeit und Innovationsfähigkeit der Vereinigten Staaten beeinträchtigen. Im Januar 2023, nach 18 Monaten öffentlicher Meinungseinholung und Diskussion, schlug die Arbeitsgruppe offiziell einen Bauplan vor und plante die Beantragung von Bau-, Betriebs- und Wartungsmitteln in Höhe von 2,6 Milliarden US-Dollar. Sie plant, die NAIRR-Bauarbeiten in vier Phasen abzuschließen innerhalb von 6 Jahren, wobei der Schwerpunkt auf der Erreichung von vier Hauptzielen liegt: Sammeln von Ressourcen zur Förderung von Forschungsinnovationen, zur Verbesserung der Talentvielfalt, zur Verbesserung grundlegender Ressourcenkapazitäten und zur Förderung der Entwicklung vertrauenswürdiger künstlicher Intelligenz.
Wichtigkeit
NAIRR ist eine Forschungsinfrastruktur für künstliche Intelligenz und steht amerikanischen Forschungsschulen, Studenten und gemeinnützigen Organisationen offen. Es stellt grundlegende Forschungsressourcen wie Computerressourcen, hochwertige Daten und Bildungstools bereit Es wird erwartet, dass es die führende Forschungsplattform für künstliche Intelligenz in den Vereinigten Staaten wird. Ein wichtiger Knotenpunkt für die Zusammenarbeit, um seinen internationalen Wettbewerbsvorteil zu festigen.
Im Hinblick auf den ökologischen Aufbau wird sich die US-Regierung auf NAIRR verlassen, um relevante interne Regierungsabteilungen und wissenschaftliche Forschungseinrichtungen zu vereinen, um gemeinsam kooperative Forschung und Ressourcenaufbau im Bereich der künstlichen Intelligenz durchzuführen und so ein breites kooperatives Ökosystem zu bilden. NAIRR-Dienste und -Funktionen sind in Abbildung 1 dargestellt.
In Bezug auf Daten wird NAIRR Daten von Bundesbehörden aggregieren und Datendienstkooperationen mit verschiedenen Institutionen der Branche durchführen. Die erste besteht darin, die Aggregation, Entwicklung und Nutzung umfangreicher Datenressourcen für künstliche Intelligenz zu fördern. Dabei werden die umfangreichen Datenressourcen gesammelt und verbunden, die von US-Bundesbehörden, akademischen Forschungseinrichtungen und Technologiegiganten als Open-Source-Lösungen bereitgestellt wurden größte Datenressourcendienstplattform für künstliche Intelligenz in den Vereinigten Staaten. Beispielsweise haben die National Institutes of Health in den Vereinigten Staaten mehr als 36 PB an Gensequenzierungsdaten veröffentlicht, und die National Oceanic and Atmospheric Administration hat mehr als 10 PB an Wetter- und Umweltdaten veröffentlicht. Die zweite besteht darin, die Verbesserung der Datenverwaltungs- und Governance-Fähigkeiten künstlicher Intelligenz zu fördern. Datensätze für künstliche Intelligenz sind stark fragmentiert. Jeder Datensatz unterstützt spezielle Aufgaben und Forschungsbereiche. Es mangelt an einheitlichen Standards für Datenannotation und Datenverwaltung, was die Datenverwaltung erschwert. NAIRR wird die Einrichtung einheitlicher Standards für die Datenaggregation fördern, Datenbeschreibungsformate standardisieren und die Aggregation von Datenressourcen mehrerer Parteien fördern. Die dritte besteht darin, die Entwicklung und Nutzung von Datenressourcen durch die Zusammenarbeit mehrerer Parteien zu fördern. Die Betreibergesellschaft wird die Community für künstliche Intelligenz-Datensätze betreiben und die Community dazu ermutigen, aktiv wertvolle Datenressourcen für die Nutzung durch NAIRR zu entwickeln und aufzubauen. Betriebseinheiten werden auch Datensuchdienste bereitstellen, um die Abfrage offener Daten und Datenressourcen von Bundesbehörden von Drittanbietern zu erleichtern.
In Bezug auf die Rechenleistung wird NAIRR mit großen US-amerikanischen Cloud-Plattformunternehmen für künstliche Intelligenz zusammenarbeiten, um eine Rechenleistungsplattform aufzubauen, und plant, sich mit den Cloud-Plattformen von Technologiegiganten wie Google, Microsoft und Amazon zu verbinden sowie die U.S. Natural Science Foundation und die U.S. National Institutes of Health und andere Cloud-Plattformen für Bundesbehörden. Die Plattform bietet unterschiedliche Servicemodelle und Inhalte für Universitäten, Forschungseinrichtungen, Studenten und Start-ups, darunter eine Vielzahl von Diensten und Ressourcen wie Daten, Rechenleistung, Prüfstände und Softwaretools. Nach der Fertigstellung werden die Rechenressourcen von NAIRR Supercomputer umfassen, die das Training von Modellen für maschinelles Lernen im Parametermaßstab von mindestens einer Billion unterstützen, sowie Cloud-Computing-Ressourcen, CPUs, GPUs und Hochgeschwindigkeitsnetzwerke.
Nachdem die NAIRR-Infrastruktur etabliert und stabil betrieben ist, wird sie einerseits die Kooperationsbeziehungen mit Regierungsstellen und privaten Institutionen weiter ausbauen, den Umfang der Plattformdienste und Benutzer erweitern und andererseits erfolgreiche Erfahrungen bekannt machen Andererseits wird die Plattform die Formulierung relevanter Standards und Standardisierungen fördern, am internationalen Austausch und an der Zusammenarbeit teilnehmen und als grundlegende Plattform für die Vereinigten Staaten und ihre Verbündeten und Partner dienen, um kooperative Forschung und Datenaustausch zu fördern.
Amerikanischer NAIRR-Bauplan
Die Vereinigten Staaten planen, mit einem systematischen Ansatz die Bundesregierung und private Institutionen zu mobilisieren, um gemeinsam eine Forschungsressourceninfrastruktur für künstliche Intelligenz für die akademische Forschung aufzubauen.
Die erste besteht darin, ein Plattform-Governance-System mit Mehrparteienbeteiligung zu planen und aufzubauen. Die von NAIRR vorgeschlagene Governance-Struktur ist in Abbildung 2 dargestellt. Der Plan empfiehlt die Einrichtung eines Governance-Systems mit Beteiligung mehrerer Regierungsstellen und die Einrichtung einer Reihe verantwortlicher Organisationen wie eines Lenkungsausschusses, eines Verwaltungsausschusses, eines Projektmanagementbüros, einer Betriebseinheit und eines Beratungsausschusses für die Zusammenarbeit. Richten Sie einen Lenkungsausschuss ein, der sich aus Vertretern verschiedener Bundesministerien und -behörden zusammensetzt. Er ist das höchste Entscheidungsgremium auf nationaler Ebene für die Gesamtplanung und die strategischen Ziele von NAIRR. Er vertritt verschiedene Abteilungen zur Förderung nationaler Ressourceninvestitionen im Bereich künstliche Intelligenz. Es wird ein Verwaltungsausschuss eingerichtet, der die Betreiber der Plattform leitet und verwaltet sowie Mittel und zugehörige Ressourcen bereitstellt. Der Plan sieht vor, dass NSF die Aufgaben des Verwaltungsausschusses übernimmt. Richten Sie ein Projektmanagementbüro ein, um mit dem Lenkungsausschuss bei der täglichen Verwaltung und Bewertung der operativen Einheiten zusammenzuarbeiten. Der US-Kongress genehmigte die Finanzierung des Project Management Office zur Unterstützung des damit verbundenen Projektmanagements, der Portalentwicklung und -bereitstellung, des gemeinsamen Supports, der Schulung und der Benutzerunterstützung. Richten Sie eine Betriebseinheit ein, die unabhängig von Regierungsabteilungen ist und für die Formulierung spezifischer Entwicklungsziele für NAIRR, die Organisation des Plattformbaus und des täglichen Betriebsmanagements sowie die Formulierung eines transparenten, fairen und angemessenen Ressourcenzuweisungssystems verantwortlich ist, um den Anforderungen verschiedener Forschungseinrichtungen für künstliche Intelligenz gerecht zu werden und Benutzer. Zur Unterstützung der Entscheidungsfindung beim Bau von NAIRR wurden ein wissenschaftlicher Ausschuss, ein technischer Ausschuss, ein Ethikausschuss und ein Benutzerausschuss eingerichtet, die sich aus Experten verschiedener Fachgebiete zusammensetzen.
Die zweite besteht darin, zweckgebundene Mittel für den Betrieb und Bau der NAIRR-Infrastruktur bereitzustellen. Der Bauplan sieht vor, über einen Zeitraum von sechs Jahren Fördermittel in Höhe von 2,6 Milliarden US-Dollar zu beantragen, wovon 2,25 Milliarden US-Dollar für den Kauf von Plattform-Rechenleistung, Software-Tools und Datenressourcen von Dienstleistern verwendet werden sollen. Die täglichen Kosten der Betriebsorganisation betragen 370 US-Dollar Millionen, und weitere 30 Millionen US-Dollar werden für die Lagebeurteilung der Infrastruktur verwendet. Alle an der Forschung und Entwicklung im Bereich der künstlichen Intelligenz beteiligten Bundesbehörden sollten am Projektmanagement von NAIRR beteiligt sein. F&E-Investitionen von Bundesbehörden im Bereich der künstlichen Intelligenz können weiterhin von jeder Behörde einzeln oder kooperativ erworben und entwickelt werden, sie sollten jedoch über die NAIRR-Infrastruktur verwaltet und bereitgestellt werden.
Die dritte besteht darin, die NAIRR-Infrastruktur schrittweise aufzubauen, die Rechenressourcen nach Bedarf zu erweitern und die Aggregation von Datenressourcen zu fördern. Der Plattformbau gliedert sich in vier Phasen: Projektinitiierung, Bau, Probebetrieb und Dauerbetrieb. In der Testbetriebsphase können 50.000 Benutzer unterstützt werden und vorhandene Daten von Bundesbehörden und privaten Behörden aggregiert und genutzt werden. Nach einem stabilen Betrieb wird es 150.000 Benutzer unterstützen und eine breitere Community für die Zusammenarbeit im Bereich Datenressourcen aufbauen. NAIRR wird Datenressourcen entwickeln, um die Datennutzung durch die Formulierung von Datenaggregationsstandards, die Entwicklung von Datenkooperationen und die Bereitstellung von Datensuchdiensten zu erleichtern.
Unter der neuen Situation ist die Bedeutung des Aufbaus von Grundlagenforschungsressourcen für künstliche Intelligenz immer wichtiger geworden
Derzeit entstehen ständig neue Technologien und neue Anwendungen künstlicher Intelligenz. Die Erforschung und Ausbildung einer neuen Generation großer künstlicher Intelligenzmodelle, die durch das große Sprachmodell ChatGPT repräsentiert werden, erfordert die Unterstützung größerer Rechenressourcen und Datenressourcen , und allein die Investitionen in Forschung und Entwicklung stiegen deutlich an. Der Schwellenwert der Rechenleistungsplattform für das Training großer Modelle künstlicher Intelligenz ist extrem hoch, und normale Institutionen können sich große Forschungs- und Entwicklungskosten sowie Betriebskosten nicht leisten. OpenAI-Forschung zeigt, dass die für das Training von KI-Modellen erforderliche Rechenleistung exponentiell gestiegen ist. Von 2012 bis 2018 ist die für das Training von KI-Modellen verbrauchte Rechenleistung um das 300.000-fache gestiegen. Die für das Training von GPT3 erforderliche Rechenleistung beträgt 3640 Pfs pro Tag (d. h. eine Effizienz von 1 PetaFLOP/s läuft über 3640 Tage), und die Schulungskosten werden auf 1,4 Millionen US-Dollar pro Zeit geschätzt. Einige Organisationen schätzen, dass die anfänglichen Investitionskosten für ChatGPT etwa 1 US-Dollar betragen 800 Millionen Dollar.
In Bezug auf Datensätze für künstliche Intelligenz ist die Größe der für das Training erforderlichen Datensätze durch die Forschung und Entwicklung großer vorab trainierter Modelle weiter gestiegen. Die Datengröße ist von Millionen oder mehreren zehn Millionen in der Vergangenheit auf gestiegen Hunderte Millionen. Die aktuellen Datensätze, die beim Training großer Modelle verwendet werden, stammen hauptsächlich aus dem Internet, einschließlich Datenbanken wie Wikipedia, sozialen Netzwerken, öffentlichen Zeitschriften, Büchern, Artikeln und Codes. Einige Studien haben darauf hingewiesen, dass „Trainingsdaten zu einem der größten Hindernisse für die Industrialisierung großer Modelle werden“. Aus einer tieferen Perspektive weisen große Modelle immer noch verschiedene Governance-Probleme in Bezug auf Trainingsdaten auf, wie z - aufwändig, mühsam und kostspielig, und die Datenqualität ist schwierig. Es gibt nicht genügend Garantien und Datendiversifizierung, um die „Long Tail“- und Randfälle abzudecken, und es gibt Probleme wie Datenschutz und Datenverzerrung bei der Erfassung, Nutzung und Weitergabe spezifischer Daten „Ausländische Wissenschaftler gehen davon aus, dass der Gesamtumfang der Sprachdaten um 7 % wächst. Das Wachstum hochwertiger Sprachdaten hängt von Faktoren wie der Bevölkerungsgröße und der wirtschaftlichen Entwicklung ab und wächst um 4 %. bis 5 %. Hochwertige Daten zum Training großer Sprachmodelle werden bis 2027 „erschöpft“ sein.
Zusammenfassung
Rechenleistung und Datenressourcen sind die grundlegenden unterstützenden Elemente für die Technologieforschung im Bereich der künstlichen Intelligenz. Mit dem Eintritt der künstlichen Intelligenz in die Ära der „großen Modelle“ sind Rechenleistung und Datenkapazität zu limitierenden Faktoren für die Forschung und Schulung von Algorithmenmodellen geworden. Die in den Vereinigten Staaten aufgebaute NAIRR-Infrastruktur trägt zur Lösung der neuen Herausforderungen bei, denen sich die aktuelle Innovation und Entwicklung der Technologie der künstlichen Intelligenz gegenübersieht, und hat für mein Land eine gewisse Referenzbedeutung. Mein Land sollte die Gesamtplanung und -koordinierung stärken und den Aufbau beschleunigen Recheninfrastruktur und grundlegende Datenressourcen sowie Entwicklung des Datenelementmarktes, Förderung der Sammlung und Verbreitung von Datenressourcen sowie Förderung der Grundlagenforschung und Anwendungsinnovation der künstlichen Intelligenz.
ENDE
Autor: Lu Yapeng, Wang Weiguo, Datenforschungszentrum, China Academy of Information and Communications Technology
Herausgeber/Formatierer: Gai Beibei
Rezensiert von: Shu Wenqiong
Produzent: Liu Qicheng
Likes und Views gibt es hier
Das obige ist der detaillierte Inhalt vonDie Vereinigten Staaten haben 2,6 Milliarden US-Dollar für künstliche Intelligenz ausgegeben ... Es wird erwartet, dass der Bau von NAIRR innerhalb von 6 Jahren abgeschlossen wird. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!