인공지능은 새로운 기술혁명과 산업변화를 선도하는 전략기술입니다. 다수의 연구 결과와 데이터에 따르면, 미국은 인공지능의 기초 과학 연구, 기술 혁신, 산업적 응용 분야에서 세계를 선도하고 있으며, 수준 높은 인공지능 논문, 최고 학자 수, 인공지능 기업 수 등의 지표가 있습니다. , 투자 규모 등이 모두 다른 나라보다 앞서 있습니다.
미국 정부는 인공지능 기술의 혁신과 발전을 매우 중요하게 생각합니다. 2020년 국가 AI 이니셔티브법(National AI Initiative Act of 2020)에 따라 의회는 국립과학재단(NSF)과 백악관 과학기술정책실(OSTP)에 2023년 1월 미국을 연구하고 공식화하기 위한 실무그룹을 구성할 것을 요구하고 있다. NAIRR(인공지능 연구 자원) 인프라 구축 로드맵은 인공지능 분야에서 미국의 경쟁 우위를 강화하고, 미국 내 모든 당사자가 핵심 인공지능 및 교육 자원을 확보할 수 있는 기회를 확대하며, 미국의 인공지능 혁신과 발전을 더욱 촉진합니다. 경제적 번영.
미국 NAIRR 건설의 배경과 의의
건축 배경
미국 정부는 인공지능 분야의 선도적 우위가 도전받고 있으며 경쟁 우위가 약화될 위험에 처해 있다고 생각합니다. 두 가지 주요 문제가 있습니다. 첫째, 인공지능 연구개발(R&D)과 교육자원에 대한 투자가 고르지 않게 분포되어 있다. 연구 데이터에 따르면 투자 관점에서 볼 때 미국 민간 부문의 인공 지능 투자 금액은 2020년부터 2021년까지 두 배 이상 증가했지만 인재 관점에서 볼 때 새로운 인공 지능 회사의 수는 감소하고 있습니다. 미국 인공지능 박사과정 졸업생의 인종 분포, 성별 분포, 실제 인구 비율이 상당히 다르기 때문에 인공지능의 혁신과 발전이 제한될 것입니다. 둘째, 과학 연구 기관은 컴퓨팅 자원과 데이터 자원이 부족합니다. 컴퓨팅 파워의 관점에서 볼 때, 가장 진보된 컴퓨팅 파워 플랫폼은 업계 최고의 민간 기관이 소유하고 있으며, 과학 연구 기관은 주요 데이터 자원인 데이터 자원의 관점에서 인공 지능 연구 및 개발을 지원할 컴퓨팅 파워 플랫폼이 부족합니다. 인공지능 모델 훈련은 민간 기관과 대규모 인터넷 모든 플랫폼이 보유하고 있지만 미국 정부가 계속해서 데이터를 공개하고 있지만 인공지능 연구에는 아직 부족하다.
워킹그룹은 충분한 인공지능 연구 자원이 부족하면 미국의 인공지능 혁신 생태계가 제한되어 학술 연구 기관의 최고 인재가 소수의 자원이 풍부한 기업으로 집중될 것이라고 지적했습니다. 장기적으로 미국의 경쟁력과 혁신에 영향을 미칠 것입니다. 18개월 간의 공개 의견 수렴과 논의 끝에 2023년 1월 실무 그룹은 공식적으로 건설 계획을 제안하고 건설 및 운영 유지 자금으로 26억 달러를 신청할 계획으로 NAIRR 건설 작업을 4단계에 걸쳐 완료할 계획입니다. 6년 이내에 연구 혁신을 촉진하기 위한 자원 수집, 인재 다양성 강화, 기본 자원 역량 강화, 신뢰할 수 있는 인공 지능 개발 촉진이라는 4가지 주요 목표를 달성하는 데 중점을 둡니다.
중요도
NAIRR은 인공지능 연구 인프라로서 미국 연구 학교, 학생, 비영리 단체 및 기타 기관에 개방되어 컴퓨팅 리소스, 고품질 데이터, 교육 도구 및 기타 기본 연구 리소스를 제공하는 플랫폼이 될 것으로 예상됩니다. 미국의 인공 지능 연구 협력의 핵심은 국제 경쟁 우위를 강화하는 것입니다.
생태 건설 측면에서 미국 정부는 NAIRR을 통해 관련 내부 정부 부서와 과학 연구 기관을 통합하여 인공 지능 분야의 협력 연구 및 자원 구축을 공동으로 수행하여 광범위한 협력 생태계를 형성할 것입니다. NAIRR 서비스 및 기능은 그림 1에 나와 있습니다.
데이터 측면에서는 NAIRR이 연방정부 부처로부터 데이터를 수집하고, 업계 내 다양한 기관과 데이터 서비스 협력을 진행할 예정입니다. 첫 번째는 대규모 인공지능 데이터 자원의 집합, 개발, 활용을 촉진하는 것입니다. 미국 연방 기관, 학술 연구 기관 및 기술 대기업이 오픈 소스로 제공하는 대규모 데이터 자원을 수집하고 연결하여 미국 최대 규모의 인공지능 데이터 자원 서비스 플랫폼입니다. 예를 들어, 미국 국립보건원(National Institutes of Health)은 36PB 이상의 유전자 서열 데이터를 공개했고, 국립해양대기청(National Oceanic and Atmospheric Administration)은 10PB 이상의 날씨 및 환경 데이터를 공개했습니다. 두 번째는 인공지능 데이터 관리 및 거버넌스 역량 향상을 촉진하는 것이다. 인공지능 데이터 세트는 고도로 단편화되어 있으며, 각 데이터 세트는 전문적인 작업과 연구 분야를 지원하며, 데이터 주석 및 데이터 거버넌스에 대한 통일된 표준이 부족하여 데이터 관리가 어렵습니다. NAIRR은 데이터 집계를 위한 통일된 표준 수립을 촉진하고, 데이터 설명 형식을 표준화하며, 다자간 데이터 리소스의 집계를 촉진할 것입니다. 세 번째는 다자간 협업을 통해 데이터 자원의 개발 및 활용을 촉진하는 것입니다. 운영 주체는 인공지능 데이터 세트 커뮤니티를 운영하고 커뮤니티가 NAIRR이 사용할 귀중한 데이터 리소스를 적극적으로 개발하고 구축하도록 장려할 것입니다. 운영 주체는 또한 연방 기관의 공개 데이터 및 제3자 서비스 제공업체의 데이터 리소스에 대한 쿼리를 용이하게 하기 위해 데이터 검색 서비스를 제공합니다.
컴퓨팅 파워 측면에서는 NAIRR이 미국의 주요 인공지능 컴퓨팅 클라우드 플랫폼 기업과 손잡고 컴퓨팅 파워 플랫폼을 구축할 예정이며, 구글, 마이크로소프트, 아마존 등 거대 기술 기업의 클라우드 플랫폼은 물론, 미국 자연과학재단(Natural Science Foundation) 및 미국 국립보건원(National Institutes of Health) 클라우드 플랫폼과 같은 연방 기관. 이 플랫폼은 데이터, 컴퓨팅 성능, 테스트 베드, 소프트웨어 도구 등 다양한 서비스와 리소스를 포함하여 대학, 연구 기관, 학생 및 스타트업을 위한 다양한 수준의 서비스 모델과 콘텐츠를 제공합니다. 완료 후 NAIRR의 컴퓨팅 리소스에는 최소 1조 매개변수 규모의 기계 학습 모델 교육을 지원하는 슈퍼컴퓨터와 클라우드 컴퓨팅 리소스, CPU, GPU 및 고속 네트워크가 포함됩니다.
NAIRR 인프라가 안정적으로 구축 및 운영된 후, 한편으로는 정부 부처 및 민간 기관과의 협력 관계를 지속적으로 확대하고, 플랫폼 서비스 및 사용자의 범위를 확대하며, 다른 한편으로는 성공적인 경험을 홍보할 것입니다. 플랫폼은 관련 표준 및 사양의 제정을 촉진하고 국제 교류 및 협력에 참여하며 미국과 동맹국 및 파트너가 협력 연구 및 데이터 공유를 촉진하는 기본 플랫폼 역할을 합니다.
미국 NAIRR 건설 계획
미국은 학술 연구를 위한 인공지능 연구 자원 인프라 구축을 위해 연방정부와 민간기관을 동원해 체계적 접근을 통해 협력할 계획이다.
먼저, 다자간 참여로 플랫폼 거버넌스 시스템을 계획하고 구축합니다. NAIRR이 제안한 거버넌스 구조는 그림 2에 나와 있습니다. 정부 부처가 다각적으로 참여하는 거버넌스 체계를 구축하고, 운영위원회, 관리위원회, 사업관리실, 운영주체, 자문위원회 등 일련의 책임조직을 설립해 협력을 조율할 것을 권고했다. 다양한 연방정부 부처 및 기관의 대표로 구성된 운영위원회를 설치합니다. 이는 NAIRR의 전반적인 계획 및 전략 목표를 위한 국가 차원의 최고 의사결정 기구로서 해당 분야에 대한 국가의 자원 투자를 촉진하기 위해 다양한 부서를 대표합니다. 인공지능의. 플랫폼 운영 주체를 지도, 관리하고 자금과 관련 자원을 제공하기 위해 관리 위원회가 설치됩니다. 이 계획은 NSF가 관리위원회의 책임을 맡을 것을 제안합니다. 운영 주체의 일상적인 관리 및 평가에 있어 운영위원회와 협력하기 위해 프로젝트 관리 사무실을 설치합니다. 미국 의회는 관련 프로젝트 관리, 포털 개발 및 배포, 공동 지원, 교육 및 사용자 지원을 지원하기 위해 프로젝트 관리 사무국(Project Management Office)에 대한 자금 지원을 승인했습니다. 정부 부처로부터 독립된 운영 주체를 설립하여 NAIRR의 구체적인 개발 목표 수립, 플랫폼 구축 및 일상 운영 관리 조직, 다양한 인공지능 연구 기관의 요구 사항을 충족하기 위한 투명하고 공정하며 합리적인 자원 배분 시스템 구축을 담당합니다. 그리고 사용자. NAIRR 구축을 위한 의사결정 지원을 위해 다양한 분야의 전문가로 구성된 과학위원회, 기술위원회, 윤리위원회, 사용자위원회를 설치하였습니다.
두 번째는 NAIRR 인프라 운영 및 구축을 위한 전용 자금을 제공하는 것입니다. 건설 계획에서는 6년에 걸쳐 26억 달러의 자금을 신청할 것을 제안하고 있으며, 그 중 22억 5천만 달러는 서비스 제공업체로부터 플랫폼 컴퓨팅 성능, 소프트웨어 도구 및 데이터 리소스를 구매하는 데 사용됩니다. 운영 조직의 일일 비용은 370달러입니다. 100만 달러, 그리고 인프라 운영을 위해 추가로 3천만 달러가 사용될 것입니다. 인공지능 연구개발에 참여하는 모든 연방기관은 NAIRR의 프로젝트 관리에 참여해야 합니다. 인공지능 분야에 대한 연방부처의 R&D 투자는 여전히 각 기관이 단독으로 또는 협력하여 구매하고 개발할 수 있지만 NAIRR 인프라를 통해 관리되고 제공되어야 합니다.
셋째, 필요에 따라 컴퓨팅 자원을 확장하고 데이터 자원의 집적을 촉진하기 위해 NAIRR 인프라를 단계적으로 구축할 것입니다. 플랫폼 구축은 프로젝트 개시, 구축, 시운전, 지속적 운영의 4단계로 구분됩니다. 시범 운영 단계에서는 50,000명의 사용자를 지원할 수 있으며 기존 연방 기관 데이터와 민간 기관 데이터를 집계하고 사용할 수 있습니다. 안정적인 운영 후에는 150,000명의 사용자를 지원하고 더 광범위한 데이터 자원 협력 커뮤니티를 구축할 것입니다. NAIRR은 데이터 집계 표준 제정, 데이터 협력 개발, 데이터 검색 서비스 제공 등을 통해 데이터 활용을 촉진하는 데이터 자원을 개발할 것입니다.
새로운 상황에서 기초 인공지능 연구자원 구축의 중요성은 더욱 부각되고 있습니다
현재 인공 지능의 새로운 기술과 응용 프로그램이 지속적으로 등장하고 있습니다. 대규모 언어 모델 ChatGPT로 대표되는 차세대 대규모 인공 지능 모델에 대한 연구 및 교육에는 대규모 컴퓨팅 리소스와 데이터 리소스의 지원이 필요합니다. 단일 R&D 투자로 상당한 성장. 대규모 인공지능 모델 훈련을 위한 컴퓨팅 성능 플랫폼 임계값은 매우 높으며 일반 기관은 막대한 R&D 비용과 운영 비용을 감당할 수 없습니다. OpenAI 연구에서는 AI 모델 훈련에 필요한 컴퓨팅 성능이 기하급수적으로 증가했다고 지적합니다. 2012년부터 2018년까지 AI 모델 훈련에 소비되는 컴퓨팅 성능은 30만 배 증가했습니다. GPT3를 훈련시키는 데 필요한 컴퓨팅 파워는 3640pfsday(즉, 1PetaFLOP/s의 효율성이 3640일 동안 실행됨)에 달하며, 훈련 비용은 시간당 140만 달러에 이를 것으로 예상됩니다. 일부 조직에서는 ChatGPT의 초기 투자 비용이 약 US$에 달할 것으로 추정합니다. 8억 달러.
인공지능 데이터 세트의 경우 사전 훈련된 대규모 모델의 연구 및 개발로 인해 훈련에 필요한 데이터 세트의 크기가 과거 수백만에서 수천만 개로 크게 늘어났습니다. 수억. 대규모 모델 훈련에 사용되는 현재 데이터 세트는 Wikipedia, 소셜 네트워킹 사이트, 공개 저널, 서적, 논문 및 코드와 같은 데이터베이스를 포함하여 주로 인터넷에서 가져옵니다. 일부 연구에서는 "훈련 데이터가 대형 모델의 산업화에 가장 큰 제약 중 하나가 될 것"이라고 지적했습니다. 더 깊은 관점에서 볼 때, 대형 모델은 시간이 걸리는 데이터 수집 및 라벨링 등 훈련 데이터 측면에서 여전히 다양한 거버넌스 문제를 안고 있습니다. - 소비적이고, 힘들고, 비용이 많이 들고, 데이터 품질이 어렵다. "롱테일" 및 엣지 케이스를 커버하기에는 보장 및 데이터 다양화가 충분하지 않으며, 특정 데이터의 획득, 사용, 공유에 개인정보 보호 및 데이터 편향 등의 문제가 있습니다. “외국 학자들은 언어 데이터의 전체 규모가 7%씩 증가하고 있다고 보고 있다. ; 고품질 언어 데이터의 증가는 인구 규모, 경제 발전 등의 요인에 따라 4% 증가율로 증가한다. 5%로. 대규모 언어 모델 훈련을 위한 고품질 데이터는 2027년까지 "고갈"됩니다.
요약
컴퓨팅 파워와 데이터 자원은 인공지능 기술 연구를 위한 기본 지원 요소입니다. 인공지능이 '빅 모델' 시대로 접어들면서 컴퓨팅 능력과 데이터 역량은 알고리즘 모델 연구와 훈련을 제한하는 요소가 되었습니다. 미국에서 구축되고 있는 NAIRR 인프라는 현재 인공 지능 기술의 혁신과 발전이 직면한 새로운 과제를 해결하는 데 도움이 되며 우리나라가 전반적인 계획과 조정을 강화하고 건설을 가속화해야 하는 특정 참고 중요성을 가지고 있습니다. 컴퓨팅 인프라 및 데이터 기본 자원을 개발하고, 데이터 요소 시장을 개발하고, 데이터 자원의 수집 및 유통을 장려하며, 인공 지능의 기초 기술 연구 및 응용 혁신을 촉진합니다.
END
저자: Lu Yapeng, Wang Weiguo, 중국정보통신기술원 데이터 연구 센터
편집자/형식자: Gai Beibei
검토자: Shu Wenqiong
프로듀서: 류치청
좋아요와 조회수가 모두 여기에 있습니다
위 내용은 미국, 인공지능에 26억 달러 투자…6년 내 NAIRR 구축 완료 예상의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!