마이크로소프트, 소규모 AI 모델 출시, 비밀리에 '플랜 B' 실행, OpenAI와 관련 없음
AI 대형 모델은 2023년의 키워드가 될 것이며, 주요 기술 기업 간 경쟁이 뜨거운 분야이기도 합니다. 하지만 미래를 상징하는 이 대형 AI 모델의 비용이 너무 높아 마이크로소프트 같은 부유한 기업조차 대안을 고려하기 시작했다. 최근 밝혀진 바에 따르면 Peter Lee가 이끄는 1,500명으로 구성된 Microsoft 연구팀 중 일부는 더 작고 운영 비용이 더 낮은 새로운 LLM 개발에 눈을 돌렸습니다
마이크로소프트의 소형 AI 모델에 대한 단서는 3개월 전부터 나타나기 시작했습니다. 올해 6월 마이크로소프트는 "교과서가 필요한 전부"라는 제목의 논문을 발표했는데, 이 논문은 70억 개의 토큰에 불과한 "교과서 수준" 데이터를 사용하여 13억 개의 매개변수 모델 phi-1을 훈련함으로써 소규모에서도 높은 수준의 학습이 가능함을 입증했습니다. 품질 데이터를 사용하면 모델의 성능도 향상될 수 있습니다. 또한 Microsoft Research는 QA Q&A, 채팅 형식 및 코드 시나리오에 적합한 phi-1을 기반으로 하는 phi-1.5라는 새로운 사전 훈련된 언어 모델도 출시했습니다
Microsoft에 따르면 phi-1.5는 상식, 언어 이해 및 논리적 추론을 테스트하는 벤치마크에서 상당수의 대형 모델보다 성능이 뛰어납니다. LM-Eval Harness가 포함된 GPT4AL 실행 점수 제품군에서 phi-1.5는 70억 개의 매개변수를 갖춘 Meta의 오픈 소스 대형 모델 llama-2와 비슷하며 심지어 AGIEval 점수에서 llama-2를 능가합니다.
마이크로소프트가 갑자기 소형 AI 모델을 개발하는 이유는 무엇인가요? 일반적으로 이는 OpenAI 간의 문제와 관련이 있을 수 있다고 여겨집니다. 마이크로소프트는 OpenAI의 주요 투자자이기 때문에 OpenAI의 기존 지적재산권을 영구적으로 사용할 수 있지만 OpenAI의 의사결정을 통제할 수는 없습니다. 따라서 Microsoft와 같은 거대 기업이 자체 전략적 보안 고려 사항이든 OpenAI와 협력하여 유리한 위치를 유지하기 위해 고품질의 소형 AI 모델을 개발하는 것은 필수적입니다
물론 현재 대형 AI 모델의 에너지 소비가 핵심 요소입니다. 올해 초 디자인 자동화 컨퍼런스에서 AMD 최고 기술 책임자(CTO)인 마크 페이퍼마스터(Mark Papermaster)는 머신 러닝 시스템의 에너지 소비를 글로벌 전력 생산과 비교하는 슬라이드를 선보였습니다. 국제에너지기구(International Energy Agency)의 추정에 따르면, 대형 모델을 교육하는 데이터 센터는 점점 더 에너지 집약적이며, 전 세계 전력 소비량의 1.5~2%를 차지하며, 이는 영국 전체의 전력 소비량에 해당합니다. 2030년에는 이 비율이 4%로 증가할 것으로 예상됩니다
Digital Information World가 발표한 관련 보고서에 따르면, AI 모델 훈련을 위해 데이터 센터에서 생성되는 에너지 소비는 2028년까지 기존 클라우드 서비스의 3배에 달할 것으로 예상됩니다. 2023년부터 212회. OpenAI 훈련 GPT-3의 전력 소비량은 1.287기가와트시로, 이는 미국 120가구가 1년 동안 소비하는 전력량과 맞먹는다. 하지만 이는 AI 모델을 훈련하는 초기 전력 소모일 뿐, 실제로 모델을 사용할 때 소모되는 전력의 40%에 불과하다.
Google이 발표한 2023년 환경 보고서에 따르면 대형 AI 모델을 훈련시키는 데는 많은 에너지가 소비될 뿐만 아니라 많은 수자원도 소비됩니다. 보고서에 따르면 구글은 2022년 한 해 동안 56억 갤런(약 212억 리터)의 물을 소비했는데, 이는 골프장 37곳의 물 소비량에 해당한다. 이 중 Google 데이터 센터에서 사용되는 양은 52억 갤런으로, 이는 2021년보다 20% 증가한 수치입니다
대형 AI 모델의 높은 에너지 소비는 정상입니다. ARM 수석 기술 이사인 Ian Bratt는 "AI 컴퓨팅 요구 사항은 충족될 수 없습니다. 네트워크 규모가 클수록 결과가 더 좋고 해결 가능한 문제가 더 많아지며, 전력 사용량은 네트워크 규모에 비례합니다."라고 말했습니다.
일부 인공지능 실무자들은 전염병이 발생하기 전에 Transformer 모델을 훈련하는 데 필요한 에너지 소비량이 27kWh 범위에 있었다고 말했습니다. 그러나 이제 Transformer 모델의 매개변수 수가 5천만 개에서 2억 개로 증가했으며 에너지 소비량은 500,000kWh를 초과했습니다. 즉, 매개변수 수는 4배 증가했지만, 에너지 소모량은 18,000배 이상 증가한 셈이다. 어떤 의미에서는 대형 인공지능 모델이 가져온 다양한 혁신 기능은 실제로 높은 처리 성능과 에너지 소비라는 대가를 치르게 됩니다
더 많은 전기는 AI 훈련을 위해 더 많은 GPU를 구동하고, GPU를 냉각하기 위해 많은 양의 물이 소비됩니다. 마이크로소프트가 소형 원자로에서 생성된 전력을 활용해 데이터센터를 운영하는 로드맵을 개발 중인 것으로 드러났다. 게다가 ESG(환경, 사회, 거버넌스)를 언급하지 않더라도 순전히 비용 측면에서 소규모 모델을 연구하는 것은 가치가 있습니다.
다 아시다시피 CUDA 생태계를 구축한 NVIDIA는 이번 AI 붐의 가장 큰 수혜자이며, 이미 AI 칩 시장의 70%를 점유하고 있습니다. 요즘에는 H100, A100 같은 컴퓨팅 카드가 대세입니다. 찾기 힘들다. 그러나 현재 상황에서는 NVIDIA로부터 컴퓨팅 성능을 구입하는 것이 AI 제조업체의 비용을 높이는 중요한 요소가 되었습니다. 따라서 모델 크기가 작다는 것은 컴퓨팅 리소스가 덜 필요하다는 것을 의미하며, 문제를 해결하려면 더 적은 수의 GPU만 구입하면 됩니다.
더 강력한 대형 모델이 참으로 훌륭하지만, 대형 모델의 상용화는 아직 초기 단계이고, 돈을 많이 버는 사람은 엔비디아의 '삽 파는' 역할뿐이다. 따라서 이 경우 Microsoft는 자연스럽게 현상 유지를 변경하려고 합니다
위 내용은 마이크로소프트, 소규모 AI 모델 출시, 비밀리에 '플랜 B' 실행, OpenAI와 관련 없음의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











최근에는 'AI가 시대를 선도하고, 컴퓨팅 파워가 미래를 주도한다'라는 주제로 '린강 신구 지능형 컴퓨팅 컨퍼런스'가 열렸다. 회의에서 신지역 지능형 컴퓨팅 산업 연합이 공식적으로 설립되었으며, SenseTime은 컴퓨팅 파워 제공업체로서 이 연합의 회원이 되었습니다. 동시에 SenseTime은 "신지역 지능형 컴퓨팅 산업 체인 마스터" 기업이라는 칭호를 받았습니다. Lingang 컴퓨팅 파워 생태계의 적극적인 참여자로서 SenseTime은 현재 아시아 최대 지능형 컴퓨팅 플랫폼 중 하나인 SenseTime AIDC를 구축했습니다. SenseTime AIDC는 총 5,000페타플롭의 컴퓨팅 파워를 출력하고 수천억 개의 매개변수를 갖춘 20개의 초대형 모델을 지원할 수 있습니다. 동시에 훈련하십시오. AIDC를 기반으로 구축된 미래지향적인 대규모 디바이스인 SenseCore는 인공지능에 힘을 실어주는 고효율, 저비용, 대규모 차세대 AI 인프라 및 서비스를 만드는 데 전념하고 있습니다.

IT하우스는 '셀(Cell)'의 자매지 '줄(Joule)'이 이번 주 '인공지능의 성장하는 에너지 발자국(The getting Energy Footprint of Artificial Intelligence)'이라는 제목의 논문을 게재했다고 13일 보도했다. 문의를 통해 우리는 이 논문이 과학 연구 기관인 Digiconomist의 설립자인 Alex DeVries에 의해 출판되었다는 것을 알게 되었습니다. 그는 앞으로 인공지능의 추론 성능이 많은 전력을 소비할 수 있다고 주장했다. 2027년까지 인공지능의 전력 소비량은 네덜란드의 1년 전력 소비량과 맞먹을 것으로 추정된다. 외부 세계에서는 항상 AI 모델을 훈련하는 것이 "AI에서 가장 중요한 것"이라고 믿어왔습니다.

Driving China News 2023년 6월 28일, 오늘 상하이에서 열린 모바일 월드 콩그레스에서 China Unicom은 그래픽 모델 "Honghu Graphic Model 1.0"을 출시했습니다. China Unicom은 Honghu 그래픽 모델이 통신업체의 부가가치 서비스를 위한 최초의 대형 모델이라고 밝혔습니다. China Business News 기자는 Honghu의 그래픽 모델이 현재 8억 개의 훈련 매개변수와 20억 개의 훈련 매개변수의 두 가지 버전을 가지고 있으며 텍스트 기반 사진, 비디오 편집, 사진 기반 사진과 같은 기능을 실현할 수 있다는 사실을 알게 되었습니다. 또한, China Unicom Liu Liehong 회장도 오늘 기조연설에서 생성 AI가 발전의 특이점을 가져오고 향후 2년 내에 일자리의 50%가 인공 지능에 의해 심각한 영향을 받을 것이라고 말했습니다.

휴대폰 서클을 팔로우하는 친구들이라면 '안 받아도 점수를 준다'는 말이 낯설지 않을 거라 믿습니다. 예를 들어 AnTuTu, GeekBench와 같은 이론적인 성능 테스트 소프트웨어는 휴대폰의 성능을 어느 정도 반영할 수 있기 때문에 플레이어들로부터 많은 관심을 받았습니다. 마찬가지로, 성능을 측정하기 위해 PC 프로세서와 그래픽 카드에 해당하는 벤치마킹 소프트웨어가 있습니다. "모든 것이 벤치마킹 가능"하기 때문에 가장 인기 있는 대형 AI 모델도 특히 "100개 모델"에서 벤치마킹 대회에 참가하기 시작했습니다. '전쟁'이 시작되고 거의 매일 획기적인 발전이 있었고 각 회사는 '실적 점수 1위'를 주장했습니다. 사용자 경험 조건.

Transformer 모델은 Google 팀이 2017년에 발표한 논문 "Attentionisallyouneed"에서 나왔습니다. 이 논문은 Seq2Seq 모델의 순환 구조를 대체하기 위해 Attention을 사용하는 개념을 처음 제안했으며, 이는 NLP 분야에 큰 영향을 미쳤습니다. 그리고 최근 연구의 지속적인 발전으로 Transformer 관련 기술은 점차 자연어 처리에서 다른 분야로 흘러가고 있습니다. 지금까지 Transformer 시리즈 모델은 NLP, CV, ASR 및 기타 분야의 주류 모델이 되었습니다. 따라서 Transformer 모델을 어떻게 더 빠르게 훈련하고 추론할 것인가가 업계에서는 중요한 연구 방향이 되었습니다. 정밀도가 낮은 양자화 기술은

IT House는 11월 3일 중국과학원 물리학 연구소 공식 웹사이트에 중국과학원 물리학 연구소/베이징 국립 응집물리학 연구센터 SF10 그룹이 기사를 게재했다고 보도했습니다. 중국과학원 컴퓨터 네트워크 정보센터는 대규모 AI 모델을 재료과학에 적용하기 위해 협력했다. 현장에서는 수만 개의 화학 합성 경로 데이터를 대규모 언어 모델인 LLAMA2-7b에 입력해 MatChat 모델을 얻는다. , 이는 무기 물질의 합성 경로를 예측하는 데 사용될 수 있습니다. IT House는 이 모델이 쿼리된 구조를 기반으로 논리적 추론을 수행하고 해당 준비 프로세스와 공식을 출력할 수 있다고 언급했습니다. 온라인으로 배포되었으며 모든 재료 연구자에게 공개되어 재료 연구 및 혁신에 새로운 영감과 아이디어를 제공합니다. 이 작업은 분할된 과학 분야의 대규모 언어 모델을 위한 것입니다.

메타플랫폼의 인공지능 부서는 최근 소량의 훈련 데이터의 지원을 받아 AI 모델에게 물리적 세계에서 걷는 법을 배우는 방법을 가르치고 있으며 빠른 발전을 이뤘다고 밝혔습니다. 이 연구는 AI 모델이 시각적 탐색 기능을 획득하는 데 걸리는 시간을 크게 단축할 수 있습니다. 이전에는 이러한 목표를 달성하려면 대규모 데이터 세트를 사용한 반복적인 '강화 학습'이 필요했습니다. 메타AI 연구진은 AI 시각 내비게이션에 대한 이번 탐구가 가상 세계에 큰 영향을 미칠 것이라고 말했다. 프로젝트의 기본 아이디어는 복잡하지 않습니다. 단순히 관찰과 탐색을 통해 AI가 인간처럼 물리적 공간을 탐색할 수 있도록 돕는 것입니다. Meta AI 부서는 “예를 들어 AR 안경이 열쇠를 찾도록 안내하려면

Nvidia는 최근 Nvidia GPU에서 대규모 언어 모델 최적화 기능을 확장하고 배포 후 인공 지능 추론 성능의 한계를 뛰어넘는 TensorRT-LLM이라는 새로운 오픈 소스 소프트웨어 제품군의 출시를 발표했습니다. 생성적 AI 대형 언어 모델은 인상적인 기능으로 인해 인기를 얻었습니다. 인공지능의 가능성을 확장하며 다양한 산업 분야에서 널리 활용되고 있습니다. Nvidia Corporation의 하이퍼스케일 및 고성능 컴퓨팅 담당 부사장인 Ian Buck은 사용자가 챗봇과 대화하여 정보를 얻고, 대용량 문서를 요약하고, 소프트웨어 코드를 작성하고, 정보를 이해하는 새로운 방법을 발견할 수 있다고 말했습니다. .모델의 복잡성은 계속 증가하고 모델은 점점 더 지능화되며
