마이크로소프트, 소규모 AI 모델 출시, 비밀리에 '플랜 B' 실행, OpenAI와 관련 없음

PHPz
풀어 주다: 2023-09-29 19:53:12
앞으로
1575명이 탐색했습니다.

AI 대형 모델은 2023년의 키워드가 될 것이며, 주요 기술 기업 간 경쟁이 뜨거운 분야이기도 합니다. 하지만 미래를 상징하는 이 대형 AI 모델의 비용이 너무 높아 마이크로소프트 같은 부유한 기업조차 대안을 고려하기 시작했다. 최근 밝혀진 바에 따르면 Peter Lee가 이끄는 1,500명으로 구성된 Microsoft 연구팀 중 일부는 더 작고 운영 비용이 더 낮은 새로운 LLM 개발에 눈을 돌렸습니다

마이크로소프트, 소규모 AI 모델 출시, 비밀리에 플랜 B 실행, OpenAI와 관련 없음

마이크로소프트의 소형 AI 모델에 대한 단서는 3개월 전부터 나타나기 시작했습니다. 올해 6월 마이크로소프트는 "교과서가 필요한 전부"라는 제목의 논문을 발표했는데, 이 논문은 70억 개의 토큰에 불과한 "교과서 수준" 데이터를 사용하여 13억 개의 매개변수 모델 phi-1을 훈련함으로써 소규모에서도 높은 수준의 학습이 가능함을 입증했습니다. 품질 데이터를 사용하면 모델의 성능도 향상될 수 있습니다. 또한 Microsoft Research는 QA Q&A, 채팅 형식 및 코드 시나리오에 적합한 phi-1을 기반으로 하는 phi-1.5라는 새로운 사전 훈련된 언어 모델도 출시했습니다

Microsoft에 따르면 phi-1.5는 상식, 언어 이해 및 논리적 추론을 테스트하는 벤치마크에서 상당수의 대형 모델보다 성능이 뛰어납니다. LM-Eval Harness가 포함된 GPT4AL 실행 점수 제품군에서 phi-1.5는 70억 개의 매개변수를 갖춘 Meta의 오픈 소스 대형 모델 llama-2와 비슷하며 심지어 AGIEval 점수에서 llama-2를 능가합니다.

마이크로소프트, 소규모 AI 모델 출시, 비밀리에 플랜 B 실행, OpenAI와 관련 없음

마이크로소프트가 갑자기 소형 AI 모델을 개발하는 이유는 무엇인가요? 일반적으로 이는 OpenAI 간의 문제와 관련이 있을 수 있다고 여겨집니다. 마이크로소프트는 OpenAI의 주요 투자자이기 때문에 OpenAI의 기존 지적재산권을 영구적으로 사용할 수 있지만 OpenAI의 의사결정을 통제할 수는 없습니다. 따라서 Microsoft와 같은 거대 기업이 자체 전략적 보안 고려 사항이든 OpenAI와 협력하여 유리한 위치를 유지하기 위해 고품질의 소형 AI 모델을 개발하는 것은 필수적입니다

물론 현재 대형 AI 모델의 에너지 소비가 핵심 요소입니다. 올해 초 디자인 자동화 컨퍼런스에서 AMD 최고 기술 책임자(CTO)인 마크 페이퍼마스터(Mark Papermaster)는 머신 러닝 시스템의 에너지 소비를 글로벌 전력 생산과 비교하는 슬라이드를 선보였습니다. 국제에너지기구(International Energy Agency)의 추정에 따르면, 대형 모델을 교육하는 데이터 센터는 점점 더 에너지 집약적이며, 전 세계 전력 소비량의 1.5~2%를 차지하며, 이는 영국 전체의 전력 소비량에 해당합니다. 2030년에는 이 비율이 4%로 증가할 것으로 예상됩니다

마이크로소프트, 소규모 AI 모델 출시, 비밀리에 플랜 B 실행, OpenAI와 관련 없음

Digital Information World가 발표한 관련 보고서에 따르면, AI 모델 훈련을 위해 데이터 센터에서 생성되는 에너지 소비는 2028년까지 기존 클라우드 서비스의 3배에 달할 것으로 예상됩니다. 2023년부터 212회. OpenAI 훈련 GPT-3의 전력 소비량은 1.287기가와트시로, 이는 미국 120가구가 1년 동안 소비하는 전력량과 맞먹는다. 하지만 이는 AI 모델을 훈련하는 초기 전력 소모일 뿐, 실제로 모델을 사용할 때 소모되는 전력의 40%에 불과하다.

Google이 발표한 2023년 환경 보고서에 따르면 대형 AI 모델을 훈련시키는 데는 많은 에너지가 소비될 뿐만 아니라 많은 수자원도 소비됩니다. 보고서에 따르면 구글은 2022년 한 해 동안 56억 갤런(약 212억 리터)의 물을 소비했는데, 이는 골프장 37곳의 물 소비량에 해당한다. 이 중 Google 데이터 센터에서 사용되는 양은 52억 갤런으로, 이는 2021년보다 20% 증가한 수치입니다

대형 AI 모델의 높은 에너지 소비는 정상입니다. ARM 수석 기술 이사인 Ian Bratt는 "AI 컴퓨팅 요구 사항은 충족될 수 없습니다. 네트워크 규모가 클수록 결과가 더 좋고 해결 가능한 문제가 더 많아지며, 전력 사용량은 네트워크 규모에 비례합니다."라고 말했습니다.

마이크로소프트, 소규모 AI 모델 출시, 비밀리에 플랜 B 실행, OpenAI와 관련 없음

일부 인공지능 실무자들은 전염병이 발생하기 전에 Transformer 모델을 훈련하는 데 필요한 에너지 소비량이 27kWh 범위에 있었다고 말했습니다. 그러나 이제 Transformer 모델의 매개변수 수가 5천만 개에서 2억 개로 증가했으며 에너지 소비량은 500,000kWh를 초과했습니다. 즉, 매개변수 수는 4배 증가했지만, 에너지 소모량은 18,000배 이상 증가한 셈이다. 어떤 의미에서는 대형 인공지능 모델이 가져온 다양한 혁신 기능은 실제로 높은 처리 성능과 에너지 소비라는 대가를 치르게 됩니다

더 많은 전기는 AI 훈련을 위해 더 많은 GPU를 구동하고, GPU를 냉각하기 위해 많은 양의 물이 소비됩니다. 마이크로소프트가 소형 원자로에서 생성된 전력을 활용해 데이터센터를 운영하는 로드맵을 개발 중인 것으로 드러났다. 게다가 ESG(환경, 사회, 거버넌스)를 언급하지 않더라도 순전히 비용 측면에서 소규모 모델을 연구하는 것은 가치가 있습니다.

마이크로소프트, 소규모 AI 모델 출시, 비밀리에 플랜 B 실행, OpenAI와 관련 없음

다 아시다시피 CUDA 생태계를 구축한 NVIDIA는 이번 AI 붐의 가장 큰 수혜자이며, 이미 AI 칩 시장의 70%를 점유하고 있습니다. 요즘에는 H100, A100 같은 컴퓨팅 카드가 대세입니다. 찾기 힘들다. 그러나 현재 상황에서는 NVIDIA로부터 컴퓨팅 성능을 구입하는 것이 AI 제조업체의 비용을 높이는 중요한 요소가 되었습니다. 따라서 모델 크기가 작다는 것은 컴퓨팅 리소스가 덜 필요하다는 것을 의미하며, 문제를 해결하려면 더 적은 수의 GPU만 구입하면 됩니다.

더 강력한 대형 모델이 참으로 훌륭하지만, 대형 모델의 상용화는 아직 초기 단계이고, 돈을 많이 버는 사람은 엔비디아의 '삽 파는' 역할뿐이다. 따라서 이 경우 Microsoft는 자연스럽게 현상 유지를 변경하려고 합니다

위 내용은 마이크로소프트, 소규모 AI 모델 출시, 비밀리에 '플랜 B' 실행, OpenAI와 관련 없음의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:sohu.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿