Google DeepMind는 다양한 로봇을 제어하여 일련의 작업을 수행할 수 있는 RoboCat AI 모델을 개발했습니다.
6월 26일 뉴스에 따르면, 구글 자회사 딥마인드(DeepMind)가 다양한 로봇 팔을 제어해 일련의 작업을 수행할 수 있는 로보캣(RoboCat)이라는 인공지능 모델을 개발했다고 밝혔습니다. 이것만으로는 특별히 새로운 것은 아니지만 DeepMind는 이 모델이 다양한 작업을 해결하고 적응할 수 있으며 다른 실제 로봇을 사용하여 이를 수행할 수 있는 최초의 모델이라고 주장합니다.
RoboCat은 텍스트, 이미지 및 이벤트를 분석하고 처리할 수 있는 DeepMind의 또 다른 AI 모델인 Gato에서 영감을 받았습니다. RoboCat의 훈련 데이터에는 가상 환경의 다른 로봇 제어 모델, 인간이 제어하는 로봇 및 이전 버전의 RoboCat 자체에서 파생된 시뮬레이션 로봇과 실제 로봇의 이미지 및 모션 데이터가 포함됩니다.
DeepMind의 연구 과학자이자 RoboCat 팀의 공동 작업자 중 한 명인 Alex Lee는 TechCrunch와의 이메일 인터뷰에서 다음과 같이 말했습니다. "우리는 단일 대형 모델이 여러 실제 로봇 엔터티에서 해결될 수 있음을 보여주었습니다. 다양한 작업을 수행하고 신속하게 ”
IT House는 RoboCat을 훈련하기 위해 먼저 인간이 제어하는 로봇 팔을 사용하여 100~1000개의 작업 또는 로봇 시연에서 각 데이터를 수집했다고 언급했습니다. 예를 들어, 로봇 팔이 기어를 집거나 빌딩 블록을 쌓게 하세요. 그런 다음 RoboCat을 미세 조정하여 각 작업에 대해 특화된 "파생" 모델을 생성하고 평균 10,000회 연습하도록 했습니다. 연구원들은 파생 모델과 데모 데이터에서 생성된 데이터를 활용하여 RoboCat의 교육 데이터 세트를 계속 확장하고 RoboCat의 새로운 버전을 교육하고 있습니다.
RoboCat의 최종 버전은 총 253개의 작업에 대해 교육을 받았으며 시뮬레이션과 실제 세계에서 이러한 작업의 141가지 변형에 대해 테스트되었습니다. DeepMind는 RoboCat이 몇 시간에 걸쳐 수집된 1,000개의 인간 제어 시연을 관찰한 후 다양한 유형의 로봇 팔을 작동하는 방법을 배웠다고 주장합니다. RoboCat은 두 손가락 팔을 가진 4대의 로봇에 대해 훈련을 받았지만, 모델은 세 손가락 그리퍼와 두 배 더 많은 제어 가능한 입력을 사용하여 더 복잡한 팔에 적응할 수 있었습니다.
그럼에도 불구하고 DeepMind의 테스트에서 RoboCat의 다양한 작업 성공률은 최저 13%에서 최고 99%까지 매우 다양했습니다. 이는 훈련 데이터에 1000개의 시연이 있는 경우입니다. 시연 횟수가 절반으로 줄어들면 그에 따라 성공률도 감소합니다. 그러나 경우에 따라 DeepMind는 RoboCat이 단 100개의 데모를 관찰하여 새로운 작업을 배울 수 있다고 주장합니다.
Alex Lee는 RoboCat이 새로운 작업을 해결하는 것을 덜 어렵게 만들 수 있다고 믿습니다. "새로운 작업에 대한 특정 횟수의 시연이 주어지면 RoboCat은 새로운 작업에 맞게 미세 조정하고 더 많은 데이터를 자체 생성하여 더욱 개선할 수 있습니다."라고 그는 덧붙였습니다.
앞으로 연구팀은 RoboCat에게 새로운 작업을 완료하도록 가르치는 데 필요한 시연 횟수를 10회 미만으로 줄이는 것을 목표로 합니다.
위 내용은 Google DeepMind는 다양한 로봇을 제어하여 일련의 작업을 수행할 수 있는 RoboCat AI 모델을 개발했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











MetaFAIR는 대규모 기계 학습을 수행할 때 생성되는 데이터 편향을 최적화하기 위한 새로운 연구 프레임워크를 제공하기 위해 Harvard와 협력했습니다. 대규모 언어 모델을 훈련하는 데는 수개월이 걸리고 수백 또는 수천 개의 GPU를 사용하는 것으로 알려져 있습니다. LLaMA270B 모델을 예로 들면, 훈련에는 총 1,720,320 GPU 시간이 필요합니다. 대규모 모델을 교육하면 이러한 워크로드의 규모와 복잡성으로 인해 고유한 체계적 문제가 발생합니다. 최근 많은 기관에서 SOTA 생성 AI 모델을 훈련할 때 훈련 프로세스의 불안정성을 보고했습니다. 이는 일반적으로 손실 급증의 형태로 나타납니다. 예를 들어 Google의 PaLM 모델은 훈련 과정에서 최대 20번의 손실 급증을 경험했습니다. 수치 편향은 이러한 훈련 부정확성의 근본 원인입니다.

16일 뉴스에 따르면, 업계 굴지의 과학연구기관인 미국 국립슈퍼컴퓨팅센터(National Supercomputing Center)와 AI 분야의 여러 선도기업들이 최근 공동으로 TPC(Trillion Parameter Consortium)를 설립했다. DALL-E3에서 생성됨 보고서에 따르면 이 사이트는 TPC Alliance가 전 세계 실험실, 과학 연구 기관, 학계 및 업계의 과학자들로 구성되어 있으며 과학적 발견을 위한 인공 지능 모델을 공동으로 홍보하는 것을 목표로 하고 있으며 특별 비용을 지불하고 있음을 알게 되었습니다. TPC 컨소시엄은 현재 확장 가능한 모델 아키텍처 및 교육 전략을 개발하는 동시에 현재 및 미래의 엑사스케일 수준 컴퓨팅 플랫폼을 위한 AI 라이브러리를 최적화하기 위해 모델 교육을 위한 과학적 데이터를 구성 및 관리하기 위해 노력하고 있습니다.

11월 15일 뉴스에 따르면, 마이크로소프트는 최근 구글 딥마인드(Google DeepMind)의 알파제로(AlphaZero)에서 영감을 받아 AI 모델의 추론 능력을 강화하기 위해 소형 신경망을 사용하는 XOT(Everything of Thought)라는 방법을 출시했다. Microsoft는 Georgia Institute of Technology 및 East China Normal University와 협력하여 강화 학습과 MCTS(Monte Carlo Tree Search) 기능을 통합하여 복잡한 의사 결정 환경에서 문제 해결의 효율성을 더욱 향상시키는 이 알고리즘을 개발했습니다. 이 사이트의 참고 사항: Microsoft 연구팀은 Gameof24, 8-Puzzle 및 P에서 XOT 방법이 익숙하지 않은 문제에 대한 언어 모델을 확장할 수 있다고 밝혔습니다.

26일 뉴스에 따르면 구글 자회사 딥마인드는 다양한 로봇 팔을 제어해 일련의 작업을 수행할 수 있는 로보캣(RoboCat)이라는 인공지능 모델을 개발했다고 밝혔다. 이것만으로는 특별히 새로운 것은 아니지만 DeepMind는 이 모델이 다양한 작업을 해결하고 적응할 수 있으며 다른 실제 로봇을 사용하여 이를 수행할 수 있는 최초의 모델이라고 주장합니다. RoboCat은 텍스트, 이미지 및 이벤트를 분석하고 처리할 수 있는 또 다른 DeepMind AI 모델인 Gato에서 영감을 받았습니다. RoboCat의 훈련 데이터에는 가상 환경의 다른 로봇 제어 모델, 인간이 제어하는 로봇에서 나오는 시뮬레이션 로봇과 실제 로봇의 이미지 및 모션 데이터가 포함됩니다.

7월 10일 뉴스에 따르면, 데이터브릭스는 최근 빅데이터 분석 플랫폼 스파크(Spark)에서 사용하는 AI 모델 SDK를 출시했다. 개발자가 코드를 작성하면 영어로 명령어를 줄 수 있고, 컴파일러는 영어 명령어를 파이스파크(PySpark)나 SQL 언어로 변환해준다. 개발자의 효율성을 향상시키는 코드입니다. ▲이미지 출처 데이터브릭스 홈페이지 스파크는 연간 10억회 이상 다운로드되며 전 세계 208개 국가 및 지역에서 사용되고 있는 오픈소스 빅데이터 분석 도구로 알려졌다. ▲이미지 출처 데이터브릭스 웹사이트 데이터브릭스는 마이크로소프트의 AI 코드 어시스턴트 깃허브코파일럿(GitHubCopilot)이 강력하지만 사용 임계값도 상당히 높다고 말했다. 데이터브릭스의 SDK는 상대적으로 더 보편적이고 사용하기 쉽다.

12월 15일 뉴스에 따르면, 구글 딥마인드는 최근 '상위 문제'와 '복싱'을 포함한 '수학과 컴퓨터 과학 분야를 포함하는' 일련의 계산이 가능하다고 주장하는 '펀서치(FunSearch)'라는 모델 훈련 방법을 발표했다. 문제". 복잡한 문제." 다시 작성해야 할 내용은 다음과 같다. ▲이미지 출처 : 구글 딥마인드(이하 딥마인드) 펀서치(FunSearch) 모델 훈련 방식은 주로 AI 모델용 '평가자(Evaluator)' 시스템을 도입하는 것으로 전해지고 있으며, AI는 모델은 일련의 '창의적인 문제 해결 방법'을 출력하고, '평가자'는 모델이 출력한 문제 해결 방법을 평가하는 역할을 담당합니다. 반복된 반복을 통해 더 강력한 수학적 능력을 갖춘 AI 모델을 훈련할 수 있습니다. 구글의 DeepM

14일 뉴스에 따르면 마이크로소프트 연구진은 최근 생체의학 연구에 주로 사용되는 CT와 엑스레이 사진을 기반으로 환자의 병리학적 상태를 추론할 수 있는 LLaVA-Med 모델을 시연했다. 마이크로소프트 연구진은 여러 병원과 협력해 다중 모드 AI 모델을 훈련하기 위해 생체의학 이미지 텍스트에 해당하는 대규모 데이터 세트를 획득한 것으로 알려졌다. 이 데이터 세트에는 흉부 X선, MRI, 조직학, 병리학, CT 영상 등이 포함되며 비교적 포괄적인 범위를 갖습니다. ▲사진 출처 Microsoft Microsoft는 VisionTransformer 및 Vicuna 언어 모델을 기반으로 하는 GPT-4를 사용하여 "각 이미지에 대한 모든 사전 분석 정보"가 포함된 8개의 Nvidia A100 GPU에서 LLaVA-Med를 교육합니다.

마이크로소프트는 지난 8월 16일 AI 서비스 약관을 발표하고, 해당 약관이 9월 30일부터 시행된다고 밝혔다. 이번 업데이트의 주요 내용은 생성적 AI를 위한 것으로, 특히 관련 사용자의 사용 및 책임 있는 개발 관행과 관련된 내용입니다. Microsoft는 공식적으로 사용자 및 Bing 채팅의 대화 기록을 보관하지 않으며 이러한 채팅 데이터도 사용하지 않을 것임을 강조합니다. Bing Enterprise Chat용 AI 모델을 훈련하는 데 사용되는 5가지 주요 정책 포인트는 사용자가 웹 스크래핑과 같은 방법을 통해 데이터 추출을 금지하는 AI 모델을 리버스 엔지니어링하는 것을 금지하는 것을 포함하여 여러 영역을 다룹니다. 명시적으로 허용되지 않는 한, 사용자가 AI 데이터를 사용하여 다른 AI 서비스를 만들거나 향상시키는 것을 제한하는 중요한 조항은 Microsoft에서 추가한 조항입니다.
