스탠포드의 'Virtual Town'과 'Westworld'에서 영감을 받아 AI 에이전트 25개의 소스 코드가 공개되었습니다.
웨스트월드에 익숙한 관객들은 이 쇼가 미래 세계의 거대한 첨단 성인 테마파크를 배경으로 한다는 것을 알고 있습니다. 로봇은 인간과 유사한 행동 능력을 가지고 있으며 보고 듣는 것을 기억하고 반복할 수 있습니다. 핵심 스토리. 매일 이 로봇은 재설정되어 초기 상태로 돌아갑니다
스탠포드 논문 "생성 에이전트: 인간 행동의 대화형 시뮬라크르"가 발표된 후 이 시나리오는 더 이상 영화와 TV 시리즈에만 국한되지 않습니다. 성공적으로 재현 이 장면의 개요
Smallville의 "가상 마을"
- 문서 주소: https://arxiv.org/pdf/2304.03442v1.pdf
- 프로젝트 주소: https:// github.com/joonspk-research/generative_agents
연구원들은 25명의 AI 에이전트가 있는 스몰빌이라는 가상 마을을 성공적으로 만들었습니다. 그들은 마을에 거주하고, 직업을 갖고, 가십을 교환하고, 사회 활동에 참여하고, 새로운 친구를 사귀고 있습니다. , 또는 발렌타인 데이 파티를 주최할 수도 있습니다. 마을 주민마다 독특한 개성과 배경 이야기가 있습니다
"마을 주민"의 현실감을 높이기 위해 스몰빌 타운은 카페, 바, 공원, 학교, 기숙사, 주택, 상점 등 다양한 공공 장소를 제공합니다. 스몰빌에서는 주민들이 이곳저곳을 자유롭게 오가며 다른 주민들과 교류하고, 인사까지 할 수 있다
'마을 주민들'이 마음대로 드나드는 장면
스몰빌 주민들은 어떻게 지내는가? 마을 행동은 인간과 비슷합니까? 예를 들어, 아침 식사가 불타오르는 것을 보면 먼저 다가가서 난로를 끄고, 화장실에 누군가가 있으면 밖에서 기다리다가 대화를 멈춥니다. 그리고 채팅...
죄송합니다. 안타깝게도 이 연구는 당시 공개되지 않았으며, 더 많은 정보는 출판된 논문을 통해서만 얻을 수 있었습니다. 그러나 시간이 흘러 이제 연구자들은 이 연구를 오픈소스로 만들었습니다
이 소식은 논문 저자 중 한 명인 스탠포드 박사과정 학생 박준성씨
와 함께 확인했습니다. 해당 프로젝트의 오픈소스는 게임 산업에 폭넓은 영향을 미치고 네티즌들의 기대에 부응할 것으로 기대된다. 미래의 컴퓨터 게임은 각 주민이 독립적인 생활, 일, 취미를 갖고 플레이어가 현실적으로 상호 작용할 수 있는 가상 도시를 제시할 수 있습니다
"저는 이 연구가 AGI의 시작의 시작이라고 믿습니다. 아직 해야 할 일이 많지만 이것이 올바른 길입니다.
네티즌들도 이 연구를 비디오 게임 "The Sims"에 적용하기를 바랍니다. , 일부 사람들은 우려하고 있습니다. AI 에이전트를 구축하려면 대규모 모델에 의존해야 한다는 것을 우리 모두 알고 있지만 문제를 고려해야 합니다. LLM은 점차 인간에 의해 "길들여지고" 있으므로 인간의 실제 감정과 행동을 완전히 반영할 수 없으며 인간이 생각하는 행동만 보여줄 수 있습니다. 좋고, 분노, 범죄, 불평등, 질투, 폭력 등과 같은 행동은 크게 약화될 것입니다. 그러므로 AI 에이전트가 인간의 실생활을 완벽하게 재현하기는 어렵습니다
어쨌든 사람들은 여전히 스몰빌의 오픈소스에 열광하고 있습니다
스탠포드의 오픈 소스 Smallville “가상 타운” 외에도 다른 AI 에이전트도 나열하고 싶습니다.
스타트업 회사인 Fable은 AI 에이전트를 사용하여 시나리오 작성, 애니메이션, 감독, 편집 및 기타 제작 프로세스를 전적으로 AI로 완료합니다. , "South Park" 에피소드를 성공적으로 촬영했습니다.
NVIDIA AI 에이전트 Voyager 는 GPT-4에 연결되어 있어 사람의 개입 없이 "Minecraft"를 플레이할 수 있습니다.
SenseTime, Tsinghua University 및 기타 기관이 공동 개발한 범용 AI 에이전트 Ghost in the Minecraft(GITM)는 Minecraft에서 이전의 모든 에이전트를 능가하는 탁월한 성능을 입증했으며 교육 비용을 대폭 절감했습니다
이후 더 많은 연구가 있으므로 모두 나열할 수는 없습니다. Stanford Virtual Town의 오픈소스를 통해 더 많은 기업과 기관이 그 대열에 합류할 것이라고 믿습니다
위 내용은 스탠포드의 'Virtual Town'과 'Westworld'에서 영감을 받아 AI 에이전트 25개의 소스 코드가 공개되었습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











텍스트 주석은 텍스트의 특정 내용에 해당하는 레이블이나 태그를 추가하는 작업입니다. 주요 목적은 특히 인공 지능 분야에서 더 심층적인 분석 및 처리를 위해 텍스트에 추가 정보를 제공하는 것입니다. 텍스트 주석은 인공 지능 애플리케이션의 지도형 기계 학습 작업에 매우 중요합니다. 자연어 텍스트 정보를 보다 정확하게 이해하고 텍스트 분류, 감정 분석, 언어 번역 등의 작업 성능을 향상시키기 위해 AI 모델을 훈련하는 데 사용됩니다. 텍스트 주석을 통해 우리는 AI 모델이 텍스트의 개체를 인식하고, 맥락을 이해하고, 새로운 유사한 데이터가 나타날 때 정확한 예측을 하도록 가르칠 수 있습니다. 이 기사에서는 주로 더 나은 오픈 소스 텍스트 주석 도구를 권장합니다. 1.라벨스튜디오https://github.com/Hu

이미지 주석은 이미지 콘텐츠에 더 깊은 의미와 설명을 제공하기 위해 이미지에 레이블이나 설명 정보를 연결하는 프로세스입니다. 이 프로세스는 비전 모델을 훈련하여 이미지의 개별 요소를 보다 정확하게 식별하는 데 도움이 되는 기계 학습에 매우 중요합니다. 이미지에 주석을 추가함으로써 컴퓨터는 이미지 뒤의 의미와 맥락을 이해할 수 있으므로 이미지 내용을 이해하고 분석하는 능력이 향상됩니다. 이미지 주석은 컴퓨터 비전, 자연어 처리, 그래프 비전 모델 등 다양한 분야를 포괄하여 차량이 도로의 장애물을 식별하도록 지원하는 등 광범위한 애플리케이션을 보유하고 있습니다. 의료영상인식을 통한 질병진단. 이 기사에서는 주로 더 나은 오픈 소스 및 무료 이미지 주석 도구를 권장합니다. 1.마케센스

얼굴 검출 및 인식 기술은 이미 상대적으로 성숙하고 널리 사용되는 기술입니다. 현재 가장 널리 사용되는 인터넷 응용 언어는 JS입니다. 웹 프런트엔드에서 얼굴 감지 및 인식을 구현하는 것은 백엔드 얼굴 인식에 비해 장점과 단점이 있습니다. 장점에는 네트워크 상호 작용 및 실시간 인식이 줄어 사용자 대기 시간이 크게 단축되고 사용자 경험이 향상된다는 단점이 있습니다. 모델 크기에 따라 제한되고 정확도도 제한됩니다. js를 사용하여 웹에서 얼굴 인식을 구현하는 방법은 무엇입니까? 웹에서 얼굴 인식을 구현하려면 JavaScript, HTML, CSS, WebRTC 등 관련 프로그래밍 언어 및 기술에 익숙해야 합니다. 동시에 관련 컴퓨터 비전 및 인공지능 기술도 마스터해야 합니다. 웹 측면의 디자인으로 인해 주목할 가치가 있습니다.

다중 모드 문서 이해 기능을 위한 새로운 SOTA! Alibaba mPLUG 팀은 최신 오픈 소스 작업인 mPLUG-DocOwl1.5를 출시했습니다. 이 작품은 고해상도 이미지 텍스트 인식, 일반 문서 구조 이해, 지침 따르기, 외부 지식 도입이라는 4가지 주요 과제를 해결하기 위한 일련의 솔루션을 제안했습니다. 더 이상 고민하지 말고 먼저 효과를 살펴보겠습니다. 복잡한 구조의 차트도 한 번의 클릭으로 인식하고 마크다운 형식으로 변환 가능: 다양한 스타일의 차트 사용 가능: 보다 자세한 텍스트 인식 및 위치 지정도 쉽게 처리 가능: 문서 이해에 대한 자세한 설명도 제공 가능: 아시다시피, " 문서 이해"는 현재 대규모 언어 모델 구현을 위한 중요한 시나리오입니다. 시장에는 문서 읽기를 지원하는 많은 제품이 있습니다. 그 중 일부는 주로 텍스트 인식을 위해 OCR 시스템을 사용하고 텍스트 처리를 위해 LLM을 사용합니다.

최신 AIGC 오픈소스 프로젝트인 AnimagineXL3.1을 소개하겠습니다. 이 프로젝트는 사용자에게 더욱 최적화되고 강력한 애니메이션 이미지 생성 경험을 제공하는 것을 목표로 하는 애니메이션 테마의 텍스트-이미지 모델의 최신 버전입니다. AnimagineXL3.1에서 개발 팀은 모델이 성능과 기능 면에서 새로운 수준에 도달할 수 있도록 여러 주요 측면을 최적화하는 데 중점을 두었습니다. 첫째, 이전 버전의 게임 캐릭터 데이터뿐만 아니라 다른 많은 유명 애니메이션 시리즈의 데이터도 훈련 세트에 포함하도록 훈련 데이터를 확장했습니다. 이러한 움직임은 모델의 지식 기반을 풍부하게 하여 다양한 애니메이션 스타일과 캐릭터를 더 완벽하게 이해할 수 있게 해줍니다. AnimagineXL3.1은 새로운 특수 태그 및 미학 세트를 소개합니다.

FP8 이하의 부동 소수점 수량화 정밀도는 더 이상 H100의 "특허"가 아닙니다! Lao Huang은 모든 사람이 INT8/INT4를 사용하기를 원했고 Microsoft DeepSpeed 팀은 NVIDIA의 공식 지원 없이 A100에서 FP6을 실행하기 시작했습니다. 테스트 결과에 따르면 A100에 대한 새로운 방법 TC-FPx의 FP6 양자화는 INT4에 가깝거나 때로는 더 빠르며 후자보다 정확도가 더 높은 것으로 나타났습니다. 또한 오픈 소스로 제공되고 DeepSpeed와 같은 딥 러닝 추론 프레임워크에 통합된 엔드투엔드 대규모 모델 지원도 있습니다. 이 결과는 대형 모델 가속화에도 즉각적인 영향을 미칩니다. 이 프레임워크에서는 단일 카드를 사용하여 Llama를 실행하면 처리량이 듀얼 카드보다 2.65배 더 높습니다. 하나

논문 주소: https://arxiv.org/abs/2307.09283 코드 주소: https://github.com/THU-MIG/RepViTRepViT는 모바일 ViT 아키텍처에서 잘 작동하며 상당한 이점을 보여줍니다. 다음으로, 본 연구의 기여를 살펴보겠습니다. 기사에서는 경량 ViT가 일반적으로 시각적 작업에서 경량 CNN보다 더 나은 성능을 발휘한다고 언급했는데, 그 이유는 주로 모델이 전역 표현을 학습할 수 있는 MSHA(Multi-Head Self-Attention 모듈) 때문입니다. 그러나 경량 ViT와 경량 CNN 간의 아키텍처 차이점은 완전히 연구되지 않았습니다. 본 연구에서 저자는 경량 ViT를 효과적인

국내 최신 대형 오픈소스 MoE 모델은 출시 직후 인기를 끌었다. DeepSeek-V2의 성능은 GPT-4 수준에 도달하지만 오픈 소스이며 상업용으로 무료이며 API 가격은 GPT-4-Turbo의 1%에 불과합니다. 그래서 공개되자마자 많은 논란이 일었습니다. 공개된 성능 지표에 따르면 DeepSeekV2의 포괄적인 중국어 기능은 많은 오픈 소스 모델을 능가하는 동시에 GPT-4Turbo 및 Wenkuai 4.0과 같은 폐쇄 소스 모델도 첫 번째 단계에 있습니다. 종합적인 영어 능력 역시 LLaMA3-70B와 동일한 1계급에 속하며, 역시 MoE인 Mixtral8x22B를 능가합니다. 또한 지식, 수학, 추론, 프로그래밍 등에서도 좋은 성적을 보여줍니다. 그리고 128K 컨텍스트를 지원합니다. 이것을 상상해 보세요
