대형 모델의 축복 이후 디지털 사람들은 '더 인간적'인가?-일체 포함-php.cn

베이징 동계 올림픽 AI 가상 휴먼 수화 앵커, 항저우 아시안 게임 디지털 휴먼 점화, 신화통신 디지털 기자, 디지털 우주 비행사 샤오웨이… 점점 더 많은 디지털 휴먼이 사람들의 삶에 등장하면서 디지털 휴먼 산업 전체도 다양하고 광범위한 응용 분야로 발전하여 다양한 산업과 시나리오로 빠르게 확장됩니다.

대형 모델의 축복 이후 디지털 사람들은 더 인간적인가?

C 측의 경우 디지털 인력은 사용자가 콘텐츠를 제작하고 업무를 보조하는 데 도움을 줍니다. 예: 디지털 인력은 음성 언어 연습, 디지털 인력과 게임 플레이 등을 수행합니다. 기업의 "도구 인력"은 금융, 영화 및 TV, 전자 상거래, 생방송 및 기타 산업에서 사용되어 산업 생산 및 운영 효율성을 향상시킵니다.

디지털피플은 좋은 사업이지만 대규모 구현에는 인력, 비용, 시나리오, 기술 등에서 여전히 어려움을 겪고 있습니다. 그 중에서도 가장 결정적인 것은 기술적인 병목 현상이다. 어떻게 하면 디지털 사람들이 '쓸데없이 좋은 피부를 갖는다'는 시장 평가를 탈피할 수 있을지가 큰 문제다.

그러나 대형 모델의 등장과 함께 디지털 휴먼의 발전은 새로운 기회를 열어주는 것 같습니다.

1. 대형 모델은 디지털 사람들에게 힘을 실어줍니다

업계에서는 디지털 사람들 자체가 새로운 것이 아닙니다. 과거에는 오랫동안 디지털 휴먼 뷰잉 외관 측면에서 충실도 높은 프레젠테이션을 위해 노력하기 위해 제작 비용이 전문가 수준의 영화를 만드는 데 드는 비용보다 적지 않았습니다.

UBS가 발표한 디지털 휴먼 연구 보고서에 따르면 고급 가상 캐릭터의 평균 초기 투자 비용은 3천만 위안이며, 이후 촬영, 더빙, 편집을 완료하려면 실제 팀이 필요하다고 지적했습니다. 러화 엔터테인먼트의 가상 걸그룹 에이소울(A-SOUL)을 예로 들면 싱글 제작비가 200만 위안, 오프라인 콘서트 비용이 2000만 위안에 달한다.

그러나 이러한 높은 비용 문제는 디지털 인간 상호 작용 효과의 문제를 해결하지 못합니다. 지능이 부족하기 때문에 디지털 휴먼이라기보다는 영혼이 없는 디지털 가죽 케이스에 가깝다.

낮은 상호작용 효과와 높은 비용으로 인해 디지털 휴먼의 사용은 제조업체나 대기업 고객 내의 실험 프로젝트로 제한되었습니다.

따라서 학습 기능을 갖춘 생성적 대형 모델이 콘텐츠 제작 패러다임을 주도함에 따라 더 넓은 범위의 중소기업 사용자를 대상으로 하고 대규모 구현을 우선시하는 저렴한 디지털 휴먼이 실현 가능한 솔루션이 되었습니다.

한 인공지능 연구자에 따르면, 대형 모델에 의한 디지털 휴먼의 재편과 역량 강화는 주로 비용 절감과 효율성 증대에 반영됩니다.

기술적인 관점에서 디지털 휴먼을 만드는 것은 크게 모델링, 구동, 렌더링으로 나누어집니다. 전통적인 디지털 휴먼은 주로 컴퓨터 그래픽 기술 + 실제 사람 모션 캡처에 의존하는데, 이는 대량의 실제 사람 데이터 수집과 심층적인 모델링이 필요하므로 시간이 많이 걸리고 효율성이 낮으며 비용이 많이 듭니다.

이제 대형 모델의 지원으로 AI 알고리즘과 딥 러닝 모델, 액션 시뮬레이션, 감정 시뮬레이션 및 기타 기술을 기반으로 단 몇 분의 실제 동영상과 몇 시간의 대형 모델 교육만으로 현실적인 디지털 휴먼을 생성하면 생산 비용이 크게 절감됩니다.

그뿐만 아니라, 디지털 휴먼의 비용은 절감되는 동시에 효율성도 크게 향상됩니다.

대형 모델이 등장하기 전, 디지털 휴먼은 겉모습에 작은 차이가 있었고, 입력된 통합 스크립트를 기반으로 "스크립트가 있는" 질문에만 답할 수 있었습니다.

대형 모델의 권한 부여로 디지털 휴먼은 외모와 기능을 맞춤 설정할 수 있을 뿐만 아니라 지능과 상호작용성도 크게 향상되었습니다. 예를 들어 일부 생방송 전달 시나리오에서 디지털 사용자는 이미 청중과 기본적인 상호 작용을 할 수 있습니다.

예를 들어 Baidu Smart Cloud에서 출시한 Xilin 디지털 휴먼은 대형 모델의 지원을 받아 15분 만에 라이브 방송실 구축을 신속하게 완료하고, 제품 기능에 맞는 음성을 자동으로 생성하고, 지능적인 대화형 Q&A를 시작할 수 있습니다.

특정 케이터링 브랜드의 생방송실에서 Xilin의 디지털 휴먼 앵커는 아이스브레이킹 개시, 복지 방송, 워밍업 연설, 주문 촉구 기술 등을 포함한 라이브 방송 음성 기술을 자동으로 생성합니다. 실제 인물과 Xi Ling 디지털 인물 간의 이번 중계 라이브 방송에서 사용자들은 이를 전혀 눈치채지 못했습니다.

더 놀라운 점은 실제 6시간 생방송 비교에서 디지털 앵커는 실제 앵커 비용의 15%에 불과한 비용으로 실제 앵커 GMV의 85%를 얻을 수 있다는 것입니다.

상품 라이브 스트리밍 외에도 Baidu Intelligent Cloud Xiling은 대형 모델을 완전히 재구성하는 중국 최초의 디지털 휴먼 플랫폼으로서 기업에 2D 실제 인물, 3D 사실적 및 3D 초현실적 인물 사진을 제공하여 비디오 제작을 가능하게 합니다. , 디지털 직원, 디지털 인간 대변인 및 기타 응용 프로그램입니다.

예를 들어 XiLing 플랫폼에서는 30분 안에 인물 사진을 훈련하고, 100개의 문장을 녹음하고, 하루 24시간 전용 사운드 라이브러리를 생성하는 데 단 5분의 라이브 비디오가 소요됩니다. 라이브 교육과 비교하면 비용이 저렴합니다. 기존대비 30%, 녹음효율은 20배 향상되었습니다.

대형 모델을 통해 재탄생되고 힘을 얻은 디지털 피플이 높은 가격과 빈약한 상호작용성 등의 문제를 어느 정도 해소하고, 단편 영상과 생방송 방에 점점 더 많이 등장하는 모습을 어렵지 않게 찾아볼 수 있습니다.

동시에 디지털 사람들은 은행 재무설계사, 변호사, 교사, 사망한 유명인 등 더 많은 "정체성"을 향해 움직이기 시작했습니다. 디지털 사람들은 자신이 원하는 사람이 되어가고 있으며 이 역시 점점 더 혼잡해지는 트랙입니다. . 새로운 기회를 가져왔습니다.

2. 디지털 사람들을 "인간"처럼 만드세요

대형 모델의 등장으로 디지털 사람들이 "다시 태어나게" 되었고 오늘날 가장 인기 있는 창업 트랙 중 하나가 되었습니다.

현재 시장에 나와 있는 디지털 휴먼 제조업체에는 두 가지 주요 범주가 있습니다. 하나는 Baidu, Tencent, Huawei 등으로 대표되는 기술 거대 기업으로, 자체 장점을 기반으로 대형 모델에서 디지털 휴먼 제품을 개발 및 출시합니다. Smart, Mobvoi, Xiangxin Technology로 대표되는 중소 제조업체입니다.

인공지능 분야의 많은 투자자들은 AIGC(생성인공지능)가 아직 초기 단계이며, 수익을 창출할 수 있는 구현이 많지 않다고 말했습니다. 디지털 휴먼은 수익성이 있는 몇 안 되는 상용화 경로 중 하나입니다.

그러나 많은 기업가의 유입으로 업계 경쟁은 치열해지고 동질화되었으며 트랙은 점차 복잡해지고 복잡해졌습니다.

혁명의 한 가지 징후는 가격이 점점 낮아지고 있다는 것입니다. 현재 2D 디지털 휴먼의 가격은 대부분 천 위안 수준으로 떨어졌고, 일부는 수백 위안에 불과한 경우도 있습니다.

360그룹의 디지털 휴먼 마케팅 서비스 역시 지능형 마케팅 클라우드 플랫폼의 지원 SaaS 서비스를 통해 고객에게 홍보되고 있음을 보여줍니다. 회원 사용자의 월별 결제 기준에 따르면 디지털 휴먼 가격은 수십 위안에서 많게는 200위안 정도.

저비용의 디지털 피플이 대거 시장에 유입되면서 수백 달러 상당의 디지털 아바타가 막대한 수익을 내는 '부자책'으로 빠르게 과대평가되고 있습니다.

매일 늦은 밤 주류 플랫폼이 오픈되면 수많은 디지털 피플들이 라이브 방송실에 모여듭니다. 이에 따라 효과가 너무 가짜이거나 시장이 혼란스러운 등 디지털 피플에 대한 의구심이 커져 사용자 경험이 저하되고 있습니다.

업계의 일부 사람들은 점점 더 많은 플레이어가 유입됨에 따라 일부 기업가의 기술적 능력이 제한되어 있고 그들이 생산하는 디지털 휴먼 제품의 품질이 다양하여 나쁜 코인이 좋은 코인을 몰아낼 수 있다고 믿습니다.

한편으로 디지털 휴먼은 보다 기본적인 문제를 해결하기 위해 더 단순한 환경에서 주로 사용됩니다. 장면을 전환하거나 여러 라운드의 대화에 직면할 때 올바른 질문에 대답하지 못하거나 끝없는 루프에 빠져 사용자 경험을 제한할 수 있습니다. .

반면, 대형 모델 아래 디지털 피플의 인터랙티브 경험은 실제 사람들의 인터랙티브 경험과 항상 크게 다릅니다. 예를 들어 소라가 생성한 콘텐츠에서는 물리적 원리를 무시하고 인간의 손가락이 부족하다는 문제가 있습니다. 심리적인 '불쾌한 계곡 효과'를 더욱 유발할 수 있다는 비판이 널리 제기되었습니다.

이와 관련하여 일부 전문가들은 기술 혁신 역량과 사용자 경험을 더욱 향상시키는 동시에 디지털 휴먼의 외부 의인화 효과를 보장하는 동시에 사용자 상호 작용 경험을 최적화하고 실시간 렌더링, 광학 캡처, 3차원 재구성 및 지능적인 인간-컴퓨터 상호작용 자연어 처리, 음성 인식, 컴퓨터 비전, 생성 AI 및 기타 기술과 같은 최신 기술의 연구 및 응용.

업계 관계자는 "현재 업계가 공동으로 돌파하고 있는 기술 목표는 '어떻게 하면 디지털 사람들을 인간답게 만들고, 인간처럼 생각하게 만드는가'"라고 말하며, 문제 해결을 위해 기업 간 기술 협력에 속도를 내고 있다. 인터랙티브 디지털 휴먼의 감성지각, 의미론적 이해 등의 기술적 문제가 그 다음이다.

이 일련의 과제는 모두 기술적인 측면을 가리킵니다.

2024년 '중국 가상 디지털 휴먼 영향력 지수 보고서'에서는 2024년 2월 말 기준으로 국가특허청의 '특허 검색' 데이터에 따르면 2023년 디지털 휴먼 분야 특허 출원 건수는 핵심 기술 연구 개발에 대한 업계의 강력한 추진력과 심층적인 혁신을 반영하여 544까지 높았습니다.

2023년 디지털 휴먼 관련 특허를 신청한 기관으로 보면 바이두와 텐센트로 대표되는 구 인터넷 거대기업, 중국이동공상은행으로 대표되는 대표적인 통신 및 금융기관, 샤오빙컴퍼니, 시유테크놀로지, 블랙미러테크놀로지로 대표되는 디지털 기업들은 기술 측면에서 멀티파워 구조를 형성해 왔다.

업계를 선도하는 제조업체는 AI 기술에 있어서 선점자 우위를 갖고 있지만, 급속한 산업 발전 과정에서 어떤 회사도 기술 자체에 대한 절대적인 장벽은 없습니다. 본질적으로 기술 뒤에는 사람이 있습니다. 모든 디지털 휴먼 제조업체에게 AIGC는 기회를 제공하는 동시에 도전에 직면하는 출발점이 되기도 합니다.