'수직형 모델'로 AIGC 상용화를 선도하는 팬시테크의 기술 경로는 무엇인가?-일체 포함-php.cn

이번에 AIGC는 개인에게 자신을 표현할 수 있는 도구를 제공하여 창작을 더 쉽고 대중적으로 만들어줍니다. 그 뒤에 있는 원동력은 "큰" 모델이 아닙니다.

지난 2년간 AIGC 기술은 상상 이상으로 빠르게 발전해 텍스트, 이미지, 영상 등 모든 분야를 휩쓸었습니다. AIGC의 상용화 경로에 대한 논의는 끊이지 않았다. 그 중에서도 합의와 경로의 차이가 있다.

일반 모델의 강력한 성능은 놀라울 정도로 각계각층에 활용 가능성을 보여주고 있다. 특히 DiT, VAR 등의 아키텍처 도입으로 스케일링 법칙이 텍스트 생성에서 시각적 생성으로 도약할 수 있게 되었습니다. 이 규칙에 따라 많은 대형 모델 제조업체는 훈련 데이터 증가, 컴퓨팅 성능 투자 및 매개변수 축적을 늘리는 방향으로 계속 전진하고 있습니다.

반면에 우리는 트랙을 세분화하는 많은 작업에 직면하여 범용 모델이 "모두 죽이기"를 의미하지 않는다는 점도 확인했습니다. "잘 훈련된" 수직 모델은 실제로 더 나은 결과를 얻으세요.

대형 모델 기술이 가속화된 구현기에 접어들면서 후자의 상용화 경로가 급속도로 주목을 받고 있습니다.

이러한 진화 과정에서 중국의 스타트업 FancyTech이 눈에 띕니다. 상업용 영상 콘텐츠 생성을 위한 표준화된 제품으로 시장을 빠르게 확대하며 " 산업 구현 수준의 "수직 모델"입니다.

국내 대형모델 창업계를 둘러보면 팬시테크의 상용화 실적은 누가 봐도 뻔하다. 하지만 덜 알려진 것은 불과 몇 년 전에 탄생한 이 회사가 그 선두에 서 있는 수직적 모델과 기술적 이점이다.

독점 인터뷰에서 이 웹사이트는 FancyTech와 그들이 하고 있는 기술 탐구에 대해 이야기했습니다.

FancyTech, 동영상 수직 모델 출시 DeepVideo

업계 장벽을 어떻게 돌파할 수 있을까요?

일반적으로 일반 모델의 영표본 일반화 능력이 일정 수준에 도달한 후에는 미세 조정을 통해 후속 작업에 사용할 수 있습니다. 이는 오늘날 많은 대형 모델 제품이 출시되는 방식이기도 합니다. 그러나 실제로는 "미세 조정"만으로는 산업 응용 분야의 요구 사항을 충족할 수 없습니다. 각 산업의 콘텐츠 생성 작업에는 고유하고 구체적이고 복잡한 표준이 있기 때문입니다.

일반 모델은 기존 작업의 70%를 수행할 수 있지만, 고객에게 정말로 필요한 것은 100%를 충족할 수 있는 "수직 모델"입니다. 상업용 시각 디자인을 예로 들면, 과거에는 관련 작업이 장기간 축적된 전문가에 의해 완료되었고, 브랜드의 구체적인 요구 사항에 따라 디자인하고 조정해야 했기 때문에 많은 수작업 경험이 필요했습니다. 심미성, 지시 준수 등의 지표에 비해 '제품 복원'은 브랜드가 이 작업에 더 많은 관심을 기울이는 지점이자, 브랜드가 지불할 의향이 있는지를 결정하는 요소이기도 합니다.

상업용 이미지/비디오의 수직 모델을 자체 개발하는 과정에서 FancyTech는 핵심 과제인 제품을 충분히 복원하고 배경에 통합하는 방법을 분해했습니다. 변형 없이 제품의 제어 가능한 움직임을 달성하기 위해 비디오를 생성합니다.

수직형 모델로 AIGC 상용화를 선도하는 팬시테크의 기술 경로는 무엇인가?

빅모델 오늘날 기술이 발전함에 따라 애플리케이션 계층의 경우 오픈 소스 또는 폐쇄 소스 경로를 선택하는 것은 더 이상 핵심 문제가 아닙니다. FancyTech의 수직 모델은 오픈 소스 기반 알고리즘 프레임워크를 기반으로 하며 자체 데이터 주석 및 재훈련이 추가되어 있으며 좋은 생성 결과를 얻기 위해 지속적인 훈련 반복을 위해 수백 개의 GPU만 필요합니다. 대조적으로, "제품 데이터"와 "훈련 방법"이라는 두 가지 요소는 최종 구현 효과에 더 중요합니다.

FancyTech에서는 방대한 3D 학습 데이터 축적을 전제로 모델의 2D 콘텐츠 생성을 안내하는 공간 지능이라는 아이디어를 도입했습니다. 특히, 이미지 콘텐츠 생성에서 팀은 제품의 복원을 보장하기 위해 "멀티 모달 기능 장치"를 제안하고, 생성 시 제품과 배경의 자연스러운 통합을 보장하기 위해 특수 데이터 수집을 사용했습니다. 영상 콘텐츠, 팀 영상 생성의 기본 링크를 재구성하고 프레임워크를 방향성 있게 설계했으며 데이터 엔지니어링을 수행하여 제품 중심의 영상 생성을 달성했습니다.

True Dimensionality Reduction Strike: "공간 지능"은 어떻게 2D 콘텐츠 생성을 안내합니까?

많은 시각적 생성 제품이 만족스럽지 못한 핵심 이유는 현재의 이미지 및 비디오 생성 모델이 2D 훈련 데이터를 기반으로 학습하고 실제 물리적 세계를 이해하지 못하는 경우가 많기 때문입니다.

이것은 현장에서 합의에 도달했으며, 일부 연구자들은 자기회귀 학습 패러다임 하에서 모델의 세상에 대한 이해가 항상 얕다고 믿기까지 합니다.

그러나 상업용 영상 생성의 세분화 작업에서는 모델의 3D 물리적 세계에 대한 이해를 높이고 2D 콘텐츠를 더 잘 생성하는 것이 완전히 불가능한 것은 아닙니다.

FancyTech은 "공간 지능" 분야의 연구 아이디어를 시각적 생성 모델 구축으로 전환했습니다. 일반적인 생성 모델과 달리, 공간 지능의 개념은 다수의 센서에서 얻은 원본 신호로부터 학습하고, 센서에서 얻은 원본 신호를 정확하게 보정하여 모델이 데이터를 인식하고 이해할 수 있는 능력을 부여하는 것입니다. 현실 세계.

그래서 팬시테크는 기존 스튜디오 촬영 대신 라이더 스캐닝을 사용하고, 제품 통합 전후의 차이를 반영한 고품질 3D 데이터 쌍을 대량 축적하고, 3D 포인트 클라우드 데이터와 2D 데이터를 모델 훈련 데이터로 결합합니다. 현실 세계에 대한 모델 이해를 향상시킵니다.

우리는 시각적 콘텐츠 생성에서 빛과 그림자 효과를 형성하는 것이 매우 어려운 작업이라는 것을 알고 있습니다. 조명, 발광체, 역광, 광점 등의 요소는 그림의 공간적 레이어링을 더욱 강력하게 만들 수 있지만 이는 생성 모델에서는 이해하기 어려운 '지식 포인트'입니다.

자연광과 그림자 데이터를 최대한 많이 수집하기 위해 FancyTech은 각 환경에서 밝기와 색온도를 조절할 수 있는 수십 개의 조명을 구축했습니다. 즉, 방대한 데이터의 각 쌍에 여러 개의 조명과 다양한 밝기를 중첩할 수 있으며, 색온도의 변화.

수직형 모델로 AIGC 상용화를 선도하는 팬시테크의 기술 경로는 무엇인가?

이 고강도 데이터 수집은 실제 촬영 장면의 조명을 시뮬레이션하여 전자상거래 장면의 특성에 더욱 부합합니다.

수직형 모델로 AIGC 상용화를 선도하는 팬시테크의 기술 경로는 무엇인가?

FancyTech은 고품질 3D 데이터 축적과 결합하여 알고리즘 프레임워크에서 일련의 혁신을 이루었습니다. 공간 알고리즘과 이미지 및 비디오 알고리즘을 유기적으로 결합하여 모델이 핵심 개체와 환경 간의 상호 작용을 더 잘 이해할 수 있도록 합니다. .

훈련 과정에서 모델은 물리적 세계에 대한 이해를 통해 어느 정도 "발현"할 수 있으며, 3차원 공간, 깊이, 빛의 반사 및 굴절, 빛 작동 결과에 대한 더 깊은 이해를 갖게 됩니다. 다양한 매체와 다양한 재료를 인식하여 최종적으로 생성된 결과에서 제품의 "강력한 감소"와 "과융합"을 달성했습니다.

강한 환원과 초융합의 알고리즘 혁신은 무엇인가요?

일반적인 제품 장면 이미지 생성 작업의 경우 현재 주류 방식은 주로 텍스처를 사용하여 제품 부분의 복원을 보장한 후 Inpainting 기술을 기반으로 이미지 장면 편집을 구현합니다. 사용자는 변경이 필요한 영역을 선택하고 Prompt에 진입하거나 제품 장면 생성을 안내하는 참고 이미지를 제공합니다. 이 방법의 융합 효과는 더 좋지만 장면 생성 결과의 제어 가능성이 높지 않다는 단점이 있습니다. 예를 들어 명확하지 않거나 너무 단순하며 단일 출력의 높은 가용성을 보장할 수 없습니다.

현재 방법으로는 해결할 수 없는 문제에 대응하기 위해 FancyTech에서는 다차원으로 제품 특징을 추출한 후 이러한 특징을 사용하여 통합 장면 그래프를 생성하는 독자적인 "다중 모드 특징 생성기"를 제안합니다.

수직형 모델로 AIGC 상용화를 선도하는 팬시테크의 기술 경로는 무엇인가?

특징 추출 작업은 "글로벌 기능"과 "로컬 기능"으로 나눌 수 있습니다. 글로벌 기능에는 제품의 윤곽선, 색상 및 기타 요소가 포함되며, 로컬 기능에는 제품 세부 정보가 포함됩니다. 그래프 신경망 추출을 사용하여 어디서나. 그래프 신경망의 가장 큰 장점 중 하나는 제품 내 각 핵심 픽셀의 정보와 핵심 픽셀 간의 관계를 추출할 수 있고, 제품 내부의 디테일 복원력을 향상시킬 수 있다는 점입니다.

유연한 소재 제품의 콘텐츠 생성에서 이 방법으로 얻은 효과가 크게 향상됩니다.

이미지와 비교하여 동영상 생성에는 제품 자체의 모션 제어와 빛과 그림자의 변화도 포함됩니다. 그것은 가져옵니다. 일반 비디오 생성 모델의 경우 비디오의 특정 부분을 독립적으로 보호할 수 없다는 어려움이 있습니다. 이 문제를 해결하기 위해 FancyTech에서는 작업을 "제품 동작 생성"과 "비디오 장면 통합"이라는 두 가지 부문으로 나누었습니다.

첫 번째 단계에서 FancyTech은 화면 내 제품의 움직임을 제어하기 위한 몇 가지 타겟 모션 계획 솔루션을 설계했습니다. 이는 비디오의 각 프레임에서 제품을 미리 "고정"하는 것과 같습니다.
단계; 2, 제어 모듈을 통해 제어 가능한 비디오 생성을 달성합니다. 제어 모듈은 유연한 설계를 채택하고 U-net, DiT 등 다양한 아키텍처와 호환되므로 확장 및 최적화가 쉽습니다.

데이터 수준에서는 FancyTech의 고유한 제품 데이터 리소스를 사용하여 제어 교육 및 제품 보호를 제공하는 것 외에도 장면 일반화 기능을 보장하기 위해 여러 오픈 소스 데이터 세트도 추가됩니다. 훈련 계획은 비교 학습과 과정 학습을 결합하여 궁극적으로 물품 보호 효과를 달성합니다.

AIGC 시대의 배당금

수직 모델에서 시작하여 보다 평범한 사람들을 향해 나아가자

보편적이든 수직적이든 두 노선의 종착점은 상용화입니다.

FancyTech 수직 모델 구현의 가장 직접적인 수혜자는 브랜드입니다. 과거에는 광고 영상의 제작 주기가 기획, 촬영, 편집까지 몇 주가 소요될 수 있었습니다. 하지만 AIGC 시대에는 이런 광고 영상을 만드는 데 10분밖에 걸리지 않고, 비용도 원래 비용의 5분의 1 수준에 불과하다.

FancyTech은 방대한 고유 데이터와 업계 노하우를 바탕으로 수직형 모델의 장점을 통해 국내외에서 폭넓은 인지도를 얻었으며, 한국 파트너와 계약을 맺고 Lazada와 협력을 시작했습니다. 동남아시아의 유명한 전자상거래 플랫폼입니다. 미국에서는 Kate Sommerville, Solawave 등 유럽 지역 브랜드가 선호하며 LVMH 혁신상을 수상했습니다. 고객.

FancyTech는 핵심 수직 모델 외에도 AI 단편 비디오에 대한 풀 링크 자동 게시 및 데이터 피드백 기능을 제공하여 지속적인 제품 판매 성장을 주도합니다.

더 중요한 것은 수직 모델을 통해 일반 대중이 AIGC 기술을 사용하여 생산성을 향상시키는 경로를 시각화할 수 있다는 것입니다. 예를 들어, 전통적인 거리 사진 스튜디오는 FancyTech 제품의 도움으로 전문 장비와 전문가를 추가하지 않고도 간단한 인물 사진 촬영에서 전문가 수준의 상업용 시각 자료 제작으로 비즈니스 전환을 완료할 수 있습니다.