2022년 8월, '스페이스 오페라'라는 디지털 그림이 우승을 차지하며 큰 논란을 일으켰습니다. AIGC(AI 생성 콘텐츠)가 대중의 눈에 자주 등장했습니다. 같은 해 11월 30일 OpenAI가 출시한 채팅 로봇 모델인 ChatGPT는 무료로 대중에게 공개되어 코드 변경, 지식에 대한 질문, 삶에 대한 질문 등 다양하고 화려한 질문을 불러일으켰습니다. .ChatGPT의 '재치'와 '박식함'이 인상적이며 신선합니다.
ChatGPT가 널리 주목받는 이유는 OpenAI가 3세대 GPT 모델을 출시했기 때문입니다. 각 세대의 모델 매개변수는 이전 세대에 비해 10배, 심지어 100배까지 증가했습니다. (Human Feedback Reinforcement Learning) 방법은 인간 언어의 의미를 더 잘 이해할 수 있습니다. 즉 채팅, 기사 작성, 질의 응답, 코드 확인 등에서 인간과 상호 작용할 때 답변을 제공하는 "인간"에 가깝습니다. "진지하게 생각"한 후 신중하게 ".
이런 뜨거운 화제에 직면하여 Huoshan의 음성 및 오디오 합성 알고리즘 연구원인 Stephen은 "최근 AIGC가 인기를 얻은 이유는 AIGC의 단계별 개선과 불가분의 관계에 있습니다. AI가 제작하는 콘텐츠의 품질은 AI가 더 높은 효율성을 촉발시켰고, AIGC는 텍스트 생성, 오디오 생성, 이미지 생성, 비디오 생성 등 다양한 방향을 포함하여 인공지능의 급속한 발전을 촉진할 것입니다.
우리는 AI 그림을 통해 AI의 '상상력'을 감상할 수 있다고 종종 한탄합니다. ChatGPT로 대표되는 AI 질문과 답변은 그 박식함과 답변의 '가독성' 덕분에 이해할 수 있으며, AI 음성 테스트는 실제 사람처럼 내용을 정확하게 이해하고 표현할 수 있는지를 테스트하는 것입니다. 이는 Volcano Voice(ByteDance AI Lab Intelligent Speech와 오디오 팀의 협력에서 흔히 볼 수 있음)와 Tomato Novels에서 생성된 음성입니다. AI 알고리즘을 통해 소설의 모든 텍스트 버전을 직접 들을 수 있으며, "더 스마트하게" 들립니다. 차별화된 음색과 적절한 어조, 소리내어 읽을 때 "드라마 정신"으로 변신하여 "감정, 분노"를 수행합니다. , 슬픔과 기쁨".
AI가 표현력이 있고 말하고 행동할 수 있으려면 먼저 출력된 내용이 잘못 읽히지 않는지 확인해야 하는 것으로 이해되며, 이를 분석하려면 텍스트 분석 모델이 필요합니다. "Tomato Novels에서는 NLP 분야에서 널리 사용되는 Transformer 아키텍처 모델 BERT를 텍스트 분석 프런트엔드로 사용합니다. 주로 정규화 모델(TN)과 신경망 플러스의 다중 작업 프런트엔드 모델을 통해 규칙 혼합은 장기적인 수동 규칙 수정과 결합되어 지속적으로 프런트 엔드의 문장 수준 정확도를 향상시키고 증류, 정량화 및 기타 기술을 통해 컴퓨팅 성능 요구 사항을 줄입니다.”
또한 음성 사운드가 좋아지자 팀은 역할 귀속 및 감정 제어를 달성하기 위해 일반 TTS 프로세스를 기반으로 더 많은 기능 모듈을 추가했습니다. 예를 들어, BERT 구조는 대화 결정과 참조 명확성이라는 두 가지 작업을 모델링하기 위해 역할 귀속에도 사용됩니다. 또한 유사한 구조가 감정 예측에도 사용됩니다. “보통 소설에는 여러 사람이 대화를 나누는 경우가 많으며, 각 화자는 자신만의 다양한 감정을 가지고 있습니다. 음색과 감정을 분리할 수 있다면 합성된 발화의 표현력을 더 잘 제어할 수 있고, 서로 다른 음색과 감정을 더 잘 제어할 수 있습니다. 다양한 감정의 유연한 조합이 매우 중요합니다.”
중요한 점은 AI가 다양한 유형의 소설 텍스트를 이해할 수 있도록 하기 위해 Huoshan Voice도 'AI 텍스트 이해' 모델을 제안하는 데 앞장섰다는 것입니다. , 여러 작업을 수행하는 긴 텍스트 세트입니다. AI 시스템을 이해하세요. 대화 등장인물과 새로운 텍스트를 자동으로 구별하고, 대화에서 표현하고 싶은 감정을 식별하고, 문장 사이의 합리적인 일시 중지를 예측하여 고품질 AI 오디오북의 제작 효율성을 크게 향상시키고 수동 주석 제작 병목 현상을 효과적으로 극복할 수 있습니다. .
"알텍스트 이해" 모델
더 나아가 Volcano Voice 팀은 명확한 발음, 일관된 리듬, 억양의 기복을 기반으로 소리가 Plutchik's Wheel을 따르도록 하는 준지도 학습의 엔드 투 엔드 스타일 제어 음향 모델을 자체 개발했습니다. of Emotions(감정) 감정 유형, 행복, 슬픔, 놀람, 두려움 등 다양한 감정 색상을 표현하며, 원래 감정이 없는 발음에 다중 감정 합성 효과를 주기 위해 감정 이동 방식을 사용합니다. "소리를 통해 감정을 표현하는 것"을 더 잘 표현하고, 인간 언어에서 흔히 발생하는 "파언어" 현상을 꼼꼼하게 모델링하고 복원하며, 오디오북에서 흔히 볼 수 있는 억양의 멈춤, 질문, 웃음과 울음, 다양한 한숨 소리를 구현합니다. 외침 등을 통해 텍스트 내용을 훌륭하게 해석할 수 있습니다.
"최종 AI 음성이 다양한 상황에서 다양한 캐릭터의 효과를 반영할 수 있도록 실제 방송에 가까운 효과가 우리가 추구해 온 목표입니다. 앞으로는 텍스트를 통해 달성하고자 합니다. -음성 합동 훈련 대형 모델은 서로 다른 맥락의 텍스트 표현을 추출하고 문자 식별 성공률을 향상시킵니다. 대형 다자 음성 합성 모델을 사용하면 감정, 스타일, 음색 및 억양과 같은 속성이 분리되어 자유롭게 전달될 수 있습니다. ;동시에 텍스트 설명에 따라 생성됩니다. 오디오북을 들을 때 배경음을 일치시켜 몰입감을 높입니다.”
더 많은 사례에서 우리는 사람들은 텍스트와 이미지 외에도 음성 상호 작용을 사용합니다. 예를 들어, 사람들은 집에서 음성 상호 작용을 통해 다양한 가전 제품을 제어하기 위해 명령을 내리는 경우가 많으며, 차량 내 음성 지원을 사용하여 내비게이션을 완료합니다. 레스토랑 예약 등 사무실에서 자주 사용되는 회의 도우미는 모두 콘텐츠 품질과 생산 효율성을 향상시키는 지능형 음성 솔루션입니다.
이와 관련하여 Huoshan Voice 팀은 예를 들어 UGC 그룹 비디오 생성의 무작위 녹음 및 제어할 수 없는 오디오 품질과 같은 실용적인 요인에 직면하여 짧은 비디오가 전국적인 유행이 된 오늘날과 관련하여 더 혁신적인 시도를 했습니다. , Huoshan Voice 지능형 자막 솔루션을 통해 자동으로 영상 제작에 자막을 추가합니다. 중국어, 영어, 광둥어 등 일반적으로 사용되는 언어 및 방언과 호환될 뿐만 아니라 노래도 인식할 수 있습니다.
이와 관련하여 Huoshan Speech and Audio Understanding의 제품 관리자인 W는 다음과 같이 덧붙였습니다. “비디오 콘텐츠 제작에서 자막을 추가하는 전통적인 방식에서는 제작자가 비디오를 여러 번 받아쓰고 교정해야 하며 정렬도 필요합니다. 시작 시간에 따라 프레임별로, 종종 10분짜리 비디오를 완성하려면 몇 시간의 후반 작업 시간이 필요합니다. 또한 자막 팀은 다국어에 능숙하고 자막 파일 제작에 익숙해야 합니다. 영상 제작에 소요되는 전체 비용이 매우 높기 때문에 오늘날의 짧은 영상 시대에 개인 창작자나 단순히 영상을 제작하는 것은 매우 어려운 일입니다.”
자신의 삶을 기록하는 사용자에게는 손이 닿지 않는 일이었습니다. 창작의 문턱을 넘어 모든 창작자가 쉽게 고품질의 비디오 콘텐츠를 제작하고 아름다운 삶을 기록할 수 있도록 Huoshan Voice는 지능형 자막 솔루션을 출시했습니다. 사투리와 노래를 효율적으로 인식할 수 있을 뿐만 아니라, 사용자 제작 콘텐츠의 오디오 특성과 영역 분석을 통해 언어가 혼합되고 말하기와 노래가 혼합되는 장면에서도 좋은 인식 효과를 나타낼 수 있으며, 및 알고리즘 최적화를 통해 소음 장면, 여러 사람이 대화하는 등 복잡한 장면에서 음성 인식 성능이 크게 향상될 수 있습니다. 특히, 모바일 사용자는 기능 응답 시간에 대한 요구 사항이 높습니다. 즉, 자막이 빠르고 정확하기를 원합니다. 이를 위해 Huoshan Voice는 1분짜리 비디오를 완성할 수 있도록 많은 엔지니어링 최적화와 전략을 세웠습니다. 단 2~3초.
우리 모두 알고 있듯이, 동일한 콘텐츠에 직면했을 때 인간의 오디오 정보 획득 효율은 텍스트 정보에 비해 훨씬 낮습니다. 음성을 녹음하여 사용할 수 있는 텍스트로 변환하는 핵심은 음성 인식에 있습니다. Huoshan Voice가 출시한 "천 단어 전송" "텍스트는 천 단어 가치가 있습니다" 실시간 자막 솔루션은 "음성 인식 + 음성 번역"의 AI 링크를 사용하여 자동으로 국가 간 및 언어 간 의사소통을 원활하게 만듭니다. 회의 기록 및 회의록 생성을 통해 대폭 개선 가능 참가자의 업무 효율성을 높이고 회의 후 정리 및 회의 중 녹음 작업량을 대폭 줄여줍니다. 기술의 급속한 발전으로 인해 AI 음성은 인간과 컴퓨터의 상호 작용을 위한 정보 출력 채널을 늘리고 정보 획득 효율성을 향상시킬 것으로 예상됩니다.
Huoshan Voice의 음성 상호 작용 제품 관리자인 Y에 따르면, AIGC가 가져온 품질 및 효율성 향상 문제와 마찬가지로 AIGC는 대화 요약을 실현할 수 있는 지능형 음성 상호 작용의 보조 시나리오에서 구현될 것으로 예상됩니다. , 음성 추천, 감정 회유, 작업 지시 요약 등 고객 서비스 기능은 생산 효율성을 향상시키는 보조 솔루션을 제공합니다. 예를 들어, 인간-기계 대화가 트리거되어 인간에게 전달되면 인간-기계 대화의 대화 요약이 자동으로 생성되어 인간이 사용자의 요구를 더 빨리 이해하고 채팅 기록을 확인하기 위해 갑작스러운 중단을 피할 수 있습니다. AIGC 기능을 활용해 상대방과 대화하는 동안 사용자의 말을 이해해 고객 서비스 참고사항에 대한 답변을 생성해 고객 서비스 대화의 효율성을 높인다.
"또한 비정상적인 상황을 처리하는 역할도 할 수 있습니다. 예를 들어 사용자가 짜증나거나 화가 났을 때 AICG는 고객 서비스 참조, 서비스 만족도 향상 등을 위해 자동으로 진정 단어를 생성할 수 있습니다. AIGC 기술이 계속 성숙해짐에 따라 가상의 디지털 휴먼이 노동력의 일부를 대체하고 인간과 기계가 공생하는 방식으로 고객에게 직접 서비스를 제공함으로써 인건비를 크게 절감하고 서비스 효율성을 향상시킬 수도 있다”고 말했다. 오늘날의 AIGC는 아직 이를 수행할 수 없다는 것이 분명합니다. 진정한 독립적인 콘텐츠 제작을 위해서는 아직 인간이 콘텐츠 제작 효율성을 향상하도록 돕는 단계에 있습니다.
ChatGPT가 제공하는 놀라운 답변이든 토마토 소설에서 AI가 수행하는 감동적인 목소리이든 머스크조차도 놀랐습니다. 우리는 위험할 정도로 강력한 인공 지능에 가깝습니다. 지능 지능은 멀리 있지 않습니다. 이는 AIGC 시대가 다가오고 있음을 시사하는 것으로 보인다.
그러나 수년간 AI 알고리즘의 최전선에서 활동해온 Huoshan 음성 및 오디오 합성 알고리즘 연구원인 Stephen은 "AIGC 뒤에 있는 기술은 다중 작업을 수행할 수 있습니다. -단지 단일 양식이 아닌 미래의 양식 융합." 인간의 콘텐츠 창작 과정과 같은 생성 작업은 단순히 단일 형태의 지식을 기반으로 새로운 콘텐츠를 구상하는 것이 아닙니다. 예를 들어 대화형 디지털 사람을 생성하는 작업에서 , 현재 주요 작업은 얼굴, 표정, 자세 및 행동의 개별 예측입니다. 향후에는 생성 모델을 사용하여 이러한 특징을 예측하여 특징 간의 시너지를 향상하고 별도의 녹음으로 인한 작업량을 줄일 수 있습니다. 표현은 말하는 사용자의 표정, 말투, 몸의 움직임을 기반으로 생성된 이미지와 사운드에 상응하는 피드백을 제공합니다. , 한 가지 무시할 수 없는 점은 AIGC가 현재 비용, 저작권, 실용성 측면에서 많은 문제를 안고 있다는 점입니다. 그는 현재 AIGC의 비용이 여전히 높다고 생각합니다. 가장 분명한 징후는 고품질 텍스트, 이미지 및 비디오 생성 기술 등이 모두 훈련 및 추론 단계에서 많은 양의 하드웨어 리소스를 소비한다는 것입니다. 이는 대학과 연구기관의 참여를 어렵게 하며, 이는 산업 발전 촉진에 도움이 되지 않습니다.
“또한 저작권 보호 측면에서 현재 생성된 콘텐츠 중 일부가 불법적인 행위에 사용될 수 있으므로 콘텐츠에 이미지, 오디오 워터마크 등 저작권 보호를 추가하는 것이 점점 더 중요해지고 있습니다. 다만, 가입 과정에서 커팅, 믹싱 등의 후처리 방법으로 인해 워터마크가 무효화되지 않도록 고려해야 합니다.” 상당히 개선되었지만 콘텐츠를 구현하려면 여전히 많은 수동 심사가 필요합니다. 긴 텍스트 장을 기반으로 하는 상황 관련 만화와 비디오를 구현하고 생성하려면 장면의 연속성을 보장할 뿐만 아니라 변경 사항도 반영해야 합니다. 캐릭터에 있어서는 아직 해결해야 할 기술적 문제가 많다.
새로운 콘텐츠 제작 방식인 AIGC가 주목받는 이유는 콘텐츠, 특히 인터넷 플랫폼에 대한 각계각층의 열망, 콘텐츠를 어떻게 효율적으로 이해하고, 생성하고, 상호작용하고, 유통시킬 수 있는지를 충분히 보여준다고 생각할 수 있습니다. . 이는 오늘날의 AI 기술에 기회와 도전을 가져옵니다.
위 내용은 AI 창작물은 놀랍지만 여전히 극복해야 할 과제가 많습니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!