Huoshan Voice TTS의 기술력은 국가검사검역센터로부터 MOS 점수 4.64점으로 인증받았습니다.
최근 볼케이노엔진 음성합성 제품은 국가음성영상인식제품품질검사시험센터(이하 'AI 국가검사원')로부터 음성합성 강화검사 및 시험인증서를 획득했으며, 음성 합성의 기본 요구 사항과 확장을 다루는 요구 사항은 AI 국가 검사 센터의 최고 수준 표준에 도달했습니다. 이 평가는 중국어, 다국어, 다국어, 혼합 언어, 다음색 및 개인화 측면에서 수행됩니다. 제품 기술 지원 팀인 Volcano Voice 팀은 평가 후 풍부한 사운드 라이브러리를 제공합니다. MOS 등급은 업계 최고 수준인 4.64점에 도달할 수 있습니다.
인공지능 분야 국내 최초의 품질 검사 시스템이자 국내 유일의 음성·영상 제품 품질 검사 및 시험 기관으로 AI 국가검사원은 국민건강증진에 최선을 다해 왔습니다. 지능형 음성 산업이 발전합니다. 이번에 AI 국가검사센터로부터 권위 있는 인증을 획득한 것은 Huoshan Voice의 음성 합성 기술 역량이 업계 최고 수준에 도달했음을 충분히 입증합니다.
화산 음성 합성 효과를 느껴보세요: https://www.php.cn/link/8e0ce414531179ae9b7f60e20351ee8b
더 많은 사운드 경험: https://www.php.cn/link/a1ada9947e0d683b4625f94c74104d73
오랫동안 Huoshan Voice는 ByteDance의 주요 비즈니스 라인과 Volcano Engine ToB 산업 및 혁신을 위한 산업 서비스를 제공해 왔습니다. 최고의 AI 음성 기술 역량과 탁월한 풀스택 음성 제품 솔루션을 제공합니다. 현재 팀의 음성 인식 및 음성 합성은 오디오 및 비디오, 오디오 읽기, 음성 상호 작용, 게임, 광고 및 기타 응용 시나리오를 포함하여 여러 언어와 방언을 다루며 Douyin, Jianying, Feishu, Tomato Novels, Pico 등 핵심 사업은 선도적인 음성 기능을 제공합니다.본 리뷰에 참여한 Volcano Engine 음성 합성 제품
은 Volcano Voice 팀이 독자적으로 개발한 것으로 업계 최고의 생성 신경망 기술을 사용한 것으로 파악됩니다. 주로 프론트엔드 텍스트 분석, 음향 분석으로 구성됩니다. 모델 및 보코더 모듈 구성, 자세한 소개는 다음과 같습니다.
- 프런트 엔드 텍스트 분석: 주로 텍스트 정규화(예: 숫자를 연도 읽기로 변환, 숫자 읽기 등) 등의 명료성을 담당합니다. 음성 변환(예: 중국어 음성 표기법, 특히 다성 단어 문제 해결을 위한), 단어 분할 및 운율 예측 등
- 현재 Huoshan Voice 팀은 다중 작업 모델과 신경망 정규화를 사용하여 동시에 12개의 주요 소수 언어를 지원하고 놀라운 결과를 얻었습니다. 음향모델 : 언어적 특징부터 음향적 특징까지 모델링을 주로 담당합니다. 데이터에 따르면 Huoshan Voice TTS의 백엔드 정확도는 99.90%에 달할 수 있습니다. 동시에, 모델은 다양한 감정과 스타일의 세련된 제어, 서로 다른 음색 간의 스타일 전송, 단일 언어의 훈련 데이터만을 사용하여 다국어 합성 효과를 달성할 수도 있습니다.
- 보코더 모듈: 주로 음향 특징을 오디오 신호로 모델링하는 역할을 담당합니다. 이제 Volcano Voice 팀은 적대적 신경망 모델링을 기반으로 최대 99.95%의 정확도를 갖춘 보코더를 자체 개발했습니다. 경량 모델 설계 및 엔지니어링 최적화를 통해 클라우드의 실시간 속도는 백 번.
- Volcano Engine 음성 합성 제품은 실제적이고 자연스러운 소리를 내며 생생한 해석과 다양한 스타일을 가지고 있으며 동시에 실제 사람의 리듬을 세밀하게 복원하고 웃음과 같은 다양한 보조 언어 현상을 구현합니다. , 사람들에게 몰입형 청취 경험을 제공합니다. 최근 볼케이노 보이스팀이 공개한 초자연적 대화 음성 합성 기술이 기존 TTS에 비해 모달 입자, 흡입음, 머뭇거림 중 멈춤, 발음 연장 등 세세한 부분까지 완벽하게 재현할 수 있으며, 1/1만 있으면 된다. 기존 사운드 라이브러리 4개. 또한, 이전에 인터넷에서 유행했던
데이터에 대한 기존 음성 합성 기술의 높은 임계값 요구 사항과 달리 Volcano 음성 음색 재현 기술은 기존 방식의 데이터 양의 0.3%만 필요합니다. 일반인은 비교적 조용한 개방형 환경에서 2분 이상 녹음할 수 있습니다. 즉, 음색 공간 모델링의 표준을 충족하고 편리하고 효율적인 독점적인 음색 AI 모델을 생성할 수 있습니다. 현재 Huoshan Voice는 수년간 연마한 음성 기술 역량을 Volcano 엔진을 통해 시장에 출시하고 외부 기업에 공개할 예정입니다. 자동차, 금융, 오디오 읽기, 비디오 등 다양한 응용 시나리오를 다루었습니다. 더빙 등을 진행하며 Hezhong Automobile 및 Book Chasing Artifact를 지원해 왔습니다. 업계의 많은 선두 기업이 AI 음성 기능의 적용 및 확장을 실현했습니다 앞으로도 Huoshan Voice는 최첨단 기술의 효율적인 조합을 계속해서 모색할 것입니다. 기술 및 비즈니스 시나리오를 연구하고 사용자 경험과 비즈니스 성장에 혁신적인 에너지를 지속적으로 주입하여 더 큰 가치를 달성합니다.
위 내용은 Huoshan Voice TTS의 기술력은 국가검사검역센터로부터 MOS 점수 4.64점으로 인증받았습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











Volcano Engine의 Tan Dai 사장은 대형 모델을 구현하려는 기업은 모델 효율성, 추론 비용, 구현 어려움이라는 세 가지 주요 과제에 직면하게 된다고 말했습니다. 복잡한 문제를 해결하기 위한 지원으로 좋은 기본 대형 모델이 있어야 하며, 서비스를 통해 대규모 모델을 널리 사용할 수 있으며 기업이 시나리오를 구현하는 데 더 많은 도구, 플랫폼 및 애플리케이션이 필요합니다. ——Tan Dai, Huoshan Engine 01 사장. 대형 빈백 모델이 출시되어 많이 사용되고 있습니다. 모델 효과를 연마하는 것은 AI 구현에 있어 가장 중요한 과제입니다. Tan Dai는 좋은 모델은 많은 양의 사용을 통해서만 연마될 수 있다고 지적했습니다. 현재 Doubao 모델은 매일 1,200억 개의 텍스트 토큰을 처리하고 3,000만 개의 이미지를 생성합니다. 기업이 대규모 모델 시나리오를 구현하는 데 도움을 주기 위해 ByteDance가 독자적으로 개발한 beanbao 대규모 모델이 화산을 통해 출시됩니다.

1년 이상의 개발 끝에 AIGC는 점차 텍스트 대화와 그림 생성에서 비디오 생성으로 옮겨갔습니다. 4개월 전을 돌이켜보면, 소라의 탄생은 비디오 생성 트랙의 개편을 가져왔고 비디오 제작 분야에서 AIGC의 적용 범위와 깊이를 적극적으로 홍보했습니다. 모두가 대형 모델을 이야기하는 시대에 우리는 한편으로는 영상 생성이 가져오는 시각적 충격에 놀라기도 하고, 다른 한편으로는 구현의 어려움에 직면하기도 합니다. 대형 모델은 여전히 기술 연구 개발부터 적용 실무까지의 도약기에 있고 여전히 실제 비즈니스 시나리오를 기반으로 조정해야 하는 것이 사실이지만 이상과 현실 사이의 거리가 점차 좁아지고 있습니다. 인공지능 기술의 중요한 구현 시나리오로서 마케팅은 많은 기업과 실무자들이 획기적인 발전을 이루고자 하는 방향이 되었습니다. 적절한 방법을 익히면 동영상 마케팅의 창의적인 과정은 다음과 같습니다.

최근 볼케이노엔진 음성합성 제품은 국가음성영상인식제품품질검사센터(이하 'AI 국가검사센터')에서 발행한 음성합성 강화검사 및 시험인증서를 획득했다. 음성 합성의 기본 요구 사항 및 확장 요구 사항은 AI 국가 검사 센터의 최고 수준 표준입니다. 본 평가는 중국어, 다국어, 다언어, 다음조, 개인화 측면에서 진행되며, 제품 기술지원팀인 볼케이노 보이스팀에서 평가 후 풍부한 사운드 라이브러리를 제공합니다. 음색 MOS 점수는 4.64점으로 업계 최고 수준이다. AI국가검사센터는 우리나라 품질검사체계 중 인공지능 분야 최초이자 유일한 국가급 음성영상제품 품질검사 및 시험기관으로서 지능형 제품 홍보에 최선을 다해 왔습니다.

1. 소비자는 제품을 구매하기 전 소셜미디어에서 제품 리뷰를 검색하고 살펴봅니다. 따라서 기업이 소셜 플랫폼에서 제품을 마케팅하는 것이 점점 더 중요해지고 있습니다. 마케팅의 목적은 다음과 같습니다. 제품 판매 촉진 브랜드 이미지 구축 브랜드 인지도 향상 고객 유치 및 유지 궁극적으로 회사의 수익성 향상 대형 모델은 이해력과 생성 능력이 뛰어나며 탐색 및 분석을 통해 사용자에게 개인화된 정보를 제공할 수 있습니다. 사용자 데이터 콘텐츠 추천. 'AIGC 체험스쿨' 네 번째 호에서는 두 게스트가 '마케팅 전환율' 향상에 있어 AIGC 기술의 역할에 대해 심도 있게 논의할 예정이다. 생방송 시간 : 7월 10일 19:00~19:45 생방송 주제 : 사용자 유지, AIGC는 개인화를 통해 전환율을 어떻게 향상시키는가? 프로그램의 네 번째 에피소드에는 중요한 두 사람이 초대되었습니다.

Volcano Engine은 오랫동안 인기 동영상 플랫폼에 음성 인식 기술을 기반으로 한 지능형 동영상 자막 솔루션을 제공해 왔습니다. 쉽게 말하면 AI 기술을 이용해 영상 속 음성과 가사를 자동으로 텍스트로 변환해 영상 제작을 돕는 기능이다. 그러나 플랫폼 사용자의 급속한 성장과 더욱 풍부하고 다양한 언어 유형에 대한 요구 사항으로 인해 전통적으로 사용되는 지도 학습 기술은 점점 병목 현상에 도달하여 팀에 큰 어려움을 안겨주었습니다. 우리 모두 알고 있듯이 전통적인 지도 학습은 특히 대규모 언어의 지속적인 최적화와 작은 언어의 콜드 스타트에서 수동으로 주석을 단 지도 데이터에 크게 의존합니다. 중국어, 중국어, 영어 등 주요 언어를 예로 들면, 비디오 플랫폼은 비즈니스 시나리오에 충분한 음성 데이터를 제공하지만 감독 데이터가 일정 규모에 도달한 후에는 계속해서

국경절 기간 동안 Douyin의 “사투리 한 마디가 고향 출신임을 증명합니다” 캠페인은 전국 네티즌들의 뜨거운 참여를 불러일으켰으며, 이 주제는 조회 수 5천만 건을 돌파하며 Douyin 챌린지 목록 1위에 올랐습니다. 이번 '지방 사투리 대상'은 인터넷에서 빠르게 인기를 끌었으며, 이는 Douyin이 새로 출시한 현지 사투리 자동 번역 기능의 공헌과 불가분의 관계입니다. 제작자는 모국어로 짧은 동영상을 녹화할 때 '자동 자막' 기능을 사용하고 '북경어 자막으로 변환'을 선택하여 동영상 속 사투리 음성을 자동으로 인식하고 방언 내용을 북경어 자막으로 변환했습니다. 다른 지역의 네티즌들이 다양한 "암호화된 표준 중국어" 언어를 쉽게 이해할 수 있도록 해줍니다. 푸젠성 네티즌들은 직접 테스트해 '발음이 다른' 푸젠성 남부 지역도 중국 푸젠성 지역이라고 말했다.

건강+AI=? 중장년층을 위한 뇌 건강 영양 솔루션, 디지털 지능형 영양 및 건강 서비스, AIGC 빅헬스 커뮤니티 솔루션… 기술 에너지와 건강 산업에 힘을 실어주는 혁신적인 솔루션이 곧 등장할 것이며, "건강 + AI =?"에 대한 답이 서서히 떠오르고 있습니다. 12월 26일, Yili Group과 Volcano Engine이 공동 후원하는 '건강 + AI' 생태 혁신 대회가 Shanghai Bosten Network Technology Co., Ltd.와 Zhongke Suzhou Intelligent Computing Technology Research Institute를 포함한 6개의 우승 기업으로 성공적으로 마무리되었습니다. 눈에 띄었다. 한 달 넘게 진행된 대회에서 Yili는 뛰어난 과학기술 기업들과 손을 잡고 AI 기술과 의료 산업의 심층적인 통합을 탐구하며 대회에 대한 기대감을 지속적으로 높이고 있다. '헬스+AI' 생태혁신 공모전

더우인은 7월 3일 저녁 유니버설뮤직 소속사 폴리그램과 손잡고 볼케이노엔진을 통해 초고화질로 복원된 비욘드 라이브 1991 라이프콘서트와 기념콘서트 엄선된 콘텐츠를 생방송해 더욱 눈길을 끌었다. 조회수가 1억 4천만 회 이상입니다. 비욘드(Beyond)는 1983년에 결성된 록 밴드입니다. 광둥 음악의 부흥과 함께 비욘드 밴드의 이름은 한 시대의 문화적 각인이 되었습니다. "Beyond Live 1991"은 Beyond가 Hung Hom Stadium에서 개최한 첫 번째 콘서트였습니다. 이후 PolyGram이 출시한 DVD는 1990년대에는 거의 찾기 어려웠습니다. 그로부터 31년이 흐른 지금, 이번 콘서트는 여러 세대의 팬들에게 음악적 깨달음이자 청춘의 추억이 되었습니다. 촬영 장비, 저장 매체 및
