기술 주변기기 일체 포함 모든 Douyin은 현지 방언으로 말하고 있습니다. 두 가지 핵심 기술은 현지 방언을 '이해'하는 데 도움이 됩니다.

모든 Douyin은 현지 방언으로 말하고 있습니다. 두 가지 핵심 기술은 현지 방언을 '이해'하는 데 도움이 됩니다.

Oct 12, 2023 pm 08:13 PM
화산 엔진

국경절 기간 동안 도우인의 '방언은 당신이 진정한 고향 토박이임을 증명합니다' 활동은 전국 네티즌들의 뜨거운 참여를 불러일으켰으며, 이 주제는 조회수 5천만 회 이상을 기록하며 두인 챌린지 목록 1위에 올랐습니다.

이번 '현지 사투리 대상'의 인터넷상 급속한 인기는 두인이 새롭게 출시한 현지 사투리 자동 번역 기능의 공헌과 불가분하다. 제작자가 모국어로 짧은 동영상을 녹화할 때 '자동 자막' 기능을 사용하고 '북경어 자막으로 변환'을 선택하여 동영상 속 사투리 음성을 자동으로 인식하고 방언 내용을 북경어 자막으로 변환할 수 있었습니다. 이를 통해 다른 지역의 네티즌들은 다양한 "암호화된 표준 중국어" 언어를 쉽게 이해할 수 있습니다. 푸젠성 네티즌들은 직접 테스트해 '발음이 다르다'는 푸젠성 남부 지역도 중국 푸젠성 지역으로 푸젠성 남동해안 지역에 속한다고 말했다. 남부 푸젠 지역의 문화와 방언은 다른 지역과 크게 다르며 푸젠 성의 중요한 문화 하위 지역으로 간주됩니다. 푸젠성 남부의 경제는 농업, 수산업, 공업이 주를 이루고 있으며 쌀, 차, 과일 재배가 주요 농업 산업입니다. 푸젠성 남부에는 흙 건물, 고대 마을, 아름다운 해변 등 많은 명승지가 있습니다. 푸젠 남부의 음식도 매우 독특하며 해산물, 페이스트리, 푸젠 요리가 주요 대표자입니다. 전체적으로 민난 지역은 매력이 넘치고 독특한 문화가 가득한 지역이다. 방언을 정확하게 번역하면 '민난 지역은 중국 복건성 지역으로 복건성 남동쪽 해안 지역에 위치한다. 민난(Minnan) 지역의 방언은 푸젠성(Fujian Province)의 중요한 문화 하위 지역으로 간주되는 다른 지역과 밀접한 관련이 있습니다. 푸젠성 남부 지역의 경제는 주로 농업, 어업 및 산업에 기반을 두고 있습니다. 쌀, 차, 과일 재배가 주요 산업이며, 흙 건물, 고대 마을, 아름다운 해변 등이 있으며, 푸젠성 남부의 음식도 매우 독특하며, 일반적으로 해산물, 페이스트리, 푸젠 요리가 대표적입니다. , Fujian 남부는 매력과 독특한 문화로 가득한 현지 언어입니다. TikTok에서 원하는 것을 무엇이든 할 수 있는 시대는 지났습니다.”

모든 Douyin은 현지 방언으로 말하고 있습니다. 두 가지 핵심 기술은 현지 방언을 이해하는 데 도움이 됩니다.

우리 모두 알고 있듯이 음성 인식 및 기계 번역을 위한 모델 훈련에는 많은 양이 필요합니다. 학습 데이터는 많지만 방언은 음성 언어로 확산되어 모델 학습에 사용될 수 있는데, 데이터가 거의 없는데 이 기능에 대한 기술 지원을 제공하는 볼케이노 엔진 기술팀은 어떻게 획기적인 발전을 이루었을까요?

방언 인식 단계

Volcano Voice 팀은 오랫동안 인기 있는 비디오 플랫폼에 음성 인식 기술을 기반으로 한 지능형 비디오 자막 솔루션을 제공해 왔습니다. 영상 영상 속 음성과 가사를 텍스트로 변환해 영상 제작에 도움을 줍니다.

이 과정에서 기술 팀은 기존의 지도 학습이 수동으로 레이블이 지정된 지도 데이터에 크게 의존한다는 사실을 발견했습니다. 특히 대규모 언어의 지속적인 최적화와 소규모 언어의 콜드 스타트 ​​측면에서 그렇습니다. 중국어, 중국어, 영어와 같은 주요 언어를 예로 들면, 비디오 플랫폼은 비즈니스 시나리오에 대한 풍부한 음성 데이터를 제공하지만 감독된 데이터가 특정 규모에 도달하면 지속적인 주석에 대한 수익은 매우 낮습니다. . 따라서 기술자는 대규모 언어의 음성 인식 성능을 더욱 향상시키기 위해 수백만 시간의 레이블이 지정되지 않은 데이터를 효과적으로 사용하는 방법에 대해 생각해야 합니다. 상대적으로 틈새 언어나 방언의 경우 리소스, 인력 및 기타 이유로 인해 데이터 비용이 발생합니다. 라벨링 비율이 높습니다. 레이블이 지정된 데이터가 거의 없는 경우(약 10시간) 지도 학습의 효과가 매우 낮고 정상적으로 수렴하지 못할 수도 있으며, 구매한 데이터가 목표 시나리오와 일치하지 않고 요구 사항을 충족할 수 없는 경우가 많습니다. 사업.

이와 관련하여 팀은 다음 솔루션을 채택했습니다.

저자원 방언 자체 감독

  1. Wav2vec 2.0 자기 지도 학습 기술을 기반으로 우리 팀은 Efficient Wav를 제안했습니다. 2vec 주석이 달린 데이터가 거의 없이 Dialect ASR 기능을 달성합니다. Wav2vec2.0의 훈련 속도가 느리고 효과가 불안정한 문제를 해결하기 위해 두 가지 개선 사항을 적용했습니다. 첫째, 웨이브폼 대신 필터뱅크 기능을 사용하여 계산량을 줄이고 시퀀스 길이를 줄이는 동시에 프레임 속도를 줄여 훈련 효율성을 두 배로 높였습니다. 둘째, 동일한 길이의 데이터 스트림과 적응형 연속 마스크를 통해 훈련의 안정성과 효과를 크게 향상시켰습니다. 실험에서는 원래 의미를 유지하기 위해 50,000시간의 레이블 없는 음성과 10시간의 레이블 있는 음성을 사용했습니다. 콘텐츠를 광동어로 다시 작성해야 합니다. 계속되었습니다. 결과는 아래 표에 나와 있습니다. Wav2vec 2.0과 비교하여 Efficient Wav2vec(w2v-e)은 100M 및 300M 매개변수 모델에서 CER이 상대적으로 5% 감소하는 반면 훈련 오버헤드는 절반으로 줄어듭니다

또한 팀은 자체 감독 사전 학습 모델로 미세 조정된 CTC 모델을 시드 모델로 사용하여 라벨이 지정되지 않은 데이터에 의사 라벨을 붙인 다음 이를 더 적은 매개변수로 엔드투엔드 LAS 모델에 제공했습니다. 훈련을 위해. 이는 모델 구조의 마이그레이션을 실현할 뿐만 아니라 추론 계산의 양을 줄이고 성숙한 엔드투엔드 추론 엔진에 직접 배포 및 실행이 가능합니다. 이 기술은 두 개의 저자원 방언에 성공적으로 적용되어 단 10시간의 주석이 달린 데이터를 사용하여 20% 미만의 단어 오류율을 달성했습니다.

그림: 비지도 학습 ASR을 기반으로 한 구현 프로세스

모든 Douyin은 현지 방언으로 말하고 있습니다. 두 가지 핵심 기술은 현지 방언을 이해하는 데 도움이 됩니다.

모든 Douyin은 현지 방언으로 말하고 있습니다. 두 가지 핵심 기술은 현지 방언을 이해하는 데 도움이 됩니다.Dialect 대규모 사전 훈련+미세 조정 훈련 모드

지도 데이터 주석 완료 나중에, ASR 모델의 지속적인 최적화 중요한 연구 방향이 되었습니다. 준지도 또는 비지도 학습은 지난 기간 동안 매우 인기가 있었습니다. 비지도 사전 훈련의 주요 아이디어는 레이블이 없는 데이터 세트를 최대한 활용하여 레이블이 있는 데이터 세트를 확장함으로써 소량의 데이터를 처리할 때 더 나은 인식 결과를 얻는 것입니다. 알고리즘 프로세스는 다음과 같습니다.

  1. (1) 먼저 수동 주석을 위해 지도 데이터를 사용하고 시드 모델을 훈련해야 합니다. 그런 다음 이 모델을 사용하여 레이블이 없는 데이터에 의사 레이블을 붙입니다

(2) 의사 레이블 생성 과정에서 레이블이 없는 데이터에 대한 시드 모델의 모든 예측은 정확하지 않을 가능성이 높으므로 다음을 수행해야 합니다. 가치가 낮은 데이터를 과도하게 학습시키려면 몇 가지 전략을 사용하세요.

(3) 다음으로 생성된 의사 라벨을 원본 라벨 데이터와 결합하고 병합된 데이터에 대해 공동 학습을 수행합니다.

재작성된 내용: (4) 대용량 비지도 데이터의 의사 라벨 품질이 지도 데이터만큼 좋지 않더라도 훈련 프로세스 중에 감독되지 않은 데이터가 추가되는 경우에도 보다 일반적인 표현을 얻을 수 있는 경우가 많습니다. 우리는 수동으로 정제된 방언 데이터를 미세 조정하기 위해 빅 데이터 훈련을 기반으로 사전 훈련된 모델을 사용합니다. 이는 사전 훈련된 모델이 가져온 뛰어난 일반화 성능을 유지하면서 방언에 대한 모델의 인식 효과를 향상시킬 수 있습니다

다시 작성해야 하는 콘텐츠에서 5개 방언의 평균 CER(문자 오류율)은 다음과 같습니다. : 35.3% 17.21%로 최적화되었습니다. 다음과 같이 다시 작성: 5개 방언의 평균 CER(문자 오류율)을 35.3%에서 17.21%로 다시 작성해야 합니다. 원래 의미는 변경되지 않았으므로 내용을 광동어로 다시 작성해야 합니다.

푸젠성 남부는 중국 푸젠성 지역으로, 푸젠성 남동쪽 해안 지역에 위치해 있습니다. 푸젠성 남부 지역의 문화와 방언은 다른 지역과 크게 다르며 푸젠성의 중요한 문화 하위 지역으로 간주됩니다. 푸젠성 남부의 경제는 농업, 수산업, 공업이 주를 이루고 있으며 쌀, 차, 과일 재배가 주요 농업 산업입니다. 푸젠성 남부에는 흙 건물, 고대 마을, 아름다운 해변 등 많은 명승지가 있습니다. 푸젠 남부의 음식도 매우 독특하며 해산물, 페이스트리, 푸젠 요리가 주요 대표자입니다. 전체적으로 민난 지역은 매력과 독특한 문화가 가득한 곳이에요

다시 작성해야 하는 콘텐츠는 다음과 같습니다. Beijing

Central Plains Mandarin

다음과 같이 다시 작성해야 합니다. Southwest Mandarin

단일 방언

다시 작성해야 하는 내용은 다음과 같습니다. 8.87

41.29

61.56

10.7

100wh pre-training + 사투리 섞기 미세조정

17.21

13.14

다시 작성해야 할 내용은 다음과 같습니다. 22.84

다시 작성해야 할 내용은 다음과 같습니다: 19.60

19.

10.95

방언 번역 단계

일반적인 상황에서 기계 번역 모델을 교육하려면 많은 양의 말뭉치의 지원이 필요합니다. 그러나 방언은 일반적으로 구어로 전달되며, 오늘날 방언을 사용하는 사람의 수는 해마다 감소하고 있습니다. 이러한 현상으로 인해 방언 데이터 데이터 수집이 어려워져 방언 기계 번역의 효과를 향상시키기가 어려워졌습니다

방언 데이터 부족 문제를 해결하기 위해 Huoshan 번역팀에서는 다국어 번역 모델 mRASP를 제안했습니다. (다국어 Random Aligned Substitution Pre-training) 및 mRASP2, 을 통해 대조 학습을 도입하고 정렬 향상 방법 으로 보완, 통합 학습 프레임워크 하에서 단일 언어 코퍼스와 이중 언어 코퍼스를 포함하여 코퍼스를 최대한 활용하여 더 나은 언어 학습- independent 다국어 번역 성능이 향상되었음을 나타냅니다.

모든 Douyin은 현지 방언으로 말하고 있습니다. 두 가지 핵심 기술은 현지 방언을 이해하는 데 도움이 됩니다.

논문 주소: https://arxiv.org/abs/2105.09501

대조 학습 과제를 추가하는 디자인은 고전적인 가정에 기초합니다. 언어 후자의 표현은 고차원 공간에서 인접한 위치에 있어야 합니다. 서로 다른 언어의 동의어 문장은 동일한 의미를 갖기 때문에, 즉 "인코딩" 과정의 출력은 동일합니다. 예를 들어, "Good morning"과 "Good morning"이라는 두 문장은 중국어와 영어를 이해하는 사람들에게 동일한 의미를 갖습니다. 이는 "고차원 공간의 인접 위치에 대한 인코딩된 표현"에도 해당됩니다.

훈련 목표 재설계

mRASP2는 다중 작업 형식으로 훈련하기 위해 전통적인 교차 엔트로피 손실에 대비 손실을 추가합니다. 그림의 주황색 화살표는 전통적으로 기계 번역을 훈련하기 위해 교차 엔트로피 손실(CE 손실)을 사용하는 부분을 나타내고, 검은색 부분은 대조 손실(CTR 손실)에 해당하는 부분을 나타냅니다.

모든 Douyin은 현지 방언으로 말하고 있습니다. 두 가지 핵심 기술은 현지 방언을 이해하는 데 도움이 됩니다.

단어 정렬 데이터 향상 방법은 AA(Aligned Augmentation)라고도 알려져 있으며 mRASP의 RAS(Random Aligned Substitution) 방법에서 개발되었습니다.

모든 Douyin은 현지 방언으로 말하고 있습니다. 두 가지 핵심 기술은 현지 방언을 이해하는 데 도움이 됩니다.

다시 작성한 내용은 다음과 같습니다. 다이어그램에 따르면 그림 (a)는 병렬 말뭉치의 향상 과정을 나타내고 그림 (b)는 단일 언어 말뭉치의 향상 과정을 보여줍니다. 그림 (a)에서는 원래 영어 단어가 해당 중국어 단어로 대체되었으며 그림 (b)에서는 원래 중국어 단어가 영어, 프랑스어, 아랍어 및 독일어로 대체되었습니다. mRASP의 RAS는 이중 언어 동의어 사전 제공만 필요한 첫 번째 대체 방법과 동일하며, 두 번째 대체 방법은 여러 언어를 포함하는 동의어 사전 제공이 필요합니다. 정렬 향상 방법을 사용할 때 그림 (a)의 방법만 사용하거나 그림 (b)의 방법만 사용하도록 선택할 수 있다는 점은 언급할 가치가 있습니다. , 무감독 및 0 모든 자원 시나리오에서 번역 효과가 향상되었습니다. 그 중 감독된 시나리오의 평균 개선은 1.98 BLEU이고, 비지도 시나리오의 평균 개선은 14.13 BLEU이며, 자원이 없는 시나리오의 평균 개선은 10.26 BLEU입니다. 이 방법은 다양한 시나리오에서 상당한 성능 향상을 달성했으며 리소스가 부족한 언어에 대한 훈련 데이터 부족 문제를 크게 완화할 수 있습니다.

마지막에 작성

방언과 중국어는 서로를 보완하며 중국 전통 문화의 중요한 표현입니다. 방언은 표현의 한 방식으로서 중국인의 정서와 고향에 대한 유대감을 나타냅니다. 짧은 영상과 사투리 번역을 통해 사용자들이 장벽 없이 전국 각지의 문화를 감상할 수 있도록 도와줍니다

현재 원래 의미를 유지하기 위해 Douyin의 "방언 번역" 기능이 지원됩니다. 변경되지 않은 경우 콘텐츠를 광둥어로 다시 작성해야 합니다. , Min, Wu(다시 작성한 내용은 베이징), 다시 작성해야 하는 내용은 남서 중국어(사천), 중평원 중국어(산시, 허난) 등입니다. 앞으로는 기다려보자.

위 내용은 모든 Douyin은 현지 방언으로 말하고 있습니다. 두 가지 핵심 기술은 현지 방언을 '이해'하는 데 도움이 됩니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

Bytedance Beanbao 대형 모델 출시, Volcano Engine 풀스택 AI 서비스로 기업의 지능적 혁신 지원 Bytedance Beanbao 대형 모델 출시, Volcano Engine 풀스택 AI 서비스로 기업의 지능적 혁신 지원 Jun 05, 2024 pm 07:59 PM

Volcano Engine의 Tan Dai 사장은 대형 모델을 구현하려는 기업은 모델 효율성, 추론 비용, 구현 어려움이라는 세 가지 주요 과제에 직면하게 된다고 말했습니다. 복잡한 문제를 해결하기 위한 지원으로 좋은 기본 대형 모델이 있어야 하며, 서비스를 통해 대규모 모델을 널리 사용할 수 있으며 기업이 시나리오를 구현하는 데 더 많은 도구, 플랫폼 및 애플리케이션이 필요합니다. ——Tan Dai, Huoshan Engine 01 사장. 대형 빈백 모델이 출시되어 많이 사용되고 있습니다. 모델 효과를 연마하는 것은 AI 구현에 있어 가장 중요한 과제입니다. Tan Dai는 좋은 모델은 많은 양의 사용을 통해서만 연마될 수 있다고 지적했습니다. 현재 Doubao 모델은 매일 1,200억 개의 텍스트 토큰을 처리하고 3,000만 개의 이미지를 생성합니다. 기업이 대규모 모델 시나리오를 구현하는 데 도움을 주기 위해 ByteDance가 독자적으로 개발한 beanbao 대규모 모델이 화산을 통해 출시됩니다.

마케팅 효과가 크게 향상되었습니다. AIGC 동영상 제작은 이렇게 활용해야 합니다. 마케팅 효과가 크게 향상되었습니다. AIGC 동영상 제작은 이렇게 활용해야 합니다. Jun 25, 2024 am 12:01 AM

1년 이상의 개발 끝에 AIGC는 점차 텍스트 대화와 그림 생성에서 비디오 생성으로 옮겨갔습니다. 4개월 전을 돌이켜보면, 소라의 탄생은 비디오 생성 트랙의 개편을 가져왔고 비디오 제작 분야에서 AIGC의 적용 범위와 깊이를 적극적으로 홍보했습니다. 모두가 대형 모델을 이야기하는 시대에 우리는 한편으로는 영상 생성이 가져오는 시각적 충격에 놀라기도 하고, 다른 한편으로는 구현의 어려움에 직면하기도 합니다. 대형 모델은 여전히 ​​기술 연구 개발부터 적용 실무까지의 도약기에 있고 여전히 실제 비즈니스 시나리오를 기반으로 조정해야 하는 것이 사실이지만 이상과 현실 사이의 거리가 점차 좁아지고 있습니다. 인공지능 기술의 중요한 구현 시나리오로서 마케팅은 많은 기업과 실무자들이 획기적인 발전을 이루고자 하는 방향이 되었습니다. 적절한 방법을 익히면 동영상 마케팅의 창의적인 과정은 다음과 같습니다.

Huoshan Voice TTS의 기술력은 국가검사검역센터로부터 MOS 점수 4.64점으로 인증받았습니다. Huoshan Voice TTS의 기술력은 국가검사검역센터로부터 MOS 점수 4.64점으로 인증받았습니다. Apr 12, 2023 am 10:40 AM

최근 볼케이노엔진 음성합성 제품은 국가음성영상인식제품품질검사센터(이하 'AI 국가검사센터')에서 발행한 음성합성 강화검사 및 시험인증서를 획득했다. 음성 합성의 기본 요구 사항 및 확장 요구 사항은 AI 국가 검사 센터의 최고 수준 표준입니다. 본 평가는 중국어, 다국어, 다언어, 다음조, 개인화 측면에서 진행되며, 제품 기술지원팀인 볼케이노 보이스팀에서 평가 후 풍부한 사운드 라이브러리를 제공합니다. 음색 MOS 점수는 4.64점으로 업계 최고 수준이다. AI국가검사센터는 우리나라 품질검사체계 중 인공지능 분야 최초이자 유일한 국가급 음성영상제품 품질검사 및 시험기관으로서 지능형 제품 홍보에 최선을 다해 왔습니다.

개인화된 경험에 중점을 두고 사용자를 유지하는 것은 전적으로 AIGC에 달려 있습니까? 개인화된 경험에 중점을 두고 사용자를 유지하는 것은 전적으로 AIGC에 달려 있습니까? Jul 15, 2024 pm 06:48 PM

1. 소비자는 제품을 구매하기 전 소셜미디어에서 제품 리뷰를 검색하고 살펴봅니다. 따라서 기업이 소셜 플랫폼에서 제품을 마케팅하는 것이 점점 더 중요해지고 있습니다. 마케팅의 목적은 다음과 같습니다. 제품 판매 촉진 브랜드 이미지 구축 브랜드 인지도 향상 고객 유치 및 유지 궁극적으로 회사의 수익성 향상 대형 모델은 이해력과 생성 능력이 뛰어나며 탐색 및 분석을 통해 사용자에게 개인화된 정보를 제공할 수 있습니다. 사용자 데이터 콘텐츠 추천. 'AIGC 체험스쿨' 네 번째 호에서는 두 게스트가 '마케팅 전환율' 향상에 있어 AIGC 기술의 역할에 대해 심도 있게 논의할 예정이다. 생방송 시간 : 7월 10일 19:00~19:45 생방송 주제 : 사용자 유지, AIGC는 개인화를 통해 전환율을 어떻게 향상시키는가? 프로그램의 네 번째 에피소드에는 중요한 두 사람이 초대되었습니다.

Huoshan Voice의 비지도 사전 학습 기술 구현 및 '알고리즘 최적화 + 엔지니어링 혁신'에 대한 심층 탐구 Huoshan Voice의 비지도 사전 학습 기술 구현 및 '알고리즘 최적화 + 엔지니어링 혁신'에 대한 심층 탐구 Apr 08, 2023 pm 12:44 PM

Volcano Engine은 오랫동안 인기 동영상 플랫폼에 음성 인식 기술을 기반으로 한 지능형 동영상 자막 솔루션을 제공해 왔습니다. 쉽게 말하면 AI 기술을 이용해 영상 속 음성과 가사를 자동으로 텍스트로 변환해 영상 제작을 돕는 기능이다. 그러나 플랫폼 사용자의 급속한 성장과 더욱 풍부하고 다양한 언어 유형에 대한 요구 사항으로 인해 전통적으로 사용되는 지도 학습 기술은 점점 병목 현상에 도달하여 팀에 큰 어려움을 안겨주었습니다. 우리 모두 알고 있듯이 전통적인 지도 학습은 특히 대규모 언어의 지속적인 최적화와 작은 언어의 콜드 스타트에서 수동으로 주석을 단 지도 데이터에 크게 의존합니다. 중국어, 중국어, 영어 등 주요 언어를 예로 들면, 비디오 플랫폼은 비즈니스 시나리오에 충분한 음성 데이터를 제공하지만 감독 데이터가 일정 규모에 도달한 후에는 계속해서

모든 Douyin은 현지 방언으로 말하고 있습니다. 두 가지 핵심 기술은 현지 방언을 '이해'하는 데 도움이 됩니다. 모든 Douyin은 현지 방언으로 말하고 있습니다. 두 가지 핵심 기술은 현지 방언을 '이해'하는 데 도움이 됩니다. Oct 12, 2023 pm 08:13 PM

국경절 기간 동안 Douyin의 “사투리 한 마디가 고향 출신임을 증명합니다” 캠페인은 전국 네티즌들의 뜨거운 참여를 불러일으켰으며, 이 주제는 조회 수 5천만 건을 돌파하며 Douyin 챌린지 목록 1위에 올랐습니다. 이번 '지방 사투리 대상'은 인터넷에서 빠르게 인기를 끌었으며, 이는 Douyin이 새로 출시한 현지 사투리 자동 번역 기능의 공헌과 불가분의 관계입니다. 제작자는 모국어로 짧은 동영상을 녹화할 때 '자동 자막' 기능을 사용하고 '북경어 자막으로 변환'을 선택하여 동영상 속 사투리 음성을 자동으로 인식하고 방언 내용을 북경어 자막으로 변환했습니다. 다른 지역의 네티즌들이 다양한 "암호화된 표준 중국어" 언어를 쉽게 이해할 수 있도록 해줍니다. 푸젠성 네티즌들은 직접 테스트해 '발음이 다른' 푸젠성 남부 지역도 중국 푸젠성 지역이라고 말했다.

Volcano Engine과 Yili가 공동 주최한 'Health + AI' 생태 혁신 대회가 성공적으로 종료되었습니다. Volcano Engine과 Yili가 공동 주최한 'Health + AI' 생태 혁신 대회가 성공적으로 종료되었습니다. Jan 13, 2024 am 11:57 AM

건강+AI=? 중장년층을 위한 뇌 건강 영양 솔루션, 디지털 지능형 영양 및 건강 서비스, AIGC 빅헬스 커뮤니티 솔루션… 기술 에너지와 건강 산업에 힘을 실어주는 혁신적인 솔루션이 곧 등장할 것이며, "건강 + AI =?"에 대한 답이 서서히 떠오르고 있습니다. 12월 26일, Yili Group과 Volcano Engine이 공동 후원하는 '건강 + AI' 생태 혁신 대회가 Shanghai Bosten Network Technology Co., Ltd.와 Zhongke Suzhou Intelligent Computing Technology Research Institute를 포함한 6개의 우승 기업으로 성공적으로 마무리되었습니다. 눈에 띄었다. 한 달 넘게 진행된 대회에서 Yili는 뛰어난 과학기술 기업들과 손을 잡고 AI 기술과 의료 산업의 심층적인 통합을 탐구하며 대회에 대한 기대감을 지속적으로 높이고 있다. '헬스+AI' 생태혁신 공모전

볼케이노엔진이 자체 개발한 비디오 코덱 칩이 오늘 공식 출시됐다. 업계 주류 대비 압축 효율이 30% 이상 높아졌다. 볼케이노엔진이 자체 개발한 비디오 코덱 칩이 오늘 공식 출시됐다. 업계 주류 대비 압축 효율이 30% 이상 높아졌다. Aug 24, 2023 pm 07:53 PM

22일 본 사이트의 소식에 따르면 볼케이노엔진 공식 소식에 따르면 볼케이노엔진 비디오클라우드는 자체 개발한 비디오 코덱 칩이 영화 제작에 성공해 오늘 정식 출시됐다고 밝혔다. 관계자들은 이 칩의 비디오 압축 효율성이 "업계 주류 하드웨어 인코더"에 비해 30% 이상 향상될 수 있다고 밝혔습니다. 앞으로는 Douyin 및 Xigua Video와 같은 비디오 서비스를 제공할 것이며 기업 고객에게 공개될 것입니다. Volcano Engine Video Cloud를 통해 볼케이노 엔진은 도우인(Douyin) 등 영상 서비스의 대규모 실천과 연마를 기반으로 자체 개발한 영상 인코딩 및 디코딩 기술을 전용 칩에 집약해 압축 효율을 기존 대비 30% 이상 높인 것으로 알려졌다. 업계의 주류 하드웨어 인코더를 사용하여 주문형 비디오, 라이브 방송, 이미지 압축, XR 및 기타 비즈니스 시나리오에 적용할 수 있습니다. ▲사진 출처 볼케이노 엔진의 제3자 데이터에 따르면 중국 사용자 수가 상위 100위권 안에 든다.

See all articles