2024 ICASSP | ByteDance 스트리밍 오디오 팀의 혁신적인 솔루션: 패킷 손실 보상 및 일반적인 음질 복구 문제 해결

WBOY
풀어 주다: 2024-01-09 09:14:34
앞으로
745명이 탐색했습니다.

이 ICASSP 2024 다양한 오디오 국제 챌린지에서 바이트댄스 스트리밍 오디오 팀은 노스웨스턴 폴리테크니컬 대학의 오디오 음성 및 언어 처리 연구실과 팀을 이루어 PLC(패킷 손실 은폐) 및 음성 품질 복구(음성) 작업을 수행했습니다. SSI(Signal Improvement) 챌린지 트랙에서 여러 지표에서 좋은 성적을 거두며 각각 1위와 2위를 달성하며 국제 선두 수준에 도달했습니다.

ICASSP Summit의 오디오 챌린지는 다양한 연구 기관의 오디오 효과 및 음질 개선에 대한 연구를 활성화하기 위해 최고의 국제 오디오 컨퍼런스인 ICASSP와 Microsoft가 공동으로 시작했습니다. 첫 번째 세션부터 Amazon, Tencent, Baba, Baidu, Kuaishou, 중국과학원, NPU 등 전 세계 유명 기업과 과학연구기관이 다수 참여했습니다. 스트리밍 미디어 분야의 지속적인 기술 개발로 인해 사운드를 선명하고 사실적으로 만드는 것은 오디오 기술 산업 발전에서 피할 수 없는 추세가 되었습니다. 사용자에게 더 나은 오디오 경험을 제공하는 방법에 중점을 두고 여러 연구팀이 오디오 수집부터 전달까지 오디오의 엔드투엔드 최적화를 수행했습니다. 이 프로세스에는 오디오 수집 결함, 알고리즘 처리 결함, 코딩 및 디코딩 결함을 처리하는 방법이 포함됩니다. , 네트워크 전송 결함 등의 통합 수리를 기다립니다. 이번 챌린지에서 ByteDance 스트리밍 오디오 팀은 실제 비즈니스 구현 시나리오를 기반으로 패킷 손실 보상과 일반 음질 복구라는 두 가지 챌린지 트랙에 참여했습니다.

ICASSP PLC 챌린지는 네트워크 IP 호출에서 장거리 패킷 손실 및 전대역 오디오(48kHz 샘플링 속도) 처리 문제를 해결하는 것을 목표로 합니다. 이 과제는 불리한 네트워크 조건을 반영하는 까다로운 데이터 세트를 제공하는 동시에 엄격한 대기 시간 제약을 가지고 있습니다. 주관적 평가는 P.804 다차원 오디오 품질 평가 방법을 사용하여 수행되며 WER은 참여 시스템에서 생성된 음성의 명료도를 평가하는 데에도 사용됩니다. 스트리밍 오디오 기술팀은 모델 구조를 최적화하여 패킷 손실 보상 모델의 복잡성을 효과적으로 줄였습니다. 동시에 다중 판별자 적대 훈련과 다중 작업 학습을 통해 패킷 손실 보상 모델은 고품질과 높은 명료도로 패킷 손실 조각을 복원할 수 있으며 최종적으로 1위를 달성했습니다.

ICASSP 2024|字节跳动流媒体音频团队创新方案解决丢包补偿、通用音质修复问题

ICASSP SSI 챌린지는 통신 시스템에서 음성 신호가 직면하는 5가지 유형의 문제(주파수 응답 왜곡, 불연속 왜곡, 음량 왜곡, 소음 및 반향)를 해결하는 것을 목표로 합니다. 본 챌린지는 모델 지연 및 인과관계를 엄격하게 설정한다는 전제 하에 ITU-TP.804 표준에 따른 주관적 의견 점수와 음성 인식률을 활용하여 순위를 종합적으로 판단합니다. 스트리밍 기술 팀은 복잡한 복구 문제를 여러 하위 작업으로 단순화하기 위해 2단계 모델 구조를 사용합니다. 첫 번째 단계에서는 주로 주파수 응답 왜곡, 불연속성 왜곡 및 음량 왜곡을 복구하고 예비 소음 감소 및 잔향 제거를 수행합니다. 두 번째 단계 이 단계에서는 첫 번째 단계에서 생성된 아티팩트와 잔여 노이즈를 추가로 제거합니다. 결국 팀은 실시간 트랙에서 2위를 차지했습니다.

ICASSP 2024|字节跳动流媒体音频团队创新方案解决丢包补偿、通用音质修复问题

패킷 손실 보상 시스템

48kHz 전대역 오디오 처리의 복잡성 문제를 해결하기 위해 패킷 손실 보상 시스템에 주파수 도메인 모델을 사용하고 오디오를 0~8kHz로 분할합니다. , 8 - 두 개의 24kHz 하위 대역이 병렬로 처리됩니다. 주요 계산량은 청각에 더 큰 영향을 미치는 0~8kHz 주파수 대역에 집중되어 낮은 복잡성과 고품질의 패킷 손실 보상을 달성합니다. 긴 간격의 패킷 손실 문제를 해결하기 위해 코덱의 각 계층 뒤에 TFDCM(Time-Frequency Dilated Convolution Module)을 추가하여 작은 크기의 Convolution 커널을 유지하면서 인과관계를 통해 장기간 캡처합니다. 시간 및 주파수 차원에서 계층별로 확장된 컨볼루션 시간 이력 정보 및 주파수 상관.

더 높은 품질의 오디오를 보상하기 위해 주파수 영역 다중 해상도 판별기, 시간 영역 다중 주기 판별기 및 MetricGAN을 조합하여 생성적 적대 훈련을 수행하여 생성된 오디오 사운드를 우수하게 만듭니다. 장거리 패킷 손실 및 명료성 문제의 경우 다중 작업 학습 프레임워크가 사용됩니다. 일반적인 음성 신호 유사성 학습 외에도 기본 주파수 예측 및 속삭임 기반 의미 이해 손실 기능도 도입됩니다. 이 모델은 100ms 이상의 패킷 손실 조각을 고품질로 복구할 수 있으며, 복구된 오디오는 WAcc(단어 정확도 비율) 지표가 모든 참가 팀을 앞서며 전체 평가 점수가 공동 1위를 차지합니다.

ICASSP 2024|字节跳动流媒体音频团队创新方案解决丢包补偿、通用音质修复问题

패킷 손실 보상 모델의 구조도

음질 복구 시스템

동시에 여러 왜곡의 영향을 받은 오디오를 복구하기 위해 건설 시스템에 2단계 모델 아키텍처가 사용되어 여러 단계에서 다양한 왜곡을 처리하는 데 중점을 둡니다. 첫 번째 단계 모델은 매핑을 사용하여 수리된 오디오의 복잡한 스펙트럼을 직접 예측하므로 모델은 오디오 누락 구성 요소를 생성하는 동시에 간섭 신호를 제거하여 모델의 정보 캡처 능력을 향상시킬 수 있습니다. 오랜 시간 동안 인코더는 매핑 방법의 불안정성으로 인해 디코더에 TFCM(Time-Frequency Convlution Module)이 도입되어 아티팩트가 발생할 수 있으므로 마스킹(Mask)을 사용한 2단계 모델이 도입되었으며, - Band-to-full-band 모델링 방식은 주파수 대역을 세밀하게 모델링하여 1단계 모델에서 생성된 아티팩트 및 잔여 노이즈를 더욱 제거합니다.

생성된 오디오 구성 요소의 자연스러움을 향상시키기 위해 생성적 적대 네트워크 프레임워크가 도입되었으며, 다중 해상도 판별기와 분자 밴드 다중 해상도 판별기가 모델 훈련을 지원하는 데 사용됩니다. 동시에, 훈련 중에 다단계 모델이 더 쉽게 수렴되도록 하기 위해 2단계 모델은 먼저 소음 감소 및 반향 제거 작업에 대해 사전 훈련된 다음 훈련된 1단계 모델의 매개변수는 다음과 같습니다. 단계 모델은 공동 훈련을 위해 계단식으로 연결되어 모델 수렴을 가속화합니다.

ICASSP 2024|字节跳动流媒体音频团队创新方案解决丢包补偿、通用音质修复问题

음질 복구 모델 구조의 개략도

팀 소개

Bytedance 스트리밍 오디오 팀은 전 세계 인터넷을 통해 지연 시간이 짧은 고품질의 실시간 오디오 및 비디오 통신 기능을 제공하기 위해 최선을 다하고 있습니다. 개발자를 빠르게 지원합니다. 음성 통화, 화상 통화, 대화형 라이브 방송, 라이브 방송 리트윗 등 풍부한 시나리오 기능을 구축했습니다. 현재 대화형 엔터테인먼트, 교육, 회의, 게임, 자동차 등 실시간 오디오 및 비디오 대화형 시나리오를 다루고 있습니다. , 금융, IoT 등을 통해 수억 명의 사용자에게 서비스를 제공하고 있습니다.

위 내용은 2024 ICASSP | ByteDance 스트리밍 오디오 팀의 혁신적인 솔루션: 패킷 손실 보상 및 일반적인 음질 복구 문제 해결의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:jiqizhixin.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
최신 이슈
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿