목차
시스템 아키텍처
스피커 변환 감지
성문 특징 추출
다단계 클러스터링
실시간 수정 및 사용자 주석
일의 미래
기술 주변기기 일체 포함 Google Recorder는 자동 화자 주석을 구현하고 기능과 iOS 음성 메모가 다시 한 번 확장됩니다.

Google Recorder는 자동 화자 주석을 구현하고 기능과 iOS 음성 메모가 다시 한 번 확장됩니다.

Apr 10, 2023 pm 07:31 PM
일체 포함 Google

2019년 Google은 Pixel 휴대폰용 Android 시스템에서 녹음 소프트웨어 Recorder를 출시했습니다. 이 녹음 소프트웨어는 iOS에서 음성 메모와 호환되고 오디오 파일의 녹음, 관리 및 편집을 지원합니다. 그 이후로 Google은 음성 인식, 오디오 이벤트 감지, 자동 제목 생성, 스마트 브라우징을 포함하여 수많은 기계 학습 기반 기능을 Recorder에 연속적으로 추가했습니다.

그러나 녹음 파일이 길고 스피커가 여러 개 포함된 경우 일부 녹음기 사용자는 사용 중에 불편함을 느낄 수 있습니다. 음성 인식을 통해 얻은 텍스트만으로는 누가 각 문장을 말했는지 확인할 수 없기 때문입니다. 올해 Made By Google 컨퍼런스에서 Google은 Recorder 앱의 자동 화자 주석 기능을 발표했습니다. 이 기능은 음성 인식 텍스트에 익명의 화자 태그(예: "화자 1" 또는 "화자 2")를 실시간으로 추가합니다. 이 기능은 녹음된 텍스트의 가독성과 실용성을 크게 향상시킵니다. 이 기능 뒤에 있는 기술을 화자 분할이라고 합니다. Google은 2022년 ICASSP 컨퍼런스에서 Turn-to-Diarize라는 성문 분할 및 클러스터링 시스템을 처음 선보였습니다.

Google Recorder는 자동 화자 주석을 구현하고 기능과 iOS 음성 메모가 다시 한 번 확장됩니다.

왼쪽 사진: 스피커 주석이 꺼진 상태에서 텍스트를 녹음합니다. 오른쪽: 화자 주석이 켜진 녹음 텍스트입니다.

시스템 아키텍처

Google의 Turn-to-Diarize 시스템에는 고도로 최적화된 여러 모델과 알고리즘이 포함되어 있어 컴퓨팅 리소스가 거의 없는 모바일 장치에서 몇 시간 동안 오디오를 처리할 수 있습니다. . 시스템은 크게 화자 ID 전환을 감지하는 화자 전환 감지 모델, 각 화자의 음성 특성을 추출하는 성문 인코더 모델, 화자 주석을 효율적으로 완성할 수 있는 다단계 시스템의 세 가지 구성 요소로 구성됩니다. 모든 구성 요소는 전적으로 사용자의 장치에서 실행되며 서버 연결에 의존하지 않습니다.

Google Recorder는 자동 화자 주석을 구현하고 기능과 iOS 음성 메모가 다시 한 번 확장됩니다.

Turn-to-Diarize 시스템의 아키텍처 다이어그램.

스피커 변환 감지

시스템의 첫 번째 구성 요소는 T-T(Transformer Transducer) 기반 스피커 변환 감지 모델입니다. 이 모델은 음향 특징 시퀀스를 특수 문자 가 포함된 텍스트 시퀀스로 변환할 수 있습니다. 특수 문자 는 화자 전환 이벤트를 나타냅니다. Google이 이전에 발표한 논문에서는 특정 화자의 신원을 나타내기 위해 또는 와 같은 특수 문자를 사용했습니다. 최신 시스템에서는 캐릭터가 특정 아이덴티티에 국한되지 않기 때문에 활용 범위도 더욱 넓어졌습니다.

대부분의 응용 프로그램에서 성문 분할 및 클러스터링 시스템의 출력은 일반적으로 사용자에게 직접 표시되지 않지만 음성 인식 모델의 출력과 결합됩니다. 음성 인식 모델은 훈련 과정에서 단어 오류율에 최적화되었기 때문에 화자 전환 감지 모델은 단어 오류율에 더 관대하지만 특수 문자의 정확성에 더 많은 주의를 기울입니다. 이를 바탕으로 Google은 더 작은 모델만으로도 스피커 전환 이벤트를 정확하게 감지할 수 있는 새로운 문자 기반 손실 기능을 제안했습니다.

성문 특징 추출

화자 변환 이벤트에 따라 오디오 신호가 분할된 후, 성문 인코더 모델, 즉 d-벡터를 통해 각 화자 세그먼트의 성문 정보가 포함된 임베딩 코드를 추출합니다. Google이 발표한 이전 논문에서는 성문 임베딩 코드가 일반적으로 고정 길이 오디오에서 추출되었습니다. 대조적으로, 이 새로운 시스템에는 많은 개선이 이루어졌습니다. 첫째, 새로운 시스템은 여러 화자 정보가 포함된 세그먼트에서 성문 임베딩 코드를 추출하지 않으므로 임베딩 코드의 전반적인 품질이 향상됩니다. 둘째, 각 성문 임베딩 코드에 해당하는 음성 조각은 상대적으로 길기 때문에 화자에 해당하는 성문 정보를 더 많이 포함하고 있습니다. 마지막으로, 이 방법으로 얻은 최종 성문 삽입 코드 시퀀스는 길이가 더 짧아서 후속 클러스터링 알고리즘의 계산 비용이 더 저렴해집니다.

다단계 클러스터링

성문 분할 및 클러스터링의 마지막 단계는 이전 단계에서 얻은 성문 삽입 코드 시퀀스를 클러스터링하는 것입니다. 사용자가 Recorder 앱을 사용하여 생성하는 녹음은 단 몇 초에서 최대 18시간까지 가능하므로 클러스터링 알고리즘의 주요 과제는 다양한 길이의 성문 삽입 시퀀스를 처리할 수 있다는 것입니다.

이를 위해 Google의 다단계 클러스터링 전략은 여러 가지 클러스터링 알고리즘의 장점을 교묘하게 결합합니다. 더 짧은 시퀀스의 경우 전략은 AHC(집계 계층적 클러스터링)를 사용합니다. 중간 길이의 시퀀스에 대해 이 방법은 스펙트럼 클러스터링을 사용하고 고유값의 최대 마진 방법을 활용하여 화자 수를 정확하게 추정합니다. 더 긴 시퀀스의 경우 이 방법은 먼저 집계된 계층적 클러스터링을 사용하여 시퀀스를 전처리한 다음 스펙트럼 클러스터링을 호출하여 클러스터링 단계의 계산 비용을 줄입니다. 전체 스트리밍 처리 과정에서 이전 클러스터링 결과를 동적으로 캐싱하고 재사용함으로써 각 클러스터링 알고리즘 호출의 시간 복잡도와 공간 복잡도의 상한을 상수로 설정할 수 있습니다.

다단계 클러스터링 전략은 장치 측 애플리케이션의 핵심 최적화입니다. 왜냐하면 기기 측면에서는 일반적으로 CPU, 메모리, 배터리와 같은 리소스가 부족하기 때문입니다. 이 전략은 몇 시간 동안 오디오를 처리한 후에도 저전력 상태에서 계속 작동할 수 있습니다. 이 전략의 지속적인 복잡성의 상한은 일반적으로 특정 장치 모델에 따라 조정되어 정확도와 성능 간의 균형을 이룰 수 있습니다.

Google Recorder는 자동 화자 주석을 구현하고 기능과 iOS 음성 메모가 다시 한 번 확장됩니다.

다단계 클러스터링 전략의 개략도.

실시간 수정 및 사용자 주석

Turn-to-Diarize는 실시간 스트리밍 처리 시스템이므로 모델이 더 많은 오디오를 처리하면 예측된 화자 라벨도 더욱 정확해집니다. 이를 위해 Recorder 애플리케이션은 사용자의 녹음 프로세스 중에 이전에 예측된 화자 레이블을 지속적으로 수정하여 사용자가 현재 화면에서 보는 화자 레이블이 항상 더 정확한 레이블이 되도록 합니다.

동시에 녹음기 애플리케이션의 사용자 인터페이스를 통해 사용자는 각 녹음에서 스피커 라벨의 이름을 바꿀 수 있습니다. 예를 들어 "Speaker 2"의 이름을 "Car Dealer"로 바꾸면 사용자가 더 쉽게 읽고 메모리.

Google Recorder는 자동 화자 주석을 구현하고 기능과 iOS 음성 메모가 다시 한 번 확장됩니다.

Recorder를 사용하면 가독성을 높이기 위해 스피커 태그의 이름을 바꿀 수 있습니다.

일의 미래

Google은 최신 Pixel 휴대폰에 자체 개발한 칩인 Google Tensor를 출시했습니다. 현재 성문 분할 및 클러스터링 시스템은 주로 Google Tensor의 CPU 모듈에서 실행됩니다. 앞으로 Google은 Google Tensor의 TPU 모듈에서 성문 분할 및 클러스터링 시스템을 실행하여 에너지 소비를 더욱 줄일 계획입니다. 또한 Google은 다국어 성문 인코더 및 음성 인식 모델을 통해 이 기능을 영어 외에 다른 언어로도 확장할 수 있기를 희망하고 있습니다.

위 내용은 Google Recorder는 자동 화자 주석을 구현하고 기능과 iOS 음성 메모가 다시 한 번 확장됩니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

DeepSeek에 의견을 말하는 방법 DeepSeek에 의견을 말하는 방법 Feb 19, 2025 pm 05:42 PM

DeepSeek은 강력한 정보 검색 도구입니다.이 장점은 정보가 느리고 결과 프레젠테이션 방법이 간단하며 데이터베이스 적용 범위는 제한되어 있다는 것입니다 .

DeepSeek을 검색하는 방법 DeepSeek을 검색하는 방법 Feb 19, 2025 pm 05:39 PM

DeepSeek은 특정 데이터베이스 나 시스템에서만 더 빠르고 정확한 독점 검색 엔진입니다. 이를 사용할 때 사용자는 문서를 읽고, 다양한 검색 전략을 시도하고, 사용자 경험에 대한 도움을 요청하고 사용자 경험에 대한 피드백을 최대한 활용하는 것이 좋습니다.

참깨 오픈 도어 교환 웹 페이지 등록 링크 게이트 트레이딩 앱 등록 웹 사이트 최신 참깨 오픈 도어 교환 웹 페이지 등록 링크 게이트 트레이딩 앱 등록 웹 사이트 최신 Feb 28, 2025 am 11:06 AM

이 기사에서는 GATE.IO (GATE.IO) 웹 버전의 등록 프로세스와 GATE 트레이딩 앱의 등록 프로세스를 소개합니다. 웹 등록 또는 앱 등록이든, 공식 웹 사이트 또는 App Store를 방문하여 Genuine 앱을 다운로드 한 다음 사용자 이름, 암호, 이메일, 휴대 전화 번호 및 기타 정보, 완전한 이메일 또는 휴대 전화 확인을 작성해야합니다.

Bybit Exchange 링크를 직접 다운로드하고 설치할 수없는 이유는 무엇입니까? Bybit Exchange 링크를 직접 다운로드하고 설치할 수없는 이유는 무엇입니까? Feb 21, 2025 pm 10:57 PM

Bybit Exchange 링크를 직접 다운로드하고 설치할 수없는 이유는 무엇입니까? Bybit은 사용자에게 거래 서비스를 제공하는 암호 화폐 거래소입니다. Exchange의 모바일 앱은 다음과 같은 이유로 AppStore 또는 GooglePlay를 통해 직접 다운로드 할 수 없습니다. 1. App Store Policy는 Apple과 Google이 App Store에서 허용되는 응용 프로그램 유형에 대한 엄격한 요구 사항을 갖지 않도록 제한합니다. Cryptocurrency Exchange 응용 프로그램은 금융 서비스가 포함되며 특정 규정 및 보안 표준이 필요하기 때문에 이러한 요구 사항을 충족하지 않습니다. 2. 법률 및 규정 준수 준수 많은 국가에서 암호 화폐 거래와 관련된 활동이 규제되거나 제한됩니다. 이러한 규정을 준수하기 위해 BYBIT 응용 프로그램은 공식 웹 사이트 또는 기타 공인 채널을 통해서만 사용할 수 있습니다.

참깨 오픈 도어 트레이딩 플랫폼 다운로드 모바일 버전 게이트 오리오 트레이딩 플랫폼 다운로드 주소 참깨 오픈 도어 트레이딩 플랫폼 다운로드 모바일 버전 게이트 오리오 트레이딩 플랫폼 다운로드 주소 Feb 28, 2025 am 10:51 AM

앱을 다운로드하고 계정의 안전을 보장하기 위해 공식 채널을 선택하는 것이 중요합니다.

참깨 오픈 도어 교환 웹 페이지 로그인 최신 버전 GATEIO 공식 웹 사이트 입구 참깨 오픈 도어 교환 웹 페이지 로그인 최신 버전 GATEIO 공식 웹 사이트 입구 Mar 04, 2025 pm 11:48 PM

로그인 단계 및 암호 복구 프로세스를 포함하여 참깨 오픈 exchange 웹 버전의 로그인 작업에 대한 자세한 소개는 로그인 실패, 페이지를 열 수 없으며 플랫폼에 부드럽게 로그인 할 수없는 일반적인 문제에 대한 솔루션을 제공합니다.

Binance Binance 공식 웹 사이트 최신 버전 로그인 포털 Binance Binance 공식 웹 사이트 최신 버전 로그인 포털 Feb 21, 2025 pm 05:42 PM

Binance 웹 사이트 로그인 포털의 최신 버전에 액세스하려면 다음을 수행하십시오. 공식 웹 사이트로 이동하여 오른쪽 상단의 "로그인"버튼을 클릭하십시오. 기존 로그인 방법을 선택하십시오. 새 사용자 인 경우 "등록하십시오. 등록 된 휴대폰 번호 또는 이메일 및 비밀번호를 입력하고 완전한 인증 (예 : 모바일 확인 코드 또는 Google 인증 자). 성공적인 확인 후 Binance 공식 웹 사이트 로그인 포털의 최신 버전에 액세스 할 수 있습니다.

Crypto Digital Asset Trading App (2025 Global Ranking)에 권장되는 상위 10 개 Crypto Digital Asset Trading App (2025 Global Ranking)에 권장되는 상위 10 개 Mar 18, 2025 pm 12:15 PM

이 기사에서는 Binance, OKX, Gate.io, Bitflyer, Kucoin, Bybit, Coinbase Pro, Kraken, Bydfi 및 Xbit DencentRalized Exchanges를 포함하여주의를 기울여야 할 상위 10 개의 Cryptocurrency 거래 플랫폼을 권장합니다. 이 플랫폼은 거래 통화 수량, 거래 유형, 보안, 규정 준수 및 특수 기능 측면에서 고유 한 이점이 있습니다. 예를 들어 Binance는 전 세계 최대의 거래량과 풍부한 기능으로 유명합니다. 적절한 플랫폼을 선택하려면 자체 거래 경험, 위험 허용 범위 및 투자 선호도를 기반으로 포괄적 인 고려 사항이 필요합니다. 이 기사가 자신에게 가장 적합한 것을 찾는 데 도움이되기를 바랍니다.

See all articles