목차
애플리케이션은 다양한 분야에서 구현되었습니다
현재 기술 상태는 만족스럽지 않습니다
음성 인식의 기술적 반복
요약" >요약
기술 주변기기 일체 포함 음성 인식을 개발하는 방법

음성 인식을 개발하는 방법

Apr 12, 2023 pm 05:01 PM
음성 인식

딥러닝 기술을 활용한 자연어에 대한 심층적인 이해는 늘 사람들의 관심의 대상이었습니다. 음악을 듣기 위해 찾아볼 필요가 없고, 조명을 켜기 위해 손을 사용할 필요가 없으며, 에어컨이 사용자의 목소리를 이해할 수 있습니다... 이러한 장면은 많은 영화와 TV에서 보여졌습니다. 작동하며 많은 사람들의 마음 속에 "스마트 라이프"라는 개념을 나타내기도 합니다. 이를 바탕으로 인공지능 개발이 급증하면서 자연어 처리는 대기업과 과학연구기관의 전쟁터가 됐다.

음성 인식을 개발하는 방법

현재 음성 상호 작용 트랙에는 인터넷 거대 기업, 잘 알려진 하드웨어 회사, 전자 상거래 플랫폼, 전통적인 가전 제품 제조업체 및 다양한 인공 지능 스타트업, 특히 최근 몇 년 동안 스마트 스피커로 대표되는 음성 상호 작용 제품이 모였습니다. 국내외에서의 인기는 음성 상호작용 기술의 응용과 발전을 크게 촉진시켰습니다.

애플리케이션은 다양한 분야에서 구현되었습니다

최근 가장 인기 있는 스마트 홈 하드웨어는 의심할 여지 없이 Xiaomi AI 스피커입니다. 이 제품은 출시되자마자 시장에서 큰 반향을 일으켰고, 많은 사람들로부터 "최고의 인터랙티브 경험을 갖춘 스피커", "스마트 스피커 업계의 책임자", "현재 '가장 인기 있는' 스마트 하드웨어"라고 불렸습니다. 미디어... 편집자의 의견에 따르면 Xiaomi AI 스피커는 훌륭하지만 자랑할 만큼은 아닙니다. 편집자 주변 사람들의 구체적인 사용 경험으로 볼 때 음성 인식 기능은 특별히 뛰어나지 않으며 현재 시중에 나와 있는 유사 주류 제품과 크게 다르지 않습니다. 가장 큰 장점은 생태계 체인에 있습니다. Xiaomi AI 스피커를 통해 Xiaomi 책상 램프, Xiaomi 청소 로봇, Xiaomi 바닥 팬 및 기타 지원 가구 장비를 제어할 수 있습니다. 이것이 사람들을 스마트한 삶에 한 걸음 더 가까이 다가갈 것이라는 데에는 의심의 여지가 없습니다.

자동차 및 스마트 모바일 기기 분야에서는 음성 상호작용 기능이 큰 인기를 끌고 있습니다. 운전할 때 사람들은 시간적 여유가 없으며 손으로 휴대폰을 조작해서는 안 됩니다. 이때 차량 내 음성은 필수 요소이자 차량 인터넷의 표준 기능이 되었습니다. 스마트 상호연결과 무인운전이 각광받는 현 시대에 음성인식이라는 블랙 기술이 탑재되지 않은 신차는 이를 활용하기가 너무 쑥스러운 것 같다. Ford의 SYNC 시스템은 휴대폰과 디지털 미디어 플레이어에 특별히 장착된 Ford의 차량 내 멀티미디어 통신 및 엔터테인먼트 시스템으로, 현재 차량 내 시스템에 음성 상호 작용 기술을 적용한 성공적인 사례이며 많은 Ford 차량 시리즈에 널리 사용되었습니다. 인터넷 거대 기업인 애플이 아이폰 4S에 지능형 음성 비서 애플리케이션인 시리(Siri)를 출시한 데 이어 구글도 안드로이드 스마트폰 운영체제에 구글나우(GoogleNow) 지능형 음성 검색과 질의응답 서비스를 출시했다. 마이크로소프트도 윈도우 폰에 음성 기술을 적용했고, 삼성도 출시했다. 당연히 빅스비죠.

금융 분야에서. 음성 인식 기술도 그 자리를 차지하고 있습니다. 최근 중국건설은행은 상하이 황푸구에 로봇이 고객에게 서비스를 제공하는 자동화 서비스 지점을 개설했다. 로봇에는 대부분의 고객 질문에 답하고 일반 시내 은행의 비즈니스 요구 사항 대부분을 해결할 수 있는 안면 스캐닝 인식 소프트웨어가 장착되어 있으며 수동 지원 서비스 및 기타 전문 서비스도 갖추고 있어 개인화된 요구 사항을 충족합니다. 로봇이 고객을 맞이하는데, 로봇은 음성인식 기능을 이용해 사람과 소통하고 고객의 질문에 답한다. 또한 계좌 개설, 자금 이체, 투자 등 인간 서비스가 수행할 수 있는 대부분의 작업을 완료할 수 있습니다.

또한 새로운 소매 분야에서는 지능형 음성 기술의 적용도 지속적으로 확대되고 있습니다. 예를 들어, 2017년 12월 18일, iFlytek과 Red Star Macalline은 전략적 협력 계획을 발표했습니다. 앞으로 iFlytek이 개발한 지능형 쇼핑 가이드 로봇 "Meimei"가 전국 Red Star Macalline 매장에 출시될 예정입니다.

음성 상호 작용 외에도 음성을 텍스트로 변환하는 기술도 현재 음성 인식 기술에서 뜨거운 주제입니다. 초기에는 이 기능을 언론인들이 애용하던 기능으로, 인터뷰 원고나 스피치 원고 정리에 활용하면 업무 효율을 크게 높일 수 있어 요즘은 노년층도 활용 가능하다. 게으름과 암에 시달리는 이 기능은 타이핑을 대체합니다.

오늘날 자본 유입, 정책 지원, 반복되는 시장 확장으로 인해 음성 기술이 점점 성숙해졌고, 글로벌 음성 시장도 애플리케이션 구현을 위한 황금 개발 시기를 맞이했습니다. 관련 통계에 따르면, 2016년 지능형 음성 산업 규모는 60억 위안에 가까웠고, 2017년에는 100억 위안을 넘어 전년 대비 약 69% 증가할 것으로 예상됩니다.

현재 기술 상태는 만족스럽지 않습니다

음성인식은 여러 분야에서 확산되고 있는 반면, 음성인식 기술의 발전은 상당히 느린 상황에서, 음성인식 기술은 실용화에 많은 어려움을 겪고 있습니다. 질문.

현재 많은 기업에서 음성 인식률이 97%, 심지어 98%에 이르렀다고 하는데 실제 적용해 보면 그 결과가 만족스럽지 않습니다. 좀 더 설득력 있는 예를 들자면, IBMT.JWatson 연구소가 개발한 중국의 음성 인식 시스템은 미국 DARPA가 후원하는 대회에서 3년 연속 CCTV '뉴스 네트워크' 프로그램을 인정받았다. 오류율은 5% 미만이었는데, 다른 콘텐츠를 식별할 때 그 격차가 매우 크다. 실제 응용 프로그램에서 인식률은 주로 다음 요소의 영향을 받습니다.

중국어 음성 인식의 경우 사투리나 억양이 있으면 인식률이 떨어집니다.

공공장소의 강한 소음은 인식 효과에 큰 영향을 미칩니다. 실험실 환경에서도 키보드를 치고 마이크를 움직이면 배경 소음이 됩니다.

중단 질문, 사람들이 말할 때 잠시 멈추면 기계가 문맥과 잘 연결되지 않아 의미를 원활하게 만들 수 없습니다.

여기서 '구술' 문제도 있습니다. 여기에는 자연어 이해와 음향이 모두 포함됩니다. 음성인식 기술의 궁극적인 목표는 '사람과 사람의 대화'처럼 자연스러운 '사람과 기계의 대화'를 가능하게 하는 것이다. 구어는 표준화되어 있지 않으며, 비정상적인 어순은 의미 분석 및 이해에 어려움을 가져옵니다.

음성 인식의 기술적 반복

이전에는 음성 인식 기술의 실제 적용에서 데이터 수집을 통해 악센트 및 새로운 어휘와 같은 문제를 해결할 수 있다는 지적이 있었습니다. 데이터의 양이 늘어나면 이 문제는 해결될 수 있습니다.

"중단"과 같은 다른 문제에는 DNN, CNN, BLSTM(양방향 장단기 기억 신경망) 등과 같은 다양한 딥 러닝 모델과 이를 점진적으로 해결하기 위한 새로운 알고리즘이 필요합니다.

기술을 사용하려면 먼저 온라인에 접속한 다음 현장에서 데이터를 수집하여 모델을 평가하고 최적화하며 사용자 경험을 개선하는 반복적인 프로세스가 필요한 경우가 많습니다. 최상의 결과를 얻으려면 여러 번의 반복이 필요합니다. 다른 AI 기술도 비슷하다. 오늘날 많은 AI 기술 사용자는 기술의 기능을 쉽게 이상화하고, 도입되자마자 즉각적인 결과를 확인해야 한다고 생각합니다. 실제 결과가 만족스럽지 못한 것을 보면 큰 격차를 느끼고 실망하고 포기하게 됩니다. 지능형 음성 기술이 GF 적용 수준에 도달한 것은 사실이지만, 실제로 구현될 때 직면할 수 있는 어려움을 충분히 이해하고 장기적인 전투에 정신적으로 준비해야 합니다.

음성 인식을 개발하는 방법

요약

지난 5~10년 동안 음성 인식 시스템의 적용이 더욱 광범위해질 것으로 예측할 수 있습니다. 다양한 음성인식 시스템 제품이 시장에 출시될 예정이다. 사람들은 또한 다양한 인식 시스템을 수용하기 위해 자신의 음성 패턴을 조정할 것입니다. 인간과 비교할 수 있는 음성 인식 시스템을 단기적으로 구축하는 것은 불가능하며, 이러한 시스템을 구축하는 것은 여전히 ​​인류에게 있어 음성 인식 시스템을 개선하는 방향으로 한 단계씩 나아갈 수 있을 뿐입니다. 인간만큼 완전한 음성인식 시스템이 언제 구축될지는 예측하기 어렵다. 1960년대처럼 오늘날의 VLSI 기술이 우리 사회에 이렇게 큰 영향을 미칠 것이라고 누가 예측이나 했겠는가.

위 내용은 음성 인식을 개발하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

Windows 11에서 음성 인식을 비활성화하는 방법 Windows 11에서 음성 인식을 비활성화하는 방법 May 01, 2023 am 09:13 AM

&lt;p&gt;Microsoft의 최신 운영 체제인 Windows 11도 Windows 10과 유사한 음성 인식 옵션을 제공합니다. &lt;/p&gt;&lt;p&gt;음성 인식을 오프라인으로 사용할 수도 있고, 인터넷 연결을 통해 사용할 수도 있다는 점은 주목할 만합니다. 음성 인식을 사용하면 음성을 사용하여 특정 응용 프로그램을 제어하고 Word 문서에 텍스트를 받아쓰게 할 수도 있습니다. </p><p>Microsoft의 음성 인식 서비스는 완전한 기능 세트를 제공하지 않습니다. 관심 있는 사용자는 최고의 음성 인식 앱을 확인해 보세요.

Windows 11에서 텍스트 음성 변환 및 음성 인식 기술을 어떻게 사용합니까? Windows 11에서 텍스트 음성 변환 및 음성 인식 기술을 어떻게 사용합니까? Apr 24, 2023 pm 03:28 PM

Windows 10과 마찬가지로 Windows 11 컴퓨터에는 텍스트 음성 변환 기능이 있습니다. TTS라고도 알려진 텍스트 음성 변환 기능을 사용하면 자신의 목소리로 글을 쓸 수 있습니다. 마이크에 대고 말하면 컴퓨터는 텍스트 인식과 음성 합성을 결합하여 화면에 텍스트를 씁니다. 이는 말하는 동안 의식의 흐름을 수행할 수 있기 때문에 읽기나 쓰기에 어려움이 있는 경우 훌륭한 도구입니다. 이 편리한 도구를 사용하면 작가의 장벽을 극복할 수 있습니다. TTS는 비디오에 대한 음성 해설 스크립트를 생성하거나, 특정 단어의 발음을 확인하거나, Microsoft 내레이터를 통해 텍스트를 소리내어 듣고 싶은 경우에도 도움이 될 수 있습니다. 게다가 이 소프트웨어는 적절한 구두점을 추가하는 데 능숙하므로 좋은 문법도 배울 수 있습니다. 목소리

동영상 클리핑에서 음성을 자동으로 인식하고 자막을 생성하는 방법 자막 자동 생성 방법을 소개합니다. 동영상 클리핑에서 음성을 자동으로 인식하고 자막을 생성하는 방법 자막 자동 생성 방법을 소개합니다. Mar 14, 2024 pm 08:10 PM

이 플랫폼에서 일부 음성 생성 자막 기능을 어떻게 구현합니까? 품질을 높이기 위해 일부 비디오를 만들거나 일부 이야기를 설명할 때 모든 사람이 일부 정보를 더 잘 이해할 수 있도록 자막을 추가해야 합니다. 위 영상 중. 표현에도 중요한 역할을 하지만 자동 음성 인식과 자막 생성 기능에 익숙하지 않은 사용자가 많습니다. 어디에 있든 쉽게 다양한 선택을 할 수 있습니다. 기능적인 스킬 등을 천천히 이해해야 하므로 서둘러 에디터와 함께 살펴보는 것도 놓치지 마세요.​

WebSocket과 JavaScript를 사용하여 온라인 음성 인식 시스템을 구현하는 방법 WebSocket과 JavaScript를 사용하여 온라인 음성 인식 시스템을 구현하는 방법 Dec 17, 2023 pm 02:54 PM

WebSocket 및 JavaScript를 사용하여 온라인 음성 인식 시스템을 구현하는 방법 소개: 지속적인 기술 개발로 음성 인식 기술은 인공 지능 분야의 중요한 부분이 되었습니다. WebSocket과 JavaScript를 기반으로 한 온라인 음성 인식 시스템은 낮은 대기 시간, 실시간, 크로스 플랫폼이라는 특징을 갖고 있으며 널리 사용되는 솔루션이 되었습니다. 이 기사에서는 WebSocket과 JavaScript를 사용하여 온라인 음성 인식 시스템을 구현하는 방법을 소개합니다.

WIN10 시스템에서 음성 인식을 끄는 자세한 방법 WIN10 시스템에서 음성 인식을 끄는 자세한 방법 Mar 27, 2024 pm 02:36 PM

1. 제어판에 들어가서 [음성 인식] 옵션을 찾아 켜세요. 2. 음성 인식 페이지가 나타나면 [음성 고급 옵션]을 선택하세요. 3. 마지막으로 음성 속성 창의 사용자 설정 열에서 [시작 시 음성 인식 실행]을 선택 취소하세요.

음성 음성 인식의 오디오 품질 문제 음성 음성 인식의 오디오 품질 문제 Oct 08, 2023 am 08:28 AM

음성인식에 있어 오디오 품질 문제는 구체적인 코드 예시가 필요하다. 최근 인공지능 기술의 급속한 발전으로 음성인식(Automatic Speech Recognition, ASR이라고도 함)이 널리 활용되고 연구되고 있다. 그러나 실제 응용 분야에서는 ASR 알고리즘의 정확성과 성능에 직접적인 영향을 미치는 오디오 품질 문제에 직면하는 경우가 많습니다. 이 문서에서는 음성 음성 인식의 오디오 품질 문제에 중점을 두고 구체적인 코드 예제를 제공합니다. 음성 음성의 오디오 품질

OpenAI의 Whisper 모델을 이용한 음성인식 OpenAI의 Whisper 모델을 이용한 음성인식 Apr 12, 2023 pm 05:28 PM

음성 인식은 컴퓨터가 인간의 말을 이해하고 이를 텍스트로 변환할 수 있도록 하는 인공 지능 분야입니다. 이 기술은 Alexa 및 다양한 챗봇 애플리케이션과 같은 장치에 사용됩니다. 우리가 하는 가장 일반적인 일은 음성 전사인데, 이를 전사나 자막으로 변환할 수 있습니다. wav2vec2, Conformer 및 Hubert와 같은 최첨단 모델의 최근 개발로 음성 인식 분야가 크게 발전했습니다. 이러한 모델은 사람이 레이블을 지정한 데이터 없이 원시 오디오에서 학습하는 기술을 사용하므로 레이블이 지정되지 않은 음성의 대규모 데이터 세트를 효율적으로 사용할 수 있습니다. 또한 학술 감독 데이터 세트에서 사용되는 것보다 훨씬 많은 최대 1,000,000시간의 교육 데이터를 사용하도록 확장되었습니다.

음성 성별 인식 시 화자 변화 문제 음성 성별 인식 시 화자 변화 문제 Oct 08, 2023 pm 02:22 PM

음성 성별 인식의 화자 변화 문제는 특정 코드 예제가 필요합니다. 음성 기술의 급속한 발전으로 인해 음성 성별 인식은 점점 더 중요한 분야가 되었습니다. 전화 고객 서비스, 음성 지원 등과 같은 다양한 애플리케이션 시나리오에서 널리 사용됩니다. 그러나 음성 성별 인식에서는 화자 가변성이라는 문제에 자주 직면합니다. 화자 변이는 개인별 목소리의 발음 특성 차이를 의미합니다. 개인의 목소리 특성은 성별, 나이, 목소리 등 다양한 요인의 영향을 받기 때문입니다.

See all articles