발화를 통해 발화의 강도(크기)를 분석하고 싶습니다.
저는 과학개가 아닌 공학견이고, 오디오 신호 분석에 있어서는 아웃사이더이기 때문에 FFT만 잠깐 봤기 때문에 나만의 음성 강도 분석 방법에 불안감을 느낍니다. 이 분야의 전문가가 지침을 제공할 수 있기를 바랍니다. 매우 감사합니다! ! !
다음은 음성 신호 데이터를 얻는 과정입니다. 123.wav 음성 파일은 바이두에서 합성한 mp3 트랜스코딩에서 나온 것이기 때문에 이 음성에 잡음이 있어도 최소화되어야 합니다. 여기서는 필터링할 필요가 없습니다(필터링해도 잘 모르겠습니다.) 필터 계수는 무엇이어야 하는지). 현 시점에서는 문제가 없을 것 같은데요?
으아아아파형 그래프(시간 길이는 약 1.8초)
이 음성을 재생할 때 음성의 강도를 알리고 싶지만 분명히 주파수가 너무 빨라서는 안 됩니다. 예를 들어 통계를 한 번 보세요. 0.2초마다가 더 적절할 수 있습니다.
두 가지 아이디어가 있지만 잘 모르겠고 안전하지 않다고 느껴집니다.
저는 오디오 신호 처리를 이해하지 못하기 때문에 이 두 가지 솔루션 중 하나가 음성 강도를 나타낼 수 있는지 전혀 모르겠습니다. 아니면 다른 방법을 사용해야 합니다.
요약하면 질문 2개:
으아아아
소리는 기계적 진동파
강도는 진폭입니다
고음과 저음은 주파수입니다