インターネットの発展に伴い、音声処理はますます重要なタスクになっています。音声処理の実装は、Web アプリケーションに必要なスキルです。高速かつ効率的なプログラミング言語である Golang は、Web アプリケーションのオーディオ処理の実装にも使用できます。
この記事では、Golang を使用して、音声ファイルのアップロード、音声形式の変換、音声特徴の抽出など、Web アプリケーションの音声処理を実装する方法を紹介します。
1. 音声ファイルのアップロード
音声処理を実装する前に、まず音声ファイルをアップロードする必要があります。サードパーティ パッケージ gin を Golang で使用すると、Web アプリケーションの迅速な開発を実現できます。
ファイル アップロードを実装するには、次に示すように、HTML コードに input タグを追加してファイル アップロード ページを実装する必要があります。
<html> <head> <title>音频文件上传</title> </head> <body> <form enctype="multipart/form-data" action="/upload" method="post"> <input type="file" name="file" /> <input type="submit" value="上传" /> </form> </body> </html>
その後、gin を使用して次のことができます。 Golang でファイルアップロードを実装する 処理関数は次のとおりです:
func uploadFile(c *gin.Context) { file, err := c.FormFile("file") if err != nil { log.Println(err) c.String(http.StatusBadRequest, "Bad request") return } // 保存上传的文件 err = c.SaveUploadedFile(file, file.Filename) if err != nil { log.Println(err) c.String(http.StatusInternalServerError, "Internal server error") return } c.String(http.StatusOK, fmt.Sprintf("'%s' uploaded!", file.Filename)) }
2. 音声フォーマット変換
音声処理を実装する前に、アップロードされた音声ファイルのフォーマットを変換する必要があります。後続の処理関数で使用できます。 Golang のサードパーティ パッケージ goav を使用して、オーディオ形式の変換を実装できます。
まず、goav 用の FFmpeg をインストールする必要があります。Ubuntu システムでは、次のコマンドを使用してインストールできます:
sudo apt install ffmpeg
その後、goav を使用して Golang のオーディオ形式を変換できます。 MP3 形式を WAV に変換する場合 形式は次のとおりです:
func convertAudioFormat(inputFile string, outputFile string) error { ctx := avutil.AvAllocContext() defer avutil.AvFree(ctx) // 打开输入音频文件 if avformat.AvformatOpenInput(&ctx, inputFile, nil, nil) != 0 { return errors.New("无法打开输入音频文件") } defer avformat.AvformatCloseInput(ctx) // 检索音频流信息 if avformat.AvformatFindStreamInfo(ctx, nil) < 0 { return errors.New("无法获取音频流信息") } // 寻找音频流索引 audioIndex := -1 for i := 0; i < int(ctx.NbStreams()); i++ { if ctx.Streams()[i].CodecParameters().CodecType() == avcodec.AVMEDIA_TYPE_AUDIO { audioIndex = i break } } if audioIndex < 0 { return errors.New("音频流不存在") } // 打开音频解码器 codecParams := ctx.Streams()[audioIndex].CodecParameters() codec := avcodec.AvcodecFindDecoder(codecParams.CodecId()) if codec == nil { return errors.New("无法打开音频解码器") } if codec.AvcodecOpen(codecParams) != 0 { return errors.New("无法打开音频解码器") } defer codec.AvcodecClose() // 打开输出音频文件 outctx := avformat.AvformatAllocContext() defer avformat.AvformatFreeContext(outctx) if avformat.AvformatAllocOutputContext2(&outctx, nil, "wav", outputFile) != 0 { return errors.New("无法打开输出音频文件") } defer func() { avio.AvioClose(outctx.Pb()) avformat.AvformatFreeContext(outctx) }() // 写入音频流头部信息 stream := avformat.AvformatNewStream(outctx, nil) defer avutil.AvFree(stream.CodecParameters()) if avcodec.AvCodecParametersCopy(stream.CodecParameters(), codecParams) != 0 { return errors.New("无法复制音频参数") } // 写入文件头部信息 if outctx.Format().Flags()&avformat.AVFMT_NOFILE == 0 { if avio.AvioOpen(&outctx.Pb(), outputFile, avutil.AVIO_FLAG_WRITE) < 0 { return errors.New("无法打开输出文件") } } if avformat.AvformatWriteHeader(outctx, nil) < 0 { return errors.New("无法写入文件头部信息") } // 转换音频格式并写入文件 packet := avcodec.AvPacketAlloc() defer avcodec.AvPacketUnref(packet) for { frame, err := codec.AvcodecReceiveFrame(packet) if err != nil { if err == avutil.ErrEOF || err == avutil.ErrEAGAIN { break } else { return errors.New("无法接收音频帧") } } if frame.Pts() != avutil.AvNoPts && codec.Avctx().TimeBase().Den() > 0 { frame.SetPts(avutil.AvRescaleQ(frame.Pts(), codec.Avctx().TimeBase(), stream.TimeBase())) } if frame.PktDts() != avutil.AvNoPts && codec.Avctx().TimeBase().Den() > 0 { frame.SetPktDts(avutil.AvRescaleQ(frame.PktDts(), codec.Avctx().TimeBase(), stream.TimeBase())) } if frame.PktPts() != avutil.AvNoPts && codec.Avctx().TimeBase().Den() > 0 { frame.SetPktPts(avutil.AvRescaleQ(frame.PktPts(), codec.Avctx().TimeBase(), stream.TimeBase())) } if avcodec.AvCodecSendFrame(codec, frame) != 0 { return errors.New("无法发送音频帧") } for { err := avcodec.AvCodecReceivePacket(codec, packet) if err != nil { if err == avutil.ErrEOF || err == avutil.ErrEAGAIN { break } else { return errors.New("无法接收音频数据包") } } packet.SetStreamIndex(stream.Index()) if avformat.AvInterleavedWriteFrame(outctx, packet) < 0 { return errors.New("无法写入音频数据包") } avcodec.AvPacketUnref(packet) } avutil.AvFrameFree(&frame) } // 写入文件尾部信息 if avformat.AvWriteTrailer(outctx) < 0 { return errors.New("无法写入文件尾部信息") } return nil }
3. 音声特徴抽出
最後に、音声ファイルを処理するためにいくつかの音声特徴抽出アルゴリズムを実装する必要があります。
たとえば、go-dsp パッケージを使用して短時間フーリエ変換 (STFT) を実装し、オーディオ ファイルをスペクトログラムに変換できます。以下に示すように:
func stft(signal []float64, windowSize int, overlap float64) [][]complex128 { hopSize := int(float64(windowSize) * (1.0 - overlap)) fftSize := windowSize / 2 stftMatrix := make([][]complex128, 0) for i := 0; i+windowSize < len(signal); i += hopSize { segment := signal[i : i+windowSize] window := dsp.NewWindow(windowSize, dsp.Hamming) fftIn := make([]complex128, windowSize) for j := range segment { fftIn[j] = complex(segment[j], 0) } window.Apply(fftIn) fftOut := make([]complex128, fftSize) for j := range fftOut { fftOut[j] = 0 } fft.FFT(fftOut, fftIn) stftRow := make([]complex128, fftSize) for j := range stftRow { stftRow[j] = fftOut[j] } stftMatrix = append(stftMatrix, stftRow) } return stftMatrix }
さらに、go-dsp パッケージを使用して、MFCC (メル ケプストラム係数) や ZCR (ゼロ クロッシング レート) などの他のオーディオ特徴抽出アルゴリズムを実装することもできます。
要約すると、この記事では、Golang を使用して、音声ファイルのアップロード、音声形式の変換、音声特徴抽出などの Web アプリケーションの音声処理を実装する方法を紹介します。これらのスキルは、Web アプリケーションを開発する開発者がオーディオ データをより適切に処理し、ユーザーに優れたユーザー エクスペリエンスを提供するのに役立ちます。
以上がGolang を使用して Web アプリケーションの音声処理を実装する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。