Dengan perkembangan Internet, pemprosesan audio telah menjadi tugas yang semakin penting. Melaksanakan pemprosesan audio adalah kemahiran yang diperlukan untuk aplikasi web. Sebagai bahasa pengaturcaraan yang pantas dan cekap, Golang juga boleh digunakan untuk melaksanakan pemprosesan audio untuk aplikasi web.
Dalam artikel ini, kami akan memperkenalkan cara menggunakan Golang untuk melaksanakan pemprosesan audio untuk aplikasi web, termasuk muat naik fail audio, penukaran format audio dan pengekstrakan ciri audio.
1. Muat naik fail audio
Sebelum melaksanakan pemprosesan audio, anda perlu memuat naik fail audio terlebih dahulu. Gin pakej pihak ketiga boleh digunakan di Golang untuk mencapai pembangunan pesat aplikasi web.
Untuk melaksanakan muat naik fail, anda perlu menambah tag input dalam kod HTML untuk melaksanakan halaman muat naik fail, seperti yang ditunjukkan di bawah:
<html> <head> <title>音频文件上传</title> </head> <body> <form enctype="multipart/form-data" action="/upload" method="post"> <input type="file" name="file" /> <input type="submit" value="上传" /> </form> </body> </html>
Kemudian, anda boleh menggunakan gin di Golang untuk melaksanakan fungsi pemprosesan muat naik fail, seperti yang ditunjukkan di bawah:
func uploadFile(c *gin.Context) { file, err := c.FormFile("file") if err != nil { log.Println(err) c.String(http.StatusBadRequest, "Bad request") return } // 保存上传的文件 err = c.SaveUploadedFile(file, file.Filename) if err != nil { log.Println(err) c.String(http.StatusInternalServerError, "Internal server error") return } c.String(http.StatusOK, fmt.Sprintf("'%s' uploaded!", file.Filename)) }
2. Penukaran format audio
Sebelum pemprosesan audio dilaksanakan, format fail audio yang dimuat naik perlu ditukar supaya ia boleh digunakan oleh fungsi pemprosesan seterusnya. Anda boleh menggunakan goav pakej pihak ketiga di Golang untuk melaksanakan penukaran format audio.
Pertama, anda perlu memasang FFmpeg untuk goav Dalam sistem Ubuntu, anda boleh menggunakan arahan berikut untuk memasangnya:
sudo apt install ffmpeg
Kemudian, anda boleh menggunakan goav untuk menukar format audio dalam Golang, seperti menukar format MP3 kepada format WAV. , seperti berikut:
func convertAudioFormat(inputFile string, outputFile string) error { ctx := avutil.AvAllocContext() defer avutil.AvFree(ctx) // 打开输入音频文件 if avformat.AvformatOpenInput(&ctx, inputFile, nil, nil) != 0 { return errors.New("无法打开输入音频文件") } defer avformat.AvformatCloseInput(ctx) // 检索音频流信息 if avformat.AvformatFindStreamInfo(ctx, nil) < 0 { return errors.New("无法获取音频流信息") } // 寻找音频流索引 audioIndex := -1 for i := 0; i < int(ctx.NbStreams()); i++ { if ctx.Streams()[i].CodecParameters().CodecType() == avcodec.AVMEDIA_TYPE_AUDIO { audioIndex = i break } } if audioIndex < 0 { return errors.New("音频流不存在") } // 打开音频解码器 codecParams := ctx.Streams()[audioIndex].CodecParameters() codec := avcodec.AvcodecFindDecoder(codecParams.CodecId()) if codec == nil { return errors.New("无法打开音频解码器") } if codec.AvcodecOpen(codecParams) != 0 { return errors.New("无法打开音频解码器") } defer codec.AvcodecClose() // 打开输出音频文件 outctx := avformat.AvformatAllocContext() defer avformat.AvformatFreeContext(outctx) if avformat.AvformatAllocOutputContext2(&outctx, nil, "wav", outputFile) != 0 { return errors.New("无法打开输出音频文件") } defer func() { avio.AvioClose(outctx.Pb()) avformat.AvformatFreeContext(outctx) }() // 写入音频流头部信息 stream := avformat.AvformatNewStream(outctx, nil) defer avutil.AvFree(stream.CodecParameters()) if avcodec.AvCodecParametersCopy(stream.CodecParameters(), codecParams) != 0 { return errors.New("无法复制音频参数") } // 写入文件头部信息 if outctx.Format().Flags()&avformat.AVFMT_NOFILE == 0 { if avio.AvioOpen(&outctx.Pb(), outputFile, avutil.AVIO_FLAG_WRITE) < 0 { return errors.New("无法打开输出文件") } } if avformat.AvformatWriteHeader(outctx, nil) < 0 { return errors.New("无法写入文件头部信息") } // 转换音频格式并写入文件 packet := avcodec.AvPacketAlloc() defer avcodec.AvPacketUnref(packet) for { frame, err := codec.AvcodecReceiveFrame(packet) if err != nil { if err == avutil.ErrEOF || err == avutil.ErrEAGAIN { break } else { return errors.New("无法接收音频帧") } } if frame.Pts() != avutil.AvNoPts && codec.Avctx().TimeBase().Den() > 0 { frame.SetPts(avutil.AvRescaleQ(frame.Pts(), codec.Avctx().TimeBase(), stream.TimeBase())) } if frame.PktDts() != avutil.AvNoPts && codec.Avctx().TimeBase().Den() > 0 { frame.SetPktDts(avutil.AvRescaleQ(frame.PktDts(), codec.Avctx().TimeBase(), stream.TimeBase())) } if frame.PktPts() != avutil.AvNoPts && codec.Avctx().TimeBase().Den() > 0 { frame.SetPktPts(avutil.AvRescaleQ(frame.PktPts(), codec.Avctx().TimeBase(), stream.TimeBase())) } if avcodec.AvCodecSendFrame(codec, frame) != 0 { return errors.New("无法发送音频帧") } for { err := avcodec.AvCodecReceivePacket(codec, packet) if err != nil { if err == avutil.ErrEOF || err == avutil.ErrEAGAIN { break } else { return errors.New("无法接收音频数据包") } } packet.SetStreamIndex(stream.Index()) if avformat.AvInterleavedWriteFrame(outctx, packet) < 0 { return errors.New("无法写入音频数据包") } avcodec.AvPacketUnref(packet) } avutil.AvFrameFree(&frame) } // 写入文件尾部信息 if avformat.AvWriteTrailer(outctx) < 0 { return errors.New("无法写入文件尾部信息") } return nil }
3 Pengekstrakan ciri audio
Akhir sekali, kami perlu melaksanakan beberapa algoritma pengekstrakan ciri audio untuk memproses fail audio.
Sebagai contoh, anda boleh menggunakan pakej go-dsp untuk melaksanakan transformasi Fourier masa pendek (STFT) untuk menukar fail audio kepada spektrogram. Seperti yang ditunjukkan di bawah:
func stft(signal []float64, windowSize int, overlap float64) [][]complex128 { hopSize := int(float64(windowSize) * (1.0 - overlap)) fftSize := windowSize / 2 stftMatrix := make([][]complex128, 0) for i := 0; i+windowSize < len(signal); i += hopSize { segment := signal[i : i+windowSize] window := dsp.NewWindow(windowSize, dsp.Hamming) fftIn := make([]complex128, windowSize) for j := range segment { fftIn[j] = complex(segment[j], 0) } window.Apply(fftIn) fftOut := make([]complex128, fftSize) for j := range fftOut { fftOut[j] = 0 } fft.FFT(fftOut, fftIn) stftRow := make([]complex128, fftSize) for j := range stftRow { stftRow[j] = fftOut[j] } stftMatrix = append(stftMatrix, stftRow) } return stftMatrix }
Selain itu, anda juga boleh menggunakan pakej go-dsp untuk melaksanakan algoritma pengekstrakan ciri audio lain, seperti MFCC (Mel Cepstral Coefficient) atau ZCR (Zero Crossing Rate), dsb.
Ringkasnya, artikel ini memperkenalkan cara menggunakan Golang untuk melaksanakan pemprosesan audio untuk aplikasi web, termasuk muat naik fail audio, penukaran format audio dan pengekstrakan ciri audio. Kemahiran ini boleh membantu pembangun membangunkan aplikasi web memproses data audio dengan lebih baik dan memberikan pengguna pengalaman pengguna yang lebih baik.
Atas ialah kandungan terperinci Bagaimana untuk melaksanakan pemprosesan audio untuk aplikasi web menggunakan Golang. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!