인터넷이 발달하면서 오디오 처리가 점점 더 중요한 작업이 되었습니다. 오디오 처리 구현은 웹 애플리케이션에 필요한 기술입니다. 빠르고 효율적인 프로그래밍 언어인 Golang은 웹 애플리케이션용 오디오 처리를 구현하는 데에도 사용할 수 있습니다.
이 글에서는 Golang을 사용하여 오디오 파일 업로드, 오디오 형식 변환, 오디오 특징 추출 등 웹 애플리케이션용 오디오 처리를 구현하는 방법을 소개합니다.
1. 오디오 파일 업로드
오디오 처리를 구현하기 전에 먼저 오디오 파일을 업로드해야 합니다. 타사 패키지 gin을 Golang에서 사용하여 웹 애플리케이션을 빠르게 개발할 수 있습니다.
파일 업로드를 구현하려면 먼저 아래와 같이 HTML 코드에 입력 태그를 추가하여 파일 업로드 페이지를 구현해야 합니다.
<html> <head> <title>音频文件上传</title> </head> <body> <form enctype="multipart/form-data" action="/upload" method="post"> <input type="file" name="file" /> <input type="submit" value="上传" /> </form> </body> </html>
그런 다음 Golang에서 gin을 사용하여 파일 업로드 처리 기능을 구현할 수 있습니다.
func uploadFile(c *gin.Context) { file, err := c.FormFile("file") if err != nil { log.Println(err) c.String(http.StatusBadRequest, "Bad request") return } // 保存上传的文件 err = c.SaveUploadedFile(file, file.Filename) if err != nil { log.Println(err) c.String(http.StatusInternalServerError, "Internal server error") return } c.String(http.StatusOK, fmt.Sprintf("'%s' uploaded!", file.Filename)) }
2. 오디오 형식 변환
오디오 처리를 구현하기 전에 업로드된 오디오 파일의 형식을 후속 처리 기능에서 사용할 수 있도록 변환해야 합니다. Golang의 타사 패키지 goav를 사용하여 오디오 형식 변환을 구현할 수 있습니다.
먼저 goav용 FFmpeg를 설치해야 합니다. Ubuntu 시스템에서는 다음 명령을 사용하여 설치할 수 있습니다.
sudo apt install ffmpeg
그런 다음 goav를 사용하여 MP3 형식을 WAV 형식으로 변환하는 등 Golang의 오디오 형식을 변환할 수 있습니다.
func convertAudioFormat(inputFile string, outputFile string) error { ctx := avutil.AvAllocContext() defer avutil.AvFree(ctx) // 打开输入音频文件 if avformat.AvformatOpenInput(&ctx, inputFile, nil, nil) != 0 { return errors.New("无法打开输入音频文件") } defer avformat.AvformatCloseInput(ctx) // 检索音频流信息 if avformat.AvformatFindStreamInfo(ctx, nil) < 0 { return errors.New("无法获取音频流信息") } // 寻找音频流索引 audioIndex := -1 for i := 0; i < int(ctx.NbStreams()); i++ { if ctx.Streams()[i].CodecParameters().CodecType() == avcodec.AVMEDIA_TYPE_AUDIO { audioIndex = i break } } if audioIndex < 0 { return errors.New("音频流不存在") } // 打开音频解码器 codecParams := ctx.Streams()[audioIndex].CodecParameters() codec := avcodec.AvcodecFindDecoder(codecParams.CodecId()) if codec == nil { return errors.New("无法打开音频解码器") } if codec.AvcodecOpen(codecParams) != 0 { return errors.New("无法打开音频解码器") } defer codec.AvcodecClose() // 打开输出音频文件 outctx := avformat.AvformatAllocContext() defer avformat.AvformatFreeContext(outctx) if avformat.AvformatAllocOutputContext2(&outctx, nil, "wav", outputFile) != 0 { return errors.New("无法打开输出音频文件") } defer func() { avio.AvioClose(outctx.Pb()) avformat.AvformatFreeContext(outctx) }() // 写入音频流头部信息 stream := avformat.AvformatNewStream(outctx, nil) defer avutil.AvFree(stream.CodecParameters()) if avcodec.AvCodecParametersCopy(stream.CodecParameters(), codecParams) != 0 { return errors.New("无法复制音频参数") } // 写入文件头部信息 if outctx.Format().Flags()&avformat.AVFMT_NOFILE == 0 { if avio.AvioOpen(&outctx.Pb(), outputFile, avutil.AVIO_FLAG_WRITE) < 0 { return errors.New("无法打开输出文件") } } if avformat.AvformatWriteHeader(outctx, nil) < 0 { return errors.New("无法写入文件头部信息") } // 转换音频格式并写入文件 packet := avcodec.AvPacketAlloc() defer avcodec.AvPacketUnref(packet) for { frame, err := codec.AvcodecReceiveFrame(packet) if err != nil { if err == avutil.ErrEOF || err == avutil.ErrEAGAIN { break } else { return errors.New("无法接收音频帧") } } if frame.Pts() != avutil.AvNoPts && codec.Avctx().TimeBase().Den() > 0 { frame.SetPts(avutil.AvRescaleQ(frame.Pts(), codec.Avctx().TimeBase(), stream.TimeBase())) } if frame.PktDts() != avutil.AvNoPts && codec.Avctx().TimeBase().Den() > 0 { frame.SetPktDts(avutil.AvRescaleQ(frame.PktDts(), codec.Avctx().TimeBase(), stream.TimeBase())) } if frame.PktPts() != avutil.AvNoPts && codec.Avctx().TimeBase().Den() > 0 { frame.SetPktPts(avutil.AvRescaleQ(frame.PktPts(), codec.Avctx().TimeBase(), stream.TimeBase())) } if avcodec.AvCodecSendFrame(codec, frame) != 0 { return errors.New("无法发送音频帧") } for { err := avcodec.AvCodecReceivePacket(codec, packet) if err != nil { if err == avutil.ErrEOF || err == avutil.ErrEAGAIN { break } else { return errors.New("无法接收音频数据包") } } packet.SetStreamIndex(stream.Index()) if avformat.AvInterleavedWriteFrame(outctx, packet) < 0 { return errors.New("无法写入音频数据包") } avcodec.AvPacketUnref(packet) } avutil.AvFrameFree(&frame) } // 写入文件尾部信息 if avformat.AvWriteTrailer(outctx) < 0 { return errors.New("无法写入文件尾部信息") } return nil }
3. 오디오 특징 추출
마지막으로 오디오 파일을 처리하려면 몇 가지 오디오 특징 추출 알고리즘을 구현해야 합니다.
예를 들어 go-dsp 패키지를 사용하면 STFT(단시간 푸리에 변환)를 구현하여 오디오 파일을 스펙트로그램으로 변환할 수 있습니다. 아래와 같이
func stft(signal []float64, windowSize int, overlap float64) [][]complex128 { hopSize := int(float64(windowSize) * (1.0 - overlap)) fftSize := windowSize / 2 stftMatrix := make([][]complex128, 0) for i := 0; i+windowSize < len(signal); i += hopSize { segment := signal[i : i+windowSize] window := dsp.NewWindow(windowSize, dsp.Hamming) fftIn := make([]complex128, windowSize) for j := range segment { fftIn[j] = complex(segment[j], 0) } window.Apply(fftIn) fftOut := make([]complex128, fftSize) for j := range fftOut { fftOut[j] = 0 } fft.FFT(fftOut, fftIn) stftRow := make([]complex128, fftSize) for j := range stftRow { stftRow[j] = fftOut[j] } stftMatrix = append(stftMatrix, stftRow) } return stftMatrix }
또한 go-dsp 패키지를 사용하여 MFCC(Mel Cepstral Coefficient) 또는 ZCR(Zero Crossing Rate) 등과 같은 다른 오디오 특징 추출 알고리즘을 구현할 수도 있습니다.
요약하자면 이 글에서는 Golang을 사용하여 오디오 파일 업로드, 오디오 형식 변환, 오디오 기능 추출 등 웹 애플리케이션용 오디오 처리를 구현하는 방법을 소개합니다. 이러한 기술은 웹 애플리케이션을 개발하는 개발자가 오디오 데이터를 더 잘 처리하고 사용자에게 더 나은 사용자 경험을 제공하는 데 도움이 될 수 있습니다.
위 내용은 Golang을 사용하여 웹 애플리케이션에 대한 오디오 처리를 구현하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!