ホームページ バックエンド開発 Golang Golang を使用して Web アプリケーションの音声処理を実装する方法

Golang を使用して Web アプリケーションの音声処理を実装する方法

Jun 25, 2023 am 09:50 AM
golang ウェブアプリケーション オーディオ処理

インターネットの発展に伴い、音声処理はますます重要なタスクになっています。音声処理の実装は、Web アプリケーションに必要なスキルです。高速かつ効率的なプログラミング言語である Golang は、Web アプリケーションのオーディオ処理の実装にも使用できます。

この記事では、Golang を使用して、音声ファイルのアップロード、音声形式の変換、音声特徴の抽出など、Web アプリケーションの音声処理を実装する方法を紹介します。

1. 音声ファイルのアップロード

音声処理を実装する前に、まず音声ファイルをアップロードする必要があります。サードパーティ パッケージ gin を Golang で使用すると、Web アプリケーションの迅速な開発を実現できます。

ファイル アップロードを実装するには、次に示すように、HTML コードに input タグを追加してファイル アップロード ページを実装する必要があります。

<html>
  <head>
    <title>音频文件上传</title>
  </head>
  <body>
    <form enctype="multipart/form-data" action="/upload" method="post">
      <input type="file" name="file" />
      <input type="submit" value="上传" />
    </form>
  </body>
</html>
ログイン後にコピー

その後、gin を使用して次のことができます。 Golang でファイルアップロードを実装する 処理関数は次のとおりです:

func uploadFile(c *gin.Context) {
  file, err := c.FormFile("file")
  if err != nil {
    log.Println(err)
    c.String(http.StatusBadRequest, "Bad request")
    return
  }

  // 保存上传的文件
  err = c.SaveUploadedFile(file, file.Filename)
  if err != nil {
    log.Println(err)
    c.String(http.StatusInternalServerError, "Internal server error")
    return
  }

  c.String(http.StatusOK, fmt.Sprintf("'%s' uploaded!", file.Filename))
}
ログイン後にコピー

2. 音声フォーマット変換

音声処理を実装する前に、アップロードされた音声ファイルのフォーマットを変換する必要があります。後続の処理関数で使用できます。 Golang のサードパーティ パッケージ goav を使用して、オーディオ形式の変換を実装できます。

まず、goav 用の FFmpeg をインストールする必要があります。Ubuntu システムでは、次のコマンドを使用してインストールできます:

sudo apt install ffmpeg
ログイン後にコピー

その後、goav を使用して Golang のオーディオ形式を変換できます。 MP3 形式を WAV に変換する場合 形式は次のとおりです:

func convertAudioFormat(inputFile string, outputFile string) error {
  ctx := avutil.AvAllocContext()
  defer avutil.AvFree(ctx)

  // 打开输入音频文件
  if avformat.AvformatOpenInput(&ctx, inputFile, nil, nil) != 0 {
    return errors.New("无法打开输入音频文件")
  }
  defer avformat.AvformatCloseInput(ctx)

  // 检索音频流信息
  if avformat.AvformatFindStreamInfo(ctx, nil) < 0 {
    return errors.New("无法获取音频流信息")
  }

  // 寻找音频流索引
  audioIndex := -1
  for i := 0; i < int(ctx.NbStreams()); i++ {
    if ctx.Streams()[i].CodecParameters().CodecType() == avcodec.AVMEDIA_TYPE_AUDIO {
      audioIndex = i
      break
    }
  }
  if audioIndex < 0 {
    return errors.New("音频流不存在")
  }

  // 打开音频解码器
  codecParams := ctx.Streams()[audioIndex].CodecParameters()
  codec := avcodec.AvcodecFindDecoder(codecParams.CodecId())
  if codec == nil {
    return errors.New("无法打开音频解码器")
  }
  if codec.AvcodecOpen(codecParams) != 0 {
    return errors.New("无法打开音频解码器")
  }
  defer codec.AvcodecClose()

  // 打开输出音频文件
  outctx := avformat.AvformatAllocContext()
  defer avformat.AvformatFreeContext(outctx)
  if avformat.AvformatAllocOutputContext2(&outctx, nil, "wav", outputFile) != 0 {
    return errors.New("无法打开输出音频文件")
  }
  defer func() {
    avio.AvioClose(outctx.Pb())
    avformat.AvformatFreeContext(outctx)
  }()

  // 写入音频流头部信息
  stream := avformat.AvformatNewStream(outctx, nil)
  defer avutil.AvFree(stream.CodecParameters())
  if avcodec.AvCodecParametersCopy(stream.CodecParameters(), codecParams) != 0 {
    return errors.New("无法复制音频参数")
  }

  // 写入文件头部信息
  if outctx.Format().Flags()&avformat.AVFMT_NOFILE == 0 {
    if avio.AvioOpen(&outctx.Pb(), outputFile, avutil.AVIO_FLAG_WRITE) < 0 {
      return errors.New("无法打开输出文件")
    }
  }
  if avformat.AvformatWriteHeader(outctx, nil) < 0 {
    return errors.New("无法写入文件头部信息")
  }

  // 转换音频格式并写入文件
  packet := avcodec.AvPacketAlloc()
  defer avcodec.AvPacketUnref(packet)
  for {
    frame, err := codec.AvcodecReceiveFrame(packet)
    if err != nil {
      if err == avutil.ErrEOF || err == avutil.ErrEAGAIN {
        break
      } else {
        return errors.New("无法接收音频帧")
      }
    }
    if frame.Pts() != avutil.AvNoPts && codec.Avctx().TimeBase().Den() > 0 {
      frame.SetPts(avutil.AvRescaleQ(frame.Pts(), codec.Avctx().TimeBase(), stream.TimeBase()))
    }
    if frame.PktDts() != avutil.AvNoPts && codec.Avctx().TimeBase().Den() > 0 {
      frame.SetPktDts(avutil.AvRescaleQ(frame.PktDts(), codec.Avctx().TimeBase(), stream.TimeBase()))
    }
    if frame.PktPts() != avutil.AvNoPts && codec.Avctx().TimeBase().Den() > 0 {
      frame.SetPktPts(avutil.AvRescaleQ(frame.PktPts(), codec.Avctx().TimeBase(), stream.TimeBase()))
    }
    if avcodec.AvCodecSendFrame(codec, frame) != 0 {
      return errors.New("无法发送音频帧")
    }
    for {
      err := avcodec.AvCodecReceivePacket(codec, packet)
      if err != nil {
        if err == avutil.ErrEOF || err == avutil.ErrEAGAIN {
          break
        } else {
          return errors.New("无法接收音频数据包")
        }
      }
      packet.SetStreamIndex(stream.Index())
      if avformat.AvInterleavedWriteFrame(outctx, packet) < 0 {
        return errors.New("无法写入音频数据包")
      }
      avcodec.AvPacketUnref(packet)
    }
    avutil.AvFrameFree(&frame)
  }

  // 写入文件尾部信息
  if avformat.AvWriteTrailer(outctx) < 0 {
    return errors.New("无法写入文件尾部信息")
  }

  return nil
}
ログイン後にコピー

3. 音声特徴抽出

最後に、音声ファイルを処理するためにいくつかの音声特徴抽出アルゴリズムを実装する必要があります。

たとえば、go-dsp パッケージを使用して短時間フーリエ変換 (STFT) を実装し、オーディオ ファイルをスペクトログラムに変換できます。以下に示すように:

func stft(signal []float64, windowSize int, overlap float64) [][]complex128 {
  hopSize := int(float64(windowSize) * (1.0 - overlap))
  fftSize := windowSize / 2

  stftMatrix := make([][]complex128, 0)

  for i := 0; i+windowSize < len(signal); i += hopSize {
    segment := signal[i : i+windowSize]
    window := dsp.NewWindow(windowSize, dsp.Hamming)

    fftIn := make([]complex128, windowSize)
    for j := range segment {
      fftIn[j] = complex(segment[j], 0)
    }
    window.Apply(fftIn)
    fftOut := make([]complex128, fftSize)
    for j := range fftOut {
      fftOut[j] = 0
    }
    fft.FFT(fftOut, fftIn)

    stftRow := make([]complex128, fftSize)
    for j := range stftRow {
      stftRow[j] = fftOut[j]
    }
    stftMatrix = append(stftMatrix, stftRow)
  }

  return stftMatrix
}
ログイン後にコピー

さらに、go-dsp パッケージを使用して、MFCC (メル ケプストラム係数) や ZCR (ゼロ クロッシング レート) などの他のオーディオ特徴抽出アルゴリズムを実装することもできます。

要約すると、この記事では、Golang を使用して、音声ファイルのアップロード、音声形式の変換、音声特徴抽出などの Web アプリケーションの音声処理を実装する方法を紹介します。これらのスキルは、Web アプリケーションを開発する開発者がオーディオ データをより適切に処理し、ユーザーに優れたユーザー エクスペリエンスを提供するのに役立ちます。

以上がGolang を使用して Web アプリケーションの音声処理を実装する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Golang を使用してファイルを安全に読み書きするにはどうすればよいですか? Golang を使用してファイルを安全に読み書きするにはどうすればよいですか? Jun 06, 2024 pm 05:14 PM

Go ではファイルを安全に読み書きすることが重要です。ガイドラインには以下が含まれます。 ファイル権限の確認 遅延を使用してファイルを閉じる ファイル パスの検証 コンテキスト タイムアウトの使用 これらのガイドラインに従うことで、データのセキュリティとアプリケーションの堅牢性が確保されます。

Golang データベース接続用の接続プールを構成するにはどうすればよいですか? Golang データベース接続用の接続プールを構成するにはどうすればよいですか? Jun 06, 2024 am 11:21 AM

Go データベース接続の接続プーリングを構成するにはどうすればよいですか?データベース接続を作成するには、database/sql パッケージの DB タイプを使用します。同時接続の最大数を制御するには、MaxOpenConns を設定します。アイドル状態の接続の最大数を設定するには、ConnMaxLifetime を設定します。

GolangでJSONデータをデータベースに保存するにはどうすればよいですか? GolangでJSONデータをデータベースに保存するにはどうすればよいですか? Jun 06, 2024 am 11:24 AM

JSON データは、gjson ライブラリまたは json.Unmarshal 関数を使用して MySQL データベースに保存できます。 gjson ライブラリは、JSON フィールドを解析するための便利なメソッドを提供します。json.Unmarshal 関数には、JSON データをアンマーシャリングするためのターゲット型ポインターが必要です。どちらの方法でも、SQL ステートメントを準備し、データをデータベースに永続化するために挿入操作を実行する必要があります。

Golang フレームワークと Go フレームワーク: 内部アーキテクチャと外部機能の比較 Golang フレームワークと Go フレームワーク: 内部アーキテクチャと外部機能の比較 Jun 06, 2024 pm 12:37 PM

GoLang フレームワークと Go フレームワークの違いは、内部アーキテクチャと外部機能に反映されています。 GoLang フレームワークは Go 標準ライブラリに基づいてその機能を拡張していますが、Go フレームワークは特定の目的を達成するための独立したライブラリで構成されています。 GoLang フレームワークはより柔軟であり、Go フレームワークは使いやすいです。 GoLang フレームワークはパフォーマンスの点でわずかに優れており、Go フレームワークはよりスケーラブルです。ケース: gin-gonic (Go フレームワーク) は REST API の構築に使用され、Echo (GoLang フレームワーク) は Web アプリケーションの構築に使用されます。

Golang の正規表現に一致する最初の部分文字列を見つけるにはどうすればよいですか? Golang の正規表現に一致する最初の部分文字列を見つけるにはどうすればよいですか? Jun 06, 2024 am 10:51 AM

FindStringSubmatch 関数は、正規表現に一致する最初の部分文字列を検索します。この関数は、最初の要素が一致した文字列全体で、後続の要素が個々の部分文字列である、一致する部分文字列を含むスライスを返します。コード例: regexp.FindStringSubmatch(text,pattern) は、一致する部分文字列のスライスを返します。実際のケース: 電子メール アドレスのドメイン名を照合するために使用できます。たとえば、email:="user@example.com", pattern:=@([^\s]+)$ を使用してドメイン名を照合します。 [1]。

フロントエンドからバックエンドの開発に変身すると、JavaやGolangを学ぶことはより有望ですか? フロントエンドからバックエンドの開発に変身すると、JavaやGolangを学ぶことはより有望ですか? Apr 02, 2025 am 09:12 AM

バックエンド学習パス:フロントエンドからバックエンドへの探査の旅は、フロントエンド開発から変わるバックエンド初心者として、すでにNodeJSの基盤を持っています...

Golang で事前定義されたタイムゾーンを使用するにはどうすればよいですか? Golang で事前定義されたタイムゾーンを使用するにはどうすればよいですか? Jun 06, 2024 pm 01:02 PM

Go 言語で事前定義されたタイムゾーンを使用するには、次の手順が必要です。 「time」パッケージをインポートします。 LoadLocation 関数を使用して特定のタイム ゾーンを読み込みます。読み込まれたタイムゾーンは、Time オブジェクトの作成、時刻文字列の解析、日付と時刻の変換の実行などの操作で使用します。事前定義されたタイム ゾーン機能の適用を説明するために、異なるタイム ゾーンを使用して日付を比較します。

GOのどのライブラリが大企業によって開発されていますか、それとも有名なオープンソースプロジェクトによって提供されていますか? GOのどのライブラリが大企業によって開発されていますか、それとも有名なオープンソースプロジェクトによって提供されていますか? Apr 02, 2025 pm 04:12 PM

大企業または有名なオープンソースプロジェクトによって開発されたGOのどのライブラリが開発されていますか? GOでプログラミングするとき、開発者はしばしばいくつかの一般的なニーズに遭遇します...

See all articles