皆さん、こんにちは。私は Kite です。
2 年前、オーディオ ファイルとビデオ ファイルをテキスト コンテンツに変換する必要は困難でした。しかし今では、わずか数分で簡単に解決できるようになりました。
一部の企業は、トレーニング データを取得するために、Douyin や Kuaishou などのショートビデオ プラットフォーム上のビデオを完全にクロールし、ビデオから音声を抽出し、テキスト形式に変換して使用していると言われています。ビッグデータ モデル トレーニング コーパス。
ビデオまたはオーディオ ファイルをテキストに変換する必要がある場合は、現在入手可能なこのオープン ソース ソリューションを試すことができます。たとえば、映画やテレビ番組のセリフが登場する特定の時点を検索できます。
早速、本題に入りましょう。
このソリューションは、OpenAI のオープン ソース Whisper です。もちろん、Python で書かれています。必要なのは、いくつかのパッケージをインストールし、数行のコードを記述するだけです。しばらく待つと (マシンのパフォーマンスや音声とビデオの長さによって異なります)、最終的なテキスト コンテンツが表示されます。非常に簡単です。
GitHub ウェアハウス アドレス: https://github.com/openai/whisper
かなり簡略化されていますが、プログラムはスタッフにとってまだ十分に合理化されていません。結局のところ、プログラマーはシンプルさと効率を好む傾向があります。 Whisper のインストールと呼び出しは比較的簡単ですが、PyTorch、ffmpeg、さらには Rust を個別にインストールする必要があります。
そこで、Whisper よりも高速かつ簡潔な Fast-Whisper が登場しました。 Fast-Whisper は、Whisper を単純にカプセル化したものではなく、CTranslate2 を使用して OpenAI の Whisper モデルを再構築したものです。 CTranslate2 は、Transformer モデルの効率的な推論エンジンです。
要約すると、Whisper よりも高速であり、公式発表では Whisper の 4 ~ 8 倍高速です。 GPUだけでなくCPUにも対応しており、壊れたMacでも使えます。
GitHub ウェアハウスのアドレス: https://github.com/SYSTRAN/faster-whisper
使用するには 2 つの手順だけが必要です。
pip install faster-whisper
from faster_whisper import WhisperModelmodel_size = "large-v3"# Run on GPU with FP16model = WhisperModel(model_size, device="cuda", compute_type="float16")# or run on GPU with INT8# model = WhisperModel(model_size, device="cuda", compute_type="int8_float16")# or run on CPU with INT8# model = WhisperModel(model_size, device="cpu", compute_type="int8")segments, info = model.transcribe("audio.mp3", beam_size=5)print("Detected language '%s' with probability %f" % (info.language, info.language_probability))for segment in segments:print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))
はい、とても簡単です。
たまたま友人が短いビデオを作成して、チキン スープに関する文学ビデオを投稿したいと考えています。チキン スープは、何人かの有名人へのインタビューから生まれました。 。ただし、彼はビデオ全体をもう一度見たくはなく、テキスト コンテンツを取得する最速の方法を使用してテキストを読みたかっただけです。テキストを読むほうがビデオを見るよりはるかに速く、また、検索した。
言っておきますが、ビデオを最後まで見る敬虔ささえないのに、どうやってアカウントをうまく管理できるでしょうか?
そこで、Fast-Whisper を使って彼のためにこれを作りました。
クライアントは Swift を使用し、Mac のみをサポートします。
、継続時間 00:10
サーバーはもちろん Python です。 Flask にパッケージ化されており、インターフェイスは外部にオープンです。
以上が非常に高速! 10 行未満のコードを使用して、わずか数分でビデオ音声を認識してテキストに変換しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。