非常に高速！ 10 行未満のコードを使用して、わずか数分でビデオ音声を認識してテキストに変換します-AI-php.cn

Whisper

Fast-Whisper

どうすればよいでしょうか?

クライアント

サーバー

ホームページ

テクノロジー周辺機器

非常に高速！ 10 行未満のコードを使用して、わずか数分でビデオ音声を認識してテキストに変換します

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Feb 27, 2024 pm 01:55 PM

チクタク音声認識 pytorch rust

非常に高速！ 10 行未満のコードを使用して、わずか数分でビデオ音声を認識してテキストに変換します

皆さん、こんにちは。私は Kite です。

2 年前、オーディオファイルとビデオファイルをテキストコンテンツに変換する必要は困難でした。しかし今では、わずか数分で簡単に解決できるようになりました。

一部の企業は、トレーニングデータを取得するために、Douyin や Kuaishou などのショートビデオプラットフォーム上のビデオを完全にクロールし、ビデオから音声を抽出し、テキスト形式に変換して使用していると言われています。ビッグデータモデルトレーニングコーパス。

ビデオまたはオーディオファイルをテキストに変換する必要がある場合は、現在入手可能なこのオープンソースソリューションを試すことができます。たとえば、映画やテレビ番組のセリフが登場する特定の時点を検索できます。

早速、本題に入りましょう。

Whisper

このソリューションは、OpenAI のオープンソース Whisper です。もちろん、Python で書かれています。必要なのは、いくつかのパッケージをインストールし、数行のコードを記述するだけです。しばらく待つと (マシンのパフォーマンスや音声とビデオの長さによって異なります)、最終的なテキストコンテンツが表示されます。非常に簡単です。

GitHub ウェアハウスアドレス: https://github.com/openai/whisper

Fast-Whisper

かなり簡略化されていますが、プログラムはスタッフにとってまだ十分に合理化されていません。結局のところ、プログラマーはシンプルさと効率を好む傾向があります。 Whisper のインストールと呼び出しは比較的簡単ですが、PyTorch、ffmpeg、さらには Rust を個別にインストールする必要があります。

そこで、Whisper よりも高速かつ簡潔な Fast-Whisper が登場しました。 Fast-Whisper は、Whisper を単純にカプセル化したものではなく、CTranslate2 を使用して OpenAI の Whisper モデルを再構築したものです。 CTranslate2 は、Transformer モデルの効率的な推論エンジンです。

要約すると、Whisper よりも高速であり、公式発表では Whisper の 4 ～ 8 倍高速です。 GPUだけでなくCPUにも対応しており、壊れたMacでも使えます。

GitHub ウェアハウスのアドレス: https://github.com/SYSTRAN/faster-whisper

使用するには 2 つの手順だけが必要です。

依存関係パッケージをインストールします

pip install faster-whisper

ログイン後にコピー

コードを作成します、

from faster_whisper import WhisperModelmodel_size = "large-v3"# Run on GPU with FP16model = WhisperModel(model_size, device="cuda", compute_type="float16")# or run on GPU with INT8# model = WhisperModel(model_size, device="cuda", compute_type="int8_float16")# or run on CPU with INT8# model = WhisperModel(model_size, device="cpu", compute_type="int8")segments, info = model.transcribe("audio.mp3", beam_size=5)print("Detected language '%s' with probability %f" % (info.language, info.language_probability))for segment in segments:print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

ログイン後にコピー

はい、とても簡単です。

どうすればよいでしょうか?

たまたま友人が短いビデオを作成して、チキンスープに関する文学ビデオを投稿したいと考えています。チキンスープは、何人かの有名人へのインタビューから生まれました。。ただし、彼はビデオ全体をもう一度見たくはなく、テキストコンテンツを取得する最速の方法を使用してテキストを読みたかっただけです。テキストを読むほうがビデオを見るよりはるかに速く、また、検索した。

言っておきますが、ビデオを最後まで見る敬虔ささえないのに、どうやってアカウントをうまく管理できるでしょうか?

そこで、Fast-Whisper を使って彼のためにこれを作りました。

クライアント

クライアントは Swift を使用し、Mac のみをサポートします。

ビデオを選択します;
次に「テキストの抽出」をクリックすると、Python インターフェースが呼び出され、しばらく待つ必要があります;
読み込み解析されたテキストと、表示される開始時間と終了時間;
開始時間と終了イベントを選択します;
[エクスポート] ボタンをクリックすると、ビデオクリップがエクスポートされます。

、継続時間 00:10

サーバー

サーバーはもちろん Python です。 Flask にパッケージ化されており、インターフェイスは外部にオープンです。

rreeee

以上が非常に高速！ 10 行未満のコードを使用して、わずか数分でビデオ音声を認識してテキストに変換しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

ホットツール

ホットトピック

Gmailメールのログイン入り口はどこですか？

7481

CakePHP チュートリアル

1377

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

外国人女性の表現パックの完全なコレクション Jul 15, 2024 pm 05:48 PM

外国人女性の顔文字は何ですか？最近、外国人女性の顔文字パッケージがインターネット上で非常に人気になっています。ビデオを見ているときに多くの友人がこれに遭遇すると思います。興味があれば、編集者がいくつかの対応する顔文字パッケージを紹介します。外国人女性の表現パックの完全なコレクション

Bytedance Cutting が SVIP スーパーメンバーシップを開始: 継続的な年間サブスクリプションは 499 元で、さまざまな AI 機能を提供 Jun 28, 2024 am 03:51 AM

このサイトは6月27日、JianyingはByteDanceの子会社であるFaceMeng Technologyによって開発されたビデオ編集ソフトウェアであり、Douyinプラットフォームに依存しており、基本的にプラットフォームのユーザー向けに短いビデオコンテンツを作成すると報告しました。 Windows、MacOS、その他のオペレーティングシステム。 Jianyingは会員システムのアップグレードを正式に発表し、インテリジェント翻訳、インテリジェントハイライト、インテリジェントパッケージング、デジタルヒューマン合成などのさまざまなAIブラックテクノロジーを含む新しいSVIPを開始しました。価格的には、クリッピングSVIPの月額料金は79元、年会費は599元（当サイト注：月額49.9元に相当）、継続月額サブスクリプションは月額59元、継続年間サブスクリプションは、年間499元（月額41.6元に相当）です。さらに、カット担当者は、ユーザーエクスペリエンスを向上させるために、オリジナルのVIPに登録している人は、

私は正直にミームの紹介をやめてほしいとお願いしました。 Jul 17, 2024 am 05:44 AM

正直になって手放すとはどういう意味ですか？インターネットの流行語として、「私は正直で、手放してほしいと懇願しています」は、商品価格の上昇に関する一連のユーモラスな議論から生まれましたが、現在では主に、個人が特定の状況に直面していることを意味する、自虐的または嘲笑的な状況で使用されています。（プレッシャー、からかいや冗談など）、抵抗したり議論したりできないと感じている場合は、編集者をフォローしてこのミームの紹介を見てみましょう。「Already Begging to Let It Go」ミームの導入元: 「Already Begging to Let It Go」は「時間厳守の宝物を追加すると正直になる」に由来し、後に「If Liqun go up by」に進化しました。「2元、正直に言ってください」と「アイス紅茶は1元上がります、正直に言ってください」。ネチズンは「正直に値下げを要求した」と叫び、最終的には「正直に手放してもらいました」に発展し、絵文字パッケージが誕生した。用途：防御を破るときや、どうしようもないとき、あるいは自分自身のためにも使用

私はあなたを崇拝します、私はあなたを崇拝します、顔文字コレクション Jul 15, 2024 am 11:25 AM

「私はあなたを崇拝します、私はあなたを崇拝します」の顔文字にはどのようなものがありますか? 「私はあなたを崇拝します、私はあなたを崇拝します」という表現パックは、オンラインブロガーの He Diudiu Buchuudi が作成した「兄と弟シリーズ」に由来しており、このシリーズでは、兄が困難に直面した弟を助けます。そして弟はこのセリフを使って表現します。この極度の賞賛と感謝の気持ちが、面白くて敬意を持ったインターネットミームを形成しました。編集者をフォローして絵文字を楽しみましょう。私はあなたを崇拝します、私はあなたを崇拝します、顔文字コレクション

レッドウォームテリアの意味の紹介 Jul 12, 2024 pm 03:39 PM

赤温度とは何ですか？このレッドウォームミームはeスポーツ界に由来しており、特に元「リーグ・オブ・レジェンド」プロプレイヤーのUziが試合中に緊張したり興奮したりすると顔が赤くなる現象を指しており、インターネット上で興味深い表現となっている。興奮と不安で顔が赤くなる様子を表現するために、以下は編集者に従ってこのミームの詳細な紹介を見てみましょう。インターネットミームとしてのホンウェンミーム「レッドウェン」の意味を紹介 eスポーツ分野の生放送文化、特に「リーグ・オブ・レジェンド」（リーグ・オブ・レジェンド）関連のコミュニティから生まれたインターネットミーム。このミームはもともと、ゲーム内の元プロ選手 Uzi (誇らしげに Jian) の特徴的な現象を説明するために使用されました。 Uzi がプレーしているとき、緊張、集中力、または感情によって顔が極度にバラ色になります。この状態は、観客によって冗談めかしてゲーム内のヒーロー「ランボー」に例えられます。

System76 が Fedora 42 の 2025 年リリースに向けた Fedora Cosmic スピンをヒント Aug 01, 2024 pm 09:54 PM

System76 は最近、Cosmic デスクトップ環境で話題になっており、8 月 8 日に Pop!_OS の次のメジャーアルファビルドで開始される予定です。しかし、System76 CEO の Carl Richell 氏による X に関する最近の投稿では、Cosmic DE が開発者

彼は紹介が上手なので Jul 16, 2024 pm 08:59 PM

ストーキングが得意だからってどういうこと？多くの友人は、多くの短いビデオのコメント欄でそのようなコメントを見たことがあると思います。それでは、「彼は優れているから」とはどういう意味ですか？まだ知らない人は見に来てください。ミーム「彼は良いから」の起源：ミーム「彼は良いから」はインターネット、特にDouyinなどのショートビデオプラットフォームで人気のあるミームから生まれ、有名なクロストークによるジョークに関連しています俳優郭徳剛。この段落で、郭徳剛は、ユーモアのある方法で何かをしないいくつかの理由を列挙しましたが、それぞれの理由は「彼は良い人だから」で終わり、実際には直接の因果関係はありませんが、無意味です。そして面白い表現。ホットなミーム: たとえば、「それはできません」

なぜ寮にエアコンがないのですか？ Jul 11, 2024 pm 07:36 PM

なぜ寮にエアコンがないのですか？インターネットミーム「寮のエアコンはどこにありますか?」は、寮にエアコンがないことに対する学生たちのユーモラスな苦情に由来し、誇張と自虐を通して、涼しく快適な環境を求める気持ちを表現しています。暑い夏と現実的な状況のコントラスト。編集者に従ってこのミームの紹介を見てみましょう。寮のエアコンはどこにありますか? ミームの起源: 「寮のエアコンはどこにありますか?」このミームは、特に比較的基本的な宿泊施設があり、エアコンがない学校の寮をからかうことから来ています。。これは、居住環境の改善、特に暑い夏の時期のエアコンの必要性を求める学生の要望を反映しています。このミームはインターネット上で拡散しており、暑い時期にエアコンがないことへの不満やイライラをユーモラスに表現するために学生間のコミュニケーションでよく使われている。

See all articles

非常に高速！ 10 行未満のコードを使用して、わずか数分でビデオ音声を認識してテキストに変換します

Whisper

Fast-Whisper

どうすればよいでしょうか?

クライアント

サーバー

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック