ffmpeg サブプロセスによるビデオデータ IO-Python チュートリアル-php.cn

ffmpeg サブプロセスによるビデオデータ IO

Susan Sarandon

リリース： 2024-12-27 21:30:16

オリジナル

855 人が閲覧しました

求職活動を再開したとき (はい、私はまだ #OpenToWork です。連絡してください!)、求人応募の 1 つで、ビデオデータを処理するプロトタイプを実装するように求められました。このプロジェクトに取り組んでいる間、私はこの分野で比較的経験が浅かったため、思いがけず生成 AI チャットボットから多くの助けを得ることができました。

Video data IO through ffmpeg subprocess

タイトルで述べたように、いくつかの前処理作業を実行するために ffmpeg が使用されました。プロジェクトの目標の 1 つは、複数のビデオファイルを次々に再生できるようにすることでした。これを実現するには複数の方法がありますが、私はそれらを連結するという最も明白な解決策を採用することにしました。

$ cat video1 video2 video3 | python further-work.py

ログイン後にコピー

これを実現するには、まずファイルをそれが可能な形式に再エンコードする必要がありました。これについて Google Gemini と「話し合った」後、チャットボットは、この目的のために MPEG-TS を使用することを推奨しました。

MPEG トランスポートストリーム (MPEG-TS) は、パケット化されたエレメンタリストリームをカプセル化することで機能します。これらのストリームには、小さなセグメントにパケット化されたオーディオ、ビデオ、および PSIP データが含まれます。各ストリームは 188 バイトのセクションに分割され、インターリーブされます。このプロセスにより、レイテンシが短縮され、エラー耐性が向上するため、大きなフレームによって音声遅延が発生する可能性があるビデオ会議に最適です。

https://castr.com/blog/mpeg-transport-stream-mpeg-ts/
より引用

この目的に使用できるファイル形式は他にもありますが、それらは議論とは無関係です。ビデオをこの形式に再エンコードした後、ビデオデータはキューに送信され、他のプロセスで実行されている他のモジュールによって消費されます。

入力 (オンラインで取得するビデオファイルのリスト) と出力 (再エンコードされたビデオファイルコンテンツ) の両方を定義したら、次はそれを行う方法を考えます。残念ながら、ffmpeg は非常に多くのことを行う非常に複雑なユーティリティです。ユーザーを支援するインターフェイスを提供する試みが複数回ありました (私は本当にこれを試してみたかったのですが、どうやら現在は廃止されているようです)。ただし、最近では生成 AI が非常に便利になっているため、適切なコマンドを数回入力するだけですぐに使用できるようになります。

ffmpeg -hwaccel cuda -i pipe:0 -c:v h264_nvenc -b:v 1.5M -c:a aac -b:a 128k -f mpegts -y pipe:1

ログイン後にコピー

以下のスクリーンショットに示すように、各引数の意味についても説明されています。

Video data IO through ffmpeg subprocess
Gemini による ffmpeg コマンドの説明

つまり、このコマンドは stdin 経由でビデオファイルコンテンツを受け取り、再エンコードされたビデオファイルコンテンツを stdout として出力します。

今度は実装をコーディングします。ffmpeg の読み取りと書き込みを同時に行いたいので、これは asyncio アプリケーションになります。今回使用している http クライアントライブラリは httpx です。これには、ダウンロードを小さいバッチで取得するメソッドがあります:

$ cat video1 video2 video3 | python further-work.py

ログイン後にコピー

実際の処理については後で考えますが、今のところは、チャンクを画面に出力するコードを取得するだけです。

次に、asyncio.create_subprocess_exec を通じて ffmpeg を呼び出す関数を作成します

ffmpeg -hwaccel cuda -i pipe:0 -c:v h264_nvenc -b:v 1.5M -c:a aac -b:a 128k -f mpegts -y pipe:1

ログイン後にコピー

理想的には、ドキュメントでアドバイスされているように、ここで process.communicate(file_content) を使用しますが、残念ながら、それを実行すると、最初にファイル全体をダウンロードする必要があり、必然的に応答が遅くなり、理想的ではありませんでした。

代わりに、process.stdin.write() を使用できます。元の write_input 関数を更新しましょう。

import httpx

client = httpx.AsyncClient()

async def write_input(
    client: httpx.AsyncClient, video_link: str, process: asyncio.subprocess.Process
) -> None:
    async with client.stream("GET", video_link) as response:
        async for chunk in response.aiter_raw(1024):
            print(chunk) # this is the downloaded video file, in chunks

ログイン後にコピー

ダウンロードされたチャンクごとに、

process.stdin.write(chunk) を通じてプロセスにそれをフィードします。
完了したら、ファイル入力の終わりを示す EOF (process.stdin.write_eof()) を書き込みます。
その後に .close() (および対応する await .wait_closed()) が続きます

video_send 関数に戻り、process.stdout を読み取って関数を続行します。読み取りと書き込みの両方を実行できることが、まさに asyncio を通じてこれを実行している理由です。以前の同期設定では決まった順番で次々と実行することしかできませんでしたが、順番をスケジューラに気にさせることができるようになりました。これで、関数には、再エンコードされたファイルのコンテンツを読み取り、キューにポストするための次のコードが追加されました。

async def video_send(client: httpx.AsyncClient, video_link: str) -> None:
    logger.info("DATA: Fetching video from link", link=video_link)
    process = await asyncio.create_subprocess_exec(
        "ffmpeg",
        "-hwaccel",
        "cuda",
        "-i",
        "pipe:0",
        "-c:v",
        "h264_nvenc",
        # "libx264",
        "-b:v",
        "1.5M",
        "-c:a",
        "aac",
        "-b:a",
        "128k",
        "-f",
        "mpegts",
        "-y",
        "pipe:1",
        stdin=subprocess.PIPE,
        stdout=subprocess.PIPE,
    )

    asyncio.create_task(write_input(client, video_link, process))

ログイン後にコピー

ループの中で、私たちは