


sangat laju! Kenali pertuturan video menjadi teks dalam beberapa minit sahaja dengan kurang daripada 10 baris kod
Hello semua, saya Kite
Dua tahun lalu, keperluan untuk menukar fail audio dan video kepada kandungan teks sukar dicapai, tetapi kini ia boleh diselesaikan dengan mudah dalam beberapa minit sahaja.
Dikatakan bahawa untuk mendapatkan data latihan, beberapa syarikat telah merangkak sepenuhnya video pada platform video pendek seperti Douyin dan Kuaishou, dan kemudian mengekstrak audio daripada video dan menukarnya ke dalam bentuk teks untuk digunakan sebagai korpus latihan untuk model data besar.
Jika anda perlu menukar fail video atau audio kepada teks, anda boleh mencuba penyelesaian sumber terbuka yang tersedia hari ini. Sebagai contoh, anda boleh mencari titik masa tertentu apabila dialog dalam filem dan rancangan televisyen muncul.
Tanpa berlengah lagi, mari kita ke intinya.
Whisper
Penyelesaian ini ialah Whisper sumber terbuka OpenAI Sudah tentu ia ditulis dalam Python Anda hanya perlu memasang beberapa pakej, kemudian tulis beberapa baris kod dan tunggu seketika (bergantung pada prestasi mesin anda. dan panjang audio dan video (berbeza), kandungan teks akhir keluar, semudah itu.
Alamat gudang GitHub: https://github.com/openai/whisper
Fast-Whisper
Walaupun ia agak dipermudahkan, ia masih tidak cukup diselaraskan untuk pengaturcara. Lagipun, pengaturcara sering lebih suka kesederhanaan dan kecekapan. Walaupun agak mudah untuk memasang dan memanggil Whisper, anda masih perlu memasang PyTorch, ffmpeg, dan juga Rust secara berasingan.
So Fast-Whisper wujud, yang lebih pantas dan lebih ringkas daripada Whisper. Fast-Whisper bukan sekadar enkapsulasi mudah Whisper, tetapi pembinaan semula model Whisper OpenAI dengan menggunakan CTranslate2. CTranslate2 ialah enjin inferens yang cekap untuk model Transformer.
Ringkasnya, ia lebih cepat daripada Whisper Kenyataan rasminya ialah 4-8 kali lebih cepat daripada Whisper. Ia bukan sahaja boleh menyokong GPU, tetapi ia juga boleh menyokong CPU, malah Mac saya yang rosak boleh digunakan.
Alamat gudang GitHub: https://github.com/SYSTRAN/faster-whisper
Ia hanya memerlukan dua langkah untuk digunakan.
- Pasang pakej pergantungan
pip install faster-whisper
- Tulis kod,
from faster_whisper import WhisperModelmodel_size = "large-v3"# Run on GPU with FP16model = WhisperModel(model_size, device="cuda", compute_type="float16")# or run on GPU with INT8# model = WhisperModel(model_size, device="cuda", compute_type="int8_float16")# or run on CPU with INT8# model = WhisperModel(model_size, device="cpu", compute_type="int8")segments, info = model.transcribe("audio.mp3", beam_size=5)print("Detected language '%s' with probability %f" % (info.language, info.language_probability))for segment in segments:print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))
Ya, semudah itu.
Apa yang boleh saya buat
Kebetulan ada seorang kawan yang ingin membuat video pendek dan menyiarkan beberapa video kesusasteraan sup ayam berasal dari temu bual dengan beberapa orang terkenal. Walau bagaimanapun, dia tidak mahu menonton keseluruhan video itu lagi, dia hanya mahu menggunakan cara terpantas untuk mendapatkan kandungan teks, dan kemudian membaca teks, kerana membaca teks jauh lebih pantas daripada menonton video, dan ia juga boleh dicari.
Biar saya katakan, jika anda tidak mempunyai ketakwaan untuk menonton video yang lengkap, bagaimana anda boleh menguruskan akaun dengan baik?
Jadi saya buatkan untuk dia, menggunakan Fast-Whisper.
Pelanggan
Pelanggan menggunakan Swift dan hanya menyokong Mac.
- Pilih video;
- Kemudian klik "Ekstrak Teks", kemudian antara muka Python akan dipanggil, dan anda perlu menunggu seketika; Pilih Masa mula dan acara tamat;
- Klik butang "Eksport", dan klip video akan dieksport
- , tempoh 00:10
Sebelah pelayan sudah tentu
Python, dan kemudian dibungkus dengan Flask, Buka antara muka kepada dunia luar. from flask import Flask, request, jsonifyfrom faster_whisper import WhisperModelapp = Flask(__name__)model_size = "large-v2"model = WhisperModel(model_size, device="cpu", compute_type="int8")@app.route('/transcribe', methods=['POST'])def transcribe():# Get the file path from the requestfile_path = request.json.get('filePath')# Transcribe the filesegments, info = model.transcribe(file_path, beam_size=5, initial_prompt="简体")segments_copy = []with open('segments.txt', 'w') as file:for segment in segments:line = "%.2fs|%.2fs|[%.2fs -> %.2fs]|%s" % (segment.start, segment.end, segment.start, segment.end, segment.text)segments_copy.append(line)file.write(line + '\n')# Prepare the responseresponse_data = {"language": info.language,"language_probability": info.language_probability,"segments": []}for segment in segments_copy:response_data["segments"].append(segment)return jsonify(response_data)if __name__ == '__main__':app.run(debug=False)
Salin selepas log masuk
from flask import Flask, request, jsonifyfrom faster_whisper import WhisperModelapp = Flask(__name__)model_size = "large-v2"model = WhisperModel(model_size, device="cpu", compute_type="int8")@app.route('/transcribe', methods=['POST'])def transcribe():# Get the file path from the requestfile_path = request.json.get('filePath')# Transcribe the filesegments, info = model.transcribe(file_path, beam_size=5, initial_prompt="简体")segments_copy = []with open('segments.txt', 'w') as file:for segment in segments:line = "%.2fs|%.2fs|[%.2fs -> %.2fs]|%s" % (segment.start, segment.end, segment.start, segment.end, segment.text)segments_copy.append(line)file.write(line + '\n')# Prepare the responseresponse_data = {"language": info.language,"language_probability": info.language_probability,"segments": []}for segment in segments_copy:response_data["segments"].append(segment)return jsonify(response_data)if __name__ == '__main__':app.run(debug=False)
Atas ialah kandungan terperinci sangat laju! Kenali pertuturan video menjadi teks dalam beberapa minit sahaja dengan kurang daripada 10 baris kod. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Apakah emotikon wanita asing? Baru-baru ini, pakej emotikon wanita asing telah menjadi sangat popular di Internet Saya percaya ramai rakan akan menemuinya apabila menonton video di bawah, editor akan berkongsi dengan anda beberapa pakej emotikon yang sepadan, datang dan lihat. Koleksi lengkap pek ekspresi wanita asing

Laman web ini melaporkan pada 27 Jun bahawa Jianying ialah perisian penyuntingan video yang dibangunkan oleh FaceMeng Technology, anak syarikat ByteDance Ia bergantung pada platform Douyin dan pada asasnya menghasilkan kandungan video pendek untuk pengguna platform tersebut Windows , MacOS dan sistem pengendalian lain. Jianying secara rasmi mengumumkan peningkatan sistem keahliannya dan melancarkan SVIP baharu, yang merangkumi pelbagai teknologi hitam AI, seperti terjemahan pintar, penonjolan pintar, pembungkusan pintar, sintesis manusia digital, dsb. Dari segi harga, yuran bulanan untuk keratan SVIP ialah 79 yuan, yuran tahunan ialah 599 yuan (nota di laman web ini: bersamaan dengan 49.9 yuan sebulan), langganan bulanan berterusan ialah 59 yuan sebulan, dan langganan tahunan berterusan ialah 499 yuan setahun (bersamaan dengan 41.6 yuan sebulan) . Di samping itu, pegawai yang dipotong juga menyatakan bahawa untuk meningkatkan pengalaman pengguna, mereka yang telah melanggan VIP asal

Apakah beberapa emotikon "Saya sembah awak, saya sembah awak"? Pek ungkapan "Saya menyembah awak, saya menyembah awak" berasal dari "Siri Abang dan Adik Kecil" yang dicipta oleh blogger dalam talian He Diudiu Buchuudi Dalam siri ini, abang membantu adik ketika dia menghadapi kesukaran. dan kemudian adik akan menggunakan baris ini untuk menyatakan Kekaguman dan kesyukuran yang melampau telah membentuk sebuah meme Internet yang lucu dan hormat Mari ikuti editor untuk menikmati emotikon. Saya menyembah awak, saya menyembah awak, senarai lengkap emotikon

Apakah yang dimaksudkan dengan jujur dan melepaskan? Sebagai kata kunci Internet, "Saya telah jujur dan memohon untuk dilepaskan" berasal daripada siri perbincangan lucu tentang kenaikan harga komoditi kini kebanyakannya digunakan dalam situasi mencemuh diri sendiri, bermakna individu menghadapi situasi tertentu (seperti tekanan, Apabila anda mengusik atau bergurau), anda merasakan bahawa anda tidak dapat menahan atau berhujah Mari ikuti editor untuk melihat pengenalan meme ini. Sumber pengenalan kepada meme "Sudah Mengemis untuk Melepaskannya": "Sudah Memohon untuk Melepaskannya" berasal daripada "Jika anda menambah harta yang menepati masa, anda akan jujur", dan kemudian berkembang menjadi "Jika Liqun naik oleh dua yuan, anda akan jujur" dan "Teh hitam ais akan naik satu yuan." Netizen menjerit "Saya telah jujur dan meminta penurunan harga", yang akhirnya berkembang menjadi "Saya telah jujur dan meminta untuk dilepaskan" dan pakej emotikon dilahirkan. Penggunaan: Digunakan apabila melanggar pertahanan, atau apabila tiada cara lain, atau untuk diri sendiri

Apakah suhu merah? Meme merah panas itu berasal dari kalangan e-sukan, khususnya merujuk kepada fenomena bekas pemain profesional "League of Legends" muka Uzi menjadi merah apabila dia gugup atau teruja semasa permainan Ia telah menjadi ungkapan yang menarik di Internet untuk menggambarkan wajah orang menjadi merah kerana keterujaan dan keresahan Berikut adalah Jom ikuti editor untuk melihat pengenalan terperinci meme ini. Pengenalan kepada maksud meme Hongwen "Red Wen" sebagai meme Internet berpunca daripada budaya siaran langsung dalam bidang e-sukan khususnya komuniti yang berkaitan dengan "League of Legends" (League of Legends). Meme ini pada asalnya digunakan untuk menggambarkan fenomena ciri bekas pemain profesional Uzi (Jian bangga) dalam permainan. Apabila Uzi bermain, wajahnya akan menjadi sangat merah jambu kerana gugup, tumpuan atau emosi Keadaan ini secara berseloroh diumpamakan sebagai hero dalam permainan "Rambo" oleh penonton.

System76 telah membuat gelombang baru-baru ini dengan persekitaran desktop Cosmicnya, yang dijadualkan untuk dilancarkan dengan binaan alfa utama Pop!_OS seterusnya pada 8 Ogos. Walau bagaimanapun, siaran terbaharu mengenai X oleh Ketua Pegawai Eksekutif System76, Carl Richell, telah meramalkan bahawa Cosmic DE pemaju

Mengapa tiada penghawa dingin di asrama? Meme Internet "Di mana penghawa dingin di asrama?" musim panas yang panas dan keadaan yang realistik Sebaliknya, mari kita ikuti editor untuk melihat pengenalan meme ini. Di mana penghawa dingin di asrama? Asal-usul meme: "Di mana penghawa dingin di asrama?" . Ia mencerminkan keinginan pelajar untuk keadaan penginapan yang lebih baik, terutamanya keperluan untuk penyaman udara semasa musim panas. Meme ini diedarkan di Internet dan sering digunakan dalam komunikasi antara pelajar untuk meluahkan kekecewaan dan kekecewaan secara jenaka dengan kekurangan penghawa dingin dalam cuaca panas.

Apa maksudnya kerana dia pandai mengintai? Saya percaya bahawa ramai rakan telah melihat komen sedemikian dalam banyak kawasan komen video pendek Jadi apa maksudnya kerana dia baik Hari ini, editor telah membawakan anda pengenalan kepada meme "kerana dia baik". yang belum tahu, jom tengok. Asal usul meme "Kerana Dia Baik": Meme "Kerana Dia Baik" berasal dari Internet, terutamanya meme popular di platform video pendek seperti Douyin, dan berkaitan dengan jenaka oleh ceramah silang yang terkenal pelakon Guo Degang. Dalam perenggan ini, Guo Degang menyenaraikan beberapa sebab untuk tidak melakukan sesuatu dengan cara yang lucu. Setiap sebab diakhiri dengan "kerana dia baik", membentuk gelung tertutup yang lucu dan ekspresi lucu. Meme hangat: Contohnya, "Saya tidak boleh melakukannya
