B局における音声認識技術の導入実践-AI-php.cn

B局における音声認識技術の導入実践

ホットAIツール

ホットツール

ホットトピック

ホットAIツール

人気の記事

ホットツール

ホットトピック

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

近年、データと GPU コンピューティング能力の大幅な向上と、トレーニングのコストの高騰により、データの大規模な手動アノテーションにより、多数の教師なし (wav2vec、HuBERT、data2vec など) [1][2] および半教師ありのトレーニング方法が業界で登場しています。

ハイブリッドまたは E2E

エンドツーエンドのソリューションの選択

##[6] D Povey、V Peddinti1、他、格子フリー MMI に基づく ASR 用の純粋にシーケンストレーニングされたニューラルネットワーク

ハイブリッドまたは E2E

エンドツーエンドのソリューションの選択

##[6] D Povey、V Peddinti1、他、格子フリー MMI に基づく ASR 用の純粋にシーケンストレーニングされたニューラル ネットワーク

##[6] D Povey、V Peddinti1、他、格子フリー MMI に基づく ASR 用の純粋にシーケンストレーニングされたニューラルネットワーク

近年、データと GPU コンピューティング能力の大幅な向上と、トレーニングのコストの高騰により、データの大規模な手動アノテーションにより、多数の教師なし (wav2vec、HuBERT、data2vec など) [1][2] および半教師ありのトレーニング方法が業界で登場しています。

ハイブリッドまたは E2E

エンドツーエンドのソリューションの選択

##[6] D Povey、V Peddinti1、他、格子フリー MMI に基づく ASR 用の純粋にシーケンストレーニングされたニューラルネットワーク

ホームページ

テクノロジー周辺機器

B局における音声認識技術の導入実践

王林

Apr 15, 2023 am 10:40 AM

デコーダテクノロジー音声認識

自動音声認識 (ASR) テクノロジーは、オーディオおよびビデオコンテンツのセキュリティレビュー、AI 字幕 (C サイド、マストカット、S12 ライブブロードキャストなど) など、Bilibili の関連ビジネスシナリオに大規模に実装されています。）、動画理解（全文検索）など。

さらに、Bilibili の ASR エンジンは、2022 年 11 月に行われた産業用ベンチマーク SpeechIO (https://github.com/SpeechColab/Leaderboard) の最新の本格的な評価でも 1 位を獲得しました (https: //) github.com/SpeechColab/Leaderboard#5-ranking)、非公開のテストセットでは利点がより明らかです。

##ビリビリ#2 3#3.16%Microsoft#テンセント百度8.14%

全テストセットのランキング

#ランキング

メーカー

ワードエラー率

##2.82%

Alibaba Cloud

2.85%

#Yitu

##4

3.28%

##3.85%

iFlytek

4.05%

思比奇奇数

5.19%

##8

AI 字幕 (中国語と英語の C 面、カット必須、S12 生放送など)

B局における音声認識技術の導入実践

この記事ではここで紹介しますその過程でデータやアルゴリズムを蓄積、検討してきました。

#高品質 ASR エンジン

##高品質 (コスト効率の高い) エンジン工業生産に適した ASR エンジン。次の特性を持つ必要があります:

高精度

##説明

##関連するビジネスシナリオにおける高精度と堅牢性良い

高パフォーマンス

産業用導入では、待ち時間が短く、速度が速く、使用するコンピューティングリソースが少なくなります

高い拡張性

ビジネスの反復的なカスタマイズを効率的にサポートし、迅速なビジネス更新のニーズに対応できます

以下では、ステーション B のビジネスシナリオに基づいて、上記の側面における関連する探査と実践を紹介します。

#データコールドスタート

音声認識タスクは、断片から完全に認識することですof speech テキストの内容 (音声をテキストに変換)。

現代の工業生産の要件を満たす ASR システムは、大量かつ多様なトレーニングデータに依存しています。ここでの「多様性」とは、話者の周囲の環境、シーンのコンテキストなどの不均一なデータを指します。（フィールド）と話者のアクセント。

ステーション B のビジネスシナリオでは、まず音声トレーニングデータのコールドスタートの問題を解決する必要があります。次の課題に直面します。

幅広いビジネスシナリオ: ステーション B のオーディオおよびビデオのビジネスシナリオは数十の分野をカバーしています。これらは一般的な分野と見なすことができ、データの「多様性」に対する高い要件があります。
中国語と英語の混合: ステーション B には若いユーザーが多く、中国語と英語が混合された一般知識ビデオが多くあります。
#上記の問題に対して、次のデータソリューションを採用しました:

ビジネスデータフィルタリング

サイト B には、UP 所有者またはユーザーによって送信された少数の字幕 (cc 字幕) がありますが、いくつかの問題もあります:

#タイムスタンプが不正確で、開始文の終了タイムスタンプは、多くの場合、最初と最後の単語の間、またはいくつかの単語の後にあります。

デジタル変換、たとえば、字幕は 2002 です (実際の発音は 2002、2002 など);
この目的のために、オープンソースデータ、購入した完成品データ、および少量の注釈付きデータに基づくスクリーニングデータ基本モデルは、送信された字幕テキストを使用してサブ言語モデルをトレーニングし、文の時間調整と字幕フィルタリングに使用されます。

# 半教師ありトレーニング

サイト B にはラベルのないビジネスデータが大量にあり、他の Web サイトからラベルのないビデオデータも大量に取得しました。NST (Noisy Student Training) [3] と呼ばれる半教師ありトレーニング手法を使用しました。 ,

最初に、分野と放送量の分布に従って約 500,000 の原稿がスクリーニングされ、最終的に約 40,000 時間の自動注釈データが生成されました。最初の 15,000 時間の注釈データトレーニングの後、認識は精度が約 15% 向上し、モデルの堅牢性が大幅に向上しました。

図 1

B局における音声認識技術の導入実践オープンソースデータ、B ステーション送信データ、手動注釈データ、自動注釈データを通じて、データのコールドスタート問題を最初に解決しました。モデルを使用反復することで、識別が不十分なドメインデータをさらに除外できます。

これは順方向サイクルを形成します。最初にデータの問題を解決した後、以下のモデルアルゴリズムの最適化に焦点を当てます。

#モデルアルゴリズムの最適化

ASR 技術開発の歴史

現代の音声認識の開発プロセスを簡単に振り返ってみましょう。これは大きく 3 つの段階に分けることができます。

第一段階は 1993 年から 2009 年で、音声認識はHMM-GMMの時代になると、これまでの標準的なテンプレートマッチングに基づく統計モデルへの移行が始まり、研究の焦点も小語彙や孤立単語から大語彙や非特定連続音声認識へと移りました。、音声は長い間改善され続けていますが、認識の発達は比較的遅く、認識エラー率は大幅に低下していません。

第 2 段階は 2009 年から 2015 年頃です。GPU の計算能力の大幅な向上に伴い、2009 年から音声認識ではディープラーニングが台頭し始め、音声認識フレームワークは HMM-DNN へと変化し始めました。 DNN 時代に入り、音声認識の精度は大幅に向上しました。

第 3 段階は 2015 年以降です。エンドツーエンド技術の台頭により、CV、NLP、その他の AI 分野の発展が相互に促進し、音声認識はより深く複雑なネットワークを使用し始め、一方、エンドツーエンド技術の採用により、音声認識のパフォーマンスはさらに大幅に向上し、一部の限られた条件下では人間のレベルを超えました。

#図 2

B局における音声認識技術の導入実践

B 戦闘 ASR 技術計画

#重要な概念の紹介

##理解を容易にするために、いくつかの重要な基本概念を簡単に紹介します

##モデリングユニット

ニューラルネットワークに基づく第 2 段階のハイブリッドフレームワーク HMM-DNN は、第 1 段階の HMM-GMM システムの音声認識精度と比較して大幅に向上しています。も全員一致で同意されました。

しかし、エンドツーエンド (E2E) システムの第 3 フェーズは、第 2 フェーズと比較して、一時期業界で物議を醸しました [4]。関連モデルの出現により、モデルの表現能力はますます強化されています。

同時に、GPU の計算能力の大幅な向上により、より多くのデータトレーニングを追加できるようになり、最終的にはエンドツーエンドソリューションの利点が徐々に明らかになり、エンドツーエンドソリューションを選択する企業が増えています。

ここでは、ステーション B のビジネスシナリオに基づいて、これら 2 つのソリューションを比較します。

B局における音声認識技術の導入実践

図 3

図 2 は、典型的な DNN です。 - HMM フレームワークのパイプラインは非常に長く、さまざまな言語には専門的な発音辞書が必要であることがわかります。

そして、図 3 のエンドツーエンドシステムでは、これらすべてがニューラルネットワークモデルに配置されています。ニューラルネットワークの入力はオーディオ (または機能)、出力は必要な認識結果です。

B局における音声認識技術の導入実践

図 4

テクノロジーの発展に伴い、開発ツール、コミュニティ、パフォーマンスにおけるエンドツーエンドシステムの利点はますます大きくなっています。当然のこと:

代表的なツールとコミュニティの比較

##HTK、Kaldiプログラミング言語スケーラビリティ

##ハイブリッドフレームワーク (ハイブリッド)

エンドツーエンドフレームワーク (E2E)

代表的なオープンソースツールとコミュニティ

##Espnet、Wenet、DeepSpeech、K2、 etc.

##C/C、シェル

Python、シェル

ゼロから開発

TensorFlow/Pytorch

パフォーマンスの比較

次の表は、代表的なツールの最適な結果 (単語誤り率 CER) に基づく一般的なデータセットです。

##ハイブリッドフレームワークエンドツーエンドフレームワーク (E2E) ツールを表します KaldiEspnetテクノロジを表しますtdnn チェーン rnnlm スコアリング conformer-las/ctc/rnnt##Librispeech##ギガスピーチ#7.434.72##12.83

3.06

1.90

14.84

10.80

#Aishell-1

WenetSpeech

##8.80

つまり、エンドツーエンドシステムを選択することで、従来のハイブリッドフレームワークと比較して、一定のリソースがあれば、高品質の ASR システムをより速く、より適切に開発できます。

もちろん、ハイブリッドフレームワークに基づいて、同様に高度なモデルと高度に最適化されたデコーダーも使用すれば、エンドツーエンドに近い結果を達成できますが、数倍の人員と投資が必要になる場合があります。開発中のリソースこのシステムを最適化します。

ステーション B には、必要な数十万時間の音声があります。 ASR システムのスループットと速度要件は非常に高く、AI 字幕生成の精度も高いと同時に、ステーション B のシーン範囲も非常に広いです。合理的で効率的な ASR システムを選択します。

理想的な ASR システム

B局における音声認識技術の導入実践

図 5

エンドツーエンドのフレームワークに基づいて効率的な ASR システムを構築したいと考えています。ステーション B のシナリオの問題を解決します。

エンドツーエンドシステムの比較

B局における音声認識技術の導入実践

図 6

図 4 は、3 つの代表的なエンドツーエンドシステムです [ 5 ] をそれぞれ E2E-CTC、E2E-RNNT、E2E-AED として、各システムの長所と短所をさまざまな側面から比較します (スコアが高いほど優れています)

システム比較

## 認識精度ライブ (ストリーミング) ##5##36高速かつ効率的な反復

非ストリーミング精度比較 (単語誤り率 CER)

#15000 時間カルディチェーンモデル LM13.7--E2E-AED11.86.6E2E- RNNT12.4##E2E-CTC(貪欲) 10.2

上記は、それぞれ 2,000 時間と 15,000 時間のビデオトレーニングデータに基づいたステーション B の生活シーンと食事シーンの結果です。Chain と E2E-CTC は、同じコーパスでトレーニングされた拡張言語モデルを使用しています。

E2E-AED および E2E-RNNT は拡張言語モデルを使用せず、エンドツーエンドシステムは Conformer モデルに基づいています。

2 番目の表から、単一の E2E-CTC システムの精度は他のエンドツーエンドシステムに比べて大幅に劣っているわけではありませんが、同時に E2E-CTC システムには次の特徴があることがわかります。利点:

ニューラルネットワークには自己回帰 (AED デコーダーと RNNT 予測) 構造がないため、E2E-CTC システムにはストリーミング、デコード速度、展開コストの点で自然な利点があります。

高品質の ASR ソリューション

高精度でスケーラブルな ASR フレームワーク

B局における音声認識技術の導入実践

図 7

ステーション B の実稼働環境では、速度、精度、リソース消費に対する高い要件があり、また、急速な更新も行われます。さまざまなシナリオとカスタマイズのニーズ (原稿に関連するエンティティの単語、人気のあるゲームやスポーツイベントのカスタマイズなど)、

ここでは、通常、スケーラビリティのカスタマイズを解決するためにエンドツーエンドの CTC システムを使用します。ダイナミックデコーダを通じて問題を解決します。以下では、モデルの精度、速度、スケーラビリティの最適化作業に焦点を当てます。

エンドツーエンドの CTC 識別トレーニング

当社のシステムは漢字と英語の BPE モデリングを使用しており、AED と CTC に基づいたマルチタスクトレーニングの後は、 CTC 部分については、後で識別トレーニングを実行します。エンドツーエンドラティスフリー mmi を使用します[6][7] 識別トレーニング:

B局における音声認識技術の導入実践

# #従来の識別トレーニングとの違い

1. 従来のアプローチ

a. まず、CPU 上のすべてのトレーニングコーパスに対応するアライメントとデコードラティスを生成します;

b .トレーニング中、各ミニバッチは事前に生成されたアライメントと格子を使用して分子と分母の勾配をそれぞれ計算し、モデルを更新します。

2. 私たちのアプローチ

a. トレーニング中、各ミニバッチは直接in GPU で分子と分母の勾配を計算し、モデルを更新します;

とカルディの電話ベースのラティスフリー mmi 識別トレーニングの違い

## 1. 文字と英語 BPE の直接エンドツーエンドモデリング、電話の状態転送構造を放棄;

2. モデリングの粒度が大きく、トレーニング入力はほぼ切り捨てられておらず、コンテキストは文全体です;

次の表は 15,000 時間のデータに基づいています。CTC トレーニングが完了した後、3,000 時間が、デコードの信頼性. エンドツーエンドラティスフリー mmi の識別トレーニング結果は、従来の DT の結果よりも優れていることがわかります。トレーニングでは、精度の向上に加えて、トレーニングプロセス全体を tensorflow/pytorch GPU で完了できます。

	#2000 時間


	##--
#13.1	7.1	##最適化された E2E-CTC LM
##5.8

#CTC ベースライン#6.96伝統的なDT

	B ステーションビデオテストセット

6.63
E2E LFMMI DT	6.13

ハイブリッドシステムと比較すると、エンドツーエンドシステムのデコード結果のタイムスタンプはあまり正確ではありません。AED トレーニングは時間と単調に一致しません。CTC トレーニングされたモデルは AED タイムスタンプよりもはるかに正確ですが、スパイクもあります毎回、単語の長さが不正確になります;

エンドツーエンドの識別トレーニングの後、モデルの出力はより平坦になり、デコード結果のタイムスタンプ境界はより正確になります;

エンドツーエンドのエンド CTC デコーダ

音声認識技術の開発プロセスにおいて、GMM-HMM に基づく第 1 段階であっても、DNN に基づく第 2 段階であっても-HMM ハイブリッドフレームワークでは、デコーダが非常に重要です。

デコーダのパフォーマンスは、最終的な ASR システムの速度と精度を直接決定します。ビジネスの拡張とカスタマイズも、主に柔軟で効率的なデコーダソリューションに依存します。従来のデコーダは、動的デコーダであっても、WFST に基づく静的デコーダであっても、非常に複雑です。多くの理論的知識に依存するだけでなく、専門的なソフトウェアエンジニアリング設計も必要です。優れたパフォーマンスを持つ従来のデコードエンジンを開発するには、初期段階では多くの人材育成が必要であり、その後の維持コストも非常に高くなります。

典型的な従来の WFST デコーダは、hmm、トライフォンコンテキスト、辞書、および言語モデルを統合ネットワーク (つまり、統合 FST ネットワーク検索スペース内の HCLG) にコンパイルする必要があり、これによりデコード速度が向上します。正確さ。

エンドツーエンドシステムテクノロジの成熟に伴い、エンドツーエンドシステムモデリングユニットは、中国語の単語や英語の単語片など、より大きな粒度を持ちます。これは、従来の HMM 転送構造、トライフォンコンテキスト、およびこれにより、その後のデコード検索スペースが大幅に小さくなります。そのため、ビーム検索に基づいたシンプルで効率的な動的デコーダを選択します。次の図は、2 つのデコードフレームワークを示しています。従来の WFST デコーダと比較して、エンドツーエンド動的デコードデコーダには次の利点があります:

必要なリソースが少なく、通常は WFST デコードリソースの 1/5 です;
低結合なのでビジネスに便利ですカスタマイズとさまざまな言語モデルとの簡単な統合デコード、変更ごとにデコードリソースを再コンパイルする必要はありません;
デコード速度は高速で、ワード同期デコード [8] を使用しており、通常は WFST デコードより 5 倍高速です

B局における音声認識技術の導入実践

図 8

モデル推論のデプロイメント

合理的かつ効率的な最終目的では、 to-end ASR フレームワークの中で、最も計算量の多い部分はニューラルネットワークモデルの推論に関して、この計算集約的な部分は GPU の計算能力を最大限に活用することができ、推論からモデル推論展開を最適化しますサービス、モデル構造、モデルの定量化:

F16 半精度推論を使用したモデル;
モデルは、nvidia の高度に最適化されたトランスフォーマーに基づいて、FasterTransformer[9] に変換されます。
triton を使用して推論モデルをデプロイし、バッチを自動的に編成し、GPU の使用効率を完全に向上させます。

シングル GPU T4 では、速度が 30% 向上し、スループットが向上します。 2 倍になり、3000 時間の音声を 1 時間で書き起こすことができます。

#この記事では主に、B ステーションシナリオでの音声認識技術の実装、トレーニングデータの問題をゼロから解決する方法、全体的な技術ソリューションの選択、モデルを含むサブモジュールのさまざまな導入と最適化について紹介します。トレーニング、デコーダの最適化、サービス推論の展開。将来的には、インスタントホットワードテクノロジーを使用して関連するエンティティワードの精度を原稿レベルで最適化するなど、関連するランディングシナリオでのユーザーエクスペリエンスをさらに向上させます。ストリーミング ASR 関連テクノロジーと組み合わせて、より効率的なカスタマイズをリアルタイムでサポートします。ゲームやスポーツイベントの字幕転写。

参考文献

[1] A Baevski、H Zhou、他 wav2vec 2.0: 音声表現の自己教師あり学習のためのフレームワーク

[2] A Baevski 、 W Hsu ら、data2vec: 音声、視覚、言語における自己教師あり学習のための一般的なフレームワーク

[3] Daniel S、Y Zhang ら、自動音声認識のためのノイズの多い学生トレーニングの改善

[4] C Lüscher、E Beck、他 LibriSpeech 用 RWTH ASR システム: ハイブリッド vs アテンション -- データ拡張なし

[5] R Prabhavalkar、K Rao、他音声認識のためのシーケンス間モデルの比較

# [7] H Xiang、Z Ou、CTC トポロジーを使用した CRF ベースのシングルステージ音響モデリング

[8] Z Chen、W Deng、他、CTC Lattice を使用した電話同期デコーディング

[9]

https://www.php.cn/link/2ea6241cf767c279cf1e80a790df1885

この問題の著者: Deng Wei

シニアアルゴリズムエンジニア

Bilibili 音声認識ディレクション部門責任者

以上がB局における音声認識技術の導入実践の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

リアルなヌード写真を作成する AI 搭載アプリ

写真から衣服を削除するオンライン AI ツール。

脱衣画像を無料で

AI衣類リムーバー

AIヘンタイを無料で生成します。

使いやすく無料のコードエディター

中国語版、とても使いやすい

強力な PHP 統合開発環境

ビジュアル Web 開発ツール

神レベルのコード編集ソフト（SublimeText3）

Gmailメールのログイン入り口はどこですか？

7569

CakePHP チュートリアル

1386

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

107

Related knowledge

動画切り出しで音声を自動認識して字幕を生成する方法字幕を自動生成する方法の紹介 Mar 14, 2024 pm 08:10 PM

このプラットフォームに音声字幕を生成する機能を実装するにはどうすればよいですか? ビデオを作成するとき、質感を高めるため、またはストーリーをナレーションするときに、誰もが情報をよりよく理解できるように字幕を追加する必要があります。上のビデオの一部。表現にも役割を果たしますが、多くのユーザーは自動音声認識と字幕生成にあまり慣れていません。どこにいても、さまざまな面でより良い選択を簡単に行うことができます。機能的なスキルなどをゆっくり理解する必要があります。急いでエディターで確認してください。お見逃しなく。

WebSocket と JavaScript を使用してオンライン音声認識システムを実装する方法 Dec 17, 2023 pm 02:54 PM

WebSocket と JavaScript を使用してオンライン音声認識システムを実装する方法はじめに: 技術の継続的な発展により、音声認識技術は人工知能の分野の重要な部分になりました。 WebSocket と JavaScript をベースとしたオンライン音声認識システムは、低遅延、リアルタイム、クロスプラットフォームという特徴があり、広く使用されるソリューションとなっています。この記事では、WebSocket と JavaScript を使用してオンライン音声認識システムを実装する方法を紹介します。

WIN10システムで音声認識をオフにする詳細な方法 Mar 27, 2024 pm 02:36 PM

1. コントロールパネルに入り、[音声認識] オプションを見つけてオンにします。 2. 音声認識ページが表示されたら、[音声詳細オプション]を選択します。 3. 最後に、音声のプロパティ画面のユーザー設定欄にある「起動時に音声認識を実行する」のチェックを外します。

Stable Diffusion 3 の論文がついに公開され、アーキテクチャの詳細が明らかになりましたが、Sora の再現に役立つでしょうか? Mar 06, 2024 pm 05:34 PM

StableDiffusion3 の論文がついに登場しました!このモデルは2週間前にリリースされ、Soraと同じDiT（DiffusionTransformer）アーキテクチャを採用しており、リリースされると大きな話題を呼びました。前バージョンと比較して、StableDiffusion3で生成される画像の品質が大幅に向上し、マルチテーマプロンプトに対応したほか、テキスト書き込み効果も向上し、文字化けが発生しなくなりました。 StabilityAI は、StableDiffusion3 はパラメータサイズが 800M から 8B までの一連のモデルであると指摘しました。このパラメーター範囲は、モデルを多くのポータブルデバイス上で直接実行できることを意味し、AI の使用を大幅に削減します。

座標系の変換を本当にマスターしましたか?自動運転と切り離せないマルチセンサーの問題 Oct 12, 2023 am 11:21 AM

最初のパイロットおよび重要な記事では、主に自動運転技術で一般的に使用されるいくつかの座標系と、それらの間の相関と変換を完了し、最終的に統合環境モデルを構築する方法を紹介します。ここでの焦点は、車両からカメラの剛体への変換 (外部パラメータ)、カメラから画像への変換 (内部パラメータ)、および画像からピクセル単位への変換を理解することです。 3D から 2D への変換には、対応する歪み、変換などが発生します。要点：車両座標系とカメラ本体座標系を平面座標系とピクセル座標系に書き換える必要がある難易度：画像の歪みを考慮する必要がある歪み補正と歪み付加の両方を画面上で補正する2. はじめにビジョンシステムには、ピクセル平面座標系 (u, v)、画像座標系 (x, y)、カメラ座標系 ()、世界座標系 () の合計 4 つの座標系があります。それぞれの座標系には関係性があり、

自動運転と軌道予測についてはこの記事を読めば十分です！ Feb 28, 2024 pm 07:20 PM

自動運転では軌道予測が重要な役割を果たしており、自動運転軌道予測とは、車両の走行過程におけるさまざまなデータを分析し、将来の車両の走行軌跡を予測することを指します。自動運転のコアモジュールとして、軌道予測の品質は下流の計画制御にとって非常に重要です。軌道予測タスクには豊富な技術スタックがあり、自動運転の動的/静的知覚、高精度地図、車線境界線、ニューラルネットワークアーキテクチャ (CNN&GNN&Transformer) スキルなどに精通している必要があります。始めるのは非常に困難です。多くのファンは、できるだけ早く軌道予測を始めて、落とし穴を避けたいと考えています。今日は、軌道予測に関するよくある問題と入門的な学習方法を取り上げます。関連知識の紹介 1. プレビュー用紙は整っていますか? A: まずアンケートを見てください。

DualBEV: BEVFormer および BEVDet4D を大幅に上回る、本を開いてください! Mar 21, 2024 pm 05:21 PM

この論文では、自動運転においてさまざまな視野角 (遠近法や鳥瞰図など) から物体を正確に検出するという問題、特に、特徴を遠近法 (PV) 空間から鳥瞰図 (BEV) 空間に効果的に変換する方法について検討します。 Visual Transformation (VT) モジュールを介して実装されます。既存の手法は、2D から 3D への変換と 3D から 2D への変換という 2 つの戦略に大別されます。 2D から 3D への手法は、深さの確率を予測することで高密度の 2D フィーチャを改善しますが、特に遠方の領域では、深さ予測に固有の不確実性により不正確さが生じる可能性があります。 3D から 2D への方法では通常、3D クエリを使用して 2D フィーチャをサンプリングし、Transformer を通じて 3D と 2D フィーチャ間の対応のアテンションウェイトを学習します。これにより、計算時間と展開時間が増加します。

非常に高速！ 10 行未満のコードを使用して、わずか数分でビデオ音声を認識してテキストに変換します Feb 27, 2024 pm 01:55 PM

皆さん、こんにちは。私は Kite です。2 年前には、オーディオファイルとビデオファイルをテキストコンテンツに変換する必要性を実現するのは困難でしたが、今ではわずか数分で簡単に解決できるようになりました。一部の企業では、トレーニングデータを取得するために、DouyinやKuaishouなどのショートビデオプラットフォーム上のビデオをフルクロールし、ビデオから音声を抽出してテキスト形式に変換し、ビッグデータのトレーニングコーパスとして使用していると言われていますモデル。ビデオまたはオーディオファイルをテキストに変換する必要がある場合は、現在利用可能なこのオープンソースソリューションを試すことができます。たとえば、映画やテレビ番組のセリフが登場する特定の時点を検索できます。早速、本題に入りましょう。 Whisper は OpenAI のオープンソース Whisper で、もちろん Python で書かれており、必要なのはいくつかの簡単なインストールパッケージだけです。

See all articles

最適化された E2E-CTC