畳み込みニューラル ネットワークで BERT を実行するにはどうすればよいですか?
ByteDance 技術チームによって提案された SparK - Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling を直接使用できます。最近、これはスポットライト フォーカス ペーパーとして含まれています。トップ人工知能カンファレンスによる :
##紙のリンク:
https://www. php.cn/link/e38e37a99f7de1f45d169efcdb288dd1
オープンソースコード:
##https://www.php.cn/link/9dfcf16f0adbc5e2a55ef02db36bac7f #これは、畳み込みニューラル ネットワーク (CNN) における BERT の最初の成功でもあります
#。まずは事前トレーニングでSparKの性能を感じてみましょう。 未完成の画像を入力してください:
別の切断された写真:
#ベーグルサンドイッチであることが判明しました:
他のシーンでも画像の復元を行うことができます:
BERT と Transformer の完璧な組み合わせ
「素晴らしい行動や考えはすべて、
” BERT 事前トレーニング アルゴリズムの背後には、シンプルかつ奥深い設計があります。 BERT は「cloze」を使用します。つまり、文内のいくつかの単語をランダムに削除し、モデルに復元を学習させます。
BERT は、NLP 分野の
コア モデルである Transformerに大きく依存しています。 #####。 Transformer はもともと可変長シーケンス データ (英語の文章など) の処理に適しているため、BERT の「ランダムな削除」にも簡単に対応できます。クローズ」。
映像分野の CNN も BERT を楽しみたいと考えています。2 つの課題は何ですか?
コンピュータ ビジョンの開発の歴史を振り返ると、畳み込みニューラル ネットワーク モデルには、並進等分散などの多くの古典的なモデルのエッセンスが凝縮されています。マルチスケール構造など、CV の世界の根幹とも言える。しかし、Transformer と大きく異なるのは、CNN が本質的に、クローゼによって「くり抜かれ」、「ランダムな穴」でいっぱいのデータに適応できないため、一見したところでは BERT の事前トレーニングの恩恵を享受できないことです。
右の図 b. は、BERT モデルと CNN モデルを融合する大まかな方法を示しています。つまり、すべての空の領域を「黒く」します。この「黒いモザイク」画像が CNN に入力されると、深刻なピクセル強度分布シフトの問題が発生し、パフォーマンスの低下につながる結果が想像できます (後で検証します)。これは、CNN での BERT の適用の成功を妨げる
課題 です。 #加えて、著者チームは、NLP の分野に由来する BERT アルゴリズムには、当然のことながら「マルチスケール」の特性がないことも指摘しています。 、マルチスケールのピラミッド構造は、コンピュータービジョンの長い歴史の中で「ゴールドスタンダード」と呼ぶことができます。シングルスケール BERT と自然なマルチスケール CNN の間の競合は、
課題 2 です。 ソリューション SparK: スパースおよび階層マスク モデリング
##著者チームは、前述の 2 つの課題を解決するために SparK (スパースおよび階層マスク モデリング) を提案しました。
まず、3次元点群データ処理にヒントを得て、著者チームはマスキング操作(くり抜き操作)後の断片化された画像をスパース点として扱うことを提案しました。雲は部分多様体スパース畳み込みを使用してエンコードされます。これにより、畳み込みネットワークはランダムに削除された画像を簡単に処理できるようになります。
第 2 に、UNet のエレガントな設計に触発されて、著者チームは水平接続を備えたエンコーダ/デコーダ モデルを自然に設計し、複数の間でマルチスケール機能をフローできるようにしました。これにより、BERT はコンピューター ビジョンのマルチスケール ゴールド スタンダードを完全に受け入れることができます。
この時点で、畳み込みネットワーク (CNN) 向けに調整されたスパースなマルチスケール マスク モデリング アルゴリズムである SparK が誕生しました。
SparK は
一般:できる構造を変更したり追加コンポーネントを導入したりすることなく、畳み込みネットワークで直接使用できます。よく知られた古典的な ResNet であっても、最近の高度なモデル ConvNeXt であっても、SparK の恩恵を直接受けられます。 ResNet から ConvNeXt へ: 3 つの主要なビジュアル タスクにおけるパフォーマンスの向上
著者チームは、ResNet と ConvNeXt という 2 つの代表的な畳み込みモデル ファミリを選択し、画像分類、ターゲット検出、インスタンス セグメンテーション タスクのパフォーマンス テストを実施しました。
古典的な ResNet-50 モデルでは、SparK は唯一の生成的事前トレーニングとして機能します。最先端レベルを達成:
ConvNeXt モデルでは、SparK が依然として をリードしています。事前トレーニング前は、ConvNeXt と Swin-Transformer は互角でしたが、事前トレーニング後は、ConvNeXt が次の 3 つのタスクで Swin-Transformer を圧倒的に上回りました。 #小規模から大規模までの完全なモデル ファミリで SparK を検証すると、次のことがわかります。 最後に、著者チームは確認のためのアブレーション実験も設計しました。そこから次のことがわかります# #Sparse Mask #and 階層構造 行 3 と 4 行) は非常に重要なデザインです。一度欠落すると重大なパフォーマンスに影響します。劣化:
以上がBERT は CNN でも使用できますか? ByteDance の研究結果が ICLR 2023 スポットライトに選出の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。