極小機械学習はディープラーニングをマイクロプロセッサに組み込むことを約束する-AI-php.cn

1. TinyML (TinyML) はなぜ登場するのですか?

2. 畳み込みニューラルネットワークにおけるメモリのボトルネック

3. MCUNetV2 パッチベースの推論

4. TinyML アプリケーション

翻訳者紹介

ホームページ

テクノロジー周辺機器

極小機械学習はディープラーニングをマイクロプロセッサに組み込むことを約束する

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 08, 2023 pm 01:51 PM

機械学習ディープラーニング cnn

極小機械学習はディープラーニングをマイクロプロセッサに組み込むことを約束する

翻訳者|Zhu Xianzhong

査読者|Liang Ce Sun Shujuan

深層学習モデルの初期の成功は、大量のデータを備えた大規模サーバーのおかげでした。メモリと GPU クラスター。ディープラーニングの可能性により、ディープニューラルネットワーク用のクラウドコンピューティングサービスを提供する業界が生まれました。その結果、事実上無制限のクラウドリソース上で実行される大規模なニューラルネットワークは、特に予算が豊富なテクノロジー企業で非常に人気が高まっています。

しかし同時に、近年では逆の傾向も現れています。それは、エッジデバイス向けの機械学習モデルの作成です。 Tiny Machine Learning (TinyML) として知られるこれらのモデルは、メモリと処理能力が限られており、インターネット接続が存在しないか制限されているデバイス上で動作します。

IBM とマサチューセッツ工科大学 (MIT) が共同で実施した最新の研究活動により、畳み込みニューラルネットワーク (CNN) のピークメモリボトルネックの問題が解決されました。これは、コンピュータービジョンアプリケーションにとって特に重要な深層学習アーキテクチャです。低メモリおよび低電力のマイクロコントローラーで畳み込みニューラルネットワーク (CNN) を実行できる McUnETV2 と呼ばれるモデルについては、NeurIPS 2021 カンファレンスで発表された論文で詳しく説明されています。

1. TinyML (TinyML) はなぜ登場するのですか?

極小機械学習はディープラーニングをマイクロプロセッサに組み込むことを約束する

クラウドディープラーニングは非常に成功していますが、すべての状況に適しているわけではありません。実際、多くのアプリケーションでは、推論タスクをハードウェアデバイス上で直接完了する必要があることがよくあります。たとえば、ドローン救助などの一部のミッション環境では、インターネット接続が保証されていません。医療などの他の分野でも、プライバシー要件や規制上の制約により、データをクラウドに送信して処理することが困難になります。リアルタイムの機械語推論を必要とするアプリケーションの場合、ラウンドトリップクラウドコンピューティングによって生じる遅延はさらに法外なものになります。

機械学習デバイスを科学的にも商業的にも魅力的なものにするには、上記の条件をすべて満たす必要があります。たとえば、iPhone スマートフォンには顔認識や音声認識を実行する多くのアプリケーションが搭載されており、Android スマートフォンでも翻訳ソフトウェアを直接実行できます。さらに、Apple Watch はすでに機械学習アルゴリズムを使用して動きと ECG パターンを検出できます（注: ECG は心電図の略語で、EKG とも呼ばれます。これは、トリガーとなる電気信号シーケンスの時間ノードを記録するために使用されるテスト実験です） ECG 画像を分析することで、医師は心拍数が正常かどうか、また心臓の機能に問題があるかどうかをより適切に診断できます。

これらのデバイス上の ML モデルは、ニューラルネットワークをコンパクトにし、計算効率とストレージ効率を向上させる技術の進歩によって部分的に実現されています。同時に、ハードウェア技術の進歩により、モバイル設定でのこのような ML モデルの実装も可能になりました。現在、私たちのスマートフォンやウェアラブルは 30 年前の高性能サーバーよりも高いコンピューティング能力を備えており、機械語推論用に特化したコプロセッサーを備えているものもあります。

TinyML はエッジ AI をさらに一歩進め、マイクロコントローラー (MCU) 上で深層学習モデルを実行できるようにしますが、マイクロコントローラーはポケットや手首に入れて持ち歩く小型コンピューターよりも要求が厳しいものです。リソース。

一方、マイクロコントローラーは安価で、平均販売価格は 0.50 ドル未満で、ほぼどこにでもあり、民生産業から産業機器に至るまであらゆるものに組み込むことができます。同時に、汎用コンピューティングデバイスにあるようなリソースはなく、ほとんどのデバイスにはオペレーティングシステムがありません。マイクロコントローラーの CPU は小さく、数百キロバイトの低電力メモリ (SRAM) と数メガバイトのストレージしか搭載されておらず、ネットワーク機器も備えていません。それらのほとんどには主電源がなく、長年にわたってボタン電池を使用する必要がありました。したがって、深層学習モデルを MCU にインストールすると、多くのアプリケーションに新しい道が開かれる可能性があります。

2. 畳み込みニューラルネットワークにおけるメモリのボトルネック

極小機械学習はディープラーニングをマイクロプロセッサに組み込むことを約束する

畳み込みニューラルネットワーク (CNN) のアーキテクチャ

ディープニューラルネットワークを組み合わせるためにネットワークネットワークを小型メモリのコンピューティングデバイスに適したサイズに縮小するための多くの取り組みが行われてきました。ただし、これらの取り組みのほとんどは、深層学習モデルのパラメーターの数を減らすことに重点を置いています。たとえば、「枝刈り」は、モデルの出力から重要でないパラメーターを削除することによってニューラルネットワークを縮小する、一般的な最適化アルゴリズムです。

プルーニング手法の問題は、ニューラルネットワークのメモリボトルネックを解決できないことです。深層学習ライブラリの標準実装では、ネットワーク層全体とアクティベーション層マッピングをメモリにロードする必要があります。残念ながら、古典的な最適化手法は、ニューラルネットワーク、特に畳み込みニューラルネットワークの初期の計算層に大きな変更を加えません。

これにより、ネットワークのさまざまなレイヤーのサイズに不均衡が生じ、「メモリスパイク」問題が発生します。プルーニング後にネットワークがより軽量になったとしても、ネットワークを実行するデバイスには最大のレイヤーと同じメモリが必要です。たとえば、人気のある TinyML モデル MobileNetV2 では、初期の層の計算は約 1.4 メガバイトのメモリピークに達しますが、後の層のメモリフットプリントは非常に小さくなります。モデルを実行するには、デバイスはモデルのピークと同じ量のメモリを必要とします。ほとんどの MCU には数百 KB のメモリしか搭載されていないため、MobileNetV2 の既製バージョンを実行できません。

極小機械学習はディープラーニングをマイクロプロセッサに組み込むことを約束する

MobileNetV2 はエッジデバイス向けに最適化されたニューラルネットワークですが、そのメモリは約 1.4 メガバイトでピークに達するため、多くのマイクロコントローラーはアクセスできません。

ニューラルネットワークを最適化するもう 1 つの方法は、モデルの入力サイズを減らすことです。入力画像が小さい場合、予測タスクを実行するために必要な CNN は小さくなります。ただし、入力サイズの削減には独自の課題があり、すべてのコンピュータービジョンタスクに効果的であるわけではありません。たとえば、物体検出ディープラーニングモデルは画像サイズに非常に敏感であり、入力解像度が低下するとパフォーマンスが急速に低下します。

極小機械学習はディープラーニングをマイクロプロセッサに組み込むことを約束する

上の図から、画像分類 ML モデル (オレンジ色の線) がターゲット検出モデル (青線) よりも解像度を下げやすいことが簡単にわかります。

3. MCUNetV2 パッチベースの推論

畳み込みニューラルネットワークのメモリボトルネック問題を解決するために、研究者たちは、メモリ帯域幅をマイクロコントローラーの限界まで調整できる MCUNetV2 と呼ばれるディープラーニングアーキテクチャを作成しました。 MCUNetV2 は、同じ科学研究グループの以前の結果に基づいて開発され、NeurIPS 2020 カンファレンスに承認され、無事提出されました。

MCUNetV2 の背後にある主なアイデアは「パッチベースの推論」です。これは、精度を低下させることなく CNN のメモリフットプリントを削減する技術です。 MCUNetV2 は、ニューラルネットワーク層全体をメモリにロードするのではなく、層のより小さな領域または「パッチ」をいつでもロードして計算します。次に、レイヤーをブロックごとに反復処理し、レイヤー全体のアクティブ化部分を計算するまでこれらの値を組み合わせます。

極小機械学習はディープラーニングをマイクロプロセッサに組み込むことを約束する

図の左側は、層全体を計算する古典的な深層学習システムを示し、右側は一度に 1 つのパッチを計算する MCUNetV2 を示し、それによりメモリが削減されます。 DL推論が必要です。

MCUNetV2 は一度に 1 つのニューロンのみを保存する必要があるため、モデルの解像度やパラメーターを低下させることなく、メモリのピークを大幅に削減します。研究者の実験によると、MCUNetV2 はピークメモリを 8 分の 1 に削減できることがわかりました。

極小機械学習はディープラーニングをマイクロプロセッサに組み込むことを約束する

MCUNetV2 はディープラーニングモデルのメモリピークを 8 分の 1 に削減できます

パッチベースの推論はメモリを節約しながら、コンピューティング能力とコストのトレードオフをもたらします問題。マサチューセッツ工科大学 (MIT) と IBM の研究者は、アーキテクチャが異なるとネットワーク全体の計算量が 10 ～ 17% 増加する可能性があることを発見しましたが、これは明らかに低電力マイクロコントローラーには当てはまりません。

この制限を克服するために、研究者らはニューラルネットワークのさまざまなブロックの「受容野」を再分配しました (注: CNN では、n 番目の層の特徴マップのピクセルは、最初の層。ピクセル数は層の受容野 (「RF」) です。 CNN では、受容野とは、いつでも処理できる画像領域のことです。受容野が大きくなると、パッチが大きくなり、パッチ間の重なりが必要になります。もちろん、これにより計算オーバーヘッドが増加します。ネットワークの初期ブロックの受容野を縮小し、後の段階で受容野を広げることにより、研究者らは計算オーバーヘッドを 3 分の 2 以上削減することができました。

極小機械学習はディープラーニングをマイクロプロセッサに組み込むことを約束する

受容野の再配分は、MCUNetV2 の計算オーバーヘッドを 3 分の 2 以上削減するのに役立ちます

最後に、研究者らは、MCUNetV2 A の調整により、多くは、ML モデルのアーキテクチャ、アプリケーション、ターゲットデバイスのメモリとストレージの容量によって異なります。デバイスやアプリケーションごとに深層学習モデルを手動で調整することを避けるために、研究者らは、機械学習を使用してニューラルネットワーク構造と推論スケジュールを自動的に最適化するプロセスである「ニューラルアルゴリズム検索」を使用しました。

研究者らは、メモリ容量が小さいいくつかのマイクロコントローラーモデルのさまざまなアプリケーションでディープラーニングアーキテクチャをテストしました。結果は、MCUNetV2 が他の TinyML テクノロジーよりも優れたパフォーマンスを発揮し、より少ないメモリ要件とより低いレイテンシーで画像分類とオブジェクト検出においてより高い精度を達成できることを示しています。

下の図に示すように、研究者はリアルタイムの人物検出、視覚的なウェイクワード、顔/マスク検出を備えた MCUNetV2 を使用しています。

極小機械学習はディープラーニングをマイクロプロセッサに組み込むことを約束する

翻訳者注: ここに示されているのは、youtube.com Web サイトに表示されている MCUNetV2 を使用したビデオのスクリーンショットのみです。

4. TinyML アプリケーション

「機械学習の将来はなぜ小さいのか」というタイトルの 2018 年の記事で、ソフトウェアエンジニアの Pete Warden は、MCU での機械学習が非常に重要であると考えています。 Worden 氏は次のように書いています。「機械学習は小型の低電力チップ上で実行できると信じています。この組み合わせにより、現在解決できない多くの問題が解決されるでしょう。」

センサーと CPU の進歩のおかげで、世界中のデータへのアクセスが大幅に強化されました。しかし、機械学習モデルを通じてこのデータを処理して使用する能力は、ネットワーク接続とクラウドサーバーアクセスによって制限されます。 Worden 氏が述べたように、プロセッサーとセンサーは Bluetooth や WiFi などの無線送信機よりもエネルギー効率が高くなります。

Worden 氏は次のように書いています: 「データを移動する物理的なプロセスには、多くのエネルギーが必要なようです。操作に必要なエネルギーは、ビットを送信する距離に正比例するという法則があるようです。CPUセンサーはわずか数ミリメートルしか送信しません。ビットデータの送信は安価で高価ですが、無線通信では、数ビットのデータを送信するには数メートル以上の距離が必要で、高価です。適切なテクノロジーで開かれる必要があります。安価なマイクロコントローラーで動作し、エネルギーをほとんど使用せず、無線ではなく計算に依存し、無駄なセンサーデータをすべて有用なデータに変えることができるデバイスが必要です。これは機械学習、特に深層学習です学習がそのギャップを埋めることになるでしょう。」

MCUNetV2 と TinyML が他の分野でも進歩しているおかげで、Worden の予測は間もなく現実になるかもしれません。今後数年間で、TinyML が家庭、オフィス、病院、工場、農場、道路、橋などにある数十億のマイクロコントローラーに導入され、以前は不可能だったアプリケーションが可能になる可能性があると予想されます。

元のリンク: https://thenextweb.com/news/tinyml-deep-learning-microcontrollers-syndication

翻訳者紹介

Zhu Xianzhong、51CTO コミュニティ編集者、51CTO専門ブロガー、講師、濰坊市の大学のコンピューター教師、そしてフリーランスプログラミング業界のベテラン。初期の頃は、さまざまな Microsoft テクノロジに焦点を当てていました (ASP.NET AJX および Cocos 2d-X に関連する 3 冊の技術書籍を編集しました)。過去 10 年間は、オープンソースの世界に専念してきました (人気のある完全なソースに精通しています)。スタックWeb開発技術）を学び、OneNet/AliOS Arduino/ESP32/Raspberry PiなどのIoT開発技術やScala Hadoop Spark Flinkなどのビッグデータ開発技術について学びました。

極小機械学習はディープラーニングをマイクロプロセッサに組み込むことを約束する

以上が極小機械学習はディープラーニングをマイクロプロセッサに組み込むことを約束するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7749

Java チュートリアル

1643

CakePHP チュートリアル

1397

Laravel チュートリアル

1293

PHP チュートリアル

1234

Related knowledge

この記事では、SHAP: 機械学習のモデルの説明について説明します。 Jun 01, 2024 am 10:58 AM

機械学習とデータサイエンスの分野では、モデルの解釈可能性が常に研究者や実務家に焦点を当ててきました。深層学習やアンサンブル手法などの複雑なモデルが広く適用されるようになったことで、モデルの意思決定プロセスを理解することが特に重要になってきました。 Explainable AI|XAI は、モデルの透明性を高めることで、機械学習モデルに対する信頼と自信を構築するのに役立ちます。モデルの透明性の向上は、複数の複雑なモデルの普及や、モデルを説明するための意思決定プロセスなどの方法によって実現できます。これらの方法には、特徴重要度分析、モデル予測間隔推定、ローカル解釈可能性アルゴリズムなどが含まれます。特徴重要度分析では、入力特徴に対するモデルの影響度を評価することで、モデルの意思決定プロセスを説明できます。モデルの予測間隔の推定

学習曲線を通じて過学習と過小学習を特定する Apr 29, 2024 pm 06:50 PM

この記事では、学習曲線を通じて機械学習モデルの過学習と過小学習を効果的に特定する方法を紹介します。過小適合と過適合 1. 過適合モデルがデータからノイズを学習するためにデータ上で過学習されている場合、そのモデルは過適合していると言われます。過学習モデルはすべての例を完璧に学習するため、未確認の新しい例を誤って分類してしまいます。過適合モデルの場合、完璧/ほぼ完璧なトレーニングセットスコアとひどい検証セット/テストスコアが得られます。若干修正: 「過学習の原因: 複雑なモデルを使用して単純な問題を解決し、データからノイズを抽出します。トレーニングセットとしての小さなデータセットはすべてのデータを正しく表現できない可能性があるため、2. 過学習の Heru。」

ORB-SLAM3を超えて！ SL-SLAM: 低照度、重度のジッター、弱いテクスチャのシーンはすべて処理されます。 May 30, 2024 am 09:35 AM

以前に書きましたが、今日は、深層学習テクノロジーが複雑な環境におけるビジョンベースの SLAM (同時ローカリゼーションとマッピング) のパフォーマンスをどのように向上させることができるかについて説明します。ここでは、深部特徴抽出と深度マッチング手法を組み合わせることで、低照度条件、動的照明、テクスチャの弱い領域、激しいセックスなどの困難なシナリオでの適応を改善するように設計された多用途のハイブリッドビジュアル SLAM システムを紹介します。当社のシステムは、拡張単眼、ステレオ、単眼慣性、ステレオ慣性構成を含む複数のモードをサポートしています。さらに、他の研究にインスピレーションを与えるために、ビジュアル SLAM と深層学習手法を組み合わせる方法も分析します。公開データセットと自己サンプリングデータに関する広範な実験を通じて、測位精度と追跡堅牢性の点で SL-SLAM の優位性を実証しました。

宇宙探査と人類居住工学における人工知能の進化 Apr 29, 2024 pm 03:25 PM

1950 年代に人工知能 (AI) が誕生しました。そのとき、研究者たちは、機械が思考などの人間と同じようなタスクを実行できることを発見しました。その後、1960 年代に米国国防総省は人工知能に資金を提供し、さらなる開発のために研究所を設立しました。研究者たちは、宇宙探査や極限環境での生存など、多くの分野で人工知能の応用を見出しています。宇宙探査は、地球を超えた宇宙全体を対象とする宇宙の研究です。宇宙は地球とは条件が異なるため、極限環境に分類されます。宇宙で生き残るためには、多くの要素を考慮し、予防策を講じる必要があります。科学者や研究者は、宇宙を探索し、あらゆるものの現状を理解することが、宇宙の仕組みを理解し、潜在的な環境危機に備えるのに役立つと信じています。

C++ での機械学習アルゴリズムの実装: 一般的な課題と解決策 Jun 03, 2024 pm 01:25 PM

C++ の機械学習アルゴリズムが直面する一般的な課題には、メモリ管理、マルチスレッド、パフォーマンスの最適化、保守性などがあります。解決策には、スマートポインター、最新のスレッドライブラリ、SIMD 命令、サードパーティライブラリの使用、コーディングスタイルガイドラインの遵守、自動化ツールの使用が含まれます。実践的な事例では、Eigen ライブラリを使用して線形回帰アルゴリズムを実装し、メモリを効果的に管理し、高性能の行列演算を使用する方法を示します。

あなたが知らない機械学習の 5 つの流派 Jun 05, 2024 pm 08:51 PM

機械学習は人工知能の重要な分野であり、明示的にプログラムしなくてもコンピューターにデータから学習して能力を向上させる機能を提供します。機械学習は、画像認識や自然言語処理から、レコメンデーションシステムや不正行為検出に至るまで、さまざまな分野で幅広く応用されており、私たちの生活様式を変えつつあります。機械学習の分野にはさまざまな手法や理論があり、その中で最も影響力のある 5 つの手法は「機械学習の 5 つの流派」と呼ばれています。 5 つの主要な学派は、象徴学派、コネクショニスト学派、進化学派、ベイジアン学派、およびアナロジー学派です。 1. 象徴主義は、象徴主義とも呼ばれ、論理的推論と知識の表現のためのシンボルの使用を強調します。この学派は、学習は既存の既存の要素を介した逆演繹のプロセスであると信じています。

フラッシュアテンションは安定していますか?メタとハーバードは、モデルの重みの偏差が桁違いに変動していることを発見しました May 30, 2024 pm 01:24 PM

MetaFAIR はハーバード大学と協力して、大規模な機械学習の実行時に生成されるデータの偏りを最適化するための新しい研究フレームワークを提供しました。大規模な言語モデルのトレーニングには数か月かかることが多く、数百、さらには数千の GPU を使用することが知られています。 LLaMA270B モデルを例にとると、そのトレーニングには合計 1,720,320 GPU 時間が必要です。大規模なモデルのトレーニングには、これらのワークロードの規模と複雑さにより、特有のシステム上の課題が生じます。最近、多くの機関が、SOTA 生成 AI モデルをトレーニングする際のトレーニングプロセスの不安定性を報告しています。これらは通常、損失スパイクの形で現れます。たとえば、Google の PaLM モデルでは、トレーニングプロセス中に最大 20 回の損失スパイクが発生しました。数値的なバイアスがこのトレーニングの不正確さの根本原因です。

AlphaFold 3 が発売され、タンパク質とすべての生体分子の相互作用と構造をこれまでよりもはるかに高い精度で包括的に予測します。 Jul 16, 2024 am 12:08 AM

エディター | Radish Skin 2021 年の強力な AlphaFold2 のリリース以来、科学者はタンパク質構造予測モデルを使用して、細胞内のさまざまなタンパク質構造をマッピングし、薬剤を発見し、既知のあらゆるタンパク質相互作用の「宇宙地図」を描いてきました。ちょうど今、Google DeepMind が AlphaFold3 モデルをリリースしました。このモデルは、タンパク質、核酸、小分子、イオン、修飾残基を含む複合体の結合構造予測を実行できます。 AlphaFold3 の精度は、これまでの多くの専用ツール (タンパク質-リガンド相互作用、タンパク質-核酸相互作用、抗体-抗原予測) と比較して大幅に向上しました。これは、単一の統合された深層学習フレームワーク内で、次のことを達成できることを示しています。

See all articles

極小機械学習はディープラーニングをマイクロプロセッサに組み込むことを約束する

1. TinyML (TinyML) はなぜ登場するのですか?

2. 畳み込みニューラル ネットワークにおけるメモリのボトルネック

3. MCUNetV2 パッチベースの推論

4. TinyML アプリケーション

翻訳者紹介

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

2. 畳み込みニューラルネットワークにおけるメモリのボトルネック