目次
1. TinyML (TinyML) はなぜ登場するのですか?
2. 畳み込みニューラル ネットワークにおけるメモリのボトルネック
3. MCUNetV2 パッチベースの推論
4. TinyML アプリケーション
翻訳者紹介
ホームページ テクノロジー周辺機器 AI 極小機械学習はディープラーニングをマイクロプロセッサに組み込むことを約束する

極小機械学習はディープラーニングをマイクロプロセッサに組み込むことを約束する

Apr 08, 2023 pm 01:51 PM
機械学習 ディープラーニング cnn

極小機械学習はディープラーニングをマイクロプロセッサに組み込むことを約束する

翻訳者|Zhu Xianzhong

査読者|Liang Ce Sun Shujuan

深層学習モデルの初期の成功は、大量のデータを備えた大規模サーバーのおかげでした。メモリと GPU クラスター。ディープラーニングの可能性により、ディープ ニューラル ネットワーク用のクラウド コンピューティング サービスを提供する業界が生まれました。その結果、事実上無制限のクラウド リソース上で実行される大規模なニューラル ネットワークは、特に予算が豊富なテクノロジー企業で非常に人気が高まっています。

しかし同時に、近年では逆の傾向も現れています。それは、エッジデバイス向けの機械学習モデルの作成です。 Tiny Machine Learning (TinyML) として知られるこれらのモデルは、メモリと処理能力が限られており、インターネット接続が存在しないか制限されているデバイス上で動作します。

IBM とマサチューセッツ工科大学 (MIT) が共同で実施した最新の研究活動により、畳み込みニューラル ネットワーク (CNN) のピーク メモリ ボトルネックの問題が解決されました。これは、コンピューター ビジョン アプリケーションにとって特に重要な深層学習アーキテクチャです。低メモリおよび低電力のマイクロコントローラーで畳み込みニューラル ネットワーク (CNN) を実行できる McUnETV2 と呼ばれるモデルについては、NeurIPS 2021 カンファレンスで発表された論文で詳しく説明されています。

1. TinyML (TinyML) はなぜ登場するのですか?

極小機械学習はディープラーニングをマイクロプロセッサに組み込むことを約束する

クラウドディープラーニングは非常に成功していますが、すべての状況に適しているわけではありません。実際、多くのアプリケーションでは、推論タスクをハードウェア デバイス上で直接完了する必要があることがよくあります。たとえば、ドローン救助などの一部のミッション環境では、インターネット接続が保証されていません。医療などの他の分野でも、プライバシー要件や規制上の制約により、データをクラウドに送信して処理することが困難になります。リアルタイムの機械語推論を必要とするアプリケーションの場合、ラウンドトリップ クラウド コンピューティングによって生じる遅延はさらに法外なものになります。

機械学習デバイスを科学的にも商業的にも魅力的なものにするには、上記の条件をすべて満たす必要があります。たとえば、iPhone スマートフォンには顔認識や音声認識を実行する多くのアプリケーションが搭載されており、Android スマートフォンでも翻訳ソフトウェアを直接実行できます。さらに、Apple Watch はすでに機械学習アルゴリズムを使用して動きと ECG パターンを検出できます(注: ECG は心電図の略語で、EKG とも呼ばれます。これは、トリガーとなる電気信号シーケンスの時間ノードを記録するために使用されるテスト実験です) ECG 画像を分析することで、医師は心拍数が正常かどうか、また心臓の機能に問題があるかどうかをより適切に診断できます。

これらのデバイス上の ML モデルは、ニューラル ネットワークをコンパクトにし、計算効率とストレージ効率を向上させる技術の進歩によって部分的に実現されています。同時に、ハードウェア技術の進歩により、モバイル設定でのこのような ML モデルの実装も可能になりました。現在、私たちのスマートフォンやウェアラブルは 30 年前の高性能サーバーよりも高いコンピューティング能力を備えており、機械語推論用に特化したコプロセッサーを備えているものもあります。

TinyML はエッジ AI をさらに一歩進め、マイクロコントローラー (MCU) 上で深層学習モデルを実行できるようにしますが、マイクロコントローラーはポケットや手首に入れて持ち歩く小型コンピューターよりも要求が厳しいものです。リソース。

一方、マイクロコントローラーは安価で、平均販売価格は 0.50 ドル未満で、ほぼどこにでもあり、民生産業から産業機器に至るまであらゆるものに組み込むことができます。同時に、汎用コンピューティング デバイスにあるようなリソースはなく、ほとんどのデバイスにはオペレーティング システムがありません。マイクロコントローラーの CPU は小さく、数百キロバイトの低電力メモリ (SRAM) と数メガバイトのストレージしか搭載されておらず、ネットワーク機器も備えていません。それらのほとんどには主電源がなく、長年にわたってボタン電池を使用する必要がありました。したがって、深層学習モデルを MCU にインストールすると、多くのアプリケーションに新しい道が開かれる可能性があります。

2. 畳み込みニューラル ネットワークにおけるメモリのボトルネック

極小機械学習はディープラーニングをマイクロプロセッサに組み込むことを約束する

畳み込みニューラル ネットワーク (CNN) のアーキテクチャ

ディープ ニューラル ネットワークを組み合わせるためにネットワーク ネットワークを小型メモリのコンピューティング デバイスに適したサイズに縮小するための多くの取り組みが行われてきました。ただし、これらの取り組みのほとんどは、深層学習モデルのパラメーターの数を減らすことに重点を置いています。たとえば、「枝刈り」は、モデルの出力から重要でないパラメーターを削除することによってニューラル ネットワークを縮小する、一般的な最適化アルゴリズムです。

プルーニング手法の問題は、ニューラル ネットワークのメモリ ボトルネックを解決できないことです。深層学習ライブラリの標準実装では、ネットワーク層全体とアクティベーション層マッピングをメモリにロードする必要があります。残念ながら、古典的な最適化手法は、ニューラル ネットワーク、特に畳み込みニューラル ネットワークの初期の計算層に大きな変更を加えません。

これにより、ネットワークのさまざまなレイヤーのサイズに不均衡が生じ、「メモリ スパイク」問題が発生します。プルーニング後にネットワークがより軽量になったとしても、ネットワークを実行するデバイスには最大のレイヤーと同じメモリが必要です。たとえば、人気のある TinyML モデル MobileNetV2 では、初期の層の計算は約 1.4 メガバイトのメモリ ピークに達しますが、後の層のメモリ フットプリントは非常に小さくなります。モデルを実行するには、デバイスはモデルのピークと同じ量のメモリを必要とします。ほとんどの MCU には数百 KB のメモリしか搭載されていないため、MobileNetV2 の既製バージョンを実行できません。

極小機械学習はディープラーニングをマイクロプロセッサに組み込むことを約束する

MobileNetV2 はエッジ デバイス向けに最適化されたニューラル ネットワークですが、そのメモリは約 1.4 メガバイトでピークに達するため、多くのマイクロコントローラーはアクセスできません。

ニューラル ネットワークを最適化するもう 1 つの方法は、モデルの入力サイズを減らすことです。入力画像が小さい場合、予測タスクを実行するために必要な CNN は小さくなります。ただし、入力サイズの削減には独自の課題があり、すべてのコンピューター ビジョン タスクに効果的であるわけではありません。たとえば、物体検出ディープラーニング モデルは画像サイズに非常に敏感であり、入力解像度が低下するとパフォーマンスが急速に低下します。

極小機械学習はディープラーニングをマイクロプロセッサに組み込むことを約束する

上の図から、画像分類 ML モデル (オレンジ色の線) がターゲット検出モデル (青線) よりも解像度を下げやすいことが簡単にわかります。

3. MCUNetV2 パッチベースの推論

畳み込みニューラル ネットワークのメモリ ボトルネック問題を解決するために、研究者たちは、メモリ帯域幅をマイクロコントローラーの限界まで調整できる MCUNetV2 と呼ばれるディープ ラーニング アーキテクチャを作成しました。 MCUNetV2 は、同じ科学研究グループの以前の結果に基づいて開発され、NeurIPS 2020 カンファレンスに承認され、無事提出されました。

MCUNetV2 の背後にある主なアイデアは「パッチベースの推論」です。これは、精度を低下させることなく CNN のメモリ フットプリントを削減する技術です。 MCUNetV2 は、ニューラル ネットワーク層全体をメモリにロードするのではなく、層のより小さな領域または「パッチ」をいつでもロードして計算します。次に、レイヤーをブロックごとに反復処理し、レイヤー全体のアクティブ化部分を計算するまでこれらの値を組み合わせます。

極小機械学習はディープラーニングをマイクロプロセッサに組み込むことを約束する

図の左側は、層全体を計算する古典的な深層学習システムを示し、右側は一度に 1 つのパッチを計算する MCUNetV2 を示し、それによりメモリが削減されます。 DL推論が必要です。

MCUNetV2 は一度に 1 つのニューロンのみを保存する必要があるため、モデルの解像度やパラメーターを低下させることなく、メモリのピークを大幅に削減します。研究者の実験によると、MCUNetV2 はピーク メモリを 8 分の 1 に削減できることがわかりました。

極小機械学習はディープラーニングをマイクロプロセッサに組み込むことを約束する

MCUNetV2 はディープ ラーニング モデルのメモリ ピークを 8 分の 1 に削減できます

パッチベースの推論はメモリを節約しながら、コンピューティング能力とコストのトレードオフをもたらします問題。マサチューセッツ工科大学 (MIT) と IBM の研究者は、アーキテクチャが異なるとネットワーク全体の計算量が 10 ~ 17% 増加する可能性があることを発見しましたが、これは明らかに低電力マイクロコントローラーには当てはまりません。

この制限を克服するために、研究者らはニューラル ネットワークのさまざまなブロックの「受容野」を再分配しました (注: CNN では、n 番目の層の特徴マップのピクセルは、最初の層。ピクセル数は層の受容野 (「RF」) です。 CNN では、受容野とは、いつでも処理できる画像領域のことです。受容野が大きくなると、パッチが大きくなり、パッチ間の重なりが必要になります。もちろん、これにより計算オーバーヘッドが増加します。ネットワークの初期ブロックの受容野を縮小し、後の段階で受容野を広げることにより、研究者らは計算オーバーヘッドを 3 分の 2 以上削減することができました。

極小機械学習はディープラーニングをマイクロプロセッサに組み込むことを約束する

受容野の再配分は、MCUNetV2 の計算オーバーヘッドを 3 分の 2 以上削減するのに役立ちます

最後に、研究者らは、MCUNetV2 A の調整により、多くは、ML モデルのアーキテクチャ、アプリケーション、ターゲット デバイスのメモリとストレージの容量によって異なります。デバイスやアプリケーションごとに深層学習モデルを手動で調整することを避けるために、研究者らは、機械学習を使用してニューラル ネットワーク構造と推論スケジュールを自動的に最適化するプロセスである「ニューラル アルゴリズム検索」を使用しました。

研究者らは、メモリ容量が小さいいくつかのマイクロコントローラー モデルのさまざまなアプリケーションでディープ ラーニング アーキテクチャをテストしました。結果は、MCUNetV2 が他の TinyML テクノロジーよりも優れたパフォーマンスを発揮し、より少ないメモリ要件とより低いレイテンシーで画像分類とオブジェクト検出においてより高い精度を達成できることを示しています。

下の図に示すように、研究者はリアルタイムの人物検出、視覚的なウェイクワード、顔/マスク検出を備えた MCUNetV2 を使用しています。

極小機械学習はディープラーニングをマイクロプロセッサに組み込むことを約束する

翻訳者注: ここに示されているのは、youtube.com Web サイトに表示されている MCUNetV2 を使用したビデオのスクリーンショットのみです。

4. TinyML アプリケーション

「機械学習の将来はなぜ小さいのか」というタイトルの 2018 年の記事で、ソフトウェア エンジニアの Pete Warden は、MCU での機械学習が非常に重要であると考えています。 Worden 氏は次のように書いています。「機械学習は小型の低電力チップ上で実行できると信じています。この組み合わせにより、現在解決できない多くの問題が解決されるでしょう。」

センサーと CPU の進歩のおかげで、世界中のデータへのアクセスが大幅に強化されました。しかし、機械学習モデルを通じてこのデータを処理して使用する能力は、ネットワーク接続とクラウド サーバー アクセスによって制限されます。 Worden 氏が述べたように、プロセッサーとセンサーは Bluetooth や WiFi などの無線送信機よりもエネルギー効率が高くなります。

Worden 氏は次のように書いています: 「データを移動する物理的なプロセスには、多くのエネルギーが必要なようです。操作に必要なエネルギーは、ビットを送信する距離に正比例するという法則があるようです。CPUセンサーはわずか数ミリメートルしか送信しません。ビットデータの送信は安価で高価ですが、無線通信では、数ビットのデータを送信するには数メートル以上の距離が必要で、高価です。適切なテクノロジーで開かれる必要があります。安価なマイクロコントローラーで動作し、エネルギーをほとんど使用せず、無線ではなく計算に依存し、無駄なセンサー データをすべて有用なデータに変えることができるデバイスが必要です。これは機械学習、特に深層学習です学習がそのギャップを埋めることになるでしょう。」

MCUNetV2 と TinyML が他の分野でも進歩しているおかげで、Worden の予測は間もなく現実になるかもしれません。今後数年間で、TinyML が家庭、オフィス、病院、工場、農場、道路、橋などにある数十億のマイクロコントローラーに導入され、以前は不可能だったアプリケーションが可能になる可能性があると予想されます。

元のリンク: https://thenextweb.com/news/tinyml-deep-learning-microcontrollers-syndication

翻訳者紹介

Zhu Xianzhong、51CTO コミュニティ編集者、51CTO専門ブロガー、講師、濰坊市の大学のコンピューター教師、そしてフリーランス プログラミング業界のベテラン。初期の頃は、さまざまな Microsoft テクノロジに焦点を当てていました (ASP.NET AJX および Cocos 2d-X に関連する 3 冊の技術書籍を編集しました)。過去 10 年間は、オープンソースの世界に専念してきました (人気のある完全なソースに精通しています)。スタックWeb開発技術)を学び、OneNet/AliOS Arduino/ESP32/Raspberry PiなどのIoT開発技術やScala Hadoop Spark Flinkなどのビッグデータ開発技術について学びました。

極小機械学習はディープラーニングをマイクロプロセッサに組み込むことを約束する

以上が極小機械学習はディープラーニングをマイクロプロセッサに組み込むことを約束するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

この記事では、SHAP: 機械学習のモデルの説明について説明します。 この記事では、SHAP: 機械学習のモデルの説明について説明します。 Jun 01, 2024 am 10:58 AM

機械学習とデータ サイエンスの分野では、モデルの解釈可能性が常に研究者や実務家に焦点を当ててきました。深層学習やアンサンブル手法などの複雑なモデルが広く適用されるようになったことで、モデルの意思決定プロセスを理解することが特に重要になってきました。 Explainable AI|XAI は、モデルの透明性を高めることで、機械学習モデルに対する信頼と自信を構築するのに役立ちます。モデルの透明性の向上は、複数の複雑なモデルの普及や、モデルを説明するための意思決定プロセスなどの方法によって実現できます。これらの方法には、特徴重要度分析、モデル予測間隔推定、ローカル解釈可能性アルゴリズムなどが含まれます。特徴重要度分析では、入力特徴に対するモデルの影響度を評価することで、モデルの意思決定プロセスを説明できます。モデルの予測間隔の推定

学習曲線を通じて過学習と過小学習を特定する 学習曲線を通じて過学習と過小学習を特定する Apr 29, 2024 pm 06:50 PM

この記事では、学習曲線を通じて機械学習モデルの過学習と過小学習を効果的に特定する方法を紹介します。過小適合と過適合 1. 過適合 モデルがデータからノイズを学習するためにデータ上で過学習されている場合、そのモデルは過適合していると言われます。過学習モデルはすべての例を完璧に学習するため、未確認の新しい例を誤って分類してしまいます。過適合モデルの場合、完璧/ほぼ完璧なトレーニング セット スコアとひどい検証セット/テスト スコアが得られます。若干修正: 「過学習の原因: 複雑なモデルを使用して単純な問題を解決し、データからノイズを抽出します。トレーニング セットとしての小さなデータ セットはすべてのデータを正しく表現できない可能性があるため、2. 過学習の Heru。」

宇宙探査と人類居住工学における人工知能の進化 宇宙探査と人類居住工学における人工知能の進化 Apr 29, 2024 pm 03:25 PM

1950 年代に人工知能 (AI) が誕生しました。そのとき、研究者たちは、機械が思考などの人間と同じようなタスクを実行できることを発見しました。その後、1960 年代に米国国防総省は人工知能に資金を提供し、さらなる開発のために研究所を設立しました。研究者たちは、宇宙探査や極限環境での生存など、多くの分野で人工知能の応用を見出しています。宇宙探査は、地球を超えた宇宙全体を対象とする宇宙の研究です。宇宙は地球とは条件が異なるため、極限環境に分類されます。宇宙で生き残るためには、多くの要素を考慮し、予防策を講じる必要があります。科学者や研究者は、宇宙を探索し、あらゆるものの現状を理解することが、宇宙の仕組みを理解し、潜在的な環境危機に備えるのに役立つと信じています。

ORB-SLAM3を超えて! SL-SLAM: 低照度、重度のジッター、弱いテクスチャのシーンはすべて処理されます。 ORB-SLAM3を超えて! SL-SLAM: 低照度、重度のジッター、弱いテクスチャのシーンはすべて処理されます。 May 30, 2024 am 09:35 AM

以前に書きましたが、今日は、深層学習テクノロジーが複雑な環境におけるビジョンベースの SLAM (同時ローカリゼーションとマッピング) のパフォーマンスをどのように向上させることができるかについて説明します。ここでは、深部特徴抽出と深度マッチング手法を組み合わせることで、低照度条件、動的照明、テクスチャの弱い領域、激しいセックスなどの困難なシナリオでの適応を改善するように設計された多用途のハイブリッド ビジュアル SLAM システムを紹介します。当社のシステムは、拡張単眼、ステレオ、単眼慣性、ステレオ慣性構成を含む複数のモードをサポートしています。さらに、他の研究にインスピレーションを与えるために、ビジュアル SLAM と深層学習手法を組み合わせる方法も分析します。公開データセットと自己サンプリングデータに関する広範な実験を通じて、測位精度と追跡堅牢性の点で SL-SLAM の優位性を実証しました。

C++ での機械学習アルゴリズムの実装: 一般的な課題と解決策 C++ での機械学習アルゴリズムの実装: 一般的な課題と解決策 Jun 03, 2024 pm 01:25 PM

C++ の機械学習アルゴリズムが直面する一般的な課題には、メモリ管理、マルチスレッド、パフォーマンスの最適化、保守性などがあります。解決策には、スマート ポインター、最新のスレッド ライブラリ、SIMD 命令、サードパーティ ライブラリの使用、コーディング スタイル ガイドラインの遵守、自動化ツールの使用が含まれます。実践的な事例では、Eigen ライブラリを使用して線形回帰アルゴリズムを実装し、メモリを効果的に管理し、高性能の行列演算を使用する方法を示します。

説明可能な AI: 複雑な AI/ML モデルの説明 説明可能な AI: 複雑な AI/ML モデルの説明 Jun 03, 2024 pm 10:08 PM

翻訳者 | Li Rui によるレビュー | 今日、人工知能 (AI) および機械学習 (ML) モデルはますます複雑になっており、これらのモデルによって生成される出力はブラックボックスになっており、関係者に説明することができません。 Explainable AI (XAI) は、利害関係者がこれらのモデルがどのように機能するかを理解できるようにし、これらのモデルが実際に意思決定を行う方法を確実に理解できるようにし、AI システムの透明性、信頼性、およびこの問題を解決するための説明責任を確保することで、この問題を解決することを目指しています。この記事では、さまざまな説明可能な人工知能 (XAI) 手法を検討して、その基礎となる原理を説明します。説明可能な AI が重要であるいくつかの理由 信頼と透明性: AI システムが広く受け入れられ、信頼されるためには、ユーザーは意思決定がどのように行われるかを理解する必要があります

あなたが知らない機械学習の 5 つの流派 あなたが知らない機械学習の 5 つの流派 Jun 05, 2024 pm 08:51 PM

機械学習は人工知能の重要な分野であり、明示的にプログラムしなくてもコンピューターにデータから学習して能力を向上させる機能を提供します。機械学習は、画像認識や自然言語処理から、レコメンデーションシステムや不正行為検出に至るまで、さまざまな分野で幅広く応用されており、私たちの生活様式を変えつつあります。機械学習の分野にはさまざまな手法や理論があり、その中で最も影響力のある 5 つの手法は「機械学習の 5 つの流派」と呼ばれています。 5 つの主要な学派は、象徴学派、コネクショニスト学派、進化学派、ベイジアン学派、およびアナロジー学派です。 1. 象徴主義は、象徴主義とも呼ばれ、論理的推論と知識の表現のためのシンボルの使用を強調します。この学派は、学習は既存の既存の要素を介した逆演繹のプロセスであると信じています。

フラッシュ アテンションは安定していますか?メタとハーバードは、モデルの重みの偏差が桁違いに変動していることを発見しました フラッシュ アテンションは安定していますか?メタとハーバードは、モデルの重みの偏差が桁違いに変動していることを発見しました May 30, 2024 pm 01:24 PM

MetaFAIR はハーバード大学と協力して、大規模な機械学習の実行時に生成されるデータの偏りを最適化するための新しい研究フレームワークを提供しました。大規模な言語モデルのトレーニングには数か月かかることが多く、数百、さらには数千の GPU を使用することが知られています。 LLaMA270B モデルを例にとると、そのトレーニングには合計 1,720,320 GPU 時間が必要です。大規模なモデルのトレーニングには、これらのワークロードの規模と複雑さにより、特有のシステム上の課題が生じます。最近、多くの機関が、SOTA 生成 AI モデルをトレーニングする際のトレーニング プロセスの不安定性を報告しています。これらは通常、損失スパイクの形で現れます。たとえば、Google の PaLM モデルでは、トレーニング プロセス中に最大 20 回の損失スパイクが発生しました。数値的なバイアスがこのトレーニングの不正確さの根本原因です。

See all articles