データ管理が人工知能開発の最大のボトルネックになっている
インフラストラクチャが優れていることの真の兆候は、それが簡単に見落とされることです。パフォーマンスが良くなればなるほど、私たちはそれについて考える必要がなくなります。たとえば、モバイル インフラストラクチャの重要性は、接続に苦労しているときに初めて思い浮かびます。舗装されたばかりの新しい高速道路を運転するときと同じように、車輪の下を静かに通過する路面のことはほとんど考えません。一方、整備の行き届いていない高速道路は、あらゆるポットホール、芝生、段差などでその存在を思い出させます。
インフラストラクチャが私たちの注意を必要とするのは、それが欠落しているか、不十分であるか、損傷している場合のみです。そして、コンピューター ビジョンにおいて、インフラストラクチャ、あるいはむしろインフラストラクチャに欠けているものは、現在多くの人が懸念しているものです。
コンピューティングはインフラストラクチャの標準を設定します
すべての AI/ML プロジェクト (コンピューター ビジョンを含む) を支えるのは、データ、アルゴリズム/モデル、コンピューティングという 3 つの基本的な開発の柱です。これら 3 つの柱の中で、最も強力で堅牢なインフラストラクチャを備えているのはコンピューティングです。数十年にわたる企業の専念的な投資と開発により、クラウド コンピューティングは企業の IT 環境全体の IT インフラストラクチャのゴールド スタンダードになりました。コンピューター ビジョンも例外ではありません。
インフラストラクチャ-アズ-ア-サービス モデルでは、開発者は 20 年近くにわたって、拡大し続けるコンピューティング パワーのパイプラインへのオンデマンドの従量課金制アクセスを享受してきました。その間、俊敏性、コスト効率、拡張性などを劇的に向上させ、エンタープライズ IT に革命をもたらしました。専用の機械学習 GPU の出現により、コンピューター ビジョン インフラストラクチャ スタックのこの部分は生き続けていると言っても過言ではありません。コンピューター ビジョンと AI がその可能性を最大限に発揮したい場合は、残りの CV インフラストラクチャ スタックのベースとなるモデルとしてコンピューティングを使用することが賢明です。
モデル駆動開発の系譜と限界
最近まで、アルゴリズムとモデル開発はコンピューター ビジョンと人工知能の開発の原動力でした。研究面と商用開発面の両方で、チームは長年にわたって AI/ML モデルのテスト、パッチ適用、段階的な改善に熱心に取り組み、その進捗状況を Kaggle などのオープンソース コミュニティで共有してきました。コンピューター ビジョンと人工知能の分野は、アルゴリズム開発とモデリングに注力することにより、新世紀の最初の 20 年間に大きな進歩を遂げました。
しかし、モデル中心の最適化が収穫逓減の法則に違反するため、近年、この進歩は鈍化しています。さらに、モデル中心のアプローチにはいくつかの制限があります。たとえば、トレーニングに同じデータを使用して、モデルを再度トレーニングすることはできません。モデル中心のアプローチでは、データのクリーニング、モデルの検証、トレーニングの点でより多くの手作業が必要となり、より革新的な収益を生み出すタスクから貴重な時間とリソースが奪われる可能性があります。
現在、CV チームは、Hugging Face などのコミュニティを通じて、オブジェクト認識や顔のランドマーク認識など、さまざまなコア CV 機能をサポートする、膨大で大規模で複雑なアルゴリズム、モデル、アーキテクチャに無料かつオープンにアクセスできるようになりました。姿勢推定と特徴照合を行います。これらの資産は想像できる限り「既製」ソリューションに近くなり、コンピューター ビジョンと AI チームに、さまざまな特殊なタスクやユースケースをトレーニングするための既製のホワイトボードを提供します。
手と目の調整などの人間の基本的な能力を、卓球からピッチングまで、さまざまなスキルに適用してトレーニングできるのと同じように、これらの最新の ML アルゴリズムも、さまざまな特定のタスクを実行するようにトレーニングできます。 。 応用。ただし、人間は長年の練習と汗を経て専門化しますが、機械はデータのトレーニングを通じてこれを行います。
データ中心の人工知能とビッグデータのボトルネック
これにより、人工知能分野の多くの指導的人物が、ディープラーニング開発の新時代、つまりメインの進歩のエンジン それはデータです。ほんの数年前、Andrew Ng らが AI 開発の方向性はデータ中心であると発表しました。この短期間に、この業界は繁栄しました。わずか数年のうちに、ロボット工学や AR/VR から自動車製造やホーム セキュリティに至るまで、幅広い業界にまたがるコンピュータ ビジョンの新しい商用アプリケーションやユース ケースが多数登場しました。
最近、私たちはデータ中心のアプローチを使用して、自動車のハンドル操作検出に関する研究を実施しました。私たちの実験では、このアプローチと合成データを使用することで、トレーニング データセットに欠けている特定のエッジ ケースを特定して生成できることがわかりました。
Datagen は、ハンドルの実地テスト用の合成画像を生成します (画像提供: Datagen)
コンピュータ ビジョン業界ではデータの話題が飛び交っていますが、そのすべてが熱狂的なものであるわけではありません。データが前進への道であることは現場で確立されていますが、その過程には多くの障害や落とし穴があり、その多くはすでに CV チームの足かせとなっています。米国のコンピュータ ビジョン専門家を対象とした最近の調査では、この分野がプロジェクトの長期遅延、標準化されていないプロセス、リソース不足に悩まされていることが明らかになりました。これらの原因はすべてデータにあります。同じ調査では、回答者の 99% が、トレーニング データが不十分なために、少なくとも 1 つの CV プロジェクトが無期限にキャンセルされたと述べています。
これまでプロジェクトのキャンセルを回避できた幸運な 1% であっても、プロジェクトの遅延を避けることはできません。調査では、すべての回答者が、トレーニング データが不十分または不十分であるためにプロジェクトに大幅な遅延が発生していると報告しており、80% の遅延が 3 か月以上続いていると報告しています。結局のところ、インフラストラクチャの目的は実用性、つまり促進、加速、通信の 1 つです。重大な遅延がビジネスの一部である世界では、重要なインフラストラクチャが欠落していることは明らかです。
従来のトレーニング データはインフラストラクチャに課題を抱えています
しかし、コンピューティングやアルゴリズムとは異なり、AI/ML 開発の 3 番目の柱はインフラストラクチャ化には適していません。特にコンピュータ ビジョンの分野では、この分野では、データは大きく、整理されておらず、収集と管理には時間とリソースの両方がかかります。オンラインには、ラベル付きで自由に利用できるビジュアル トレーニング データのデータベース (今では有名になった ImageNet データベースなど) が多数ありますが、商用履歴書開発におけるトレーニング データのソースとしては、それだけでは不十分であることが証明されています。
これは、設計によって一般化されたモデルとは異なり、トレーニング データはその性質上、アプリケーション固有であるためです。データは、特定のモデルのアプリケーションを別のアプリケーションから区別するものであるため、特定のタスクに対してだけでなく、そのタスクが実行される環境やコンテキストに対しても一意である必要があります。光の速度で生成してアクセスできるコンピューティング能力とは異なり、従来の視覚データは人間が作成または収集し (現場で写真を撮るか、インターネットで適切な画像を検索することによって)、人間が丹念にクリーニングしてラベルを付ける必要があります (これは人的ミス、不一致、偏見が発生しやすいプロセスです)。
これにより、「特定のアプリケーションに適しており、 簡単にコモディティ化できる (つまり、高速、安価、多用途) データ視覚化をどのように作成できるでしょうか?」という疑問が生じます。これら 2 つの特性にもかかわらず、矛盾しているように見えるかもしれませんが、潜在的な解決策が現れ、これら 2 つの基本的だが相容れないように見える性質を調和させる方法として大きな期待を示しています。
合成データと完全な CV スタックへのパス特定のアプリケーションを備え、時間とリソースを大規模に節約するビジュアル トレーニング データを作成する唯一の方法は、合成データを使用することです。この概念に馴染みのない人のために説明すると、合成データは、現実世界の同等のものを忠実に表すように設計された人間が生成した情報です。視覚的な合成データの観点からは、静止画像またはビデオの形式でリアルなコンピューター生成 3D 画像 (CGI) を意味します。 データセンター時代に生じる多くの問題に対応して、合成データ生成を中心に急成長する業界が形成され始めています。合成データを活用するさまざまなソリューションを提供する中小規模の新興企業のエコシステムが成長しています。上記の一連の問題点を解決するためのデータ。 これらのソリューションの中で最も有望なものは、AI/ML アルゴリズムを使用してフォトリアリスティックな 3D 画像を生成し、各データ ポイントに関連するグラウンド トゥルース (メタデータ) を自動的に生成します。したがって、合成データにより、多くの場合数か月に及ぶ手動のラベル付けと注釈のプロセスが不要になると同時に、人的エラーや偏見の可能性も排除されます。 私たちの論文 (NeurIPS 2021 で発表)「合成データを使用した顔ランドマーク検出におけるグループバイアスの発見」では、トレーニングされたモデルのパフォーマンスを分析し、その弱点を特定するには、データのサブセットがテストを実行するために脇に置いてください。テスト セットは、対象母集団内のすべての関連サブグループに関して統計的に有意な偏差を検出するのに十分な大きさでなければなりません。この要件を満たすのは、特にデータ集約型のアプリケーションでは難しい場合があります。Computer Vision (CV) は現代の人工知能の主要分野の 1 つ
私たちは、合成テスト セットを生成することで、この困難を克服することを提案します。実際のデータセットで観察されたすべてのバイアスが、適切に設計された合成データセットでも見られることを示すことで、顔のランドマーク検出タスクを使用して提案を検証します。これは、合成テスト セットがモデルの弱点を効果的に検出し、実際のテスト セットのサイズや多様性の制限を克服できることを示しています。
現在、新興企業は企業の履歴書チームに、偏見を軽減し、データ収集の拡張を可能にする洗練されたセルフサービスの合成データ生成プラットフォームを提供しています。これらのプラットフォームを使用すると、エンタープライズ CV チームは、従量制のオンデマンド ベースでユースケース固有のトレーニング データを生成でき、従来のデータがインフラストラクチャに適さない原因となっていた特異性と規模の間のギャップを埋めることができます。
コンピュータ ビジョンのいわゆる「データ マネージャー」への新たな希望
コンピュータ ビジョンの分野にとって、今が刺激的な時期であることは否定できません。しかし、他の変化する分野と同様に、今は困難な時期です。優れた才能と優秀な頭脳が、アイデアと熱意に満ちた分野に飛び込みますが、適切なデータ パイプラインの不足によって足止めされていることに気づきます。この分野は非効率にはまり込んでおり、今日のデータサイエンティストはすでに組織の 3 分の 1 がスキルギャップに苦しんでいる分野として知られており、貴重な人材を無駄にするわけにはいきません。
合成データは、真のトレーニング データ インフラストラクチャへの扉を開きます。これは、いつか水を飲むために蛇口をひねったり、計算を提供したりするのと同じくらい簡単になるかもしれません。これは、世界中のデータ管理者にとって歓迎すべきリフレッシュとなるでしょう。
以上がデータ管理が人工知能開発の最大のボトルネックになっているの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











物体検出はコンピュータ ビジョンの分野で重要なタスクであり、画像やビデオ内の物体を識別し、その位置を特定するために使用されます。このタスクは通常、精度と堅牢性の点で異なる 2 つのカテゴリのアルゴリズム (1 段階と 2 段階) に分類されます。 1 段階ターゲット検出アルゴリズム 1 段階ターゲット検出アルゴリズムは、ターゲットの検出を分類問題に変換するアルゴリズムであり、高速で、わずか 1 ステップで検出を完了できるという利点があります。ただし、単純化しすぎたため、精度は通常、2 段階の物体検出アルゴリズムほど良くありません。一般的な 1 段階ターゲット検出アルゴリズムには、YOLO、SSD、FasterR-CNN などがあります。これらのアルゴリズムは通常、画像全体を入力として受け取り、分類器を実行してターゲット オブジェクトを識別します。従来の 2 段階のターゲット検出アルゴリズムとは異なり、事前にエリアを定義する必要はなく、直接予測します。

古い写真の修復は、人工知能テクノロジーを使用して古い写真を修復、強化、改善する方法です。このテクノロジーは、コンピューター ビジョンと機械学習アルゴリズムを使用して、古い写真の損傷や欠陥を自動的に特定して修復し、写真をより鮮明に、より自然に、より現実的に見せることができます。古い写真の復元の技術原則には、主に次の側面が含まれます: 1. 画像のノイズ除去と強化 古い写真を復元する場合、最初にノイズ除去と強化を行う必要があります。平均値フィルタリング、ガウス フィルタリング、バイラテラル フィルタリングなどの画像処理アルゴリズムとフィルタを使用して、ノイズやカラー スポットの問題を解決し、写真の品質を向上させることができます。 2. 画像の修復と修復 古い写真には、傷、ひび割れ、色あせなどの欠陥や損傷がある場合があります。これらの問題は、画像の復元および修復アルゴリズムによって解決できます。

超解像度画像再構成は、畳み込みニューラル ネットワーク (CNN) や敵対的生成ネットワーク (GAN) などの深層学習技術を使用して、低解像度画像から高解像度画像を生成するプロセスです。この方法の目的は、低解像度の画像を高解像度の画像に変換することで、画像の品質と詳細を向上させることです。この技術は、医療画像、監視カメラ、衛星画像など、さまざまな分野で幅広く応用されています。超解像度画像再構成により、より鮮明で詳細な画像を取得できるため、画像内のターゲットや特徴をより正確に分析および識別することができます。再構成方法 超解像度画像の再構成方法は、一般に、補間ベースの方法と深層学習ベースの方法の 2 つのカテゴリに分類できます。 1) 補間による手法 補間による超解像画像再構成

スケール不変特徴変換 (SIFT) アルゴリズムは、画像処理およびコンピューター ビジョンの分野で使用される特徴抽出アルゴリズムです。このアルゴリズムは、コンピュータ ビジョン システムにおけるオブジェクト認識とマッチングのパフォーマンスを向上させるために 1999 年に提案されました。 SIFT アルゴリズムは堅牢かつ正確であり、画像認識、3 次元再構成、ターゲット検出、ビデオ追跡などの分野で広く使用されています。複数のスケール空間内のキーポイントを検出し、キーポイントの周囲の局所特徴記述子を抽出することにより、スケール不変性を実現します。 SIFT アルゴリズムの主なステップには、スケール空間の構築、キー ポイントの検出、キー ポイントの位置決め、方向の割り当て、および特徴記述子の生成が含まれます。これらのステップを通じて、SIFT アルゴリズムは堅牢でユニークな特徴を抽出することができ、それによって効率的な画像処理を実現します。

オブジェクト追跡はコンピュータ ビジョンにおける重要なタスクであり、交通監視、ロボット工学、医療画像処理、自動車両追跡などの分野で広く使用されています。深層学習手法を使用して、ターゲット オブジェクトの初期位置を決定した後、ビデオ内の連続する各フレーム内のターゲット オブジェクトの位置を予測または推定します。オブジェクト追跡は実生活において幅広い用途があり、コンピュータ ビジョンの分野でも非常に重要です。オブジェクト追跡には通常、オブジェクト検出のプロセスが含まれます。以下に、オブジェクト追跡手順の概要を示します。 1. オブジェクト検出。アルゴリズムは、オブジェクトの周囲に境界ボックスを作成することによってオブジェクトを分類および検出します。 2. 各オブジェクトに一意の識別 (ID) を割り当てます。 3. 検出されたオブジェクトの動きをフレーム単位で追跡し、関連情報を保存します。ターゲットの種類 追跡ターゲット

機械学習とコンピューター ビジョンの分野では、画像アノテーションは、人間による注釈を画像データ セットに適用するプロセスです。画像のアノテーション方法は、主に手動アノテーションと自動アノテーションの 2 つに分類できます。手動アノテーションとは、ヒューマン アノテーターが手動操作を通じて画像にアノテーションを付けることを意味します。この方法では、ヒューマン アノテーターは専門的な知識と経験を持ち、画像内のターゲット オブジェクト、シーン、または特徴を正確に識別して注釈を付けることができる必要があります。手動アノテーションの利点は、アノテーション結果が信頼性が高く正確であることですが、欠点は、時間とコストがかかることです。自動注釈とは、コンピューター プログラムを使用して画像に自動的に注釈を付ける方法を指します。この方法では、機械学習とコンピューター ビジョン テクノロジーを使用して、モデルをトレーニングすることで自動アノテーションを実現します。自動ラベル付けの利点は、高速かつ低コストであることですが、欠点は、ラベル付けの結果が正確ではない可能性があることです。

埋め込みは、自然言語処理 (NLP) やコンピューター ビジョン (CV) などの分野で広く使用されている機械学習モデルです。その主な機能は、元のデータの特性と意味情報を保持しながら、高次元データを低次元の埋め込み空間に変換し、それによってモデルの効率と精度を向上させることです。埋め込みモデルは、データ間の相関関係を学習することで、類似のデータを類似の埋め込み空間にマッピングできるため、モデルはデータをよりよく理解して処理できます。埋め込みモデルの原理は、各データ点をベクトルとして表すことによってデータの意味情報をベクトル空間にエンコードする分散表現の考え方に基づいています。これを行う利点は、ベクトル空間の特性を利用できることです。たとえば、ベクトル間の距離は次のようになります。

ディープラーニングはコンピュータービジョンの分野で大きな成功を収めており、重要な進歩の 1 つは、画像分類にディープ畳み込みニューラル ネットワーク (CNN) を使用することです。ただし、ディープ CNN は通常、大量のラベル付きデータとコンピューティング リソースを必要とします。計算リソースとラベル付きデータの需要を削減するために、研究者は、浅い特徴と深い特徴を融合して画像分類パフォーマンスを向上させる方法の研究を開始しました。この融合手法は、浅い特徴の高い計算効率と深い特徴の強力な表現能力を活用できます。この 2 つを組み合わせることで、高い分類精度を維持しながら、計算コストとデータのラベル付け要件を削減できます。この方法は、データ量が少ない、またはコンピューティング リソースが限られているアプリケーション シナリオでは特に重要です。浅い特徴と深い特徴の融合方法を徹底的に研究することで、さらに
