自動運転車、交通標識検出、顔認識、セルフチェックアウト。これらすべての高度なソリューションを統合するのは、コンピューター ビジョンです。
コンピューター ビジョンにより、コンピューターは生の画像から情報を抽出できるようになり、ビジネスをより効率的にデジタル化するための多くの機会が開かれます。
コンピュータ ビジョンがさまざまな業界にどのような変革をもたらしているのか、また、経営者が重要なビジネス課題を解決するのに役立つユニークな利点を見てみましょう。
従来のコンピューター ビジョンの実装では、入力と出力の詳細な分析が使用されます。昔ながらの CV の典型的なワークフローは、画像内のオブジェクトを識別してラベルを付けるためのエッジ検出などの画像処理技術に依存しています。
コンピュータ サイエンスにおけるディープ ラーニング アーキテクチャの出現により、古典的な CV 手法 (定義された特徴構造に基づくものなど) から、AI 主導の画像ニューラル ネットワーク分析への大きな移行が生じました。画像内のデータほぼ完全に自動化されています。簡単に言うと、AI はプログラミングを完全に排除し、コンピューターが入力データを解釈し、画像の内容を認識するように訓練する、あまり監視されていないアプローチに置き換えます。
AIが医療画像などの分野に参入すると、コンピューターは優れたパターン認識を使用して、生の画像内の微妙な要素(X線に微量のがん細胞が存在するなど)を識別します。放射線またはMRI。機械の推論をチェックするには人間の解釈と専門知識が依然として必要ですが、超高速分析の追加レイヤーは人間の知性を補完し、命を救うのに役立ちます。
自動運転車が米国や他の多くの国で道路を走行するにつれ、CV 分野は爆発的な成長を遂げようとしています。自動運転車はコンピュータービジョンなしには存在できません。車両の車載コンピューターは、道路上の潜在的な障害物について迅速に判断する必要があるため、高度に最適化された CV ベースの技術に依存しています。
医療、セキュリティ、製造などの分野では、AI 主導のシステムがどのように意思決定を行うかについての透明性が重要であることに注意することが重要です。ここで説明可能な AI が登場します。このテクノロジーにより、システムの結果を人間が理解できる方法で説明でき、AI アルゴリズムによる特定の決定の信頼性を示すことができます。
コンピューター ビジョンを使用して、次のビジネス課題を解決します:
光学式文字認識 (OCR) は、ドメイン固有のさまざまなタスクを解決できるコンピューター ビジョンの独自の実装です。 OCR は、入力画像から文字、数字、その他の文字を検出して抽出するように設計されています。
Google レンズは OCR を使用して、お客様が写真から外国語を翻訳したり、画像や Google 検索からテキストを抽出したりできるようにします。 OCR テクノロジーを使用すると、新聞、雑誌、書籍のスキャンからテキストを抽出して、従来のメディアを簡単にデジタル化することもできます。以前は、チベット仏教の宗教文書などの難解な文書を大学がデジタル化するのは困難でしたが、最新の OCR テクノロジーにより、非標準言語ファイルからテキストを簡単に抽出できるようになりました。
金融機関は、OCR を使用して顧客の生活の質を向上させています。たとえば、顧客が文書から国際銀行口座番号 (IBAN) を抽出したり、小切手の画像をスキャンしたりできるため、金融機関に行く必要がなくなります。銀行に入金してください。一部のアプリケーションでは、スキャンしてお金を借りることができます。支払いの詳細をデビット カードまたはクレジット カードで入力できるため、チェックアウト ウィンドウですべての支払い情報を面倒に入力する必要はありません。
政府は、国境での処理時間を短縮したり、文書を識別して登録したりするために OCR をよく使用します。最新のパスポートや運転免許証の機械読み取り可能な領域は、政府および商業環境の OCR システムと互換性があります。
物体認識と同様に、顔認識は、コンピューター ビジョンを使用して画像内の人間の顔の特徴を識別することを目的としています。古典的なコンピューター ビジョン手法では、「Haar のような特徴」を利用して顔の特徴の間のセグメントをカウントしますが、現代の顔認識の実装は、物体認識に人工知能が使用されるのと同じように、人工知能に依存しています。
顔認識テクノロジーは、モバイルおよび Web アプリケーションの脆弱性の防止に役立つため、セキュリティ アプリケーションにとって重要です。数え切れないほどの Apple iPhone ユーザーが、携帯電話のロックを解除するための生体認証として Apple の Face ID テクノロジーを利用しています。
小売業者は、既知の万引き犯を特定するために同様の実装を導入しています。ライブ スキャナはセキュリティ カメラ ストリームから顧客の顔をキャプチャし、既知の犯罪者のデータベースと相互参照します。同じテクノロジーは、法執行機関のデータベースから取得することで、行方不明の子供を見つけるのに役立ちます。
顔認識は、次のタスクを完了するのにも役立ちます:
次世代の顔認識ソフトウェアは、姿勢、手のジェスチャー、表情を見て、顧客がカジノで不正行為をしている可能性があるかどうかを判断することもできます。多くの犯罪者がマスクを着用して顔認識を回避しているため、同じセキュリティ ソフトウェアにバンドルされている歩行分析は、犯罪者の独特なフットワークと歩幅パターンに基づいて犯罪者を検出するのにも役立ちます。
コンピューター ビジョン テクノロジーは、著しく劣化したアーカイブ映像や画像を復元することもでき、これは重要なビジネス テクノロジーとなる可能性があります。写真からノイズを除去するだけで十分な単純な場合とは異なり、コンピューター ビジョンは、大幅な変更と詳細な分析が必要な破損した画像の場合に役立ちます。画像の破損した部分は、多くの場合、フォトキャストの内容を評価する生成モデルを使用して埋められます。
最新のニューラル ネットワークは、画像やビデオを復元するだけでなく、写真内のオブジェクトをスキャンするだけで 3D シーンを再構築できます。シーンの再構成は、考古学者、法医学の専門家、環境科学者、その他多くの専門家によって使用されている、革新的なコンピューター ビジョン パラダイムです。 RetrievalFuse のようなプロジェクトは、単一の RGB 画像からパノラマ 3D シーンを構築できます。
姿勢推定は、人間の視覚能力をシミュレートすること、特に画像やビデオ内の姿勢やジェスチャーを認識することを目的としています。高度な人間の姿勢推定の初期の例のいくつかは、ピーター ジャクソンの『ロード オブ ザ リング』などの高額予算の映画に登場しました。時間の経過とともにコンピューティング リソースが拡大するにつれて、姿勢推定はさまざまな製品で活用されるようになります。
セキュリティ アプリケーションでは、姿勢推定は、顔認識が不可能な歩行を分析することで、潜在的なトラブルメーカーを特定するのに役立ちます。コンピューター ビジョンは、体の姿勢を分析することで、万引きをリアルタイムで検出するのに役立ちます。このシステムは、通常の買い物行動と、商品を手に取ってポケットやコートに隠すなどの不審な行動を区別できます。不審な行動が検出されると、管理者に警告が発せられ、泥棒が店を出る前に迅速に対応できます。
ビジネスで姿勢推定を使用する方法をいくつか紹介します:
姿勢推定はかつては計算上の大きな課題でしたが、クラウド コンピューティングとハードウェアの革新により、より多くの企業がこのテクノロジーを利用できるようになりました。
物体検出、顔認識、シーン再構成、画像復元、人間の姿勢推定などは、コンピューター ビジョン テクノロジのさまざまな実装のほんの一部です。次世代 AI の力のおかげで、ビジネスがどのような業界で運営されているかに関係なく、コンピューター ビジョンは、企業を競合他社に先んじさせる独自の利点を提供できます。犯罪現場の写真のフルデプス 3D モデルの再構築から工場ラインでの大量生産製品の欠陥の特定に至るまで、コンピューター ビジョンはあらゆる人のビジネスのやり方を変え続けています。
以上がコンピュータービジョンがビジネス課題の解決に役立つ 5 つの方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。