ホームページ テクノロジー周辺機器 AI ターゲット検出技術における複数ターゲット追跡の問題

ターゲット検出技術における複数ターゲット追跡の問題

Oct 08, 2023 am 10:35 AM
テクノロジー ターゲットの検出 複数のターゲットの追跡

ターゲット検出技術における複数ターゲット追跡の問題

ターゲット検出テクノロジーにおける複数のターゲット追跡の問題

要約:
オブジェクト検出は、コンピューター ビジョンの分野で人気のある研究方向の 1 つです。から画像を検出したり、ビデオ内の関心のあるオブジェクトを特定して見つけたりします。ただし、実際のシーンでは通常、ターゲットは時間的および空間的に連続的に変化するため、ターゲット検出だけでは実際のニーズを満たすことはできません。マルチターゲットトラッキング技術は、この問題を解決することを目的としており、ビデオ内の複数のターゲットの位置を追跡し、そのステータスを継続的に更新することができます。

はじめに:
コンピュータ ハードウェアとアルゴリズムの継続的な開発により、ターゲット検出アルゴリズムは非常に重要な成果を達成しました。初期の特徴ベースのアルゴリズムから現在の深層学習ベースのアルゴリズムに至るまで、ターゲット検出の精度と速度は大幅に向上しました。ただし、ターゲット検出だけでは実際のアプリケーションのニーズを満たすことはできません。多くのシナリオでは、交通監視や歩行者の追跡など、ビデオ内の複数のターゲットを追跡する必要があります。この記事では、ターゲット検出テクノロジにおけるマルチターゲット追跡の問題を紹介し、読者の理解と実践に役立つ具体的なコード例を提供します。

1. マルチターゲット追跡の定義と問題点
マルチターゲット追跡とは、連続ビデオ シーケンス内のターゲット検出アルゴリズムを通じて各フレーム内のターゲットを識別し、それらを時間の経過とともに追跡することを指します。 。ビデオ シーケンス内のターゲットは、スケール、変形、オクルージョンなどの変化を頻繁に受け、ターゲットが現れたり消えたりする可能性があるため、マルチターゲットの追跡は困難な問題です。これには主に次の課題が含まれます。

  1. ターゲットの再識別: マルチターゲット追跡では、さまざまなターゲット オブジェクトを区別し、そのステータスを追跡する必要があります。追跡中にターゲットが変形したり隠れたりする可能性があるため、ターゲットの外観の変化によって引き起こされる認識の問題に対処する必要があります。
  2. オクルージョン処理: 実際のシーンでは、ターゲットの相互オクルージョンは非常に一般的な状況です。ターゲットが他のオブジェクトによって遮られている場合、遮蔽の問題を解決し、ターゲットの継続的な追跡を確実にするために、何らかの技術的手段を使用する必要があります。
  3. ターゲットの出現と消滅: ビデオ シーケンスでは、ターゲットが突然現れたり消えたりすることがあります。これには、ターゲットの出現と消滅を自動的に検出し、それに応じて処理できる追跡アルゴリズムが必要です。

2. マルチターゲット追跡アルゴリズム
現在、マルチターゲット追跡アルゴリズムは主に 2 つのカテゴリに分類されます: 従来の画像処理方法に基づくマルチターゲット追跡アルゴリズムとマルチターゲット追跡アルゴリズムです。深層学習に基づいています。

従来の画像処理手法に基づくマルチターゲット追跡アルゴリズムには、主にカルマン フィルター、粒子フィルター、最大事後確率 (MAP) 推定などが含まれます。中でもカルマンフィルターは最も一般的な手法の一つで、状態を予測・更新することで対象を追跡します。

深層学習に基づくマルチターゲット追跡アルゴリズムはターゲット検出に基づいており、ターゲットの継続的な追跡を実現するためにいくつかの追跡モジュールが追加されています。たとえば、時間情報を備えたターゲット検出モデルとターゲット追跡モデルを組み合わせることで、動的ターゲットの追跡を実現できます。

3. マルチターゲット追跡のコード例
この記事では、Python 言語と OpenCV ライブラリを使用して、カルマン フィルターに基づくマルチターゲット追跡のコード例を提供します。まず、必要なライブラリをインポートする必要があります:

import cv2
import numpy as np
ログイン後にコピー

次に、ターゲット追跡を実装するクラスを定義する必要があります:

class MultiObjectTracker:
    def __init__(self):
        self.kalman_filters = []
        self.tracks = []
    
    def update(self, detections):
        pass
    
    def draw_tracks(self, frame):
        pass
ログイン後にコピー

update 関数では、次のようにします。現在のフレームのターゲット検出結果を取得し、カルマン フィルターを使用してターゲットを追跡します。特定のコード実装は省略されており、読者は自分のニーズに応じてコードを作成できます。

draw_tracks 関数では、画像上に追跡結果を描画する必要があります。

def draw_tracks(self, frame):
    for track in self.tracks:
        start_point = (int(track[0]), int(track[1]))
        end_point = (int(track[0] + track[2]), int(track[1] + track[3]))
        cv2.rectangle(frame, start_point, end_point, (0, 255, 0), 2)
ログイン後にコピー

最後に、トラッカーを呼び出して、ビデオ シーケンス :

def main():
    tracker = MultiObjectTracker()
    
    video = cv2.VideoCapture("input.mp4")
    
    while True:
        ret, frame = video.read()
        
        if not ret:
            break
        
        # 目标检测,得到当前帧的检测结果
        detections = detect_objects(frame)
        
        # 跟踪目标
        tracker.update(detections)
        
        # 绘制跟踪结果
        tracker.draw_tracks(frame)
        
        # 显示结果
        cv2.imshow("Multi-Object Tracking", frame)
        
        if cv2.waitKey(1) == ord('q'):
            break
    
    video.release()
    cv2.destroyAllWindows()
ログイン後にコピー
このコードでは、最初に

MultiObjectTracker オブジェクトを作成し、処理するビデオ ファイルを読み込みます。次に、ビデオの各フレームを継続的に読み取り、ターゲットの検出と追跡を実行し、最後に追跡結果をウィンドウに表示します。キーボードの「q」キーを押すと、プログラムを終了できます。

結論:

マルチターゲット追跡技術は、ターゲットの検出に基づいて時間と空間の変化を継続的に追跡することにより、ビデオシーケンス内の複数のターゲットの追跡を実現します。この記事では、マルチターゲット追跡の定義とアルゴリズムを簡単に紹介し、カルマン フィルターに基づくコード例を示します。読者は、マルチターゲット追跡テクノロジーの研究と応用をさらに調査するために、自分のニーズに応じて変更および拡張できます。

以上がターゲット検出技術における複数ターゲット追跡の問題の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Stable Diffusion 3 の論文がついに公開され、アーキテクチャの詳細が明らかになりましたが、Sora の再現に役立つでしょうか? Stable Diffusion 3 の論文がついに公開され、アーキテクチャの詳細が明らかになりましたが、Sora の再現に役立つでしょうか? Mar 06, 2024 pm 05:34 PM

StableDiffusion3 の論文がついに登場しました!このモデルは2週間前にリリースされ、Soraと同じDiT(DiffusionTransformer)アーキテクチャを採用しており、リリースされると大きな話題を呼びました。前バージョンと比較して、StableDiffusion3で生成される画像の品質が大幅に向上し、マルチテーマプロンプトに対応したほか、テキスト書き込み効果も向上し、文字化けが発生しなくなりました。 StabilityAI は、StableDiffusion3 はパラメータ サイズが 800M から 8B までの一連のモデルであると指摘しました。このパラメーター範囲は、モデルを多くのポータブル デバイス上で直接実行できることを意味し、AI の使用を大幅に削減します。

正確なオブジェクト検出のためのマルチグリッド冗長境界ボックス注釈 正確なオブジェクト検出のためのマルチグリッド冗長境界ボックス注釈 Jun 01, 2024 pm 09:46 PM

1. はじめに 現在、主要なオブジェクト検出器は、深層 CNN のバックボーン分類器ネットワークを再利用した 2 段階または 1 段階のネットワークです。 YOLOv3 は、入力画像を受け取り、それを等しいサイズのグリッド マトリックスに分割する、よく知られた最先端の 1 段階検出器の 1 つです。ターゲット中心を持つグリッド セルは、特定のターゲットの検出を担当します。今日私が共有するのは、各ターゲットに複数のグリッドを割り当てて正確なタイトフィット境界ボックス予測を実現する新しい数学的手法です。研究者らはまた、ターゲット検出のための効果的なオフラインのコピー&ペーストデータの強化も提案しました。新しく提案された方法は、現在の最先端の物体検出器の一部よりも大幅に性能が優れており、より優れたパフォーマンスが期待されます。 2. バックグラウンドターゲット検出ネットワークは、次のように設計されています。

座標系の変換を本当にマスターしましたか?自動運転と切り離せないマルチセンサーの問題 座標系の変換を本当にマスターしましたか?自動運転と切り離せないマルチセンサーの問題 Oct 12, 2023 am 11:21 AM

最初のパイロットおよび重要な記事では、主に自動運転技術で一般的に使用されるいくつかの座標系と、それらの間の相関と変換を完了し、最終的に統合環境モデルを構築する方法を紹介します。ここでの焦点は、車両からカメラの剛体への変換 (外部パラメータ)、カメラから画像への変換 (内部パラメータ)、および画像からピクセル単位への変換を理解することです。 3D から 2D への変換には、対応する歪み、変換などが発生します。要点:車両座標系とカメラ本体座標系を平面座標系とピクセル座標系に書き換える必要がある 難易度:画像の歪みを考慮する必要がある 歪み補正と歪み付加の両方を画面上で補正する2. はじめに ビジョンシステムには、ピクセル平面座標系 (u, v)、画像座標系 (x, y)、カメラ座標系 ()、世界座標系 () の合計 4 つの座標系があります。それぞれの座標系には関係性があり、

自動運転と軌道予測についてはこの記事を読めば十分です! 自動運転と軌道予測についてはこの記事を読めば十分です! Feb 28, 2024 pm 07:20 PM

自動運転では軌道予測が重要な役割を果たしており、自動運転軌道予測とは、車両の走行過程におけるさまざまなデータを分析し、将来の車両の走行軌跡を予測することを指します。自動運転のコアモジュールとして、軌道予測の品質は下流の計画制御にとって非常に重要です。軌道予測タスクには豊富な技術スタックがあり、自動運転の動的/静的知覚、高精度地図、車線境界線、ニューラル ネットワーク アーキテクチャ (CNN&GNN&Transformer) スキルなどに精通している必要があります。始めるのは非常に困難です。多くのファンは、できるだけ早く軌道予測を始めて、落とし穴を避けたいと考えています。今日は、軌道予測に関するよくある問題と入門的な学習方法を取り上げます。関連知識の紹介 1. プレビュー用紙は整っていますか? A: まずアンケートを見てください。

ターゲット検出用の新しい SOTA: YOLOv9 が登場し、新しいアーキテクチャにより従来の畳み込みが復活します ターゲット検出用の新しい SOTA: YOLOv9 が登場し、新しいアーキテクチャにより従来の畳み込みが復活します Feb 23, 2024 pm 12:49 PM

ターゲット検出の分野では、YOLOv9 は実装プロセスで進歩を続けており、新しいアーキテクチャとメソッドを採用することにより、従来の畳み込みのパラメータ利用を効果的に改善し、そのパフォーマンスが前世代の製品よりもはるかに優れています。 2023 年 1 月に YOLOv8 が正式にリリースされてから 1 年以上が経過し、ついに YOLOv9 が登場しました。 2015 年に Joseph Redmon 氏や Ali Farhadi 氏らが第 1 世代の YOLO モデルを提案して以来、ターゲット検出分野の研究者たちはそれを何度も更新し、反復してきました。 YOLO は画像のグローバル情報に基づく予測システムであり、そのモデルのパフォーマンスは継続的に強化されています。アルゴリズムとテクノロジーを継続的に改善することにより、研究者は目覚ましい成果を上げ、ターゲット検出タスクにおける YOLO をますます強力にしています。

DualBEV: BEVFormer および BEVDet4D を大幅に上回る、本を開いてください! DualBEV: BEVFormer および BEVDet4D を大幅に上回る、本を開いてください! Mar 21, 2024 pm 05:21 PM

この論文では、自動運転においてさまざまな視野角 (遠近法や鳥瞰図など) から物体を正確に検出するという問題、特に、特徴を遠近法 (PV) 空間から鳥瞰図 (BEV) 空間に効果的に変換する方法について検討します。 Visual Transformation (VT) モジュールを介して実装されます。既存の手法は、2D から 3D への変換と 3D から 2D への変換という 2 つの戦略に大別されます。 2D から 3D への手法は、深さの確率を予測することで高密度の 2D フィーチャを改善しますが、特に遠方の領域では、深さ予測に固有の不確実性により不正確さが生じる可能性があります。 3D から 2D への方法では通常、3D クエリを使用して 2D フィーチャをサンプリングし、Transformer を通じて 3D と 2D フィーチャ間の対応のアテンション ウェイトを学習します。これにより、計算時間と展開時間が増加します。

初のマルチビュー自動運転シーンビデオ生成世界モデル | DrivingDiffusion: BEV データとシミュレーションの新しいアイデア 初のマルチビュー自動運転シーンビデオ生成世界モデル | DrivingDiffusion: BEV データとシミュレーションの新しいアイデア Oct 23, 2023 am 11:13 AM

著者の個人的な考えの一部 自動運転の分野では、BEV ベースのサブタスク/エンドツーエンド ソリューションの開発に伴い、高品質のマルチビュー トレーニング データとそれに対応するシミュレーション シーンの構築がますます重要になってきています。現在のタスクの問題点に対応して、「高品質」は 3 つの側面に分離できます。 さまざまな次元のロングテール シナリオ: 障害物データ内の近距離車両、車両切断中の正確な進行角、車線などラインデータ 曲率の異なるカーブやランプ・合流・合流などの撮影が難しいシーン。これらは多くの場合、大量のデータ収集と複雑なデータ マイニング戦略に依存しており、コストがかかります。 3D 真の値 - 一貫性の高い画像: 現在の BEV データ取得は、センサーの設置/校正、高精度マップ、再構成アルゴリズム自体のエラーの影響を受けることがよくあります。これが私を導いた

GSLAM | 一般的な SLAM アーキテクチャとベンチマーク GSLAM | 一般的な SLAM アーキテクチャとベンチマーク Oct 20, 2023 am 11:37 AM

19 年前の論文を突然発見 GSLAM: A General SLAM Framework and Benchmark オープンソース コード: https://github.com/zdzhaoyong/GSLAM 全文に直接アクセスして、この作品の品質を感じてください ~ 1 抽象的な SLAM テクノロジー近年多くの成功を収め、多くのハイテク企業の注目を集めています。ただし、既存または新たなアルゴリズムへのインターフェイスを使用して、速度、堅牢性、移植性に関するベンチマークを効果的に実行する方法は依然として問題です。この論文では、GSLAM と呼ばれる新しい SLAM プラットフォームを提案します。これは、評価機能を提供するだけでなく、研究者が独自の SLAM システムを迅速に開発するための有用な方法を提供します。

See all articles