探索Movinets：有效的移動視頻識別-人工智慧-PHP中文網

讓我們通過“ Movinets unleashed”深入研究移動視頻識別的迷人世界！該博客將為您探索Movinets如何在移動設備上轉換視頻分析，結合神經架構搜索，流緩沖和時間結合等尖端技術。發現這些創新模型如何建立在強大的體系結構上，在實時視頻處理中的界限，同時保持輕量級和高效。加入我們，當我們揭開Movinets背後的技術，並探索他們在您的手掌中徹底改變移動視頻應用程序的潛力，從流媒體到監視。

學習目標

探索Movinet搜索空間。
了解流緩衝技術實時在線推導。
分析Movinet的優勢和挑戰。
使用預告片的Movinet產生推理。
在實際情況下瀏覽其應用程序。

本文作為數據科學博客馬拉鬆的一部分發表。

什麼是Movinet？

移動視頻網絡的縮寫Movinet是專門針對移動和資源約束設備優化的高級視頻識別模型。它利用了諸如神經體系結構搜索（NAS），流緩沖和時間結合的尖端技術，以實現實時視頻處理中的高精度和效率。旨在應對移動平台上視頻分析的獨特挑戰，Movinet可以在保持低內存使用情況的同時有效地處理視頻流，使其適合從監視和醫療保健監控到體育分析和智能家居系統的應用。

Movinet的關鍵特徵

現在讓我們探索下面Movinet的關鍵功能：

Movinet搜索空間

Movinet搜索空間是一種結構化方法，用於設計有效的移動設備視頻識別模型。它從基於MobilenetV3的基礎開始，將其擴展到3D以處理視頻輸入。通過使用神經體系結構搜索（NAS），該框架探索了不同的體系結構配置，例如內核大小，濾波器寬度和層深度，以找到準確性和效率之間的最佳平衡。目的是捕獲視頻數據的時間方面，而不會壓倒移動硬件上可用的有限資源。

該搜索空間可以開發一系列模型，每個模型都針對特定用例進行了優化。從適用於低功率設備的輕巧模型到為邊緣計算設計的更複雜的體系結構，Movinet框架允許根據應用程序的需求進行自定義。 NAS的使用確保每個模型都是為了在約束中實現最佳性能而量身定制的，這使Movinet成為移動視頻識別任務的實用解決方案。

流緩衝區

探索Movinets：有效的移動視頻識別

流動緩衝區用於Movinet模型中，以減少處理長視頻時的內存使用情況。該視頻沒有立即評估整個視頻，而是將視頻分為較小的子收集。流緩衝區從這些子收集的邊緣存儲功能信息，從而使模型可以在整個視頻中跟踪信息，而無需重新處理重疊框架。該方法在視頻中保留了長期依賴性，同時保持有效的內存使用情況。通過使用CausalConv之類的因果操作，該模型會順序處理視頻幀，使其適用於具有減少內存和計算要求的實時視頻流。

時間合奏

Movinets中的時間合奏有助於恢復使用流緩衝區引起的輕微精確度下降。這是通過獨立訓練兩個相同模型來完成的，每個模型都以原始幀速率的一半處理視頻，但它們之間的偏移量為一半。在應用軟磁性之前，使用算術平均值將兩個模型的預測組合在一起。儘管每個模型本身俱有較低的精度，但兩個模型的合奏提供了更準確的預測，可以有效地保持準確性，同時保持計算成本較低。

推斷預先訓練的Movinet

為了利用Movinet的力量，我們需要遵循一些關鍵步驟：導入必要的庫，加載預訓練的模型，閱讀和處理視頻數據，最後生成預測。讓我們詳細研究每個步驟。

步驟1：導入庫

在開始之前，我們需要導入幾個基本的Python庫。這些庫提供了視頻處理和模型推理所需的工具。

Numpy ：一個功能強大的Python庫，用於數值計算，為陣列，矩陣和廣泛的數學功能提供支持，以有效地對這些數據結構進行操作。
CV2：計算機視覺和機器學習軟件庫，可為圖像和視頻分析提供一組全面的工具和功能，包括實時處理功能。
TensorFlow：由Google開發的框架，旨在促進深度學習模型和復雜數值計算的創建，培訓和部署。
TensorFlow_Hub：可重複使用的機器學習模塊的庫，在Tensorflow Workfrows中，可以輕鬆共享和集成預訓練的模型和組件，例如圖像分類，文本嵌入式等。

導入pathlib
導入numpy作為NP
導入CV2
導入TensorFlow作為TF
導入TensorFlow_Hub作為集線器

登入後複製

步驟2：從TensorFlow_Hub加載預訓練的模型

接下來，我們需要從Tensorflow Hub加載Movinet模型。此步驟涉及設置模型體系結構並加載預訓練的權重。

 hub_url =“ https://www.kaggle.com/models/google/movinet/movinet/tensorflow2/a0-base-kinetics-600-classification/3”

encoder = hub.keraslayer（hub_url）

輸入= tf.keras.layers.input（
    shape = [無，無，無，3]，
    dtype = tf.float32，
    名稱='圖像'）
    
輸出= encoder（dict（image =輸入））

型號= tf.keras.model（輸入，輸出，名稱='movinet'）

打印（model.summary（））

登入後複製

步驟3：加載視頻

準備好模型後，下一步是準備我們的視頻數據。這涉及閱讀視頻文件並將其處理成適合Movinet模型的格式。

 Video_path = Video_path＃視頻路徑
vidcap = cv2.VIDEOCAPTURE（VIDEO_PATH）＃創建一個視頻關注對象

如果不是vidcap.isopened（）：
    打印（f“錯誤：無法打開視頻{videe_path}”）
    出口（）

video_data = []

＃將幀（視頻）的順序讀取到列表中
而真：
    成功，圖像= vidcap.read（）
    如果不是成功的話：
        休息
    圖像= Cv2.Resize（圖像，（172，172））
    image_rgb = cv2.cvtcolor（image，cv2.color_bgr2rgb）
    video_data.append（image_rgb）

＃發布視頻對象
vidcap.release（）

＃將列表轉換為numpy數組
video_data = np.array（video_data）

打印（video_data.shape）

登入後複製

步驟4：預處理視頻（重塑），將其輸入模型並生成輸出

最後，我們預處理視頻數據並通過模型運行以生成預測。此步驟涉及重塑數據並解釋模型的輸出。

 input_tensor = tf.expand_dims（video_data，axis = 0）＃擴展輸入維度
打印（input_tensor.shape）＃打印輸入張量的形狀

logits = model.predict（input_tensor）＃從模型生成預測

max_index = np.argmax（tf.nn.softmax（logitts））＃在logits上應用softmax函數，並找到具有最大概率值的索引

＃加載索引到標籤映射到數組
labels_path = tf.keras.utils.get_file（
    fname ='labels.txt'，
    Origin ='https：//raw.githubusercontent.com/tensorflow/models/f8af2291cced43fc9f1d9b41ddbf772ae7b0d7b0d7d2/official/projects/projects/projects/movinet/movinet/filese/filess/kinetics_600_600_600_600_labels.txtt
）
labels_path = pathlib.path（labels_path）

lines = labels_path.read_text（）。 splitlines（）
kinetics_600_labels = np.Array（[線路中的行]））

打印（kinetics_600_labels [max_index]）＃打印輸出標籤

登入後複製