Python ialah bahasa pengaturcaraan peringkat tinggi yang digunakan secara meluas dalam bidang penglihatan komputer dan pembelajaran mesin. Antaranya, pengesanan sasaran merupakan senario aplikasi penting dalam penglihatan komputer, yang digunakan untuk mengesan dan mengenal pasti objek sasaran dalam imej atau video. Dalam Python, terdapat banyak kit alat dan perpustakaan yang berkuasa untuk pengesanan objek. Dalam artikel ini, kami akan memperkenalkan teknologi pengesanan objek dalam Python melalui contoh.
Dalam contoh ini kita akan menggunakan algoritma Faster R-CNN (Faster Region-based Convolutional Neural Network), yang merupakan algoritma pengesanan sasaran berdasarkan pembelajaran mendalam. Ia boleh mengesan objek dalam imej dengan tepat dan menandakan lokasi dan kotak sempadannya. Algoritma Faster R-CNN mempunyai kelebihan ketepatan yang tinggi, kebolehpercayaan dan kecekapan yang tinggi, jadi ia telah digunakan secara meluas dalam aplikasi praktikal.
Pertama, kita perlu menyediakan beberapa alatan dan set data yang diperlukan. Kami akan menggunakan perpustakaan TensorFlow dan Keras dalam Python, dan set data COCO (Objek Biasa dalam Konteks), yang merupakan set data pengesanan objek yang digunakan secara meluas. Kita boleh menggunakan arahan berikut untuk memasang alatan yang diperlukan ini:
pip install tensorflow keras pip install pycocotools
Selepas memasang alat ini, kita boleh mula menulis kod Python. Pertama, kita perlu menentukan beberapa pembolehubah dan parameter yang diperlukan. Pembolehubah dan parameter ini akan digunakan dalam kod berikutnya.
import tensorflow as tf # 定义图像的宽和高 img_height = 800 img_width = 800 # 定义学习率和训练轮数 learning_rate = 0.001 num_epochs = 100 # 加载COCO数据集 train_data = tf.data.TFRecordDataset('coco_train.tfrecord') val_data = tf.data.TFRecordDataset('coco_val.tfrecord') # 定义类别数目和类别标签 num_classes = 80 class_labels = ['airplane', 'bicycle', 'bird', 'boat', 'bottle', 'bus', 'car', 'cat', 'chair', 'cow', 'dining', 'dog', 'horse', 'motorcycle', 'person', 'potted', 'sheep', 'sofa', 'train', 'tv']
Seterusnya, kita perlu menentukan model. Dalam contoh ini, kami akan menggunakan pustaka Keras dalam TensorFlow untuk menentukan model R-CNN yang Lebih Pantas.
from tensorflow.keras.applications import ResNet50V2 from tensorflow.keras.layers import Input, Conv2D, Dense, MaxPooling2D, Flatten, Reshape from tensorflow.keras.models import Model # 定义输入层 input_layer = Input(shape=(img_height, img_width, 3)) # 定义ResNet50V2预训练模型 resnet = ResNet50V2(include_top=False, weights='imagenet', input_tensor=input_layer) # 定义RPN网络 rpn_conv = Conv2D(512, (3,3), padding='same', activation='relu', name='rpn_conv')(resnet.output) rpn_cls = Conv2D(num_anchors*num_classes, (1,1), activation='sigmoid', name='rpn_cls')(rpn_conv) rpn_reg = Conv2D(num_anchors*4, (1,1), activation='linear', name='rpn_reg')(rpn_conv) # 定义RoI Pooling层 roi_input = Input(shape=(None, 4)) roi_pool = RoIPooling((7, 7), 1.0/16)([resnet.output, roi_input]) # 定义全连接层 flatten = Flatten()(roi_pool) fc1 = Dense(1024, activation='relu', name='fc1')(flatten) fc2 = Dense(1024, activation='relu', name='fc2')(fc1) output_cls = Dense(num_classes, activation='softmax', name='output_cls')(fc2) output_reg = Dense(num_classes*4, activation='linear', name='output_reg')(fc2) # 组装模型 model = Model(inputs=[input_layer, roi_input], outputs=[rpn_cls, rpn_reg, output_cls, output_reg])
Selepas menentukan model, kita boleh memulakan latihan. Berikut ialah kod untuk proses latihan:
from tensorflow.keras.optimizers import Adam from tensorflow.keras.losses import binary_crossentropy, mean_squared_error # 定义优化器和损失函数 optimizer = Adam(lr=learning_rate) loss_rpn_cls = binary_crossentropy loss_rpn_reg = mean_squared_error loss_cls = categorical_crossentropy loss_reg = mean_squared_error # 编译模型 model.compile(optimizer=optimizer, loss=[loss_rpn_cls, loss_rpn_reg, loss_cls, loss_reg], metrics=['accuracy']) # 训练模型 history = model.fit(train_data, epochs=num_epochs, validation_data=val_data)
Selepas latihan selesai, kita boleh menggunakan model untuk pengesanan sasaran. Berikut ialah kod untuk pengesanan sasaran:
# 加载测试数据集 test_data = tf.data.TFRecordDataset('coco_test.tfrecord') # 定义预测函数 def predict(image): # 对输入图像进行预处理 image = tf.image.resize(image, (img_height, img_width)) image = tf.expand_dims(image, axis=0) # 对图像进行目标检测 rpn_cls, rpn_reg, output_cls, output_reg = model.predict([image, roi_input]) # 对检测结果进行后处理 detections = post_process(rpn_cls, rpn_reg, output_cls, output_reg) return detections # 对测试数据集中的图像进行目标检测 for image, label in test_data: detections = predict(image) visualize(image, detections)
Selepas pengesanan sasaran selesai, kami boleh memvisualisasikan hasil pengesanan. Berikut ialah kod yang divisualisasikan:
import matplotlib.pyplot as plt def visualize(image, detections): # 在图像上绘制检测结果 for detection in detections: bbox = detection['bbox'] label = detection['label'] plt.imshow(image) plt.gca().add_patch(plt.Rectangle((bbox[0], bbox[1]), bbox[2]-bbox[0], bbox[3]-bbox[1], fill=False, edgecolor='r')) plt.text(bbox[0], bbox[1], class_labels[label], color='r', fontsize=12) plt.show()
Melalui kod di atas, kami boleh melaksanakan sepenuhnya contoh pengesanan sasaran Faster R-CNN berasaskan Python. Dalam aplikasi praktikal, kami boleh menerapkannya pada banyak senario, seperti pemantauan keselamatan, pemantauan trafik, pemanduan tanpa pemandu, dsb. Fungsi Python yang berkuasa dan banyak perpustakaan alat yang sangat baik memberikan kami pelbagai alatan dan teknologi untuk membantu kami mengatasi senario aplikasi praktikal dengan lebih baik.
Atas ialah kandungan terperinci Contoh pengesanan objek dalam Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!