使用接地恐龙基地的零拍物检测-人工智能-PHP中文网

首页

科技周边

人工智能

使用接地恐龙基地的零拍物检测

Jennifer Aniston

Apr 08, 2025 am 11:20 AM

接地恐龙：零拍物检测变得容易

图像中的精确对象检测，尤其是那些形状不规则的对象检测提出了挑战。但是，诸如DINO接地的尖端模型为零击对象检测提供了有效的解决方案。该模型擅长使用文本提示识别图像中的对象，将其功能扩展到封闭设置和开放集对象检测。让我们探索其功能和应用程序。

关键功能：

零射击检测：识别对象而无需标记的培训数据，依靠文本描述为输入。
基于文本的查询：允许用户使用自然语言提示指定目标对象。
开放和闭合检测：处理已知和未知对象类。

接地Dino的工作原理：

接地Dino通过分析文本提示并将其与图像中的视觉特征相匹配来运行。该过程涉及：

对象标识：该模型标识文本提示中描述的对象。
对象提案生成：它基于颜色和形状等视觉提示创建“对象建议”。
概率评分：每个提案都会获得一个概率分数，这表明视觉功能和文本描述之间匹配的可能性。较高的分数表明匹配更强。

使用接地恐龙基地的零拍物检测

模型体系结构：

接地Dino利用了两流体系结构，结合了视觉和文字信息：

特征提取：视觉主链（如Swin Transformer）提取图像特征，而文本编码器（如Bert）处理文本提示。
功能增强功能：功能增强器使用自我发项机制来创建图像和文本特征的统一表示。
语言指导的查询选择：此阶段使用文本输入来选择相关的图像功能，帮助对象本地化和标签分配。
跨模式集成：注意层和前馈网络结合了视觉和文本信息以完善对象检测。

使用接地恐龙基地的零拍物检测

跑步恐龙：

该模型可以使用Python中的transformers库运行。以下是一个简化的示例，展示了该过程：

导入请求
导入火炬
从PIL导入图像
从变形金刚导入自动化处理器，AutoModeForzeroshotObjectDetection

model_id =“思想研究/接地 - 基础”
设备=“ cuda”如果torch.cuda.is_available（）else“ cpu”

processor = autopersesor.from_pretrated（model_id）
model = automodelforzeroshotobjectDetection.from_pretrated（model_id）.to（设备）

image_url =“ http://images.cocodataset.org/val2017/000000039769.jpg”
image = image.open（requests.get（image_url，stream = true）.raw）
text =“猫。遥控器。”

输入=处理器（images = image，text = text，return_tensors =“ pt”）。到（设备）
使用Torch.no_grad（）：
    输出=模型（**输入）

结果=处理器
    输出，
    inputs.input_ids，
    box_threshold = 0.4，
    text_threshold = 0.3，
    target_sizes = [image.size [::  -  1]]
）

打印（结果）

登录后复制

使用接地恐龙基地的零拍物检测