用视觉来做Prompt!沈向洋展示IDEA研究院新模型,无需训练或微调,开箱即用
用视觉来做Prompt,会带来怎样的体验?
只需在图中随意勾画一下,即可立即标出相同的类别!
即便是那种GPT-4V都难搞定的数米粒的环节。只需要你手动拉一下框,就能找出所有米粒来。
有了新的目标检测范式!
刚刚结束的IDEA年度大会上,IDEA研究院创院理事长、美国国家工程院外籍院士沈向洋展示了最新研究成果——
基于视觉提示(Visual Prompt)模型T-Rex的内容需要进行改写
整个流程交互,开箱即用,只需几步就可以完成。
此前,Meta开源的SAM分割一切模型,直接让CV领域迎来了GPT-3时刻,但仍是基于文本prompt的范式,在应对一些复杂、罕见场景就会比较难办。
现在以图换图的方式,就能轻松迎刃而解。
除此之外,整场大会也是干货满满,比如Think-on-Graph知识驱动大模型、开发者平台MoonBit月兔、AI科研神器ReadPaper更新2.0、SPU机密计算协处理器、可控人像视频生成平台HiveNet等等。
最后,沈向洋还分享了过去几年时间花时间最多的一个项目:低空经济。
我相信在低空经济相对成熟的时候,每天会有10万架无人机在深圳的天空中,而每天都会有百万架无人机起飞
用视觉来做Prompt
T-Rex除了基础的单轮提示功能外,还支持三种进阶模式
- 多轮正例模式
这类似于多轮对话,可以得出更加精确的结果,避免漏检的情况
- 正例 负例模式
适用于视觉提示带有二义性造成误检的场景。
跨图模式可以重新设计和布局图表,以轻松地可视化数据和信息
通过使用一张参考图来检测其他图像
据介绍,T-Rex不受预定义类别限制,可利用视觉示例来指定检测目标,从而解决了某些物体难以用文字充分表达的问题,提高了提示效率。特别是在一些工业场景中的复杂组件等情况下,效果尤为明显
除此之外,通过与用户交互的方式,也可以随时快速地评估检测结果,并进行纠错等。
T-Rex的构成主要包括三个组件:图像编码器、提示编码器和框解码器
这项工作来自IDEA研究院计算机视觉与机器人研究中心。
该团队此前开源的目标检测模型DINO是首个在COCO目标检测上取得榜单第一的DETR类模型;在Github上大火(至今狂揽11K星)的零样本检测器Grounding DINO与能够检测、分割一切的Grounded SAM。更多技术细节可戳文末链接。
整场大会干货满满
除此之外,IDEA大会上还重点分享了几个研究成果。
比如Think-on-Graph知识驱动大模型,简单来说就是将大模型与知识图谱结合。
大模型擅长意图理解和自主学习,而知识图谱因其结构化的知识存储方式,更擅长逻辑链条推理。
Think-on-Graph通过驱动大模型agent在知识图谱上“思考”,逐步搜索推理出最优答案(在知识图谱的关联实体上一步一步搜索推理)。每一步推理中,大模型都亲自参与,与知识图谱相互取长补短。
MoonBit月兔,这是由Wasm驱动,专为云计算与边缘计算设计的开发者平台。
该系统不仅提供了通用程序语言设计,还融合了编译器、构建系统、集成开发环境(IDE)、部署工具等模块,以提升开发体验和效率
此前发布的科研神器ReadPaper也更新至2.0,发布会现场演示了阅读copilot、润色copilot等新功能。
发布会最后,沈向洋发布《低空经济发展白皮书(2.0)——全数字化方案》,在其智能融合低空系统(Smart Integrated Lower Airspace System,SILAS)中,提出时空进程(Temporal Spatial Process)新概念。
T-Rex链接:
https://trex-counting.github.io/
以上是用视觉来做Prompt!沈向洋展示IDEA研究院新模型,无需训练或微调,开箱即用的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

idea社群版與專業版的差異在授權方式、功能、支援與更新、外掛程式支援、雲端服務與團隊協作、行動開發支援、教育與學習、整合與擴充性、錯誤處理與調試、安全性與隱私保護等方面。詳細介紹:1、授權方式,社群版是免費的,適用於所有開發人員,無論使用什麼作業系統,社群版支援開源專案和商業項目,專業版是付費的,適用於商業開發,專業版有30天的試用期,之後需要購買許可證才能繼續使用等等。

寫在前面今天我們探討下深度學習技術如何改善在複雜環境中基於視覺的SLAM(同時定位與地圖建構)表現。透過將深度特徵提取和深度匹配方法相結合,這裡介紹了一種多功能的混合視覺SLAM系統,旨在提高在諸如低光條件、動態光照、弱紋理區域和嚴重抖動等挑戰性場景中的適應性。我們的系統支援多種模式,包括拓展單目、立體、單目-慣性以及立體-慣性配置。除此之外,也分析如何將視覺SLAM與深度學習方法結合,以啟發其他研究。透過在公共資料集和自採樣資料上的廣泛實驗,展示了SL-SLAM在定位精度和追蹤魯棒性方面優

人工智慧AI是當前廣受認可的未來趨勢和發展方向。雖然有些人擔心AI可能會取代所有的工作,但實際上只會取代那些重複性高、產出低的工作。因此,我們應該學會更聰明地工作,而不是使勁努力工作。本文介紹5個由AI驅動的Intellij插件,這些插件可以幫助你提高生產力,減少繁瑣的重複性工作,讓你的工作更有效率、方便。 1GithubCopilotGithubCopilot是由OpenAI和GitHub共同開發的一款人工智慧程式碼輔助工具。它使用了OpenAI的GPT模型來分析程式碼上下文,預測並產生新的程式碼

1介紹神經輻射場(NeRF)是深度學習和電腦視覺領域的一個相當新的範式。 ECCV2020論文《NeRF:將場景表示為視圖合成的神經輻射場》(該論文獲得了最佳論文獎)中介紹了這項技術,該技術自此大受歡迎,迄今已獲得近800次引用[1 ]。此方法標誌著機器學習處理3D資料的傳統方式發生了巨大變化。神經輻射場場景表示和可微分渲染過程:透過沿著相機射線採樣5D座標(位置和觀看方向)來合成影像;將這些位置輸入MLP以產生顏色和體積密度;並使用體積渲染技術將這些值合成影像;此渲染函數是可微分的,因此可以透過

一、準備工作使用Idea建構一個helloworld的SpringBoot專案。開發環境說明:(1)SpringBoot2.7.0(2)Idea:IntelliJIDEA2022.2.2(3)OS:MacOS環境不太一樣,有些操作是有些微區別的,但是整體的思路是一樣的。二、啟動多個SpringBoot2.1方案一:修改設定檔的連接埠在SpringBoot專案中,連接埠號碼可以在設定檔進行配置,所以最簡單可以想到的方案是修改設定檔application.(properties/yml)的端口配置s

純視覺的標註方案,主要利用視覺加上一些GPS、IMU和輪速感測器的資料進行動態標註。當然面向量產場景的話,不一定要純視覺,有些量產的車輛裡面,會有像固態雷達(AT128)這樣的感測器。如果從量產的角度做資料閉環,把這些感測器都用上,可以有效解決動態物體的標註問題。但是我們的方案裡面,是沒有固態雷達的。所以,我們就介紹這個最通用的量產標註方案。純視覺的標註方案的核心在於高精度的pose重建。我們採用StructurefromMotion(SFM)的pose重建方案,來確保重建精確度。但是傳

一、開啟idea自動make功能1-從編譯器啟用Automake按:CTRL+SHIFT+ATYPE:makeprojectautomatically按:Enter啟用MakeProject自動功能2-在應用程式運行時啟用Automake按:CTRL+SHIFT+ATYPE:Registry找到keycompiler .automake.allow。

作為點集合的點雲有望透過3D重建、工業檢測和機器人操作中,在獲取和生成物體的三維(3D)表面資訊方面帶來一場改變。最具挑戰性但必不可少的過程是點雲配準,即獲得一個空間變換,該變換將在兩個不同座標中獲得的兩個點雲對齊並匹配。這篇綜述介紹了點雲配準的概述和基本原理,對各種方法進行了系統的分類和比較,並解決了點雲配準中存在的技術問題,試圖為該領域以外的學術研究人員和工程師提供指導,並促進點雲配準統一願景的討論。點雲獲取的一般方式分為主動和被動方式,由感測器主動獲取的點雲為主動方式,後期透過重建的方式
