计算机视觉技术即将迎来重大转变
计算机视觉是否会再次自我改造?
匹兹堡大学眼科教授、CMU 机器人研究所兼职教授 Ryad Benosman 认为确实如此。作为基于事件的视觉技术的创始人之一,Benosman 预计神经形态视觉——基于基于事件的相机的计算机视觉——将成为计算机视觉的下一个方向。
“计算机视觉已经被重新发明了很多很多次,” Benosman 说。“我已经看到它至少重新发明了两次。”
Benosman 提到了 1990 年代从带有一点摄影测量的图像处理到基于几何的方法的转变,然后是今天机器学习的快速发展。尽管发生了这些变化,现代计算机视觉技术仍然主要基于图像传感器——产生类似于人眼所见图像的相机。
根据 Benosman 的说法,在图像传感范式不再有用之前,它会阻碍替代技术的创新。高性能处理器(例如 GPU)的发展推迟了寻找替代解决方案的需要,因此延长了这种影响。
“我们为什么将图像用于计算机视觉?这是一个价值百万美元的问题,”他说。“我们没有理由使用图像——这只是因为历史的动力。甚至在没有相机之前,图像就有动力。”
图像相机
自从公元前五世纪针孔相机出现以来,图像相机就一直存在到 1500 年代,艺术家们使用房间大小的设备将房间外的人或风景的图像追踪到画布上。多年来,这些画被替换为胶片来记录图像。数码摄影等创新最终使图像相机很容易成为现代计算机视觉技术的基础。
然而,Benosman 认为,基于图像相机的计算机视觉技术效率极低。他的比喻是中世纪城堡的防御系统:位于城墙周围的卫兵四处寻找接近的敌人。鼓手稳定地敲打,每一个鼓点,每个守卫都会大声喊出他们所看到的。在一片喧哗中,听到一个守卫在遥远的森林边缘发现敌人是多么容易?
21 世纪的鼓点硬件等价物是电子时钟信号,而守卫是像素。大量数据被创建并且必须在每个时钟周期进行检查,这会导致大量冗余信息,从而需要大量不必要的计算。
“人们正在燃烧如此多的能量,它占用了城堡的整个计算能力来保护自己,” Benosman 说。如果发现了一个有趣的事件——在这个类比中以敌人为代表——“你必须四处走动收集无用的信息,人们到处尖叫,所以带宽很大……现在想象你有一座复杂的城堡。所有这些人都必须被听到。”
进入神经形态视觉。基本思想受到生物系统工作方式的启发,即检测场景动态的变化,而不是连续分析整个场景。在我们的城堡类比中,这意味着让守卫保持安静,直到他们看到感兴趣的东西,然后喊出他们的位置以发出警报。在电子版中,这意味着让单个像素确定他们是否看到相关的东西。
“像素可以自行决定他们应该发送什么信息,” Benosman 说。
“他们可以寻找有意义的信息——特征,而不是获取系统信息。这就是与众不同的地方。”
Prophesee 与索尼合作开发的 DVS 传感器评估套件。Benosman 是 Prophesee 的联合创始人。
与固定频率的系统采集相比,这种基于事件的方法可以节省大量功率并减少延迟。
“你想要一些更具适应性的东西,这就是[基于事件的视觉]的相对变化给你的东西——适应性采集频率,”他说。“当你观察幅度变化时,如果某些东西移动得非常快,我们就会得到很多样本。如果某些东西没有改变,你会得到几乎为零,所以你正在根据场景的动态调整你的采集频率。这就是它带来的东西。这就是为什么它是一个好的设计。”
Benosman 于 2000 年进入神经形态视觉领域,他坚信先进的计算机视觉永远无法发挥作用,因为图像不是正确的方法。
“最大的转变是说我们可以在没有灰度和没有图像的情况下进行视觉,这在 2000 年底是异端——完全是异端,”他说。
Benosman 提出的技术——今天基于事件的传感的基础——是如此不同,以至于提交给当时最重要的 IEEE 计算机视觉期刊的论文在未经审查的情况下被拒绝。事实上,直到 2008 年动态视觉传感器 (DVS) 的开发,该技术才开始获得动力。
神经科学灵感
神经形态技术是受生物系统启发的技术,包括终极计算机:大脑及其神经元,或计算元素。问题是没有人完全理解神经元是如何工作的。虽然我们知道神经元对传入的称为尖峰的电信号起作用,但直到最近,研究人员仍将神经元描述为相当草率,认为只有尖峰的数量很重要。这个假设持续了几十年,但最近的工作证明,这些尖峰的时间是绝对关键的,并且大脑的结构会在这些尖峰中产生延迟来编码信息。
今天的尖峰神经网络模拟大脑中看到的尖峰信号,是真实事物的简化版本——通常是尖峰的二进制表示。“我收到一个 1,我醒来,我计算,我睡觉,”Benosman 解释说。现实要复杂得多。当尖峰到来时,神经元开始随着时间的推移对尖峰的值进行积分;神经元也有泄漏,这意味着结果是动态的。此外,大约有 50 种不同类型的神经元具有 50 种不同的集成配置文件。
当前的电子版本缺少集成的动态路径、神经元之间的连接性以及不同的权重和延迟。“问题在于,要制造出有效的产品,你不能[模仿]所有的复杂性,因为我们不理解它,”他说。“如果我们有好的大脑理论,我们就会解决它。问题是,我们只是不知道。”
Bensoman 经营着一个独特的实验室,致力于了解皮层计算背后的数学原理,旨在创建新的数学模型并将其复制为硅设备。这包括直接监测来自真实视网膜的尖峰。
目前, Bensoman反对忠实地复制生物神经元,称这种方法是过时的。
“在硅中复制神经元的想法的产生是因为人们观察了晶体管并看到了一个看起来像真正神经元的机制,所以一开始它背后有一些想法,”他说。“我们没有细胞;我们有硅。你需要适应你的计算基板,而不是相反……如果我知道我在计算什么并且我有芯片,我可以优化这个方程式并以最低的成本、最低的功耗、最低的延迟运行它。”
处理能力
无需精确复制神经元这一认识以及 DVS 相机的发展是当今视觉系统背后的驱动力。虽然系统已经上市,但在完全类似于人类的视觉可用于商业用途之前,还需要取得进展。
Benosman 说,最初的 DVS 相机具有“大而粗的像素”,因为光电二极管本身周围的组件大大降低了填充因子。虽然对开发这些摄像机的投资加速了这项技术,但贝诺斯曼明确表示,今天的事件摄像机只是对早在 2000 年开发的原始研究设备的改进。索尼最先进的 DVS 摄像机,三星和 Omnivision 拥有微小的像素,融合了 3D 堆叠等先进技术并降低了噪点。Benosman 担心的是今天使用的传感器类型能否成功扩大规模。
“问题是,一旦你增加像素数量,你就会得到大量数据,因为你的速度仍然非常快,”他说。“你可能仍然可以实时处理它,但是你会从太多的像素中得到太多的相对变化。这现在正在杀死所有人,因为他们看到了潜力,但他们没有合适的处理器来支持它。”
这个 Prophesee 客户应用示例显示了图像摄像头(每个框的左上角)和 DVS 传感器输出之间的差异。
通用神经形态处理器落后于 DVS 相机对应物。一些业内最大的参与者(IBM Truenorth、英特尔 Loihi)的努力仍在进行中。Benosman 表示,正确的处理器和正确的传感器将是无与伦比的组合。
“[今天的 DVS] 传感器速度极快,带宽超低,动态范围大,因此您可以在室内和室外看到,”Benosman 说。“这是未来。它会起飞吗?绝对地。”
“谁能把处理器放在那里并提供完整的堆栈,谁就赢了,因为它将是无与伦比的,”他补充道。
以上是计算机视觉技术即将迎来重大转变的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

本站6月27日消息,剪映是由字节跳动旗下脸萌科技开发的一款视频剪辑软件,依托于抖音平台且基本面向该平台用户制作短视频内容,并兼容iOS、安卓、Windows、MacOS等操作系统。剪映官方宣布会员体系升级,推出全新SVIP,包含多种AI黑科技,例如智能翻译、智能划重点、智能包装、数字人合成等。价格方面,剪映SVIP月费79元,年费599元(本站注:折合每月49.9元),连续包月则为59元每月,连续包年为499元每年(折合每月41.6元)。此外,剪映官方还表示,为提升用户体验,向已订阅了原版VIP

通过将检索增强生成和语义记忆纳入AI编码助手,提升开发人员的生产力、效率和准确性。译自EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG,作者JanakiramMSV。虽然基本AI编程助手自然有帮助,但由于依赖对软件语言和编写软件最常见模式的总体理解,因此常常无法提供最相关和正确的代码建议。这些编码助手生成的代码适合解决他们负责解决的问题,但通常不符合各个团队的编码标准、惯例和风格。这通常会导致需要修改或完善其建议,以便将代码接受到应

大型语言模型(LLM)是在巨大的文本数据库上训练的,在那里它们获得了大量的实际知识。这些知识嵌入到它们的参数中,然后可以在需要时使用。这些模型的知识在训练结束时被“具体化”。在预训练结束时,模型实际上停止学习。对模型进行对齐或进行指令调优,让模型学习如何充分利用这些知识,以及如何更自然地响应用户的问题。但是有时模型知识是不够的,尽管模型可以通过RAG访问外部内容,但通过微调使用模型适应新的领域被认为是有益的。这种微调是使用人工标注者或其他llm创建的输入进行的,模型会遇到额外的实际知识并将其整合

想了解更多AIGC的内容,请访问:51CTOAI.x社区https://www.51cto.com/aigc/译者|晶颜审校|重楼不同于互联网上随处可见的传统问题库,这些问题需要跳出常规思维。大语言模型(LLM)在数据科学、生成式人工智能(GenAI)和人工智能领域越来越重要。这些复杂的算法提升了人类的技能,并在诸多行业中推动了效率和创新性的提升,成为企业保持竞争力的关键。LLM的应用范围非常广泛,它可以用于自然语言处理、文本生成、语音识别和推荐系统等领域。通过学习大量的数据,LLM能够生成文本

编辑|ScienceAI问答(QA)数据集在推动自然语言处理(NLP)研究发挥着至关重要的作用。高质量QA数据集不仅可以用于微调模型,也可以有效评估大语言模型(LLM)的能力,尤其是针对科学知识的理解和推理能力。尽管当前已有许多科学QA数据集,涵盖了医学、化学、生物等领域,但这些数据集仍存在一些不足。其一,数据形式较为单一,大多数为多项选择题(multiple-choicequestions),它们易于进行评估,但限制了模型的答案选择范围,无法充分测试模型的科学问题解答能力。相比之下,开放式问答

机器学习是人工智能的重要分支,它赋予计算机从数据中学习的能力,并能够在无需明确编程的情况下改进自身能力。机器学习在各个领域都有着广泛的应用,从图像识别和自然语言处理到推荐系统和欺诈检测,它正在改变我们的生活方式。机器学习领域存在着多种不同的方法和理论,其中最具影响力的五种方法被称为“机器学习五大派”。这五大派分别为符号派、联结派、进化派、贝叶斯派和类推学派。1.符号学派符号学(Symbolism),又称为符号主义,强调利用符号进行逻辑推理和表达知识。该学派认为学习是一种逆向演绎的过程,通过已有的

编辑|KX在药物研发领域,准确有效地预测蛋白质与配体的结合亲和力对于药物筛选和优化至关重要。然而,目前的研究没有考虑到分子表面信息在蛋白质-配体相互作用中的重要作用。基于此,来自厦门大学的研究人员提出了一种新颖的多模态特征提取(MFE)框架,该框架首次结合了蛋白质表面、3D结构和序列的信息,并使用交叉注意机制进行不同模态之间的特征对齐。实验结果表明,该方法在预测蛋白质-配体结合亲和力方面取得了最先进的性能。此外,消融研究证明了该框架内蛋白质表面信息和多模态特征对齐的有效性和必要性。相关研究以「S

本站7月5日消息,格芯(GlobalFoundries)于今年7月1日发布新闻稿,宣布收购泰戈尔科技(TagoreTechnology)的功率氮化镓(GaN)技术及知识产权组合,希望在汽车、物联网和人工智能数据中心应用领域探索更高的效率和更好的性能。随着生成式人工智能(GenerativeAI)等技术在数字世界的不断发展,氮化镓(GaN)已成为可持续高效电源管理(尤其是在数据中心)的关键解决方案。本站援引官方公告内容,在本次收购过程中,泰戈尔科技公司工程师团队将加入格芯,进一步开发氮化镓技术。G
