看视频、画CAD、运动想像识别!75B的多模态工业大模型太能干了
今年升级的重点在于引入了多模态大模型能力。
当 Sora 和 Suno 所创造的视频和音乐作品在全球范围内引起视听革命时,工业领域的大规模多模态应用又将如何演进?3 月 27 日,作为中国领先的「AI 制造」解决方案提供商,创新奇智揭开了他们的前瞻性答案。
经过半年努力,创新奇智在北京举办的发布会上发布了更为强大的奇智孩明工业大模型 2.0 版本(AInno-75B)。几款大模型原生应用也首次亮相,包括 ChatVision、ChatCAD,ChatRobot 也升级到 Pro 版本。
创新奇智 CTO 张发恩在发布会上
Scaling laws的应用有助于研究人员和工程师预测增加模型规模带来的性能收益,以及为了达到特定性能目标需要的参数量。目前,界面已经形成一些共识,参数的提升可以让模型性能提升。较之AInno-15B,AInno-75B在规模和性能方面取得了显著增长。
今年升级的重点在于引入了多模式大模型能力。张发恩解释说,这个进阶的大模型能够处理包括文本、图片、视频在内的多种信息模态,甚至能够融合工业场景中特有的数据类型,比如CAD图纸和EEG信号。它的输出同样多样,能够生成文本、图像、视频、CAD设计图或者工具体操作行为。
一、ChatCAD: 工业“文生图”之美
C端AIGC应用生成的图片、视频作品令人叹为观止,而在企业服务领域,AI生成能力同样精彩。
工业设计是生产活动的基石,从手机到新能源汽车工厂,生产建造前都应完成工业设计。CAD软件作为工业设计之本,在产业链上占据重要地位。长期以来,我国传媒CAD软件市场被国外厂商把持,界面复杂、使用门槛高。
中国中元国际机械工程有限公司经营总负责人王先透露,他们的设计工作大多依赖人工。一个单体建筑,无论是标准层还是综合体都需要设计师一笔一笔绘制,工业图纸亦是如此,耗费大量人力物力。此外,行业规范众多且修订频繁,进一步加大了设计难度。
为打破这一局面,创新奇智率先将工业大模型技术引入工业设计领域,推出Text-to-CAD类应用—“ChatCAD”:通过简单的对话问答形式,便能迅速理解设计师的创意意图,自动生成符合要求的工业设计图,并支持导出到传统软件进行微调。
输入 “帮我设计一个工业滑轮,参数如下:滑轮半径为6,厚度为5,滑轮边缘向外突出0.8,突出部分厚度为0.5,滑轮中心轴高度为5,半径为4” 。ChatCAD 立刻生成作品,并根据反馈不断优化设计。 现场演示工业滑轮设计
即使面对冗长复杂的部件设计需求,ChatCAD也能应对。例如,“帮我设计一个涡轮机,涡轮由电机、引擎罩组成,具体要求如下:电机为圆柱形,长20,直径16。涡轮由一个圆柱涡轮轴和5片扇叶组成,涡轮轴长20,直径12,涡轮顶部要有圆柱形圆锥旋转轴,轴帽长度为9,直径12,引擎罩直径50,长度30,涡轮扇叶与引擎罩之间的间隔为1。”
ChatCAD 依然可以生成结果,并根据反馈持续完善。ChatCAD生成的设计还支持主流文件格式,可无缝对接其他工业软件,方便后续集成修改。
现场演示涡轮机设计
这一功能令王先倍感振奋。他认为,ChatCAD 有望帮助行业减少重复性劳动,规避硬性规范限制,进而影响整个行业的人工报价。
那么,ChatCAD 是如何实现的?张发恩解释道,CAD 有别于文本、图片、视频等常见模态,它需要表示点、线、边、圆、柱、工艺等几何数据。“所以我们也叫做一种模态,是 C 端不具备的一种模态。我们要发明自己表达 CAD 的中间语言,大模型生成这种中间语言或者中间码,再把这些中间码翻译成 CAD 。”
官方发布的ChatCAD DEMO
张发恩坦言,目前 ChatCAD 生成的简单图纸可直接用于加工,但复杂设计仍需完善。ChatCAD 的目标是成为设计院工程师的得力助手。它有望将原本耗时十小时的设计流程缩短至一小时,大模型负责完成 90% 的工作,剩余 10% 由人工优化。
值得一提的是,创新奇智已成功将先进的大模型技术深度融入 CAD 、MES 、BI 等多种工业软件,实现了对"研发设计-生产控制-信息管理"全流程的智能化改造与升级。
二、ChatVision :工业安全监管新利器
工厂生产安全与合规至关重要,视频监控和图像分析不可或缺。以板卡厂波峰焊为例,工人清理 280 度高温锡炉时,若未严格佩戴安全防护装备,如气密式活性炭口罩、高温防护手套等,存在严重烫伤风险。
传统监控方式效率低下,容易遗漏隐患,事后检查滞后明显。ChatVision 基于 Alnno-75B 工业大模型,可通过自然语言实时分析监控视频流、视频文件和图片,精准识别不合规行为,并立即触发报警系统(比如自动发送邮件给管理员),助力工业企业安全生产。
发布会现场演示中,ChatVision 准确响应"仔细观察当前画面,告诉我这可能是个什么地方"等综合理解指令,以及"找出画面中的电源插座"、"找出白色的安全帽"等具体目标识别任务,展现了其广阔应用前景。
现场演示中,ChatVision找出画面中的电源插座"、"找出白色的安全帽"等具体目标。
这些指令看似很简单,没有大模型的情况下需要针对每个细小的识别类别(比如安全帽、吸烟)开发具体算法,调试部署后难以修改,落地成本高、周期长。大模型的出现颠覆了传统范式,单个大模型可覆盖多个小模型的功能,在性能、准确率、泛化能力等方面全面超越,并支持自然语言交互,大大简化了开发部署流程。
现场演示中,画面发生变化:一位同事摘下工帽玩手机,另一位同事脱下安全衣。演示人员下达指令:"请仔细分析这个画面,如果有违规,发邮件给管理员"。
这条指令知识密度很高,不仅涉及违规判断,还需决定是否触发邮件发送以及收件人。这正是大模型原生应用的典型服务模式。结果,ChatVision 调用了后台很多安全监测技能做了识别,不仅标出来三项违规之处,还发送了邮件,附带截图。
官方发布的ChatVision DEMO 中有清楚演示
ChatVision 演示充分体现了工业大模型的规划和推理能力。它可以将用户意图转化为一系列外部工具调用,有条不紊地完成复杂视频理解任务。
创新奇智 CTO 张发恩表示,过去几年公司积累了 200 多项视觉算法和模型资产,而工业大模型为这些资产的应用开辟了新天地。大模型不仅可以充当智能编排者,优化用户体验,其多模态能力还能强化视频理解,在企业安全领域大显身手。
最后一个演示案例凸显了大模型在多模态领域的前沿应用。面对一段真实车间视频,演示人员提出高难度需求:"请仔细分析这个视频,告诉我是否有人吃饭并标识这个动作发生的时间"。该任务需要大模型对长时间序列画面进行连续动作识别,并标注动作起止时间。结果, ChatVision 准确定位到视频开头 15 秒内出现工人吃饭的情况。
"吃饭是很常见的事件,大模型对事件的理解能力远胜传统小算法模型。"张发恩解释道。长期以来,通过视频保障生产和工程安全的需求十分迫切。未来,围绕大模型开展相关工作,将有望实现生产安全状况、生产过程合规性的智能视频理解。
在王先看来,安全始终是工程项目的头等大事。多年来,工程安全培训很少涉及现场隐患排查。他认为 ChatVision 的应用前景广阔,现场安全头盔检测、高空安全绳佩戴、安全器具携带等场景都可望落地。ChatVision 在监理行业也大有可为,目前许多现场安全巡检仍高度依赖人力。
三、ChatRobot Pro :“运动想像识别”
AInno-15B 的原生应用 ChatRobot 已经实现语音控制工业机器人。直接告诉ChatRobot “给我来一杯咖啡”,它就可以指挥工业机械臂在货架上寻找咖啡,自行设计路线把货物送到你手上。ChatRobot Pro 能处理更复杂的信息载体脑电信号。
发布会上,演示人员随机选择了一种商品(统一绿茶),让一位头皮上固定了多个电极的人用运动想像控制工业机器人将饮料交到其手中。这位头戴采集器的人努力想着三件事:向左、向右,选中,光标根据大模型翻译出来的信号也在屏幕上左右移动。当光标移到目标图标时,他会盯着这个图标不动,光标点击选中。
接下来,ChatRobot Pro 会自主完成任务的智能编排,生成可执行任务步骤,并与工业机器人接口实时交互,指示机器人完成任务。
脑电信号是大脑活动时产生的信号,大脑活动和脑电信号之间的关系非常复杂,如何解码成为困扰研究者的一大难题。传统做法的准确率低,AInno-75B 展现出解读这类多模态信息的潜力。国外一些脑机接口技术使用侵入式电极获得脑电信号,它涉及到电极设计、手术植入、排异反应、信号传输、信号解码等一系列工程问题。创新奇智使用非侵入式脑电帽收集脑电信息,在工程难度上大大降低。
不过,张发恩也表示,侵入式可以获得更多通道和更清晰的脑电信号,为后续解码更复杂大脑意图带来方便。一个形象的比喻是:侵入式采集脑电信号就像在体育馆内部听演唱会,非侵入式则像在体育馆外听演唱会,歌声的清晰度会有很大的区别。当前,创新奇智在做的研发工作,是验证工业大模型的多模态能力,为未来可能的脑控工业自动化场景进行技术预研。
这也是一个端到端的原生应用,张发恩强调。从脑电信号输入到直接输出最终结果(机械臂将货物递给演示人员)的整个流程都由神经网络来完成,而不依赖于手工设计的特征或传统的数据处理。
除了自然语言交互和运动想像识别,ChatRobot Pro 也充分利用了工业大模型推理能力,实现了长序列任务编排和复杂决策驱动。赋予不同具身(无论是工业机械臂还是 AGV 等)强大的智能操控和决策能力,也会是创新奇智工业大模型未来努力的方向。
四、继续进化,笃行向前
生成式AI时代,工业应用尚无先例可循,创新奇智一直在探索工业场景下的种种可能。
大模型在企业服务方向上的前景,张发恩称之为 “Promising”。但他坦言,技术变革的窗口期,大家的认知往往参差不齐,尤其是比较大的变革,人的认知需要时间跟进,自己也不例外。
除了新增的原生应用,去年发布的 ChatDOC 整体性能和效果都有提升,产品功能更加完善。ChatBI 新增支持 Excel 和 CSV 数据,现在生成 SQL 语句和分析报告的准确率提升 15%。大模型服务引擎部署起来更容易,推理性能更高。
“创新奇智会进一步将直接基于工业大模型核心生成能力搭建的 ChatX 应用打磨好。”张发恩说。
以上是看视频、画CAD、运动想像识别!75B的多模态工业大模型太能干了的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

但可能打不过公园里的老大爷?巴黎奥运会正在如火如荼地进行中,乒乓球项目备受关注。与此同时,机器人打乒乓球也取得了新突破。刚刚,DeepMind提出了第一个在竞技乒乓球比赛中达到人类业余选手水平的学习型机器人智能体。论文地址:https://arxiv.org/pdf/2408.03906DeepMind这个机器人打乒乓球什么水平呢?大概和人类业余选手不相上下:正手反手都会:对手采用多种打法,该机器人也能招架得住:接不同旋转的发球:不过,比赛激烈程度似乎不如公园老大爷对战。对机器人来说,乒乓球运动

开学将至,该收心的不止有即将开启新学期的同学,可能还有AI大模型。前段时间,Reddit上挤满了吐槽Claude越来越懒的网友。「它的水平下降了很多,经常停顿,甚至输出也变得很短。在发布的第一周,它可以一次性翻译整整4页文稿,现在连半页都输出不了了!」https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一个名为「对Claude彻底失望了的帖子里」,满满地

8月21日,2024世界机器人大会在北京隆重召开。商汤科技旗下家用机器人品牌“元萝卜SenseRobot”家族全系产品集体亮相,并最新发布元萝卜AI下棋机器人——国际象棋专业版(以下简称“元萝卜国象机器人”),成为全球首个走进家庭的国际象棋机器人。作为元萝卜的第三款下棋机器人产品,全新的国象机器人在AI和工程机械方面进行了大量专项技术升级和创新,首次在家用机器人上实现了通过机械爪拾取立体棋子,并进行人机对弈、人人对弈、记谱复盘等功能,

正在北京举行的世界机器人大会上,人形机器人的展示成为了现场绝对的焦点,在星尘智能的展台上,由于AI机器人助理S1在一个展区上演扬琴、武术、书法三台大戏,能文能武,吸引了大量专业观众和媒体的驻足。在带弹性的琴弦上的优雅演奏,让S1展现出速度、力度、精度兼具的精细操作和绝对掌控。央视新闻对「书法」背后的模仿学习和智能控制进行了专题报道,公司创始人来杰解释到,丝滑动作的背后,是硬件侧追求最好力控和最仿人身体指标(速度、负载等),而是在AI侧则采集人的真实动作数据,让机器人遇强则强,快速学习进化。而敏捷

视觉与机器人学习的深度融合。当两只机器手丝滑地互相合作叠衣服、倒茶、将鞋子打包时,加上最近老上头条的1X人形机器人NEO,你可能会产生一种感觉:我们似乎开始进入机器人时代了。事实上,这些丝滑动作正是先进机器人技术+精妙框架设计+多模态大模型的产物。我们知道,有用的机器人往往需要与环境进行复杂精妙的交互,而环境则可被表示成空间域和时间域上的约束。举个例子,如果要让机器人倒茶,那么机器人首先需要抓住茶壶手柄并使之保持直立,不泼洒出茶水,然后平稳移动,一直到让壶口与杯口对齐,之后以一定角度倾斜茶壶。这

本届ACL大会,投稿者「收获满满」。为期六天的ACL2024正在泰国曼谷举办。ACL是计算语言学和自然语言处理领域的顶级国际会议,由国际计算语言学协会组织,每年举办一次。一直以来,ACL在NLP领域的学术影响力都位列第一,它也是CCF-A类推荐会议。今年的ACL大会已是第62届,接收了400余篇NLP领域的前沿工作。昨天下午,大会公布了最佳论文等奖项。此次,最佳论文奖7篇(两篇未公开)、最佳主题论文奖1篇、杰出论文奖35篇。大会还评出了资源论文奖(ResourceAward)3篇、社会影响力奖(

今天下午,鸿蒙智行正式迎来了新品牌与新车。 8月6日,华为举行鸿蒙智行享界S9及华为全场景新品发布会,带来了全景智慧旗舰轿车享界S9、问界新M7Pro和华为novaFlip、MatePadPro12.2英寸、全新MatePadAir、华为毕升激光打印机X1系列、FreeBuds6i、WATCHFIT3和智慧屏S5Pro等多款全场景智慧新品,从智慧出行、智慧办公到智能穿戴,华为全场景智慧生态持续构建,为消费者带来万物互联的智慧体验。鸿蒙智行:深度赋能,推动智能汽车产业升级华为联合中国汽车产业伙伴,为

人工智能的发展速度可能超乎你的想象。自GPT-4将多模态技术引入公众视野以来,多模态大模型进入快速发展阶段,逐渐从单纯的模型研发转向垂直领域的探索和应用,与各行各业深度融合。在界面交互领域,谷歌、苹果等国际科技巨头纷纷投入UI多模态大模型研发,这被视为手机AI革命的必经之路。在此背景下,国内首个UI大模型横空出世。8月17日,在IXDC2024国际体验设计大会上,AI时代设计工具Motiff妙多推出了其自主研发的UI多模态大模型——Motiff妙多大模型。这是全球首个由UI设计工具
