第 73 页-探索人工智能技术的未来

当前位置：首页 > 技术文章 > 科技周边 > 人工智能

方向：: 全部网络3.0 后端开发 web前端数据库运维开发工具 php框架每日编程微信小程序常见问题其他科技 CMS教程 Java 系统教程电脑教程硬件教程手机教程软件教程手游教程

分类：: 人工智能 IT业界

最热

最新

时隔一年Falcon回归！110亿参数5.5万亿token，性能超越Llama 3

这几天，全世界的目光仿佛都被OpenAI发布的GPT-4o所吸引，与此同时，OpenAI的挑战者们也在同步创造历史。就在5月14日，阿布扎比先进技术研究委员会（ATRC）下属的技术创新研究所（TII），发布了新一代的Falcon2模型。Falcon211B已开启访问，Falcon211BVLM将在5月14日中午12点开放新一代「猎鹰」（Falcon意为猎鹰）重返竞技场，一经推出，迅速登上了HN热榜第一。去年Falcon首次推出就技惊四座，以碾压性的优势超越了Llama。根据HuggingFace

人工智能 1102 2024-06-09 17:25:31
OpenAI CEO下场回应「封口协议」，争议还是到了股权利益上，奥特曼：我的锅

自从Ilya和超级对齐负责人Jan离职后，OpenAI内部还是心散了，后续也有越来越多的人离职，同时也引发了更多的矛盾。昨天，争议的焦点来到了一份严格的「封口协议」。OpenAI前员工KelseyPiper爆料，任何员工工的入职文件说明中都包含一项：“在离开公司的六十天内，你必须签署一份包含『一般豁免』的离职文件。如果你没有在60天内完成，你的股权获益将被取消。”这份引发风浪的文件截图，让OpenAICEO迅速下场回应：我们从未收回任何人的既得权益，如果人们不签署分离协议（或不同意不贬损协议），

人工智能 882 2024-06-09 17:07:32
清华、华为等提出iVideoGPT：专攻交互式世界模型

iVideoGPT，满足世界模型高交互性需求。近年来，生成模型取得了显着进展，其中视频生成正在成为一个新的前沿领域。这些生成视频模型的一个重要应用是，在多样化的互联网规模数据上以无监督方式学习，用于构建预测世界模型。这些世界模型有望积累关于世界如何运作的常识性知识，从而能够基于智能体的行为预测潜在的未来结果。通过利用这些世界模型，采用基于强化学习的智能体可以在世界模型中进行想象、推理和规划，从而在现实世界中通过少量试验就能更安全、更有效地获得新技能。尽管生成模型和世界模型有着基本的联系，但用于视

人工智能 879 2024-06-09 17:06:01
Bengio等人新作：注意力可被视为RNN，新模型媲美Transformer，但超级省内存

序列建模的进展具有极大的影响力，因为它们在广泛的应用中发挥着重要作用，包括强化学习（例如，机器人和自动驾驶）、时间序列分类（例如，金融欺诈检测和医学诊断）等。在过去的几年里，Transformer的出现标志着序列建模中的一个重大突破，这主要得益于Transformer提供了一种能够利用GPU并行处理的高性能架构。然而，Transformer在推理时计算开销很大，主要在于内存和计算需求呈二次扩展，从而限制了其在低资源环境中的应用（例如，移动和嵌入式设备）。尽管可以采用KV缓存等技术提高推理效率，但

人工智能 608 2024-06-09 16:50:32
拿纱布、抓针头，英伟达与多所高校合作，开发手术机器人

编辑|X英伟达（NVIDIA）正与学术研究人员合作，研究手术机器人。NVIDIA联合多伦多大学、加州大学伯克利分校、苏黎世联邦理工学院和佐治亚理工学院的研究人员开发了ORBIT-Surgical，一个训练机器人的模拟框架，可以提高技术团队的技能，同时减少外科医生的认知负担。ORBIT-Surgical是一种基于人工智能的模拟框架，通过虚拟手术环境和智能教练系统，实现了高度真实的手术模拟。医生可以通过与这个系统进行互动，模拟真实手术的各种情况和复杂性。这种模拟技术不仅可以帮助培训“受腹腔镜手术（又

人工智能 494 2024-06-09 13:23:16
CLIP当RNN用入选CVPR：无需训练即可分割无数概念｜牛津大学&谷歌研究院

循环调用CLIP，无需额外训练就有效分割无数概念。包括电影动漫人物，地标，品牌，和普通类别在内的任意短语。牛津大学与谷歌研究院联合团队的这项新成果，已被CVPR2024接收，并开源了代码。团队提出名为CLIPasRNN（简称CaR）的新技术，解决了开放词汇量图像分割领域中的几个关键问题：无需训练数据：传统方法需要大量的掩膜注释或图像-文本数据集进行微调，CaR技术则无需任何额外的训练数据即可工作。开放词汇量的限制：预训练的视觉-语言模型（VLMs）在经过微调后，其处理开放词汇量的能力受到限制。C

人工智能 375 2024-06-09 12:53:28
支持合成一分钟高清视频，华科等提出人类跳舞视频生成新框架UniAnimate

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com人类跳舞视频生成是一项引人注目且具有挑战性的可控视频合成任务，旨在根据输入的参考图像和目标姿势序列生成高质量逼真的连续视频。随着视频生成技术的快速发展，特别是生成模型的迭代演化

人工智能 976 2024-06-09 11:10:58
比PID更丝滑的控制算法&卡内基梅隆大学

MPC控制算法，全称ModelPredictiveControl（模型预测控制），是一种基于系统动态模型的控制技术。它的工作原理是通过数学模型预测系统的未来行为，并基于这些预测结果来优化系统的控制输入，从而实现期望的输出。MPC控制算法的核心思想是在每个控制周期内，通过对未来一段时间内的预测结果进行优化，以获得最佳的控制输入。这种优化是基于一些预测结果来优化系统的控制输入，从而实现期望的输出。MPC控制算法的应用非常广泛，特别适用于需要满足一些约束条件的控制系统。通过结合系统模型和优化技术，MP

人工智能 767 2024-06-09 09:57:28
套壳丑闻让斯坦福AI Lab主任怒了！抄袭团队2人甩锅1人失踪、前科经历被扒，网友：重新认识中国开源模型

斯坦福团队抄袭清华系大模型事件后续来了——Llama3-V团队承认抄袭，其中两位来自斯坦福的本科生还跟另一位作者切割了。最新致歉推文，由SiddharthSharma（悉达多）和AkshGarg（阿克什）发出。不在其中、来自南加利福尼亚大学的MustafaAljadery（简称老穆）被指是主要过错方，并且自昨天起人就失踪了：我们希望由老穆首发声明，但自昨天以来一直无法联系到他。悉达多、我（阿克什）和老穆一起发布了Llama3-V，老穆为该项目编写了代码。悉达多和我的角色是帮助他在Medium和T

人工智能 1161 2024-06-09 09:38:08
又被 OpenAI 截胡，Google推出开源视觉语言模型：PaliGemma

前言该模型结合了SigLIP视觉模型和Gemma语言模型，这两种模型都是开放组件，使得PaliGemma在处理视觉与语言结合的任务上表现出色。PaliGemma的使用场景包括图像字幕、图像标签和视觉问答等。这些应用场景利用了PaliGemma的能力来理解图像内容并提取关键特征，然后将这些信息转化为语言输出，从而实现与用户的交互或自动化内容生成。这种灵活性使得PaliGemma不仅适用于研究和开发环境，也适合商业应用，如客户服务、内容推荐系统等。图片PaliGemma能干什么图片可以在出现提示时为

人工智能 550 2024-06-09 09:17:06
LightGBM实战+随机搜索调参：准确率96.67%

大家好，我是Peter~LightGBM是一种经典的机器学习算法，它的背景、原理和特点都非常值得研究。LightGBM的算法产生了一些特点，例如高效、可扩展和高准确性。本文将简要介绍LightGBM的特点、原理以及一些基于LightGBM和随机搜索优化的案例。LightGBM算法在机器学习领域，梯度提升机（GradientBoostingMachines,GBMs）是一类强大的集成学习算法，它们通过逐步添加弱学习器（通常是决策树）来最小化预测误差，从而构建一个强大的模型。GBMs通常用于最小化预

人工智能 706 2024-06-08 22:45:30
Mistral 开源代码模型夺得王座！Codestral疯狂训练超80种语言，国内通义开发者请求出战！

出品|51CTO技术栈（微信号：blog51cto）Mistral发布了首个代码模型Codestral-22B！该模型的疯狂之处不仅在于训练了80多种编程语言，包括许多代码模型忽略的Swift等。他们的速度没有完全一致。要求使用Go语言编写一个“发布/订阅”系统。这里的GPT-4o正在输出，Codestral已经快到看不清的速度交卷了！由于该模型刚刚推出，尚未公开测试。但根据Mistral的负责人说法，Codestral是目前表现最佳的开源代码模型。图片感兴趣的朋友可以移步：-抱抱脸：https

人工智能 1113 2024-06-08 21:55:01
迈向『闭环』| PlanAgent：基于MLLM的自动驾驶闭环规划新SOTA！

中科院自动化所深度强化学习团队联合理想汽车等提出了一种新的基于多模态大语言模型MLLM的自动驾驶闭环规划框架—PlanAgent。该方法以场景的鸟瞰图和基于图的文本提示为输入，利用多模态大语言模型的多模态理解和常识推理能力，进行从场景理解到横向和纵向运动指令生成的层次化推理，并进一步产生规划器所需的指令。在大规模且具有挑战性的nuPlan基准上对该方法进行了测试，实验表明PlanAgent在常规场景和长尾场景上都取得了最好(SOTA)性能。与常规大语言模型(LLM)方法相比，PlanAgent所

人工智能 314 2024-06-08 21:30:27
模块化重构LLaVA，替换组件只需添加1-2个文件，开源TinyLLaVA Factory来了

TinyLLaVA+项目由清华大学电子系多媒体信号与智能信息处理实验室(MSIIP)吴及教授团队和北京航空航天大学人工智能学院黄雷老师团队联袂打造。清华大学MSIIP实验室长期致力于智能医疗、自然语言处理与知识发现、多模态等研究领域。北京航空团队长期致力于深度学习、多模态、计算机视觉等研究领域。TinyLLaVA+项目的目标是开发一种小型跨语言智能助手，具备语言理解、问答、对话等多模态能力。项目团队将充分发挥各自的优势，共同攻克技术难题，实现智能助手的设计与开发。这将为智能医疗、自然语言处理与知

人工智能 421 2024-06-08 21:21:29
美国机器人应用遥遥落后？时隔15年，十所顶尖高校重启「国家机器人路线图」

机器人技术已经有70年的历史了，从诞生之初就一直由美国领跑。截至2009年，美国首次发布国家机器人路线图（NationalRoboticsRoadmap），美国在工业应用领域（如汽车、航空航天和家电等）的应用已经降低到了全球第四位。自15年以后，美国在机器人技术的采用量上持续拉胯，位列全球第十，其中亚洲的机器人市场更是扩大了美国市场的5-10倍。中国则在此领域“遥遥领先”，2023年，中国大约购买了52%的销出机器人，表明机器人技术在美国已经不再是国家级的优先事项。最近，来自加州大学、宾夕法尼亚

人工智能 1061 2024-06-08 20:57:00