目录
预备知识
方法介绍
WSAM 的设计细节
简单示例
实验
图像分类
ImageNet 上的额外训练
标签噪声的鲁棒性
探索几何结构的影响
消融实验
极值点分析
超参敏感性
首页 科技周边 人工智能 更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral

更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral

Oct 10, 2023 pm 12:13 PM
数据 训练

深度神经网络(DNNs)的泛化能力与极值点的平坦程度密切相关,因此出现了 Sharpness-Aware Minimization (SAM) 算法来寻找更平坦的极值点以提高泛化能力。本文重新审视 SAM 的损失函数,提出了一种更通用、有效的方法 WSAM,通过将平坦程度作为正则化项来改善训练极值点的平坦度。通过在各种公开数据集上的实验表明,与原始优化器、SAM 及其变体相比,WSAM 在绝大多数情形都实现了更好的泛化性能。 WSAM 在蚂蚁内部数字支付、数字金融等多个场景也被普遍采用并取得了显着效果。该文被 KDD '23 接收为 Oral Paper。


更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral


  • 论文地址:https://arxiv.org/pdf/2305.15817.pdf
  • 代码地址:https://github.com/intelligent- machine-learning/dlrover/tree/master/atorch/atorch/optimizers

随着深度学习技术的发展,高度过参数化的DNNs 在CV 和NLP 等各种机器学习场景下取得了巨大的成功。虽然过度参数化的模型容易过拟合训练数据,但它们通常具有良好的泛化能力。泛化的奥秘受到越来越多的关注,已成为深度学习领域的热门研究课题。

最新的研究显示,泛化能力与极值点的平坦程度密切相关。换句话说,损失函数的“地貌”中存在平坦的极值点可以实现更小的泛化误差。 Sharpness-Aware Minimization (SAM) [1] 是一种用于寻找更平坦极值点的技术,被认为是当前最有前途的技术方向之一。 SAM技术被广泛应用于计算机视觉、自然语言处理和双层学习等多个领域,并在这些领域中明显优于之前的最先进方法

为了探索更平坦的最小值,SAM 定义损失函数在w 处的平坦程度如下:

更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral

GSAM [2] 证明了 更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral 是局部极值点Hessian 矩阵最大特征值的近似,表明 更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral 确实是平坦(陡峭)程度的有效度量。然而 更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral 只能用于寻找更平坦的区域而不是最小值点,这可能导致损失函数收敛到损失值依然很大的点(虽然周围区域很平坦)。因此,SAM 采用更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral ,即  更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral 作为损失函数。它可以视为在 更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral 和 更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral之间寻找更平坦的表面和更小损失值的折衷方案,在这里两者被赋予了同等的权重。

本文重新思考了 更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral 的构建,将 更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral 视为正则化项。我们开发了一个更通用、有效的算法,称为WSAM(Weighted Sharpness-Aware Minimization),其损失函数加入了一个加权平坦度项 更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral 作为正则项,其中超参数更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral控制了平坦度的权重。在方法介绍章节,我们演示了如何通过更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral来指导损失函数找到更平坦或更小的极值点。我们的关键贡献可以总结如下。


  • 我们提出 WSAM,将平坦度视为正则化项,并在不同任务之间给予不同的权重。我们提出一个“权重解耦”技术来处理更新公式中的正则化项,旨在精确反映当前步骤的平坦度。当基础优化器不是 SGD 时,如 SGDM 和 Adam,WSAM 在形式上与 SAM 有显着差异。消融实验表明,这种技术在大多数情况下可以提升效果。
  • 我们在公开数据集上验证了 WSAM 在常见任务中的有效性。实验结果表明,与 SAM 及其变体相比,WSAM 在绝大多数情形都有着更好的泛化性能。

预备知识

SAM 是解决由公式(1)定义的 更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral 的极小极大最优化问题的一种技术。

首先,SAM 使用围绕w 的一阶泰勒展开来近似内层的最大化问题,即

更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral

其次,SAM 通过采用 更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral 的近似梯度来更新w ,即

更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral

其中第二个近似是为了加速计算。其他基于梯度的优化器(称为基础优化器)可以纳入 SAM 的通用框架中,具体见Algorithm 1。通过改变 Algorithm 1 中的 更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral,我们可以获得不同的基础优化器,例如 SGD、SGDM 和 Adam,参见 Tab. 1。请注意,当基础优化器为 SGD 时,Algorithm 1 回退到 SAM 论文 [1] 中的原始 SAM。

更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral

更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral

方法介绍

WSAM 的设计细节

在此,我们给出更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral的正式定义,它由一个常规损失和一个平坦度项组成。由公式(1),我们有

更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral

其中 更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral 。当更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral=0 时,更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral 退化为常规损失;当 更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral=1/2 时,更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral 等价于 更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral ;当 更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral>1/2 时,更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral 更注重平坦度,因此与 SAM 相比更容易找到具有较小曲率而非较小损失值的点;反之亦然。

包含不同基础优化器的 WSAM 的通用框架可以通过选择不同的 更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral 和 更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral 来实现,见 Algorithm 2。例如,当 更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral 和 更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral 时,我们得到基础优化器为 SGD 的 WSAM,见 Algorithm 3。在此,我们采用了一种“权重解耦”技术,即 更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral 平坦度项不是与基础优化器集成用于计算梯度和更新权重,而是独立计算(Algorithm 2 第 7 行的最后一项)。这样,正则化的效果只反映了当前步骤的平坦度,而没有额外的信息。为了进行比较,Algorithm 4 给出了没有“权重解耦”(称为 Coupled-WSAM)的 WSAM。例如,如果基础优化器是 SGDM,则 Coupled-WSAM 的正则化项是平坦度的指数移动平均值。如实验章节所示,“权重解耦”可以在大多数情况下改善泛化表现。

更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral

更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral

更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral

更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral

Fig. 1 展示了不同更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral取值下的 WSAM 更新过程。当更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral 时,更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral介于 更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral 和 更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral 之间,并随着更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral增大逐渐偏离 更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral

更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral

简单示例

为了更好地说明 WSAM 中 γ 的效果和优势,我们设置了一个二维简单示例。如 Fig. 2 所示,损失函数在左下角有一个相对不平坦的极值点(位置:(-16.8, 12.8),损失值:0.28),在右上角有一个平坦的极值点(位置:(19.8, 29.9),损失值:0.36)。损失函数定义为: 更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral,这里 更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral 是单变量高斯模型与两个正态分布之间的 KL 散度,即 更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral ,其中 更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral 和 更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral 。

我们使用动量为 0.9 的 SGDM 作为基础优化器,并对 SAM 和 WSAM 设置更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral=2 。从初始点 (-6, 10) 开始,使用学习率为 5 在 150 步内优化损失函数。SAM 收敛到损失值更低但更不平坦的极值点,更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral=0.6的 WSAM 也类似。然而,更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral=0.95 使得损失函数收敛到平坦的极值点,说明更强的平坦度正则化发挥了作用。

更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral

实验

我们在各种任务上进行了实验,以验证 WSAM 的有效性。

图像分类

我们首先研究了 WSAM 在 Cifar10 和 Cifar100 数据集上从零开始训练模型的效果。我们选择的模型包括 ResNet18 和WideResNet-28-10。我们使用预定义的批大小在 Cifar10 和 Cifar100 上训练模型,ResNet18 和 WideResNet-28-10 分别为 128,256。这里使用的基础优化器是动量为 0.9 的 SGDM。按照 SAM [1] 的设置,每个基础优化器跑的 epoch 数是 SAM 类优化器的两倍。我们对两种模型都进行了 400 个 epoch 的训练(SAM 类优化器为 200 个 epoch),并使用 cosine scheduler 来衰减学习率。这里我们没有使用其他高级数据增强方法,例如 cutout 和 AutoAugment。

对于两种模型,我们使用联合网格搜索确定基础优化器的学习率和权重衰减系数,并将它们保持不变用于接下来的 SAM 类优化器实验。学习率和权重衰减系数的搜索范围分别为 {0.05, 0.1} 和 {1e-4, 5e-4, 1e-3}。由于所有 SAM 类优化器都有一个超参数更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral(邻域大小),我们接下来在 SAM 优化器上搜索最佳的更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral并将相同的值用于其他 SAM 类优化器。更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral的搜索范围为 {0.01, 0.02, 0.05, 0.1, 0.2, 0.5}。最后,我们对其他 SAM 类优化器各自独有的超参进行搜索,搜索范围来自各自原始文章的推荐范围。对于 GSAM [2],我们在 {0.01, 0.02, 0.03, 0.1, 0.2, 0.3} 范围内搜索。对于 ESAM [3],我们在 {0.4, 0.5, 0.6} 范围内搜索 更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral,在 {0.4, 0.5, 0.6} 范围内搜索 更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral,在 {0.4, 0.5, 0.6} 范围内搜索更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral。对于 WSAM,我们在 {0.5, 0.6, 0.7, 0.8, 0.82, 0.84, 0.86, 0.88, 0.9, 0.92, 0.94, 0.96} 范围内搜索更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral。我们使用不同的随机种子重复实验 5 次,计算了平均误差和标准差。我们在单卡 NVIDIA A100 GPU 上进行实验。每个模型的优化器超参总结在 Tab. 3 中。

更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral

Tab. 2 给出了在不同优化器下,ResNet18、WRN-28-10 在 Cifar10 和 Cifar100 上测试集的 top-1 错误率。相比基础优化器,SAM 类优化器显著提升了效果,同时,WSAM 又显著优于其他 SAM 类优化器。

更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral

ImageNet 上的额外训练

我们在ImageNet数据集上进一步使用Data-Efficient Image Transformers网络结构进行实验。我们恢复了一个预训练的DeiT-base检查点,然后继续训练三个epoch。模型使用批大小256进行训练,基础优化器为动量0.9的SGDM,权重衰减系数为1e-4,学习率为1e-5。我们在四卡NVIDIA A100 GPU上重复运行5次,并计算平均误差和标准差

我们在 {0.05, 0.1, 0.5, 1.0,⋯ , 6.0} 中搜索 SAM 的最佳更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral。最佳的更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral=5.5 被直接用于其他 SAM 类优化器。之后,我们在{0.01, 0.02, 0.03, 0.1, 0.2, 0.3}中搜索 GSAM 的最佳 更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral,并在 0.80 到 0.98 之间以 0.02 的步长搜索WSAM 的最佳更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral

模型的初始 top-1 错误率为 18.2%,在进行了三个额外的 epoch 之后,错误率如 Tab. 4 所示。我们没有发现三个 SAM-like 优化器之间有明显的差异,但它们都优于基础优化器,表明它们可以找到更平坦的极值点并具有更好的泛化能力。

更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral

标签噪声的鲁棒性

如先前的研究 [1, 4, 5] 所示,SAM 类优化器在训练集存在标签噪声时表现出良好的鲁棒性。在这里,我们将 WSAM 的鲁棒性与 SAM、ESAM 和 GSAM 进行了比较。我们在 Cifar10 数据集上训练 ResNet18 200 个 epoch,并注入对称标签噪声,噪声水平为 20%、40%、60% 和 80%。我们使用具有 0.9 动量的 SGDM 作为基础优化器,批大小为 128,学习率为 0.05,权重衰减系数为 1e-3,并使用 cosine scheduler 衰减学习率。针对每个标签噪声水平,我们在 {0.01, 0.02, 0.05, 0.1, 0.2, 0.5} 范围内对 SAM 进行网格搜索,确定通用的更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral值。然后,我们单独搜索其他优化器特定的超参数,以找到最优泛化性能。我们在 Tab. 5 中列出了复现我们结果所需的超参数。我们在 Tab. 6 中给出了鲁棒性测试的结果,WSAM 通常比 SAM、ESAM 和 GSAM 都具有更好的鲁棒性。

更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral

探索几何结构的影响

SAM 类优化器可以与 ASAM [4] 和 Fisher SAM [5] 等技术相结合,以自适应地调整探索邻域的形状。我们在 Cifar10 上对 WRN-28-10 进行实验,比较 SAM 和 WSAM 在分别使用自适应和 Fisher 信息方法时的表现,以了解探索区域的几何结构如何影响 SAM 类优化器的泛化性能。

除了更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral之外的参数,我们复用了图像分类中的配置。根据先前的研究 [4, 5],ASAM 和 Fisher SAM 的更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral通常较大。我们在 {0.1, 0.5, 1.0,…, 6.0} 中搜索最佳的更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral,ASAM 和 Fisher SAM 最佳的更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral均为 5.0。之后,我们在 0.80 到 0.94 之间以 0.02 的步长搜索 WSAM 的最佳更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral,两种方法最佳更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral均为 0.88。

令人惊讶的是,如 Tab. 7 所示,即使在多个候选项中,基准的 WSAM 也表现出更好的泛化性。因此,我们建议直接使用具有固定的更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral基准 WSAM 即可。

更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral

消融实验

在本节中,我们进行消融实验,以深入理解 WSAM 中“权重解耦”技术的重要性。如WSAM 的设计细节所述,我们将不带“权重解耦”的 WSAM 变体(算法 4)Coupled-WSAM 与原始方法进行比较。

结果如 Tab. 8 所示。Coupled-WSAM 在大多数情况下比 SAM 产生更好的结果,WSAM 在大多数情况下进一步提升了效果,证明“权重解耦”技术的有效性。

更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral

极值点分析

在这里,我们通过比较 WSAM 和 SAM 优化器找到的极值点之间的差异,进一步加深对 WSAM 优化器的理解。极值点处的平坦(陡峭)度可通过 Hessian 矩阵的最大特征值来描述。特征值越大,越不平坦。我们使用 Power Iteration 算法来计算这个最大特征值。

Tab. 9 显示了 SAM 和 WSAM 优化器找到的极值点之间的差异。我们发现,vanilla 优化器找到的极值点具有更小的损失值但更不平坦,而 SAM 找到的极值点具有更大的损失值但更平坦,从而改善了泛化性能。有趣的是,WSAM 找到的极值点不仅损失值比 SAM 小得多,而且平坦度十分接近 SAM。这表明,在寻找极值点的过程中,WSAM 优先确保更小的损失值,同时尽量搜寻到更平坦的区域。

更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral

超参敏感性

与 SAM 相比,WSAM 具有一个额外的超参数更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral,用于缩放平坦(陡峭)度项的大小。在这里,我们测试 WSAM 的泛化性能对该超参的敏感性。我们在 Cifar10 和 Cifar100 上使用 WSAM 对 ResNet18 和 WRN-28-10 模型进行了训练,使用了广泛的更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral取值。如 Fig. 3 所示,结果表明 WSAM 对超参更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral的选择不敏感。我们还发现,WSAM 的最优泛化性能几乎总是在 0.8 到 0.95 之间。

更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral

以上是更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
4 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

使用ddrescue在Linux上恢复数据 使用ddrescue在Linux上恢复数据 Mar 20, 2024 pm 01:37 PM

DDREASE是一种用于从文件或块设备(如硬盘、SSD、RAM磁盘、CD、DVD和USB存储设备)恢复数据的工具。它将数据从一个块设备复制到另一个块设备,留下损坏的数据块,只移动好的数据块。ddreasue是一种强大的恢复工具,完全自动化,因为它在恢复操作期间不需要任何干扰。此外,由于有了ddasue地图文件,它可以随时停止和恢复。DDREASE的其他主要功能如下:它不会覆盖恢复的数据,但会在迭代恢复的情况下填补空白。但是,如果指示工具显式执行此操作,则可以将其截断。将数据从多个文件或块恢复到单

开源!超越ZoeDepth! DepthFM:快速且精确的单目深度估计! 开源!超越ZoeDepth! DepthFM:快速且精确的单目深度估计! Apr 03, 2024 pm 12:04 PM

0.这篇文章干了啥?提出了DepthFM:一个多功能且快速的最先进的生成式单目深度估计模型。除了传统的深度估计任务外,DepthFM还展示了在深度修复等下游任务中的最先进能力。DepthFM效率高,可以在少数推理步骤内合成深度图。下面一起来阅读一下这项工作~1.论文信息标题:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

你好,电动Atlas!波士顿动力机器人复活,180度诡异动作吓坏马斯克 你好,电动Atlas!波士顿动力机器人复活,180度诡异动作吓坏马斯克 Apr 18, 2024 pm 07:58 PM

波士顿动力Atlas,正式进入电动机器人时代!昨天,液压Atlas刚刚「含泪」退出历史舞台,今天波士顿动力就宣布:电动Atlas上岗。看来,在商用人形机器人领域,波士顿动力是下定决心要和特斯拉硬刚一把了。新视频放出后,短短十几小时内,就已经有一百多万观看。旧人离去,新角色登场,这是历史的必然。毫无疑问,今年是人形机器人的爆发年。网友锐评:机器人的进步,让今年看起来像人类的开幕式动作、自由度远超人类,但这真不是恐怖片?视频一开始,Atlas平静地躺在地上,看起来应该是仰面朝天。接下来,让人惊掉下巴

谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择 谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择 Apr 01, 2024 pm 07:46 PM

谷歌力推的JAX在最近的基准测试中性能已经超过Pytorch和TensorFlow,7项指标排名第一。而且测试并不是在JAX性能表现最好的TPU上完成的。虽然现在在开发者中,Pytorch依然比Tensorflow更受欢迎。但未来,也许有更多的大模型会基于JAX平台进行训练和运行。模型最近,Keras团队为三个后端(TensorFlow、JAX、PyTorch)与原生PyTorch实现以及搭配TensorFlow的Keras2进行了基准测试。首先,他们为生成式和非生成式人工智能任务选择了一组主流

iPhone上的蜂窝数据互联网速度慢:修复 iPhone上的蜂窝数据互联网速度慢:修复 May 03, 2024 pm 09:01 PM

在iPhone上面临滞后,缓慢的移动数据连接?通常,手机上蜂窝互联网的强度取决于几个因素,例如区域、蜂窝网络类型、漫游类型等。您可以采取一些措施来获得更快、更可靠的蜂窝互联网连接。修复1–强制重启iPhone有时,强制重启设备只会重置许多内容,包括蜂窝网络连接。步骤1–只需按一次音量调高键并松开即可。接下来,按降低音量键并再次释放它。步骤2–该过程的下一部分是按住右侧的按钮。让iPhone完成重启。启用蜂窝数据并检查网络速度。再次检查修复2–更改数据模式虽然5G提供了更好的网络速度,但在信号较弱

快手版Sora「可灵」开放测试:生成超120s视频,更懂物理,复杂运动也能精准建模 快手版Sora「可灵」开放测试:生成超120s视频,更懂物理,复杂运动也能精准建模 Jun 11, 2024 am 09:51 AM

什么?疯狂动物城被国产AI搬进现实了?与视频一同曝光的,是一款名为「可灵」全新国产视频生成大模型。Sora利用了相似的技术路线,结合多项自研技术创新,生产的视频不仅运动幅度大且合理,还能模拟物理世界特性,具备强大的概念组合能力和想象力。数据上看,可灵支持生成长达2分钟的30fps的超长视频,分辨率高达1080p,且支持多种宽高比。另外再划个重点,可灵不是实验室放出的Demo或者视频结果演示,而是短视频领域头部玩家快手推出的产品级应用。而且主打一个务实,不开空头支票、发布即上线,可灵大模型已在快影

超级智能体生命力觉醒!可自我更新的AI来了,妈妈再也不用担心数据瓶颈难题 超级智能体生命力觉醒!可自我更新的AI来了,妈妈再也不用担心数据瓶颈难题 Apr 29, 2024 pm 06:55 PM

哭死啊,全球狂炼大模型,一互联网的数据不够用,根本不够用。训练模型搞得跟《饥饿游戏》似的,全球AI研究者,都在苦恼怎么才能喂饱这群数据大胃王。尤其在多模态任务中,这一问题尤为突出。一筹莫展之际,来自人大系的初创团队,用自家的新模型,率先在国内把“模型生成数据自己喂自己”变成了现实。而且还是理解侧和生成侧双管齐下,两侧都能生成高质量、多模态的新数据,对模型本身进行数据反哺。模型是啥?中关村论坛上刚刚露面的多模态大模型Awaker1.0。团队是谁?智子引擎。由人大高瓴人工智能学院博士生高一钊创立,高

美国空军高调展示首个AI战斗机!部长亲自试驾全程未干预,10万行代码试飞21次 美国空军高调展示首个AI战斗机!部长亲自试驾全程未干预,10万行代码试飞21次 May 07, 2024 pm 05:00 PM

最近,军事圈被这个消息刷屏了:美军的战斗机,已经能由AI完成全自动空战了。是的,就在最近,美军的AI战斗机首次公开,揭开了神秘面纱。这架战斗机的全名是可变稳定性飞行模拟器测试飞机(VISTA),由美空军部长亲自搭乘,模拟了一对一的空战。5月2日,美国空军部长FrankKendall在Edwards空军基地驾驶X-62AVISTA升空注意,在一小时的飞行中,所有飞行动作都由AI自主完成!Kendall表示——在过去的几十年中,我们一直在思考自主空对空作战的无限潜力,但它始终显得遥不可及。然而如今,

See all articles