光动嘴就能玩原神!用AI切换角色,还能攻击敌人,网友:“绫华,使用神里流·霜灭”
说到这两年风靡全球的国产游戏,原神肯定是当仁不让。
根据5月公布的本年度Q1季度手游收入调查报告,在抽卡手游里《原神》以5.67亿美金的绝对优势稳稳拿下第一,这也宣告《原神》在上线短短18个月之后单在手机平台总收入就突破30亿美金(大约RM130亿)。
如今,开放须弥前最后的2.8海岛版本姗姗来迟,在漫长的长草期后终于又有新的剧情和区域可以肝了。
不过不知道有多少“肝帝”,现在海岛已经满探索,又开始长草了。
宝箱总共182个+1个摩拉箱(不计入)
长草期根本没在怕的,原神区从来不缺整活儿。
这不,在长草期间,就有玩家用XVLM+wenet+STARK做了一个语音控制玩原神的项目。
比如,当说出“用战术3攻击中间的火史莱姆”时,钟离先是一个套盾,凌华一个霰步后紧接着一个“失礼了”,团灭了4只火史莱姆。
同样,在说出“攻击中间的大丘丘人”后,迪奥娜长E套盾,凌华紧接着一个E然后3A一重漂亮地收拾掉了两只大丘丘人。
可以在左下方看到,整个过程都没有用手进行任何操作。
文摘菌直呼内行,以后打本连手也能省了,并表示妈妈再也不用担心玩原神玩出腱鞘炎了!
目前该项目已经在GitHub上开源:
GitHub链接:
https://github.com/7eu7d7/genshin_voice_play
好好的原神,硬是被玩成了神奇宝贝
这样的整活项目自然也是吸引到了不少原神长草玩家的目光。
比如有玩家就建议到,可以设计得更中二一点,直接用角色名加技能名,毕竟“战术3”这样的指令观众也无法第一时间知道,而“钟离,使用地心”就很容易代入游戏体验。
更有网友表示,既然都能对怪指令,那是不是也可以对人物语音,比如“龟龟,使用霜灭”。
龟龟每日疑惑.jpg
不过,这么这些指令怎么看上去有股似曾相识的味道?
对此up主“薛定谔の彩虹猫”表示,喊技能的话语速可能会跟不上,攻击速度会变慢,这才自己预设了一套。
不过像是一些经典队伍,比如“万达国际”“雷九万班”的输出手法倒也算是相对固定,预设攻击顺序和模式似乎也行得通。
当然除了玩梗之外,网友们也在集思广益,提出了不少优化意见。
比如直接用“1Q”让1号位角色放大招,重击用“重”表示,闪避则用“闪”,这样的话下达指令也能更简单迅速一些,或许还能用来打深渊。
也有内行玩家表示,这个AI似乎有点“不大理解环境”,“下一步可以考虑加上SLAM”,“实现360度的全方位目标检测”。
up主表示,下一步要做“全自动刷本,传送,打怪,领奖励一条龙”,那似乎也还可以加一个自动强化圣遗物功能,歪了就把AI格式化了。
原神区硬核整活up主还出过“提瓦特钓鱼指南”
正如文摘菌所说,原神区从不缺整活儿,而这位up主“薛定谔の彩虹猫”应该是其中最“硬核”的了。
从“AI自动摆放迷宫”,到“AI自动演奏”,原神出的每个小游戏可以说是应AI尽AI了。
其中文摘菌也发现了“AI自动钓鱼”项目(好家伙原来也是你),只需要启动程序,提瓦特的鱼全都能变成囊中之物。
原神自动钓鱼AI由两部分模型组成:YOLOX和DQN:
YOLOX 用于鱼的定位和类型的识别以及鱼竿落点的定位;
DQN 用于自适应控制钓鱼过程的点击,让力度落在最佳区域内。
此外,该项目还用到了迁移学习、半监督学习来进行训练。模型也包含了一些使用opencv等传统数字图像处理方法实现的不可学习部分。
项目地址:
https://github.com/7eu7d7/genshin_auto_fish
等3.0更新后还需要钓鱼获得的“咸鱼弓”,就拜托你了!
那些把原神变成神奇宝贝的“神器”
作为一个严肃的人,文摘菌觉得也有必要给大家科普一下这次原神语音项目用到的几个“神器”。
X-VLM是一种基于视觉语言模型(VLM)的多粒度模型,由图像编码器、文本编码器和跨模态编码器组成,跨模态编码器在视觉特征和语言特征之间进行跨模态注意,以学习视觉语言对齐。
学习多粒度对齐的关键是优化X-VLM:1)通过结合边框回归损失和IoU损失,在给定关联文本的图像中定位视觉概念;2)同时,通过对比损失、匹配损失和掩码语言建模损失,将文本与视觉概念进行多粒度对齐。
在微调和推理中,X-VLM可以利用学习到的多粒度对齐来执行下游的V+L任务,而无需在输入图像中添加边框注释。
论文链接:
https://arxiv.org/abs/2111.08276
WeNet是一个面向生产的端到端语音识别工具包,在单个模型中,它引入了统一的两次two-pass (U2) 框架和内置运行时来处理流式和非流式解码模式。
就在今年7月初的时候,WeNet推出2.0版本,并在4个方面进行了更新:
U2++:具有双向注意力解码器的统一双通道框架,包括从右到左注意力解码器的未来上下文信息,以提高共享编码器的表示能力和重新评分阶段的性能;
引入了基于n-gram的语言模型和基于WFST的解码器,促进了富文本数据在生产场景中的使用;
设计了统一的上下文偏置框架,该框架利用用户特定的上下文为生产提供快速适应能力,并在“有LM”和“无LM”两大场景中提高ASR准确性;
设计了一个统一的IO来支持大规模数据进行有效的模型训练。
从结果上看,WeNet 2.0在各种语料库上比原来的WeNet实现了高达10%的相对识别性能提升。
论文链接:https://arxiv.org/pdf/2203.15455.pdf
STARK是一种用于视觉跟踪的时空变换网络。基于由卷积主干、编解码器转换器和bounding box预测头组成的baseline的基础上,STARK做了3点改进:
动态更新模板:以中间帧作为动态模板加入输入中。动态模板可捕获外观变化,提供额外时域信息;
score head:判断当前是否更新动态模板;
训练策略改进:将训练分为两个阶段1)除了score head外,用baseline的损失函数训练。确保所有搜索图像包含目标并让模板拥有定位能力;2)用交叉熵只优化score head,此时冻结其他参数,以此让模型拥有定位和分类能力。
论文链接:
https://openaccess.thecvf.com/content/ICCV2021/papers/Yan_Learning_Spatio-Temporal_Transformer_for_Visual_Tracking_ICCV_2021_paper.pdf
以上是光动嘴就能玩原神!用AI切换角色,还能攻击敌人,网友:“绫华,使用神里流·霜灭”的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

想象一下,一个人工智能模型,不仅拥有超越传统计算的能力,还能以更低的成本实现更高效的性能。这不是科幻,DeepSeek-V2[1],全球最强开源MoE模型来了。DeepSeek-V2是一个强大的专家混合(MoE)语言模型,具有训练经济、推理高效的特点。它由236B个参数组成,其中21B个参数用于激活每个标记。与DeepSeek67B相比,DeepSeek-V2性能更强,同时节省了42.5%的训练成本,减少了93.3%的KV缓存,最大生成吞吐量提高到5.76倍。DeepSeek是一家探索通用人工智

AI,的确正在改变数学。最近,一直十分关注这个议题的陶哲轩,转发了最近一期的《美国数学学会通报》(BulletinoftheAmericanMathematicalSociety)。围绕「机器会改变数学吗?」这个话题,众多数学家发表了自己的观点,全程火花四射,内容硬核,精彩纷呈。作者阵容强大,包括菲尔兹奖得主AkshayVenkatesh、华裔数学家郑乐隽、纽大计算机科学家ErnestDavis等多位业界知名学者。AI的世界已经发生了天翻地覆的变化,要知道,其中很多文章是在一年前提交的,而在这一

写在前面今天我们探讨下深度学习技术如何改善在复杂环境中基于视觉的SLAM(同时定位与地图构建)性能。通过将深度特征提取和深度匹配方法相结合,这里介绍了一种多功能的混合视觉SLAM系统,旨在提高在诸如低光条件、动态光照、弱纹理区域和严重抖动等挑战性场景中的适应性。我们的系统支持多种模式,包括拓展单目、立体、单目-惯性以及立体-惯性配置。除此之外,还分析了如何将视觉SLAM与深度学习方法相结合,以启发其他研究。通过在公共数据集和自采样数据上的广泛实验,展示了SL-SLAM在定位精度和跟踪鲁棒性方面优

谷歌力推的JAX在最近的基准测试中性能已经超过Pytorch和TensorFlow,7项指标排名第一。而且测试并不是在JAX性能表现最好的TPU上完成的。虽然现在在开发者中,Pytorch依然比Tensorflow更受欢迎。但未来,也许有更多的大模型会基于JAX平台进行训练和运行。模型最近,Keras团队为三个后端(TensorFlow、JAX、PyTorch)与原生PyTorch实现以及搭配TensorFlow的Keras2进行了基准测试。首先,他们为生成式和非生成式人工智能任务选择了一组主流

波士顿动力Atlas,正式进入电动机器人时代!昨天,液压Atlas刚刚「含泪」退出历史舞台,今天波士顿动力就宣布:电动Atlas上岗。看来,在商用人形机器人领域,波士顿动力是下定决心要和特斯拉硬刚一把了。新视频放出后,短短十几小时内,就已经有一百多万观看。旧人离去,新角色登场,这是历史的必然。毫无疑问,今年是人形机器人的爆发年。网友锐评:机器人的进步,让今年看起来像人类的开幕式动作、自由度远超人类,但这真不是恐怖片?视频一开始,Atlas平静地躺在地上,看起来应该是仰面朝天。接下来,让人惊掉下巴

本月初,来自MIT等机构的研究者提出了一种非常有潜力的MLP替代方法——KAN。KAN在准确性和可解释性方面表现优于MLP。而且它能以非常少的参数量胜过以更大参数量运行的MLP。比如,作者表示,他们用KAN以更小的网络和更高的自动化程度重现了DeepMind的结果。具体来说,DeepMind的MLP有大约300,000个参数,而KAN只有约200个参数。KAN与MLP一样具有强大的数学基础,MLP基于通用逼近定理,而KAN基于Kolmogorov-Arnold表示定理。如下图所示,KAN在边上具

目标检测在自动驾驶系统当中是一个比较成熟的问题,其中行人检测是最早得以部署算法之一。在多数论文当中已经进行了非常全面的研究。然而,利用鱼眼相机进行环视的距离感知相对来说研究较少。由于径向畸变大,标准的边界框表示在鱼眼相机当中很难实施。为了缓解上述描述,我们探索了扩展边界框、椭圆、通用多边形设计为极坐标/角度表示,并定义一个实例分割mIOU度量来分析这些表示。所提出的具有多边形形状的模型fisheyeDetNet优于其他模型,并同时在用于自动驾驶的Valeo鱼眼相机数据集上实现了49.5%的mAP

特斯拉机器人Optimus最新视频出炉,已经可以在厂子里打工了。正常速度下,它分拣电池(特斯拉的4680电池)是这样的:官方还放出了20倍速下的样子——在小小的“工位”上,拣啊拣啊拣:这次放出的视频亮点之一在于Optimus在厂子里完成这项工作,是完全自主的,全程没有人为的干预。并且在Optimus的视角之下,它还可以把放歪了的电池重新捡起来放置,主打一个自动纠错:对于Optimus的手,英伟达科学家JimFan给出了高度的评价:Optimus的手是全球五指机器人里最灵巧的之一。它的手不仅有触觉
