美国商务部公开征求关于GenAI数据准备意见和建议

PHPz
发布: 2024-04-28 11:52:10
转载
950 人浏览过

数据是人工智能的核心。如果没有良好的数据,开发有用的人工智能模型的可能性微乎其微。考虑到这一点,美国商务部上周发布了一份公开请求,就如何更好地为构建生产式人工智能(GenAI)模型准备众多公共数据集进行意见征求。 这份公开请求是为了解决当前人工智能领域面临的一个关键问题:缺乏高质量、多样化的公共数据集。这些数据集对于培养机器学习模型、促进创新和推动人工智能应用的发展至关重要。 商务部希望通过这份公开请求收集到各方的意见,以便更好地理解如何建立和管理公共数据集。他们希望听到

美国商务部公开征求关于GenAI数据准备意见和建议

美国商务部于4月17日发布了一份信息征询书(RFI),要求“行业专家、研究人员、民间社会组织和其他公众成员”就如何开发“支持人工智能的开放数据集”提供帮助。

商务部自称为“美国数据机构”,负责收集、存储和分析有关美国的各种数据,包括有关经济、人口和环境的数据。对商业数据中心的快速搜索显示了超过122,000个可公开访问的数据集,其主题从气候和天气到专利再到人口普查信息。

这部分内容旨在随着多年来技术的变化和改进,该部门一直向私营企业和公共机构寻求帮助,以保持其数据管理和数据共享活动达到当前技术标准。通过机器可读格式或通过Web服务和API以电子方式访问数据都是使其数据服务适应时代的例子。

现在,随着GenAI革命的到来,该部门正在寻找最合适的数据定位,以便使用它来构建人工智能模型。

美国商务部首席数据官Oliver Wise在信息征询书中写道:“如今,随着人工智能技术的出现,商务部正面临一场新的技术变革,这些技术为用户提供了更好的信息和数据访问。”“商业对生成式人工智能(GenAI)应用程序特别感兴趣,它可以消化不同来源的文本、图片、音频、视频和其他类型的信息,以产生新的内容。GenAI和其他人工智能技术为商业等数据提供者和包括政府实体、行业、学术界和美国人民在内的数据用户带来了机遇和挑战。”字数不要超过482

“智能”表明,商业部门面临的最大挑战是让人工

“最近的人工智能系统接受了大量数字内容的训练,并根据内容的上下文生成响应。”“然而,这些系统并没有以一种有意义的方式真正‘理解’文本。”

未来的人工智能系统必须能够访问的数据不仅是机器可读的,而且是“机器可理解的”。今天的人工智能系统受限于它们对大量非结构化数据存储的依赖,这些存储依赖于底层数据,而不是基于理解进行推理和判断的能力。

商务部正在寻求帮助,以便在考虑到GenAI技术这些基本限制的情况下共享数据。它正在为可读和可理解的数据寻找新的数据传播标准,包括许可标准。在数据可访问性和检索方面,商务部希望得到关于如何使其数据更易于访问的建议,例如通过API或“网络爬虫”。

特别在如何使用利用元数据的知识图谱来更好地将人类术语与数据联系起来方面有需求。它还希望得到采用标准本体(如Schema.org或NIEM)的方向,以及知识图谱如何帮助“协调和链接”本体和词汇表。

该部门希望社区能够就如何推进这些数据标准化工作提供意见,同时在数据完整性、质量、安全性和道德方面保持最高标准。

Wise要求有兴趣的各方将他们的建议通过电子邮件发送,主题行为“AI-Ready开放数据资产信息征询书”。并希望在七月十六日之前收到有关这些议题的意见或反馈。

以上是美国商务部公开征求关于GenAI数据准备意见和建议的详细内容。更多信息请关注PHP中文网其他相关文章!

来源:51cto.com
本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责声明 Sitemap
PHP中文网:公益在线PHP培训,帮助PHP学习者快速成长!