微软赢麻了！数十亿文本-图像对训练，多模态Florence开启免费体验，登上Azure-人工智能-PHP中文网

Florence能干什么？

多模态是未来

首页

科技周边

人工智能

微软赢麻了！数十亿文本-图像对训练，多模态Florence开启免费体验，登上Azure

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 15, 2023 am 08:43 AM

微软

2021年11月，微软发布了一个多模态视觉基础模型Florence（佛罗伦萨），横扫超过40个基准任务，轻松适用于如分类、目标检测、VQA、看图说话、视频检索和动作识别等多个任务。

时隔一年半，Florence正式开启商用阶段！

Florence能干什么？

最近，微软全球人工智能首席技术官黄学东官宣了微软 Florence 基础模型的公开预览版。

Florence模型经过数十亿文本-图像对的训练，目前已集成进Azure 认知视觉服务中，在「价格」和「性能」上都已到达「生产环境」的要求，目前处于免费试用阶段。

改进后的视觉服务使开发商能够在不同行业创建前沿的、适应市场的、负责任的计算机视觉应用程序。客户可以将他们的数据无缝地数字化、分析并连接到自然语言的交互中，从图像和视频内容中获取更精确的信息，保护用户远离有害内容，增强安全性，并提升事件响应速度。

Florence的实际能力也很强大，用户可以在Vision Studio中进行「开箱即用」的体验。

体验网址：https://portal.vision.cognitive.azure.com/gallery/featured

具体包括：

Dense Captions（详细的描述）：可以自动提供内容丰富的描述信息、设计建议、可访问的替代文本、搜索引擎优化、智能照片管理等以支持数字化内容。

图像检索：使用自然语言查询，无缝地度量图像和文本之间的相似性，从而改进搜索推荐和广告。

背景去除：可以方便地从原始背景中分割出人物和物体，并替换为其他背景场景，从而改变图像的外观和感觉。

模型定制：降低交付定制模型的成本和时间，能够以更高精度来匹配独特的业务需求，即便只有少量的可用图像。

视频摘要：搜索和交互视频内容，与人类同样直观的方式进行思考和写作。可以帮助找到相关内容，并且不需要额外的元数据。

Reddit

Reddit消费品产品经理Tiffany Ong表示，通过微软的Vision技术，可以使用户更容易发现和理解Reddit上的内容。

新创建的图片描述可以让用户更容易地访问Reddit，使用图像描述来帮助用户提高文章的搜索结果，让Reddit用户有更多机会来探索网站上的图片，参与对话，并最终建立联系和社区感知。

Florence能够为每张图片生成多达10000个标签，使得Reddit能够更好地控制图片中的物体数量，并帮助生成更好的图像描述。

Microsoft 365

除了微软数据中心之外，微软也正在提升Microsoft 365应用程序（包括 Teams、 PowerPoint、 Outlook、 Word、 Designer、 OneDrive）中视觉服务的能力。

在图像分割能力的帮助下，Teams正在推动数字空间的创新型，把虚拟会议的体验提升到新高度。

PowerPoint、 Outlook和Word利用自动替换文本的图像描述来提高可访问性。

Microsoft Designer和OneDrive正在使用改进的图像描述、图像搜索和背景生成来简化图像的可发现性和编辑。

Microsoft数据中心正在利用Vision Services来增强安全性和基础设施的可靠性。

LinkedIn

LinkedIn的无障碍工程负责人Jennison Asuncon表示，LinkedIn上有超过40%的帖子中包含至少一张图片，对于盲人或是低视力的用户来说，视觉服务能够让所有用户都有平等的阅读机会，并使他们能够参与到在线对话中。

通过Azure视觉认知服务，LinkedIn可以提供自动图像描述来编辑和支持可选文本，这是一种全新的体验。

不仅我对此感到兴奋，我的同事刚刚分享了一个他们参加活动的照片，LinkedIn的首席执行官Ryan Roslansky也在照片里。

负责任地创新

回顾负责任的人工智能原则，可以了解到微软是如何致力于开发人工智能系统，以提升世界的可访问性。

微软致力于帮助各个组织充分利用人工智能，并正在大力投资于提供技术、资源和专业知识的项目，以增强那些致力于创造一个更可持续、更安全和更容易进入的世界的人的能力。

多模态是未来

包括微软、谷歌在内的多个科技巨头在人工智能发展方向上出奇地一致，认为「多模态模型」是提高人工智能系统能力的最佳途径，也就是单个模型可以同时理解语言、图像、视频和音频等，并能够完成单模态模型无法完成的任务，比如给视频添加文字描述等。

为什么不把几个「单模态」模型串在一起，以达到同样的目的，比如说用一个模型来理解图像，而另一个模型用来理解语言？

第一个原因是，由其他模态提供的背景信息，多模态模型可以在某些情况下比单模态模型在同一任务中表现得更好。

比如说，一个能够理解图像、定价数据和购买历史的人工智能助手可以比一个「只理解定价数据」的AI能够提供更好的个性化产品建议。

并且从计算的角度来看，多模态模型往往更有效率，可以提升数据处理的速度，降低后端的成本。

毫无疑问，所有商业公司都渴望降本增效。

Florence能够理解图像、视频和语言以及这些模态之间的关系，从而可以做到一些单模态无法完成的任务，比如测量图像和文本之间的相似度，分割照片中的对象，然后把它们粘贴到另一个背景上。

几乎所有AI模型的训练都面临数据版权问题，Azure AI的企业副总裁（CVP）John Montgomery在回答有关「Florence的训练数据」时没有透露太多信息，只是说Florence使用的是「负责任地获取」的数据源，包括来自合作伙伴的数据；此外，Montgomery表示，训练数据中删除了可能存在问题的内容，也是公开训练数据集的常见特点。

Montgomery认为，当使用大型基础模型时，最重要的是要确保训练数据集的质量，为每个视觉任务的适应模型创建基础，微软针对每个视觉任务的调整模型都经过了公平性、对抗性和挑战性案例的测试，并实现了与 Azure Open AI Service 和 DALL-E 相同的内容审核服务。

在未来，消费者可以使用Florence做更多的事情，比如检测制造过程中的缺陷，以及在零售店实现自助结账。

不过Montgomery指出这些用例实际上并不需要多模态视觉模型，但他断言，多模态在这个过程中可以增加一些有价值的东西。

Florence是一个经过「完全重新思考」的视觉模型，一旦在图像和文本之间实现了简单且高质量的翻译过程，就会打开一个全新的、充满未知可能性的世界。

客户能够体验到显著改进的图像搜索，将图像和视觉模型以及语言和语音等其它模型类型训练成全新类型的应用，并轻松提高自定义模型的质量。

以上是微软赢麻了！数十亿文本-图像对训练，多模态Florence开启免费体验，登上Azure的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7648

CakePHP 教程

1392

steam的账户名称是什么格式

win11激活密钥永久

NYT迷你填字游戏答案

110

显示更多

Related knowledge

微软bing国际版入口地址(bing搜索引擎入口) Mar 14, 2024 pm 01:37 PM

　　必应（Bing）是微软公司推出的一款网络搜索引擎，搜索功能非常强大，分了国内版和国际版两个入口。这两个版本入口在哪呢？要怎么访问国际版呢？下面就来看看详细内容。　　必应中国版网址入口：https://cn.bing.com/　　必应国际版网址入口：https://global.bing.com/　　必应国际版怎么访问？　　1、首先输入打开必应的网址入口：https://www.bing.com/　　2、可以看到有国内版跟国际版的选项，我们只需要选择国际版，输入关键词即可。

Microsoft Edge升级：自动存密码功能遭禁？！用户惊了！ Apr 19, 2024 am 08:13 AM

4月18日消息，近日，一些使用Canary频道的MicrosoftEdge浏览器的用户反映，在升级到最新版本后，他们发现自动保存密码的选项被禁用了。经过调查，这是浏览器升级后的一个微调，而非功能被取消。在使用Edge浏览器访问网站前，用户反馈说浏览器会弹出一个窗口询问是否希望保存该网站的登录密码。选择保存后，在下一次登录时，Edge就会自动填充已保存的账号和密码，为用户提供了极大的便利。但最近的更新类似于微调，修改了默认设置。用户需要在选择保存密码后，再手动在设置中开启自动填充已保存的账号和密码

微软发布 Win11 八月累积更新：提高安全、优化锁屏等 Aug 14, 2024 am 10:39 AM

本站8月14日消息，在今天的8月补丁星期二活动日中，微软发布了适用于Windows11系统的累积更新，包括面向22H2和23H2的KB5041585更新，面向21H2的KB5041592更新。上述设备安装8月累积更新之后，本站附上版本号变化如下：21H2设备安装后版本号升至Build22000.314722H2设备安装后版本号升至Build22621.403723H2设备安装后版本号升至Build22631.4037面向Windows1121H2的KB5041585更新主要内容如下：改进：提高了

微软全屏弹窗催促：Windows 10用户抓紧时间升级到Windows 11 Jun 06, 2024 am 11:35 AM

6月3日消息，微软正在积极向所有Windows10用户发送全屏通知，鼓励他们升级到Windows11操作系统。这一举措涉及了那些硬件配置并不支持新系统的设备。自2015年起，Windows10已经占据了近70%的市场份额，稳坐Windows操作系统的霸主地位。然而，市场占有率远超过82%的市场份额，占有率远超过2021年面世的Windows11。尽管Windows11已经推出已近三年，但其市场渗透率仍显缓慢。微软已宣布，将于2025年10月14日后终止对Windows10的技术支持，以便更专注于

微软 Win11 压缩为 7z、TAR 文件的功能已从 24H2 下放到 23H2/22H2 版本 Apr 28, 2024 am 09:19 AM

本站4月27日消息，微软本月初向Canary和Dev频道发布了Windows11Build26100预览版更新，预估会成为Windows1124H2更新的候选RTM版本。新版本中最主要的变化在于文件资源管理器、整合Copilot、编辑PNG文件元数据、创建TAR和7z压缩文件等等。@PhantomOfEarth发现，微软已经将24H2版本（Germanium）部分功能下放到23H2/22H2（Nickel）版本中，例如创建TAR和7z压缩文件。如示意图所示，Windows11将支持原生创建TAR

微软Edge浏览器更新：新增'放大图像”功能，提升用户体验 Mar 21, 2024 pm 01:40 PM

3月21日消息，微软近日对其MicrosoftEdge浏览器进行了更新，新增了一项实用的“放大图像”功能。现在，用户在使用Edge浏览器时，只需右键点击图片，便可在弹出的菜单中轻松找到这一新功能。更为便捷的是，用户还可以将光标悬停在图片上方，然后双击Ctrl键，即可快速呼出放大图像的功能。根据小编的了解，最新发布的MicrosoftEdge浏览器已经在Canary频道进行了新功能测试。该浏览器的稳定版中也已经正式推出了实用的“放大图像”功能，为用户提供了更便捷的图片浏览体验。外国科技媒体也对这一

微软 Z1000 固态硬盘现身网络，搭载神秘 CNEXLabs 主控 Mar 11, 2024 pm 01:50 PM

本站3月11日消息，消息人士结城安穗-YuuKi_AnS近日在X平台分享了一块微软Z1000固态硬盘样品的系列图片。从标签信息了解到，这块Z1000为EngineeringSample（工程样品），960GB容量，生产于2020年5月18日，DC3.3V供电，标称功耗15W。根据消息源透露，其支持NVMe1.2协议。▲微软Z1000固态硬盘正面（有标签面）照▲微软Z1000固态硬盘正面照（无标签）▲微软Z1000固态硬盘反面照▲微软Z1000固态硬盘反面照-主控特写参考结城安穗-YuuKi_An

微软计划2024年下半年在Windows 11中淘汰NTLM，全面转向Kerberos认证 Jun 09, 2024 pm 04:17 PM

2024年下半年，微软安全官方博客发布了一条消息，以回应安全社区的呼吁。公司计划在2024年下半年发布的Windows11中淘汰NTLANManager（NTLM）认证协议，以提升安全性。根据之前的解释，微软此前已经有过类似的动作。去年10月12日，微软在一份官方新闻稿中就已经提出了一个过渡计划，旨在逐步淘汰NTLM身份验证方式，并推动更多企业和用户转向使用Kerberos。为了帮助那些可能在关闭NTLM身份验证后遇到硬连接（hardwired）应用程序和服务问题的企业，微软提供了IAKerb和

See all articles

微软赢麻了！数十亿文本-图像对训练，多模态Florence开启免费体验，登上Azure

Florence能干什么？

多模态是未来

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题