深耕AI语音多模态技术,实现本地化智能交互体验
伴随着5G、人工智能技术的发展,智能语音已经随着各种智能终端产品渗透到人们的日常生活中,带来了更多便捷和可能性。作为新兴市场智能终端产品和移动互联服务提供商,传音聚焦人工智能领域持续创新,不断推进AI语音技术的研究和应用,挖掘更多本地化用户场景要求,为新兴市场用户带来全场景智能交互体验。
目前,传音已经在语音识别、语义理解、语音合成、自然语言处理、知识图谱等方面形成了的自身的AI语音底层技术能力,构建起小语种语音数据优势,并在多语种语音助手、数字人、语音伪造检测技术方面取得了重大突破。今年以来,传音AI技术部成果不断,接连在ICASSP 2023 SLU口语理解挑战赛、IJCAI 2023 ADD 语音深度伪造检测国际挑战赛夺得佳绩,并在国际多媒体旗舰学术会议ICME 2023上发表数字人多模态交互的相关学术论文。
构建本地语音交互内容生态的多语种语音助手
语音助手是智能手机的标配应用之一,其核心技术为语音交互和自然语言理解,旨在帮助用户更快捷、高效地执行目标任务。面对新兴市场本地语音交互的需求,传音长期深耕多语种语音助手技术,着力洞察本地用户需求,形成技术解决方案,在探索和研发过程中沉淀了深厚的技术能力和实践经验。
在2023年的ICASSP国际顶级会议上,传音AI技术部在SLU(口语理解)挑战赛中取得了巨大的成功。凭借在语音识别和语义理解方面的出色表现,他们以71.97%的准确率荣获离线语音助手子赛道的第一名。他们的参赛论文“A Two-Stage System for Spoken Language Understanding”也被IEEE电气与电子工程师协会收录
传音AI技术部同事在ICASSP 2023分享研究成果
目前,语音助手主要面向主流语言,而对小众语言、特定人群等细分领域覆盖较少。传音针对非洲、南亚等新兴市场用户的本地口音和小语种,依托海量手机用户资源,建设了一套本地化低成本、高质量的语料数据生产体系,解决小语种语料匮乏、数据稀缺的问题。在此基础上,传音开发能适应新兴市场本地用户语言文化特点的多语种语音助手,帮助当地用户更加便捷地使用本地语言与手机进行语音交互。目前,传音的多语种语音助手技术已支持英语、法语、豪萨语、阿拉伯语、斯瓦西里语等语言的语音交互和自然语言理解能力,覆盖联系人通话、APP快速启动、音乐播放、WhatsApp消息、闲聊等100多种使用场景
为了满足本地用户在生活服务方面的需求,传音公司的多语种AI语音助手技术将不断地应用于更多的生活、出行、学习和工作场景,以构建一个跨语言的AI内容服务生态系统,使智能语音服务能够渗透到本地生活的各个方面,让更多使用小语种的人受益
AI+数字人技术赋能传音多场景业务
随着交互智能技术的加速发展,数字人正在从技术创新走向产业应用,在娱乐、教育、医疗等多个领域发挥作用。传音积极拥抱AI发展机遇,提前布局数字人技术,建立了完备的全链路技术和工程化的自研能力。传音数字人系统,包含2D真人和3D写实数字人,拥有基于多语种的语音识别、语音合成、语音唤醒、自然语言理解和数字人等能力的数据资源,在多语种语音对话、人设和外观、智能化场景交互等领域形成了自身的本地化特色和行业领先性。今年1月,传音数字人系统获得由中国信通院所颁发的数字人领域权威标准认证。这也是当前唯一通过中国信通院评测,以“交互对话”为核心的中国手机厂商数字人系统。
为了提高虚拟形象的仿真效果、合成出逼真且富有表现力的数字人视频,传音AI技术部自研端到端技术,在优化数字人视频生成质量的过程中,基于Unet网络提出了一种新的技术框架densely-connected Unet结构,同时引入了CLIP的encoder结构,利用文本语义信息提升数字人嘴部动画效果。同时该技术提出人脸关键点技术的概率密度图,增加了模型网络的模态信息,提升了模型生成的质量。这一技术突破能够让数字人的面部形象更加真实、细腻,同时提升语音和唇形的一致性,其生成效果达到了学术上的领先水平。相关学术论文“CPNet: Exploiting CLIP-based Attention Condenser and Probability Map Guidance for High-fidelity Talking Face Generation”被国际多媒体旗舰学术会议ICME 2023(IEEE International Conference on Multimedia and Expo)成功录用。
目前,传音数字人系统已经在多个业务场景中得到广泛应用。它不仅在海外手机门店中被用作智能导购员,为用户购买手机提供参考,还能够为各类智能终端产品提供智能语音助手功能,提升用户体验。未来,传音将进一步利用“AI+数字人”技术,为多种场景的业务赋能,积极探索数字人版语音助手和客服系统等新的业务形态,为用户带来全新的智能交互体验
持续构建AI语音底层技术能力
在AI技术快速发展的现今,算法生成音频和音频伪造已经可以做到以假乱真,对于普通用户来说辨别音频真假非常困难。为了维护信息的可信性、保障社会安全,语音伪造检测技术变得至关重要,已经成为人工智能领域的一个较新的研究方向。传音围绕智能终端产品业务场景,以本地用户需求为导向,不断延伸AI语音底层技术能力,布局新技术领域,在语音伪造检测技术上取得了重大突破。
传音AI技术部在国际人工智能联合会议IJCAI 2023(The 32nd International Joint Conference on Artificial Intelligence)组织的第二届语音深度伪造检测国际挑战赛ADD(The Second Audio Deepfake Detection Challenge)“篡改区域定位”(Manipulation Region Location)分赛道上夺得第二名。在比赛中,传音AI技术部自研创新的AI模型算法和技术,能够准确识别并定位音频中语音的篡改行为,从而有效保障数字音频的原始性和真实性,为AI应用及信息安全建设提供新思路。相关学术论文已成功发表在本届IJCAI 2023 Workshop on Deepfake Audio Detection and Analysis (DADA 2023)会议上。
下一步,传音AI技术部将继续探索语音深度伪造检测技术在传音智能终端产品上的应用,如通话诈骗检查保护用户隐私安全等,不断提升用户使用体验。
未来,传音将继续在AI语音多模态技术领域发力,围绕“手机+移动互联网服务+家电、数码配件”核心业务需求,结合对新兴市场和本地消费者的深刻洞察,为用户提供适切其需求的智能生活体验,形成本地化的AI内容服务生态,持续满足多语种、多场景、个性化、智能化的应用需求。
以上是深耕AI语音多模态技术,实现本地化智能交互体验的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

7月13日消息,近日有报道称,高通正在印度德里高等法院起诉传音控股集团,控告后者侵犯其四项非标准必要专利。传音对此回应称,已与高通签署了5G标准专利许可协议并正在履行该协议。传音表示,其销售网络覆盖非洲、南亚等超过70个新兴市场的国家,在一些国家,部分专利权人并未拥有或只拥有少量的专利。但要求按照全球统一的费率,诉求过高的许可费,并未考虑不同区域的经济发展水平差异、其在特定区域或市场无专利或只有少量专利、以及既有判例存在不同区域提供不同费率等因素。这种做法并未完全遵循公平、合理和非歧视原则。传音

5月2日消息,日前,分析机构Canalys发布2024年第一季度全球智能手机市场数据,该季度全球智能手机市场同比增长10%,达到2.962亿部。数据显示,第一季度前五手机厂商分别为三星、苹果、小米、传音和OPPO,其中,被誉为“非洲手机之王”的传音表现亮眼。一季度,传音手机出货量达2860万部,市场份额10%,实现了86%的强劲增长。财报显示,传音2023年营业收入622.95亿元,同比增长33.69%,净利润55.37亿元,同比增长122.93%。在主营业务中,传音手机收入573

4月14日消息,传音Tecno首款折叠屏手机PhantomVFold于去年4月上市,搭载天玑9000+处理器。现在这款手机的继任机型已被曝光。日前,两款传音新智能手机已通过欧洲EEC认证,型号为AE10和AE11,预计分别为PhantomV2Fold和V2Flip。作为参考,上一代的型号为AD10和AD11。查询到,这两款新机还现身跑分平台Geekbench5.4.6Android版AArch64。其中,AE10机型单核得分1283分,多核得分3974分;AE11机型单核得分832分,多核得分3

6月3日消息,传音Infinix计划在其NOTE30系列手机上引入一款全新的语音助手,该语音助手基于先进的ChatGPT技术开发而成。这一动向引起了广泛的关注,因为ChatGPT作为一种能够进行连续对话、回答各种问题的智能系统,被认为实现了与以往完全不同的人机交互体验,有些人甚至将其比作钢铁侠电影中的贾维斯。传音Infinix是一家专注于海外市场的国内手机厂商。虽然在国内市场知名度较低,但在印度和非洲等地却享有盛誉,被誉为"非洲一哥"。传音控股是其母公司,旗下拥有多个手机品牌

本站4月23日消息,深圳传音控股股份有限公司今日发布了2023年年度报告。数据显示,2023年,该公司手机整体出货量约1.94亿部。报告援引IDC数据统计结果称,2023年其在全球手机市场份额为14.0%,在全球手机品牌厂商中排名第三,其中智能机在全球智能机市场份额为8.1%,排名第五。营收方面,本站汇总如下:2023年度,公司实现营业收入6,229,487.68万元(近623亿元),较上年同期增长33.69%;营业利润674,658.47万元(近67.5亿元),较上年同期增长122.50%;利

7月12日晚间消息,据国外媒体IPfray报道,高通正在印度德里高等法院起诉传音控股集团侵犯四项非标准基本专利。针对此事,传音方面表示,已与高通签署5G标准专利许可协议并正在履行该协议,将继续与第三方展开专利谈判确定合理许可费。截至发稿前高通方面则未予置评。▲传音电竞手机InfinixGT20Pro传音表示,其销售网络覆盖非洲、南亚等超过70个新兴市场的国家。在这些国家,部分专利权人并未拥有或只拥有少量的专利,但要求按照全球统一的费率,诉求过高的许可费,并未考虑不同区域的经济发展水平差异、其在特

4月23日消息,今天传音控股发布了2023年年度报告。其中显示,2023年公司实现营业收入622.95亿元,同比增长33.69%;净利润55.37亿元,同比增长122.93%;基本每股收益6.88元。分产品来看,2023年公司主营业务中,手机收入573.48亿元,同比增长34.88%,占营业收入的92.06%,手机整体出货量约1.94亿部。报告引用了IDC数据统计结果称,2023年其在全球手机市场份额为14.0%,在全球手机品牌厂商中排名第三,其中智能机在全球智能机市场份额为8.1%,排名第五。

传音控股旗下科技品牌TECNO宣布成为第34届非洲国家杯的官方赞助商,并且是本届非洲杯唯一的手机官方赞助商官方签约仪式于9月21日在新加坡举行,传音控股副总裁哈乐、TECNO事业部总经理郭磊、非洲地区部总经理段盛晓、非洲足球联合会(CAF)秘书长VéronMosengo-Omba等高层参与签约仪式。传音表示,借助非洲杯赛事的强势流量,TECNO将打通线上线下触点,全面曝光TECNO全系产品,深度沟通TECNO品牌升级。与此同时,TECNO还将通过与足球名宿的合作,托举普通人的足球梦想,在承担社会
