深耕AI語音多模態技術,實現在地化智慧互動體驗
伴隨著5G、人工智慧技術的發展,智慧語音已經隨著各種智慧終端產品滲透到人們的日常生活中,帶來了更多便利和可能性。作為新興市場智慧終端產品和行動互聯服務供應商,傳音聚焦人工智慧領域持續創新,不斷推進AI語音技術的研究和應用,挖掘更多在地化用戶場景要求,為新興市場用戶帶來全場景智能交互體驗。
目前,傳音已經在語音辨識、語意理解、語音合成、自然語言處理、知識圖譜等方面形成了的自身的AI語音底層技術能力,建構起小語種語音數據優勢,並在多語種語音助理、數位人、語音偽造檢測技術方面取得了重大突破。今年以來,傳音AI技術部成果不斷,接連在ICASSP 2023 SLU口語理解挑戰賽、IJCAI 2023 ADD 語音深度偽造檢測國際挑戰賽奪得佳績,並在國際多媒體旗艦學術會議ICME 2023上發表數位人多模態交互的相關學術論文。
建構本地語音互動內容生態的多語種語音助理
語音助理是智慧型手機的標配應用程式之一,其核心技術為語音互動和自然語言理解,旨在幫助使用者更快速、有效率地執行目標任務。面對新興市場本地語音互動的需求,傳音長期深耕多語種語音助理技術,著力洞察本地用戶需求,形成技術解決方案,在探索和研發過程中沉澱了深厚的技術能力和實踐經驗。
在2023年的ICASSP國際頂尖會議上,傳音AI技術部在SLU(口語理解)挑戰賽中取得了巨大的成功。憑藉在語音辨識和語意理解方面的出色表現,他們以71.97%的準確率榮獲離線語音助理子賽道的第一名。他們的參賽論文「A Two-Stage System for Spoken Language Understanding」也被IEEE電氣與電子工程師協會收錄
傳音AI技術部同事在ICASSP 2023分享研究成果
目前,語音助理主要面向主流語言,而對小眾語言、特定人群等細分領域涵蓋較少。傳音針對非洲、南亞等新興市場用戶的本地口音和小語種,依託海量手機用戶資源,建構了一套本地化低成本、高品質的語料數據生產體系,解決小語種語料匱乏、數據稀缺的問題。在此基礎上,傳音開發能適應新興市場本地用戶語言文化特徵的多語言語音助手,幫助當地用戶更便捷地使用本地語言與手機進行語音互動。目前,傳音的多語種語音助理技術已支援英語、法語、豪薩語、阿拉伯語、斯瓦西里語等語言的語音互動和自然語言理解能力,涵蓋聯絡人通話、APP快速啟動、音樂播放、 WhatsApp訊息、閒聊等100多種使用情境
為了滿足本地用戶在生活服務方面的需求,傳音公司的多語種AI語音助理技術將不斷地應用於更多的生活、出行、學習和工作場景,以建立一個跨語言的AI內容服務生態系統,使智慧語音服務能夠滲透到本地生活的各個方面,讓更多使用小語種的人受益
AI 數位人技術賦能傳音多場景業務
隨著互動智慧技術的加速發展,數位人正從科技創新走向產業應用,在娛樂、教育、醫療等多個領域發揮作用。傳音積極擁抱AI發展機遇,事先佈置數位人技術,建立了完整的全連結技術與工程化的自研能力。傳音數位人系統,包含2D真人和3D寫實數位人,擁有基於多語種的語音辨識、語音合成、語音喚醒、自然語言理解和數位人等能力的資料資源,在多語種語音對話、人設和外觀、智慧化場景互動等領域形成了自身的在地化特色和業界領先性。今年1月,傳音數位人系統獲得由中國信通院所核發的數位人領域權威標準認證。這也是目前唯一透過中國信通院評測,以「互動對話」為核心的中國手機廠商數位人系統。
為了提高虛擬形象的模擬效果、合成出逼真且富有表現力的數位人視頻,傳音AI技術部自研端到端技術,在優化數位人視頻生成質量的過程中,基於Unet網絡提出了一個新的技術框架densely-connected Unet結構,同時引入了CLIP的encoder結構,利用文字語意訊息提升數位人嘴部動畫效果。同時此技術提出人臉關鍵點技術的機率密度圖,增加了模型網路的模態訊息,提升了模型產生的品質。這項技術突破能夠讓數位人的臉部形象更加真實、細膩,同時提升語音和唇形的一致性,其生成效果達到了學術上的領先水平。相關學術論文「CPNet: Exploiting CLIP-based Attention Condenser and Probability Map Guidance for High-fidelity Talking Face Generation」被國際多媒體旗艦學術會議ICME 2023(IEEE International Conference on Multimedia and Expo)成功錄用。
目前,傳音數位人系統已經在多個業務場景中廣泛應用。它不僅在海外手機門市用作智慧導購員,為用戶購買手機提供參考,也能夠為各類智慧終端產品提供智慧語音助理功能,提升用戶體驗。未來,傳音將進一步利用「AI 數位人」技術,為多種場景的業務賦能,積極探索數位人版語音助理和客服系統等新的商業形態,為用戶帶來全新的智慧互動體驗
持續建構AI語音底層技術能力
在AI技術快速發展的現今,演算法產生音訊和音訊偽造已經可以做到以假亂真,對於一般使用者來說辨別音訊真假非常困難。為了維護資訊的可信賴性、保障社會安全,語音偽造檢測技術變得至關重要,已成為人工智慧領域的一個較新的研究方向。傳音圍繞智慧終端產品業務場景,以本地用戶需求為導向,不斷延伸AI語音底層技術能力,佈局新技術領域,在語音偽造檢測技術上取得了重大突破。
傳音AI技術部在國際人工智慧聯合會議IJCAI 2023(The 32nd International Joint Conference on Artificial Intelligence)組織的第二屆語音深度偽造檢測國際挑戰賽ADD(The Second Audio Deepfake Detection Challenge)「篡改區域定位」(Manipulation Region Location)分賽道上奪得第二名。在比賽中,傳音AI技術部自研創新的AI模型演算法與技術,能夠準確辨識並定位音訊中語音的篡改行為,從而有效保障數位音訊的原始性和真實性,為AI應用及資訊安全建設提供新思路。相關學術論文已成功發表在本屆IJCAI 2023 Workshop on Deepfake Audio Detection and Analysis (DADA 2023)會議上。
下一步,傳音AI技術部將繼續探索語音深度偽造檢測技術在傳音智慧終端產品上的應用,如通話詐騙檢查保護用戶隱私安全等,不斷提升用戶使用體驗。
未來,傳音將繼續在AI語音多模態技術領域發力,圍繞「手機行動網路服務家電、數位配件」核心業務需求,結合對新興市場和本地消費者的深刻洞察,為用戶提供適切其需求的智慧生活體驗,形成在地化的AI內容服務生態,持續滿足多語言、多場景、個人化、智慧化的應用需求。
以上是深耕AI語音多模態技術,實現在地化智慧互動體驗的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

7月13日消息,近日有報告稱,高通正在印度德里高等法院起訴傳音控股集團,控告後者侵犯其四項非標準必要專利。傳音對此回應稱,已與高通簽署了5G標準專利許可協議並正在履行該協議。傳音表示,其銷售網路涵蓋非洲、南亞等超過70個新興市場的國家,在某些國家,部分專利權人並未擁有或只擁有少量的專利。但要求依照全球統一的費率,訴求過高的許可費,並未考慮不同區域的經濟發展水平差異、其在特定區域或市場無專利或只有少量專利、以及既有判例存在不同區域提供不同費率等因素。這種做法並未完全遵循公平、合理和非歧視原則。傳音

4月14日消息,傳音Tecno首款折疊螢幕手機PhantomVFold去年4月上市,搭載天璣9000+處理器。現在這款手機的繼任機型已被曝光。日前,兩款傳音新智慧型手機已通過歐洲EEC認證,型號為AE10和AE11,預計分別為PhantomV2Fold和V2Flip。作為參考,上一代的型號為AD10和AD11。查詢到,這兩款新機還現身跑分平台Geekbench5.4.6Android版AArch64。其中,AE10機型單核得分1283分,多核得分3974分;AE11機型單核得分832分,多核得分3

5月2日消息,日前,分析機構Canalys發布2024年第一季全球智慧型手機市場數據,該季度全球智慧型手機市場年增10%,達到2.962億部。數據顯示,第一季前五名手機廠商分別為三星、蘋果、小米、傳音和OPPO,其中,被譽為「非洲手機之王」的傳音表現亮眼。一季度,傳音手機出貨量達2,860萬部,市佔率10%,實現了86%的強勁成長。財報顯示,傳音2023年營業收入622.95億元,年增33.69%,淨利55.37億元,年增122.93%。在主營業務中,傳音手機收入573

6月3日消息,傳音Infinix計劃在其NOTE30系列手機上引入一款全新的語音助手,該語音助手基於先進的ChatGPT技術開發而成。這一動向引起了廣泛的關注,因為ChatGPT作為一種能夠進行連續對話、回答各種問題的智慧系統,被認為實現了與以往完全不同的人機互動體驗,有些人甚至將其比作鋼鐵俠電影中的賈維斯。傳音Infinix是一家專注於海外市場的國內手機廠商。雖然在國內市場知名度較低,但在印度和非洲等地卻享有盛譽,被譽為"非洲一哥"。傳音控股是其母公司,旗下擁有多個手機品牌

本站4月23日消息,深圳傳音控股股份有限公司今日發布了2023年年度報告。數據顯示,2023年,該公司手機整體出貨量約1.94億支。報告引述IDC數據統計結果稱,2023年在全球手機市場佔有率為14.0%,在全球手機品牌廠商中排名第三,其中智慧型機在全球智慧型機市場佔有率為8.1%,排名第五。營收方面,本站匯總如下:2023年度,公司實現營業收入6,229,487.68萬元(近623億元),較上年同期增長33.69%;營業利潤674,658.47兆元(近67.5億元),較上年同期成長122.50%;利

7月12日晚間消息,根據國外媒體IPfray報道,高通正在印度德里高等法院起訴傳音控股集團侵犯四項非標準基本專利。針對此事,傳音方面表示,已與高通簽署5G標準專利授權協議並正在履行該協議,將繼續與第三方展開專利談判確定合理許可費。截至發稿前高通則未予置評。 ▲傳音電競手機InfinixGT20Pro傳音表示,其銷售網路覆蓋非洲、南亞等超過70個新興市場的國家。在這些國家,部分專利權人並未擁有或只擁有少量的專利,但要求按照全球統一的費率,訴求過高的許可費,並未考慮不同區域的經濟發展水平差異、其在特

4月23日消息,今天傳音控股發布了2023年年度報告。其中顯示,2023年公司實現營業收入622.95億元,年增33.69%;淨利55.37億元,年增122.93%;基本每股收益6.88元。分產品來看,2023年公司主營業務中,手機收入573.48億元,較去年成長34.88%,佔營業收入的92.06%,手機整體出貨量約1.94億支。報告引用了IDC數據統計結果稱,2023年其在全球手機市場份額為14.0%,在全球手機品牌廠商中排名第三,其中智慧型機在全球智慧型機市場份額為8.1%,排名第五。

根據海外媒體通報,全球手機銷量排名前五的中國手機廠商傳音發布了一款與寶馬公司(BMW)合作開發的智慧型手機-InfinixNote40系列賽車版。目前,InfinixNote40系列賽車版提供兩款機型,分別為InfinixNote40Pro5G和InfinixNote40Pro+5G。可惜的是,這些機型登陸中國市場的可能性幾乎沒有。據了解,InfinixNote40系列賽車版的外觀靈感來自於寶馬,背板採用了寶馬MPower的三色徽標,手機內部也有自訂的壁紙和圖標,整機擁有大量的寶馬元素。配置處理
