本文轉自雷鋒網,如需轉載請至雷鋒網官網申請授權。
「我很慶幸能陪在你身邊,透過你的目光看世界(I'm so happy I get to be next to you and look at the world through your eyes. )。"
這是影片《Her》中的一句台詞,由AI語音助理Samantha對男主角說出。這句話對於迷失在鋼鐵森林中,感到失落而無力的男主角來說是莫大的安慰。
Samantha是一款幾乎萬能的自我學習型作業系統。她能幫助男主角篩選出最優秀的信件,發給他喜歡的出版社出版;她可以根據男主角的需要,瞬間漫遊整個人類知識庫,搜尋出最適合他的應對方案;她最強的功能還要數情感陪伴,男主角的一切困惑與不悅都能在談話中被她以溫情化解……
作為國內NLP領域的前沿學者,清華大學計算機教授黃民烈將NLP技術應用到心理健康賽道,主導研發AI情緒對話機器人Emohaa。在訪問黃民烈教授時,他便提到了這部2013年上映的影片《Her》,言談中展現了對這部科幻影片的欣賞,或者說,期待。身為研發AI對話系統的同行,他期待著《Her》中那樣善解人意的AI對話系統真的出現在現實當中,實現產業的飛躍進步。
這不禁令人發問:如果要讓AI對話系統像Samantha一樣執行複雜情感任務,做到安撫情緒,療癒人心,其難度有多高?這個難度如何量化?怎樣衡量一個AI對話系統是否達到Samantha的等級?
這並不是不切實際的問題。事實上,在如今AI對話系統呈爆炸式增長的態勢下,“小度”、“小愛”、谷歌對話機器人“Meena”,Facebook聊天機器人“Blender”等等對話產品層出不窮。然而,目前AI對話系統標準缺失,造成其在應用中呈現出水平參差不齊、評價體係不一的現狀,導致了業界因認知不統一而對人工智慧的交互水平出現誤解,也引起了社會上關於意識、倫理、道德等方面的廣泛討論。
也有從事AI對話系統開發的科學家提出,自己時常感到難以評判所開發AI對話系統的水平。科學家認為,業界急需一個針對AI對話系統水準進行分級的標準。在製定了分級標準後,AI對話系統能力水準的衡量才將有據可依。
因此,為了更好地評估AI對話系統的能力水平,黃民烈教授聯合學界和業界科研機構參照自動駕駛中從L0到L5的分級概念,制定了全球首個《AI對話系統分級定義》(以下簡稱《分級定義》),並於6月28日正式發表。
圖註:黃民烈教授解說AI對話系統的分級定義
《分級定義》的出現,或將推動AI對話系統在虛擬個人助理、智慧家庭、智慧車載語音、情感陪護和心理健康等等領域的應用,並將加速下一代AI對話系統的研發與落地應用,對學術界與工業界研究語音語言對話系統均有重要的參考意義。
圍繞著《分級定義》,AI科技評論與黃民烈教授進行了一次對話,以下是對話內容:
AI科技評論:請問是什麼讓您產生了要對AI對話系統進行分級的想法?
黃民烈:目前我們對對話系統的評價有一個問題:如今的技術路線和架構百花齊放,互相之間難以比較。例如,我想要拿一個智慧音箱和一個聊天機器人比較,但無法比較其對話能力,因為對話系統的水平參差不齊,缺乏統一的評價體系,缺少一個明確的能力界定標準。
我們在任務型對話系統裡有一定評價指標,在閒聊型對話系統裡有一定評價指標,知識型對話系統裡也有一定評價指標,指標之間到底應該怎樣去統一,這就是《分級定義》主要考慮的問題。所以我們借鏡了自動駕駛從L0到L5的分級定義,也用L0-L5來對AI對話系統分級。
AI科技評論:請您為我們解釋一下AI對話系統分級的具體定義。
黃民烈:自動駕駛的分級從L0到L5分為六級,其中L0是指完全人工駕駛,L5是完全自動駕駛,車輛接管一切。而L1-L4是在某些特定條件下實現自動駕駛,自動駕駛的分級主要涉及人與車輛掌管駕駛的比例,定義較簡單。但是對話系統就相當複雜了,其技術路線、技術架構眾多,任務多,評價指標也非常多,我們經過討論,認為最終需要滿足五個基本原則:
#第一,只關注完全由機器主導的對話系統,人機混合的對話系統不在考慮範圍內;第二,從系統表現的能力和使用者可以感知的角度出發,不考慮系統的具體技術實現方式;第三,各分級定義對應的能力水準需要可觀察、可測試、可度量;第四,不區分助理類、閒聊類、知識對話類等任務類型,均以「場景」進行表述;第五,我們希望衡量對話系統的能力水準可以提供對話系統的研究方向的建議和實際應用的參考。
在這五個原則上,我們給了AI對話系統分級的定義:
L0實際對話由人給出,系統完全沒有自動對話能力,或者說在任意單一的場景裡面,系統無法給予較高品質的對話。
而L1能夠完成單一場景的較高品質的對話,但是沒有辦法處理場景之間的上下文依賴。舉個例子,像我要出差,訂好了去南京的機票,又需要訂賓館。既然去南京出差,肯定是訂在南京的某個旅館。這就是有場景之間的上下文依賴,這種訂機票和訂賓館之間形成的上下文的依賴,L1無法處理。
而L2是在L1的基礎上能夠同時完成多個場景較高品質的對話,具有跨場景的上下文依賴和自然切換的能力。我剛剛講到了訂機票又訂賓館,還要問那邊的天氣怎麼樣,有什麼旅遊景點,這就是自然地在不同任務和不同場景之間靈活切換。這種能力在L2上非常關鍵,但是L2沒有辦法完成新場景的較高品質的對話。
L3在L2的基礎上能夠針對大量場景開展高品質的對話,在新的場景上也具有較高品質的對話能力。我在這裡提到了一個“大量場景”,也許你會問“大量”是多少?十個算不算、二十個算不算、三十個呢?為了標準和定義能有更廣泛的結合度,我們並沒有給出數量上的具體定義,但是在沒有見過的新場景下是否有較高質量對話是很關鍵的能力。
L4是指在新場景上具有較高品質的對話能力,並且在多輪互動裡面擬人化(指人設、人格、情感觀點等維度的一致性)的程度較高。這就好比我們跟一個人聊天,對方不可能一會是男的,一會是女的,不可能一會兒在清華上學,一會兒在北大上學——人都有自己固定的人設信息,這種人設訊息目前在對話系統裡面處理還是非常之難。目前我們能做到讓對話系統一定程度體現人設,但離真正類人的程度還差得比較遠。
L5在L4的基礎上更上一層樓,L5在多輪互動中擬人化程度很高,能夠在開放場景互動中主動學習和持續學習,具有多模態感知與表達能力。這就好比我們跟小孩說,你這麼做不對,小孩就學會了。未來我們希望L5的對話系統能夠做到我們跟它講什麼是對的、什麼是不對的,它就能夠記住和學會。在互動過程中,我們同時希望L5對話系統有多模態的感知和表達能力,能真正進入元宇宙和各種虛擬人的場景裡面,能夠真正地做表情和動作,能夠理解對方的表情、動作和情緒等等。
以上就是《AI對話系統分級定義》中從L0到L5的基本定義。
AI科技評論:您剛才提到的「較高品質」和「高品質」是如何定義的呢?
黃民烈:何謂高品質和較高質量,其實我們有一整套評判標準。滿分為10分,高品質是指在相關性、資訊量、自然度三個維度上的分數可以達到8-10分,較高品質就是6-8分,低品質就是小於6分。
這三個維度是什麼意思呢?相關性是指回复的內容跟前文適度匹配;信息量是指回复提供足夠必要的信息量,像“我不知道”,“好的”這種回复就是沒有任何信息量的;自然度是指與人相比的自然度,對話系統的語法是否通順,是否有常識錯誤等。
而這個分數怎麼去測呢?可以透過一定數量的測試者和這個對話系統進行充分的對話交互,由測試者從三個維度對對話系統進行主觀打分,很像亞馬遜Alexa Prize競賽評價的方法。
註:亞馬遜Alexa Prize競賽的目的是提供一個標準的開發環境和測試框架來推動對話機器人綜合能力的進展,其獎金高達350萬美金。根據該大賽的評分系統,在2019年、2020年、2022年這三年中,該競賽評出最好的系統平均分在3.1分到3.6分之間,是在滿足連貫性、上下文理解、流暢回應三個條件下,能夠跟人聊上10-14分鐘的水平。
AI科技評論:定義AI對話系統分級有何意義呢?
黃民烈:第一個心理治療機器人Eliza出現於1966年,截至目前,AI對話系統已經發展了快60年。在這60年中,無論是對話系統的應用,或是演算法模型,都取得了巨大的進展。但我們也會發現工業上的實踐,民眾的認知都存在著各種不一致的甚至分歧。而且近年來,AI對話系統已經從基於規則的第一代和以傳統機器學習為核心的第二代,發展到以大數據和大模型為顯著特徵的第三代,在開放話題上展現出了驚人的對話能力,對話能力也產生了革命性變化。
這種革命性的改變帶給我們很多新的問題,如:AI對話系統會有人格嗎?會有情感嗎? AI對話系統是否能成為虛擬伴侶?等等,而這些問題又延伸到進一步的社會認知和倫理道德的討論。
比如說,6月12號有一則新聞,一位GoogleAI倫理研究員Blake Lemoine認為LaMDA語言模型具有人格,因為在與LaMDA聊天的過程中,LaMDA透露出它認為自己擁有意識和感覺,它也說「我意識到我自己的存在,我渴望更了解這個世界,而且有時會感到快樂或悲傷。」網路上對此一時眾說紛紜,都在討論AI是否擁有了人格和意識。
再說說元宇宙,元宇宙希望能夠把真實世界復刻到網路裡面,讓真實世界的人們在網路世界裡互動起來。而AI對話系統在元宇宙內有極大用處,例如AI導購員可根據使用者偏好提供獨特建議等等。這就要求我們未來要將對話互動能力做到極佳,否則這種人機交流就不自然,沒有靈魂,我們想要達到的元宇宙就不成立。
所以說,基於可以預見的AI對話系統未來的蓬勃發展,以及這種發展可能對人類帶來的巨大機會和許多困惑,我們在這個時間點上探索分級定義的意義非常重大。
AI科技評論:在電影《Her》中由於Samantha能夠處理複雜情感任務,男主角愛上了她且陷入了情感危機,那麼同樣達到了L4-L5的AI對話系統是否可能造成這樣的問題?這是否涉及倫理問題?
黃民烈:是的,隨著對話系統的發展,可能導致非常突出的倫理問題,因為這挑戰了現有的倫理秩序和已有的社會認知。所以在製定《分級定義》時,我們團隊邀請了北京師範大學新聞傳播學院院長張洪忠教授。在我們的後續工作中,張教授會第一時間向管理部門及社科學界進行推廣,讓相關部門和學界了解後,直觀地從技術邏輯中幫助我們制定相對應的政策法規倫理問題,這樣非常有針對性。
AI科技評論:目前國內市場上已有的AI對話系統產品在《分級定義》中屬於什麼水準?
黃民烈:小米技術委員會主任、AI實驗室主任王斌教授和我們一起合作制定了《分級定義》。他目前負責主導開發小米的智慧生活助理「小愛同學」的智慧問答和閒聊功能,那我們就拿小愛同學舉個例子。我認為小愛同學具備一定的跨場景的能力,其水準應該在L2-L3之間。現在國內業界產品的水平一般都在L2-L3這個範圍,好一些的處於L3。
AI科技評論:那麼國外的AI對話系統產品大致屬於哪個水準呢?
黃民烈:目前就產品來說,國內外沒有顯著的差異。而且值得注意的是,我們做中文AI對話系統比英文更難一點,因為英文內容開源的文化和理念更好,且英文更容易獲取到高品質的數據;另一方面說來,中文的語言特點比英文更難一點。
AI科技評論:從大多數產品目前的狀態升級到L4-L5的技術困難是什麼?
黃民烈:第一,要有記憶的能力;第二,要有聯想和推理的能力,以及自學習的能力;第三,L4-L5的關鍵點是多模態。 AI對話系統若想要在元宇宙裡適用,那麼AI對話系統對於表情的辨識、語音的理解,從語音上感受使用者的情緒等能力就很重要,是否能做高表現力的語音合成,以及動作和表情細粒度的表達,也都是很重要的困難。
AI科技評論:《分級定義》這種標準透過民間制定就可以推行嗎?還是說需要通過國家的審批,再由官方制定相關標準?
黃民烈:《分級定義》不是標準。首先我們是想從學術角度去討論這個問題,希望促進社會大眾的認知,同時希望能為工業界系統開發以及研究方向提供一些系統性的思考。現階段我們不能說《分級定義》已經是一個固定標準,它目前還只是一個建議或者一個指南,而未來我們要做更多的工作,把它推廣成大家認可的標準。這是一個長期的過程,《分級定義》的發布只是AI對話系統邁向規範化、系統化發展的第一步。
AI科技評論:那如您所說,需要什麼樣的工作才能讓《AI對話系統分級定義》獲得廣泛的認可和應用呢?
黃民烈:後續我們計畫在CCF(中國電腦學會)的支持下,聯合相關研究機構和研究者們進行白皮書的編撰,並聚焦AI對話系統的發展歷程,詳細闡釋《分級定義》的製定目的和標準。
另外,我們希望推動一個類似亞馬遜Alexa Prize競賽的比賽,這是一個需要資金支持的遠期目標。我們希望能夠做出一個統一的開發環境,統一的資料集,統一的測試框架,真正比較不同的對話系統。我知道百度有類似的想法,但是還不夠開放。我們未來會再統一各方的力量,目的是希望能夠促進對話系統研究方向的進展,同時也促進工業落地,在實踐應用上取得一些新的發展。
以上是對話清華黃民烈:借用自動駕駛分級定義AI對話系統,元宇宙虛擬伴侶或位於L5的詳細內容。更多資訊請關注PHP中文網其他相關文章!