Google探索全新NLU任務「自然語言評估」，正式面試前讓AI幫你熱身！-人工智慧-PHP中文網

「刷題」可以說是貫穿人生的始終了，有些題目可以獨自解決，例如考試題；但諸如面試類需要互動的題目時，一個人就很難刷動了。

這種互動不同於一般的問答，通常需要「陪練方」在特定情境下對問題進行回答，並引導使用者思考，以達到最終目標。

例如面試官不會只負責提問，還需要引導你說出對問題的理解思路，以及可選的解決方案。這類問題也可能是開放式的，例如自我介紹等。

AI的終極目標，就是一切人可以做的事，都可以由模型取代，這類「面試陪審員」也不例外。

但在當下的自然語言處理領域，這種能力還沒有得到足夠的重視，並且在技術上很具有挑戰性。

最近Google在官方部落格上介紹了一個重要的自然語言理解（NLU）能力，即自然語言評估（Natural Language Assessment, NLA），並討論瞭如何能夠在教育的背景下有所幫助。

Google探索全新NLU任務「自然語言評估」，正式面試前讓AI幫你熱身！

典型的 NLU 任務專注於使用者的意圖，而 NLA 允許從多個角度評估答案。

在使用者想知道他們的答案有多好的情況下，NLA 可以提供一個關於答案與預期有多接近的分析。

在可能沒有「正確」答案的情況下，NLA 可以提供細微的洞察力，包括主題性、相關性、冗長問題等等。

研究人員制定了 NLA 的範圍，提出了一個實用的模型來執行主題性NLA，並展示瞭如何使用 NLA 來幫助求職者練習回答面試問題。

自然語言評估概述

NLA 的目標是根據一組期望值（expectations）來評估使用者給出的答案。

比如說有一個與學生互動的NLA系統，有以下幾個組成部分：

#向學生提出一個問題；
期望定義了使用者預期在回答中得到什麼。例如一個具體的文本回答或一組使用者期望答案涵蓋的主題，並且回答需要簡潔。
由學生提供的答案；
評估結果。包括正確性、資訊缺失、過於具體或籠統、文體回饋、發音等。
可選項：上下文。例如一本書或一篇文章中的某一段。

使用 NLA，對答案的期望和對答案的評估都可以非常寬泛，這使得師生之間的互動更具表現力且更有細節。

有具體正確答案的問題

即使在有明確的正確答案的情況下，也可以比簡單的正確或不正確更細微地評估答案。

上下文（Context）：哈利波特與魔法石
問題（問題）：霍格華茲是什麼?
期望（Expectation）：霍格華茲是一所魔法學校
回答（Answer）：我不是很確定，但我認為這是一所學校。

對問答系統來說，上面這個回答可能因為缺少關鍵細節「魔法」而被標記為不正確，因為使用者會認為這個答案並非完全正確，也沒有太大意義。

NLA可以提供更細節的理解力，例如認定學生的回答太過於籠統，而學生本人對此回答不夠確信。

Google探索全新NLU任務「自然語言評估」，正式面試前讓AI幫你熱身！

這種細微的評估，以及注意到學生所表達的不確定性，對於幫助學生在會話環境中建立技能非常重要。

主題預期

在許多情況下，提問者並不期望得到具體答案。

例如，如果一個學生被問到一個觀點類問題，並沒有具體的文本期望，提問者更關注的是回答相關性以及觀點，或許答案的簡潔度和流暢性也在提問者的評估範圍內。

問題：請進行自我介紹。（Tell me a little about yourself?）
期望：一個主題集合，可能包括“教育 ”、“經歷”、“興趣”等
回答：我在加州的薩利納斯長大，後來去了史丹佛大學，主修經濟學，但後來對科技產業感到興奮，所以接下來我...

在這種情況下，一個有用的評估輸出將把使用者的答案映射到所涉及的主題的子集，可能還有文本的哪些部分與哪個主題相關的標記。

從自然語言處理的角度來看，這很有挑戰性，因為答案可能很長，主題也可能是混合的，而且每個主題本身可能是多方面的。

主題性NLA模型

原則上，主題性NLA（Topicallity NLA）是一個標準的多分類任務，開發者可以根據常用的模型很容易地訓練出一個分類器。

但對於NLA來說，可用的訓練資料很少，收集每個問題和主題的訓練資料成本很高，而且很耗時。

Google的解決方案是將每個主題分解成可以使用大型語言模型(LLM)進行識別的細粒度元件，並進行簡單的通用調優。

研究人員將每個主題映射到一個潛在問題列表，並定義如果句子包含對這些潛在問題之一的答案，那麼它就涵蓋了該主題。

對於經歷（Experience）這個主題，模型可以選擇一些潛在的問題，例如:

你在哪裡工作？
你學什麼的？
...

再例如興趣（Interests）這個主題下，也有一些基本問題，如

你對什麼感興趣？
你喜歡做什麼？
...

這些基本問題是透過迭代的手工過程設計的。

重要的是，由於這些問題是足夠細粒度的，目前的語言模型可以捕捉這些句子內的語義（例如What和Where的區別），也使得開發者可以為NLA的主題任務提供一個zero-shot設定: 模型訓練一次後，即可不斷添加新的問題和新的主題，或透過修改基本內容期望改編現有的主題，而不需要收集主題特定的資料。

Google探索全新NLU任務「自然語言評估」，正式面試前讓AI幫你熱身！

幫助求職者準備面試

為了探索NLA的應用場景，Google的開發者也與求職者合作開發了一個新工具Interview Warmup，幫助用戶在IT Support和用戶體驗設計等快速成長的就業領域為面試做準備。

網站上提供了大量的問題，求職者自己在家就能練習回答行業專家提出的問題，以幫助在真人面試中變得更加自信和從容。

Google也是受求職者的啟發，在了解面試過程中的困難後提出了NLA研究。

Interview Warmup不會對答案進行評分或判斷，它只為使用者提供一個獨自練習的環境，並且幫助使用者進行自我改進。

每當使用者回答一個面試問題後，該答案會被NLA模型逐句解析，然後使用者可以在不同的談話要點之間切換，看看在他們的答案中發現了哪些要點。

研究人員意識到，在向使用者發出訊號表示他們的回饋是「好」時，存在著許多潛在的陷阱，尤其是當模型只偵測到有限的主題集時。

相反，系統把控制權掌握在使用者手中，只使用機器學習來幫助使用者發現如何改進。

Google探索全新NLU任務「自然語言評估」，正式面試前讓AI幫你熱身！

到目前為止，該工具已經幫助了大量來自世界各地的求職者，取得了很大的成果，並且開發團隊最近已經將其擴展到非洲，並計劃繼續與求職者合作，迭代並使該工具對數百萬正在尋找新工作的人更有幫助。

自然語言評估(NLA)是一個具有技術挑戰性和有趣的研究領域。

NLA為新的會話應用程式鋪平了道路，透過從多個角度對答案進行細緻入微的評估和分析，促進了學習。

透過與社群合作，從求職者和企業到課堂教師和學生，可以確定NLA有潛力幫助使用者學習、參與和發展各種學科的技能的情況，以負責任的方式建立應用程序，使用戶能夠評估自己的能力，並找到改進的方法。

參考資料：https://ai.googleblog.com/2022/10/natural-language-assessment-new.html

以上是Google探索全新NLU任務「自然語言評估」，正式面試前讓AI幫你熱身！的詳細內容。更多資訊請關注PHP中文網其他相關文章！