'創新呼聲:UCL汪軍探討ChatGPT通用人工智慧理論及應用前景'
*本文原為英文寫作,中文翻譯由 ChatGPT 完成,原貌呈現,少數歧義處標註更正(紅色黃色部分)。英文原稿見附錄。筆者發現 ChatGPT 翻譯不妥處,往往是本人才疏英文原稿表達不夠流暢,有興趣的讀者請對照閱讀。
ChatGPT 最近引起了研究界、商業界和一般大眾的關注。它是一個通用的聊天機器人,可以回答使用者的開放式提示或問題。人們對它卓越的、類似人類的語言技能產生了好奇心,它能夠提供連貫、一致和結構良好的答案。由於擁有一個大型的預訓練生成式語言模型,它的多輪對話互動支援各種基於文字和程式碼的任務,包括新穎創作、文字遊戲和甚至透過程式碼生成進行機器人操縱。這使得大眾相信通用機器學習和機器理解很快就能實現。
如果深入挖掘,人們可能會發現,當程式碼被添加為訓練資料時,模型達到特定規模時,某些推理能力、常識理解甚至思維鏈(一系列中間推理步驟)可能湧現。雖然這個新發現令人興奮,為人工智慧研究和應用開闢了新的可能性,但它引發的問題比解決的問題更多。例如,這些新興湧現的能力能否作為高階智慧的早期指標,或者它們只是幼稚地模仿人類行為?繼續擴展已經龐大的模型能否導致通用人工智慧(AGI)的誕生,還是這些模型只是表面上具有受限能力的人工智慧?如果這些問題得到回答,可能會引起人工智慧理論和應用的根本性轉變。
因此,我們敦促不僅要複製ChatGPT 的成功,更重要的是在以下人工智慧領域推動開創性研究和新的應用開發(這並不是詳盡列表):
1.新的機器學習理論,超越了基於任務的#機器學習的既定範式
#歸納推理是一種推理類型,我們根據過去的觀察得出關於世界的結論。機器學習可以被鬆散地看作是歸納推理,因為它利用過去(訓練)資料來提高在新任務上的表現。以機器翻譯為例,典型的機器學習流程包括以下四個主要步驟:
1.定義具體問題,例如需要將英文句子翻譯成中文:E → C,
2.收集數據,例如句子對{E → C},
3.訓練模型,例如使用輸入{E} 和輸出{C} 的深度神經網絡,
4.將模型應用於未知資料點,例如輸入新的英文句子E',輸出中文翻譯C ' 並評估結果。
如上所示,傳統機器學習將每個特定任務的訓練隔離。因此,對於每個新任務,必須從步驟 1 到步驟 4 重置並重新執行該過程,失去了先前任務的所有已獲得的知識(資料、模型等)。例如,如果要將法文翻譯成中文,則需要不同的模型。
在這個範式下,機器學習理論家的工作主要集中在理解學習模型從訓練資料到未見測試資料的泛化能力。例如,一個常見的問題是在訓練中需要多少樣本才能實現預測未見測試資料的某個誤差界限。我們知道,歸納偏差偏移量(即先驗知識或先驗假設)是學習模型預測其未遇到的輸出所必需的。這是因為在未知情況下的輸出值完全是任意的,如果不進行一定的假設,就不可能解決這個問題。著名的沒有免費午餐定理進一步說明,任何歸納偏差都有限制;它只適用於某些問題組,如果所假設的先驗知識不正確,它可能在其他地方失敗。
#圖 1 ChatGPT 用於機器翻譯的螢幕截圖。使用者提示資訊僅包含說明,無需演示範例。
雖然上述理論仍然適用,但基礎語言模型的出現可能改變了我們對機器學習的方法。新的機器學習流程可以如下(以機器翻譯問題為例,見圖1):
1.API 存取其他人訓練的基礎語言模型,例如訓練包含英文/中文配對語料在內的多元文件的模型。
2.根據少量範例或沒有範例,為手頭任務設計合適的文字描述(稱為提示),例如提示#Prompt = {幾個範例E ➔ C}。
3.在提示和給定的新測試資料點的條件下,語言模型產生答案,例如將 E’ 追加到提示中並從模型中產生 C’。
4.將答案解釋為預測結果。
如步驟 1 所示,基礎語言模型作為一個通用#一刀切的知識庫。步驟 2 中提供的提示和上下文使基礎語言模型可以根據少量演示實例自訂以解決特定的目標或問題。雖然上述流程主要局限於基於文字的問題,但可以合理地假設,隨著跨模態(見第 3 節)基礎預訓練模型的發展,它將成為機器學習的標準。這可能會打破必要的任務障礙,為通用人工智慧(AGI) 鋪平道路。
但是,確定提示文字中示範範例的操作方式仍處於早期階段。從一些早期的工作中,我們現在理解到,演示樣本的格式比標籤的正確性更重要(例如,如圖1 所示,我們不需要提供翻譯範例,但只需要提供語言說明),但它的可適應性是否有理論上的限制,如「沒有免費的午餐」 定理所述?提示中陳述的上下文和指令式的知識能否整合到模型中以供未來使用?這些問題只是開始探討。因此,我們呼籲對這種新形式的上下文學習及其理論限制和性質進行新的理解和新的原則,例如研究泛化的界限在哪裡。
#圖 2 人工智慧決策產生(AIGA)用於設計電腦遊戲的插圖。
2.磨練推理技巧
#我們正處於一個令人興奮的時代邊緣,在這個時代裡,我們所有的語言和行為資料都可以被挖掘出來,用於訓練(並被巨大的電腦化模型吸收)。這是一個巨大的成就,因為我們整個集體的經驗和文明都可以消化成一個(隱藏的)知識庫(以人工神經網路的形式),以便日後使用。實際上,ChatGPT 和大型基礎模型被認為展示了某種形式的推理能力,甚至可能在某種程度上理解他人的心態(心智理論)。這是透過資料擬合(將掩碼語言標記預測作為訓練訊號)和模仿(人類行為)來實現的。然而,這種完全基於數據驅動的策略是否會帶來更大的智慧還有待商榷。
為了說明這個觀點,以指導一個代理(智能體)如何下棋為例。即使代理(智能體)可以存取無限量的人類下棋數據,僅透過模仿現有策略來產生比已有數據更優的新策略將是非常困難的。但是,使用這些數據,可以建立對世界的理解(例如,遊戲規則),並將其用於 「思考」(在其大腦中建立一個模擬器,以收集回饋來創建更優的策略)。這突顯了歸納偏移的重要性;與其單純地採用蠻力方法,要求學習代理(智能體)具有一定的世界模型以便自我改進。
因此,迫切需要深入研究和理解基礎模型的新興能力。除了語言技能,我們主張透過研究底層機制來獲得實際推理能力。一個有前途的方法是從神經科學和腦科學中汲取靈感,以解密人類推理的機制,並推進語言模型的發展。同時,建立一個紮實的心智理論可能也需要深入了解多智能體學習及其基本原理。
3.從AI 產生內容(AIGC)到AI 生成行動(AIGA)
人類語言所發展出的隱式語意對於基礎語言模型來說至關重要。如何利用它是通用機器學習的關鍵主題。例如,一旦語義空間與其他媒體(如照片、影片和聲音)或其他形式的人類和機器行為資料(如機器人軌跡 / 動作)對齊,我們就可以無需額外成本地為它們獲得語義解釋能力。這樣,機器學習(預測、產生和決策)就會變得通用和可分解。然而,處理跨模態對齊是我們面臨的重大難題,因為標註關係需要耗費大量的人力。此外,當許多利益方存在衝突時,人類價值的對齊變得困難。
ChatGPT 的一個基本缺點是它只能直接與人類溝通。然而,一旦與外部世界建立了足夠的對齊,基礎語言模型應該能夠學習如何與各種各樣的參與者和環境互動。這很重要,因為它將賦予其推理能力和基於語言的語義更廣泛的應用和能力,超越了僅僅進行對話。例如,它可以發展成為一個通用代理(智能體),能夠瀏覽互聯網、控制電腦和操縱機器人。因此,更重要的是實施確保代理(智能體)的回應(通常以生成的操作形式)安全、可靠、無偏和可信賴的程序。
圖 2 展示了 AIGA 與遊戲引擎互動的範例,以自動化設計電子遊戲的過程。
4.多智能體與基礎語言模型互動的理論
ChatGPT 使用上下文學習和提示工程來在單一會話中驅動與人的多輪對話,即給定問題或提示,整個先前的對話(問題和回答)被發送到系統作為額外的上下文來建立回應。這是一個簡單的對話驅動的馬可夫決策過程(MDP)模型:
#{狀態 = 上下文,行動 = 回應,獎勵 = 讚 / 踩踏評級}。
雖然有效,但這種策略有以下缺點:首先,提示只是提供了使用者回應的描述,但使用者真正的意圖可能沒有被明確說明,必須被推斷。也許一個強大的模型,如先前針對對話機器人提出的部分可觀察馬可夫決策過程(POMDP),可以準確地建模隱藏的使用者意圖。
其次,ChatGPT 首先以擬合語言的生成為目標#使用語言適應性進行訓練,然後使用人類標籤進行對話目標的訓練/ 微調。由於平台的開放性質,實際使用者的目標和目的可能與訓練 / 微調的獎勵不一致。為了檢視人類和代理人(智能體)之間的均衡和利益衝突,使用博弈論的視角可能是值得的。
5.新應用
#正如ChatGPT 所證明的那樣,我們相信基礎語言模型有兩個獨特的特點,它們將成為未來機器學習和基礎語言模型應用的動力。第一個是其優越的語言技能,而第二個是其嵌入的語義和早期推理能力(以人類語言形式存在)。作為接口,前者將大大降低應用機器學習的入門門檻,而後者將顯著推廣機器學習的應用範圍。
如第 1 部分介紹的新學習流程所示,提示和情境學習消除了資料工程的瓶頸以及建置和訓練模型所需的工作量。此外,利用推理能力可以使我們自動分解和解決困難任務的每個子任務。因此,它將大大改變許多行業和應用領域。在網路企業中,基於對話的介面是網路和行動搜尋、推薦系統和廣告的明顯應用。然而,由於我們習慣於基於關鍵字的 URL 倒排索引搜尋系統,因此改變並不容易。人們必須被重新教導使用更長的查詢和自然語言作為查詢。此外,基礎語言模型通常是刻板和不靈活的。它們缺乏關於最近事件的當前資訊。它們通常會幻想事實,並不提供檢索能力和驗證。因此,我們需要一個能夠隨著時間動態演化的即時基礎模型。
因此,我們呼籲開發新的應用程序,包括但不限於以下領域:
-
##創新新穎
的提示工程、流程和軟體支援。 - 基於模型的網路搜尋、推薦和廣告生成;面向對話廣告的新商業模式。
- 針對基於對話的 IT 服務、軟體系統、無線通訊(個人化訊息系統)和客戶服務系統的技術。
- 從基礎語言模型產生機器人流程自動化(RPA)和軟體測試和驗證。
- AI 輔助程式設計。
- 創意產業的新型內容產生工具。
- 將語言模型與#運籌學營運研究
、企業智慧和最佳化統一起來。 - 在雲端運算中高效且具成本效益地服務大型基礎模型的方法。
- 針對強化學習、多智能體學習和其他人工智慧
#制定
######領域的基礎模型。 ############語言輔助機器人技術。 ############針對組合最佳化、#########電子設計自動化#########(EDA) 和晶片設計的基礎模型和推理。 ##################作者簡介#########汪军,伦敦大学学院(UCL)计算机系教授,上海数字大脑研究院联合创始人、院长,主要研究决策智能及大模型相关,包括机器学习、强化学习、多智能体,数据挖掘、计算广告学、推荐系统等。已发表 200 多篇学术论文,出版两本学术专著,多次获得最佳论文奖,并带领团队研发出全球首个多智能体决策大模型和全球第一梯队的多模态决策大模型。
Appendix:
Call for Innovation: Post-ChatGPT Theories of Artificial General Intelligence and Their Applications
ChatGPT has recently caught the eye of the research community, the commercial sector, and the general public. It is a generic chatbot that can respond to open-ended prompts or questions from users. Curiosity is piqued by its superior and human-like language skills delivering coherent, consistent, and well-structured responses. Its multi-turn dialogue interaction supports a wide range of text and code-based tasks, including novel creation, letter composition, textual gameplay, and even robot manipulation through code generation, thanks to a large pre-trained generative language model. This gives the public faith that generalist machine learning and machine understanding are achievable very soon.
If one were to dig deeper, they may discover that when programming code is added as training data, certain reasoning abilities, common sense understanding, and even chain of thought (a series of intermediate reasoning steps) may appear as emergent abilities [1] when models reach a particular size. While the new finding is exciting and opens up new possibilities for AI research and applications, it, however, provokes more questions than it resolves. Can these emergent abilities, for example, serve as an early indicator of higher intelligence, or are they simply naive mimicry of human behaviour hidden by data? Would continuing the expansion of already enormous models lead to the birth of artificial general intelligence (AGI), or are these models simply superficially intelligent with constrained capability? If answered, these questions may lead to fundamental shifts in artificial intelligence theory and applications.
We therefore urge not just replicating ChatGPT’s successes but most importantly, pushing forward ground-breaking research and novel application development in the following areas of artificial intelligence (by no means an exhaustive list):
1.New machine learning theory that goes beyond the established paradigm of task-specific machine learning
Inductive reasoning is a type of reasoning in which we draw conclusions about the world based on past observations. Machine learning can be loosely regarded as inductive reasoning in the sense that it leverages past (training) data to improve performance on new tasks. Taking machine translation as an example, a typical machine learning pipeline involves the following four major steps:
1.define the specific problem, e.g., translating English sentences to Chinese: E→C,
2.collect the data, e.g., sentence pairs { E→C },
3.train a model, e.g., a deep neural network with inputs {E} and outputs {C},
4.apply the model to an unseen data point, e.g., input a new English sentence E’ and output a Chinese translation C’ and evaluate the result.
As shown above, traditional machine learning isolates the training for each specific task. Hence, for each new task, one must reset and redo the process from step 1 to step 4, losing all acquired knowledge (data, models, etc.) from previous tasks. For instance, you would need a different model if you want to translate French into Chinese, rather than English to Chinese.
在這個範式下,機器學習理論家的工作主要集中在理解學習模型從訓練資料到未見過的測試資料的泛化能力[2, 3]。例如,一個常見的問題是我們在訓練中需要多少樣本才能達到預測未見過的測試資料的特定誤差範圍。我們知道,學習模型需要歸納偏差(即先驗知識或先驗假設)來預測它未遇到的產出。這是因為未知情況下的輸出值完全是任意的,如果不做出某些假設就無法解決問題。著名的「沒有免費午餐」定理 [5] 進一步指出,任何歸納偏差都有其限制。它只適用於某一組問題,如果假設的先驗知識不正確,它可能會在其他地方失敗。
#圖 1 用於機器翻譯的 ChatGPT 的螢幕截圖。提示僅包含說明,不需要示範範例。
雖然上述理論仍然成立,但基礎語言模型的到來可能已經改變了我們的機器學習方法。新的機器學習管道可能如下(使用相同的機器翻譯問題作為範例;參見圖 1):
1.API 存取由其他人在其他地方訓練的基礎語言模型,例如,用不同的文檔訓練的模型,包括英語/中文的配對語料庫,
2.用幾個例子或根本沒有例子,設計一個合適的文本描述(稱為手邊任務的提示),例如Prompt = {一些範例E→C },
#3.以提示和給定的新測試資料點、語言為條件模型產生答案,例如,將E' 附加到提示並從模型產生C',
##4.將答案解釋為預測結果。
如步驟1 所示,基礎語言模型充當通用的知識庫。步驟 2 中提供的提示(和上下文)允許僅透過幾個演示實例就可以針對特定目標或問題自訂基礎語言模型。雖然上述管道主要限於基於文字的問題,但可以合理地假設,隨著跨模態(參見第 3 節)基礎預訓練模型的不斷發展,它將成為一般機器學習的標準。這可以打破必要的任務障礙,為通用人工智慧鋪路。
但是,確定提示文字中的示範範例如何操作還處於早期階段。根據經驗,我們現在從一些早期工作 [2] 中了解到,演示樣本的格式比標籤的正確性更重要(例如,如圖 1 所示,我們不需要提供示例翻譯,但可以需要提供語言教學) ,但是如沒有免費午餐定理所述,它的適應性是否存在理論上的限制?提示(步驟 2)中所述的上下文和基於指令的知識是否可以整合到模型中以供將來使用?我們的這些調查只是觸及了表面。因此,我們呼籲對這種新形式的情境學習及其理論限制和屬性(例如泛化界限)背後有新的理解和新的原則。
圖 2 設計電腦遊戲的 AIGA 圖示。
################## ########2.培養推理能力########我們正處於一個令人興奮的時代的邊緣,在這個時代,我們所有的語言和行為資料都可以被挖掘來訓練(並被吸收)一個巨大的電腦化模型。這是一項巨大的成就,因為我們的整個集體經驗和文明可以被消化成一個單一的(隱藏的)知識庫(以人工神經網路的形式)以供以後使用。事實上,據說 ChatGPT 和大型基礎模型展示了某種形式的推理能力。他們甚至可以在某種程度上掌握他人的心理狀態(心理理論)[6]。這是透過資料擬合(預測掩碼語言標記作為訓練訊號)和模仿(人類行為)來完成的。然而,這種完全由數據驅動的策略是否會為我們帶來更多的情報,還存在爭議。
為了說明這個概念,請考慮指導代理人如何下西洋棋作為範例。即使智能體可以存取無限量的人類遊戲數據,僅透過模仿現有策略來產生比數據中已有策略更優化的新策略也是非常困難的。然而,使用這些數據,人們可以加深對世界的理解(例如遊戲規則),並用它來「思考」(在大腦中建立一個模擬器來收集回饋,以製定更優化的政策)。這凸顯了歸納偏差的重要性;學習代理需要擁有某種世界模型並從數據中推斷它以改進自身,而不是簡單的蠻力。
因此,迫切需要徹底研究和了解基礎模型的新興功能。除了語言技能之外,我們也主張透過研究潛在機制來研究實際推理能力的獲得[9]。一種有前途的方法是從神經科學和腦科學中汲取靈感,破解人類推理的機制並推進語言模型的發展。同時,建立堅實的心理理論可能還需要深入了解多智能體學習[10,11]及其基本原理。
##3.從AI生成內容(AIGC)到AI生成動作(AIGA)
#隱含語意的發展人類語言之上是基礎語言模型不可或缺的一部分。如何利用它是通用機器學習的一個重要課題。例如,一旦語義空間與其他媒體(例如照片、影片和聲音)或來自人類和機器行為的其他形式的資料(例如機器人軌跡/動作)對齊,我們就可以獲得它們的語義解釋能力,而無需額外的操作成本 [7, 14]。透過這種方式,機器學習(預測、生成和決策)將是通用且可分解的。然而,由於標記關係的勞動密集性質,處理跨模態對齊對我們來說是一個巨大的障礙。此外,當多方存在利益衝突時,人類價值協調就會變得困難。
ChatGPT 的一個根本缺點是它只能與人類直接溝通。然而,一旦與外部世界建立了充分的一致性,基礎語言模型應該能夠學習如何與各方和環境互動 [7, 14]。這很重要,因為它將賦予基於語言的推理能力和語義的力量,以實現會話之外更廣泛的應用和功能。例如,它可能演變成一個能夠瀏覽網路[7]、控制電腦[13]和操縱機器人[12]的多面手代理程式。因此,實施確保代理回應(通常以產生操作的形式)安全、可靠、公正且值得信賴的程序變得更加重要。
圖 2 演示了 AIGA [7],用於與遊戲引擎互動以自動化視訊遊戲的設計過程。
##4.與基礎語言模型互動的多主體理論 ChatGPT 使用上下文學習和提示工程來驅動在單一會話中與人們進行多輪對話,即,給定問題或提示,整個先前的對話(問題和回應)都會發送到系統作為構建響應的額外上下文。這是一個簡單的馬可夫決策過程 (MDP) 對話模型: {狀態 = 上下文,操作 = 回應,獎勵 = 贊成/反對評級}。 雖然有效,但該策略有以下缺點:首先,提示僅提供使用者回應的描述,但使用者的真實意圖可能無法明確表述,必須推斷出來。正如之前為對話機器人提出的那樣,一個穩健的模型可能是一個部分可觀察的馬可夫決策過程(POMDP),它可以準確地模擬隱藏的用戶意圖。 其次,ChatGPT 首先使用語言適應度進行訓練,然後使用人類標籤來實現對話目標。由於平台的開放性,實際使用者的目標可能與訓練/微調的獎勵不一致。為了檢視人類和代理人的均衡和利益衝突,可能值得使用博弈論的視角[9]。 ##5.新穎的應用 ChatGPT 證明,我們認為基礎語言模型有兩個顯著特徵相信將成為未來機器學習和基礎語言模型應用背後的驅動力。第一個是其卓越的語言技能,第二個是其嵌入的語義和早期推理能力(以人類語言的形式)。作為一個接口,前者將大大降低應用機器學習的進入門檻,而後者將顯著概括機器學習的應用方式。 如第 1 節中介紹的新學習流程所示,提示和上下文學習消除了資料工程的瓶頸以及建構和訓練模型所需的工作。此外,利用推理能力可以使我們自動剖析和解決困難任務的每個子任務。因此,它將極大地改變眾多行業和應用領域。在基於互聯網的企業中,基於對話的介面是網路和行動搜尋、推薦系統和廣告的明顯應用。然而,由於我們已經習慣了基於關鍵字的URL倒排索引搜尋系統,所以這種改變並不簡單。必須重新訓練人們使用更長的查詢和自然語言作為查詢。此外,基礎語言模型通常是僵化且不靈活的。它無法獲取有關最近事件的當前資訊。它們通常會產生幻覺事實,並且不提供檢索功能和驗證。因此,我們需要一個能夠隨著時間的推移進行動態演化的即時基礎模型。 因此,我們呼籲新穎的應用,包括但不限於以下領域:
以上是'創新呼聲:UCL汪軍探討ChatGPT通用人工智慧理論及應用前景'的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

DALL-E 3 於 2023 年 9 月正式推出,是比其前身大幅改進的車型。它被認為是迄今為止最好的人工智慧圖像生成器之一,能夠創建具有複雜細節的圖像。然而,在推出時,它不包括

本站6月27日訊息,剪映是由位元組跳動旗下臉萌科技開發的一款影片剪輯軟體,依託於抖音平台且基本面向該平台用戶製作短影片內容,並相容於iOS、安卓、Windows 、MacOS等作業系統。剪映官方宣布會員體系升級,推出全新SVIP,包含多種AI黑科技,例如智慧翻譯、智慧劃重點、智慧包裝、數位人合成等。價格方面,剪映SVIP月費79元,年費599元(本站註:折合每月49.9元),連續包月則為59元每月,連續包年為499元每年(折合每月41.6元) 。此外,剪映官方也表示,為提升用戶體驗,向已訂閱了原版VIP

透過將檢索增強生成和語意記憶納入AI編碼助手,提升開發人員的生產力、效率和準確性。譯自EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG,作者JanakiramMSV。雖然基本AI程式設計助理自然有幫助,但由於依賴對軟體語言和編寫軟體最常見模式的整體理解,因此常常無法提供最相關和正確的程式碼建議。這些編碼助手產生的代碼適合解決他們負責解決的問題,但通常不符合各個團隊的編碼標準、慣例和風格。這通常會導致需要修改或完善其建議,以便將程式碼接受到應

大型語言模型(LLM)是在龐大的文字資料庫上訓練的,在那裡它們獲得了大量的實際知識。這些知識嵌入到它們的參數中,然後可以在需要時使用。這些模型的知識在訓練結束時被「具體化」。在預訓練結束時,模型實際上停止學習。對模型進行對齊或進行指令調優,讓模型學習如何充分利用這些知識,以及如何更自然地回應使用者的問題。但是有時模型知識是不夠的,儘管模型可以透過RAG存取外部內容,但透過微調使用模型適應新的領域被認為是有益的。這種微調是使用人工標註者或其他llm創建的輸入進行的,模型會遇到額外的實際知識並將其整合

編輯|ScienceAI問答(QA)資料集在推動自然語言處理(NLP)研究中發揮著至關重要的作用。高品質QA資料集不僅可以用於微調模型,也可以有效評估大語言模型(LLM)的能力,尤其是針對科學知識的理解和推理能力。儘管目前已有許多科學QA數據集,涵蓋了醫學、化學、生物等領域,但這些數據集仍有一些不足之處。其一,資料形式較為單一,大多數為多項選擇題(multiple-choicequestions),它們易於進行評估,但限制了模型的答案選擇範圍,無法充分測試模型的科學問題解答能力。相比之下,開放式問答

編輯|KX在藥物研發領域,準確有效地預測蛋白質與配體的結合親和力對於藥物篩選和優化至關重要。然而,目前的研究並沒有考慮到分子表面訊息在蛋白質-配體相互作用中的重要作用。基於此,來自廈門大學的研究人員提出了一種新穎的多模態特徵提取(MFE)框架,該框架首次結合了蛋白質表面、3D結構和序列的信息,並使用交叉注意機制進行不同模態之間的特徵對齊。實驗結果表明,該方法在預測蛋白質-配體結合親和力方面取得了最先進的性能。此外,消融研究證明了該框架內蛋白質表面資訊和多模態特徵對齊的有效性和必要性。相關研究以「S

本站7月5日消息,格芯(GlobalFoundries)於今年7月1日發布新聞稿,宣布收購泰戈爾科技(TagoreTechnology)的功率氮化鎵(GaN)技術及智慧財產權組合,希望在汽車、物聯網和人工智慧資料中心應用領域探索更高的效率和更好的效能。隨著生成式人工智慧(GenerativeAI)等技術在數位世界的不斷發展,氮化鎵(GaN)已成為永續高效電源管理(尤其是在資料中心)的關鍵解決方案。本站引述官方公告內容,在本次收購過程中,泰戈爾科技公司工程師團隊將加入格芯,進一步開發氮化鎵技術。 G

本站8月1日消息,SK海力士今天(8月1日)發布博文,宣布將出席8月6日至8日,在美國加州聖克拉拉舉行的全球半導體記憶體峰會FMS2024,展示諸多新一代產品。未來記憶體和儲存高峰會(FutureMemoryandStorage)簡介前身是主要面向NAND供應商的快閃記憶體高峰會(FlashMemorySummit),在人工智慧技術日益受到關注的背景下,今年重新命名為未來記憶體和儲存高峰會(FutureMemoryandStorage),以邀請DRAM和儲存供應商等更多參與者。新產品SK海力士去年在
