首頁 > 常見問題 > 自然語言處理是一門融語言學、電腦科學和什麼於一體的科學

自然語言處理是一門融語言學、電腦科學和什麼於一體的科學

青灯夜游
發布: 2023-01-13 00:31:25
原創
6267 人瀏覽過

自然語言處理是一門融語言學、電腦科學、數學於一體的科學。自然語言處理主要應用於機器翻譯、輿情監測、自動摘要、觀點提取、文字分類、問題回答、文字語意對比、語音辨識、中文OCR等。

自然語言處理是一門融語言學、電腦科學和什麼於一體的科學

本教學操作環境:windows7系統、Dell G3電腦。

自然語言處理( Natural Language Processing, NLP)是一門融語言學、電腦科學、數學於一體的科學。

自然語言處理是指利用人類溝通所使用的自然語言與機器互動通訊的技術。透過人為的對自然語言的處理,使得計算機對其能夠可讀並理解。自然語言處理的相關研究始於人類對機器翻譯的探索。雖然自然語言處理涉及語音、語法、語義、語用等多維度的操作,但簡單而言,自然語言處理的基本任務是基於本體詞典、詞頻統計、上下文語義分析等方式對待處理語料進行分詞,形成以最小詞性為單位,且富含語意的詞項單元。

自然語言處理以語言為對象,利用電腦技術來分析、理解和處理自然語言的一門學科,即把計算機作為語言研究的強大工具,在計算機的支持下對語言信息進行定量化的研究,並提供可供人與計算機之間能共同使用的語言描寫。包括自然語言理解( NaturalLanguage Understanding, NLU)和自然語言生成( Natural LanguageGeneration, NLG)兩部分。它是典型邊緣交叉學科,涉及語言科學、電腦科學、數學、認知學、邏輯學等,關注電腦和人類(自然)語言之間的相互作用的領域。人們把用電腦處理自然語言的過程在不同時期或重點不同時又稱為自然語言理解( Natural Language Understanding, NLU)、人類語言技術( Human Language Technology, HLT)、計算語言學Hl(Computational Linguistics) 、計量語言學( QuantitativeLinguistics)、數理語言學( Mathematical Linguistics)。

實現人機間自然語言通訊意味著要讓電腦既能理解自然語言文本的意義,也能以自然語言文本來表達給定的意圖、思想等。前者稱為自然語言理解,後者稱為自然語言生成。因此,自然語言處理大體包括了自然語言理解和自然語言生成兩個部分。歷史上對自然語言理解研究得較多,而對自然語言生成研究較少。但這種狀況已有所改變。

相關推薦:《程式學習

無論實現自然語言理解,或是自然語言生成,都遠不如人們原來想像的那麼簡單,而是十分困難的。從現有的理論和技術現狀來看,通用的、高品質的自然語言處理系統,仍然是較長期的努力目標,但是針對一定應用,具有相當自然語言處理能力的實用系統已經出現,有些已商品化,甚至開始產業化。典型的例子有:多語言資料庫和專家系統的自然語言介面、各種機器翻譯系統、全文資訊檢索系統、自動文摘系統等。

自然語言處理,即實現人機間自然語言通信,或實現自然語言理解和自然語言生成是十分困難的。造成困難的根本原因是自然語言文本和對話的各個層次上廣泛存在的各種各樣的歧義性或多義性(ambiguity)。

自然語言的形式(字串)與其意義之間是一種多對多的關係。其實這也正是自然語言的魅力所在。但從電腦處理的角度來看,我們必須消除歧義,而且有人認為它正是自然語言理解中的中心問題,即要把帶有潛在歧義的自然語言輸入轉換成某種無歧義的計算機內部表示。

歧義現象的廣泛存在使得消除它們需要大量的知識和推理,這就給基於語言學的方法、基於知識的方法帶來了巨大的困難,因而以這些方法為主流的自然語言處理研究幾十年來一方面在理論和方法方面取得了許多成就,但在能處理大規模真實文本的系統發展方面,成績並不顯著。研發的一些系統大多是小規模的、研究性的演示系統。

目前存在的問題有兩個面向:一方面,迄今為止的語法都限於分析一個孤立的句子,上下文關係和談話環境對本句的約束和影響還缺乏系統的研究,因此分析歧義、詞語省略、代名詞所指、同一句話在不同場合或由不同的人說出來所具有的不同含義等問題,尚無明確規律可循,需要加強語用學的研究才能逐步解決。另一方面,人們理解一個句子不是單憑語法,也運用了大量的有關知識,包括生活知識和專門知識,這些知識無法全部貯存在計算機裡。因此一個書面理解系統只能建立在有限的詞彙、句型和特定的主題範圍內;計算機的貯存量和運轉速度大大提高之後,才有可能適當擴大範圍.

以上存在的問題成為自然語言理解在機器翻譯應用中的主要難題,這也就是當今機器翻譯系統的譯文品質離理想目標仍相差甚遠的原因之一;而譯文品質是機譯系統成敗的關鍵。中國數學家、語言學家周海中教授曾在經典論文《機器翻譯五十年》中指出:要提高機譯的質量,首先要解決的是語言本身問題而不是程式設計問題;單靠若干程式來做機譯系統,肯定是無法提高機譯品質的;另外在人類尚未明了大腦是如何進行語言的模糊識別和邏輯判斷的情況下,機譯要想達到「信、達、雅」的程度是不可能的。

想要查閱更多相關文章,請造訪PHP中文網! !

以上是自然語言處理是一門融語言學、電腦科學和什麼於一體的科學的詳細內容。更多資訊請關注PHP中文網其他相關文章!

來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板