文本探勘已成為資料探勘中一個日益流行且重要的研究領域。與一般資料探勘以關係、事務和資料倉儲中的結構資料為研究目標所不同的是,文本探勘所研究的文本資料庫, 由來自各種資料來源的大量文件組成。這些文件可能包含標題、作者、出版日期、長度等結構化資料, 也可能包含摘要和內容等非結構化的文字成分,而且這些文件的內容是人類所使用的自然語言,電腦很難處理其語義。因此傳統的資訊檢索技術已不適應日益增加的大量文本資料處理的需要,進而人們提出文本挖掘的方法進行不同的文檔比較以及文檔重要性和相關性排列,又或者找出多個文檔的模式或趨勢等分析。
Nlpir Parser搜尋與挖掘智慧平台是網路搜尋、自然語言理解和文本探勘的技術開發的基礎工具集,開發平台由多個中間件組成,各個中間件API可以無縫地整合到客戶的各類複雜應用系統之中,可相容Windows,Linux,FreeBSD等不同作業系統,可供Java,C,C#等各類開發語言使用。
Nlpir Parser搜尋與挖掘智慧平台是一套專門針對原始文字集進行處理和加工的軟體,提供了中間件處理效果的可視化展示,也可以作為小規模資料的處理加工工具。使用者可以使用該軟體對自己的資料進行處理。
Nlpir Parser搜尋與挖掘智慧平台的十二大功能:
1. 全文精準檢索:支援文字、數字、日期、字串等各種資料類型,多字段的高效搜索,支援AND/OR/NOT以及NEAR鄰近等查詢語法,支援維語、藏語、蒙語、阿拉伯、韓語等多種少數民族語言的檢索。可無縫地與現有文字處理系統與資料庫系統整合。
2. 新詞發現:從文件集合中挖掘出內涵的新詞語列表,可以用於用戶專業詞典的編撰;還可以進一步編輯標註,導入分詞詞典中,從而提高分詞系統的準確度,並適應新的語言變化。
3. 分詞標註:對原始語料進行分詞、自動識別人名地名機構名等未登錄詞、新詞標註以及詞性標註。並可在分析過程中,導入使用者定義的字典。
4. 統計分析與術語翻譯:針對切分標註結果,系統可以自動地進行一元詞頻統計、二元詞語轉移機率統計(統計兩個詞左右連接的頻次即概率)。針對常用的術語,會自動給予對應的英文解釋。
5. 文本聚類及熱點分析:能夠從大規模資料中自動分析熱點事件,並提供事件話題的關鍵特徵描述。同時適用於長文本和簡訊、微博等短文本的熱點分析。
6. 分類過濾:針對事先指定的規則和範例樣本,系統自動從海量文件中篩選出符合需求的樣本。
7. 正負面分析:針對事先指定的分析對象和範例樣本,系統自動從海量文件中篩選出正負面的得分和句子樣例。
8. 自動摘要:能夠對單篇或多篇文章,自動提煉出內容的精華,方便用戶快速瀏覽文本內容。
9. 關鍵字提取:能夠對單篇文章或文章集合,提取若干個代表文章中心思想的詞彙或短語,可用於精化閱讀、語義查詢和快速匹配等。
10. 文件去重:能夠快速且準確地判斷文件集或資料庫中是否存在相同或類似內容的記錄,同時找出所有的重複記錄。
11. HTML正文提取:自動剔除導航性質的網頁,剔除網頁中的HTML標籤和導航、廣告等乾擾性文字,返回有價值的正文內容。適用於大規模互聯網資訊的預處理和分析。
12. 編碼自動辨識與轉換:自動辨識內容的編碼,並將編碼統一轉換為GBK編碼。
在多數情況下,文字探勘的資料集十分龐大且不斷增加,因此,這些資料不可能儲存在一台機器上進行運算。因此需要研究一種能夠並行運行的文本探勘演算法以在電腦叢集上並行地執行文字探勘任務。顯然,這結合了雲端運算以及資料密集型運算的需求,而這本身也是一個不斷成長的領域。
以上是Nlpir Parser搜尋與挖掘智慧平台的十二大功能的詳細內容。更多資訊請關注PHP中文網其他相關文章!