假設有以下的多條資料:
佛山市威尔康乳胶制品有限公司 爱奥乐医疗器械(深圳)有限公司 ...
現在如何判斷這些資料中哪些是有效的企業註冊名稱,希望說下思路。
這樣的工商資訊最好是去工商網站看一下了,能不能查到,不過工商網站有查詢限制,驗證碼什麼的,自動化處理的話要注意下
這屬於命名實體辨識(NER),如果你只是想應用而已,直接import jieba就行了。
import jieba
如果是想具體學習原理,推薦論文NLP from scratch
這樣的工商資訊最好是去工商網站看一下了,能不能查到,不過工商網站有查詢限制,驗證碼什麼的,自動化處理的話要注意下
這屬於命名實體辨識(NER),如果你只是想應用而已,直接
import jieba
就行了。如果是想具體學習原理,推薦論文NLP from scratch