java - 使用什么样的技术为内容打标签?
黄舟
黄舟 2017-04-17 17:31:52
0
4
984

背景描述:
系统内部有医院,案例,医生,特卖产品的实体,需要给这些实体打标签,即在数据库中存一个标签字段,比如为一些医院,案例打上双眼皮的标签。打上的标签是供APP搜索使用的。目前的做法是让运营人员通过CMS系统手动给这些实体添加标签。但效率低下。怎样能够自动给这些实体打上标签,运营人员只需要配置标签即可。打标签的规则可以是匹配如医院介绍的文字,医院名称等字符串匹配。但存在比如需要给双眼皮的案例打上如杨庆峰(一个做双眼皮非常厉害的医生)的标签,这就麻烦了。目前这几种实体的数据记录总数在8000左右,为了让搜索时候各种记录有大致相同的被搜索到的机会,仅靠运营人员给部分记录手动打标签就不太合适了,会导致大部分记录无法被搜索出来。

技术咨询:
使用怎样的思想处理这样的问题,使用怎样的技术进行实际操作?

黄舟
黄舟

人生最曼妙的风景,竟是内心的淡定与从容!

全部回覆(4)
黄舟

打標籤可以使用文字分類

阿神

用分詞演算法對內容集合進行分詞然後將其中的高頻詞以及指定的某些詞提取出來,作為該段文字的標籤

洪涛

個人想法,最好有一個標籤庫,利用標籤庫中的文字去匹配您所說的醫院介紹文字、醫院名稱等,可以使用正則來實現,如果說雙眼皮匹配人名這種,就只能自定義個符合的規則了。

黄舟

說下自己的一些看法,並不懂JAVA
你需要的是分詞,根據你能拿到的有用資訊來進行分詞。之前粗略的了解 python 的自然語言處理相關的庫,應該能夠解決樓主的問題。

不太清楚你提到的這個麻煩事什麼問題,是拿不到這個案例對應的醫生信息, 還是說你們的數據結構有問題?

但存在例如需要給雙眼皮的案例打上如楊慶峰(一個做雙眼皮非常厲害的醫生)的標籤,這就麻煩了。

最後說下這裡的詞庫的來源,除了上面提到的根據已有的資訊來進行分詞,還可以是搜尋引擎裡面產業相關的搜尋字詞,站內搜尋字詞,從競爭對手獲得的相關搜尋字詞;其實只要解決80%的字(搜尋量大的字)使用者體驗就會上升一個等級

熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板