背景描述:
系统内部有医院,案例,医生,特卖产品的实体,需要给这些实体打标签,即在数据库中存一个标签字段,比如为一些医院,案例打上双眼皮的标签。打上的标签是供APP搜索使用的。目前的做法是让运营人员通过CMS系统手动给这些实体添加标签。但效率低下。怎样能够自动给这些实体打上标签,运营人员只需要配置标签即可。打标签的规则可以是匹配如医院介绍的文字,医院名称等字符串匹配。但存在比如需要给双眼皮的案例打上如杨庆峰(一个做双眼皮非常厉害的医生)的标签,这就麻烦了。目前这几种实体的数据记录总数在8000左右,为了让搜索时候各种记录有大致相同的被搜索到的机会,仅靠运营人员给部分记录手动打标签就不太合适了,会导致大部分记录无法被搜索出来。
技术咨询:
使用怎样的思想处理这样的问题,使用怎样的技术进行实际操作?
打标签可以使用文本分类
用分词算法对内容集合进行分词然后将其中的高频词以及指定的某些词提取出来,作为该段文字的标签
个人想法,最好有一个标签库,利用标签库中的文字去匹配您所说的医院介绍文字、医院名称等,可以使用正则来实现,如果说双眼皮匹配人名这种,就只能自定义个匹配的规则了。
说下自己的一些看法,并不懂JAVA
你需要的是分词,根据你能够拿到的有用信息来进行分词。之前粗略的了解过 python 的自然语言处理相关的库,应该能够解决楼主的问题。
不太清楚你提到的这个麻烦事什么问题,是拿不到这个案例对应的医生信息, 还是说你们的数据结构有问题?
最后说下这里的词库的来源,除了上面提到的根据已有的信息来进行分词,还可以是搜索引擎里面行业相关的搜索词,站内搜索词,从竞争对手获得的相关搜索词;其实只要解决80%的词(搜索量大的词)用户体验就会上升一个等级