背景描述:
系统内部有医院,案例,医生,特卖产品的实体,需要给这些实体打标签,即在数据库中存一个标签字段,比如为一些医院,案例打上双眼皮的标签。打上的标签是供APP搜索使用的。目前的做法是让运营人员通过CMS系统手动给这些实体添加标签。但效率低下。怎样能够自动给这些实体打上标签,运营人员只需要配置标签即可。打标签的规则可以是匹配如医院介绍的文字,医院名称等字符串匹配。但存在比如需要给双眼皮的案例打上如杨庆峰(一个做双眼皮非常厉害的医生)的标签,这就麻烦了。目前这几种实体的数据记录总数在8000左右,为了让搜索时候各种记录有大致相同的被搜索到的机会,仅靠运营人员给部分记录手动打标签就不太合适了,会导致大部分记录无法被搜索出来。
技术咨询:
使用怎样的思想处理这样的问题,使用怎样的技术进行实际操作?
태그에 텍스트 분류를 사용할 수 있습니다
단어 분할 알고리즘을 사용하여 콘텐츠 컬렉션을 분할하고 빈도가 높은 단어와 특정 특정 단어를 텍스트 레이블로 추출합니다.
개인적인 생각으로는 태그 라이브러리를 갖고 있는 것이 가장 좋으며, 태그 라이브러리에 있는 텍스트를 말씀하신 병원 소개 텍스트, 병원 이름 등과 일치시키는 것이 좋습니다. 이를 위해서는 일반적인 규칙을 사용하면 됩니다. 쌍꺼풀을 사람 이름에 맞추고 싶다면 매칭 규칙을 맞춤 설정할 수 있습니다.
당신의 의견을 말해 보세요. 저는 JAVA를 이해하지 못합니다
당신에게 필요한 것은 단어 분할, 그리고 얻을 수 있는 유용한 정보를 기반으로 분할하는 것입니다. 예전에 python의 자연어 처리 관련 라이브러리에 대해 대략적으로 이해한 적이 있어서 원본 포스터의 문제를 해결할 수 있을 것 같았습니다.
말씀하신 문제의 문제점이 무엇인지 잘 모르겠습니다. 이 사례에 해당하는 의사 정보를 얻을 수 없어서 그런 걸까요, 아니면 데이터 구조에 문제가 있는 걸까요?
마지막으로 여기서는 어휘의 출처에 대해 이야기해 보겠습니다. 위에서 언급한 기존 정보를 기반으로 한 단어 분할 외에도 검색 엔진에서 업계 관련 검색어, 현장 검색어, 연관 검색어가 될 수도 있습니다. 실제로 경쟁사에서 얻은 단어(검색량이 많은 단어)의 80%가 해결되면 사용자 경험이 더 높아집니다