背景描述:
系统内部有医院,案例,医生,特卖产品的实体,需要给这些实体打标签,即在数据库中存一个标签字段,比如为一些医院,案例打上双眼皮的标签。打上的标签是供APP搜索使用的。目前的做法是让运营人员通过CMS系统手动给这些实体添加标签。但效率低下。怎样能够自动给这些实体打上标签,运营人员只需要配置标签即可。打标签的规则可以是匹配如医院介绍的文字,医院名称等字符串匹配。但存在比如需要给双眼皮的案例打上如杨庆峰(一个做双眼皮非常厉害的医生)的标签,这就麻烦了。目前这几种实体的数据记录总数在8000左右,为了让搜索时候各种记录有大致相同的被搜索到的机会,仅靠运营人员给部分记录手动打标签就不太合适了,会导致大部分记录无法被搜索出来。
技术咨询:
使用怎样的思想处理这样的问题,使用怎样的技术进行实际操作?
Anda boleh menggunakan klasifikasi teks untuk mengetag
Gunakan algoritma pembahagian perkataan untuk membahagikan koleksi kandungan dan mengekstrak perkataan frekuensi tinggi dan perkataan tertentu tertentu sebagai label untuk teks
Pada pendapat peribadi saya, adalah lebih baik untuk mempunyai perpustakaan tag, dan gunakan teks dalam perpustakaan tag untuk memadankan teks pengenalan hospital, nama hospital, dll. Anda boleh menggunakan peraturan biasa untuk mencapai ini anda ingin memadankan kelopak mata berganda dengan nama seseorang, cuma Anda boleh menyesuaikan peraturan padanan.
Beritahu saya beberapa pendapat anda, saya tidak faham JAVA
Apa yang anda perlukan ialah pembahagian perkataan, dan bahagikannya berdasarkan maklumat berguna yang boleh anda perolehi. Saya mempunyai pemahaman kasar tentang pustaka berkaitan pemprosesan bahasa semula jadi python sebelum ini, yang sepatutnya dapat menyelesaikan masalah poster asal.
Saya tidak pasti apa masalahnya dengan masalah yang anda nyatakan Adakah kerana anda tidak boleh mendapatkan maklumat doktor yang sepadan dengan kes ini, atau adakah terdapat sesuatu yang salah dengan struktur data anda?
Akhir sekali, mari kita bincangkan tentang sumber perbendaharaan kata di sini Selain daripada pembahagian perkataan berdasarkan maklumat sedia ada yang dinyatakan di atas, ia juga boleh menjadi istilah carian berkaitan industri dalam enjin carian, istilah carian di tapak dan carian yang berkaitan. diperoleh daripada perkataan pesaing; sebenarnya, selagi 80% daripada perkataan (perkataan dengan volum carian besar) diselesaikan, pengalaman pengguna akan meningkat ke tahap yang lebih tinggi