Supposons qu'il existe plusieurs éléments de données comme suit :
佛山市威尔康乳胶制品有限公司
爱奥乐医疗器械(深圳)有限公司
...
Maintenant, comment déterminer lesquelles de ces données sont des noms d'enregistrement d'entreprise valides, j'espère que vous pourrez me donner quelques idées.
Il est préférable d'aller sur le site Web industriel et commercial pour voir si vous pouvez trouver de telles informations industrielles et commerciales. Cependant, le site Web industriel et commercial a des restrictions de requête, des codes de vérification, etc. Si vous souhaitez automatiser le traitement, vous devez y prêter attention. à ça
Cela appartient à la reconnaissance d'entités nommées (NER). Si vous souhaitez simplement l'appliquer, juste
import jieba
.Si vous souhaitez apprendre les principes en détail, je vous recommande la PNL papier à partir de zéro