Jetzt segmentiere ich Wörter nach Titel, jeder Titel hat 3 Wörter.
Ich habe eine separate Tag-Tabelle erstellt, um die unterteilten Wörter zu speichern, mit einem Datensatz für jedes Wort. Beim Lesen verwandter Artikel lese ich nach dem Zufallsprinzip ein Tag und durchsuche es dann Tags-Tabelle für dasselbe Tag, es war in Ordnung, als es in der Vergangenheit nur wenige Daten gab, aber jetzt enthält die Tag-Tabelle mehr als 100 Millionen Daten und ist sehr langsam zu lesen. Die Tag-Tabelle hat nur 2 Felder , eine Artikel-ID und Wortsegmentierung. Sie werden alle indiziert und dann partitioniert.
Gibt es eine andere Möglichkeit, verwandte Artikel zu schreiben?
Jetzt kommt jeden Tag 5W+++ hinzu
相关性的衡量,应该有好几个维度:
1,文章所属板块,比如娱乐
2,文章中心思想或者主题是啥,要提取出来
3,时间和主要对象(人物、事件)相关
一篇文章可能有多个主体对象,可能跨板块进行关联