数据库性能优化 - mysql 中根据文章中的多个关键字来匹配其他文章的sql语句优化？

Question

我有三个表是这样的，： 文章表 article： 关键字表 tag： 关键字与文章的关联表 article_tag： 要求： 给定一个文章的id（article_id） 通过关键字获取其他的文章并根据关联度排序！ 我些的sql是这样的： {代码....

PHP中文网 · Answer

article表可考虑增加一列tag_ids做冗余，这样就省略了一个in的子查询。这个子查询如果在表article_tag的article_id列上没有索引的情况，效率很低。 > select tag_id from article_tag where article_id=1
如果tag比较多的话，再增加article_tag的tag_id列索引，提高根据tag_id查询的效率。

针对你的需求，仅仅就sql查询的优化，差不多能想到的就这么多！在数据量不大的情况下(你列举的20w的级别)，应该能够解决。下面说一些数据库之外的优化：

首先，从应用需求的角度，关联度排序后的文章列表完全不必全部展示，也不必每次都实时查询数据库，因为这个关联列表对更新频率的容忍度比较高，这样的话，就可以冗余存储关联文章列表，例如每个文章只需存储关联度最高的10条记录：这方面segmentfault中每个问题右边栏的相关问题就是个很好的示例。至于实现方式：可简单考虑在表article增加一列most_related_article_ids，然后定时执行SQL去更新表article的这个字段；
其次，从应用实现的角度，上述每个文章的关联列表可能根据相同标签的个数，相同标签的权重，不同标签的关联程度来计算，这是有可能的后续需求。很显然这是一个复杂的算法实现，不是一个简单的SQL能够实现，前面提到的冗余存储关联文章列表就可以很好的解决这个问题，原先的定时SQL执行更新逻辑，可以交给程序来完成。
最后，如果这样还是存在效率的话，可以考虑缓存方案。(PS: 不建议一开始就考虑缓存，毕竟缓存方案会引入数据不一致、缓存失效和缓存更新策略等一系列新的问题，在简单的应用场景下，得不偿失)

php8，我來也