计算词汇出现的次数-php教程-PHP中文网

回复讨论(解决方案)

首页

后端开发

php教程

计算词汇出现的次数

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 23, 2016 pm 02:05 PM

有一组非日常的英文词汇，我需要计算在英文文章中出现频次最多的。
于是我最初想到遍历数组，用 substr_count 依次计算每个词汇出现的次数，但这样就会造成对整篇文章多次重复的扫描。或者将文章也拆分成词汇，从中用数组函数计算交集数量，但依然觉得不理想。

各位有什么想法吗？这个应用其实也就是关键词提取。

回复讨论(解决方案)

拆成数组为何不好，英文入数组很方便啊，起码比中文简单多了
其实不太明白你的需求，纯粹统计 array_count_values 足够方便了

就是说你已经有了一个词库，现在需要在文章里检查词库词的出现次数
如果是的，那么可以使用 trie 算法（我发过的）
只需扫描文章一遍就可以了，当然要先构造词库

就是说你已经有了一个词库，现在需要在文章里检查词库词的出现次数
如果是的，那么可以使用 trie 算法（我发过的）
只需扫描文章一遍就可以了，当然要先构造词库

词库保存为什么格式比较好？mysql，json，xml，纯数组？

如果一篇文章有5kb，词库有1000个单词，那么把这1000个单词逐个foreach，匹配这篇文章，

mysql_query,
json_decode()
simplexml_load_file()
数组

哪个效率更高，更节省资源（CPU，RAM）？

5kb不太可能有1000个单词，全部都是冠词？

即使1000个，量也不算很大，去除重复应该就少很多了，一次数组交集就够了

我的思路是文章拆分为单词数组，array_count_values 就起到统计和去除重复两个功能
然后提取次数一定的部分（次数太少没匹配意义吧？），那剩下就很少了，再与现存词库求交集就足够了

虽然楼主是专指英文词汇，但是你的算法若只限于英文词汇的话，那就没有什么意义了

5kb不太可能有1000个单词，全部都是冠词？

即使1000个，量也不算很大，去除重复应该就少很多了，一次数组交集就够了

我的思路是文章拆分为单词数组，array_count_values 就起到统计和去除重复两个功能
然后提取次数一定的部分（次数太少没匹配意义吧？），那剩下就很少了，再与现存词库求交集就足够了

你说的也有道理
只是我觉得简单问题简单处理，他既然说英文，就按这样去想，没必要太花时间考虑算法
如果他说混杂多语种，估计我也只是旁观不会回这贴了，呵呵

虽然楼主是专指英文词汇，但是你的算法若只限于英文词汇的话，那就没有什么意义了

引用 4 楼 snmr_com 的回复:5kb不太可能有1000个单词，全部都是冠词？

即使1000个，量也不算很大，去除重复应该就少很多了，一次数组交集就够了

我的思路是文章拆分为单词数组，array_count_values 就起到统计和去除重复两个功能
然后提取次数……

版本给的前缀树怎么也没看懂，暂时先选择了多次扫描文章来实现

一个简单的例子

include 'TTrie.php';class wordkey extends TTrie {  function b() {    $t = array_pop($this->buffer);    $this->buffer[] = "<b>$t</b>";  }}$p = new wordkey;$p->set('秦始皇', 'b');$p->set('洛阳', 'b');$t = $p->match('秦始皇东巡洛阳');echo join('', $t);

登录后复制

秦始皇东巡洛阳

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸！

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

Java教程

1662

CakePHP 教程

1418

Laravel 教程

1311

PHP教程

1261

C# 教程

1234

显示更多

Related knowledge

说明PHP中的不同错误类型（注意，警告，致命错误，解析错误）。 Apr 08, 2025 am 12:03 AM

PHP中有四种主要错误类型：1.Notice：最轻微，不会中断程序，如访问未定义变量；2.Warning：比Notice严重，不会终止程序，如包含不存在文件；3.FatalError：最严重，会终止程序，如调用不存在函数；4.ParseError：语法错误，会阻止程序执行，如忘记添加结束标签。

PHP和Python：比较两种流行的编程语言 Apr 14, 2025 am 12:13 AM

PHP和Python各有优势，选择依据项目需求。1.PHP适合web开发，尤其快速开发和维护网站。2.Python适用于数据科学、机器学习和人工智能，语法简洁，适合初学者。

说明PHP中的安全密码散列（例如，password_hash，password_verify）。为什么不使用MD5或SHA1？ Apr 17, 2025 am 12:06 AM

在PHP中，应使用password_hash和password_verify函数实现安全的密码哈希处理，不应使用MD5或SHA1。1)password_hash生成包含盐值的哈希，增强安全性。2)password_verify验证密码，通过比较哈希值确保安全。3)MD5和SHA1易受攻击且缺乏盐值，不适合现代密码安全。

PHP行动：现实世界中的示例和应用程序 Apr 14, 2025 am 12:19 AM

PHP在电子商务、内容管理系统和API开发中广泛应用。1)电子商务：用于购物车功能和支付处理。2)内容管理系统：用于动态内容生成和用户管理。3)API开发：用于RESTfulAPI开发和API安全性。通过性能优化和最佳实践，PHP应用的效率和可维护性得以提升。

什么是HTTP请求方法（获取，发布，放置，删除等），何时应该使用？ Apr 09, 2025 am 12:09 AM

HTTP请求方法包括GET、POST、PUT和DELETE，分别用于获取、提交、更新和删除资源。1.GET方法用于获取资源，适用于读取操作。2.POST方法用于提交数据，常用于创建新资源。3.PUT方法用于更新资源，适用于完整更新。4.DELETE方法用于删除资源，适用于删除操作。

PHP：网络开发的关键语言 Apr 13, 2025 am 12:08 AM

PHP是一种广泛应用于服务器端的脚本语言，特别适合web开发。1.PHP可以嵌入HTML，处理HTTP请求和响应，支持多种数据库。2.PHP用于生成动态网页内容，处理表单数据，访问数据库等，具有强大的社区支持和开源资源。3.PHP是解释型语言，执行过程包括词法分析、语法分析、编译和执行。4.PHP可以与MySQL结合用于用户注册系统等高级应用。5.调试PHP时，可使用error_reporting()和var_dump()等函数。6.优化PHP代码可通过缓存机制、优化数据库查询和使用内置函数。7