SCWS的scws_get_words函数是否存在bug-php教程-PHP中文网

回复内容：

首页

后端开发

php教程

SCWS的scws_get_words函数是否存在bug

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 06, 2016 pm 08:52 PM

c php 中文分词

SCWS是国人做的一个很优秀的分词库，它的php扩展可以方便地处理中文分词。现在发现其中一个函数scws_get_words函数的问题，这个函数是用来获取分词结果的，其第二个参数可以指定你需要返回的结果，这是它的c api文档描述(php大同小异)

·scws_top_t scws_get_words(scws_t s, char *xattr);
描述：返回指定词性的关键词表，系统会根据词语出现的先后插入列表。参数 xattr 用来描述要排除
或参与的统计词汇词性，多个词性之间用逗号隔开。当以~开头时表示统计结果中不包含这些词性，
否则表示必须包含，传入 NULL 表示统计全部词性。
返回值：返回词表集链表的头指针，该词表集必须调用 scws_free_tops 释放
错误：无

也就是说我只需要在第二个参数里加上以逗号分割的参数即可，比如我加上'~Ag,~a,~ad,~b,~c,~Dg,~d,~e'字符，表示我要在结果中过滤掉这些。

但实际的结果是，无论你加了多少过滤条件都不起作用，但相反，如果你只加一个过滤条件比如'~a'，也就是没有逗号的时候，它可以把相应的结果过滤掉。所以我考虑这之中是否存在bug。下面附上此函数的c实现代码，大家帮我看看

// get words by attr (rand order)
scws_top_t scws_get_words(scws_t s, char *xattr)
{
	int off, cnt, xmode = SCWS_NA;
	xtree_t xt;	
	scws_res_t res, cur;
	scws_top_t top, tail, base;
	char *word;
	word_attr *at = NULL;

	if (!s || !s->txt || !(xt = xtree_new(0,1)))
		return NULL;

	__PARSE_XATTR__;

	// save the offset.
	off = s->off;
	s->off = 0;
	base = tail = NULL;
	while ((cur = res = scws_get_result(s)) != NULL)
	{
		do
		{
			/* check attribute filter */
			if (at != NULL)
			{
				if ((xmode == SCWS_NA) && !_attr_belong(cur->attr, at))
					continue;

				if ((xmode == SCWS_YEA) && _attr_belong(cur->attr, at))
					continue;
			}

			/* put to the stats */
			if (!(top = xtree_nget(xt, s->txt + cur->off, cur->len, NULL)))
			{
				top = (scws_top_t) malloc(sizeof(struct scws_topword));
				top->weight = cur->idf;
				top->times = 1;
				top->next = NULL;
				top->word = (char *)_mem_ndup(s->txt + cur->off, cur->len);
				strncpy(top->attr, cur->attr, 2);
				// add to the chain
				if (tail == NULL)
					base = tail = top;
				else
				{
					tail->next = top;
					tail = top;
				}
				xtree_nput(xt, top, sizeof(struct scws_topword), s->txt + cur->off, cur->len);
			}
			else
			{
				top->weight += cur->idf;
				top->times++;
			}
		}
		while ((cur = cur->next) != NULL);
		scws_free_result(res);
	}

	// free at & xtree
	if (at != NULL)
		free(at);
	xtree_free(xt);

	// restore the offset
	s->off = off;
	return base;
}

登录后复制

我发现它的__PARSE_XATTR__宏有些问题啊，这里另外附上word_attr的结构定义

/* macro to parse xattr -> xmode, at */
#define	__PARSE_XATTR__		do {				\
	if (xattr == NULL) break;				\
	if (*xattr == '~') { xattr++; xmode = SCWS_YEA; }	\
	if (*xattr == '\0') break;				\
	cnt = ((strlen(xattr)/2) + 2) * sizeof(word_attr);	\
	at = (word_attr *) malloc(cnt);				\
	memset(at, 0, cnt);					\
	cnt = 0;						\
	for (cnt = 0; (word = strchr(xattr, ',')); cnt++) {	\
		strncpy(at[cnt], xattr, 2);			\
		xattr = word + 1;				\
	}							\
	strncpy(at[cnt], xattr, 2);				\
} while (0)

typedef char word_attr[4];

登录后复制

这样处理xattr的话，只能处理词性是2个字符的情况，因为它strncpy(at[cnt], xattr, 2);。这也太马虎了吧，词性表里有一堆一个字符的词性啊，它copy的话就会把逗号也copy进去啊。

自己全部用2个字符的词性过滤试了一下，果然可以了。。。大家考虑下这里应该怎么改下吧

回复内容：

·scws_top_t scws_get_words(scws_t s, char *xattr);
描述：返回指定词性的关键词表，系统会根据词语出现的先后插入列表。参数 xattr 用来描述要排除
或参与的统计词汇词性，多个词性之间用逗号隔开。当以~开头时表示统计结果中不包含这些词性，
否则表示必须包含，传入 NULL 表示统计全部词性。
返回值：返回词表集链表的头指针，该词表集必须调用 scws_free_tops 释放
错误：无

也就是说我只需要在第二个参数里加上以逗号分割的参数即可，比如我加上'~Ag,~a,~ad,~b,~c,~Dg,~d,~e'字符，表示我要在结果中过滤掉这些。

// get words by attr (rand order)
scws_top_t scws_get_words(scws_t s, char *xattr)
{
	int off, cnt, xmode = SCWS_NA;
	xtree_t xt;	
	scws_res_t res, cur;
	scws_top_t top, tail, base;
	char *word;
	word_attr *at = NULL;

	if (!s || !s->txt || !(xt = xtree_new(0,1)))
		return NULL;

	__PARSE_XATTR__;

	// save the offset.
	off = s->off;
	s->off = 0;
	base = tail = NULL;
	while ((cur = res = scws_get_result(s)) != NULL)
	{
		do
		{
			/* check attribute filter */
			if (at != NULL)
			{
				if ((xmode == SCWS_NA) && !_attr_belong(cur->attr, at))
					continue;

				if ((xmode == SCWS_YEA) && _attr_belong(cur->attr, at))
					continue;
			}

			/* put to the stats */
			if (!(top = xtree_nget(xt, s->txt + cur->off, cur->len, NULL)))
			{
				top = (scws_top_t) malloc(sizeof(struct scws_topword));
				top->weight = cur->idf;
				top->times = 1;
				top->next = NULL;
				top->word = (char *)_mem_ndup(s->txt + cur->off, cur->len);
				strncpy(top->attr, cur->attr, 2);
				// add to the chain
				if (tail == NULL)
					base = tail = top;
				else
				{
					tail->next = top;
					tail = top;
				}
				xtree_nput(xt, top, sizeof(struct scws_topword), s->txt + cur->off, cur->len);
			}
			else
			{
				top->weight += cur->idf;
				top->times++;
			}
		}
		while ((cur = cur->next) != NULL);
		scws_free_result(res);
	}

	// free at & xtree
	if (at != NULL)
		free(at);
	xtree_free(xt);

	// restore the offset
	s->off = off;
	return base;
}

登录后复制

我发现它的__PARSE_XATTR__宏有些问题啊，这里另外附上word_attr的结构定义

/* macro to parse xattr -> xmode, at */
#define	__PARSE_XATTR__		do {				\
	if (xattr == NULL) break;				\
	if (*xattr == '~') { xattr++; xmode = SCWS_YEA; }	\
	if (*xattr == '\0') break;				\
	cnt = ((strlen(xattr)/2) + 2) * sizeof(word_attr);	\
	at = (word_attr *) malloc(cnt);				\
	memset(at, 0, cnt);					\
	cnt = 0;						\
	for (cnt = 0; (word = strchr(xattr, ',')); cnt++) {	\
		strncpy(at[cnt], xattr, 2);			\
		xattr = word + 1;				\
	}							\
	strncpy(at[cnt], xattr, 2);				\
} while (0)

typedef char word_attr[4];

登录后复制

自己全部用2个字符的词性过滤试了一下，果然可以了。。。大家考虑下这里应该怎么改下吧

跟作者交流了下，hightman给出了patch，修改宏定义处

diff -c -r1.28 -r1.29
*** libscws/scws.c  5 Aug 2011 04:39:33 -0000   1.28
--- libscws/scws.c  26 Oct 2011 08:41:44 -0000  1.29
***************
*** 1278,1284 ****
    memset(at, 0, cnt);                                 \
    cnt = 0;                                            \
    for (cnt = 0; (word = strchr(xattr, ',')); cnt++) { \
!       strncpy(at[cnt], xattr, 2);                     \
        xattr = word + 1;                               \
    }                                                   \
    strncpy(at[cnt], xattr, 2);                         \
--- 1278,1285 ----
    memset(at, 0, cnt);                                 \
    cnt = 0;                                            \
    for (cnt = 0; (word = strchr(xattr, ',')); cnt++) { \
!       at[cnt][0] = *xattr++;                          \
!       at[cnt][1] = xattr == word ? '\0' : *xattr;     \
        xattr = word + 1;                               \
    }                                                   \
    strncpy(at[cnt], xattr, 2);                         \

登录后复制

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7433

CakePHP 教程

1359

steam的账户名称是什么格式

win11激活密钥永久

显示更多

Related knowledge

适用于 Ubuntu 和 Debian 的 PHP 8.4 安装和升级指南 Dec 24, 2024 pm 04:42 PM

PHP 8.4 带来了多项新功能、安全性改进和性能改进，同时弃用和删除了大量功能。本指南介绍了如何在 Ubuntu、Debian 或其衍生版本上安装 PHP 8.4 或升级到 PHP 8.4

CakePHP 文件上传 Sep 10, 2024 pm 05:27 PM

为了进行文件上传，我们将使用表单助手。这是文件上传的示例。

讨论 CakePHP Sep 10, 2024 pm 05:28 PM

CakePHP 是 PHP 的开源框架。它的目的是使应用程序的开发、部署和维护变得更加容易。 CakePHP 基于类似 MVC 的架构，功能强大且易于掌握。模型、视图和控制器 gu

如何设置 Visual Studio Code (VS Code) 进行 PHP 开发 Dec 20, 2024 am 11:31 AM

Visual Studio Code，也称为 VS Code，是一个免费的源代码编辑器 - 或集成开发环境 (IDE) - 可用于所有主要操作系统。 VS Code 拥有针对多种编程语言的大量扩展，可以轻松编写

CakePHP 快速指南 Sep 10, 2024 pm 05:27 PM

CakePHP 是一个开源MVC 框架。它使开发、部署和维护应用程序变得更加容易。 CakePHP 有许多库可以减少大多数常见任务的过载。

您如何在PHP中解析和处理HTML/XML？ Feb 07, 2025 am 11:57 AM

本教程演示了如何使用PHP有效地处理XML文档。 XML（可扩展的标记语言）是一种用于人类可读性和机器解析的多功能文本标记语言。它通常用于数据存储

php程序在字符串中计数元音 Feb 07, 2025 pm 12:12 PM

字符串是由字符组成的序列，包括字母、数字和符号。本教程将学习如何使用不同的方法在PHP中计算给定字符串中元音的数量。英语中的元音是a、e、i、o、u，它们可以是大写或小写。什么是元音？元音是代表特定语音的字母字符。英语中共有五个元音，包括大写和小写： a, e, i, o, u 示例 1 输入：字符串 = "Tutorialspoint" 输出：6 解释字符串 "Tutorialspoint" 中的元音是 u、o、i、a、o、i。总共有 6 个元