首页 后端开发 php教程 伪原创系统的原理及其实现_PHP

伪原创系统的原理及其实现_PHP

Jun 01, 2016 pm 12:20 PM

 

上个星期写过一篇文章, 让你的站跟新浪的新闻数据保持同步,有一些网友产生了兴趣,于是我决定再和大家分享一下里面所提及的伪原创系统,介绍其实现的原理,这个系统在我的西西弗斯工作室中也有介绍。

搜索引擎毕竟还是个机器,通过改改标题,替换一些词语,打乱一些章节,插入一些链接等手段,就能达到伪原创的目的,目前网上也有类似的伪原创工具,但还需要人工操作去生成,所以我就想做一个全自动,无人监控的自动伪原创系统,结合自动采集程序,可以实现采集-》入库-》伪原创的流程,并且整个过程实现无人管理,并具有实时性。

言归正传,要做到更改词语而不影响文章语义,比较好的方法就是使用同义词进行替换,所以我想到第一步,是建立同义词库,在网上搜索这种数据库无果后,决定找相关的网站进行采集,发现金山词霸可以很好地满足我的要求,通过采集,建立起了词库,上万条数据。

然后就是进行关键词替换了,那么怎么样替呢,替换哪些呢?我的想法是先对文章进行分词,分成若干个词组,然后取长度大于两个汉字的,在同义词库中进行搜索,如果有,则替换之,我使用python来实现这个流程的,另外为了加速同义词的速度,可以使用key-value进行存储。一些关键代码如下:

def getnewword(text,list):

         cxn.execute("select id from tool_words where name='%s' limit 1"%text)

         result=cxn.fetchone()

         if type(result) is not NoneType:

             cxn.execute("select name from tool_wordslike where wid=%d order by rand() limit 1"%result[0])

             result4=cxn.fetchone()

             if type(result4) is not NoneType:

                 list[text]=result4[0]

         

       

def cuttest(text,flag):

    list={}

    wlist = seg.cut(text)

    wlist.reverse()

    result=""

    for tmp in wlist:

         if len(tmp)>1:

             if flag==1:

                 getnewword(tmp,list)        

         if flag==1:

            result=""

            for k in list.iterkeys():

                result+=k+","+list[k]+";"

         else:

            result+=tmp+";";

    return result

不过毕竟伪原创系统,也是一个程序,肯定不可能完全保证语义的不恰当,语句的流畅,主要提供给那些做垃圾站的达人们,哈哈,我记得我的网站有一篇转换后相当搞笑,http://www.xxfsw.com/show24047.html, 诺贝尔物理学奖得主俄院士金茨堡逝世,结果把逝世转成了圆寂,我都无语了。。。当然除了近义词的替换外,还有段落的颠倒,插入链接等,这些就比较容易实 现,我就不细语了,大家根据实现情况选择,后来我也想了一些方法,可以实现对搜索引擎呈现使用伪原创后的内容,对实现用户提供伪原创前的内容,这样既达到 了目的,又不影响用户体验,只是不知道这样的危险有多大,会不会被百度人工查出。。。

于是乎,经过这样一番折腾,百度蜘蛛来到了你的站,大惊了一下:哎呀小样,这文章内容没见过啊!收了。大家有什么不明白的可以加我QQ376504340讨论。

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
2 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
2 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

在Laravel中使用Flash会话数据 在Laravel中使用Flash会话数据 Mar 12, 2025 pm 05:08 PM

Laravel使用其直观的闪存方法简化了处理临时会话数据。这非常适合在您的应用程序中显示简短的消息,警报或通知。 默认情况下,数据仅针对后续请求: $请求 -

php中的卷曲:如何在REST API中使用PHP卷曲扩展 php中的卷曲:如何在REST API中使用PHP卷曲扩展 Mar 14, 2025 am 11:42 AM

PHP客户端URL(curl)扩展是开发人员的强大工具,可以与远程服务器和REST API无缝交互。通过利用Libcurl(备受尊敬的多协议文件传输库),PHP curl促进了有效的执行

简化的HTTP响应在Laravel测试中模拟了 简化的HTTP响应在Laravel测试中模拟了 Mar 12, 2025 pm 05:09 PM

Laravel 提供简洁的 HTTP 响应模拟语法,简化了 HTTP 交互测试。这种方法显着减少了代码冗余,同时使您的测试模拟更直观。 基本实现提供了多种响应类型快捷方式: use Illuminate\Support\Facades\Http; Http::fake([ 'google.com' => 'Hello World', 'github.com' => ['foo' => 'bar'], 'forge.laravel.com' =>

在Codecanyon上的12个最佳PHP聊天脚本 在Codecanyon上的12个最佳PHP聊天脚本 Mar 13, 2025 pm 12:08 PM

您是否想为客户最紧迫的问题提供实时的即时解决方案? 实时聊天使您可以与客户进行实时对话,并立即解决他们的问题。它允许您为您的自定义提供更快的服务

在Laravel中发现文件下载的存储::下载 在Laravel中发现文件下载的存储::下载 Mar 06, 2025 am 02:22 AM

Laravel框架的Storage::download方法提供了一个简洁的API,用于安全地处理文件下载,同时管理文件存储的抽象。 以下是一个在示例控制器中使用Storage::download()的例子:

解释PHP中晚期静态结合的概念。 解释PHP中晚期静态结合的概念。 Mar 21, 2025 pm 01:33 PM

文章讨论了PHP 5.3中引入的PHP中的晚期静态结合(LSB),从而允许静态方法的运行时分辨率调用以获得更灵活的继承。 LSB的实用应用和潜在的触摸

PHP记录:PHP日志分析的最佳实践 PHP记录:PHP日志分析的最佳实践 Mar 10, 2025 pm 02:32 PM

PHP日志记录对于监视和调试Web应用程序以及捕获关键事件,错误和运行时行为至关重要。它为系统性能提供了宝贵的见解,有助于识别问题并支持更快的故障排除

如何注册和使用Laravel服务提供商 如何注册和使用Laravel服务提供商 Mar 07, 2025 am 01:18 AM

Laravel的服务容器和服务提供商是其架构的基础。 本文探讨了服务容器,详细信息服务提供商创建,注册,并通过示例演示了实际用法。 我们将从OVE开始

See all articles