PHP如何实现机器学习之朴素贝叶斯算法-php教程-PHP中文网

首页

后端开发

php教程

PHP如何实现机器学习之朴素贝叶斯算法

小云云

Dec 12, 2017 am 09:26 AM

php

本文主要介绍了PHP实现机器学习之朴素贝叶斯算法,结合实例形式详细分析了朴素贝叶斯算法的概念、原理及php实现技巧,需要的朋友可以参考下，希望能帮助到大家。

本文实例讲述了PHP实现机器学习之朴素贝叶斯算法。分享给大家供大家参考，具体如下：

机器学习已经在我们的生活中变得随处可见了。比如从你在家的时候温控器开始工作到智能汽车以及我们口袋中的智能手机。机器学习看上去已经无处不在并且是一个非常值得探索的领域。但是什么是机器学习呢？通常来说，机器学习就是让系统不断的学习并且对新的问题进行预测。从简单的预测购物商品到复杂的数字助理预测。

在这篇文章我将会使用朴素贝叶斯算法Clasifier作为一个类来介绍。这是一个简单易于实施的算法，并且可给出满意的结果。但是这个算法是需要一点统计学的知识去理解的。在文章的最后部分你可以看到一些实例代码，甚至自己去尝试着自己做一下你的机器学习。

起步

那么，这个Classifier是要用来实现什么功能呢？其实它主要是用来判断给定的语句是积极地还是消极的。比如，“Symfony is the best”是一个积极的语句，“No Symfony is bad”是一个消极的语句。所以在给定了一个语句之后，我想让这个Classifier在我不给定一个新的规则的情况就返回一个语句类型。

我给Classifier命名了一个相同名称的类，并且包含一个guess方法。这个方法接受一个语句的输入，并且会返回这个语句是积极的还是消极的。这个类就像下面这样：

class Classifier
{
 public function guess($statement)
 {}
}

登录后复制

我更喜欢使用枚举类型的类而不是字符串作为我的返回值。我将这个枚举类型的类命名为Type，并且包含两个常量：一个POSITIVE,一个NEGATIVE。这两个常量将会当做guess方法的返回值。

class Type
{
 const POSITIVE = &#39;positive&#39;;
 const NEGATIVE = &#39;negative&#39;;
}

登录后复制

初始化工作已经完成，接下来就是要编写我们的算法进行预测了。

朴素贝叶斯

朴素贝叶斯算法是基于一个训练集合工作的，根据这个训练集从而做出相应的预测。这个算法运用了简单的统计学以及一点数学去进行结果的计算。比如像下面四个文本组成的训练集合：

语句	类型
Symfony is the best	Positive
PhpStorm is great	Positive
Iltar complains a lot	Negative
No Symfony is bad	Negative

如果给定语句是“Symfony is the best”，那么你可以说这个语句是积极地。你平常也会根据之前学习到的相应知识做出对应的决定，朴素贝叶斯算法也是同样的道理：它根据之前的训练集来决定哪一个类型更加相近。

学习

在这个算法正式工作之前，它需要大量的历史信息作为训练集。它需要知道两件事：每一个类型对应的词产生了多少次和每一个语句对应的类型是什么。我们在实施的时候会将这两种信息存储在两个数组当中。一个数组包含每一类型的词语统计，另一个数组包含每一个类型的语句统计。所有的其他信息都可以从这两个数组中聚合。代码就像下面的一样：

function learn($statement, $type)
{
 $words = $this->getWords($statement);
 foreach ($words as $word) {
 if (!isset($this->words[$type][$word])) {
  $this->words[$type][$word] = 0;
 }
 $this->words[$type][$word]++; // 增加类型的词语统计
 }
 $this->documents[$type]++; // 增加类型的语句统计
}

登录后复制

有了这个集合以后，现在这个算法就可以根据历史数据接受预测训练了。

定义

为了解释这个算法是如何工作的，几个定义是必要的。首先，让我们定义一下输入的语句是给定类型中的一个的概率。这个将会表示为P（Type）。它是以已知类型的数据的类型作为分子，还有整个训练集的数据数量作为分母来得出的。一个数据就是整个训练集中的一个。到现在为止，这个方法可以将会命名为totalP，像下面这样：

function totalP($type)
{
 return ($this->documents[$type] + 1) / (array_sum($this->documents) + 1);
}

登录后复制

请注意，在这里分子和分母都加了1。这是为了避免分子和分母都为0的情况。

根据上面的训练集的例子，积极和消极的类型都会得出0.6的概率。每中类型的数据都是2个，一共是4个数据所以就是（2+1）/（4+1）。

第二个要定义的是对于给定的一个词是属于哪个确定类型的概率。这个我们定义成P(word,Type)。首先我们要得到一个词在训练集中给出确定类型出现的次数，然后用这个结果来除以整个给定类型数据的词数。这个方法我们定义为p：

function p($word, $type)
{
 $count = isset($this->words[$type][$word]) ? $this->words[$type][$word] : 0;
 return ($count + 1) / (array_sum($this->words[$type]) + 1);
}

登录后复制

在本次的训练集中，“is”的是积极类型的概率为0.375。这个词在整个积极的数据中的7个词中占了两次，所以结果就是（2+1）/（7+1）。

最后，这个算法应该只关心关键词而忽略其他的因素。一个简单的方法就是将给定的字符串中的单词分离出来：

function getWords($string)
{
 return preg_split(&#39;/\s+/&#39;, preg_replace(&#39;/[^A-Za-z0-9\s]/&#39;, &#39;&#39;, strtolower($string)));
}

登录后复制

准备工作都做好了，开始真正实施我们的计划吧！

预测

为了预测语句的类型，这个算法应该计算所给定语句的两个类型的概率。像上面一样，我们定义一个P（Type,sentence）。得出概率高的类型将会是Classifier类中算法返回的结果。

为了计算P（Type,sentence）,算法当中将用到贝叶斯定理。算法像这样被定义：P（Type,sentence）= P（Type）* P（sentence,Type）/ P（sentence）。这意味着给定语句的类型概率和给定类型语句概率除以语句的概率的结果是相同的。

那么算法在计算每一个相同语句的P（Tyoe,sentence），P（sentence）是保持一样的。这意味着算法就可以省略其他因素，我们只需要关心最高的概率而不是实际的值。计算就像这样：P（Type,sentence） = P（Type）* P（sentence,Type）。

最后，为了计算P（sentence,Type），我们可以为语句中的每个词添加一条链式规则。所以在一条语句中如果有n个词的话，它将会和P（word_1,Type）* P（word_2,Type）* P（word_3,Type）* .....*P（word_n,Type）是一样的。每一个词计算结果的概率使用了我们前面看到的定义。

好了，所有的都说完了，是时候在php中实际操作一下了：

function guess($statement)
{
 $words = $this->getWords($statement); // 得到单词
 $best_likelihood = 0;
 $best_type = null;
 foreach ($this->types as $type) {
 $likelihood = $this->pTotal($type); //计算 P(Type)
 foreach ($words as $word) {
  $likelihood *= $this->p($word, $type); // 计算 P(word, Type)
 }
 if ($likelihood > $best_likelihood) {
  $best_likelihood = $likelihood;
  $best_type = $type;
 }
 }
 return $best_type;
}

登录后复制

这就是所有的工作，现在算法可以预测语句的类型了。你要做的就是让你的算法开始学习：

$classifier = new Classifier();
$classifier->learn(&#39;Symfony is the best&#39;, Type::POSITIVE);
$classifier->learn(&#39;PhpStorm is great&#39;, Type::POSITIVE);
$classifier->learn(&#39;Iltar complains a lot&#39;, Type::NEGATIVE);
$classifier->learn(&#39;No Symfony is bad&#39;, Type::NEGATIVE);
var_dump($classifier->guess(&#39;Symfony is great&#39;)); // string(8) "positive"
var_dump($classifier->guess(&#39;I complain a lot&#39;)); // string(8) "negative"

登录后复制

所有的代码我已经上传到了GIT上，https://github.com/yannickl88/blog-articles/blob/master/src/machine-learning-naive-bayes/Classifier.php

github上完整php代码如下：

 [], Type::NEGATIVE => []];
 private $documents = [Type::POSITIVE => 0, Type::NEGATIVE => 0];
 public function guess($statement)
 {
 $words  = $this->getWords($statement); // get the words
 $best_likelihood = 0;
 $best_type = null;
 foreach ($this->types as $type) {
  $likelihood = $this->pTotal($type); // calculate P(Type)
  foreach ($words as $word) {
  $likelihood *= $this->p($word, $type); // calculate P(word, Type)
  }
  if ($likelihood > $best_likelihood) {
  $best_likelihood = $likelihood;
  $best_type = $type;
  }
 }
 return $best_type;
 }
 public function learn($statement, $type)
 {
 $words = $this->getWords($statement);
 foreach ($words as $word) {
  if (!isset($this->words[$type][$word])) {
  $this->words[$type][$word] = 0;
  }
  $this->words[$type][$word]++; // increment the word count for the type
 }
 $this->documents[$type]++; // increment the document count for the type
 }
 public function p($word, $type)
 {
 $count = 0;
 if (isset($this->words[$type][$word])) {
  $count = $this->words[$type][$word];
 }
 return ($count + 1) / (array_sum($this->words[$type]) + 1);
 }
 public function pTotal($type)
 {
 return ($this->documents[$type] + 1) / (array_sum($this->documents) + 1);
 }
 public function getWords($string)
 {
 return preg_split('/\s+/', preg_replace('/[^A-Za-z0-9\s]/', '', strtolower($string)));
 }
}
$classifier = new Classifier();
$classifier->learn(&#39;Symfony is the best&#39;, Type::POSITIVE);
$classifier->learn(&#39;PhpStorm is great&#39;, Type::POSITIVE);
$classifier->learn(&#39;Iltar complains a lot&#39;, Type::NEGATIVE);
$classifier->learn(&#39;No Symfony is bad&#39;, Type::NEGATIVE);
var_dump($classifier->guess(&#39;Symfony is great&#39;)); // string(8) "positive"
var_dump($classifier->guess(&#39;I complain a lot&#39;)); // string(8) "negative"

登录后复制

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7541

CakePHP 教程

1381

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

适用于 Ubuntu 和 Debian 的 PHP 8.4 安装和升级指南 Dec 24, 2024 pm 04:42 PM

PHP 8.4 带来了多项新功能、安全性改进和性能改进，同时弃用和删除了大量功能。本指南介绍了如何在 Ubuntu、Debian 或其衍生版本上安装 PHP 8.4 或升级到 PHP 8.4

如何设置 Visual Studio Code (VS Code) 进行 PHP 开发 Dec 20, 2024 am 11:31 AM

Visual Studio Code，也称为 VS Code，是一个免费的源代码编辑器 - 或集成开发环境 (IDE) - 可用于所有主要操作系统。 VS Code 拥有针对多种编程语言的大量扩展，可以轻松编写

我后悔之前不知道的 7 个 PHP 函数 Nov 13, 2024 am 09:42 AM

如果您是一位经验丰富的 PHP 开发人员，您可能会感觉您已经在那里并且已经完成了。您已经开发了大量的应用程序，调试了数百万行代码，并调整了一堆脚本来实现操作

您如何在PHP中解析和处理HTML/XML？ Feb 07, 2025 am 11:57 AM

本教程演示了如何使用PHP有效地处理XML文档。 XML（可扩展的标记语言）是一种用于人类可读性和机器解析的多功能文本标记语言。它通常用于数据存储

在PHP API中说明JSON Web令牌（JWT）及其用例。 Apr 05, 2025 am 12:04 AM

JWT是一种基于JSON的开放标准，用于在各方之间安全地传输信息，主要用于身份验证和信息交换。1.JWT由Header、Payload和Signature三部分组成。2.JWT的工作原理包括生成JWT、验证JWT和解析Payload三个步骤。3.在PHP中使用JWT进行身份验证时，可以生成和验证JWT，并在高级用法中包含用户角色和权限信息。4.常见错误包括签名验证失败、令牌过期和Payload过大，调试技巧包括使用调试工具和日志记录。5.性能优化和最佳实践包括使用合适的签名算法、合理设置有效期、

php程序在字符串中计数元音 Feb 07, 2025 pm 12:12 PM

字符串是由字符组成的序列，包括字母、数字和符号。本教程将学习如何使用不同的方法在PHP中计算给定字符串中元音的数量。英语中的元音是a、e、i、o、u，它们可以是大写或小写。什么是元音？元音是代表特定语音的字母字符。英语中共有五个元音，包括大写和小写： a, e, i, o, u 示例 1 输入：字符串 = "Tutorialspoint" 输出：6 解释字符串 "Tutorialspoint" 中的元音是 u、o、i、a、o、i。总共有 6 个元

解释PHP中的晚期静态绑定（静态：:)。 Apr 03, 2025 am 12:04 AM

静态绑定（static::）在PHP中实现晚期静态绑定（LSB），允许在静态上下文中引用调用类而非定义类。1）解析过程在运行时进行，2）在继承关系中向上查找调用类，3）可能带来性能开销。

什么是PHP魔术方法（__ -construct，__destruct，__call，__get，__ set等）并提供用例？ Apr 03, 2025 am 12:03 AM

PHP的魔法方法有哪些？PHP的魔法方法包括：1.\_\_construct，用于初始化对象；2.\_\_destruct，用于清理资源；3.\_\_call，处理不存在的方法调用；4.\_\_get，实现动态属性访问；5.\_\_set，实现动态属性设置。这些方法在特定情况下自动调用，提升代码的灵活性和效率。

See all articles

PHP如何实现机器学习之朴素贝叶斯算法

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题