Explication détaillée de l'algorithme Naive Bayes pour l'apprentissage automatique en PHP-tutoriel php-php.cn

Cet article présente principalement l'algorithme Naive Bayes pour l'apprentissage automatique en PHP. Il analyse en détail les concepts, les principes et les techniques d'implémentation PHP de l'algorithme Naive Bayes avec des exemples. Les amis dans le besoin peuvent s'y référer

L'exemple de cet article décrit l'implémentation de l'algorithme Naive Bayes pour l'apprentissage automatique en PHP. Partagez-le avec tout le monde pour référence, les détails sont les suivants :

L'apprentissage automatique est devenu omniprésent dans nos vies. Tout, du thermostat qui fonctionne lorsque vous êtes à la maison aux voitures intelligentes et aux smartphones dans nos poches. L’apprentissage automatique semble être partout et constitue un domaine qui mérite d’être exploré. Mais qu’est-ce que l’apprentissage automatique ? D’une manière générale, l’apprentissage automatique consiste à permettre au système d’apprendre et de prédire en permanence de nouveaux problèmes. Des simples prédictions d’articles d’achat aux prédictions complexes des assistants numériques.

Dans cet article, je présenterai l'algorithme Naive Bayes Clasifier en tant que classe. Il s’agit d’un algorithme simple, facile à mettre en œuvre et donnant des résultats satisfaisants. Mais cet algorithme nécessite un peu de connaissances statistiques pour être compris. Dans la dernière partie de l'article, vous pouvez voir quelques exemples de code et même essayer de faire votre propre apprentissage automatique.

Mise en route

Alors, quelle fonction ce classificateur est-il utilisé pour réaliser ? En fait, il sert principalement à déterminer si une affirmation donnée est positive ou négative. Par exemple, « Symfony est le meilleur » est une déclaration positive, et « Aucun Symfony n'est mauvais » est une déclaration négative. Ainsi, après avoir donné une déclaration, je souhaite que ce classificateur renvoie un type de déclaration sans que je donne une nouvelle règle.

J'ai nommé Classifier une classe du même nom et j'ai inclus une méthode de supposition. Cette méthode accepte une instruction en entrée et renvoie si l'instruction est positive ou négative. La classe ressemble à ceci :

class Classifier
{
 public function guess($statement)
 {}
}

Copier après la connexion

Je préfère utiliser des classes typées enum au lieu de chaînes pour mes valeurs de retour. J'ai nommé la classe de ce type d'énumération Type, et elle contient deux constantes : une POSITIF et une NÉGATIVE. Ces deux constantes seront utilisées comme valeur de retour de la méthode deviner.

class Type
{
 const POSITIVE = &#39;positive&#39;;
 const NEGATIVE = &#39;negative&#39;;
}

Copier après la connexion

Le travail d'initialisation est terminé et la prochaine étape consiste à écrire notre algorithme de prédiction.

Naive Bayes

L'algorithme Naive Bayes fonctionne sur la base d'un ensemble d'entraînement et effectue des prédictions correspondantes sur la base de cet ensemble d'entraînement. Cet algorithme utilise des statistiques simples et un peu de mathématiques pour calculer les résultats. Par exemple, l'ensemble de formation est constitué des quatre textes suivants :

语句	类型
Symfony est le meilleur	Positif
PhpStorm est génial	Positif
Iltar se plaint beaucoup	Négatif
Aucun Symfony n'est mauvais	Négatif

如果给定语句是“Symfony is the best”，那么你可以说这个语句是积极地。你平常也会根据之前学习到的相应知识做出对应的决定，朴素贝叶斯算法也是同样的道理：它根据之前的训练集来决定哪一个类型更加相近。

学习

在这个算法正式工作之前，它需要大量的历史信息作为训练集。它需要知道两件事：每一个类型对应的词产生了多少次和每一个语句对应的类型是什么。我们在实施的时候会将这两种信息存储在两个数组当中。一个数组包含每一类型的词语统计，另一个数组包含每一个类型的语句统计。所有的其他信息都可以从这两个数组中聚合。代码就像下面的一样：

function learn($statement, $type)
{
 $words = $this->getWords($statement);
 foreach ($words as $word) {
 if (!isset($this->words[$type][$word])) {
  $this->words[$type][$word] = 0;
 }
 $this->words[$type][$word]++; // 增加类型的词语统计
 }
 $this->documents[$type]++; // 增加类型的语句统计
}

Copier après la connexion

有了这个集合以后，现在这个算法就可以根据历史数据接受预测训练了。

定义

为了解释这个算法是如何工作的，几个定义是必要的。首先，让我们定义一下输入的语句是给定类型中的一个的概率。这个将会表示为P（Type）。它是以已知类型的数据的类型作为分子，还有整个训练集的数据数量作为分母来得出的。一个数据就是整个训练集中的一个。到现在为止，这个方法可以将会命名为totalP，像下面这样：

function totalP($type)
{
 return ($this->documents[$type] + 1) / (array_sum($this->documents) + 1);
}

Copier après la connexion

请注意，在这里分子和分母都加了1。这是为了避免分子和分母都为0的情况。

根据上面的训练集的例子，积极和消极的类型都会得出0.6的概率。每中类型的数据都是2个，一共是4个数据所以就是（2+1）/（4+1）。

第二个要定义的是对于给定的一个词是属于哪个确定类型的概率。这个我们定义成P(word,Type)。首先我们要得到一个词在训练集中给出确定类型出现的次数，然后用这个结果来除以整个给定类型数据的词数。这个方法我们定义为p：

function p($word, $type)
{
 $count = isset($this->words[$type][$word]) ? $this->words[$type][$word] : 0;
 return ($count + 1) / (array_sum($this->words[$type]) + 1);
}

Copier après la connexion

在本次的训练集中，“is”的是积极类型的概率为0.375。这个词在整个积极的数据中的7个词中占了两次，所以结果就是（2+1）/（7+1）。

最后，这个算法应该只关心关键词而忽略其他的因素。一个简单的方法就是将给定的字符串中的单词分离出来：

function getWords($string)
{
 return preg_split(&#39;/\s+/&#39;, preg_replace(&#39;/[^A-Za-z0-9\s]/&#39;, &#39;&#39;, strtolower($string)));
}

Copier après la connexion

准备工作都做好了，开始真正实施我们的计划吧！

预测

为了预测语句的类型，这个算法应该计算所给定语句的两个类型的概率。像上面一样，我们定义一个P（Type,sentence）。得出概率高的类型将会是Classifier类中算法返回的结果。

为了计算P（Type,sentence）,算法当中将用到贝叶斯定理。算法像这样被定义：P（Type,sentence）= P（Type）* P（sentence,Type）/ P（sentence）。这意味着给定语句的类型概率和给定类型语句概率除以语句的概率的结果是相同的。

那么算法在计算每一个相同语句的P（Tyoe,sentence），P（sentence）是保持一样的。这意味着算法就可以省略其他因素，我们只需要关心最高的概率而不是实际的值。计算就像这样：P（Type,sentence） = P（Type）* P（sentence,Type）。

最后，为了计算P（sentence,Type），我们可以为语句中的每个词添加一条链式规则。所以在一条语句中如果有n个词的话，它将会和P（word_1,Type）* P（word_2,Type）* P（word_3,Type）* .....*P（word_n,Type）是一样的。每一个词计算结果的概率使用了我们前面看到的定义。

好了，所有的都说完了，是时候在php中实际操作一下了：

function guess($statement)
{
 $words = $this->getWords($statement); // 得到单词
 $best_likelihood = 0;
 $best_type = null;
 foreach ($this->types as $type) {
 $likelihood = $this->pTotal($type); //计算 P(Type)
 foreach ($words as $word) {
  $likelihood *= $this->p($word, $type); // 计算 P(word, Type)
 }
 if ($likelihood > $best_likelihood) {
  $best_likelihood = $likelihood;
  $best_type = $type;
 }
 }
 return $best_type;
}

Copier après la connexion

这就是所有的工作，现在算法可以预测语句的类型了。你要做的就是让你的算法开始学习：

$classifier = new Classifier();
$classifier->learn(&#39;Symfony is the best&#39;, Type::POSITIVE);
$classifier->learn(&#39;PhpStorm is great&#39;, Type::POSITIVE);
$classifier->learn(&#39;Iltar complains a lot&#39;, Type::NEGATIVE);
$classifier->learn(&#39;No Symfony is bad&#39;, Type::NEGATIVE);
var_dump($classifier->guess(&#39;Symfony is great&#39;)); // string(8) "positive"
var_dump($classifier->guess(&#39;I complain a lot&#39;)); // string(8) "negative"

Copier après la connexion

所有的代码我已经上传到了GIT上，https://github.com/yannickl88/blog-articles/blob/master/src/machine-learning-naive-bayes/Classifier.php

github上完整php代码如下：

 [], Type::NEGATIVE => []];
 private $documents = [Type::POSITIVE => 0, Type::NEGATIVE => 0];
 public function guess($statement)
 {
 $words  = $this->getWords($statement); // get the words
 $best_likelihood = 0;
 $best_type = null;
 foreach ($this->types as $type) {
  $likelihood = $this->pTotal($type); // calculate P(Type)
  foreach ($words as $word) {
  $likelihood *= $this->p($word, $type); // calculate P(word, Type)
  }
  if ($likelihood > $best_likelihood) {
  $best_likelihood = $likelihood;
  $best_type = $type;
  }
 }
 return $best_type;
 }
 public function learn($statement, $type)
 {
 $words = $this->getWords($statement);
 foreach ($words as $word) {
  if (!isset($this->words[$type][$word])) {
  $this->words[$type][$word] = 0;
  }
  $this->words[$type][$word]++; // increment the word count for the type
 }
 $this->documents[$type]++; // increment the document count for the type
 }
 public function p($word, $type)
 {
 $count = 0;
 if (isset($this->words[$type][$word])) {
  $count = $this->words[$type][$word];
 }
 return ($count + 1) / (array_sum($this->words[$type]) + 1);
 }
 public function pTotal($type)
 {
 return ($this->documents[$type] + 1) / (array_sum($this->documents) + 1);
 }
 public function getWords($string)
 {
 return preg_split('/\s+/', preg_replace('/[^A-Za-z0-9\s]/', '', strtolower($string)));
 }
}
$classifier = new Classifier();
$classifier->learn(&#39;Symfony is the best&#39;, Type::POSITIVE);
$classifier->learn(&#39;PhpStorm is great&#39;, Type::POSITIVE);
$classifier->learn(&#39;Iltar complains a lot&#39;, Type::NEGATIVE);
$classifier->learn(&#39;No Symfony is bad&#39;, Type::NEGATIVE);
var_dump($classifier->guess(&#39;Symfony is great&#39;)); // string(8) "positive"
var_dump($classifier->guess(&#39;I complain a lot&#39;)); // string(8) "negative"

Copier après la connexion

结束语

尽管我们只进行了很少的训练，但是算法还是应该能给出相对精确的结果。在真实环境，你可以让机器学习成百上千的记录，这样就可以给出更精准的结果。你可以下载查看这篇文章（英文）：朴素贝叶斯已经被证明可以给出情绪统计的结果。

而且，朴素贝叶斯不仅仅可以运用到文本类的应用。希望通过这篇文章可以拉近你和机器学习的一点点距离。

原文地址：https://stovepipe.systems/post/machine-learning-naive-bayes