PHP實作機器學習之樸素貝葉斯演算法詳解-php教程-PHP中文網

這篇文章主要介紹了PHP實現機器學習之樸素貝葉斯演算法,結合實例形式詳細分析了樸素貝葉斯演算法的概念、原理及php實現技巧,需要的朋友可以參考下

本文實例講述了PHP實作機器學習之樸素貝葉斯演算法。分享給大家供大家參考，具體如下：

機器學習已經在我們的生活中變得隨處可見了。例如從你在家的時候溫控器開始工作到智慧型汽車以及我們口袋中的智慧型手機。機器學習看起來已經無所不在並且是一個非常值得探索的領域。但是什麼是機器學習呢？通常來說，機器學習就是讓系統持續的學習並且對新的問題進行預測。從簡單的預測購物商品到複雜的數位助理預測。

在這篇文章我將會使用樸素貝葉斯演算法Clasifier作為一個類別來介紹。這是一個簡單易於實施的演算法，並且可給出滿意的結果。但是這個演算法是需要一點統計的知識去理解的。在文章的最後部分你可以看到一些實例程式碼，甚至自己去嘗試自己做你的機器學習。

開始

那麼，這個Classifier是要用來實現什麼功能呢？其實它主要是用來判斷給定的語句是積極地還是消極的。例如，「Symfony is the best」是一個正面的語句，「No Symfony is bad」是一個負面的語句。所以在給定了一個語句之後，我想讓這個Classifier在我不給定一個新的規則的情況就回傳一個語句類型。

我為Classifier命名了一個相同名稱的類，並且包含一個guess方法。這個方法接受一個語句的輸入，並且會回傳這個語句是正面的還是負面的。這個類別就像下面這樣：

class Classifier
{
 public function guess($statement)
 {}
}

登入後複製

我更喜歡使用枚舉類型的類別而不是字串作為我的回傳值。我將這個枚舉類型的類別命名為Type，並且包含兩個常數：一個POSITIVE,一個NEGATIVE。這兩個常數將會當做guess方法的回傳值。

class Type
{
 const POSITIVE = &#39;positive&#39;;
 const NEGATIVE = &#39;negative&#39;;
}

登入後複製

初始化工作已經完成，接下來就是要寫我們的演算法進行預測了。

樸素貝葉斯

樸素貝葉斯演算法是基於一個訓練集合工作的，根據這個訓練集從而做出相應的預測。這個演算法運用了簡單的統計學以及一點數學去進行結果的計算。例如像下面四個文字組成的訓練集合：

語句	類型
Symfony is the best	Positive
##PhpStorm is great	Positive
#Iltar complains a lot#	負片
##沒有Symfony 不好	＃＃＃消極的＃＃＃＃＃＃＃＃＃＃如果给定语句是“Symfony is the best”，那么你可以说这个语句是积极地。你平常也会根据之前学习到的相应知识做出对应的决定，朴素贝叶斯算法也是同样的道理：它根据之前的训练集来决定哪一个类型更加相近。学习在这个算法正式工作之前，它需要大量的历史信息作为训练集。它需要知道两件事：每一个类型对应的词产生了多少次和每一个语句对应的类型是什么。我们在实施的时候会将这两种信息存储在两个数组当中。一个数组包含每一类型的词语统计，另一个数组包含每一个类型的语句统计。所有的其他信息都可以从这两个数组中聚合。代码就像下面的一样： function learn($statement, $type) { $words = $this->getWords($statement); foreach ($words as $word) { if (!isset($this->words[$type][$word])) { $this->words[$type][$word] = 0; } $this->words[$type][$word]++; // 增加类型的词语统计 } $this->documents[$type]++; // 增加类型的语句统计 } 登入後複製有了这个集合以后，现在这个算法就可以根据历史数据接受预测训练了。定义为了解释这个算法是如何工作的，几个定义是必要的。首先，让我们定义一下输入的语句是给定类型中的一个的概率。这个将会表示为P（Type）。它是以已知类型的数据的类型作为分子，还有整个训练集的数据数量作为分母来得出的。一个数据就是整个训练集中的一个。到现在为止，这个方法可以将会命名为totalP，像下面这样： function totalP($type) { return ($this->documents[$type] + 1) / (array_sum($this->documents) + 1); } 登入後複製请注意，在这里分子和分母都加了1。这是为了避免分子和分母都为0的情况。根据上面的训练集的例子，积极和消极的类型都会得出0.6的概率。每中类型的数据都是2个，一共是4个数据所以就是（2+1）/（4+1）。第二个要定义的是对于给定的一个词是属于哪个确定类型的概率。这个我们定义成P(word,Type)。首先我们要得到一个词在训练集中给出确定类型出现的次数，然后用这个结果来除以整个给定类型数据的词数。这个方法我们定义为p： function p($word, $type) { $count = isset($this->words[$type][$word]) ? $this->words[$type][$word] : 0; return ($count + 1) / (array_sum($this->words[$type]) + 1); } 登入後複製在本次的训练集中，“is”的是积极类型的概率为0.375。这个词在整个积极的数据中的7个词中占了两次，所以结果就是（2+1）/（7+1）。最后，这个算法应该只关心关键词而忽略其他的因素。一个简单的方法就是将给定的字符串中的单词分离出来： function getWords($string) { return preg_split('/\s+/', preg_replace('/[^A-Za-z0-9\s]/', '', strtolower($string))); } 登入後複製准备工作都做好了，开始真正实施我们的计划吧！预测为了预测语句的类型，这个算法应该计算所给定语句的两个类型的概率。像上面一样，我们定义一个P（Type,sentence）。得出概率高的类型将会是Classifier类中算法返回的结果。为了计算P（Type,sentence）,算法当中将用到贝叶斯定理。算法像这样被定义：P（Type,sentence）= P（Type）* P（sentence,Type）/ P（sentence）。这意味着给定语句的类型概率和给定类型语句概率除以语句的概率的结果是相同的。那么算法在计算每一个相同语句的P（Tyoe,sentence），P（sentence）是保持一样的。这意味着算法就可以省略其他因素，我们只需要关心最高的概率而不是实际的值。计算就像这样：P（Type,sentence） = P（Type）* P（sentence,Type）。最后，为了计算P（sentence,Type），我们可以为语句中的每个词添加一条链式规则。所以在一条语句中如果有n个词的话，它将会和P（word_1,Type）* P（word_2,Type）* P（word_3,Type）* .....P（word_n,Type）是一样的。每一个词计算结果的概率使用了我们前面看到的定义。好了，所有的都说完了，是时候在php中实际操作一下了： function guess($statement) { $words = $this->getWords($statement); // 得到单词 $best_likelihood = 0; $best_type = null; foreach ($this->types as $type) { $likelihood = $this->pTotal($type); //计算 P(Type) foreach ($words as $word) { $likelihood = $this->p($word, $type); // 计算 P(word, Type) } if ($likelihood > $best_likelihood) { $best_likelihood = $likelihood; $best_type = $type; } } return $best_type; } 登入後複製这就是所有的工作，现在算法可以预测语句的类型了。你要做的就是让你的算法开始学习： $classifier = new Classifier(); $classifier->learn('Symfony is the best', Type::POSITIVE); $classifier->learn('PhpStorm is great', Type::POSITIVE); $classifier->learn('Iltar complains a lot', Type::NEGATIVE); $classifier->learn('No Symfony is bad', Type::NEGATIVE); var_dump($classifier->guess('Symfony is great')); // string(8) "positive" var_dump($classifier->guess('I complain a lot')); // string(8) "negative" 登入後複製所有的代码我已经上传到了GIT上，https://github.com/yannickl88/blog-articles/blob/master/src/machine-learning-naive-bayes/Classifier.php github上完整php代码如下： [], Type::NEGATIVE => []]; private $documents = [Type::POSITIVE => 0, Type::NEGATIVE => 0]; public function guess($statement) { $words = $this->getWords($statement); // get the words $best_likelihood = 0; $best_type = null; foreach ($this->types as $type) { $likelihood = $this->pTotal($type); // calculate P(Type) foreach ($words as $word) { $likelihood = $this->p($word, $type); // calculate P(word, Type) } if ($likelihood > $best_likelihood) { $best_likelihood = $likelihood; $best_type = $type; } } return $best_type; } public function learn($statement, $type) { $words = $this->getWords($statement); foreach ($words as $word) { if (!isset($this->words[$type][$word])) { $this->words[$type][$word] = 0; } $this->words[$type][$word]++; // increment the word count for the type } $this->documents[$type]++; // increment the document count for the type } public function p($word, $type) { $count = 0; if (isset($this->words[$type][$word])) { $count = $this->words[$type][$word]; } return ($count + 1) / (array_sum($this->words[$type]) + 1); } public function pTotal($type) { return ($this->documents[$type] + 1) / (array_sum($this->documents) + 1); } public function getWords($string) { return preg_split('/\s+/', preg_replace('/[^A-Za-z0-9\s]/', '', strtolower($string))); } } $classifier = new Classifier(); $classifier->learn('Symfony is the best', Type::POSITIVE); $classifier->learn('PhpStorm is great', Type::POSITIVE); $classifier->learn('Iltar complains a lot', Type::NEGATIVE); $classifier->learn('No Symfony is bad', Type::NEGATIVE); var_dump($classifier->guess('Symfony is great')); // string(8) "positive" var_dump($classifier->guess('I complain a lot')); // string(8) "negative" 登入後複製结束语* 尽管我们只进行了很少的训练，但是算法还是应该能给出相对精确的结果。在真实环境，你可以让机器学习成百上千的记录，这样就可以给出更精准的结果。你可以下载查看这篇文章（英文）：朴素贝叶斯已经被证明可以给出情绪统计的结果。而且，朴素贝叶斯不仅仅可以运用到文本类的应用。希望通过这篇文章可以拉近你和机器学习的一点点距离。原文地址：https://stovepipe.systems/post/machine-learning-naive-bayes 您可能感興趣的文章: PHP實作單鍊錶翻轉操作範例講解 PHP實現合併兩個有序數組的方法講解 PHP實作約瑟夫環問題的方法詳解 # 以上是PHP實作機器學習之樸素貝葉斯演算法詳解的詳細內容。更多資訊請關注PHP中文網其他相關文章！相關標籤： php 樸素貝葉斯機器學習演算法上一篇：PHP實作單鍊錶翻轉操作範例講解下一篇：PHP中利用Telegram的介面實現免費的訊息通知功能詳解本網站聲明本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn 作者最新文章仿站小工具的使用教學課程 2023-04-01 20:14:01 laravel5 使用try catch的實例講解 2023-04-02 21:22:02 Laravel 5.5中為回應請求提供的可回應介面的詳解 2023-04-02 21:20:01 php操作zip在不解壓縮包的情況下顯示壓縮包中的圖片相關講解 2023-04-02 21:18:01 php實作簽到功能的方法實例分析de詳解 2023-04-02 21:16:01 解決Linux下php-fpm進程過多導致記憶體耗盡問題詳解 2023-04-02 21:14:01 php實作簽到功能的方法實例分析詳解 2023-04-02 21:12:02 linux下的php-fpm參數配置介紹與參數最佳化說明詳解 2023-04-02 21:10:02 Laravel中数据迁移与数据填充的详细步骤详解 2023-04-02 21:08:02 PHP 閉包取得外部變數和global關鍵字聲明變數的區別講解 2023-04-02 21:06:01 最新問題怎麼學好php 來自於 1970-01-01 08:00:00 0 0 0 PHP擴充intl 來自於 1970-01-01 08:00:00 0 0 0 php數據獲取？來自於 1970-01-01 08:00:00 0 0 0 你好!"PHP工具箱"是使用php開發的嗎？ (準備學習PHP) 來自於 1970-01-01 08:00:00 0 0 0 sublime3 加入編譯系統php時，用PHP工具箱，cmd php -v沒用來自於 1970-01-01 08:00:00 0 0 0 相關專題更多> 頁面置換演算法 php檔案怎麼打開 php怎麼取出陣列的前幾個元素 php反序列化失敗怎麼辦 php怎麼連接mssql資料庫 php連接mssql資料庫的方法 html怎麼上傳 PHP出現亂碼怎麼解決熱門推薦 Mac電腦設定hosts的方法（圖文步驟） PHP快速建立一個簡單的QQ機器人 API常用簽章驗證方法(PHP實作) PHP常用日期時間操作集 PHP產生圖形驗證碼（加強幹擾型）熱門教學更多> 相關教學熱門推薦最新課程最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程) 1436406 php入門教程之一週學會PHP 4295526 JAVA 初級入門影片教學 2657751 小甲魚零基礎入門學習Python影片教學 516157 PHP 零基礎入門教學 876749 最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程) 1436406次學習 JAVA 初級入門影片教學 2657751次學習小甲魚零基礎入門學習Python影片教學 516157次學習 Web前端開發極速入門 217048次學習零基礎精通 PS 影片教學 919668次學習【web前端】Node.js快速入門 9552次學習國外Web開發全端課程全集 7712次學習 Go語言實戰之 GraphQL 6538次學習 550W粉絲大佬手把手從零學JavaScript 830次學習 python大神Mosh，零基礎小白6小時完全入門 32141次學習最新下載更多> 網站特效網站源碼網站素材前端模板 [表單按鈕] jQuery企業留言表單聯絡程式碼 [播放器特效] HTML5 MP3音樂盒播放特效 [選單導航] HTML5酷炫粒子動畫導覽選單特效 [表單按鈕] jQuery可視化表單拖曳編輯程式碼 [播放器特效] VUE.JS仿酷狗音樂播放器代碼 [html5特效] 經典html5推箱子小遊戲 [圖片特效] jQuery滾動添加或減少圖片特效 [相簿特效] CSS3個人相簿封面懸停放大特效 [前端模板] 家居裝潢清潔維修服務公司網站模板 [前端模板] 清新配色個人求職履歷引導頁模板 [前端模板] 設計師創意求職履歷網頁模板 [前端模板] 現代工程建築公司網站模板 [前端模板] 教育服務機構響應式HTML5模板 [前端模板] 網上電子書店商城網站模板 [前端模板] IT技術解決互聯網公司網站模板 [前端模板] 紫色風格外匯交易服務網站模板 [PNG素材] 可愛的夏天元素向量素材(EPS+PNG) [PNG素材] 四個紅色的 2023 畢業徽章的向量素材(AI+EPS+PNG) [banner圖] 唱歌的小鳥和裝滿花朵的推車設計春天banner向量素材(AI+EPS) [PNG素材] 金色的畢業帽向量素材(EPS+PNG) [PNG素材] 黑白風格的山脈圖示向量素材(EPS+PNG) [PNG素材] 不同顏色披風和不同姿勢的超級英雄剪影向量素材(EPS+PNG) [banner圖] 扁平風格的植樹節banner向量素材(AI+EPS) [PNG素材] 九種漫畫風格的爆炸聊天氣泡向量素材(EPS+PNG) [前端模板] 家居裝潢清潔維修服務公司網站模板 [前端模板] 清新配色個人求職履歷引導頁模板 [前端模板] 設計師創意求職履歷網頁模板 [前端模板] 現代工程建築公司網站模板 [前端模板] 教育服務機構響應式HTML5模板 [前端模板] 網上電子書店商城網站模板 [前端模板] IT技術解決互聯網公司網站模板 [前端模板] 紫色風格外匯交易服務網站模板公益線上PHP培訓，幫助PHP學習者快速成長！關於我們免責聲明 Sitemap © php.cn All rights reserved

PHP實作機器學習之樸素貝葉斯演算法詳解

您可能感興趣的文章: