什麼是文本分類?

PHPz
發布: 2023-05-23 21:16:04
轉載
1872 人瀏覽過

​译者 | 李睿

审校 | 孙淑娟

什麼是文本分類?  

文本分类是将文本分类为一个或多个不同类别以组织、构造和过滤成任何参数的过程。例如,文本分类用于法律文件、医学研究和文件中,或者简单地用于产品评论。数据比以往任何时候都更重要;很多企业花费巨资试图获取尽可能多的洞察力。  

随着文本/文档数据比其他数据类型丰富得多,使用新方法势在必行。由于数据本质上是非结构化的,并且极其丰富,因此以易于理解的方式组织数据以理解它可以显著地提高其价值。使用文本分类和机器学习可以更快、更经济高效地自动构造相关文本。

以下将定义文本分类、其工作原理、一些最知名的算法,并提供可能有助于开始文本分类之旅的数据集。  

为什么使用机器学习文本分类?  

  • 规模:人工数据输入、分析和组织既乏味又缓慢。机器学习允许进行自动分析,无论数据集的规模有多大。  
  • 一致性:人为错误是由于人员疲劳和对数据集中的材料不敏感而发生的。由于算法的无偏性和一致性,机器学习提高了可扩展性并显著提高了准确性。  
  • 速度:有时可能需要快速访问和组织数据。机器学习算法可以解析数据,以易于理解的方式传递信息。  

6个通用步骤  

什麼是文本分類?

一些基本方法可以在一定程度上对不同的文本文档进行分类,但最常用的方法采用机器学习。文本分类模型在部署之前需要经历六个基本步骤。  

1.提供高质量的数据集  

数据集是原始数据块,用作模型的数据源。在文本分类的情况下,使用监督机器学习算法,为机器学习模型提供标记数据。标记数据是为算法预定义的数据,并附有信息标签。  

2.过滤和处理数据  

由于机器学习模型只能理解数值,因此需要对提供的文本进行标记化和文字嵌入,以使模型能够正确识别数据。

标记化是将文本文档拆分成更小的部分(称为标记)的过程。标记可以表示为整个单词、子单词或单个字符。例如,可以这样更智能地标记工作:

  • 标记词:Smarter
  • 标记子词:Smart-er  
  • 标记字符:S-m-a-r-t-e-r  

为什么标记化很重要?因为文本分类模型只能在基于标记的级别上处理数据,不能理解和处理完整的句子。模型需要对给定的原始数据集进行进一步处理才能轻松消化给定的数据。删除不必要的功能,过滤掉空值和无限值等等。重组整个数据集将有助于防止在训练阶段出现任何偏差。  

3.将数据集拆分为训练和测试数据集  

希望在保留20%的数据集的同时,在80%的数据集上训练数据,以测试算法的准确性。

4.训练算法  

通过使用训练数据集运行模型,该算法可以通过识别隐藏的模式和见解将提供的文本分类为不同类别。

5.测试和检查模型的性能  

接下来,使用步骤3中提到的测试数据集测试模型的完整性。测试数据集将被取消标记,以根据实际结果测试模型的准确性。为了准确测试模型,测试数据集必须包含新的测试用例(与以前的训练数据集不同的数据),以避免过度拟合模型。

6.调整模型  

通过调整模型的不同超参数来调整机器学习模型,而不会过度拟合或产生高方差。超参数是一个参数,其值控制模型的学习过程。现在可以部署了。  

文本分类是如何工作的?  

单词嵌入  

在以上提到的过滤过程中,机器和深度学习算法只能理解数值,迫使开发人员对数据集执行一些单词嵌入技术。单词嵌入是将单词表示为实值向量的过程,实值向量可以对给定单词的含义进行编码。

  • Word2Vec:這是Google公司開發的一種無監督單字嵌入方法。它利用神經網路從大型文字資料集中學習。顧名思義,Word2Vec方法將每個單字轉換為給定的向量。 
  • GloVe:也稱為全域向量,是一種無監督機器學習模型,用於取得單字的向量表示。與Word2Vec方法類似,GloVe演算法將單字映射到有意義的空間中,其中單字之間的距離與語義相似度有關。 
  • TF-IDF:TF-IDF是詞頻-逆文本頻率的縮寫,它是一種單字嵌入演算法,用於評估單字在給定文件中的重要性。 TF-IDF為每個單字分配一個給定的分數,以表示其在一組文件中的重要性。 

文字分類演算法  

以下是三種最著名、最有效的文字分類演算法。需要記住,每種方法中都嵌入了進一步的定義演算法。

1.線性支援向量機 

線性支援向量機演算法被認為是目前最好的文字分類演算法之一,它根據給定的特徵繪製給定的資料點,然後繪製一條最佳擬合線,將資料拆分並分類為不同的類別。 

什麼是文本分類?

2.邏輯迴歸  

邏輯迴歸是迴歸的子類,主要關注分類問題。它使用決策邊界、回歸和距離來評估和分類資料集。

什麼是文本分類?

3.樸素貝葉斯  

樸素貝葉斯演算法根據物件提供的特徵對不同的物件進行分類。然後繪製組邊界以推斷這些組分類以進一步解決和分類。

什麼是文本分類?

設定文字分類時,應避免什麼問題

1.過度擁擠的訓練資料 

為演算法提供低品質資料將導致糟糕的未來預測。對於機器學習從業者來說,一個常見的問題是,向訓練模型提供的資料集過多,並且包括不必要的特徵。過度使用不相關的數據會導致模型性能的下降。而在選擇和組織資料集時,越少越好。

錯誤的訓練與測試資料的比率會大大影響模型的效能,並影響資料的洗牌和篩選。精確的數據點不會被其他不必要的因素所干擾,訓練模型將更有效地執行。 

在訓練模型時,選擇符合模型要求的資料集,過濾不必要的值,洗牌資料集,並測試最終模型的準確性。更簡單的演算法需要更少的計算時間和資源,而最好的模型是可以解決複雜問題的最簡單的模型。

2.過度擬合與欠擬合  

在訓練達到高峰時,模型的準確度隨著訓練的持續逐漸降低。這稱為過度擬合;由於訓練持續時間過長,模型開始學習意想不到的模式。在訓練集上實現高精度時要小心,因為主要目標是開發其準確性植根於測試集的模型(模型以前從未見過的資料)。 

另一方面,欠擬合是指訓練模型仍有改進的空間,尚未達到最大潛力。訓練不佳的模型源自於訓練的時間長度或對資料集過度正規化。這體現了擁有簡潔和精確數據的意義。 

在訓練模式時找到最佳位置至關重要。將資料集拆分為80/20是一個很好的開始,但調整參數可能是特定模型需要以最佳方式執行的操作。 

3.文字格式不正確  

儘管在本文中沒有詳細提及,但針對文字分類問題使用正確的文字格式將獲得更好的結果。一些表示文字資料的方法包括GloVe、Word2Vec和嵌入模型。

使用正確的文字格式將改善模型讀取和解釋資料集的方式,進而幫助它理解模式。 

文字分類應用程式  

什麼是文本分類?

#
  • 過濾垃圾郵件:透過搜尋某些關鍵字,可以將電子郵件分類為有用郵件或垃圾郵件。 
  • 文字分類:透過使用文字分類,應用程式可以透過對相關文本(如項目名稱和描述等)進行分類,將不同的項目(文章和書籍等)分類為不同的類別。使用這些技術可以改善體驗,因為它使用戶更容易在資料庫中導航。
  • 識別仇恨言論:某些社群媒體公司使用文字分類來偵測和禁止帶有冒犯行為的評論或貼文。 
  • 行銷與廣告:企業可以透過了解使用者對某些產品的反應來做出特定的改變來滿足他們的客戶。它還可以根據用戶對類似產品的評論推薦某些產品。文字分類演算法可以與推薦系統結合使用,這是許多線上網站用來獲得重複業務的另一種深度學習演算法。 

流行的文字分類資料集  

擁有大量標記和即用型資料集,隨時可以搜尋符合模型要求的完美資料集。 

雖然在決定使用哪一個時可能會遇到一些問題,但以下將推薦一些可供公眾使用的最知名的資料集。

  • IMDB Dataset
  • Amazon Reviews Dataset
  • Yelp Reviews Dataset
  • SMS Spam Collection
  • Opin Rank Review Dataset
  • Twitter US Airline Sentiment Dataset
  • Hate Speech and Offensive Language Dataset
  • Clickbait Dataset

Kaggle等網站包含涵蓋所有主題的各種資料集。可以嘗試在上述幾個資料集上運行模型進行練習。 

機器學習中的文字分類  

隨著機器學習在過去十年中產生了巨大的影響,企業正在嘗試一切可能的方法來利用機器學習實現流程自動化。評論、貼文、文章、期刊和文件在文本中都具有無價的價值。而透過以多種創意方式使用文字分類來提取使用者見解和模式,企業可以做出有數據支援的決策;專業人士可以比以往更快地獲取和學習有價值的資訊。

原文標題:What Is Text Classification?,作者:Kevin Vu

以上是什麼是文本分類?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

來源:51cto.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板