如何提高文字分類的 ML 模型準確性?

WBOY
發布: 2024-08-06 20:16:30
原創
1110 人瀏覽過

How to improve ML Model Accuracy for Text Classification?

各位專家,您好,

我們正在處理文字分類問題。我們有大約 80K 筆記錄,大約有 50 個類別。數據極不平衡。它有 2 列,一列用於描述,另一列包含類別。
到目前為止,我們已經嘗試了以下模型和技術:

  1. 資料預處理: 一個。小寫轉換,刪除數字文本,刪除 標點符號 b.刪除了不重要的單字和停用詞 c.詞形還原
  2. TFIDF 轉換
  3. 使用 SKLEARN 模式: 一個。線性SVC b.線性迴歸 c.邏輯迴歸 d.決策樹 e.隨機森林
  4. 使用 Huggingface 變形金剛: 一個。谷歌伯特 b.蒸餾伯特
  5. SMOTE 採樣

據觀察,我們獲得的最大準確度為 70%(隨機森林和 Google Bert)。
準確度還有提升空間嗎?
如果是,我們還可以使用哪些其他技術或模型來提高準確性?

以上是如何提高文字分類的 ML 模型準確性?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

來源:dev.to
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板