各位專家,您好, 我們正在處理文字分類問題。我們有大約 80K 筆記錄,大約有 50 個類別。數據極不平衡。它有 2 列,一列用於描述,另一列包含類別。 到目前為止,我們已經嘗試了以下模型和技術: 資料預處理: 一個。小寫轉換,刪除數字文本,刪除 標點符號 b.刪除了不重要的單字和停用詞 c.詞形還原 TFIDF 轉換 使用 SKLEARN 模式: 一個。線性SVC b.線性迴歸 c.邏輯迴歸 d.決策樹 e.隨機森林 使用 Huggingface 變形金剛: 一個。谷歌伯特 b.蒸餾伯特 SMOTE 採樣 據觀察,我們獲得的最大準確度為 70%(隨機森林和 Google Bert)。 準確度還有提升空間嗎? 如果是,我們還可以使用哪些其他技術或模型來提高準確性?