上記のデータは、ロイター データ セットの 7303 トレーニング セットから取得され、tfidf 特徴を抽出するために sklearn が使用されています。得られた結果はすべて 0 です。 ?
このデータの一部を取得すると、データのこれらの小さな部分に対して正しい tfidf 結果を取得できます。
光阴似箭催人老,日月如移越少年。
上記のコードは、精度が低すぎるか、min_count が原因である可能性があります
たとえば、単語の頻度が 1 で単語の総数が 1e9 の場合、対応する tf は 1e-9 であり、これは無視されます。
上記のコードは、精度が低すぎるか、min_count が原因である可能性があります
たとえば、単語の頻度が 1 で単語の総数が 1e9 の場合、対応する tf は 1e-9 であり、これは無視されます。