機械学習における非常に重要なアプリケーション シナリオは、機械による自動分類であり、分類の鍵となるのはステミングです。したがって、snowball を使用する必要があります。 Snowball がステムを抽出する 2 つの方法について話しましょう。
2 つの方法:
方法 1:
>>> from nltk import SnowballStemmer
>>> SnowballStemmer.langages # サポートされている言語を確認します
('デンマーク語', 'オランダ語', '英語', 'フィンランド語'、'フランス語'、'ドイツ語'、'ハンガリー語'、
'イタリア語'、'ノルウェー語'、'ポーター'、'ポルトガル語'、'ルーマニア語'、
'ロシア語'、'スペイン語'、'スウェーデン語')
>> > Stemmer = SnowballStemmer("german") # 言語を選択します
>>> Stemmer.stem(u"Autobahnen") # 単語を語幹化します
u'autobahn'
しかし、使用している言語シナリオがわかっていれば、次のものを使用できます。メソッドは直接呼び出されます:
方法 2:
>>> ps = nltk.stem.snowball.PortugueseStemmer()
>>> ps.stem('celular')
u'celul'
>> > ps.stem('セルラー')
u'セルラー'