首頁 > 後端開發 > Python教學 > nltk 之 snowball 提取詞幹

nltk 之 snowball 提取詞幹

高洛峰
發布: 2016-10-18 10:12:57
原創
4563 人瀏覽過

機器學習中很重要的應用場景就是機器自動分類,而分類的關鍵是詞幹擷取。所以我們要用到snowball。下面說一下snowball 提取詞幹的兩種方法。

兩種方法:

方法一:

>>> from nltk import SnowballStemmer
>>> SnowballStemmer.languages # See which languages are supported
('dandanish',),'dan , 'french', 'german', 'hungarian',
'italian', 'norwegian', 'porter', 'portuguese", 'romanian',
'russian', 'spanish', 'swedish')
>> > stemmer = SnowballStemmer("german") # Choose a language
>>> stemmer.stem(u"Autobahnen") # Stem a word
u'autobahn'
但是當你知道你使用的語言場景的時候可以使用下面的方法直接呼叫:
方法二:
>>> ps = nltk.stem.snowball.PortugueseStemmer()
>>> ps.stem('celular')
u'celul'
>>> ps.stem(' celular')
u'celul'


來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板