ホームページ > バックエンド開発 > Python チュートリアル > Pythonで句読点を削除する方法

Pythonで句読点を削除する方法

リリース: 2019-07-01 09:34:40
オリジナル
19868 人が閲覧しました

Pythonで句読点を削除する方法

Python で句読点を削除する方法は次のとおりです。

方法 1:

str.isalnum:

S. isalnum() -> bool

戻り値: string に少なくとも 1 つの文字があり、すべての文字が文字または数字の場合は True、それ以外の場合は False。

例:

1

2

3

>>> string = "Special $#! characters   spaces 888323"

>>> ''.join(e for e in string if e.isalnum())

'Specialcharactersspaces888323'

ログイン後にコピー

文字と数字のみを認識できます。これは非常に致命的であり、漢字やスペースなども破壊します

方法 2:

string.punctuation

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

import re, string

 

s ="string. With. Punctuation?" # Sample string

 

# 写法一:

out = s.translate(string.maketrans("",""), string.punctuation)

 

# 写法二:

out = s.translate(None, string.punctuation)

 

# 写法三:

exclude = set(string.punctuation)

out = ''.join(ch for ch in s if ch not in exclude)

 

# 写法四:

>>> for c in string.punctuation:

            s = s.replace(c,"")

>>> s

'string With Punctuation'

 

# 写法五:

out = re.sub('[%s]' % re.escape(string.punctuation), '', s)

## re.escape:对字符串中所有可能被解释为正则运算符的字符进行转义

 

# 写法六:

# string.punctuation 只包括 ascii 格式; 想要一个包含更广(但是更慢)的方法是使用: unicodedata module :

from unicodedata import category

s = u'String — with - «Punctuation »...'

out = re.sub('[%s]' % re.escape(string.punctuation), '', s)

print 'Stripped', out

# 输出:u'Stripped String \u2014 with  \xabPunctuation \xbb'

out = ''.join(ch for ch in s if category(ch)[0] != 'P')

print 'Stripped', out

# 输出:u'Stripped String  with  Punctuation '

 

 

# For Python 3 str or Python 2 unicode values, str.translate() only takes a dictionary; codepoints (integers) are looked up in that mapping and anything mapped to None is removed.

# To remove (some?) punctuation then, use:

import string

remove_punct_map = dict.fromkeys(map(ord, string.punctuation))

s.translate(remove_punct_map)

 

 

# Your method doesn't work in Python 3, as the translate method doesn't accept the second argument any more.

import unicodedata

import sys

tbl = dict.fromkeys(i for i in range(sys.maxunicode) if unicodedata.category(chr(i)).startswith('P'))

def remove_punctuation(text):

    return text.translate(tbl)

ログイン後にコピー

方法 3:

re

例:

1

2

3

import re

s ="string. With. Punctuation?"

s = re.sub(r'[^\w\s]','',s)

ログイン後にコピー

テスト:

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

import re, string, timeit

 

s ="string. With. Punctuation"

 

exclude = set(string.punctuation)

table = string.maketrans("","")

regex = re.compile('[%s]' % re.escape(string.punctuation))

 

def test_set(s):

    return ''.join(ch for ch in s if ch not in exclude)

 

def test_re(s):

    return regex.sub('', s)

 

def test_trans(s):

    return s.translate(table, string.punctuation)

 

def test_repl(s):

    for c in string.punctuation:

        s=s.replace(c,"")

    return s

 

print"sets :",timeit.Timer('f(s)', 'from __main__ import s,test_set as f').timeit(1000000)

print"regex :",timeit.Timer('f(s)', 'from __main__ import s,test_re as f').timeit(1000000)

print"translate :",timeit.Timer('f(s)', 'from __main__ import s,test_trans as f').timeit(1000000)

print"replace :",timeit.Timer('f(s)', 'from __main__ import s,test_repl as f').timeit(1000000)

 

out_put:

# sets : 19.8566138744

# regex : 6.86155414581

# translate : 2.12455511093

# replace : 28.4436721802

ログイン後にコピー

Python 関連の技術記事をさらに詳しく知りたい場合は、Python チュートリアル 列にアクセスして学習してください。

以上がPythonで句読点を削除する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート