使用多個單字邊界分隔符號將字串分割為單字
在Python 中,當使用str.split() 將字串拆分為單字時,您可以只能指定一個分隔符號。如果您想將標點符號和空格視為單字邊界,這可能會出現問題。
解決方案:使用 re.split()
要解決此問題,請考慮使用 re.split() 函數來取代。 re.split() 可讓您指定一個模式作為參數,該模式可以包含多個單字邊界分隔符號。
可以使用以下語法建構模式:
\W+ # Match any sequence of non-word characters | # Or \s+ # Match any sequence of whitespace characters
分割將給定的範例字串轉換為單詞,包括標點符號,可以使用以下程式碼:
>>> import re >>> re.split(r"\W+|\s+", "Hey, you - what are you doing here!?") ['hey', 'you', 'what', 'are', 'you', 'doing', 'here']
上面的正規表示式匹配任何非單字序列字符或空白字符,從而有效地將字串拆分為單字。
此方法提供了一種靈活且可自訂的方式來根據各種分隔符拆分字串,確保捕獲所有相關單字。
以上是如何在 Python 中使用多個分隔符號將字串拆分為單字?的詳細內容。更多資訊請關注PHP中文網其他相關文章!