用 python 给数据打标签，500 万条数据怎样提高效率？

Question

新手向大家求助，需要用python对一列word打标签，标签规则是包含其中某些词就标记成某个标签。word数量比较多大约有500万个词。我用下面的代码标注，效率特别低，需要一个多小时才能标注完。求问有什么优化更快的...

迷茫 · Answer

所以說你真的就把pandas 當讀取資料的工具了嗎..

增加了一列is_tobacco 作為你說的標記

filter_query 回傳含有這些字的清單效率有一定提升

其次你可以分割後用 multiprocessing 執行這個加速起來不只一點半點

import pandas as pd
word = pd.read_table('test.txt', encoding = 'utf-8', names = ['query'])

def signquery(word):
    tobacco = [u'烟', u'白沙', u'黄金叶', u'利群', u'南京九五', u'黄鹤楼软',  u'黄鹤楼硬', u'娇子', u'钻石荷花', u'玉溪', u'七匹狼尚品',  u'七匹狼软灰']
    word['is_tobacco'] = word['query'].apply(lambda name:name in tobacco)
    return word

def filter_query(word):
    tobacco = [u'烟', u'白沙', u'黄金叶', u'利群', u'南京九五', u'黄鹤楼软',  u'黄鹤楼硬', u'娇子', u'钻石荷花', u'玉溪', u'七匹狼尚品',  u'七匹狼软灰']
    return word[word['query'].apply(lambda name:name in tobacco)]['query'].to_dict().values()

result = filter_query(word)

print result

怪我咯 · Answer

可以試試用正規：

import re
pattern = re.compile(u'烟|白沙|黄金叶|利群|南京九五|黄鹤楼软|黄鹤楼硬|娇子|钻石荷花|玉溪|七匹狼尚品|七匹狼软灰')
result = filter(pattern.search, word['query'])

ringa_lee · Answer

KMP 演算法

天蓬老师 · Answer

KMP
Manacher
TireTree

php8，我來也

30分鐘學會網站佈局

尚觀Oracle入門到精通視頻教程

你的第一行UNI-APP程式碼

Flutter 從頭到應用程式啟動

兄弟連新版Linux視頻教程

AXURE 9影片教學（適用於產品經理互動產品設計UI）

零基礎PS影片教學

16天帶你入門UI視頻教程

PS技巧和切片技巧影片教學

阿裡雲環境搭建以及項目上線視頻教程

電腦網路概述－程式設計師必須掌握的基礎知識

程式設計師必備教學——HTTP協定講解

Websocket影片教學