用 python 给数据打标签，500 万条数据怎样提高效率？

Question

新手向大家求助，需要用python对一列word打标签，标签规则是包含其中某些词就标记成某个标签。word数量比较多大约有500万个词。我用下面的代码标注，效率特别低，需要一个多小时才能标注完。求问有什么优化更快的...

迷茫 · Answer

所以说你真的就把pandas 当读取数据的工具了吗..

增加了一列is_tobacco 作为你说的标记

filter_query 返回含有这些词的列表效率有一定提升

其次你可以分割后用 multiprocessing 执行这个加速起来不止一点半点

import pandas as pd
word = pd.read_table('test.txt', encoding = 'utf-8', names = ['query'])

def signquery(word):
    tobacco = [u'烟', u'白沙', u'黄金叶', u'利群', u'南京九五', u'黄鹤楼软',  u'黄鹤楼硬', u'娇子', u'钻石荷花', u'玉溪', u'七匹狼尚品',  u'七匹狼软灰']
    word['is_tobacco'] = word['query'].apply(lambda name:name in tobacco)
    return word

def filter_query(word):
    tobacco = [u'烟', u'白沙', u'黄金叶', u'利群', u'南京九五', u'黄鹤楼软',  u'黄鹤楼硬', u'娇子', u'钻石荷花', u'玉溪', u'七匹狼尚品',  u'七匹狼软灰']
    return word[word['query'].apply(lambda name:name in tobacco)]['query'].to_dict().values()

result = filter_query(word)

print result

怪我咯 · Answer

可以尝试用正则：

import re
pattern = re.compile(u'烟|白沙|黄金叶|利群|南京九五|黄鹤楼软|黄鹤楼硬|娇子|钻石荷花|玉溪|七匹狼尚品|七匹狼软灰')
result = filter(pattern.search, word['query'])

ringa_lee · Answer

天蓬老师 · Answer

KMP
Manacher
TireTree

php8，我来也

30分钟学会网站布局

尚观Oracle入门到精通视频教程

你的第一行 UNI-APP 代码

Flutter 从头到应用启动

兄弟连Linux新版视频教程

AXURE 9视频教程（适合产品经理交互产品设计UI）

零基础PS视频教程

16天带你入门UI视频教程

PS技巧和切片技巧视频教程

阿里云环境搭建以及项目上线视频教程

计算机网络概述——程序员必须掌握的基础知识

程序员必备教程——HTTP协议讲解

Websocket视频教程