python – So benennen Sie die durch reguläre Ausdrücke extrahierte IP
仅有的幸福
仅有的幸福 2017-05-18 11:00:19
0
4
768
source_ip = line.split('- -')[0].strip()
            if re.match('[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}',source_ip):
                if source_ip_dict.get(source_ip,'-')=='-':
                    source_ip_dict[source_ip]=1
                else:
                    source_ip_dict[source_ip]=source_ip_dict[source_ip]+1

Extrahieren Sie die Apache-Protokoll-IP mit dem obigen Code und führen Sie eine statistische Deduplizierung durch.
Die extrahierten IP-Daten lauten wie folgt:

So benennen und klassifizieren Sie diese IP-Adressen:
Beispiel:
202.108.11.103 und 220.181.32.137 sind Baidu Spider-IPs
Der gewünschte Effekt ist wie folgt:
Nennen Sie diese beiden IPs als Baidu Spider und vergleichen Sie dann ihre statistischen Daten. Fügen Sie 4336+3411
Baidu Spider 7747

hinzu

So bedienen Sie das

仅有的幸福
仅有的幸福

Antworte allen(4)
仅有的幸福
from itertools import groupby
NAME_IP_MAPPING = {
    '202.108.11.103':'百度蜘蛛',
    '220.181.32.137': '百度蜘蛛',
}
spiders = [
    {'ip':'202.108.11.103','count':123}, 
    {'ip':'220.181.32.137','count':345}
]
# 先用ip通过映射得到名字,再根据名字将spiders里的item分组,之后各自求和存入新的dict中。
{k: sum(s['count'] for s in g)
    for k, g in groupby(spiders, lambda s:NAME_IP_MAPPING.get(s['ip']))}
# output: {'百度蜘蛛': 468}
黄舟

可以尝试构建一个大型的以字典为键, 爬虫名字为值的字典;

ip_map = {
    '202.108.11.103': 'baidu-spider',
    '220'.181.32.137: 'baidu-spider',
    '192.168.1.1': 'other'
    ....
}
sum = {}
for ip in source_ip:
    print ip
    sum[ip_mapping.get(ip, 'other')] = sum.get(ip, 0) + source_ip[ip]
print sum
滿天的星座

使用pandas的数据透视表

阿神

这样多累啊!
为什么不给这个ip分组单独建立一张表, 名为IPGroup (id, ip, groupname)

id ip groupName
1 202.108.11.103 百度蜘蛛
2 220.181.32.137 百度蜘蛛

之后一个SQL就搞定了,多么轻松(设楼主用的表明为IPStastics)

SELECT b.groupName, SUM(a.count)
FROM IPStastics a 
  INNER JOIN IPGroup b
  ON a.ip = b.ip
GROUP BY b.groupName
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage