Pandas 라이브러리를 이용한 CDN 로그 분석 구현 방법-파이썬 튜토리얼-php.cn

이 글에서는 cdn 로그 분석을 위해 Python에서 pandas 라이브러리를 사용하는 방법에 대한 관련 정보를 주로 소개합니다. 이 글에서는 cdn 로그 분석을 위한 pandas의 전체 샘플 코드를 공유한 다음 pandas 라이브러리에 대한 관련 내용을 자세히 소개합니다. 필요하신 분 참고용으로 활용하시면 좋을 것 같습니다. 아래를 살펴보겠습니다.

서문

최근 직장에서 트래픽, 상태 코드 등 일부 데이터를 CDN 로그를 기반으로 필터링해야 하는 필요성을 느꼈습니다. TOP IP, URL, UA, Referer 등의 통계입니다. 예전에는 이를 구현하기 위해 bash shell을 사용했는데, 로그 볼륨이 크고, 로그 파일의 개수가 기가바이트에 이르고, 라인 수도 수백억 개에 달하게 되면, shell을 통한 처리만으로는 부족하고 처리량이 많아진다. 시간이 너무 깁니다. 그래서 데이터 처리 라이브러리인 Python pandas의 사용법을 연구했습니다. 천만 줄의 로그가 약 40초 안에 처리됩니다.

코드

#!/usr/bin/python
# -*- coding: utf-8 -*-
# sudo pip install pandas
author = &#39;Loya Chen&#39;
import sys
import pandas as pd
from collections import OrderedDict
"""
Description: This script is used to analyse qiniu cdn log.
================================================================================
日志格式
IP - ResponseTime [time +0800] "Method URL HTTP/1.1" code size "referer" "UA"
================================================================================
日志示例
 [0] [1][2]  [3]  [4]   [5]
101.226.66.179 - 68 [16/Nov/2016:04:36:40 +0800] "GET http://www.qn.com/1.jpg -"
[6] [7] [8]    [9]
200 502 "-" "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)"
================================================================================
"""
if len(sys.argv) != 2:
 print(&#39;Usage:&#39;, sys.argv[0], &#39;file_of_log&#39;)
 exit() 
else:
 log_file = sys.argv[1] 
# 需统计字段对应的日志位置 
ip  = 0
url  = 5
status_code = 6
size = 7
referer = 8
ua  = 9
# 将日志读入DataFrame
reader = pd.read_table(log_file, sep=&#39; &#39;, names=[i for i in range(10)], iterator=True)
loop = True
chunkSize = 10000000
chunks = []
while loop:
 try:
 chunk = reader.get_chunk(chunkSize)
 chunks.append(chunk)
 except StopIteration:
 #Iteration is stopped.
 loop = False
df = pd.concat(chunks, ignore_index=True)
byte_sum = df[size].sum()        #流量统计
top_status_code = pd.DataFrame(df[6].value_counts())      #状态码统计
top_ip  = df[ip].value_counts().head(10)      #TOP IP
top_referer = df[referer].value_counts().head(10)      #TOP Referer
top_ua  = df[ua].value_counts().head(10)      #TOP User-Agent
top_status_code[&#39;persent&#39;] = pd.DataFrame(top_status_code/top_status_code.sum()*100)
top_url  = df[url].value_counts().head(10)      #TOP URL
top_url_byte = df[[url,size]].groupby(url).sum().apply(lambda x:x.astype(float)/1024/1024) \
   .round(decimals = 3).sort_values(by=[size], ascending=False)[size].head(10) #请求流量最大的URL
top_ip_byte = df[[ip,size]].groupby(ip).sum().apply(lambda x:x.astype(float)/1024/1024) \
   .round(decimals = 3).sort_values(by=[size], ascending=False)[size].head(10) #请求流量最多的IP
# 将结果有序存入字典
result = OrderedDict([("流量总计[单位:GB]:"   , byte_sum/1024/1024/1024),
   ("状态码统计[次数|百分比]:"  , top_status_code),
   ("IP TOP 10:"    , top_ip),
   ("Referer TOP 10:"   , top_referer),
   ("UA TOP 10:"    , top_ua),
   ("URL TOP 10:"   , top_url),
   ("请求流量最大的URL TOP 10[单位:MB]:" , top_url_byte), 
   ("请求流量最大的IP TOP 10[单位:MB]:" , top_ip_byte)
])
# 输出结果
for k,v in result.items():
 print(k)
 print(v)
 print(&#39;=&#39;*80)

로그인 후 복사

pandas 학습 노트

Pandas에는 Series와 Dataframe이라는 두 가지 기본 데이터 구조가 있습니다. 시리즈는 1차원 배열과 유사한 객체로, 데이터 세트와 인덱스로 구성됩니다. 데이터프레임은 행 인덱스와 열 인덱스를 모두 갖는 테이블 유형의 데이터 구조입니다.

1 2	`from pandas import Series, DataFrame` `import pandas` `as` `pd`

로그인 후 복사

Series

In [1]: obj = Series([4, 7, -5, 3])
In [2]: obj
Out[2]: 
0 4
1 7
2 -5
3 3

로그인 후 복사

Series의 string은 왼쪽이 index, 오른쪽이 value라는 형식으로 표현됩니다. 인덱스를 지정하지 않으면 0부터 N-1(N은 데이터의 길이)까지 정수 형태의 인덱스가 자동으로 생성됩니다. 배열 표현과 인덱스 객체는 Series:

In [3]: obj.values
Out[3]: array([ 4, 7, -5, 3])
In [4]: obj.index
Out[4]: RangeIndex(start=0, stop=4, step=1)

로그인 후 복사

의 값과 인덱스

속성을 통해 얻을 수 있습니다. 일반적으로 인덱스는 Series를 생성할 때 지정됩니다:

In [5]: obj2 = Series([4, 7, -5, 3], index=[&#39;d&#39;, &#39;b&#39;, &#39;a&#39;, &#39;c&#39;])
In [6]: obj2
Out[6]: 
d 4
b 7
a -5
c 3

로그인 후 복사

색인을 통해 시리즈 가져오기 단일 또는 값 집합:

In [7]: obj2[&#39;a&#39;]
Out[7]: -5
In [8]: obj2[[&#39;c&#39;,&#39;d&#39;]]
Out[8]: 
c 3
d 4

로그인 후 복사

정렬

In [9]: obj2.sort_index()
Out[9]: 
a -5
b 7
c 3
d 4
In [10]: obj2.sort_values()
Out[10]: 
a -5
c 3
d 4
b 7

로그인 후 복사

필터 작업

In [11]: obj2[obj2 > 0]
Out[11]: 
d 4
b 7
c 3
In [12]: obj2 * 2
Out[12]: 
d 8
b 14
a -10
c 6

로그인 후 복사

Member

In [13]: &#39;b&#39; in obj2
Out[13]: True
In [14]: &#39;e&#39; in obj2
Out[14]: False

로그인 후 복사

시리즈 만들기

In [15]: sdata = {&#39;Shanghai&#39;:35000, &#39;Beijing&#39;:40000, &#39;Nanjing&#39;:26000, &#39;Hangzhou&#39;:30000}
In [16]: obj3 = Series(sdata)
In [17]: obj3
Out[17]: 
Beijing 40000
Hangzhou 30000
Nanjing 26000
Shanghai 35000

로그인 후 복사

from Dictionary 하나의 사전만 전달되면 결과 시리즈의 인덱스가 원래 사전의 키(순서정렬)입니다.

In [18]: states = [&#39;Beijing&#39;, &#39;Hangzhou&#39;, &#39;Shanghai&#39;, &#39;Suzhou&#39;]
In [19]: obj4 = Series(sdata, index=states)
In [20]: obj4
Out[20]: 
Beijing 40000.0
Hangzhou 30000.0
Shanghai 35000.0
Suzhou  NaN

로그인 후 복사

인덱스를 지정하면 세 값이 sdata에서 States index와 일치하는 것을 찾게 되고 응답 위치에 넣게 되는데, 'Suzhou'에 해당하는 sdata 값을 찾을 수 없기 때문에 결과는 NaN(숫자가 아님)이 되는데, 이는 pandas에서 표현하기 위해 사용됩니다. 누락 또는 NA 값

pandas isnull 및 notnull함수를 사용하여 누락된 데이터를 검색할 수 있습니다.

In [21]: pd.isnull(obj4)
Out[21]: 
Beijing False
Hangzhou False
Shanghai False
Suzhou True
In [22]: pd.notnull(obj4)
Out[22]: 
Beijing True
Hangzhou True
Shanghai True
Suzhou False

로그인 후 복사

시리즈에도 비슷한 인스턴스 메서드가 있습니다

In [23]: obj4.isnull()
Out[23]: 
Beijing False
Hangzhou False
Shanghai False
Suzhou True

로그인 후 복사

시리즈의 중요한 기능은 데이터를 다른 인덱스로 자동 정렬하는 것입니다

In [24]: obj3
Out[24]: 
Beijing 40000
Hangzhou 30000
Nanjing 26000
Shanghai 35000
In [25]: obj4
Out[25]: 
Beijing 40000.0
Hangzhou 30000.0
Shanghai 35000.0
Suzhou  NaN
In [26]: obj3 + obj4
Out[26]: 
Beijing 80000.0
Hangzhou 60000.0
Nanjing  NaN
Shanghai 70000.0
Suzhou  NaN

로그인 후 복사

시리즈의 인덱스는 복사

In [27]: obj.index = [&#39;Bob&#39;, &#39;Steve&#39;, &#39;Jeff&#39;, &#39;Ryan&#39;]
In [28]: obj
Out[28]: 
Bob 4
Steve 7
Jeff -5
Ryan 3

로그인 후 복사

DataFrame

를 복사하여 내부에서 수정할 수 있습니다.

pandas파일 읽기

In [29]: df = pd.read_table(&#39;pandas_test.txt&#39;,sep=&#39; &#39;, names=[&#39;name&#39;, &#39;age&#39;])
In [30]: df
Out[30]: 
 name age
0 Bob 26
1 Loya 22
2 Denny 20
3 Mars 25

로그인 후 복사

DataFrame 열 선택

1	`df[name]`

로그인 후 복사

In [31]: df[&#39;name&#39;]
Out[31]: 
0 Bob
1 Loya
2 Denny
3 Mars
Name: name, dtype: object

로그인 후 복사

DataFrame 행 선택

1 2	`df.iloc[0,:] #第一个参数是第几行，第二个参数是列。这里指第0行全部列` `df.iloc[:,0] #全部行，第0列`

로그인 후 복사

In [32]: df.iloc[0,:]
Out[32]: 
name Bob
age 26
Name: 0, dtype: object
In [33]: df.iloc[:,0]
Out[33]: 
0 Bob
1 Loya
2 Denny
3 Mars
Name: name, dtype: object

로그인 후 복사

요소를 가져오려면 iloc를 사용할 수 있습니다. 더 빠른 방법은 iat

In [34]: df.iloc[1,1]
Out[34]: 22
In [35]: df.iat[1,1]
Out[35]: 22

로그인 후 복사

DataFrame 블록 선택

In [36]: df.loc[1:2,[&#39;name&#39;,&#39;age&#39;]]
Out[36]: 
 name age
1 Loya 22
2 Denny 20

로그인 후 복사

조건에 따라 행 필터링

행을 필터링하려면 대괄호 안에 판단 조건을 추가하는 것입니다. 조건은 True 또는 False를 반환해야 합니다.

In [37]: df[(df.index >= 1) & (df.index <= 3)]
Out[37]: 
 name age city
1 Loya 22 Shanghai
2 Denny 20 Hangzhou
3 Mars 25 Nanjing
In [38]: df[df[&#39;age&#39;] > 22]
Out[38]: 
 name age city
0 Bob 26 Beijing
3 Mars 25 Nanjing

로그인 후 복사

열 추가

In [39]: df[&#39;city&#39;] = [&#39;Beijing&#39;, &#39;Shanghai&#39;, &#39;Hangzhou&#39;, &#39;Nanjing&#39;]
In [40]: df
Out[40]: 
 name age city
0 Bob 26 Beijing
1 Loya 22 Shanghai
2 Denny 20 Hangzhou
3 Mars 25 Nanjing

로그인 후 복사

정렬

지정된 열 기준 정렬

In [41]: df.sort_values(by=&#39;age&#39;)
Out[41]: 
 name age city
2 Denny 20 Hangzhou
1 Loya 22 Shanghai
3 Mars 25 Nanjing
0 Bob 26 Beijing

로그인 후 복사

1 2	`# 引入numpy 构建 DataFrame` `import numpy` `as` `np`

로그인 후 복사

In [42]: df = pd.DataFrame(np.arange(8).reshape((2, 4)), index=[&#39;three&#39;, &#39;one&#39;], columns=[&#39;d&#39;, &#39;a&#39;, &#39;b&#39;, &#39;c&#39;])
In [43]: df
Out[43]: 
 d a b c
three 0 1 2 3
one 4 5 6 7

로그인 후 복사

# 以索引排序
In [44]: df.sort_index()
Out[44]: 
 d a b c
one 4 5 6 7
three 0 1 2 3
In [45]: df.sort_index(axis=1)
Out[45]: 
 a b c d
three 1 2 3 0
one 5 6 7 4
# 降序
In [46]: df.sort_index(axis=1, ascending=False)
Out[46]: 
 d c b a
three 0 3 2 1
one 4 7 6 5

로그인 후 복사

보기

# 查看表头5行 
df.head(5)
# 查看表末5行
df.tail(5) 
# 查看列的名字
In [47]: df.columns
Out[47]: Index([&#39;name&#39;, &#39;age&#39;, &#39;city&#39;], dtype=&#39;object&#39;)
# 查看表格当前的值
In [48]: df.values
Out[48]: 
array([[&#39;Bob&#39;, 26, &#39;Beijing&#39;],
 [&#39;Loya&#39;, 22, &#39;Shanghai&#39;],
 [&#39;Denny&#39;, 20, &#39;Hangzhou&#39;],
 [&#39;Mars&#39;, 25, &#39;Nanjing&#39;]], dtype=object)

로그인 후 복사

전치

df.T
Out[49]: 
  0  1  2 3
name Bob Loya Denny Mars
age 26 22 20 25
city Beijing Shanghai Hangzhou Nanjing

로그인 후 복사

isin 사용

In [50]: df2 = df.copy()
In [51]: df2[df2[&#39;city&#39;].isin([&#39;Shanghai&#39;,&#39;Nanjing&#39;])]
Out[52]: 
 name age city
1 Loya 22 Shanghai
3 Mars 25 Nanjing

로그인 후 복사

작업 작업:

In [53]: df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5], [np.nan, np.nan], [0.75, -1.3]], 
 ...:    index=[&#39;a&#39;, &#39;b&#39;, &#39;c&#39;, &#39;d&#39;], columns=[&#39;one&#39;, &#39;two&#39;])
In [54]: df
Out[54]: 
 one two
a 1.40 NaN
b 7.10 -4.5
c NaN NaN
d 0.75 -1.3

로그인 후 복사

rrree

group

group은 다음 단계를 나타냅니다.

어떤 기준에 따라 데이터를 그룹으로 나누기
각 그룹에 독립적으로 함수 적용
결과를 데이터로 결합 구조

그룹화 섹션 참조

#按列求和
In [55]: df.sum()
Out[55]: 
one 9.25
two -5.80
# 按行求和
In [56]: df.sum(axis=1)
Out[56]: 
a 1.40
b 2.60
c NaN
d -0.55

로그인 후 복사

그룹화한 다음 합계 함수 적용

In [57]: df = pd.DataFrame({&#39;A&#39; : [&#39;foo&#39;, &#39;bar&#39;, &#39;foo&#39;, &#39;bar&#39;,
 ....:    &#39;foo&#39;, &#39;bar&#39;, &#39;foo&#39;, &#39;foo&#39;],
 ....:   &#39;B&#39; : [&#39;one&#39;, &#39;one&#39;, &#39;two&#39;, &#39;three&#39;,
 ....:    &#39;two&#39;, &#39;two&#39;, &#39;one&#39;, &#39;three&#39;],
 ....:   &#39;C&#39; : np.random.randn(8),
 ....:   &#39;D&#39; : np.random.randn(8)})
 ....: 
In [58]: df
Out[58]: 
 A B  C  D
0 foo one -1.202872 -0.055224
1 bar one -1.814470 2.395985
2 foo two 1.018601 1.552825
3 bar three -0.595447 0.166599
4 foo two 1.395433 0.047609
5 bar two -0.392670 -0.136473
6 foo one 0.007207 -0.561757
7 foo three 1.928123 -1.623033