pandas ライブラリを通じて cdn ログを分析する Python コード例-Python チュートリアル-php.cn

この記事では、主に cdn ログ分析のための Python の pandas ライブラリの使用に関する関連情報を紹介し、cdn ログ分析のための pandas の完全なサンプルコードを共有し、その後、pandas ライブラリに関する関連コンテンツを詳しく紹介します。参考までに、以下を見てみましょう。

前書き

私は最近仕事で、トラフィック、ステータスコード統計、TOP IP、URL、UA、リファラーなどの CDN ログに基づいて一部のデータをフィルタリングする必要があることに遭遇しました。従来はbashシェルを使用して実装していましたが、ログ容量が大きく、ログファイル数がギガバイト、行数が数百億に達する場合、シェルでの処理では不十分となり処理が困難になります。時間が長すぎます。そこで、データ処理ライブラリであるPython pandasの使い方を勉強しました。 1,000 万行のログは約 40 秒で処理されます。

Code

#!/usr/bin/python
# -*- coding: utf-8 -*-
# sudo pip install pandas
author = &#39;Loya Chen&#39;
import sys
import pandas as pd
from collections import OrderedDict
"""
Description: This script is used to analyse qiniu cdn log.
================================================================================
日志格式
IP - ResponseTime [time +0800] "Method URL HTTP/1.1" code size "referer" "UA"
================================================================================
日志示例
 [0] [1][2]  [3]  [4]   [5]
101.226.66.179 - 68 [16/Nov/2016:04:36:40 +0800] "GET http://www.qn.com/1.jpg -" 
[6] [7] [8]    [9]
200 502 "-" "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)"
================================================================================
"""
if len(sys.argv) != 2:
 print(&#39;Usage:&#39;, sys.argv[0], &#39;file_of_log&#39;)
 exit() 
else:
 log_file = sys.argv[1] 
# 需统计字段对应的日志位置 
ip  = 0
url  = 5
status_code = 6
size = 7
referer = 8
ua  = 9
# 将日志读入DataFrame
reader = pd.read_table(log_file, sep=&#39; &#39;, names=[i for i in range(10)], iterator=True)
loop = True
chunkSize = 10000000
chunks = []
while loop:
 try:
 chunk = reader.get_chunk(chunkSize)
 chunks.append(chunk)
 except StopIteration:
 #Iteration is stopped.
 loop = False
df = pd.concat(chunks, ignore_index=True)
byte_sum = df[size].sum()        #流量统计
top_status_code = pd.DataFrame(df[6].value_counts())      #状态码统计
top_ip  = df[ip].value_counts().head(10)      #TOP IP
top_referer = df[referer].value_counts().head(10)      #TOP Referer
top_ua  = df[ua].value_counts().head(10)      #TOP User-Agent
top_status_code[&#39;persent&#39;] = pd.DataFrame(top_status_code/top_status_code.sum()*100)
top_url  = df[url].value_counts().head(10)      #TOP URL
top_url_byte = df[[url,size]].groupby(url).sum().apply(lambda x:x.astype(float)/1024/1024) \
   .round(decimals = 3).sort_values(by=[size], ascending=False)[size].head(10) #请求流量最大的URL
top_ip_byte = df[[ip,size]].groupby(ip).sum().apply(lambda x:x.astype(float)/1024/1024) \
   .round(decimals = 3).sort_values(by=[size], ascending=False)[size].head(10) #请求流量最多的IP
# 将结果有序存入字典
result = OrderedDict([("流量总计[单位:GB]:"   , byte_sum/1024/1024/1024),
   ("状态码统计[次数|百分比]:"  , top_status_code),
   ("IP TOP 10:"    , top_ip),
   ("Referer TOP 10:"   , top_referer),
   ("UA TOP 10:"    , top_ua),
   ("URL TOP 10:"   , top_url),
   ("请求流量最大的URL TOP 10[单位:MB]:" , top_url_byte), 
   ("请求流量最大的IP TOP 10[单位:MB]:" , top_ip_byte)
])
# 输出结果
for k,v in result.items():
 print(k)
 print(v)
 print(&#39;=&#39;*80)

ログイン後にコピー

pandasの勉強メモ

PandasにはSeriesとDataframeという2つの基本的なデータ構造があります。シリーズは、一次元配列に似たオブジェクトであり、一連のデータとインデックスで構成されます。 Dataframe は、行インデックスと列インデックスの両方を持つ table タイプのデータ構造です。

from pandas import Series, DataFrame
import pandas as pd

ログイン後にコピー

Series

In [1]: obj = Series([4, 7, -5, 3])
In [2]: obj
Out[2]: 
0 4
1 7
2 -5
3 3

ログイン後にコピー

Series の string 表現は、インデックスが左側にあり、値が右側にあります。インデックスが指定されていない場合は、0 ～ N-1 (N はデータの長さ) のinteger 型のインデックスが自動的に作成されます。シリーズの配列表現とインデックスオブジェクトは、その値とインデックスプロパティを通じて取得できます:

In [3]: obj.values
Out[3]: array([ 4, 7, -5, 3])
In [4]: obj.index
Out[4]: RangeIndex(start=0, stop=4, step=1)

ログイン後にコピー

通常、インデックスはシリーズの作成時に指定されます:

In [5]: obj2 = Series([4, 7, -5, 3], index=[&#39;d&#39;, &#39;b&#39;, &#39;a&#39;, &#39;c&#39;])
In [6]: obj2
Out[6]: 
d 4
b 7
a -5
c 3

ログイン後にコピー

インデックスによるシリーズ:

In [7]: obj2[&#39;a&#39;]
Out[7]: -5
In [8]: obj2[[&#39;c&#39;,&#39;d&#39;]]
Out[8]: 
c 3
d 4

ログイン後にコピー

並べ替え

In [9]: obj2.sort_index()
Out[9]: 
a -5
b 7
c 3
d 4
In [10]: obj2.sort_values()
Out[10]: 
a -5
c 3
d 4
b 7

ログイン後にコピー

フィルター操作

In [11]: obj2[obj2 > 0]
Out[11]: 
d 4
b 7
c 3
In [12]: obj2 * 2
Out[12]: 
d 8
b 14
a -10
c 6

ログイン後にコピー

メンバー

In [13]: &#39;b&#39; in obj2
Out[13]: True
In [14]: &#39;e&#39; in obj2
Out[14]: False

ログイン後にコピー

辞書を介してシリーズを作成

In [15]: sdata = {&#39;Shanghai&#39;:35000, &#39;Beijing&#39;:40000, &#39;Nanjing&#39;:26000, &#39;Hangzhou&#39;:30000}
In [16]: obj3 = Series(sdata)
In [17]: obj3
Out[17]: 
Beijing 40000
Hangzhou 30000
Nanjing 26000
Shanghai 35000

ログイン後にコピー

辞書が 1 つだけ渡された場合、結果のシリーズのインデックスは元の辞書のキーになります (順序付けられています)。配置）

In [18]: states = [&#39;Beijing&#39;, &#39;Hangzhou&#39;, &#39;Shanghai&#39;, &#39;Suzhou&#39;]
In [19]: obj4 = Series(sdata, index=states)
In [20]: obj4
Out[20]: 
Beijing 40000.0
Hangzhou 30000.0
Shanghai 35000.0
Suzhou  NaN

ログイン後にコピー

indexを指定すると、sdata州のindexに一致する3つの値を見つけて応答位置に配置しますが、「蘇州」に対応するsdata値が見つからないため、結果はNaNになります（数値)、pandas で使用されます欠落値または NA 値を表すために使用されます

pandas の isnull および notnull

関数は欠落データの検出に使用できます:

In [21]: pd.isnull(obj4)
Out[21]: 
Beijing False
Hangzhou False
Shanghai False
Suzhou True
In [22]: pd.notnull(obj4)
Out[22]: 
Beijing True
Hangzhou True
Shanghai True
Suzhou False

ログイン後にコピー

Series にも同様のインスタンスメソッドがあります

In [23]: obj4.isnull()
Out[23]: 
Beijing False
Hangzhou False
Shanghai False
Suzhou True

ログイン後にコピー

Series の重要な機能データ操作中に相違点を自動的に調整することですインデックス付きデータ

In [24]: obj3
Out[24]: 
Beijing 40000
Hangzhou 30000
Nanjing 26000
Shanghai 35000
In [25]: obj4
Out[25]: 
Beijing 40000.0
Hangzhou 30000.0
Shanghai 35000.0
Suzhou  NaN
In [26]: obj3 + obj4
Out[26]: 
Beijing 80000.0
Hangzhou 60000.0
Nanjing  NaN
Shanghai 70000.0
Suzhou  NaN

ログイン後にコピー

シリーズのインデックスは、コピーすることでその場で変更できます

In [27]: obj.index = [&#39;Bob&#39;, &#39;Steve&#39;, &#39;Jeff&#39;, &#39;Ryan&#39;]
In [28]: obj
Out[28]: 
Bob 4
Steve 7
Jeff -5
Ryan 3

ログイン後にコピー

DataFrame

pandas

ファイルを読み取る

In [29]: df = pd.read_table(&#39;pandas_test.txt&#39;,sep=&#39; &#39;, names=[&#39;name&#39;, &#39;age&#39;])
In [30]: df
Out[30]: 
 name age
0 Bob 26
1 Loya 22
2 Denny 20
3 Mars 25

ログイン後にコピー

DataFrame列の選択

df[name]

ログイン後にコピー

In [31]: df[&#39;name&#39;]
Out[31]: 
0 Bob
1 Loya
2 Denny
3 Mars
Name: name, dtype: object

ログイン後にコピー

DataFrame の行選択

df.iloc[0,:] #第一个参数是第几行，第二个参数是列。这里指第0行全部列
df.iloc[:,0] #全部行，第0列

ログイン後にコピー

In [32]: df.iloc[0,:]
Out[32]: 
name Bob
age 26
Name: 0, dtype: object
In [33]: df.iloc[:,0]
Out[33]: 
0 Bob
1 Loya
2 Denny
3 Mars
Name: name, dtype: object

ログイン後にコピー

要素を取得します。iloc を使用できます。より速い方法は iat です

In [34]: df.iloc[1,1]
Out[34]: 22
In [35]: df.iat[1,1]
Out[35]: 22

ログイン後にコピー

DataFrame ブロックの選択

In [36]: df.loc[1:2,[&#39;name&#39;,&#39;age&#39;]]
Out[36]: 
 name age
1 Loya 22
2 Denny 20

ログイン後にコピー

条件に基づいて行をフィルタリングします

角括弧内に判定条件を追加して行をフィルタリングします。条件は返される必要がありますTrue または False

In [37]: df[(df.index >= 1) & (df.index <= 3)]
Out[37]: 
 name age city
1 Loya 22 Shanghai
2 Denny 20 Hangzhou
3 Mars 25 Nanjing
In [38]: df[df[&#39;age&#39;] > 22]
Out[38]: 
 name age city
0 Bob 26 Beijing
3 Mars 25 Nanjing

ログイン後にコピー

列を追加

In [39]: df[&#39;city&#39;] = [&#39;Beijing&#39;, &#39;Shanghai&#39;, &#39;Hangzhou&#39;, &#39;Nanjing&#39;]
In [40]: df
Out[40]: 
 name age city
0 Bob 26 Beijing
1 Loya 22 Shanghai
2 Denny 20 Hangzhou
3 Mars 25 Nanjing

ログイン後にコピー

並べ替え

指定した列で並べ替え

In [41]: df.sort_values(by=&#39;age&#39;)
Out[41]: 
 name age city
2 Denny 20 Hangzhou
1 Loya 22 Shanghai
3 Mars 25 Nanjing
0 Bob 26 Beijing

ログイン後にコピー

rreeerreee

# 引入numpy 构建 DataFrame
import numpy as np

ログイン後にコピー

表示

In [42]: df = pd.DataFrame(np.arange(8).reshape((2, 4)), index=[&#39;three&#39;, &#39;one&#39;], columns=[&#39;d&#39;, &#39;a&#39;, &#39;b&#39;, &#39;c&#39;])
In [43]: df
Out[43]: 
 d a b c
three 0 1 2 3
one 4 5 6 7

ログイン後にコピー

転置

# 以索引排序
In [44]: df.sort_index()
Out[44]: 
 d a b c
one 4 5 6 7
three 0 1 2 3
In [45]: df.sort_index(axis=1)
Out[45]: 
 a b c d
three 1 2 3 0
one 5 6 7 4
# 降序
In [46]: df.sort_index(axis=1, ascending=False)
Out[46]: 
 d c b a
three 0 3 2 1
one 4 7 6 5

ログイン後にコピー

isinを使用

# 查看表头5行 
df.head(5)
# 查看表末5行
df.tail(5) 
# 查看列的名字
In [47]: df.columns
Out[47]: Index([&#39;name&#39;, &#39;age&#39;, &#39;city&#39;], dtype=&#39;object&#39;)
# 查看表格当前的值
In [48]: df.values
Out[48]: 
array([[&#39;Bob&#39;, 26, &#39;Beijing&#39;],
 [&#39;Loya&#39;, 22, &#39;Shanghai&#39;],
 [&#39;Denny&#39;, 20, &#39;Hangzhou&#39;],
 [&#39;Mars&#39;, 25, &#39;Nanjing&#39;]], dtype=object)

ログイン後にコピー

操作:

df.T
Out[49]: 
  0  1  2 3
name Bob Loya Denny Mars
age 26 22 20 25
city Beijing Shanghai Hangzhou Nanjing

ログイン後にコピー

In [50]: df2 = df.copy()
In [51]: df2[df2[&#39;city&#39;].isin([&#39;Shanghai&#39;,&#39;Nanjing&#39;])]
Out[52]: 
 name age city
1 Loya 22 Shanghai
3 Mars 25 Nanjing

ログイン後にコピー

グループ

グループとは次のステップを指します:

いくつかの基準に基づいてデータをグループに分割する
各グループに関数を個別に適用する
結果をデータ構造に結合する

グループ化セクションを参照

In [53]: df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5], [np.nan, np.nan], [0.75, -1.3]], 
 ...:    index=[&#39;a&#39;, &#39;b&#39;, &#39;c&#39;, &#39;d&#39;], columns=[&#39;one&#39;, &#39;two&#39;])
In [54]: df
Out[54]: 
 one two
a 1.40 NaN
b 7.10 -4.5
c NaN NaN
d 0.75 -1.3

ログイン後にコピー

グループとそれから sum 関数を適用します

#按列求和
In [55]: df.sum()
Out[55]: 
one 9.25
two -5.80
# 按行求和
In [56]: df.sum(axis=1)
Out[56]: 
a 1.40
b 2.60
c NaN
d -0.55

ログイン後にコピー

【関連するおすすめ】

無料の Python 入門マニュアル

Geek Academy Python のビデオチュートリアル

以上がpandas ライブラリを通じて cdn ログを分析する Python コード例の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。