이 글에서는 cdn 로그 분석을 위해 Python에서 pandas 라이브러리를 사용하는 방법에 대한 관련 정보를 주로 소개합니다. 이 글에서는 cdn 로그 분석을 위한 pandas의 전체 샘플 코드를 공유한 다음 pandas 라이브러리에 대한 관련 내용을 자세히 소개합니다. 필요하신 분 참고용으로 활용하시면 좋을 것 같습니다. 아래를 살펴보겠습니다.
서문
최근 직장에서 트래픽, 상태 코드 등 일부 데이터를 CDN 로그를 기반으로 필터링해야 하는 필요성을 느꼈습니다. TOP IP, URL, UA, Referer 등의 통계입니다. 예전에는 이를 구현하기 위해 bash shell을 사용했는데, 로그 볼륨이 크고, 로그 파일의 개수가 기가바이트에 이르고, 라인 수도 수백억 개에 달하게 되면, shell을 통한 처리만으로는 부족하고 처리량이 많아진다. 시간이 너무 깁니다. 그래서 데이터 처리 라이브러리인 Python pandas의 사용법을 연구했습니다. 천만 줄의 로그가 약 40초 안에 처리됩니다.
코드
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 |
|
pandas 학습 노트
Pandas에는 Series와 Dataframe이라는 두 가지 기본 데이터 구조가 있습니다. 시리즈는 1차원 배열과 유사한 객체로, 데이터 세트와 인덱스로 구성됩니다. 데이터프레임은 행 인덱스와 열 인덱스를 모두 갖는 테이블 유형의 데이터 구조입니다.
1 2 |
|
Series
1 2 3 4 5 6 7 |
|
Series의 string은 왼쪽이 index, 오른쪽이 value라는 형식으로 표현됩니다. 인덱스를 지정하지 않으면 0부터 N-1(N은 데이터의 길이)까지 정수 형태의 인덱스가 자동으로 생성됩니다. 배열 표현과 인덱스 객체는 Series:
1 2 3 4 |
|
속성을 통해 얻을 수 있습니다. 일반적으로 인덱스는 Series를 생성할 때 지정됩니다:
1 2 3 4 5 6 7 |
|
색인을 통해 시리즈 가져오기 단일 또는 값 집합:
1 2 3 4 5 6 |
|
정렬
1 2 3 4 5 6 7 8 9 10 11 12 |
|
필터 작업
1 2 3 4 5 6 7 8 9 10 11 |
|
Member
1 2 3 4 |
|
시리즈 만들기
1 2 3 4 5 6 7 8 |
|
from Dictionary 하나의 사전만 전달되면 결과 시리즈의 인덱스가 원래 사전의 키(순서정렬)입니다.
1 2 3 4 5 6 7 8 |
|
인덱스를 지정하면 세 값이 sdata에서 States index와 일치하는 것을 찾게 되고 응답 위치에 넣게 되는데, 'Suzhou'에 해당하는 sdata 값을 찾을 수 없기 때문에 결과는 NaN(숫자가 아님)이 되는데, 이는 pandas에서 표현하기 위해 사용됩니다. 누락 또는 NA 값
pandas isnull 및 notnull함수를 사용하여 누락된 데이터를 검색할 수 있습니다.
1 2 3 4 5 6 7 8 9 10 11 12 |
|
시리즈에도 비슷한 인스턴스 메서드가 있습니다
1 2 3 4 5 6 |
|
시리즈의 중요한 기능은 데이터를 다른 인덱스로 자동 정렬하는 것입니다
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 |
|
시리즈의 인덱스는 복사
1 2 3 4 5 6 7 |
|
DataFrame
를 복사하여 내부에서 수정할 수 있습니다.pandas파일 읽기
1 2 3 4 5 6 7 8 |
|
DataFrame 열 선택
1 |
|
1 2 3 4 5 6 7 |
|
DataFrame 행 선택
1 2 |
|
1 2 3 4 5 6 7 8 9 10 11 12 |
|
요소를 가져오려면 iloc를 사용할 수 있습니다. 더 빠른 방법은 iat
1 2 3 4 |
|
DataFrame 블록 선택
1 2 3 4 5 |
|
조건에 따라 행 필터링
행을 필터링하려면 대괄호 안에 판단 조건을 추가하는 것입니다. 조건은 True 또는 False를 반환해야 합니다.
1 2 3 4 5 6 7 8 9 10 11 |
|
열 추가
1 2 3 4 5 6 7 8 |
|
정렬
지정된 열 기준 정렬
1 2 3 4 5 6 7 |
|
1 2 |
|
1 2 3 4 5 6 |
|
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 |
|
보기
1 2 3 4 5 6 7 8 9 10 11 12 13 14 |
|
전치
1 2 3 4 5 6 |
|
isin 사용
1 2 3 4 5 6 |
|
작업 작업:
1 2 3 4 5 6 7 8 9 |
|
group
group은 다음 단계를 나타냅니다.
어떤 기준에 따라 데이터를 그룹으로 나누기
각 그룹에 독립적으로 함수 적용
결과를 데이터로 결합 구조
그룹화 섹션 참조
1 2 3 4 5 6 7 8 9 10 11 12 |
|
그룹화한 다음 합계 함수 적용
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 |
|
[관련 권장 사항]
1. 특별 추천 : "php Programmer Toolbox" V0.1 버전 다운로드
위 내용은 Pandas 라이브러리를 이용한 CDN 로그 분석 구현 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!