귀하의 마케팅 이메일이 스팸으로 끝날까요? 우리는 알아내기 위한 도구를 만들었습니다.-파이썬 튜토리얼-php.cn

이메일 마케팅 캠페인을 실행할 때 가장 큰 과제 중 하나는 메시지가 스팸 폴더가 아닌 받은 편지함에 도달하는지 확인하는 것입니다.

이 게시물에서는 귀하의 이메일이 스팸으로 표시되는지 여부와 스팸으로 표시되는 이유를 확인할 수 있는 도구를 구축하겠습니다.
이 도구는 API 형식으로 온라인으로 배포되므로 귀하의 워크플로우에 통합될 수 있습니다.

스팸 확인의 비밀

Apache SpamAssassin은 Apache Software Foundation에서 관리하는 오픈 소스 스팸 탐지 플랫폼으로, 메시지를 스팸으로 분류하기 위해 많은 이메일 클라이언트 및 이메일 필터링 도구에 널리 사용되는 도구입니다.

다양한 규칙, 베이지안 필터링 및 네트워크 테스트를 사용하여 특정 이메일에 스팸 '점수'를 할당합니다. 일반적으로 5점 이상의 이메일은 스팸으로 분류될 위험이 높습니다.

Apache SpamAssassin은 스팸 탐지 소프트웨어이므로 이메일이 스팸으로 표시되는지 여부를 확인하는 데에도 사용할 수 있습니다.

SpamAssassin의 점수는 투명하고 잘 문서화되어 있으므로 이를 사용하여 이메일의 어떤 측면이 높은 스팸 점수를 유발하는지 정확하게 식별하고 글쓰기를 향상시킬 수 있습니다.

SpamAssassin을 사용하여 이메일을 검증하는 방법

SpamAssassin은 Linux 시스템에서 실행되도록 설계되었습니다. 설치하고 실행하려면 Linux OS가 필요하거나 Docker 컨테이너를 생성해야 합니다.

Debian 또는 Ubuntu 시스템에서는 다음을 사용하여 SpamAssassin을 설치합니다.

apt-get update && apt-get install -y spamassassin
sa-update

로그인 후 복사

sa-update 명령은 SpamAssassin의 규칙이 최신 상태인지 확인합니다.

설치하고 나면 이메일 메시지를 SpamAssassin의 명령줄 도구로 연결할 수 있습니다. 출력에는 스팸 점수가 포함된 주석이 달린 이메일 버전이 포함되며 어떤 규칙이 실행되는지 설명합니다.

일반적인 사용법은 다음과 같습니다.

spamassassin -t < input_email.txt > results.txt

로그인 후 복사

results.txt에는 아래와 같이 SpamAssassin의 헤더 및 점수가 포함된 처리된 이메일이 포함됩니다.

X-Spam-Checker-Version: SpamAssassin 4.0.0 (2022-12-13) on 254.254.254.254
X-Spam-Level: 
X-Spam-Status: No, score=0.2 required=5.0 tests=HTML_MESSAGE,
    MIME_HTML_ONLY,MISSING_MID,NO_RECEIVED,
    NO_RELAYS autolearn=no autolearn_force=no version=4.0.0

// ...

Content analysis details:   (0.2 points, 5.0 required)

 pts rule name              description
---- ---------------------- --------------------------------------------------
 0.1 MISSING_MID            Missing Message-Id: header
-0.0 NO_RECEIVED            Informational: message has no Received headers
-0.0 NO_RELAYS              Informational: message was not relayed via SMTP
 0.0 HTML_MESSAGE           BODY: HTML included in message
 0.1 MIME_HTML_ONLY         BODY: Message only has text/html MIME parts

로그인 후 복사

SpamAssassin을 API로 래핑

SpamAssassin은 API로 캡슐화될 때만 최대 잠재력을 발휘합니다. 이 형식을 사용하면 유연성이 향상되고 다양한 워크플로우에 통합될 수 있기 때문입니다.

상상해 보세요. 이메일에서 '보내기'를 누르기 전에 콘텐츠가 먼저 SpamAssassin API로 전송됩니다. 이메일이 스팸 기준을 충족하지 않는다고 판단되는 경우에만 계속 진행이 허용됩니다.

제목, html_body 및 text_body와 같은 이메일 필드를 허용하는 간단한 API를 만들어 보겠습니다. 필드를 SpamAssassin에 전달하고 검증 결과를 반환합니다.

API 예시

from fastapi import FastAPI
from datetime import datetime, timezone
from email.utils import format_datetime
from pydantic import BaseModel
import subprocess

def extract_analysis_details(text):
    lines = text.splitlines()

    start_index = None
    for i, line in enumerate(lines):
        if line.strip().startswith("pts rule"):
            start_index = i
            break

    if start_index is None:
        print("No content analysis details found.")
        return []

    data_lines = lines[start_index+2:]
    parsed_lines = []
    for line in data_lines:
        if line.strip() == "":
            break
        parsed_lines.append(line)

    results = []
    current_entry = None

    split_line = lines[start_index+1]
    pts_split, rule_split, *rest = split_line.strip().split(" ")

    pts_start = 0
    pts_end = pts_start + len(pts_split)

    rule_start = pts_end + 1
    rule_end = rule_start + len(rule_split)

    desc_start = rule_end + 1

    for line in parsed_lines:
        pts_str = line[pts_start:pts_end].strip()
        rule_name_str = line[rule_start:rule_end].strip()
        description_str = line[desc_start:].strip()

        if pts_str == "" and rule_name_str == "" and description_str:
            if current_entry:
                current_entry["description"] += " " + description_str
        else:
            current_entry = {
                "pts": pts_str,
                "rule_name": rule_name_str,
                "description": description_str
            }
            results.append(current_entry)

    return results

app = FastAPI()

class Email(BaseModel):
    subject: str
    html_body: str
    text_body: str

@app.post("/spam_check")
def spam_check(email: Email):
    # assemble the full email
    message = f"""From: example@example.com
To: recipient@example.com
Subject: {email.subject}
Date: {format_datetime(datetime.now(timezone.utc))}
MIME-Version: 1.0
Content-Type: multipart/alternative; boundary="__SPAM_ASSASSIN_BOUNDARY__"

--__SPAM_ASSASSIN_BOUNDARY__
Content-Type: text/plain; charset="utf-8"

{email.text_body}

--__SPAM_ASSASSIN_BOUNDARY__
Content-Type: text/html; charset="utf-8"

{email.html_body}

--__SPAM_ASSASSIN_BOUNDARY__--"""

    # Run SpamAssassin and capture the output directly
    output = subprocess.run(["spamassassin", "-t"],
                            input=message.encode('utf-8'),
                            capture_output=True)

    output_str = output.stdout.decode('utf-8', errors='replace')
    details = extract_analysis_details(output_str)
    return {"result": details}

로그인 후 복사

위 코드에서는 전체 결과 보고서에서 채점 이유만 추출하기 위해 도우미 함수 extract_analytic_details를 정의했습니다. 예를 들어 결과에서 특정 규칙을 필터링하여 이 기능을 더욱 향상시킬 수 있습니다.

응답에는 SpamAssassin 결과에 대한 분석 세부정보가 포함됩니다.

다음 입력을 예로 들어보겠습니다.

주제

apt-get update && apt-get install -y spamassassin
sa-update

로그인 후 복사

html_body

spamassassin -t < input_email.txt > results.txt

로그인 후 복사

text_body

X-Spam-Checker-Version: SpamAssassin 4.0.0 (2022-12-13) on 254.254.254.254
X-Spam-Level: 
X-Spam-Status: No, score=0.2 required=5.0 tests=HTML_MESSAGE,
    MIME_HTML_ONLY,MISSING_MID,NO_RECEIVED,
    NO_RELAYS autolearn=no autolearn_force=no version=4.0.0

// ...

Content analysis details:   (0.2 points, 5.0 required)

 pts rule name              description
---- ---------------------- --------------------------------------------------
 0.1 MISSING_MID            Missing Message-Id: header
-0.0 NO_RECEIVED            Informational: message has no Received headers
-0.0 NO_RELAYS              Informational: message was not relayed via SMTP
 0.0 HTML_MESSAGE           BODY: HTML included in message
 0.1 MIME_HTML_ONLY         BODY: Message only has text/html MIME parts

로그인 후 복사

응답은 다음과 같습니다.

from fastapi import FastAPI
from datetime import datetime, timezone
from email.utils import format_datetime
from pydantic import BaseModel
import subprocess

def extract_analysis_details(text):
    lines = text.splitlines()

    start_index = None
    for i, line in enumerate(lines):
        if line.strip().startswith("pts rule"):
            start_index = i
            break

    if start_index is None:
        print("No content analysis details found.")
        return []

    data_lines = lines[start_index+2:]
    parsed_lines = []
    for line in data_lines:
        if line.strip() == "":
            break
        parsed_lines.append(line)

    results = []
    current_entry = None

    split_line = lines[start_index+1]
    pts_split, rule_split, *rest = split_line.strip().split(" ")

    pts_start = 0
    pts_end = pts_start + len(pts_split)

    rule_start = pts_end + 1
    rule_end = rule_start + len(rule_split)

    desc_start = rule_end + 1

    for line in parsed_lines:
        pts_str = line[pts_start:pts_end].strip()
        rule_name_str = line[rule_start:rule_end].strip()
        description_str = line[desc_start:].strip()

        if pts_str == "" and rule_name_str == "" and description_str:
            if current_entry:
                current_entry["description"] += " " + description_str
        else:
            current_entry = {
                "pts": pts_str,
                "rule_name": rule_name_str,
                "description": description_str
            }
            results.append(current_entry)

    return results

app = FastAPI()

class Email(BaseModel):
    subject: str
    html_body: str
    text_body: str

@app.post("/spam_check")
def spam_check(email: Email):
    # assemble the full email
    message = f"""From: example@example.com
To: recipient@example.com
Subject: {email.subject}
Date: {format_datetime(datetime.now(timezone.utc))}
MIME-Version: 1.0
Content-Type: multipart/alternative; boundary="__SPAM_ASSASSIN_BOUNDARY__"

--__SPAM_ASSASSIN_BOUNDARY__
Content-Type: text/plain; charset="utf-8"

{email.text_body}

--__SPAM_ASSASSIN_BOUNDARY__
Content-Type: text/html; charset="utf-8"

{email.html_body}

--__SPAM_ASSASSIN_BOUNDARY__--"""

    # Run SpamAssassin and capture the output directly
    output = subprocess.run(["spamassassin", "-t"],
                            input=message.encode('utf-8'),
                            capture_output=True)

    output_str = output.stdout.decode('utf-8', errors='replace')
    details = extract_analysis_details(output_str)
    return {"result": details}

로그인 후 복사

보셨나요? "Dear Winner"는 스팸메일에 자주 사용되는 단어로 감지됩니다.