字句解析を使用してドメイン名と IP を抽出する-安全性-php.cn

字句解析を使用してドメイン名と IP を抽出する

王林

リリース： 2019-12-25 13:08:10

転載

3511 人が閲覧しました

字句解析を使用してドメイン名と IP を抽出する

背景

ログを分析したところ、一部のログパラメーターに他の URL が含まれていることがわかりました。例:

字句解析を使用してドメイン名と IP を抽出する

# #リクエストパラメータ内のURL(xss.ha.ckers.org)を抽出し、脅威インテリジェンスデータベースと比較し、ブラックリストにヒットした場合はブラックリストに登録されます。ブラックリストまたは会社のホワイトリストにない場合は、最初にマークを付けて、後で分析に集中できます。

URL の抽出

インターネット上には URL の抽出に関する記事が数多くありますが、そのほとんどは正規表現を使用しており、方法は単純ですがあまり正確ではありません。ここでは、字句解析を使用してドメイン名と IP を抽出する方法を提供します。このアイデアは次の記事から借用しています:

https://blog.csdn.net/breaksoftware/article/details/7009209. 興味がある場合は、ご覧ください。マスターに従うことが事実によって証明されました。本当に姿勢が良くなります。

元のテキストは C バージョンですが、参考までに Python で同様のものを書きました。

一般的な URL 分類

字句解析を使用してドメイン名と IP を抽出する

観察によると、URL 構造の IP 形式は最も単純です。255 未満の 4 つの数値が除算されます。; ドメイン形式の比較複雑ですが、これらには共通点があります。それは、すべてのトップレベルドメイン名が .com であるということです。

有効な文字の定義:

字句解析を使用してドメイン名と IP を抽出する

トップレベルドメイン名のリスト:

字句解析を使用してドメイン名と IP を抽出する

ドメイン名フォーム抽出:

www.baidu.com など。

字句解析を使用してドメイン名と IP を抽出する

IP 形式の抽出: 192.168.1.1 など。

字句解析を使用してドメイン名と IP を抽出する

while (i < len(z) and z[i].isdigit()):
                i = i + 1
                ip_v1 = True
                reti = i            if i < len(z) and z[i] == &#39;.&#39;:
                i = i + 1
                reti = i            else:
                tokenType = TK_OTHER
                reti = 1while (i < len(z) and z[i].isdigit()):
                i = i + 1
                ip_v2 = True
            if i < len(z) and z[i] == &#39;.&#39;:
                i = i + 1
            else:                if tokenType != TK_DOMAIN:
                    tokenType = TK_OTHER
                    reti = 1while (i < len(z) and z[i].isdigit()):
                i = i + 1
                ip_v3 = True
            if i < len(z) and z[i] == &#39;.&#39;:
                i = i + 1
            else:                if tokenType != TK_DOMAIN:
                    tokenType = TK_OTHER
                    reti = 1while (i < len(z) and z[i].isdigit()):
                i = i + 1
                ip_v4 = True

            if i < len(z) and z[i] == &#39;:&#39;:
                i = i + 1
            while (i < len(z) and z[i].isdigit()):
                i = i + 1

            if ip_v1 and ip_v2 and ip_v3 and ip_v4:                
                self.urls.append(z[0:i])                
                return reti, tokenType            
            else:                
                if tokenType != TK_DOMAIN:
                    tokenType = TK_OTHER
                    reti = 1

ログイン後にコピー

混合フォーム抽出: 1234.com など。

IP フォームの特性に準拠する 1234 の前半をスキャンしますが、コードが例外を報告することが判明したため、サフィックスがであるかどうかを判断するために IP 処理コードセグメントを追加する必要があります。トップレベルドメイン名:

字句解析を使用してドメイン名と IP を抽出する