웹 스크래핑의 JavaScript 난독화 이해-JS 튜토리얼-php.cn

Understanding JavaScript Deobfuscation in Web Scraping

웹 스크래핑에는 웹사이트에서 데이터를 추출하는 작업이 포함되는 경우가 많지만 많은 경우 어려울 수 있습니다. 웹사이트에서 사용하는 난독화 기술로 인해 필요한 데이터에 직접 액세스하지 못할 수도 있습니다.

특히

JavaScript 난독화는 Javascript를 사용하여 스크래핑 프로세스를 더욱 어렵게 만드는 방법입니다.

이 글에서는 JavaScript 난독화 해제, 웹 스크래핑에서 이것이 중요한 이유, 처리 방법에 대해 논의하겠습니다.

웹 스크래핑의 JavaScript 난독화란 무엇입니까?

자바스크립트 난독화는 사람이나 자동화된 도구가 코드를 해석하기 어렵게 만드는 기술입니다. 웹사이트에서는 데이터를 보호하거나 웹 스크래핑 시도를 방해하기 위해 JavaScript를 난독화하는 경우가 많습니다.

일반적인 난독화 기술에는 다음이 포함될 수 있습니다.

변수 및 함수 이름 변경: 변수 및 함수 이름은 a1, b2 등 임의의 문자열로 이름이 변경되어 용도를 이해하기 어렵습니다.
데이터 인코딩: 문자열, URL 또는 민감한 데이터는 base64 또는 기타 인코딩 방법을 사용하여 암호화되거나 인코딩됩니다.
제어 흐름 난독화: 프로그램의 논리와 흐름을 따르기가 더 어렵게 코드 실행 순서를 변경할 수 있습니다.
데드 코드 삽입: 관련이 없거나 도달할 수 없는 코드를 추가하여 스크립트의 복잡성과 크기를 증가시킵니다.
축소: 불필요한 공백과 주석을 제거하여 가독성을 높이고 코드 크기를 줄입니다.
함수 래핑 및 간접: 중요한 함수는 여러 레이어로 래핑되거나 간접 호출을 통해 실행되어 복잡성을 더하고 실제 목적을 숨깁니다.

다음은 JavaScript 난독화의 간단한 예입니다.

원본 JS 코드:

let productPrice = 29.99;
let productName = "Wireless Mouse";

function displayProductInfo() {
    console.log("Product Name: " + productName);
    console.log("Price: $" + productPrice);
}

displayProductInfo();

로그인 후 복사

난독화된 JS 코드:

var _0x1a2b3c = ["\x57\x69\x72\x65\x6C\x65\x73\x73\x20\x4D\x6F\x75\x73\x65", "\x4C\x65\x74\x20\x70\x72\x6F\x64\x75\x63\x74\x50\x72\x69\x63\x65", "\x24"];
let _0x4c3b1a = 29.99;
let _0x6d24f5 = "Wireless Mouse";

function _0x44a5bc() {
    console[_0x1a2b3c[1]](_0x1a2b3c[0] + _0x6d24f5);
    console[_0x1a2b3c[1]](_0x1a2b3c[2] + _0x4c3b1a);
}

_0x44a5bc();

로그인 후 복사

JavaScript 코드는 요청을 변경하거나 추가 데이터를 로드하거나 DOM(문서 개체 모델)이 채워지는 방식을 관리하여 추적을 어렵게 만들 수도 있습니다.

이것이 바로 자바스크립트 난독화 해제가 필요한 곳입니다!

JavaScript 난독화 해제가 왜 중요한가요?

난독화는 많은 웹사이트가 스크래핑을 방지하기 위해 난독화 기술에 의존하기 때문에 필수적입니다. 이러한 방어를 우회하려면 웹 스크레이퍼가 난독화 프로세스를 역전시켜야 합니다. 난독화 해제가 없으면 스크레이퍼는 중요한 정보를 놓치거나 동적 요소와 적절하게 상호 작용하는 데 어려움을 겪을 수 있습니다.

스크래핑 맥락에서 JavaScript 난독화 이해를 통해 다음을 수행할 수 있습니다.

숨겨졌거나 동적으로 로드된 데이터 추출: 난독화는 제품 가격, 재고 수준, 사용자 리뷰와 같이 JavaScript 변수, 인코딩된 문자열 또는 동적으로 생성된 HTML에 저장된 데이터를 표시하는 데 도움이 됩니다.
난독화된 JavaScript 코드와 상호작용: 난독화 기술을 뒤집어 복잡한 JavaScript 코드를 더 잘 이해하고 상호작용하여 숨겨져 있거나 조작된 콘텐츠에 액세스할 수 있습니다.
스크래핑 방지 조치 우회: 난독화는 CAPTCHA, 속도 제한 또는 브라우저 핑거프린팅과 같은 JavaScript 기반 스크래핑 방지 메커니즘을 극복하는 데 도움이 되므로 스크레이퍼가 인간 행동을 모방하고 이러한 방어를 우회할 수 있습니다.

JavaScript 난독화는 어떻게 작동하나요?

자바스크립트 난독화란 난독화된 자바스크립트 코드를 해석하거나 역전하여 원래 기능을 드러내는 과정을 말합니다.

다음은 JavaScript 난독화를 위한 몇 가지 일반적인 접근 방식입니다.

수동 검사: JavaScript 코드를 검토하여 패턴을 식별하고 난독화된 요소를 디코딩하는 것은 효과적일 수 있지만 종종 시간이 많이 걸리고 JavaScript에 대한 깊은 이해가 필요합니다.
자동 난독 제거기: JSDetox 또는 de4js와 같은 도구를 사용하면 일반적인 난독화 패턴을 감지하고 이를 더 읽기 쉬운 코드로 되돌려 프로세스를 자동화할 수 있습니다.
디버깅 도구: 웹 스크래핑 개발자는 브라우저 개발자 도구를 사용하여 JavaScript 코드를 단계별로 실행하고 실행을 관찰할 수 있습니다. 이는 스크립트가 페이지를 조작하거나 서버와 통신하는 방법을 추적하는 데 도움이 됩니다.
코드 미화기: 이러한 도구는 난독화된 코드의 형식을 지정하여 읽기 쉽게 만들며, 이는 더 복잡한 난독화 기술을 적용하기 전 첫 번째 단계인 경우가 많습니다.

난독화된 JavaScript를 처리하기 위한 솔루션

헤드리스 브라우저: Puppeteer 또는 Playwright와 같은 도구는 JavaScript가 많은 웹사이트를 처리하는 데 도움이 됩니다. 이러한 헤드리스 브라우저는 JavaScript를 실행할 수 있으며 스크래퍼가 실제 사용자인 것처럼 페이지와 상호 작용할 수 있도록 하여 복잡한 난독화 기술을 우회하는 데 도움을 줍니다.
Cloudflare 해결 방법: 일부 웹사이트는 스크래핑을 방지하기 위해 Cloudflare를 사용합니다. 스크레이퍼는 사용자 에이전트 헤더를 회전하거나 JavaScript 문제를 해결하여 Cloudflare의 안티봇 보호를 우회할 수 있습니다. 가장 일반적인 것은 Cloudflare JS Challenge입니다.
동적 데이터 스크래핑: 많은 스크래핑 도구는 JavaScript가 많은 웹사이트에서 사용자 동작을 복제하여 버튼이나 드롭다운과 같은 요소와 상호 작용하여 동적 콘텐츠를 로드할 수 있도록 설계되었습니다.