Selenium 또는 PhantomJS를 사용하여 Python에서 동적 웹 콘텐츠를 크롤링하는 방법

Question

Python을 사용하여 정량적 주식 거래를 수행하려는 경우 첫 번째 단계는 주식의 과거 데이터를 얻는 것입니다. http://data.eastmoney.com/sto... 웹페이지에 접속해 보세요. 웹페이지의 소스코드를 열면 테이블의 데이터를 볼 수 없습니다. ajax 기술을 사용하여 로드한다고 합니다. 인터넷에서 Selenium과 phantomJS를 사용할 수 있다는 것을 봤습니다...

我想大声告诉你 · Answer

실제로 방금 시도해 본 페이지는 xhr을 사용하여 로드되지 않았습니다. 이미 페이지의 소스 코드에 있었고 데이터를 테이블에 로드하는 클래스가 호출되었습니다.
예를 들어 홈페이지의 데이터는 다음과 같습니다.

그런 다음 재추출을 직접 사용하여 텍스트를 가져온 후 json에서 구문 분석하면 됩니다.
여기에 먼저 글을 써주세요.
++++++++++++++++++++++++++++++++++++++++++++

그러면 이 웹사이트는 xhr을 사용하여 데이터를 로드하는 것이 아니라 js를 사용하여 json 데이터를 로드하고 동적으로 구문 분석하여 표시합니다. 구체적인 분석에는 js에 대한 지식이 필요합니다. 이해했다면 직접 분석해 볼 수도 있습니다.

해보았습니다.

으아악

给我你的怀抱 · Answer

이 조합을 사용하면 장점은 단순하고 폭력적이라는 점이지만, 효율이 떨어진다는 단점이 있습니다.
보이지 않는 브라우저 로딩 페이지를 열고 계산된 결과를 읽는 것과 같습니다.
파충류 학습이 처음이라면 동물책 파이썬 네트워크 데이터 수집을 추천합니다.
필요한 지침은 동적 페이지 수집 장에 나와 있습니다.
이 책은 매우 얇고 실용적입니다.

巴扎黑 · Answer

저는 js나 json에 대해 잘 모르고 이제 막 크롤링을 시작했습니다. 프롬프트 후 소스 코드를 다시 확인한 결과 defjson에 이 데이터가 있음을 발견했습니다. json의 데이터를 tbody에 표시하는 방법을 이해할 수 없습니다. pandas의 read_html을 사용하여 이 데이터를 캡처할 수 있지만 마지막 두 열은 손실됩니다. js와 json을 먼저 살펴봐야 할 것 같습니다