이제 웹사이트의 기사 목록과 목록의 실제 콘텐츠에서 데이터를 자동으로 수집해야 합니다. 각 기사의 ID는 목록에서 얻을 수 있으며, 각 기사는 통합 인터페이스를 통해 수집됩니다(매개변수는 해당 기사를 가져옵니다). 해당 json은 id로 얻을 수 있습니다.) 그 안에는 수집하고 분석해야 할 일부 데이터가 있습니다.
내 요구사항을 충족할 수 있는 성숙한 프레임워크나 휠이 있나요? (멀티스레딩이 필요하며, 컬렉션 수가 많아 연중무휴 안정적으로 실행 가능합니다)
그리고 수집된 컨텐츠(수백만~수천만)를 어떻게 저장하는지 문의드리고 싶습니다. 통계분석이 필요한 데이터 중에 수치적인 데이터가 있는데, mysql을 사용할 수 있나요? 아니면 사용할 수 있는 더 성숙하고 단순한 다른 바퀴가 있습니까?
이제 웹사이트의 기사 목록과 목록의 실제 콘텐츠에서 데이터를 자동으로 수집해야 합니다. 각 기사의 ID는 목록에서 얻을 수 있으며, 각 기사는 통합 인터페이스를 통해 수집됩니다(매개변수는 해당 기사를 가져옵니다). 해당 json은 id로 얻을 수 있습니다.) 그 안에는 수집하고 분석해야 할 일부 데이터가 있습니다.
내 요구사항을 충족할 수 있는 성숙한 프레임워크나 휠이 있나요? (멀티스레딩이 필요하며, 컬렉션 수가 많아 연중무휴 안정적으로 실행 가능합니다)
그리고 수집된 컨텐츠(수백만~수백만)를 어떻게 저장하는지 묻고 싶습니다. 통계적인 분석이 필요한 데이터 중에 수치적인 데이터가 있는데, mysql을 사용할 수 있나요? 아니면 사용할 수 있는 더 성숙하고 단순한 다른 바퀴가 있습니까?
데이터 분석이라면.
map-reduce는 로그 분석을 합니다
Dpark는 PV 및 UV 분석을 해결할 수 있습니다
Spark도 좋습니다.
데이터 보고서를 생성한 후 Pandas를 사용하여 분석하고 표시할 수 있습니다. .
데이터 수집이라면. 많은 도구가 있습니다.
왜 검색엔진을 만들고 싶다고 생각하시나요? . . 양이 비교적 많습니다. 분산된 콘텐츠를 권장합니다.
MYSQL을 사용하는 것은 실용적이지 않습니다. . .
젊은이여, 이것이 파충류에게 바라는 것이 아닌가?
크롤러 프레임워크: scrapy
데이터베이스 선택: MySQL을 사용하여 귀하의 수준에 맞게 색인을 생성하면 확실히 500년 더 지속될 수 있습니다.
MongoDB를 사용해 볼 수도 있습니다
언어나 환경에 대해서는 언급하지 않으셨는데요. 멀티스레딩의 경우 현재 일반적으로 nodejs와 Python이 사용됩니다. 둘 다 mysql 등을 사용하여 데이터를 저장할 수 있습니다. 수백만, 수천만은 문제가 되지 않습니다.
Python Selenium + PhantomJ를 사용해 본 적이 있나요?
파이썬 언어로 된 이 scrapy 또는