1. 문제 설명
웨이보 트롤 관련 분석을 하고 있는데, 웨이보 사용자가 다시 게시한 웨이보 게시물의 비율과 웨이보 원본 게시물의 비율, 즉 다른 사람의 웨이보 게시물을 리트윗한 사용자 수를 구해야 합니다/ 전체 웨이보 게시물 수.
문헌을 검토한 결과 많은 사람들의 논문에 이러한 유형의 데이터가 포함되어 있음을 발견했지만 이를 얻는 방법을 모르겠습니다.
웨이보 모바일 버전과 PC 버전 모두 필터링을 사용하여 상대방이 전달한 웨이보를 찾을 수 있는 것을 발견했는데, 모바일 버전에서 이렇게 필터링하면 반환된 결과가 비어 있었습니다.
컴퓨터 버전에서 얻은 결과를 보면, 전달된 웨이보 수와 원래 웨이보 수의 합은 전체 웨이보 수보다 확실히 훨씬 적습니다.
2. 도움이 필요합니다
(1) 시나 웨이보 검색 엔진에 문제가 있나요? (2) 특정 검색 방법을 통해 개인의 웨이보 게시물 수와 전달된 게시물 수를 알 수 있나요? 할 수 있다. (전체 웨이보 수(원본 웨이보 수)에는 보이지 않는 웨이보도 포함되어 있으므로 사용하지 마세요.)
저는 분산된 Weibo 크롤러를 오픈소스로 공개했습니다. 이 프로젝트는 원래 인기 있는 Weibo 게시물(내 작업과 관련된)을 분석하는 데 사용되었습니다. 나중에는 여러 번 수정하고, 새로운 기능을 많이 추가하고, 오픈 소스로 만들었습니다. 첫 번째 질문에 관해서는 웨이보 검색 엔진에 문제가 있는 걸까요? 예를 들어 웨이보 시스템은 위치 검색 등 사용자 팔로우 및 사용자 팬에 대한 데이터 반환을 5페이지로 제한하기 때문에 의도적인 것일 수 있다고 생각합니다. . 사용자는 수만 개의 데이터만 반환합니다. 귀하에게 보기 권한이 없는 일부 Weibo 게시물이 있기 때문일 수도 있지만, 검색된 결과는 귀하에게 보기 권한이 있는 것입니다.
두 번째 질문은 보이지 않는 웨이보를 얻을 수 없다는 것입니다. 크롤러는 일반 사용자가 볼 수 있는 웨이보 데이터만 얻을 수 있다는 것입니다. 비공개 웨이보라면 당연히 웨이보 시스템에 표시되지 않고 API도 사용할 수 없기 때문입니다. 웨이보는 워낙 큰 회사이기 때문에 여전히 사용자의 개인정보를 보호해야 합니다.
모바일 단말기의 검색 인터페이스를 통해 검색해도 결과가 나오지 않는 이유는 실제로 웨이보가 의도적으로 이런 일을 했기 때문일 수 있습니다. 주의 깊게 조사해 보면 모바일 측의 웨이보 정보보다 PC 측의 정보가 훨씬 풍부하다는 것을 알 수 있습니다. 따라서 크롤러를 만들고 싶고, 종합적인 데이터가 필요하다면 PC 쪽부터 시작해야 합니다.