Python 크롤러는 'Wolf Warrior' 영화 리뷰를 분석합니다.
소개 | 개봉 25일째인 8월 20일 기준, '늑대전사2'는 박스오피스 50억 위안 이상의 수익을 올리며, 세계영화사상 박스오피스 100위권에 진입한 유일한 아시아 영화가 됐다. 이 기사에서는 Python 크롤러를 사용하여 데이터를 얻고, Douban 영화 리뷰를 분석하고, Douban 영화 리뷰의 클라우드 이미지를 만듭니다. 이제 '늑대전사2' 리뷰에는 어떤 흥미로운 서브텍스트가 숨겨져 있는지 살펴보자. |
영화는 폭발적인 흥행 외에도 관객들에게 다양한 감정을 불러일으켰습니다. 어떤 사람들은 "늑대전사2"를 감히 비판하는 사람은 정신박약자이거나 공공의 적입니다.
모두가 "늑대 전사 II"에 대해 엇갈린 평가를 내렸고 Douban에 댓글을 남겨 영화에 대한 의견을 표현했습니다. 다양한 댓글이 쏟아지고 언론이 난리를 피웠지만 관객들은 여전히 어느 의견이 더 신빙성 있는지 알 수 없었다.
지금까지 달린 댓글은 15만 개가 넘습니다. 댓글을 읽어보면 상당 기간 칭찬하거나 폄하하는 댓글이 대부분일 것입니다. 그래서 이 영화에 대한 모든 사람의 전반적인 의견이 무엇인지 댓글을 살펴보는 것만으로는 알기 어렵습니다. 이제 데이터 분석을 통해 이 댓글에서 어떤 흥미로운 일이 일어났는지 살펴보겠습니다!
이 기사에서는 Python 크롤러를 사용하여 데이터를 얻고 Douban 영화 리뷰를 분석하고 Douban 영화 리뷰의 클라우드 이미지를 만듭니다. 이제 '늑대전사2' 리뷰에는 어떤 흥미로운 서브텍스트가 숨겨져 있는지 살펴보자.
데이터 획득이 글은 Python 크롤러에서 얻은 데이터를 사용합니다. 주로 요청 패키지와 일반 패키지를 사용합니다. 이 프로그램은 확인 코드를 처리하지 않습니다. 이전에 Douban의 웹페이지를 크롤링한 적이 있는데 크롤링된 콘텐츠가 작아서 인증 코드를 발견하지 못했습니다. 이 크롤러를 작성할 때에는 인증코드가 없을 줄 알았는데 댓글이 15,000개 정도 크롤링 되니까 인증코드가 뜹니다.
그러다가 생각해보니 그냥 12만명 아닌가? 인증코드를 입력한 횟수가 기껏해야 열두 번 정도밖에 되지 않아 인증코드를 처리할 필요가 없었습니다. 그런데 그다음에 일어난 일이 저에게는 좀 혼란스러웠습니다. 댓글을 15,000개 정도 크롤링하고 인증코드를 입력하니 30,000개 정도 크롤링이 될 줄 알았는데, 3,000개 정도 크롤링한 후에도 계속 입력이 안 되더라구요. 확인 코드. .
그런데 계속 이렇게 맴돌다가 인증코드가 필요할 때까지 크롤링하는 데 오랜 시간이 걸렸고 때로는 그렇지 않았습니다. 하지만 결국 댓글은 크롤링되었습니다. 크롤링되는 콘텐츠는 주로 사용자 이름, 보았는지 여부, 댓글의 별 수, 댓글 시간, 유용하다고 생각한 사람 수, 댓글 내용입니다. 다음은 Python 크롤러의 코드입니다:
가져오기 요청<br>
다시 가져오기<br>
팬더를 pd로 가져오기<br>
url_first='https://movie.douban.com/subject/26363254/comments?start=0'<br>
head={'User-Agent':'Mozilla/5.0(X11; Linux x86_64) AppleWebKit/537.36(KHTML, like Gecko) Ubuntu Chromium/59.0.3071.109 Chrome/59.0.3071.109 Safari/537.36'}<br>
html=requests.get(url_first,headers=head,cookies=cookies)<br>
cookie={'cookie':'your own cookie'} #즉, 귀하의 계정에 해당하는 쿠키를 찾아보세요<br>
reg=re.compile(r'') #다음페이지<br>
ren=re.compile(r'<span>(.*?)</span>.*?comment">(.*?).*?.*?<span .>(.*?).*?<span>(.*?)</span>.* ?title="(.*?)"></span>.*?title="(.*?)">.*?class=""> (.*?)n',re.S) #댓글 및 기타 내용 <br>
동안 html.status_code==200:<br>
url_next='https://movie.douban.com/subject/26363254/comments'+re.findall(reg,html.text)[0]<br>
zhanlang=re.findall(ren,html.text)<br>
data=pd.DataFrame(잔랑)<br>
data.to_csv('/home/wajuejiprince/document/zhanlang/zhanlangpinglun.csv', header=False,index=False,mode='a+') #csv 파일 쓰기, 'a+'가 추가 모드<br>
데이터=[]<br>
잔랑=[]<br>
html=requests.get(url_next,cookies=cookies,headers=head)
위 코드에서 User-Agent, 쿠키, CSV 저장 경로 등을 직접 설정하고, 크롤링된 콘텐츠를 CSV 형식의 파일로 저장해 주세요.
이 글에서는 데이터를 처리하기 위해 R 언어를 사용합니다. 크롤링할 때 크롤링되는 콘텐츠의 구조에 많은 주의를 기울였지만, 일부 값이 우리가 원하는 것이 아닐 수 없습니다. 예를 들어 일부 댓글 내용이 댓글 작성자 항목에 표시되므로 여전히 데이터 정리가 필요합니다.
먼저 사용하려는 모든 패키지를 로드하세요.
라이브러리(data.table)<br>
도서관(plotly)<br>
도서관(stringr)<br>
도서관(jiebaR)<br>
도서관(wordcloud2)<br>
도서관(magrittr)
데이터 가져오기 및 정리:
dt
먼저 별 개수에 따른 댓글 상황을 살펴보겠습니다.
plot_ly(my_dt[,.(.N),by=.(五星数)],type = 'bar',x=~五星数,y=~N)
plot_ly(my_dt[,.(.N),by=.(별 다섯개 숫자)],type = 'bar',x=~별 다섯 개 숫자,y=~N)
별표의 개수는 5단계에 해당하며, 별 5개는 적극 권장, 별 4개는 권장, 별 3개는 괜찮음, 별 2개는 나쁨, 별 1개는 매우 나쁨을 의미합니다.
Pentagram의 리뷰를 보면 대다수의 시청자가 이 영화에 만족할 것이라고 믿을 만한 이유가 있다는 것이 분명합니다.
먼저 댓글을 분류해야 합니다.
wk <br>
전반적인 리뷰 클라우드 표시: <br>
<code>단어%data.table()<br>
setnames(단어,"N","pinshu")<br>
단어[pinshu>1000] #빈도가 낮은 단어 제거(1000개 미만)<br>
wordcloud2(words[pinshu>1000], 크기 = 2,fontFamily = "Microsoft Yahei", color = "random-light", backgroundColor = "grey")
데이터가 너무 많아서 고장난 컴퓨터가 멈춰서 클라우드 차트를 만들 때 빈도가 1,000 미만인 단어를 제거했습니다. 클라우드 이미지 결과는 다음과 같습니다.
전반적으로 이번 영상에 대한 모든 분들의 댓글이 꽤 좋아요! 줄거리, 행동, 애국심과 같은 주제가 토론의 초점입니다.
평가 키워드: 오징, 개인의 영웅주의, 메인 테마, 중국, 주인공 아우라, 다강 비서, 매우 불타오르다.
'버닝'이 시청 후 가장 인기 있는 피드백이 아니라는 것을 알 수 있습니다. 시청자들은 우징 자신을 존경하고 애국심과 개인주의에 대해 논평하는 데 더 관심이 있습니다.
댓글 수준이 다른 클라우드 이미지 표시하지만 평점이 다른 사람들의 댓글이 별도로 표시된다면 어떤 모습일까요? 즉, 5단계(강력히 권장, 권장, 괜찮음, 나쁨, 매우 나쁨)의 리뷰 내용에 대한 클라우드 차트를 생성하는 것입니다. 코드는 다음과 같습니다(기타 코드를 "강력히 권장"으로 변경하면 됩니다).
1. 강력추천 리뷰어들의 댓글 클라우드다양한 댓글의 단어 분할 결과를 보면 모두 애국심이라는 공통된 주제를 가지고 있습니다.
강력 추천 댓글의 애국 주제 수가 비추천 댓글의 수보다 높을 수 있습니다. 사람들은 애국 주제 이외의 주제에 대해 토론할 의향이 더 높습니다. 부정적인 댓글의 대부분은 애국적인 주제에 관한 것이었습니다. 그리고 그 비율이 매우 흥미롭습니다. 적극 추천하는 사람부터 나쁜 의견을 말하는 사람까지 애국적인 주제의 비율이 점차 증가합니다.
누가 옳고 그른지 주관적으로 판단할 수는 없지만, 서로 다른 관점에 서 있기 때문에 보는 결과도 다릅니다. 우리가 다른 사람들과 의견이 다를 때, 그것은 종종 다른 관점에서 비롯됩니다. 나쁜 댓글을 가진 사람들은 애국적인 주제에 대해 더 많이 생각하고 있을 수도 있습니다. (이것은 단지 애국적인 주제에 대한 토론일 뿐이며 누가 국가를 사랑하거나 싫어하는지가 아닙니다.) !
분석 결과, 이 '늑대전사2'가 이렇게 많은 사람들에게 지지를 받는 근본적인 이유는 '늑대전사1'이 볼 수 없었던 미국 블록버스터 수준의 제작 장면을 달성함과 동시에 애국심을 불러일으키고 사람들의 마음을 불러일으켰습니다.
위 내용은 Python 크롤러는 'Wolf Warrior' 영화 리뷰를 분석합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











Centos와 Ubuntu의 주요 차이점은 다음과 같습니다. Origin (Centos는 Red Hat, Enterprise의 경우, Ubuntu는 Debian에서 시작하여 개인의 경우), 패키지 관리 (Centos는 안정성에 중점을 둡니다. Ubuntu는 APT를 사용하여 APT를 사용합니다), 지원주기 (Ubuntu는 5 년 동안 LTS 지원을 제공합니다), 커뮤니티에 중점을 둔다 (Centos Conciors on ubuntu). 튜토리얼 및 문서), 사용 (Centos는 서버에 편향되어 있으며 Ubuntu는 서버 및 데스크탑에 적합), 다른 차이점에는 설치 단순성 (Centos는 얇음)이 포함됩니다.

Centos는 중단되었으며 대안은 다음과 같습니다. 1. Rocky Linux (Best Compatibility); 2. Almalinux (Centos와 호환); 3. Ubuntu 서버 (구성 필수); 4. Red Hat Enterprise Linux (상업용 버전, 유료 라이센스); 5. Oracle Linux (Centos 및 Rhel과 호환). 마이그레이션시 고려 사항은 호환성, 가용성, 지원, 비용 및 커뮤니티 지원입니다.

CentOS 설치 단계 : ISO 이미지를 다운로드하고 부팅 가능한 미디어를 실행하십시오. 부팅하고 설치 소스를 선택하십시오. 언어 및 키보드 레이아웃을 선택하십시오. 네트워크 구성; 하드 디스크를 분할; 시스템 시계를 설정하십시오. 루트 사용자를 만듭니다. 소프트웨어 패키지를 선택하십시오. 설치를 시작하십시오. 설치가 완료된 후 하드 디스크에서 다시 시작하고 부팅하십시오.

Docker Desktop을 사용하는 방법? Docker Desktop은 로컬 머신에서 Docker 컨테이너를 실행하는 도구입니다. 사용 단계는 다음과 같습니다. 1. Docker Desktop 설치; 2. Docker Desktop을 시작하십시오. 3. Docker 이미지를 만듭니다 (Dockerfile 사용); 4. Docker Image 빌드 (Docker 빌드 사용); 5. 도커 컨테이너를 실행하십시오 (Docker Run 사용).

Docker는 Linux 커널 기능을 사용하여 효율적이고 고립 된 응용 프로그램 실행 환경을 제공합니다. 작동 원리는 다음과 같습니다. 1. 거울은 읽기 전용 템플릿으로 사용되며, 여기에는 응용 프로그램을 실행하는 데 필요한 모든 것을 포함합니다. 2. Union 파일 시스템 (Unionfs)은 여러 파일 시스템을 스택하고 차이점 만 저장하고 공간을 절약하고 속도를 높입니다. 3. 데몬은 거울과 컨테이너를 관리하고 클라이언트는 상호 작용을 위해 사용합니다. 4. 네임 스페이스 및 CGroup은 컨테이너 격리 및 자원 제한을 구현합니다. 5. 다중 네트워크 모드는 컨테이너 상호 연결을 지원합니다. 이러한 핵심 개념을 이해 함으로써만 Docker를 더 잘 활용할 수 있습니다.

도커 프로세스보기 방법 : 1. Docker CLI 명령 : Docker PS; 2. Systemd Cli 명령 : SystemCTL 상태 Docker; 3. Docker Compose CLI 명령 : Docker-Compose PS; 4. 프로세스 탐색기 (Windows); 5. /Proc Directory (Linux).

대 코드 시스템 요구 사항 : 운영 체제 : Windows 10 이상, MacOS 10.12 이상, Linux 배포 프로세서 : 최소 1.6GHz, 권장 2.0GHz 이상의 메모리 : 최소 512MB, 권장 4GB 이상의 저장 공간 : 최소 250MB, 권장 1GB 및 기타 요구 사항 : 안정 네트워크 연결, Xorg/Wayland (LINUX)

실패한 Docker 이미지 빌드에 대한 문제 해결 단계 : Dockerfile 구문 및 종속성 버전을 확인하십시오. 빌드 컨텍스트에 필요한 소스 코드 및 종속성이 포함되어 있는지 확인하십시오. 오류 세부 사항에 대한 빌드 로그를보십시오. -표적 옵션을 사용하여 계층 적 단계를 구축하여 실패 지점을 식별하십시오. 최신 버전의 Docker Engine을 사용하십시오. -t [image-name] : 디버그 모드로 이미지를 빌드하여 문제를 디버깅하십시오. 디스크 공간을 확인하고 충분한 지 확인하십시오. 빌드 프로세스에 대한 간섭을 방지하기 위해 Selinux를 비활성화하십시오. 커뮤니티 플랫폼에 도움을 요청하고 Dockerfiles를 제공하며보다 구체적인 제안을 위해 로그 설명을 구축하십시오.
