> 백엔드 개발 > 파이썬 튜토리얼 > NetEase Cloud Music 다운로드를 위한 매우 간단한 Python 크롤러

NetEase Cloud Music 다운로드를 위한 매우 간단한 Python 크롤러

不言
풀어 주다: 2018-08-29 11:57:05
원래의
4604명이 탐색했습니다.

이 기사의 내용은 매우 간단한 Python 크롤러를 사용하여 NetEase Cloud Music을 다운로드하는 것에 관한 것입니다. 이는 특정 참고 가치가 있으므로 도움이 될 수 있습니다.

Goal

우연히 집주인의 고양이의 '구름과 연기가 비로 변한다'를 듣게 되었는데, 나른한 목소리와 학생다운 가사에 순간 매료되어 계속 반복해서 듣게 되었습니다. 그러다가 일부러 '나는 장샤오바이입니다'라는 애니메이션을 봤는데 시즌2도 너무 기대되네요...

잠깐 보고 떠나더라도 꼭 다시 만나고 싶어요...

알았어, 말도 안되는 소리는 하지 말자. 이번 목표는 NetEase Cloud에 있는 가수의 ID를 기반으로 가수의 인기곡 가사와 오디오를 다운로드하여 로컬 폴더에 저장하는 것입니다.

구성 기본

  • Python

  • Selenium(구성 방법은 Selenium 구성을 참조하세요.)

  • Chrome 브라우저(다른 브라우저도 사용 가능하며 그에 따라 수정해야 함)

분석

NetEase Cloud 웹사이트를 방문한 크롤링 친구는 NetEase Cloud에 크롤링 방지 메커니즘이 있다는 것을 알아야 합니다. POST 중에 일부 정보 매개변수에 대한 암호화 기능을 시뮬레이션해야 합니다. 그러나 여기서는 단순함을 위해 초보자도 이해할 수 있습니다. Selenium을 직접 사용하여 로그인을 시뮬레이션한 다음 인터페이스를 사용하여 음악과 가사를 직접 다운로드합니다.

실험 단계:

  1. 가수 ID를 기반으로 가수의 인기곡 목록, 노래 이름 및 링크를 가져와서 csv 파일에 저장합니다.

  2. csv 파일을 읽고 노래 ID 기반으로 추출합니다. 노래 링크에서 해당 인터페이스를 사용하여 음악과 가사를 다운로드하세요.

  3. 음악과 가사를 로컬에 저장하세요.

NetEase Cloud Music 다운로드를 위한 매우 간단한 Python 크롤러

Python 구현

이 부분에서는 몇 가지 주요 기능을 소개합니다...

가수 정보 가져오기

Selenium을 사용하면 웹 페이지에 대한 요청을 볼 필요가 없습니다. 웹페이지 소스코드에서 해당 정보를 추출하여 직접 접근합니다. 가수 페이지의 소스 코드를 보면 필요한 정보가 iframe 프레임 내에 있다는 것을 알 수 있으므로 먼저 iframe으로 전환해야 합니다.

browser.switch_to.frame('contentFrame')
로그인 후 복사

계속해서 아래를 살펴보고 노래 이름과 링크가 필요한 내용은 id="hotsong-list" 태그에 있고 각 줄은 tr 태그에 해당합니다. 따라서 먼저 모든 tr 콘텐츠를 가져온 다음 단일 tr를 반복합니다. id="hotsong-list"的标签中,然后每一行对应的是一个tr标签。所以先获取所有的tr内容,然后遍历单个tr

data = browser.find_element_by_id("hotsong-list").find_elements_by_tag_name("tr")
로그인 후 복사

注意:前一个是find_element,后一个是find_elements,后者返回一个列表。

接下来就是解析单个tr标签的内容,获取歌曲名字和链接,可以发现两者在class="txt"标签中,而且链接是href属性,名字是title属性,可以直接通过get_attribute()函数获取。

NetEase Cloud Music 다운로드를 위한 매우 간단한 Python 크롤러

for i in range(len(data)):
    content = data[i].find_element_by_class_name("txt")
    href = content.find_element_by_tag_name("a").get_attribute("href")
    title = content.find_element_by_tag_name("b").get_attribute("title")
    song_info.append((title, href))
로그인 후 복사

下载歌词

网易云有个获取歌词的接口,链接为:http://music.163.com/api/song...

链接中的数字就是歌曲的id,所以我们拥有歌曲id后,可以直接从该链接下载歌词,歌词文件是json格式,所以我们需要用到json

def get_lyric(self):
    url = 'http://music.163.com/api/song/lyric?' + 'id=' + str(self.song_id) + '&lv=1&kv=1&tv=-1'
    r = requests.get(url)
    json_obj = r.text
    j = json.loads(json_obj)
    lyric = j['lrc']['lyric']
    # 利用正则表达式去除时间轴
    regex = re.compile(r'\[.*\]')
    final_lyric = re.sub(regex, '', lyric)
    return final_lyric
로그인 후 복사
참고: 전자는 find_element이고 후자는 find_elements이며 후자는 목록을 반환합니다.

다음 단계는 단일 tr 태그의 내용을 구문 분석하고 노래 이름과 링크를 얻는 것입니다. 둘 다 class="txt"에 있음을 확인할 수 있습니다. 태그이고 링크는 href 속성이고 이름은 title 속성이며 get_attribute() 함수를 통해 직접 얻을 수 있습니다. NetEase Cloud Music 다운로드를 위한 매우 간단한 Python 크롤러

72307185-5b83aftic- ><p></p><pre class=def get_mp3(self):     url = 'http://music.163.com/song/media/outer/url?id=' + str(self.song_id)+'.mp3'     try:         print(">

가사 다운로드

NetEase Cloud에는 가사를 가져오는 인터페이스가 있습니다. 링크는 다음과 같습니다: http://music.163.com/api/song...

링크에 있는 숫자는 노래 ID입니다. 노래 ID가 있으면 이 링크에서 가사를 직접 다운로드할 수 있습니다. 가사 파일은 json 형식이므로 json 패키지를 사용해야 합니다.


그리고 직접 얻은 가사에는 각 줄에 타임라인이 있으므로 정규식을 사용하여 제거해야 합니다. 전체 코드는 다음과 같습니다.

rrreee

오디오 다운로드NetEase Cloud는 다음을 위한 인터페이스도 제공합니다. 오디오 파일 링크는 http://music.163.com/song/med...

🎜링크에 있는 숫자는 해당 곡의 ID를 기준으로 바로 오디오 파일을 다운로드 받으실 수 있습니다. 노래. 전체 코드는 다음과 같습니다. 🎜rrreee🎜관련 권장 사항: 🎜🎜🎜Python을 사용하여 NetEase Cloud Music에서 인기 댓글을 크롤링하는 방법🎜🎜🎜🎜🎜Python이 qq music을 크롤링하는 프로세스의 예🎜🎜

위 내용은 NetEase Cloud Music 다운로드를 위한 매우 간단한 Python 크롤러의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿