Verwenden Sie Python, um Website-Informationen für die Jobsuche abzurufen-Python-Tutorial-php.cn

Verwenden Sie Python, um Website-Informationen für die Jobsuche abzurufen

高洛峰

Freigeben： 2017-03-19 14:05:29

Original

2145 Leute haben es durchsucht

In diesem Artikel wird die Verwendung von Python zum Erfassen von Website-Informationen für die Jobsuche vorgestellt.

Dieses Mal handelt es sich bei den erfassten Informationen um die Informationen nach der Suche nach „Datenanalysten“ auf der Zhaopin-Rekrutierungswebsite.

PythonVersion: Python3.5.

Das Hauptpaket, das ich verwende, ist Beautifulsoup + Requests+csv

Darüber hinaus habe ich mir auch eine kurze Beschreibung des Rekrutierungsinhalts geholt.

Nachdem die Datei in eine CSV-Datei ausgegeben wurde, stellte ich fest, dass beim Öffnen mit Excel einige verstümmelte Zeichen auftraten, beim Öffnen mit Dateisoftware (z. B Notepad++).

Um es beim Öffnen in Excel korrekt anzuzeigen, habe ich Folgendes mit Pandas konvertiert und die oben genannten Spaltennamen hinzugefügt. Nachdem die Konvertierung abgeschlossen ist, kann sie korrekt angezeigt werden. Informationen zur Konvertierung mit Pandas finden Sie in meinem Blog:

Da der Rekrutierungsinhalt viele Beschreibungen enthält, speichern Sie die CSV-Datei schließlich als Excel-Datei und passen Sie das Format für eine einfache Anzeige an.

Der Endeffekt ist wie folgt: Verwenden Sie Python, um Website-Informationen für die Jobsuche abzurufen

Der Implementierungscode lautet wie folgt: Der Code für das Informations-Crawling lautet wie folgt:

# Code based on Python 3.x
# _*_ coding: utf-8 _*_
# __Author: "LEMON"


from bs4 import BeautifulSoup
import requests
import csv


def download(url):
    headers = {&#39;User-Agent&#39;: &#39;Mozilla/5.0 (Windows NT 6.1; WOW64; rv:51.0) Gecko/20100101 Firefox/51.0&#39;}
    req = requests.get(url, headers=headers)
    return req.text


def get_content(html):
    soup = BeautifulSoup(html, &#39;lxml&#39;)
    body = soup.body
    data_main = body.find(&#39;div&#39;, {&#39;class&#39;: &#39;newlist_list_content&#39;})
    tables = data_main.find_all(&#39;table&#39;)

    zw_list = []
    for i,table in enumerate(tables):
        if i == 0:
            continue
        temp = []
        tds = table.find(&#39;tr&#39;).find_all(&#39;td&#39;)
        zwmc = tds[0].find(&#39;a&#39;).get_text()
        zw_link = tds[0].find(&#39;a&#39;).get(&#39;href&#39;)
        fkl = tds[1].find(&#39;span&#39;).get_text()
        gsmc = tds[2].find(&#39;a&#39;).get_text()
        zwyx = tds[3].get_text()
        gzdd = tds[4].get_text()
        gbsj = tds[5].find(&#39;span&#39;).get_text()

        tr_brief = table.find(&#39;tr&#39;, {&#39;class&#39;: &#39;newlist_tr_detail&#39;})
        brief = tr_brief.find(&#39;li&#39;, {&#39;class&#39;: &#39;newlist_deatil_last&#39;}).get_text()

        temp.append(zwmc)
        temp.append(fkl)
        temp.append(gsmc)
        temp.append(zwyx)
        temp.append(gzdd)
        temp.append(gbsj)
        temp.append(brief)
        temp.append(zw_link)

        zw_list.append(temp)
    return zw_list


def write_data(data, name):
    filename = name
    with open(filename, &#39;a&#39;, newline=&#39;&#39;, encoding=&#39;utf-8&#39;) as f:
        f_csv = csv.writer(f)
        f_csv.writerows(data)

if __name__ == &#39;__main__&#39;:

    basic_url = &#39;http://sou.zhaopin.com/jobs/searchresult.ashx?jl=%E5%85%A8%E5%9B%BD&kw=%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90%E5%B8%88&sm=0&p=&#39;

    number_list = list(range(90)) # total number of page is 90
    for number in number_list:
        num = number + 1
        url = basic_url + str(num)
        filename = &#39;zhilian_DA.csv&#39;
        html = download(url)
        # print(html)
        data = get_content(html)
        # print(data)
        print(&#39;start saving page:&#39;, num)
        write_data(data, filename)

Nach dem Login kopieren

Der mit Pandas konvertierte Code lautet wie folgt:

# Code based on Python 3.x
# _*_ coding: utf-8 _*_
# __Author: "LEMON"

import pandas as pd

df = pd.read_csv(&#39;zhilian_DA.csv&#39;, header=None)


df.columns = [&#39;职位名称&#39;, &#39;反馈率&#39;, &#39;公司名称&#39;, &#39;月薪&#39;, &#39;工作地点&#39;,
           &#39;发布日期&#39;, &#39;招聘简介&#39;, &#39;网页链接&#39;]

# 将调整后的dataframe文件输出到新的csv文件
df.to_csv(&#39;zhilian_DA_update.csv&#39;, index=False)

Nach dem Login kopieren

Das obige ist der detaillierte Inhalt vonVerwenden Sie Python, um Website-Informationen für die Jobsuche abzurufen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!