Inhaltsverzeichnis

Vorwort

Crawlen von Wechatsogou-Artikeln (mit wechatsogou)

2. Die Verwendungsmethode ist wie folgt:

Download-Adresse: https://wkhtmltopdf.org/downloads.html

Wenn Sie den erhaltenen Artikel verwenden oben direkt Wenn Sie eine URL zum Generieren von PDF verwenden, besteht das Problem, dass in der PDF-Datei die Artikelbilder nicht angezeigt werden.

Lösung:

Python-Tutorial

Heim

WeChat-Applet

WeChat-Entwicklung

Crawlen Sie öffentliche WeChat-Kontoartikel und speichern Sie sie als PDF-Dateien (Python-Methode).

coldplay.xixi

Aug 29, 2020 pm 05:14 PM

【Verwandte Lernempfehlungen: Tutorial zur Entwicklung öffentlicher WeChat-Konten】

Vorwort

Dies ist mein erstes Mal, dass ich einen Blog schreibe Konvertieren Sie die Artikel in das PDF-Format. Speichern Sie sie lokal.

Crawlen von Wechatsogou-Artikeln (mit wechatsogou)

1. Installation

pip install wechatsogou --upgrade

Nach dem Login kopieren

wechatsogou ist eine öffentliche Wechat-Konto-Crawler-Schnittstelle, die auf der Sogou-WeChat-Suche basiert

2. Die Verwendungsmethode ist wie folgt:

import wechatsogou
# captcha_break_time为验证码输入错误的重试次数，默认为1
ws_api = wechatsogou.WechatSogouAPI(captcha_break_time=3)
# 公众号名称
gzh_name = &#39;&#39;
# 将该公众号最近10篇文章信息以字典形式返回
data = ws_api.get_gzh_article_by_history(gzh_name)

Nach dem Login kopieren

Datenstruktur :

{
    &#39;gzh&#39;: {
        &#39;wechat_name&#39;: &#39;&#39;,  # 名称
        &#39;wechat_id&#39;: &#39;&#39;,  # 微信id
        &#39;introduction&#39;: &#39;&#39;,  # 简介
        &#39;authentication&#39;: &#39;&#39;,  # 认证
        &#39;headimage&#39;: &#39;&#39;  # 头像
    },
    &#39;article&#39;: [
        {
            &#39;send_id&#39;: int,  # 群发id，注意不唯一，因为同一次群发多个消息，而群发id一致
            &#39;datetime&#39;: int,  # 群发datatime 10位时间戳
            &#39;type&#39;: &#39;&#39;,  # 消息类型，均是49（在手机端历史消息页有其他类型，网页端最近10条消息页只有49），表示图文
            &#39;main&#39;: int,  # 是否是一次群发的第一次消息 1 or 0
            &#39;title&#39;: &#39;&#39;,  # 文章标题
            &#39;abstract&#39;: &#39;&#39;,  # 摘要
            &#39;fileid&#39;: int,  #
            &#39;content_url&#39;: &#39;&#39;,  # 文章链接
            &#39;source_url&#39;: &#39;&#39;,  # 阅读原文的链接
            &#39;cover&#39;: &#39;&#39;,  # 封面图
            &#39;author&#39;: &#39;&#39;,  # 作者
            &#39;copyright_stat&#39;: int,  # 文章类型，例如：原创啊
        },
        ...
    ]
}

Nach dem Login kopieren

Hier müssen zwei Informationen eingeholt werden: Artikeltitel und Artikel-URL.

Nachdem Sie die Artikel-URL erhalten haben, können Sie die HTML-Seite basierend auf der URL in eine PDF-Datei konvertieren.

Generieren Sie PDF-Dateien

1. Installieren Sie wkhtmltopdf

Download-Adresse: https://wkhtmltopdf.org/downloads.html

2. Installieren Sie pdfkit

pip install pdfkit

Nach dem Login kopieren

Wenn Sie den erhaltenen Artikel verwenden oben direkt Wenn Sie eine URL zum Generieren von PDF verwenden, besteht das Problem, dass in der PDF-Datei die Artikelbilder nicht angezeigt werden.

Lösung:

import pdfkit
# 根据url生成pdf
pdfkit.from_url(&#39;http://baidu.com&#39;,&#39;out.pdf&#39;)
# 根据html文件生成pdf
pdfkit.from_file(&#39;test.html&#39;,&#39;out.pdf&#39;)
# 根据html代码生成pdf
pdfkit.from_string(&#39;Hello!&#39;,&#39;out.pdf&#39;)

Nach dem Login kopieren

Dann erstellen Sie den vollständigen HTML-Code basierend auf html_code und rufen Sie die

-Methode auf, um eine PDF-Datei zu generieren. Zu diesem Zeitpunkt werden Sie feststellen, dass die Bilder im Artikel in der PDF-Datei angezeigt werden.

Vollständiger Code

# 该方法根据文章url对html进行处理，使图片显示
content_info = ws_api.get_article_content(url)
# 得到html代码(代码不完整，需要加入head、body等标签)
html_code = content_info[&#39;content_html&#39;]

Nach dem Login kopieren

pdfkit.from_string()Verwandte Lernempfehlungen:

Python-Tutorial

Das obige ist der detaillierte Inhalt vonCrawlen Sie öffentliche WeChat-Kontoartikel und speichern Sie sie als PDF-Dateien (Python-Methode).. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn