Maison > Applet WeChat > Développement WeChat > Explorez les articles du compte public WeChat et enregistrez-les sous forme de fichiers PDF (méthode Python)

Explorez les articles du compte public WeChat et enregistrez-les sous forme de fichiers PDF (méthode Python)

coldplay.xixi
Libérer: 2020-08-29 17:26:39
avant
5552 Les gens l'ont consulté

Explorez les articles du compte public WeChat et enregistrez-les sous forme de fichiers PDF (méthode Python)

[Recommandations d'apprentissage associées : Tutoriel de développement de compte public WeChat]

Avant-propos

C'est la première fois que j'écris un blog. Le contenu principal consiste à explorer les articles des comptes publics WeChat et à enregistrer les articles localement au format PDF.

Explorer les articles de Wechatsogou (à l'aide de wechatsogou)

1. Installer

pip install wechatsogou --upgrade
Copier après la connexion

wechatsogou est une interface d'exploration de Wechatsogou basée sur la recherche Sogou Wechats

2. 🎜>

L'utilisation est la suivante

import wechatsogou
# captcha_break_time为验证码输入错误的重试次数,默认为1
ws_api = wechatsogou.WechatSogouAPI(captcha_break_time=3)
# 公众号名称
gzh_name = ''
# 将该公众号最近10篇文章信息以字典形式返回
data = ws_api.get_gzh_article_by_history(gzh_name)
Copier après la connexion

structure des données :

{
    'gzh': {
        'wechat_name': '',  # 名称
        'wechat_id': '',  # 微信id
        'introduction': '',  # 简介
        'authentication': '',  # 认证
        'headimage': ''  # 头像
    },
    'article': [
        {
            'send_id': int,  # 群发id,注意不唯一,因为同一次群发多个消息,而群发id一致
            'datetime': int,  # 群发datatime 10位时间戳
            'type': '',  # 消息类型,均是49(在手机端历史消息页有其他类型,网页端最近10条消息页只有49),表示图文
            'main': int,  # 是否是一次群发的第一次消息 1 or 0
            'title': '',  # 文章标题
            'abstract': '',  # 摘要
            'fileid': int,  #
            'content_url': '',  # 文章链接
            'source_url': '',  # 阅读原文的链接
            'cover': '',  # 封面图
            'author': '',  # 作者
            'copyright_stat': int,  # 文章类型,例如:原创啊
        },
        ...
    ]
}
Copier après la connexion

Deux informations doivent être obtenues ici : le titre de l'article et l'URL de l'article.

Après avoir obtenu l'URL de l'article, vous pouvez convertir la page html en un fichier pdf basé sur l'URL.

Générer des fichiers PDF

1. Installez wkhtmltopdf

Adresse de téléchargement : https://wkhtmltopdf.org/downloads.html

2. Installez pdfkit

. 🎜>
pip install pdfkit
Copier après la connexion

3. Comment utiliser

import pdfkit
# 根据url生成pdf
pdfkit.from_url('http://baidu.com','out.pdf')
# 根据html文件生成pdf
pdfkit.from_file('test.html','out.pdf')
# 根据html代码生成pdf
pdfkit.from_string('Hello!','out.pdf')
Copier après la connexion

Si vous utilisez directement l'URL de l'article obtenue ci-dessus pour générer un pdf, il y aura un problème selon lequel le fichier pdf n'affichera pas l'image de l'article.

Solution :

# 该方法根据文章url对html进行处理,使图片显示
content_info = ws_api.get_article_content(url)
# 得到html代码(代码不完整,需要加入head、body等标签)
html_code = content_info['content_html']
Copier après la connexion

Ensuite, construisez le code html complet basé sur html_code et appelez la méthode pdfkit.from_string() pour générer un fichier pdf. À ce stade, vous constaterez que les images de l'article. sont affichés dans le fichier pdf.

Code complet

import os
import pdfkit
import datetime
import wechatsogou

# 初始化API
ws_api = wechatsogou.WechatSogouAPI(captcha_break_time=3)


def url2pdf(url, title, targetPath):
    '''
    使用pdfkit生成pdf文件
    :param url: 文章url
    :param title: 文章标题
    :param targetPath: 存储pdf文件的路径
    '''
    try:
        content_info = ws_api.get_article_content(url)
    except:
        return False
    # 处理后的html
    html = f'''
    <!DOCTYPE html>
    <html lang="en">
    <head>
        <meta charset="UTF-8">
        <title>{title}</title>
    </head>
    <body>
    <h2 style="text-align: center;font-weight: 400;">{title}</h2>
    {content_info[&#39;content_html&#39;]}
    </body>
    </html>
    &#39;&#39;&#39;
    try:
        pdfkit.from_string(html, targetPath + os.path.sep + f&#39;{title}.pdf&#39;)
    except:
        # 部分文章标题含特殊字符,不能作为文件名
        filename = datetime.datetime.now().strftime(&#39;%Y%m%d%H%M%S&#39;) + &#39;.pdf&#39;
        pdfkit.from_string(html, targetPath + os.path.sep + filename)


if __name__ == &#39;__main__&#39;:
    # 此处为要爬取公众号的名称
    gzh_name = &#39;&#39;
    targetPath = os.getcwd() + os.path.sep + gzh_name
    # 如果不存在目标文件夹就进行创建
    if not os.path.exists(targetPath):
        os.makedirs(targetPath)
    # 将该公众号最近10篇文章信息以字典形式返回
    data = ws_api.get_gzh_article_by_history(gzh_name)
    article_list = data[&#39;article&#39;]
    for article in article_list:
        url = article[&#39;content_url&#39;]
        title = article[&#39;title&#39;]
        url2pdf(url, title, targetPath)
Copier après la connexion

Recommandations d'apprentissage associées : Tutoriel Python

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:csdn.net
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal