网页爬虫 - python爬取网络小说 中文‘乱码’
迷茫
迷茫 2017-04-17 17:22:06
0
2
1193
  1. python爬取网络小说 中文‘乱码’,因为不知道是否是乱码,所以加了引号

  2. 代码如下
    # -- coding:utf8 --
    from bs4 import BeautifulSoup
    import requests

    url = "http://www.cishuge.com/read/0/250/"
    web_data = requests.get(url)
    soup = BeautifulSoup(web_data.text, 'lxml')

    titles = soup.select('#readerlist > ul > li > a')
    for title in titles:

       data = {
           'title': title.get('title'),
           'link': title.get('href')
       }
       print(data)
  3. 目标网页为http://www.cishuge.com/read/0/250/

  4. 运行结果如下图所示

链接能正常显示,文章标题貌似‘乱码’
百度下没找到解决方法,特来求助各位前辈

补充:运行环境 windows10, python3, pycharm

迷茫
迷茫

业精于勤,荒于嬉;行成于思,毁于随。

全員に返信(2)
巴扎黑

リーリー リーリー

いいねを押す +0
左手右手慢动作

1. 他の人の Web サイトのエンコードを確認してください
2. トランスコードする必要がある場合はトランスコードします
https://github.com/bravekingzhang/moveSpider/blob/master/dyspider/html_downloader を参照してください。 .py

いいねを押す +0
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート