社区

学习

工具库

AI工具

休闲

简体中文

首页 > 后端开发 > Python教程 > 为什么这个网页的源代码用python爬下来后用beautifulsoup解析后会出现字符丢失？

为什么这个网页的源代码用python爬下来后用beautifulsoup解析后会出现字符丢失？

WBOY

发布： 2016-06-06 16:22:10

原创

1879 人浏览过

回复内容：

又是你这个只点感谢不点赞的坏人……
话说你为什么要这么心急地学呢，基础不扎实啊，太冒进了，很显然没有清晰的思路…

首先编程要有默认的编码，也就是在文件的一开始加上

<code class="language-text"> # -*- coding: utf-8 -*-
</code>登录后复制

你是python2  代码前 加上# coding:utf-8

看python培训黄哥的三篇文章 
python开发爬虫汉字编码不再是问题： 
将python2中汉字会出现乱码的事一次性说清楚 
article/python_bianma.md at master · pythonpeixun/article · GitHub
python爬虫访问多个网站、中文编码的处理。 
python爬虫访问多个网站、中文编码的处理。
python3访问sina首页中文的处理 
python3访问sina首页中文的处理


可能在你这个转来转处的地方丢失。
ur = list(ur)
 ur = ur[:-1]
＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊
<code class="language-text"> ur = res.contents[0]
    ur = list(ur)
    ur = ur[:-1]
    temp = unicode(ur[0])
    for index in range(0, len(ur), 4):
        temp = unicode(ur[index])
        print temp.strip()
        print ur[index+1].string
        print ur[index+1]['href']
        print '\n'
</code>登录后复制

似乎response 后面用了俩decode 后面一个改encode应该就好了吧。。。

Decode是把括号里转成Unicode

Encode是Unicode转成括号里，就是UTF-8

Unicode就是个中转站


再不行就同一楼ignore。。。

还是用Requests库来处理http请求吧

来源：php.cn

上一篇：Python 有什么奇技淫巧？下一篇：怎样用 Windows 入门Python？

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

什么是 NullPointerException，如何修复它？

2024-10-22 09:46:29
从新手到程序员：您的旅程从 C 基础知识开始

2024-10-13 13:53:41
使用PHP解锁网络开发：初学者指南

2024-10-12 12:15:51
揭秘 C：为新程序员提供一条清晰简单的道路

2024-10-11 22:47:31
释放您的编码潜力：绝对初学者的 C 编程

2024-10-11 19:36:51
释放你内心的程序员：C 绝对初学者

2024-10-11 15:50:41
使用 C 自动化您的生活：适合初学者的脚本和工具

2024-10-11 15:07:41
PHP 变得简单：Web 开发的第一步

2024-10-11 14:21:21
使用 Python 构建任何东西：释放创造力的初学者指南

2024-10-11 12:59:11
编码的关键：为初学者释放 Python 的力量

2024-10-11 12:17:31

最新问题

function_exists()无法判定自定义函数 function test() { return true; } if (function_exists('TEST')) { ech...

来自于 2024-04-29 11:01:01

0

3

2481

google 浏览器手机版显示的怎么实现老师您好，google 浏览器怎么变成手机版样式的？

来自于 2024-04-23 00:22:19

0

11

2627

子窗口操作父窗口，输出没反应前两句可执行，最后一句没法应

来自于 2024-04-19 15:37:47

0

1

2223

父窗口没有输出 document.onclick = function(){ window.opener.document.write('我是子窗口的输出'); ...

来自于 2024-04-18 23:52:34

0

1

2086

关于CSS思维导图的课件在哪？课件

来自于 2024-04-16 10:10:18

0

0

2190

相关专题

更多>

热门推荐

热门教程

更多>

相关教程

热门推荐

最新课程

最新ThinkPHP 5.1全球首发视频教程(60天成就PHP大牛线上培训班课)

1428268
php入门教程之一周学会PHP

4279364
JAVA 初级入门视频教程

2584337
小甲鱼零基础入门学习Python视频教程

510859
PHP 零基础入门教程

868417

最新下载

更多>

网站特效

网站源码

网站素材

前端模板