masyarakat

Belajar

Perpustakaan Alatan

Alat AI

Masa lapang

Melayu

Rumah > pembangunan bahagian belakang > Tutorial Python > 为什么这个网页的源代码用python爬下来后用beautifulsoup解析后会出现字符丢失？

为什么这个网页的源代码用python爬下来后用beautifulsoup解析后会出现字符丢失？

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Lepaskan： 2016-06-06 16:22:10

asal

1892 orang telah melayarinya

回复内容：

又是你这个只点感谢不点赞的坏人……
话说你为什么要这么心急地学呢，基础不扎实啊，太冒进了，很显然没有清晰的思路…

首先编程要有默认的编码，也就是在文件的一开始加上

 # -*- coding: utf-8 -*-
Salin selepas log masuk

你是python2  代码前 加上# coding:utf-8

看python培训黄哥的三篇文章 
python开发爬虫汉字编码不再是问题： 
将python2中汉字会出现乱码的事一次性说清楚 
article/python_bianma.md at master · pythonpeixun/article · GitHub
python爬虫访问多个网站、中文编码的处理。 
python爬虫访问多个网站、中文编码的处理。
python3访问sina首页中文的处理 
python3访问sina首页中文的处理


可能在你这个转来转处的地方丢失。
ur = list(ur)
 ur = ur[:-1]
＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊
 ur = res.contents[0]
    ur = list(ur)
    ur = ur[:-1]
    temp = unicode(ur[0])
    for index in range(0, len(ur), 4):
        temp = unicode(ur[index])
        print temp.strip()
        print ur[index+1].string
        print ur[index+1]['href']
        print '\n'
Salin selepas log masuk

似乎response 后面用了俩decode 后面一个改encode应该就好了吧。。。

Decode是把括号里转成Unicode

Encode是Unicode转成括号里，就是UTF-8

Unicode就是个中转站


再不行就同一楼ignore。。。

还是用Requests库来处理http请求吧

Artikel sebelumnya：Python 有什么奇技淫巧？ Artikel seterusnya：怎样用 Windows 入门Python？

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel terbaru oleh pengarang

Cara menggunakan Photoshop di telefon anda

2025-02-24 12:36:12
Berhenti menghabiskan banyak wang untuk perkhidmatan streaming

2025-02-24 12:11:09
Berhenti bercakap dengan telefon anda: Cara Menggunakan Jenis ke Siri

2025-02-24 12:06:10
Cara menggunakan loker Amazon untuk menjimatkan masa dan mengalahkan lanun beranda

2025-02-24 12:04:13
Cara membaca teks dari gambar pada tingkap

2025-02-24 12:03:10
9 aplikasi berguna yang dimasukkan ke dalam Spotify

2025-02-24 12:02:09
Cara menggunakan tugas dan peringatan di dalam chatgpt

2025-02-24 12:01:10
Cara menggunakan kecerdasan epal untuk menyusun e -mel anda

2025-02-24 12:00:16
Cara Menyediakan Ciri Pengesanan Kecurian Baru di Android

2025-02-24 11:59:10
Bagaimana untuk mendapatkan gemini untuk mengingati (atau lupa) semua yang anda ’ kata

2025-02-24 11:58:14

Isu terkini

function_exists() tidak boleh menentukan fungsi tersuai Ujian fungsi () {return true;} jika (function_exists ('test')) {echo "test is functio...

daripada 2024-04-29 11:01:01

0

3

2825

Bagaimana untuk memaparkan versi mudah alih Google Chrome Hello cikgu, bagaimana saya boleh menukar Google Chrome kepada versi mudah alih?

daripada 2024-04-23 00:22:19

0

11

2945

Tetingkap anak mengendalikan tetingkap induk, tetapi output tidak bertindak balas. Dua ayat pertama boleh dilaksanakan, tetapi ayat terakhir tidak boleh dilaksanakan.

daripada 2024-04-19 15:37:47

0

1

2470

Tiada output dalam tetingkap induk document.onclick = function(){ window.opener.document.write('Saya adalah output tetingkap ...

daripada 2024-04-18 23:52:34

0

1

2394

Di manakah perisian kursus tentang pemetaan minda CSS? Perisian kursus

daripada 2024-04-16 10:10:18

0

0

2444

Topik-topik yang berkaitan

Lagi>

Cadangan popular

Tutorial Popular

Lagi>

Tutorial berkaitan

Cadangan popular

Kursus terkini

Muat turun terkini

Lagi>

kesan web

Kod sumber laman web

Bahan laman web

Templat hujung hadapan