PythonでHTMLページをキャプチャして保存すると文字化けが発生する問題-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

PythonでHTMLページをキャプチャして保存すると文字化けが発生する問題

高洛峰

Mar 01, 2017 pm 01:25 PM

Pythonを使用してHTMLページをキャプチャして保存すると、キャプチャしたWebページのコンテンツが文字化けするという問題がよく発生します。この問題の理由は、一方では独自のコードのエンコード設定に問題があり、他方ではエンコード設定が正しい場合でも、Web ページの実際のエンコードがマークされたエンコードと一致しないことです。エンコーディング。 HTML ページマークのエンコードはここにあります:

コードをコピーしますコードは次のとおりです:

これは簡単な解決策です。chardet を使用して Web ページの実際のエンコーディングを決定し、同時に URL リクエストによって返された情報からエンコーディングを決定します。 2 つのエンコーディングが異なる場合は、bs モジュールを使用して GB18030 エンコーディングに拡張します。同じ場合は、ファイルを直接書き込みます (システムのデフォルトのエンコーディングはここでは utf-8 に設定されています)。

import urllib2
import sys
import bs4
import chardet
reload(sys)
sys.setdefaultencoding(&#39;utf-8&#39;)
def download(url):
  htmlfile = open(&#39;test.html&#39;,&#39;w&#39;)
  try:
    result = urllib2.urlopen(url)
    content = result.read()
    info = result.info()
    result.close()
  except Exception,e:
    print &#39;download error!!!&#39;
    print e
  else:
    if content != None:
      charset1 = (chardet.detect(content))[&#39;encoding&#39;] #real encoding type
      charset2 = info.getparam(&#39;charset&#39;) #declared encoding type
      print charset1,&#39; &#39;, charset2
      # case1: charset is not None.
      if charset1 != None and charset2 != None and charset1.lower() != charset2.lower():
        newcont = bs4.BeautifulSoup(content, from_encoding=&#39;GB18030&#39;)  #coding: GB18030
        for cont in newcont:
          htmlfile.write(&#39;%s\n&#39;%cont)
      # case2: either charset is None, or charset is the same.
      else:
        #print sys.getdefaultencoding()
        htmlfile.write(content) #default coding: utf-8
  htmlfile.close()
if __name__ == "__main__":
  url = &#39;http://www.php.cn&#39;
  download(url)

ログイン後にコピー

取得した test.html ファイルを次のように開くと、設定したデフォルトのエンコーディングである UTF-8 BOM フリーエンコーディング形式で保存されていることがわかります。グラブまた、HTMLページ保存時の文字化けに関する関連記事は、PHPの中国語サイトに注目してください！

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7328

Java チュートリアル

1626

CakePHP チュートリアル

1350

Laravel チュートリアル

1262

PHP チュートリアル

1209

Related knowledge

Pythonを使用してテキストファイルのZIPF配布を見つける方法 Mar 05, 2025 am 09:58 AM

このチュートリアルでは、Pythonを使用してZIPFの法則の統計的概念を処理する方法を示し、法律の処理時にPythonの読み取りおよび並べ替えの効率性を示します。 ZIPF分布という用語が何を意味するのか疑問に思うかもしれません。この用語を理解するには、まずZIPFの法律を定義する必要があります。心配しないでください、私は指示を簡素化しようとします。 ZIPFの法則 ZIPFの法則は単に意味します。大きな自然言語のコーパスでは、最も頻繁に発生する単語は、2番目の頻繁な単語のほぼ2倍の頻度で表示されます。例を見てみましょう。アメリカ英語の茶色のコーパスを見ると、最も頻繁な言葉は「thであることに気付くでしょう。

HTMLを解析するために美しいスープを使用するにはどうすればよいですか？ Mar 10, 2025 pm 06:54 PM

この記事では、Pythonライブラリである美しいスープを使用してHTMLを解析する方法について説明します。 find（）、find_all（）、select（）、およびget_text（）などの一般的な方法は、データ抽出、多様なHTML構造とエラーの処理、および代替案（SEL

Pythonでの画像フィルタリング Mar 03, 2025 am 09:44 AM

ノイズの多い画像を扱うことは、特に携帯電話や低解像度のカメラの写真でよくある問題です。このチュートリアルでは、OpenCVを使用してPythonの画像フィルタリング手法を調査して、この問題に取り組みます。画像フィルタリング：強力なツール画像フィルター

Pythonを使用してPDFドキュメントの操作方法 Mar 02, 2025 am 09:54 AM

PDFファイルは、クロスプラットフォームの互換性に人気があり、オペレーティングシステム、読み取りデバイス、ソフトウェア間でコンテンツとレイアウトが一貫しています。ただし、Python Plansing Plain Text Filesとは異なり、PDFファイルは、より複雑な構造を持つバイナリファイルであり、フォント、色、画像などの要素を含んでいます。幸いなことに、Pythonの外部モジュールでPDFファイルを処理することは難しくありません。この記事では、PYPDF2モジュールを使用して、PDFファイルを開き、ページを印刷し、テキストを抽出する方法を示します。 PDFファイルの作成と編集については、私からの別のチュートリアルを参照してください。準備コアは、外部モジュールPYPDF2を使用することにあります。まず、PIPを使用してインストールします。ピップはpです