Python が Web ページをクロールする際の文字セット変換問題の解決策の共有
質問:
Web ページを収集し、処理後に文字列をファイルに保存するか、データベースに書き込むことがあります。このとき、収集した Web ページのエンコーディングが gb2312 である場合、文字列のエンコーディングを指定する必要があります。データベースはutf-8です。何も処理せずにデータベースに直接挿入すると文字化けが発生する可能性があります(テストしていないため、データベースが自動的にトランスコードするかどうかはわかりません)。gb2312を手動で変換する必要があります。 utf-8にします。
まず、Python の文字はデフォルトで ASCII コードであることを知っています。もちろん、英語は問題ありません。中国語に遭遇すると、すぐにひざまずきます。
まだ覚えているかどうかはわかりませんが、Python で漢字を出力するときは、文字列の前に u を追加する必要があります。
print u"来搞基吗?"
このようにして、中国語を表示することができます。ここでの u の機能は、中国語を正しく表示できるように、次の文字列を Unicode コードに変換することです。
それに関連する unicode() 関数があり、その使用法は次のとおりです
str="来搞基" str=unicode(str,"utf-8") print str
と u の違いは、str を Unicode エンコードに変換するために Unicode が使用されることです。ここでの utf-8 は、test.py スクリプト自体のファイル文字セットです。アンシになる。
Unicode がキーです。以下に進みます
Baidu ホームページのクロールを開始します。訪問者が Baidu ホームページにアクセスして Web ページのソース コードを表示すると、その charset=gb2312 が表示されます。
import urllib2 def main(): f=urllib2.urlopen("http://www.baidu.com") str=f.read() str=unicode(str,"gb2312") fp=open("baidu.html","w") fp.write(str.encode("utf-8")) fp.close() if __name__ == '__main__' : main()
説明:
まず、urllib2.urlopen() メソッドを使用して Baidu ホームページを取得します。f はハンドルで、str=f.read() を使用してすべてのソース コードを str
明らかに、str には取得した HTML ソース コードが含まれています。Web ページのデフォルトの文字セットは gb2312 であるため、それをファイルに直接保存すると、ファイル エンコーディングは ansi になります。
ほとんどの人にとって、これで十分ですが、場合によっては gb2312 を utf-8 に変換したい場合もあります。
最初:
str=unicode(str,"gb2312") #ここでの gb2312 は str の実際の文字セットです。これを Unicode に変換します
その後:
str=str.encode("utf-8") #Unicode文字列をutf-8に再エンコードします
最後に:
ファイルに str を書き込み、ファイルを開いてエンコーディングのプロパティを確認すると、それが utf-8 であることがわかります。utf-8 のトランスコーディングが完了しました。
概要:
指定した文字セットに従って文字列を保存する必要がある場合は、次の手順があることを確認してください:
1: unicode(str, "元のエンコーディング") を使用して str を Unicode 文字列にデコードします
2: str.encode("指定された文字セット") を使用して、Unicode 文字列 str を指定した文字セットに変換します
3: str をファイルに保存するか、データベースに書き込みます。当然、エンコーディングはすでに指定されていますよね。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









PHPとPythonには独自の利点と短所があり、選択はプロジェクトのニーズと個人的な好みに依存します。 1.PHPは、大規模なWebアプリケーションの迅速な開発とメンテナンスに適しています。 2。Pythonは、データサイエンスと機械学習の分野を支配しています。

CentOSシステムでのPytorchモデルの効率的なトレーニングには手順が必要であり、この記事では詳細なガイドが提供されます。 1。環境の準備:Pythonおよび依存関係のインストール:Centosシステムは通常Pythonをプリインストールしますが、バージョンは古い場合があります。 YumまたはDNFを使用してPython 3をインストールし、PIP:sudoyumupdatepython3(またはsudodnfupdatepython3)、pip3install-upgradepipをアップグレードすることをお勧めします。 cuda and cudnn(GPU加速):nvidiagpuを使用する場合は、cudatoolをインストールする必要があります

PythonとJavaScriptには、コミュニティ、ライブラリ、リソースの観点から、独自の利点と短所があります。 1)Pythonコミュニティはフレンドリーで初心者に適していますが、フロントエンドの開発リソースはJavaScriptほど豊富ではありません。 2)Pythonはデータサイエンスおよび機械学習ライブラリで強力ですが、JavaScriptはフロントエンド開発ライブラリとフレームワークで優れています。 3)どちらも豊富な学習リソースを持っていますが、Pythonは公式文書から始めるのに適していますが、JavaScriptはMDNWebDocsにより優れています。選択は、プロジェクトのニーズと個人的な関心に基づいている必要があります。

Pytorch GPUアクセラレーションを有効にすることで、CentOSシステムでは、PytorchのCUDA、CUDNN、およびGPUバージョンのインストールが必要です。次の手順では、プロセスをガイドします。CUDAおよびCUDNNのインストールでは、CUDAバージョンの互換性が決定されます。NVIDIA-SMIコマンドを使用して、NVIDIAグラフィックスカードでサポートされているCUDAバージョンを表示します。たとえば、MX450グラフィックカードはCUDA11.1以上をサポートする場合があります。 cudatoolkitのダウンロードとインストール:nvidiacudatoolkitの公式Webサイトにアクセスし、グラフィックカードでサポートされている最高のCUDAバージョンに従って、対応するバージョンをダウンロードしてインストールします。 cudnnライブラリをインストールする:

DockerはLinuxカーネル機能を使用して、効率的で孤立したアプリケーションランニング環境を提供します。その作業原則は次のとおりです。1。ミラーは、アプリケーションを実行するために必要なすべてを含む読み取り専用テンプレートとして使用されます。 2。ユニオンファイルシステム(UnionFS)は、違いを保存するだけで、スペースを節約し、高速化する複数のファイルシステムをスタックします。 3.デーモンはミラーとコンテナを管理し、クライアントはそれらをインタラクションに使用します。 4。名前空間とcgroupsは、コンテナの分離とリソースの制限を実装します。 5.複数のネットワークモードは、コンテナの相互接続をサポートします。これらのコア概念を理解することによってのみ、Dockerをよりよく利用できます。

CentOSでPytorchバージョンを選択する場合、次の重要な要素を考慮する必要があります。1。CUDAバージョンの互換性GPUサポート:NVIDIA GPUを使用してGPU加速度を活用したい場合は、対応するCUDAバージョンをサポートするPytorchを選択する必要があります。 NVIDIA-SMIコマンドを実行することでサポートされているCUDAバージョンを表示できます。 CPUバージョン:GPUをお持ちでない場合、またはGPUを使用したくない場合は、PytorchのCPUバージョンを選択できます。 2。PythonバージョンPytorch

MINIOオブジェクトストレージ:CENTOSシステムの下での高性能展開Minioは、Amazons3と互換性のあるGO言語に基づいて開発された高性能の分散オブジェクトストレージシステムです。 Java、Python、JavaScript、Goなど、さまざまなクライアント言語をサポートしています。この記事では、CentosシステムへのMinioのインストールと互換性を簡単に紹介します。 Centosバージョンの互換性Minioは、Centos7.9を含むがこれらに限定されない複数のCentosバージョンで検証されています。

NGINXのインストールをインストールするには、次の手順に従う必要があります。開発ツール、PCRE-Devel、OpenSSL-Develなどの依存関係のインストール。 nginxソースコードパッケージをダウンロードし、それを解凍してコンパイルしてインストールし、/usr/local/nginxとしてインストールパスを指定します。 nginxユーザーとユーザーグループを作成し、アクセス許可を設定します。構成ファイルnginx.confを変更し、リスニングポートとドメイン名/IPアドレスを構成します。 nginxサービスを開始します。依存関係の問題、ポート競合、構成ファイルエラーなど、一般的なエラーに注意する必要があります。パフォーマンスの最適化は、キャッシュをオンにしたり、ワーカープロセスの数を調整するなど、特定の状況に応じて調整する必要があります。
