ホームページ ウェブフロントエンド htmlチュートリアル ノード クローラー gbk Web ページの中国語が文字化けする solution_html/css_WEB-ITnose

ノード クローラー gbk Web ページの中国語が文字化けする solution_html/css_WEB-ITnose

Jun 21, 2016 am 08:58 AM

nodeをクローラとして使用した際に遭遇した中国語文字化け問題が解決していないので今日はメモを整理します。 (追記: インターネット上の一部の解決策は機能しなくなりました)

中国語の文字化けコードは、特にノードを使用して gbk エンコードされた Web ページをリクエストすることを指しており、Web ページ内の中国語を正しく取得できません (トランスコーディングが必要です)。 、「gbk」と「web page」「中文」の2つの条件が必須です。 utf-8 でエンコードされた Web ページでは中国語を取得できます。また、gbk でエンコードされた Web ページなどでは英語の数字を取得できます。

簡単な例を挙げてください。 http://acm.hdu.edu.cn/statistic.php?pid=1000 に対する最初の答えが得られるユーザー名は「Aurora Dazzling Shadow」です。スクラッチして次のコードを書きます:

var cheerio = require('cheerio')  , superagent = require('superagent')  , express = require('express');var url = 'http://acm.hdu.edu.cn/statistic.php?pid=1000';var app = express();app.get('/', function (req, res, next) {  superagent.get(url)    .end(function (err, sres) {      var html = sres.text;      var $ = cheerio.load(html, {decodeEntities: false});      var ans = $('.table_text td a').eq(0).html();      res.send(ans);    });  });app.listen(3000, function () {  console.log('app is listening at port 3000');});
ログイン後にコピー

次のように文字化けしてしまいました:

������Ӱ
ログイン後にコピー

正しい中国語を取得するにはどうすればよいですか?ここでは、緊急時の解決策をいくつか紹介します (原則には関係ありません。緊急時のみです)。

方法 1:

superagent-charset モジュールを使用します。

var cheerio = require('cheerio')  , superagent = require('superagent-charset')  , express = require('express');var url = 'http://acm.hdu.edu.cn/statistic.php?pid=1000';var app = express();app.get('/', function (req, res, next) {  superagent.get(url)    .charset('gbk')    .end(function (err, sres) {      var html = sres.text;      var $ = cheerio.load(html, {decodeEntities: false});      var ans = $('.table_text td a').eq(0).html();      res.send(ans);    });});app.listen(3000, function () {  console.log('app is listening at port 3000');});
ログイン後にコピー

使い方は非常に簡単で、superagent-charset モジュールを導入し、チェーンを呼び出すときに charset パラメータを追加するだけです。 superagent-charset モジュールには、superAgent モジュールと iconv-lite モジュールが含まれています。ソースコードはGithubで見つけることができます。

方法 2:

iconv-lite モジュールを直接使用してトランスコードします。

iconv-lite は、エンコード変換用のモジュールです(ノードのデフォルトエンコードはutf-8)。デコードが必要なエンコードは、Buffer タイプである必要があります。

  • http モジュールを使用します:

    http.get(url, function(sres) {  var chunks = [];  sres.on('data', function(chunk) {    chunks.push(chunk);  });  sres.on('end', function() {    // 将二进制数据解码成 gb2312 编码数据    var html = iconv.decode(Buffer.concat(chunks), 'gb2312');    var $ = cheerio.load(html, {decodeEntities: false});    var ans = $('.table_text td a').eq(0).html();    res.send(ans);  });});
    ログイン後にコピー
  • リクエスト モジュールを使用します:

    request({  url: url,   encoding: null  // 关键代码}, function (err, sres, body) {  var html = iconv.decode(body, 'gb2312')  var $ = cheerio.load(html, {decodeEntities: false});  var ans = $('.table_text td a').eq(0).html();  res.send(ans);});
    ログイン後にコピー

    iconv を使用してデコードして渡しますin パラメーターはバッファーである必要があります。

    エンコーディング - 応答データの setEncoding で使用されるエンコーディング。null の場合、その他の値 ( のデフォルト値である未定義 を含む) がエンコーディングとして渡されます。 toString() のパラメータ (つまり、これはデフォルトでは事実上 utf8 です) (注意: バイナリ データを期待する場合は、エンコーディングを null に設定する必要があります。)

    iconv - lite モジュールは、http モジュールおよび request モジュールとともに使用できますが、superAgent モジュールとともに直接使用することはできません。 superAgent は utf8 を使用してデータをフェッチし、iconv を使用して変換するため、機能しません。ページは gbk でエンコードされており、sres.text はデコードされています。つまり、utf8 に変換されており、バッファーに変換した結果は正しくないはずです。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

HTMLは初心者のために簡単に学ぶことができますか? HTMLは初心者のために簡単に学ぶことができますか? Apr 07, 2025 am 12:11 AM

HTMLは、簡単に学習しやすく、結果をすばやく見ることができるため、初心者に適しています。 1)HTMLの学習曲線はスムーズで簡単に開始できます。 2)基本タグをマスターして、Webページの作成を開始します。 3)柔軟性が高く、CSSおよびJavaScriptと組み合わせて使用​​できます。 4)豊富な学習リソースと最新のツールは、学習プロセスをサポートしています。

HTML、CSS、およびJavaScriptの役割:コアの責任 HTML、CSS、およびJavaScriptの役割:コアの責任 Apr 08, 2025 pm 07:05 PM

HTMLはWeb構造を定義し、CSSはスタイルとレイアウトを担当し、JavaScriptは動的な相互作用を提供します。 3人はWeb開発で職務を遂行し、共同でカラフルなWebサイトを構築します。

HTML、CSS、およびJavaScriptの理解:初心者向けガイド HTML、CSS、およびJavaScriptの理解:初心者向けガイド Apr 12, 2025 am 12:02 AM

webdevelopmentReliesOnhtml、css、andjavascript:1)htmlStructuresContent、2)cssStylesit、および3)Javascriptaddsinteractivity、形成、

Giteeページ静的なWebサイトの展開に失敗しました:単一のファイル404エラーをトラブルシューティングと解決する方法 Giteeページ静的なWebサイトの展開に失敗しました:単一のファイル404エラーをトラブルシューティングと解決する方法 Apr 04, 2025 pm 11:54 PM

GiteEpages静的Webサイトの展開が失敗しました:404エラーのトラブルシューティングと解像度Giteeを使用する

HTMLでの開始タグの例は何ですか? HTMLでの開始タグの例は何ですか? Apr 06, 2025 am 12:04 AM

Anexampleapalofastartingtaginhtmlis、それはaperginsaparagraph.startingtagsaresentionentientiontheyinitiateelements、definetheirtypes、およびarecrucialforurturingwebpagesandcontingthomedomを構築します。

CSS3とJavaScriptを使用して、クリック後に周囲の写真を散乱および拡大する効果を実現する方法は? CSS3とJavaScriptを使用して、クリック後に周囲の写真を散乱および拡大する効果を実現する方法は? Apr 05, 2025 am 06:15 AM

画像をクリックした後、散乱と周囲の画像を拡大する効果を実現するには、多くのWebデザインがインタラクティブな効果を実現する必要があります。特定の画像をクリックして周囲を作成してください...

HTML、CSS、およびJavaScript:Web開発者に不可欠なツール HTML、CSS、およびJavaScript:Web開発者に不可欠なツール Apr 09, 2025 am 12:12 AM

HTML、CSS、およびJavaScriptは、Web開発の3つの柱です。 1。HTMLは、Webページ構造を定義し、などなどのタグを使用します。2。CSSは、色、フォントサイズなどのセレクターと属性を使用してWebページスタイルを制御します。

WebアノテーションにY軸位置の適応レイアウトを実装する方法は? WebアノテーションにY軸位置の適応レイアウトを実装する方法は? Apr 04, 2025 pm 11:30 PM

Y軸位置Webアノテーション機能の適応アルゴリズムこの記事では、単語文書と同様の注釈関数、特に注釈間の間隔を扱う方法を実装する方法を探ります...

See all articles