Node.js抓取中文網頁亂碼問題和解決方法_node.js
Node.js 抓取非 utf-8 的中文網頁時會出現亂碼問題,例如網易的首頁編碼是 gb2312,抓取時會出現亂碼
var request = require('request')
var url = 'http://www.163.com'
request(url, function (err, res, body) {
console.log(body)
})
可以使用 iconv-lite 來解決
安裝
npm install iconv-lite
同時我們順帶把 user-agent 修改一下,以防網站封鎖:
var originRequest = require('request')
var iconv = require('iconv-lite')
var headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.65 Safari/537.36'
}
function request (url, callback) {
var options = {
url: url,
encoding: null,
headers: headers
}
originRequest(options, callback)
}
request(url, function (err, res, body) {
var html = iconv.decode(body, 'gb2312')
console.log(html)
})
亂碼問題解決
使用 cheerio 解析 HTML
cheerio 可以簡單粗暴的理解為伺服器端 jQuery 選擇器,有了它,比正則要更加直觀許多
安裝
npm install cheerio
request(url, function (err, res, body) {
var html = iconv.decode(body, 'gb2312')
var $ = cheerio.load(html)
console.log($('h1').text())
console.log($('h1').html())
})
輸出如下
網易
網易
那麼問題來了,$('h1').html() 輸出的程式碼是經過 Unicode 編碼的,網易變成了網易,給我們的字元處理帶來了一些麻煩
解決 cheerio .html() 「亂碼」問題
查閱文件可知,可以關閉這個轉換實體編碼的功能
var $ = cheerio.load(html)
改成
var $ = cheerio.load(html, {decodeEntities: false})
即可,完整程式碼如下:
var originRequest = require('request')
var Cheerio = require('cheerio')
var iconv = require('iconv-lite')
var headers = {
'使用者代理程式': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, 如 Gecko) Chrome/39.0.2171.65 Safari/537.36'
}
函數請求(url、回呼){
var 選項 = {
網址:網址,
編碼:空,
標題:標題
}
originRequest(選項,回呼)
}
var url = 'http://www.163.com'
請求(url,函數(錯誤,res,正文){
var html = iconv.decode(body, 'gb2312')
var $ = Cheerio.load(html, {decodeEntities: false})
console.log($('h1').text())
console.log($('h1').html())
})

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

公司安全軟件導致部分應用無法正常運行的排查與解決方法許多公司為了保障內部網絡安全,會部署安全軟件。 ...

可以通過以下步驟解決 Navicat 無法連接數據庫的問題:檢查服務器連接,確保服務器運行、地址和端口正確,防火牆允許連接。驗證登錄信息,確認用戶名、密碼和權限正確。檢查網絡連接,排除網絡問題,例如路由器或防火牆故障。禁用 SSL 連接,某些服務器可能不支持。檢查數據庫版本,確保 Navicat 版本與目標數據庫兼容。調整連接超時,對於遠程或較慢的連接,增加連接超時時間。其他解決方法,如果上述步驟無效,可以嘗試重新啟動軟件,使用不同的連接驅動程序,或諮詢數據庫管理員或 Navicat 官方支持。

CentOS下Hadoop分佈式文件系統(HDFS)配置常見問題及解決方案在CentOS系統上搭建HadoopHDFS集群時,一些常見的錯誤配置可能導致性能下降、數據丟失甚至集群無法啟動。本文總結了這些常見問題及其解決方法,幫助您避免這些陷阱,確保HDFS集群的穩定性和高效運行。機架感知配置錯誤:問題:未正確配置機架感知信息,導致數據塊副本分佈不均,增加網絡負載。解決方案:仔細檢查hdfs-site.xml文件中的機架感知配置,並使用hdfsdfsadmin-printTopo

VS Code可以在Windows 8上運行,但體驗可能不佳。首先確保系統已更新到最新補丁,然後下載與系統架構匹配的VS Code安裝包,按照提示安裝。安裝後,注意某些擴展程序可能與Windows 8不兼容,需要尋找替代擴展或在虛擬機中使用更新的Windows系統。安裝必要的擴展,檢查是否正常工作。儘管VS Code在Windows 8上可行,但建議升級到更新的Windows系統以獲得更好的開發體驗和安全保障。

Redis內存飆升的原因包括:數據量過大、數據結構選擇不當、配置問題(如maxmemory設置過小)、內存洩漏。解決方法有:刪除過期數據、使用壓縮技術、選擇合適的結構、調整配置參數、檢查代碼是否存在內存洩漏、定期監控內存使用情況。

VS Code 可用於編寫 Python,並提供許多功能,使其成為開發 Python 應用程序的理想工具。它允許用戶:安裝 Python 擴展,以獲得代碼補全、語法高亮和調試等功能。使用調試器逐步跟踪代碼,查找和修復錯誤。集成 Git,進行版本控制。使用代碼格式化工具,保持代碼一致性。使用 Linting 工具,提前發現潛在問題。

Navicat 無法連接數據庫的常見原因及其解決方法:1. 檢查服務器運行狀態;2. 核對連接信息;3. 調整防火牆設置;4. 配置遠程訪問;5. 排除網絡問題;6. 檢查權限;7. 保障版本兼容性;8. 排除其他可能性。

Redis內存碎片是指分配的內存中存在無法再分配的小塊空閒區域。應對策略包括:重啟Redis:徹底清空內存,但會中斷服務。優化數據結構:使用更適合Redis的結構,減少內存分配和釋放次數。調整配置參數:使用策略淘汰最近最少使用的鍵值對。使用持久化機制:定期備份數據,重啟Redis清理碎片。監控內存使用情況:及時發現問題並採取措施。
