ruby - Nokogiri 抓取網頁亂碼如何解決?
巴扎黑
巴扎黑 2017-04-22 09:00:21
0
1
756

最近在幫同學在一個網站上抓取一些東西,比如 http://www.sell001.com/110178 上麵的服裝圖片,標題和價格等等。

這個網站有點奇怪,他 meta 裏麵沒有聲明 charset,然後我用 Nokogiri ,也沒有指定特定的 encoding。

抓了一些圖片和鏈接都是可以的,但是碰到有中文的情況時它就亂碼了。

我看官方文檔 http://www.nokogiri.org/tutorials/parsing_an_html_xml_document.html,
Nokogiri 可以指定 encoding,比如 doc = Nokogiri.XML('<foo><bar /><foo>', nil, 'EUC-JP')
我試了指定一些比如 gbk 等等,都無效。。

這種情況該如何解決?

巴扎黑
巴扎黑

全部回覆(1)
阿神

雷雷

=> #(文件:0x3fc3974355f4 {
名稱=“文檔”,
孩子= [
#(DTD:0x3fc397424bf0 { name = "html" }),
#(元素:0x3fc39741fc18 {
名稱=“html”,
屬性 = [
#(屬性:0x3fc39740fa20 {
名稱 =“xmlns”,
值=“http://www.w3.org/1999/xhtml”
})],
孩子= [
#(文字“rn”),
#(元素:0x3fc3973da190 {
名字=“頭”,
孩子= [
#(文字“rn”),
#(元素:0x3fc3973cf6dc {
名稱=“標題”,
kids = [ #(Text "九天國際A218-網商園")]
}),

utf-8正常解析。 。 。

熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板