網址http://www.everlight.com/news...兩個問題1 : 怎麼取得每頁的url2 是點開新聞的內容, 例如http:/ /www.everlight.com/news...如果是英文的作業系統,顯示的是英文新聞,如果是中文系統,則顯示中文新聞,我想在node裡面固定抓取英文新聞,怎麼處理.
問題關閉...
在post的時候,form裡面有幾個關鍵性的資料,是放在也沒的hidden變數裡面,指定了這些變數應該就能解決.
右上角有個切換語言的,看一下程式碼,是呼叫了這個函數:function __doPostBack(eventTarget, eventArgument) {
if (!theForm.onsubmit || (theForm.onsubmit() != false)) { theForm.__EVENTTARGET.value = eventTarget; theForm.__EVENTARGUMENT.value = eventArgument; theForm.submit(); }
}
其實就是提交了一下表單,而表單是有post的方式發送的原頁面所以,你點擊後會看到頁面有閃一下,但網址並沒有變化。 所以,如果你要英文版的,post方式傳參數:__EVENTTARGET="ctl00$ctl00$lBtnUSA"過去就可以獲得英文版的頁面。
取得頁內的url,去解析dom就行了。
取得頁面中的url的方法:
var jsdom = require("jsdom"); jsdom.env({ url: "http://www.everlight.com/newsdetail.aspx?pcseq=4&cseq=7&seq=291", scripts: ["http://code.jquery.com/jquery.js"], done: function (err, window) { var $ = window.$; console.log("HN Links"); $("a").each(function() { //console.log(" -", $(this).text()); var tmp=$(this).text()+"---"+$(this).attr("href"); console.log(tmp); }); } });
這個還是分析一下request 中的header資訊吧,裡面有一個是可以利用設定語言的
問題關閉...
在post的時候,form裡面有幾個關鍵性的資料,是放在也沒的hidden變數裡面,指定了這些變數應該就能解決.
右上角有個切換語言的,看一下程式碼,是呼叫了這個函數:
function __doPostBack(eventTarget, eventArgument) {
}
其實就是提交了一下表單,
而表單是有post的方式發送的原頁面
所以,你點擊後會看到頁面有閃一下,但網址並沒有變化。
所以,如果你要英文版的,post方式傳參數:__EVENTTARGET="ctl00$ctl00$lBtnUSA"過去就可以獲得英文版的頁面。
取得頁內的url,去解析dom就行了。
取得頁面中的url的方法:
這個還是分析一下request 中的header資訊吧,裡面有一個是可以利用設定語言的