書接上回,我們需要修改程式以達到連續抓取40個頁面的內容。也就是說我們需要輸出每篇文章的標題、連結、第一則評論、評論使用者和論壇積分。
如圖所示,$('.reply_author').eq(0).text().trim();
得到的值即為正確的第一條評論的使用者。
{}
在eventproxy取得評論及使用者名稱內容後,我們需要透過使用者名稱跳到使用者介面繼續抓取該使用者積分
var $ = cheerio.load(topicHtml);
//此URL為下一步抓取目標URL
var userHref = 'https://cnodejs.org' $('.reply_author').eq(0).attr('href');
userHref = url.resolve(tUrl, userHref);
var title = $('.topic_full_title').text().trim().replace(/n/g,"");;
var href = topicUrl;
var comment1 = $('.reply_content').eq(0).text().trim();
var author1 = $('.reply_author').eq(0).text().trim();
//傳遞參數到下次並發抓取
ep.emit('user_html', [userHref, title, href, comment1, author1]);
在eventproxy這次中,我們要找score是放在哪裡(class="big")。
{}
找到classname就好辦了,我們先試著把結果輸出一下
var outcome = superagent.get(userUrl)
.end(function (err, res) {
if (err) {
return console.error(err);
}
var $ = cheerio.load(res.text);
var score = $('.big').text().trim();
console.log(user[1]);
console.log(user[2]);
console.log(user[3]);
console.log(user[4]);
console.log($('.big').text().trim());
return ({
title: user[1],
href: user[2],
comment1: user[3],
author1: user[4],
score1: score
});
});
});
運行程序,這段程式碼得到的結果。
{}
但是問題來了,我們在.end()的回呼函數中能正確輸出結果,但是不能正確的輸出outcome。仔細一看,需要輸出的outcome就是一個Request物件。這是因為粗心犯的錯的,.end()函數並不會傳遞回傳值給Request對象,需要將結果傳回上一層(users)。
//尋找使用者詳細資料
ep.after('user_html', topicUrls.length, function(users){
users = users.map(function(user){
var userUrl = user[0];
var 分數;
superagent.get(userUrl)
.end(函數(err, res) {
若(錯誤){
return console.error(err);
}
//console.log(res.text);
var $ = Cheerio.load(res.text);
分數 = $('.big').text().trim();
});
返回({
標題:使用者[1],
href: 使用者[2],
評論1:使用者[3],
作者1:使用者[4],
分數1:分數
});
});
把使用者仔細地輸出發現除了score1其他都是正確值。仔細除錯發現,程式是先進行了console.log(),然後再進行.map()。更精確地說,在.map()函數裡面,.get()的回呼函數並沒有執行完成賦值score,回傳值就做了。這就是回呼函數的非同步,而外層的同步操作是不會等待回呼函數完成做操作的。
{}
我的做法是eventproxy再發出一層訊息,同時著訊息把資料一起傳遞給接收訊息操作。 after(),只有當訊息全部接收完畢,再印出傳遞的參數(結果)。
分數 = $('.big')text().trim();
//新加入
ep.emit('got_score', [user[1], user[2], user[3], user[4], Score]);
.....
ep.after('got_score', 10, 函數(用戶){
console.log(用戶);
});
{}
這個問題解決了,但是score1的數值看起來很簡單吧。再看看,原來class='big'有兩個,使用者的話題也屬於這個class。我們得透過cheerio的.slice收藏start, [end] )來切取第一個元素即將,score 修改為score = $('.big').slice(0).eq(0).text().trim ();。正確結果如圖。
{}