V2EX论坛客户端之帖子信息爬取(一)_html/css

前言

按照业务分模块

依赖

搭建项目，整理包结构

关于API

解析帖子列表

使用Jsoup遇到的坑

집

웹 프론트엔드

HTML 튜토리얼

V2EX论坛客户端之帖子信息爬取(一)_html/css_WEB-ITnose

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 21, 2016 am 08:58 AM

前言

由于逛V2EX比较多，决定用闲暇时间做一个安卓客户端,开源在这里 https://github.com/ihgoo/V2EX

工欲善其事，必先利其器，整个项目以Gradle方式构建，Androidstudio开发。

公司的项目也转向AndroidStudio了，studio有个我特别喜欢的特性，输入变量的时候记不住变量开头是怎么拼写的，能记住后面也会自动提示出来！还有就是插件多，开发向傻瓜化发展，只关注业务逻辑即可。

按照业务分模块

论坛客户端按照业务逻辑会分为以下模块

在非登录状态下的浏览模块
- 帖子列表浏览
- 帖子详情浏览
用户模块
- 登录模块
- 用户信息模块
在登录状态下的模块
- 带登录状态的回帖，帖子详情浏览
- 收藏，点赞
- 回帖提醒

依赖

依赖库会尽量考虑使用原生控件以及成熟的框架

compile 'com.jakewharton:butterknife:6.1.0'    compile 'com.squareup.retrofit:retrofit:1.9.0'compile 'com.squareup:otto:+'compile 'com.facebook.fresco:fresco:0.1.0+'compile 'com.squareup.okhttp:okhttp-urlconnection:2.0.0'compile 'com.squareup.okhttp:okhttp:2.0.0'

로그인 후 복사

butterknife：jack大神写的Ioc框架，媲美dagger，在idea/studio上面有支持butterknife的插件，一键findviewbyid！

retrofit: 强大的网络请求库。

fresco: 加载图片库，在使用这个之前，都是使用Imageloader的，刚出没多久的图片库，使用它是因为在项目中会有支持gif和支持图片渐进式显示的需求。

otto：eventBus框架！解耦神器，有了它，一切都变得简单了起来。

搭建项目，整理包结构

包结构如下图：

app：关于app的application等。

client：网络请求的报文头的定义，网络请求库的配置等。

core：基础框架，相当于mvc结构中的c，当然这里的c是指Controller

model：模型层

paser：解析层。无论是json，还是html，都是由此层解析生成实体类的。

persistence：放了一些常量类，数据库字段，Intnet请求字段，app配置字段等。

ui：视图展示层。

utils：一些顺手的工具类

项目以Gradle构建，app作为一个module，其他module作为挂载的形式挂到app上，优点是其他module可快速替换，且源码可修改（aar形式导入源码不可修改）。

关于API

由于调用官方json api有调用次数限制，于是考虑采用解析html页面来做。

电脑端html太过于庞大，为了省电降低app占用资源，解析的是wap端的页面，

可以通过修改请求头里的UA字段伪装成手机浏览器，在这里我用的是

public class ApiHeaders implements RequestInterceptor {    private String sessionId;    public void setSessionId(String sessionId) {        this.sessionId = sessionId;    }    public void clearSessionId() {        sessionId = null;    }    @Override public void intercept(RequestFacade request) {        request.addHeader("User-Agent", "Mozilla/5.0 (Linux; Android 4.1.1; Nexus 7 Build/JRO03D) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.166 Safari/535.19");        request.addHeader("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8");        if (sessionId != null) {        }    }}

로그인 후 복사

解析html，java里可以用一个叫做jsoup的库，媲美python中的pyquery，支持类Jqery选择器方式来抓取自己想要的资源，简单方便粗暴极了。唯一的缺点就是如果页面里有些元素是ajax形式形成的，那这个就抓瞎了，可以使用httpunit，不过httpunit存在性能问题，要启动一个浏览器内核来运行这个网页，网页上的js完成后，再抓取信息。

解析帖子列表

在帖子列表中需要关注解析这几个数据

avatar 作者头像
node 节点名称
title 标题
small fade (time) 发表时间
small fade author 作者名称

count_livid 回帖数以下是用jsoup解析的代码，解析成功后塞到ForumItemBean这个实体类中，以集合形式返回给listView的adapter中

public class PaserFourmList {    public static ArrayList<ForumItemBean> paser2ForumItem(String string) {        Document document = Jsoup.parse(string);        Elements elements = document.select(".cell").select(".item");        ArrayList<ForumItemBean> list = new ArrayList<>();        for (Element element : elements) {            // avatar            // node            // title            // small fade (time)            // small fade author            // count_livid            String avatar = element.select(".avatar").first().attr("src");            String node = element.select(".node").first().html();            String username = element.select(".small > strong").first().text();            String countLivid = element.getElementsByClass("count_livid").text();            String time = element.select(".small").select(".fade").get(1).text();            String href = element.getElementsByClass("item_title").html();            if (href.length()!=0){                href = href.substring(12, href.indexOf("#"));            }            int indexOf = time.indexOf("前");            if (indexOf != -1) {                time = time.substring(0, indexOf);            }            ForumItemBean forumItemBean = new ForumItemBean();            Member member = new Member();            member.setAvatarMini(avatar);            member.setUsername(username);            forumItemBean.setId(Misc.parseInt(href, 0));            forumItemBean.setMember(member);            forumItemBean.setLastTime(time);            forumItemBean.setReplies(Misc.parseInt(countLivid, 0));            forumItemBean.setTitle(element.select(".item_title").first().select("[href]").html());            list.add(forumItemBean);        }        return list;    }}

로그인 후 복사

使用Jsoup遇到的坑

在用jsoup的时候像这种class带空格的，需要使用 element.select(“.content”).select(“.type”)，才可以成功解析，使用element.select(“.content type”)是解析不出来的！

还有 # ，这种的，使用element.select(“.content-type”)也解析不出来，需要用element.getElementsByClass(“content-type”)才可以。

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7642

Cakephp 튜토리얼

1392

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

150

Related knowledge

HTML은 초보자를 위해 쉽게 배우나요? Apr 07, 2025 am 12:11 AM

HTML은 간단하고 배우기 쉽고 결과를 빠르게 볼 수 있기 때문에 초보자에게 적합합니다. 1) HTML의 학습 곡선은 매끄럽고 시작하기 쉽습니다. 2) 기본 태그를 마스터하여 웹 페이지를 만들기 시작하십시오. 3) 유연성이 높고 CSS 및 JavaScript와 함께 사용할 수 있습니다. 4) 풍부한 학습 리소스와 현대 도구는 학습 과정을 지원합니다.

HTML, CSS 및 JavaScript의 역할 : 핵심 책임 Apr 08, 2025 pm 07:05 PM

HTML은 웹 구조를 정의하고 CSS는 스타일과 레이아웃을 담당하며 JavaScript는 동적 상호 작용을 제공합니다. 세 사람은 웹 개발에서 의무를 수행하고 화려한 웹 사이트를 공동으로 구축합니다.

HTML의 시작 태그의 예는 무엇입니까? Apr 06, 2025 am 12:04 AM

anexampleStartingtaginhtmlis, whithbeginsaparagraph.startingtagsareessentialinhtmlastheyinitiate rements, definetheirtypes, andarecrucialforstructurituringwebpages 및 smanstlingthedom.

HTML, CSS 및 JavaScript 이해 : 초보자 안내서 Apr 12, 2025 am 12:02 AM

WebDevelopmentReliesonHtml, CSS 및 JavaScript : 1) HtmlStructuresContent, 2) CSSSTYLESIT, 및 3) JAVASCRIPTADDSINGINTERACTIVITY, BASISOFMODERNWEBEXPERIENCES를 형성합니다.