快速搜索
主页 > 软件开发 > JAVA开发 >

零基础写Java知乎爬虫之获取知乎编辑推荐内容

时间:2014-11-08 03:02来源:网络整理 作者:网络 点击:
分享到:
上篇文章我们拿百度首页做了个小测试,今天我们来个复杂的,直接抓取知乎编辑推荐的内容,小伙伴们可算松了口气,终于进入正题了,哈哈。

知乎是一个真实的网络问答社区,社区氛围友好、理性、认真,连接各行各业的精英。他们分享着彼此的专业知识、经验和见解,为中文互联网源源不断地提供高质量的信息。

首先花个三五分钟设计一个Logo=。=作为一个程序员我一直有一颗做美工的心!


好吧做的有点小凑合,就先凑合着用咯。

接下来呢,我们开始制作知乎的爬虫。

首先,确定第一个目标:编辑推荐。

网页链接:http://www.zhihu.com/explore/recommendations

我们对上次的代码稍作修改,先实现能够获取该页面内容:

import java.io.*;
import java.net.*;
import java.util.regex.*;
public class Main {
?static String SendGet(String url) {
??// 定义一个字符串用来存储网页内容
??String result = "";
??// 定义一个缓冲字符输入流
??BufferedReader in = null;
??try {
???// 将string转成url对象
???URL realUrl = new URL(url);
???// 初始化一个链接到那个url的连接
???URLConnection connection = realUrl.openConnection();
???// 开始实际的连接
???connection.connect();
???// 初始化 BufferedReader输入流来读取URL的响应
???in = new BufferedReader(new InputStreamReader(
?????connection.getInputStream()));
???// 用来临时存储抓取到的每一行的数据
???String line;
???while ((line = in.readLine()) != null) {
????// 遍历抓取到的每一行并将其存储到result里面
????result += line;
???}
??} catch (Exception e) {
???System.out.println("发送GET请求出现异常!" + e);
???e.printStackTrace();
??}
??// 使用finally来关闭输入流
??finally {
???try {
????if (in != null) {
?????in.close();
????}
???} catch (Exception e2) {
????e2.printStackTrace();
???}
??}
??return result;
?}
?static String RegexString(String targetStr, String patternStr) {
??// 定义一个样式模板,此中使用正则表达式,括号中是要抓的内容
??// 相当于埋好了陷阱匹配的地方就会掉下去
??Pattern pattern = Pattern.compile(patternStr);
??// 定义一个matcher用来做匹配
??Matcher matcher = pattern.matcher(targetStr);
??// 如果找到了
??if (matcher.find()) {
???// 打印出结果
???return matcher.group(1);
??}
??return "Nothing";
?}
?public static void main(String[] args) {
??// 定义即将访问的链接
??String url = "http://www.zhihu.com/explore/recommendations";
??// 访问链接并获取页面内容
??String result = SendGet(url);
??// 使用正则匹配图片的src内容
??//String imgSrc = RegexString(result, "src=\"(.+?)\"");
??// 打印结果
??System.out.println(result);
?}
}

运行一下木有问题,接下来就是一个正则匹配的问题了。

首先我们先来获取该页面的所有的问题。

右击标题,审查元素:

啊哈,可以看到标题其实是一个a标签,也就是一个超链接,而其中能够和其他超链接区分开的,应该就是那个class了,也就是类选择器。

于是我们的正则语句就出来了:question_link.+?href=\"(.+?)\"

调用RegexString函数,并给它传参:

?public static void main(String[] args) {
??// 定义即将访问的链接
??String url = "http://www.zhihu.com/explore/recommendations";
??// 访问链接并获取页面内容
??String result = SendGet(url);
??// 使用正则匹配图片的src内容
??String imgSrc = RegexString(result, "question_link.+?>(.+?)<");
??// 打印结果
??System.out.println(imgSrc);
?}

啊哈,可以看到我们成功抓到了一个标题(注意,只是一个):

等一下啊这一大堆的乱七八糟的是什么玩意?!

别紧张=。=它只是字符乱码而已。

编码问题可以参见:HTML字符集

一般来说,对中文支持较好的主流编码是UTF-8,GB2312和GBK编码。

精彩图集

赞助商链接