网络爬虫技术Jsoup——爬到一切你想要的_网络爬虫(jsoup)-程序员宅基地

技术标签: 网络爬虫  爬虫  

本文由我的微信公众号(bruce常)原创首发,
并同步发表到csdn博客,欢迎转载,2016年12月11日。

概述:

本周五,接到一个任务,要使用爬虫技术来获取某点评网站里面关于健身场馆的数据,之前从未接触过爬虫技术,于是就从网上搜了一点学习资料,本篇文章就记录爬虫技术Jsoup技术,爬虫技术听名称很牛叉,其实没什么难点,慢慢的用心学习就会了。

Jsoup介绍:

Jsoup 是一个 Java 的开源HTML解析器,可直接解析某个URL地址、HTML文本内容,Jsoup官网jar包下载地址

Jsoup主要有以下功能:
1. 从一个URL,文件或字符串中解析HTML
2. 使用DOM或CSS选择器来查找、取出数据
3. 对HTML元素、属性、文本进行操作
4. 清除不受信任的HTML (来防止XSS攻击)

使用Jsoup爬虫技术你需要的能力有:

  1. 我们是用安卓开发的,首先肯定要有一定的安卓开发能力,会写简单的页面。
  2. Jsoup中用到了Javascript语言,没有此语言能力在获取数据的时候就比较吃力,这是此爬虫技术的重中之重。
  3. 查阅文档与解决问题的能力和技巧(有点废话)

上面三条中对于一个安卓开发者来说,最难的就是熟练使用Javascript语言,小编就遇到了这个问题,小编还有一定的javascript基础,系统的学习过此语言,但是在使用中还是很吃力的,问同学、问朋友、问同事,最后还是靠自己来获取自己想要的数据。

爬虫技术没那么难,思路就是这么的简单

  1. 得到自己想要爬取数据的url.
  2. 通过Jsoup的jar包中的方法将Html解析成Document,
  3. 使用Document中的一些列get、first、children等方法获取自己想要的数据,如图片地址、名称、时间。
  4. 将得到的数据封装成自己的实体类。
  5. 将实体中的数据在页面加载出来。

实战,获取**点评网站中的场馆数据:

先奉上效果图,没有图不说话:

image

这就是今天要实现的效果,左边图片是场馆的logo,右边上方是场馆的名称,下边是场馆的地址信息,点击进去可以根据超链接地址跳转新的页面,页面的Url地址小编已经拿到,但可能是因为重定向的问题,webview没有加载出来,有兴趣的可以输入链接地址来验证。

首先:新建一个空的项目.

上面的效果,只要接触过安卓开发的都能写出来,所以不是本篇文章的重点,这里就不过多说明,大家可以使用ListView或者RecyclerView来实现,我这里用ListView。

小编这里是为了加入侧边栏所以使用的是DrawerLayout,但后来没有用到,所以也就没有侧边栏的效果,不过后期如有时间会加上去的,上一页下一页是为了简单的模仿浏览器中的操作,此效果只能显示前9页数据,网页链接中有50页的数据,为什么没有实现呢?

很简单,因为50页的链接地址不是一次性返回的,小编为了方便,只获取了前9页数据的url,毕竟是为了抓取数据显示而已。

其次:主程序设计
  1. 通过网页得到**点评健身场馆的url地址是:http://www.dianping.com/search/category/2/45
  2. 抓取数据是一个耗时的操作,需要在一个线程中完成,这里使用 new Thread(runnable).start()方式,在runnable代码中获取场馆的logo、名称、地址如下:
Runnable runnable = new Runnable() {
        @Override
        public void run() {
            Connection conn = Jsoup.connect(url);
            // 修改http包中的header,伪装成浏览器进行抓取
            conn.header("User-Agent", userAgent);
            Document doc = null;
            try {
                doc = conn.get();
            } catch (IOException e) {
                e.printStackTrace();
            }
            //获取场馆的数据
            Element elementDiv = doc.getElementById("shop-all-list");
            Elements elementsUl = elementDiv.getElementsByTag("ul");
            Elements elements = elementsUl.first().getElementsByTag("li");
            for (Element element : elements) {
                Elements elements1 = element.children();
                String targetUrl = elements1.get(0).getElementsByTag("a").attr("href");

                String img = elements1.get(0).getElementsByTag("img").first().attr("data-src");
                if (img.contains(".jpg")) {
                    int a = img.indexOf(".jpg");
                    img = img.substring(0, a + 4);
                }

                String radiumName = elements1.get(1).child(0).getElementsByTag("h4").text()
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/ccg_201216323/article/details/53576654

智能推荐

数据结构之哈夫曼树-程序员宅基地

文章浏览阅读1.6k次。哈夫曼树1.1基本介绍给定n个权值作为n个叶子结点,构造一棵二叉树,若该树的带权路径长度(wpl)达到最小,称这样的二叉树为最优二叉树,也称为哈夫曼树(Huffman Tree), 还有的书翻译为霍夫曼树。赫夫曼树是带权路径长度最短的树,权值较大的结点离根较近。1.2赫夫曼树几个重要概念和举例说明路径和路径长度:在一棵树中,从一个结点往下可..._数据结构简单的哈夫曼树

如何复制百度文库中需要收费的文字_百度文库怎么复制付费文字-程序员宅基地

文章浏览阅读2.6w次,点赞8次,收藏26次。如何复制百度文库中需要收费的文字通常我们在文库中复制需要成为VIP如:现在我们只需要按F12然后再按F1往最下划把Disable JavaScript 勾选中,注意先不要急着叉掉(把F12叉掉就不可以复制粘贴了),不要管这个界面,然后直接去左边复制粘贴就可以了。..._百度文库怎么复制付费文字

步进电机T型和S型速度曲线_步进电机速度曲线-程序员宅基地

文章浏览阅读6.7k次,点赞7次,收藏19次。一种用于步进电机加速度的新算法可以实现速度曲线的实时参数化和计算。该算法可以在低端微控制器上运行,只使用简单的定点算术运算并且不使用数据表。它以恒定的加速度和减速度形成线性斜坡时间的准确近似值。通常认为,步进电机线性速度斜坡的时间过于复杂,无法实时计算。步骤延迟的精确公式如公式8所示。解决方案是将预加坡数据存储在预编译数组中,但此方法不灵活并浪费存储器。另一种选择是使用功能更强大,处理成..._步进电机速度曲线

微信小程序开发实战2 微信小程序编程基础-程序员宅基地

文章浏览阅读3.9k次,点赞4次,收藏33次。2.微信小程序编程基础2.1小程序目录结构小程序包含一个描述整体程序的主体部分和多个小程序页面。一个小程序主体部分由三个文件组成,必须放在项目的根目录,如下:文件作用app.js小程序的入口文件app.json小程序公共配置app.wxss小程序公共样式表表 2-1 小程序主体文件一个小程序页面由四个文件组成,分别是:<文件作用>js页面逻辑文件wxml页面描述文件,用来设计页面布局,进行数据绑定等。jso_小程序编程

SystemVerilog functional coverage 学习_function coverage-程序员宅基地

文章浏览阅读5.9k次,点赞47次,收藏74次。SystemVerilog functional coverage 学习前言基于《IEEE Standard for SystemVerilog — Unified Hardware Design, Specification, and Verification Language》19章的学习和自己的理解。有不对的地方希望大家补充。 编译工具 Cadence的Xcelium, coverage收集工具是IMcOverview标准上对Func_coverage的定义是:Functional cove_function coverage

oracle imp ora-06512,记一次ORA-06512、ORA-29283-程序员宅基地

文章浏览阅读889次。一、背景简介上午应用找来,给了俩错误,错误信息如下ORA-06512: 在 "SYS.UTL_FILE", line 536ORA-29283: 文件操作无效以上报错简单来说,就是调用 sys.utl_file 输出文件,但是输出的目录不存在,进一步沟通发现,用户输出的目录是一个挂载的共享的 windows 文件夹,没错,是在 linux 上挂了一个 windows 的文件夹。二、解决过程首先尝试..._ora-06512: 在 "sys.utl_raw", line 224

随便推点

UE4蓝图:自定义鼠标操作._ue4 left mouse button-程序员宅基地

文章浏览阅读1w次,点赞3次,收藏18次。之前提到过一些基本的键盘按键事件,以及用Is Input Key Down节点来判断指定节点是否被按下.这篇博客主要是一些关于鼠标事件的基本处理.首先我们在地图编辑器中拖出一个Box.先把Box设置为静态模型,并且修改为可移动的属性,然后选中他之后进入关卡编辑器.右键获得Box的节点.不知道怎么修改的可以到http://blog.csdn.net/qq_37233607/article/det..._ue4 left mouse button

最近三年收藏网站,做一次云备份_daofire最新网址-程序员宅基地

文章浏览阅读2.1k次。这些 URL 还是要留存下来的好,万一阿里云宕机了,还能有个地方恢复。React-China中文社区http://react-china.org/top暂时水平还比较低,但还是可以看看2016-07-03 11:51:04Amazeui-Reacthttp://amazeui.org/react/getting-started实践证明一个比较适合国人口味的React组件..._daofire最新网址

电池保护板电路原理_锂电池保护板无输出激活-程序员宅基地

文章浏览阅读9.4k次,点赞4次,收藏27次。  锂元素在元素周期表中处于第三位,外层只有一个电子,是一种非常活泼的金属,而锂离子电池具有放电电流大,内阻低,寿命长,无记忆效应等被人们广泛应用,锂离子电池在使用时严禁出现过充电、过放电、以及短路等问题,否则将会使得电池出现起火或者爆炸等问题。所以在锂电池电路中通常都会增加一个保护板电路来保护锂离子电池的安全。锂电池保护板的作用  **电池保护板通常有如下几个作用:过充、过放、过流、短路以及高温保护。**上述的几个作用也是由锂电池本身的材料决定的。电池保护板通常有保护电路板和PTC等器件组成。  保_锂电池保护板无输出激活

大数据如何改变DBA工作模式_数睿通的开发dba需要改哪里-程序员宅基地

文章浏览阅读1.1k次。技术支持团队通常是支持熟悉的软硬件配置。在操作系统和数据库管理软件上特定组合的专业化是很常见的,而且这也允许某些团队成员在一家企业的IT环境中获得极为有价值的深层经验。大数据是如何改变这种模式的呢?数据库支持团队 技术支持团队的目标之一就是要与管理层协作来把他们的工作区分出优先次序。管理层提出战略规划,团队将之转化为所需时间和资源的可估计任务,然后他们共同协..._数睿通的开发dba需要改哪里

jeb2 demo keygen.md-程序员宅基地

文章浏览阅读181次。如果demo版本过期了,可以尝试用这个keygenimport java.io.*;import java.nio.ByteBuffer;import java.nio.ByteOrder;import java.security.MessageDigest;import java.security.NoSuchAlgorithmException;import java.u..._jeb提示订阅过期

C++ STL vector:sizeof(vector)_c++ vector sizeof-程序员宅基地

文章浏览阅读1.3w次,点赞9次,收藏15次。int的大小是4,定义vector vec,vec中有一个元素,sizeof(vec)=20,如果有1000个元素,则sizeof(vec)是多少?#include #include using namespace std;int main(){ vector vec; for(int i=0;i<100;i++) { vec.push_back(i); cou_c++ vector sizeof

推荐文章

热门文章

相关标签