【项目实战】【多处注释说明!】scrapy爬虫,爬取招聘网站招聘岗位信息_scrapy项目需求分析-程序员宅基地

技术标签: 爬虫  python  Python学习  mongodb  

一、项目背景

最近学习了爬虫的一些基础知识,尝试自己去爬取招聘网站的招聘岗位信息,因此就做了这个项目。过程中参考了很多百度回来的知识,怕自己忘了,通过此项目总结记录下学习笔记,也方便后续索引。

二、项目介绍

此项目是通过scrapy做了两个爬虫,一个爬取社招,一个爬取校招,爬取了huawei招聘网站的校招跟社招的招聘岗位(JD)信息,通过管道文件进行数据处理,包括三种数据处理方式。

  1. 导出到excel
  2. 保存到mysql数据库
  3. 保存到mongodb数据库

三、需求分析

  1. 首先谷歌浏览器打开huawei校招招聘网址http://career.huawei.com/reccampportal/portal5/campus-recruitment.html,看下需要爬取的信息,随便点击一个岗位会新打开一个岗位详情页。
    我需要爬取的数据主要是一级页面的岗位名称,工作地点,招聘类型,工作类型,二级页的岗位职责,岗位要求.
  2. 在postman中测试下huawei校招招聘网址,随便搜了下页面上的岗位名称,并没有在html文件中,所以判断这些岗位信息都是通过接口获取到的
    在这里插入图片描述
  3. 回到谷歌浏览器,F12打开调试,点击network,点击clear图标,清空掉所有网络请求
    在这里插入图片描述
  4. 刷新页面,或者点击下一页(建议点下一页,因为刷新会重新加载整个页面,会加载太多东西),点击XHR(一般来说都在这里),点击preview,在这些文件中搜索下具体的岗位名称,发现可以找到了,就证明是通过这个请求获取到的数据,并且可以获取到数据结构
    在这里插入图片描述
  5. 再点击左侧的headers,可以看到请求地址跟请求类型(get还是post),
    在这里插入图片描述
    6.再次清空请求,再点击下一页,再看下一页的这个文件的headers的url,将步骤5跟6的两个url比较一下,就知道哪些参数不一样了。
    我这里是通过把Beyond Compare进行比较ÿ
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/wingwqr/article/details/116295800

智能推荐

统计学怎么求加权指数_暨南大学《统计学》中文习题 第十二章 统计指数-程序员宅基地

文章浏览阅读2.3k次。第十二章 统计指数(一)判断题1、 狭义指数是指反映社会经济现象变动与差异程度的相对数。( )是: 否:2、 广义上说,任何两个不同时间的同类指标的对比都可称为指数。( )是: 否:3、 在平均指标变动因素分析中,可变构成指数是专门用以反映总体构成变化影响的指数。( )是: 否:4、 在平均指标变动因素分析中,可变构成指数是专门用以反映总体构成变化影响的指数。 ( )是: 否:5、平均指标..._固定权数加权算术平均指数公式

浅谈接口加密_接口的数据交换是否有加密也应进行描述。-程序员宅基地

文章浏览阅读2.5k次。客户端在跟服务端进行数据交互的时候,比如登录操作,打开调试窗口,我们在输入用户名密码之后点击登录,可以看到我们调用的登录接口,在接口的返回数据中,可以看到登录的用户名和密码是明文显示,说明该接口没有进行加密操作。如果一个登录接口是加密的,那么我们在接口工具中直接使用用户名、密码登录是无法登录成功的,即使你的用户名密码正确,他还是会提示你的用户名密码不正确。......_接口的数据交换是否有加密也应进行描述。

Java基础之System.out.println("打印个七彩颜色字符串吧!")_java system.out.println 颜色-程序员宅基地

文章浏览阅读1.3w次,点赞22次,收藏54次。上代码class Hello{ public static void main(String[] args){ System.out.println("Hello,Akina!"); System.out.println("\033[30;4m" + "Hello,Akina!" + "\033[0m"); System.out.println("\03..._java system.out.println 颜色

Spring data jpa 的批量查询和批量插入及一些常用操作_jpa批量查询-程序员宅基地

文章浏览阅读4.5w次,点赞3次,收藏32次。有时候我们需要向数据库插入大量数据,如果一条一条插入会非常慢所以我们可以考虑批量插入其实很简单 只需要使用默认的save()方法就可以了假设现在有一个student实体类 我们需要一次插入整个学区5000名学生的信息package com.chunying.boke.bean;/** * @author chunying */public class Student { pr..._jpa批量查询

Bash:smbclient 未找到命令_smbclient: command not found-程序员宅基地

文章浏览阅读8.2k次,点赞7次,收藏23次。启动Windows和linux两个系统共享的时候可能会出现的问题_smbclient: command not found

Hive Metastore详解大全-程序员宅基地

文章浏览阅读1.4w次,点赞7次,收藏47次。1、何为Hive MetaStore?_hive metastore

随便推点

栈溢出漏洞及栈溢出攻击_栈溢出漏洞产生的一些事件-程序员宅基地

文章浏览阅读1.2w次。1. 栈溢出的原因栈溢出(stack-based buffer overflows)算是安全界常见的漏洞。一方面因为程序员的疏忽,使用了 strcpy、sprintf 等不安全的函数,增加了栈溢出漏洞的可能。另一方面,因为栈上保存了函数的返回地址等信息,因此如果攻击者能任意覆盖栈上的数据,通常情况下就意味着他能修改程序的执行流程,从而造成更大的破坏。这种攻击方法就是栈溢出攻击(stack_栈溢出漏洞产生的一些事件

Express_前端express-程序员宅基地

文章浏览阅读1.7k次,点赞4次,收藏17次。初识 Express1.1 Express 简介1. 什么是 Express官方给出的概念:Express 是基于 Node.js 平台,快速、开放、极简的 Web 开发框架。 通俗的理解:Express 的作用和 Node.js 内置的 http 模块类似,是专门用来创建 Web 服务器的。 Express 的本质:就是一个 npm 上的第三方包,提供了快速创建 Web 服务器的便捷方法。Express 的中文官网: http://www.expressjs.com.cn/2. 进一步_前端express

java并发编程的十个坑,避免踩坑 收藏起来_java线程while true 坑-程序员宅基地

文章浏览阅读484次。java并发编程十大坑,收藏好,避免踩坑_java线程while true 坑

k8s查看容器_yks查看容器中服务-程序员宅基地

文章浏览阅读4.2k次。[root@hadoop03 k8s]# kubectl get podsNAME READY STATUS RESTARTS AGEnginx-controller-7c9j9 1/1 Running 0 44mnginx-controller-pfnr7 1/1 Running 0 44m[root@hadoop03 k8s]# ...[root@hadoop03 k8_yks查看容器中服务

DSP 汇编:DSP 开发指南_dsp开发-程序员宅基地

文章浏览阅读1.3k次。通过示例代码,您可以更好地理解和应用 DSP 汇编开发的概念和技术。您可以根据需要调整输入信号和滤波器系数的值,并根据实际应用进行修改和优化。与通用微处理器相比,DSP 具有更高的计算能力和更多的专用硬件资源,使其在实时信号处理和高性能应用中表现出色。在 DSP 开发中,汇编语言是一种常用的编程语言,它允许开发人员直接控制 DSP 的硬件资源和寄存器。以下是一个示例的 DSP 汇编代码,实现了一个简单的数字滤波器。本文将介绍 DSP 开发的基本概念和技术,并提供一些示例源代码来帮助您理解和应用这些概念。_dsp开发

看门狗的使用与原理_看门狗的作用和原理-程序员宅基地

文章浏览阅读2.8w次,点赞30次,收藏116次。看门狗的使用与原理0赞发表于 2016/4/25 15:51:07 阅读(271) 评论(0) 最近需要在板子上加上一块WatchDog,以确保在系统出错时自动重启,所以看了一些在嵌入式系统中使用看门狗的资料,现在总结如下:一、看门狗原理 在产品化的嵌入式系统中,为了使系统在异常情况下能自动复位,一般都需要引入看门狗。 看门狗其实就是一个可以在一定时间内被_看门狗的作用和原理

推荐文章

热门文章

相关标签