Python的网络请求模块requests-程序员宅基地

技术标签: python  爬虫相关  http  爬虫基础库  

模块简介:

requests 库是一个 python中比较有名的 http请求的库,能处理 get,post,put,delete 等 restful请求,能设置 header,cookie,session 等操作,也是作为爬虫的基础库,
它目前还不能异步请求,如果要支持异步,官网文档上也说,用 httpx 等代替。官方文档网址:https://requests.readthedocs.io/en/latest/
我自己也对 requests模块的常用方法做了测试,源码在 gitee 上:https://gitee.com/allen-huang/python/blob/master/crawler/do-request/test_requests.py

requests模块的作用
  • 发送 http 请求,获取响应数据
安装
pip install requests

响应对象

  • text str
  • content bytes

使用requests.get()发送请求

发送带请求头的请求

请求头参数 headers是个字典

requests.get(url,headers={
    User-Agent:xxxx})
发送带参数的请求
  • url中直接带参数
  • 用字典的方式传参数
requests.get(url,params={
    param1: xxxx, param2:xxx2})
在 headers参数中携带 Cookie

网站经常利用请求头中的 Cookie 字段来做用户访问状态的保持,那么我们可以在 headers 参数中添加 Cookie,模拟普通用户的请求。我们以 github 登录为例:

url = "https://github.com/hjc1985"
headers = {
    
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36",
    "Cookie": "xxxxxxx"
}
resp = requests.get(url, headers=headers)
  • github登录状态抓包分析
    • 无痕窗口打开chrom浏览器,右键–>检查,点击 Network
    • 访问 github个人中心的url 地址 https://github.com/用户名
    • 输入账号密码点击登录后,访问一个需要登录后才能获取正确内容的 url,比如点击右上角的 Your profile 访问 https://github.com/USER_ANME
    • 确定 url之后,再确定发送请求所需要的请求头信息中的User-Agent 和 Cookie
  • cookies 参数的使用
    • cookies参数的形式:字典
      • cookies = {“cookie的名字”:“cookie的值”}
      • 该字典对应请求头中 Cookie 字符串,以分号、空格分割每一对字典键值对
      • 等号左边的一个 cookie 的 name,对应 cookies 字典的 key
      • 等号右边对应 cookies 字典的 value
    • cookies 参数的使用方法
  response = requests.get(url,cookies)
  • 注意:cookie 一般是又过期时间的,一旦过期需要重新获取
  • cookieJar 对象转换成 cookies 字典的方法

使用 requests获取的 response 对象,具有 cookie 属性。该属性是一个 cookieJar 类型,包含了对方服务器设置在本地的 cookie。可以将其转换成 cookies 字典

response.txt 和 response.content 的区别:

  • response.text
    • 类型:str
    • 解码类型:requests模块自动根据 http 头部对响应码作出有根据的推测,推测的文本编码。
  • response.content
    • 类型:bytes
    • 解码类型:默认是 utf-8
    • 解码方法:response.content.decode()

response 响应对象的其他常用属性或方法

response = requests.get(url)中 response是发送请求获取的响应对象;response 响应对象中除了 text、content获取响应内容意外还有其他常用的属性或方法:

  • response.url:响应的 url;有时候响应的 url 和请求的 url 并不一致
  • response.status_code:响应状态码
  • response.request.headers:响应对应的请求头
  • response.headers:响应头
  • response.request_cookies:响应对应请求的 cookie;返回 cookieJar 类型
  • response.cookies:响应的 cookie(经过了 set-cookie 动作;)返回 cookieJar 类型
  • response.json();自动将 json字符串类型的响应内容转换成 python 对象(dict or list)
  • response.encoding = “utf-8”; 将相应内容编码成utf-8,一般和response.text配合着用,防止乱码

代理的使用

  • 理解代理的过程
    • 代理 ip是一个 ip,指向的是一个代理服务器
    • 代理服务器能够帮助我们向目标服务器转发请求

image.png

  • 正向代理和反向代理的区别

前边提到 proxy 参数指定的代理 ip指向的是正向的代理服务器,那么响应的就有反向服务器;现在来了解正向和反向这两者的区别

  1. 从发送请求方的角度,来区分正向和反向代理
  2. 为浏览器或客户端(发送请求的一方)转发请求的,叫做正向代理
    1. 浏览器知道最终处理请求的服务器的真实 ip地址,例如VPN等翻墙软件
  3. 不为浏览器或客户端(转发请求),而是为最终处理请求的服务器转发请求的,叫反向代理
    1. 浏览器不知道服务器的真实地址,而都是去访问 nginx,nginx 通过负载均衡再分发到不同的 web 服务器(tomcat,php-fpm等)。
  • 代理ip(代理服务器)的分类
    1. 根据代理ip 的内名成都,代理 IP 分为下面三类:
      1. 透明代理(Transparent Proxy):透明代理虽然可以直接"隐藏"你的IP 地址,但是还是可以查到你是谁,目标服务器接受到的请求头如下:
REMOTE_ADDR = 代理IP
HTTP_VIA = 代理IP
HTTP_X_FORWARDED_FOR = 你的真实IP
  2. 匿名代理(Anonymous Proxy):使用匿名代理,别人只能直到你用了代理,无法直到你是谁。目标服务器接收到的请求头付下
REMOTE_ADDR = 代理IP
HTTP_VIA = 代理IP
HTTP_X_FORWARDED_FOR = 代理IP
  3. 高匿代理(Elite proxy 或 High Anonymity Proxy):高匿代理让别人无法发现你在用代理,所以是最好的选择。毫无疑问使用高匿代理效果最好,费用也昂贵,目标服务器接收到的请求头如下:
REMOTE_ADDR = 代理IP
HTTP_VIA = not datermined
HTTP_X_FORWARDED_FOR = not determined
  • 根据网站使用的协议不同,需要使用相应协议的代理服务器。从代理服务请求使用的协议有如下3个:
    • http代理:目标 url 为 http 协议
    • https 代理:目标 url为 https 协议
    • socks 隧道代理(如 socks5代理)等(用的比较少):
      • socks 代理是 socket 层,只简单地传递数据包,不关心是何种应用协议(FTP、HTTP 和 HTTPS)
      • socks 代理比 http、https 代理耗时少。
      • scoks代理可以转发 http 和 https 的请求
  • proxies 代理参数的使用

为了让服务器以为不是同一个客户端在请求;为了防止频繁像一个域名发送请求被封 ip,所以我们需要使用代理 ip;

  • 用法
resp = requests.get(url,proxies=proxies_dict)
  • proxies 的形式:字典
  • 例如:
proxies_dict = {
    
    "http:": "http://xxx.xxx.xx.xx:33502",
    "https": "https://xx.xx.xx.xxx1:33220"
}
  • 注意:
    • 如果目标地址只支持 http 的,那么我们这个代理 ip 就不能使用 https,如果目标地址支持https,那么同时也能用 http
    • 如果proxies 字典包含多个键值对,发送请求时将按照 url 地址的协议来选择使用响应的代理 ip
    • 当代理ip失效时,要么就是一直卡着,要么就是报错

request.post模拟表单提交

post 请求相当于是提交 form 表单,除了data 参数来接收 post 过来的数据,其他的都和 request.get 差不多

  • 格式:

headers参数 和 get请求一样也是字典
data参数是提交的表单数据,也是字典

request.post(url,headers=headers,data=post_data)
  • 测试用例
def test_post(self):
    """
    post 请求
    @return:
    """
    headers = {
    
        "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36"
    }
    post_data = {
    'uid': '1', 'uname': 'hjc'}
    resp = requests.post("https://httpbin.org/post", headers=headers, data=post_data)
    print(resp.text)

请求结果:
在这里插入图片描述

  • post请求的数据来源:
值类型 说明
固定值 通过抓包比较,固定不变的值
输入值 通过抓包比较,根据自身变化的值
预设值-静态文件中 需要从静态 html 中获取
预设值-发请求获取 需要对指定地址发送请求获取的
在客户端生成 这比较麻烦,数据一般由JS 生成,我们需要对JS 代码进行逆向处理

request.session进行登录状态保持

requests 模块中的 Session类能够自动处理发送请求获取响应过程中产生的 cookie,进而达到状态保持的目的。接下来我们来学习它

requests.session 的作用以及引用场景
  • requests.session 的作用
    • 自动处理 cookie,即下一次请求会带上前一次的 cookie
  • requests.session 的应用场景
    • 自动处理连续的多次请求过程中产生的 cookie
requests.session 使用方法

session 实例在请求了一个网站后,对方服务器设置在本地 cookie 会保存在 session 中,下一次再使用 session请求对方服务器的时候,会带上前一次的 cookie

# 实例化 session 对象
session = requests.session()
response = session.get(url,headers, ...)
response = session.post(url,data,headers, ...)
  • session 对象发送 get或 post 请求的参数,与 requests模块发送的参数完全一致
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/hjc_042043/article/details/136441411

智能推荐

oracle 12c 集群安装后的检查_12c查看crs状态-程序员宅基地

文章浏览阅读1.6k次。安装配置gi、安装数据库软件、dbca建库见下:http://blog.csdn.net/kadwf123/article/details/784299611、检查集群节点及状态:[root@rac2 ~]# olsnodes -srac1 Activerac2 Activerac3 Activerac4 Active[root@rac2 ~]_12c查看crs状态

解决jupyter notebook无法找到虚拟环境的问题_jupyter没有pytorch环境-程序员宅基地

文章浏览阅读1.3w次,点赞45次,收藏99次。我个人用的是anaconda3的一个python集成环境,自带jupyter notebook,但在我打开jupyter notebook界面后,却找不到对应的虚拟环境,原来是jupyter notebook只是通用于下载anaconda时自带的环境,其他环境要想使用必须手动下载一些库:1.首先进入到自己创建的虚拟环境(pytorch是虚拟环境的名字)activate pytorch2.在该环境下下载这个库conda install ipykernelconda install nb__jupyter没有pytorch环境

国内安装scoop的保姆教程_scoop-cn-程序员宅基地

文章浏览阅读5.2k次,点赞19次,收藏28次。选择scoop纯属意外,也是无奈,因为电脑用户被锁了管理员权限,所有exe安装程序都无法安装,只可以用绿色软件,最后被我发现scoop,省去了到处下载XXX绿色版的烦恼,当然scoop里需要管理员权限的软件也跟我无缘了(譬如everything)。推荐添加dorado这个bucket镜像,里面很多中文软件,但是部分国外的软件下载地址在github,可能无法下载。以上两个是官方bucket的国内镜像,所有软件建议优先从这里下载。上面可以看到很多bucket以及软件数。如果官网登陆不了可以试一下以下方式。_scoop-cn

Element ui colorpicker在Vue中的使用_vue el-color-picker-程序员宅基地

文章浏览阅读4.5k次,点赞2次,收藏3次。首先要有一个color-picker组件 <el-color-picker v-model="headcolor"></el-color-picker>在data里面data() { return {headcolor: ’ #278add ’ //这里可以选择一个默认的颜色} }然后在你想要改变颜色的地方用v-bind绑定就好了,例如:这里的:sty..._vue el-color-picker

迅为iTOP-4412精英版之烧写内核移植后的镜像_exynos 4412 刷机-程序员宅基地

文章浏览阅读640次。基于芯片日益增长的问题,所以内核开发者们引入了新的方法,就是在内核中只保留函数,而数据则不包含,由用户(应用程序员)自己把数据按照规定的格式编写,并放在约定的地方,为了不占用过多的内存,还要求数据以根精简的方式编写。boot启动时,传参给内核,告诉内核设备树文件和kernel的位置,内核启动时根据地址去找到设备树文件,再利用专用的编译器去反编译dtb文件,将dtb还原成数据结构,以供驱动的函数去调用。firmware是三星的一个固件的设备信息,因为找不到固件,所以内核启动不成功。_exynos 4412 刷机

Linux系统配置jdk_linux配置jdk-程序员宅基地

文章浏览阅读2w次,点赞24次,收藏42次。Linux系统配置jdkLinux学习教程,Linux入门教程(超详细)_linux配置jdk

随便推点

matlab(4):特殊符号的输入_matlab微米怎么输入-程序员宅基地

文章浏览阅读3.3k次,点赞5次,收藏19次。xlabel('\delta');ylabel('AUC');具体符号的对照表参照下图:_matlab微米怎么输入

C语言程序设计-文件(打开与关闭、顺序、二进制读写)-程序员宅基地

文章浏览阅读119次。顺序读写指的是按照文件中数据的顺序进行读取或写入。对于文本文件,可以使用fgets、fputs、fscanf、fprintf等函数进行顺序读写。在C语言中,对文件的操作通常涉及文件的打开、读写以及关闭。文件的打开使用fopen函数,而关闭则使用fclose函数。在C语言中,可以使用fread和fwrite函数进行二进制读写。‍ Biaoge 于2024-03-09 23:51发布 阅读量:7 ️文章类型:【 C语言程序设计 】在C语言中,用于打开文件的函数是____,用于关闭文件的函数是____。

Touchdesigner自学笔记之三_touchdesigner怎么让一个模型跟着鼠标移动-程序员宅基地

文章浏览阅读3.4k次,点赞2次,收藏13次。跟随鼠标移动的粒子以grid(SOP)为partical(SOP)的资源模板,调整后连接【Geo组合+point spirit(MAT)】,在连接【feedback组合】适当调整。影响粒子动态的节点【metaball(SOP)+force(SOP)】添加mouse in(CHOP)鼠标位置到metaball的坐标,实现鼠标影响。..._touchdesigner怎么让一个模型跟着鼠标移动

【附源码】基于java的校园停车场管理系统的设计与实现61m0e9计算机毕设SSM_基于java技术的停车场管理系统实现与设计-程序员宅基地

文章浏览阅读178次。项目运行环境配置:Jdk1.8 + Tomcat7.0 + Mysql + HBuilderX(Webstorm也行)+ Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。项目技术:Springboot + mybatis + Maven +mysql5.7或8.0+html+css+js等等组成,B/S模式 + Maven管理等等。环境需要1.运行环境:最好是java jdk 1.8,我们在这个平台上运行的。其他版本理论上也可以。_基于java技术的停车场管理系统实现与设计

Android系统播放器MediaPlayer源码分析_android多媒体播放源码分析 时序图-程序员宅基地

文章浏览阅读3.5k次。前言对于MediaPlayer播放器的源码分析内容相对来说比较多,会从Java-&amp;amp;gt;Jni-&amp;amp;gt;C/C++慢慢分析,后面会慢慢更新。另外,博客只作为自己学习记录的一种方式,对于其他的不过多的评论。MediaPlayerDemopublic class MainActivity extends AppCompatActivity implements SurfaceHolder.Cal..._android多媒体播放源码分析 时序图

java 数据结构与算法 ——快速排序法-程序员宅基地

文章浏览阅读2.4k次,点赞41次,收藏13次。java 数据结构与算法 ——快速排序法_快速排序法