爬虫(2)之re 爬取淘宝网_yzhua_777的博客-程序员秘密

技术标签: 爬虫  python  爬虫技术  正则表达式  

我们通过requests可以很轻松地就获得网页上的所有内容,但是这些内容往往会夹杂着许多我们不需要的东西,因此我们需要解析和提取 HTML 数据。

在先前介绍过的解析和提取html内容的库,只能够处理静态文本执行简单的搜索,缺乏灵活性,不能处理动态的文本信息。
下面来介绍一下正则表达式。

什么是正则表达式?

  • 正则表达式是用来简洁表达一组字符串的表达式
  • 正则表达式是一种通用的字符串表达框架
  • 正则表达式可以判断某字符串的特征归属
  • 是一种模式,把该模式应用文本匹配,然后获取我们需要的内容

正则表达式可以干什么?

  • 用来测试字符串内的模式。
    例如,可以测试输入字符串,以查看字符串内是否出现电话号码模式或信用卡号码模式。这称 为数据验证。
  • 替换文本
    可以使用正则表达式来识别文档中的特定文本,完全删除该文本或者用其他文本替换它、
  • 基于模式匹配从字符串中提取字符串
    可以查找文档中或输入域内特定的文本;可以使用正则表达式来搜索和替换标记。

正则表达式在文本处理中十分常用:

  • 同时查找或替换一组字符串
  • 匹配字符串的全部或部分(主要)

正则表达式的语法(正则表达式由字符和操作符构成)

  • 常用的操作符
    • . 表示任何单个字符

    • []字符集,对单个字符给出取值范围,如[abc]表示a,b,c;[a-z]表示a到z单个字符

    • [^ ] 非字符集,对单个字符给出排除范围 ,如[^abc]表示非a或b或c的单个字符

    • * 前一个字符0次或无限次扩展,如abc* 表示 ab、abc、abcc、abccc等

    • + 前一个字符1次或无限次扩展 ,如abc+ 表示 abc、abcc、abccc等

    • ? 前一个字符0次或1次扩展 ,如abc? 表示 ab、abc

    • | 左右表达式任意一个 ,如abc|def 表示 abc、def

    • {m} 扩展前一个字符m次 ,如ab{2}c表示abbc

    • {m,n} 扩展前一个字符m至n次(含n) ,如ab{1,2}c表示abc、abbc

    • ^ 匹配字符串开头 ,如^abc表示abc且在一个字符串的开头

    • $ 匹配字符串结尾 ,如abc$表示abc且在一个字符串的结尾

    • ( ) 分组标记,内部只能使用 | 操作符 ,如(abc)表示abc,(abc|def)表示abc、def

    • \d 数字,等价于[0‐9]

    • \w 单词字符,等价于[A‐Za‐z0‐9_]

re的使用方式

  • 调用方式:import re
  • re库采用raw string类型表示正则表达式,表示为:r’text’,raw string是不包含对转义符再次转义的字符串

re库的主要功能函数:

  • re.search() 在一个字符串中搜索匹配正则表达式的第一个位置,返回match对象
    • re.search(pattern, string, flags=0)
  • re.match()从一个字符串的开始位置起匹配正则表达式,返回match对象
    • re.match(pattern, string, flags=0)
  • re.findall()搜索字符串,以列表类型返回全部能匹配的子串
    • re.findall(pattern, string, flags=0)
  • re.split()将一个字符串按照正则表达式匹配结果进行分割,返回列表类型
    • re.split(pattern, string, flags=0)
  • re.finditer()搜索字符串,返回一个匹配结果的迭代类型,每个迭代元素是match对象
    • re.finditer(pattern, string, flags=0)
  • re.sub()在一各字符串中替换所有匹配正则表达式的子串,返回替换后的字符
    • re.sub(pattern,string, flags=0)

参数解析:

  • pattern:指的是正则表达式
  • string:指的是我们需要进行操作的字符串
  • flags : 正则表达式使用时的控制标记:
    - re.I --> re.IGNORECASE : 忽略正则表达式的大小写,[A‐Z]能够匹配小写字符
    - re.M --> re.MULTILINE : 正则表达式中的^操作符能够将给定字符串的每行当作匹配开始
    - re.S --> re.DOTALL : 正则表达式中的.操作符能够匹配所有字符,默认匹配除换行外的所有字符

re库的另外一种等价用法(编译)

  • regex = re.compile(pattern, flags=0):将正则表达式的字符串形式编译成正则表达式的对象。
#生成re对象:
import re
content = 'hello, i am a boy'
regex = re.compile('\w*')
sentence = regex.match(content)
sentence.group()

在这里插入图片描述

#调用函数
sentence = re.match('\w*', content)
sentence.group()

在这里插入图片描述

re库的贪婪匹配和最小匹配

  • .* Re库默认采用贪婪匹配,即输出匹配最长的子串
  • *? 只要长度可能不同的,都可以通过在操作符后增加?变成最小匹配
content = 'hello, i am a boy'
sentence = re.match('\w.*', content)
sentence.group()

在这里插入图片描述

sentence = re.match('\w....*?',content)
sentence.group()

在这里插入图片描述

re实战(淘宝网)

目标任务:淘宝商品比价定向爬虫

  • 本次任务不是爬取简单的公开网站,而是需要进行登录的网站。

  • user-agent:浏览器的请求头,伪装成浏览器访问

  • cookie:某些网站为了辩护用户身份,进行Session跟踪而储存在用户本地终端上的数据(通产进行加密),由用户客户端计算机暂时或永久保存的信息

  • 爬取网址:https://s.taobao.com/search?q=书包&js=1&stats_click=search_radio_all%25

  • 爬取思路:

    1. 提交商品搜索请求,循环获取页面
    2. 对于每个页面,提取商品名称和价格信息
    3. 将信息输出到屏幕上
#导入包
import requests
import re
1.提交商品搜索请求,循环获取页面
def getHTMLText(url):
    """
    请求获取html,(字符串)
    :param url:爬取网址
    :return:字符串
    
    """
    try:
        #添加头信息。
        kv = {
    
            'cookie':'thw=cn; t=3a4bdb8ce710f4e08f06672eff50e11f; tracknick=%5Cu5B81%5Cu5B811506; enc=32crCvME19D5T1NsQOG7tM3gDhuldVnNxF5w1zi5Im8mzrEvaY5QTtwKNlQwxLBX0HzHlkoP3d7rEhajqxc10g%3D%3D; alitrackid=blog.csdn.net; _samesite_flag_=true; cookie2=17521ca57c5c81794cdfbef9bc911b57; _tb_token_=748de15575973; sgcookie=ELBr4B6ocMPiPRnpCjUuD; unb=1836673364; uc3=nk2=pzbgZmfhJt8%3D&lg2=WqG3DMC9VAQiUQ%3D%3D&id2=UonYtwYyCmtNnA%3D%3D&vt3=F8dBxGR00GvTSr%2Foeq4%3D; csg=a5febed0; lgc=%5Cu5B81%5Cu5B811506; cookie17=UonYtwYyCmtNnA%3D%3D; dnk=%5Cu5B81%5Cu5B811506; skt=4810f4df38a08bb5; existShop=MTU4NzczMTI5MQ%3D%3D; uc4=nk4=0%40pQCSQaNt9vUvrb9b%2Frbk64nNPg%3D%3D&id4=0%40UOEy0PVcvmzEYslIV%2BnxO7u8WPBq; _cc_=UtASsssmfA%3D%3D; _l_g_=Ug%3D%3D; sg=64e; _nk_=%5Cu5B81%5Cu5B811506; cookie1=AnOUmyuG%2FSGOMG%2FTgbi6kT4HmCgSwMuD7OzFxs1fmH4%3D; tfstk=ctd5B0qAeuqWrUAzgHgVUhUj1YCCZ9PfoSj2PKKv6lnE2KT5iyNNfvfdPoNABZ1..; lastalitrackid=login.taobao.com; uc1=cookie16=U%2BGCWk%2F74Mx5tgzv3dWpnhjPaQ%3D%3D&cookie21=VT5L2FSpccLuJBreK%2BBd&cookie15=WqG3DMC9VAQiUQ%3D%3D&existShop=false&pas=0&cookie14=UoTUPcvNlDaTLA%3D%3D; mt=ci=98_1; v=0; JSESSIONID=07211823E845B1F60CC7BFC7059495D2; isg=BNracrXJUHfcN9wJi-nwL8XlK4D8C17lvKS64eRTJ204V3mRzJj29eplJyNLh9Z9; l=eBxTR0u7QyjArwtDBO5wlurza779NIRf1sPzaNbMiIHca6HFTFgYxNQc0yPW7dtjgtfAQetrhV5GsRnkSMUKg2HvCbKrCyCloxJw-',
            'user-agent':'Mozilla/5.0' 
             
             }
        r = requests.get(url, timeout=30, headers=kv)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return '爬取失败'
2.对于每个页面,提取商品名称和价格信息
def parsePage(glist, html):
    """
    解析网页,搜索需要的信息
    :param glist:列表作为存储容器
    :return:商品信息的列表
    
    """
    try:
        #使用正则表达式提取信息
        price_list = re.findall(r'\"view_price"\:\"[\d\.]*\"',html)
        name_list = re.findall(r'\"raw_title\"\:\".*?\"',html)
        for i in range(len(price_list)):
            price = eval(price_list[i].split(":")[1])
            name = eval(name_list[i].split(":")[1])
            glist.append([price, name])
    except:
        print('解析失败')
3.将信息输出到屏幕上
def printGoodList(glist):
    tplt = "{0:^4}\t{1:^6}\t{2:^10}"
    print(tplt.format("序号", "商品价格", "商品名称"))
    count = 0
    for g in glist:
        count = count + 1
        print(tplt.format(count, g[0], g[1]))
# 根据页面url的变化寻找规律,构建爬取url
goods_name = "书包"  # 搜索商品类型
start_url = "https://s.taobao.com/search?q=" + goods_name
info_list = []
page = 3  # 爬取页面数量
count = 0
for i in range(page):
    count += 1
    try:
        url = start_url + "&s=" + str(44*i)
        html = getHTMLText(url)#爬取url
        parsePage(info_list, html)#解析HTMl和爬取内容
        print('\r爬取页面当前进度:{:.2f}%'.format(count*100/page),end='')#显示进度条
        
    except:
        continue
printGoodList(info_list)

在这里插入图片描述

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/yzhua_777/article/details/105740682

智能推荐

风险应对_weixin_30500289的博客-程序员秘密

风险的类别风险的来源应对方案人员学生、老师、评审员多交流沟通流程项目的建立、维护可以投票来决定技术开发和测试工具、与产品相关的技术多学习,关注新知识环境开发环境可以加一个虚拟...

计算机类中文核心期刊影响因子_azhuer的博客-程序员秘密

 计算机学报                     0.921软件学报                0.919计算机集成制造系统一CIMS        0.855计算机研究与发展                0.806计算机辅助设计与图形学学报        0.692中文信息学报                    0.635中国图象图形学报        0.616计算机应用研究  

html做3d游戏进微波,射频微波电路设计.html(350页)-原创力文档_weixin_39657662的博客-程序员秘密

前言近年来 ,无线技术 ,特别是通信 (例如数据网络、移动电话)、射频识别 (FID)、导航 (GPS)、遥感遥测以及探测(雷达)等技术的飞速发展与不断进步引起了全球范围内的普遍关注。因此 ,对于无线电应用所需的高频载波而言 ,这将有利于更好地规划和使用电磁频谱 ,并允许设计更多有效的天线。可以预见 ,基于低成本制造工艺和现代计算机辅助设计工具 ,未来的新型无线系统将使用更高频...

QT基本使用_small建攻的博客-程序员秘密_qt怎么使用

一、QWidget,QDialog,QMainWIndow的异同点QWidget:是一个干干净净的窗口QDialog:是一个对话窗口QMainWIndow:在QWidget基础上多了状态栏一般的话使用QWidget,需要什么就自己加什么上去,当然自己加菜单栏和状态栏都可以int main(int argc,char *argv[]){ QApplication a(argc,argv); Widget w; w....

Java Spring框架_Link¥的博客-程序员秘密_javaspring框架

Spring框架什么是框架?什么是Spring框架?Spring能干什么?Spring的优势Spring的体系结构Spring核心之IoC控制反转IoC的概念使用Spring容器创建对象bean标签的属性获取Spring容器基于XML的DI注入分类通过set方法通过构造方法自动注入基于注解实现IoC包扫描属性注入@VaulebyType自动注入@AutowiredbyName自动注入@Autowired和@Qualifier自动注入@ResourceSpring核心之AOP什么是AOPSpringAOPAs

面试官:讲讲TCP的三次握手和四次挥手_Android唐浮的博客-程序员秘密

面试官:讲讲TCP的三次握手和四次挥手某上市公司遇到过,面试高频题。文章尽量用最简洁的语言方便理解与记忆。一、三次握手(建立链接)A 代表主动链接方,B 代表被动链接方1.1 简单点A->B 你活着吗?B->A 我活着,你呢?A->B 我也活着1.2 复杂点A->B Syn(i)B->A Ack(i+1),Syn(k)A->B Ack(k)1.3 图解Http书中截取1.4 为什么是三次握手?TCP 是面向链接的,也就是建立链接

随便推点

1007 素数对猜想 (20 分)(打表)_我写了一堆垃圾的博客-程序员秘密

可以用打表的思路可以发现题目关注的点是相邻素数对总数变化的点,所以我们先用文件打个表#include<bits/stdc++.h>#include<stdio.h>using namespace std;bool isp(int x){ if(x==1) return false; if(x==2) return true; for(int i=2;i<x;i++) { if(x%i==0) return false;

Request_KATER_SG的博客-程序员秘密

1 Request1.1 什么是Request 代表HTTP请求的对象. 在浏览器向服务器发送请求之后, 服务器接受到请求, 在调用service方法处理请求之前, 会创建Request对象, 并把所有的请求信息( 请求行、请求头、请求实体 ) 全部封装到Request对象中. 1.2 Request继承关系 ServletRequest(接口) 通用的Request接口, ...

javase知识点总结_秃头老表的博客-程序员秘密_java se包括哪些知识点

小编历时两个月学完了javase,下面是小编的一样学习经验分享,相信看了这篇博客对你会所有帮助!首先说说小编学习的视频来源,小编一直持有一颗白嫖的心理,所有学习的视频来源当然是白嫖的视频来源:动力节点在最新开始学习的时候,小编看的黑马视频,但是发现黑的视频较快,所有换了速度慢一点的动力节点,个人比较推荐的是老杜的视频讲解接下来聊一聊重点的知识点首先是基础知识,类的定义,基本数据类型,循环结构,终止循环结构的关键字,运算符,标识符学完这些你需要知道基本数据有那些怎么定义怎么使用,循环结构如何使

mysql中ws怎么用_MySQL中concat_ws函数_MySQL_盖亚同学的博客-程序员秘密

本文通过实例介绍了MySQL中的concat_ws函数的使用方法,比如select concat_ws(',','11','22','33')。MySQL中concat_ws函数使用方法:CONCAT_WS(separator,str1,str2,...)CONCAT_WS() 代表 CONCAT With Separator ,是CONCAT()的特殊形式。第一个参数是其它参数的分隔符。分隔符的...

Android动画学习记录二(属性动画、估值器和插值器)__NOUS_的博客-程序员秘密_属性动画估值器

Android动画学习记录二(属性动画、估值期和插值器)自API 11 Android 3.0版本开始,系统给我们提供了一种全新的动画模式,属性动画(property animation),它弥补了之前补间动画的一些缺陷,几乎可以完全替代掉补间动画了。关于补间动画可以看这篇,https://blog.csdn.net/qq_53749266/article/details/123571771?spm=1001.2014.3001.5502如果只需要对View进行移动、缩放、旋转和淡入淡出操作,那么补间

python正在处理中_python在数据处理中常用的模块之numpy_weixin_39958137的博客-程序员秘密

一 numpy模块NumPy系统是Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵,比Python自身的嵌套列表(nested list structure)结构要高效的多(该结构也可以用来表示矩阵(matrix))。import numpy as np(1).np.linalg.norm(x)顾名思义:linalg = linear + algebra,norm则表示范数,...

推荐文章

热门文章

相关标签