Python爬虫获取交通和污染物数据_怎样从文本中提取污染物信息-程序员宅基地

技术标签： python

Python爬虫获取交通和污染物数据

- 污染物爬虫
- 交通爬虫

因为科研要用到交通平均车速和污染物浓度的数据，因而用了三天时间从零开始学习爬虫，但我之前已经有一点Python的基础。两个网站的数据都是每小时更新的，因此为了获取动态的数据和模拟点击的过程，这里用了selenium的包。
提前准备：

浏览器（我用的是CHROME）
浏览器对应的driver我用的是Chromedriver，这个可以在其他博主的文章里面查到，要注意对应好浏览器的版本，不然会报错。
安装selenium包（pip install selenium）

污染物爬虫

本来driver应该放在环境设置那里的PATH那里，但我放了还是报错，所以用了别的方法，直接就把driver所在文件夹的路径放上去了。代码如下，我用的是Anconda3 的spider：

import re
import time
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import pandas as pd
from bs4 import BeautifulSoup

from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
#from selenium import webdriver
##import time
import datetime

flag = 0

now=datetime.datetime.now()
sched_timer = datetime.datetime(now.year,now.month,now.day,now.hour,now.minute,now.second)+datetime.timedelta(seconds=5)



    


def main():
    chrome_driver = 'D:\ChromeDriver\chromedriver_win32 (1)\chromedriver.exe'  #chromedriver的文件位置
    driver = webdriver.Chrome(executable_path = chrome_driver)

  
   
    driver.get('http://112.94.64.160:8023/gzaqi_new/RealTimeDate.html')
    driver.refresh()
    time.sleep(10)
    driver.refresh()
    time.sleep(30)
    element = driver.find_element_by_xpath('//*[@id="黄沙路边站"]')
    element.click()
    time.sleep(5)
    elements = driver.find_elements_by_xpath('//*[@id="areaName"]')
    f = open("E:/空气质量/污染物情况.txt","a")       
    for element in elements:
        print(element.get_attribute('innerHTML'))
        a = element.get_attribute('innerHTML')
    f.write(str(a))
    
    f.write("\n")
    element = driver.find_element_by_xpath('//*[@id="PM25"]')
    element.click()
    time.sleep(3)    
    elements = driver.find_elements_by_xpath('//*[@id="aqiValue"]')
    for element in elements:
        print(element.get_attribute('innerHTML'))
        b = element.get_attribute('innerHTML')
    f.write(str(b))
    f.write("\n")
    elements = driver.find_elements_by_xpath('//*[@id="pmtow"]')
    for element in elements:
        print(element.get_attribute('innerHTML'))
        c = element.get_attribute('innerHTML')
    f.write(str(c))
    f.write("\n")
    elements = driver.find_elements_by_xpath('//*[@id="pmtow_24"]')
    for element in elements:
        print(element.get_attribute('innerHTML'))
        d = element.get_attribute('innerHTML')
    f.write(str(d))
    f.write("\n")
    element = driver.find_element_by_xpath('//*[@id="PM10"]')
    element.click()
    time.sleep(3)    
    elements = driver.find_elements_by_xpath('//*[@id="pmten"]')
    for element in elements:
        print(element.get_attribute('innerHTML'))
        e = element.get_attribute('innerHTML')
    f.write(str(e))
    f.write("\n")
    elements = driver.find_elements_by_xpath('//*[@id="pmten_24"]')
    for element in elements:
        print(element.get_attribute('innerHTML'))
        y = element.get_attribute('innerHTML')        
    
    f.write(str(y))
    f.write("\n")
    element = driver.find_element_by_xpath('//*[@id="SO2"]')
    element.click()
    time.sleep(3)    
    elements = driver.find_elements_by_xpath('//*[@id="sotwo"]')
    for element in elements:
        print(element.get_attribute('innerHTML'))
        g = element.get_attribute('innerHTML')

    f.write(str(g))
    f.write("\n")
    element = driver.find_element_by_xpath('//*[@id="NO2"]')
    element.click()
    time.sleep(3)    
    elements = driver.find_elements_by_xpath('//*[@id="notwo"]')
    for element in elements:
        print(element.get_attribute('innerHTML'))
        h = element.get_attribute('innerHTML')
       
    f.write(str(h))
    f.write("\n")
    element = driver.find_element_by_xpath('//*[@id="CO"]')
    element.click()
    time.sleep(3)    
    elements = driver.find_elements_by_xpath('//*[@id="co"]')
    for element in elements:
        print(element.get_attribute('innerHTML'))
        j = element.get_attribute('innerHTML')        
        
    f.write(str(j))
    f.write("\n")
    element = driver.find_element_by_xpath('//*[@id="O3_1"]')
    element.click()
    time.sleep(3)    
    elements = driver.find_elements_by_xpath('//*[@id="othree"]')
    for element in elements:
        print(element.get_attribute('innerHTML'))
        k = element.get_attribute('innerHTML')             

    f.write(str(k))
    f.write("\n")
    f.close() #abcdeyghjk
    with open('E:/空气质量/pollution.csv','a',encoding='utf-8-sig',newline='') as csvfile:
        write = csv.writer(csvfile)
        #write.writerow(['时间','pm2.5','PM10'])
        write.writerows([
                [a,b,c,d,e,y,g,h,j,k]
                ])

爬虫的时候首先要知道你要点击那些按钮才能找到数据，在网站上按F12可以得到源码，然后在源码左上角可以看到一个类似箭头的东西，点击它再点按钮，可以得到按钮所在的代码，右击copy-copy xpath 可以得到这个按钮的xpath，然后就可以模拟点击。同理获取数据也是要通过xpath找到数据所在的文本框。具体的话可以通过点击代码里面的链接然后看一下源代码。

交通爬虫

交通爬虫和上面差不多，但我获取数据的方式用了另外一种，但是比较坑的是我用表格的xpath还是爬不出数据，最后我发现原来他的网站里面还内嵌了一个网站，最后在那个网站里面爬虫就显示成功。因而爬虫失败的时候要多提醒自己往前看一下源码，说不定就有失败原因的提示。
代码如下：

    driver.get('http://219.136.133.162/gztraffic/Default.aspx')
    driver.refresh()
    time.sleep(30)
    element = driver.find_element_by_xpath('//*[@id="RoadTTI"]')
    element.click()
    time.sleep(5)
    elements = driver.find_elements_by_xpath('//*[@id="RoadTTIList"]')
    for element in elements:
#        print(re.findall('data-bind="text: refreshTime">(.*)</div>',element.get_attribute('innerHTML')))
        list2 = re.findall('data-bind="text: refreshTime">(.*)</div>',element.get_attribute('innerHTML'))
        list = re.findall('data-bind="text: RoadName">(.*)</div>',element.get_attribute('innerHTML'))
        f = open("E:/空气质量/通道名称.txt","a")
        f.write(str(list2))
        f.write("\n")
        for i in range(len(list)):
            for j in range(len(list[i])):
                f.write(str(list[i][j]))
#                f.write("\t")
            f.write(",")
        f.write(",")
        f.close()        
#        print(re.findall('data-bind="text: RoadName">(.*)</div>',element.get_attribute('innerHTML')))
        list = re.findall('data-bind="text: Dir">(.*)</div>',element.get_attribute('innerHTML'))
        f = open("E:/空气质量/方向.txt","a")
        f.write(str(list2))
        f.write("\n")
        for i in range(len(list)):
            for j in range(len(list[i])):
                f.write(str(list[i][j]))
#                f.write("\t")
            f.write(",")
        f.write(",")
        f.close() 
#        print(re.findall('data-bind="text: Dir">(.*)</div>',element.get_attribute('innerHTML')))
        list = re.findall('data-bind="text: RoadTTI">(.*)</div>',element.get_attribute('innerHTML'))
        f = open("E:/空气质量/行程时间比.txt","a")
        f.write(str(list2))
        f.write("\n")
        for i in range(len(list)):
            for j in range(len(list[i])):
                f.write(str(list[i][j]))
#                f.write("\t")
            f.write(",")
        f.write(",")
        f.close() 
#        print(re.findall('data-bind="text: RoadTTI">(.*)</div>',element.get_attribute('innerHTML')))
        list = re.findall('data-bind="text: RoadSpeed">(.*)</div>',element.get_attribute('innerHTML'))
        f = open("E:/空气质量/平均速度.txt","a")
        f.write(str(list2))
        f.write("\n")
        for i in range(len(list)):
            for j in range(len(list[i])):
                f.write(str(list[i][j]))
#                f.write("\t")
            f.write(",")
        #f.write(",")
        f.close() 
#        print(re.findall('data-bind="text: RoadSpeed">(.*)</div>',element.get_attribute('innerHTML')))
        print("done")

我这里的是正则化提取我需要的数据，但后来我发现每个网站爬虫时提取数据的方法可能都有不同，但是我算是外行人，所以我每次爬取新网站我都是逐个方法试。但是有时候用正则化就提取不出来数据emmmm。

另外我还有一个问题就是不知道当网站加载错误的时候应该怎么直接跳出循环，我现在为了避免这个问题在代码里面加了很多refresh，但这个应该不是最好的方法，这种网站最常见的问题是加载的时候按钮的位置会错乱，但论坛里面有说的网站错误并不包含这种，连接时都是成功的，即以下代码并不会报错：

def error_process():
    try:
        import urllib.request
        import urllib.error
        urllib.request.urlopen('http://112.94.64.160:8023/gzaqi_new/RealTimeDate.html')
        print("OK")
    except urllib.error.URLError as e:
        if hasattr(e,"code"):
            print(e.code)
        if hasattr(e,"reason"):
            print(e.reason)

但是程序会提示找不到按钮的xpath了，多刷新几次后网页就会恢复正常，希望有解决这个问题的大佬不吝赐教。

最后我设定是每小时自动爬虫一次，要记得前面类那里最后要加一个diver.quit()
最后是我的主函数：

while(True):
    now=datetime.datetime.now()
    #print(type(now))
    if sched_timer < now < sched_timer+datetime.timedelta(seconds = 1):
        time.sleep(1)
        if __name__ == '__main__':
            error_process()
            main()
        flag = 1
    else:
        if flag==1:
            sched_timer = sched_timer + datetime.timedelta(minutes=60)
            flag = 0

第一次写文章，好麻烦······如果有什么不足之处欢迎评论区多交流，有更好的代码改进方法也请你不吝赐教~

本文链接：https://blog.csdn.net/weixin_44940617/article/details/107961325

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

从零开始搭建Hadoop_创建一个hadoop项目-程序员宅基地

文章浏览阅读331次。第一部分：准备工作1 安装虚拟机2 安装centos73 安装JDK以上三步是准备工作，至此已经完成一台已安装JDK的主机第二部分：准备３台虚拟机以下所有工作最好都在root权限下操作1 克隆上面已经有一台虚拟机了,现在对master进行克隆,克隆出另外2台子机;1.1 进行克隆21.2 下一步1.3 下一步1.4 下一步1.5 根据子机需要,命名和安装路径1.6 ..._创建一个hadoop项目

心脏滴血漏洞HeartBleed CVE-2014-0160深入代码层面的分析_heartbleed代码分析-程序员宅基地

文章浏览阅读1.7k次。心脏滴血漏洞HeartBleed CVE-2014-0160 是由heartbeat功能引入的，本文从深入码层面的分析该漏洞产生的原因_heartbleed代码分析

java读取ofd文档内容_ofd电子文档内容分析工具（分析文档、签章和证书）-程序员宅基地

文章浏览阅读1.4k次。前言ofd是国家文档标准，其对标的文档格式是pdf。ofd文档是容器格式文件，ofd其实就是压缩包。将ofd文件后缀改为.zip，解压后可看到文件包含的内容。ofd文件分析工具下载：点我下载。ofd文件解压后，可以看到如下内容：对于xml文件，可以用文本工具查看。但是对于印章文件(Seal.esl)、签名文件(SignedValue.dat)就无法查看其内容了。本人开发一款ofd内容查看器，..._signedvalue.dat

基于FPGA的数据采集系统（一）_基于fpga的信息采集-程序员宅基地

文章浏览阅读1.8w次，点赞29次，收藏313次。整体系统设计本设计主要是对ADC和DAC的使用，主要实现功能流程为：首先通过串口向FPGA发送控制信号，控制DAC芯片tlv5618进行DA装换，转换的数据存在ROM中，转换开始时读取ROM中数据进行读取转换。其次用按键控制adc128s052进行模数转换100次，模数转换数据存储到FIFO中，再从FIFO中读取数据通过串口输出显示在pc上。其整体系统框图如下：图1：FPGA数据采集系统框图从图中可以看出，该系统主要包括9个模块：串口接收模块、按键消抖模块、按键控制模块、ROM模块、D.._基于fpga的信息采集

微服务 spring cloud zuul com.netflix.zuul.exception.ZuulException GENERAL-程序员宅基地

文章浏览阅读2.5w次。1.背景错误信息：-- [http-nio-9904-exec-5] o.s.c.n.z.filters.post.SendErrorFilter : Error during filteringcom.netflix.zuul.exception.ZuulException: Forwarding error at org.springframework.cloud..._com.netflix.zuul.exception.zuulexception

邻接矩阵-建立图-程序员宅基地

文章浏览阅读358次。1.介绍图的相关概念　　图是由顶点的有穷非空集和一个描述顶点之间关系-边（或者弧）的集合组成。通常，图中的数据元素被称为顶点，顶点间的关系用边表示，图通常用字母G表示，图的顶点通常用字母V表示，所以图可以定义为:　　G=(V,E)其中，V(G)是图中顶点的有穷非空集合，E(G)是V(G)中顶点的边的有穷集合1.1 无向图：图中任意两个顶点构成的边是没有方向的1.2 有向图：图中..._给定一个邻接矩阵未必能够造出一个图

随便推点

MDT2012部署系列之11 WDS安装与配置-程序员宅基地

文章浏览阅读321次。（十二）、WDS服务器安装通过前面的测试我们会发现，每次安装的时候需要加域光盘映像，这是一个比较麻烦的事情，试想一个上万个的公司，你天天带着一个光盘与光驱去给别人装系统，这将是一个多么痛苦的事情啊，有什么方法可以解决这个问题了？答案是肯定的，下面我们就来简单说一下。WDS服务器，它是Windows自带的一个免费的基于系统本身角色的一个功能，它主要提供一种简单、安全的通过网络快速、远程将Window..._doc server2012上通过wds+mdt无人值守部署win11系统.doc

python--xlrd/xlwt/xlutils_xlutils模块可以读xlsx吗-程序员宅基地

文章浏览阅读219次。python–xlrd/xlwt/xlutilsxlrd只能读取，不能改,支持 xlsx和xls 格式xlwt只能改，不能读xlwt只能保存为.xls格式xlutils能将xlrd.Book转为xlwt.Workbook，从而得以在现有xls的基础上修改数据，并创建一个新的xls，实现修改xlrd打开文件import xlrdexcel=xlrd.open_workbook('E:/test.xlsx') 返回值为xlrd.book.Book对象,不能修改获取sheett_xlutils模块可以读xlsx吗

关于新版本selenium定位元素报错：‘WebDriver‘ object has no attribute ‘find_element_by_id‘等问题_unresolved attribute reference 'find_element_by_id-程序员宅基地

文章浏览阅读8.2w次，点赞267次，收藏656次。运行Selenium出现'WebDriver' object has no attribute 'find_element_by_id'或AttributeError: 'WebDriver' object has no attribute 'find_element_by_xpath'等定位元素代码错误，是因为selenium更新到了新的版本，以前的一些语法经过改动。..............._unresolved attribute reference 'find_element_by_id' for class 'webdriver