技术标签: Py
首先需要创建接个文件
Main.py (入口文件)
html_parser(解析下载的html 文件)
downloader (下载文件)
outputer(存储文件)
url_manager(爬虫链接管理文件)
mysql_help(mysql 操作文件)
理解爬虫步骤:
首先向 爬取一个网页,在网页里解析《a》标签将已经解析到的超链接放到url_manager(爬虫链接管理文件)里待后面取出,将爬下来的页面用BS4对其取出有用的资源
存到字典中,待爬虫全部结束后再循环写入到数据库中。
源代码如下
Main.py (入口文件)
# -*- coding:utf-8 -*- import url_manager import html_parser import htmldownloader import htmloutputer class Main(object): def __init__(self): self.urls = url_manager.UrlManager() self.parser = html_parser.HtmlParser() self.downloader = htmldownloader.HtmlDownloader() self.outputer = htmloutputer.OutPuter() def craw(self,root_url): self.urls.add_new_url(root_url) count = 1 while self.urls.has_new_url(): # try: new_url = self.urls.get_new_url() print u"执行:%d %s"%(count,new_url) html_cont = self.downloader.download(new_url)#下载页面内容 new_urls,new_data = self.parser.parser(new_url,html_cont)#解析器 self.urls.add_new_urls(new_urls) self.outputer.collect_data(new_data) if count == 1000:#多少停止 break count = count+1 # except: # print u"页面访问失败" # self.outputer.output_html() self.outputer.set_mysql() if __name__ == "__main__": root_url = "https://www.qiushibaike.com/article/118853097" obj_main = Main() obj_main.craw(root_url)html_parser(解析下载的html 文件)
# -*- coding:utf-8 -*- from bs4 import BeautifulSoup import re import urlparse class HtmlParser(object): # 获取该页的所有url def _get_new_urls(self, page_url, soup): new_urls = set() links = soup.find_all('a', href=re.compile(r"/article/\.*")) # print links # quit() for link in links: new_url = link['href'] new_urls.add(urlparse.urljoin(page_url, new_url)) return new_urls # 获取数据 def _get_new_data(self, page_url, soup): res_data = {} # 抓取的路由 res_data['url'] = page_url #抓取用户头像 head_img_url = soup.find("div",class_="author").find('img') res_data['head_img_url'] = urlparse.urljoin(page_url, head_img_url['src']) #获取用户姓名 title_node = soup.find('div', class_='author').find('h2') res_data['name'] = title_node.get_text() #获取段子 summary_node = soup.find('div', id="single-next-link") res_data['content'] = summary_node.get_text() try: content_img = summary_node.find('div',class_='thumb').find('img') res_data['content_img'] = urlparse.urljoin(page_url, content_img['src']) except: res_data['content_img'] ='' return res_data #解析出新的url,和数据 def parser(self,page_url,html_cont): if page_url is None or html_cont is None: return soup = BeautifulSoup(html_cont,'html.parser',from_encoding='utf-8') new_urls = self._get_new_urls(page_url,soup) new_data = self._get_new_data(page_url,soup) return new_urls, new_data
downloader (下载文件)
# -*- coding:utf -8-*- import urllib2,cookielib class HtmlDownloader(object): def download(self,url): if url is None: return # cj = cookielib.CookieJar() # res = urllib2.urlopen(url) # urllib2.build_opener(urllib2.HTTPCookieProcessor(cj)) headers = { 'User-Agent': 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6' } req = urllib2.Request( url=url, headers=headers ) res = urllib2.urlopen(req) # print res.getcode() # quit() if res.getcode() != 200: return return res.read()
outputer(存储文件)
# -*- coding:utf-8 -*- import MyswlHelp import codecs class OutPuter(object): def __init__(self): self.datas = [] def collect_data(self,data): if data is None: return self.datas.append(data) #存入文件 def output_html(self): file = codecs.open('text.html','a',encoding='utf-8') file.seek(1) for v in self.datas: try: file.write("{url:%s,title:%s,summary:%s}" % (v['url'], v['name'].encode('gb18030'), v['content'].encode('gb18030'))) except: file.write("{url:%s,title:%s,summary:%s}" % (v['url'], v['name'].encode('utf-8'), v['content'].encode('utf-8'))) # continue file.flush() file.close() #存到数据库 def set_mysql(self): my_help = MyswlHelp.MysqlHelp() for v in self.datas: try: if v['content_img'] == '': sql = "insert into qqbk (name,content,head_img_url) VALUES ('"+v['name'].encode('utf-8')+"','"+v['content'].encode('utf-8')+"','"+v['head_img_url'].encode('utf-8')+"')" else: sql = "insert into qqbk (name,content,content_img,head_img_url) VALUES ('"+v['name'].encode('utf-8')+"','"+v['content'].encode('utf-8')+"','"+v['content_img'].encode('utf-8')+"','"+v['head_img_url'].encode('utf-8')+"')" # print sql my_help.execute(sql) except: continue
url_manager(爬虫链接管理文件)
# -*- coding:utf-8 -*- class UrlManager(object): def __init__(self): self.new_urls = set() self.old_urls = set() #填加单个url def add_new_url(self,url): if url is None: return if url not in self.new_urls and url not in self.old_urls: self.new_urls.add(url) #批量添加 def add_new_urls(self,urls): if urls is None or len(urls) == 0: return for url in urls: self.add_new_url(url) #获取一个url def get_new_url(self): url = self.new_urls.pop() self.old_urls.add(url) return url #判断 def has_new_url(self): return len(self.new_urls) != 0
mysql_help(mysql 操作文件)
#!/usr/bin/python # -*- coding: UTF-8 -*- import MySQLdb class MysqlHelp: "mysql 操作类" localhost="127.0.0.1"#地址 db_name="python"#数据库名称 access="root"#账号 password=""#密码 db="" cursor="" #初始化 def __init__(self): # 打开数据库连接 self.db = MySQLdb.connect(self.localhost, self.access, self.password, self.db_name,charset="utf8") # 使用cursor()方法获取操作游标 self.cursor = self.db.cursor() #增删改 def execute(self,sql): try: # 执行SQL语句 self.cursor.execute(sql) # 提交到数据库执行 res = self.db.commit() return res except: # 发生错误时回滚 self.db.rollback() # 关闭数据库连接 self.db.close() #查询 def query(self,sql): try: self.cursor.execute(sql) res = self.cursor.fetchall() except: res= "Error: unable to fecth data" self.db.close() return res
执行:93 https://www.qiushibaike.com/article/115767514
执行:94 https://www.qiushibaike.com/article/118964920
执行:95 https://www.qiushibaike.com/article/51456225
执行:96 https://www.qiushibaike.com/article/116486378
执行:97 https://www.qiushibaike.com/article/288171
执行:98 https://www.qiushibaike.com/article/119549247
执行:99 https://www.qiushibaike.com/article/213184
执行:100 https://www.qiushibaike.com/article/119441053
看查看数据库
多出了100条记录
tab.css-------------------------------/* BEGIN: Tabs */ul.tabs {float:left; position:relative; font-size:0.9em; list-style:none; margin:0; z-index:25; padding:0; padding-right:1px;}u
前言Android 自定义 View 是高级进阶不可或缺的内容,日常工作中,经常会遇到产品、UI 设计出花里胡哨的界面。当系统自带的控件不能满足开发需求时,就只能自己动手撸一个效果。本文就带自定义 View 初学者手动撸一个效果,通过自定义 View 实现钟表功能,每行代码都有注释,保证易懂,看不懂你留言打我!!!实现效果1、先看效果图在这里插入图片描述2、下载地址3、步骤分析实现以上效果,主要分...
图例如下上电后,只要周围声音超过 2000,开始录音5S录音上传百度识别,并返回结果文字输出继续等待,周围声音是否超过2000,没有就等待。点用电脑API语音交互代码如下# -*- coding: utf-8 -*-# 树莓派from pyaudio import PyAudio, paInt16import numpy as npfrom datetime import datetimeimpo...
1,Zookeeper是什么?ZooKeeper是一种分布式协调服务,用于管理大型主机。在分布式环境中协调和管理服务是一个复杂的过程。ZooKeeper通过其简单的架构和API解决了这个问题。 ZooKeeper允许开发人员专注于核心应用程序逻辑,而不必担心应用程序的分布式特性。ZooKeeper框架最初是在“Yahoo!”上构建的,用于以简单而稳健的方式访问他们的应用程序。后来,Apache ...
自己在练习ES的过程中,会经常关闭虚拟机,经常直接退出ES,所以会遇到各种启动失败的问题每次遇到问题,就去查看log文件,进行排查
Kotlin中可能有如下几种生成对象的方式1,对象表达式val myObject = object { } //匿名生成,赋给变量,或作为匿名对象使用一个最简但完整的示例:open class A(x: Int) { public open val y: Int = x}interface B { /*……*/ }val ab: A = object : A(1), B { override val y = 15 var x: Int =...
基于上一个博客的案例测试研究问题:#ifndef FRONTENDAPPLICATION_HPP#define FRONTENDAPPLICATION_HPP#include <gui_generated/common/FrontendApplicationBase.hpp>class FrontendHeap;using namespace touchgfx;...
谈论这两个之前,首先要说的就是HTTP协议,HTTP协议是无状态的协议。 无状态是指协议对于事务处理没有记忆能力,服务器不知道客户端是什么状态。即我们给服务器发送 HTTP 请求之后,服务器根据请求,会给我们发送数据过来,但是,发送完,不会记录任何信息。这意味着每个请求都是独立的,缺少状态意味着如果后续处理需要前面的信息,则它必须重传,这样可能导致每次连接传送的数据量增大。另一方面,在...
作者:Edwin Jarvis特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能:减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常情况...
作者 |tianyouououou责编 |Carol来源 | CSDN 博客封图 | CSDN付费下载于视觉中国最近,作者整理了一套Hadoop搭建方案。最后的镜像大小1.4G多,使...
一 .什么是反射?class是一切反射的根源,JAVA反射机制是在运行状态中,对于任和一个类,通过反射都能够知道这个类的所有属性和方法;对于任意一个对象,都能够调用它的任意一个方法和属性;这种动态获取的信息以及动态调用对象的方法的功能称为java语言的反射机制二 .反射的作用:通过反射访问java对象的属性,方法,构造方法等三 .得到class类的对象有三种方式:1. object类中的get...
写这篇文章主要从springboot集成oauth2.0的角度来谈谈oauth2.0。