python bs4 抓取糗事百科资源_prient_top的博客-程序员秘密

技术标签: Py  

首先需要创建接个文件

Main.py (入口文件)

html_parser(解析下载的html 文件)

downloader (下载文件)

outputer(存储文件)

url_manager(爬虫链接管理文件)

mysql_help(mysql 操作文件)

理解爬虫步骤:

首先向 爬取一个网页,在网页里解析《a》标签将已经解析到的超链接放到url_manager(爬虫链接管理文件)里待后面取出,将爬下来的页面用BS4对其取出有用的资源

存到字典中,待爬虫全部结束后再循环写入到数据库中。

源代码如下

Main.py (入口文件)

# -*- coding:utf-8 -*-
import url_manager
import html_parser
import htmldownloader
import htmloutputer
class Main(object):
    def __init__(self):
        self.urls = url_manager.UrlManager()
        self.parser = html_parser.HtmlParser()
        self.downloader = htmldownloader.HtmlDownloader()
        self.outputer = htmloutputer.OutPuter()

    def craw(self,root_url):
        self.urls.add_new_url(root_url)
        count = 1
        while self.urls.has_new_url():
            # try:
                new_url = self.urls.get_new_url()
                print u"执行:%d  %s"%(count,new_url)
                html_cont = self.downloader.download(new_url)#下载页面内容
                new_urls,new_data = self.parser.parser(new_url,html_cont)#解析器
                self.urls.add_new_urls(new_urls)
                self.outputer.collect_data(new_data)

                if count == 1000:#多少停止
                    break
                count = count+1
            # except:
            #     print u"页面访问失败"

        # self.outputer.output_html()
        self.outputer.set_mysql()

if __name__ == "__main__":
    root_url = "https://www.qiushibaike.com/article/118853097"
    obj_main = Main()
    obj_main.craw(root_url)
html_parser(解析下载的html 文件)

# -*- coding:utf-8 -*-
from bs4 import BeautifulSoup
import re
import urlparse
class HtmlParser(object):
    # 获取该页的所有url
    def _get_new_urls(self, page_url, soup):
        new_urls = set()
        links = soup.find_all('a', href=re.compile(r"/article/\.*"))
        # print links
        # quit()
        for link in links:
            new_url = link['href']
            new_urls.add(urlparse.urljoin(page_url, new_url))
        return new_urls

    # 获取数据
    def _get_new_data(self, page_url, soup):
        res_data = {}
        # 抓取的路由
        res_data['url'] = page_url

        #抓取用户头像
        head_img_url = soup.find("div",class_="author").find('img')
        res_data['head_img_url'] = urlparse.urljoin(page_url, head_img_url['src'])

        #获取用户姓名
        title_node = soup.find('div', class_='author').find('h2')
        res_data['name'] = title_node.get_text()

        #获取段子
        summary_node = soup.find('div', id="single-next-link")
        res_data['content'] = summary_node.get_text()
        try:
            content_img = summary_node.find('div',class_='thumb').find('img')
            res_data['content_img'] = urlparse.urljoin(page_url, content_img['src'])
        except:
            res_data['content_img'] =''

        return res_data
    #解析出新的url,和数据
    def parser(self,page_url,html_cont):
        if page_url is None or html_cont is None:
            return
        soup = BeautifulSoup(html_cont,'html.parser',from_encoding='utf-8')
        new_urls = self._get_new_urls(page_url,soup)
        new_data = self._get_new_data(page_url,soup)
        return new_urls, new_data


downloader (下载文件)

# -*- coding:utf -8-*-
import urllib2,cookielib
class HtmlDownloader(object):

    def download(self,url):
        if url is None:
            return
        # cj = cookielib.CookieJar()
        # res = urllib2.urlopen(url)
        # urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'
        }
        req = urllib2.Request(
            url=url,
            headers=headers
        )
        res = urllib2.urlopen(req)
        # print res.getcode()
        # quit()
        if res.getcode() != 200:
            return
        return res.read()

outputer(存储文件)

# -*- coding:utf-8 -*-
import MyswlHelp
import codecs
class OutPuter(object):
    def __init__(self):
        self.datas = []

    def collect_data(self,data):
        if data is None:
            return
        self.datas.append(data)

    #存入文件
    def output_html(self):
        file = codecs.open('text.html','a',encoding='utf-8')
        file.seek(1)
        for v in self.datas:
            try:
                file.write("{url:%s,title:%s,summary:%s}" % (v['url'], v['name'].encode('gb18030'), v['content'].encode('gb18030')))

            except:
                file.write("{url:%s,title:%s,summary:%s}" % (v['url'], v['name'].encode('utf-8'), v['content'].encode('utf-8')))            #     continue

        file.flush()
        file.close()

    #存到数据库
    def set_mysql(self):
        my_help = MyswlHelp.MysqlHelp()

        for v in self.datas:
            try:
                if v['content_img'] == '':
                    sql = "insert into qqbk (name,content,head_img_url) VALUES ('"+v['name'].encode('utf-8')+"','"+v['content'].encode('utf-8')+"','"+v['head_img_url'].encode('utf-8')+"')"
                else:
                    sql = "insert into qqbk (name,content,content_img,head_img_url) VALUES ('"+v['name'].encode('utf-8')+"','"+v['content'].encode('utf-8')+"','"+v['content_img'].encode('utf-8')+"','"+v['head_img_url'].encode('utf-8')+"')"
                # print sql
                my_help.execute(sql)
            except:
                continue




url_manager(爬虫链接管理文件)

# -*- coding:utf-8 -*-
class UrlManager(object):
    def __init__(self):
        self.new_urls = set()
        self.old_urls = set()

    #填加单个url
    def add_new_url(self,url):
        if url is None:
            return
        if url not in self.new_urls and url not in self.old_urls:
            self.new_urls.add(url)

    #批量添加
    def add_new_urls(self,urls):
        if urls is None or len(urls) == 0:
            return
        for url in urls:
            self.add_new_url(url)

    #获取一个url
    def get_new_url(self):
        url = self.new_urls.pop()
        self.old_urls.add(url)
        return url

    #判断
    def has_new_url(self):
        return len(self.new_urls) != 0

mysql_help(mysql 操作文件)

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import MySQLdb
class MysqlHelp:
    "mysql 操作类"
    localhost="127.0.0.1"#地址
    db_name="python"#数据库名称
    access="root"#账号
    password=""#密码
    db=""
    cursor=""

    #初始化
    def __init__(self):
        # 打开数据库连接
        self.db = MySQLdb.connect(self.localhost, self.access, self.password, self.db_name,charset="utf8")
        # 使用cursor()方法获取操作游标
        self.cursor = self.db.cursor()

    #增删改
    def execute(self,sql):
        try:
            # 执行SQL语句
            self.cursor.execute(sql)
            # 提交到数据库执行
            res = self.db.commit()
            return res
        except:
            # 发生错误时回滚
            self.db.rollback()
        # 关闭数据库连接
        self.db.close()


    #查询
    def query(self,sql):
        try:
            self.cursor.execute(sql)
            res = self.cursor.fetchall()
        except:
            res= "Error: unable to fecth data"
        self.db.close()
        return res

执行:93  https://www.qiushibaike.com/article/115767514
执行:94  https://www.qiushibaike.com/article/118964920
执行:95  https://www.qiushibaike.com/article/51456225
执行:96  https://www.qiushibaike.com/article/116486378
执行:97  https://www.qiushibaike.com/article/288171
执行:98  https://www.qiushibaike.com/article/119549247
执行:99  https://www.qiushibaike.com/article/213184
执行:100  https://www.qiushibaike.com/article/119441053

看查看数据库

多出了100条记录


版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_22858601/article/details/78095852

智能推荐

html 的tab页_yinww的博客-程序员秘密

tab.css-------------------------------/* BEGIN: Tabs */ul.tabs {float:left; position:relative; font-size:0.9em; list-style:none; margin:0; z-index:25; padding:0; padding-right:1px;}u

android自定义起止时间的时间刻度尺,Android 自定义View篇(六)实现时钟表盘效果..._SIB驴的博客-程序员秘密

前言Android 自定义 View 是高级进阶不可或缺的内容,日常工作中,经常会遇到产品、UI 设计出花里胡哨的界面。当系统自带的控件不能满足开发需求时,就只能自己动手撸一个效果。本文就带自定义 View 初学者手动撸一个效果,通过自定义 View 实现钟表功能,每行代码都有注释,保证易懂,看不懂你留言打我!!!实现效果1、先看效果图在这里插入图片描述2、下载地址3、步骤分析实现以上效果,主要分...

基于python 的语音识别_基于python实现百度语音识别和图灵对话_weixin_39914863的博客-程序员秘密

图例如下上电后,只要周围声音超过 2000,开始录音5S录音上传百度识别,并返回结果文字输出继续等待,周围声音是否超过2000,没有就等待。点用电脑API语音交互代码如下# -*- coding: utf-8 -*-# 树莓派from pyaudio import PyAudio, paInt16import numpy as npfrom datetime import datetimeimpo...

Zookeeper 分布式协调服务开源项目_weixin_33963594的博客-程序员秘密

1,Zookeeper是什么?ZooKeeper是一种分布式协调服务,用于管理大型主机。在分布式环境中协调和管理服务是一个复杂的过程。ZooKeeper通过其简单的架构和API解决了这个问题。 ZooKeeper允许开发人员专注于核心应用程序逻辑,而不必担心应用程序的分布式特性。ZooKeeper框架最初是在“Yahoo!”上构建的,用于以简单而稳健的方式访问他们的应用程序。后来,Apache ...

Elasticsearch启动后自动退出_failed to read or upgrade local state, exiting_KoHsin_的博客-程序员秘密

自己在练习ES的过程中,会经常关闭虚拟机,经常直接退出ES,所以会遇到各种启动失败的问题每次遇到问题,就去查看log文件,进行排查

Kotlin对象的生成方式整理_kotlin new撖寡情_Max2005的博客-程序员秘密

Kotlin中可能有如下几种生成对象的方式1,对象表达式val myObject = object { } //匿名生成,赋给变量,或作为匿名对象使用一个最简但完整的示例:open class A(x: Int) { public open val y: Int = x}interface B { /*……*/ }val ab: A = object : A(1), B { override val y = 15 var x: Int =...

随便推点

touchgfx问题handleTickEvent - notify_GKoSon的博客-程序员秘密

基于上一个博客的案例测试研究问题:#ifndef FRONTENDAPPLICATION_HPP#define FRONTENDAPPLICATION_HPP#include <gui_generated/common/FrontendApplicationBase.hpp>class FrontendHeap;using namespace touchgfx;...

浅谈 cookie与session_ausession_Au.J的博客-程序员秘密

  谈论这两个之前,首先要说的就是HTTP协议,HTTP协议是无状态的协议。 无状态是指协议对于事务处理没有记忆能力,服务器不知道客户端是什么状态。即我们给服务器发送 HTTP 请求之后,服务器根据请求,会给我们发送数据过来,但是,发送完,不会记录任何信息。这意味着每个请求都是独立的,缺少状态意味着如果后续处理需要前面的信息,则它必须重传,这样可能导致每次连接传送的数据量增大。另一方面,在...

特征选择和特征理解 (转)_weixin_30328063的博客-程序员秘密

作者:Edwin Jarvis特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能:减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常情况...

6 个步骤,教你在Ubuntu虚拟机环境下,用Docker自带的DNS配置Hadoop | 附代码_CSDN云计算的博客-程序员秘密

作者 |tianyouououou责编 |Carol来源 | CSDN 博客封图 | CSDN付费下载于视觉中国最近,作者整理了一套Hadoop搭建方案。最后的镜像大小1.4G多,使...

Java反射一_合抱之木,生于毫末,九层之台,起于累土的博客-程序员秘密

一 .什么是反射?class是一切反射的根源,JAVA反射机制是在运行状态中,对于任和一个类,通过反射都能够知道这个类的所有属性和方法;对于任意一个对象,都能够调用它的任意一个方法和属性;这种动态获取的信息以及动态调用对象的方法的功能称为java语言的反射机制二 .反射的作用:通过反射访问java对象的属性,方法,构造方法等三 .得到class类的对象有三种方式:1.   object类中的get...

浅谈spring security Oauth2.0_拖拉机上的爱的博客-程序员秘密

写这篇文章主要从springboot集成oauth2.0的角度来谈谈oauth2.0。

推荐文章

热门文章

相关标签