[爬虫]爬取搜狗的词库-程序员宅基地

技术标签: 爬虫  python  

同学要做用户搜索词意图分析,要用到分词,让我给写一个爬虫爬取搜狗词库的脚本。以前爬取网页都使用正则匹配,想要用美丽的汤很久了,正好借此机会体验一下它的强大威力。脚本对搜狗词库主页进行一级爬取结果,然后对每一个分类进行二级页面爬取,然后获取该分类下的词库文件,保存到执行脚本同目录的1文件夹下。python还是新手一个,要是对有帮助的同学尽管拿去。


#coding=utf-8
'''
Created on 2017年4月6日

@author: lenovo
'''
#######
#   
#
########
from bs4 import BeautifulSoup
import re
import urllib
import sys,time


def callbackfunc(blocknum, blocksize, totalsize):
    '''回调函数
    @blocknum: 已经下载的数据块
    @blocksize: 数据块的大小
    @totalsize: 远程文件的大小
    '''
    percent = 100.0 * blocknum * blocksize / totalsize
    if percent > 100:
        percent = 100
    sys.stdout.write("\r%6.2f%%"% percent)
    sys.stdout.flush()


if __name__ == "__main__":
    
    BaseUrl = "http://pinyin.sogou.com"
    HomePageUrl = "http://pinyin.sogou.com/dict/"
    html = urllib.urlopen(HomePageUrl).read()
    
    soup = BeautifulSoup(html,"html.parser")
    soup =  soup.find(id="dict_category_show").find_all('div',class_='dict_category_list')
    
    fc = 0
    sc = 0
    tc = 0
    for ii in soup:
        fc+=1
        print "Level 1 :" + ii.find(class_='dict_category_list_title').find('a').contents[0]
        for k in ii.find(class_='catewords').find_all('a'):
            secondclass = k.contents[0]
            secondUrl = BaseUrl+"%s" % (k['href'])
            print " " * 4 + "Level 2 :" + secondclass #+ " " * 8 + secondUrl
            sc += 1
            
            soup2 = BeautifulSoup(urllib.urlopen(secondUrl).read(),"html.parser")
            totalpagenum = soup2.find(id='dict_page_list').find('ul').find_all('span')[-2].a.contents[0]
            
            for pageind in range(1, int(totalpagenum)+1):
                
                soup2 = BeautifulSoup(urllib.urlopen( "%s/default/%d" %  (secondUrl.replace("?rf=dictindex",""),pageind)  ).read(),"html.parser")
                for kk in soup2.find_all('div', class_='dict_detail_block') :
                    thirdclass = kk.find(class_='detail_title').find('a').contents[0]
                    thirdUrl = kk.find(class_='dict_dl_btn').a['href']
                    print " " * 8 + "Level 3 :" + thirdclass + " " * 10 + "Downloading....."
                    tc += 1 
                    urllib.urlretrieve(thirdUrl.encode('utf8'), "1\%s-%s.scel" % (secondclass,thirdclass),callbackfunc)
    print "Total :%d, %d, %d" % (fc, sc, tc)

转载于:https://www.cnblogs.com/yumingle/p/6675487.html

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_30632089/article/details/94849751

智能推荐

【转载南非蚂蚁】MYSQL企业常用架构与调优经验分享-程序员宅基地

文章浏览阅读63次。http://ixdba.blog.51cto.com/blog/2895551/1751377 好文章,防止以后找不到了,先转载一份过来。 转载于:https://blog.51cto.com/lee90/1757425

IntelliJ IDEA设置代码自动提示的快捷键_idea开启自动提示 快捷键-程序员宅基地

文章浏览阅读6k次,点赞8次,收藏6次。前言:使用 eclipse 都习惯使用快捷键ALT+/ 来代码自动提示,后来使用IntelliJ Idea这个快捷键并不管用,十分不便,这里记录如何使更改idea代码自动提示快捷键。打开Settings设置 [ 快捷键 Ctrl + Alt + S ]File ––> Settings ––> KeyMap进入快捷键设置界面。idea中默认的代码自动提示快捷键是Basic Ctrl + 空格(可以再搜索框中输入 basic快速查找),这个和安装的中文输入法切换快捷键冲突,所以需要修改._idea开启自动提示 快捷键

字符4串my_atoi_while (*psz != '\0' && *psz != 0x0d && *psz != 0x0-程序员宅基地

文章浏览阅读608次。//#include //#include //#include //int my_atoi(const char *psz);//int main()//{// char str[] = " -23j1";// int a = my_atoi(str);// printf("%d\n",a);// return 0;//}////int my__while (*psz != '\0' && *psz != 0x0d && *psz != 0x0a)

你不知道的Echarts柱状图应用在React中_react柱状图怎么给series赋值-程序员宅基地

文章浏览阅读943次。echarts 柱状图在React里面的运用:正常的echarts 都是竖直型的,或者一个里边包含多个的。 这次做个不同的, y轴为坐标,x轴为值,左右都为正数展开。(1)、引入相关的文件import React, { Compoent } from 'react';import { Spin } from 'antd';import echarts from 'echarts'..._react柱状图怎么给series赋值

Uncaught TypeError: Cannot read property 'addMethod' of undefined_uncaught typeerror: cannot read properties of unde-程序员宅基地

文章浏览阅读6.4k次,点赞4次,收藏2次。目录1:js 引入顺序2:‘$’ 冲突出现以上错误有俩种情况:1:js 引入顺序jquery.validate.js 引入的顺序一定要在执行$.validator.addMethod()之前引入。解决方案:保证 jquery.validate.js 优先引入。2:‘$’ 冲突当前 .html 文件引用函数 $.validator.addMethod() ,明明引入..._uncaught typeerror: cannot read properties of undefined (reading 'addmethod

随便推点

邮件群发,如何选择最好用的电子邮箱?_群发邮件邮箱评比-程序员宅基地

文章浏览阅读1.4k次。偶然看到有人在如何选择最适合、最好用的群发邮箱?恰巧最近我接触到了一款很好的邮箱~TOM VIP邮箱,在此分享给各位~邮件群发,如何选择最好用的电子邮箱?首先,TOM VIP邮箱拥有十多年邮件系统研发和服务经验,超高送达率,发qq,发163,发国外,发国内,发外贸迅速抵达。同时,就其35位靓号的稀有性来讲就比较赞。目前多数邮箱靓号也是有的,但是35位这种超短靓号还是比较稀缺的,更遑论豹子号..._群发邮件邮箱评比

浅谈电商场景中的扣除库存问题_如果支付时扣库存,有什么问题-程序员宅基地

文章浏览阅读1.1k次,点赞14次,收藏23次。电商场景中扣库存需要考虑秒杀高并发、事务一致性等场景,需要根据业务和场景来选择不同的方案。_如果支付时扣库存,有什么问题

c++笔试题(带答案)值得我们一看_c++题目描述有这样一个四位数,其千位和百位之和为偶数,十位和个位之和为奇数,-程序员宅基地

文章浏览阅读3.8k次。C++笔试题目大全(笔试宝典)(不断完善中) 收藏 (转)1.new 、 delete 、 malloc 、 free 关系 delete 会调用对象的析构函数 , 和 new 对应 free 只会释放内存, new 调用构造函数。 malloc 与 free 是 C++/C 语言的标准库函数, new/delete 是 C++ 的运算符。它们都可用于申请动态内存和释放内存。对于非内部数据类型的对象而言,光用 maloc/free 无法满足动态对象的要求。对象_c++题目描述有这样一个四位数,其千位和百位之和为偶数,十位和个位之和为奇数,

基于OHCI的USB主机 —— USB设备设置地址-程序员宅基地

文章浏览阅读135次。设置地址设置地址需要注意的是该命令只能从地址0、端口0发送,等到执行成功以后,需要设置协议栈对象的usbAddr为新的地址,以后所有命令的收发都只能通过新地址进行:/***给USB设备设置地址*/shortusbSetAddress(unsignedchar*pDataBuf,unsignedshorta..._usb主机 设置地址

JVM-性能调优-3-运行时参数_jvm jit xmixed-程序员宅基地

文章浏览阅读85次。官网地址:https://docs.oracle.com/javase/8/docs/technotes/tools/unix/java.html1.JVM参数选项类型类型一:标准参数选项特点:比较稳定,后续版本基本不会变化,以-开头各种选项:运行java或者java -help可以看到所有的标准选项类型二:-X参数选项特点:非标准化参数,功能还是比较稳定的。但是官方说后续版本可能会变更,以-X开头。各种选项:运行java -X命令可以看到所有的X选项。JVM的JIT编译模式相关的选_jvm jit xmixed

AO4805&19-VB一种2个P沟道SOP8封装MOS管-程序员宅基地

文章浏览阅读374次,点赞11次,收藏8次。5. **开态电阻 (On-State Resistance):** RDS(ON) = 21mΩ @ VGS=10V, VGS=12V,说明在特定的栅源电压下,开态时的电阻。6. **阈值电压 (Threshold Voltage):** Vth = -1.8V,表示在栅源电压作用下,器件从关态切换到开态所需的最小电压。4. **最大电流 (Maximum Current):** -8.5A,表示器件能够承受的最大电流,负号表示电流方向为从漏极到源极。- 阈值电压: Vth = -1.8V。

推荐文章

热门文章

相关标签