python爬虫的优缺点分析-Python爬虫:selenium的填坑心得_weixin_39684235的博客-程序员秘密

关于selenium使用代理的问题

假如你抓的是会封ip的网站,那你除了sleep更需要使用代理。给出常用设置方法:

phantomjs:

from selenium import webdriver

from selenium.webdriver.common.proxy import Proxy

from selenium.webdriver.common.proxy import ProxyType

from selenium.webdriver.common.desired_capabilities import DesiredCapabilities

proxy = Proxy(

{

"proxyType": ProxyType.MANUAL,

"httpProxy": "ip:port" # 代理ip和端口

}

)

# 配置对象DesiredCapabilities

desired_capabilities = DesiredCapabilities.PHANTOMJS.copy()

# 把代理ip加入配置对象

proxy.add_to_capabilities(desired_capabilities)

driver = webdriver.PhantomJS(

executable_path="/path/of/phantomjs",

desired_capabilities=desired_capabilities

)

driver.get("http://www.ip.cn/")

firefox:

from selenium import webdriver

profile = webdriver.FirefoxProfile()

profile.set_preference("network.proxy.type", 1)

profile.set_preference("network.proxy.http", "127.0.0.1")

profile.set_preference("network.proxy.http_port", 17890) #端口号为int

profile.update_preferences()

driver = webdriver.Firefox(firefox_profile=profile)

driver.get("http://www.ip.cn/")

Chrome:

chromeOptions = webdriver.ChromeOptions()

chromeOptions.add_argument("--proxy-server=http://ip:port")

driver = webdriver.Chrome(chrome_options=chromeOptions)

driver.get("http://www.ip.cn/")

从代码量上来看,我继续安利Chrome

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_39684235/article/details/109619653

智能推荐

windows事件查看器的错误_事件查看器 错误_antyi的博客-程序员秘密

[推荐]修复事件查看器在系统启动过程中报告日志文件遭到破坏1.先禁用事件日志服务,接着重新启动系统。2.从%systemroot%/system32/config 目录中删除受损日志文件appevent.evt、secevent.evt、sysevent.evt 。(secevent.evt、sysevent.evt可能是并存或者只有一个),这样,现有的事件数据将会全部丢失,但是新的日志文件将在事

Python中的精度损失问题_元角分python_weixin_44545984的博客-程序员秘密

Python中的精度损失问题引言示例问题问题解决引言在写python程序时,我们不可避免地要和小数打交道,但是python的小数有一个精度损失的问题,那么怎样来解决呢?示例问题加入你想开发一个程序将一定数量的钱分类成几个更小的货币单元。这个程序让用户输入总金额,这是一个用元角分来表示的浮点值,然后输出一个报告,罗列出等价的货币:XX元X角X分的,如示例运行所示:# 我们先以11.56为案...

使用Python进行同期群分析(Cohort Analysis)_dfi.export_小小明-代码实体的博客-程序员秘密

同期群分析同期群分析概念同期群(Cohort)的字面意思(有共同特点或举止类同的)一群人,比如不同性别,不同年龄。结合到用户分析层面,比如不同月份获取的用户,不同渠道新增用户,具备不同特征的用户(比如微信里每天至少和10个以上朋友微信的用户)。同期群分析(Cohort Analysis),将这些具有不同特征的人群进行对比分析,以发现他们在时间维度下的行为差异。同期群分析的分组逻辑有:按获客月份(按周甚至按天分组)按获客渠道按照用户完成的特定行为,比如用户访问网站的次数或者购买次数来分类。

策略(Strategy)模式_梵法利亚的博客-程序员秘密

当实现某一个功能存在多种算法或者策略,我们可以根据环境或者条件的不同选择不同的算法或者策略来完成该功能,如数据排序策略有冒泡排序、选择排序、插入排序、二叉树排序等。如果使用多重条件转移语句实现(即硬编码),不但使条件语句变得很复杂,而且增加、删除或更换算法要修改原代码,不易维护,违背开闭原则。如果采用策略模式就能很好解决该问题。什么是策略(Strategy)模式?策略(Strategy)模式的定义:该模式定义了一系列算法,并将每个算法封装起来,使它们可以相互替换,且算法的变化不会影响使用算法的客户。策

HNUST 1603 - ADA IV型数(打表)_殷阳的博客-程序员秘密

Ada三岁了,会掰着指头数数了.她的爸爸既是欢喜,又杂着忧愁.欢喜的是,教了她三年,终于会数了. 忧的是,Ada对数字实在不敏感啊!Ada的爸爸又准备了新的题目训练她. ADA IV型数的定义如下: 把一个正整数的各个位上的数字依次组成一个数列,如果该数列是等差数列,则该数为ADA IV型数.如13579和2468都是ADA IV型数, 153和246810都不是ADA IV型数.为了避免不必要的麻烦,规定区间[1,99]的数均为ADA IV型数.给定一个区间[A,B],其中1<=A<=B<=10

随便推点

MICCAI 2021医学影像顶会来袭!GAMMA国际眼科竞赛正式启动!_Amusi(CVer)的博客-程序员秘密

点击下方卡片,关注“CVer”公众号AI/CV重磅干货,第一时间送达在人工智能技术的加持下,医学影像自动分析的精度越来越高,计算机辅助诊断已成为现实,医生可根据人工智能提供的初步诊断结果进...

linux运维自动化shell脚本小工具_csid_502的博客-程序员秘密

1.检测cpu剩余百分比#!/bin/bash#Inspect CPU#Sun Jul 31 17:25:41 CST 2016PATH=/usr/local/bin:/bin:/usr/bin:/usr/local/sbin:/usr/sbin:/sbin:/home/wl/binexport PATHTERM=linuxexport TERM...

GPDB管理员笔记(一)数据库对象_showmyheart的博客-程序员秘密

数据库对象管理1、创建数据库 create database new_dbname;      createdb -h localhost -p 5432 mydb2、克隆数据库 3、查看数据libo=# \l                  List of databases   Name    |  Owner  | Encoding |  Access privil

java 判断文件损坏_Java校验文件是否损坏_weixin_39731782的博客-程序员秘密

经常在程序操作文件时,遇到文件以及损坏的问题,那么如何校验文件是否损坏呢?这就需要Apache Tika包了,maven引用如下:org.apache.tikatika-parsers1.16org.apache.tikatika1.16pomorg.apache.tikatika-core1.16使用方法:try {Tika tika = new Tika();URL url = new URL...

树莓派4b用网线连接笔记本(自己笔记用)_树莓派4b网线连接电脑_金耳钩的博客-程序员秘密

1,用SD card for matter 格式化sd卡2,下载好树莓派系统的镜像3,用win32disklmmager往sd卡里烧录下载好的镜像4,烧录好后,拔出读卡器,再插入,在SD卡中新建ssh文件5,新建好后把SD卡插回树莓派,上电。6,首先获取树莓派的地址,需要设置网络属性,勾选“允许其他网络用户通过此计算机的internet连接来连接”,将无线网链接属性改为本地连接或者是以太网连接。7,打开电脑的cmd, 输入ping raspberrypi.local,可以得到树莓派的

欧拉函数|(扩展)欧拉定理|欧拉反演_andyc_03的博客-程序员秘密

欧拉函数作为积性函数,有以下性质:关于扩欧,这里有一个单独的blog重头戏!欧拉反演