位置: 编程技术 - 正文

python解决网站的反爬虫策略总结(python web网站)

编辑:rootadmin

推荐整理分享python解决网站的反爬虫策略总结(python web网站),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:网站运行python,python对网页进行操作,python对网页进行操作,python对网页进行操作,python怎么写网站,网站运行python,网站运行python,网站运行python,内容如对您有帮助,希望把文章链接给更多的朋友!

本文详细介绍了网站的反爬虫策略,在这里把我写爬虫以来遇到的各种反爬虫策略和应对的方法总结一下。

从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分。这里我们只讨论数据采集部分。

一般网站从三个方面反爬虫:用户请求的Headers,用户行为,网站目录和数据加载方式。前两种比较容易遇到,大多数网站都从这些角度来反爬虫。第三种一些应用ajax的网站会采用,这样增大了爬取的难度(防止静态爬虫使用ajax技术动态加载页面)。

1、从用户请求的Headers反爬虫是最常见的反爬虫策略。

伪装header。很多网站都会对Headers的User-Agent进行检测,还有一部分网站会对Referer进行检测(一些资源网站的防盗链就是检测Referer)。如果遇到了这类反爬虫机制,可以直接在爬虫中添加Headers,将浏览器的User-Agent复制到爬虫的Headers中;或者将Referer值修改为目标网站域名[评论:往往容易被忽略,通过对请求的抓包分析,确定referer,在程序中模拟访问请求头中添加]。对于检测Headers的反爬虫,在爬虫中修改或者添加Headers就能很好的绕过。

2、基于用户行为反爬虫

还有一部分网站是通过检测用户行为,例如同一IP短时间内多次访问同一页面,或者同一账户短时间内多次进行相同操作。[这种防爬,需要有足够多的ip来应对]

(1)、大多数网站都是前一种情况,对于这种情况,使用IP代理就可以解决。可以专门写一个爬虫,爬取网上公开的代理ip,检测后全部保存起来。有了大量代理ip后可以每请求几次更换一个ip,这在requests或者urllib中很容易做到,这样就能很容易的绕过第一种反爬虫。

编写爬虫代理:

python解决网站的反爬虫策略总结(python web网站)

步骤:

1.参数是一个字典{'类型':'代理ip:端口号'}  proxy_support=urllib.request.ProxyHandler({})2.定制、创建一个opener  opener=urllib.request.build_opener(proxy_support)3a.安装opener  urllib.request.install_opener(opener)3b.调用opener  opener.open(url)

用大量代理随机请求目标网站,应对反爬虫

(2)、对于第二种情况,可以在每次请求后随机间隔几秒再进行下一次请求。有些有逻辑漏洞的网站,可以通过请求几次,退出登录,重新登录,继续请求来绕过同一账号短时间内不能多次进行相同请求的限制。[评论:对于账户做防爬限制,一般难以应对,随机几秒请求也往往可能被封,如果能有多个账户,切换使用,效果更佳]

3、动态页面的反爬虫

上述的几种情况大多都是出现在静态页面,还有一部分网站,我们需要爬取的数据是通过ajax请求得到,或者通过Java生成的。

解决方案:Selenium+PhantomJS

Selenium:自动化web测试解决方案,完全模拟真实的浏览器环境,完全模拟基本上所有的用户操作

PhantomJS :一个没有图形界面的浏览器

获取淘宝妹妹的个人详情地址:

感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!

Python实现批量检测HTTP服务的状态 用Python实现批量测试一组url的可用性(可以包括HTTP状态、响应时间等)并统计出现不可用情况的次数和频率等。类似的,这样的脚本可以判断某个服务

利用Python实现颜色色值转换的小工具 先看看Zeplin的颜色色值显示示例原有处理方式因为我会Python(仅限于终端输入python然后当做计算器算,或者用hex()函数把十进制转换成十六进制),所以

Python中断言Assertion的一些改进方案 PythonAssert为何不尽如人意Python中的断言用起来非常简单,你可以在assert后面跟上任意判断条件,如果断言失败则会抛出异常。assert1+1==2assertisinstance('Hello

标签: python web网站

本文链接地址:https://www.jiuchutong.com/biancheng/383430.html 转载请保留说明!

上一篇:Python控制多进程与多线程并发数总结(python多进程数量限制)

下一篇:Python实现批量检测HTTP服务的状态(python 批量查询)

  • 职工福利费的税额
  • 税金及附加要计入本年利润吗
  • 首套房契税税率是多少?
  • 生产经营怎么填写
  • 出租划拨土地收费合法吗
  • 用房租入股
  • 以前年度计提的工资没发放怎么处理
  • 服务,不动产和无形资产扣除项目本期实际扣除金额
  • 企业长期贷款具备什么条件
  • 向个人借款计入什么会计科目
  • 合同款未付怎么写欠条
  • 贸易公司退税怎么做账
  • 外商投资企业母公司派到境内职员回国后
  • 分公司的收入
  • 资产折旧摊销扣什么税
  • 小规模纳税人增值税账务处理
  • 外购产品用于赠送帐务处理
  • 共同投资项目工程款怎么开票?
  • 美团扣点怎么做凭证
  • 酒店住宿收入确认原则的条件
  • 增值税小规模申报表
  • 一般纳税人小微企业认定标准
  • 发票盖章盖成了财务章有影响吗
  • 客户支付货款时扣除了手续费
  • 玩穿越火线总是提示机器遇到
  • 公司分期付款购车账务处理
  • 以前年度应收账款错误如何调整
  • 文件改后缀什么意思
  • DWHeartbeatMonitor.exe进程是什么意思 DWHeartbeatMonitor是安全的进程吗
  • 只有使用权的房子能继承吗
  • php实现多条件查询
  • 免费GPU:九天•毕昇平台使用教程
  • 零售价是含税价还是不含税价
  • 配置多数据源的好处
  • 进项发票过期了怎么办
  • 土地转让注意事项有哪些
  • 云服务器可以一直开着吗
  • 蓝桥杯b组2020
  • unet bn
  • 微软和梅赛德斯奔驰宣布合作
  • js删除
  • 出售子公司股权不丧失控制权
  • 主营业务收入需要结转吗
  • 如何检查文件是否有毒
  • 所得税费用怎样算出来的
  • 中小企业发展专项资金亮点 免申即享
  • 个体户开电子发票怎么申请
  • 发票税率开错了3%开成5%怎么办?
  • 投资性房地产转固定资产账务处理
  • 商品削价的核算
  • win7怎么配置
  • 短期借款预提利息通过短期借款科目核算
  • 记账凭证粘贴顺序银行回单
  • 外汇增值税是怎样计算
  • 预收账款和预付账款都属于负债类科目
  • 其他货币的账面价值包括
  • 包工包料工程如何报价合理
  • 餐饮店原材料表格
  • 讲课费需要提供发票吗
  • 绿化补偿标准
  • 工业企业发生的各项费用都应计入产品成本对不对
  • mysql三种安装方式
  • 彻底清除硬盘中的文件
  • linux中安装软件可使用哪些方式
  • windows搭建radius
  • linux系统的配置设计过程
  • ntfs硬盘分区整数
  • 查看 linux版本
  • win10一年更新几次
  • node.js批量添加数据
  • css中dl
  • bootstrap滚动监听效果
  • 浅析javascript中function 的 length 属性
  • JavaScript jQuery 中定义数组与操作及jquery数组操作
  • Ubuntu14.04 Android 源码编译
  • jquery获取浏览器宽度
  • 税务个人廉洁谈话记录内容
  • 煤炭资源税税率是多少啊
  • 财税公司经营范围介绍
  • 累计预扣预缴税额
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设