位置: 编程技术 - 正文

Python 爬虫模拟登陆知乎(python爬虫模拟浏览器)

编辑:rootadmin

推荐整理分享Python 爬虫模拟登陆知乎(python爬虫模拟浏览器),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python爬虫模拟搜索数据下载,python爬虫模拟点击JavaScript,python爬虫模拟浏览器,Python 爬虫模拟登录,python爬虫模拟点击,python爬虫模拟点击,Python爬虫模拟浏览器向服务器发送请求,Python爬虫模拟浏览器向服务器发送请求,内容如对您有帮助,希望把文章链接给更多的朋友!

在之前写过一篇使用python爬虫爬取电影天堂资源的文章,重点是如何解析页面和提高爬虫的效率。由于电影天堂上的资源获取权限是所有人都一样的,所以不需要进行登录验证操作,写完那篇文章后又花了些时间研究了一下python模拟登陆,网上关于这部分的资料很多,很多demo都是登陆知乎的,原因是知乎的登陆比较简单,只需要post几个参数,保存cookie。而且还没有进行加密,很适合用来做教学。我也是是新手,一点点的摸索终于成功登陆上了知乎。就通过这篇文章分享一下学习这部分的心得,希望对那些和我一样的初学者有所帮助。

  先来说一下,爬虫模拟登陆的基本原理吧,我也是刚开始接触对于一些深层次的东西也不是掌握的很清楚。首先比较重要的一个概念就是cookie,我们都知道HTTP是一种无状态的协议,也就是说当一个浏览器客户端向服务器提交一个request,服务器回应一个response后,他们之间的联系就中断了。这样就导致了这个客户端在向服务器发送请求时,服务器无法判别这两个客户端是不是一个了。这样肯定是不行的。这时cookie的作用就体现出来了。当客户端向服务器发送一个请求后,服务器会给它分配一个标识(cookie),并保存到客户端本地,当下次该客户端再次发送请求时连带着cookie一并发送给服务器,服务器一看到cookie,啊原来是你呀,这是你的东西,拿走吧。所以一个爬虫模拟登陆就是要要做到模拟一个浏览器客户端的行为,首先将你的基本登录信息发送给指定的url,服务器验证成功后会返回一个cookie,我们就利用这个cookie进行后续的爬取工作就行了。

   我这里抓包用的就是chrome的开发者工具,不过你也可以使用Fiddler、Firebug等都可以,只不过作为一名前端er对chrome有一种特殊的喜爱之情。准备好工具接下来就要打开知乎的登陆页面并查看 我们可以很容易发现这个请求 发送的就是登录信息,当然我使用手机登陆的 用邮件登陆的是最后结尾是email

所以我们只需要向这个地址post数据就行了

Python 爬虫模拟登陆知乎(python爬虫模拟浏览器)

phone_num 登录名password 密码captcha_type 验证码类型(这个参数着这里并没有实质作用)rember_me 记住密码

_xsrf 一个隐藏的表单元素 知乎用来防御CSRF的(关于CSRF请打开这里) 我发现这个值是固定所以就在这里直接写死了 若果有兴趣的同学可以写一个正则表达式 把这部分的值提取出来 这样更严谨一些。

当你看到服务器返回这个信息的时候就说明你登陆成功了

然后你就可以用这个身份去抓取知乎上的页面了

这段代码就是通过实例化一个opener对象保存成功登陆后的cookie信息,然后再通过这个opener带着这个cookie去访问服务器上关于这个身份的完整页面。更复杂的比如微博的登陆这种对请求的数据进行加密了的后面有时间再写出来,与大家分享

使用Python多线程爬虫爬取电影天堂资源 最近花些时间学习了一下Python,并写了一个多线程的爬虫程序来获取电影天堂上资源的迅雷下载地址,代码已经上传到GitHub上了,需要的同学可以自行

利用Python为iOS生成图标和截屏 简介这两天更新完Xcode8之后发现Xcode对图标的要求又有了变化,之前用的一个小应用IconKit还没赶上节奏,已经不能满足Xcode8的要求了。于是就想起来用Py

Linux 下 Python 实现按任意键退出的实现方法 某天在群内有同学问到,在python下我用input或者raw_input都得输入完后回车才能获取到输入的值,那如何实现任意键退出暂停等功能呢,我当时也没有多想

标签: python爬虫模拟浏览器

本文链接地址:https://www.jiuchutong.com/biancheng/384485.html 转载请保留说明!

上一篇:python 自动化将markdown文件转成html文件的方法(python自动化源码)

下一篇:使用Python多线程爬虫爬取电影天堂资源(python 多线程)

  • 企业资产损失税前扣除管理办法2011215号第46条
  • 企业所得税减免税额包括哪些
  • 自己打印的机票怎么退票
  • 预缴的增值税怎么算
  • 工业企业购进货物进项税额抵扣的时限
  • 递延收益在资产负债表哪里列示
  • 公司往来款现金流量表
  • 质量问题扣款账务处理
  • 残料的会计分录
  • 购买软件的增值税可以抵扣吗
  • 企业所得税按季预缴怎么算
  • 定额发票验旧后还能用吗
  • 哪些人可以享受长护险
  • 美国税改“梦想”很丰满,显示很骨感
  • 房地产公司销售自建房怎么纳税
  • 增值税税控系统专用设备
  • 销售应税消费品应交的消费税分录
  • 失业保险费退还计入什么科目
  • 个人买卖黄金如何缴税
  • 发票查询发票代码有误
  • 季度所得税可以不预缴吗
  • 小规模纳税人一个月能开多少税票
  • 汇算清缴时所得税费用
  • 网络端口被占用怎么解决
  • 开发票没有银行回单可以入帐吗?
  • 代扣个税手续费返还增值税税率
  • 预付办公用品费用,未收到发票
  • 怎么获得2021
  • php环境配置教程Apace
  • 支付服务器年租什么意思
  • ixapplet.exe - ixapplet是什么进程 有何作用
  • 生产车间闲置的固定资产
  • php字符串定义
  • linux源码安装软件的方法介绍
  • 营改增增值税会计处理
  • 一岁宝宝喝红糖姜水
  • thinkphp with
  • 增值税专用发票丢了怎么补救
  • 设计部工资计入什么费用
  • pytorch开源项目
  • 空调年折旧率
  • yolov8训练自己的数据集 Windows
  • yolo s
  • docker的常用命令汇总
  • 用python编写素数
  • php打不开网页
  • 出口报关需要增税吗
  • 租赁房屋开具发票商品名称
  • 利润表中的管理费用怎么填
  • access创建一个表
  • 什么企业符合高新技术企业
  • 符合规定的国内旅客运输发票可以作为扣税凭证吗
  • 所得税申报表营业成本包括哪些
  • 固定资产登记在三栏明细账可以吗
  • 加计扣除产生的利润可以分配吗
  • 非公司股东可以分红吗
  • 解除合同补偿金需要缴纳个税吗
  • 企业发生的经济业务主要有哪些
  • 企业应如何降低消费者
  • 远程连接局域网电脑
  • T-SQL中使用正则表达式函数
  • mysql 5.7.18 winx64 免安装 配置方法
  • xp系统如何批量复制文件路径
  • vsftpd.service disabled
  • 硬盘安装后不显示
  • 设置u盘为只读
  • windowsxp如何隐藏文件
  • centos6.5升级到7.5
  • windows设备管理器在哪里打开
  • win10系统打不开应用程序
  • 开发者学校
  • 铁嘴啥意思
  • androidserviceslibrary设置
  • css的基础
  • 如何获取硬盘所有文件的列表
  • 解决在基层
  • androidsdk的计算机
  • 企业购买小轿车一辆会计分录
  • 税务申报作废后无法申报
  • 车辆大本怎么办理
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设