位置: 编程技术 - 正文

如何准确判断请求是搜索引擎爬虫(蜘蛛)发出的请求(怎么看判断)

编辑:rootadmin

推荐整理分享如何准确判断请求是搜索引擎爬虫(蜘蛛)发出的请求(怎么看判断),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:如何准确判断请假成功,教我怎么判断,如何准确判断请假成功,如何准确判断请假成功,如何准确判断请假成功,如何准确的判断,如何准确的判断,如何准确判断请假成功,内容如对您有帮助,希望把文章链接给更多的朋友!

网站经常会被各种爬虫光顾,有的是搜索引擎爬虫,有的不是,通常情况下这些爬虫都有UserAgent,而我们知道UserAgent是可以伪装的,UserAgent的本质是Http请求头中的一个选项设置,通过编程的方式可以给请求设置任意的UserAgent。

所以通过UserAgent判断请求的发起者是否是搜索引擎爬虫(蜘蛛)的方式是不靠谱的,更靠谱的方法是通过请求者的ip对应的host主机名是否是搜索引擎自己家的host的方式来判断。

要获得ip的host,在windows下可以通过nslookup命令,在linux下可以通过host命令来获得,例如:

这里我在windows下执行了nslookup ip 的命令,从上图可以看到这个ip的主机名是crawl----.googlebot.com。 这说明这个ip是一个google爬虫,google爬虫的域名都是 xxx.googlebot.com.

我们也可以通过python程序的方式来获得ip的host信息,代码如下:

上述代码使用了socket模块的gethostbyaddr的方法获得ip地址的主机名。

常用蜘蛛的域名都和搜索引擎官网的域名相关,例如:

百度的蜘蛛通常是baidu.com或者baidu.jp的子域名

google爬虫通常是googlebot.com的子域名

微软bing搜索引擎爬虫是search.msn.com的子域名

搜狗蜘蛛是crawl.sogou.com的子域名

基于以上原理,我写了一个工具页面提供判断ip是否是真实搜索引擎的工具页面,该页面上提供了网页判断的工具和常见的google和bing的搜索引擎爬虫的ip地址。

附带常见搜索引擎蜘蛛的IP段:

蜘蛛名称 IP地址 Baiduspider

...* ...* ...* ...* ...* ...* ...*

YodaoBot

..7. ..7. ..7.

Sogou web spider

...* ...*

Googlebot

...*

Yahoo! Slurp

...* ...* .6..* .6..*

Yahoo ContentMatch Crawler 如何准确判断请求是搜索引擎爬虫(蜘蛛)发出的请求(怎么看判断)

...* ...*

Sogou-Test-Spider

... ...

Twiceler

... ...9

Yahoo! Slurp China

...*

Sosospider ..0.* CollapsarWEB qihoobot

...

NaverBot

...

Sogou Orion spider

... ...

Sogou head spider

...

SurveyBot

..5. ...

Yanga WorldSearch Bot v

... ...

baiduspider-mobile-gate

..5. ...

discobot

...

ia_archiver ... msnbot

... ... ...

sogou in spider

...

ps:https协议网页能够被搜索引擎收录吗

百度现在只能收录少部分的https,大部分的https网页无法收录。

不过我查询了google资料,Google能够比较好地收录https协议的网站。

所以如果你的网站是中文的,而且比较关注搜索引擎自然排名流量这块,建议尽量不要将所有内容都放到https中去加密去。

可考虑的方式是:

1、对于需要加密传递的数据,使用https,比如用户登录以及用户登录后的信息;

2、对于普通的新闻、图片,建议使用http协议来传输;

3、网站首页建议使用http协议的形式。

详解Python中的元组与逻辑运算符 Python元组元组是另一个数据类型,类似于List(列表)。元组用"()"标识。内部元素用逗号隔开。但是元素不能二次赋值,相当于只读列表。#!/usr/bin/python#

Python中的字典与成员运算符初步探究 Python元字典字典(dictionary)是除列表以外python之中最灵活的内置数据结构类型。列表是有序的对象结合,字典是无序的对象集合。两者之间的区别在于:

举例讲解Python中的身份运算符的使用方法 Python身份运算符身份运算符用于比较两个对象的存储单元以下实例演示了Python所有身份运算符的操作:#!/usr/bin/pythona=b=if(aisb):print"Line1-aandbhavesameidenti

标签: 怎么看判断

本文链接地址:https://www.jiuchutong.com/biancheng/377066.html 转载请保留说明!

上一篇:Python语法快速入门指南(python3.6语法)

下一篇:详解Python中的元组与逻辑运算符(python元数据)

  • 境内单位和个人向境外单位提供服务
  • 价税分离计算公式有哪些
  • 退还押金怎么做账
  • 电子发票有使用期限吗
  • 研发费用可以计入哪个科目
  • 社保公司部分交多少比例
  • 非财政补助支出
  • 房产契税新政策消息2023
  • 加油费充值卡发票可以报销吗
  • 在建工程进项税额
  • 事业单位存货包括哪些
  • 银行利息的现金流量项目是什么
  • 叉车车船税每年都要交吗
  • 专票作废流程是什么意思
  • 本月应该确认收入,但是一般下月才开票该怎么处理?
  • 计算广告的基本运作模式
  • 存根联和记账联丢失有影响吗
  • 外汇汇率在其中扮演什么角色?
  • 财务软件里凭证打印如何设置不打印三级科目
  • 去银行打印公户流水需要带什么
  • 鸿蒙负一屏怎么设置
  • 关闭同步中心 win10
  • 跟a签订合同可以撤销吗
  • 中文字符和英文字符的转换
  • 教学用品列入什么费用
  • 借股东现金会计分录
  • 什么是增值税差额征税政策的小规模纳税人
  • 前端开发csdn
  • 出售固定资产减免的税款账务处理
  • Yii2.0小部件GridView(两表联查/搜索/分页)功能的实现代码
  • 基于springboot的oa
  • 微信小程序完整授权
  • 只有销售才能使你成功的名言
  • 企业自行清算的条件是什么
  • 如何区分误餐费和补助费
  • 金税盘开票如何增加商品编码
  • 开收据可以列收入吗
  • 企业购买商铺会查征信吗
  • mongodb用法
  • 餐饮服务税率是服务类税率还是货物类
  • 委外加工怎么盘点
  • 原材料计入什么摘要
  • 公司出售二手车要交哪些税
  • 增值税专用发票几个点
  • 总公司账务处理
  • 银行三证合一是哪三证
  • 盈余公积转增实收资本对会计要素的影响
  • 发票跨年冲红怎么做账
  • 公司办理宽带套餐合法吗
  • 出租车费用分录
  • 青苗赔偿管理办法
  • 如何审计营业收入
  • 其他应付款社保借方余额怎么处理
  • mysql5.7.17安装
  • Windows如何查看Mac地址
  • windows导航栏在左边
  • 如何在安装未知应用中修改权限
  • win7电脑开机显示屏显示黑屏怎么办
  • incorrect email format, please re-enter.
  • mac 阿里旺旺怎么使用
  • linux统计文件中每个单词出现的次数
  • xp升win10教程
  • win7网络信号差
  • jquery插件怎么用到自己的网站
  • android应用程序的主要语言是java
  • android自学之路
  • docker save -o
  • unity socket udp
  • javascript ES6 新增了let命令使用介绍
  • unity3d官方
  • linux的cp和mv
  • python命令行在哪
  • 广东电子税务局手机版
  • 江苏食品经营许可证企业端官网
  • 所得税季度预缴,年度汇算清缴
  • 地税发票怎么开 步骤
  • 什么情况适用简易诉讼程序
  • 棚户区改造的房子和商品房有什么区别
  • 融资租赁出租会计账务处理流程
  • 电信业八大争议事件
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设