位置: 编程技术 - 正文

PHP+HTML+JavaScript+Css实现简单爬虫开发

编辑:rootadmin

推荐整理分享PHP+HTML+JavaScript+Css实现简单爬虫开发,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

开发一个爬虫,首先你要知道你的这个爬虫是要用来做什么的。我是要用来去不同网站找特定关键字的文章,并获取它的链接,以便我快速阅读。

按照个人习惯,我首先要写一个界面,理清下思路。

1、去不同网站。那么我们需要一个url输入框。

2、找特定关键字的文章。那么我们需要一个文章标题输入框。

3、获取文章链接。那么我们需要一个搜索结果的显示容器。

直接上代码,然后加上自己的一些样式调整,界面就完成啦:

PHP+HTML+JavaScript+Css实现简单爬虫开发

那么接下来就是功能的实现了,我用PHP来写,首先第一步就是获取网站的html代码,获取html代码的方式也有很多,我就不一一介绍了,这里用了curl来获取,传入网站url就能得到html代码啦:

虽然得到了html代码,但是很快你会遇到一个问题,那就是编码问题,这可能让你下一步的匹配无功而返,我们这里统一把得到的html内容转为utf8编码:

得到网站的html,要获取文章的url,那么下一步就是要匹配该网页下的所有a标签,需要用到正则表达式,经过多次测试,最终得到一个比较靠谱的正则表达式,不管a标签下结构多复杂,只要是a标签的都不放过:(最关键的一步)

匹配的结果在$matches中,它大概是这样的一个多维素组:

只要能得到这个数据,其他就完全可以操作啦,你可以遍历这个素组,找到你想要a标签,然后获取a标签相应的属性,想怎么操作就怎么操作啦,下面推荐一个类,让你更方便操作a标签:

当然,这只是一种方式,你也可以通过正则表达式匹配你想要的信息,把数据玩出新花样。

得到并匹配得出你想要的结果,下一步当然就是传回前端将他们显示出来啦,把接口写好,然后前端用js获取数据,用jquery动态添加内容显示出来:

上最终效果图:

标签: PHP+HTML+JavaScript+Css实现简单爬虫开发

本文链接地址:https://www.jiuchutong.com/biancheng/292494.html 转载请保留说明!

上一篇:浅谈PHP中其他类型转化为Bool类型(浅谈php中其他类的使用)

下一篇:PHP中抽象类、接口的区别与选择分析(php抽象函数)

  • 减免税款的会计分录在什么时候处理
  • 加工费怎么做账
  • 买新车时旧车置换新车划算吗
  • 综合所得减除费用标准
  • 通用发票
  • 电子承兑凭证
  • 出版产品
  • 为职工提供免费午餐
  • 工程物资和特种设备区别
  • 银行存款利息的计算
  • 代理进口业务
  • 调增教育经费如何做账
  • 对公网银支付方式可以选哪些
  • 代扣税金是什么意思
  • 讲师费发票开票科目
  • 房产税计税依据是含税还是不含税
  • 小规模减免的税额怎么做账
  • 金税盘减免税款可以抵扣销项税吗
  • 营改增后建筑业怎么开票
  • NPFMSG.exe - NPFMSG是什么进程 有什么用
  • Laravel Intervention/image图片处理扩展包的安装、使用与可能遇到的坑详解
  • 苹果系统的声音
  • 车船使用税凭证还要过户吗怎么办
  • 结转本月发生的费用
  • 债务担保是什么意思
  • uni-app怎么样
  • 开具增值税发票哪些情形不用交税?
  • phpstorm怎么样
  • framework core
  • 企业产房屋拆迁
  • 运输中合理损耗计入采购成本
  • js中...的用法
  • 哪些发票可以抵企业所得税
  • 小规模开票软件怎么升级
  • python统计出现次数并排序
  • nacos注册流程
  • 开源 okr
  • 融资租赁的固定资产
  • 处置长期股权投资其他综合收益结转
  • 售后回租融资租赁会计处理
  • 珠宝首饰可以开发票吗
  • 入库验收过程中可能出现哪些问题,该如何处理
  • 给员工购买
  • 赠送给客户的商品是否要计入费用?
  • 单位买的空调计入什么科目
  • 工业企业中制造费用包括哪些内容
  • 国际结算手续费收入增值税
  • 月末应交增值税借方余额期末该怎么处理
  • 购入的固定资产,其入账价值包括的内容有
  • 收到银行借款并存入银行会计分录
  • 工程结算一般由什么等方式
  • 人工费用和管理费用比例
  • 投资收益下期间怎么结转
  • sqlserver2005网络配置里没有东西
  • Linux CentOS MySQL数据库安装配置教程
  • mysql 5.7.18 winx64密码修改
  • win10关掉搜索
  • 怎么用winxp的系统光盘启动
  • ubuntu图片查看
  • win7桌面计算机
  • win7系统的磁盘管理在哪里,怎么打开
  • win7系统升级win8
  • win10打开资源管理器很慢
  • 微软强制升级
  • js怎么做网页
  • 第四章之BootStrap表单与图片
  • 前端面试题及答案2023vue3
  • 安卓开发
  • js基于什么
  • 使用 jQuery.ajax 上传带文件的表单遇到的问题
  • nodejs的组成
  • unity控制组件开关
  • python生成器send
  • js初级教程
  • 关联企业签订劳动合同的次数可以累计吗
  • 江苏省税务局电子发票
  • 车辆购置税已缴款未入库可以上牌吗
  • 地税滞纳金如何做账
  • 山西省网上营业执照申请官网?
  • 江苏地方税务局电子税务局
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设