位置: 编程技术 - 正文

PHP+HTML+JavaScript+Css实现简单爬虫开发

编辑:rootadmin

推荐整理分享PHP+HTML+JavaScript+Css实现简单爬虫开发,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

开发一个爬虫,首先你要知道你的这个爬虫是要用来做什么的。我是要用来去不同网站找特定关键字的文章,并获取它的链接,以便我快速阅读。

按照个人习惯,我首先要写一个界面,理清下思路。

1、去不同网站。那么我们需要一个url输入框。

2、找特定关键字的文章。那么我们需要一个文章标题输入框。

3、获取文章链接。那么我们需要一个搜索结果的显示容器。

直接上代码,然后加上自己的一些样式调整,界面就完成啦:

PHP+HTML+JavaScript+Css实现简单爬虫开发

那么接下来就是功能的实现了,我用PHP来写,首先第一步就是获取网站的html代码,获取html代码的方式也有很多,我就不一一介绍了,这里用了curl来获取,传入网站url就能得到html代码啦:

虽然得到了html代码,但是很快你会遇到一个问题,那就是编码问题,这可能让你下一步的匹配无功而返,我们这里统一把得到的html内容转为utf8编码:

得到网站的html,要获取文章的url,那么下一步就是要匹配该网页下的所有a标签,需要用到正则表达式,经过多次测试,最终得到一个比较靠谱的正则表达式,不管a标签下结构多复杂,只要是a标签的都不放过:(最关键的一步)

匹配的结果在$matches中,它大概是这样的一个多维素组:

只要能得到这个数据,其他就完全可以操作啦,你可以遍历这个素组,找到你想要a标签,然后获取a标签相应的属性,想怎么操作就怎么操作啦,下面推荐一个类,让你更方便操作a标签:

当然,这只是一种方式,你也可以通过正则表达式匹配你想要的信息,把数据玩出新花样。

得到并匹配得出你想要的结果,下一步当然就是传回前端将他们显示出来啦,把接口写好,然后前端用js获取数据,用jquery动态添加内容显示出来:

上最终效果图:

标签: PHP+HTML+JavaScript+Css实现简单爬虫开发

本文链接地址:https://www.jiuchutong.com/biancheng/292494.html 转载请保留说明!

上一篇:浅谈PHP中其他类型转化为Bool类型(浅谈php中其他类的使用)

下一篇:PHP中抽象类、接口的区别与选择分析(php抽象函数)

  • 房产税的计算方法举例说明
  • 个人住房5年后买卖如何交税?
  • 同级财政拨款的管理要求有哪些
  • 支付所得税属于筹资活动吗
  • 物料损失怎么入账
  • 过路费纸质发票怎么生成电子发票
  • 自己打印raz
  • 清算报告与清算方案区别
  • 基本户被冻结怎么缴投标保证金
  • 员工收到现金工资怎么写收据
  • 发票可以盖财务章吗?
  • 结转本期各项收入
  • 固定资产盘盈原因
  • 单位租个人房屋怎么开票
  • 定期定额户超过定额怎么报个税
  • 暂估应付账款借方余额
  • 高新技术企业研发费
  • 增值税普通纳税人税率
  • 收派服务发票需交税吗
  • 报税提示您可能缺少相关组件怎么处理
  • 月销售额小于10万的一般纳税人减免
  • 收回公司代垫职工款项怎么做凭证?
  • 报关单上的运费怎么看
  • 电子发票会计怎么记账
  • 发票分割单可以抵扣吗
  • 个体餐饮店交税吗
  • 付佣金怎么做分录
  • 企业间贴现手续费怎么记账?
  • 历史时间线怎么写
  • windows11怎么设置默认应用
  • 总公司人员的工资子公司可以发吗
  • 差旅费涉及的科目
  • 代缴个税的分录
  • 购入包装物的增值税计入进项税吗
  • php和aspnet哪个好
  • framework在哪里打开
  • LangChain与大型语言模型(LLMs)应用基础教程:信息抽取
  • 观察者模式java实现
  • php-xml
  • 微信小程序实现轮播图
  • Cookie和Session的区别,各自的使用方法及常用操作
  • 简单易学的前端框架
  • 住宿费当月抵扣吗
  • 企业账务处理程序的概念
  • 公司从一个帐户里扣税吗
  • 软件研发的整个流程
  • 经营活动的现金流量占全部现金流量的比重越大
  • 专利代理服务费如何记账
  • 社区居委会有哪些成员
  • 一般餐饮业的固废是什么
  • 企业应收票据到期怎么办
  • 原材料跌价分录
  • 广告制作需要交文化事业建设税
  • 短期理财收益账务分录
  • 年末增值税有留底,挂在哪个科目
  • 上海残疾人就业保障金计算公式
  • 设备信息windows6.1
  • win81蓝屏重启故障
  • 在windows上装ubuntu
  • winsvc是什么进程
  • win10截图截不了怎么办?
  • windows设置
  • windowsxp开机加载页面不动
  • 电脑自带win8是装win7还是win10
  • win8设置无线网络
  • javaweb技术栈是什么
  • 批处理文件用的什么语言
  • js中的onchange
  • js布局与css布局
  • javascript基础笔记
  • 在xml文件里使用的命令
  • JavaScript replace(rgExp,fn)正则替换的用法
  • 简述javascript
  • JavaScript ParseFloat()方法
  • jquery.load()方法,刷新网页
  • 重庆地方税务局刘飞虎
  • 电子税务局怎么添加银行账户信息
  • 湖北税务报税系统官网
  • 开发商代收代缴电费能开发票吗
  • 贷款利息扣款日未足额缴纳
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设