位置: 编程技术 - 正文

Node.js+jade抓取博客所有文章生成静态html文件的实例(nodejs抓取网页内容)

编辑:rootadmin

推荐整理分享Node.js+jade抓取博客所有文章生成静态html文件的实例(nodejs抓取网页内容),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:node抓包工具,node抓包,javascript抓包,js抓取数据,node抓包,node.js抓包,nodejs抓取网页内容,nodejs抓取网页内容,内容如对您有帮助,希望把文章链接给更多的朋友!

这篇文章,我们就把上文中采集到的所有文章列表的信息整理一下,开始采集文章并且生成静态html文件了.先看下我的采集效果,我的博客目前篇文章,1分钟不到就全部采集生成完毕了,这里我截了部分的图片,文件名用文章的id生成的,生成的文章,我写了一个简单的静态模板,所有的文章都是根据这个模板生成的.

项目结构:

好了,接下来,我们就来讲解下,这篇文章主要实现的功能:

1,抓取文章,主要抓取文章的标题,内容,超链接,文章id(用于生成静态html文件)

2,根据jade模板生成html文件

一、抓取文章如何实现?

非常简单,跟上文抓取文章列表的实现差不多

参数url就是文章的地址,把文章的内容抓取完毕之后,调用filterArticle( html ) 过滤出需要的文章信息(id, 标题,超链接,内容),然后用jade的renderFile这个api,实现模板内容的替换,

Node.js+jade抓取博客所有文章生成静态html文件的实例(nodejs抓取网页内容)

模板内容替换完之后,肯定就需要生成html文件了, 所以用writeFile写入文件,写入文件时候,用id作为html文件名称。这就是生成一篇静态html文件的实现,

接下来就是循环生成静态html文件了, 就是下面这行:

if ( aUrl.length ) crawlerArc( aUrl.shift() );

aUrl保存的是我的博客所有文章的url, 每次采集完一篇文章之后,就把当前文章的url删除,让下一篇文章的url出来,继续采集

完整的实现代码server.js:

layout.jade文件:

后续的打算:

1,采用mongodb入库

2,支持断点采集

3,采集图片

4,采集小说

等等....

以上这篇Node.js+jade抓取博客所有文章生成静态html文件的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持积木网。

在 Node.js 中使用原生 ES 模块方法解析 从版本8.5.0开始,Node.js开始支持原生ES模块,可以通过命令行选项打开该功能。新功能很大程度上得归功于BradleyFarias。1.演示这个示例的代码目录结构如

深入理解Node.js中通用基础设计模式 谈到设计模式,你可能会想到singletons,observers(观察者)或factories(工厂方法)。本文不并专门探讨他们。只是探讨Node.JS一些基础模式的实现,像依赖

在Debian(Raspberry Pi)树莓派上安装NodeJS的教程详解 在树莓派上运行NodeJS并不需要特别的配置,你只需要确保可以用openssh远程连接到你的树莓派。安装并配置OpenSSH服务器它可以确保你能远程连接到树莓派

标签: nodejs抓取网页内容

本文链接地址:https://www.jiuchutong.com/biancheng/379517.html 转载请保留说明!

上一篇:Nodejs中使用phantom将html转为pdf或图片格式的方法(nodejs使用视频教程)

下一篇:在 Node.js 中使用原生 ES 模块方法解析(node.js使用教程)

  • 商品混凝土税率为啥是3%
  • 个税申报按权责发生制行吗?
  • 国税纳税标准
  • 财务管理税后利息率计算公式
  • 会计中级工作年限查得严么
  • 进项税加计抵减生产性服务
  • 红字发票票据怎么处理
  • 商业承兑汇票风险大吗
  • 当年应收账款无明细科目
  • 后续支出均应计入当期损益
  • 不征收增值税项目进项税额可以抵扣吗
  • 仓库多入库怎么退
  • 多交增值税如何退回
  • 企业年金企业所得税扣除标准
  • 上市公司资产重组办法
  • 小规模减免的增值税汇算清缴
  • 增值税专用发票有几联?
  • 为什么浏览器自动打开
  • 费用已付款跨年怎么做账
  • win10如何查看显卡配置
  • php数据库添加失败的原因
  • 排污费应计入什么会计科
  • 医院的重要
  • 消费税的会计分录怎么写
  • 员工重复报销后如何处理
  • 城建税征税范围广吗
  • 企业无偿借款的税务处理
  • php发送post请求api
  • html代码form
  • php curl 封装
  • 申报经营所得成绩怎么填
  • 营业外支出贷方在利润表怎么体现
  • 个人出租非住房房产税
  • 以个人名义和公司名义入股的利弊
  • 现金流量表哪些数据和资产负债表一致
  • 帝国cms使用手册
  • MySQL中distinct与group by之间的性能进行比较
  • mysql清空缓存
  • 会计caac是什么意思
  • 国税联网状态怎么没显示
  • 合同权益转让 范本
  • sql server数据表的关联
  • 退回的以前年度的附加怎么申报
  • 无形资产的意思是
  • 监控 固定资产
  • 公司支付宝账户提现需要手续费吗
  • 公益性捐赠要确认递延吗
  • 哪些发票不能开专票
  • 公司的钱如何提出来
  • 记账凭证的分类及每类的具体含义是什么
  • 从农民手里租用土地用于科研要开发票吗
  • sql只能查询数据,不能修改数据
  • mysql数据库崩了怎么恢复
  • windows8命令提示符命令大全
  • Xp系统的桌面文件在哪里
  • macos终端删除文件
  • linux编译步骤
  • utilman.exe - utilman是什么进程
  • 什么是微软软件
  • 如何隐藏windows激活水印
  • win8系统怎么创建局域网
  • Mac苹果系统怎么转换中文
  • win8笔记本电脑投屏方法
  • 安装centos7安装位置没有磁盘
  • js数组entries
  • firefox下rowspan+border+border-collapse的bug
  • Unity3D Vuforia Android 相机调焦
  • jquery popupDialog 使用 加载jsp页面的方法
  • node语句
  • canvas+javascript
  • jquery校验
  • python中序列
  • Python for Informatics 第11章之正则表达式(二)
  • javascript的核心组成部分
  • 沧州地税局领导班子
  • 武汉经济技术开发区法院立案庭电话
  • 惠州市公交车投诉平台
  • 北京市地税局第一稽查局郭洪鑫
  • 城镇土地使用税暂行条例
  • 官方客服热线人工台电话
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设