位置: 编程技术 - 正文

Node.js+jade抓取博客所有文章生成静态html文件的实例(nodejs抓取网页内容)

编辑:rootadmin

推荐整理分享Node.js+jade抓取博客所有文章生成静态html文件的实例(nodejs抓取网页内容),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:node抓包工具,node抓包,javascript抓包,js抓取数据,node抓包,node.js抓包,nodejs抓取网页内容,nodejs抓取网页内容,内容如对您有帮助,希望把文章链接给更多的朋友!

这篇文章,我们就把上文中采集到的所有文章列表的信息整理一下,开始采集文章并且生成静态html文件了.先看下我的采集效果,我的博客目前篇文章,1分钟不到就全部采集生成完毕了,这里我截了部分的图片,文件名用文章的id生成的,生成的文章,我写了一个简单的静态模板,所有的文章都是根据这个模板生成的.

项目结构:

好了,接下来,我们就来讲解下,这篇文章主要实现的功能:

1,抓取文章,主要抓取文章的标题,内容,超链接,文章id(用于生成静态html文件)

2,根据jade模板生成html文件

一、抓取文章如何实现?

非常简单,跟上文抓取文章列表的实现差不多

参数url就是文章的地址,把文章的内容抓取完毕之后,调用filterArticle( html ) 过滤出需要的文章信息(id, 标题,超链接,内容),然后用jade的renderFile这个api,实现模板内容的替换,

Node.js+jade抓取博客所有文章生成静态html文件的实例(nodejs抓取网页内容)

模板内容替换完之后,肯定就需要生成html文件了, 所以用writeFile写入文件,写入文件时候,用id作为html文件名称。这就是生成一篇静态html文件的实现,

接下来就是循环生成静态html文件了, 就是下面这行:

if ( aUrl.length ) crawlerArc( aUrl.shift() );

aUrl保存的是我的博客所有文章的url, 每次采集完一篇文章之后,就把当前文章的url删除,让下一篇文章的url出来,继续采集

完整的实现代码server.js:

layout.jade文件:

后续的打算:

1,采用mongodb入库

2,支持断点采集

3,采集图片

4,采集小说

等等....

以上这篇Node.js+jade抓取博客所有文章生成静态html文件的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持积木网。

在 Node.js 中使用原生 ES 模块方法解析 从版本8.5.0开始,Node.js开始支持原生ES模块,可以通过命令行选项打开该功能。新功能很大程度上得归功于BradleyFarias。1.演示这个示例的代码目录结构如

深入理解Node.js中通用基础设计模式 谈到设计模式,你可能会想到singletons,observers(观察者)或factories(工厂方法)。本文不并专门探讨他们。只是探讨Node.JS一些基础模式的实现,像依赖

在Debian(Raspberry Pi)树莓派上安装NodeJS的教程详解 在树莓派上运行NodeJS并不需要特别的配置,你只需要确保可以用openssh远程连接到你的树莓派。安装并配置OpenSSH服务器它可以确保你能远程连接到树莓派

标签: nodejs抓取网页内容

本文链接地址:https://www.jiuchutong.com/biancheng/379517.html 转载请保留说明!

上一篇:Nodejs中使用phantom将html转为pdf或图片格式的方法(nodejs使用视频教程)

下一篇:在 Node.js 中使用原生 ES 模块方法解析(node.js使用教程)

  • 年末暂估成本是否进行纳税调整处理
  • 可转债会计分录利息
  • 零星采购范围
  • 发票打印机贵吗
  • 自产产品用于广告要交消费税吗
  • 发票必须用完才可以购买吗
  • 进账单填错了用重新开转账支票吗
  • 取得的收入含税吗
  • 应收留抵税额退税款科目怎么添加进项
  • 公司名义看望病人合法吗
  • 印花税一个月一报吗
  • 商标注册费用计入会计科目二级
  • 应收应付明细表模板图片
  • 机械设备租赁征求意见稿
  • 金税三期房产税更正申报怎么弄
  • 销项负数盖章吗
  • 红字发票怎么做帐
  • 个人开具工程款发票
  • 外购产品用于赠送帐务处理
  • 固定资产小于500万一次性扣除政策
  • 年金的缴费基数
  • 企业购房房产税土地税补缴
  • 如何查看本月还款金额
  • 原始凭证的审核内容
  • 设备修理费
  • 什么车不用交保险
  • 付佣金怎么做分录
  • 差旅费报销需要提交的单据有
  • 开机反应慢是怎么回事
  • window10黑白模式
  • PHP:pg_get_result()的用法_PostgreSQL函数
  • 员工宿舍的物业费要交个税吗
  • php查询今天日期
  • 债务转换为资本
  • PHP:JewishToJD()的用法_日历函数
  • 工资储备金制度
  • 微信小程序和web端的交互
  • 上季度的亏损可以弥补下季度的企业所得税
  • php正则替换字符串
  • vue3与vue2的区别
  • discuz论坛修改密码位置
  • 金税盘全额抵扣政策
  • 帝国cms设置获取IP字段
  • 签劳动合同员工突然离职怎么办
  • 帝国cms栏目分类
  • 企业资产的范围
  • 代扣税费分录
  • 每月随工资发放的房补,本月至今未发
  • sql连接查询中AB
  • 出口货物退货如何入账
  • 预提费用在汇算清缴时调整
  • 购入投资性房地产支付的相关税费
  • 期初数不对怎么办
  • 拆迁房视同销售成本可以抵减吗?
  • 新会计准则报表模板
  • 新会计准则2021执行科目
  • 为什么要计提工资附加费
  • 增加委托代理人
  • 尽量别熬夜
  • 设置centos时区修改时间的方法
  • win8.1使用
  • win10预览体验三个选项
  • vb win7
  • unity unity3d
  • Javascript之Number对象介绍
  • plugin怎么安装
  • unity平移场景视图怎样操作?
  • 原生javascript开发
  • 家字取名男孩名字
  • css颜色值正确的表达形式
  • js的document.getelembyid
  • angularjs删除数组元素
  • canvas实例
  • android图片压缩到200-300kb
  • json遍历对象集合
  • 税务人员廉洁自律承诺书
  • 延安市地方税务局电话
  • 安徽省地方税务局公告2016年第1号
  • 车船税属于地方固定收入吗
  • 为什么经常收到税务短信
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设