位置: 编程技术 - 正文

Node.js+jade抓取博客所有文章生成静态html文件的实例(nodejs抓取网页内容)

编辑:rootadmin

推荐整理分享Node.js+jade抓取博客所有文章生成静态html文件的实例(nodejs抓取网页内容),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:node抓包工具,node抓包,javascript抓包,js抓取数据,node抓包,node.js抓包,nodejs抓取网页内容,nodejs抓取网页内容,内容如对您有帮助,希望把文章链接给更多的朋友!

这篇文章,我们就把上文中采集到的所有文章列表的信息整理一下,开始采集文章并且生成静态html文件了.先看下我的采集效果,我的博客目前篇文章,1分钟不到就全部采集生成完毕了,这里我截了部分的图片,文件名用文章的id生成的,生成的文章,我写了一个简单的静态模板,所有的文章都是根据这个模板生成的.

项目结构:

好了,接下来,我们就来讲解下,这篇文章主要实现的功能:

1,抓取文章,主要抓取文章的标题,内容,超链接,文章id(用于生成静态html文件)

2,根据jade模板生成html文件

一、抓取文章如何实现?

非常简单,跟上文抓取文章列表的实现差不多

参数url就是文章的地址,把文章的内容抓取完毕之后,调用filterArticle( html ) 过滤出需要的文章信息(id, 标题,超链接,内容),然后用jade的renderFile这个api,实现模板内容的替换,

Node.js+jade抓取博客所有文章生成静态html文件的实例(nodejs抓取网页内容)

模板内容替换完之后,肯定就需要生成html文件了, 所以用writeFile写入文件,写入文件时候,用id作为html文件名称。这就是生成一篇静态html文件的实现,

接下来就是循环生成静态html文件了, 就是下面这行:

if ( aUrl.length ) crawlerArc( aUrl.shift() );

aUrl保存的是我的博客所有文章的url, 每次采集完一篇文章之后,就把当前文章的url删除,让下一篇文章的url出来,继续采集

完整的实现代码server.js:

layout.jade文件:

后续的打算:

1,采用mongodb入库

2,支持断点采集

3,采集图片

4,采集小说

等等....

以上这篇Node.js+jade抓取博客所有文章生成静态html文件的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持积木网。

在 Node.js 中使用原生 ES 模块方法解析 从版本8.5.0开始,Node.js开始支持原生ES模块,可以通过命令行选项打开该功能。新功能很大程度上得归功于BradleyFarias。1.演示这个示例的代码目录结构如

深入理解Node.js中通用基础设计模式 谈到设计模式,你可能会想到singletons,observers(观察者)或factories(工厂方法)。本文不并专门探讨他们。只是探讨Node.JS一些基础模式的实现,像依赖

在Debian(Raspberry Pi)树莓派上安装NodeJS的教程详解 在树莓派上运行NodeJS并不需要特别的配置,你只需要确保可以用openssh远程连接到你的树莓派。安装并配置OpenSSH服务器它可以确保你能远程连接到树莓派

标签: nodejs抓取网页内容

本文链接地址:https://www.jiuchutong.com/biancheng/379517.html 转载请保留说明!

上一篇:Nodejs中使用phantom将html转为pdf或图片格式的方法(nodejs使用视频教程)

下一篇:在 Node.js 中使用原生 ES 模块方法解析(node.js使用教程)

  • 如何理解递延所得税费用的计算公式
  • 营改增抵减的销项税额会计分录
  • 税盾是怎么产生的
  • 什么是明细分类账簿
  • 单位收到已交个税的劳务发票还需要申报个税吗
  • 二手房交易税费最新规定
  • 电子发票上的字体大小
  • 工程咨询服务发展指导意见坚持市场培优的原则
  • 编制竣工结算的具体增减内容有哪几个方面?
  • 4s店维修委托书的主要内容
  • 收到发票冲预付账款摘要怎么写
  • 理财产品 会计分录
  • 一般纳税人转出进项税额
  • 小规模定期定额计税依据
  • 财务费用利息收入在损益表中怎么填
  • 暂估入库冲回有差额
  • 广告公司 成本
  • 生产企业出租设备如何开票
  • 补提以前年度费用在年度报表中怎么填
  • 工效挂钩企业工资税前扣除有何规定?
  • 公司购进的商品自己用的,税金怎么走账
  • 每个季度零申报需要做什么
  • win11任务栏无法居中
  • 电脑上网速度慢的原因及解决方法
  • 水土保持补偿费收费依据
  • 扣客户的罚款会计科目
  • 发票未报送怎么回事
  • pc direct
  • 二次规划是什么意思
  • php array_push()数组函数:将一个或多个单元压入数组的末尾(入栈)
  • 火狐十大必用插件
  • 火星车百家号
  • 动销率怎么看
  • cvpr2023最佳论文
  • d3.js下载
  • html在线小游戏
  • fsck命令详解
  • 其他发票包括哪些
  • 发票跟税有什么关系
  • node.js入门教程
  • 汇算清缴交税怎么做账务处理
  • 担保公司的风险准备金在报表中如何反应
  • SQLSERVER2008中CTE的Split与CLR的性能比较
  • 购买材料增值税税率
  • 公司购买不动产契税税率
  • 购买办公用品如何节约成本
  • 小规模建筑公司开劳务费发票税率
  • 在职职工在单位应享受哪些待遇
  • 加计扣除的会计要素
  • 建筑工程社会实践报告
  • 付给其他公司的服务费怎么记账
  • 事业单位发放生育津贴从哪年执行的
  • 企业收到财政补助收入账务处理
  • 先付一部分款发票怎么做
  • 应交增值税一转出未交增值税
  • 如何算增值税金额
  • 利润表的营业成本包括管理费用吗
  • 专用发票给客户的都要盖章吗
  • 个人交五险一金多少钱一个月
  • windows自带邮件应用
  • arch linux安装yay
  • windows映像文件位置
  • shutdown /f
  • windows系统中巧用系统中的文件查看有谁用过我们的电脑 查看方法介绍
  • ubuntudde 中文
  • win10自定义功能键
  • linux spool
  • Linux利用sftp命令传输文件(极少数人知道的方法)
  • win7系统自动重启日志
  • pdf在电脑上打开
  • unity输入中文
  • jquery怎么获取
  • nodejs报错
  • android-3
  • css制作热点新闻板块
  • jquery对话框组件
  • python for windows
  • Javascript字符串出现次数
  • 东莞地税电话号码
  • 会计报表错误
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设