位置: 编程技术 - 正文

Node.js+jade抓取博客所有文章生成静态html文件的实例(nodejs抓取网页内容)

编辑:rootadmin

推荐整理分享Node.js+jade抓取博客所有文章生成静态html文件的实例(nodejs抓取网页内容),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:node抓包工具,node抓包,javascript抓包,js抓取数据,node抓包,node.js抓包,nodejs抓取网页内容,nodejs抓取网页内容,内容如对您有帮助,希望把文章链接给更多的朋友!

这篇文章,我们就把上文中采集到的所有文章列表的信息整理一下,开始采集文章并且生成静态html文件了.先看下我的采集效果,我的博客目前篇文章,1分钟不到就全部采集生成完毕了,这里我截了部分的图片,文件名用文章的id生成的,生成的文章,我写了一个简单的静态模板,所有的文章都是根据这个模板生成的.

项目结构:

好了,接下来,我们就来讲解下,这篇文章主要实现的功能:

1,抓取文章,主要抓取文章的标题,内容,超链接,文章id(用于生成静态html文件)

2,根据jade模板生成html文件

一、抓取文章如何实现?

非常简单,跟上文抓取文章列表的实现差不多

参数url就是文章的地址,把文章的内容抓取完毕之后,调用filterArticle( html ) 过滤出需要的文章信息(id, 标题,超链接,内容),然后用jade的renderFile这个api,实现模板内容的替换,

Node.js+jade抓取博客所有文章生成静态html文件的实例(nodejs抓取网页内容)

模板内容替换完之后,肯定就需要生成html文件了, 所以用writeFile写入文件,写入文件时候,用id作为html文件名称。这就是生成一篇静态html文件的实现,

接下来就是循环生成静态html文件了, 就是下面这行:

if ( aUrl.length ) crawlerArc( aUrl.shift() );

aUrl保存的是我的博客所有文章的url, 每次采集完一篇文章之后,就把当前文章的url删除,让下一篇文章的url出来,继续采集

完整的实现代码server.js:

layout.jade文件:

后续的打算:

1,采用mongodb入库

2,支持断点采集

3,采集图片

4,采集小说

等等....

以上这篇Node.js+jade抓取博客所有文章生成静态html文件的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持积木网。

在 Node.js 中使用原生 ES 模块方法解析 从版本8.5.0开始,Node.js开始支持原生ES模块,可以通过命令行选项打开该功能。新功能很大程度上得归功于BradleyFarias。1.演示这个示例的代码目录结构如

深入理解Node.js中通用基础设计模式 谈到设计模式,你可能会想到singletons,observers(观察者)或factories(工厂方法)。本文不并专门探讨他们。只是探讨Node.JS一些基础模式的实现,像依赖

在Debian(Raspberry Pi)树莓派上安装NodeJS的教程详解 在树莓派上运行NodeJS并不需要特别的配置,你只需要确保可以用openssh远程连接到你的树莓派。安装并配置OpenSSH服务器它可以确保你能远程连接到树莓派

标签: nodejs抓取网页内容

本文链接地址:https://www.jiuchutong.com/biancheng/379517.html 转载请保留说明!

上一篇:Nodejs中使用phantom将html转为pdf或图片格式的方法(nodejs使用视频教程)

下一篇:在 Node.js 中使用原生 ES 模块方法解析(node.js使用教程)

  • 什么叫应纳税所得额
  • 发票认证了申报系统没有数据
  • 工程会计和工业会计进销项区别是什么
  • 现金流量科目怎么选择
  • 固定资产一次性扣除怎么做账
  • 收取违约金如何处罚
  • 票据和结算凭证上的签章
  • 结转累计折旧分录
  • 评估价与成交价相差多少合法
  • 自建的固定资产入账价值具体包括哪些
  • 劳务费的专用发票有哪些
  • 银行退回服务费怎么写分录
  • 现金日记账的登记依据有
  • 收入做多增值税怎么算
  • 劳务报酬2019
  • 如何购买车辆保险
  • 建筑合同通用条款
  • 车船使用税凭证还要过户吗怎么办
  • 合同税率16%调整到13%怎么算
  • 工资非自然月怎么计算
  • 主营业务收入如何确认
  • 计提应收利息怎么做分录
  • 前端解决页面加载白屏
  • 惠普笔记本电源适配器
  • 退回现金怎么写分录
  • 无发票材料可以入材料账吗
  • linux shell 比较运算符
  • 开增值税专用发票必须走公账吗
  • 公司注销职工安置方案
  • 定向增发后送股成本价
  • 库存现金意思
  • 解决中暑最有效方法
  • php教程100
  • 房屋赠与双方办理流程
  • Loughrigg Tarn的日出,英国英格兰湖区安布尔塞德 (© John Finney photography/Getty Images)
  • 出售低值易耗品的成本
  • 米苏拉塔是哪个国家
  • 怎么用云服务
  • 人工智能的几个发展阶段
  • 两套账目
  • 商贸企业发生退税的原因
  • 工会经费没有交能买发票吗
  • 外经证开错作废要带些什么
  • 发票跨月还可以作废吗
  • 固定资产一次性扣除政策
  • sql server 2008怎么用
  • 加计扣除减免政策
  • 经营范围变更银行变更需要什么资料
  • 小规模纳税人劳务派遣可以差额征税吗
  • 结转损益主营业务收入在借方
  • 有限合伙企业协议
  • 其他应收款对应的预算会计
  • 应收账款因质量问题被扣除的损失可以税前扣除吗
  • 建安类资质指什么资质
  • 个税和社保有什么区别
  • 股权投资与债权投资包括什么
  • etc发票当天可以打印吗
  • 弥补亏损的会计处理
  • 没有对公业务的银行
  • 京东卖家怎么开普通发票
  • solaris init 0
  • acs_log是什么文件
  • mac快速关闭所有窗口
  • fedora29
  • bios识别不了硬盘怎么回事
  • xp系统屏幕倒过来了怎么恢复
  • mac使用命令行
  • bootcamp不用u盘
  • windows mobile10
  • jquery的实现原理
  • ubuntu用root运行
  • python从入门到精通第三版pdf下载
  • expect实现单台、多台服务器批量scp传输文件
  • unauthorizedAccessException
  • js匿名函数和箭头函数
  • jquery动态生成页面
  • python字符串的编码规则
  • 深圳市税务审批中心电话
  • 电子税务局房产税怎么申报
  • 关于增值税和消费税两者之间关系的说法错误的是
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设