位置: 编程技术 - 正文

Node.js环境下编写爬虫爬取维基百科内容的实例分享(node.js编译)

编辑:rootadmin

推荐整理分享Node.js环境下编写爬虫爬取维基百科内容的实例分享(node.js编译),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:node.js编译,nodejs编程,node.js怎么用,node.js编译,nodejs编程,node.js环境搭建,nodejs编程,nodejs编程,内容如对您有帮助,希望把文章链接给更多的朋友!

基本思路思路一(origin:master):从维基百科的某个分类(比如:航空母舰(key))页面开始,找出链接的title属性中包含key(航空母舰)的所有目标,加入到待抓取队列中。这样,抓一个页面的代码及其图片的同时,也获取这个网页上所有与key相关的其它网页的地址,采取一个类广度优先遍历的算法来完成此任务。思路二(origin:cat):按分类进行抓取。注意到,维基百科上,分类都以Category:开头,由于维基百科有很好的文档结构,很容易从任一个分类,开始,一直把其下的所有分类全都抓取下来。这个算法对分类页面,提取子分类,且并行抓取其下所有页面,速度快,可以把分类结构保存下来,但其实有很多的重复页面,不过这个可以后期写个脚本就能很容易的处理。

库的选择开始想用jsdom,虽然感觉它功能强大,但也比较“重”,最要命的是说明文档不够好,只说了它的优势,没一个全面的说明。因此,换成cheerio,轻量级,功能比较全,至少文档一看就能有一个整体概念。其实做到后来,才发现根本不需要库,用正则表达式就能搞定一切!用库只是少写了一点正则而矣。

关键点全局变量设定:

图片下载使用request库的流式操作,让每一个下载操作形成闭包。注意异步操作可能带来的副作用。另外,图片名字要重新设定,开始我取原名,不知道为什么,有的图明明存在,就是显示不出来;并且要把srcset属性清理掉,不然本面显示不出来。

Node.js环境下编写爬虫爬取维基百科内容的实例分享(node.js编译)

广度优先遍历开始没能完全理解异步的概念,以循环方式来做,以为使用了Promise,就已经全转化为同步了,但其实只是能保证交给promise的操作会有序进行,并不能让这些操作与其它的操作有序化!如,下面的代码就是不正确的。

上面的操作看试很正常,但其实(2)会在(1)之间被运行!哪怎么办?我使用递归来解决这个问题。如下示例代码:

正则清理使用正则表达式清理无用的页面代码,因为有很多模式需要处理,写了一个循环统一处理。

运行效果上维基中文是需要FQ的,试运行了一下,抓取 航空母舰 分类,运行过程中,发现了三百左右的相关链接(包括分类页面,这些页面我是只取有效链接,不下载),最终正确的下载了个,手工测试了一些出错链接,发现都为无效链接,显示该词条还未建立,整个过程大概花了不到十五分钟,压缩后近三十M,感觉效果还不错。

源代码

Node.js的Koa框架上手及MySQL操作指南 由Express原班人马打造的koa,致力于成为一个更小、更健壮、更富有表现力的Web框架。使用koa编写web应用,通过组合不同的generator,可以免除重复繁琐的

浅析Nodejs npm常用命令 npm是一个node包管理和分发工具,已经成为了非官方的发布node模块(包)的标准。有了npm,可以很快的找到特定服务要使用的包,进行下载、安装以及管

在Mac OS上安装使用Node.js的项目自动化构建工具Gulp 安装node.js首先需要安装node.js,通常情况下,只需要到Node.js官网下载安装包安装就可以了。不过我可耻的失败了,弹出了如下错误:于是我换成了brew大

标签: node.js编译

本文链接地址:https://www.jiuchutong.com/biancheng/370747.html 转载请保留说明!

上一篇:Node.js环境下JavaScript实现单链表与双链表结构(nodejs调用java)

下一篇:Node.js的Koa框架上手及MySQL操作指南(nodejsapi框架)

  • 员工交个人所得税对公司有什么影响
  • 结转未交增值税会计科目怎么写
  • 分支机构设立当年是否需要就地预缴企业所得税?
  • 银行转账记录能保存多久
  • 分公司注销需要总公司法人实名确认吗
  • 即征即退进项税额为哪些
  • 现在什么情况下
  • 滴滴的发票能不能作废
  • 建房测绘收费
  • 小规模纳税人减征增值税
  • 企业合并股份比例
  • 企业注销未抵扣完的进项税
  • 补发工资如何计提
  • 对外销售产品
  • 应交税金及附加包括哪些
  • 委托加工设备
  • 公司之间借钱不还违法吗
  • 增值税系统技术维护费记什么科目
  • 开出转账支票怎么入账
  • 被合并企业评估什么意思
  • 培训费的进项需要转出吗
  • 水利建设专项收入怎么计算
  • 出口退税申报显示疑点跳过可以转正式申报吗
  • 非居民企业取得股息红利企业所得税
  • 房地产企业有投资性房地产吗
  • 分公司可以迁移到新公司吗
  • 公司缴纳社保部分从个人扣除 犯法吗
  • 货款部分红冲进项转出如何做账?
  • 员工工伤单位垫付
  • 滴滴打车怎么整
  • 免抵退免抵额何时申报附加税?
  • 电脑开wifi给手机用好吗
  • 收回物资的加工成本
  • 土地 补偿
  • win7步骤和详细教程
  • 集团内部调拨账务处理
  • uni app怎么样
  • 股权转让个税计算方法 未分配利润
  • icon图标教程
  • php处理数组的函数
  • 进项税额资产还是负债
  • 图像的生成原理
  • php编译器与集成环境怎么安装
  • vue和react区别大吗
  • phpstudy ftp怎么用
  • 营改增后新纳入增值税征税范围的有
  • 以发行股票作为对价取得企业的股权
  • 进项税大于销项税怎么交税
  • 数据库双亲结点
  • 销货退回的账务如何处理
  • 所得税退税可以不退吗
  • 进项税额转出期限是多久
  • 出口货物 增值税
  • 发票开错一个字还能报销吗?
  • 未抵扣进项税额转出会计分录
  • 第二年发票可以入上年账吗
  • 资金调拨账务处理
  • 诺诺开票人怎么修改
  • sql server复制数据库的方法
  • winXP系统还能用吗
  • Windows Server 2008网络中顺畅访问“邻居”
  • win10睡眠什么意思
  • 打开linux系统
  • win7纯净版系统安装教程
  • windows小娜怎么开启
  • opengl文档窗口是什么
  • bootstrap表单模板
  • js编程实例
  • Interlnk、Intersvr、Qbasic命令的使用方法
  • unicode和utf–8 编码
  • css使用教程
  • Python统计代码
  • 安卓apk混淆工具
  • Node.js发送HTTP客户端请求并显示响应结果的方法示例
  • Javascript字符串出现次数
  • 残疾人就业保障金减免政策2022
  • 北京市国家税务局官网手机app
  • 报税的资格
  • 电子客票号码8768是什么
  • 加强监督管理工作
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设