位置: 编程技术 - 正文

用Python编写简单的微博爬虫(用python编写简单程序)

编辑:rootadmin

推荐整理分享用Python编写简单的微博爬虫(用python编写简单程序),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:用python编写简单乘法表,用python编写简单计算器,用python编写简单计算器,用python编写简单的六一儿童节祝福,用python编写简单程序,用python编写简单程序要多久,用python编写简单计算机程序,用python编写简单计算机程序,内容如对您有帮助,希望把文章链接给更多的朋友!

先说点题外话,我一开始想使用Sina Weibo API来获取微博内容,但后来发现新浪微博的API限制实在太多,大家感受一下:

只能获取当前授权的用户(就是自己),而且只能返回最新的5条,WTF!所以果断放弃掉这条路,改为『生爬』,因为PC端的微博是Ajax的动态加载,爬取起来有些困难,我果断知难而退,改为对移动端的微博进行爬取,因为移动端的微博可以通过分页爬取的方式来一次性爬取所有微博内容,这样工作就简化了不少。

最后实现的功能:

1、输入要爬取的微博用户的user_id,获得该用户的所有微博2、文字内容保存到以%user_id命名文本文件中,所有高清原图保存在weibo_image文件夹中具体操作:首先我们要获得自己的cookie,这里只说chrome的获取方法。

1、用chrome打开新浪微博移动端2、option+command+i调出开发者工具3、点开Network,将Preserve log选项选中4、输入账号密码,登录新浪微博

5、找到m.weibo.cn->Headers->Cookie,把cookie复制到代码中的#your cookie处

用Python编写简单的微博爬虫(用python编写简单程序)

然后再获取你想爬取的用户的user_id,这个我不用多说啥了吧,点开用户主页,地址栏里面那个号码就是user_id

将python代码保存到weibo_spider.py文件中定位到当前目录下后,命令行执行python weibo_spider.py user_id当然如果你忘记在后面加user_id,执行的时候命令行也会提示你输入

最后执行结束

小问题:在我的测试中,有的时候会出现图片下载失败的问题,具体原因还不是很清楚,可能是网速问题,因为我宿舍的网速实在太不稳定了,当然也有可能是别的问题,所以在程序根目录下面,我还生成了一个userid_imageurls的文本文件,里面存储了爬取的所有图片的下载链接,如果出现大片的图片下载失败,可以将该链接群一股脑导进迅雷等下载工具进行下载。

另外,我的系统是OSX EI Capitan..2,Python的版本是2.7,依赖库用sudo pip install XXXX就可以安装,具体配置问题可以自行stackoverflow,这里就不展开讲了。

下面我就给出实现代码

一个简单的微博爬虫就完成了,希望对大家的学习有所帮助。

使用py2exe在Windows下将Python程序转为exe文件 前提条件:需要安装easy-install模块,这是一个python的模块打包工具。首先下载easy_setup.py的源代码,下载地址:

使用Python来开发Markdown脚本扩展的实例分享 关于Markdown在刚才的导语里提到,Markdown是一种用来写作的轻量级「标记语言」,它用简洁的语法代替排版,而不像一般我们用的字处理软件Word或Pages有

Python多线程爬虫简单示例 python是支持多线程的,主要是通过thread和threading这两个模块来实现的。thread模块是比较底层的模块,threading模块是对thread做了一些包装的,可以更加方

标签: 用python编写简单程序

本文链接地址:https://www.jiuchutong.com/biancheng/383380.html 转载请保留说明!

上一篇:python相似模块用例

下一篇:使用py2exe在Windows下将Python程序转为exe文件(python在windows)

  • 增值税申报可以作废几次
  • 应交税费是什么科目
  • 疫情期间固定资产折旧优惠政策
  • 押金和租金
  • 退回以前年度费用怎么做帐
  • 个体户收现金可以开发票吗
  • 税局函调准备哪些资料
  • 货车的折旧年限怎么算
  • 出口企业退税分录
  • 企业之间无偿借款
  • 企业安全生产费用提取标准 最新
  • 企业收到供货单位提供的材料,如其价款大于
  • 银行定期存款利率计算
  • 生产性服务业定义
  • 发票连号不许报销吗
  • 注册资本转让股权
  • 机械设备已使用怎么处理
  • 小规模自开专票税率是1%还是3%
  • 企业增速怎么算
  • 打英文字母突然没声音了
  • linux命令-a
  • 电脑软件如何开机自启动
  • PHPfor循环语句10的阶乘
  • 坏账准备期末余额怎么计算
  • 哪些合同不属于担保合同
  • 塞巴斯蒂安电影 豆瓣
  • 销售提成属于什么费用
  • js生成条形码的方式有哪些
  • Java多线程(6):锁与AQS(中)
  • 违约赔偿金要交税吗
  • 金融资产的会计科目
  • numpy array ndarray区别
  • 合同资产与应收账款的关系
  • 公司开一般户经办人是会计还是出纳好
  • mysql存储过程之错误处理
  • 弥补亏损的会计分录是怎样的
  • 关联方利息支出税前扣除规定
  • 利润表的编制方法和步骤累计数和好结账前余额
  • 用发票做账是什么意思?
  • 15个postgresql数据库实用命令分享
  • 公司固定资产抵押贷款无法偿还
  • 场地无偿使用证明的作用是什么
  • 小规模纳税人企业所得税优惠政策最新2023
  • 过账怎么操作
  • 公允价值变动属于
  • 房产交易缴税
  • 土地使用权的摊销计入在建工程
  • 邮寄快递费用计算
  • 企业之间的往来款要1900万要交多少税
  • 预计负债是暂时性差异还是永久性差异
  • 电商刷单的成本如何处理?
  • 出口退税进项票跨月勾选
  • 应付股利计提了长期不支付
  • mysql死锁的例子
  • 苹果今日报价
  • wpl是什么文件
  • Ubuntu系统怎么截图
  • tcp半连接和全连接
  • centos state down
  • mac怎么找自己下载的应用
  • seti@home.exe - seti@home是什么进程 有什么用
  • 在linux操作系统中,/etc/rc.d/init.d
  • 在linux系统中,用来存放系统所需要的
  • windows8.1版本区别
  • javascript运用
  • unity做安卓app
  • css浏览器兼容性问题
  • angular创建service
  • 粒子特效代码
  • unity3D游戏开发
  • 实例分析法名词解释
  • javascript代码大全
  • 济南税务开票软件是什么
  • 航天金税开票软件客服电话
  • 海关编码更新
  • 中心组学习的意义?
  • 纳税服务的背景是什么
  • 八戒财税兼职
  • 福建泉州电子税务局
  • 税务总局纪律作风
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设