位置: 编程技术 - 正文

用Python编写简单的微博爬虫(用python编写简单程序)

编辑:rootadmin

推荐整理分享用Python编写简单的微博爬虫(用python编写简单程序),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:用python编写简单乘法表,用python编写简单计算器,用python编写简单计算器,用python编写简单的六一儿童节祝福,用python编写简单程序,用python编写简单程序要多久,用python编写简单计算机程序,用python编写简单计算机程序,内容如对您有帮助,希望把文章链接给更多的朋友!

先说点题外话,我一开始想使用Sina Weibo API来获取微博内容,但后来发现新浪微博的API限制实在太多,大家感受一下:

只能获取当前授权的用户(就是自己),而且只能返回最新的5条,WTF!所以果断放弃掉这条路,改为『生爬』,因为PC端的微博是Ajax的动态加载,爬取起来有些困难,我果断知难而退,改为对移动端的微博进行爬取,因为移动端的微博可以通过分页爬取的方式来一次性爬取所有微博内容,这样工作就简化了不少。

最后实现的功能:

1、输入要爬取的微博用户的user_id,获得该用户的所有微博2、文字内容保存到以%user_id命名文本文件中,所有高清原图保存在weibo_image文件夹中具体操作:首先我们要获得自己的cookie,这里只说chrome的获取方法。

1、用chrome打开新浪微博移动端2、option+command+i调出开发者工具3、点开Network,将Preserve log选项选中4、输入账号密码,登录新浪微博

5、找到m.weibo.cn->Headers->Cookie,把cookie复制到代码中的#your cookie处

用Python编写简单的微博爬虫(用python编写简单程序)

然后再获取你想爬取的用户的user_id,这个我不用多说啥了吧,点开用户主页,地址栏里面那个号码就是user_id

将python代码保存到weibo_spider.py文件中定位到当前目录下后,命令行执行python weibo_spider.py user_id当然如果你忘记在后面加user_id,执行的时候命令行也会提示你输入

最后执行结束

小问题:在我的测试中,有的时候会出现图片下载失败的问题,具体原因还不是很清楚,可能是网速问题,因为我宿舍的网速实在太不稳定了,当然也有可能是别的问题,所以在程序根目录下面,我还生成了一个userid_imageurls的文本文件,里面存储了爬取的所有图片的下载链接,如果出现大片的图片下载失败,可以将该链接群一股脑导进迅雷等下载工具进行下载。

另外,我的系统是OSX EI Capitan..2,Python的版本是2.7,依赖库用sudo pip install XXXX就可以安装,具体配置问题可以自行stackoverflow,这里就不展开讲了。

下面我就给出实现代码

一个简单的微博爬虫就完成了,希望对大家的学习有所帮助。

使用py2exe在Windows下将Python程序转为exe文件 前提条件:需要安装easy-install模块,这是一个python的模块打包工具。首先下载easy_setup.py的源代码,下载地址:

使用Python来开发Markdown脚本扩展的实例分享 关于Markdown在刚才的导语里提到,Markdown是一种用来写作的轻量级「标记语言」,它用简洁的语法代替排版,而不像一般我们用的字处理软件Word或Pages有

Python多线程爬虫简单示例 python是支持多线程的,主要是通过thread和threading这两个模块来实现的。thread模块是比较底层的模块,threading模块是对thread做了一些包装的,可以更加方

标签: 用python编写简单程序

本文链接地址:https://www.jiuchutong.com/biancheng/383380.html 转载请保留说明!

上一篇:python相似模块用例

下一篇:使用py2exe在Windows下将Python程序转为exe文件(python在windows)

  • 退回企业所得税的账务处理
  • 报个税时显示扣缴单位无有效的税费种认定信息
  • 税务制服的肩章是什么
  • 免税是不是不用交税
  • 非本公司员工如何申报个税
  • 工商银行资产负债表
  • 如何去办理小型微利企业资格每年都需要认证吗?
  • 差额拨款的事业单位属于预算单位吗
  • 债务重组损失计算公式
  • 长期借款借方登记归还的本金和利息
  • 劳务公司核定征收怎么交税的
  • 专票已认证但又没有发票
  • 发票融资贷款应该怎么做账?
  • 全额收取员工的社保的会计分录怎么写?
  • 违约金抵扣货款等于现金折扣吗会计分录
  • 旅行社开哪里比较好
  • 其他应收款包括的内容
  • 企业购进口汽车会计分录
  • 车辆购置税计税依据包括
  • 保险费可以抵扣嘛
  • 营改增后房屋租赁如何纳税
  • 未休假报酬需要报个税吗
  • 企业筹办期间发生的费用处理
  • 固定资产评估费计入什么会计科目
  • 企业的其他业务是什么
  • 收到老板的钱会计分录
  • 委托加工物资什么意思
  • 零售金银首饰消费税税率是多少
  • 农产品收购销售免税吗
  • 消耗性生物资产如何结转成本
  • 销项税多了冲销部分的怎么做账
  • 申报高新企业的当年一定要研发费用加计扣除吗
  • 劳务公司找的临时工工伤怎么赔
  • 华为手机开热点后wlan自动关闭
  • 公司已开工程发票怎么开
  • 路由器重启后电视放不出来咋办
  • 冲回上年计提费用
  • vue中使用md5加密
  • 小规模纳税人实收资本印花税怎么算
  • vue的slice
  • ai作画
  • python编程bim
  • 预收账款怎么变成应收
  • 公司注销时多缴税怎么办
  • 印花税的计税依据为各种应税凭证上所记载的计税金额
  • 珠宝可以开票抵扣吗
  • 其他非流动资产是会计科目吗
  • MySQL错误什么意思
  • 收到去年的普通发票
  • 去银行提取备用金不是会计本人需要给谁打电话
  • 保险公司代扣的车船使用税分录
  • 关税计入什么科目
  • 在建工程什么意思
  • 房地产公司退房款怎么做账
  • having的用法详解
  • win2003 IIS6.0+PHP+MySQL的安?配置
  • Win7 64位系统声卡重装过程中出现失败的解决方法
  • mac快捷键一览
  • 登录远程linux系统可以用的方法
  • dgservice.exe是什么
  • windows适配器未连接
  • kinect unity开发
  • 什么是Shell,shell作用
  • jquery点击移动div
  • javascript中的函数包括内置函数和自定义函数
  • jquery动态添加属性
  • js格式化输出数字
  • jquery事件解绑
  • Windows环境下搭建Python开发环境的方法
  • 以下关于android应用程序的目录结构描述中,不正确的是
  • python bottle 教程
  • python 解析
  • 江西烟草公司局长
  • 民办幼儿园属于民营企业吗
  • 南京地税局局长名单
  • 房产税怎么计提和缴纳分录
  • 医院等级怎么查询系统
  • 广东省电子税务局app
  • 企业所得税的计算,收入是含税还是不含税
  • 营业税纳税申报时间
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设