位置: IT常识 - 正文

【python】喜欢XJJ?这不得来一波大采集?(python功能强大而深受欢迎的原因)

编辑:rootadmin
【python】喜欢XJJ?这不得来一波大采集? 前言

推荐整理分享【python】喜欢XJJ?这不得来一波大采集?(python功能强大而深受欢迎的原因),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python擅长,python爱好者,python喜欢的水果,用python语言说我喜欢你,python爱好者,喜欢python的原因,python爱好者,我喜欢python项目提交,内容如对您有帮助,希望把文章链接给更多的朋友!

大家早好、午好、晚好吖 ❤ ~欢迎光临本文章

俗话说的好:技能学了~就要用在自己喜欢得东西上!!

这我不得听个话~我喜欢小姐姐,跳舞的小姐姐

这不得用python把小姐姐舞采集下来~嘿嘿嘿

完整源码、素材皆可点击文章下方名片获取此处跳转知识点:

采集基本流程

re正则表达式简单使用

requests

json数据解析方法

数据保存

采集网站:

开发环境:

Python 3.8

Pycharm

模块使用:

requests >>> pip install requests 第三方模块

re

安装模块:win + R 输入cmd 输入安装命令 pip install 模块名

如果出现爆红 可能是因为 网络连接超时 切换国内镜像源

基本流程(固定):一. 数据来源分析

确定采集内容是什么? (目标网址, 网址里面数据)

通过开发者工具进行抓包分析, 分析我们想要数据 通过请求那个url地址可以获得

I. 通过分析可以知道 播放url地址是什么?

【python】喜欢XJJ?这不得来一波大采集?(python功能强大而深受欢迎的原因)

II. 通过播放地址, 去分析找寻, 数据包是在哪?

III. 通过两个数据包 请求参数对比, 可以知道 只要获取所有ID 就可以获取内容

(图片id MP4ID 音乐ID 还是什么ID 都可以去列表页面获取)

IV. 去分析 mp4ID可以从哪里获取 (一般情况都可以在列表页面获取)

我想要获取播放地址 >>> 要得到数据包 >>> 获取ID

二. 代码实现步骤 发送请求 获取数据 解析数据 保存数据

发送请求, 对于舞蹈列表页面发送请求

获取数据, 服务器返回数据内容

解析数据, 提取我们想要数据内容 ID

发送请求, 把ID传入到 数据包里面 发送请求

获取数据, 服务器返回数据内容

解析数据, 提取我们想要数据内容 标题 以及播放地址

保存数据, 把内容保存本地

多页数据采集

代码

(完整源码、素材皆可点击此处+获取)

导入模块

# 导入数据请求模块import requests # 第三方模块 pip install requests 需要自行安装# 导入re正则表达式import re # 内置模块 不需要安装# 导入格式化输出模块import pprint # 内置模块 不需要安装发送请求, 对于舞蹈视频列表页面发送请求for page in range(1, 11): print(f'正在爬取第{page}页的数据内容') url = f'https:// **** .com/g/all?set_id=51&order=hot&page={page}' # 爬虫是模拟浏览器对于服务器发送请求, 然后获取服务器返回数据内容 # user-agent: 用户代理 表示浏览器基本身份信息 (一种简单反反爬手段) headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36' } # 通过requests模块里面get请求方式对于url地址发送请求, 并且携带上headers请求进行伪装, 最后用自定义变量response接收返回数据 response = requests.get(url=url, headers=headers) # <Response [200]> 表示请求成功, 请求网址成功了 *** 200状态码表示请求成功, 但是不一定能够得到数据获取数据, 服务器返回数据内容 response.text 获取响应文本数据 # print(response.text)解析数据, 提取我们想要数据内容 视频ID # 解析方式: css re xpath # <li data-vid="676382675"> 想要数据 可以(.*?) 从response.text 里面去找寻这样数据内容 # .*? 是可以匹配任意字符(除了\n换行符以外) 如果你只是单纯提取数字 最好用 \d+ 匹配一个或者多个数字 video_ids = re.findall('<li data-vid="(\d+)">', response.text) # 返回列表数据 for video_id in video_ids: # 通过for循环遍历 提取列表里面元素 一个一个提取 # print(video_id)

发送请求, 把视频ID传入到视频数据包里面发送请求

获取数据, 服务器返回数据内容

# f 字符串格式化方法 {} 占位符 video_info = f'https:// **** .com/moment/getMomentContent?videoId={video_id}&uid=&_=1647433310180' json_data = requests.get(url=video_info, headers=headers).json() # print(json_data) # pprint.pprint(json_data) # 根据冒号左边的内容, 提取冒号右边的内容解析数据 title = json_data['data']['moment']['title'] video_url = json_data['data']['moment']['videoInfo']['definitions'][0]['url']保存数据 >>> 发送请求 并且获取数据 """ response.text >>> 文本数据返回字符串数据 response.json() >>> json字典数据 response.content >>> 二进制数据 """ video_content = requests.get(url=video_url, headers=headers).content with open('video\\' + title + '.mp4', mode='wb') as f: f.write(video_content) print(title, video_url)

尾语 💝

好了,今天的分享就差不多到这里了!

完整代码、更多资源、疑惑解答直接点击下方名片自取即可。

对下一篇大家想看什么,可在评论区留言哦!看到我会更新哒(ง •_•)ง

喜欢就关注一下博主,或点赞收藏评论一下我的文章叭!!!

最后,宣传一下呀~👇👇👇更多源码、资料、素材、解答、交流皆点击下方名片获取呀👇👇👇

本文链接地址:https://www.jiuchutong.com/zhishi/298824.html 转载请保留说明!

上一篇:Webpack完整打包流程分析(webpack打包步骤)

下一篇:input输入时的边框样式去除(input输入改变边框颜色)

  • 无法收回的应收账款可以税前扣除吗
  • 融资租赁业务如何开具增值税
  • 总公司和分公司可以在一个城市吗
  • 汇算清缴是不是按照审计报告
  • 工程管理服务属于哪个国标行业
  • 城镇土地使用税的征税范围有哪些
  • 存货售出后是否含税
  • 豆粕适用税率
  • 办公家具可以一次性税前扣除吗
  • 工会经费税前扣除凭证
  • 哪些财务指标可以用于判断一个企业即将发生财务危机
  • 增值税发票信息错误可以作废重开吗
  • 现房销售土增税怎么缴纳
  • 铁路运输专用发票印花税处理
  • 抵扣税款是什么意思呢
  • 关于水利工程
  • 特殊行业会计公司排名
  • 减免税金需要结转吗
  • 事业单位固定基金属于什么科目
  • 灭火器属于办公设施吗
  • 酒店装修费用会计处理
  • 当月凭证做完怎么结转?
  • 如何修改自己电脑物理地址
  • 想用u盘装系统怎么弄
  • iis配置mime
  • 股份支付费用是股权激励成本吗?
  • 工程施工与工程结算在资产负债表里
  • i33240配什么主板
  • php中implode
  • 卖机械配件平台有哪些
  • 法人营业执照和非法人营业执照
  • php session存储方式
  • 企业债权人进行财务分析的根本目的是关心企业的
  • vue3微前端
  • 暂估成本的账务处理分录
  • php linux 环境搭建
  • 没有报税盘
  • 归还本金和利息的分录
  • cookie set
  • php和python结合
  • 政府性基金账务处理
  • c++评测
  • electron开发的应用程序
  • 给法院交的诉讼费没有发票怎么入账
  • 公司给员工的福利语句
  • mysql使用技巧
  • 电子发票开出后如何查看
  • 小规模企业所得税怎么征收
  • 土地使用税计入管理费用还是税金及附加
  • 暂时进境货物如何申报
  • 个体工商户营业执照申请流程
  • 没有购销合同的销售额交印花税吗
  • 预付账款如何结账
  • 确认借款无法收款怎么办
  • 代收代缴的水电费怎么开票
  • 怎么做好流水账
  • 制造费用的明细账应当按照什么设置
  • 运输公司自有车辆是什么意思
  • 小规模季报成功后怎么缴费
  • 怎么用两台电脑登录同一个微信
  • 租金是含税价还是含税金
  • 火车票进项抵扣需要认证吗
  • 会计借方和贷方有哪些科目
  • windows7安装后正常使用的安装方法
  • 配置windows server 2008
  • windows10累积更新很慢
  • win7电脑能玩啥游戏
  • win8功能
  • window注销
  • jquery插件大全
  • 置顶通知要开启吗
  • 简易bmp图片读取软件
  • 变量赋值的含义
  • Facebook推出强大Android图片库Fresco 自动释放内存 图片缓存 内存益处
  • jquerygrid
  • python同一层次的语言必须对齐吗
  • javascript学习指南
  • JavaScript onkeydown事件入门实例(键盘某个按键被按下)
  • 非贸付汇代扣代缴企业所得税
  • 国家税务总局关于税务机构改革有关事项的公告
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设