位置: IT常识 - 正文

Pytorch DataLoader中的num_workers (选择最合适的num_workers值)

编辑:rootadmin
Pytorch DataLoader中的num_workers (选择最合适的num_workers值) 一、概念

推荐整理分享Pytorch DataLoader中的num_workers (选择最合适的num_workers值),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

num_workers是Dataloader的概念,默认值是0。是告诉DataLoader实例要使用多少个子进程进行数据加载(和CPU有关,和GPU无关) 如果num_worker设为0,意味着每一轮迭代时,dataloader不再有自主加载数据到RAM这一步骤(因为没有worker了),而是在RAM中找batch,找不到时再加载相应的batch。缺点当然是速度慢。

当num_worker不为0时,每轮到dataloader加载数据时,dataloader一次性创建num_worker个worker,并用batch_sampler将指定batch分配给指定worker,worker将它负责的batch加载进RAM。

Pytorch DataLoader中的num_workers (选择最合适的num_workers值)

num_worker设置得大,好处是寻batch速度快,因为下一轮迭代的batch很可能在上一轮/上上一轮…迭代时已经加载好了。坏处是内存开销大,也加重了CPU负担(worker加载数据到RAM的进程是CPU复制的嘛)。num_workers的经验设置值是自己电脑/服务器的CPU核心数,如果CPU很强、RAM也很充足,就可以设置得更大些。

num_worker小了的情况,主进程采集完最后一个worker的batch。此时需要回去采集第一个worker产生的第二个batch。如果该worker此时没有采集完,主线程会卡在这里等。(这种情况出现在,num_works数量少或者batchsize 比较小,显卡很快就计算完了,CPU对GPU供不应求。)

即,num_workers的值和模型训练快慢有关,和训练出的模型的performance无关

Detectron2的num_workers默认是4

二、选择最合适的num_workers值

最合适的num_works值与数据集有关 最好是跑代码之前先用这段script跑一下,选择最合适的num_workers值

from time import timeimport multiprocessing as mpimport torchimport torchvisionfrom torchvision import transformstransform = transforms.Compose([ torchvision.transforms.ToTensor(), torchvision.transforms.Normalize((0.1307,), (0.3081,))])trainset = torchvision.datasets.MNIST( root='dataset/', train=True, #如果为True,从 training.pt 创建数据,否则从 test.pt 创建数据。 download=True, #如果为true,则从 Internet 下载数据集并将其放在根目录中。 如果已下载数据集,则不会再次下载。 transform=transform)print(f"num of CPU: {mp.cpu_count()}")for num_workers in range(2, mp.cpu_count(), 2): train_loader = torch.utils.data.DataLoader(trainset, shuffle=True, num_workers=num_workers, batch_size=64, pin_memory=True) start = time() for epoch in range(1, 3): for i, data in enumerate(train_loader, 0): pass end = time() print("Finish with:{} second, num_workers={}".format(end - start, num_workers))

可以看到,这个服务器24个CPU, 最合适的num_workers值是14

三、可能出现的问题

linux系统中可以使用多个子进程加载数据,windows系统里是不可以的,可以发现报错时产生在DataLoader文件中的。我们找到自己调用DataLoader的文件中num_workers的设置,设置为0或者采用默认为0的设置。

本文链接地址:https://www.jiuchutong.com/zhishi/289634.html 转载请保留说明!

上一篇:苏格兰高地上的欧亚红松鼠,苏格兰 (© Scotland: The Big Picture/Minden Pictures)(苏格兰高地什么意思)

下一篇:威尼斯海滩滑板公园鸟瞰图,洛杉矶 (© Ingus Kruklitis/Getty Images)(威尼斯海滩滑板场)

  • 车辆租赁费发票备注栏怎么写
  • 办公费税前扣除标准2023
  • 拿工资要开发票,发票去哪儿开?
  • 收据收到写什么
  • 图书属于什么经济类别
  • 企业除了增值税还有什么税
  • 长期待摊费用可以转入固定资产吗
  • 报关单上消费使用单位可以交税么
  • 利润表中财务费用是负数怎么算营业利润
  • 特殊行业包括哪些
  • 用现金购买办公设备会计分录
  • 出口增值税发票金额怎么开
  • 一般纳税人公司卖车怎么做账
  • 管家婆进货单科目名称怎么录入?
  • 企业办自建厂房理房产证需要什么资料
  • 人身意外伤害险保障范围
  • 营改增以前建筑税率
  • 房地产预缴增值税是含税还是不含税
  • 运输发票上的印章怎么弄
  • 个体户开票超了30万
  • 行邮税税率表2023
  • 单位社保扣款
  • 新开办筹建费企业所得税申报填写
  • 公司控股的公司下子公司有哪些
  • 恢复修改过的图片
  • bios咋进入
  • 局域网内ip地址冲突怎么找出来
  • 保税区开出的专票可以抵扣吗
  • 企业之间的往来款现金流
  • mac设置邮件
  • 交易性金融资产的账务处理
  • 施伦贝格尔
  • 保洁费入账
  • 担保公司未到期责任准备金会计及税务处理案例
  • 塔河流域
  • 森林中的结香花,日本 (© nattya3714/Getty Images)
  • php自动化脚本
  • echarts中的legend能被监听吗
  • 生产设备改良支出需要结转到本年利润吗
  • unipoint
  • 开源原则
  • 退税是上一年交的税都会退吗
  • 垃圾处理费计入办公费用吗
  • 职工教育经费支出比例
  • python怎么运行程序
  • lldb python
  • mongodb安装教程图解
  • 个体工商户具体工作内容怎么写
  • 原材料的会计处理有哪些
  • 委托加工物资账务
  • 可供分配的利润包括
  • 溢价收购股权所得税税率
  • 政府会计双核算模式的好处
  • 企业需要建立什么?完善什么?
  • 免抵退税和留抵退税计算题
  • 应交税费应交增值税进项税额在借方
  • 农场有多少只鸡
  • 房地产增值税发票是什么意思
  • 应收账款坏账准备借贷方向
  • 会计忘记申报税款会有什么影响
  • 如何制作会计账簿
  • sql server 更改字段数据类型
  • skydrive官网登录
  • mac中通过python关闭浏览器中的finder弹框
  • drvceox86.exe
  • gain_trickler_3202.exe 进程查询 gain_trickler_3202进程是什么文件
  • linux安装tmux
  • 越狱免电脑
  • 什么是四个菜
  • surface使用
  • html中iframe怎么用
  • unity3d怎么写代码
  • node.js中使用文件流进行文件复制,首先需要创建一个
  • 简述javascript的主要特点
  • jqueryshow和hide封装
  • python正则函数
  • jquery的gt
  • 点击电子税务局里的税务数字账户不跳转怎么回事
  • 企业资质怎么报审
  • 中国古代的税收制度的演变
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设