位置: IT常识 - 正文

pytorch初学笔记(六):DataLoader的使用(pytorch入门教程(非常详细))

编辑:rootadmin
pytorch初学笔记(六):DataLoader的使用

目录

一、DataLoader介绍

1. DataLoader作用

2. 常用参数介绍 

二、DataLoader的使用

1. 导入并实例化DataLoader

2. 具体使用

2.1 数据集中数据的读取

2.2 DataLoader中数据的读取

3. 使用tensorboard可视化效果

3.1 改变batchsize 

3.2 改变drop_last

3.3 改变shuffle


一、DataLoader介绍1. DataLoader作用

推荐整理分享pytorch初学笔记(六):DataLoader的使用(pytorch入门教程(非常详细)),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:pytorch零基础,pytorch教程,pytorch零基础入门,pytorch 入门,pytorch 快速入门,pytorch零基础入门,pytorch零基础入门,pytorch 入门教程,内容如对您有帮助,希望把文章链接给更多的朋友!

        DataLoader是一个可迭代的数据装载器,组合了数据集和采样器,并在给定数据集上提供可迭代对象。可以完成对数据集中多个对象的集成。

2. 常用参数介绍 

torch.utils.data — PyTorch 1.13 documentation

CLASS  DataLoader

torch.utils.data.DataLoader(dataset, batch_size=1, shuffle=None, sampler=None, 

batch_sampler=None, num_workers=0, collate_fn=None, pin_memory=False, 

drop_last=False, timeout=0, worker_init_fn=None, multiprocessing_context=None, 

generator=None, *, prefetch_factor=2, persistent_workers=False, pin_memory_device='') 

先导概念介绍:

Epoch: 所有训练样本都已输入到模型中,称为一个epochIteration: 一批样本(batch_size)输入到模型中,称为一个Iteration,Batchsize: 一批样本的大小, 决定一个epoch有多少个Iteration

常用的主要有以下五个参数:

dataset(数据集):需要提取数据的数据集,Dataset对象batch_size(批大小):每一次装载样本的个数,int型 shuffle(洗牌):进行新一轮epoch时是否要重新洗牌,Boolean型num_workers:是否多进程读取机制drop_last:当样本数不能被batchsize整除时, 是否舍弃最后一批数据

二、DataLoader的使用

        我们使用CIFAR10的测试数据集来完成DataLoader的使用。

1. 导入并实例化DataLoader

        创建一个dataloader,设置批大小为4,每一个epoch重新洗牌,不进行多进程读取机制,不舍弃不能被整除的批次。

#导入数据集的包import torchvision.datasets#导入dataloader的包from torch.utils.data import DataLoaderfrom torch.utils.tensorboard import SummaryWriter#创建测试数据集test_dataset = torchvision.datasets.CIFAR10(root="./CIRFA10",train=False,transform=torchvision.transforms.ToTensor())#创建一个dataloader,设置批大小为4,每一个epoch重新洗牌,不进行多进程读取机制,不舍弃不能被整除的批次test_dataloader = DataLoader(dataset=test_dataset,batch_size=4,shuffle=True,num_workers=0,drop_last=False)2. 具体使用2.1 数据集中数据的读取

        由于数据集中的数据已经被我们转换成了tensor型,我们用dataset[0]输出第一张图片,使用shape属性输出tensor类型的大小,target代表图片的标签。 

img,target = test_dataset[0]print(img.shape,target)

        可以看到图片有RGB3个通道,大小为32*32,target为3。

2.2 DataLoader中数据的读取

        在dataset中,每一个对象元组由一张图片对象img和一个标签target组成;

        而dataloader中会分别对一个批次中的图片和标签进行打包,因此dataloader中,每一个对象由元组由batchsize张图片对象imgs和batchsize个标签targets组成。

对一个批次中的所有图片对象进行打包,形成一个对象,我们叫它imgs对一个批次中所有的标签进行打包,形成一个对象,我们叫它targets

        我们需要通过for循环来取出loader中的对象,loader中的对象个数=数据集中对象个数/batch_size,故应为10000/4=2500个对象。

        核心代码:

for data in test_dataloader: imgs,targets = data print(imgs.shape) print(targets) #导入数据集的包import torchvision.datasets#导入dataloader的包from torch.utils.data import DataLoaderfrom torch.utils.tensorboard import SummaryWriter#创建测试数据集test_dataset = torchvision.datasets.CIFAR10(root="./CIRFA10",train=False,transform=torchvision.transforms.ToTensor())#创建一个dataloader,设置批大小为4,每一个epoch重新洗牌,不进行多进程读取机制,不舍弃不能被整除的批次test_dataloader = DataLoader(dataset=test_dataset,batch_size=4,shuffle=True,num_workers=0,drop_last=False)#测试数据集中第一张图片对象img,target = test_dataset[0]print(img.shape,target)#打印数据集中图片数量print(len(test_dataset))#loader中对象for data in test_dataloader: imgs,targets = data print(imgs.shape) print(targets)#dataloader中对象个数print(len(test_dataloader))

        loader中的对象格式:

imgs的维度变成了4*3*32*32,即四张图片,每张图片3个通道,每张图片大小为32*32。targets里有4个target,分别是四张图片的target。pytorch初学笔记(六):DataLoader的使用(pytorch入门教程(非常详细))

       loader中的对象个数:

        2500个,数据集中图片个数为10000,10000/4=2500,验证正确。说明loader中数据按4个一组打包。 

3. 使用tensorboard可视化效果3.1 改变batchsize 

        修改数据集的batchsize为64,writer中调用的方法为add_images(),因为需要读取的图片有多张。

#导入数据集的包import torchvision.datasets#导入dataloader的包from torch.utils.data import DataLoaderfrom torch.utils.tensorboard import SummaryWriter#创建测试数据集test_dataset = torchvision.datasets.CIFAR10(root="./CIRFA10",train=False,transform=torchvision.transforms.ToTensor())#创建一个dataloader,设置批大小为64,每一个epoch重新洗牌,不进行多进程读取机制,不舍弃不能被整除的批次test_dataloader = DataLoader(dataset=test_dataset,batch_size=64,shuffle=True,num_workers=0,drop_last=False)writer = SummaryWriter("log")#loader中对象step = 0for data in test_dataloader: imgs,targets = data writer.add_images("loader",imgs,step) step+=1writer.close()

结果如下所示,可以看到一个step中有64张图片。

        但是我们发现step156时只取了16张图片,是因为10000张图片每次取64张是不能整除的,因此最后剩下了16张,单独放在最后一个step中,对最后剩余数量的图片进行保留是因为我们设置的drop_last=False。

 

3.2 改变drop_last

        如果我们改变drop_last=True,则不会保留最后的16张图片,会被舍弃,只保留能被整除的批次。

 

        结果如下所示,可以看到最后一步为155步,没了最后的16张图片,只保留了所有能整除的64的step。 

3.3 改变shuffle

        每一轮epoch之后就是分配完了一次数据,而shuffle决定了是否在新一轮epoch开始时打乱所有图片的属性进行分配。

        在代码中epoch就是最外层的循环,假设我们的epoch=2,即需要分配两次数据:

shuffle=TRUE代表第一轮循环结束后会打乱数据集中所有图片的顺序重新进行分配。shuffle=FALSE代表第一轮循环结束后不打乱数据集中所有图片的顺序,还是按原顺序进行分配。

3.3.1 shuffle=False时

#导入数据集的包import torchvision.datasets#导入dataloader的包from torch.utils.data import DataLoaderfrom torch.utils.tensorboard import SummaryWriter#创建测试数据集test_dataset = torchvision.datasets.CIFAR10(root="./CIRFA10",train=False,transform=torchvision.transforms.ToTensor())#创建一个dataloader,设置批大小为64,每一个epoch重新洗牌,不进行多进程读取机制,不舍弃不能被整除的批次test_dataloader = DataLoader(dataset=test_dataset,batch_size=64,shuffle=False,num_workers=0,drop_last=True)writer = SummaryWriter("log")#loader中对象for epoch in range(2): step = 0 for data in test_dataloader: imgs, targets = data writer.add_images("Epoch:{}".format(epoch), imgs, step) step += 1writer.close()

        可以看到epoch=0和epoch=1的每一个step中的图片都是分配的相同的,说明每一轮大循环开始前没有在数据集中重新打乱顺序。

3.3.2 shuffle=True时

       可以看到epoch=0和epoch=1的每一个step中的图片不同了,说明每一轮大循环开始前都在数据集中重新打乱了顺序。

参考资料 

系统学习Pytorch笔记三:Pytorch数据读取机制(DataLoader)与图像预处理模块(transforms)_翻滚的小@强的博客-CSDN博客_dataloader读取顺序

DataLoader的使用_哔哩哔哩_bilibili 

本文链接地址:https://www.jiuchutong.com/zhishi/289781.html 转载请保留说明!

上一篇:如何自己搭建一个ai画图系统? 从0开始云服务器部署novelai(如何自己搭建一个邮箱服务器)

下一篇:【UML】-- 顺序图练习题含答案(自动售货机、学生选课、提款机、购买地铁票、洗衣机工作)(uml中的顺序图由什么组成)

  • 猫耳怎么获得小鱼干(猫耳怎么小鱼干)

    猫耳怎么获得小鱼干(猫耳怎么小鱼干)

  • win10自带录屏保存在哪里(win10自带录屏怎么保存)

    win10自带录屏保存在哪里(win10自带录屏怎么保存)

  • 微信回执单号怎么查询(微信回执单号怎么查询进度)

    微信回执单号怎么查询(微信回执单号怎么查询进度)

  • 荣耀30手机卡槽的打开方法(荣耀30手机卡槽位置)

    荣耀30手机卡槽的打开方法(荣耀30手机卡槽位置)

  • 微信发文件多久可以撤回(微信发文件多久过期)

    微信发文件多久可以撤回(微信发文件多久过期)

  • 火绒安全服务异常,无法保障计算机安全(火绒安全服务异常无法启动)

    火绒安全服务异常,无法保障计算机安全(火绒安全服务异常无法启动)

  • 云米是小米的吗(云米是小米产品吗)

    云米是小米的吗(云米是小米产品吗)

  • 抖音发字卡怎么获得(抖音里发字的是怎么弄的)

    抖音发字卡怎么获得(抖音里发字的是怎么弄的)

  • 华为荣耀20Pro怎么开启录屏(华为荣耀20Pro怎么换闹钟铃声)

    华为荣耀20Pro怎么开启录屏(华为荣耀20Pro怎么换闹钟铃声)

  • 华为音乐怎么卸载(怎么能把华为音乐卸载)

    华为音乐怎么卸载(怎么能把华为音乐卸载)

  • peripheral是什么接口(peripheral是什么接口C)

    peripheral是什么接口(peripheral是什么接口C)

  • 什么是语法系统(语法系统包括)

    什么是语法系统(语法系统包括)

  • iqoo是vivo子公司吗(iqoo属于哪个公司)

    iqoo是vivo子公司吗(iqoo属于哪个公司)

  • 华为限制广告跟踪要不要打开(华为限制广告跟踪打开耗电吗)

    华为限制广告跟踪要不要打开(华为限制广告跟踪打开耗电吗)

  • 华为锁定设备有什么用(华为锁定设备有什么影响)

    华为锁定设备有什么用(华为锁定设备有什么影响)

  • 为什么airdrop搜不到(为什么airdrop搜不到我)

    为什么airdrop搜不到(为什么airdrop搜不到我)

  • oppo手机数据流量打开却不能用(oppo手机数据流量打开不能上网)

    oppo手机数据流量打开却不能用(oppo手机数据流量打开不能上网)

  • 手机hms是什么意思(手机上的hms core是什么意思可以关闭吗)

    手机hms是什么意思(手机上的hms core是什么意思可以关闭吗)

  • 哪些苹果平板可以用苹果笔(哪些苹果平板可以越狱)

    哪些苹果平板可以用苹果笔(哪些苹果平板可以越狱)

  • 手机辅助功能怎么关闭(手机辅助功能怎样找到助听器的位置)

    手机辅助功能怎么关闭(手机辅助功能怎样找到助听器的位置)

  • 滴滴投诉司机他知道吗(滴滴投诉司机他能知道吗)

    滴滴投诉司机他知道吗(滴滴投诉司机他能知道吗)

  • 华为畅享10上市时间(华为畅享10上市时间及价格)

    华为畅享10上市时间(华为畅享10上市时间及价格)

  • 经常访问怎么删除(怎样删掉经常访问)

    经常访问怎么删除(怎样删掉经常访问)

  • cesium是什么(cesium是什么元素)

    cesium是什么(cesium是什么元素)

  • 云闪付怎么申请退款(云闪付怎么申请购车补贴)

    云闪付怎么申请退款(云闪付怎么申请购车补贴)

  • 荣耀手环4标准版和nfc区别(荣耀手环4标准版 游泳)

    荣耀手环4标准版和nfc区别(荣耀手环4标准版 游泳)

  • xr为什么会黑屏(xr为什么黑屏转圈圈)

    xr为什么会黑屏(xr为什么黑屏转圈圈)

  • 收入纳税数据是什么意思
  • 如何查询纳税人状态是否正常
  • 购买债券的利息会计分录
  • 委托开发的定义
  • 已认证红冲需要退回发票吗
  • 转让房地产未完工项目增值税发票如何处理?
  • 施工单位对分包单位能罚款吗
  • 企业所得税季度纳税申报表 a类
  • 进项不够怎么避税
  • 营改增后企业要交哪些税
  • 为什么发票查验不出
  • 增值税普通发票怎么开
  • 事业单位开发成本占比
  • 公司注销报表怎么调
  • 网卡运行异常
  • 企业预收账款缴哪些税
  • 电脑qq音乐设置在哪里
  • php获取长度
  • RPDFLchr.exe - RPDFLchr是什么进程 有什么用
  • php integer
  • 增值税专用发票抵扣期限
  • 废旧物资销售收入
  • Vant UI 中 van-collapse 下拉折叠面板如何默认展开第一项
  • 利用漏洞每天获利万元
  • Yii1.1中通过Sql查询进行的分页操作方法
  • javafiles
  • 苗木增值税税率
  • 跨年专票红冲步骤
  • 托收的收款人是谁
  • 差额征税可以开专票抵扣吗
  • 企业开办期间费用需要开发票吗
  • 机关事业单位体育协会举办体育赛事活动应当
  • 增值税普通发票查询
  • 上级拨付的债券怎么做账
  • 出口报关金额怎么算
  • 汇兑损益计入营业外收入吗
  • 公司租用员工车辆维修费能报销吗
  • 建筑企业包工包料业务的发票开具和涉税处理
  • 跨年多计提的工资如何处理
  • 小规模纳税人开专票税率是多少?
  • 培训公司会计账务处理
  • 冲减多计提的工资摘要怎么写
  • 先开票后发货是什么意思
  • 本年利润为什么是负数
  • 哪些发票可以报账
  • 进项做成了销项怎么调账
  • 试运行收入冲减哪个项目
  • 没有关联企业怎么选不了否
  • access数据库sql语言
  • 如何在境外银行开户
  • sql操作方法
  • windows蓝屏代码大全及解决方案
  • mac截图快捷键设置
  • linux网络管理及应用
  • 用u盘安装ubuntu
  • 在xp系统中设置u盘启动
  • win8删除所有内容并重新安装windows
  • centos最小化安装步骤
  • movie是什么文件
  • windows8启动管理器
  • 电脑自带的groove音乐用不了
  • ExtJS 2.0实用简明教程 之Ext类库简介
  • cocos屏幕适配方案
  • pycharm如何使用
  • js实现apply函数
  • python数据可视化课后题答案
  • unity克隆物体
  • vue3目录解析
  • Python中http请求方法库汇总
  • python爬虫系统
  • python解析excel文档
  • js弹出div出现遮罩层
  • jquery控制元素的显示与隐藏
  • js触发select下拉列表
  • jQuery基本选择器总结
  • 下载重庆税务官方app
  • 如何做好税收工作推动税收事业创新发展
  • 个体税务怎么查询
  • 南通国税电子税务局
  • 合伙企业的税收较高
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设