Pytorch中的torch.utils.data模块
创始人
2025-06-01 13:58:57
0

文章目录

    • 数据集的创建和导入
      • 1.Dataset()的使用方法
      • 2.TensorDataset()的使用方法
      • 3.Dataloader()的使用方法

torch.utils.data 是 Pytorch 中用于加载和预处理数据的模块。它提供了用于创建数据集和数据加载器的类,以便更轻松地处理大型数据集并在训练过程中使用它们。

以下是该模块中的一些重要类:

  • Dataset:抽象类,代表了一个数据集。为了使用该类,需要创建一个自定义类并实现 lengetitem 方法来返回数据集的大小和给定索引处的数据。
  • TensorDatasetDataset 类的子类,用于在 Pytorch 张量上创建数据集。
  • DataLoader:用于批量加载数据的迭代器。它从给定的 Dataset中加载数据并提供一些方便的功能,例如打乱数据、并行加载和自动批量大小调整等。
  • SubsetDataset 类的子类,表示一个数据集的子集。它可以用来对数据进行分割,例如将数据集分成训练集和测试集。
  • random_split:用于将数据集分割成两个子集的函数。可以指定分割的大小或将其分成相等大小的两个子集。

此外,torch.utils.data 还提供了一些转换函数,例如 TransformsCollateFn,用于在加载数据时对数据进行转换和聚合。

使用 torch.utils.data 模块可以方便地处理大型数据集,并可以与 Pytorch 中的模型训练和推理过程无缝集成。

数据集的创建和导入

1.Dataset()的使用方法

torch.utils.data.Dataset 是一个抽象类,代表了一个数据集,它提供了以下两个方法:

  • __len__(self):返回数据集的大小。
  • __getitem__(self, idx):返回给定索引处的数据。

为了使用 Dataset 类,需要创建一个自定义类并实现上述两个方法。这个自定义类通常会使用构造函数来读取数据并存储在内存中,以便在调用 __getitem__ 方法时可以快速返回对应索引处的数据。

下面是一个使用 Dataset 类加载图像数据集的示例:

import torch
from torch.utils.data import Datasetclass ImageDataset(Dataset):def __init__(self, file_paths, transform=None):self.file_paths = file_pathsself.transform = transformdef __len__(self):return len(self.file_paths)def __getitem__(self, idx):# 读取图像文件并将其转换为张量img = Image.open(self.file_paths[idx]).convert('RGB')img = transforms.ToTensor()(img)# 可选:应用数据转换if self.transform:img = self.transform(img)return img

在上述示例中,我们创建了一个名为 ImageDataset 的自定义类,该类用于加载图像数据集。该类的构造函数接受一个文件路径列表和一个可选的数据转换函数。在 __getitem__ 方法中,我们读取给定索引处的图像文件并将其转换为张量。如果指定了数据转换函数,则应用该函数来进一步处理数据。在 __len__ 方法中,我们返回数据集的大小。

2.TensorDataset()的使用方法

TensorDatasetDataset 类的一个子类,用于在 Pytorch 张量上创建数据集。它可以方便地将多个张量打包为一个数据集,并在模型训练期间使用。

下面是一个使用 TensorDataset 类创建数据集的示例:

import torch
from torch.utils.data import TensorDataset# 创建 PyTorch 张量
x = torch.randn(100, 3, 32, 32)
y = torch.randint(0, 10, (100,))# 将张量打包为数据集
dataset = TensorDataset(x, y)

在上述示例中,我们首先创建了两个张量 x 和 y,分别表示输入和标签。然后,我们使用 TensorDataset 类将这两个张量打包为一个数据集对象。现在,我们可以使用 DataLoader 类将数据集对象转换为一个可迭代对象,并在模型训练期间使用它。

3.Dataloader()的使用方法

torch.utils.data.DataLoader 是一个 Pytorch 中用于批量加载数据的工具类。它可以将自定义数据集(如 torch.utils.data.Datasettorch.utils.data.TensorDataset)转换为一个可迭代对象,并支持多线程和批量加载等功能。

torch.utils.data.DataLoader 类的构造函数有许多可用参数,以下是一些主要的参数:

  • dataset:必需参数,指定要加载的数据集。
  • batch_size:每个批次包含的样本数,默认为 1。
  • shuffle:是否对数据进行随机化处理,默认为 False。
  • sampler:指定从数据集中采样样本的策略,若指定此参数,则 shuffle 参数无效。
  • batch_sampler:指定从数据集中采样批次的策略,若指定此参数,则 batch_size 和 shuffle 参数无效。
  • num_workers:用于数据加载的子进程数,默认为 0(单线程)。对于Window系统这个参数只能是0。
  • collate_fn:用于对样本进行自定义处理的函数,例如对不同长度的样本进行填充等。一般不使用这个参数。
  • pin_memory:是否将数据加载到固定内存中,默认为 False。设置为True可以提高数据加载速度,但是也会占用更多的内存,并且只对于GPU计算有用。建议在使用GPU进行计算时都将该参数设置为True。
  • drop_last:如果数据集大小不能被批次大小整除,是否将最后一个小于批次大小的批次丢弃,默认为 False。
  • timeout:数据加载超时时间,默认为 0,表示无限等待。

下面是一个使用 DataLoader 类加载数据集的示例:

from torch.utils.data import DataLoader# 创建自定义数据集
dataset = MyDataset(...)# 创建 DataLoader 对象
dataloader = DataLoader(dataset, batch_size=32, shuffle=True, num_workers=4)

在上述示例中,我们首先创建了一个自定义数据集 MyDataset,然后使用 DataLoader 类将其转换为一个可迭代对象 dataloader。我们指定了批量大小为 32,将 shuffle 标志设置为 True,以在每个训练周期中对数据进行随机化处理。我们还将 num_workers 参数设置为 4,以使用 4 个工作线程来并行加载数据。

相关内容

热门资讯

多家银行细化提振消费“路线图”... 本报记者 杨洁 今年以来,一系列扩内需、促消费政策密集出台,市场活力不断激发。《证券日报》记者了解到...
基建概念股早盘走高,基建相关E... 基建概念股早盘走高,中国电建涨停,中国能建涨超9%,中国交建涨超5%。 受重仓股上涨影响,基建相关E...
明星基金经理二季度调仓曝光,多... 2025年二季报逐步披露,多位明星基金经理最新调仓情况浮出水面。 今年以来,创新药板块表现持续亮眼,...
原创 二... “卖房比卖白菜还难”,以前这听着就是个搞笑段子,现在却成了活生生的现实!你瞧瞧,电梯里、楼道间,还有...
兆威机电赴港IPO,近两年半员... 瑞财经 严明会 近日,据港交所,深圳市兆威机电股份有限公司(以下简称“兆威机电”)向港交所提交上市申...
越卖越贵,中产都开始“抢冰块”... 作者:陈澄 编辑:安迪 在经历过雪糕刺客、防晒衣刺客后,许多人发现,今年夏季的新刺客,似乎轮到了冰块...
晨丰科技:向全资子公司北网智算... 晨丰科技晚间公告,公司拟以自有资金9,000万元向全资子公司北网智算进行增资,增资后北网智算的注册资...
科创债发行规模超7600亿元,... 今年央行、中国证监会联合发布关于支持发行科创债有关事宜的公告,旨在通过创新金融工具进一步疏通科技企业...
泰福泵业关联并购:“牛散”家族... 2025年7月9日,主营水泵制造的泰福泵业(300992.SZ)宣布收购浙江南洋华诚科技股份有限公司...
A股特别提示(7-21):英伟... 来源:国金证券第5小时 新股:悍高集团 001221.SZ 1、国资央企援藏再升级。在国资央企助力西...
摩根基金管理(中国)胡迪旗下摩... 证券之星消息,7月21日摩根基金管理(中国)旗下胡迪 何智豪管理的摩根标普港股通低波红利交易型开放式...
争议升级!特朗普起诉《华尔街日... 【环球时报驻美国特约记者 戴润芝 环球时报特约记者 于文】美国总统特朗普18日起诉《华尔街日报》,索...
宋清辉:经常喜欢抛头露面的表演... 宗庆后事件以及其他案例的启示在于,在信息爆炸的时代,任何刻意塑造的“完美人设”都如同沙堡,经不起时间...
贴心服务赢得客户赞誉 本报晋城讯 近年来,阳城农商银行始终坚守金融为民初心,以“我为群众办实事”为行动指南,持续推进金融服...
正裕工业:拟定增募资不超4.5... 正裕工业晚间公告称,公司拟定增募资不超过4.5亿元,扣除发行费用后的净额用于正裕智造园(二期)项目及...
《2024年全国海水利用报告》... 中国日报7月19日电(记者 赵磊)记者从自然资源部获悉,近日,该部海洋战略规划与经济司发布《2024...
重磅揭晓!2025国内舆情公关... 在数字化浪潮与全球化竞争交织的2025年,舆情公关已从“幕后灭火”跃升为品牌价值增长的核心引擎。今日...
“华尔街收购之王”KKR入局大... 《科创板日报》7月18日讯(记者 徐赐豪),消费并购热升温。 市场监管总局7月16日发布的《2025...
响应即时零售行业自律倡议!淘宝... 来源:新浪科技 新浪科技讯 7月18日下午消息,响应即时零售行业自律倡议,淘宝、饿了么今日双双发文称...
和讯投顾韩东峰:大盘本周消化上... 今天上证指数继续小幅震荡攀升,本周市场状态可以用两句话来概括。第一,针对上周五的上影线,市场进行了消...