torchtext0.14 实践手册(0.12版本同理)
admin
2024-03-16 05:35:08
0

文章目录

  • 版本变迁介绍
  • 实践手册
    • 构建词典
      • 0.9版本
      • 0.14版本
      • 总结
    • 构建迭代器
      • 0.9版本
      • 0.14版本
      • 总结
    • 使用预训练词向量
      • 0.9版本
      • 0.14版本
      • 总结

版本变迁介绍

torchtext的API有过两次较大变动:

  • 第一次是在0.9,将一些类库移入了legacy目录。对代码的影响是,import torchtext.data要改成import torchtext.legacy.data
  • 第二次是在0.12,将legacy目录移除,并提供了新的API。对代码的影响是,很多原本在legacy目录中的接口都废弃了,要重新构建代码逻辑。

实践手册

接下来,介绍使用tochtext0.14的各种步骤时的做法。本文会在介绍每一个做法时,对比两个版本下的具体代码,帮助读者更好地从旧版API的思维迁移到新API。

构建词典

假设输入是一个pands Dataframe对象train_df

train_df = pd.read_csv("processed_data/train.csv")

0.9版本

原本的做法如下。
首先创建Field

TEXT = data.Field(tokenize = 'spacy', include_lengths = True)
LABEL = data.LabelField(dtype = torch.float)fields = [('text',TEXT), ('label',LABEL)]

再创建torchtext Dataset。DataFrameDataset继承了torchtext.legacy.data.Dataset,其实现复制于github/lextoumbourou。

train_ds, val_ds = DataFrameDataset.splits(fields, train_df=train_df, val_df=valid_df)

最后,传入数据集为参数调用Field::build_vocab,就构建词典了。

TEXT.build_vocab(train_ds,max_size = MAX_VOCAB_SIZE,vectors = 'glove.6B.200d',unk_init = torch.Tensor.zero_)LABEL.build_vocab(train_ds)

0.14版本

现在讲0.14版本。先定义分词函数yield_tokens,它使用spacy分词器对pandas Dataframe的每一行作分词操作。

这里用了yield语法,不懂的百度一下。

import spacy
spacy_tokenizer = spacy.load("en_core_web_sm")def yield_tokens(data_df):for _, row in data_df.iterrows():yield [token.text for token in spacy_tokenizer(row.text)]

然后调用build_vocab_from_iterator,传入回调函数yield_tokens,就构建好词典了。

vocab = build_vocab_from_iterator(yield_tokens(train_df), min_freq=5, specials=['', ''])
vocab.set_default_index(vocab[""])

有了这个词典,可以将单词和序号之间互相转换了。尝试输出一下itos和stoi:

print(vocab.get_itos()[:10])
print(vocab.get_stoi()[""], vocab.get_stoi()[""], vocab.get_stoi()["the"])

得到如下输出

['', '', 'URL', 'the', '?', 'a', 'to', 'in', 'i', 'of']
0 1 3

总结

  • 原本做分词时,是Field内置spacy分词器,现在是手动调用spacy分词操作,还得提供分词函数
  • 原本是用torchtext的Dataset,现在是用pytorch的Dataset(之后会用到)
  • 原本构建词典时,要先创建Field,再调用Field::build_vocab。现在不用这么冗杂,直接调用build_vocab_from_iterator即可。

构建迭代器

0.9版本

在构建迭代器时,原本是用torchtext的迭代器data.BucketIterator

train_iterator, valid_iterator = data.BucketIterator.splits((train_ds, val_ds),batch_size = BATCH_SIZE,sort_within_batch = True,device = device)

它会尽可能让长度相近的句子放在一个batch。使用迭代器时,只需要for循环即可。

从batch读出text属性时,是两个参数:句子和它们的长度。这个tuple形式的返回值权且当做是特性吧。

for batch in train_iterator:text, text_lengths = batch.text...

0.14版本

在0.14版本里,读取数据只需要复用pytorch的原生接口Dataset。先定义一个DataFrameDataset,其实就是在pandas DataFrame上包了一层。复习Dataset接口可以先参考pytorch dataset dataloader。

class DataFrameDataset(Dataset):def __init__(self, content, label):self.content = contentself.label = labeldef __getitem__(self, index):return self.content[index], self.label[index]def __len__(self):return len(self.label)

然后定义train和valid数据集的Dataloader。传入参数有collate_batch函数,它会对每一批数据作预处理。该函数的实现比较自由,根据训练时的需要去实现即可,总之和原生的一样。

这里用到了python的partial语法,不懂的可以百度一下。

train_iter = DataFrameDataset(list(train_df['text']), list(train_df['target']))
train_loader = DataLoader(train_iter, batch_size=8, shuffle=True,collate_fn=partial(collate_batch, vocab=vocab, device=device))

这样,读取数据的时候,用for循环读出来就行。这里batch返回几个参数都由collate_batch的实现决定。

for batch in iterator:text, text_lengths, labels = batch

总结

在0.9版本里,必须定义data.BucketIterator才能读取数据。而到了0.14版本,只要复用pytorch原生的接口Dataset、DataLoader,并善用后者的collate_fn参数,就能读取批次数据了。

使用预训练词向量

为了做迁移学习,我们常常要用预训练的词向量,赋值给模型的词向量矩阵,完成初始化。torchtext提供了一些预训练的词库,比如Glove。在版本的变迁中,使用这些预训练向量的方法也在变化。

0.9版本

"使用预训练向量"原本创建词库时附带的功能。在调用Field::build_vocab构建词库之后,调用Field.vocab.vectors就能取到词库的向量矩阵了,然后就能赋值给模型:

pretrained_embeddings = TEXT.vocab.vectors
model.embedding.weight.data.copy_(pretrained_embeddings)

0.14版本

在0.14版本里,Field被移除了,在Vocab中也没找到vectors成员。但是,torchtext留了预训练词库(比如Glove),只要手动地读取向量,一行行地赋值到模型的词向量矩阵中,就能完成迁移学习的初始化了。

model = LSTM_net(INPUT_DIM,EMBEDDING_DIM,HIDDEN_DIM,OUTPUT_DIM,N_LAYERS,BIDIRECTIONAL,DROPOUT,PAD_IDX)...# 迁移学习glove预训练词向量
pretrained = torchtext.vocab.GloVe(name="6B", dim=200)
print(f"pretrained.vectors device: {pretrained.vectors.device}, shape: {pretrained.vectors.shape}")
for i, token in enumerate(vocab.get_itos()):model.embedding.weight.data[i] = pretrained.get_vecs_by_tokens(token)

这里有几处值得说明:

  • torchtext.vocab.GloVe是一个预训练词库,name=6B只是词库名前缀,dim=200代表希望加载向量长度为200的那个词库。如果想用其它名字的词库,可以自行百度一下。
  • vocab.get_itos()可以取得映射数组,完成序号->单词的映射。
  • pretrained.get_vecs_by_tokens(token)可以完成单词->词向量的映射。

总结

在0.9版本,当调用Field::build_vocab创建词库时,加载预训练词库的操作就顺带完成了。
到了0.14版本,预训练词库占用单独的接口,你需要显式地加载,再逐行赋值给模型的词向量矩阵。

0.14版本看起来麻烦一点,但代码并没有变得复杂,而且for循环效率其实不慢(因为0.9版本的实现里,Field也是用for循环从预训练词库读取向量,再赋值给成员矩阵的)

相关内容

热门资讯

【加密货币支持的规则扩大信托银... 【加密货币支持的规则扩大信托银行服务获得美国最终批准】美国银行业监管机构正在扩大贷款机构在国家信托牌...
覆铜板量价齐升 生益科技202... 面对每天上千份上市公司公告该看哪些?重大事项公告动辄几十页几百页重点是啥?公告里一堆专业术语不知道算...
3 个穴位,调帕金森,不费力也... 3 个穴位,调帕金森,不费力也不花钱。只要你手抖、肢体僵硬、走路不稳的时候,按这 3 个穴位,就能舒...
“以租代买”为何受青睐?“万物... 最近一段时间,在最长春节假期的带动下,我国的消费市场活力十足。然而,在“买买买”之外,也有些人把“租...
新一批香港互认基金获批 【导读】新一批香港互认基金获批 中国基金报记者 格林 中国基金报记者获悉,摩根亚洲股票高息基金、富达...
春节假期产销两旺 “白沙好物”... 2月27日,记者从白沙电商中心获悉,今年春节假期,在浓厚的节日消费氛围带动下,“白沙好物”市场持续火...
损失4万5,和解金4100多,... 【文/羽扇观金工作室 陶立烽】 损失将近4万5,和解金才4100多,亏的越多补偿越少?国投瑞银白银...
雷军直播新一代SU7门把手:增... 红星资本局2月28日消息 2月27日,小米创办人、董事长兼CEO雷军在小米汽车工厂里进行直播,与多位...
迎接50万亿存款迁徙|搬家的钱... 开栏语:一场规模高达50万亿的存款迁徙正蓄势待发。站在财富配置的历史拐点,如何审视这波天量资金的洪流...
大连航天医院费用公开透明|下肢... 大连航天医院静脉曲张专科学科带头人杨红东:下肢静脉曲张在人群中发病率大概在7%左右。下肢静脉曲张最主...
【锋行链盟】A轮融资流程及核心... A轮融资是创业公司发展的重要里程碑,通常发生在种子轮/天使轮之后、B轮之前。此时公司已完成产品验证(...
原创 未... 在快速变化的时代,把握趋势往往意味着抓住先机。本文将深入探讨十大关键发展趋势,它们不仅塑造着我们的生...
太突然!002855,71岁董... 每经记者|蔡鼎 每经编辑|何小桃 董兴生 2月27日晚间,捷荣技术(SZ002855,股价16.4...
原创 今... 2026年2月27日,你走进周大福金店,柜姐微笑着告诉你今日金价是每克1576元。 你或许觉得这个价...
致远互联2025年实现营收9.... 本报讯 (记者向炎涛)2月27日,北京致远互联软件股份有限公司(以下简称“致远互联”)发布2025年...
A股突发!600481,被证监... 【导读】双良节能因涉嫌信息披露误导性陈述等违法违规行为被立案 中国基金报记者 夏天 公司表示,目前...
高人预测:5年后,手持两套房以... 前几年,谁家要是两三套房,那简直就是“别人眼里的成功模板”。 过年亲戚一坐,有人开口就是:“早听我的...
刘强东雷军同框C位!中德交流排... 今年刘强东和雷军同框的画面好像有点多哦。 在2月25号下午的中德经济顾问委员会座谈会上,刘强东和雷军...
万达20亿元转让上海颛桥万达广... 财联社2月27日电,记者从独立信源处获悉,万达以20.48亿元的价格出售了旗下位于上海的颛桥万达广场...
德邦基金“大V带货”风波后,8... 作者 | 郑理、刘银平 来源 | 独角金融 2月14日,德邦基金一纸公告,揭开了公司管理层的重要调整...