torchtext入门教程，轻松玩转文本数据处理

2024年1月13日 231次阅读来源: Lee

用深度学习做nlp也有一段时间了，熟悉这块内容的同学都知道，实践算法的时候，写模型是个简单的事，最麻烦的是数据处理，数据处理不仅会浪费我们大部分时间，而且会消耗很大的计算资源，浪费人力物力。今年开始接触pytorch，简洁的API，动态图，更加灵活的编写模式，诸多优点不用多说。最近尝试使用torchtext工具，这里想先说明的是，torchtext并不是pytorch所独有的，使用其它深度学习框架，torchtext仍然可以使用。但是比较麻烦的是，并没有很好很全面的torchtext教程，给同学们入门造成了一定麻烦，这也是我写这篇文章的目的。

0.首先整体介绍一下torchtext的组件。

torchtext包含以下组件：

Field :主要包含以下数据预处理的配置信息，比如指定分词方法，是否转成小写，起始字符，结束字符，补全字符以及词典等等

Dataset :继承自pytorch的Dataset，用于加载数据，提供了TabularDataset可以指点路径，格式，Field信息就可以方便的完成数据加载。同时torchtext还提供预先构建的常用数据集的Dataset对象，可以直接加载使用，splits方法可以同时加载训练集，验证集和测试集。

Iterator : 主要是数据输出的模型的迭代器，可以支持batch定制

1. Field

Field 包含一写文本处理的通用参数的设置，同时还包含一个词典对象，可以把文本数据表示成数字类型，进而可以把文本表示成需要的tensor类型

以下是Field对象包含的参数：

sequential: 是否把数据表示成序列，如果是False, 不能使用分词默认值: True.

use_vocab: 是否使用词典对象. 如果是False 数据的类型必须已经是数值类型. 默认值: True.

init_token: 每一条数据的起始字符默认值: None.

eos_token: 每条数据的结尾字符默认值: None.

fix_length: 修改每条数据的长度为该值，不够的用pad_token补全. 默认值: None.

tensor_type: 把数据转换成的tensor类型默认值: torch.LongTensor.

preprocessing:在分词之后和数值化之前使用的管道默认值: None.

postprocessing: 数值化之后和转化成tensor之前使用的管道默认值: None.

lower: 是否把数据转化为小写默认值: False.

tokenize: 分词函数. 默认值: str.split.

include_lengths: 是否返回一个已经补全的最小batch的元组和和一个包含每条数据长度的列表 . 默认值: False.

batch_first: Whether to produce tensors with the batch dimension first. 默认值: False.

pad_token: 用于补全的字符. 默认值: “<pad>”.

unk_token: 不存在词典里的字符. 默认值: “<unk>”.

pad_first: 是否补全第一个字符. 默认值: False.

重要的几个方法：

pad(minibatch): 在一个batch对齐每条数据

build_vocab(): 建立词典

numericalize(): 把文本数据数值化，返回tensor

简单的栗子如下，建一个Field对象

TEXT = data.Field(tokenize=data.get_tokenizer('spacy'), 
                  init_token='<SOS>', eos_token='<EOS>',lower=True)

2.Dataset

torchtext的Dataset是继承自pytorch的Dataset，提供了一个可以下载压缩数据并解压的方法（支持.zip, .gz, .tgz）

splits方法可以同时读取训练集，验证集，测试集

TabularDataset可以很方便的读取CSV, TSV, or JSON格式的文件，例子如下：

train, val, test = data.TabularDataset.splits(
        path='./data/', train='train.tsv',
        validation='val.tsv', test='test.tsv', format='tsv',
        fields=[('Text', TEXT), ('Label', LABEL)])

加载数据后可以建立词典，建立词典的时候可以使用与训练的word vector

TEXT.build_vocab(train, vectors="glove.6B.100d")

3. Iterator

Iterator是torchtext到模型的输出，它提供了我们对数据的一般处理方式，比如打乱，排序，等等，可以动态修改batch大小，这里也有splits方法可以同时输出训练集，验证集，测试集

参数如下：

dataset: 加载的数据集

batch_size: Batch 大小.

batch_size_fn: 产生动态的batch大小的函数

sort_key: 排序的key

train: 是否是一个训练集

repeat: 是否在不同epoch中重复迭代

shuffle: 是否打乱数据

sort: 是否对数据进行排序

sort_within_batch: batch内部是否排序

device: 建立batch的设备 -1:CPU ；0,1 …：对应的GPU

使用方式如下：

train_iter, val_iter, test_iter = data.Iterator.splits(
        (train, val, test), sort_key=lambda x: len(x.Text),
        batch_sizes=(32, 256, 256), device=-1)

4.其他

torchtext提供常用文本数据集，并可以直接加载使用：

train,val,test = datasets.WikiText2.splits(text_field=TEXT)

现在包含的数据集包括：

Sentiment analysis: SST and IMDb
Question classification: TREC
Entailment: SNLI
Language modeling: WikiText-2
Machine translation: Multi30k, IWSLT, WMT14

完整例子如下，短短几行就把词典和数据batch做好了。

import spacy
import torch
from torchtext import data, datasets
spacy_en = spacy.load('en')

def tokenizer(text): # create a tokenizer function
    return [tok.text for tok in spacy_en.tokenizer(text)]

TEXT = data.Field(sequential=True, tokenize=tokenizer, lower=True, fix_length=150)
LABEL = data.Field(sequential=False, use_vocab=False)
train, val, test = data.TabularDataset.splits(
        path='./data/', train='train.tsv',
        validation='val.tsv', test='test.tsv', format='tsv',
        fields=[('Text', TEXT), ('Label', LABEL)])
TEXT.build_vocab(train, vectors="glove.6B.100d")
train_iter, val_iter, test_iter = data.Iterator.splits(
        (train, val, test), sort_key=lambda x: len(x.Text),
        batch_sizes=(32, 256, 256), device=-1)
vocab = TEXT.vocab

    原文作者：Lee
    原文地址: https://zhuanlan.zhihu.com/p/31139113
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。