如何使用torchtext拆分数据集?

2024-06-12 00:48:33 发布

您现在位置:Python中文网/ 问答频道 /正文

我一直在关注github的情绪分析。作者一直在使用torchtext中的内置数据集

我的问题是,现在我想用我自己最近下载的数据集来尝试他在教程中所做的事情,但我不知道怎么做

他一直在使用:

TEXT = data.Field(tokenize = 'spacy',
                  tokenizer_language = 'en_core_web_sm')

LABEL = data.LabelField()

train_data, test_data = datasets.TREC.splits(TEXT, LABEL, fine_grained=False)

train_data, valid_data = train_data.split(random_state = random.seed(SEED))

我已经将csv文件导入到一个数据框中,并清除了冗余和空行之类的内容,然后我创建了TEXTLABEL变量,但是接下来我该怎么做呢?我怎样才能像他那样分割数据集


Tags: 数据textgithubfielddatatrain教程random