我试图在TF1.x中为TPU实现一个LSTM文本分类模型,而不启用急切执行。然而,我就是找不到一种正确的方法来准备数据,以便将其提供给模型。我遵循这两个教程,tutorial 1获取数据集,tutorial 2使用TPU在GoogleColab上运行它。
因为它是文本分类,所以我必须使用tf.Tokenizer()
对输入文本标记进行编码。下面是我的做法-
tokenizer = tfds.features.text.Tokenizer()
vocabulary_set = set()
my_iterator = all_labeled_data.make_initializable_iterator()
text_tensor, _ = my_iterator.get_next()
with tf.Session() as sess1:
sess1.run(my_iterator.initializer)
try:
while True:
text_string = sess1.run(text_tensor)
#print text_string
some_tokens = tokenizer.tokenize(text_string)
vocabulary_set.update(some_tokens)
except tf.errors.OutOfRangeError:
pass
all_labeled_data
由(例如,标签)对组成。我确信我在访问数据时犯了一个错误。如果您有任何意见/建议,请随时提出。如果您想查看整个代码,那么它就是here。另外,在启用了python2和TPU的情况下,可以在googlecolab上运行它。
谢谢大家!
目前没有回答
相关问题 更多 >
编程相关推荐