像BERT Tokenizer那样用词拆分句子?我试图在我的文本中本地化BERT tokenizer的所有[UNK]标记。一旦我得到了UNK标记的位置,我需要确定它属于哪个单词。为此,我尝试使用words\u id()或token\u to\u w ...2024-05-19 已阅读: n次
Python单调增加内存使用(泄漏?)我使用这个简单的代码,观察内存使用的单调增长。我用这个小模块把数据转储到磁盘上。我观察到unicode字符串会发生这种情况,而不是整数,有什么地方我做错了吗?在 当我这样做的时候: >>& ...2024-05-19 已阅读: n次