伙计们,我有一个字符串,我正试图做一个ngram,但我有一个问题,当我做ngram = ngrams(raw_text.split(" "), n=1
输出为
[('come',), ('here,',), ('girl\noh,',), ('you',)....]
问题是,在我的字符串中,单词的排列方式如下:
come here, girl\noh, you want...
这意味着我的ngram比它需要的要大得多 那么我该怎么做才能得到这样一根弦呢
come here , girl \n oh , you ...
所以我的ngram要小一点 谢谢你们 希望你们今天过得愉快
编辑我现在意识到我正在使用一个分隔符,并已更改。。。所以\n问题消失了,但是我可以将单词拆分为一个包含标点符号的字符串吗?你知道吗
你的最终结果仍然不清楚:你想包括标点符号还是完全放弃它?假设您不需要标点符号,那么使用
re.split()
就很简单了:如果你想以一种更聪明的方式分开,这会很快变得复杂。我建议使用
nltk
工具箱,它提供了其他选项nltk.word_tokenize
:相关问题 更多 >
编程相关推荐