我试图简单地处理一些twitter数据,在这些数据集中,我想计算出数据集中产生的最频繁的单词。在
但是,我在第45行中一直收到以下错误:
IndexError Traceback (most recent call last) <ipython-input 346-f03e745247f4> in <module>()
43 for line in f:
44 parts = re.split("^\d+\s", line)
45 tweet = re.split("\s(Status)", parts[-1])[10]
46 tweet = tweet.replace("\\n"," ")
47 terms_all = [term for term in process_tweet(tweet)]
IndexError: list index out of range
我已经添加了我的完整代码,请有人建议。在
^{pr2}$
这些可能是有问题的线路。在
假设
parts
确实拆分了,并且有多个元素。拆分无法在line
中找到按字符串拆分的内容,因此parts
就等于[line]
。然后parts[1]
崩溃。在在第二行之前添加一个支票。打印
line
值以更好地了解发生了什么。在相关问题 更多 >
编程相关推荐