我目前正在做这个数据科学的问题,我不断遇到一个问题,当我试图循环通过每一个tweet,它存储在一个过滤的tweet列表,这意味着不发送到一个新的功能,以进一步清理
k1\u tweets\u filtered只是一个删除了少于20个字符的tweets的列表。我现在要做的是将列表发送到另一个函数以进一步处理,但它只做1条tweet。搜索twitter时,列表已被占用
问题是它只在第一条推特上这么做,其他什么都没有。我需要它来处理列表中的每一条推文。看一下过滤后的k1的len,它的512然后len只显示14。也许我的循环错了
谢谢你的帮助
代码:
k1_tweets_processed = []
for tweet in k1_tweets_filtered:
k1_tweets_processed = pre_process(tweet_k1)
def pre_process(doc):
doc = doc.lower()
# getting rid of non ascii codes
doc = remove_non_ascii(doc)
# replacing URLs
url_pattern = "http://[^\s]+|https://[^\s]+|www.[^\s]+|[^\s]+\.com|bit.ly/[^\s]+"
doc = re.sub(url_pattern, 'url', doc)
punctuation = r"\(|\)|#|\'|\"|-|:|\\|\/|!|\?|_|,|=|;|>|<|\.|\@"
doc = re.sub(punctuation, ' ', doc)
return [w for w in doc.split() if len(w) > 2]
它可以很好地为一个tweet,但我正试图把整个名单发送给它的每一个tweet在它被正确处理。最后的列表应该让每一条tweet都得到正确的处理,而不仅仅是前1条
看起来您正在将列表的值设置为函数的输出。相反,您需要在for循环中使用类似这样的内容添加到列表中:
如果答案有帮助,请接受
相关问题 更多 >
编程相关推荐