待处理推文列表

2024-04-26 14:21:28 发布

您现在位置:Python中文网/ 问答频道 /正文

我目前正在做这个数据科学的问题,我不断遇到一个问题,当我试图循环通过每一个tweet,它存储在一个过滤的tweet列表,这意味着不发送到一个新的功能,以进一步清理

k1\u tweets\u filtered只是一个删除了少于20个字符的tweets的列表。我现在要做的是将列表发送到另一个函数以进一步处理,但它只做1条tweet。搜索twitter时,列表已被占用

问题是它只在第一条推特上这么做,其他什么都没有。我需要它来处理列表中的每一条推文。看一下过滤后的k1的len,它的512然后len只显示14。也许我的循环错了

谢谢你的帮助

代码:

k1_tweets_processed = []
for tweet in k1_tweets_filtered:
    k1_tweets_processed = pre_process(tweet_k1)
def pre_process(doc):
    doc = doc.lower()
    # getting rid of non ascii codes
    doc = remove_non_ascii(doc)

    # replacing URLs
    url_pattern = "http://[^\s]+|https://[^\s]+|www.[^\s]+|[^\s]+\.com|bit.ly/[^\s]+"
    doc = re.sub(url_pattern, 'url', doc) 

    punctuation = r"\(|\)|#|\'|\"|-|:|\\|\/|!|\?|_|,|=|;|>|<|\.|\@"
    doc = re.sub(punctuation, ' ', doc)

    return [w for w in doc.split() if len(w) > 2]

它可以很好地为一个tweet,但我正试图把整个名单发送给它的每一个tweet在它被正确处理。最后的列表应该让每一条tweet都得到正确的处理,而不仅仅是前1条


Tags: inurl列表fordoclenasciik1
1条回答
网友
1楼 · 发布于 2024-04-26 14:21:28

看起来您正在将列表的值设置为函数的输出。相反,您需要在for循环中使用类似这样的内容添加到列表中:

for tweet in k1_tweets_filtered:   
    k1_tweets_processed.append(pre_process(tweet))

如果答案有帮助,请接受

相关问题 更多 >