为什么我的pandas dataframe在更改值时没有更新它的值？

import pandas as pd import re import string df = pd.read_csv('sample-tweets.csv', names=['Tweet_Date', 'User_ID', 'Tweet_Text', 'Favorites', 'Retweets', 'Tweet_ID']) sum_df = df[['User_ID', 'Tweet_ID', 'Tweet_Text']].copy() sum_df.set_index(['User_ID']) # print sum_df tweet_text = df.ix[:, 2] print type(tweet_text) # efficiency could be im proved by using translate method # regex = re.compile('[%s]' % re.escape(string.punctuation)) for tweet in tweet_text: tweet = re.sub('https://t.co/[a-zA-Z0-9]*', "", tweet) tweet = re.sub('@[a-zA-Z0-9]*', '', tweet) tweet = re.sub('#[a-zA-Z0-9]*', '', tweet) tweet = re.sub('$[a-zA-Z0-9]*', '', tweet) tweet = ''.join(i for i in tweet if not i.isdigit()) tweet = tweet.replace('"', '') tweet = re.sub(r'[$\[].*?[$\]]', '', tweet) # takes out everything between parentheses also, fix this # gets rid of all punctuation and emoji's tweet = "".join(l for l in tweet if l not in string.punctuation) tweet = re.sub(r'[^\x00-\x7F]+',' ', tweet) # gets ride of all extra spacing tweet = tweet.lower() tweet = tweet.strip() tweet = " ".join(tweet.split()) count = count + 1 # print tweet print tweet_text

2条回答

网友

1楼 · 编辑于 2024-05-12 13:52:09

发生这种情况的原因是tweet_text对于初学者来说是列df.ix[:, 2]的副本。第二，这不是pandas迭代Series的方式——应该使用apply()。在

要更新代码，将进入循环的所有内容都转换为函数：

def parse_tweet(tweet):
    ## everything from loop goes here
    return tweet

然后，代替：

^{pr2}$

执行：

df.iloc[:, 2] = df.iloc[:, 2].apply(parse_tweet)

顺便说一句，不要使用ix索引器，因为它已经贬值，并将在熊猫的未来版本中删除。在

网友

2楼 · 编辑于 2024-05-12 13:52:09

Python字符串是不可变的。您只是更改了变量tweet的属性值，但从未实际更新dataframe。在

您只需将更新后的值重新插入数据帧。简单修复示例：

for i, tweet in enumerate(tweet_text):
    tweet = re.sub('https://t.co/[a-zA-Z0-9]*', "", tweet)
    tweet = re.sub('@[a-zA-Z0-9]*', '', tweet)

    # ...

    # update dataframe
    df.ix[i, 2] = tweet

相关问题更多 >

编程相关推荐

热门问题

热门文章