如何将基于字典的pandas系列中的一组字符串替换为值作为列表？

input_df = pd.DataFrame([("haha too long didn't read and laught out loud :D"), ("laught-out loud so I couldnt too long; did not read"), ("what happened?")], columns=['text'])

3条回答

网友
1楼 · 编辑于 2024-04-26 22:13:43

下面是我将要做的：
import pandas as pd dct = {"LOL": ["laught out loud", "laught-out loud"], "TLDR": ["too long didn't read", "too long; did not read"] } input_df = pd.DataFrame([("haha too long didn't read and laught out loud :D"), ("laught-out loud so I couldnt too long; did not read")], columns=['text']) dct_inv = {} for key, vals in dct.items(): for val in vals: dct_inv[val]=key dct_inv def replace_text(input_str): for key, val in dct_inv.items(): input_str = str(input_str).replace(key, val) return input_str input_df.apply(replace_text, axis=1).to_frame()

网友
2楼 · 编辑于 2024-04-26 22:13:43

构建一个反向映射并将Series.replace与regex=True一起使用。你知道吗
mapping = {v : k for k, V in dct.items() for v in V} input_df['text'] = input_df['text'].replace(mapping, regex=True) print(input_df) text 0 haha TLDR and LOL :D 1 LOL so I couldnt TLDR
在哪里
print(mapping) {'laught out loud': 'LOL', 'laught-out loud': 'LOL', "too long didn't read": 'TLDR', 'too long; did not read': 'TLDR'}
要匹配完整单词，请为每个单词添加单词边界：
mapping = {rf'\b{v}\b' : k for k, V in dct.items() for v in V} input_df['text'] = input_df['text'].replace(mapping, regex=True) print(input_df) text 0 haha TLDR and LOL :D 1 LOL so I couldnt TLDR 2 what happened?
在哪里
print(mapping) {'\\bapp\\b': 'application', '\\blaught out loud\\b': 'LOL', '\\blaught-out loud\\b': 'LOL', "\\btoo long didn't read\\b": 'TLDR', '\\btoo long; did not read\\b': 'TLDR'}

网友
3楼 · 编辑于 2024-04-26 22:13:43

使用df.apply和自定义函数

例如：

import pandas as pd


def custReplace(value):
    dct  = {"LOL": ["laught out loud", "laught-out loud"],
        "TLDR": ["too long didn't read", "too long; did not read"]
        }

    for k, v in dct.items():
        for i in v:
            if i in value:
                value = value.replace(i, k)
    return value

input_df = pd.DataFrame([("haha too long didn't read and laught out loud :D"),
       ("laught-out loud so I couldnt too long; did not read")], columns=['text'])

print(input_df["text"].apply(custReplace))

输出：

0     haha TLDR and LOL :D
1    LOL so I couldnt TLDR
Name: text, dtype: object

或者

dct  = {"LOL": ["laught out loud", "laught-out loud"],
        "TLDR": ["too long didn't read", "too long; did not read"]
        }

dct = { "(" + "|".join(v) + ")": k for k, v in dct.items()}
input_df = pd.DataFrame([("haha too long didn't read and laught out loud :D"),
       ("laught-out loud so I couldnt too long; did not read")], columns=['text'])

print(input_df["text"].replace(dct, regex=True))

相关问题更多 >

编程相关推荐

热门问题

热门文章