比较字符串，若数据帧记录匹配一次，则继续下一行

df = pd.DataFrame({'item_descrip': ['ebc root beer single', 'yic yac big pack freshmint', 'froggy jumbo flakes', 'jumbo tart warmer', 'beer jerky' ] })

| | item_descrip | unbranded | |---:|:-----------------------------------|:-----------------------------------| | 0 | ebc root beer single | root beer single | | 1 | yic yac big pack freshmint singles | big pack freshmint singles | | 2 | froggy jumbo flakes | jumbo flakes | | 3 | jumbo tart warmer | tart warmer | | 4 | beer jerky | jerky |

1条回答

网友

1楼 · 发布于 2024-06-01 00:15:15

免责声明：我是trrex的作者

如果您关心性能，请使用trrex：

import pandas as pd
import trrex as tx

df = pd.DataFrame({'item_descrip': ['ebc root beer single',
                                    'yic yac big pack freshmint',
                                    'froggy jumbo flakes',
                                    'jumbo tart warmer',
                                    'beer jerky'
                                    ]
                   })

brand_list = ['ebc', 'yic yac', 'beer', 'jumbo', 'tart', 'froggy']

df['unbranded'] = df['item_descrip'].str.replace(tx.make(brand_list), '', n=1)
print(df)

输出

                 item_descrip            unbranded
0        ebc root beer single     root beer single
1  yic yac big pack freshmint   big pack freshmint
2         froggy jumbo flakes         jumbo flakes
3           jumbo tart warmer          tart warmer
4                  beer jerky                jerky

函数make将构建一个trie regex。为了更好地理解正在发生的事情，make生成以下正则表达式：

\b(?:froggy|tart|beer|yic yac|jumbo|ebc)\b

参数n=1意味着模式将只被替换一次，从documentation：

n int, default -1 (all)
Number of replacements to make from start.

相关问题更多 >

编程相关推荐

热门问题

热门文章