筛选并替换Pandas中的子字符串问题的回答

筛选并替换Pandas中的子字符串

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

<p>只筛选必要的行，对于它们，使用<a href="http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.replace.html" rel="nofollow noreferrer">^{<cd1>}</a>，这对性能更好，比如替换所有列而不进行筛选：</p> <pre><code>m = df['name'].str.contains('Al', na=False) df.loc[m, 'sport'] = df.loc[m, 'sport'].str.replace('large', 'L', regex=True) print (df) name sport 0 Bob tennis small 1 Jane football medium 2 Alice basketball L </code></pre> <hr/> <pre><code>#100 matched values from 30k df = pd.DataFrame({'name': ['Bob','Jane','alice'] * 9900 + ['Bob', 'Jane', 'Alice'] * 100, 'sport': ['tennis small','football medium', 'basketball large'] * 10000}) print (df) name sport 0 Bob tennis small 1 Jane football medium 2 alice basketball large 3 Bob tennis small 4 Jane football medium ... ... 29995 Jane football medium 29996 Alice basketball large 29997 Bob tennis small 29998 Jane football medium 29999 Alice basketball large [30000 rows x 2 columns] </code></pre> <pre><code>In [76]: %%timeit ...: m = df['name'].str.contains('Al') ...: df.loc[m, 'sport'] = df.loc[m, 'sport'].str.replace('large', 'L', regex=True) ...: ...: 14.6 ms ± 193 µs per loop (mean ± std. dev. of 7 runs, 100 loops each) In [77]: %%timeit ...: df.loc[df.name.str.contains('Al'), 'sport'] = df.sport.str.replace('large', 'L') ...: ...: 34.8 ms ± 254 µs per loop (mean ± std. dev. of 7 runs, 10 loops each) In [78]: %%timeit ...: df['sport'] = np.where(df['name'].str.contains('Al'), df['sport'].str.replace('large', 'L', regex=True), df['sport']) ...: ...: 35 ms ± 1.45 ms per loop (mean ± std. dev. of 7 runs, 10 loops each) </code></pre> <hr/> <pre><code>#10k matched values from 30k df = pd.DataFrame({'name': ['Bob', 'Jane','Alice'] * 10000, 'sport': ['tennis small', 'football medium', 'basketball large'] * 10000}) print (df) In [80]: %%timeit ...: m = df['name'].str.contains('Al') ...: df.loc[m, 'sport'] = df.loc[m, 'sport'].str.replace('large', 'L', regex=True) ...: ...: 22.2 ms ± 148 µs per loop (mean ± std. dev. of 7 runs, 10 loops each) In [81]: %%timeit ...: df.loc[df.name.str.contains('Al'), 'sport'] = df.sport.str.replace('large', 'L') ...: ...: 34 ms ± 118 µs per loop (mean ± std. dev. of 7 runs, 10 loops each) In [82]: %%timeit ...: df['sport'] = np.where(df['name'].str.contains('Al'), df['sport'].str.replace('large', 'L', regex=True), df['sport']) ...: ...: 34.9 ms ± 2.69 ms per loop (mean ± std. dev. of 7 runs, 10 loops each) </code></pre>

筛选并替换Pandas中的子字符串

1 个回答

相关Python问题