如何过滤Pandas中第一个出现的中文字符并将其放入另一列

import pandas as pd df = pd.DataFrame({"ID": [1,2,3,4,5], "eng_mand" :["後山 4.7·3 reviews Community Center 竹杉園休閒農場", "Taipei City 台北市Taiwan", "綠山谷海芋園餐廳 3.8·52 reviews", "名陽匍休閒農莊minyangpu大賞園", "Menghuanhu"]})

ID eng_mand 0 1 後山 4.7·3 reviews Community Center 竹杉園休閒農場 1 2 Taipei City 台北市Taiwan 2 3 綠山谷海芋園餐廳 3.8·52 reviews 3 4 名陽匍休閒農莊minyangpu大賞園 4 5 Menghuanhu

ID eng_mand mandarin_char 0 1 後山 4.7·3 reviews Community Center 竹杉園休閒農場後山 1 2 Taipei City 台北市Taiwan 台北市 2 3 綠山谷海芋園餐廳 3.8·52 reviews 綠山谷海芋園餐廳 3 4 名陽匍休閒農莊minyangpu大賞園名陽匍休閒農莊 4 5 Menghuanhu

2条回答

网友

1楼 · 编辑于 2024-05-15 14:13:24

如有必要，使用^{}all chinese chars并将fillnafor replace NaN添加为空字符串：

df['mandarin_char'] = df['eng_mand'].str.extract(r'([\u4e00-\u9fff]+)').fillna('')
print (df)
   ID                                   eng_mand mandarin_char
0   1  後山 4.7·3 reviews Community Center 竹杉園休閒農場            後山
1   2                      Taipei City 台北市Taiwan           台北市
2   3                    綠山谷海芋園餐廳 3.8·52 reviews      綠山谷海芋園餐廳
3   4                        名陽匍休閒農莊minyangpu大賞園       名陽匍休閒農莊
4   5                                 Menghuanhu

网友

2楼 · 编辑于 2024-05-15 14:13:24

使用^{}并传递mandarin range的正则表达式：

In[14]:
df['mandarin_char'] = df['eng_mand'].str.findall('[\u4e00-\u9fff]+').str[0]
df

Out[14]: 
   ID                                   eng_mand mandarin_char
0   1  後山 4.7·3 reviews Community Center 竹杉園休閒農場            後山
1   2                      Taipei City 台北市Taiwan           台北市
2   3                    綠山谷海芋園餐廳 3.8·52 reviews      綠山谷海芋園餐廳
3   4                        名陽匍休閒農莊minyangpu大賞園       名陽匍休閒農莊
4   5                                 Menghuanhu           NaN

如果需要，可以对结果调用fillna('')来替换NaN。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章